Главная              Рефераты - Информатика

Определение семантического каталога и его задачи - реферат

Андрей Иванов, «Ашманов и Партнеры»

Семантический каталог — это система выдачи осмысленных ответов на поисковые запросы пользователей. Семантика — раздел языкознания и логики, исследующий проблемы, связанные со смыслом, значением и интерпретацией лексических единиц. Слово «семантический» в применении к навигационному ресурсу подчеркивает, что для формирования ответа, прежде всего, важен смысл запроса. Семантический каталог, по проекту, является составной частью комплексного поискового сервиса, состоящего из индексирующей поисковой машины, тематического каталога и системы контекстной рекламы. Его задачи.

Обеспечить пользователям еще одну, принципиально новую возможность поиска — уточнение запроса при помощи выбора из предлагаемых готовых формулировок.

Поднять качество результатов поиска, выдаваемых поисковой машиной за счет добавления к ним ссылок из семантического каталога вплоть до полного вытеснения алгоритмических результатов, выдаваемых в ответ на нечеткие запросы.

Обеспечить дополнительный доход владельцам поискового портала.

Обеспечить создание сети, состоящей из большого количества специалистов (не являющихся штатными работниками поискового портала), которые будут постоянно следить за качеством поиска и предлагаемых в поисковой выдаче материалов, привлекать к участию в рекламных программах поискового портала новых рекламодателей и поддерживать постоянный приток денег от уже имеющихся клиентов.

Семантический каталог является системой, сводящей воедино ранее принципиально разные, разделяемые задачи поискового сервиса — обеспечение качества поиска и получение доходов от контекстной рекламы.

Фактически, это механизм контекстной рекламы, в котором главным критерием размещения рекламных материалов является их соответствие ожиданиям, которые пользователи предъявляют к результатам поиска.

Реклама и Информация

Любая гиперссылка является рекламой страницы, на которую она ведет. Это легко доказать для любого частного случая, которых тысячи. Обратное утверждение — «ссылка — не реклама» — доказать практически невозможно. Практикующееся сегодня смысловое разделение результатов, выдаваемых поисковой системой в ответ на запрос и привязанных к этому запросу, на «рекламу» и «информацию» — несостоятельно. Реальный критерий отличия: ссылки, за размещение которых поисковая система получила деньги — «реклама», бесплатные — «информация». Хотя и те, и другие являются результатом целенаправленных усилий владельцев сайтов по привлечению посетителей на свои ресурсы.

Принципы семантического каталога и механизм организации ответов в нем позволяют гармонично совместить эти два понятия, которые сегодня кажутся несовместимыми — Информацию и Рекламу.

Как ищут пользователи

Статистика поисковых запросов хорошо изучена. Она показывает, что почти 90% пользователей вводят в поисковики запросы, состоящие из одного или двух слов — «автомобиль», «работа» и т.п., т.е. заведомо нечеткие. Но целью каждого пользователя является не почитать «что-нибудь про автомобиль», «что-нибудь про работу» и т.п., а найти информацию, которая поможет решить проблему, актуальную в момент выполнения запроса.

Поисковая система в ответ на нечеткий запрос выдает адреса сайтов (страниц), релевантных запросу, и дальнейший поиск информации пользователь ведет уже, перейдя по одной из предложенных ссылок. Запрос «автомобиль» в конце поискового пути вполне может означать получение информации на тему вроде «ремонт автомобиля BMW». Большинство пользователей предпочитает искать по максимально «ленивой» схеме.

Как можно меньше задумываться над формулировкой запроса.

Как можно меньше набирать в поисковой форме.

Как можно меньше просматривать результатов поиска.

Как можно меньше щелкать по ссылкам в поиске нужной информации.

Но лень не избавляет пользователя от необходимости выполнять переходы по ссылкам на найденном c помощью поисковика сайте. Выбирая нужные ему меню (ссылки), пользователь уточняет область интересов своего поиска и доходит до конечной точки. Если необходимой информации не оказалось или она не удовлетворяет требованиям пользователя, он возвращается в поисковик, выбирает новый сайт, и снова проходит уточняющий путь по ссылкам.

Интерес пользователя в поиске как на первом, так и на втором сайте одинаков, но уточняющий путь пройден дважды, потому что начинается он от ссылки, выданной поисковой системой в ответ на нечеткий запрос. Если и на втором сайте не окажется нужной информации, пользователь в третий раз пойдет по тому же смысловому пути — как на очередном сайте «про автомобили» найти информацию о ремонте BMW. Либо будет вынужден переформулировать запрос. Семантический каталог позволяет перенести этот уточняющий тему путь с сайтов в поисковую систему. В таком случае, пользователь, один раз пройдя в поисковике по короткой цепочке уточняющих ссылок, получит набор ссылок на страницы, находящихся на разных сайтах. Но на каждой из предложенных страниц будет нужная пользователю конечная информация. Чем отличается этот «семантический путь» от путешествия по рубрикатору обычного тематического каталога, и каковы отличия семантического каталога от тематического?

Три «кита» семантического каталога

Семантический каталог опирается на три основных принципа.

Первый.

Любой желающий имеет возможность поставить ссылку на любую страницу в соответствие любому поисковому запросу. При этом аннотировать ссылку так, как считает нужным.

Владельцу сайта, рекламисту, веб-мастеру предоставляется право самостоятельно выбрать, в ответ на какие запросы пользователей он хочет показывать ссылки на страницы своего ресурса и оформить тексты этих ссылок наилучшим образом.

Любые права тесно связаны с обязанностями. В нашем случае обязанность того, кто ставит ссылку, — одна, это и второй принцип семантического каталога.

Ответ на поисковый запрос должен быть точным.

Ответ — это не только ссылка. Ответ состоит из двух частей:

описания (аннотации) ссылки в семантическом каталоге, которое показывается пользователю, задавшему соответствующий ответу запрос;

содержимого веб-страницы, на которую предлагается перейти пользователю.

Невозможно полностью формализовать понятие «точный ответ». Такие ответы возможны только для однозначных вопросов: «Назовите отчество отца великого русского поэта А. С. Пушкина?» — «Львович». Но 99,9% поисковых запросов неоднозначные, нечеткие. Такие запросы имеют несколько вариантов понимания, соответственно, несколько возможных ответов. Третий принцип семантического каталога.

Качество любого ответа оценивается, исходя из интересов пользователей.

Соответствие ответа смыслу запроса

Как решать вопрос, какой ответ «соответствует смыслу запроса», а какой «не соответствует»? Вопрос о смысле и значении — давняя головная боль философов (см. «Сумму технологии» Станислава Лема). Смысл невозможно однозначно формализовать, а значение невозможно точно оценить — все зависит от точки зрения оценивающего.

В нашем случае острота проблемы усиливается тем, что решения придется принимать не немногим философам-теоретикам, а десяткам, затем, сотням и, возможно, тысячам практиков, специалистов по Интернет-рекламе, действующим в интересах клиентов, но в условиях, что результаты их действий оценивают пользователи. Интернет дает возможность отойти от необходимости теоретической разработки строгих правил и в каждом конкретном случае пользоваться достаточно простым — опять же не формализуемым — алгоритмом оценки, который известен каждому и называется «здравый смысл».

Итак, у нас есть алгоритм оценки — здравый смысл, и есть точка опоры — пользователи. В качестве «соответствующего ответа» на произвольный запрос должен рассматриваться ответ, удовлетворяющий здравому смыслу пользователей, ищущих информацию. И «не соответствующий» запросу ответ — это ответ неадекватный. Какова связь между формулировкой запроса и ответом, ожидаемым пользователем? Чем руководствуются пользователи, выбирая ответы?

Ожидания пользователей

Выбирая ссылку, выданную в качестве ответа на нечеткий запрос, пользователь руководствуется одним из двух мотивов, которые мы можем назвать как

уточнение запроса в ответе,

обобщение запроса в ответе.

Уточнение запроса

Поиск, начинающийся с нечеткого запроса в поисковую систему, выглядит так.

Выбор ссылки из предлагаемых поисковиком результатов.

Уточняющий путь на сайте перехода.

Уточняющий путь происходит по навигационным ссылкам на сайте. Аналог уточняющего пути — поиск по рубрикатору тематического каталога. Т.е. одним из ожиданий пользователя от результатов поиска является быстрое нахождение нужной ему уточняющей ссылки, например, «Автомобили» — «Немецкие автомобили» — «BMW».

Обобщение запроса

Пользователь понимает, что он ищет сайты, на которых находится нужная ему информация. Поэтому вторым — альтернативным — мотивом выбора ссылки является утверждение, что на предлагаемом сайте есть большое количество информации по теме, определенной поисковым запросом — обобщение запроса, сведение воедино всех возможных вариантов его понимания. Оно обычно оформлено в виде заголовка ссылки, описания и/или сниппетов. Второе ожидание пользователя — найти в результатах поиска обобщающую ссылку, например, «Автомобили» — «Автомобильный портал», «Все об автомобилях».

Переходы по обобщающей и уточняющей ссылкам

Обобщающая ссылка — это прямое приглашение перейти на сайт и получить информацию, либо продолжить поиск, пользуясь навигационными инструментами сайта перехода. Уточняющая ссылка — фактически приглашение получить ответ на другой, более четкий запрос. Именно так должна быть организована информация в семантическом каталоге, все ответы делятся на обобщающие и уточняющие. Обобщающий ответ уводит пользователя из каталога, это внешняя ссылка, уточняющий ответ — это ссылка внутренняя, переход по ней покажет пользователю все ответы, сделанные на запрос, являющийся аннотацией уточняющей ссылки. Пример. Запрос «автомобили». Обобщающий ответ: «Auto.ru — автомобили в России | Информация по автомобилям всех марок с фотографиями и все, что связано с автомобилями». — ссылка на главную страницу сайта Auto.ru

Уточняющий ответ — «Немецкие автомобили» — ссылка на страницу с результатами поиска в семантическом каталога по запросу «немецкие автомобили». Обобщающие и уточняющие ссылки должны быть визуально разделены на два списка. Ранжирование в списке уточняющих ссылок — по популярности, чем больше переходов по уточняющей ссылке, тем она выше. Ранжирование в списке обобщающих ссылок — коммерческое.

Формальные правила установки связи «запрос — ответ»

Ставить «осмысленные» ответы — занятие нелегкое. Смысл прекрасно «прогибается» в сторону коммерческой выгоды, поэтому необходимы хотя бы нечеткие формальные правила допустимых и недопустимых ответов. Для обобщающих ответов.

Аннотация ссылки должна соответствовать запросу, в ответ на который она показывается. Информация на странице перехода должна соответствовать аннотации.

Аннотация не должна «расширять» смысл запроса. Пример: на запрос «аренда автомобилей» нельзя предложить «Продажа, покупка и аренда автомобилей».

Аннотация не должна «сужать» смысл запроса, для этого служат уточняющие ответы. Пример: на запрос «аренда автомобилей» нельзя в качестве обобщающей ссылки предложить «Типовой договор аренды автомобиля».

Для уточняющих ответов.

В уточняющем ответе не должно быть добавлено более одного нового свойства. Например, по запросу «автомобили» можно дать уточняющий ответ «аренда автомобилей». Но нельзя «аренда автомобилей с водителем» — добавлены два свойства — «аренда» и «водитель».

Список правил никогда не может быть объявлен конечным. Он может и должен дополняться на основе прецедентов. Главными правилами для поиска выхода в любом спорном случае являются интересы пользователя и здравый смысл.

Персонализация ответа и его качество

Сила семантического каталога в том, что он является открытой системой. Возможность устанавливать соответствие, связи, ссылки между вопросом и ответом, спросом и предложением есть у каждого. Это дает возможность привлечь к заполнению и ведению каталога десятки тысяч добровольцев, которые будут заинтересованы в том, чтобы ставить ссылки на собственные проекты, либо профессионально заниматься рекламой своих клиентов.

Но в открытости заключена и главная опасность для проекта. Известно очень много примеров недобросовестных приемов продвижения в поисковых системах и тематических каталогах, где нет жесткой модерации. В условиях, когда невозможно точно формализовать правомерность того или иного действия, ответственность за него берет на себя человек, личность. Именно такой принцип должен быть реализован в семантическом каталоге — персональная ответственность за каждую размещенную ссылку. Каждый ответ характеризует перед пользователем не только каталог в целом, но и человека, кто этот ответ разместил. Отсюда очевиден и способ борьбы с недобросовестными методами.

Ответы-ссылки жестко привязываются к тому, кто их сделал, к эксперту. Если администрация семантического каталога решает, что эксперт ставит ссылки, которые дискредитируют каталог перед пользователями, она удаляет аккаунт эксперта, вместе с ним из базы автоматически удаляются все сделанные им ответы. Семантика — наука о смысле. Понятие смысла неотделимо от того, кто может его оценить, т.е. от человека. Семантический (смысловой) каталог, предоставляя всем желающим возможность строить смысловые связи, должен жестко избавляться от тех, кто это делать не умеет или злоупотребляет доверием.

Новое пространство для поиска

Поиск всегда ведется в какой-то базе, и именно база определяет, какая информация будет найдена. Наиболее распространенной базой являются «индексы» поисковых систем, поиск в которых дает адреса страниц, содержащих слова запроса.

В тематическом каталоге можно искать в двух базах: — в рубрикаторе и в описаниях. Просмотр рубрикатора приводит пользователя к конечной рубрике, в которой размещены сайты, содержащие необходимую информацию. Но практика показывает, что пользователи не любят просматривать рубрикатор, им больше по душе интерактивная процедура с использованием запросов. Поисковый запрос в тематическом каталоге приведет к выдаче адресов сайтов, в каталожных описаниях которых содержатся слова запроса. Семантический каталог является еще одной базой для «запросного» поиска. Результатом поиска в базе семантического каталога будут формулировки поисковых запросов, на каждый из которых имеется хотя бы один ответ. И любой ответ, сколько бы их ни было, согласно принципам заполнения каталога, должен быть точным. Ключевые слова, введенные пользователем, генерируют список запросов; выбор запроса из предложенного списка — генерирует список ответов на выбранный запрос.

Поиск в базе формулировок запросов сегодня используется для расчета размещения контекстной рекламы, на основании найденных формулировок и их частот рекламодатели готовят рекламные материалы. Но принцип выдачи запросов с заранее подготовленными для них ответами поисковыми сервисами практически не используется. И это очень странно, так как практика готовых ответов, где пользователям предлагается выбрать запрос из предлагаемого списка — «древнейшая» Интернет-технология, облегчающая понимание и навигацию любого крупного проекта — FAQ (Frequently Asked Questions — часто задаваемые вопросы). Семантической каталог представляет собой большую FAQ-базу данных. Где запрос, ответ на который хотел бы получить пользователь, он выбирает не при помощи просмотра всего списка, а максимально привычным способом — вводя ключевые слова в поисковую форму. Принципы заполнения этой базы описаны выше.

Новые возможности поиска и рекламы

Что дает крупному навигационному порталу организация семантического каталога.

Идеальное качество выдачи по нечетким запросам

Возможность получить идеальное качество поиска по нечетким запросам. Для этого надо лишь «селекционировать» экспертов, дающих ответы. Один штатный модератор может контролировать до сотни экспертов, каждый из которых сформирует, минимум 50 ответов. При этом каждый эксперт будет заинтересован в качестве собственных ответов. Область качественных ответов, контролируемых поисковой системой, многократно увеличивается. Отпадает необходимость опираться в результатах алгоритмического поиска на описания тематического каталога, семантический дает гораздо более целевой и одновременно наиболее полный спектр предложения информации. Результаты семантического каталога отлично интегрируются с результатами, полученными алгоритмическим путем.

Организация мелких и средних бизнесов, опирающихся на конечных рекламодателей

Возможность организовать «под собой» множество мелких и средних бизнесов, каждый из которых напрямую замыкается на конечного рекламодателя. Смысл создания такой сети — перейти к модели, когда любая оффлайновая компания, любого масштаба будет постоянно платить за профессиональную поддержку информации о себе в поисковой системе. Эта модель потенциально намного более емкая в финансовом отношении, чем практика периодического проведения «рекламных кампаний», к тому она не отменяет модель «кампаний», а дополняет ее.

Расширение возможностей поиска для пользователей

Идею FAQ’a пользователи знают прекрасно. Поэтому возможность «Найти запрос» или «Выбрать запрос» объяснять нет необходимости — она понятна интуитивно. Наличие качественной базы ответов в сочетании с такой возможностью делают поиск очень легкой процедурой. В пользу идеи можно добавить, что подобный подход не использует сегодня еще ни один поисковый портал — именно потому, что качественную базу ответов алгоритмически либо силами небольшой группы штатных модераторов создать невозможно.

Новые технологии контекстной рекламы для рекламодателей

Поиск в формулировках дает доступ пользователям к ответам на вопросы, которых в реальном поиске они никогда не задают, либо задают очень редко — длинным, точным, привлекательным. Введя «автомобиль» с целью поиска подходящей формулировки, пользователь, скорее всего, выберет «проблемы ремонта автомобилей с большим пробегом» или иную по смыслу, но столь же низкочастотную формулировку.

Таким образом, распределение частот запросов, на которые пользователи хотят получать ответы в семантическом каталоге будет сильно сдвинуто в сторону низкочастотных формулировок, по сравнению с запросами, поступающими в индексирующую поисковую систему. Эта особенность семантического каталога дает возможность новой рекламной технологии — ставить ответы на точные запросы, максимально описывающие содержимое веб-страниц, в расчете на то, что пользователь получит к ним доступ, при просмотре списка предлагаемых по ключевым словам формулировок запросов.

Новые рекламные площади

И, наконец, любая страница семантического каталога является отличной контекстно-рекламной площадкой, условия попадания на нее посетителя и его интересы ясны изначально.

Интеграция семантического каталога в традиционный поисковый сервис

Семантический каталог может быть интегрирован в структуру существующего поискового портала как отдельный проект, название которого отражает суть сервиса, например, Яндекс-Вопросы, Рамблер-Вопросы, Апорт-Вопросы и т.п.

Но дело не в названии. Главный вопрос — как организовать заполнение базы ответов. На старте проекта она нулевая, поэтому семантический каталог практически невозможно организовать «на пустом месте». Нет посетителей, которым можно показать ответы каталога — нет экспертов, которые были бы заинтересованы делать ответы на запросы. Нет ответов — проект невозможно развивать и рекламировать. Дать жизнь сообществу экспертов семантического каталога может только реальный трафик. По одному из определений, семантический каталог — гибкая система контекстной рекламы. Поэтому, как только на страницах, которые выдаются пользователям в ответ на поисковые запросы, появятся рекламные места, содержимое которых будет браться из семантического каталога, создание сообщества экспертов начнется автоматически. Эксперт семантического каталога представляет интересы сайта, на который он ставит ссылки. Но правила игры, в которую он вынужден играть, не оставляют ему возможностей делать это иным способом, кроме как всерьез решая вопросы

что хочет узнать пользователь, задавая запрос;

соответствует ли предлагаемая экспертом информация на сайте смыслу запроса;

понравится ли пользователю (читай — конкурирующим экспертам и контролерам каталога) предложенный экспертом ответ.