Информационно-поисковые языки

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

 

 

 

 

содержание   ..  30  31  32  33  34  35  36  37  38  39  40  ..

 

 

4.3.

Информационно-поисковые языки

Центральное место в информационно-поисковой системе занимает информационно-поисковый язык (ИПЯ). Информационно-поисковый язык — это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запро­са. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его фор­мальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационно­го поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении ПОЗа документа и ПП. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.

Информационно-поисковые языки должны удовлетворять некото­рым важным условиям. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для дан­ной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однознач­ности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

Информационно-поисковые языки можно классифицировать по раз­ным основаниям. Чаще всего ИПЯ разделяются на языки-классификации и языки дескрипторного типа. Языки-классификации, или языки клас­сификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа уни­версальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книж­ной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были раз­работаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была со­здана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук. Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на доста­точную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать доку­мент с различных точек зрения, что делает невозможным многоаспектное индексирование (см. ниже). И, наконец, иерархические классификации Понятий не успевают за научно-техническим прогрессом.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индекси­рование документа по нескольким основаниям — фасетам (ср. английскоее слово facet — «аспект»). Например, газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистиче­ского стиля) [Баранов, Михайлов, Сидоров 1998]. Как и в классических вариантах языков классификационного типа, в качестве элементов фасетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифици­рованной морфологической формой. Каждый параметр (аспект) клас­сификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. В по­исковом образе документа последовательность и состав фасетов строго фиксированы. Они образуютфасетную формулу (см. рис. 1).

Рис. 1. Структура документа в информационном компоненте Корпуса текстов по современной российской публицистике

 

1. Итоги

2. 2.02.98

3. Невский проспект российских
политиков

4. Велехов Л.

5. внешняя политика

6. аналитическая статья

Фасетная формула; поисковый образ документа


 

 

 

Тело документа


 

 


 

Страсбург кружит им голову. Они ходят по нему, расправив плечи, освободившись от комплексов и раскрепостившись. Иногда даже кажутся симпатичными. Плакаты, расклеенные по всему Страсбургу, утверждают, что этот маленький французский город — столица Европы. Впрочем, основания для таких утверждений хорошо известны любому здешнему обитателю. Именно здесь, в провинциальном городке с большой судьбой, который в течение нескольких веков служил причиной распрей между Францией и Германией, неоднократно переходил из рук в руки, а в конце второй мировой войны едва не был стерт с лица земли в результате ошибочного налета французской авиации, обитают на протяжении послевоенного времени самые крупные и авторитетные общеевропейские институты {...).

Большинство российских парламентариев, делегированных фракциями Думы в Парламентскую ассамблею Совета Европы, еще недавно казались принципиально необучаемыми и неприспособленными к такого рода деятельности, требовавшей специальных знаний, усидчивости, умения аргументированно и внятно выразить и защитить свою точку зрения, терпимости к мнению оппонента. Они были неисправимо косноязычны, ставя в тупик даже вышколенных здешних переводчиков, они вечно попадали впросак: то выступали невпопад, то их не оказывалось на месте, когда приходил черед выступать, потому что они, конечно не успевали вовремя вернуться с «шопинга» (...).

В приведенном примере представлен довольно простой вариант фасетной классификации. В общем случае фасетные ИПЯ предполагают достаточно разветвленное, подробное описание каждого фасета — иерар­хического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.

Иерархические классификации и языки фасетного типа получи­ли наибольшее распространение в ручном информационном поиске. В автоматизированных И ПС чаще используются дескрипторные инфор­мационно-поисковые языки. Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице — отсюда термин координатное индек­сирование. Часто в дескрипторном ИПЯ налагаются ограничения на со­четаемость дескрипторов в ПОДе и ПП; в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М. Таубе. В качестве де­скрипторов в этой системе функционировали ключевые слова докумен­та — унитермы. Особенность этой ИПС заключается в том, что изначаль­но словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов — про­стых понятий проблемной области — можно было достаточно полно опи­сать любой документ. Например, сочетание унитермов «кадры» и «новый» давало возможность получить всю информацию о новых кадровых реше­ниях, а сочетание «мебель», «офис» позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрип-торных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере да­вала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.

На следующем этапе развития ИПЯ дескрипторного типа возни­кла технология лингвистического (другие варианты — лексического или словарного) контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил названиеинформационно-по­искового тезауруса (ИПТ). Объединение дескрипторов в рамках одного таксона в тезаурусе позволяло установить отношения квазисинонимии, обеспечивало переход от более частных понятий к более общим и на­оборот, что давало возможность преобразовать запрос в более част­ный или более общий по сфере охвата документов. Фактически хо­роший информационно-поисковый тезаурус является понятийной мо­делью проблемной области. Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типич­ная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфа­витного указателя дескрипторов, ИПТ может включать частотные указа­тели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:

  • синонимы к данному дескриптору;

  • «вышестоящие» дескрипторы (более общие термины по сравнению
    с данным; отношение «гипероним—гипоним»);

  • «нижестоящие дескрипторы» (более частные термины по сравнению
    с данным; отношение «гипоним—гипероним»);

  • ассоциативные дескрипторы.

Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синони­мы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.

Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различа­ющимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представля­ет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огром- 1 ной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избыточного индексирования: поисковый образ документа и поисковое пред­писание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.

Решение о релевантности документа данному запросу определяется специальными критериями выдачи(KB). Здесь различаются два основных типа критериев — вычисляемые и логические. Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:

,

где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Nj  общее количество дескрипторов в поисковом пред­писании.

В некоторых случаях для повышения точности поиска различным де­скрипторам приписываются веса, отражающие их значимость для описа­ния содержания документа или для выражения информационной потреб­ности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.

Логические критерии выдачи основываются на тех логических отно­шениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нор­мальной формы — конъюнкции дизъюнкций. Конъюнкцией связыва­ются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.

Увеличение объема документов в современных ИПС приводит к то­му, что ручное индексирование документов становится практически не­возможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание си­стем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в авто­матическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом эта­пе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на вто­ром — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может Фигурировать не только исходная словарная форма, но и псевдооснова. Вторая стратегия решения проблемы ручного индексирования свя­зана с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуще­ствляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. Работа с естественным языком предполагает, что в ИПС должны быть встроены грамматические парсеры. Проводившиеся эксперимен­ты показали, что ИПС последнего типа, несколько снижая параметры поиска по полноте, существенно повышают точность выдачи [Панков, Захаров 1996]. Именно в этом направлении идет развитие современных информационно-поисковых систем.

Задание 1. Иерархические отношения в информационно-поисковом теза­урусе, в частности отношения «род-вид», часто скрывают за собой комплекс более сложных отношений. Если эти более «дробные» отношения встречаются в проблемной области регулярно, то иерархическая структура может дополняться фасетной классификацией — альтернативной по отношению к семантическому дереву тезауруса. В [Варга 1970, с. 93, 94] разбирается показательный пример такого типа. Рассмотрим его подробнее.

Таксон РАКЕТА ИПТ по ракетной технике включает следующее множество единиц:

РАКЕТА

баллистическая ракета; одноступенчатая ракета; электрическая ракета, ра­кета без человека; ракета с человеком на борту; ракета с орбитой вокруг луны; лунная ракета; межпланетная ракета; управляемая ракета; исследовательская ракета; квантовая ракета; ракета, запускаемая с аэростата; высотная ракета; ра­кета, несущая приборы; ракета без пилота; ракета-спутник; солнечная ракета; термическая ракета; многоступенчатая ракета; космическая ракета.

Семантический анализ показывает, что таксон не однороден и может быть разбит по нескольким различным основаниям: 1) вид горючего; 2) число ступеней; 3) способ управления; 4) способ старта; 5) характер груза; 6) пилотируемость; 7) назначение; 8) характер орбиты.

  1. Сделайте фасетное разбиение таксона по указанным параметрам.

  2. Предложите свои параметры фасетной классификации и проведите разбие­
    ние таксона по ним.

Задание 2. Среди иерархических отношений в ИПТ может отражаться и от­ношение «часть-целое», которое также не всегда оказывается однородным. Однако в рассматриваемом ниже примере это не тот тип неоднородости, который был ра­зобран выше в Задании 1. Семантика «части-целого» в данном случае сохраняется и распространяется дальше по дереву, формируя более дробные непересекающие­ся таксоны. Предложите свой вариант иерархического членения таксона РАКЕТА, сформированного на основании отношения «часть-целое»:

РАКЕТА

бак горючего, бак топлива, бак средства окисления, защитный конус, ка­бина, камера сгорания, механизм управления, несущая ракета, носовой конус, плоскость управления, подача горючего, полезная нагрузка, приборы, привод, тело ракеты, управление, форсунка.

Основная литература

  1. Панков И. П., Захаров В. П. Информационно-поисковые системы // При­кладное языкознание. СПб., 1996.

  2. Московии В.А. Информационные языки. М., 1971.

Дополнительная литература

  1. Дейт К. Введение в системы баз данных. М., 1980.

  2. Информатика / Под ред. К.В.Тараканова. М., 1986.

  3. Мартин Дж. Организация баз данных в вычислительных системах. М., 1980.

  4. Сзлтон Г. Автоматическая обработка, хранение и поиск информации. М, 1973/.

 

 

 

 

 

 

содержание   ..  30  31  32  33  34  35  36  37  38  39  40  ..