Информационный поиск в Интернете

Главная       Учебники - Компьютеры      Электронная информатизация и электронные ресурсы

 поиск по сайту     

 

 

 

 

 

 

 

 

 

 

содержание   ..  50  51  52  53  54  55  56  57  58  59  60  ..

 

 

6.2. Информационный поиск в Интернете

ИПС существует уже более полувека, и в начале своего появления ИПС была человеко-машинной системой: анализ и описание содержания документов (классификация и индексирование) выполнялись вручную, а поиски проводились ЭВМ. Первоначальную основу ИПС составляли ИПЯ, основным элементом которых являлись дескрипторные словари и тезаурусы. Сегодня большинство ИПС относится к классу вербальных систем, работающих без тезаурусов, а индексационные термины выбираются прямо из текстов документов.

Сегодня лавинообразный поток электронной информации, рост массивов электронных документов, распределение электронных библиотек в Интернете вызвали к жизни проблему поиска. Вначале появились такие программные системы, обеспечивающие поиск, как Gopher, Veronica. WAIS и др.; но вскоре на смену этому инструментарию пришла клиент-серверная технология WWW. В. П. Захаров 138) так классифицирует ИПС в Интернете:

1. ИПС вербального типа (поисковые системы — search engines).

2. Классификационные ИПС (каталоги — directories).

3. Электронные справочники («желтые» страницы и т. п.).

4. Специализированные ИПС по отдельным видам ресурсов.

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в WWW на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций.
Схемы классификации ресурсов в Интернете — это, как правило. древесные структуры, узлы которых названы словами естественного языка. Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических классификаций является то, что они консервативны и отстают от развития науки, техники и технологий. Главная проблема классификационных поисковых служб — это автоматизация классификации.

До сих пор задача автоматической классификации удовлетворительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми. И поэтому объем базы данных систем классификационного типа невелик по сравнению с информационной емкостью всего Интернета.

Для оптимизации охвата ресурсов Интернета создают системы нового типа — метапоисковые. они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. Однако отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих их запросы, такого же результата, какого может добиться опытный пользователь при работе с ЭВМ по отдельности.

Основным средством поиска информации в Сети сегодня следует считать глобальные И ПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast Search (All the Web), Alta Vista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и оперативность индексирования веб-сайтов является главной проблемой всех И ПС в Интернете. Как правило, системы с большим объемом базы дают в результате поиска и большее количество документов. Большая как лингвистическая, так и программная проблема — многоязычие информационного пространства Интернета и форматов представления данных. Тем не менее основные глобальные системы с этими проблемами справляются.

Для обеспечения «видимости» вашего сайта и его содержания. для осуществления поиска нужно выполнить следующие операции над документом:

• составить поисковый образ документа;

• зарегистрировать этот документ или источник документов в поисковых машинах;

• выбрать необходимую вам поисковую систему;

• провести непосредственно сам поиск.

Подчеркнем еше раз: без регистрации вашего источника документов вероятность «быть замеченным» в мире Интернета очень невысока. Эти операции должны также выполняться в условиях совместимости ресурсов и поисковых средств, иначе «розетка не подойдет к вилке».

Мало того, что поиск ресурсов в Сети затруднен, но ему мешают еше и различные недобросовестные пользователи, просто жулики и обманщики, проникшие в среду Интернета. Если у вас создалось впечатление, что Yandex или Rambler выдал много результатов, но попадаете вы неизменно на одну и ту же веб-страницу, не надо думать, что это компьютерные проблемы. Просто вы стали жертвой поискового спама, который особенно активно в последнее время используют недобросовестные компании. Избежать поискового спама нельзя, так как не все спамерские сайты можно удалить автоматически. Чистить результаты поиска иногда приходится вручную. Отношение к нечестным оптимизаторам у профессионального сообщества должно быть самое строгое, так как они превращают поиск в Интернете в абсолютно бесполезное занятие: вместо нужных пользователю страниц выдаются страницы, нужные рекламодателю. Самоуверенность людей по отношению к себе и к информации из Интернета просто вдохновляет. Как утверждается в обзоре, выполненном компанией Pew Project, в 2004 г. 87% опрошенных пользователей сетевых поисковых машин считали, что они найдут то, что им необходимо. При этом только 38% понимали разницу между предоплаченными результатами поиска и независимым поиском, и только 18% могли внятно объяснить, в чем здесь разница.

Информационно-поисковые языки составляют две большие группы: предкоорлинатные (например. УДК. ДДК. ББК. ГРНТИ, др.) и посткоординатные (дескрипторные), опирающиеся на созданные тезаурусы или массив ключевых слов. Поисковый запрос, поданным статистики компании OCLC, состоит в среднем из 2,4 слова.

Что такое электронный каталог сегодня? «Каталог должен быть эффективным инструментом для установления, имеется ли в библиотеке данная конкретная книга, которая специфицируется:

а) своим автором и названием;

б) если автор не назван в книге, то только своим названием;

в) если автор и название не подходят или недостаточны для идентификации, то подходящей заменой для названия; какая публикация данного конкретного автора и какое издание конкретной работы имеются в библиотеке»*.

В целом, конечно, хорошо организованный и «видимый» отовсюду электронный каталог библиотеки в Интернете открывает фонды библиотеки для пользователей, где бы они не находились, а снабженный хорошим СПА электронный каталог позволит пользователю оперативно и комфортно найти нужные ему ресурсы, в том числе и полнотекстовые. Во многом успех получения нужных текстов зависит от качества библиографии, описывающей эти тексты (документы).