Главная              Рефераты - Разное

работа предмет: Информационные системы Тема: Языки информационного поиска - реферат

Московский Государственный Университет Культуры и Искусств

КУРСОВАЯ РАБОТА

Предмет: Информационные системы

Тема: Языки информационного поиска

Работу выполнила

студентка 4-го курса

факультета МиСИТ

группы И-40

Бассовой Дарина

Москва 2005г.


СОДЕРЖАНИЕ

Введение………………………………………………………. стр.3

Информационно-поисковая система Яндекс……………….. стр.6

Информационно-поисковая система Яндекс. Подраздел

Каталог-Учеба-Науки…………….……………………….. стр.11

Информационно-поисковая система Рамблер……………… стр.12


Тема: Языки информационного поиска

1. Введение

Целью данной курсовой работы является оценка эффективности поисковых стратегий в таких ИПС, как:

1. Яндекс (http://yandex.ru/). Т.е. общий поиск, озаглавленный в данной службе, как поиск "Везде".

2. Яндекс-Каталог-Учеба-Науки

(http://yaca.yandex.ru/yca/cat/Science/Sciences/). Т.е. поиск в "индексах"

отсортированных Яндексом, как принадлежащих к конкретным направлениям науки.

3. Рамблер (http://www.rambler.ru/). Общий поиск, озаглавленный в данной службе, как "Интернет".

В настоящее время основным местом размещения информации является Internet «Всемирная паутина».

Для эффективного поиска информации в таком изменчивом пространстве как Internet необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах глобальной компьютерной сети и предоставлять пользователям услугу быстрого поиска.

Инструментом поиска информации в Internet является ИПС (информационно-поисковая система).

1.1 ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе ) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Индексирование – описание источников информации и построение индекса.

Индекс – специальная база данных для эффективного поиска описанных информационных ресурсов.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек. Такого рода услугу мы можем наблюдать в Яндексе. В частности Яндекс-Каталог-Учеба-Науки . Задачей данной курсовой работы была, оценка эффективности поисковой стратегии именно в этой категории. К сожалению поиск по данной теме курсовой работы не увенчался успехом. В рубрике Яндекс-Каталог-Учеба-Науки в основном собрана информация о Российских учебных заведениях, библиотеках и научно-исследовательских учреждениях.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот присвоит ему более высокий коэффициент. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Таким образом, следующей задачей для ИПС второго типа является разработка робота-индексировщика.

Робот-индексировшик – программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.

Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Существенное значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

1.2 Информационно-поисковый язык (ИПЯ) (Information retrieval language)

Информационно-поисковый язык - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного языка.

2. Информационно-поисковая система Яндекс.

2.1 Параметры запроса поисковой системе Яндекс.

В данной поисковой системе делался запрос «Языки информационного поиска» (без кавычек*).

Просмотрев порядка 10 результатов и учитывая тот факт, что поисковые службы устроены таким образом, что на первых страницах результатов поиска были ссылки на ресурсы (сайты) соответствующие наиболее большому кол-ву слов из нашего запроса, я пришла к выводу, что по данному запросу, поисковые службы не дали не каких более или менее полезных ссылок и было решено за поисковый запрос считать фразу «информационно-поисковые языки».

* Примечание: Если в поисковой системе сделать запрос в кавычках, то для поисковой системы это значит точное соответствие, и если честно, то сделай я так, Яндекс выдаст всего 3 ссылки.

Результаты запроса «Языки информационного поиска»


п/п

Ответ службы

Ссылка (URL)

Полезность (ДА/НЕТ)

1

2

3

4

1

... данных различного содержания, процедурный язык информационного поиска, систему

http://www.gpntb.ru/win/inter-events/crimea96/report/DOC1/10.html

НЕТ

2

Результаты поиска по ключевому слову в НБ ДВГУ

http://marbio-www.dvgu.ru/lib/keywbook.asp?keyw=%EF%E0%F2%E5%ED%F2%ED%FB%E5+%EA%EB%E0%F1%F1%E8%F4%E8%EA%E0%F6%E8%E8

НЕТ

3

campus-germany.de - Ehemaliges Deutsches Bibliotheksinstitut (EDBI)

http://www.campus-germany.de/russian/print/2.137.3.162.html

НЕТ

4

Электронная библиотека ГОСТ "СИБИД " - Система стандартов по информации ...

http://www.gosts.ru/products/sibid.html

НЕТ

5

Curriculum - аннотации авторских курсов учебных дисциплин РГГУ

http://curriculum.rsuh.ru/index.php?option=content&task=view&id=311&Itemid=26

НЕТ

1

2

3

4

6

... Информационный язык - Информационный поиск - Автоматизация - Информационные …

http://lib.susu.ac.ru/cgi-bin/ec2000?act=cards&cs=koi8&no=2027&cat=0&br=2

НЕТ

2.2 Оценка эффективности поисковой системы Яндекс.

Рассмотрено 50 ответа поисковой системы Яндекс, по 10-ть на 5-ти страницах.

Далее рассмотрено процентное соотношение полезных, неполезных ссылок на каждой из страниц:

1. Процентное соотношение полезных ссылок на данной странице - 70%

2. Процентное соотношение полезных ссылок на данной странице - 60%

3. Процентное соотношение полезных ссылок на данной странице - 30%

4. Процентное соотношение полезных ссылок на данной странице - 20%

5. Процентное соотношение полезных ссылок на данной странице - 10%

И так по запросу «информационно-поисковые языки» мы имеем следующие результаты.

Общее процентное соотношение ресурсов располагающих информацией по данному запросу демонстрирует диаграмма процентного соотношения полезных и бесполезных ссылок представленная ниже:

2.3 Обзор найденной полезной информации в поисковой системе Яндекс.

Список полезных ссылок.

Далее по списку. Ответ поисковой службы. Ссылка. Краткое описание.

1. Глоссарий.ru. http://glossary.ru/cgi-bin/gl_sch2.cgi?R1dIt(uwsg.outtul!tgvurtltol. Глоссарий (расшифровка) аббревиатур и сокращений.

2. Дискретная математика: алгоритмы. Информационно-поисковые языки. http://rain.ifmo.ru/cat/view.php/theory/unsorted/isl-2003. Сайт «санкт-петербургского государственного университета информационных технологий, механики и оптики». Ссылка на статью Информационно поисковые языки.

3. Информационно-поисковые языки. http://www.pcpi.ru/manage/printdoc?tid=&nd=901800721&prevDoc=901800721. Библиотека ГОСТов. В частности ГОСТ 7.74-96 СИБИД. Информационно-поисковые языки. Термины и определения. (Бесполезный)

4. КРАТКИЙ СПРАВОЧНИК КОМАНД ИНФОРМАЦИОННО-ПОИСКОВОГО ЯЗЫКА MESSENGER. http://www.stn-international.ru/PDF/Messenger.htm.

5. Информационно-поисковый язык Мессенджер (Messenger)°. Описание Информационно-поискового языка Мессенджер.

6. Информационно-Поисковый Язык (ИПЯ). http://ished2005.iitp.ru/sart2.pl?T1=IJA. Определение ИПЯ.

7. RELP. Правоведение. О методике создания правового информационно-поискового языка ... http://law.edu.ru/magazine/pravoved/article.asp?magNum=4&magYear=1975&articleID=1170522. О методике создания правового информационно-поискового языка дескрипторного типа.

8. Информационно-поисковый язык. http://www.booksite.ru/fulltext/1/001/008/056/154.htm. Определение, описание понятия Информационно-поисковый язык.

9. Информационно-поисковые языки. http://www.ipi.ac.ru/sysen/previews/download.php?id=%D1%EB%EE%E2%E0%F0%ED%E0%FF_%F1%F2%E0%F2%FC%FF_%CB%E0%F0%E8%EE%ED%EE%E2.doc. Курсовая работа.

10. Образование: исследовано в мире. http://www.oim.ru/reader.asp?nomer=163. Статья. Информационный поисковый язык вербального типа - Отраслевой тезаурус

11. ДЕСКРИПТОР (лат . descriptor - описывающий) - Большой энциклопедический словарь. http://www.voliks.ru/show/18299/. Понятие ДЕСКРИПТОР.

12. Информационно-поисковый язык, знаковая система, предназначенная для описания ... http://www.oval.ru/enc/29898.html. Понятие Информационно-поисковый язык.

13. Computerworld #20/96. http://www1.airport.sakhalin.ru/ospru/cw/1996/20/31.htm. Статья Поиск и навигация в Internet.

14. Точка опоры или что считать . Библиотека I2R. "Естественность" языка ... http://www.i2r.ru/article.shtml?id=293. Статья особенности информационно-поисковых систем.

15. Маркарова Т. http://libconfs.narod.ru/2000/4s/4s_p14.htm. Определение отраслевой тезаурус как информационно-поисковый язык вербального типа и традиционные классификационные системы.

16. Лекции ВМиК. Прикладное программное обеспечение. [Замок Дракона]. http://www.ergeal.ru/archive/cs/ppo/1-4.htm. Информационно-поисковые системы. Лекционный материал.

17. Untitled Document. http://devlel.chat.ru/Contents.htm. Оглавление статьи. Глава4. Информационно-поисковые языки посткоординатного индексирования

18. 3.6. Информационно-поисковые системы Internet - Администрирование сети и ... http://ais.khstu.ru/admin_I/services0312.shtml.htm. Статья "Информационно-поисковые системы Internet"

19. Apache. http://www.nsc.ru/win/inter/wais_kiae.html. Статья "Информационная система WAIS". Распределенная информационная система WAIS, как сетевой аналог традиционных информационно-поисковых систем (ИПС).

20. Статья "Информационная система WAIS".

21. Энциклопедия - РОЛ. Статья "КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА". Как средство информационного поиска в ИПС создаются специальные информационно-поисковые языки.

22. ::Bolshe.ru::Анализ проектирования баы данных, а также освещение методов ... http://www.bolshe.ru/unit/80/books/6898/s/3. Анализ проектирования баз данных, а также освещение методов построения форм и отчетов на примере построения программы ведения электронной документации учебного заведения

23. Журнал "Открытые Системы" (Издательство "Открытые Системы"). http://www.tts.esoo.ru/~lesenka/ap/ap1996/march/46.html. Статья "Информационно-поисковые системы Internet".

Общие впечатления о поисковой системе Яндекс.

Наблюдалось следующее. Примерно после 40 ссылки полезность найденных сайтов сильно ухудшилась, ресурсы после 50 ссылки не рассматривались. Иногда при рассмотрении ссылки полученной из поисковой системы Яндекс, выяснялось следующее:
1. Устаревшие ссылки на страницы.
2. При переходе на страницу по ссылке поисковой службы, было необходимо воспользоваться поиском на данном сайте, либо воспользоваться системой навигации данного сайта.
3. Попадались медленные ресурсы, видимо расположенные на Украине (UA) и даже в доменной зоне "KZ" (Казахстан), что осложняло поиск интересующей информации.

Яндекс - достаточно удобная и весьма мощная система с большой базой данных.

В поиске Яндекса сегодня 14.12.05

Уникальных серверов: 2 004 473,

Уникальных документов: 653 817 768,

Объем проиндексированной информации: 16 531 ГБ.

Компактная форма выдачи результатов и рациональный дизайн делают ее весьма удобной, когда нужно просмотреть десятки страниц со ссылками. Однако релевантность найденных ссылок не всегда высока и потому часто требуется использование расширенного поиска для уточнения запроса. В связи со всем выше сказанным, систему можно рекомендовать опытным пользователям для осуществления сложного поиска, а также самой широкой аудитории, отчаявшейся найти искомое в более удобных для новичка источниках.


3. Информационно-поисковая система Яндекс. Подраздел Каталог-Учеба-Науки.

Параметры запроса поисковой системе Яндекс. Подраздел Каталог-Учеба-Науки.


п/п

Запрос

Ответ службы

1

языки информационного поиска

Искомая комбинация слов нигде не встречается

2

информационно-поисковые языки

Искомая комбинация слов нигде не встречается

3

информационно поисковые языки

Искомая комбинация слов нигде не встречается

4

информация поиск язык

Искомая комбинация слов нигде не встречается

5

поисковый язык

"Страны мира" - страноведческий каталог ссылок
"MavicaNet" - многоязычный поисковый каталог

К сожалению, в текущем подразделе поисковой системы Яндекс, не было найдено никаких полезных ссылок на ресурсы. Все запросы делались "без кавычек", что говорит о нестрогом соответствии данного запроса к поисковой системе. Запрос "поисковый язык" дал 2 результата, которые все равно не содержала полезной информации по теме курсовой работы.

Рубрикатор Яндекс "Каталог-Учеба-Науки" содержит в основном ссылки на сайты Российских учебных заведений и по всей видимости не ведет индексирование данных сайтов.


4. Информационно-поисковая система Рамблер .

4.1 Параметры запроса поисковой системе Рамблер.

В качестве запроса к данной поисковой системе фраза "Языки информационного поиска", как и в Яндекс, не дала конкретных результатов и был сделан запрос "информационно-поисковые языки".

4.2 Оценка эффективности поисковой системы Рамблер.

Было просмотрено 50 ответов поисковой системы Рамблер, по 10-ть на 5-ти страницах.

Далее рассмотрено процентное соотношение полезных, неполезных ссылок на каждой из страниц:

1. Процентное соотношение полезных ссылок на данной странице - 70%

2. Процентное соотношение полезных ссылок на данной странице - 70%

3. Процентное соотношение полезных ссылок на данной странице - 50%

4. Процентное соотношение полезных ссылок на данной странице - 30%

5. Процентное соотношение полезных ссылок на данной странице - 20%

По данному запросу я получила следующее общее процентное соотношение полезных и бесполезных ссылок на ресурсы:

4.3 Обзор найденной полезной информации в поисковой системе Рамблер.

Список полезных ссылок.

Далее по списку. Ответ поисковой службы. Ссылка. Краткое описание.

1. 3.6. Информационно-поисковые системы Internet - Администрирование сети и сервисов Интернет. http://www.citforum.ru/internet/services/services0312.shtml. Статья "Информационно-поисковые системы Internet".

2. Untitled Document. http://devlel.chat.ru/9.htm. 9 глава "ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ ФАКТОГРАФИЧЕСКИХ ИПС" книги "Информационно-поисковые языки автоматизированных систем по стандартизации"

3. Глоссарий.ru. http://www.glossary.ru/cgi-bin/gl_sch2.cgi?RItklqxowuigtol. Глоссарий (расшифровка) аббревиатур и сокращений. В частности понятие "Информационно-поисковые языки". Также понятие "Индексирование" и его типы.

4. Лекции ВМиК. Прикладное программное обеспечение. [Замок Дракона]. http://www.ergeal.ru/archive/cs/ppo/1-4.htm. Курс "Системы автоматической обработки текстов", подраздел "Информационно-поисковые системы".

5. NTB_5. http://www.gpntb.ru/win/ntb/ntb2002/5/f5_12.htm. Онлайн публикация книги "ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ
И СИСТЕМЫ"

6. Реферат, курсовая - Базы данных. Создание форм и отчетов (на примере ACCESS). Скачать. http://accoona.ru/referat/ref25210.html. Реферат, проектирование баз данных. Типа информационно-поисковых языков.

7. [PDF] rain.ifmo.ru/cat/data/theory/unsorted/isl-2003/art. http://rain.ifmo.ru/cat/data/theory/unsorted/isl-2003/article.pdf. Статья Информационно-поисковые языки

8. Русский Гуманитарный Интернет Университет. http://www.i-u.ru/biblio/archive/chursin_exitavt/default.aspx. Статья "Выход в автоматизации?". Обзор классификации ИПЯ.

9. Open Systems Magazine: #5/96. http://osp.aanet.ru/os/1996/06/source/46.htm. Статья "Моделирование и анализ работы информационно-поисковых систем Internet". Информационно-поисковые языки типа "Like This".

10. Информационно-поисковый язык. http://www.booksite.ru/fulltext/1/001/008/056/154.htm. Понятие Информационно-поисковый язык.

11. Компьютерная лингвистика. http://www.krugosvet.ru/articles/92/1009220/1009220a2.htm. Статья "Направления компьютерной лингвистики".

12. Л.В.Скворцов. http://www.inion.ru/product/russia/skvorzov.htm. Статья "ТРЕХЪЯЗЫЧНЫЙ ТЕЗАУРУС КАК СРЕДСТВО ПОИСКА В БАНКАХ ДАННЫХ".

Замечание по данной поисковой службе.

Очень большое количество ресурсов повторяющих публикацию одного и того же, как его обзывают Реферат "Базы данных. Создание форм и отчетов (на примере ACCESS).
Описание программы ведения электронной школьной документации.", что не могло сказаться положительно на впечатлении о поисковой системе Рамблер. В связи с этим может возрасти процентное соотношение полезных ресурсов, т.к. они действительно полезны, но они же и одинаковы. И более того, не имеет смысла отражать их в третьем пункте данного документа по причине повторов.

Не смотря на то, что процентное соотношение указывает, что поисковая система Рамблер имеет лучшие показатели относительно системы Яндекс, я бы отдала предпочтения все-таки системе Яндекс. Об этом говорит количество полезных ссылок на первой страницы моей курсовой работы.

Что же качается подраздела Яндекса. Каталог-Учеба-Науки. Там я вообще не получила не каких результатов поиска по данной теме.