Программное обеспечение процесса формирования электронной библиотеки: программа «Гринстон»

Главная       Учебники - Компьютеры      Электронная информатизация и электронные ресурсы

 поиск по сайту     

 

 

 

 

 

 

 

 

 

 

содержание   ..  70  71  72  73  74  75  76  77  78  79  80  ..

 

 

8.3. Программное обеспечение процесса формирования электронной библиотеки: программа «Гринстон»

Электронные библиотеки с ресурсной точки зрения представляют собой большие, хорошо организованные и тематически сконцентрированные коллекции информации. Существует множество программных решений по организации и поддержке ЭБ. Чаше всего — это комплекс программ, программная система. так как надо уметь автоматически генерировать, структурировать. если надо, распознавать, хранить, использовать, преобразовывать и передавать текстовые и графические файлы. Мы остановимся в этом разделе на представлении общедоступной системы «Гринстон» (Greenstone). Программный продукт «Гринстон» задумывался в целях оказания помощи в конструировании. простом и быстром создании такого рода коллекций. Коллекции могут быть очень большими, например включать гигабайты текстового материала: другие могут состоять из миллионов (всего лишь!) документов. Кроме того, намного большие объемы информации могут быть ассоциированы с указанной коллекцией, например аудио-, видеоматериалы, изображения.

«Гринстон» является по сути своей международной и многоязычной программой, она широко используется во многих странах. Эта программа работает со многими языками по видам как интерфейсов, так и языка коллекций. Распространяется данный программный продукт ЮНЕСКО в рамках известной программы «Информация для всех». «Гринстон» — многоплатформенная программа (лучше сказать — независимая от платформы), работающая с операционными системами Windows всех типов, Unix, Macintosh OS/Х. Распространяется она через Интернет или как самоустанавливающийся продукт на оптическом диске CD-ROM.

Основную работу по установке программы «Гринстон» и формированию стандартной коллекции из новых материалов со стандартным интерфейсом можно выполнить буквально за несколько минут. После этого нужно будет провести достаточно трудоемкую механическую работу по непосредственному вводу полнотекстовых документов в созданную оболочку, что составит от нескольких минут, если у вас небольшая коллекция, и до нескольких часов, ежели коллекция большая, объемом во много гигабайтов. Такая работа может занять целый день, если вам приходится вводить множество полнотекстовых указателей.

Электронную коллекцию можно построить в самом различном оформлении в соответствии с вашими желаниями и представлениями об удобном и прекрасном. При этом, конечно, нужно учитывать, что коллекции некоторых типов, например большие коллекции, имеют свои неповторимые черты, особенности и требования. Окончательный выбор оформления и отладка могут занять несколько дней, а может быть и более, если вы будете неоднократно каждый раз переделывать оформление интерфейса по ходу практических испытаний.

По мере роста общей электронной коллекции и увеличения количества отдельных собраний внутри нее может оказаться полезным переиначить весь фонд по образу и подобию какого-то определенного собрания внутри фонда или повторить какой-то понравившийся вам тип оформления из уже существующих фондов. « Гринстон» легко позволяет проводить такого рода модернизации. И кроме того, с программой «Гринстон» вы очень
легко сможете повторить (или перенести на другой сайт) оформление вашего интерфейса в другой библиотеке.

Предоставляемые данной программой сервисы и разнообразие видов интерфейса при осуществлении поиска и просмотра могут адаптироваться под ваши нужды на многих уровнях. Пользователи могут легко настроиться на различные операционные системы и различные форматы документов (например. HTML. Word. PDF. PostScript. Power Point, Excel). При наличии готовых метаданных (например, в составе файлов XML, открытого архива OAI, библиографии в формате Latex) они включаются в состав записи. Если существует необходимость добавить поисковые индексы (например, специально выделить значимость языка для полнотекстовых документов или какие-то метаданные, допустим, заглавия), — все это возможно в «Гринстон». Пользователь может формировать элементы структурного поиска и просмотра, в том числе список авторов, наименований, классификационные иерархии и т. п.

Электронные библиотеки, по сравнению с другими интерактивными системами, обладают тем преимуществом, что соответствующие интерфейсы опираются на использование метаданных. Метаданные — это «клей», с помощью которого новые документы включаются в состав электронной коллекции и немедленно становятся полноправными элементами этой коллекции. Метаданные — это ключ к обеспечению поиска и просмотра. В программу «Гринстон» заложено несколько различных механизмов. позволяющих в полной мере воспользоваться этими инструментами.

Конструирование коллекций (формирование фонда). С помощью программы «Гринстон» вы индивидуально конструируете коллекции, чаще всего взяв за основу образ какой-то из существующих у вас коллекций, которая в наибольшей степени соответствует вашим (и ваших пользователей) потребностям, и повторив структуру понравившегося вам образца. Подготовленный таким образом короткий файл записывается как конфигурационный. В нем специфицируются следующие параметры: название коллекции, адрес электронной почты создателя коллекции (ответственного лица), цели и принципы создания коллекции. форматы файлов ввода данных, источники метаданных, форматы записи метаданных, характеристики пользовательского интерфейса. Значительная часть информации, связанной с подстройкой программы «Гринстон» и не относящейся к профессиональному перепрограммированию, будет храниться в этом файле. Его формирование самым существенным образом зависит от наличия метаданных и определенной структуры.

Поиск по полному тексту всей коллекции является основной особенностью этой программы, который по умолчанию включается во все формируемые части коллекции. Конструкторы коллекции сами должны определиться, нужен ли им поиск по параграфу (абзацу), разделу документа или по всему тексту документа (этот параметр потом скажется при выдаче результатов поиска). Конструктор может также сделать, чтобы индексы полнотекстового поиска были встроены в систему метаданных (например, заглавия, авторы и т. п.). Допускается разбиение целого фонда на какие-то части, внутри которых по отдельно взятой подчасти можно проводить полнотекстовый поиск. Можно также проставить языковые метаданные, так что поиск будет при необходимости проводиться в пределах заранее выбранного языка.

Возможности просмотра коллекций достаточно существенно различаются в зависимости от имеющихся метаданных и тех видов обслуживания, которые конструктор системы заложил в нее. В программу «Гринстон» входят заранее определенные структуры, основанные на том или ином виде метаданных. Любые текстовые метаданные можно представить в виде алфавитного списка, автоматически подключаемого в разумных пределах для того, чтобы в каждой демонстрируемой части оказалось приемлемое количество документов. Данные, касающиеся времени (например, год публикации), также формируются в список, позволяющий выбрать нужный интервал, осуществить выборку по годам или по месяцам. Метаданные, имеющие иерархическую структуру, например библиотечные классификационные системы, могут быть реализованы в виде дерева с возможностью переходить по нужным уровням обобщения. В этом случае пользователь должен сформировать дополнительный файл с указанием соответствия (например, предметные рубрики сопоставлены с классификационными номерами). Указания по форматированию необходимы для того, чтобы пользователь мог настроить под свои требования каждую картинку, которую система генерирует. В этом документе указывается, в каком порядке осуществляется демонстрация — идет ли сначала заголовок отдельной картинкой, или просто заголовок с отступом предваряет текст и т. п. Формулируется общее расположение результатов поиска, определяется, какие метаданные будут показаны в качестве повтора или разъяснения запроса, нужно ли показывать общий вид документа, нужно ли давать гиперссылки и к какому документу. В коллекции, состоящей из документов различного формата (например. Word или HTML), полезно будет указывать в результатах поиска возможные форматы выгрузки, с тем чтобы пользователь смог сам определиться, что ему нужно. Указания по форматированию добавляются к вышеупомянутому документу по условиям просмотра.

Другие особенности. «Гринстон» является многоязычной системой. В настоящее время созданы интерфейсы на следующих языках: английском, арабском, китайском, чешском, голландском, французском, галисийском, немецком, иврите, индонезийском, итальянском, японском, казахском, маори, португальском. русском, испанском, тайском и турецком. Для того чтобы эффективно использовать это языковое богатство и для обеспечения подстройки соответствующего языка интерфейса при пополнении коллекции, все сетевые страницы до их демонстрации пропускаются через макрокоманду расширения языковой базы, опирающуюся на контрольную фразу. Это значит, что новый язык может быть добавлен путем включения нескольких типовых текстовых фрагментов и этим способом легко и неоднократно сможет пользоваться человек, не очень-то искушенный в тонкостях программы «Гринстон».

Инсталляция программы и формирование коллекции доступны человеку с весьма средними компьютерными способностями. Однако при наличии определенных навыков вы сможете сделать намного больше. При знании языка HTML вы сумеете включить утилиты «Гринстона», например механизм полнотекстового поиска или просмотровые подпрограммы, в ваши собственные страницы. Если вы владеете JavaScript, то вам удастся добавить себе механизм просмотра изображений, а при знании Perl можно будет существенно обновить процесс просмотра, например добавив в него программу PinYin для работы с китайскими текстами. «Гринстон» спроектирован на базе глубокой философии: простые веши должны быть простыми, а сложные — доступными.

Некоторые более «продвинутые» возможности также можно включить в работу с коллекцией, добавив совсем немного в конфигурационный файл:

• создать для пользователя режим, близкий к режиму работы с печатными предметными рубриками или тезаурусами: программа может автоматически извлекать из полного текста фразы и строить иерархические отношения между ними;

• автоматически извлекать из текста акронимы и их расшифровку;

• автоматически распознавать язык каждого документа и использовать для создания индексов на каждом языке.

Как это обычно бывает при работе со столь высокоразвитой системой, как «Гринстон», самые жесткие требования предъявляются к оформлению документов, входящих в коллекцию. Можно сказать, что именно документация является самым узким местом. Естественно, что создатели коллекции зачастую нуждаются в оказании помощи и консультациях, с тем чтобы подстроить программу под какие-то вновь возникающие задачи. Существует дискуссионная группа, объединяющая участников из 40 стран и работающая в электронной почте. Она оказывает любую помощь участникам группы. Имеется обширная документация на английском, французском, испанском и русском языках. ЮНЕСКО организует серию региональных программ переподготовки по использованию «Гринстон», и эта программа включается в пакеты по управлению информацией.