Компьютерная лексикография

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

  

 

 

содержание   ..  10  11  12  13  14  15  16  17  18  19  20  ..

 

 

 

1.5.

Компьютерная лексикография

Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Специальные программы — базы данных, компьютерные кар­тотеки, программы обработки текста — позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографи­ческих программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари (АС) различных типов, включающие лексикографические базы данных.

Компьютерные программы поддержки лексикографических работ. Ра­бота лексикографа непосредственно связана со словами, примерами их употребления и словарными статьями создаваемого словаря. Традицион­ная форма фиксации словарных данных — каталожная карточка, в ко­торой указывается описываемое слово, пример употребления, источник примера, автор, а также различная дополнительная информация. Совре­менные компьютерные технологии позволяют упростить процесс сбора и хранения лексикографической информации, используя вместо обычной картотеки базу данных, записи которой представляют собой аналог тради­ционной каталожной карточки. В отличие от обычной картотеки, записи базы данных дают возможность автоматически сортировать массив по вы­бранным параметрам, отбирать нужные примеры, объединять их в группы и т. д. Специализированных лексикографических баз данных — имеются в виду специальные программные оболочки — на рынке нет. Однако современные базы данных типа D-Base, ACCESS, FOX-Base, PARADOX вполне подходят для ведения электронных словарных картотек. Приве­дем пример записи базы данных по современной русской идиоматике, созданной в Институте русского языка РАН, которая поддерживается программой ACCESS.

ЗАПИСЬ 28982 ID {идиома}

у черта на куличках EXAMPLE {пример}

А когда, например, Баранов позвонил Ефиму и сказал, что может угостить свежей телятиной, тот немедленно выскочил из дому, схватил такси и поперся к Баранову к черту на кулички в Беляево-Богородское вовсе не в расчете на отбивную или ростбиф, а приехав, получил на очень короткое время то, ради чего и ехал, — книгу Солженицына «Бодался теленок с дубом».

SOURCE {источник}

Шапка

AUTH {автор} Войнович В.

Лексикографические базы данных фиксируют первичный лексико­графический материал, который используется для написания словарных статей словаря.

Еще один важный этап лексикографической работы — поиск при­меров на слово и формирование картотеки примеров. В традиционной технологии сбор примеров производится вручную и отнимает огром­ное количество времени. Современные компьютерные программы дают возможность выбирать примеры на нужное слово из корпусов текстов, хранящихся в машинном формате на компьютере, в автоматическом ре­жиме. Поиск примеров на употребление слова называется построением конкордансов. Некоторые компьютерные программы построения кон­кордансов по желанию пользователя могут преобразовывать найденные контексты в записи базы данных. Например, программа DIALEX позво­ляет получать конкордансы как в традиционной форме (в виде файла для текстового редактора), так и в формате базы данных PARADOX14).

После подготовки первичного словарного материала — словарной картотеки — непосредственно следует этап составления словарной ста­тьи. Технологическая цепочка словарных работ и здесь не остается без компьютерной поддержки. Новая словарная статья вводится в базу дан­ных, которая становится исходной базой данных создаваемого слова­ря. Редактирование словарных статей также происходит в базе данных, а не в обычном текстовом файле. Все это существенно сокращает время разработки словаря, поскольку упрощается обработка системы отсылок, в автоматическом режиме происходят сортировки (в том числе алфави-тизация словарных статей), сравнительно легко порождаются различные указатели. Для редактирования словаря можно привлекать компьютерные программы проверки орфографии.

Наконец, последний этап — формирование текста словаря, создание оригинал-макета книги — также существенно облегчается. Технологи­ческая цепочка и здесь не прерывается: существующее программное обеспечение позволяет выдать текстовый материал сразу из базы дан­ных с разметкой под топографематические выделения. Поля записи базы данных трансформируются в автоматическом режиме в зоны словарной статьи с соответствующими шрифтами, кеглями, курсивом, подчеркива­ниями и пр.

Ниже на рис. 2 представлены этапы лексикографической работы в традиционном варианте (А) и компьютерная технология создания словаря (Б). Разумеется, в каждом конкретном случае проекты созда­ния словарей могут модифицировать стандартные схемы. Например, в некоторых случаях для сбора корпуса примеров могут использоваться не только корпусы текстов, но и лексикографические базы данных. Так, проект Фразеологического словаря современного русского языка опи­рается не только на корпус текстов по современному русскому языку (включающий тексты художественной прозы, публицистики, детектив­ной литературы15)), но и на базу данных по современной идиоматике, включающей в настоящее время около 50 тысяч контекстов употребления

14)Подробнее о программе DIALEX и технологиях формирования корпусов текстов см. в §3 главы 3.

15)В необходимых случаях привлекаются и тексты русской классической литературы.

Рис. 2 Традиционная компьютерная технология создания словаря

 

Формирование словника словаря

Поиск примеров и формирование картотеки примеров

Написание словарных статей

Создание рукописи словаря

Перепечатка рукописей

Редактирование словарных статей


 

 


 

 

Перепечатка рукописи

Авторская доработка

Корректура

Перепечатка рукописи

Набор, верстка словаря

Корректура


 

 


 

 

Печать словаря

Словарь


 

 

А. Традиционная технология

 

Формирование корпуса текстов

Автоматическое формирование корпуса примеров

Написание словарных статей

Ввод словарных статей в базу данных

Редактирование словарных статей в БД

Корректура текста в БД


 

 


 

 

Порождение текста словаря и формирование оригинал-макета

Печать словаря

Словарь


 

 

Б. Компьютерная технология

дном [Баранов, Добровольский 1995]. Иными словами, корпус примеров , формируется не только в результате обработки корпуса текстов, но и базы данных — см. рис. 3. Для словарей писателей может быть предусмотрен этап формирования корпуса текстов писателей-современников, необхо­димый для выявления различий между особенностями идиостиля данного автора и общими характеристиками языка соответствующей эпохи.

 

База данных по современной идиоматике

Компьютерная картотека конкордансов


 

 


 


 

 

Корпус текстов по современной публицистике


 

 

 

Досье на идиому


 

 


 

 

Корпус текстов художественной литературы 60-90 гг.

Программа обработки корпуса


 

 

 

Словарная статья


 

 


 

 

Корпус текстов детективов

База данных словаря


 

 


 

 

Корпус текстов классической литературы

Оригинал-макет словаря


 

 

Рис. 3. Схема компьютерного обеспечения проекта Фразеологического словаря современного русского языка

Особо следует упомянуть о существовании издательских систем, ис­пользуемых для создания оригинал-макета (верстки) словарей. К ним относятся, например, издательский пакет программ Quark-X-Press, раз­личные версии программ Page-Maker и WinWord. Для словарной верстки наибопее удобны системы, имеющие встроенные языки, позволяющие формировать макросы — относительно простые, но технологически эф­фективные операции обработки редактируемого и верстаемого текста. К ним относятся процедуры приписывания стилей зонам словарной статьи, алфавитизации, создания указателей и т. п.

Автоматические словари. Автоматический словарь — это словарь в специальном машинном формате, предназначенный для испюльзования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека (АСКП) 16) иавтоматические словари для программ обработки текста (АСПОТ). Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от АС, включенных в системы машинного пе­ревода, системы автоматического реферирования, информационного по­иска и т. д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. Так, на рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства «Коллинз», автоматический вариант «Нового большо­го англо-русского словаря» под ред. Ю. Д. Апресяна и Э. М. Медниковой), существует компьютерная версия словаря Ожегова, которая, впрочем, по­ка не имеет широкого коммерческого распространения. Автоматические словари такого типа практически повторяют структуру словарной ста­тьи обычных словарей, однако они обладают функциями, недоступными своим прототипам. Например, многие АСКП позволяют осуществлять сортировку данных по полям словарной статьи (ср. отбор всех прила­гательных), проводить автоматический поиск всех вокабул, имеющих в толковании определенный семантический компонент и т. д.

Автоматические словари для программ обработки текста можно на­звать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют. Так, количество зон словарной статьи такого словаря может варьировать от одной до сотни. Чрезвычайно разнообразны и области лексикографического описания. Это может быть синтаксиче­ский словарь, семантический словарь, словарь морфем, псевдооснов, словарь устойчивых словосочетаний и т.д. АС, используемые в системах информационного поиска, имеют вид тезаурусов, а АС систем машин­ного перевода включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова.

В принципе, к автоматическим словарям можно применить те же па­раметры классификации, которые подходят для обычных словарей. Есть примеры обычных словарей, которые широко используются как АСПОТ. Так, фамматический словарь А. А. Зализняка [Зализняк 1977] в машинной форме реализуется как часть подавляющего большинства компьютерных программ, предусматривающих морфологический анализ или синтез сло­воформ русского языка. К профаммам такого рода относятся, например, многочисленные системы проверки орфофафии, распознавания пись­менного текста.

16)«Конечный пользователь» отличается от «неконечного» тем, что он стоит в конце тех­нологической цепочки использования АС. Автоматические словари могут иметь и других — побочных — пользователей, которыми часто оказываются не люди, а другие программы, использующие данный АС для своих целей.

Компьютерная форма представления словарной информации и целе­вая ориентация АСПОТ позволяет создавать комплексные словари с раз­нообразной фамматической и лексической информацией. Например, один из стандартов автоматических переводных словарей, разработанный во Всесоюзном (ныне Всероссийском) центре переводов (ВЦП), включает тринадцать следующих зон17): 1) заглавная единица, или лексический вход (морфема, слово, словосочетание в канонической форме); 2) лексико-грамматический класс (принадлежность к части речи; для словосочета­ний часть речи определяется в зависимости от синтаксической функции); 2 а) лексико-фамматический класс русского переводного эквивалента; 3) морфолого-фамматическая информация (включает не только инфор­мацию о словоизменении, но и о стандартных сокращениях заглавной единицы); 3 а) сокращения русского переводного эквивалента; 4) те­матическая рубрика и стилевая характеристика; 5) индекс надежности перевода, отражающий степень общепринятости русского эквивалента (А - эквивалент зафиксирован в каком-либо из существующих стандар­тов; Б — эквивалент имеется в известных переводных словарях; В -эквивалент зафиксирован в тетрадях новых терминов ВЦП; Г — пе­реводной эквивалент представлен в переводах или предложен автором словарной статьи); 6) русские переводные эквиваленты (с порядковы­ми номерами); если перевода нет, то ставится специальный маркер и обязательно заполняется зона толкования; 7) пояснительные поме­ты, уточняющие значение заглавной единицы; 8) толкование заглавной единицы; 9) примеры употребления; 10) фразеологические сочетания с заглавной единицей; 11) информация об авторе или редакторе словар­ной статьи; 12) источник переводного эквивалента; 13) дата составления или редактирования словарной статьи.

Наиболее известные автоматические переводные словари, как пра­вило, являются многоязычными. Так, AC LEXIC содержит лексикофа-фические данные по немецкому, английскому, французскому, русскому, итальянскому, датскому и португальскому языкам; автоматический пе­реводной словарь ВЦП включает переводные эквиваленты по четырем языкам: английскому, немецкому, французскому и русскому.

Важным типом АС являются автоматические словари конкордансов, содержащие в машинном виде примеры на употребление всех слов (сло­воформ), представленных в конкретном произведении или в творческом наследии писателя.

Задание 1. Определите параметры, на основании которых выделяются:

  • одноязычные vs. многоязычные словари;

  • обычные словари vs. фразеологические словари vs. словари пословиц и по­говорок vs. словари цитат;

  • словари литературного языка vs. словари жаргонов vs. терминологические словари.

17) Структура словарной статьи приводится по [Беляева, Герд, Убин 1996, с. 324-327]

Задание 2. Зоны словарной статьи можно иерархически упорядочить. Напри мер, в зону значения входят более мелкие зоны толкования, примеров/иллюстра ций и т. д. В некоторых словарях зона фразеологизмов подчинена зоне кон! кретного значения, а не словарной статье в целом. Выявление иерархии внутри словарной статьи позволяет описать словарную статью в виде системы порождающих правил. Например, (i) вокабула  грамматические пометы + стилистические пометы + значение + фразеология; (ii) грамматические пометы  категориальные характеристики (принадлежность к части речи) + характерные грамматические формы; (iii) значение  номер значения + {дополнительные грамматические пометы + дополнительные стилистические пометы} + толкование и т.д. Составьте порождающую схему для представительной словарной статьи следующи[ словарей:

  • Даль В. И. Толковый словарь живого великорусского языка / Под ред. И. А. Бодуэна де Куртенэ. М., 1903-1909 [любое переиздание].

  • Фразеологический словарь русского языка / Под ред. А. И. Молоткова. М., 1978 [любое переиздание].

  • Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова. М., 1935-1940 гг. [любое переиздание].

  • Словарь русского языка: В 4 т. / Под ред. Евгеньевой А. П. Т. 1. М., 1985 [любое переиздание].

  • Словарь современного русского литературного языка: В 17 т. М.—Л., 1950-1965 [любое переиздание].

Задание 3. Создайте структуру записи базы данных (в любой доступной компьютерной БД) для фиксации контекстов употребления слова, которая включала бы информацию о самом слове, примере употребления, авторе, источнике примера, а также предварительное описание значения.

Основная литература

  1. Беляева Л. Н., Герд А. С., Убин И. И. Автоматизация в лексикографии //Прикладная лингвистика. СПб., 1996. С. 318-333.

  2. Как пользоваться словарем // Словарь русского языка: В 4 т. / Под ред. Евгеньевой А. П. Т. 1. М., 1985.

  3. Протчснко И. Ф. Словари русского языка. М, 1996. С. 25-72.

  4. Щерба Л. В. Опыт общей теории лексикографии // Щерба Л. В. Языковая система и речевая деятельность. М., 1974. С. 265—304.

Дополнительная литература

  1. Караулов Ю. Н. Общая и русская идеография. М., 1976.

2. Скляревская Г. Н. Новый академический словарь: Проспект. СПб., 1994

 

 

 

 

 

содержание   ..  10  11  12  13  14  15  16  17  18  19  20  ..