Исходные понятия корпусной лингвистики

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

 

 

 

 

содержание   ..  20  21  22  23  24  25  26  27  28  29  30  ..

 

 

3.2.

Исходные понятия корпусной лингвистики

В имеющейся литературе по корпусной лингвистике часто использу­ются понятия, которые никак не определяются, но составляют исходный категориальный аппарат этой дисциплины. Рассмотрим их в самом пер­вом приближении, не претендуя на точные, исчерпывающие дефиниции (см. также [Баранов 1998 а]).

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «воз­можность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструк­ции языка как системы. Наоборот — это одна из главных задач лингви­стического исследования корпуса. Перед нами одно из глобальных про­тиворечий, свойственное любому продукту языковой системы — от звука до текста. Лингвисту приходится по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Единица хранения корпуса данных. Поскольку корпус данных — это некоторая выборка из проблемной области, сформированная по опре­деленным принципам, то единица хранения непосредственно зависит от того, по каким основаниям осуществляется выборка. Единица хра­нения — это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса. У. Фрэнсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, слово­сочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [Фрэнсис 1983, с. 344 и далее].

На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, еди­ница хранения корпуса рекламных слоганов, созданного в Отделе экспе­риментальной лексикографии Института русского языка РАН, включает следующие характеристики:

  • слоган: Для мужчин, которые любят женщин, которые любят мужчин

  • фирма: «Louis Azzaro»

  • предмет: туалетная вода Azzaro pour Homme

  • область: косметика и парфюмерия

  • вид слогана: перевод с французского

  • оригинал: Pour les hommes qui aiment les femmes qui aiment les hommes

  • источник: Стае, Космополитен

Выражение естественного языка Для мужчин, которые любят женщин, которые любят мужчин и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Единица хранения корпуса названий газетных статей должна бы­ла бы включать само название и совокупность дескрипций, содержащих информацию о том, из какой газеты название получено, в какой рубрике находится статья, когда вышла газета и другую необходимую инфор­мацию. Совокупность описаний единиц хранения образует некоторое множество, по которому можно судить о представительности выборки — какие газеты представлены, как формировалась выборка по временному параметру (все газеты какого-то периода vs. газеты через определен­ные промежутки времени vs. все газеты выбранных временных отрезков и т.д.); статьи каких рубрик представлены и пр.

Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

Несколько соображений о типах корпусов данных.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы. Они строятся не post factum — после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач. Неспецифицированность за­дачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности (см. ниже).

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения стати­стики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена. Типичный пример иллюстративного корпуса представлен в «Путеводителе по дискурсив­ным словам русского языка» [Баранов, Плунгян, Рахилина 1993], где семантический анализ частиц и выделенные значения сопровождаются значительным текстовым материалом, позволяющим читателю проверить предложенные семантические интерпретации.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале — например, изменения значе­ния слов, частоты использования тех или иных синтаксических конструк­ций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динами­ческого корпуса текстов. В имеющейся литературе такие корпусы получи­ли также название мониторных23). Особенность сборки мониторных кор­пусов заключается в том, что они не предполагают раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бир­мингемский корпус английского языка. Пример динамического корпуса по современной российской публицистике рассматривается ниже.

Корпусы параллельных текстов. Для научных и практических це­лей (в частности, для преподавания иностранных языков) формируются

23) Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. §4 главы 5.

корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.

Способ представления и хранения корпуса данных. Наибольший инте­рес представляют те способы, которые опираются на современные ком­пьютерные технологии хранения и обработки данных. Для дальнейшего изложения важно делать различие между двумя основными способами представления —неструктурированным текстовым форматом хранения (запись графем текста в ASCI-кодах) иструктурированным форматом хра­нения (текст со специальной разметкой); к последнему можно отнести также представление данных в форматах баз данных различного типа.

Порог отображения. Поскольку корпус данных является сужением проблемной области, то совершенно очевидно, что при «пропорциональ­ном» сужении, являющемся, по-видимому, простейшим случаем реализа­ции принципа репрезентативности (см. ниже), некоторые части проблем­ной области оказываются вне корпуса данных. Возьмем грубый пример. Пусть в проблемной области содержится 20 контекстов, а в корпусе дан­ных должна быть четвертая часть — 5 контекстов. Контексты являются примерами реализации различных синтаксических феноменов: в десяти контекстах представлены простые предложения, а в восьми — сложные. В двух последних контекстах содержатся примеры парцелляции. В корпу­се данных один контекст соответствует четырем контекстам проблемной области. Это означает, что контексты парцелляции при пропорциональ­ном сужении в четыре раза не попадают в корпус данных. Соотношение между корпусом данных и проблемной областью при пропорциональ­ном сужении будем называть порогом отображения. Чем выше порог, тем больше вероятность, что какие-то феномены проблемной области, обладающие сравнительно низкой частотой, не попадут в корпус данных.

Параметризация проблемной области. Сужение проблемной области к исследовательскому корпусу основывается на выделении некоторых ха­рактеристик текстов проблемной области, которые релевантны для пред­полагаемого исследования. Совокупность этих характеристик (их возмож­ные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. Часто для оценки релевантных параметров про­блемной области привлекается экспертная оценка. У. Фрэнсис, описывая историю создания Брауновского корпуса, отмечает, что на этапе плани­рования работ было собрано совещание известных экспертов в области конструирования корпусов (в нем принимали участие Р. Куирк, Ф. Гоув, Дж. Кэррол), которое и сформулировало основные принципы параме­тризации проблемной сферы и структуру корпуса [Фрэнсис 1983, с. 344 и далее].

* * *

Обратимся теперь к тем требованиям, которые обычно предъявляют пользователи к корпусу текстов (в дальнейшем именно корпус текстов будет основным предметом обсуждения), имея в виду, разумеется, идеаль­ную ситуацию.

 

 

 

 

 

 

 

 

содержание   ..  20  21  22  23  24  25  26  27  28  29  30  ..