Требования к корпусу текстов с точки зрения пользователя

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

 

 

 

 

содержание   ..  20  21  22  23  24  25  26  27  28  29  30  ..

 

 

3.3.

Требования к корпусу текстов с точки зрения пользователя

 

Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.

Репрезентативность. Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезен­тативностью понимается способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в кор­пусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатыва­емого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.

Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктура­ми, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.

Стремление к репрезентативности налагает определенные ограниче­ния на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с раз­витой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.

Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необхо­димым учесть стилистическую, временную, авторскую и другие составля­ющие текстового массива проблемной области.

Требование репрезентативности в самом простом варианте отража­ется в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке ча­стотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и эконо­мично использовать иллюстративные корпусы текстов.

Полнота. Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требова­ние полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой си­туации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.

Экономичность. Корпус текстов должен экономить усилия иссле­дователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может прово­диться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.

Структуризация материала. Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения харак­теризуются по тем параметрам, которые могут оказаться важными для пользователя.

В ряде случаев на состав единиц хранения налагаются существен­ные ограничения. Если единицей хранения оказывается фрагмент тек­ста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным. Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, ме­стоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентирова­ны, например, на морфологическую или фонетическую инвентаризацию

проблемной области.

Компьютерная поддержка. Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр.24)

24) Ср. формальные требования к представлению текстов в Машинном фонде русского языка в [Андрюшенко 1987].

Имеющиеся компьютерные программы, ориентированные на обра­ботку корпуса текстов, строятся по двум основным стратегиям. В первом случае программа порождает для текста комплекс указателей, в частно­сти, указатель словоформ, в котором для каждой словоформы указывается адрес в тексте. В дальнейшем при составлении конкордансов программа оперирует не столько текстом как таковым, сколько указателями к нему. Типичный пример программ такого типа — программные пакеты LJN1LEX (Машинный фонд русского языка) [Мошкович 1989], а также американ­ские программы ETC и WORD CRUNCHER (более поздняя версия пакета ETC; компания Electronic Text Corporation и Brigham Young University) [WordCruncher 1989a; WordCruncher 1989b]. В Великобритании использу­ется аналогичный по функции пакет ОСР (Oxford Concordance Program), а в Германии — программа ТЕХТРАСК25). При второй стратегии для поиска необходимых контекстов программа каждый раз последовательно просматривает текст, маркируя те фрагменты, которые удовлетворяют по­исковому заданию (см., например, программа DIALEX-DIAWIN — отдел экспериментальной лексикографии Института русского языка РАН [Иса­ев 1996]). Достоинства и недостатки первой и второй стратегии связаны с двумя факторами: с необходимостью предварительной обработки кор­пуса (подготовки его к составлению конкордансов) и с объемом корпуса. Первая стратегия (программы типа UNILEX) предполагает предваритель­ное разбиение текстов на модули и составление больших указателей, что, разумеется, требует значительного рабочего времени и наличия больших ресурсов памяти.

Совершенно иная ситуация с программами, работающими по вто­рой стратегии (программы типа DIALEX): указатели, которые они строят по корпусу текстов, являются временными и уничтожаются по мере выполнения алгоритма. Они не требуют предварительной обработки кор­пуса, членения текстов на отдельные модули и т. п. Но программы такого рода должны использовать очень продуктивные подпрограммы обработки текста, поскольку каждый поиск предполагает сплошной просмотр кор­пуса. Фактически программы типа DIALEX состоят из «кирпичиков» — очень продуктивных программ-перекодировщиков типа «FT». Основ­ной недостаток второй стратегии заключается в том, что значительное увеличение массива текстов в корпусе существенно замедляет работу про­граммы. В настоящее время эта пороговая величина находится на уровне 100 мегабайт. В этом случае более выгодно использовать программы ти­па UNILEX, работающие при составлении конкордансов не с текстами как таковыми, а с указателями к ним. Очевидно, однако, что разметка 80-100-мегабайтного корпуса и составление к нему указателей потребует значительного времени26).

25) Распространяется организацией Zentram ffir Umfragen, Methoden und Analysen — ZUMA (г. Мангейм, Германия).

26) Подробный сравнительный анализ некоторых программных пакетов обработки кор­пусов см. в [Miiller 1993].

Особого программного обеспечения требуют корпусы параллельных текста. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [GroB, MiBler, Wolff 1996]. В настоя­щее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разньк текстов целевые языки и языки-источники варьируются. Корпус паралвльных текстов полностью интегрирован в программу. Он включа­ет разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разньщ словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:

First, she tried to look down and make outvhat she was coming to, but it was too dark to see anything;

It was as much as she could do, lying down on one side, to look through into the garden with one eye;

Als erstens spahte sie in die Tiefehinab, urn zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daB man nichts sehen konnte;

Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken, aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je

Результаты поиска могут сортироваться по объему, алфавиту, по про­изведениям, авторам и т.д. Предполагается использовать MULTICON­CORD на занятиях по изучению иностранных языков, литературы и в сфе­ре конграстивной лингвистики.

Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установле­нии соответствий между оригинальными текстами и переводами. Понят­но, что тривиальное соответствие по словам или предложениям здесь не­возможно. Теоретически обоснованным было бы использование техноло­гий систем машинного перевода с языком-посредником или универсаль­ным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в про­стых случаях устанавливали лексические соответствия, а в случае свобод­ного перевода индексировали целые фрагменты предложений или текстов.

 

 

 

 

 

 

 

 

 

содержание   ..  20  21  22  23  24  25  26  27  28  29  30  ..