Основные области приложения структурно-вероятностной модели языка

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

 

 

 

 

 

содержание   ..  1  2  3  4  5  6  7  8  9  10    ..

 

2.2.

Основные области приложения структурно-вероятностной модели языка

 

Лингвистический мониторинг функционирования языка. Задача лингви­стического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (на­учном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут высту­пать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, темати­ческое распределение лексики (например, лексика временных и про­странственных отношений, лексика выражения чувств и эмоций, спор­тивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших пред­посылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингви­стический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать

10)Данные о частотности приводятся по корпусу текстов по современной публицистике (отдел экспериментальной лексикографии Института русского языка РАН).

оценку исследуемому феномену, выявляя его распреде­ление по времени, по источникам, авторам и т.д.

Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в част­ности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа по­является возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики полити­ческих дискуссий и т.д. (см. подробнее §4 главы 5).

Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компью­терные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользова­тель может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автома­тического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информатив­ными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некото­рую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).

Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, мор­фем и слов, а также их взаимном расположении. К настоящему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста; ср. деши-Фровочные алгоритмы Б. В. Сухотина, статистико-комбинаторный метод Н.Д.Андреева. Близки к задачам дешифровки формальные процеду­ры «открытия» морфемного состава неописанного языка, предложенные 3. Харрисом.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингви­стическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста [Виноградов 1961]. К субъективным факторам он относит: а) субъективно-коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстети­ческие; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства совре­менников); в) историко-идеологические и сопоставительно-идеологи­ческие; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.

Перспектива объективизации экспертного знания была обнаруже­на в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого при­надлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематичес­ки связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служеб­ные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.

В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основа­ния авторизации могут быть различны, но использование количествен­ных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста тео­рии распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количе­ство слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты ко­торого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей11).

Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур [Севбо 1981], а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотноше­ние чужой речи (прямой, смешанной, вложенной) с авторской также

11)Такой метод авторизации предложен в ряде работ М. В. Марусенко: [Марусенко 1990; Марусенко 1996].

оказывается стилеобразующим фактором. Эта характеристика стиля от­ражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996]. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.

 

 

 

 

 

 

 

содержание   ..  1  2  3  4  5  6  7  8  9  10    ..