Методика контент-анализа

  Главная      Учебники - Лингвистика     Введение в прикладную лингвистику (Баранов А.Н.) - 2001 год

 поиск по сайту

 

 

 

 

 

 

 

 

 

 

 

 

содержание   ..  40  41  42  43  44  45  46  47  48  49  50  ..

 

 

 

4.2.

Методика контент-анализа

Первые опыты использования количественных методов, близких к контент-аналитическим, относятся к концу XIX в. Именно тогда стало ощущаться влияние средств массовой информации — и особенно газет — на общество. В США по заказам некоторых общественных организаций и университетов был проведен ряд исследований тематики газетных ста­тей. Тематика определялась на основе количественного анализа лексики. Общий вывод заключался в том, что пресса отдает предпочтение уго­ловной хронике, скандалам, сплетням и спорту, практически игнорируя сферу религии, науки и искусства [Speed 1893]. В 20-30-х гг. XX в. в США по текстам прессы отрабатываются техники изучения обществен­ного мнения. В центре внимания контент-аналитических исследований оказываются более сложные категории, такие как установки, стереотипы, ценности.

Лассуэлл, с именем которого связывают существенный прогресс в технике контент-анализа, провел исследование основных тем и идей, превалировавших в официальной пропаганде стран-участников Первой мировой войны [Lasswell, Leites 1949; Lasswell 1952]. Во время Второй ми­ровой войны контент-анализ стал составной частью оборонной политики. Эксперты лондонского радио проводили методом контент-анализа регу­лярный мониторинг текстов нацистской пропаганды в средствах массовой информации. Это позволило им выявить типичные последовательности действий министерства пропаганды, связанные с обоснованием тех или иных политических и военных акций. В результате аналитиками были предсказаны некоторые важные события в политической и военной сфе­рах. Изучение документов агентства Transocean в США с использованием методов контент-анализа позволило разоблачить его сотрудников как нацистских агентов [Grawitz 1996, р. 550-582].

Рассмотрим методику контент-анализа с лингвистической точки зре­ния. Рациональность такого подхода объясняется тем, что по сути кон­тент-анализ использует чисто лингвистическую информацию о харак­теристиках текста и пытается выявить его семантические особенности. Сущность контент-анализа заключается в том, чтобы по внешним — ко­личественным — характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста — его намерениях, установках, желаниях, ценностных ориентациях и т. д. Для литературного текста может быть поставлена задача изу­чения особенностей изображения представленных в нем персонажей. Если количество привлекаемых текстов и авторов достаточно велико, то сделанные выводы могут быть распространены на большую социаль­но значимую группу людей и даже на общественное сознание в целом. Конечно, оценка мышления вряд ли относится к собственно лингвисти­ческой проблематике, впрочем, такие задачи, как изучение идиолекта писателя, вполне рядоположены исследованию особенностей мышления.

Важнейшей категорией контент-анализа является концептуальная пе­ременная — понятие, которое стоит в центре проводимого исследова­ния. Например, концептуальной переменной (К-переменной) могут быть такие категории, как «СВОЙ-ЧУЖОЙ», «ДЕМОКРАТИЯ», «ПРАВА ЧЕЛОВЕКА», «ЖЕНСКИЙ ВОПРОС», «МАТЕРИАЛЬНОЕ БЛАГОПО­ЛУЧИЕ». В конкретном тексте концептуальная переменная представлена своимизначениями — языковыми представителями. Так, концептуальная категория «СВОЙ—ЧУЖОЙ» в текстах может иметь следующие значе­ния: мой, наш, мы, я, привычный, знакомый, близкий vs. их, его, ее, он, она, оно, они, их, ее, его, непривычный, дальний, незнакомый. С другой сто­роны, концептуальная переменная «ДЕМОКРАТИЯ» может быть пред­ставлена в текстах следующими языковыми коррелятами: демократия, демократический, демократично, демократический выбор, власть народа, народовластие, выборность, возможность выбора, разделение властей.

Абсолютная частота концептуальной переменной определяется как совокупность абсолютных частот ее значений (языковых репрезентан­тов). Отсюда следует, что для правильности контент-анализа очень важно определить весь список значений, иначе будут пропущены некоторые вхождения концептуальной переменной и результаты исследования будут неточны.

Этапы подготовки и проведения эксперимента. Первый этап подготов­ки эксперимента заключается в выборе материала — корпуса языковых данных. Классический для контент-анализа пример корпуса данных — газетные публикации за определенный период времени или программы политических партий в разные периоды существования партий. Как пра­вило, структура корпуса данных и отбор материала тесно связаны с самой постановкой задачи исследования. Например, если предметом исследова­ния являются языковые и стилистические особенности русского рассказа XIX в., то и создаваемый корпус должен охватывать соответствующие литературные тексты того времени. Для формирования корпуса мож­но использовать принципы, разработанные в корпусной лингвистике — см. §3 главы 3.

Второй этап — выбор концептуальной переменной и определение ее значений — языковых репрезентантов выбранного понятия в тексте. Если значения К-переменной можно выявить в предварительном эксперименте на незначительном количестве материала (для часто исследуемых про­блемных областей в социальных науках и политологии разработаны спе­циальные словари-тезаурусы значений наиболее очевидных К-перемен-ных), то выбор самой К-переменной остается нетривиальной проблемой. Один из наиболее частых подводных камней при выборе К-переменной — это корреляция между частотой и значимостью, а такжепостулат о рав­нозначности вхождения значений К-переменной. Если эта корреляция от­сутствует или одно вхождение (группа вхождений) перевешивает по зна­чимости другие вхождения, то контент-анализ в классическом варианте неприменим. Например, если известно, что Эйзенхауэр, уходя со своего поста, произнес известную речь об опасности военно-промышленного комплекса, то любые контент-аналитические выкладки в связи с К-пере­менной «ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС» не будут иметь никакого смысла по отношению к предшествующим выступлениям Эй­зенхауэра, даже если бы они все были и позитивные или существенно превосходили отрицательные оценки. Иными словами, если исследо­вателя интересует отношение данного политика к проблемам обороны и военного строительства, то в данном случае он должен выбрать другую переменную, например «АРМИЯ», «ВООРУЖЕННЫЕ СИЛЫ» и пр.

Третий этап — выбор единицы кодирования. Значения К-переменной могут приписываться текстам, их фрагментам, абзацам, предложениям и отдельным словам и словосочетаниям. Выбор единицы кодирования зависит от объема и характера корпуса данных и от типа контент-анализа. Если корпус данных — заголовки статей, то выбор единицы кодирования предопределен. С другой стороны, чем больше корпус данных, тем крупнее могут быть единицы кодирования. Для ручного контент-анализа зависимость единицы кодирования от объема корпуса очевидна. Если корпус насчитывает тысячи статей, а кодировщиков — два-три человека, то выбор в качестве единицы кодирования одной статьи вполне оправдан. Учитывается также и объем единиц хранения корпуса. Если корпус состоит из относительно небольших заметок, то опять-таки они и могут стать единицами кодирования.

Отбор кодировщиков и формулировка инструкций по кодированию образуют четвертый этап подготовки эксперимента. Ручной контент-ана­лиз требует точной формулировки инструкций. Кодировщиков может быть несколько и они должны руководствоваться едиными принципами кодирования. Часто для обеспечения единообразия кодирования между кодировщиками и руководителями эксперимента проводятся семинары, позволяющие всем участникам уточнить и унифицировать принципы обработки материала. При компьютерном контент-анализе подготовка инструкций практически заменяется перечислением языковых форм вы­бранных значений К-переменной. Общие принципы кодировки задают два вида контент-анализа — жесткий и мягкий. При жестком варианте ин­струкции формулируются таким образом, что кодируются только явные вхождения К-переменной в текст, то есть только тогда, когда в тексте экс­плицитно представлено одно из значений К-переменной. При мягком ва­рианте контент-анализа инструкции позволяют кодировщику кодировать не только явные, но и неявные, имплицитные вхождения К-переменной и текст. Это допустимо в тех случаях, когда трудно исчислить все зна­чения К-переменной. Например, К-переменная «ПРАВА ЧЕЛОВЕКА» может реализоваться и в тексте о правилах техники безопасности на про­изводстве. Предсказать такие значения К-переменной довольно трудно. Понятно, что компьютерный контент-анализ пока используется только как средство жесткого контент-анализа. Использование разрабатываемых в настоящее время интеллектуальных процессоров может в перспективе изменить ситуацию.

На пятом этапе происходит кодировка данных. И, наконец, на шестом этапе осуществляется подсчет данных и ин­терпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кла­стерный анализ.

Факторы контроля качества эксперимента. В теории контент-анали­за уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достовер­ности/обоснованности (validity). Фактор надежности проявляется в трех основных формах — стабильности, повторяемости и тщательности (accu­racy).Стабильность — самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемость является более сильной формой надежности, она характе­ризует возможность получения тех же результатов разными кодировщи­ками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность, под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.

Фактор достоверности/обоснованности проявляется во многих раз­нообразных формах. Одна из них —семантическая достоверность — определяется тем, насколько инструкции кодировщику учитывают много­значность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирова­ния, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война,отсеивая употребления типа (1).

(1) После этого тихо тлевшая война перешла в открытые боевые действия. «Мослифт» полностью перестал обращаться на тот самый завод, чьи технологии — капельная пропитка статоров, централизованная нарезка канатов с обваркой кон­цов, автоматизированная очистка редукторов главного привода и тому подобные лифтовые премудрости, — существенно улучшают качество ремонта.

[«Известия»]

Для достижения семантической достоверности в компьютерном кон­тент-анализе широко используется метод Key-Word-In-Context, сводя­щийся к построению конкордансов на каждое из значений К-перемен­ной. Эксперт (иногда в интерактивном режиме) помогает компьютерной программе и отбрасывает те контексты, в которых языковой репрезентант К-переменной употребляется не в том значении, которое нужно.

Семантическая достоверность может быть усилена и в том случае, если в качестве концептуальной переменной и ее репрезентантов высту­пает не одно слово, а словосочетание, более точно указывающее на сферу поиска. Например, в только что рассмотренном случае К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) можно переформулировать в виде «МЕЖГОСУДАРСТВЕННЫЙ КОНФЛИКТ» или «ПРОБЛЕМЫ В МЕЖДУНАРОДНЫХ ОТНОШЕНИЯХ» со значе­ниями типа кризис в межгосударственных отношениях, международный конфликт/международные конфликты, напряженность в отношениях меж­ду странами X и Y и т. п. В литературе это иногда не вполне удачно называется введением темы [Мангейм, Рич 1999, с. 274, 275].

Еще одна форма достоверности — достоверность отбора данных (sam­pling validity) — относится к формированию корпуса данных. Выборка данных для кодирования должна быть репрезентативна для проблемной области. В контент-анализе для отбора данных часто используется ме­тод случайной выборки, а также метод стратификационной выборки. В последнем случае проблемная область разбивается по релевантным параметрам и на каждое значение параметра подбирается пример. На­конец, для некоторых типов данных, характеризующихся регулярностью, привлекается систематический отбор. Анализ объявлений о найме жи­лья предполагает сплошной отбор материала из определенных изданий за фиксированный промежуток времени. В принципе, здесь могут исполь­зоваться те же критерии репрезентативности, которые разрабатывались в корпусной лингвистике — см. § 3 главы 3. Другим аспектом достоверно­сти отбора данных является отбор единицы кодирования, которая может определяться самим кодировщиком или диктоваться структурой данных.

Прагматическая достоверность или достоверность предсказания, будучи довольно сильной формой фактора достоверности, характеризует возмож­ность распространения выбранного метода и/или результатов на другие данные.

Виды контент-анализа. Выше уже говорилось о том, что в зависимо­сти от принципов кодировки контент-анализ может быть жесткий и мяг­кий. Выделяется также содержательный и структурный контент-анализ. Контент-анализ, основанный на выделении концептуальной переменной и исследовании ее значений (репрезентантов) в тексте, называется содер­жательным. Возможен и другой вариант контент-анализа, при котором также предполагается выделение концептуальной переменной, однако ее репрезентанты изучаются с точки зрения формы. Например, К-переменная «ВЫБОРЫ ПРЕЗИДЕНТА РОССИИ» может анализироваться с точки зрения того, сколько места посвящалось тому или иному канди­дату в средствах массовой информации — страниц, колонок в статьях, статей, количество появлений на телевидении; были ли фотографии кандидата в прессе или нет, были ли какие-нибудь другие иллюстрации, на каких полосах газет, журналов появлялись сообщения о кандидате и пр. Такой контент-анализ получил название структурного. За единицу анали­за в этом случае принимается «материал о кандидате» или «сообщение о кандидате», которое может определяться как любое газетное сообщение о кандидате или любое его упоминание в новостных, информационных и общеполитических передачах на телевидении.

Структурный контент-анализ по сравнению с содержательным более прост в разработке и проведении, однако он дает не окончательный результат, а полуфабрикат, который требует дальнейшего изучения и со­держательной интерпретации.

 

 

 

 

 

содержание   ..  40  41  42  43  44  45  46  47  48  49  50  ..