Главная              Рефераты - Разное

на тему N - реферат

Таллиннский Технический Университет

Реферат на тему N0 199:

Распознавание речи в системах отлова данных

Подготовил студент

3-его курса

группы LAS-62:

Денис Курочкин 001597

Таллинн 2003

ВВЕДЕНИЕ

Программы распознавания речи и преобразования ее в текст. Позволяют диктовать компьютеру на определенном языке для быстрого введения текстов в компьютер практически в любом редакторе под Windows. Позволяют вводить тексты со скоростью от 600 до 1000 знаков в минуту. При этом возможна корректировка введеной информации. Программы распознования речи нашли свое применение и в области телефонии, что позволило мне наиболее ярко описать принцип их работы, устройства и т.д.

Распознавание речи в телефонии

Технология распознавания речи позволяет строить приложения телефонных услуг, в которых абонент осуществляет выбор в меню не тональным набором, а произнося голосовые команды. Система стала привлекательнее для абонента за счет более дружественного и естественного интерфейса.

Использование распознавания речи позволяет создавать такие системы, которые было практически невозможно реализовать, имея в качестве интерфейса только тональный набор. Например, система автоматического бронирования авиабилетов по телефону подразумевает выбор из большого числа городов, и тональное меню здесь практически нереализуемо. При использовании же распознавания речи, диалог системы с пользователем может выглядеть примерно так:

Система: Назовите город вылета
Абонент: Москва
Система: Назовите город прилета
Абонент: Хабаровск
Система: Назовите дату
Абонент: 15 июля

т.е. максимально естественно и приближенно к обслуживанию живым оператором.

Такие системы уже много лет широко внедряются на Западе, однако до недавнего времени не было системы распознавания русской речи, которую можно было бы использовать в телефонных системах с достаточным для коммерческой эксплуатации качеством. Такая система появилась в 2002 г.

Один из ведущих производителей систем распознавания речи в телефонии, компания Philips Speech Processing (подразделение Philips, занимающееся технологиями распознавания речи), добавила русский язык к списку языков, поддерживаемых их продуктом SpeechPearlR .

SpeechPearl - это программный инструментарий для реализации функций распознавания речи в телефонных приложениях с использованием оборудования компьютерной телефонии Intel.

Основные характеристики:

  • Дикторонезависимое распознавание. Если необходимо, возможен также и дикторозависимый режим работы.
  • Без необходимости настройки на голос. Если необходимо, возможен также и режим работы с настройкой на голос.
  • Распознавание непрерывной речи - поддержка технологии Intel Continuous Speech Processing (CSP - "непрерывная обработка речи").
  • 45 поддерживаемых языков, включая русский, английский, немецкий, испанский, французский и др.
  • Произвольный словарь распознаваемых слов, составляемый разработчиком приложения самостоятельно.

Максимальный размер возможного словаря в одном приложении - 1,500,000 (полтора миллиона) распознаваемых слов (применяется в городских телефонных справочных и т.п.)

Построение систем с распознаванием речи

Для практической реализации телефонного приложения с функциями распознавания речи необходимы следующие аппаратные и программные компонетны:

  • Платы с соответствующими ресурсами
  • Firmware CSP
  • Модуль распознавания

Платы

Intel Dialogic предлагает целый ряд плат со специализированными DSP ресурсами, способными выполнять функции непрерывной обработки речи. Это голосовые платы серии "J", а так же платы семейства DM3 серии "A".

На сегодняшний день доступны следующие платы "J-серии" и DM3 платы "A-серии":

Модели

CSP ресурсов

Голосовых ресурсов

Интерфейс с линией

Прочее

D/41JCT-LS

4

4

4 аналог.

4 softfax *)

D/120JCT-LS

12

12

12 аналог.

4 softfax

VFX/41JCT-LS

4

4

4 аналог.

4 факс. ресурса

D/42JCT-U

4

4

4 циф. PBX

1 softfax

D/82JCT-U

8

8

8 циф. PBX

2 softfax

D/600JCT-1E1

30

30

1 E1

4 softfax

DM/V600A-2E1

60

60

2 E1

60 конф. ресурсов

DM/V1200A-4E1

120

120

4 E1

120 конф. ресурсов

DM/V2400A

120

240

-

120 конф. ресурсов

*) Функции softfax и CSP нельзя использовать одновременно.

Все платы имеют шину H.100 CTbus. Функциональность плат постоянно развивается с выходом новых версий драйверов. Кроме названных, выпускаются новые модели плат. Следите за изменениями в таблице.

В принципе, используя программный модуль распознавания, можно создавать системы с распознаванием речи и на любых других голосовых платах, таких как D/41ESC, D/300SC-2E1 и т.п. Но тогда либо будет невозможно использовать функцию barge-in, и придется строить меню в виде "после звукового сигнала назовите....", либо выносить barge-in функциональность на хост-процессор, что отрицательно скажется на качестве и на производительности системы.

Firmware CSP

Бортовое программное обеспечение firmware, реализующее CSP-функциональность на платах серии "J" и "A", входит в комплект драйверов и SDK Intel Dialogic, распространяемых бесплатно.

Модуль распознавания речи

Для распознавания произносимых абонентом слов используется программный модуль распознавания речи. Русскоязычное распознавание с поддержкой CSP реализуется продуктом Philips SpeechPearlR .

Технология непрерывной обработки речи CSP

CSP (Continuous Speech Processing) - технология непрерывной обработки речевого сигнала, разработанная и реализованная Intel для высокопроизводительных систем распознавания речи. CSP предоставляет разработчикам речевых приложений следующие преимущества:

  • Экономичность - снижает стоимость платформ распознавания речи
  • Производительность - уменьшает задержки и повышает скорость ответа
  • Точность - повышает точность распознавания
  • Масштабируемость - делает возможным поэтапный переход от малых систем к крупным
  • Емкость - позволяет строить системы с большим числом портов

Barge-In

Ключевым функциональным преимуществом, которое дает CSP, является barge-in - возможность перебивать систему, произнося команды, не дожидаясь окончания проигрывания приветствий и/или меню. Это позволяет абонентам, уже знакомым с системой, не тратить время на прослушивание всех проигрываемых пунктов меню, а произносить команды немедленно. Поэтому с такой системой значительно приятней общаться, не говоря уже о том, что это экономит время звонящего и позволяет системе обслужить большее количество абонентов.

В таблице приведен типичный сценарий работы системы с barge-in.

Событие/действие

Направление

Описание

1.

Клиент звонит в компанию АБВком

Звонок попадает в Call-центр компании АБВком с функциями распознавания речи

2.

Клиент слышит приветствие и меню: "Здравствуйте, Вы позвонили в компанию АБВком. Назовите технологию, которая Вас интересует или сотрудника, с которым Вы хотите связаться. Для связи с секре[!!!]тарем скажите "помощь" в любое время. Вы можете выбрать одну из следующих технологий: ..."

Клиенту проигрывается приветствие и меню первого уровня

3.

Клиент перебивает меню: "Иван Петров"

Выполняются следующие функции CSP:

  • Воспроизведение прекращается
  • Входящий сигнал очищается от эха
  • Выделенный голосовой сигнал "Иван Петров" и речевой буфер отправляются на хост-процессор модулю распознавания

4.

Клиент слышит: 'Идет соединение с Иваном Петровым"...

Модуль распознавания распознает произнесенные слова, и Call центр соединяет клиента с Иваном Петровым

Ключевой момент происходит в п.3, когда клиент перебивает систему на слове "секретарь", что в таблице помечено знаком [!!!]. Воспроизведение меню немедленно прекращается, и происходит переход к п.4. При этом клиент не теряет времени на прослушивание уже не интересующей его части меню (выделенной курсивом в п.2)

Принцип работы CSP

Обычно, когда абонент произносит что-то во время воспроизведения, входящий сигнал представляет собой смесь из голосового сигнала, эха от воспроизведения и шума в линии. Для обработки такого сигнала требуется большая вычислительная мощность. CSP берет эти функции на себя, выполняя их на DSP-процессорах плат Dialogic, и таким образом разгружая хост-процессор компьютера. Проводя предварительную обработку сигнала, CSP отправляет модулю распознавания, выполняемому на хост-процессоре компьютера, "чистый" речевой фрагмент, готовый к распознаванию. Это позволяет значительно повысить общую производительность системы, увеличить размер распознаваемых словарей и существенно повысить емкость решения.

Итак, CSP - это набор функций бортового программного обеспечения firmware плат Intel Dialogic, отвечающих за обработку звукового сигнала. Функции CSP в режиме реального времени определяют, что данный звуковой сигнал представляет собой человеческую речь, производит предварительную его обработку и передает на хост-процессор компьютера в "удобном" для модуля распознавания виде.

Такой подход позволяет существенным образом разгрузить хост-процессор компьютера. Без использования CSP хост-процессор непрерывно получает данные от DSP платы Dialogic со всех ее телефонных портов, получая тем самым серьезную загрузку. Кроме того, этот получаемый от DSP сигнал никак не обработан, и хост-процессору нужно самостоятельно обрабатывать его еще до того как отдать на вход модулю распознавания (например, определять, представляет ли этот сигнал человеческую речь или посторонний звук). Все это дает лишнюю нагрузку на хост, ухудшает производительность и качество распознавания, снижает возможную емкость системы и заставляет устанавливать более мощные и дорогостоящие процессорные ресурсы. Всего этого удается избежать при использовании плат с firmware CSP.

Функциональность CSP

CSP firmware обеспечивает выполнение DSP-процессорам платы следующих функций:

  • Полнодуплексный режим работы - позволяет одновременно проигрывать и записывать звук на каждом из каналов
  • Эхоподавление - до16 ms
  • VAD - Voice Activity Detection определяет начало звукового сигнала в линии
  • Речевой буфер - существенно облегчает проблему "рваной речи" и повышает качество распознавания
  • Сигнализация голосового события - работая совместно с VAD, позволяет CSP firmware посылать сообщения хост-приложению
  • Voice-activated streaming/recording - отправляет поток голосовых данных на хост только при определении голосовой энергии в канале

Остановимся более подробно на ключевых элементах.

Эхоподавление

Без аппаратного эхоподавления, обеспечиваемого CSP, модуль распознавания в приведенной выше в таблице иллюстрации получил бы смесь сигнала "Иван Петров" с эхом от проигрываемого сообщения "~секре~" и, соответственно, правильное распознавание было бы невозможно. Поэтому в такой системе без CSP пункт 2 должен был бы звучать как "После звукового сигнала назовите сотрудника....", и клиент должен был бы дожидаться на линии окончания всего длинного меню, пока не услышит beep, разрешающий говорить.

Как видно из таблицы, при использовании функции эхоподавления CSP, клиент может в любой момент перебить систему. При этом произнесенные им слова будут очищены от эха и отправлены на хост в виде, пригодном для успешного распознавания.

Детектор голосовой активности (VAD)

VAD является одним из компонентов CSP, который детектирует и исследует звуковую активность, выясняя, достаточно ли звуковой энергии содержит сигнал, похож ли он на речь человека или посторонний шум в линии (треск и т.п.) Для настройки VAD доступны несколько конфигурируемых параметров. Например, можно устанавливать порог громкости, при которой система должна реагировать на сигнал. Причем эти пороги могут быть разными для случаев, когда слово произносится на фоне проигрываемого сообщения и когда абонент начинает говорить после завершения проигрывания сообщения.

Речевой буфер

Обычно голосовой сигнал не определяется VAD немедленно при возникновении. Часто энергия сигнала плавно возрастает до тех пор, пока не достигнет установленного порога, на который реагирует VAD. Например, когда произносится имя "Степан", оно начинается с тихого шипящего звука "сь". Поэтому когда VAD среагирует и даст команду передавать сигнал хост-процессору, начальные звуки слова с низкой энергией будут потеряны и распознавание может быть некорректным. Во избежание этой проблемы в CSP firmware предусмотрен предварительный буфер, в котором хранится очищенный от эха сигнал, поступающий до момента реакции VAD. И после срабатывания VAD содержимое буфера отправляется модулю распознавания вместе с остальной частью сигнала. Таким образом, речевой буфер является неотъемлемой частью VAD.

Каждому порту выделен свой речевой буфер, который может содержать речевой сигнал длиной до 250 ms (при 64Kb/s PCM кодеке).

Система эхоподавления и VAD позволяют реализовывать функции barge-in, что позволяет звонящему начинать говорить, не дожидаясь окончания проигрывания приветствия или меню. Функция barge-in аппаратно прерывает проигрывание, чтобы не мешать говорить абоненту. В то же время возможны сценарии, когда система должна реагировать только на конкретное слово звонящего, поэтому можно отключить автоматическое прерывание воспроизведения, чтобы оно не прерывалось, пока не будет распознана конкретная команда абонента.

SpeechPearl

SpeechPearl - это интегрированная среда разработки телефонных приложений с распознаванием речи. В состав этой среды входит набор инструментов, оптимизированных для создания, тестирования и настройки приложений распознавания речи.

Встроенный графический интерфейс предоставляет дружественный интерфейс для создания, настройки и тестирования грамматик и языковых ресурсов.

После того, как разработчик приложения создал диалоги и определил задачи распознавания, SpeechPearl предоставляет соответствующий инструмент для создания и оптимизации грамматик и языковых ресурсов.

Основные компоненты SpeechPearl:

  • SpeechXpertR - графическая среда для разработки, компиляции и оптимизации грамматических и лексических блоков распознавания, проверки и редактирования лексиконов и конфигурирования серверов SpeechPearl.
  • Transcription Station - позволяет протоколировать диалоги из работающего приложения в виде, удобном для оценки качества распознавания и подстройки системы.
  • SPEval (SpeechPearl Evaluation) - инструмент оценки качества работы системы. Эта среда позволяет проверить, покрывается ли слово, сказанное абонентом, соответствующей грамматикой, устанавливать точки останова на разных уровнях в соответствии с разными режимами оценок, находит оптимальные "уровни уверенности" и измеряет производительность для различных наборов параметров распознавания.
  • SPTrain - позволяет создавать "тренируемые" языковые модели, что повышает производительность и ускоряет сам процесс распознавания.
  • SpeechPath

Разработка крупных многорежимных систем с распознаванием речи требует интеллектуального управления распределенной архитектурой речевых серверов. Это необходимо для надежности, масштабируемости и эффективности использования ресурсов.

SpeechPath - это контроллер ресурсов. Это программный модуль, выполненный в клиент-серверной TCP/IP архитектуре. Модуль может распределять множество параллельных запросов различных типов, что позволяет осуществлять прозрачную интеграцию различных речевых модулей в сети. Балансировка нагрузки оптимизирует использование всех имеющихся в сети ресурсов распознавания речи. Интеллектуальные механизмы восстановления дают возможность строить отказоустойчивые конфигурации.

Распознавание русской речи в телефонии

Компании Comptek (http://www.comptek.ru) и Philips Speech Processing (подразделение Philips, занимающееся речевыми технологиями) подписали дистрибьюторский контракт, в соответствии с которым Comptek будет распространять продукцию Philips Speech Processing на территории России и стран СНГ. Главный продукт западной фирмы, SpeechPearl, представляет собой набор программных модулей, библиотек и утилит для разработки систем распознавания речи для телефонных приложений, включающий поддержку русского языка на основе русских фонем.

Системы распознавания естественной речи довольно популярны и уже много лет широко внедряются на Западе. Однако до настоящего времени не было продукта для русскоязычных пользователей, который обеспечивал бы необходимое качество для его коммерческой эксплуатации в в телефонных системах. SpeechPearl обеспечивает "дикторонезависимое" распознавание, которое не требует настройки на конкретный голос, а также распознавание непрерывной речи. Система может использоваться практически во всех существующих телефонных интерактивных приложениях, в которых абонент прежде осуществлял выбор из меню тональным набором. Теперь пользователь может использовать голосовые команды, что делает интерфейс общения более естественным, повышает эффективность диалога и способствует увеличению количества звонков в систему обработки вызовов.