Синтез речи. Методическое пособие для студентов - часть 2

 

  Главная      Учебники - Разные     Синтез речи. Методическое пособие для студентов

 

поиск по сайту            правообладателям  

 

 

 

 

 

 

 

 

 

 

содержание      ..      1      2      3      ..

 

 

Синтез речи. Методическое пособие для студентов - часть 2

 

 

35 

 

ключевых  слов  или  выражений.  Этот  этап  включает  анализ  слов 
непосредственно  рядом  с  текущим,  как,  например,  в  случае  устойчивых 
выражений: 

скрыто  за  семью  замк

а

ми,  в  четырех  стен

а

х

.  Также 

анализируется состав предложения целиком, например, 

дверь была заперта на 

необычный зам

о

к

 (ключевое слово 

заперта

). 

На  уровне  классов  словоформ  производится  анализ  грамматического 

окружения,  то  есть  поиск  согласованных  слов  в  предложении.  Для 
формализации этого принципа в [10,11] предлагается ввести грамматические 
правила,  увеличивающие  условный  «вес»  словоформы  в  зависимости  от  ее 
окружения. Правила хранятся в формализованном виде, позволяющем быстро 
оценивать и корректировать работу системы.  

3.6. 

Методы разрешения неоднозначности при анализе текста 

Выбор  правильной  формы  слова  при  расшифровке  сокращений, 

числительных  и  других  нестандартных  элементов,  а  также  при  снятии 
омонимии  сводится  к  задаче  разрешения  неоднозначности  текста 
(определенный элемент может быть интерпретирован тем или иным образом, 
и  программа  должна  выбрать  один  из  возможных  вариантов).  Эта  задача 
может быть решена двумя различными способами. 

3.6.1. 

Синтаксический и морфологический анализ предложения 

Сюда  может  относиться  как  полный  анализ  структуры  предложения 

(

парсинг

),  так  и  анализ  окружения  конкретного  слова,  задаваемый  в  виде 

контекстных правил. Например, выбор формы числительного может зависеть 
от наличия предлога слева (

до 10 раз

в 10 раз

), формы согласованного слова 

справа (

1 полосатая кошка

1 полосатый кот

) и т.п. Выбор формы омонима 

может  осуществляться  разными  способами.  В  случае  с  омонимами, 
одинаковыми  по  грамматическим  характеристикам,  разрешение  омонимии 
может осуществляться только с помощью анализа лексического содержания 
предложения  (ключевые  слова,  устойчивые  выражения  и  т.п.).  Если  же 
грамматические  характеристики  различаются,  то  можно  использовать  и 
анализ грамматического окружения слова для выбора омонима, подходящего 
к  синтаксическому  контексту.  Усложняет  проблему  то,  что  омонимичные 
словоформы могут существенно различаться по частотности (например, 

ух

а

-

у

ха

сорок

а

-сор

о

ка

кред

и

т-кр

е

дит

мо

ю

о

ю

…).  В  таком  случае  зачастую 

становится продуктивным подход, когда задаются специальные условия для 
нахождения низкочастотного омонимичного варианта, а в остальных случаях 
по умолчанию берется вариант с высокой частотностью. 

3.6.2. 

Статистические методы 

Статистические методы, основаны на обучении вероятностной модели 

на основе речевых корпусов. Такие методы, по сути, также основываются на 
анализе  контекста  рассматриваемых  слов  (например,  НММ-модели, 
основанные  на  n-граммах,  или  деревья  решений,  использующие  в  качестве 

36 

 

признаков характеристики соседних слов), однако контекст здесь учитывается 
автоматически,  без  участия  эксперта.  Могут  быть  получены  хорошие 
результаты при наличии достаточно большой обучающей выборки, в которой 
в  достаточном  количестве  встречаются  все  нужные  элементы  (при  этом 
обучающая база данных должна содержать их расшифровку или правильное 
произношение); однако проблемы появляются при недостаточности данных. 

 

4. ПРОСОДИЧЕСКИЙ ПРОЦЕССОР 

4.1. 

Определение границ синтагм 

Под  синтагмой понимается  самостоятельная  в  интонационном смысле 

часть предложения или всё предложение. Установка границ синтагм влияет на 
передачу интонационных характеристик при синтезе речи, а также на передачу 
смыслового  содержания.  При  разбиении  текста  на  синтагмы  важно  не 
поставить  границу  синтагмы  там,  где  она  может  нарушить  смысловое 
восприятие речи (или передачу смыслового содержания текста).  Синтагмы в 

речи 

разделяются  паузами.  Такие  паузы  делают  речь  более  понятной  и 

естественной, разрешая неоднозначные трактовки смысла предложений. 

Отметим,  что  процесс  определения  синтагм  должен  удовлетворять 

решению двух основных задач: установить границы синтагм в тех местах, где 
они  обязательно  должны  присутствовать,  и  не  устанавливать  границу 
синтагмы там, где она может нарушить смысловое восприятие речи. 

Многие  системы  синтеза  речи  при  определении  мест  пауз  опираются 

только на знаки препинания. Однако большие участки текста, расположенные 
между этими знаками, могут звучать монотонно и осложнять восприятие речи, 
что делает актуальной задачу определения мест пауз на подобных участках. 
При  синтезе  русской  речи  дополнительно  возникает  другая  проблема  – 
пунктуация традиционно используется для обособления различных вводных 
конструкций, таких как, например, «может быть», «конечно» и т.д., которые 
не выделяются паузами в устной речи. 

Кроме того, системы синтеза речи должны не только определять места 

пауз, но и их продолжительность как внутри предложений, так и между ними. 
Самым  простым  решением  данной  задачи  является  задание  различных 
констант,  регламентирующих  длительность  пауз.  Но,  так  как  длительность 
естественных  (производимых  человеком)  пауз  является  очень  вариативной 
величиной,  необходим  специальный  метод,  позволяющий  вычислять 
длительность пауз в зависимости от типа контекста и структуры предложения. 

Принципы, описывающие расстановку пауз в естественной речи, зависят 

от  ряда  факторов.  Наиболее  значимым  из  них  является  синтаксическая 
структура предложения: паузы зачастую располагаются между синтаксически 
связными  компонентами.  Однако  длина  предложения,  семантика 
определенных слов и другие особенности также имеют значение. В системах 
синтеза  речи  эти  факторы  могут  быть  учтены  путем  задания  правил, 

37 

 

определяющих, после какого слова в предложении должна стоять пауза, или 
путем  обучения  статистических  моделей  на  большом  речевом  корпусе,  на 
основе которых будут вычисляться вероятности наличия пауз после того или 
иного слова.  

4.1.1. 

Установка пауз по правилам 

Процесс определения синтагм в этом случае можно условно разбить на 

три основные части. 

1.

 

Расстановка пауз. 

2.

 

Расстановка фразовых ударений. 

3.

 

Особые случаи расстановки ударений 

В  свою  очередь,  этап 

расстановки  пауз

  делится  на  следующие, 

последовательно выполняемые, этапы: 

1)

 

определение связей в каждой паре слов; 

2)

 

грамматический анализ; 

3)

 

установка  ударений  для  всех  слов  в  предложении  согласно 

информации, поступившей от лингвистического процессора. 

4)

 

установка пауз вокруг больших групп слов. 

5)

 

удаление пауз для однородных членов и деепричастных оборотов 

после служебных слов. 

6)

 

установка ударений для слов, которые находятся между пауз. 

7)

 

установка пауз на основании синтаксических связей 

8)

 

установка пауз на длинном отрезке без пауз. 

 

Просодический  процессор  выделяет  в  каждом  предложении 

последовательности слов, связанные синтаксической связью, которые, скорее 
всего,  будут  представлять  из  себя  цельные  просодические  единицы 
(синтагмы). Между парами слов устанавливаются связи того или иного типа, 
что  позволяет  определить,  может  ли  внутри  данной  пары  слов  быть 
установлена пауза. Этот этап является подготовительным перед определением 
местоположения и длины пауз в предложениях. 

Далее  проводится  неполный  (поверхностный)  синтаксический  анализ 

предложения. Для правильного деления предложения на синтагмы не нужно 
производить полный анализ синтаксической структуры: достаточно выделить 
самостоятельные  группы  слов,  между  которыми  в  принципе  возможна 
постановка паузы, а внутри которых пауза маловероятна. Поиск таких групп 
слов  осуществляется  при  помощи  сопоставления  словам  синтаксических 
шаблонов  –  заранее  заданных  последовательностей  частей  речи  и/или 
грамматических форм, соответствующих различным часто встречающимся в 
текстах  словосочетаниям.  При  построении  системы  шаблонов  учитываются 
следующие  частеречные  категории,  грамматические  характеристики  слов: 
род,  число,  падеж  и  др.,  а  также  согласование  между  различными  частями 
речи.  Дополнительные  характеристики  включают  отдельные  семантические 
признаки слов, а также возможность задания правила для конкретного слова. 

38 

Кроме того, отдельно анализируются особые синтаксические структуры, такие 
как однородные члены предложения, вводные слова, сложные предлоги и т.д. 

4.1.2. 

Установка пауз на основе статистических моделей 

Установка  пауз  по  правилам  работает  достаточно  хорошо,  однако 

невозможно  учесть  все,  в  особенности,  сложные  случаи,  встречающиеся  в 
различных  текстах.  Также  разработка  подобных  правил  для  новых  языков 
требует большого количества времени. Преимуществом методов машинного 
обучения является простота применения, при условии наличия размеченного 
речевого  корпуса  достаточного  объема.  Ожидается,  что  статистические 
модели  будут  более  детально  имитировать  поведение  человека,  нежели 
правила, основанные на знаниях экспертов. 

Для  определения  мест  пауз  и  их  длительностей  в  [9]  предлагается 

использовать следующие классификаторы: CART[7] и RF[8]. Классификатор 
CART применяется как для определения мест пауз, так и для определения их 
длины:  для  каждой  границы  слов  определяется  длительность  паузы  между 
ними  (там,  где  она  равна  нулю  или  меньше  заданного  порога,  пауза 
отсутствует).  Также  данный  тип  классификатора  применялся  только  для 
определения длин пауз. В этом случае предсказывается длительность только 
между  теми  словами,  куда  была  поставлена  пауза  на  предыдущих  этапах 
обработки  текста.  Классификатор  RF  применялся  только  для  определения 
мест пауз в виду его специфики. 

Классификатор  CART – рекурсивный метод разбиения набора данных 

на основе минимизации критерия (4.1):  

,

C

Классификатор  RF  выполняет  классификацию  данных  на  основе 

множества  признаков  путем  создания  иерархии  («деревьев»)  запросов  на 
основе предсказанных значений признаков в каждой точке. Лист каждого из 
деревьев  содержит  информацию  обо  всех  наблюдениях  характеризуемой 
величины,  признаки  которой  лежат  в  одной  области  значений.  В  [9] 
применялся  «лес  решений»,  содержащий  100  деревьев,  где  каждое  дерево 
построено  на  60%  случайно  выбранных  данных,  что  снижает 
чувствительность алгоритма к шуму в обучающих данных. Данные параметры 
были выбраны на основе максимизации качества результата. 

39 

 

Для  решения  задачи  классификации  в  [9]  использовались  следующие 

признаки: 

 

пунктуация:  знак  препинания  после  текущего  слова,  после  двух 
предыдущих и после двух следующих слов; 

 

количество  слов  и  слогов:  количество  слов  и  слогов  в  предложении, 
количество слов и слогов от предыдущей паузы до текущего слова и от 
текущего слова до конца предложения; 

 

грамматические признаки: часть речи, падеж, признак является ли слово 
собственным существительным (имена, названия и т.д.); 

 

признаки согласования: согласуется ли грамматическая форма текущего 
слова с двумя последующими словами; 

 

регистр  первой  буквы  в  слове:  является  ли  первая  буква  в  двух 
предыдущих, в текущем или двух следующих словах заглавной или нет. 

 

Для  минимизации  ошибок  вычисления  грамматических  признаков 

необходима  процедура  разрешения  неоднозначности  для  слов-омонимов  и 
омографов  (замОк  -  зАмок).  Предполагается  использовать  подход, 
предложенный в работе [10], точность работы которого составляет 96%. 

Сравнивая  подходы  на  основе  классификаторов  CART  и  RF,  можно 

отметить  следующее.  Очевидным  преимуществом  использования  CART 
является  маленький  размер  модели,  что  является  важным  показателем  при 
реализации  системы  синтеза  речи.  Однако  RF  дает  лучшие  результаты  при 
определении  мест  пауз.  Более  того,  не  все  ошибки  одинаково  критичны:  в 
некоторых случаях пауза недопустима, в то время как в других имеет право 
быть. CART допускает более критические ошибки по сравнению с RF, хотя 
это может быть выявлено только на основе экспертных оценок. В основном 
ошибки  CART  выражаются  в  виде  пауз  внутри  синтаксически  связанных 
цепочек: после предлогов, союзов и других служебных слов, использующихся 
для связи последовательности слов; между модификатором (прилагательное, 
наречие и т.д.) и существительным или глаголом, к которому он относится. 
Такого  рода  ошибки  практически  отсутствуют  при  использовании 
классификатора  RF.  Кроме  того,  модель  RF  является  более  гибкой,  т.к.  она 
может быть настроена с целью увеличения или уменьшения количества пауз в 
синтезируемой речи, что может быть полезно для практических приложений 
системы синтеза речи. Например, увеличение количества пауз снижает темп 
речи. 

4

.2. Определение интонационного контура 

Базовые  интонационные  модели,  из  ограниченного  набора  которых 

исходят  создатели  синтезаторов,  реализуются  на  практически  бесконечном 
множестве  предложений.    Даже  в  языках,  где  тональный  параметр  не 
используется  для  создания  лексических  противопоставлений,  реализация 
базовой  модели  в  конкретном  предложении  может  зависеть  от  таких 
фонетических свойств, как длина предложения, количество, место и степень 

40 

 

выраженности словесных ударений, число слогов в использованных словах, 
структура  слогов  и  даже  их  звуковой  состав.  В  результате  у  разных 
предложений  наблюдаемый  контур  F0  (контур  основной  частоты  голоса) 
может  иметь  весьма  разнообразную  и  сложную  форму:  интонационно 
мотивированные изменения тона (подъемы и падения) могут чередоваться в 
ровными  (платообразными)  участками;  в  контуре  могут  присутствовать 
"дырки"  и  локальные  падения,  обусловленные  глухостью/звонкостью 
согласных; контур в целом может располагаться в разных областях голосового 
диапазона  говорящего;  параметры  тонального  пространства,  занимаемого 
контуром (его рабочая зона), могут меняться от начала к концу предложения, 
например,  контур  может  одновременно  понижаться  и  сужаться  и  т.  д.  
Воспроизведение  подобных  поверхностных  эффектов  при  синтезе  речи,  с 
одной стороны, необходимо, так как от этого сильно зависит естественность 
конечного результата, а с другой – представляет значительные трудности. Это 
заставляет  разработчиков  либо  создавать  самим,  либо  искать  в 
лингвистической  фонетике  какие-то  интонационно-просодические  модели, 
которые  могли  бы  послужить  основой  для  автоматического  порождения 
тональных контуров. Элементы модельных представлений содержатся даже в 
простейших системах, которые обеспечивают только просодический ресинтез.       

4.2.1. 

Генерация контура F0 методом ресинтеза

 

В системах, основанных на просодическом ресинтезе, в памяти системы 

хранятся  детальные  количественные  данные  о  контурах  основной  частоты, 
интенсивности и длительности для некоторого фиксированного набора фраз, 
полученные  в  результате  измерения  их  естественных  произнесений. 
Например,  контур  основной  частоты  может  быть  запомнен  в  виде   
последовательности  чисел,  представляющих  результат  попериодного 
измерения  звуковой  волны  на  вокальных  отрезках  фразы,  или  же  как 
последовательность  значений,  измеренных  через  небольшие  временные 
интервалы (например, каждые 10мс) по контуру F0, полученному с помощью 
каких-либо  автоматических  методов  акустического  анализа  речи.  Затем  эти 
данные  воспроизводятся  без  изменения  при  генерации  синтетических 
отрезков,  не  выходящих,  как  правило,  за  пределы  того  набора  фраз,  для 
которых  в  системе  имеются  готовые  просодические  образцы.  Несмотря  на 
очевидные  ограничения,  описанные  системы  (на  Западе  их  называют  сору-
синтезаторами)  находят  свое  применение.  В  частности,  они  оказываются 
полезными  при  тестировании  качества  синтезаторов  в  озвучивании 
сегментного  состава  речевых  отрезков,  т.  е.  помогают  оценить  степень 
естественности синтезированной речи, состоящей из искусственных звуков и 
естественной просодии. В этом случае синтезироваться может любой речевой 
отрезок,  однако  для  получения  просодических  данных  для  ресинтеза  он 
должен  быть  сначала  произнесен  человеком,  т.е.  стать  известным 
синтезирующей  системе.  Для  понимания  закономерностей  просодического 

41 

 

оформления  речевых  отрезков  подобный  ресинтез  не  представляет  особого 
интереса. 

Ресинтез  известных  просодических  образцов  используется  также  в 

системах,  основанных  на  так  называемых  методах  стилизации  тонального 
контура  –  акустических  или  перцептивных.  Цель  акустической  стилизации 
состоит в том, чтобы сократить детальную информацию, которая содержится 
в  контурах  F0  естественных  фраз  путем  автоматического  выделения 
некоторого  набора  опорных  (целевых)  точек,  аппроксимирующих  контур  в 
целом.  Стилизация  может  быть  широкой  или  узкой,  в  зависимости  от 
разрешенной максимальной плотности опорных точек. Узкая разновидность 
стилизации  часто  реализуется  в  виде  выбора  трех  точек  контура  на  отрезке 
каждого  отдельного  гласного  фразы  –  начальной,  экстремальной  (или 
серединной)  и  конечной.  Опорные  точки  при  аппроксимации  контура 
соединяются прямыми линиями.  

При широкой стилизации в качестве опорных точек часто выбираются 

локальные  экстремумы  контура  (пики  и  впадины).  Переходы  между  ними 
интерполируются либо прямыми линиями, либо более сложными функциями. 
При  таком  подходе  в  качестве  особых  характеристик  контура  могут 
использоваться  также  прямые,  отражающие  динамику  изменения  общего 
тонального пространства контура во времени. Линия, соединяющая локальные 
максимумы  кривой  F0,  образует  верхнюю  границу  этого  пространства 
(

topline

).  Нижняя  граница  (

baseline

)  задается  локальными  минимумами. 

Нисходящий  характер  обеих  линий  отражает  общее  смещение  контура  F0 
вниз,  которое  часто  наблюдается  при  произнесении  повествовательных 
предложений во многих языках и называется деклинацией. 

Перцептивная  стилизация  отличается  от  чисто  акустической  тем,  что 

при  выборе  способа  аппроксимации  наблюдаемой  кривой  F0  учитываются 
данные  восприятия.  Наиболее  известным  примером  применения  метода 
перцептивной  стилизации  является  модель,  разрабатываемая  с  1960  г.  в 
Институте перцептивных исследований (IPO) в Голландии. Исходный контур 
F0  сначала  аппроксимируется  вручную  последовательностью  прямых 
отрезков  (тональных  сегментов),  которые  не  соотносятся  каким-то 
специальным  образом  с  сегментной  основой  анализируемой  фразы.  Затем 
фраза  с  аппроксимированным  контуром  ресинтезируется,  далее  с  помощью 
повторных  ресинтезаций  находится  такая  аппроксимация  контура,  которая 
содержит  минимальное  количество  тональных  сегментов  и  на  слух  не 
отличается  от  исходного  контура.  Примечательно,  что  в  экспертных 
экспериментах  с  перцептивной  стилизацией  было  обнаружено,  что 
модификации кривой F0 на участках глухих и звонких согласных и смежных 
с ними гласных (так называемые микропросодии) практически не влияют на 
восприятие тонального контура фразы. "Голландский" метод аппроксимации 
контура F0 можно рассматривать как широкую разновидность перцептивной 
стилизации.  

42 

 

В  некоторых  публикациях  описаны  методы  автоматической 

перцептивной  стилизации,  основанные  на  подходах,  отличных  от 
голландского  метода.  Иногда  принимается,  что  минимальным  носителем 
тональных различий является слог. Восприятие тона в рамках слога зависит не 
только  от  F0,  но  и  от  других  фонетических  характеристик  (длительности, 
интенсивности, звуковой структуры и т. п.). По мнению указанных авторов, 
перцептивная  стилизация  тонального  контура  фразы  должна  представлять 
собой  последовательность  тонированных  слогов,  а  тональный  контур  слога 
следует интерпретировать с учетом воздействия всех акустических факторов 
на восприятие высоты тона, а также с учетом известных психоакустических 
данных (абсолютных и относительных слуховых порогов оценки тональных 
изменений).  Описанный  метод  является  примером  узкой  разновидности 
перцептивной  стилизации,  он  был  реализован  в  автоматическом  режиме  и 
интенсивно тестировался на материале французского языка. 

Судя  по  имеющимся  в  литературе  оценкам,  все  методы  стилизации 

контуров  F0  позволяют  генерировать  ресинтезированную  речь  высокого 
качества.  При  создании  систем  TTS  получение  качественного  тонального 
ресинтеза  с  помощью  тех  или  иных  автоматических  методов  не  является 
целью  разработок,  однако  выполняет  важную  подготовительную  функцию. 
Во-первых,  любой  метод  стилизации  (при  условии  высокого  качества 
ресинтеза)  позволяет  получить  такое  представление  наблюдаемого  контура 
F0, 

которое  освобождено  от  ненужных  акустических  деталей  и 

параметризованно, т. е. содержит количественную спецификацию конечного 
числа  опорных  тональных  элементов  (точек  или  отрезков),  с  помощью 
которых  аппроксимируется  контур.  Во-вторых,  выбор  опорных  элементов 
стилизации зачастую отражает теоретические представления (или допущения) 
исследователей  о  том,  что  представляет  собой  глубинная  интонационная 
характеристика предложения, которая получается (или может быть получена) 
на выходе лингвистического блока подготовки текста к озвучиванию. В этом 
случае  ресинтез  на  основе  выбранного  метода  стилизации  позволяет  дать 
предварительную  оценку  сложности  параметрического  просодического 
интерфейса  и  активно  используется  для  текущей  отладки правил  генерации 
тонального контура. В то же время ясно, что ресинтез сам по себе не может 
обеспечить порождение тонального оформления произвольного предложения.    

4

.2.2. Формирование контура F0 для произвольного предложения 

В  конкретных  системах  автоматического  синтеза  речи  содержание  и 

сложность  просодических  правил,  порождающих  тональный  контур 
предложения по его интонационному описанию, зависит как от практических 
возможностей лингвистического блока системы, так и от того, что понимается 
под  интонационной  структурой  предложения.  Минимальная  интонационно 
значимая  информация  включает:  указание  на  коммуникативный  тип 
предложения  (

sentence  mode

),  интонационное  членение  и  расположение 

акцентированных (или просто лексически ударных) слогов в пределах каждой 

43 

 

интонационной  группы.    В  рамках  этого  общего  минимального  требования 
имеющиеся  приложения  делятся  на  две  большие  группы  в  зависимости  от 
того,  используется  ли  в  них  собственно  интонационная  транскрипция, 
базирующаяся на некотором фиксированном наборе интонационных единиц – 
общих моделей или более элементарных просодических элементов, входящих 
в интонационную систему синтезируемого языка. Условно системы синтеза, в 
которых  интонационная  транскрипция  на  входе  просодических  правил  в 
явном  виде  не  используется,  могут  рассматриваться  как  реализации 
инженерного подхода, в отличие от систем, опирающихся на транскрипцию. 
Последние 

системы 

называются 

лингвистически 

(фонологически) 

ориентированными. Рассмотрим основные особенности этих подходов. 

4.2.3. 

Генерация тонального контура в системах инженерного типа 

В эту группу, прежде всего, попадают приложения, которые опираются 

на  узкую  акустическую  стилизацию  тональных  контуров.  Алгоритмы 
автоматического получения контуров F0 (

pitch extraction

) и автоматической 

сегментации  речевого  сигнала  создают  возможность  построения  больших, 
просодически  ориентированных  баз  данных,  в  которых  фиксируются 
частотные  значения  опорных  точек  контура  F0  для  каждого  гласного  или 
отдельного слога в составе предложения. Соответствие между минимальной 
интонационно  значимой  информацией,  которая  дается  для  каждого 
предложения в базе данных, и тональными параметрами гласных или слогов 
(с учетом большого набора поверхностных фонетических переменных – типа 
слога, его положения в слове и интонационной группе и т.п.) устанавливается 
с  помощью  статистических  классификационных  методов  или  методов, 
применяемых  в  системах  распознавания  речи,  в  частности  нейроподобных 
сетей. После такого предварительного анализа или обучения реальный синтез 
произвольного  предложения  получается  путем  конкатенации  тональных 
слоговых  контуров,  выбранных  из  базы  с  учетом  как  интонационных 
признаков,  так  и  поверхностных  фонетических  факторов,  влияющих  на 
акустическую  реализацию  слогового  контура  F0.  Нетрудно  видеть,  что 
просодические  тональные  правила  заменяются  в  системах  описанного  типа 
хранением  обширного  инвентаря    тональных  слоговых  контуров,  которые 
конкатенируются  "склеиваются",  образуя  сложный  тональный  контур 
предложения.  

По имеющимся в печати отзывам, синтез на основе узкой акустической 

стилизации  и  тональной  конкатенации  обеспечивает  очень  высокую 
естественность  синтезированной  речи.  Разработки  в  этом  направлении 
начались  сравнительно  недавно,  их  технологичность,  значительная  доля 
автоматизации  подготовительной  работы  привлекают  исследователей, 
занимающихся  речевыми  технологиями,  и  специалисты  прогнозируют 
бурный рост соответствующих приложений. В то же время с лингвистической 
точки  зрения  подобные  системы  мало  интересны:  фактически  в  них  можно 
усматривать  представление  об  интонации  как  о  некотором  акустическом 
гештальте,  который  развертывается  в  виде  сложной  тональной  схемы  на 

44 

 

слоговой  цепочке  предложения.  Однако  возможно,  что  некоторые  речевые 
единицы,  ритуальные  или  несущие  сильную  эмоциональную  окраску, 
действительно запоминаются и используются в речи, снабженные подобными 
"гештальтными 

схемами-мелодиями", 

находящимися 

за 

пределами 

собственно  интонационной  системы  языка.  Безусловный  интерес  для 
лингвистически  ориентированных  исследований  интонации  представляет 
компьютерный  инструментарий,  который  используется  при  создании 
послоговых конкатенативных систем тонального синтеза.  

Кроме приложений, основанных на конкатенации слоговых тональных 

контуров, к системам инженерного типа относится и ряд разработок, которые 
на самом деле занимают промежуточное положение между чистой тональной 
конкатенацией  и  лингвистически  ориентированными  моделями  тонального 
синтеза. 

В  приложениях  такого  типа  наиболее  часто  используется 

артикуляционно-акустическая  модель  тонального  контура  (

production-

oriented model

), предложенная известным японским специалистом в области 

речевых  технологий  Х.  Фуджисаки  [12].  Основное  допущение  этой  модели 
состоит  в  том,  что  тональный  контур,  непрерывный  по  своей  природе, 
является  на  самом  деле  реализацией  локальных  физиологических  событий, 
которые осуществляются разными ларингальными механизмами. Различаются 
два  типа  событий  –  фразовые  и  акцентные  тональные  команды,  которые 
моделируются соответственно импульсной и ступенчатой функциями. Кроме 
этого,  вводится  один  глобальный  параметр,  который  фиксирует  нижнюю 
границу  рабочей  области  голосового  диапазона,  на  нее  накладываются 
фразовые и акцентные команды. Локальные компоненты модели описываются 
несколькими  параметрами,  которые  задают  относительную  амплитуду 
тонального  изменения  и  временные  моменты  реализации  команд 
(таймирование)  относительно  границ  фразы  (для  фразовых  импульсов)  и 
границ акцентированного слова для акцентных. Результирующий тональный 
контур получается путем сложения всех компонентов, имеющих, как следует 
из сказанного выше, разные области реализации во времени. В связи с этим 
модель  Фуджисаки  часто  относят  к  суперпозиционным  фонетическим 
моделям интонации.  

При  создании  системы  синтеза  для  конкретного  языка  используются 

просодические базы данных, где каждое предложение содержит, по крайней 
мере,  минимальную  интонационную  информацию.  При  анализе  корпуса 
предложений  фразовые  команды  соотносятся  с  границами  интонационного 
членения,  а  акцентные  –  с  акцентированными  слогами.  Амплитудные  и 
временные  параметры  аппроксимирующих  функций  подбираются  по  базе 
данных с помощью статистических методов. Модель тестировалась в системах 
синтеза  для  весьма  разных  языков:  японского,  английского,  китайского, 
немецкого и ряда других.  

45 

 

4

.2.4. Генерация тонального контура на основе лингвистических 

моделей интонации 

В  лингвистически  ориентированных  системах  тонального  синтеза 

контур  F0  рассматривается  как  акустическая  манифестация  интонационной 
структуры  предложения,  которая  может  быть  представлена  в  виде 
определенной  конфигурации  абстрактных  интонационных  элементов, 
которые должны фиксироваться в выходной транскрипции лингвистического 
блока синтезатора. В разработке таких систем активное участие принимают 
лингвисты. 

В 

соответствии 

с 

теоретическими 

направлениями, 

существующими в западной интонологии, можно выделить два типа моделей, 
которые не только находят применение в системах синтеза речи по тексту, но 
и  благодаря  этому  активно  развиваются.  Это  так  называемые 
суперпозиционные  (

layred  components

)  и  линейные  или  последовательные 

(

tone  sequences

)  модели.  Оба  типа  моделей  исходят  из  представления  о 

комбинаторной  природе  интонации:  интонационная  структура  предложения 
рассматривается  как  конструкция,  состоящая  из  нескольких  функционально 
самостоятельных  тональных  элементов.  Оба  типа  моделей  признают 
существование  и  лингвистическую  значимость  локальных  тональных 
объектов, имеющих  фиксированную  временную  привязку  в  предложении, и 
глобальные  тональные  признаки,  которые  характеризуют  тональное 
пространство,  в  рамках  которого  реализуется  контур  в  целом.  Однако 
функциональная  интерпретация  локальных  и  глобальных  тональных 
элементов и их взаимодействие в предложении трактуются в этих моделях по-
разному. 

В  суперпозиционных  моделях  интонационная  структура  предложения 

рассматривается как иерархическая просодическая структура, определяемая в 
каждой  точке  предложения  одновременно  тремя  тональными  объектами, 
каждый из которых имеет свою сферу реализации. Тональные составляющие 
описываются  следующим  образом:  выделяются  глобальные  тональные 
признаки, характеризующие тональное пространство, в котором реализуется 
предложение  в  целом,  глобальные  тональные  признаки  пространства, 
занимаемого последовательными интонационными группами в предложении, 
и  тональные  фигуры,  которые  реализуются  на  составляющих,  называемых 
акцентными группами. Интонационные контуры основных коммуникативных 
типов  предложений  отличаются  только  глобальным  тональным  признаком, 
отражающим  частотное  смещение  тонального  контура  во  времени  (его 
наблюдаемым  коррелятом  служит  линия  деклинации,  соединяющая 
акцентированные  слоги  в  предложении).  Так,  повествовательные 
предложения имеют наиболее резкий наклон деклинационной линии, а общий 
вопрос  характеризуется  отсутствием  наклона  (плоской  линией деклинации). 
Реализационной  базой  лингвистических  моделей  суперпозиционного  типа 
является описанная выше модель Фуджисаки.   

Линейные  модели  восходят  к  работам  Ж.  Пьерхумберт  [13], 

посвященным первоначально интонации американского варианта английского 

46 

 

языка.  В  лингвистическом  плане  интонационная  модель  Пьерхумберт 
опирается на идеи метрической и автосегментной фонологии, развиваемые в 
США.  В  качестве  минимальных  элементов  в  модели  выделяются  два 
одинарных тона, отличающиеся тональным уровнем – высокий (H) и низкий 
(L). Интонационные тоны рассматриваются как абстрактные тональные цели 
(мишени),  ближайшим  отражением  которых  в  наблюдаемом  тональном 
контуре являются точки переломов (изменений) F0.   

На  основе  этих  тональных  примитивов  формируются  тональные 

единицы следующих функциональных типов:  

 
1)

 

тональные  акценты  –  одинарные  (H*,  L*)  и  битональные  (аналоги 
контурных  тонов)  (H*+L,  H+L*,  L*+H,  L+H*).  Знак  *  обозначает 
привязку тона к акцентированному лексически ударному слогу; 

2)

 

фразовые  тоны  –  два  типа  тональных  движений  (H-,  L-),  которые 
реализуются между последним тональным акцентом интонационной 
группы и граничным тоном; 

3)

 

граничные  тоны  –  тоны,  соотнесенные  с  начальным  (%Н,  %L)  и 
конечным (H%, %L) слогами интонационной группы.  

 

Возможные  комбинации  перечисленных  тональных  единиц  образуют 

грамматику  интонационной  структуры  фразы,  которая  состоит  из  четырех 
следующих компонентов: начальный тон, тональные акценты, фразовый тон, 
конечный тон. 

Абстрактные  тональные  репрезентации,  которые  условно  можно 

рассматривать  как  маршрут  или  схему  движения  в  целевом  тональном 
пространстве,  преобразуются  в  наблюдаемые  контуры  F0  с  помощью 
просодических правил двух типов: тонального шкалирования и таймирования. 
Правила  тонального  шкалирования  определяют  для  абстрактных  целевых 
тонов  конкретные  значения  F0,  которые  считаются  зависимыми  от  двух 
факторов:  степени  выделенности  слога,  несущего  тон,  и  тональной 
спецификации  предшествующего  тона.  Таким  образом,  частотная 
спецификация  последовательности  тонов  осуществляется  строго  слева 
направо (отсюда название "линейная" модель). Правила таймирования задают 
с  учетом  разных  поверхностных  фонетических  факторов  координаты 
временных  точек,  в  которых  должна  достигаться  тональная  цель.    Кроме 
просодических  правил,  используются  адаптирующие  функции,  с  помощью 
которых  в  контуре  F0  целевые  тональные  точки  соединяются  тональными 
переходами и контур в целом сглаживается. 

Глобальные  тенденции,  наблюдаемые  в  контурах  F0,  в  крайних 

вариантах  линейной  модели  описываются  также  исключительно  локально. 
Например,  деклинация  считается  поверхностным  результатом  локального 
взаимодействия  определенных  смежных  тонов  (аналогично 

downstep

  в 

африканских 

языках),  а 

не 

глобальным 

тональным 

признаком, 

распространяющимся 

на 

всю 

интонационную 

группу.  Локальная 

47 

 

интерпретация  глобальных  тенденций  является  наиболее  дискуссионной 
стороной  строго  линейных  моделей  и  причиной  построения  различных 
гибридных моделей, авторы которых вводят в линейную модель и глобальные 
тональные признаки. В целом, надо сказать, что на Западе, особенно в США, 
линейная  модель  Пьерхумберт  получила  очень  большой  резонанс  как  в 
фонологических исследованиях, так и прикладных разработках. Эта модель в 
адаптированном  виде  использовалась  в  системах  синтеза  для  английского, 
немецкого,  китайского,  японского  и  шведского  языков.  При  создании 
приложений  все  просодические  правила  и  адаптирующие  функции 
настраиваются  автоматически  с  помощью  обширных  аннотированных  баз 
данных.  Для  интонационной  аннотации  речевых  корпусов  была  создана 
широко известная просодическая транскрипционная система ToBI (сокр. англ. 
Tones  and  Break  Indices).  В  то  же  время  нельзя  не  отметить,  что 
лингвистический  (функциональный)  потенциал  линейной  модели  даже  для 
английского языка в полной мере не проверен и не используется в системах 
синтеза,  так  как  до  сих  пор  не  сформулированы  правила  выбора  тонов, 
образующих тональный компонент интонационной структуры предложения. 

4

.3. Примеры интонационных контуров 

Рассмотрим несколько примеров интонационных контуров (ИК) для 

русского языка, по классификации Брызгуновой [1]. 

Второй  тип  ИК  (рис.  4.1):  синтагматическое  ударение  на 

вопросительном слове. На гласном центра ровный или нисходящий высокий 
тон, затем дальнейшее падение. 

 

 

 

Рис. 4.1. ИК для фразы «Ты сколько писем получил от Ивана?»

 

 

Третий тип ИК (рис 4.2): восходящий тон с последующим падением. 
 

 

Рис. 4.2. ИК для фразы «¬Может Людмила этого не понимает?»

 

48 

 

 

 

Синтагматическое ударение ставится на последнем слове предложения. 
Четвертый тип ИК (рис 4.3): нисходяще-восходящий тон. 
 

 

Рис. 4.3. ИК для фразы «Чудеса!»

 

 

5. ФОНЕТИЧЕСКИЙ ПРОЦЕССОР 

5

.1. Построение транскрипции 

Рассмотрим  алгоритм  построения  транскрипции  на  примере  русского 

языка. Русский язык в этом отношении является достаточно регулярным, что 
позволяет описать практически весь алгоритм набором правил. 

 

На  вход  транскриптора  подается  текст,  в  котором  указаны  места,  в 

которых  при  произношении  будут  сделаны  паузы,  и  для  каждого  слова 
указано,  какая  из  его  гласных  находится  под  ударением.  На  выходе 
транскриптор 

выдает 

последовательность 

фонем 

и 

аллофонов, 

соответствующих входному тексту и определяющих его произношение. 

Место ударения в каждом из слов существенно влияет на то, как будет 

произноситься  данное  слово  —  очевидно,  что  речь,  в  которой  все  гласные 
буквы имеют одинаковую продолжительность и интенсивность, будет звучать 
весьма неестественно. В русском языке безударные гласные имеют редукцию. 
Чем  больше  степень  редукции,  тем  меньше  длительность  произношения 
данной  буквы,  и  тем  меньше  возможность  различить  произносимые  буквы 
между собой, например, «(водное) поло» — «(из-под) пола». 

Редукция  гласных  в  русском  языке  вычисляется  следующим  образом. 

Ударные  гласные  не  редуцируются  — степень редукции  у  них 0. Гласная в 
первом предударном слоге (предшествующем ударному слогу) имеет степень 
редукции  1.  Гласные  во  втором  и  следующих  предударных  слогах  имеют 
степень редукции 2, а гласные в заударных слогах (после ударного слога) — 
степень  редукции  4.  Например,  в  слове  «бородатый»  редукция  гласных  в 
слогах  будет,  соответственно,  2-1-0-4.  При  этом  безударная  гласная, 
являющаяся  первой  буквой  в  слове,  как,  например,  «а»  в  слове  «аллофон», 
редуцируется только до степени 1. 

49 

 

Что  касается  транскрибирования  согласных  букв,  то  здесь  также  есть 

свои нюансы. Так, в положении перед гласной «а» все согласные различимы 
между собой в произношении, тогда как в других положениях, например, на 
конце слова или перед согласными, произношение согласных может меняться. 
Например, слова «рог» и «рок» не различаются по произношению — в слове 
«рог» происходит оглушение звонкой согласной «г» на конце слова. Таким же 
образом  может  происходить  и  озвончение  согласных  —  например,  в 
словосочетании  «этот  звон»  последняя  «т»  в  слове  «этот»  озвончается  и 
произносится  как  «д».  Правила  оглушения  и  озвончения  согласных 
реализованы в транскрипторе. 

Наличие  или  отсутствие  пауз  между  словами  во  многом  определяет 

особенности  транскрибирования  на  стыках  слов.  В  случае,  если  между 
словами  нет  паузы,  имеет  место  взаимовлияние  соседних  звуков, 
принадлежащих  разным  словам.  Кроме  того,  предлоги,  предшествующие 
словам,  или  частицы,  следующие  за  словами,  при  произношении 
объединяются  с  тем  словом,  с  которым  соседствуют,  и  становятся 
составляющими  единого  фонетического  слова,  как,  например,  в  сочетаниях 
слов  «по  воде»  или  «могли  бы».  Редукция  гласных  в  таких  случаях 
рассчитывается  для  всего  фонетического  слова  как  целого.  Если  между 
словами  присутствует  пауза,  то  она  делает  невозможным  влияние  друг  на 
друга звуков в словах, находящихся по разные стороны от нее. 

Некоторые слова русского языка произносятся не так, как должны были 

бы произноситься согласно обычным правилам произношения — например, 
слово  «принтер»  произносится  как  [принтыр],  а  не  [принтер].  Эти  слова-
исключения вместе со своими транскрипциями хранятся в отдельном словаре. 

При  обработке  текста  транскриптором  производится  следующая 

последовательность действий. 
1.

 

Устанавливается  степень  редукции  гласных  влево  и  вправо  от  ударной 
гласной каждого слова. При этом: 
1.1.

 

Каждой ударной гласной присваивается степень редукции 0. 

1.2.

 

Гласным  слева  от  ударной  гласной  в  слове  присваивается  степень 
редукции, увеличивающаяся от 1 до 2. 

1.3.

 

Гласным справа от ударной гласной присваивается степень редукции 4. 

1.4.

 

Если первая буква в слове — безударная гласная, то ей присваивается 
степень редукции 1. 

1.5.

 

Те  слова,  в  которых  нет  своего  ударения  (предлоги,  частицы  и  т. п.), 
рассматриваются как единое фонетическое слово вместе со словом, к 
которому  они  относятся.  При  этом  степени  редукции  гласных  в 
фонетическом  слове  (то  есть  имеющим  основное  ударение) 
расставляются аналогично тому, как это делается для обычных слов. 

2.

 

Производится  транскрибирование  текста  в  фонемы  в  соответствии  с 
правилами  преобразования  буква-фонема,  которые  подгружаются  из 
внешнего файла.  

50 

 

3.

 

Производится  транскрибирование  фонем  в  аллофоны  в  соответствии  с 
правилами  преобразования  фонема-аллофон,  которые  также  задаются  во 
внешнем  файле.  Определение  того,  какой  именно  аллофон  должен 
соответствовать данной фонеме, производится в зависимости от контекста 
— от того, какие фонемы или паузы стоят перед и после данной фонемы. 

4.

 

Исключения  из  обычных  правил  произношения,  существующие  для 
некоторых  слов  русского  языка,  обрабатываются  отдельно  от  основной 
последовательности  действий.  Примеры  таких  слов:  принтер,  Габриель, 
Фред и т.п. 

5.2. 

Вычисление физических параметров 

На вход алгоритму построения физических параметров подается текст, 

в котором указаны места, в которых при произношении будут сделаны паузы, 
для каждого слова указано, какая из его гласных находится под ударением и 
какой силы — это ударение, а также какой тип интонационного контура лежит 
на этом слове, для каждой буквы - ей соответствующая фонема и аллофон. На 
выходе  построитель  физических  параметров  выдает  последовательность 
аллофонов,  соответствующих  входному  тексту,  определяющих  его 
произношение с указанием для каждого из них значения частоты основного 
тона, отклонения энергии и длительности звучания. 

 
Сила  ударения  и  тип  интонационного  контура  в  каждом  из  слов 

существенно влияет на то, как будет произноситься данное слово — очевидно, 
что речь, в которой все гласные буквы имеют одинаковую продолжительность 
и  интенсивность,  будет  звучать  весьма  неестественно.  В  русском  языке 
безударные  гласные  имеют  редукцию.  Чем  больше  степень  редукции,  тем 
меньше  длительность  произношения  данной  буквы,  и  тем  меньше 
возможность  различить  произносимые  буквы  между  собой,  например, 
«(водное) поло» — «(из-под) пола». 

Наличие  или  отсутствие  пауз  между  словами  во  многом  определяет 

особенности формирования физических параметров на стыках слов.  

В случае, если между словами  нет паузы, имеет место взаимовлияние 

соседних  звуков,  принадлежащих  разным  словам.  Кроме  того,  предлоги, 
предшествующие  словам,  или  частицы,  следующие  за  словами,  при 
произношении  объединяются  с  тем  словом,  с  которым  соседствуют,  и 
становятся  составляющими  единого  фонетического  слова,  как,  например,  в 
сочетаниях слов «по воде» или «могли бы». Физические параметры в таком 
случае вычисляются для всего фонетического слова как целого. Если между 
словами  присутствует  пауза,  то  она  делает  невозможным  влияние  друг  на 
друга звуков в словах, находящихся по разные стороны от нее. 

Функциональность  описываемого  алгоритма  состоит  в  том,  чтобы 

определить временные (в мс) и мелодические (в Гц) характеристики базовых 
элементов  компиляции,  которые  при  обработке  синтагмы  выбираются  в 
нужной последовательности специальным процессором (блоком кодировки). 

51 

 

Необходимые  для  этого  предварительные  операции  над  синтезируемым 
текстом: выделение синтагм, выбор типа мелодического контура, определение 
степени выделенности (ударности-безударности) гласных — осуществляются 
предшествующими модулями. 

Правила временного оформления синтагмы сформулированы отдельно 

для  гласных  и  согласных.  Правила,  задающие  временные  характеристики 
гласных  в  обрабатываемой  синтагме,  учитывают  степени  выделенности 
(редукции)  гласного  (4  градации).  Кроме  того,  для  ударного  гласного 
последнего  полнозначного  слова  учитывается  число  слогов  в  слове  и 
количество  ударных  гласных,  предшествующих  данному  в  синтагме. 
Предусмотрено также продление гласных (независимо от степени их редукции 
и  фонетического  качества)  в  позиции  абсолютного  конца  синтагмы.  Что 
касается  влияния  согласных  на  длительность  гласных,  то  оно  учитывается 
лишь в наиболее ярких случаях, прежде всего, для гласных в позиции перед 
интервокальными вибрантами. 

Для  последовательностей  гласных,  образующих  единый  элемент 

компиляции (заударные флексии), действует правило аддитивного сложения 
длительностей, задаваемых правилами формирования длительностей. 

Правила,  определяющие  временные  характеристики  согласных 

учитывают  следующие  факторы:  позиция  согласного  относительно  границ 
синтагмы и фонетического слова; интервокальная-неинтервокальная позиция; 
позиция  в  кластере  (стечения  согласных);  простой-сложный  состав  базовых 
элементов компиляции, необходимых для звукового синтеза согласных. 

В  алгоритм  формирования  физических  параметров  входят  также 

правила, задающие длительность паузы после окончания синтагмы (конечной-
неконечной), которые необходимы для синтеза связного текста. 

Правила  мелодического  оформления  синтагмы  задают  два  значения 

частоты основного тона (F0) для каждого выбранного элемента компиляции, 
которые образуют его начальную и конечную мелодические характеристики. 
Вычисление  этих  “физических”  значений  происходит  на  основе 
предварительного  определения  по  правилам  мелодических  характеристик 
транскрипционных  аллофонов  в  полутоновой  шкале  (Т-значения).  Полуто-
новые  характеристики  (начальная  и  конечная)  каждого  аллофона 
формируются  текущим  образом  (слева  направо)  слоговыми  циклами,  т.е.  в 
рамках  последовательности  (Cn)Г,  где Cn  —  любое  число  согласных,  в  том 
числе 0, предшествующих гласному. 

Алгоритм формирования физических параметров содержит правила для 

формирования следующих типов мелодических контуров: 

 

повествовательное предложение, 

 

повествовательное  предложение,  в  котором  есть  слово  с  особым 
выделением, 

 

вопрос с вопросительными словами, 

 

восклицательное предложение, 

52 

 

 

восклицательное  предложение  с  вопросительными  словами  (Какая 
погода!), "Какая погода...", 

 

простой вопрос, 

 

вопрос со значением противопоставления, 

 

пунктуация - запятая тире, 

 

пунктуация двоеточие, 

 

пунктуация тире, 

 

пунктуация запятая, 

 

пауза есть, 

 

пунктуации нет. 

 

Для  всех  контуров,  кроме  вопроса  с  вопросительными  словами, 

учитывается  возможность  разного  положения  главноударного  слога 
(мелодического  центра)  синтагмы.  Специальный  вопрос  формируется  для 
случая совпадения мелодического центра с вопросительным местоимением. 

При определении мелодических характеристик элементов компиляции, 

входящих в обрабатываемый слог, учитываются следующие факторы: 

 

тип мелодического контура синтагмы; 

 

положение  слога  относительно  мелодического  центра  контура 
(совпадение, слева, справа); 

 

положение  слога  относительно  начальной  и  конечной  границы 
синтагмы; 

 

степень выделенности (редукции) гласного в обрабатываемом слоге; 

 

степень  выделенности  (редукции)  гласного,  непосредственно 
предшествующего обрабатываемому слогу; 

 

число символьных элементов в слоге; 

 

тип символьного элемента слога (согласный, гласный) и положение 
этого элемента относительно начала слога (первый - не первый); 

 

фонетическое качество согласных в слоге (глухость-звонкость); 

 

простой  -  сложный  состав  базовых  элементов  компиляции, 
необходимых для звукового синтеза согласных в слоге. 

 

Результат применения правил к любой затранскрибированной нужным 

образом  синтагме  может  быть  представлен  в  виде  таблицы  стандартного 
формата,  пример  которой  приводится  ниже  (таблица  5.1)  для  фразы  “Мама 
мыла малину?” (в мужском произнесении).  

Таблица 5.1 

Звук

 

Длительность

 

Значение ЧОТ в Гц

 

 

(в мс)

 

нач.

 

кон.

 

м 

60 

120 

120 

а+ 

100 

125 

125 

53 

 

м 

60 

120 

120 

а 

75 

125 

125 

м 

60 

125 

180 

ы? 

80 

180 

240 

л 

40 

240 

225 

ъ 

50 

225 

225 

м 

60 

225 

120 

а 

75 

120 

110 

л’ 

50 

110 

110 

и+ 

95 

110 

110 

н 

60 

110 

85 

у2 

110 

85 

80 

 

В  таблице  5.1  представлены  звуки,  определяющие  произносительный 

вариант фразы, для которых вычислены параметры длительностей и частоты 
основного  тона  с  которыми  должны  быть  синтезированы  звуки  во  фразе 
целиком. Знаком " + " обозначаются ударные гласные, " ' " - мягкие согласные, 
а " ? " - фразовое ударение.  

 

6. АКУСТИЧЕСКИЙ ПРОЦЕССОР 

Схема работы акустического процессора представлена на рис. 6.1. 

6.1. Оптимальный выбор звуковых элементов методом Unit 
Selection 

После того, когда требуемые параметры звуковых элементов, 

необходимых для синтеза определенного предложения, получены, наступает 
очередь применения метода Unit Selection (US) для выбора оптимальной 
последовательности их реализаций из звуковой базы данных [14]. 

Для  того  чтобы  определить,  насколько  тот  или  иной  элемент  базы 

подходит для синтеза данной единицы, вводятся понятия 

стоимости замены

 

(англ. 

target  cost

)  и 

стоимости  связи

  (англ. 

concatenation  cost

).  Стоимость 

замены  для  элемента  из  базы 

i

u

по  отношению  к  искомому  элементу

i

t

  

вычисляется по формуле  

 

1

,

,

,

p

t

t

t

i

i

k

k

i

i

k

C u t

w C u t

  

(6.1) 

где   

54 

 

 

t

k

C

 — расстояние между 

k

-ими характеристиками элементов, 

 

t

k

w

 — вес для 

k

-ой характеристики.  

 

Выбор звуковых элементов

(Unit Selection)

Сглаживание энергетической 

огибающей

Модификация частотных и темпо-ритмических 

характеристик

Объединение элементов в звуковой поток

Акустические базы 

и правила

Данные 

управления

Фонетический процессор

Параметры звуковых элементов

Звуковые эффекты

Синтезированная речь

Рис.6.1.Схема работы акустического процессора 

 

Другими словами, это есть взвешенная сумма различий в признаках между 

требуемым  элементом  и  конкретным  элементом  речевой  базы.  В  качестве 
признаков  могут  выступать  любые  уместные,  с  точки  зрения  разработчика, 
просодические  и  лингвистические  характеристики  элементов.  Как  правило, 
используется  следующая  информация:  частота  основного  тона  (ЧОТ), 
длительность, контекст, позиция элемента в слоге, слове, количество ударных 
слогов во фразе и другие [15].

 

Выбранные элементы должны не только мало отличаться от целевых, но 

и  хорошо  соединяться  друг  с  другом.  Функция  стоимости  связи  двух 
элементов  может  быть  определена  как  взвешенная  сумма  различий  в 
признаках между двумя последовательно выбранными элементами. 

 

1

1

1

,

,

,

q

c

c

c

i

i

k

k

i

i

k

C

u

u

w C u

u

  

(6.2) 

где           

 

c

k

C

 — расстояние между 

k

-ими характеристиками элементов, 

55 

 

 

c

k

w

 — вес для 

k

-ой характеристики.  

Общая стоимость для целой последовательности из n элементов есть сумма 

введенных выше стоимостей 

 

 

1

1

2

,

,

,

.

n

n

t

c

i

i

i

i

i

i

C u t

C u t

C u

u

  

(6.3) 

Задача  метода  US  —  выбрать  такое  множество  элементов  базы 

,

u

,

u

,

u

n

2,

1

которое бы минимизировало общую стоимость согласно формуле (6.3). 

6.1.1. 

Стоимость замены 

Основное назначение функции стоимости замены — оценивать, в какой 

мере подходит данная единица речевой базы к требуемому элементу. В связи 
с  этим,  стоимость  замены  должна  отражать,  как  сильно  различия  в 
характеристиках влияют на восприятие замены одного элемента другим. При 
построении  этой  функции,  как  правило,  руководствуются  одним  из 
следующих принципов: 

 

независимых признаков, 

 

акустического пространства. 

 

Принцип независимых признаков 

В этом случае расстояние для каждого признака считается независимо 

от  других,  взвешивается  и  затем  общая  стоимость  считается  как  некоторая 
функция  полученных  расстояний.  В  качестве  такой  функции  можно 
использовать простую  сумму  (6.1).  Функции 

t

k

C

  определяют  расстояния  для 

каждой отдельно взятой характеристики. Для категориальных это может быть 
простое  бинарное  решение,  совпадают  они  или  нет.  Для  непрерывных 
(например,  ЧОТ)  это  может  абсолютное  расстояние  или  его  логарифм. 
Различия в одних характеристиках оказывают больше влияния на восприятие 
замены,  чем  в  других.  Эта  разница  отражается  в  выборе  весов

t

k

w

для 

конкретного  расстояния.  Для  установки  весов  существует  несколько 
подходов: 

1)

 

автоматический подбор на основе объективной меры, 

2)

 

перцепционный, 

3)

 

ручная настройка.  

 

Автоматический  подбор  на  основе  объективной  меры.

    Суть  этого 

подхода  заключается  в  попытке  найти  такой  набор  весов,  который 
минимизировал  бы  акустическое  расстояние  между  синтезированным  и 
эталонным  выражениями.  Для  оценки  близости  требуется  метрика, 
поставляющая  расстояния  между  синтезированными  и  эталонными 
высказываниями.  Высказывания,  воспринимаемые  на  слух  как  сходные, 
должны  иметь  маленькое  расстояние  между  собой.  Для  нахождения 
оптимальных весов достаточно воспользоваться методом линейной регрессии. 

56 

 

Задача определения такой метрики является отдельной проблемой [16]. При 
таком подходе веса могут подбираться индивидуально для каждой единицы 
базового типа. 

Перцепционный.

  Слабое  место  предыдущего  подхода  заключается  в 

том,  что  разработчик  во  многом  полагается  на  акустическую  меру,  которая 
лишь частично соответствует человеческому восприятию. В рамках данного 
подхода  ставится  эксперимент,  в  котором  людей  просят  оценить 
синтезированные  предложения,  а  затем  тренируют  модель  согласно 
полученным оценкам. Очевидный недостаток — большие временные затраты 
и сложность в организации эксперимента. 

Ручная настройка.

 Проектировщик системы полностью полагается на 

свой  опыт.  В  ходе  тестирования  системы  веса  постепенно  уточняются. 
Главное преимущество - полный контроль над процессом. 

Очевидным плюсом принципа независимых признаков при построении 

функции стоимости замены является небольшое число подлежащих настройке 
весов (равное количеству используемых признаков). Однако предположение 
независимого влияния весов на общую стоимость является слишком сильным. 
Яркой  демонстрацией  слабости  этого  принципа  является  тот  факт,  что  два 
различных  набора  характеристик  будут  неминуемо  иметь  ненулевое 
расстояние. Это противоречит нашим знаниям о речи, которые как раз говорят 
о  том,  что  различные  комбинации  характеристик  зачастую  проецируются  в 
одну акустическую реализацию. 

 

Принцип акустического пространства 

Главная  идея  этого  подхода  заключается  в  кластеризации  единиц 

базового типа по просодическому и фонетическому контекстам. Блэк и Тэйлор 
предложили следующую схему кластеризации. 

Вводится  объективная  мера  для  измерения  расстояний  между 

единицами одного базового типа. Опять же, выбор подходящей акустической 
меры — отдельное поле для исследований. В своей работе авторы используют 
взвешенное  расстояние  Махаланобиса  на  коэффициентах  MFCC  (

Mel 

Frequency Cepstral Coefficients

), ЧОТ, мощности и их дельтах (производных 

первого порядка). Акустическое расстояние между двумя единицами

U

V,

Adist

— это среднее по всем фреймам внутри единиц плюс среднее по X% фреймов 
единиц,  предшествующих  рассматриваемым  (близкие  единицы  будут  иметь 
сходный левый контекст): 

 

 

 

 

/

1

1

,

,

U

n

j

ij

i V V

j

i

j

j

w F U

F

V

WD U

Adist V U

V

SD n U

 



  

(6.4) 

где 

 

,

U V

 — элементы одного базового класса, 

 

U

V

 — количество фреймов в 

и 

,

V

 

 

 

xy

F U

— признак 

y

 фрейма  

x

 элемента 

,

U

 

57 

 

 

j

SD

 — стандартное отклонение признака

,

j

 

 

j

w

 — вес для признака

,

j

  

 

WD

 — взвешивает разницу в продолжительности элементов.

 

 

Введенная  мера  используется  для  вычисления  «загрязненности»

 

C

Impurity

  кластера 

как  среднего  акустического  расстояния  между 

элементами кластера: 

 

1

2

2

C

C

i

j

i=

j=i

Adist u ,u

Impurity C =

C

C





Затем с помощью стандартной техники деревьев решений кластер разбивается 
на  две  части  наилучшим  образом.  Качество  разбиения 

1,

2

Goodness C C

 

кластера 

C

 на две части 

2

С

и

C

1

 задается формулой 

 

   

   

   

 

2

1

1

2

2

1,

2

1

2

,

.

2

C

C

Adist C T C + Adist C T C

Goodness C C =

T C

T C +T C



 

В  качестве  критерия  разбиения  используются  бинарные  вопросы, 

которые  касаются  характеристик,  применяемых  для  вычисления  стоимости 
замены  (фонетический  контекст,  просодический  контекст  (ЧОТ  и 
длительность для элемента и его соседей), ударение, позиция в слоге, позиция 
в  слове,  позиция  в  предложении).  На  каждом  этапе  выбирается  вопрос, 
дающий лучшее разбиение. Разбиение обычно продолжается до тех пор, пока 
не  будет  достигнут  какой-либо  порог  (например,  минимальное  количество 
элементов в листе). 

6.1.2. 

Стоимость связи 

Основное назначение функции стоимости связи — оценивать, насколько 

хорошо  два  элемента  соединяются  друг  с  другом.  Идеальной  была  бы 
функция,  имеющая  высокую  корреляцию  с  восприятием  речи  слуховой 
системой  человека.  Обычно  общая  стоимость  складывается  из  нескольких 
слагаемых,  основанных  на  спектральных  и  просодических  характеристиках 
фреймов  речи  с  обеих  сторон  соединяемых  элементов.  Как  правило, 
учитываются:  

 1.

 

Разница в ЧОТ. 

 2.

 

Разница в энергии. 

 3.

 

Нестыковка различных спектральных параметров: 
(a)

 

 MFCC (Mel Frequency Cepstral Coefficients); 

(b)

 

 LPC (Linear Predictive Coding Coefficients); 

(c)

 

 LSF (Line Spectral Frequencies); 

(d)

 

 MCA (Multiple Centroid Analisys). 

(e)

 

 

58 

 

Так же, как и при кластеризации речевой базы, вводится акустическая 

мера  на  спектральных  параметрах.  За  последние  годы  было  проведено 
большое  количество  исследований  с  целью  выяснить,  какая  комбинация 
спектральное  представление/метрика  дает  лучшую  корреляцию  с 
человеческим восприятием. К единому мнению по этой проблеме ученые так 
и  не  пришли.  Можно  лишь  отметить,  что  расстояние  Махаланобиса  на 
коэффициентах  MFCC  в  большинстве  тестов  показывает  неплохие 
результаты. 

6.1.3. Поиск по алгоритму Витерби 

Согласно классическому алгоритму Ханта и Блэка [14] общая стоимость 

последовательности элементов из базы 

n

,u

u

=

u

...

1,

 для данной спецификации  

n

t

,

t

=

t

...

1,

  задается  формулой  (6.3).  Эта  формула  дает  стоимость  для  любой 

фиксированной последовательности элементов базы 

n

,u

u

=

u

...

1,

. Цель состоит 

в  том,  чтобы  найти  такую  последовательность,  стоимость  которой  будет 
минимальна.  Задача  поиска  оптимальной  последовательности  сводится  к 
поиску пути наименьшей стоимости на графе. 

Хотя  алгоритм  Витерби  и  превосходит  в  значительной  степени  поиск 

полным перебором (квадратичная оценка против экспоненциальной), в своей 
чистой реализации, и он может не дать необходимой скорости вычислений.  В 
этом  случае  следует  воспользоваться  одной  из  техник  отсечения  (англ. 

pruning

), целью которых является уменьшение количества рассматриваемых 

последовательностей.  При  этом  отсечение  некоторого  подмножества 
последовательностей  приводит  к  риску  исключить  оптимальный  путь,  в  то 
время  как  полный  поиск  по  алгоритму  Витерби  гарантированно  найдет 
траекторию с наименьшей стоимостью. Последствия зависят от того, много ли 
найдется в базе путей, имеющих стоимость близкую к оптимальной. 

Выделяются две основные техники отсечения: предварительный отбор 

(англ. 

pre-selection

) и отсечение лучей (

beam pruning

). В первом случае для 

каждого  элемента  спецификации  отбирается  фиксированное  количество 
лучших кандидатов. Во втором случае рассматривается только фиксированное 
количество локально оптимальных путей. 

Схематично,  процесс  работы  метода  Unit  Selection  представлен  на 

рис.6.2. 

6.1.4. Речевая база и качество синтеза для метода Unit Selection 

Метод Unit Selection критически зависит от речевой базы.  Качественный 

синтез  возможен  только  на  основе  полной,  сбалансированной  и  корректно 
размеченной  базы  данных.  С  ростом  объема  базы  возрастает  темповая  и 
интонационная  вариативность  речи  диктора.  Иными  словами,  чем  больше 
база, тем больше вероятность того, что в ней найдется элемент в необходимом 
контексте  с  необходимой  длительностью  и  контуром  ЧОТ.  Как  следствие, 

59 

 

меньше искажения от цифровой модификации сигнала и выше естественность 
синтезируемой речи.

 

a1

a2

...

ak

a11

a12

...

a1N

1

a21

a22

...

a2N

2

...

...

...

...

ak1

ak2

...

akN

k

- целевой элемент

- элемент-кандидат

- стоимость замены

- стоимость связи

 

Рис. 6.2. Схема работы метода Unit Selection 

 

В  процессе  подготовки  речевой  базы  на  предварительных  этапах 

желательно  проводить  запись  большого  числа  дикторов.  Запись  каждого 
диктора  представляет  собой  чтение  фонетически  представительного  текста. 
Запись  желательно  осуществлять  в  заглушенной  камере  с  использованием 
высококачественных средств записи и оцифровки речевого сигнала. 

Полученные  предварительные  записи  большого  числа  дикторов 

необходимы  для  получения  максимально  качественного  итогового  набора 
дикторов,  голоса  которых  будут  использоваться  в  системе  синтеза  речи. 
Наличие  относительно  широкого  круга  дикторов  на  начальном  этапе 
позволяет осуществить осознанный выбор и минимизировать риск того, что 
голос того или иного диктора окажется малопригодным для использования в 
системе синтеза речи. 

Отобранные  на  предварительном  этапе  дикторы  используются  для 

записи больших звуковых баз данных, которые в дальнейшем сегментируются 
на различных уровнях анализа. В такой ситуации ошибка в выборе диктора на 
поздних этапах может вылиться в существенные материальные и временные 
затраты. 

Для  повышения  качества  синтеза  база  сегментируется  на  разных 

уровнях.  В  качестве  меток  используются  реальная  и  каноническая 
транскрипции,  орфографические  слова  с  отметками  логического  и 
синтагматического  ударения,  типы  интонационных  контуров.  Также 
размечаются речевые явления: смех, кашель, причмокивания и др. 

В целом, при использовании корректно размеченной, сбалансированной 

базы, качество синтезируемой речи можно субъективно охарактеризовать как 
очень хорошее.  Однако оно не является постоянной величиной. В какой-то 
степени  такое  поведение  заложено  в  самой  технологии:  когда  на  выходе 
образуются  немодифицированные  фрагменты  непрерывной  речи,  качество 

60 

 

будет соответствовать записям базы. С другой стороны, в базе просто может 
не быть хороших соответствий спецификации. И в этом случае синтез будет 
звучать менее естественно, с заметными искажениями. 

 

6.1.5. Основные сложности и ограничения применения метода 
Unit Selection 

Как  уже  отмечалось  выше,  качество  синтеза  методом  Unit  Selection  в 

большой степени зависит от качества используемой речевой базы. Одним из 
ключевых  факторов  является  размер  базы.  Чем  больше  размер  базы,  тем 
больше  имеется  вариантов  для  синтеза,  тем  выше  вероятность  гладкой 
стыковки  фрагментов.  С  другой  стороны,  с  увеличением  базы  возрастают 
затраты на вычисление стоимостей связи и замены, поэтому для устройств с 
ограниченными вычислительными ресурсами приходится идти на компромисс 
между производительностью и качеством. 

6.2. 

Сглаживание энергетической огибающей 

На данном этапе происходит выравнивание энергетической огибающей 

полученной  звуковой последовательности.  В  силу  ограниченности  звуковой 
базы  данных  довольно  часто  возникают  ситуации,  когда  один  звук  гораздо 
громче или гораздо тише соседнего. Данные разногласия в амплитуде будут 
восприниматься  слушателем  как  неестественные  артефакты.  Пример  такой 
ситуации представлен на рис. 6.3. 

 

 

Рис. 6.3. Нарушение энергетической гладкости сигнала 

Исправление  подобных  ситуаций  происходит  путём  плавного 

приведения  амплитуды  более  громкого  звука  к  более  тихому.  Результатом 
работы  данного  этапа  для  примера,  представленного  на  рис.6.3,  будет 
следующий звуковой сигнал (рис.6.4). 

61 

 

 

Рис. 6.4. Обеспечение энергетической гладкости 

6.3

. Модификация звуковых элементов 

На  данном  этапе  происходит  исправление  темпо-ритмических  и 

частотных  артефактов  [17],  проявляющихся  в  нарушениях  плавности 
интонационной  огибающей  сигнала  и  ритмических  соотношений  между 
элементами в звуковой последовательности, которые также воспринимаются 
слушателем, как неестественные образования в потоке речи. 

Корректировка происходит путём модификации длительности и частоты 

основного  тона  отдельных  звуковых  единиц,  длительность  или  частота 
основного  тона  которых,  выходит  за  границы  предсказанного  допустимого 
коридора для данной конкретной фразы, интонационной модели и диктора. 

6.3

.1.Алгоритм TD-PSOLA 

Широко  распространены  алгоритмы,  работающие  во  временной 

области,  наиболее  популярным  из  которых  является  технология  TD-PSOLA 
(Time-Domain  Pitch-Synchronous-Overlap-Add)  [18].  Данный  алгоритм 
работает  периодосинхронно,  т.е.  каждый  обрабатываемый  фрагмент 
представляет собой один период. Обязательным условием для этого является 
возможность  определить  частоту  основного  тона  сигнала  с  высокой 
точностью, т.к. от этого напрямую зависит качество работы этого алгоритма. 
Границами периодов основного тона служат места закрытия гортани. Далее 
сигнал  разбивается  на  фрагменты,  взвешенные  окном  Хеннинга,  которое 
захватывает два соседних периода с перекрытием в один период, как показано 
на рис. 6.5. 

Эти  взвешенные  фрагменты  затем  могут  быть  перекомбинированы 

путём  перемещения  их  центров  и  наложением  с  добавлением 
перекрывающихся частей (отсюда и название, 

overlap and add

 – перекрытие 

и  добавление).  Несмотря  на  то,  что  после  выполнения  данных  операций, 
форма результирующего сигнала становится не в точности такой, какая была 

62 

 

прежде, процедура перекрытия с добавлением позволяет получить достаточно 
близкий результат, что бы различия не были заметны. 

Непосредственная модификация частоты основного выполняется путём 

распределения полученных взвешенных фреймов на новые значения частоты, 
предоставляющей  собой  множество  расстояний  между  окнами  им 
соответствующее.  Для  примера  рассмотрим  участок  речи  с  частотой 
основного тона 100Гц, границы периодов буду лежать с интервалом в 10мс. 
Взяв  эти  периоды  за  основу,  проанализируем  их  и  разделим  на  описанные 
выше периодосинхронные фрагменты, взвешенные окнами Хеннинга. Далее 
создадим  новое  множество  периодов,  границы  которых  буду  располагаться 
ближе друг к другу, скажем через каждые 9мс. Далее, если перераспределить 
подготовленные  фреймы  путём  перекрытия  с  наложением,  мы  получим 
сигнал,  который  будет  иметь  частоту  основного  тона,  равную  1.0/0.009  = 
111Гц. Если производить обратную операцию – создать множество периодов, 
границы  которых  будут  располагаться  дальше  друг  от  друга,  и 
перераспределить  фреймы  с  перекрытием,  мы  получим  синтезированный 
сигнал  с  более  низкой  частотой  основного  тона.  Процедура  уменьшения 
частоты  основного  тона  частично  объясняет  причину  использования  двух 
периодов во взвешенных фреймах; это делается для того, чтобы не оставалось 
пустых  мест  в  результирующем  сигнале  при  увеличении  расстояния  между 
центрами фреймов. 

При  сохранении  длительности  фонограммы,  в  целом  слушатели  не 

замечают неестественностей в сигнале при небольших модификациях частоты 
основного тона. 

Когда алгоритм применяется для модификации хорошо размеченной на 

периоды  основного  тона  речи,  качество  его  работы  чрезвычайно  высоко,  и 
пока  степень  изменения  частоты  основного  тона  не  слишком  значительна 
(скажем +/- 10% от оригинала), качество речи может быть «идеальным», в том 
смысле, что слушатель не может заметить в речи какой-то неестественности. 
С  точки  зрения  вычислительной  нагрузки  на  аппаратные  ресурсы,  сложно 
представить  какой-либо  алгоритм,  работающий  быстрее.  Поэтому  зачастую 
TD-PSOLA  рассматривается  как  приемлемое  решение  для  проблемы 
модификации частоты основного тона. Однако, конечно алгоритм не идеален 
во многих ситуациях, не потому, что он не выполняет поставленную задачу, а 
потому,  что  на  практике,  как  минимум,  нам  приходится  модифицировать 
частоту  основного  тона  более  чем  на  10%,  например,  чтобы  гарантировать 
гладкость  интонационного  контура  в  синтезированной  речи  в  случаях 
отсутствия звуковых элементов с требуемой частотой в базе данных. Так же, 
работая  во  временной  области,  он  вносит  неконтролируемые  искажения  в 
сигнал  и,  при  уменьшении  частоты  основного  тона,  существенно 
редуцируется энергия на границах "склеек" фреймов. 

63 

 

 

Рис.6.5. Основные операции алгоритма PSOLA: 

(a)

 

участок  вокализованного  сигнала,  размеченный  на  периоды  основного 
тона,  (b)  взвешивающие  окна  Хеннинга,  центрированные  на  каждом 
периоде.  (c)  полученная  последовательность  пар  периодов  после 
процедуры взвешивания окном (d) ресинтезированный путём перекрытия 
с добавлением сигнал

 

6.3.2. 

Алгоритм SPECINT (

Spectrum Interpolation

В  связи  с  психоакустическими  эффектами  малейшие  искажения  в 

относительном  положении  формант,  изменения  огибающей  основного  тона, 
ведут к побочным эффектам, из-за которых речь становится неестественной, 
непривычной  для  нашего  восприятия,  как  следствие  человек  при  её 
прослушивании быстро утомляется и не может длительное время внимательно 
её  воспринимать.  Вследствие  этого  одним  из  основополагающих  действий 
является  получение  огибающей  основного  тона  исходного  сигнала  и  её 
воспроизведение на сигнале новой длины. 

64 

 

Немаловажно  сохранение  энергетической  огибающей,  поскольку  при 

увеличении или уменьшении частоты основного тона появляются неизбежные 
её искажения, что также приводит к снижению естественности речи. 

Перед  тем  как  понизить,  или  повысить  основной  тон,  увеличить,  или 

уменьшить длительность, необходимо получить значения основного тона на 
всём  модифицируемом  участке.  При  модификации  изменить  требуемые 
характеристики  аллофонов  так,  чтобы  траектория  основного  тона  осталась 
прежней, т.е. измениться должен только масштаб (частоты и времени), иначе 
при малейшем изменении спектральной картины мы услышим режущие слух, 
новые интонации в речи даже при незначительных модификациях. 

Для  этого  анализируется  сигнал  с  целью  получения  вектора  значений 

частоты основного тона на всём его протяжении. В системе синтеза русской 
речи это аллофон. То есть на каждом периоде аллофона вычисляется значение 
его основного тона, заполняется некоторый массив данных (вектор значений). 
Далее  полученная  огибающая  изменяется  по  тону  (поднимается  или 
опускается),  затем  путём  сплайн-интерполяции  она  растягивается  или 
сжимается  на  требуемую  длину.  В  итоге  получаем  модель  аллофона  после 
модификации, под которую мы должны модифицировать исходный аллофон.  

 

Модификация сигнала посредством периодосинхронного 

дискретного преобразования Фурье

 

Модификация сигнала под требуемую модель происходит следующим 

образом  [19].  Каждый  период  модифицируется  под  параметры, 
смоделированные  выше.  Рассмотрим  этот  процесс  на  примере  некоторого 
периода. Путём дискретного преобразования Фурье получаем спектр сигнала, 
рассматриваем отдельно вещественные и мнимые его составляющие (рис. 6.6 
и рис. 6.7 соответственно). 

 

 

Рис.6.6. Вещественная часть сигнала после ДФП (до и после интерполяции) 

Очевидно, что в спектральной области мы  получим пики на частотах, 

кратных  частоте  периода.  Далее  мы  интерполируем  пики  на  весь  диапазон 
частот,  равный  половине  частоты  дискретизации,  и  вычисляем  значения 
сплайнов в точках, соответствующих пикам нового периода. Далее, выполнив 

65 

 

обратное дискретное преобразование Фурье, мы получим период с требуемой 
частотой.

 

 

Рис.6.7. Мнимая часть сигнала после ДФП (до и после интерполяции) 

Однако  при  таком  подходе  без  дополнений  мы  не  можем 

контролировать  амплитуду  результирующего  сигнала.  Точнее  огибающая 
амплитуды у нас сохранится, но абсолютное её значение будет отличным от 
исходного, что сделает сигнал громче или тише, т.к. этот параметр напрямую 
зависит  от  того,  повышается  или  понижается  основной  тон.  С  увеличением 
частоты  основного  тона  амплитуда  уменьшается,  с  уменьшением  — 
увеличивается. 

Для  сохранения  исходных  величин  амплитуды  вычисляется 

нормирующий  коэффициент,  на  который  домножаются  значения 
коэффициентов вещественной и мнимой части. В результате получаются пики, 
находящиеся  на  огибающей,  которая  нормирована  таким  образом,  чтобы 
после обратного ДФП получились те же значения амплитуд, как и в исходном 
сигнале (рис. 6.8 и рис. 6.9).

 

 

Рис.6.8. Вещественная часть спектра сигнала после ДФП (до и после 

интерполяции с нормировкой) 

Спектры  мощности  сигнала  до  и  после  модификации  отображены  на 

рис.6.10.  Из  рисунка  легко  заметить,  что  период  был  модифицирован 
примерно со 115Гц на 155Гц. Его поведение во временной области показано 
на рис. 6.11.

 

66 

 

 

Рис.6.9. Мнимая часть спектра сигнала после ДФП (до и после интерполяции 

с нормировкой) 

Со  всеми  остальными  периодами  сигнала  производится  аналогичные 

действия. 
 

 

Рис.6.10. Спектры мощности исходного и модифицированного сигнала 

 

Рис.6.11. Один период во временной области (слева — исходный, справа — 

после модификации) 

 

Модификация длительности 

Изменения основного тона приводят к изменению длины аллофона, звук 

которого 

подвергается 

модификации. 

Это 

обуславливает 

потерю 

 

 

 

 

 

 

 

содержание      ..      1      2      3      ..