close

Вход

Забыли?

вход по аккаунту

?

Математические методы фонемной классификации речевых команд.

код для вставкиСкачать
Информационные технологии
УДК 519.6
О.Ф. Ковалев, И.Ю. Беликов
МАТЕМАТИЧЕСКИЕ МЕТОДЫ
ФОНЕМНОЙ КЛАССИФИКАЦИИ РЕЧЕВЫХ КОМАНД
Рассматриваются методы построения классификации речевых
команд на основе фонем. Приведен алгоритм ускоренного вычисления
вейвлет-преобразований Хаара и способ использования нечеткой логики в
задаче классификации.
Классификации речевых команд, вейвлет-преобразование, нечеткая логика.
O.F. Kovalev, I.U. Belikov
MATHEMATICAL METHODS PHONEME CLASSIFICATION OF SPEECH TEAM
The article is devoted to the problem of classification human speech based
on phonemes. Also described the algorithm of fast wavelet transform Haar. The
paper shows a way for used fuzzy logic for classification one-dimension signal.
Classification human speech, wavelet transform, fuzzy logic.
Особый интерес в задачах классификации речевой информации представляет способ
извлечения команд из непрерывной речи. Существует множество проблем, которые связаны
как с физиологическими особенностями формирования человеческой речи, так и со способом
анализа речевого сигнала. В качестве такого метода широко используется преобразование
Фурье [2]. Но они удобны для классификации отдельных команд, сегментированных на
определенные участки. Вычисления Фурье дают усредненную оценку частотной области во
времени. В качестве анализируемых процессов речи человека выступают гласные фонемы.
Поэтому фонемный анализ непрерывной речи является перспективной задачей. Фонемы отличаются друг от друга по отношению частоты основного тона на резонансные частоты фонем [3]. Такой анализ становиться возможным благодаря непрерывному вейвлетпреобразованию [3], которое дает точную оценку частоты в определенный отсчет времени:
∞
C (k , t ) = k ∫ f ( y )ψ (k ( y − t ))dy ,
−∞
(1)
где С(k,t) – коэффициенты вейвлет-разложения сигнала f(y); Ψ – базисная вейвлет-функция.
В качестве базисной функции используется вейвлет Хаара.
Хотя он и не обладает гладкостью, его свойств достаточно для точного определения
резонансных частот в речевом сигнале. Выполняя непрерывное вейвлет-преобразование
Хаара в области частот от 60 Гц до 3 кГц, можно выделять частоту основного тона и резонансные частоты.
Частота основного тона приходится на первый резонанс в фонеме [4]. Для получения
полной информации о фонеме достаточно первые три-четыре резонансные частоты.
На рис. 1, приведена частотно-временная зависимость на основе коэффициентов вейвлетпреобразования Хаара. По оси абсцисс откладываются отсчеты времени, по оси ординат – частота,
в виде коэффициентов масштабирования вейвлет-функции. В качестве речевого сигнала анализируются фонемы ‘а’ и ‘е’. Области, закрашенные темным цветом, являются максимальными значениями вейвлет-коэффициентов, т.е. областями резонансных частот.
229
Вестник СГТУ. 2011. № 4 (62). Выпуск 4
Рис. 1. Вейвлет-преобразование Хаара фонем ‘а’ и ‘е’
Рис. 2. Уровни вейвлет-преобразования Хаара
Функция Хаара определяется следующим выражением [5]:
0 < t < 1/2
1,

Ψ(t) =  − 1, 1/2 < t < 1
(2)
 0,
t < 0, t > 1.

Для постоянного выполнения вейвлет-преобразования Хаара, при обработке речевого
сигнала, формула (1) не является удобной. Это обусловлено ресурсоемкими вычислениями.
На рис. 2 представлен вид функции Хаара, для выполнения вейвлет-преобразования по уровням от 1 до m.
В соответствии с формулой (2) и рис. 2 можно записать алгоритм преобразования в виде:
S n = S n −1 + f (−n) − f (n),
(3)
S n = S n − f (− n) + 2 f (0) − f (n),
(4)
где S n – значение вейвлет-коэффициента; f (n) – значение функции Хаара на данном отсчете сигнала.
Представленный алгоритм в виде сумм и разностей от предыдущих вычислений (3),
позволяет уменьшить время на вычисление вейвлет-коэффициентов. Необходимым условием
данного алгоритма в задачах анализа речевых сигналов является наличие первоначального
230
Информационные технологии
окна для просчета данных. Затем это окно сдвигается на один шаг, и пересчитываются значения коэффициентов вейвлет-преобразования на границах и середине области определения
функции Хаара (4). В процессе выполнения данных преобразований, необходимо искать резонансные колебания в области определения фонемы. Под этой областью следует понимать
максимально возможную длину гласной фонемы. После нахождения резонансных частот в
области определения высчитываются их отношения по формулам:
∆F1 = F1 / FT ; ∆F 2 = F 2 / FT ; ∆F 3 = F 3 / FT ,
(5)
где ∆Fn – отношение соответствующей частоты к частоте основного тона FT .
Полученные отношения для каждой из гласных фонем могут быть использованы в качестве дикторонезависимых параметров классифицирующей системы [3]. На сегодняшний
день, в задачах классификации активно используются нейронные сети и нечеткая логика[1].
Нечеткую логику в задачах фонемной классификации, можно использовать при помощи нечетких правил вхождения в функцию принадлежности. Для данной задачи целесообразно
использовать Т-норму функции принадлежности, с небольшой областью вхождения, вычисляемой экспериментально.
Вершины Т-функций принадлежности для каждой из фонемы получаются по формулам (5).
Рис. 3. Т-функции для фонем ‘а’ и ‘е’
Не исключено, что некоторые области для разных фонем могут пересекаться, поэтому
используя нечеткую систему правил необходимо вычислять вероятность принадлежности к
фонемному классу. Используемая Т-функция имеет вид:

 0,
u ≤ a , u ≥ c,

u-a
(6)
µ (u ) = 
, a < u ≤ b,
b
a

c- u
 c - b , b < u < c.
Здесь (a,c) – носитель нечеткого множества, b – координата максимума.
Представленные методы и алгоритм быстрого вейвлет-преобразования Хаара, позволяют определить зависимость отношений резонансных частот в фонеме, обеспечить выполнение дикторонезависимой классификации формантных частот на основе гласных фонем в
слитной речи. Особый интерес представляет реализация данных методов и алгоритма на программируемых логических интегральных схемах (ПЛИС).
231
Вестник СГТУ. 2011. № 4 (62). Выпуск 4
ЛИТЕРАТУРА
1. Штовба С.Б. Проектирование нечетких систем средствами MATLAB / С.Б. Штовба// М: Горячая линия-Телеком, 2007. 288 с.
2. Сергиенко А.Б. Цифровая обработка сигналов / А.Б. Сергиенко // СПб: Питер, 2003. 608 с.
3. Рассказова С.И. Метод формантного анализа на основе вейвлет-преобразования в системах распознавания речи/ С.И. Рассказова // Сб.тр. МГТУ им. Н.Э. Баумана. 2007. С. 38-43.
4. Леонов А.С. К анализу резонансных частот речевого тракта / А.С. Леонов, В.Н. Сорокин // Сб.тр. МИФИ. Информационные процессы. Т.7. 2007. С. 386-400
5. Уэлстид С. Фракталы и вейвлеты в действии/ С. Уэлстид//М: Триумф, 2003. 320 с.
6. Беликов И.Ю. Активные агенты и нейронная сеть на базе ПЛИС / И.Ю. Беликов,
О.Ф. Ковалев // Математические методы в технике и технологиях : сб трудов международной
научной конференции . Т.10. 2010. С. 46-47.
Ковалев Олег Федорович –
доктор технических наук, профессор, заведующий кафедрой «Электронные вычислительные
машины» Южно-Российского государственного технического университета
Беликов Иван Юрьевич –
ассистент кафедры «Электронные вычислительные машины» Южно-Российского государственного технического университета
Статья поступила в редакцию 9.07.11, принята к опубликованию 5.10.11
232
Документ
Категория
Без категории
Просмотров
8
Размер файла
303 Кб
Теги
метод, речевые, математические, команды, фонемной, классификация
1/--страниц
Пожаловаться на содержимое документа