close

Вход

Забыли?

вход по аккаунту

?

Об эффективности РАЗЛИЧНЫХ ПОДХОДОВ К СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ОБНАРУЖЕНИЯ ПАУЗ..pdf

код для вставкиСкачать
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика.
187
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
УДК 621.391
ОБ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ ПОДХОДОВ
К СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ОБНАРУЖЕНИЯ ПАУЗ
Е.Г. ЖИЛЯКОВ
С.П. БЕЛОВ
А.С. БЕЛОВ
А.А. ФИРСОВА
А.В. ГЛУШАК
Белгородский
государственный университет
e-mail: Zhilyakov@bsu.edu.ru
1
В статье приведена сравнительная оценка эффективности
ряда существующих методов сегментации речевых сигналов на
основе обнаружения пауз и метода, основанного на принципе
учета отличий распределения энергии речевого сигнала по частотному диапазону, соответствующего звуку, по сравнению с
распределением энергии сигнала в паузе.
Ключевые слова: речевой сигнал, анализ речевого сигнала, модель VAD, алгоритм обнаружения пауз, частотные представления.
Одним из этапов обработки речевых сигналов в современных информационно-телекоммуникационных системах, широко используемых в различных приложениях, является их сегментация на основе обнаружения пауз [1].
При этом в качестве основного критерия эффективности применяемых методов достаточно часто используется мера достоверности принятия решения о наличии
паузы в обрабатываемом речевом сигнале, которая количественно может быть оценена вероятностями «ложной тревоги» или «пропуска цели».
В статье, на основе указанного критерия, проводится сравнительная оценка
эффективности ряда существующих методов обнаружения пауз и метода, основанного на принципе учета отличий распределения энергии речевого сигнала по частотному диапазону, соответствующего звуку, по сравнению с распределением энергии
сигнала в паузе.
Широкое применение в информационно-телекоммуникационных системах
нашли алгоритмы Voice Activity Detector (VAD). Реализация алгоритмов VAD основана на различиях речевого сигнала и шума. При этом основное внимание уделяется
следующим особенностям:
1) речь является нестационарным сигналом;
2) фоновый шум стационарен на более длинном отрезке времени по сравнению с речью;
3) уровень речевого сигнала обычно выше уровня фонового шума.
Одной из простейших реализаций VAD является принятие решение о наличии
или отсутствии полезного сигнала на основе сравнения уровня энергии фрагмента
сигнала с энергетическим порогом. Но такая реализация алгоритма целесообразна
лишь в том случае, когда уровень фонового шума низкий по сравнению с уровнем
сигнала, порождаемого звуками речи. Уровень фонового шума может меняться в течение времени. В этом случае используются более сложные алгоритмы. В системах
GSM и IP-телефонии в алгоритмах VAD обработка сигнала осуществляется в частотной области. При приятии решения о наличии или отсутствии полезного сигнала используются особенности спектральных характеристик речи и шума [2, 3, 4].
В алгоритмах VAD широко используются коэффициенты автокорреляции для
определения энергетического уровня сигнала и его стационарности. Решение о нали-
1
Исследования выполнены при финансовой поддержке гранта РФФИ № 10-07-00326-а
188
Серия История. Политология. Экономика. Информатика.
НАУЧНЫЕ ВЕДОМОСТИ
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
чии речевого сигнала принимается в том случае, если энергия сигнала превышает
пороговое значение и сигнал является нестационарным.
Для определения, является ли сигнал стационарным или нет, средний спектр,
представленный усредненными автокорреляционными LPC-параметрами А, сравнивается со средними значениями автокорреляции сигнала, вычисленными в текущем
фрейме с использованием уравнения:
p
r (i)
Df n = An (0)rn (0) + 2 ∑ An (i ) n ,
(1)
rn (0)
i =1
N −i
r (i) = ∑ x (k ) x (k + i) ,
(2)
A(i) = ∑ a (k )a (k + i) ,
(3)
k =0
p −i
k =0
где Dfn – средние значения автокорреляции сигнала, вычисленные для n-го отрезка;
rn(i) – коэффициенты автокорреляции n-го отрезка входного сигнала;
An(i) – коэффициенты автокорреляции средних LPC-параметров n-го отрезка;
p – порядок модели;
i – изменяется от 0 до p;
N – длина окна анализа;
x – анализируемый сигнал;
a – средние LPC-параметры, рассчитываемые на основе средних коэффициентов
автокорреляции с использованием алгоритма Дурбина.
Если абсолютное значение разности между значениями Df текущего и предыдущего фреймов больше, чем установка порога, текущий фрейм считается нестационарным, иначе – стационарным [2, 3, 5].
Так как речевой сигнал может быть спектрально стационарным длительное
время, для различения речи и фонового шума в качестве индикатора используется
периодичность речи. Значения задержек LTP сравниваются с наименьшим значением задержки. Если оставшиеся задержки очень близки к минимальной задержке,
фрейм считается периодическим, в противном случае – апериодическим [2].
Для определения энергии сигнала возбуждения также могут использоваться
коэффициенты автокорреляции:
p
E = A(0) r (0) + 2 ∑ A(i) r (i) ,
i =1
(4)
где E – остаточная энергия;
r(i) – коэффициенты автокорреляции входного сигнала;
A(i) – коэффициенты автокорреляции средних LPC-параметров;
p – порядок модели.
Пороговые значения энергии и разницы между значениями Df текущего и
предыдущего фреймов определялись на основе анализа обучающей выборки сигнала, относящегося к шуму. Для определения пороговых значений отрезок шума разбивался на фрагменты одинаковой длины N (64, 128 отсчетов) со сдвигом 5 отсчетов
(всего для анализа использовалось 400 фрагментов). Для каждого фрагмента вычислялись значения остаточной энергии E (4) и средние значения автокорреляции Df (1).
В качестве энергетического порога выбиралось максимальное значение остаточной
энергии среди фрагментов шума, используемых на этапе обучения. В качестве порога
для принятия решения о стационарности выбиралось максимальное значение из полученных на этапе обучения абсолютных величин разностей между Df соседних
фрагментов.
Исследование эффективности работы метода проводилось для различных
значений порядка модели предсказания p=2? 30. Решение об отсутствии паузы принимается в том случае, если рассчитанное значение остаточной энергии сигнала E (4)
Серия История. Политология. Экономика. Информатика.
НАУЧНЫЕ ВЕДОМОСТИ
189
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
и абсолютное значение разности между Df текущего и предыдущего фреймов больше
пороговых значений.
Оценка эффективности работы алгоритма осуществлялась на основе определения вероятностей ошибок первого и второго рода. При этом за основную принималась гипотеза о наличии паузы. В этом случае Рл.т. – вероятность ошибки «ложная
тревога» (когда основная гипотеза о наличии паузы ошибочно отвергается), а Рп.ц. –
вероятность ошибки «пропуск цели» (когда основная гипотеза о наличии паузы
ошибочно принимается).
Вероятность принятия ошибочного решения определялась в два этапа. На
первом этапе анализировался фрагмент сигнала, относящийся к паузе, отличающийся от обучающей выборки. Вероятность ошибки «ложная тревога» определялась как:
Pл.т. = 1 − N o / N п ,
(5)
где N o. – количество отрезков, отнесенных к паузе,
N п – количество отрезков паузы.
На втором этапе анализировался фрагмент сигнала, относящийся к речи. Вероятность ошибки «пропуск цели» определялась как:
Pп.ц. = N o / N р ,
(6)
где N o – количество отрезков, отнесенных к паузе,
N р – количество отрезков речевого сигнала.
Для определения значения вероятности Pл.т. анализировалось 3992 отрезка.
Для определения значения вероятности Pп.ц. анализировалось 3843 отрезка. В табл. 1
представлены результаты исследования работы алгоритма VAD при различных значениях длины окна анализа для значения порядка фильтра равного 8, которое наиболее часто используется в фильтрах линейного предсказания [2].
Таблица 1.
Оценка вероятности принятия
ошибочного решения алгоритма VAD
Параметры
1
p=8
Рл.т.
N=64
2
0,16
N=128
3
0,15
N=64
4
0,00
Рп.ц.
N=128
5
0,00
Основную опасность при обработке сигнала представляют ошибки «пропуск
цели», поэтому при разработке алгоритма VAD главным является, чтобы вероятность
Рп.ц. была минимальна, при этом вероятность Рл.т., чаще всего выбирается достаточно
большой.
Таким образом, рассмотренный метод имеет достаточно большое значение
Рл.т., что не позволяет минимизировать объем передаваемых данных и приводит к
тому, что сегментация не является достоверной.
Исследования тонкой структуры энергетического спектра речевого сигнала в
частотной области позволили установить, что энергия звуков речи распределена неравномерно и, сосредоточена в достаточно узких частотных интервалах, в то время
как энергия отрезка сигнала, принадлежащего паузе, распределена равномерно во
всем анализируемом частотном диапазоне. В связи с этим, в работе предлагается в
качестве процедуры обнаружения пауз использовать метод, основанный на принципе
учета отличий распределения энергии речевого сигнала по частотному диапазону,
соответствующего звуку, по сравнению с распределением энергии сигнала в паузе.
190
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика.
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
Для анализа особенностей речевых сигналов можно использовать метод вычисления точных значений долей энергии, попадающих в заданный частотный интервал [6].
Полный набор долей энергии отрезка сигнала можно определить следующим
образом:
r
r
Pr = x T Ar x ,
(7)
r
x
где: – анализируемый отрезок сигнала;
r – номер частотного интервала, изменяющийся от 1 до R;
Ar – субполосная матрица, рассчитанная для r-го частотного интервала:
Ar = aikr
{ }
aikr = (sin( v r +1 (i − k )) − sin( vr (i − k ))) /(π (i − k )) , i,k = 1,…,N,
(8)
где vr , v r +1 – границы r-ого частотного интервала, причем:
0 ≤ v r < v r +1 ≤ π , r=1,…,R,
(9)
vr +1 − vr = π / R ,
(10)
где R – количество частотных интервалов, на которые разбивается частотная ось.
Для принятия решения о наличии или отсутствии паузы вычисляется решающая функция для проверки гипотезы о том, что анализируемый отрезок сигнала
соответствует паузе между звуками речи (основная гипотеза) [7]:
m
W NR = f NR
/R,
(11)
m
где f NR – минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии m звукового отрезка, т.е.:
m
m
f NR
= min d NR
(12)
Здесь выполняется неравенство:
m
d NR
N
r 2
2
∑ P( k ), N ≥ m x N = m ∑ x i
(13)
k =1
i =1
r
где x N – анализируемый отрезок сигнала,
m – заданное значение доли энергии сигнала,
P( k ), N – упорядоченные по убыванию доли энергий сигнала, попадающих в заданные частотные интервалы, т.е.:
P( k ), N ∈ {PrN , r = 1,..., R} P( k +1), N ≤ P( k ), N , k=1,…,R
(14)
P
где rN – доли энергий сигнала, попадающих в заданные частотные интервалы, определяемые с помощью (7).
Если выполняется неравенство:
WNR < wпор,
(15)
то основная гипотеза отвергается, в противном случае принимается решение о
наличии паузы.
wпор в (15) – пороговое значение, которое выбирается на основе анализа особенностей распределения долей энергии звуков речи и шума [7]. Анализ особенностей распределения энергии по частотным интервалам звуков русской речи показал,
что все звуки речи имеют различное распределение долей энергии по частотным интервалам, при этом основная энергия сигнала сосредоточена в узком частотном диапазоне. В данной работе представлены результаты экспериментов для пороговых
значений wпор=0,4 и wпор=0,5.
Для оценки эффективности метода анализировались отрезки одинаковой
длины N (64, 128 отсчетов). В данной работе проводились эксперименты при различных значениях количества частотных интервалов, на которые разбивается частотная
ось R: 16, 32, 64; и значения заданной доли энергии m=0,80? 0,99.
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика.
191
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
Оценка вероятностей Рл.т. (когда основная гипотеза о наличии паузы ошибочно отвергается) и Рп.ц. (когда основная гипотеза о наличии паузы ошибочно принимается) осуществлялась, так же как и при исследовании эффективности алгоритма VAD
(5), (6).
Сравнение результатов работы алгоритма показывает, что при наименьшей
вероятности Рп.ц. меньшее значение вероятности Рл.т. достигается при N=128, R=32,
wпор=0,5, m=0,96. В табл. 2 представлены результаты экспериментов при некоторых
параметрах модели.
Таблица 2
Оценка вероятности принятия ошибочного решения
алгоритма без обучения при N=128 R=32
Параметры
1
m=0.96
wпор =0,4
2
0,02
Рл.т.
wпор =0,5
3
0,15
Рп.ц.
wпор =0,4
4
0,06
wпор =0,5
5
0,00
Сравнение работы рассмотренного метода с работой алгоритма VAD показывает, что на различных участках сигнала рассмотренный алгоритм может работать с
меньшим значением вероятности ошибки. Но этот метод существенно зависит от типа шума и особенностей речевого аппарата диктора, и на некоторых участках он работает хуже алгоритма VAD. Для анализируемого фрагмента вероятность Рл.т. для
wпор =0,5, m=0,96 (Рп.ц. ≈0, Рл.т. ≈0,15) такая же, как и вероятность Рл.т. алгоритма VAD
(Рп.ц. ≈0, Рл.т.≈0,15).
Другой способ обнаружения пауз заключается в использовании процедуры
обучения на основе анализа особенностей распределения долей энергии по частотным интервалам в паузе.
На этапе обучения для отрезков сигнала, заведомо относящихся к шуму, оцениваются характеристики вида [6]:
Ny
PrП = ∑ ( Pr ) kП / N y ,
k =1
(16)
где N y – количество отрезков сигнала в паузе, которые используются для усреднения
(обучения), что соответствует оцениванию математических ожиданий вычисляемых
долей энергий в соответствующих частотных интервалах;
( Pr ) kП – доли энергий в соответствующих частотных интервалах для N y отрезков
обучающей выборки.
В данном случае решающая функция имеет вид:
S = max Pr / PrП , ∀r = 1,..., R ,
(17)
(
)
где Pr – доли энергий, попадающих в заданные частотные интервалы (7);
PrП – результаты предварительного усреднения по достаточно большому количеству отрезков сигнала, заведомо относящихся к паузам, долей энергий, попадающих
в заданный частотный интервал (16):
Если выполняется неравенство:
S > hα,
(18)
где hα – порог, обеспечивающий заданный уровень вероятности ложной тревоги α на
обучающей выборке,
то основная гипотеза о наличии паузы отвергается, в противном случае принимается решение о наличии паузы.
Для определения значения порога используется обучающая выборка относящихся к паузе данных. При этом после вычислений оценок математических ожида-
192
Серия История. Политология. Экономика. Информатика.
НАУЧНЫЕ ВЕДОМОСТИ
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
ний вида (17) вычисляются оценки математического ожидания и дисперсии решающей функции [6]:
Ny
S П = ∑ ( S kП ) / N y ,
(19)
D П2 = ∑ ( S kП ) 2 / N y − S П2 ,
(20)
k =1
Ny
k =1
П
где S k – значение решающей функции на k-ом анализируемом отрезке заведомо относящихся к паузе данных;
N y – количество отрезков сигнала обучающей выборки заведомо относящихся к
паузе.
Пороговое значение, обеспечивающее заданный уровень вероятности ложной
тревоги α на обучающей выборке, определяется на основе неравенства:
hα ≤ S П + D П / a m α ,
(21)
где α – вероятность ложной тревоги, задаваемая на этапе обучения;
S П – математическое ожидание решающей функции;
D П – дисперсия решающей функции;
a m – коэффициент, превышающий значение 2 и определяемый в процессе обучения [7].
В качестве обучающей выборки использовалось 400 отрезков сигнала, соответствующего паузе. Отрезки были получены в результате разбиения сигнала на окна
одинаковой длины N (64, 128 отсчетов) с шагом 5 отсчетов.
Для оценки эффективности метода анализировались отрезки одинаковой
длины N (64, 128 отсчетов). В данной работе проводились эксперименты при различных значениях количества частотных интервалов, на которые разбивается частотная
ось R: 16, 32, 64.
Оценка вероятностей Рл.т. (когда основная гипотеза о наличии паузы ошибочно отвергается) и Рп.ц. (когда основная гипотеза о наличии паузы ошибочно принимается) осуществлялась, так же как и при исследовании эффективности алгоритма VAD
(5), (6).
В табл. 3 представлены результаты экспериментальной оценки вероятностей
ошибок «ложная тревога» и «пропуск цели».
Таблица 3
Оценка вероятности принятия ошибочного решения
алгоритма с обучением N=128 R=32
Параметры
1
α=0,00002
Рл.т.
2
0,02
Рп.ц.
3
0,00
Сравнение результатов работы алгоритма VAD, алгоритма без обучения и алгоритма с обучением показало, алгоритм обнаружения пауз с обучением дает наименьшее значение вероятности Рл.т. при условии, что вероятность Рп.ц. для всех исследованных алгоритмов одинакова. Так для алгоритма с обучением Рл.т.≈0,02, а для алгоритма без обучения и алгоритма VAD Рл.т.≈0,15. Таким образом, легко видеть, что
применение алгоритма обнаружения пауз с обучением позволяет точнее определять
участки отсутствия звука в фрагменте сигнала.
Литература
1. Сорокин, В.Н. Сегментация речи на кардинальные элементы [Текст]
В.Н. Сорокин, А.И. Цыплихин // Информационные процессы, 2006, Т. 6, № 3, С. 177-207.
/
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика.
193
2010. № 7 (78). Выпуск 14/1
_______________________________________________________________
2. Шелухин, О.И. Цифровая обработка и передача речи [Текст] /О.И. Шелухин,
Н.Ф.Лукьянцев; под ред. О.И. Шелухина. – М.: Радио и связь, 2000. – 456 с.: ил.
3. Герасимов, А.В. Применение метода модифицированного линейного предсказания
к задачам выделения акустических признаков речевых сигналов [Текст] /А.В.Герасимов,
О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. – 2005. – том 50. №10. –
С. 1287-1292.
4. Рабинер, Л. Теория и применение цифровой обработки сигналов [Текст] /
Л. Рабинер, Г. Голд. – М.: Мир, 1988. – 512 с.
5. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого
сигнала [Текст] /Г.А. Коротаев // Зарубежная радиоэлектроника. – 1991. – № 7. – С.13-31.
6. Жиляков Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений / Е.Г. Жиляков, С.П. Белов,
Е.И. Прохоренко. – Белгород, 2007. – 136 с.
7. Белов, А.С. Разработка математических моделей и алгоритмов анализа и синтеза
звуковых сигналов в цифровых слуховых аппаратах: автореферат диссертации на соискание
ученой степени кандидата технических наук // Белгород, 2009. – 22 с.
ABOUT EFFECTIVENESS DIFFERENT APPROACHES TO SEGMENTATION
OF SPEECH SIGNALS BASED DETECTION OF PAUSE
E.G. ZHILYAKOV
S.P. BELOV
A.S. BELOV
A.A. FIRSOVA
A.V. GLUSHAK
Belgorod state university
e-mail: Zhilyakov@bsu.edu.ru
The article presents a comparative evaluation of the effectiveness
of several existing methods for the segmentation of speech signals based
on the detection of breaks and a method based on the principle of taking
into account differences in the energy distribution of the speech signal in
the frequency range corresponding to the sound, as compared with the
distribution of signal energy in a pause.
Key words: speech signal, speech signal analysis, a model of VAD,
pause detection algorithm, the frequency representation.
Документ
Категория
Без категории
Просмотров
10
Размер файла
363 Кб
Теги
обнаружения, эффективность, подходов, речевые, сегментация, pdf, основы, сигналов, паузы, различных
1/--страниц
Пожаловаться на содержимое документа