close

Вход

Забыли?

вход по аккаунту

?

Презентация

код для вставкиСкачать
Меламуд Александр Евгеньевич
445 гр.
Научный руководитель:
к.т.н. Булашевич Александр Евгеньевич
HMM (Hidden Markov Model) – на данный
момент - основной способ для
распознавания речи
Алгоритмы, основанные на HMM решают
задачу распознавания лабораторной речи –
причина популярности
Необходим достаточно длинный участок
речи
Необходимо обучение на большой выборке
(более 10 часов размеченной вручную речи)
На реальной речевом сигнале (например
телефонный сигнал) метод работает плохо
(всего-лишь 30-35% правильно
распознанных фонем)
Производить предварительную
сегментацию сигнала с целью:
◦ Параметризация сигнала, согласованная с
границами фонем
Один из вариантов: предварительная
сегментация по виду первичного
возбуждения:
◦ «подсказка» HMM ограниченного набора фонем
заданного артикуляционного класса.
Попытки решать задачу сегментации методами
спектрального анализа, обычно по оценке
модуля градиента спектрограммы.
Неудачно: мало разрешение по времени
Подход к сегментации на основе признаков,
имеющих физический смысл. Перспективен. С
начала 90-х в связи с активным внедрением
HMM метод заброшен
Задача: сегментация речевого потока на
основании источника первичного возбуждения
в двух вариантах постановки: на жесткой сетке
кадров и с определением границ точных
сегментов
Артикуляционные классы: голос, шум,
пауза/смычка, взрыв
Группы фонем: гласные, звонкие согласные,
глухие согласные и смычные
2 фонемы 1-го класса – редкость =>
прицел на решение общей задачи
сегментации
Спектральные методы не применить: в
одной из постановок задач нужна точность
до 1 мс
Вероятностные не применить из-за желания
«подсказывать» HMM
Временные статистики.
Сложность: ответа на вопрос, какую
статистику где применять, что ей подавать
на вход в случае зашумленного сигнала,
нет. Это предмет моего исследования
Общая энергия: голос/не голос, пауза/шум
Количество переходов через ноль:
шумные/смычные, вокализованные
участки/звонкие щели
Анализ локальных экстремумов: шум/голос,
вокализованные участки/звонкие щели
Отношение вышеназванных статистик при
фильтрации в разных частотных полосах:
звонкая смычка/все остальное, шум/глухая
смычка
Точность автоматической сегментации
≈70% (Точность HMM при алфавите в 5
фонем ≈70% )
Основные ошибки в гласных и звонких
согласных, глухих смычных и шумных
согласных
Доработка методов обработки статистик
Адаптивная настройка порогов статистик –
ожидается существенное повышение
точности
Привлечение данных об основном тоне для
уточнения границ
Документ
Категория
Презентации по психологии
Просмотров
2
Размер файла
1 862 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа