close

Вход

Забыли?

вход по аккаунту

?

Применение вейвлет-преобразования для сокращения области значения искусственных нейронных сетей на примере задачи распознавания речи..pdf

код для вставкиСкачать
К.А. Астапов
Применение вейвлет-преобразования для сокращения области значения искусственных
нейронных сетей на примере задачи распознавания речи
В данной статье предлагается принцип улучшения скорости обучения и обобщающих
способностей нейронной сети за счёт сокращения области значений, принимаемых нейронной
сетью. На основе данного метода предложена новая модификация нейронных сетей – нейронные
сети с модулем обратной вейвлет-декомпозиции сигнала. На примере задачи распознавания речи
произведён анализ предлагаемого метода. Эффективность метода подтверждается результатами
имитационного моделирования на ЭВМ.
Ключевые слова: нейронные сети, распознавание речи, вейвлет, вейвлет-преобразование, вейвлетанализ, задача распознавания звука
ЗАДАЧА РАСПОЗНАВАНИЯ РЕЧИ
Исследования в области распознавания речи ведутся с 50х годов [1]. В этой области
достигнуты значительные успехи, но основная проблема современного распознавания речи
состоит в том, чтобы достигнуть робастности этого процесса. К сожалению, программ,
которые могли бы показать эквивалентное человеческому качество распознавание речи при
любых условиях, пока не создано [2]. Незрелость существующих технологий связана, прежде
всего, с проблемами распознавания шумной и слитной речи.
Известные методы отличаются различными преимуществами, такими, как хороший учёт
временной структуры речевого сигнала (устойчивость к сдвигу), устойчивость к
вариативности сигнала, устойчивость к шуму, малое ресурсопотребление, размер рабочего
словаря и т.п. Но проблема в том, что для качественного распознавания речи необходимо
совмещение этих преимуществ в одном методе распознавания.
В целом, при распознавании речи учитываются следующие основные проблемы:
1. Временная природа сигнала.
2. Вариативность речи за счёт:
локальных искажений масштаба,
взаимовлияния(взаимопроникновения) звуков,
интонации,
состояния человека.
3. Вариативность речевого сигнала за счёт:
условий записи (дистанция от записывающего устройства, его особенности и т.п.),
счёт звукового окружения (шум).
4. Распознавание слитной речи.
5. Дикторонезависимое распознавание.
Подробнее проблемы распознавания речи можно найти в [3].
Среди этих проблем необходимо выделить проблему высокой вариативности за счёт
локальных искажений масштаба. Как показано [4], обработка временных сигналов требует
устройств с памятью. Эту проблему [1] называет проблемой временной структуры, а [3]
проблемой временных искажений. Она заключается в том, что сравнение речевых образцов
одного и того же класса возможно только при условии преобразования шкалы времени
одного из них. Иными словами, произносим одни и те же звуки с разной длительностью, и
более того, различные части звуков могут иметь различную длительность в рамках одного
класса. Этот эффект позволяет говорить о «локальных искажениях масштаба» по оси
времени.
Возникает необходимость совмещения достоинств различных методов в одном, что
приводит к мысли о применении специализированных нейронных сетей. В самом деле,
искусственные нейронные сети(ИНС) – это технология, не ограниченная в перспективах и
теоретически в возможностях, самая гибкая и самая интеллектуальная. Но при этом
необходимость учитывать специфику речевого сигнала проще всего реализовать через
использование априорных данных в структуре нейронной сети, что требует специализации.
10
В этой работе авторы предлагают специализированную архитектуру – нейронные сети с
модулем вейвлет-разложения целевого вектора, или нейронные сети с модулем обратной
вейвлет-декомпозиции.
СОКРАЩЕНИЕ ОБЛАСТИ ЗНАЧЕНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
Общепринятая схема нейросетевого распознавания речи подразумевает число выходов,
равное числу классов распознавания. Каждый выход выдаёт величину, характеризующую
вероятность принадлежности к данному классу, или меру близости данного речевого
фрагмента к данному распознаваемому звуку. Для простоты описания мы ограничимся
одним классом распознавания. Наши рассуждения без потерь могут быть перенесены и на
более общий случай.
Обычно речевой сигнал дробится на мелкие отрезки – фреймы (сегменты), каждый фрейм
подвергается предварительной обработке, например, с помощью оконного преобразования
Фурье. Это делается с целью сокращения признакового пространства и увеличения
разделимости классов. В результате каждый фрейм характеризуется набором
коэффициентов, называемых акустическим характеристическим вектором. Обозначим длину
фрейма как ∆t , а длину характеристического вектора как N af , а сам акустический
характеристический вектор в момент времени t + n∆t как x(n) .
В этом случае предполагается, что для оценки вероятности принадлежности речевого
фрагмента данному классу в момент времени n0t необходимо рассмотреть речевой сигнал в
конечном промежутке (t − n∆t ; t + n∆t ) , где ∆t - длина фрейма во времени, а n ∈ N . Такой
отрезок обычно называют окном.
Таким образом, мы имеем нейронную сеть, производящую отображение входных
параметров x(n0-n), x(n0-n+1), … , x(n0), … , x(n0+n-1), x(n0+n) в выходное значение y(n0).
Рисунок 1. Стандартный подход к нейросетевому распознаванию.
Улучшение качества распознавания в стандартном подходе связывается обычно с
манипуляциями над входным сигналом, или выбором и улучшением преобразования
предобработки.
При этом не учитывается, что выходное значение (см. рисунок 1) является функцией,
зависящей от времени, с небольшой скоростью изменения. Для использования свойств
выходного сигнала с целью улучшения качества процесса обучения авторами разработан
метод сокращения области значений ИНС.
Областью значений нейронной сети будем называть область значения функции,
вычисляемой данной ИНС.
11
Избыточными значеними нейронной сети будем называть подмножество области
значений нейронной сети, значения из которого не удовлетворяют условию решаемой ИНС
задачи.
Иными словами, аппроксимируемая с помощью ИНС функция может иметь область
значения, не совпадающую с областью значений нейронной сети. Это имеет важные
последствия. Нейронная сеть ведёт поиск оптимального решения в заданной области
значения. Чем меньше эта область, тем меньше вероятность попадания в локальные
минимумы, выше точность и скорость обучения.
Поэтому в таких случаях целесообразно аппроксимировать не ту функцию, которая
наиболее очевидно следует из условия задачи, а некоторое её представление, область
значений которой или совпадает с областью значений нейронной сети, или имеет небольшое
множество избыточных значений.
Сокращением области значения ИНС будем называть преобразование g(f(x))
аппроксимируемой функции f(x), при котором её область значения E(f) взаимно-однозначно
отображается на множество значений E аппроксимирующей нейронной сети, при этом
(E(g(f )) ∩ E ∩ I) ≠ ∅
(2.1)
и
(E(g(f )) \ E ) = ∅ ;
(2.2)
где I – множество избыточных значений ИНС.
Методом сокращения области значения ИНС может служить «вынесение» избыточных
значений за область значений ИНС.
Вынесением избыточных значений нейронной сети за область её значения, или
исключением избыточных значений будем называть взаимно-однозначное преобразование
h(f(x)) аппроксимируемой функции f(x), при котором множество избыточных значений
частично или полностью оказывается за пределами области значений ИНС: (h(I) \ E ) = ∅ (2.3).
Примером исключения избыточных значений ИНС может служить масштабирование, или
умножение на коэффициент.
Стандартная нейронная сеть имеет ограниченный выход, т.е. каждый компонент
выходного вектора находится в рамках некоторого диапазона, как правило, либо (-1;1), либо
(0;1) [5]. Для простоты будем полагать, что этот диапазон (0;1). Это означает, что область
значений рассматриваемой ИНС - это единичный гиперкуб. Если известно, что значение
некоторого выхода нейронной сети по условию задачи не превосходит некоторой величины
1
, то целесообразно умножить соответствующие ему компоненты целевых векторов на
k
⎛1 ⎞
коэффициент k. Таким образом, мы сокращаем избыточные значения ⎜ ;1⎟ Более общим
⎝k ⎠
случаем масштабирования является линейное преобразование – масштабирование
компонентов целевого вектора со сдвигом.
Мы видим, что на работу нейронной сети оказывает существенное влияние представление
выходных данных в обучающем наборе нейронной сети. Это представление должно
уменьшать избыточность описания целевой функции, что влечёт за собой сокращение
области значения. Поэтому подбор этого представления является важной задачей
проектирования нейронной сети. На представление целевых векторов оказывает влияние три
фактора: это выбранная целевая функция, подбор представления, редуцирующего
избыточность описания целевой функции, и метод сокращения области значения.
Поэтому нами предлагается следующий алгоритм реализации метода сокращения области
значения:
Анализ задачи;
Выбор целевой функции;
Анализ свойств целевой функции;
12
Подбор представления с низкой степенью избыточности описания;
Подбор архитектуры нейронной сети под выбранное представление;
Подбор метода сокращения области значения.
Следует отметить, что для задачи распознавания речи можно добиться уменьшения
области значений от тысячи до трёхсот тысяч раз.
ИСПОЛЬЗОВАНИЕ МЕТОДА СОКРАЩЕНИЯ ОБЛАСТИ ЗНАЧЕНИЯ
ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ РЕЧИ
Для применение метода сокращения области значения искусственной нейронной сети для
задачи фонемного распознавания нам необходимо выбрать целевую функцию и
проанализировать её свойства.
Одна из проблем распознавания речи состоит в том, что в речи нельзя выделить
изолированный звук. Форма звука очень зависит от звукового окружения, от того звука,
который идёт после него, и того звука, который идёт до него.
Известно, что форма сигнала представляет собой плавный переход одного звука в другой.
Проведение чётких границ между звуками некорректно. Правильнее говорить о
взаимопроникновении звуков и о зонах фонемных стыков(рис. 2).
Рисунок 2. Пример взаимовлияния звуков – запись слова «бак».
В качестве модели фонемы в речи предлагается модель «зона фонемного стыка1 –
близкий к чистому звук – зона фонемного стыка2».
В качестве целевой функции предлагается мера подобия чистому звуку, произвольно
взятая или выделенная в процессе предварительной обработки речи. Введём меру подобия
P(t,Ω) данного речевого сигнала в момент времени t чистому звуку Ω. Под чистым звуком
понимается звук, произнесённый отдельно, без последующих и предыдущих фонем.
Свойства функций P(t,Ω):
P(t,Ω)=0 или P(t,Ω)<ε0 если данный звуковой сигнал не является звуком Ω, или не
является речью вообще, где ε0 пороговая величина, близкая к нулю;
P(t,Ω)=1 если данный звуковой сигнал является чистым звуком;
P(t,Ω)∈(0,1) в зоне фонемного стыка, причём P плавно возрастает в зоне
фонемного стыка ДО звука, и плавно убывает в зоне фонемного стыка после.
Пример функции подобия можно увидеть на рис.3.
Рисунок 3. Пример функции подобия.
Поясним условие «плавного перехода.
Пусть t1,t2,…,tk,… - отсчёты времени, ti+1=ti+∆t для любого i∈N. Тогда
(3.1)
sup{P (ti +1 ) − P (ti )} << sup{P (ti )} .
Так как функция P(ti ) ∈ [0,1] , то sup{P (ti )} = 1 и 3.1 можно переписать как
(3.2)
sup{P (ti +1 ) − P (ti )} << 1 .
Формулы 3.1 и 3.2 позволяют говорить об априорной информации о целевой фукции.
Как видим, в случае задачи фонемного распознавания можно подобрать целевую
функцию таким образом, чтобы имелась априорная информация о выходном сигнале.
13
Но, как мы видим, данная информация выявляется только во времени. Для её
использования в методе сокращения области значения нейронной сети мы должны построить
архитектуру нейронной сети таким образом, чтобы она учитывала временной характер
временного сигнала. Для этого предлагается перейти к векторному выходу.
Расширим стандартную конфигурацию нейронной сети (описанную в предыдущем
разделе) таким образом, чтобы нейронная сеть искала одномоментно вектор значений
длиною M - y(n0), y(n0+1), … , y(n0+M), в моменты времени n0 ∆t , (n0 + 1)∆t … , (n0 + M )∆t .
Соответственно и число входных векторов нужно увеличить на M - x(n0-n), x(n0-n+1), … ,
x(n0), … , x(n0+n-1), x(n0+n), … , x(n0+n+M-1), x(n0+n+M).
Рисунок 4. Предлагаемая конфигурация нейронной сети для задачи фонемного
распознавания.
При такой конфигурации нейронной сети становится возможным произвести
преобразование целевых векторов таким образом, чтобы учитывать априорную информацию
о целевой функции.
В соответствии с методом сокращения области значения подберём преобразование,
устраняющее избыточность описания выходного сигнала.
Так как в нашем случае известно, что P (t 2i +1 ) − P (t 2i ) << 1 , i=1,2,3,…, имеет смысл заменить
значения P (t 2i +1 ), P (t 2i ) на o(t 2i +1 ), o(t 2i ) , причём o(t2i +1 ) =
и o (t i ) =
P (t 2 i + 1 ) − P (t i
2
).
P(t 2i +1 ) + P(t2i )
,
2
(3.3)
Обратное преобразование легко произвести по формулам
P (t 2i +1 ) = o(t 2i +1 ) + o(t 2i )
P (t 2i ) = o(t 2i +1 ) − o(t 2i )
(3.4)
В этом случае o(t 2i ) избыточно. Пусть sup o(t2i ) =
согласно формуле 3.2
1
k
1
<< 1 . Таким образом, значения в промежутке
k
(3.5)
⎡1 ⎞
⎢ k ;1⎟ избыточны
⎣
⎠
В такой форме избыточные значения могут быть вынесены за область значения простым
умножением на константу, то есть масштабированием выходов.
Пусть ki =
2
sup{P(ti +1 ) − P(ti )}
(3.6)
Тогда мы можем промасштабировать каждый второй выход с коэффициентом ki .
Сравним два варианта построения нейронных сетей. Первый – с немасштабированными
выходами P(ti ) , второй – с масштабированными выходами o(ti ) . Во-первых, в случае ИНС с
немасштабированными входами, область значений, рассматриваемая нейронной сетью шире,
14
и для того, чтобы добиться той же точности, что и в случае масштабированных входов,
⎧2⎫
i ⎩ ki ⎭
требуется пройти несколько итераций, пока не не будет достигнута точность sup ⎨ ⎬ .
При этом результирующая точность будет в первом случае меньше. Покажем это.
Пусть ε - погрешность выходов нейронной сети на данной итерации. В этом случае
погрешность(сумма квадратов) первой нейронной сети будет
E1 = 2ε 2 ,
(3.7)
а второй –
2
⎛ε ⎞ ⎛
1⎞
E2 = ε + ⎜⎜ ⎟⎟ = ⎜⎜1 + ⎟⎟ε 2 .
⎝ ki ⎠ ⎝ k i ⎠
2
(3.8)
ОБОБЩЕНИЕ НА СЛУЧАЙ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
Изложим вышесказанное в терминах вейвлет-преобразования.
Преобразование 3.3 является одноуровневым вейвлет-преобразованием Хаара[6-8]. Так же
это вейвлет-преобразование известно как одноточечное вейвлет-преобразование Добечи[6,7].
Преобразование 3.4 является обратным к нему.
В общем виде одноуровневое вейвлет-преобразование может быть представлено в виде
свёртки, следующей формулой[6]:
Nf
d i(l +1) =
ai(l +1) =
(l )
∑ g j a2i − j + n f ,
j =1
Nf
(l )
∑ h j a 2i − j + n f ;
(4.1)
j =1
соответствующее обратное преобразование
ai(l ) =
Nf
(l +1)
∑ (hi − 2 j a j
j =1
+ g i − 2 j d (jl +1) ) ,
(4.2)
где N f - число коэффициентов свёртки,
⎢ N f − 1⎥
nf – ⎢
⎥ (знак ⎣ ⎦ означает округление до меньшего),
⎣ 2 ⎦
g – коэффициенты детализирующего фильтра,
h – коэффициенты «огрубляющего» фильтра,
d i(l ) – i-й детализирующий коэффициент на уровне l,
ai(l ) – i-й коэффициент «грубой» версии сигнала на уровне l,
ai(0) – исходный сигнал.
При Nf=2, h={0,5;0,5}, g={-0,5;0.5} мы получаем преобразование Хаара; если при этом
ограничится одним уровнем преобразования, мы приходим к формулам 3.3 и 3.4.
Таким образом, мы видим, что предложенное преобразование может быть выражено в
терминах вейвлет анализа, и является частным случаем дискретного вейвлетпреобразования. Из этого следует возможность обобщения на случай произвольного вейвлетпреобразования.
Использование вейвлет-преобразования целевых значений (или обратное вейвлетпреобразование выходных значений) оправдано в тех случаях, когда получающиеся в
результате величины малы по абсолютному значению. Тогда избыточные значения
нейронной сети можно вывести за область значения за счёт масштабирования входов.
Возрастание сложности применяемого вейвлет-преобразования оправдано в случае более
сложного поведения функции во времени.
15
Итак, метод сокращения области значения ИНС для задачи распознавания речи можно
реализовать с помощью вейвлет-декомпозиции, что позволяет говорить о нейронной сети с
модулем вейвлет-преобразования целевых значений.
СХОДИМОСТЬ МЕТОДА. ИССЛЕДОВАНИЕ ВЛИЯНИЯ МАСШТАБИРОВАНИЯ
НА ГРАДИЕНТ
Рассмотрим влияние масштабирования целевых значений на градиент.
Масштабированием выхода нейронной сети будем называть умножение на заданный
коэффициент соответствующего этому выходу целевого значения.
Под масштабированием целевых значений будем понимать масштабирование
нескольких выходов нейронной сети.
Введём следующие обозначения:
E – ошибка слоя. Elt - l-й компонент;
E (w) - целевая энергетическая функция;
dj – желаемый выходной сигнал j-го нейрона слоя;
yj – выходное значение, в общем случае y∈(0,1);
xi – входное значение;
wij – вес, связывающий i-й вход с j-м выходом;
uit - взвешенная сумма i-го нейрона, t-го слоя, uit =
N
∑ wkit xkt .
k =0
Согласно метода распространения ошибки[5,9-11], имеют место следующие формулы:
nN
E ( w) = 12 ∑ ( yi − d i ) 2
(5.1)
i =1
Eit =
nt
∑ Elt +1wilt +1 ,
l =1
EiN
= yi − d i .
⎞
⎛
dy t
∆wijt = −η ⎜ E tj ⋅ i ⋅ xit ⎟
t
⎟
⎜
dui
⎠
⎝
Где η - скорость обучения.
dy j
∂E ∂u j dy j ∂E
∂E
xj
=
=
du j
∂wij ∂yi ∂wij du j ∂yi
(5.2)
(5.3)
(5.4)
Пусть D(x) – функция, которая позволяет найти производную активационной функции f
по её значению
Т.е. если y j = f (u j )
То D (y j ) = f ′(u j )
⇒
dy j
du j
( )
= D yj
(5.5)
такими функциями, будут, например
D ( y ) = y (1 − y )
(5.6)
для униполярной функции[5]
и
(
D( y) = 1 − y 2
)
(5.7)
для биполярной функции[5]
16
Рассмотрим для простоты случай униполярной функции.
∂E
∂E
=
xi D ( y j )
∂wij ∂yi
(5.8)
Проанализируем влияние масштабирования на компонент градиента 5.8.
Пусть выход yj во всех ситуациях не превосходит
1
1
. Иными словами, ymax = sup{ y j } =
k
k
(5.9)
Тогда, с учётом того, что нейронная сеть с униполярной функцией активации выходного
слоя выдаёт значения в области (0,1) мы можем промасштабировать выход, увеличив его в k
раз. Для этого достаточно промасштабировать соответствующий целевой вектор. Тогда, для
масштабированного выхода получаем
∂E ′
= k ( yi − d i ) xi D (ky j )
∂wij
(5.10)
Используя (5.6) выводим
∂E ′
∂E D(ky j )
(5.11)
=k
∂wij
∂wij D( y j )
∂E 1 − ky j
∂E ′
∂E ky j 1 − ky j
=k
= k2
∂wij
∂wij y j 1 − y j
∂wij 1 − y j
∂E ′
∂E 1 − ky j
(5.12)
= k2
∂wij
∂wij 1 − y j
(
(
(
(
)
)
)
)
(
(
)
)
Собственно, анализ выражения 5.12 сводится к анализу множителя M =
(1 − ky j ) .
(1 − y j )
⎛
Этот
1⎤
множитель отображает участок униполярной(логистической) сигмоиды на отрезке ⎜ 0, ⎥ в
⎝ k⎦
полноценную сигмоиду на отрезке (0;1) .
Мы замечаем, что
M ( y) =
(1 − ky )
(1 − y )
(5.13)
монотонно убывающая функция, с учётом 5.9 принимающая минимальное значение при
y=
1
⎛1⎞
. Максимум этой функции M (1) = 1 , минимум M ⎜ ⎟ = 0 . При больших k функция
k
⎝k⎠
близка к линейной.
Пусть y0 такое значение y, при котором
∂E
∂E ′
=
∂wij ∂wij
Тогда для всех значений y > y0 будет верно
∂E
∂E ′
(5.14). Найдём y0 .
<
∂wij ∂wij
(5.14) ⇒
(1 − ky0 ) = 1
(1 − y0 ) k 2
k 2 − k 3 y0 − 1 + y0 = 0
y0 =
1− k2
1− k
3
=
1+ k
1+ k + k2
(5.15)
⎛
1⎤
Оценим соотношение длин отрезков (0, y0 ) и ⎜ y0 , ⎥ .
k⎦
⎝
17
(5.14)
⎛1− k2 ⎞
⎜
⎟
⎜1− k3 ⎟
yo
⎠
=⎝
y max
=1−
1
k
=
k −1+1− k3
1− k
3
=1−
1
1− k
1− k3
=
(5.16)
1+ k + k2
⎛
1⎤
1
Т.е. длина отрезка ⎜ y0 , ⎥ не более чем
k⎦
⎝
Согласно условиям задачи, k < 1 ⇒
1
1+ k + k
2
<
1+ k + k2
часть от длины отрезка (0, ymax ) .
1
3
(5.17)
Таким образом, при возрастании k мы имеем возрастание градиента для всё большей
части значений y, что увеличивает скорость сходимости и улучшает качество процесса
обучения.
Пример. При k=5, градиент в случае масштабированного выхода превосходит градиент в
случае немасштабированного выхода на
30
области значения, то есть практически на всей
31
области допустимых значений. Практические эксперименты показали, что для задач
распознавания речи величина k=5 реалистична.
Итак, использование ИНС с модулем вейвлет-преобразования целевых значений в целом
улучшает сходимость нейронной сети по сравнению со стандартной.
РЕАЛИЗАЦИЯ МОДУЛЯ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ЦЕЛЕВЫХ ЗНАЧЕНИЙ В
НЕЙРОННОМ БАЗИСЕ
Покажем, что нейронную сеть с модулем преобразования целевых значений возможно
реализовать целиком в нейронном базисе, как единую нейронную сеть.
Как уже говорилось выше, вейвлет-преобразование целевых значений можно заменить
обратной вейвлет-декомпозицией значений нейронной сети. Поэтому к предлагаемой схеме
одинаково применимы названия «нейронная сеть с вейвлет-декомпозицией целевых
значений» и «нейронная сеть с модулем обратной вейвлет-декомпозиции». Математически
между обоими решениями нет никакой разницы, различия могут проявится только на этапе
аппаратной реализации.
Важным свойством нейронной сети с модулем обратной вейвлет-декомпозиции является
возможность представить его в виде одного или нескольких слоёв нейронной сети, и поэтому
такая интерпретация более предпочтительна. Покажем, как это можно сделать на практике.
В тоже время обратное вейвлет-преобразование можно представить с коннекционистких
позиций, как слой нейронной сети. В самом деле, одноуровневая обратная вейвлетдекомпозиция может быть представлена как
Согласно [6] одноуровневое обратное вейвлет-преобразование может быть представлено в
виде
ai(l ) =
Nl
(l +1)
∑ (hi − 2i1 ai1
i1 =1
+ g i − 2i1 d i(l +1) ) ,
1
(6.1)
где ai(l +1) - «грубая» версия сигнала на l+1 уровне разложения,
1
ai(l )
- «грубая» версия сигнала на l уровне разложения,
причём ai(0) = yi - i-й выход нейронной сети;
N l - число детализирующих и «грубых»(усредняющих) коэффициентов вейвлетпреобразования на уровне l,
d i(l +1) - детализирующие коэффициенты l+1 уровня разложения,
1
18
а hi − 2i1 и g i − 2i1 - коэффициенты, задающие преобразование.
При этом исходный сигнал может быть представлен последовательным применением
формулы 6.1.
Введём обозначения
xi(l )
⎧⎪ a (l ) , i ∈ {0;2;4;...}
,
= ⎨ (l0).5i
d
,
i
{
1
;
3
;
5
;...}
∈
⎪⎩ 0.5(i −1)
(6.2)
⎧ h (l )
⎪ 0.5i − 2 j , i ∈ {0;2;4;...}
= ⎨ (l )
.
⎪⎩ g 0.5(i −1) − 2 j , i ∈ {1;3;5;...}
(6.3)
и
wij(l )
Тогда формулу 6.1 можно будет переписать в форме
y (jl ) =
2N
∑ wij(l ) xi ,
(6.4)
i =0
что формально соответствует формуле искусственного нейрона с линейной функцией
активации[5].
Таким образом, один уровень обратного вейвлет-преобразования может быть представлен
в виде одного слоя нейронной сети. Пример такого слоя представлен на рисунке 5.
Здесь мы видим одноуровневое обратное преобразование Хаара как слой нейронной сети.
Здесь круги со знаком «+» означают функцию суммирования, со знаком «-» - вычитания.
Иными словами, представленный на рисунке 5 слой нейронной сети реализует
преобразование 3.4.
Рисунок 5. Модуль одноуровневого обратного вейвлет-преобразования как слой нейронной
сети.
Общая структура перцептронной ИНС с модулем обратной вейвлет-декомпозиции с
произвольным числом уровней представлена на рисунке 6. Как видно, начальные слои этой
нейронной сети представляют собой многослойный перцептрон, а последующие – обратное
вейвлет-преобразование(в данном случае – Хаара) на основе нейронов с линейной функцией
активации.
19
Рисунок 6. ИНС из двухслойного перцептрона с модулем обратной вейвлет-декомпозиции
Хаара.
РЕЗУЛЬТАТЫ ПРАКТИЧЕСКИХ ЭКСПЕРИМЕНТОВ
Тестирование и экспериментальная проверка нейронной сети с модулем обратной
вейвлет-декомпозиции проводилась на задаче распознавания изолированного звука.
Для экспериментов был выбран речевой корпус из 37 слов. Проверка нейронной сети с
модулем обратного вейвлет-разложения проводилась на задаче распознавания
изолированного звука «а». Задача усложнялась тем, что длина звука в базе варьировалась в
пределах четырёхкратной от минимальной.
Целью эксперимента являлось сравнение двух абсолютно одинаковых нейронных сетей, с
идентичной архитектурой, обучаемых одним и тем же алгоритмом, одна из которых
обучалась с модулем вейвлет-разложения цели, а другая без него.
Оценка нейронных сети проводилась следующим образом. Было проведено несколько
запусков системы (здесь приводятся результаты для 20 запусков). В каждом запуске был
выбран контрольный пример с худшим результатом и вычислено математическое ожидание
ошибки по всем примерам контрольной выборки. По результатам двадцати запусков был
выбран лучший результат по обоим критериям.
В ходе описанных экспериментов были получены следующие результаты (См. табл.1):
Таблица 1. Результаты экспериментов.
Крит Крит Чис
Дисп
ерий ерий ло
ерси
Метод
№1,
№2, эпо
я
%
%
х
Перцепт
387 0,030
рон
11,57 17,83
3
28
Перцепт
рон
с
0,000
вейвлет- 0,003 0,007
модулем
30
44
385
16
Здесь «критерий №1» - это лучшее математическое ожидание ошибки на контрольной
выборке по результатам обучения 20 нейронных сетей.
Соответственно «критерий №2» - это лучшее математическое ожидание супремума
ошибки на контрольной выборке по результатам обучения 20 нейронных сетей.
По результатам экспериментов мы можем говорить о весьма примечательных результатах.
При этом, как можно видеть по дисперсии, этот результат весьма устойчив.
Можно отметить резкое ускорение сходимости и качественное возрастание обобщающих
способностей.
ВЫВОДЫ
В данной статье мы рассмотрели возможности использования априорной информации,
заложенной в выходном сигнале за счёт сокращения области значений аппроксимируемой
нейронной сетью функции путём линейного преобразования целевых значений на примерах
задач распознавания речи. Нами было показано, каким образом масштабирование выходного
значения влияет на градиент (и, следовательно, скорость сходимости). Так же было
обосновано применение простейших видов вейвлет-преобразования для сокращения области
значения нейронной сети в задаче распознавания речи. Было показано, как вейвлетпреобразование целевых значений может быть представлено с коннекционистких позиций –
в виде модуля обратного вейвлет-преобразования, реализованного в виде нейронной сети с
линейными функциями активации.
20
В ходе имитационного моделирования на ЭВМ нами было получено экспериментальное
подтверждение эффективности предлагаемого метода. Результатом использования модуля
обратной вейвлет-декомпозиции является многократное ускорение сходимости (в
приведённом случае – на порядок), и многократное уменьшение относительной ошибки на
контрольной выборке – до трёх порядков.
Так же следует отметить, что уменьшение области значений понижает вероятность
попадания ИНС при обучения в локальный минимум.
Итак, можно говорить о следующих преимуществах вейвлет-преобразования целевых
значений:
1) ускорение сходимости за счёт преобразования градиента.
2) улучшение результирующей точности.
3) уменьшение числа итераций за счёт лучшей начальной локализации решения.
4) уменьшение вероятности попадания в локальный минимимум.
ЛИТЕРАТУРА
1. Tebelskis, J. Speech Recognition using Neural Networks: PhD thesis … Doctor of Philosophy
in Computer Science/ Joe Tebelskis; School of Computer Science, Carnegie Mellon University.–
Pittsburgh, Pennsylvania, 1995.– 179 c.
2. Jain, L.C., Martin, N.M. Fusion of Neural Networks, Fuzzy Systems and Genetic Algorithms:
Industrial Applications/ Lakhmi C. Jain, N.M. Martin.– CRC Press, CRC Press LLC, 1998.– 297c.
3. Handbook of neural network signal processing/ Edited by Yu Hen Hu, Jenq-Neng Hwang.–
Boca Raton; London; New York, Washington D.C.: CRC press, 2001.– 384c.
4. Principe, J.C. Artificial Neural Networks/ Jose C. Principe// The Electrical Engineering
Handbook/Ed. Richard C. Dorf.– Boca Raton: CRC Press LLC, 2000.– 2719c.
5. C. Хайкин. Нейронные сети: полный курс, 2-е изд., испр.: Пер. с англ./ Саймон
Хайкин.– М.: ООО «И.Д. Вильямс», 2006. – 1104 с.: ил. – Парал. тит. англ.
6. Добеши И. Десять лекций по вейвлетам.– Ижевск: НИЦ «Регулярная и хаотическая
динамика», 2001.– 464 с.
7. Ф.Г. Бойков Применение вейвлет-анализа в задачах автоматического
распознавания речи: Дис. … кандидата физико-математических наук: 05.13.18/ Фёдор
Геннадьевич Бойков.– М, 2003.– 111 с.
8. Haar, A. Zur Theorie der Orthogonalen Funktionen-Systeme/ A. Haar// Math. Ann.– 1910.–
No. 69.– c. 331-371.
9. Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating
errors / Rumelhart D. E., Hinton G. E., Williams R. J. // Nature (London).– 1986.– N 323.– c. 533536.
10. Werbos, P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral
Sciences: Phd Thesis/ Werbos P.; Dept. of Applied Mathematics, Harvard University.– Cambridge,
Mass., 1974.
11. Werbos, P. J. Backpropagation and neural control: A review and prospectus./Werbos P. J. //
IEEE international conference on neural networks.– 1989.– Vol. 1.– c.209-216.
21
1/--страниц
Пожаловаться на содержимое документа