close

Вход

Забыли?

вход по аккаунту

?

Задача идентификации в управляемых марковских процессах.

код для вставкиСкачать
УДК
Вестник СПбГУ. Сер.
539.3
10, 2004, выл . 1
В. В. Карелин
ЗАДАЧА ИДЕНТИФИКАЦИИ
В УПРАВЛЯЕМЫХ МАРКОБСКИХ ПРОЦЕССАХ*)
1.
Введение. В последнее время в связи с предъявлением все более высоких требо­
ваний к процессам управления в различных областях техники появилась необходимость
в управлении такими объектами, для которых не только отсутствует адекватная мате­
матическая модель, но иногда даже общие качественные закономерности изучены не­
достаточно. Зародившийся подход к новым задачам управления основывается на идее
приспособления управляющей системы к свойствам конкретного объекта, о котором
заранее известно лишь к какому классу управляемых объектов он относится.
Рассмотрим линейное разностное уравнение .п-го порядка:
Xt+l =
где
qk,f3k
n-1
·m
k=O
k=O
L йkXt-k + Lf3kut-k + ft+l,
-постоянные коэффициенты;
ft
(1)
- последовательность независимых гауссо­
вых величин с нулевым средним и дисперсией о- 2 ; Ut - управление; {30
;j:. О. Будем
предполагать, что коэффициенты ak неизвестны. Обозначим
т
Wt =
L fЗkUt-k,
k=O
Тогда
(2)
здесь z[
= (xt, Xt-1, ... , Xt-n)-
мая уравнением
(2),
Переходная функция Pe(xt+l/zt, Wt) процесса, определяе­
имеет вид
(3)
г де
F (·) - плотность распределения случайной величины ft.
Постановка задачи. В реальных ситуациях переходная функция управляемого
марковекого процссса зависит от неизвестного параметра В.
При этом знание дан­
ного параметра для целей управления, вообще говоря, не обязательно, но желательна
близость оценки распределения к истинному распределению.
Близость функций распределения
(3)
яния между двумя распределениями ,
понимается в смысле метризованного рассто­
которое определяется
следующим соотношением
[1]:
Будем предполагать, что распределение P(dyjx , В) доминируетсямерой m(dy). Плот­
ность распределения Р( · /х , В) относительно
также, что на е задана (Т-алгебра
:F '
m(dy)
т.е. что (Е>,
обозначим через
:F)
P(yjx, В).
Считаем
-измеримое пространство.
*)Работа выnолне на nри финансовой nоддержке Российского фонда фундаментальных исследований
N2 03-01 - 00668).
© В . В . Карелии , 2004
(nроект
60
Поставим задачу статистической идентификации закона распределения:
т.е. задачу построения такой последовательности оценок
в каком-либо смысле (по вероятности , с вероятностью
P(dyix, 8),
Pt(dyjxt), что при t-+ оо
1 и т.д.).
Основным аппаратом при установлении факта сходимости в данной работе является
информационная мера рассогласования меЖду оцениваемым распределением и оценкой.
Пусть Р1 (у) и Р2 (у) -две плотности распределения на измеримом пространстве У от­
носительно положительной меры
m(dy).
Информационным числом Кульбака-Лейблера
называют величину
(4)
: Она не является метрикой {т.ак как.это не симметричная функция от Р1 и Р2 ), но обла­
да,ет некоторыми свойствами, благодаря которым может бы:rь использована в качестве
меры рассогласования между распределением Р2(у) и его оценкой Р1 (у)
Если интеграл
(4)
существует, то
I(Pl(Y),
Р2(у)) ~ О. При этом
= Р2 почти всюдУ.
тогда и только тогда,когд~ Р1
Справедливо нераве~ств~ ·[2]
I(Pl(y),Pz(y))
.
I(P1 (y),
Р2(у)) =О
·
~ ~[~ IPl(Y) ~ P2(Y)im(dy)] 2 •
у
Таким образом, метрику р можно оценить сверху величиной
I-+ О.
m, т.е. для стремления
р-+ О достаточно, чтобы
Для семейства нормальных распределений выполняется еще одно свойство.
Пусть
Р0 (х)- произвЬльное распределение в ~n с центром в точке а и ковариационной матри­
цей V. Рассмотримсемейство Q нормальных распределений в !Rn; q0 (x)- нормальное
распределенИе ·с :тем же центром в точке а и ковариаnионной матрицей
Теорема
1.
Д.лл .любого
q(x)
Е
Q
V.
выполняется -н.еравенсm"бо
I(Po, qo) :::; I(Po, q).
Равенство достигается тогда и то.льпо тогда, погда q:::
Д о к аз а т е ль с т в о. Ввиду того, что функция
то
f
qo
[Inq-]Podx
=
х
q0 .
ln(q 0 jq)
-квадратичная форма,
J[lnq-]qodx.
qo
х
Отсюда следует
= I(Po; qo) + I(qo; q).
I(Po; q)
Так как
I(P0 ; q0 ) =
Ро
[ln-]Podx,
I(qo; q) =
1
qo
х
то
I(P0 ; q) = ~
Ро
[ln-q]Podx
+
J
х
1
j [ln-]P
qo
dx,
q
0
х
qo 0 dx.
[lnq-]P
х
61
Поэтому
I(Po; qo) S: I(Po; q),
причем равенство будет тогда и только тогда когда
I(qo; q)
=О, т.е.
q0 := q.
Рассмотрим байесов подход к оцениванию параметров условного распределения.
Пусть наблюдается процесс
(})
Xt.
Предположим, что условное распределение P(dxtнlxt,
зависит от параметра е Е е, значение которого неизвестно, но постоянно в течение
всего эксперимента. В дальнейшем будем считать, что
Задачей этого раздела будет изучение байесовой оценки для nереходной функции
Процесс
Po(xt+llxt).
Xt,
определяемый переходной функцией Pв(xt+llxt), можно тракто­
вать как частично наблюдаемый управляемый марковекий процесс в фазовом простран­
стве е х Х. Воспользуемся известной конструю~щей для построения вспомогательной
модели nроцесса с nолной информацией. В качестве фазового рассмотрим пространство
{Х, 91},
г де
91 -- пространство распределений
91} следующим образом:
на
8.
Определим переходную функцию в
пространстве {Х,
P(xt+llxt, Vt) =
j Pв(xt+llxt)vt((})n(de),
(4а)
0
где функция
Vt(e)-
апостериорная плотность распределения параметра е, которая опре­
деляется формулой
llt+l
(е)
_
-
.
llt
(О) Po(xt+llxt)
P(xt+llxt, Vt)
(46)
·
Для задания·процесса задаются также начальное распределение и априорная плот­
ность lll (е)
= dvl/ dn.
Отметим свойство посЛедовательности
· для
Vt(B).
Пусть
v(8) -
произвольпая функция,
которой существует интеграл
~t =
Jv(8):~~(8)n(d0).
0
Тогда существует (с вероятностью
1) интеграл
j v(8)vt+l((})n(d0),
~t-f-:1 =
0
и при этом выполняется соотношение
(4в)
т.е. последовательность ~t является мартингалом (относительно
62
{xt, Vt} ).
Так как
то
J~t+1P(xt+llxt,
J J
Vt)m(dxt+I)
=
х
=
v(8)vt (8)Pe(Xt+1!xt)n(d8) =
m(dxt+I)
0
х
j n(d8)v(8)vt(8) j Pe(xtн!xt)m(dxt+1) = j v(8)vt(8)n(d8).
=
х
0
0
Пусть
С!; =
J
!v(O) -
~t
2
l
vt(8)n(d8).
0
Тог да справедливо соотношение
Следовательно, последовательность а} является супермартингалом.
Пусть 0 - линейное множество в IR n, ift - среднее значение вектора
распределения
Vt(8); St
8 с плотностью
-корреляционная матрица. "Будут справедливы соотношения
Чтобы проверить последнее неравенство, положим <р(О) = сте, где ст - постоянный
вектор. Тогда ст; = ст Stc. Получим, что для любого вектора с выполняется неравенство
Из
(4в)
следует
Как следствие из приведеиных выкладок, вытекает неравенство
В частности, при ~t =сто имеем неравенство
00
Е{2:ст!ёt+1- ёt/ 2 } < C!i.
t=l
Так как вектор с произвольный, то
00
E(L Jёt+l- ёti
2
} < стi.
t=l
Рассмотрим асимптотические свойства последовательности
ную функцию процесса
{ Xt,
Vt.
Определим переход­
Лt} соотношениями
P(xt+1!xt,
1
Лt) = Pe(xt+l!xt)Лt(8)n(d8),
(5)
0
63
{6)
Предположим , что
оценки функции
Xt наблюдается, но распределение At (6) неизвестно. В качестве
At (6) выбирем распределение Vt (6) , определяемое рекуррентным соот-
ношением
с произвольным начальным значением
v1 ( 6).
Наша задача
-
установить, что при
Т~ оо переходная функцияР(хt+ 1 1хt, Vt) становится близкой к истинной, P(xt+llxt_, At)·
Теорема 2. Пусть {xt , At} - .марх:овсх:ий процесс, определяе.мый coomnowenuя.мu
(5)
и
(6).
Тогда выполnяется следующее nepaвencmвo:
(7)
где
Д о к аз а т е ль с т в о. Вв.едем последовательность случайных вели~и~
Тогда
ht+l
В силу
(5)
имеет вид
находим
-ht+l
=
J
ln[>.t(6) ]Лt( 6 ) Pв(xt+llxt) .n(d6)
Vt(6)
P(xt+llxt , At)
+ ln P(xt+llxt, Vt).
P(xt+llxt, At)
0
Вычислим условное математическое ожидание
шений (~) и
(6):
E(ht+llxt , At) =
J
Xt+l
' 64
ht+l
при условии
P(xt+llxt ,
At)m(d~t+l) х
Xt, At
в силу соотно­
Из выражений
(5)
и
(6)
следует, что
j
х
Pe(xtн.lxt, Лt)m(d_xtн)- I(P(xt+llxt, Лt)),
Xt+l
т.е.
Отсюда nолучаем соотношение
Суммируя по
t
от
1
до Т, запишем
т
= Eh1- Ehт+l ~ Eh1.
E(L It)
1
Переходя к пределу nри Т -1- оо, nолучим
С л е д с т в и е. С вероятностью
1
(7);
справедливы соотношения
00
~ It < +оо, lim It
L...J t--too
= О.
t=l
\
Расnределение Л 1 (0) nроизвольное. Наnри~ер, в качестве Л 1 (0) может быть взято любое
распределение, сосредоточенное в скоЛь угодно малой окрестностИ
uo
точки Во. Тогда
и все распределения А 1 ( 8) сосредоточены в этой окрестности.
Процесс
{xt, Лt}
можно трактовать следующим образом:
на с расnределением Л 1 (0),
Xt+l -
Pв(xt+llxt), nричем nри всех t ;:::
1
Ot '-
случайная величи­
случайная величина с условным расnределением
выполняется включение
Ot
Е
uo.
Таким образом,
процесс Xt можно трактовать как nроцесс, nерсходная функция которого определяется
параметром, подверженным малым возмущениям.
Итак, установлена сходимость оценки nереходной функции к нестационарной nере­
ходной функции Pв(xtнlxt)· Если множество 0 конечно, то, окрес-з:ность точки Oi сов­
падает с точкой В; (можно выбрать дискретную тоnологию). В этом случае интеграль­
ные соотношения nринимают вид конечных или бесконечных сумм, а функции
превращаются в вероятностные последовательности
llt(i), i = 1, 2, ....
Vt(B)
Соотношение
(7)
nринимает тогда вид
00
E(L It) ~ -lnv1(io),
t=1
где
io-
номер переходной функции, определяюЩий nроцесс Xti
00
lt = I(P; 0 ; Pt), Pt =
L Pi(xt+llxt)vt(i).
t=l
65
Вопрос, сходится ли распределение Vt к д-распределению, сосредоточенному на истин­
ном параметре
fJ 0 ,
остается в общем случае открытым.
Нетрудно привести пример,
когда это не так.
В подходе, описанном нами, предполагается, что истинное распределение Po(yjxt)
принадлежит классу гипотез >.:р. Очевидно, что чем шире класс >.:р, тем более трудоем­
ка реализация алгоритма. Возникает вопрос, как будет вести себя последовательность
оценок переходной плотности, если истинная персходная функция не принадлежит клас­
су >.:р. Рассмотрим случай, когда
Xt -последовательность независимых одинаково рас­
пределенных случайных величин.
Предполо)КИМ, что выполняются следующие условия:
Ро
1) Эvо Е е : Vo = {0/E{ln Ре} < +оо };
2)
а=
inf E{lnP.Po }, J
8Ev.
8
>О, Эщ С vo,
E{sup I(P0 ; Ре)<
а+
J}.
8Ev.s
При fJ Е
Ро
vo E{/ln-1 2 } <с<
3) InPe
Ре
+оо,
J vo(fJ)n(dfJ)
>О;
v.s
имеют конечные математическое ожидание и дисперсию.
Обозначим l(fJ, Xt)
Приведем пример, иллюстрирую­
= f[lnPe(y/xt)]Po(y/xt)m(dy).
У
щий введенные условия. Пусть
где Xt,
Yt
-наблюдаемые векторы; Xt - независимый случайный вектор;
ft -
ненаблю­
даемая последовательность случайных величин.
Истинная гипотеза
P(y/xt, fJ)
в котором <р - плотность
f.
имеет вид
Если плотность,
f
неизвестна и в качестве гипотезы взято
семейство нормальных распределений, то условие
2)
означает, что векторы Xt имеют
конечные четвертые моменты.
Обозначим
<p(fJ) = El(e,
Теорема 3. Если
<p(fJo)
Xt)· Тогда можно сформулировать ряд утверждений.
> <p(fJ 1),
~~о)
Р{ Vt(fJl)
то для любого
N выполняется соотношение
.
> N} ~ 1 при t ~ оо.
(8)
д о к аз а т е ль с т в о. Используя соотношения (4а), (4б), получим
где
=
Введем в рассмотрение случайные величины (k
~k- E(~kiJt), J- О"-алгебра, натя­
нутая на (х1, ... , xk)· Очевидно, что (k -последовательность центрированных некорре­
лированных величин, причем {k = E(~k IJ) = l(fJo, xk)-l(fJ~, Xk); {k- последовательность
66
независимых одинаково расnределенных случайных величин и Е( = <р(Во) - <р(81) =
д> О. Поэтому
1
-
т
-
т
L:1 ~k
-t д с вероятностью 1. Далее ,
vт (Во)
1
.
.
1 ~
1 ~ -
Tln[vт(81)] =Т ~(k +Т ~~k·
1
Так как -Т
t
L:
(k
k::1
Теорема
11n( -(В) ) ,. . .,
~
4.
•Vt
·
vt(Bo)
вероятностью
vt(Bo)
1
-t О с вероятностью 1, то -Tln( -(В) ) -t д с вероятностью 1, т.е. с
Для
1
Тд. Отсюда выnолняется условие
1
\:fB rf:.
(8).
.
.
щ выполняется ~(е) -t О по вероятности при t -t оо.
Д о к а з а т е л ь с т в о. Обозначим
·
J Л(d8) =
где Л(d8) -распределение на VJ , т.е.
1. По неравенству Иенсена Ф(J)
::;
J ф,
:v6
в которой ф
-
выпуклая функция, имеем
ln Ро
р
=
f
(ln Ро
Ре )>.(d8).
е
Поэтому
А
I(P1; Ро)
•
=j
Ро
ln р Pom(dy) ::;
у
.:; J
Pom(dy)
Введем величину J-Lt
==
j
ln ;: >.(d8)
=
()
у
J
>.(d8)I(Po; Ро).
()
J vt(8)п(d8). Пусть ~t- nоследовательность случайных величин,
V6
где ~t
Vt(8)
= ln(--).
'
J-Lt
Тогда
так как
и
~~t
i' ·
t
t
= ~ I)n ~о - ~ 'L lnPo + ~ln vo(B).
t
1
Р
t
Ре
1
Рассмотрим второй член правой }Шсти равенства
1"'
t
р 0 ( 8)
(9)
(9):
t
Ро
Ро
- L-ln- --:+ lnt
1
Ре
Ре
= Ь > а+ д.
67
'•
Вычислим выражение
1
t
t
Ро
1
р
2:.: ln--;::-,
fъ
ln--;::-
fъ
Ро
Ро
= {In~E{ln--;::-\Ft)} + E(In~\Ft)}.
Pt
Р
Pt
Р
Так как
Ро
In~-
(t =
Pt
и nолучим
Ро
·
-nоследовательность ортогональных величин и если
E{ln--;::-\Ft}
. .
1 t .
E(t <const, то - "(k
t~
Р
-7 О,
Р = lit
}:__
имеем
t -7 оо, по вероятности. Ввиду того, что
J
Vt(O)n(dO)Pe(Ytlxt), J.Lt
.
Vo
Ро
ln-;;- = (t
Pt
~ (t
д
-
I(Pe, Po)vt(O)n(dO)
.
..
~
supJ + (t.
OEvs
t
L lnРо - -1 L ln-}
Р0 <
t
t
Р
1
· 1·1m -t1'>t
~
~
< О , '>t
вероятности nри
t
-7
Vt(O)n(dO),
Р
. {-1
l1m
т.е.
J
Ро
+J
t
=
+ E{ln--;::-\Ft} = (t + I(P, Ро) <
vo
Так как
.·
Ре
1
· ln
Vt(O)
- -·. -+
-оо, то
·
-оо,
lit
-7 оо.
Теnерь вернемся к рассмотрению уравнения
а
+д -
Pe(·lzt, Wt),
'
Vt(O) -,
---'- О. Отсюда vt(n)
---'
- О по
и
~,
lit
(2).
.
Байесова конструкция, оnределяемая формулами (4а) и
nереходных функций
Ь
(45),
связанная с семейством
будет иметь вид
P(xt+llvt, Zt, Wt) =
J
F(xt+l-
ет Zt- Wt)Vt(O)n(dO),
0
Пусть
Vt (О) -
nлотность нормального случайного вектора со средним значением
корреляционной матрицей
Тогда
и
Vt+ 1 (0) - nлотность нормального вектора с корреляционной матрицей St+l и
средним значением
Ot+l,
причем сnраведливы следующие рекуррентные соотношения,
аналогичные полученным для дискретного фильтра Калмана:
68
Ot
St:
Bt+I
=Sнi[S; 1 Bt + ·\ (хн1 ·~ wt)zi] ·
(10)
'Uf
_ Из формул (10) вытекает, '{ТО в случае гауссовых величин ft апостериорные плотности
распределения Vt ( 8) обладают интересНЫМ свойством ·__, их корреЛяционные матрnцы
монотонно убывают: St+l ::; St.
Summary
Karelin V. V.
А proЬlem
of identi:fication in controlled Markov processes.
Convergence and stabllity Bayes in identi:fication of one class of stochastic of control systems is
proven. The proЬlem ·of synthesis of optimum strategy for dynamic systems, in -which part of the
main information, necessary for construction of optimum management absent is considered as well.
Литература
.
1. Ао-к;u М. Оптимизация стохастических. систем/ Пер. с анrл.; Под ред . Я. 3. Цыпкина.
м., 1971. 424 с.
.
2. Karelin V. V. Adaptive optimal strategies in controlled Markov processes f /Advances in
·Opti·m izatien Proeeedi:Ёigs .(i 6th -Fren:ch-Ge;rman <:olloquium of ~ptimization .. FRG. Berlin; .Heidel~ .
berg; New York:: 1991. Р. 51S-525.
.
·
·
3. Лunv,ep Р. Ш., Ширяев А. Н. Статистика случайных процессов. М., 1974. 696 с.
Статья поступила в редакциЮ
10 мая 2004 г .
,.
. :·i
Документ
Категория
Без категории
Просмотров
4
Размер файла
771 Кб
Теги
марковские, управляемое, процесса, идентификация, задачи
1/--страниц
Пожаловаться на содержимое документа