close

Вход

Забыли?

вход по аккаунту

?

Минимаксная стратегия управления для класса гауссовских случайных сред с различными дисперсиями.

код для вставкиСкачать
2015
ВЕСТНИК НОВГОРОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
№3(86) Ч.2
УДК 519.6
МИНИМАКСНАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ ДЛЯ КЛАССА ГАУССОВСКИХ
СЛУЧАЙНЫХ СРЕД С РАЗЛИЧНЫМИ ДИСПЕРСИЯМИ
А.Н.Лазутченко
MINIMAX CONTROL STRATEGY FOR SOME GAUSSIAN RANDOM ENVIRONMENTS
WITH DIFFERENT VARIANCES
A.N.Lazutchenko
Институт электронных и информационных систем НовГУ, aleskey@hotbox.ru
Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными доходами с
дисперсиями, меньшими единичной. Ранее была получена оптимальная стратегия управления для случайной среды с
нормально распределенными доходами с единичными дисперсиями. Проверено предположение об оптимальности этой
стратегии для класса случайных сред с дисперсиями, меньшими единичной. Представлены результаты вычислений
моделированием методом Монте-Карло.
Ключевые слова: случайная среда, задача о двуруком бандите, оптимальное управление, байесовский подход
The problem of optimal control in a random environment with normally distributed incomes and with less than maximum
variances is considered. Earlier there was obtained the optimal control strategy for a random environment with normally
distributed incomes with unit variances. In this paper there was checked a hypothesis about optimality of this strategy for the
whole set of these environments with different variances. The results of calculations by Monte-Carlo simulation are given.
Keywords: random environment, two-arm bandit problem, optimal control, Bayesian approach
25
2015
ВЕСТНИК НОВГОРОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
где D — максимальная дисперсия дохода. В [3] рассматриваются бинарные случайные среды, но оценки
можно перенести и на случай сред с нормально распределенными доходами. Такие среды используются,
например, в [4], где рассматривается двухпороговая
стратегия, которая позволяет улучшить качество
управления за счет уменьшения средних потерь дохода.
1. Введение
Рассматривается задача об оптимальном
управлении в случайной среде с нормально распределенными доходами. За рубежом эта задача известна
как задача о двуруком бандите [1]. Случайная среда
— это управляемый случайный процесс t , где
t  1,...,T . Назовем T горизонтом управления — это
полное время управления случайным процессом. Значения этого процесса можно рассматривать как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные
распределения с плотностями

2. Постановка задачи и ее решение методом
моделирования Монте-Карло
В работе рассматриваются случайные среды с
нормальным распределением доходов (гауссовские
случайные среды). Подобные среды возникают при
групповой обработке данных, если для обработки
можно использовать альтернативные методы. Например, требуется обработать N данных. Разобьем их на
T групп по K данных. Будем использовать минимаксную стратегию, применяющую одинаковый вариант к каждой из групп. При этом к данным с номерами n  tK 1,, (t 1)K применяется один и тот же
вариант, а затем формируется значение процесса

f Dl ( x | ml )  2Dl 1/ 2 exp   x  ml 2 /(2Dl ) ,
где l — номер выбранного действия (в нашем случае
рассматривается случайная среда с двумя действиями, поэтому l  1,2) , ml — его математическое ожидание, Dl — дисперсия. При такой постановке задачи
случайная среда описывается вектором математических ожиданий   (m1, m2 ), а также вектором дисперсий (D1, D2 ). В нашем случае параметр  фиксирован, но неизвестен тому, кто осуществляет управление. Ограничение на множество рассматриваемых
дисперсий имеет вид D0  Dl  1, D0  0, l  1,2.
t  K

1 (t 1) K
2
,
n
t  0,,T 1. Реакцией среды явля-
ntK 1
ется количество успешно обработанных данных. Оно
имеет приблизительно нормальное распределение в
силу центральной предельной теоремы.
Далее рассматривается минимаксное управление, использующее основную теорему теории игр.
В этом случае минимаксные стратегии и риск ищутся как байесовские, соответствующие наихудшему
априорному распределению. Эта задача в случае
равных единичных дисперсий доходов рассмотрена
в [2,5], где получена соответствующая минимаксная
стратегия. В данной работе мы предполагаем, что
такая стратегия является минимаксной не только для
рассмотренных сред, но также для класса сред с
дисперсиями, отличными от единичной.
Наше предположение о том, что найденная в
[2] стратегия является минимаксной для сред с дисперсиями, отличными от максимальной, может быть
проверено с помощью моделирования методом Монте-Карло. Моделирование стандартных нормально
распределенных случайных величин будет производиться с помощью преобразования Бокса—Мюллера.
Сначала моделируются две случайные величины
Введем функцию потерь LT (, ), значениями
которой являются потери за время управления, вызванные неполнотой информации о системе. Здесь 
— используемая стратегия. В случае если дисперсии
равны, а параметр  известен, то наилучшей стратегией является та, которая применяет то действие, которому соответствует большая из величин m1, m2 , и
максимальный полный доход в этом случае равен
max(m1, m2 ) T . Если же  неизвестен, то возникают
потери вследствие неполноты информации о среде,
равные:
 T 
LT (, )  max(m1, m2 )  T  E,  t  .


 t 1 
Здесь LT (, ) — функция потерь, E, — математи-

ческое ожидание потерь полного дохода. Ограничения на множество допустимых значений параметра 
имеют вид   m1, m2  :| m1  m2 | c, где c — некоторая константа 0  c  .
При использовании минимаксного подхода,
предложенного, например, в [2], цель управления
состоит в минимизации максимальных ожидаемых
потерь полного дохода на множестве параметров 
по множеству стратегий . При этом минимаксный
z1  cos(2)  2 ln r , z2  cos(2)  2 ln r , где r и 
— независимые случайные величины, равномерно
распределенные на полуинтервале (0; 1] . Затем осуществляется переход к нормально распределенной
случайной величине  ~ (, 2 ) с использованием
преобразования     z.
риск RTM () выглядит следующим образом:
RTM ()  inf sup LT (, ).

№3(86) Ч.2
Далее, в нашем случае дисперсии доходов Dl
на действиях случайной среды будут разными и могут принимать различные значения из множества
D0  Dl  1, D0  0, l  1,2. Нам необходимо проверить,
что при таких дисперсиях ни одно из значений

В работе [3] была предложена пороговая стратегия, где была получена неулучшаемая оценка минимаксного риска
0,530  (DT )1/ 2 RN ()  0,752,
26
2015
ВЕСТНИК НОВГОРОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
№3(86) Ч.2
Значения LT (, ) для некоторых дисперсий
d
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
D1 = 0,20, D2 = 0,80
0
0,072
0,135
0,186
0,228
0,264
0,29
0,313
0,328
0,342
0,351
D1 = 0,80, D2 = 0,20
0
0,115
0,216
0,305
0,381
0,445
0,496
0,539
0,571
0,59
0,606
D1 = 0,50, D2 = 0,50
0
0,092
0,173
0,242
0,298
0,347
0,383
0,412
0,434
0,448
0,457
Значения LT(,) для некоторых пар дисперсий
ной и при различных дисперсиях, меньших, чем единичная. Результаты представлены в графическом и
табличном видах.
В дальнейшем планируется обобщить данную
задачу на случай пороговой стратегии управления в
случайных средах.
Автор выражает благодарность профессору
А.В.Колногорову за содействие при написании статьи.
max LT (, ) при конкретных   (m1, m2 ) не превысит

аналогичного при Dl  1. В качестве стратегии 
используется стратегия для D 1. Были вычислены
значения LT (, ) для различных пар дисперсий
Dl [0,2; 0;9] с шагом 0,2 для горизонта управления
T  50 для 0  d  10 с шагом 0,1, где d  m1  m2 .
Некоторые результаты вычислений представлены в
таблице.
В результате анализа вычисленных значений
было выявлено, что наше предположение верно, и
полученная в случае единичных дисперсий стратегия действительно является минимаксной для дисперсий, меньших, чем единичная. Для некоторых
пар дисперсий значения LT (, ) представлены на
рисунке. Здесь же сплошной линией приведены
значения при D 1. Отметим, что при увеличении
горизонта управления результаты становятся точнее, но требуют больших затрат времени на моделирование.
3. Заключение
1.
2.
3.
4.
5.
Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными
доходами и двумя действиями. С помощью моделирования методом Монте-Карло проверено предположение о том, что найденная при единичных дисперсиях минимаксная стратегия оказывается минимакс-
Berry D.A., Fristedt B. Bandit problems. L., N.Y.: Chapman
and Hall, 1985. P.275.
Колногоров А.В. Нахождение минимаксных стратегии и
риска в случайной среде (задача о двуруком бандите) //
Автоматика и телемеханика. 2011. №5. С.127-138.
Vogel W. An asymptotic minimax theorem for the two-armed
bandit problem // Ann. Math. Statist. 1960. V.31. P.444-451.
Лазутченко А.Н. Использование двухпороговой стратегии управления в случайной среде с нормально распределенными доходами [Электронный ресурс] // Современные проблемы науки и образования. 2014. №2; URL:
www.science-education.ru/116-12590 (дата обращения:
12.02.2015).
Колногоров А.В. Робастное параллельное управление в
случайной среде (задаче о двуруком бандите) // АиТ.
2012. №4. C. 114-130.
References
1.
2.
27
Berry D.A., Fristedt B. Bandit problems. London, New York,
Chapman and Hall, 1985, p. 275.
Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i
riska v sluchainoi srede (zadacha o dvurukom bandite) [Finding minimax strategy and minimax risk in a random environment (the two-armed bandit problem)]. Avtomatika i
2015
3.
4.
ВЕСТНИК НОВГОРОДСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
Telemekhanika – Automation and Remote Control, 2011, no.
5, pp. 127-138.
Vogel W. An asymptotic minimax theorem for the two-armed
bandit problem. Annals of Mathematical Statistics, 1960, vol.
31, pp. 444-451.
Lazutchenko A.N. Ispol'zovanie dvukhporogovoi strategii
upravleniia v sluchainoi srede s normal'no raspredelennymi
dokhodami [Using the two threshold management strategy in
a stochastic environment with normal distributed incomes].
5.
28
№3(86) Ч.2
Sovremennye problemy nauki i obrazovaniia – Modern problems of science and education, 2014, no. 2. Available at:
www.science-education.ru/116-12590 (accessed 12.02.2015).
Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) [Parallel design
of robust control in the stochastic environment (the twoarmed bandit problem)]. Avtomatika i Telemekhanika –
Automation and Remote Control, 2012, vol. 73, no. 4, pp.
689-701.
Документ
Категория
Без категории
Просмотров
6
Размер файла
460 Кб
Теги
среды, случайных, минимаксной, гауссовских, дисперсия, класс, управления, различных, стратегия
1/--страниц
Пожаловаться на содержимое документа