close

Вход

Забыли?

вход по аккаунту

?

Метод полной квадратичной аппроксимации в задачаx оптимального управления.

код для вставкиСкачать
2004
ИЗВЕСТИЯ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ
МАТЕМАТИКА
Є 1 (500)
УДК 517.977
В.А. СРОЧКО, С.Н. УШАКОВА
МЕТОД ПОЛНОЙ КВАДРАТИЧНОЙ АППРОКСИМАЦИИ
В ЗАДАЧАX ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
Для типовой задачи оптимального управления с нелинейными образующими функциями на
основе биквадратичной аппроксимации целевого функционала вместе с обобщенной процедурой
варьирования управлений построен новый метод последовательных улучшений с модернизацией
стандартных схем второго порядка точности [1], [2].
1. Постановка задачи. Метод решения
Сформулируем основную задачу оптимального управления
Z
(u) = '(x(t1 )) + F (x; u; t)dt ! min;
T
x_ = f (x; u; t); x(t0) = x0;
u(t) 2 U; t 2 T = [t0; t1 ]:
(1)
(2)
(3)
Введем множество допустимых управлений V , которое содержит кусочно-непрерывные векторфункции u(t), t 2 T , с условием (3), где U | выпуклое компактное множество.
Предположим, что в задаче (1){(3)
1) терминальная функция '(x) дважды непрерывно дифференцируема по x 2 Rn ,
2) интегрант F (x; u; t) и вектор-функция f (x; u; t) непрерывны по своим аргументам на
Rn U T вместе с производными по совокупности (x; u) до второго порядка включительно.
Введем векторную сопряженную переменную 2 Rn и образуем функцию Понтрягина
H ( ; x; u; t) = h ; f (x; u; t)i ; F (x; u; t):
Выделим из общей постановки задачи (1){(3) два класса задач с характерными свойствами.
Билинейная задача:
1) функция '(x) линейна по x,
2) функция H ( ; x; u; t) билинейна по совокупности (x; u).
Биквадратичная задача:
1) функция '(x) квадратична по x,
2) вектор-функция f (x; u; t) линейна по x,
3) функция H ( ; x; u; t) биквадратична по совокупности (x; u).
Введем аппроксимации целевого функционала, соответствующие по точности представленным задачам.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований
(проекты ЄЄ 02-01-00243, 02-01-81001) и программы \Университеты России" (проект Є УР.03.01.008).
87
Пусть u, w = u + u | пара допустимых управлений. Аппроксимация первого порядка
относительно приращений u, x имеет вид [1]
(w) ; (u) = 1 (u; w) + 1 ;
Z
1 (u; w) = ; hHu ( (t; u); x(t; w); u(t); t); u(t)idt;
T
1 = ou (kuk) + ox(kxk):
Для билинейной задачи она является точной (1 = 0) и порождает серию биградиентных методов, использующих производную Hu , подсчитанную вдоль смешанной совокупности траекторий [1].
Аппроксимация второго порядка точности по приращениям u, x определяется соотношениями
(w) ; (u) = 2 (u; w) + 2 ;
(4)
Z
2 (u; w) = ; hHu (p(t; u; x(t; w)); x(t; w); u(t); t); u(t)idt ;
T
Z
1
; 2 hu(t); Huu (p(t; u; x(t; w)); x(t; w); u(t); t)u(t)idt;
T
2 = ou (kuk2 ) + ox(kxk2 ):
Здесь p(t; u; x) = (t; u) + (t; u)(x ; x(t; u)) | вспомогательная вектор-функция, образованная
на основе решений (t; u), (t; u) векторной и матричной сопряженных систем
_ = ;Hx; (t1 ) = ;'x ;
_ = ;fxT ; fx ; Hxx; (t1 ) = ;'xx :
Нетрудно видеть, что аппроксимация (4) является точной (2 = 0) для биквадратичных задач.
Для построения соответствующего метода второго порядка будем использовать обобщенную
процедуру слабого варьирования с параметром 2 [0; 1] и функцией варьирования (t)
w(t) = u(t) + (t)(v(t) ; u(t)); t 2 T;
v(t) 2 U; (t) 2 [0; ]:
Заменяя в квадратичной аппроксимации 2 (u; w) вектор-функцию x(t; w) произвольной фазовой траекторией x(t), сформулируем задачу поиска элементов варьирования v, при заданном :
Z
(t)hHu [t; x(t)]; v(t) ; u(t)idt +
T
Z
+ 12 2 (t)hv(t) ; u(t); Huu [t; x(t)](v(t) ; u(t))idt ! max;
(5)
T
v(t) 2 U; (t) 2 [0; ]:
Здесь использовано обозначение
s[t; x(t)] = s(p(t; u; x(t)); x(t); u(t); t):
Проведем декомпозицию задачи относительно переменных v, . Полагая = 1, (t) = 1,
выделим из (5) подзадачу поиска вспомогательного управления. Ее решение определяется поточечным условием максимума квадратичной функции на множестве U
1 hv ; u(t); H [t; x(t)](v ; u(t))i; t 2 T:
h
H
[
t;
x
(
t
)]
;
v
;
u
(
t
)
i
+
(6)
u(t) = arg max
u
uu
v2U
2
88
Введем обозначения
g1(t) = hHu[t; x(t)]; u(t) ; u(t)i;
g2(t) = hu(t) ; u(t); Huu [t; x(t)](u(t) ; u(t))i:
Согласно определению вдоль управления u(t) выполняется неравенство (необходимое условие
максимума дифференцируемой функции на выпуклом множестве)
hHu[t; x(t)] + Huu [t; x(t)](u(t) ; u(t)); u(t) ; vi 0; v 2 U:
В частности, при v = u(t) получаем условие неотрицательности
g1 (t) + g2 (t) 0; t 2 T:
(7)
Отметим, что введенные объекты u, g1 , g2 зависят от траектории x(t):
u(t) = u(t; x(t)); gi (t) = gi (t; x(t)); i = 1; 2; t 2 T:
Рассмотрим далее фрагмент задачи (5) при v(t) = u(t) (подзадача на поиск функции варьирования)
Z (t)g1 (t) + 12 2(t)g2 (t) dt ! max;
(8)
T
(t) 2 [0; ]:
Разрешающее условие имеет вид (максимум параболы на отрезке)
g1(t) + 12 2 g2(t) ! max; 2 [0; ]; t 2 T:
(9)
Стационарная точка целевой функции
(t) = ; gg1((tt)) ; g2(t) 6= 0:
2
Найдем решение (t) задачи (9) при условии неотрицательности (7).
Пусть g2 (t) > 0 (выпуклая парабола с точкой минимума (t)). Тогда
(
, g (t) < ; g (t);
1
2
2 2
(t) = 0;; ((tt)) >
2 , g1 (t) ; 2 g2 (t):
Рассмотрим случай g2 (t) < 0 (вогнутая парабола с точкой максимума (t)). В силу условия (7)
g1 (t) + 1 0 ) (t) 1:
g2 (t)
Следовательно, (t) = . Пусть, наконец, g2 (t) = 0. Тогда с учетом (7) g1 (t) 0, т. е. (t) = .
В совокупности заключаем
(
(t) = 0; t 2 T;
; t 2 T n T ;
T = ft 2 T : g2(t) > 0; g1 (t) < ; 2 g2 (t)g:
Отметим нестандартный момент | экстремальная функция варьирования является кусочнопостоянной с возможными участками отсутствия варьирования.
Образуем соответствующее семейство управлений, подчеркивая зависимость от фазового состояния x,
(
u(t; x; ) = uu((tt));+ (u(t; x) ; u(t)); tt 22 TTn; T :
89
Далее реализуется стандартная схема | находится решение x (t) фазовой системы
x_ = f (x; u(t; x; ); t); x(t0 ) = x0
вместе с управлением u (t) = u(t; x (t); ), t 2 T . При этом все элементы варьирования приобретают зависимость от параметра :
u(t; ) = u(t; x (t)); gi (t; ) = gi (t; x (t)); i = 1; 2:
Величина
Z 2 () = g1(t; ) + 2 g2 (t; ) dt 0
(10)
T nT
определяет значение (8) при x(t) = x (t). Подинтегральная функция в (10) неотрицательна.
Действительно, множество T n T описывается неравенствами
1) g2 (t; ) > 0; g1 (t; ) ; 2 g2 (t; )
или
2) g2 (t; ) 0:
В первом случае условие неотрицательности очевидно. Согласно определению управления
u(t) (см. (6)) имеет место неравенство
g1(t; ) + 12 g2 (t; ) 0; t 2 T:
Отсюда для случая 2) получаем требуемый результат
g1 (t; ) + 2 g2(t; ) 0:
(11)
В силу формулы (4) квадратичная аппроксимация принимает значение 2 (u; u ) = ;2().
Следовательно, в биквадратичных задачах управление u обеспечивает нелокальное улучшение
(u ) ; (u) = ;2 () 0; 2 (0; 1]:
В общем случае остаток 2 формулы приращения (4) при w = u имеет порядок o(2 ), и свойство локального улучшения связано с условием неотрицательности главного члена в выражении
(10) для достаточно малых > 0
Z
g1 (t; )dt 0; 2 (0; 0 ):
(12)
T nT
Процедура варьирования способствует выполнению этого неравенства, поскольку множество
T выделяет и выводит из интеграла существенно отрицательные значения функции g1 (t; ).
Кроме того, неравенство (11), справедливое при t 2 T n T , для малых > 0 приводит, вообще
говоря, к условию неотрицательности g1 (t; ) 0, t 2 T n T , которое гарантирует выполнение
интегрального признака (12). Возможность улучшения стационарных (в смысле дифференциального принципа максимума) управлений заложена в используемой аппроксимации и связана
с условиями
Z
Z
g1 (t; )dt = 0;
g2 (t; )dt 0; 2 (0; 0 ):
T nT
T nT
В заключение укажем альтернативный вариант построения вспомогательного управления на
основе задачи в вариациях (5). Полагая (t) = , t 2 T , получаем максимизирующее управление
hv ; u(t); H [t; x(t)](v ; u(t))i; t 2 T: (13)
h
H
[
t;
x
(
t
)]
;
v
;
u
(
t
)
i
+
ue(t; x; ) = arg max
u
uu
v2U
2
90
Соответствующая процедура варьирования имеет вид
u(t; x; ) = u(t) + (ue(t; x; ) ; u(t)); t 2 T:
Квадратичная аппроксимация принимает значение
Z 2 (u; u ) = ; hHu [t; x (t)]; ue(t; x (t); ) ; u(t)i +
T
+ 2 hue(t; x (t); ) ; u(t); Huu [t; x (t)](ue(t; x (t); ) ; u(t))i dt:
При этом подинтегральная функция неотрицательна. Дальнейший ход рассуждений с естественными коррективами сохраняется.
Замечание 1. Обсудим вспомогательную задачу (6). Если исходная задача биквадратична,
то это обычная задача на максимум функции Понтрягина
u(t) = arg max
H (p(t; u; x(t)); x(t); v; t); t 2 T:
v 2U
В общем случае получаем задачу на максимум квадратичной функции относительно множества U
u(t) = arg max
(hw1 (t); vi + 21 hv; W1 (t)vi);
v 2U
w1(t) = Hu[t; x(t)] ; Huu [t; x(t)]u(t);
W1(t) = Huu [t; x(t)]:
Основное предположение связано с аналитической разрешимостью приведенных задач.
Замечание 2. Вторая вспомогательная задача (13) представляется в виде
ue(t; x; ) = arg max
(hw2 (t; ); vi + 12 hv; W2 (t; )vi);
v2U
w2 (t; ) = Hu[t; x(t)] ; Huu[t; x(t)]u(t);
W2(t; ) = Huu[t; x(t)]:
Здесь также требуется аналитическое решение.
2. Схема численного интегрирования разрывных систем
Характерной чертой приведенного выше метода численного решения задач оптимального
управления является необходимость многократного интегрирования разрывных по фазовым переменным дифференциальных систем. Эта нестандартная процедура является существенным
фактором повышения эффективности, поскольку за счет возможности неединственного решения расширяется потенциал улучшения | появляется конструктивный шанс преодолеть барьер
стационарности, что открывает перспективу глобального решения невыпуклых задач оптимального управления.
Рассмотрим, например, билинейную задачу со скалярным управлением
(u) = hc; x(t1 )i ! min;
x_ = (A0 (t) + uA1(t))x + b(t)u; x(t0) = x0;
ju(t)j 1; t 2 T = [t0; t1 ]:
Введем сопряженную систему
_ = ;(A0 (t) + uA1 (t))T ; (t1 ) = ;c;
91
функцию Понтрягина H ( ; x; u; t) = h ; x_ i и максимизирующее управление
u( ; x; t) = arg max
H ( ; x; u; t) = sign Hu( ; x; t):
u2U
Стандартная процедура улучшения имеет вид [1]
u(t); t 2 T; ! (t; u) ! v (x; t) = u( (t; u); x; t) !
! x(t) : x_ = (A0 (t) + v A1(t))x + b(t)v ; x(t0 ) = x0;
v(t) = v(x(t); t) ! (v) (u):
Узловым моментом реализации является задача Коши для разрывной фазовой системы с
управлением
v (x; t) = sign g(x; t); g(x; t) = Hu( (t; u); x; t):
Следует отметить, что с точки зрения улучшения функционала предпочтительное значение
имеют неособые решения x(t) этой системы: g(x(t); t) 6= 0, t 2 T .
В этой связи обсудим процесс интегрирования разрывных по фазовому состоянию систем,
необходимо возникающих при реализации неклассических методов улучшения. Прежде всего
подчеркнем, что здесь используются стандартные схемы численного решения задачи Коши (напр., методы Рунге{Кутта второго порядка) с обоснованной коррекцией для особых случаев,
когда фазовая траектория попадает на поверхность разрыва правой части. Рассмотрим, например, типичный случай фазовой системы
x_ = f (x; u; t);
(14)
которая находится под воздействием разрывного управления сигнатурного типа
u = sign g(x; t)
(15)
относительно гладкой скалярной функции переключения g(x; t), x 2 Rn , t 2 T . При этом поверхность разрыва правой части системы (14) описывается уравнением g(x; t) = 0.
Вне поверхности разрыва (g(x; t) 6= 0) управление (15) определено однозначно, и система (14)
интегрируется обычным образом с помощью какого-либо численного метода. Специальной обработки требуют особые ситуации, когда решение x(t) системы (14) в некоторый момент времени
попадает на поверхность разрыва правой части: g(x( ); ) = 0, и однозначность дальнейшего
продолжения решения теряется.
Исходя из целевой установки на улучшение, в первую очередь делаем попытку найти неособое (g(x(t); t) 6= 0) решение x(t) фазовой системы (14) для t 2 T" = (; + "), " > 0. Здесь
применяется обычная процедура прогнозирования.
Находится пробное решение x(t; 1) фазовой системы (14) с управлением u = 1 на промежутке
T" из начальной точки x( ). Если g(x(t; 1); t) > 0, t 2 T", то x(t; 1) | действительно решение
системы (14) в правой окрестности точки , которое может быть использовано в процедуре
улучшения. В противном случае (g(x(t; 1); t) < 0, t 2 T" ) система (14) такого решения не имеет.
Тогда реализуется симметричный вариант с управлением u = ;1 и пробным решением x(t; ;1).
Такова схема выявления неособых решений фазовой системы (14) относительно особой точки
x( ) : g(x( ); ) = 0. Если таких решений нет (возможная ситуация), то остается использовать
особое решение x(t; u0 ), которое характеризуется условием g(x(t; u0 ); t) = 0, t 2 T" . Соответствующее управление u0 определяется через дифференцирование этого тождества в силу системы
(14) с учетом ограничений на управление (предварительная заготовка).
Выше описан непрерывный вариант интегрирования разрывной системы (14) в окрестности
особой точки x( ). В реальных вычислениях используется, конечно, дискретная схема с шагом
численного интегрирования h. В этом случае = i | некоторый узел интегрирования, xi |
приближенное решение в этом узле, и условие выхода на поверхность разрыва имеет \приближенный" вид jg(xi ; i )j , где > 0 | точность обращения в нуль функции переключения.
92
При этом отрезок прогнозирования T" = fi ; i + h; : : : ; i + khg содержит определенное количество узлов интегрирования. В остальном логика интегрирования в окрестности особой точки
сохраняется.
В заключение отметим, что качественные проблемы для уравнений с разрывной правой частью (существование, общие свойства решений и др.) подробно рассмотрены в [3]. Вопросы приближенного вычисления решений разрывных систем с помощью методов Рунге{Кутта (условия
сходимости) обсуждены в [4].
Литература
1. Срочко В.А. Итерационные методы решения задач оптимального управления. { М.: Физматлит, 2000. { 160 с.
2. Батурин В.А., Урбанович Д.Е. Приближенные методы оптимального управления, основанные на принципе расширения. { Новосибирск: Наука, 1997. { 175 с.
3. Филиппов А.Ф. Дифференциальные уравнения с разрывной правой частью. { М.: Наука, 1985.
{ 224 c.
4. Филлипов А.Ф. О приближенном вычислении решений обыкновенных дифференциальных
уравнений с разрывными правыми частями // Вестн. МГУ. Cер. 15. Вычисл. матем. и киберн. { 2001. { Є 2. { С. 18{20.
Иркутский государственный
Поступила
15.09.2003
университет
93
Документ
Категория
Без категории
Просмотров
5
Размер файла
143 Кб
Теги
оптимальное, метод, полное, квадратичної, управления, задача, аппроксимация
1/--страниц
Пожаловаться на содержимое документа