close

Вход

Забыли?

вход по аккаунту

?

Установочные лекции 3 часть

код для вставкиСкачать

Синтез оптимального управления
СОДЕРЖАНИЕ
Тема 1. Детерминированные задачи синтеза3
Введение3
Достаточные условия оптимальности при дискретном управлении4
Алгоритм оптимальной коррекции летательного аппарата. Линейные дискретные системы, оптимизируемые по квадратичному критерию7
Достаточные условия оптимальности при непрерывном управлении. Уравнение Беллмана10
Оптимальное интегро-терминальное управление летательным аппаратом. Аналитическое конструирование оптимальных регуляторов12
Тема 2. Стохастические задачи синтеза при полной информацииError! Bookmark not defined.
Достаточные условия оптимальности при дискретном управлении16
Учет изопериметрических ограничений21
Оптимальное управление стационарным спутником с использованием импульсной корректирующей двигательной установкой25
Оптимизация процесса коррекции траектории космического аппарата44
Оптимизация процесса перевода стационарного ИСЗ в заданное положение с использованием двигательной установки малой тяги51
Достаточные условия оптимальности при непрерывном управлении. Стохастическое уравнение Беллмана59
Оптимальное интегро-терминальное стохастическое управление летательным аппаратом. Линейные непрерывные системы, оптимизируемые по квадратичному критерию61
Оптимальное управление конечным состоянием спускаемого аппарата64
Учет изопериметрических ограничений67
О методах приближенного синтеза оптимального управления в непрерывном случае71
Тема 12. Постановка задачи синтеза оптимального управления. (4ч, СРС 2ч.)
Введение
Одной из основных задач, которые возникают при управлении летательными аппаратами (ЛА), является задача синтеза оптимального управления, состоящая в определении наилучшего в том или ином смысле алгоритма (закона) управления летательным аппаратом, т.е. зависимости управляющего воздействия от текущих координат, доступных измерительным приборам. Решение этой задачи имеет большое значение на этапе формирования рациональной структуры замкнутой системы управления летательным аппаратом (рис. 1).
Рис. 1. Общий вид замкнутой системы управления ЛА.
Для решения задачи синтеза могут быть применены различные математические методы, которые можно разделить на две больше группы.
Методы первой группы предполагают использование необходимых условий оптимальности. Поскольку эти условия оптимальности непосредственно предназначены для решения задачи программирования, то при решении задачи синтеза приходится использовать дополнительные приемы, например метод фазовой плоскости или параметрическую аппроксимацию искомого закона управления.
Методы второй группы базируются на использовании достаточных условий оптимальности, позволяющих определять искомый закон управления в явном виде. Рассмотрению методов именно этой группы и посвящен данный раздел.
Строго говоря, задачи синтеза возникают в тех случаях, когда на объект управления действуют возмущения. Поясним сказанное на примере управления летательным аппаратом (ЛА). Предположим, что целью управления является выведение ЛА в заданную конечную точку. Если допустить, что точно известны начальное состояние ЛА и действующие на него в полете силы, то задача определения управления ЛА фактически сводится к задаче программирования движения. Однако реальное движение ЛА происходит в условиях, существенно отличающихся от упомянутых. Начальное состояние, как правило, известно лишь с некоторой точностью. В полете на ЛА действуют различные возмущения. Если к этому добавить, что и сама программная траектория может быть реализована лишь с ошибкой, то станет совершенно очевидно, что ЛА никогда не будет двигаться вдоль выбранной заранее программной траектории. Если ЛА не снабдить специальной системой управления (коррекции), то реальное движение может сколь угодно отличаться от расчётного и, следовательно, цель управления не будет достигнута. Таким образом, возникает задача синтеза управления, т.е. задача формирования закона управления ЛА, который может быть положен в основу построения системы управления, обеспечивающей достижение цели управления с максимальной точностью. Из сказанного ясно, что при решении задач синтеза необходимо в общем случае учитывать действующие на ЛА возмущения. Такие, задачи обычно достаточно сложны. Основным из упрощений, принимаемых при решении задач синтеза, является неучет случайных возмущений. На первый взгляд может показаться, что такое упрощение недопустимо, ибо оно связано с пренебрежением именно тех факторов, которыми обусловлено возникновение задачи синтеза. Тем не менее рассмотрение задач синтеза в детерминированной постановке очень часто является оправданным. В одних случаях удается даже строго обосновать такой подход. В других случаях это приводит к приближенному решению задач и отысканию более простых законов управления, позволяющих все же эффективно парировать возмущения (хотя и не оптимально).
Математической основой решения задач синтеза являются достаточные условия оптимальности, к изучению которых мы и перейдем. Сначала рассмотрим дискретный случай управления.
Тема 13. Детерминированные задачи синтеза. (10ч , СРС 5ч.)
Достаточные условия оптимальности при дискретном управлении
Рассмотрим задачу синтеза оптимального управления дискретной системой
(1.1)
где - вектор состояния системы; - вектор управления в i-й момент времени; - допустимое множество; - вектор-функция, устанавливающая связь между векторами и вектором ; N - количество шагов управления.
В качестве критерия оптимальности примем функцию конечного состояния
(1.2)
Требуется найти такую последовательность законов управления которая обеспечивает перевод системы (1.1) из начального состояния в конечное с минимальным значением критерия (1.2). Предполагается, что вектор текущего состояния системы доступен измерению и все измерения производятся точно.
Введем в рассмотрение функцию
(1.3)
По определению есть минимальное значение критерия (1.2), которое может быть достигнуто при оптимальном управлении системой (1.1), если считать, что ее движение начинается с момента i из состояния . Поскольку характеризует прогнозируемое значение критерия, будем называть ее функцией будущих потерь.
Применяя к выражению (1.3) метод поэтапной оптимизации, можно записать
(1.4)
или
(1.5)
Согласно определению (1.3) для момента i = N функция будущих потерь находится как
(1.6)
Таким образом функция будущих потерь удовлетворяет рекуррентному соотношению (1.5) с гранитным условием (1.6). Условие (1.6) может быть формально представлено также в виде соотношения (1.5) с учетом того, что
(1.7)
Нетрудно заметить, что последовательность управляющих воздействий , найденная в соответствии с рекуррентным соотношением (1.5), обеспечивает минимальное значение критерию (1.2). Это следует из определения самой функции будущих потерь. Действительно, согласно (1.3) для момента i=1 имеем
Следовательно, рекуррентное соотношение (1.5) с граничным условием (1.7) может рассматриваться в качестве достаточных условий оптимальности управляющей последовательности . Фактически рекуррентное соотношение (1.5) реализует метод динамического программирования, разработанный Робертом Беллманом на основе использования выдвинутого им принципа оптимальности. В соответствии с этим принципом оптимальное управление в текущий момент времени не зависит от предыстории системы, а полностью определяется текущим состоянием и целью управления.
Применение достаточных условий оптимальности к решению поставленной задачи сводится к последовательному N-шаговому процессу использования соотношения (1.5), начиная с конечного момента времени i = N и кончая моментом i = 1. В результате определяются зависимости оптимального управления от текущего состояния системы т.е. решается задача синтеза оптимального управления. При этом на каждом шаге минимизация осуществляется лишь по текущему вектору управления . Таким образом, метод динамического программирования, реализующий достаточные условия оптимальности, представляет собой, по сути дела, метод численного решения задачи синтеза оптимального управления путем последовательной (поэтапной) минимизации функции многих переменных.
Основным препятствием для применения метода является так называемое "проклятие размерности", заключающееся в необходимости запоминания на каждом шаге оптимизации функции будущих потерь, т.е. функции многих переменных. Запоминание таких функций требует огромного объема памяти ЦВМ. Практически приходится прибегать к каким-либо аппроксимациям функции будущих потерь. В этом случае, ограничения, накладываемые на вектор управления и вектор фазовых координат, могут существенно облегчить решение задачи. Упражнения.
1. Убедиться в справедливости метода поэтапной оптимизации:
а) показать, что для любых имеет место равенство
(1.8)
б) получить аналог соотношения (1.8) для случая, когда на х и у накладывается смешанное ограничение вида ;
в) получить соотношение (1.4).
2. Показать, что для задачи управления системой
(1.9)
с минимизацией критерия
(1.10)
достаточные условия оптимальности могут быть представлены в виде рекуррентного соотношения
(1.11)
при граничном условии
(1.12)
Выяснить физический смысл функции в данном случае.
3. Убедиться, что ограничения, накладываемые на фазовый вектор вида , не изменяют структуры достаточных условий оптимальности.
Алгоритм оптимальной коррекции летательного аппарата. Линейные дискретные системы, оптимизируемые по квадратичному критерию
Применение достаточных условий оптимальности проиллюстрируем задачей синтеза оптимального алгоритма коррекции ЛА.
В качестве математической модели процесса коррекции примем систему линейных дискретных уравнений вида
(1.13)
где характеризует отклонение вектора состояния ЛА от расчетного перед проведением i-й коррекции; - корректирующее воздействие (управление) в момент i; - матрицы, устанавливающие связь векторов c отклонением вектора состояния перед совершением последующей коррекции.
Критерий оптимальности зададим в виде
(1.14)
где - некоторые известные матрицы.
Первое слагаемое в критерии (1.9) характеризует энергетические затраты, необходимые для совершения процесса коррекции, второе - эффект управления конечным состоянием.
Задача состоит в выборе такого алгоритма управления для любого момента времени при котором критерий (1.9) обращается в минимум.
Для решения задачи воспользуемся достаточными условиями оптимальности. С учетом (1.13) и (1.14) рекуррентное соотношение (1.11) для функции будущих потерь примет вид
(1.15)
Согласно (1.12) функция будущих потерь удовлетворяет граничному условию
(1.16)
Полагая в соотношении (1.15) i = N , с учетом (1.16) находим
(1.17)
Оптимальное управление в соответствии с (1.17) должно удовлетворять необходимому условию
откуда
(1.18)
где
(1.19)
Предполагается, конечно, что матрица существует. Если матрица положительно определенная, то управление (1.18) удовлетворяет и достаточному условию минимума в выражении (1.17). В этом случае соотношение (1.19) определяет искомый алгоритм оптимального управления Подставив найденное управление в (1.17), получим явное выражение для функции будущих потерь:
(1.20)
где через обозначена матрица вида
С учетом обозначений (1.19) последнее выражение принимает вид
После определения функции будущих потерь можно перейти к отысканию этой функции на предыдущем шаге полагая в (1.15) i = N -1. Поскольку вид функции не изменился по сравнению с видом функции то очевидно, что в результате применения рекуррентного соотношения (1.15) при i = N - 1 получим функцию в таком же виде. Другими словами, функция для любого i может быть представлена в виде
(1.21)
В этом можно убедиться, если воспользоваться методом индукции. Предположим, что выражение (1.21) справедливо для момента i + 1, т.е.
Тогда согласно (1.15) функция удовлетворяет соотношению
откуда находим искомое управление
(1.22)
где
(1.23)
Управление (1.22) является оптимальным, если матрица положительно определенная. С учетом (1.22) и (1.23) функция принимает вид (1.21), причем матрица определяется соотношением
(1.24)
Таким образом, алгоритм (закон) оптимального управления линейной системой (1.13) при квадратичном критерии (1.14) является линейным. Матрицу называют матрицей коэффициентов обратной связи, так как она характеризует взаимосвязь вектора фазовых координат (выходного вектора замкнутой оптимальной системы) с вектором управления .
Мы ухе отмечали, что для обеспечения минимума правой части рекуррентного соотношения (1.15) необходима положительная определенность всех матриц . Можно показать, что для выполнения этого достаточно потребовать положительной определенности матриц , присутствующих в исходном критерии оптимальности.
Упражнения.
1. Решить задачу выбора оптимального алгоритма однопараметрической коррекции ЛА, принимая в качестве модели скалярное уравнение Рассмотреть следующие варианты критериев оптимальности:
1) 2) 3) 4) .
Сравнить между собой получаемые алгоритмы управления. 2. Решить задачу выбора оптимального алгоритма управления линейной системой (1.13) из условия обращения в минимум критерия
Достаточные условия оптимальности при непрерывном управлении. Уравнение Беллмана
Перейдем к задаче синтеза оптимального управления непрерывными системами, описываемыми дифференциальными уравнениями вида
(1.25)
Здесь x - вектор текущего состояния системы; u - вектор управления; - допустимое множество; - вектор-функция правых частей уравнения; [0,Т] - заданный интервал времени управления.
В качестве критерия оптимальности рассмотрим функцию конечного состояния
(1.26)
Требуется найти такой закон управления , который обеспечивает перевод системы (1.25) из начального состояния x(0) в конечное x(T) с минимальным значением критерия (1.26).
Для получения достаточных условий оптимальности в такой задаче дискретизируем ее:
(1.27)
(1.28)
Здесь через обозначен шаг дискретизации.
Теперь воспользуемся достаточными условиями оптимальности для дискретного случая.
Применительно к рассматриваемой задаче рекуррентное соотношение (1.5) примет следующий вид:
(1.29)
Предположим, что функция будущих потерь является дифференцируемой. Тогда, разлагая функцию в ряд Тейлора в окрестности точки , получаем (1.30) где через 0() обозначены члены более высокого порядка малости по сравнению с . Перепашем (1.30) в виде
Перейдем теперь в обеих частях уравнения к пределам при полагая, что они существуют. Получим уравнение
(1.31)
которое называется уравнением Беллмана. Оно представляет собой дифференциальное уравнение в частных производных относительно функции будущих потерь . Граничное условие для этого уравнения согласно (1.7) имеет вид
(1.32)
Таким образом, функция будущих потерь равная по определению наименьшему значению критерия при движении системы с момента t из состояния ,
(1.33)
может быть найдена как решение задачи Коши для дифференциального уравнения в частных производных (1.31). Поскольку при решении уравнения Беллмана попутно определяется и алгоритм оптимального управления , это уравнение, как и в дискретном случае, может рассматриваться в качестве достаточных условий оптимальности.
Решить задачу синтеза в общем случае с помощью достаточных условий оптимальности (1.31) и (1.32) можно лишь численно. При этом рекуррентное соотношение (1.29) представляет собой один из алгоритмов приближенного решения уравнения (1.31). Строго говоря, уравнение Беллмана (1.31) получено в предположении непрерывной дифференцируемости функции будущих потерь по своим аргументам. Однако оно может быть использовано при соответствующем обосновании и в случаях, когда функция недифференцируема. При этом необходимо следить за тем, чтобы в местах разрыва производных сама функция была непрерывной.
Упражнения.
1. Показать, что для задачи управления системой (1.25) с критерием оптимальности более общего вида
(1.34)
достаточные условия оптимальности в форме уравнения Беллмана принимают вид
(1.35)
с прежним граничным условием (1.32).
2. Показать, что для задачи синтеза оптимального управления , переводящего систему (1.25) в заданное (непосредственно или косвенно) конечное состояние за минимальное время Т, т.е. для задачи синтеза оптимального по быстродействию управления системой (1.25), уравнение Беллмана принимает вид
(1.36)
где через обозначено минимальное время перевода системы (1.25) из текущего состояния x в состояние .
Оптимальное интегро-терминальное управление летательным аппаратом. Аналитическое конструирование оптимальных регуляторов
Рассмотрим задачу формирования оптимального алгоритма (закона) управления летательным аппаратом, используя в качестве математической модели линеаризованные относительно некоторой опорной траектории уравнения движения
(1.37)
где вектор х характеризует отклонение текущего состояния ЛА от опорного; u - вектор управляющего воздействия, например компоненты ускорения, создаваемого двигательной установкой; А и В - матрицы частных производных правых частей исходных нелинейных уравнений движения, получаемые в процессе линеаризации последних. Критерий оптимальности зададим в виде
(1.38)
где - заданные матрицы, причем W положительно определенная.
Первое слагаемое в критерии (1.38) характеризует энергетические затраты, необходимые для процесса управления, второе - эффект управления конечным состоянием.
Задача заключается в выборе закона управления , обращающего критерий (1.38) в минимум. Предполагается, конечно, что в любой момент времени вектор состояния х может быть измерен.
Для решения задачи обратимся к достаточным условиям оптимальности в форме уравнения Беллмана (1.35), которое с учетом (1.37) принимает вид
(1.39)
причем согласно (1.32)
(1.40)
Осуществляя операцию минимизации в (1.39), получаем зависимость оптимального управления от функции будущих потерь:
(1.41)
С учетом (1.41) уравнение (1.39) для функции принимает вид
(1.42)
Решение этого уравнения для функции , удовлетворяющее граничному условию (1.40), будем искать в виде квадратичной формы
(1.43)
где - некоторая матрица, зависящая только от времени: = (t). Подставляя (1.43) в (1.42), получаем
Откуда следует, что матрица должна удовлетворять дифференциальному уравнению типа Риккати:
(1.44)
Поскольку при t = Т должно иметь место условие (1.40),
(1.45)
С учетом выражения (1.43) для функции будущих потерь оптимальное управление (1.41) окончательно принимает вид
(1.46)
где введено обозначение
(1.47)
Таким образом, оптимальный закон управления в задаче управления линейной системой (1.37) с квадратичным критерием качества (1.38) является линейным.
Оптимальная система управления, соответствующая найденному решению, представляет собой линейную систему с переменными по времени коэффициентами обратной связи, представленными в виде матрицы L. Характерно, что элементы матрицы L зависят от времени даже в случае, когда матрицы А, В, W не зависят от времени. Это следует непосредственно из уравнений (1.44), (1.45). Однако если А, В, W не зависят от времени, то при достаточно большом Т можно говорить об "установившемся" режиме. В этом случае, полагая = 0, получим следующее нелинейное матричное алгебраическое уравнение относительно постоянной матрицы :
(1.48)
Решение уравнения (1.48) можно рассматривать как предел решения системы (1.44) при , если такой существует.
В этом случае можно говорить, об оптимальной системе управления с постоянными коэффициентами.
Впервые задача синтеза оптимального управления линейным объектом с квадратичным критерием качества под названием "Аналитическое конструирование оптимальных регуляторов" была поставлена и решена советским ученым А.М. Летовым. Эта задача имеет достаточно широкую область применения и используется при проектировании оптимальных регуляторов для различных систем автоматического управления. Задача находит применение не только в теории управления ЛА.
Упражнения.
1. Показать, что при использовании критерия вида
алгоритм оптимального управления системой (1.37) имеет по-прежнему структуру (1.46). Изменение претерпевает лишь уравнение (1.44) для матрицы . Какое именно? 2. Решить задачу синтеза оптимального по быстродействию управления угловой скоростью летательного аппарата, принимая в качестве математической модели скалярное уравнение и считая, что
3. Исследовать задачу синтеза оптимального по быстродействию управления летательным аппаратом, принимая, в качестве модели уравнения
где - угол разворота Ж; u - угловая скорость ЛА.
Показать, что уравнению Беллмана (1.36) в данном случае удовлетворяет следующая функция будущих потерь:
а следовательно, оптимальный закон управления имеет вид 4. Исследовать задачу синтеза оптимального управления летательным аппаратом, принимая в качестве математической модели уравнения
где параметры определяют угловое отклонение ЛА от заданного направления и угловую скорость; u - управляющее воздействие; - заданные величины (для простоты можно принять ), а в качестве критерия оптимальности величину
Показать, что в данном случае оптимальное управление является линейным. Найти его.
Тема 14 Стохастические задачи синтеза при полной информации. (16ч , СРС 8ч.) Перейдем к рассмотрению задач синтеза оптимального управления, в которых учитывается действие случайных факторов. Предположим, что априорные стохастические характеристики действующих возмущений известны, и поэтому они могут быть учтены при формировании алгоритма управления (рис. 2). Именно такие задачи называются стохастическими задачами синтеза. В качестве основного метода решения используются достаточные условия оптимальности. Как и в детерминированных задачах управления, сначала рассматривается случай дискретного, затем непрерывного управления. В данном разделе изучается случай управления при наличии полной информации о состоянии объекта, когда в любой момент времени может быть точно измерен полный вектор состояния.
Рис. 2. Структурная схема системы управления при учете возмущений, действующих на объект управления
Достаточные условия оптимальности при дискретном управлении
Рассмотрим задачу управления следующей дискретной стохастической системой
(2.1)
где - вектор текущего состояния, - вектор управления в i-й момент времени; - вектор случайных возмущений; - вектор-функция; N - количество шагов управления.
Будем считать, что случайные возмущения {} являются независимыми для разных моментов времени. Поставим задачу определения такого алгоритма (закона) управления для. любого момента времени, который обеспечил бы перевод системы (2.1) из заданного начального состояния , в конечное с минимальным значением критерия
(2.2)
Задание начального состояния не нарушает общности рассмотрения задачи, так как случайные разбросы вектора (если такие имеются) могут быть отнесены к вектору .
Как уже упоминалось, предполагается, что вектор текущего состояния может быть точно измерен.
С учетом сказанного случайный процесс, описываемый системой (2.1), является марковским.
Покажем, что применение метода динамического программирования в данной задаче, как и в детерминированном случае, обеспечивает выполнение достаточных условий оптимальности. Для этого введем в рассмотрение функцию будущих потерь
(2.3)
представляющую собой минимальное значение критерия (2.2), которое может быть достигнуто при оптимальном управлении системой (2.1) начиная с момента времени i из состояния . Символ означает условное математическое ожидание. Раскрывая в (2.3) операцию математического ожидания, используя правило пересчета переходных плотностей вероятностей марковского процесса и применяя поэтапную оптимизацию, можно записать
(2.4)
Здесь через обозначена переходная плотность вероятностей процесса (2.1) при управлении , т.е. условная плотность вероятностей вектора при фиксированных . Интегралы в (2.4) следует понимать как многомерные с областями интегрирования, совпадающими с областями изменения векторов соответственно.
Другими словами, функция будущих потерь , определяемая соответственно (2.3), удовлетворяет следующему рекуррентному соотношению:
(2.5)
Поскольку для последнего момента управления ( i = N ) по определению имеем
граничное условие для рекуррентного соотношения (2.5) может быть формально записано в виде
(2.6)
Применяя соотношение (2.5) последовательно, начиная с момента i = N , получаем при i = 1 значение , которое согласно (2.3) представляет собой минимальное значение критерия (2.2):
Другими словами, последовательность управляющих воздействий , вычисленная в соответствии с рекуррентным соотношением (2.5) с учетом граничного условия (2.6), оптимальна.
Таким образом, соотношения (2.5) и (2.6) можно рассматривать как достаточные условия оптимальности в задаче синтеза оптимального управления системой (2.1) с критерием (2.2).
Упражнения.
1. Получить рекуррентное соотношение (2.5).
2. Показать, что в задаче управления системой (2.1) с критерием оптимальности вида (2.7)
достаточные условия оптимальности могут быть представлены в виде рекуррентного соотношения
(2.8)
с прежним граничным условием
(2.9)
2.2. Алгоритм оптимальной коррекции летательного аппарата. Линейные дискретные системы, оптимизируемые по квадратичному критерию
Иллюстрацию применения достаточных условий оптимальности начнем с задачи синтеза оптимального алгоритма коррекция ЛА. Процесс коррекции будем описывать следующей математической моделью
(2.10)
где вектор по-прежнему характеризует отклонение вектора состояния ЛА от расчетного перед проведением i-й коррекции; - корректирующее воздействие (управление) в момент i; - заданные матрицы; - центрированная случайная величина с заданной дисперсией , которая характеризует ошибки реализации управляющего (корректирующего) воздействия, пропорциональные величине этого воздействия, так называемое мультипликативное возмущение1; - центрированный случайный вектор с корреляционной матрицей , характеризующий ошибки реализации управляющего воздействия, не зависящие от величины самого воздействия, другими словами, аддитивное возмущение.
В качестве критерия оптимальности примем ожидаемое значение обобщенной характеристики, равной по аналогии с детерминированным случаем взвешенной сумме энергетических затрат, необходимых для проведения коррекции, и конечной точности
(2.11)
где - заданные матрицы.
Будем полагать, что перед проведением каждой коррекции может быть точно измерен вектор текущего состояния.
Для определения алгоритма оптимальной коррекции обратимся к достаточным условиям (2.8) и (2.9). Применительно к рассматриваемой задаче эти условия примут вид
(2.12)
(2.13)
По индукции нетрудно установить, что функция будущих потерь для любого момента времени i может быть представлена в виде
(2.14)
Действительно, для момента i =N+1 выражение (2.14) справедливо, причем согласно (2.13)
(2.15)
Допустим, что выражение (2.14) справедливо и для момента i+1, т.е.
(2.16)
Тогда рекуррентное соотношение (2.12) с учетом (2.16) и (2.10) принимает вид
(2.17)
Здесь символ Sp означает след матрицы.
Отсюда находим, что алгоритм оптимального управления должен иметь вид
(2.18)
где матрица коэффициентов обратной связи L, определяется выражением
(2.19)
Следует отметить, что управление (2.18) минимизирует правую часть выражения (2.17), если матрица оказывается положительно определенной.
С учетом найденного алгоритма управления (2.18) выражение для функции будущих потерь (2.17) принимает вид (2.14), причем матрица и коэффициент оказываются связанными с и соотношениями: (2.20)
Таким образом, функция будущих потерь в рассматриваемой задаче (управление линейной стохастической системой (2.10) с квадратичным критерием оптимальности (2.11)) имеет квадратичную структуру (2.14). Матрица и коэффициент , входящие в нее, определяются в соответствии с рекуррентными соотношениями (2.20) при граничных условиях (2.15). Алгоритм оптимального управления при этом (2.18) является линейным. По форме он совпадает с соответствующим алгоритмом управления (1.22) детерминированной системой (1.13.). Однако коэффициенты обратной связи, определяемые матрицей , в общем случае будут иными, так как согласно (2.19) теперь зависит от статистических свойств мультипликативного возмущения . Если же отсутствует, т.е. , то нетрудно видеть, что матрица определяется точно так же, как и в детерминированном случае. Итак, при наличии только аддитивных возмущений алгоритм оптимального управления линейной стохастической системой полностью совпадает с алгоритмом оптимального управления соответствующей детерминированной системой. Аддитивные возмущения оказывают влияние лишь на величину критерия оптимальности через параметр в соответствии с соотношением (2.20). Наличие мультипликативного возмущения приводит к изменению самого оптимального управления (в данном случае не структуры, а лишь его параметров). Упражнения. 1. Получить выражение для функции будущих потерь (2.14).
2. Используя полученное решение, найти алгоритм оптимальной однопараметрической коррекции космического аппарата, считая и скалярными величинами. Показать, что при управлении только конечным состоянием () оптимальное управление в этом случае в любой момент временя полностью определяется параметрами модели и дисперсией - именно в этот момент времени.
3. Используя полученное решение, найти алгоритм оптимальной двухпараметрической коррекции, считая двухмерным вектором, а скаляром. Показать, что в случае управления конечным состоянием () при наличии только аддитивного возмущения () оптимальная стратегия управления сводится к проведению лишь двух последних коррекций, так как проведение других коррекций не приводит к дальнейшему уменьшению критерия оптимальности.
4. Используя достаточные условия оптимальности, найти алгоритм однопараметрической коррекции летательного аппарата, принимая в качестве математической модели скалярное уравнение
где случайная ошибка реализации корректирующего воздействия считается тождественно равной нулю, если . При она представляет собой центрированную гауссовскую величину с единичной дисперсией. В качестве критерия оптимальности рассмотреть следующие варианты:
1) 2) Учет изопериметрических ограничений
При решении практических задач синтеза оптимального управления часто приходится учитывать кроме ограничений, накладываемых на вектор управления, дополнительные ограничения вида
где - известные функции вектора - некоторые заданные величины, l - количество ограничений. Такие ограничения в дальнейшем называются изопериметрическими.
Задача формулируется следующим образом. Требуется найти такой алгоритм управления системой (2.1), который обращая в минимум критерий (2.2), удовлетворял бы ограничениям
(2.21)
Для учета последних обратимся к методу обобщенных множителей Лагранжа. Составим обобщенный критерий оптимальности
(2.22)
где - множители Лагранжа, один из которых для определенности, например , равен единице. В соответствии с известными необходимыми условиями оптимальности (теорема Куна - Такера) условная минимизация критерия (2.2) с учетом (2.21) может быть заменена безусловной минимизацией обобщенного критерия (2.22), если множители Лагранжа определить как неотрицательные корни, 0, системы уравнений
(2.23)
Здесь под понимается вектор с компонентами . Уравнения (2.23) следует понимать таким образом, что либо =0, если , либо 0, если . Если же при всех 0 имеет место неравенство , то решения задачи не существует, так как ограничение не может быть выполнено.
Следует заметить, что в случаях, когда ограничения (2.21) выполняются в виде строгих равенств, то существование , при которых эти равенства имеют место и одновременно обеспечивается минимум обобщенного критерия оптимальности, является достаточным условием того, чтобы основной критерий также достигал минимума. Действительно, допустим, что существуют такие множители , при которых управляющая последовательность , обращает критерий (2.22) в минимум
и имеют место равенства
Тогда для любых u имеет место неравенство
откуда
Но последнее условие и означает, что управление обеспечивает минимум критерия при условии Общая последовательность решения задачи теперь сводится к следующему. Из условия минимизации обобщенного критерия находим структуру оптимального управления. Для этого по-прежнему используем основное рекуррентное соотношение (2.5), однако граничное условие (2.6) в соответствии (2.21)-(2.22) принимает теперь вид (2.24)
Нетрудно видеть, что получаемый при этом алгоритм оптимального управления оказывается зависящим от вектора множителей Лагранжа , . Для определения компонент необходимо обратиться к условиям (2.23), раскрыв предварительно в них зависимости . С этой целью, полагая, что структура оптимального управления определена, введем в рассмотрение функции будущих потерь:
(2.25)
В выражениях (2.25) отсутствует лишь операция минимизации по управлению. Функция представляет собой фактически величину , вычисленную при условии, что движение системы (2.1) начинается с момента i из состояния и происходит с выбранным уже алгоритмом оптимального управления. Очевидно, функции через алгоритм управления также зависят от вектора , т.е. . Полагая в (2.25) i=1, получаем
С учетом этих соотношений система (5.23) для определения может быть представлена теперь в виде
Выясним теперь, каким образом можно найти функции . Из выражения (2.25) следует, что Следовательно, каждая функция может быть определена с помощью рекуррентного соотношения
(2.26)
с граничным условием (2.27)
получаемым сразу из (2.25), если принять i=N+1.
Таким образом определение оптимального управления в данной задаче сводится к применению основного рекуррентного соотношения (2.5) с граничным условием (2.24) для выявления структуры этого управления, к применению рекуррентных соотношений (2.26) с граничными условиями (2.27) для установления зависимостей при разных j и последующего решения системы (2.23) относительно вектора .
Упражнения.
1. Показать, что в задаче управления системой (2.1) с критерием оптимальности вида при дополнительных ограничениях достаточные условия оптимальности при определении структуры оптимального управления могут быть представлены в виде рекуррентного соотношения
(2.28)
а при раскрытии зависимостей в виде
(2.29)
с прежними граничными условиями
Оптимальное управление стационарным спутником с использованием импульсной корректирующей двигательной установкой
Для иллюстрации методики учета изопериметрических ограничений рассмотрим задачу выбора алгоритма оптимального управления, обеспечивающего перевод стационарного искусственного спутника Земли (СИСЗ) из одной точки орбиты в другую с требуемой точностью при минимальных энергетических затратах.
Под СИСЗ понимается ИСЗ, двигающийся в направлении вращения Земли по экваториальной круговой орбите с периодом обращения, равным периоду собственного вращения Земли. Для наблюдателя, находящегося на Земле, такой спутник будет казаться неподвижным.
Перевод спутника предполагается осуществлять с использованием корректирующей двигательной установки (КДУ) большой тяги, позволяющей реализовать корректирующие импульсы скорости практически мгновенно. В начальный момент i=0 к СИСЗ прикладывается по касательной к траектории некоторый импульс скорости, в результате чего орбита движения СИСЗ становится эллиптической. Возникшая разница в периодах обращения по эллиптической и первоначальной круговой орбитам приводит к дрейфу, т. е. видимому для земного наблюдателя смещению. Дальнейшие корректирующие импульсы прикладываются в моменты прохождения спутником точек апогея (перигея) i = 1, 2, ..., N и предназначаются для постепенной ликвидации дрейфа к последнему моменту N+1 при условии обеспечения требуемой конечной точности перевода.
Введем обозначения: - текущее угловое расстояние между i-прохождением через апогей (першей) и требуемым положением; - угловая скорость дрейфа в i-й момент прохождения апогея, измеряемая угловым смещением СИСЗ за один оборот; - величина i-го корректирующего импульса, пересчитанная в скорость дрейфа; ( - случайный коэффициент с дисперсией , характеризующий разброс i-го корректирующего импульса. Тогда математическая модель процесса перевода может быть представлена в виде следующей системы конечно-разностных уравнений:
или в матричном виде
где
По условию задачи считается, что - некоторая известная величина.
В качестве характеристики конечной точности примем величину
где - математическое ожидание (среднее значение) параметра эллипса
характеризующего область допустимых конечных разбросов в момент N+1 в пространстве . Если - единичная матрица, то является квадратом радиуса окружности рассеивания, а величина - соответственно вторым моментом этого радиуса. Если кроме того допустить, что математическое ожидание вектора равно нулю, то величина будет характеризовать просто дисперсию радиуса рассеивания.
В процессе перевода требуется обеспечить выполнение условия
где - заданная величина.
Энергетические затраты, подлежащие минимизации, оценим величиной
В соответствии с изложенной методикой алгоритм оптимальной коррекции может быть найден с помощью рекуррентного соотношения (2.28), которое в данном случае принимает вид
при условии
В соответствии с выражениями (2.14)-(2.20) устанавливаем, что для функции будущих потерь имеет место формула где матрица определяется с помощью рекуррентного соотношения
при граничном условии
Здесь . Алгоритм оптимального управления имеет вид
Полученные соотношения могут быть расписаны и в скалярном виде:
где
при граничных условиях Для определения множителя установим зависимость . С этой целью обратимся к рекуррентному соотношению (2.26)
с граничным условием (2.27)
Нетрудно установить, что функция как и функция в любой момент может быть представлена в виде квадратичной формы
Действительно, полагая, что последнее справедливо для момента i+1, т. е.
из рекуррентного соотношения для находим
причем матрица связана следующим рекуррентным соотношением с матрицей :
где Граничное условие для имеет вид
Полученные формулы в скалярном виде имеют вид Так как начальное положение СИСЗ известно, причем , то полагая i=0 в получаем оценку конечной точности
Зависимость проявляется через параметр , который, в свою очередь, зависит от множителя . Проанализируем теперь уравнение
определяющее неизвестный множитель . Можно выделить следующие случаи: 1) =0; 2) ; 3) .
Последний случай не представляет практического интереса, так как свидетельствует о невозможности удовлетворения конечным требованиям ни при каком .
Первый случай практически соответствует решению не исходной задачи по минимизации энергетических затрат, а задачи, связанной с достижением наилучшей конечной точности. Очевидно, если величина , полученная в результате такого решения, окажется более заданной, , то решение исходной задачи не существует. В связи с этим данный случай имеет важное значение. С одной стороны, он дает ответ на вопрос, существует ли вообще решение исходной задачи (если то решение существует, если , то не существует). С другой стороны, он дает представление о предельно достижимой конечной точности.
При условии существования решения можно перейти к рассмотрению второго случая, который будет основным. Искомое значение множителя теперь определяется как положительный корень уравнения
Это уравнение можно решить графически, построив зависимость при . 2.5. Методы приближенного синтеза оптимального управления
Основной трудностью на пути применения достаточных условий оптимальности при решении задач синтеза является так называемое "проклятие размерности", заключающееся в необходимости запоминания на каждом шаге оптимизации функции будущих потерь, являющейся в общем случае функцией п переменных. Запоминание таких функций при больших п (начиная с n=3) требует огромного объема памяти и оказывается непосильной задачей даже для современных ЦВМ. В связи с этим приходится прибегать к различным приближенным методам, основанным либо на линеаризации (обычной и статистической), либо на аппроксимации функции будущих потерь. В последнем случае наличие ограничений, накладываемых на вектор управления и на вектор фазовых координат, может существенно облегчить решение задачи синтеза.
Метод линеаризации. Рассмотрим задачу синтеза оптимального управления системой
(2.30)
из условия обращения в минимум критерия
(2.31)
полагая сначала, что ограничения на вектор управления отсутствуют, а векторы образуют "белую" последовательность с корреляционными матрицами . Предположим, что возмущенное движение системы (2.30) может быть описано уравнениями в отклонениях
относительно некоторой программной траектории, определяемой уравнением
Здесь введены обозначения:
Разложим выражение (2.31) для критерия оптимальности в ряд Тейлора с точностью до членов второго порядка малости
где (2.32)
Здесь приняты также следующие обозначения:
(2.33)
Так как зависит только от программной составляющей управления , то для выбора последовательности следует минимизировать . С этой целью обратимся к основному рекуррентному соотношению метода динамического программирования. Как и прежде, можно показать, что функция будущих потерь при некоторых предположениях может быть представлена в виде
(2.34)
Действительно, для момента i=N+1 соотношение (2.34) имеет место, причем
(2.35)
Предположим теперь, что (2.34) имеет место для (i+l)-го момента, т. е.
Тогда на основании рекуррентного соотношения (2.28) получим где Полагая, что матрица - положительно определенная, находим
(2.36)
где
С учетом найденного управления выражение для функции принимает вид (2.34). При этом
(2.37)
Применяя рекуррентные соотношения (5.37) при граничных условиях (2.35), можно последовательно определить все коэффициенты обратной связи и систематические составляющие в законе (5.36). Значение функции будущих потерь в момент i=0 определит минимальное значение .
Так как по условию =0, то получаем
До сих пор предполагалось, что программная траектория известна. Поэтому матрицы и векторы считались также известными.
Нетрудно заметить, что величина , определяющая минимальное значение составляющей и зависящая от указанных матриц, оказывается в конечном счете зависящей от программной траектории. Стремясь в итоге к достижению минимума полного критерия , выбор программной траектории следует теперь подчинить условию
Здесь под понимается последовательность управлений определяющая программную траекторию.
Метод статистической линеаризации. Рассмотренный выше метод применим в случаях, когда на вектор управления не накладываются ограничения. Однако он может быть распространен и на случай ограниченного управляющего воздействия, если воспользоваться дополнительно методом статистической линеаризации.
Обратимся снова к задаче синтеза оптимального управления системой (2.30) из условия обращения в минимум критерия (2.31). Однако будем теперь считать, что на вектор управления накладываются ограничения Для простоты считаем, что множество представляет собой m-мерный параллелепипед
где - заданное значение.
Как и раньше, через обозначим программное управление, удовлетворяющее теперь ограничениям, и соответствующую траекторию движения (без учета возмущения).
Уравнения в отклонениях и выражение для приращения критерия оптимальности имеет прежний вид. Однако задачу минимизации составляющей теперь не удается решить так просто, ибо необходимо учитывать ограничения , где множества определяются неравенствами
В силу этих ограничений закон оптимального управления теперь уже не будет линейным. Однако, производя статистическую линеаризацию зависимости в каждый момент времени, можно показать, что функция будущих потерь по-прежнему имеет вид (2.34):
(2.38)
Действительно, для момента i=N+1 соотношение это имеет место. Полагая далее, что оно справедливо и для (i+l)-го момента, получаем
где Здесь Тогда, осуществляя минимизацию по , получим следующий закон управления:
(2.39)
где через обозначены компоненты вектора, определяемого согласно (2.36):
Здесь По-прежнему предполагается положительная определенность матрицы .
Произведем статистическую линеаризацию зависимости (5.39), т. е. заменим ее следующей:
(2.40)
где - коэффициенты статистической линеаризации, зависящие от математического ожидания и среднеквадратичного отклонения величины .
Введем в рассмотрение диагональные матрицы и с элементами соответственно. Тогда соотношения (2.40) могут быть переписаны в виде
где
Так как линейно по , то, как и прежде, получаем для выражение в виде (2.38), причем
(2.41)
Граничные условия для этих рекуррентных соотношений по-прежнему имеют вид (2.35). Чтобы воспользоваться этими соотношениями, необходимо знать математические ожидания и среднеквадратичные отклонения компонент вектора , так как последние определяют матрицы . С этой целью обратимся к уравнениям для математического ожидания , и корреляционной матрицы вектора . Эти уравнения могут быть представлены в следующем виде:
(2.42)
При этом
(2.43)
Так как система (2.41) имеет граничные условия на правом конце, а система (2.42) - на левом, то имеем краевую задачу. Ее решение может быть получено с помощью методов последовательных приближений. Один из простейших методов может состоять в следующем:
1. Задается начальное приближение матрицы .
2. Определяется алгоритм субоптимального управления (точнее, его параметры ) согласно (2.39)-(2.41).
3. Производится уточнение матрицы на основе статистических характеристик (2.43), полученных в соответствии с (2.42) при найденном алгоритме управления.
В качестве начального приближения матриц можно рекомендовать единичные матрицы. Нетрудно заметить, что при этом начальное приближение будет соответствовать случаю неограниченного управления.
Для иллюстрации метода рассмотрим задачу одноимпульсной однопараметрической коррекции. Математическая модель в этом случае может быть записана в виде
Предположим, что Критерий оптимальности имеет вид . Применение достаточных условий оптимальности в данном случае позволяет найти точное решение задачи. Алгоритм коррекции имеет следующий вид:
Функция будущих потерь равна
Величина критерия оптимальности при этом вычисляется по формуле
где через обозначены интеграл вероятностей и его производная.
Обратимся теперь к методу статистической линеаризации. Производя статистическую линеаризацию найденного алгоритма коррекции, получаем
Вычисляя величину критерия оптимальности при данном управлении, будем иметь
Сравнивая выражения для оценок и , можно установить, что максимально возможная ошибка оценки достигается при и составляет ~6% от величины .
Таким образом, использование метода статистической линеаризации совместно с методом динамического программирования позволяет получить приближенное решение задачи синтеза.
Область применения предложенного метода не ограничивается рассмотренным случаем. Метод может быть применен и в более общих случаях, например, когда вектор-функция правых частей уравнений не является дифференцируемой функцией или когда линеаризованная обычным способом система не описывает точно возмущенное движение исходной системы. В этих случаях по-прежнему можно прийти к линеаризованной системе, однако путем ее статистической линеаризации.
Метод параметров. Сущность метода параметров состоит в отыскании наилучших в том или ином смысле значений параметров и разложении функции будущих потерь с помощью использования основного рекуррентного соотношения метода динамического программирования. Ниже рассматриваются две модификации метода параметров применительно к задаче синтеза оптимального управления системой
из условия минимума критерия
1. Аппроксимация функции потерь полиномами. Предположим, что функции являются непрерывно-дифференцируемыми, а управление неограниченным. Для простоты будем считать скаляром. Представим функцию будущих потерь в виде разложения
(2.44)
где - однородная форма степени j. Так,
причем
и т. д. Подставляя оценку в основное рекуррентное соотношение метода динамического программирования, получаем
где
Для осуществления операции минимизации по управлению можно воспользоваться методом Ньютона, согласно которому
(2.45)
Предполагается, конечно, что метод сходится. С целью сокращения числа итераций начальное приближение целесообразно задавать исходя из физических соображений. Если это трудно сделать, можно положить =0.
Функция будущих потерь на q-й итерации тогда может быть представлена в виде
Приравнивая в левой и правой частях этого выражения коэффициенты при одинаковых степенях , можно получить следующие рекуррентные соотношения для определения коэффициентов в однородных формах:
Нетрудно установить, что применение данного метода к задаче управления линейной системой с квадратичным критерием оптимальности позволяет за одну итерацию получить точное решение задачи. В случае нелинейных систем метод может быть использован для получения приближенного решения задачи.
Метод наиболее удобен в случае полиномиальных функций . Пусть, например, система описывается одномерным уравнением
а критерий оптимальности имеет вид
В этом случае
где элементы выражаются через коэффициенты и статистические характеристики возмущения. Полагая начальное приближение =0, согласно (2.45) получаем в первом приближении следующий закон управления:
Ограничимся этим приближением. Тогда для функции будущих потерь получим
Выражения для коэффициентов в разложении
при этом принимают вид
Ограничиваясь тем или иным числом членов в разложении, можно получить с различной степенью точности искомое решение задачи.
Специфика рассмотренного метода такова, что его применение целесообразно в случаях, когда управление является неограниченным, а ожидаемая траектория движения сравнительно близка к началу координат. Если эти условия не имеют места, более предпочтительным может оказаться другой подход.
2. Наилучшее приближение функции потерь. Представим функцию потерь в виде
(2.46)
где - заданные функции; - параметры, подлежащие определению. Для их определения потребуем, чтобы как можно ближе было к действительной функции в некоторой области . В качестве критерия близости рассмотрим интегральную квадратичную ошибку
Минимизируя это выражение по , получаем
Вообще говоря, полученным соотношением можно воспользоваться, если функция известна. Но для приближенного решения задачи вместо можно рассмотреть функцию , получаемую с помощью основного рекуррентного соотношения с учетом представления (5.46):
Итак, подставляя в выражение для , получаем следующее рекуррентное соотношение для определения вектора параметров:
(2.47)
Здесь введены обозначения
Граничные условия для вектора получаются из соотношения
Последний метод является достаточно гибким. Он допускает использование различных разложений (2.46) для различных моментов времени. Так как точность метода при выбранных функциях зависит от областей , на которых производится аппроксимация, то их следует подбирать как можно уже, но так, чтобы они содержали все возможные реализации векторов . В связи с этим подбор областей , целесообразно производить последовательными приближениями, чередуя процедуру определения структуры управления при заданных областях c процедурой уточнения самих областей путем определения статистических характеристик системы при найденном алгоритме.
Комбинированный метод оптимизации. Практически при решении сложной технической задачи, связанной с оптимизацией стохастической системы при различных ограничениях, трудно рассчитывать на успех, если заранее ориентироваться лишь на один из рассмотренных методов. Это объясняется тем, что каждый из методов, обладая тем или иным преимуществом перед другими методами, имеет и слабые стороны, с которыми на определенной стадии решения задачи приходится сталкиваться. В связи с этим, очевидно, наиболее целесообразным является применение различных комбинированных методов.
Рассмотрим один из таких методов на примере задачи оптимизации процесса управления системой
из условия обращения в минимум критерия
(2.48)
при наличии ограничений
(2.49)
Сущность метода сводится к следующему.
1. Учет терминальных ограничений произведем с помощью множителей Лагранжа, благодаря чему от исходной задачи перейдем к вспомогательной задаче минимизации обобщенного критерия оптимальности:
решаемой теперь уже без учета терминальных ограничений, но с последующим выбором множителей так, чтобы для оптимального решения выполнялись условия
2. В искомом управлении, характеризуемом вектором и, выделим две составляющие-программную и синтезируемую . По отношению к этим составляющим применим поэтапную оптимизацию, согласно которой
где
через обозначены множества допустимых векторов соответственно. В общем случае зависит от .
На первом этапе определяется функция путем минимизации обобщенного критерия оптимальности по составляющей . На втором этапе находится составляющая путем минимизации критерия .
Компонентами синтезируемой составляющей могут являться либо компоненты вектора приращения относительно программной составляющей , либо просто отдельные компоненты вектора и, в отношении которых желательно получить решение задачи синтеза. Для определенности здесь будем считать, что
3. Для решения задачи первого этапа применим один из приближенных методов синтеза, изложенных выше. В частности, при совместном использовании метода динамического программирования и метода статистической линеаризации получим алгоритм субоптимального управления в виде (2.39). Соответствующее значение критерия оптимальности будет равно
где определяется согласно (2.32), а - с помощью системы рекуррентных соотношений (2.41), (2.42).
4. Для решения задачи второго этапа в общем случае следует применять численные методы.
5. Решение задачи заканчивается поиском вектора множителей Лагранжа . Для раскрытия зависимостей представим в виде
где
Величины могут быть вычислены одновременно с минимизацией функции по , а одновременно с определением закона . При этом возможны два подхода.
Первый основан на использовании системы (2.42) для математического ожидания и корреляционной матрицы вектора при найденном управлении. В этом случае имеем
Второй подход базируется на использовании рекуррентного соотношения для функции
Нетрудно убедиться, что функция имеет вид
где удовлетворяют рекуррентным соотношениям
Полагая i=0 и учитывая =0, получаем
Возможны различные модификации изложенного метода. В частности, применение метода множителей Лагранжа может быть осуществлено не перед поэтапной оптимизацией, а на первом этапе ее при определении синтезируемой составляющей управления.
Применение метода поэтапной оптимизации проиллюстрируем на примере задачи оптимизации процесса управления системой
из условия обращения в минимум критерия
Пусть начальное состояние считается известным. Для простоты ограничимся случаем скалярного управления. Обозначим через последовательность программных значений управляющего воздействия, через соответствующую траекторию . Значение критерия при этом будет равно
Учитывая, что в данном случае согласно (2.36) - (2.37) получим следующие расчетные формулы:
(2.50)
из которых видно, что конкретная программа управления влияет лишь на компенсационную составляющую через вектор и соответственно на величину критерия . Коэффициенты обратной связи оказываются инвариантными относительно программы управления.
Для определения оптимальной программы управления зададим начальное приближение обеспечивающее минимум критерию . Нетрудно установить, что для всех i=0, 1,..., N имеет место соотношение Вычислим составляющие градиента . Так как и , i=0, 1,..., N, получим
Оказывается, что все производные при этом также обращаются в нуль. Действительно, из (2.50) с учетом следует, что
и
Поэтому для любого i
Таким образом, оптимальная программа управления в данной задаче минимизирует составляющую и может рассматриваться как результат применения оптимального закона управления к осредненному процессу.
Оптимизация процесса коррекции траектории космического аппарата
Рассмотрим возможность применения комбинированного метода к задаче оптимизации процесса однопараметрической коррекции траектории космического аппарата.
Обозначим через величину прогнозируемого конечного промаха в момент, непосредственно предшествующий i-му корректирующему импульсу, отнесенному к среднему квадратичному отклонению априорного промаха; через - расчетную величину i-го корректирующего импульса скорости, отнесенную к среднему квадратичному отклонению ошибки, его реализации, через - производную по направлению . Обычно убывает по мере движения КА. Тогда после отработки i-го импульса получим
(2.51)
где представляет собой ошибку реализации i-го корректирующего импульса. Будем считать, что =0 при =0. При 0 - центрированная случайная гауссовская величина с единичной дисперсией. Задача оптимизации процесса коррекции состоит в определении последовательности , i= 1, ..., N, включая определение самих моментов коррекции, обеспечивающей достижение требуемой конечной точности, характеризуемой условием
(2.52)
при минимальном расходе топлива, оцениваемом величиной
(2.53)
Число коррекций N и величина в соотношении (2.23) считаются заданными. Так как от моментов коррекции зависят лишь коэффициенты , то задачу определения оптимальных моментов коррекции, т. е. задачу оптимального распределения корректирующих импульсов вдоль траектории наведения, будем трактовать как задачу отыскания оптимальной последовательности Для решения задачи обратимся к комбинированному методу оптимизации.
Согласно поэтапной оптимизации решение задачи может быть проведено в два этапа. На первом этапе при фиксированном В путем минимизации критерия (2.53) по последовательности i=l,2,...,N, с учетом (2.52) отыскивается алгоритм оптимальной коррекции и функция
представляющая собой по сути дела зависимость потребного для достижения заданной конечной точности расхода топлива от моментов проведения коррекции.
На втором этапе находится оптимальное распределение корректирующих импульсов путем минимизации функции по последовательности Для решения задачи первого этапа воспользуемся методом множителей Лагранжа.
Введем в рассмотрение обобщенный критерий оптимальности
Пусть управление, минимизирующее при данном .
Нетрудно показать, что если найдется такой множитель >0, что будут одновременно выполнены условия
то управление будет оптимальным в задаче первого этапа. Действительно, из определения следует
откуда для всех и, если . Таким образом, для определения алгоритма оптимальной коррекции достаточно минимизировать по последовательности обобщенный критерий оптимальности последующим выбором множителя из условия .
Минимизация критерия может быть проведена с помощью основного рекуррентного соотношения метода динамического программирования
(2.54)
при граничном условии
Для определения множителя а необходимо произвести анализ конечной точности при найденном согласно (2.54) алгоритме коррекции, т. е. установить зависимость от . С этой целью может быть использовано рекуррентное соотношение
(2.55)
при граничном условии
Искомая зависимость определится соотношением Для решения задачи второго этапа необходимо установить зависимость . Это может быть сделано с помощью рекуррентного соотношения
(5.56)
при граничном условии
Так как функция характеризует зависимость ожидаемого расхода топлива при оптимальном корректировании от текущего состояния , то, очевидно,
Для окончательного решения задачи остается минимизировать функцию по В. Для простоты ограничимся рассмотрением случая одноимпульсной коррекции. Предположим, что единственная коррекция производится в момент i=N. Воспользовавшись рекуррентным соотношением (2.54), с учетом (2.51) получим
где
Осуществляя операцию минимизации по для случая >0, получаем
Минимальное значение функции при этом оказывается равным
где
Аналогично для случая <0
Объединяя полученные результаты, заключаем, что оптимальный алгоритм коррекции в момент i=N имеет вид
(2.57)
Здесь - величина, определяемая условием т. е.
Таким образом, алгоритм оптимальной коррекции является существенно нелинейным. Он имеет зону нечувствительности и является линейным вне этой зоны.
Функция потерь при найденном алгоритме может быть представлена в виде
(2.58)
В соответствии с изложенной выше методикой для определения множителя , входящего в алгоритм (2.57) через параметр , необходимо установить зависимость от . Для этого, как уже говорилось, воспользуемся рекуррентным соотношением (2.55), полагая i=N. Будем иметь
или, принимая во внимание алгоритм (5.57),
(2.59)
где .
Так как рассматривается случай одноимпульсной коррекции, то в соответствии с принятыми обозначениями представляет собой величину нормированного априорного промаха, который имел бы место без коррекции траектории. Полагая, что является центрированной случайной величиной с нормальным законом распределения и единичной дисперсией и производя осреднение выражения (2.50) по , получим искомую зависимость от .
Введем условные обозначения для следующих интегралов:
Эти интегралы легко выражаются через табличные интегралы вероятностей, а именно,
Здесь
С учетом принятых обозначении получаем
или
(2.60)
Соотношение (2.60) и устанавливает зависимость от множителя Лагранжа , в данном случае через параметр , который связан с следующим образом:
Каждому значению или, что то же самое, соответствует свое значение . Приравнивая величине , получаем уравнение для определения (или ):
(2.61)
К сожалению, аналитически решить уравнение относительно не удается. Решение можно получить численными методами или графически, построив зависимость от . Характерно, что эта зависимость является монотонно возрастающей, в чем нетрудно убедиться, рассмотрев производную
Это означает, что решение уравнения (2.61), если такое существует, единственное. Это решение, естественно, зависит от параметра , определяемого в свою очередь моментом проведения коррекции. С целью определения оптимального момента коррекции установим связь ожидаемого расхода топлива от величины .
В соответствии с рекуррентным соотношением (2.56) имеем
где
Производя осреднение полученного выражения по , как и выше, получаем
или
(2.62)
Из (2.62) видно, что ожидаемый расход топлива однозначно определяется все теми же параметрами и . Минимизируя (2.62) по с учетом (2.61) найдем оптимальное значение, а следовательно, и оптимальный момент проведения коррекции, обеспечивающие минимум ожидаемому расходу топлива при достижении требуемой конечной точности. Беря производную от (2.62) с учетом (2.61) и приравнивая ее к нулю, получим
причем
Учитывая это, нетрудно получить следующее алгебраическое уравнение второй степени относительно :
где через обозначено отношение:
Уравнение имеет единственный положительный корень
Последнее соотношение совместно с условием (2.61) и определяет оптимальное значение коэффициента , обеспечивающее минимум ожидаемого расхода топлива при достижении требуемой конечной точности. Уравнение (2.61) целесообразно решать графически. С этой целью достаточно построить зависимости , и . На основании зависимости по заданному значению определяется величина , а по зависимостям , и найденной величине - оптимальное значение и соответствующее значение . Указанные зависимости можно перестроить, исключив вообще из рассмотрения параметр . В результате получим явные зависимости оптимальных значений и от величины , определяющей заданную конечную точность.
Оптимизация процесса перевода стационарного ИСЗ в заданное положение с использованием двигательной установки малой тяги
В качестве еще одного примера решения прикладной задачи рассмотрим задачу оптимизации процесса перевода стационарного ИСЗ (СИСЗ) из одной точки в другую с использованием корректирующей двигательной установки (КДУ) малой тяги, развивающей постоянное (в номинале) ускорение вдоль нормали к текущему радиус-вектору. Перевод СИСЗ должен быть осуществлен с требуемой точностью при минимальных энергетических затратах. Ввиду малости управляющего ускорения будем теперь учитывать влияние длительности коррекции, считая его существенным, на параметры текущей орбиты. Это требует использования более сложной модели процесса перевода. Такая модель может быть получена, в частности, если рассмотреть уравнения движения СИСЗ, линеаризованные относительно стационарной орбиты:
(2.63)
Здесь - отклонения радиуса орбиты и долготы от соответствующих значений на стационарной орбите: ; - радиус стационарной орбиты; - угловая скорость собственного вращения Земли; f - управляющее ускорение, развиваемое КДУ; t - время.
Предположим, что каждое очередное включение КДУ возможно лишь спустя некоторое время после предыдущего выключения. Обозначим через момент окончания -й коррекции; - длительность i-го пассивного участка; - длительность проведения i-й коррекции. Тогда будем иметь i=0,1,..., N, N - число коррекций, и - начальный и конечный моменты времени соответственно. Считается, что , i=0,1,...,N, - заданные величины.
Полагая, что во время каждой коррекции управляющее ускорение постоянно и равно , решение системы (2.63) можно представить в виде
(2.64)
где
(2.65)
- номинальное управляющее ускорение, численно равное номинальному , но имеющее знак , т. е. - центрированная случайная величина с дисперсией , учитывающая разбросы ускорения относительно номинального значения.
Перейдем в уравнениях системы (2.64) от переменных к новым переменным . Нетрудно установить на основе (2.65), что такой переход является взаимооднозначным. Физический смысл новых переменных сводится к следующему: компонента представляет собой текущее отклонение СИСЗ по долготе от требуемой точки "висения"; компонента , численно равная смещению спутника по долготе в пассивном полете за одни сутки ( при ), характеризует текущую скорость дрейфа; наконец, компоненты связаны с эксцентриситетом текущей орбиты соотношением
(2.66)
Действительно, в i-й момент времени эксцентриситет можно вычислить) по формуле
где - наибольшее и наименьшее отклонение радиуса орбиты от стационарного при . Так как согласно (2.64)
то сразу получаем (2.66).
В новых переменных уравнение движения СИСЗ можно представить в следующем виде:
(2.67)
где
(2.68)
Величина , введенная во втором уравнении системы (2.67), имеет важное значение для рассматриваемой задачи. Она характеризует расчетное приращение скорости дрейфа в i-й коррекции и однозначно связана с длительностью этой коррекции и направлением приложения управляющего ускорения:
Будем считать в качестве одного из основных параметров управления в i-й момент времени.
На основе соотношения (2.66) и уравнений (2.67) нетрудно получить уравнение для эволюции эксцентриситета в процессе i-го корректирования:
(2.69)
где
Из уравнения (2.69) видно, что эксцентриситет после совершения каждой коррекции в общем случае определяется величиной и направлением управляющего ускорения, длительностью коррекции и временем ее проведения (месторасположения), определяемым параметром , или, что то же самое, длительностью пассивного участка . Исключение составляет лишь случай, когда =0. Нетрудно убедиться, что эксцентриситет после коррекции в этом случае, равный
зависит лишь от величины управляющего ускорения и длительности коррекции , время проведения коррекции может быть любым.
В связи с тем, что эксцентриситет в конечном счете - явление нежелательное, время проведения каждой коррекции выберем так, чтобы эксцентриситет после коррекции был минимально возможным. Согласно (2.69) минимальное значение достигается при значениях
Здесь - любое целое число, равное
где
Угол может быть определен как
В свою очередь, согласно (2.67) устанавливаем
откуда при Поэтому, считая для всех i, получаем окончательно следующее выражение для оптимальногозначения параметра :
(2.70)
где
Длительность пассивного участка связана согласно(2.65)с величиной соотношением
Так как однозначно связано с и, следовательно, с целочисленным параметром , то последний может быть принят в качестве второго управляющего параметра в момент (наряду с ).
С учетом выражений (2.68), (2.70) первое уравнение системы (2.67) можно представить в виде
или
где - новая обобщенная переменная, равная
Так как в конце процесса перевода (при ) переменные становятся достаточно малыми, величина по-прежнему характеризует конечную ошибку по долготе.
Учитывая это, в качестве математической модели при оптимизации процесса перевода СИСЗ примем следующие уравнения:
или более компактно
(2.71)
где
Теперь сформулируем математически задачу оптимизации. Требуется найти такие последовательности , i=1, 2, ..., N и , i=0, 1, ..., N, которые обеспечили бы перевод системы (2.71) из начального состояния в конечное с требуемой точностью (если это, конечно, возможно) при минимальных энергетических затратах. Энергетические затраты будем оценивать величиной
В качестве характеристики конечной точности примем математическое ожидание величины
Итак, требуется минимизировать величину при условии
где - некоторая заданная величина, характеризующая допустимые конечные ошибки.
Для решения сформулированной задачи обратимся к комбинированному методу оптимизации.
Составим обобщенный критерий оптимальности
где - множитель Лагранжа, подлежащий в последующем определению. Как и в разд. 2.4, множитель следует искать как неотрицательный корень уравнения
В искомом управлении выделим две составляющие - программную и синтезируемую. К программной отнесем целочисленную последовательность , i= l, ..., N, к синтезируемой - последовательность , i= 0, 1, ..., N. В отношении этих составляющих применим поэтапную оптимизацию.
На первом этапе найдем синтезируемую составляющую. С этой целью обратимся к основному рекуррентному соотношению метода динамического программирования. В данном случае оно принимает вид
причем для момента i=N +1
Трудность данной задачи связана с нелинейностью системы (5.71): матрица (точнее, один ее элемент) зависит от управления и переменной , в уравнение для входит модуль || и тригонометрическая функция с аргументом, содержащим . Для получения приближенного решения аппроксимируем функцию синуса, считая , и линеаризуем уравнение для , "замораживая" пока матрицу , т. е. считая ее не зависящей от параметров , и обозначая через .
Рассмотрим последнюю коррекцию i = N. С учетом сделанных замечаний будем иметь
где
Отсюда находим, что оптимальное управляющее воздействие на последней коррекции равно
где
а функция будущих потерь при этом
где
Для получения решения при других i < N воспользуемся методом параметров. Аппроксимируем функцию квадратичной. Наиболее просто в данном случае это делается путем пренебрежения вторым слагаемым в выражении для :
Так как вид функции по сравнению с сохранился прежним, то, повторяя изложенные рассуждения, получим аналогичную структуру управления и для предыдущей -й коррекции. Поэтому аппроксимируя функцию будущих потерь для любого i квадратичной функцией вида
получим следующий алгоритм субоптимального управления:
(2.72)
где параметры определяются формулами
Здесь а удовлетворяют рекуррентным соотношениям
при граничных условиях
Представленные формулы определяют алгоритм управления с точностью до знания матриц . Уточнение последних может быть произведено методом последовательных приближений для осредненной в статистическом смысле траектории процесса перевода:
с использованием найденного алгоритма управления (2.72). Элементы , входящие в матрицы , в начальном приближении, могут быть заданы, например, равными . В каждом последующем приближении они уточняются на основе моделирования осредненного процесса. Описанный метод можно трактовать как простейшую разновидность метода статистической линеаризации. При необходимости статистическая линеаризация величины может быть проведена и обычным способом, который, однако, является более громоздким.
Определив структуру управления, а следовательно, синтезируемую составляющую, можно перейти ко второму этапу оптимизации, т. е. определению целочисленной последовательности , i = 1,..., N.
В первом приближении эту задачу можно решить, используя для оценки критерия оптимальности квадратичную функцию будущих потерь . В этом случае последовательность определится из условия минимизации величины
по всем , с учетом ограничений. . Так как все - целые числа, то для решения задачи следует использовать прямые методы поиска.
Уточнение полученной таким образом последовательности может быть проведено путем минимизации величины , найденной более точными методами, например, методом статистического моделирования процесса перевода с использованием модели (2.71) и алгоритма (2.72). В этом случае оценка обобщенного критерия имеет вид
где - величина, характеризующая обобщенный критерий оптимальности в j-й реализации; п - число реализации.
При использовании метода статистического моделирования нетрудно получить оценки и других характеристик процесса перевода, в частности, характеристики конечной точности
где - величина в j-й реализации.
Решение задачи завершается отыскиванием множителя Лагранжа в обобщенном критерии оптимальности из условия .
Достаточные условия оптимальности при непрерывном управлении. Стохастическое уравнение Беллмана
Теперь рассмотрим случай непрерывного управления системой, описываемой следующим стохастическим дифференциальным уравнением:
(2.73)
где x - вектор состояния; u - вектор управления; - вектор случайных возмущений.
Будем рассматривать поведение системы (2.73) на конечном интервале времени [0,T], полагая, что управление принадлежит допустимому множеству (uU). Поскольку практически любое случайное возмущение может быть представлено как результат прохождения белого шума через некоторую динамическую систему, называемую формирующим фильтром, то, не нарушая общности, можно считать белым шумом с характеристиками
(2.74)
где - функция Дирака; D(t) - матрица интенсивностей белого шума.
Поставим задачу определения такого закона управления u(x,t), который обеспечивает перевод системы (2.73) из начального состояния х(0) в конечное х(Т) с минимальным значением критерия
(2.75)
Для получения достаточных условий оптимальности в данной задаче, как и в детерминированном случае, проведем дискретизацию системы (2.73) с шагом , представив непрерывный белый шум его дискретным аналогом - дискретной последовательностью случайных независимых векторов {}, , с характеристиками
(2.76)
В результате вместо (2.73) и (2.74) будем иметь
(2.77)
. (2.78)
Для полученной дискретной задачи достаточные условия оптимальности согласно (2.3) имеют вид
(2.79) с граничным условием
(2.80)
Полагая, что функция будущих потерь имеет частные производные первого и второго порядка для всех моментов времени, разложим функции в соотношении (2.79) в ряд Тейлора в окрестности точки с точностью до членов второго порядка малости, разделив все на , получим
(2.81)
где
Переходя в соотношении (2.81) к пределу при 0, получаем следующее уравнение в частных производных относительно функции будущих потерь:
(2.82)
где
(2.83)
Вектор характеризует математическое ожидание смещения марковского процесса (2.73) из точки х в момент времени t за время при оптимальном управлении u(t) и называется вектором коэффициентов сноса марковского процесса. Аналогично матрица характеризует ковариационную матрицу смещения из точки в момент t за время и называется матрицей коэффициентов диффузии марковского процесса (2.73).
Соотношение (2.82) называют часто стохастическим уравнением Беллмана в отличие от детерминированного случая. Это уравнение и представляет собой достаточные условия оптимальности в рассматриваемой задаче. Решая его, находим функцию будущих потерь и параллельно с этим алгоритм оптимального управления .
Граничное условие для стохастического уравнения Беллмана (2.82) следует из соотношения (2.80) и записывается в виде
(2.84)
Упражнения.
1. Получить уравнение (2.82).
2. Показать, что для задачи управления системой (2.73) с целью минимизации критерия оптимальности
стохастическое уравнение Беллмана (достаточное условие оптимальности) принимает вид
(2.85)
с прежним граничным условием (2.84).
Оптимальное интегро-терминальное стохастическое управление летательным аппаратом. Линейные непрерывные системы, оптимизируемые по квадратичному критерию
Обратимся снова к задаче оптимизации управления ЛА по интегро-терминальному критерию, полагая, что реализация управляющего воздействия происходит с ошибкой и уравнения относительного движения (1.37) принимают вид
(2.86)
Будем полагать, что является белым шумом с характеристиками (2.74).
Поставим задачу формирования такого закона управления , при котором математическое ожидание критерия (1.38)
(2.87)
обращается в минимум. Будем считать матрицу W положительно определенной.
Для решения задачи обратимся к достаточным условиям оптимальности. В данном случае стохастическое уравнение Беллмана (2.85) принимает вид
(2.88)
с граничным условием
(2.89)
Найдем характеристики и марковского процесса (2.86). Раскрывая в выражениях (2.82) пределы с учетом (2.86) и (2.76), получаем:
(2.90)
Таким образом, вектор сноса случайного процесса - представляет собой правую часть уравнения (2.86) при отсутствии возмущений, а матраца коэффициентов диффузии совпадает с матрицей интенсивностей белого шума и не зависит ни от x, ни от u. С учетом (2.90) уравнение Беллмана (2.88) принимает вид
(2.91)
Отсюда находим связь оптимального управления с функцией будущих потерь
(2.92)
С учетом (2.92) получаем окончательно следующее уравнение для функции будущих потерь:
(2.93)
Покажем, что решение этого уравнения с учетом граничного условия (2.89) имеет вид
(2.94)
Подставляя это выражение в уравнение (2.93), получаем (2.95)
Уравнение (2.95) обращается в тождество при любых х, если матрица и скаляр С удовлетворяют уравнениям
(2.96)
Граничные условия для этих уравнений следуют из сравнения выражений (2.94) и (2.89) и имеют вид
(2.97)
С учетом выражения (2.94) алгоритм оптимального управления (2.92) окончательно принимает вид
(2.98)
где матрица коэффициентов обратной связи запишется как
(2.99)
Таким образом, как и в дискретном случае, закон оптимального стохастического управления линейной системой является линейным. Более того, он полностью совпадает с законом оптимального управления (1.46) соответствующей детерминированной системой. Итак, аддитивное случайное возмущение типа белого шума в линейной системе не влияет на алгоритм оптимального управления при использовании квадратичного критерия, а сказывается лишь на величине функции будущих потерь и, следовательно, на общем значении критерия оптимальности. Другими словами, такие системы можно синтезировать, не учитывая аддитивных случайных возмущений, влияние которых следует оценивать лишь при анализе работы замкнутой системы. Упражнения.
1. Убедиться в том, что функция будущих потерь (2.94) с учетом соотношений (2.96) и (2.97) является решением уравнения (2.93).
2. Получить обобщение найденного решения на случай управления системой (2.96) с использованием критерия оптимальности
Оптимальное управление конечным состоянием спускаемого аппарата
Рассмотрим задачу синтеза оптимального управления одномерным конечным состоянием спускаемого аппарата (СА). В качестве управляющей силы будем считать аэродинамическую силу, создаваемую за счет изменения угла крена СА. Цель синтеза управления состоит в обеспечении минимального рассеивания точек приземления СА, возникающего как за счет начальных ошибок, так и за счет действия атмосферных случайных возмущений (порывы ветра, вариации плотности воздуха).
Для простоты ограничимся случаем движения в вертикальной плоскости. Принимая в качестве независимой переменной высоту полета, уравнения движения СА в этом случае можно представить в таком виде:
(2.100)
где V - скорость ЛА; - угол наклона траектории; L - продольная дальность; h - высота полета; - угол крена; x - угловая скорость СА; Сx, Сy - коэффициенты лобового сопротивления и подъемной силы соответственно; - воздушный скоростной напор, ; - воздушная скорость ЛА; S - площадь миделя; m - масса аппарата; g - ускорение свободного падения; R - радиус Земли; М - управляющий момент по крену, ; Jx - момент инерции относительной оси симметрии.
Уравнения (2.90) получены в предположении, что влияние порывов ветра на движение СА сводится лишь к изменению аэродинамических сил заменой скорости V на воздушную скорость VW. Если через W обозначить скорость горизонтальных порывов ветра, то нетрудно установить связь между VW и V :
(2.101)
Атмосферные возмущения могут быть представлены с помощью линейных нестационарных формирующих фильтров. При этом для ветра можно ограничиться фильтром первого порядка, а для вариации плотности атмосферы - фильтром второго порядка:
(2.102)
где параметры а также интенсивности белых шумов подбираются таким образом, чтобы статистические характеристики (например, корреляционные функции) возмущений (2.102) как можно точнее соответствовали действительным характеристикам. Вводя обобщенный вектор состояния
(2.103)
приходим к следующей математической модели управляемого процесса:
(2.104)
где - вектор-функция, элементы которого легко получаются из правых частей уравнений (2.100) и (2.102); - управляющее воздействие, - вектор белых шумов;
(2.105)
Задача синтеза оптимального управления заключается в определении такого закона , который обеспечивает минимум дисперсии координаты в конечный момент времени, т.е. при h = 0. Итак, критерий оптимальности можно записать в виде
(2.106)
Предположим, что возмущенное движение СА с достаточной точностью описывается уравнениями в отклонениях относительно некоторой номинальной траектории спуска. Тогда, проводя линеаризацию уравнений (2.100) получаем линеаризованную модель движения
(2.107)
Здесь под понимается вектор, составленный из отклонений компонент x от их значений на номинальной траектории при одинаковых h ; А - матрица, а В - вектор частных производных правых частей (2.102) по компонентам вектора x и управлению u соответственно. Естественно, что А и В зависят от высоты полета h.
Для решения задачи обратимся к достаточным условиям оптимальности. Однако, учитывая скалярный вид критерия оптимальности (2.106), предварительно произведем следующее преобразование задачи. Введем в рассмотрение новый вектор y, связанный с x соотношением
(2.108)
где - фундаментальная матрица системы (2.108), удовлетворяющая уравнению
(2.109)
при условии (2.110)
Из равенств (2.109) и (2.110) следует, что в момент h = 0 векторы х и у совпадают:
(2.111)
Дифференцируя (2.108) по h и принимая во внимание уравнения (2.107) и (2.109), получаем следующее уравнение для вектора у :
(2.112)
Поскольку с учетом (2.111) критерий оптимальности (2.106) может быть представлен в виде
(2.113)
а компонента согласно (2.112) не зависит от других компонент вектора у, вместо векторного уравнения (2.112) можно ограничиться лишь одним уравнением для этой компоненты
(2.114)
где через обозначены третьи компоненты векторов и соответственно.
Таким образом, введение вектора y позволило рассматриваемую задачу свести к скалярной. Теперь воспользуемся уравнением Беллмана (2.82), которое в данном случае принимает вид (2.115)
с граничным условием
(2.116)
Через в уравнении (2.115) обозначена интенсивность белого шума .
Из уравнения (2.115) получаем структуру оптимального управления:
(2.117)
Таким образом, оптимальное управление является релейным. Из физических соображений ясно, что функция будущих потерь является четной и возрастающей по . Поэтому
(2.118)
С учетом (2.118) окончательно закон оптимального управления (2.117) принимает вид
(2.119)
Итак, в данной задаче удалось найти закон оптимального управления без решения уравнения Беллмана в явном виде. Таким образом, задача синтеза оптимального управления одномерным конечным состоянием линейной системы решена полностью. Однако провести анализ точности, т. е. решить уравнение (2.115) аналитически и здесь не удастся.
Упражнения.
1. Вывести уравнение (2.97). Получить выражение для элементов матрицы А и вектора В.
2. Получить уравнение (2.99) для фундаментальной матрицы .
3. Получить формулы для коэффициентов и в уравнении (2.105).
Учет изопериметрических ограничений
Рассмотрим задачу синтеза оптимального управления системой
(2.120)
из условия обращения в минимум критерия
при дополнительных изопериметрических ограничениях
Как и в дискретном случае, для учета изопериметрических ограничений применим метод множителей Лагранжа, сводя исходную задачу к задаче минимизации обобщенного критерия
(2.121)
где - множители Лагранжа (= 1, ), удовлетворяющие при оптимальном управлении системе уравнений
(2.122)
В соответствии с этим для выявления структуры оптимального управления следует воспользоваться уравнением Беллмана, соответствующим обобщенному критерию:
(2.123)
с граничным условием, принимающим в данном случае вид
Фактически уравнение (2.123) дает возможность определить закон оптимального управления при различных значениях множителей Лагранжа . Для отыскания окончательного решения следует решить систему уравнений (2.122) относительно . При этом сначала необходимо раскрыть зависимости характеристик при оптимальном управлении от множителей , j= 1, ..., l. Это можно сделать вообще различными способами. Один из них предполагает отыскание в общем случае плотности распределения вектора состояния в конечный момент времени с помощью уравнения Колмогорова и последующего раскрытия в соответствующей операции математического ожидания. Другой способ заключается в получении уравнения и последующем решении его непосредственно для анализируемой характеристики . С этой целью обратимся к рекуррентному соотношению (2.29). Буквально повторяя рассуждения, используемые при выводе уравнения Беллмана, нетрудно установить, что при осуществлении предельного перехода при из (2.29) получим следующее уравнение в частных производных:
(2.124)
относительно функции
с очевидным граничным условием
Параметры представляют собой вектор сноса и матрицы коэффициентов диффузии случайного процесса (2.120) при оптимальном законе управления . Функция представляет собой фактически величину , вычисленную при условии, что движение системы (2.120) начинается с момента t из состояния х и происходит при действии оптимального управления . Поэтому
Так как закон управления , определяемый с помощью уравнения (2.123), параметрически зависит от набора , j = 1, ..., l, то как , так и будут также, зависеть от .
Таким образом, решение задачи синтеза при наличии изопериметрических ограничений сводится к решению уравнения Беллмана (2.123) с целью выявления структуры оптимального управления, решению уравнения (2.124) с использованием уже найденного управления для установления зависимостей от и последующему решению системы (2.122) относительно .
Задача в общем случае является достаточно сложной. Основная трудность состоит в необходимости совместного решения уравнений (2.123), (2.124). Она легко преодолевается для линейных систем при отсутствии ограничений на вектор управления, когда функции , являются квадратичными по своим аргументам. В этом случае задача формулируется следующим образом.
Пусть динамическая система описывается линейным стохастическим уравнением
где - по-прежнему белый шум с нулевым математическим ожиданием и матрицей интенсивностей D. Требуется найти оптимальный закон управления системой из условия обращения в минимум критерия
при дополнительных ограничениях
Предполагается, что матрицы положительно определенные. В соответствии с этим уравнение Беллмана для данной задачи имеет вид
с граничным условием
Решение этого уравнения может быть записано в форме
где определяются с помощью системы обыкновенных дифференциальных уравнений
при граничных условиях
Структура оптимального управления при этом получается линейной
где матрица L определяется через матрицу :
Как видно из приведенных соотношений, параметры, формирующие оптимальное уравнение, зависят от набора , j= 1,...,l. Поэтому для окончательного решения необходимо определить этот набор. Для этого обратимся к системе (2.122):
(2.125)
Установим зависимости . С этой целью раскроем сначала выражение для параметров . Получим
Подставим в уравнение (2.124) :
(2.126)
Нетрудно установить, что решение этого уравнения с граничным условием имеет также вид квадратичной формы
где зависят лишь от времени. Действительно, подставляя в (2.126), получаем
Это уравнение выполняется тождественно при любых x, если и удовлетворяют системе
с граничными условиями
Представленные соотношения позволяют определить и тем самым установить искомую зависимость . Остается решить систему уравнений (2.125) относительно .
Таким образом, в задаче управления линейной системой с аддитивным белым шумом при наличии изопериметрических ограничений структура оптимального управления по-прежнему остается линейной. Однако коэффициенты обратной связи теперь уже зависят от статистических свойств возмущения. Эта зависимость проявляется через множители Лагранжа , которые являются корнями системы (2.125).
О методах приближенного синтеза оптимального управления в непрерывном случае Основные трудности, с которыми приходится сталкиваться при решении задач синтеза оптимального управления непрерывными стохастическими системами, связаны с необходимостью отыскивать решение уравнения в частных производных второго порядка. Так как получение точного решения практически исключено, приходится рассчитывать на получение приближенного-решения. При этом могут быть применены различные подходы.
Один из подходов базируется на приближенном решении уравнения Беллмана, соответствующего исходной задаче, с помощью численных методов. К таким методам, в частности, относятся методы сеток. Разновидностью метода сеток является и метод, основанный на использовании основного рекуррентного соотношения с предварительной дискретизацией непрерывной задачи.
Другим подходом к получению приближенного решения задачи синтеза может служить подход, базирующийся на использовании комбинированного метода оптимизации. Сущность этого метода была изложена при рассмотрении дискретных систем.
Практически все положения метода и последовательность решения задачи полностью переносятся на непрерывный случай. Поэтому не будем их заново здесь приводить. Отметим лишь, что отличие будет состоять только в замене рекуррентных соотношений соответствующими дифференциальными уравнениями. Эти уравнения могут быть получены либо путем осуществления предельного перехода от рекуррентных соотношений, либо путем решения уравнений в частных производных вида (2.123), (2.126), составленных для линеаризованной (обычно пли статистически) системы (2.120).
Стохастические задачи синтеза по неполной информации
В данном разделе рассматриваются задача синтеза оптимального управления стохастическими системами при неполной информации о текущем состоянии объекта, когда считается, что вектор текущего состояния непосредственно недоступен измерению, а измерения осуществляются с ошибками.
Оптимальное дискретное управление при неполной информации. Достаточные координаты
Рассмотрим задачу синтеза оптимального управления системой
, ,(3.1)
полагая, что измеряется некоторый вектор , связанный с соотношением
(3.2)
Здесь по-прежнему - вектор состояния; - вектор управления в i-й момент времени; - вектор измерения (наблюдения) в тот же момент времени; - случайные векторы, которые характеризуют возмущения, действующие на систему (3.1), и ошибки измерения соответственно. Предполагается, что статистические свойства векторов полностью известны.
В качестве критерия оптимальности, как и прежде, примем характеристику конечной точности
.(3.3)
Основная особенность задачи синтеза оптимального управления при неполной статистической информации заключается в следующем. Поскольку вектор фазовых координат не измеряется, то синтезируемое оптимальное управление в i-й момент времени должно в общем случае зависеть от всех прошлых и настоящих измерений , обозначаемых сокращенно через . Иными словами, оптимальная стратегия управления, является некоторой последовательностью функций, ставящих в соответствие всем прошлым и текущий наблюдениям векторы управления из условия минимума критерия (3.3). Эта оптимальная стратегия может быть формально найдена с помощью достаточных условий оптимальности, методом динамического программирования. Основное рекуррентное соотношение при этом принимает вид
.(3.4)
Здесь через обозначена функция будущих потерь, представляющая собой минимальное значение критерия (3.3), которое может быть достигнуто при оптимальном управлении системой (3.1) начиная с момента времени i по наблюдениям (3.2), полученным в моменты , т.е.
(3.5)
Граничным условием для (3.4), как и при управлении при полной информации, может служить следующее формальное равенство:
(3.6)
Соотношения (3.4) с учетом (3.6) определяют рекуррентную процедуру последовательного синтеза оптимальных управлений в следующем порядке: , , ..., .
Синтез сводится к вычислению на каждом шаге функции будущих потерь , раскрытию операции математического ожидания и оптимизации по правой части в (3.4). Для раскрытия операции математического ожидания необходимо, в свою очередь, вычисление условных плотностей , . В общем случае вычислить их очень трудно, поскольку необходимо запоминать все прошлые и настоящие измерения .
Задача значительно облегчается, если предположить существование некоторого вектора , называемого обычно вектором достаточных координат или статистик, который является функцией от и удовлетворяет следующим условиям:
1) знание вектора достаточно для определения оптимального управления и функции будущих потерь . Это означает, что плотности типа могут быть представлены в виде ;
2) знание вектора в любой момент времени достаточно для определения собственной будущей эволюции, т.е. для моментов В этом случае рекуррентное соотношение (3.4) может быть представлено в виде
,(3.7)
причем согласно (3.6)
.(3.8)
Использование соотношения (3.7) вместо (3.4) упрощает решение задачи синтеза, поскольку функция будущих потерь теперь зависит от вектора вполне определенной размерности для всех моментов времени, в то время как размерность совокупности увеличивается с возрастанием номера i. С введением понятия достаточных координат исходная задача синтеза оптимального управления при неполной информации может быть условно разделена на две: определение достаточных координат и определение оптимального управления как функции достаточных координат. Соответственно оптимальный регулятор, получаемый в результате решения задачи, состоит из двух блоков: обработки измерительной информация и оптимального управления. Строго говоря, синтез обоих блоков, необходимо осуществить совместно. Однако в некоторых случаях, например для линейной системы с аддитивным возмущением и квадратичным критерием оптимальности, оказывается справедливой так называемая теорема разделения/согласно которой задача определения достаточных координат отделяется от задачи синтеза собственно оптимального управления. Эта теорема с успехом может быть использована для приближенного решения задачи в общем случае.
Упражнения.
1. Показать, что основное рекуррентное соотношение метода динамического программирования для задачи синтеза оптимального управления системой (3.1) по наблюдениям (3.2) при критерии оптимальности
(3.9)
с использованием понятия достаточных координат имеет вид
.(3.10)
2. Раскрыть операции математического ожидания в соотношениях (3.4), (3.7), (3.10).
Синтез оптимальной системы коррекции летательного аппарата. Оптимальное управление линейной дискретной системой при наличии аддитивных возмущений
Рассмотрим задачу синтеза оптимального управления при коррекции ЛА. Процесс коррекции будем описывать линейным дискретным стохастическим уравнением с аддитивным возмущением
, (3.11)
В отличие от случая управления при полной информации теперь будем считать, что измерению доступен не сам вектор состояния , а некоторый вектор , связанный с соотношением
, ,(3.12)
где через обозначена случайная ошибка i-го измерения. В качестве критерия оптимальности по-прежнему примем критерий
(3.13)
где - заданные матрицы.
Будем считать, что и - независимые гауссовские случайные векторы с характеристиками
, , ;(3.14)
, , .(3.15)
Определим сначала достаточные координаты в данной задаче. С этой целью воспользуемся формулой Байеса и найдем апостериорную плотность вероятностей:
(3.16)
Введем следующие обозначения: , - соответственно апостериорное математическое ожидание и апостериорная корреляционная матрица вектора по измерениям , , - математическое ожидание и корреляционная матрица вектора по измерениям . Другими словами, , - прогнозируемое на один шаг вперед значение , а - его корреляционная матрица. В силу (3.11) и (3.14) справедливы соотношения
;(3.17)
.(3.18)
По определению
;(З.19)
,(3.20)
где
,(3.21)
Вероятность , входящую в выражение (3.16), можно представить в следующем виде:
(3.22)
Поскольку справедливы соотношения
, (3.23)
можно записать также
(3.24)
Осталось найти компоненту .Согласно (3.12), (3.17), (3.18) нетрудно получить
(3.25)
(3.26)
Поэтому
(3.27)
Подставим (3.22), (3.24), (3.27) в выражение (3.16), получим
(3.28)
где
(3.29)
Выражение (3.29) можно привести к квадратичной форме вида
(3.30)
если ввести обозначения
;(3.31)
(3.32)
и воспользоваться матричным тождеством
.(3.33)
Таким образом, апостериорная плотность вероятностей вектора по измерениям , имеет вид
(3.34)
Это значит, что вектор и матрица , определяемые в соответствии с (3.32) и (3.33), являются соответственно апостериорным математическим ожиданием и апостериорной корреляционной матрицей вектора при заданных измерениях. Соотношения (3.31) и (3.32) известны в литературе под названием дискретного фильтра Калмана. Вектор дает оптимальную в, смысле максимума апостериорной плотности вероятностей оценку вектора по всем прошлым и настоящим измерениям, матрица характеризует ковариации ошибок этой оценки.
Из соотношений (3.32) и (3.18) следует, что корреляционная матрица не зависит от конкретных измерений и управлений. Она полностью определяется свойствами системы и канала наблюдения (через матрицы , ), а также статистическими характеристиками , возмущений , и может быть определена заранее. Имея это в виду, можно считать, что плотность вероятностей в любой момент времени и полностью определяется вектором и может быть представлена в виде . С другой стороны, знание согласно (3.32) и (3.17) достаточно и для определения собственной будущей эволюция. Иными словами, вектор является вектором достаточных координат в данной задаче.
Теперь можно перейти к определению алгоритма оптимального управления. С этой целью преобразуем соотношение (3.32) для вектора , представив соотношение (3.31) в следующем виде:
(3.35)
Подставим его в (3.32), учитывая при этом (3.17), получим
,(3.36)
где.
(3.37);
С учетом (3.11), (3.12) и (3.21) последнее соотношение может быть приведено к виду
(3.38)
Оно позволяет установить статистические свойства вектора . В частности, согласно (3.14), (3.15), (3.21), (3,18) можно записать, что
;(3.39)
(3.40)
Итак, эволюция достаточных координат описывается согласно(3.36), (3.37) и (3.40) уравнением
(3.41)
г'^/ i " ъ t t '
причем
М[Е,]=0, ^[^,£/J =^. . (3.42)
Воспользуемся рекуррентным соотношением (3.10). Применительно к данной задаче оно принимает вид
К^}-^г" М {[^^u^R^{z^)}/^u,] .(3.43)
Соотношение (3.43) с точностью до обозначений совпадает с
(2.12). Поэтому согласно (2.14)-(2.20) можно записатьследующие соотношения для функции будущих потерь:
RiW-^i^i^i^i ,(3.44)
где
Д-^.^-^^ .(3.45)
^-^^^{А^^,);(3.46)
^-^^i.^i ' ^^^^A^B, .(3.47) Закон оптимального управления имеет структуру
^•=-Z,^-. .(3.48)
Начальные условия для рекуррентных соотношений (3.45) я (3.46) получим, рассмотрев последний шаг управления. Поскольку согласно
(З.о)
^(z^):sx^^x^ . (3.49) приндяая во внимание связь
^Г^2^5"^^^' ^"50)
^^-^Л" ^Ы-^ ^^^-^WA^P^^,(3.51) .
находка дз (3.43)
37
где
^^M.-^/7^ .• СЗ.53)
Н Н N
^^Р^-Р^/.}; . (3'5^
r^W^B^B,; 1^Г,'В^А, ,(3.55)
^-^^- •<3-56-)
Сравнивая (3.45)-(3.4S) с (3.52)-(3.56), заключаем,что последние могут быть представлены более компактно в виде
А^^ с^0" ^^А • ^•57)
Ранее было показано, что пря наличия аддитивных возмущений алгоритм оптимального в смысле квадратичного критерия управления по полным данным линейной системой совпадает с алгоритмом оптимального управления соответствующей детерминированной системой. Полученное теперь решение формально также совпадает с детерминированным. Разница заключается лишь в том, что в алгоритме'(3.49) вместо вектора фазовых координат х, выступает вектор достаточных координат z-
*• v u [,
(вектор оптимальной оценки), определяемый, в свою очередь, с помощью фильтра Калмана (3.32).
Таким образом, в линейных системах с квадратичным-критерием оптимальности при аддятивных гауссовскях возмущениях оптимальный стохастический регулятор представляет собой последовательное соединение фильтра Калмана для получегшя вектора достаточных координат (оптимальной оценки) и устройства оптимального' детерминированного управления. Сформулированный результат, известный в литературе так-;?.'е под названием теоремы разделения, находит иярокое применение при получении при0ли:;;енного решения нелинейных задач, когда задачу синтеза оптимального управления при неполной информации разбйваат на две решаемые независимо (по аналогии с ллнеин1Ш случаев): задачу определения оптимальных оценок вектора фазовых координат е! задачу определения оптимального управления по полным ^апкык. Основанием для этого служит тот факт, что при ^оршрованйи блока оптима-чь-ной оценки добиваются хорошей сходимости оценки к истинному вектору (['азоззых координат.
Упражнения.
1. Свести выражение (3.29) к квадратичной форме (3.30).
2. Получить соотношение (3.40).
3. Решить поставленную задачу, принимая в качестве критерия оптимальности величину
j-m[ 2 (^^;^^/^J. <3.58)
3.3. Синтез оптимально^ системы управления летательным аппаратом по интегро-терминальному Критерию качества. Оптимальное управление линейной непрерывной системой при наличии аддитивных возмущений
Изложенный выше метод синтеза оптимального управления с использованием достаточных координат может быть обобщен и на случай управления непрерывными системами. В качестве примера рассмотрим задачу синтеза оптимальной системы управления ЛА при использовании ин-тегро-терминального критерия качества. Уравнения движения, как и преяде, имеют вид
х'=Ах+Ви^^. (3.59)
Однако в отличие от случая управления по полной информации теперь будем полагать, что вектор х непосредственно измерен быть не мояет. Измеряется некоторый вектор у , связанный с х линейным соотношением
у=Нх^-и, (3.60)
где v - вектор ошибок измерения.
В качестве критерия оптимальности примем математическое ожидание взвешенной суммы энергетических затрат и характеристики конечной точности:
J=Л1[ju'rWud^^r(/r)Лx(T)] . (3.61)
о Будег/. считать, что ? •д - белые гауссовские шумы с характеристи-
(3.62)
M[vU)] =0, M^Wv^^l} -fS^i-v) . зозг.го^не . ДЕа подхода к решению задачи.
Первый заключается в дискретизации соотношений (3.59)-(3.62) и применении полученного выше решения. В этом случае дискретными аналогами являются следующие соотношения:
x^=^^+вiu^^^ (3.63) ^=^•^+^; ' (3.64) ^^[^^^^:,Л^], (3.55)
где
А, = I.A^)At, B^B^At, //,=//^А ?^Г^>^;
W^W(t,)At, V^v^; (3.66)
^J^ ^[WJ-^ , (з.б7)
^[WY-0, ^{W^W\=D4ti)/At ;
M[vW]-0, М[у^)у^] = ^)- = r, .
Подставим (3.66) в соотношения (3.35)-(3.37) я учтем (3.31) и (3.18). Получим
^[^A{t^Ai]z^B(^)^u^^i^ H^r'1^) '
х te-^K^C^^^z^+^^.^J^^J} ; (3.68)
^-Г [^^i.,^ i} Pi., l^ (t,,)At]\ D(^} At " -Р^А^^Р^Л^Р^А^^^Л^^А^О^2), (3.69)
р- - ^- ^ ^^^ + н: ^ ///]'^ ^-/ - ^^^ откуда при 4^->0 получаем дифференциальные уравнения для апостериорных математических ожиданий и корреляционной матрицы векторам:
i =Az+Bu+ РнУ^у-Нх} ; (3.71) P=AP+PA'r- PH^HP^JJ. (3.72)
Уравнения (3.71) и (3.72) принято называть непрерывны:,! фильтром Калмана. Эти уравнения являются непрерывными аналогагли соотношений (3.31) и (3.32).
Как и в дискретном случае, апостериорная корре.типзао.ч^ая' г-.а"рп-ца Р молет быть определена заранее, так как она не зависит от конкретных значений управлений л кзй;ерея:1!1. Лоэтору вектор аггостэ^^-
ного математического ожидания z может рассматриваться в качестве вектора достаточных координат.
Подставим соотношения (3.66), (3.67) в (3.44)-(3.48) иучт^м (3.40) и (3.69). Получим
Ri С^) = г! ^1 ^^ ci ;
Л^[^A(^)Ai}rA^Л^A(t,)An-L^Г,L^ ;(3.73)
6.•=^/+J^Л^^•) • Г, =W(ti)At^-0(Ai2) ;
L^Гi1BTWAtЛ^[r^A{ti)Ai}
^ -Р^ ^ ^С^ t [Н^ (Р, ,Q(At))}H^^V\^
"^^^Р^,, откуда при At-* 0 получаем
R(z,t)=гтAz•^C ,(3.74)
-Л= А^А ^ A^-ABW-'B^A ;(3.75)
- с -Ур^АРН^г1 HP);(3.76)
u^-W^B^Az^-Lz .(3.77)
Причем согласно (3.54) я (3.57)
Л(П=Л, c(T)=Sp (ЛР(Г)). (3.78)
Алгоритм оптимального управления является линейным и по структуре совпадает с оптимальным детерминированным управлением. Иннии словагда, теорема разделения для линейных систем с аддитивными возмущениями и квадратичным критерием справедлива как в.дяскретнозд, так я в непрерывном случае.
Синтезированная оптимальная система управления включает в себя последовательное соединение непрерывного фильтра Калкана, определяемого уравнением (3.71) с учетом (3.72), я управляющего устройства, реализующего алгоритм (3.77) с учетом (3"75)-(3.78).
Второй подход к решению рассматриваемой задачи заключается в^ непрерывном пршенении стохастического уравнеэд1я Беллилана (2.33). С этой цельа задачу (3.5S)-(3.GI) сфоргдуляруем в терланах достаточных координат:
z = Ах^- Ви+е у C3.7S)
г
J=M ^ ^^Wudt^z^AzW^Sp^PW^ . (3.80) 41
Здесь
&-PHTr^(y-Hz)^PH'rt''f(v+HS). (3.81)
С учетом (.3.79) и (3.80) уравнение (2.33) для функции будущих потерь 70^^) принимает вид
-jf^^^u^^^^^f^^/y^u^)]}. (3.82)
Граничное условие согласно (2.32) приобретает форму
^(x,r}=гr(f)Лz(т)+Sp[ЛP(r)] . .(3.83).
В соответствии с определением (2.31) и по аналогия о (2.38) устанавливаем, что • -
a(,z,u,,t)= Az+6u, /\/Cz,u,t) •= PH^r^HP . (3.84).
Уравнение (3.82) с учетом (3.84) с точностью до обозначенной -совпадает с уравнением (2.39)..Поэтому и.его решение будет иметь вид
R^z^j^^Az^-eCt), . • (3.85) причем согласно (2.44), (2.45) с учетом (3.83), (3.84)
-Л=ЛAлArЛ-ЛBWвrЛ, Л(Г)=-Л; ' (3.86) • -c^Sp^kPHVHP) , c(Г}^Sp[ЛP(т)] . . (3.87)
Алгоритм оптимального управления при это^ принимает вид
li--W~fBrЛz -Iz, • .(3.88)
что полностью совпадает с алгоритмом (3.77).
Упражнение.
Показать, что изменится в полученном решении, если в качестве критерия оптимальности принять величину.
- г . . ,
J=•M\\(xrGix-mrWu)dti•xт(iт)/ix(ir) \. о
3.4.' Синтез автономной системы управления конечнам состоянием летательного аппарата
Рассмотрим теперь задачу синтеза автономной системы управления конечным состоянием ЛА. Цель управления состоит в обеспечении минимального рассеивания точек приземления, которое возникает за 42
счет случайных возмущений, действующих в полете .(порывы ветра, отклонение плотности атмосферы от стандартной, отклонения геометрических и аэродинамических параметров от расчетных). В отличие от случая управления по полной информации теперь предполагается использовать для управления лишь информацию от акселерометров, ориентированных вдоль связанных реей ЛА.
Ограничимся рассмотрением плоского движения центра масс ЛА., полагая, что оно может быть достаточно точно описано линеаризованными. относительно, расчетной траектории спуска уравнениями движения типа (2.55):. •
-^f- " Ах^ва^-^ . (3.89) (ih
Теперь, правда, предполагается, что в состав- вектора состояния х включены такае параметры, описывающие динамику ДА относи-.тельно центра масс в продольной плоскости: угол тангажа, угол ата-. ки, угловая скорость ЛД.
В соответствии с постановкой задачи из?леряется вектор перегрузки п- с компонентами
Ysinoc-Xcosx _ Ycosoi^XsittuC r^ c,r\\ н,------fnj----' ^=---^----> <3-90)
где Х - сала лобового сопротивления; У - подъемная сила; х -угол атаки.
•йинеаразуя (3.90) относительно расчетной траектории, получаем
Ал=Нх + Vu+v (3.9I)
или . у = Нх + v,
где у=Ал-Уи ; А пг' (Ал^ Ап^) ; Ал, , Ап^ - отклонения
соответствующих перегрузок от их расчетных значений; Н - матрица, а 7 - вектор частных производных правых частей (3.90) по компонентам вектора х и управление и , вычисленных на расчетной траектория; v - белый аум, характеризующий случайные ошибки измерения,
причем
M[v{k)]=0, м[v(k)vтC^)] = f(k)^(k-h,) . (3.92)
}3 качестЕе хар^гкте рустики рассеивания примем, как и прежде, дпсдерслю кос^дянаты AL =х^ в иомент. k = С. Тогда задача оптимд-зац'11: :.!атег'ат;1чески мо;.еет быть сформулирована так: требуется син-гелг-гюзать закон ^{рйв."е;1яя спстегло-'! (3.8е.) на основе наблюдений
(^.9р), •-iiiiiw^s^tsyTo^n^ веллчнну
43
J'M^^U-O)]. -(3.93)
Имеем типичную задачу управления по неполным данным. Для ее решения воспользуемся понятием достаточных координат. Согласно вышесказанному в качестве вектора достаточных координат может быть принят вектор апостериорного математического ожидания z(k) , удовлетворяющий уравнению
^-^Az^Btcrc, (3.94) dk
где м[£.{k)}^0•,м[eWc'r(k,j\^1rff(ik-k^•,{^г^PHrr~1HP, а матрица Р определяется из уравнения
Р^АР^-Р^-РНУНР^]}. (3.95)
Критерий (3.93) также можно представить через вектор
J=M[z^{^0)}+P^(k=0), . (3.96)
где через Р,у обозначен соответствующий элемент матрицы Р , представляющий собой апостериорную дисперсию компоненты ^д . Итак, в терминах достаточных координат мы получили задачу управления одномерным конечным состоянием линейной системы (3.94). Но ее решение было получено выше. Согласно (2.67) искоаэдй закон управления в данном случае имеет вид
^=^^/3^^[2^.^^/J, (3.97)
где Фу. определяется, как я презде.
Таким образом,, оптимальный стохастический регулятор, обеспечивающий минимальное рассеивание точек приземления ЛА., представляет собой последовательное соединение двух блоков: блока определения достаточных координат (в данном случае фильтра Калмана) и блока управления, который служит для формирования управляющего сигнала на основе достаточных координат и является в дашюм случае релейным элементом. Для реализации синтезированной системы управления необходимо использовать бортовую ЦВМ.
Тема 16 Минимаксные (игровые) задачи синтеза. (8ч , СРС 4ч.)
1 Мультипликативное возмущение имеет простой физический смысл: чем больше управляющая сила, тем менее точно удается ее реализовать.
---------------
------------------------------------------------------------
---------------
------------------------------------------------------------
Документ
Категория
Рефераты
Просмотров
559
Размер файла
2 330 Кб
Теги
лекция, установочные, часть
1/--страниц
Пожаловаться на содержимое документа