close

Вход

Забыли?

вход по аккаунту

?

К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями.

код для вставкиСкачать
В. И. УХОБОТОВ, Д. В. ГУЩИН
К ВОПРОСУ О СУЩЕСТВОВАНИИ ЦЕНЫ ИГРЫ
В ОДНОТИПНОЙ ИГРЕ
СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ
Рассматривается задача о встрече в заданный момент времени p, в которой на
управление первого игрока накладываются геометрические и интегральные ограничения, на управление второго игрока — геометрические ограничения.
Kлючевые слова: дифференциальная игра, цена игры, стратегия.
1. Пример
Первый игрок управляет точкой переменного состава, движение которой
описывается уравнением Мещерского [1, с. 25]
ẍ = C + w
˙
m(t)
,
m(t)
x ∈ R3 ,
где C — постоянная внешняя сила; w — относительная скорость отделяющихся
частиц, величину kwk которой считаем постоянной, kwk — некоторая норма в
R3 ; m(t) = m0 + m1 (t) — масса точки, причем m0 — неизменяемая часть массы,
m1 (t) — реактивная масса. Второй игрок управляет точкой, движущейся с ограниченной по величине скоростью kẏk ≤ b. Цель первого игрока заключается в
том, чтобы в заданный момент времени p сделать расстояние ky(p) − x(p)k как
можно меньше. Обозначим
z = y − x − (p − t)ẋ + C
u = −w
˙
m(t)
,
m(t)
(p − t)2
,
2
µ(t) = kwk ln
1
v = ẏ,
b
m(t)
.
m0
(1.1)
Тогда расстояние между игроками в момент времени p и уравнения движения
примут вид
ky(p) − x(p)k = kz(p)k,
ż = −(p − t)u + bv,
µ̇ = −kuk.
Считаем, что тяга ограничена числом γ > 0. Тогда ограничения на выбор управлений u и v принимают вид
kuk ≤ γ,
kvk ≤ 1.
В начальный момент времени t = 0 задан начальный запас реактивной массы
m1 (0) > 0. В процессе выбора управления в каждый момент времени t ≤ p оставшийся запас реактивной массы должен быть неотрицательным, т. е. m1 (t) ≥ 0.
Согласно (1.1) это условие равносильно неравенству µ(t) ≥ 0. Рассмотренный
пример был решен в работе [2]. Мы рассмотрим более общий случай.
68
В. И. Ухоботов, Д. В. Гущин
2. Постановка задачи
Рассмотрим игру в пространстве Rn :
ż = −a(t)u + b(t)v,
kuk ≤ 1,
kvk ≤ 1,
t ≤ p.
(2.1)
Здесь a(t) и b(t) — неотрицательные непрерывные при t ≤ p скалярные функции,
p — момент окончания игры. Первый игрок выбирает управление u, второй —
управление v. На выбор управления первого игрока, наряду с геометрическим
ограничением (2.1), накладывается интегральное ограничение
Zt
g(r, ku(r)k) dr ≥ 0,
µ(t) = µ0 −
t0 ≤ t ≤ p,
(2.2)
t0
где t0 — начальный момент времени; µ0 ≥ 0 — начальный запас ресурсов, который
первый игрок сможет использовать на формирование своего управления.
Предположение. Функция g(t, ϕ) ≥ 0 определена при всех t ≤ p, 0 ≤ ϕ ≤ 1,
выпукла по ϕ, является непрерывной и g(t, 0) = 0 при всех t ≤ p.
Первый игрок стремится минимизировать величину kz(p)k, а второй — максимизировать ее. Определим стратегии игроков и порожденные ими движения.
Стратегией первого игрока является функция вида
u(t, z) = ϕ(t)w(t, z).
(2.3)
Здесь w : (−∞, p] × Rn → Rn — произвольная функция, удовлетворяющая равенству
kw(t, z)k = 1,
(2.4)
а функция ϕ(t) является измеримой, строится в зависимости от начального состояния t0 , z0 , µ0 и удовлетворяет неравенствам
Zt
0 ≤ ϕ(t) ≤ 1,
µ(t) = µ0 −
g(r, ϕ(r)) dr ≥ 0,
t0 ≤ t ≤ p.
(2.5)
t0
Стратегия второго игрока задается функцией v : (−∞, p] × Rn → Rn , которая
удовлетворяет ограничению
kv(t, z)k ≤ 1.
(2.6)
Замечание. Такое определение стратегии первого игрока продиктовано следующими соображениями. Пусть в рассмотренном в предыдущем параграфе примере
закон изменения массы нужно задать программным образом, а управлять можно только направлением относительной скорости отделяющейся массы. В этом
случае приходим к понятию стратегии (2.3).
Дадим определение движения, порожденного заданными стратегиями. Зафиксируем начальное состояние t0 < p, z(t0 ) = z0 , µ0 ≥ 0. Возьмем разбиение
ω : t0 < t1 < · · · < tk+1 = p
К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями 69
c диаметром d(ω) = max (ti+1 − ti ). Построим ломаную
0≤i≤k

Zt
zω (t) = zω (ti ) − 


Zt
a(r)ϕ(r) dr w(ti , zω (ti )) + 
ti

b(r) dr v(ti , zω (ti )).
(2.7)
ti
Здесь zω (t0 ) = z0 , ti ≤ t ≤ ti+1 . Оставшийся запас ресурсов µ(t) определим с
помощью равенства (2.5). Обозначим
L = max (a(r) + b(r)).
(2.8)
t0 ≤r≤p
Тогда из ограничений (2.4) и (2.6) следует, что kzω (τ ) − zω (t)k ≤ L|τ − t| для всех
τ, t ∈ [t0 , p]. Из этого неравенства следует, что семейство ломаных (2.7) является
равномерно ограниченным и равностепенно непрерывным на отрезке [t0 , p]. По
теореме Арцела [3, с. 236] из любой последовательности ломаных (2.7) можно
выделить подпоследовательность, равномерно сходящуюся на отрезке [t0 , p]. Под
движением z(t) будем понимать равномерный предел последовательности ломаных (2.7), у которых диаметр разбиения стремится к нулю.
3. Вычисление цены игры
Зафиксируем функцию ϕ(t), удовлетворяющую неравенствам (2.5). Подставим управление (2.3) в уравнение (2.1) и рассмотрим игру с геометрическими
ограничениями
ż = −a(t)ϕ(t)w + b(t)v,
kwk = 1,
kvk ≤ 1.
(3.1)
Первый игрок, выбирая управление w, минимизирует величину kz(p)k, а второй
игрок, выбирая управление v, ее максимизирует. Обозначим
G∗ (t0 , z0 , ϕ(·)) = max{F (t0 , ϕ(·)); kz0 k + f (t0 , ϕ(·))},
(3.2)
Zp
(−a(r)ϕ(r) + b(r)) dr,
f (t, ϕ(·)) =
F (t0 , ϕ(·)) = max f (τ, ϕ(·)).
t0 ≤τ ≤p
(3.3)
t
Теорема 1 [4]. Для начального состояния t0 < p, z0 ∈ Rn в игре (3.1) управление
w = w0 (z), где
½ z
при kzk > 0,
kzk
w0 (z) =
(3.4)
∀s ∈ {ksk = 1} при z = 0,
обеспечивает выполнение неравенства kz(p)k ≤ G∗ (t0 , z0 , ϕ(·)).
Управление v = w0 (z) обеспечивает выполнение противоположного неравенства kz(p)k ≥ G∗ (t0 , z0 , ϕ(·)).
Из этой теоремы следует, что функция (3.2) является функцией цены [5,
с. 87] в игре (3.1). Рассмотрим следующую оптимизационную задачу:
70
В. И. Ухоботов, Д. В. Гущин
G(t0 , z0 , µ0 ) = inf G∗ (t0 , z0 , ϕ(·)),
ϕ(·)
Zp
0 ≤ ϕ(t) ≤ 1 при t0 ≤ t ≤ p,
g(r, ϕ(r)) dr ≤ µ0 .
(3.5)
t0
Если задача (3.5) имеет решение ϕ0 : [t0 , p] → [0, 1], то, как следует из теоремы 1,
функция G(t0 , z0 , µ0 ) является ценой в исходной игре. В этом случае оптимальным управлением первого игрока является функция u0 (t, z) = ϕ0 (t)w0 (z), а оптимальное управление второго игрока равно v0 (t, z) = w0 (z). Функция w0 (z) определяется формулой (3.4).
Теорема 2. Пусть функция g(t, ϕ) удовлетворяет условиям предположения.
Тогда для любых t0 ≤ p, z0 ∈ Rn , µ0 ≥ 0 решение ϕ0 (t) в задаче (3.5) существует.
Доказательство. Из условия g(t, 0) = 0 при всех t ≤ p следует, что множество измеримых функций ϕ(t), удовлетворяющих ограничениям в задаче (3.5),
не пусто. Из формул (3.2) и (3.3) получим, что G∗ (t0 , z0 , ϕ(·)) ≥ 0 для любой
измеримой функции ϕ(t) ∈ [0, 1]. Поэтому нижняя грань в задаче (3.5) существует. Это значит, что существует последовательность измеримых функций ϕm (t),
удовлетворяющая ограничениям в задаче (3.5), такая, что
lim max{Fm (t0 ); kz0 k + fm (t0 )} = G(t0 , z0 , µ0 ).
m→∞
(3.6)
Здесь обозначено
Zp
fm (t) =
(−a(r)ϕm (r) + b(r)) dr,
Fm (t) = max fm (τ ).
t≤τ ≤p
(3.7)
t
Каждая функция fm (t) (3.7) удовлетворяет на отрезке [t0 , p] условию Липшица
с константой L (2.8). Отсюда следует, что семейство функций fm (t) является
равномерно ограниченным и равностепенно непрерывным на отрезке [t0 , p]. По
теореме Арцела из нее можно выделить подпоследовательность, которая на отрезке [t0 , p] равномерно сходится к некоторой функции f (t). Предельная функция
f (t) также удовлетворяет на отрезке [t0 , p] условию Липшица с той же константой
L. Не вводя новых обозначений, считаем, что сама последовательность функций
fm (t) сходится к f (t) равномерно на отрезке [t0 , p]. Из равномерной сходимости
следует, что
Fm (t0 ) = max fm (τ ) → max f (τ ) = F (t0 )
t0 ≤τ ≤p
t0 ≤τ ≤p
при m → ∞. Отсюда и из (3.6) получим, что
max{F (t0 ); kz0 k + f (t0 )} = G(t0 , z0 , µ0 ).
Осталось показать, что существует измеримая на отрезке [t0 , p] функция ϕ0 (t),
удовлетворяющая ограничениям в задаче (3.5), такая, что
Zp
f (t) =
(−a(r)ϕ0 (r) + b(r)) dr,
t
t0 ≤ t ≤ p.
(3.8)
К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями 71
С этой целью рассмотрим последовательность функций
Zp
lm (t) =
g(r, ϕm (r)) dr,
t0 ≤ t ≤ p.
(3.9)
t
Из непрерывности функции g(t, ϕ) следует, что она ограничена на множестве
t0 ≤ t ≤ p, 0 ≤ ϕ ≤ 1 некоторым числом L1 > 0. Следовательно, каждая из функций (3.9) удовлетворяет на отрезке [t0 , p] условию Липшица с этой константой L1 .
Поэтому, рассуждая так же, как и для последовательности функций fm (t) (3.7),
можем считать, что последовательность функций lm (t) сходится равномерно на
отрезке [t0 , p] к некоторой функции l(t). Эта предельная функция удовлетворяет
условию Липшица с той же константой L1 .
Таким образом, построенные предельные функции f (t) и l(t) являются абсолютно непрерывными на отрезке [t0 , p] и, следовательно, у них почти всюду существуют производные. Допустим, что существует измеримая функция
ϕ0 : [t0 , p] → [0, 1] такая, что
f˙(t) = a(t)ϕ0 (t) − b(t),
˙ ≤ −g(t, ϕ0 (t))
l(t)
(3.10)
для почти всех t ∈ [t0 , p]. Из первой формулы в (3.7) следует, что fm (p) = 0. Поэтому f (p) = 0. Интегрируя равенство (3.10), получим требуемую формулу (3.8).
Каждая функция ϕm (t) удовлетворяет неравенству в (3.5). Поэтому, согласно
формуле (3.9), lm (t0 ) ≤ µ0 и lm (p) = 0. Следовательно, l(t0 ) ≤ µ0 и l(p) = 0.
Интегрируя неравенство (3.10), получим, что функция ϕ0 (t) удовлетворяет требуемому неравенству (3.5).
Введем в рассмотрение многозначную функцию
Q(t) = {(q1 , q2 ) ∈ R2 : q1 = a(t)ϕ − b(t), q2 = −g(t, ϕ) ∀ϕ ∈ [0, 1]}.
(3.11)
Из непрерывности функций a(t), b(t) и g(t, ϕ) следует, что многозначная функция
(3.11) полунепрерывно сверху зависит от t ∈ [t0 , p]. Это значит, что для каждой
точки t ∈ [t0 , p] и для любого числа ε > 0 найдется число δ > 0 такое, что для
всех |t − τ | < δ, τ ≤ p
Q(τ ) ⊂ Q(t) + εS.
(3.12)
Здесь обозначено S = {(q1 , q2 ) ∈ R2 : q12 + q22 ≤ 1}. Обозначим y(t) = (f (t), l(t))
и ym (t) = (fm (t), lm (t)), m ≥ 1. Тогда почти всюду на отрезке [t0 , p] существуют
производные ẏ(t) и y˙m (t), m ≥ 1. Возьмем точку t ∈ [t0 , p), в которой существуют
эти производные. Зафиксируем число h > 0, при котором t + h ≤ p. Тогда
y(t + h) − y(t)
ym (t + h) − ym (t)
= lim
= lim
m→∞
m→∞
h
h
Z1
y˙m (t + rh) dr.
(3.13)
0
Из формул (3.7) и (3.11) следует, что ẏm (t+rh) ∈ Q(t+rh) для почти всех r ∈ [0, 1].
Зафиксируем число ε > 0. Тогда из включения (3.12) получим, что существует
число δ > 0 такое, что ẏm (t + rh) ∈ Q(t) + εS для всех m ≥ 1, 0 < h < δ и
72
В. И. Ухоботов, Д. В. Гущин
почти всех r ∈ [0, 1]. Применяя понятие интеграла от многозначной функции [6],
получим, что
ym (t + h) − ym (t)
∈
h
Z1
(Q(t) + εS) dr = co Q(t) + εS.
(3.14)
0
Здесь co Q — выпуклая оболочка множества Q. Поскольку множество, стоящее в
правой части (3.14), является компактом, то, используя формулу (3.13), получим,
что
y(t + h) − y(t)
∈ co Q(t) + εS.
h
Устремим h → 0+ и, учитывая, что ε — произвольное положительное число,
получим, что ẏ(t) ∈ co Q(t). Отсюда, используя теорему Каратеодори [7, с. 9],
получим, что существуют числа λi ≥ 0, ϕi ∈ [0, 1], i = 1, 2, 3, λ1 + λ2 + λ3 = 1
такие, что
3
3
X
X
˙
˙
f (t) = a(t)
λi ϕi − b(t), l(t) = −
λi g(t, ϕi ).
(3.15)
i=1
i=1
Из этих формул, применяя лемму о выборе А. Ф. Филиппова [6], получим, что
существуют измеримые на отрезке [t0 , p] функции λi (t) ≥ 0, ϕi (t) ∈ [0, 1], λ1 (t) +
+λ2 (t)+λ3 (t) = 1 такие, что они удовлетворяют равенствам (3.15) для почти всех
3
P
t ∈ [t0 , p]. Следовательно, функция ϕ0 (t) =
λi (t)ϕi (t) ∈ [0, 1] удовлетворяет
i=1
первому равенству в (3.10). Из выпуклости по ϕ функций g(t, ϕ) следует, что
à 3
!
3
X
X
˙ =−
l(t)
λi (t)g(t, ϕi (t)) ≤ −g t,
λi (t)ϕi (t) .
i=1
i=1
Таким образом, построенная функция ϕ0 (t) удовлетворяет неравенству в (3.10).
4. Линейная задача управления при наличии помехи
Рассмотрим линейную управляемую систему
ẋ = A(t)x + c(t)u + w,
x ∈ Rn ,
t ≤ p.
(4.1)
Здесь A(t) — непрерывная при t ≤ p матрица n × n; c(t) — непрерывный при
t ≤ p n-мерный вектор; u — скалярное управление, стесненное ограничением
|u| ≤ 1; w — помеха, значения которой принадлежат компакту W ⊂ Rn . Считаем,
что W является связанным множеством. Задан вектор ψ ∈ Rn . Цель выбора
управления u заключается в минимизации величины |hψ, x(p)i|. Здесь hψ, xi —
скалярное произведение векторов ψ, x ∈ Rn . Задан начальный момент времени
t0 < p. На выбор управления u накладывается интегральное ограничение
Zp
g(r, |u(r)|) dr ≤ µ0 .
t0
(4.2)
К вопросу о существовании цены игры в однотипной игре со смешанными ограничениями 73
Считаем, что функция g(t, ϕ) удовлетворяет условиям, сформированным в предположении. Помеху отождествляем со вторым игроком.
Пусть Φ(t) — фундаментальная матрица однородной системы ẋ = A(t)x.
Положим
b− (t) = min hψ, Φ(p)Φ−1 (t)wi,
w∈W
b+ (t) = maxhψ, Φ(p)Φ−1 (t)wi.
w∈W
(4.3)
Функции (4.3) являются непрерывными при t ≤ p [7, с. 84]. Введем переменную
Zp
1
−1
z = hψ, Φ(p)Φ (t)xi +
(b+ (r) + b− (r)) dr.
(4.4)
2
t
Тогда из уравнений движения (4.1) получим, что
ż = hψ, Φ(p)Φ−1 (t)c(t)iu + f,
1
f = hψ, Φ(p)Φ−1 (t)wi − (b+ (t) + b− (t)).
2
(4.5)
Из формул (4.2) следует, что
¸
·
b+ (t) − b− (t) b+ (t) − b− (t)
,
.
{f : w ∈ W } = −
2
2
Поэтому уравнение (4.4) можно записать в следующем виде:
ż = −a(t)u + b(t)v, |u| ≤ 1, |v| ≤ 1,
b+ (t) − b− (t)
.
2
Далее, из формулы (4.3) получим, что |z(p)| = |hψ, x(p)i|. Получили игру
вида (2.1).
a(t) = −|hψ, Φ(p)Φ−1 (t)c(t)i|, b(t) =
Список литературы
1. Красовский, Н. Н. Теория управления движением / Н. Н. Красовский. — М. :
Наука, 1968.
2. Ухоботов, В. И. Однотипная линейная игра со смешанными ограничениями на
управления / В. Н. Ухоботов // Приклад. математика и механика. — 1987. — Т. 51,
вып. 2. — С. 179–185.
3. Люстерник, Л. А. Элементы функционального анализа / Л. А. Люстерник,
В. И. Соболев. — М. : Наука, 1965.
4. Ухоботов, В. И. Синтез управления в однотипных дифференциальных играх с
фиксированным управлением / В. И. Ухоботов // Вестн. Челяб. гос. ун-та. — Сер.
Математика. Механика. — 1996. — № 1(3). — С. 178–184.
5. Айзекс, Р. Дифференциальные игры / Р. Айзекс. — М. : Мир, 1967.
6. Hermes, H. The Generalized Differential Equation ẋ ∈ R(t, x) / H. Hermes //
Advances in Mathematics. — 1970. — №4. — P. 149–169.
7. Пшеничный, Б. Н. Выпуклый анализ и экстремальные задачи / Б. Н. Пшеничный. — М. : Наука, 1980.
Документ
Категория
Без категории
Просмотров
4
Размер файла
545 Кб
Теги
цены, игры, смешанных, игре, существования, вопрос, однотипных, ограничениями
1/--страниц
Пожаловаться на содержимое документа