close

Вход

Забыли?

вход по аккаунту

?

Некоторые задачи теории линейных динамических неантагонистических игр.

код для вставкиСкачать
№ 2 (30), 2014
Физико-математические науки. Математика
УДК 517.977
В. Л. Пасиков
НЕКОТОРЫЕ ЗАДАЧИ ТЕОРИИ ЛИНЕЙНЫХ
ДИНАМИЧЕСКИХ НЕАНТАГОНИСТИЧЕСКИХ ИГР
Аннотация.
Актуальность и цели. Рассматриваются некоторые вопросы оптимального
управления, а именно теории динамических игр для случая, когда динамика
игры описывается линейными интегродифференциальными и интегральными
векторными уравнениями Вольтерра. Целью работы является решение задач
оптимизации функционалов типа расстояния в основном в смысле Нэша.
Материалы и методы. Для решения этих задач автором построена некоторая модификация известной экстремальной конструкции академика Н. Н. Красовского, разработанная для обыкновенных дифференциальных систем. Центральным элементом этой модификации является новое определение позиции
игры для вычисления которой требуется полная память по управляющим воздействиям, что существенно усложняет все исследование по сравнению со
случаем обыкновенных дифференциальных систем. Рассмотренный метод
может быть распространен и на случай нелинейных интегродифференциальных и интегральных систем.
Результаты и выводы. В работе получены существенно новые результаты,
которые дополняют и расширяют общую теорию динамических игр.
Ключевые слова: интегродифференциальное уравнение Вольтерра, интегральное уравнение Вольтерра, управляющее воздействие, измеримая функция, позиция игры, оптимальная стратегия.
V. L. Pasikov
SOME PROBLEMS OF THE THEORY OF LINEAR
DYNAMIC NONANTAGONISTIC GAMES
Abstract.
Background. The paper discusses some problems of optimal control, namely, the
theory of dynamic games when the dynamics of a game is described by the linear integrodifferential and integral vector Volterra equations. The aim is to solve the
problems of optimization of distance-type functionals mainly in the sense of Nash.
Materials and methods. To solve these problems, the author built a modification
of the famous extreme construction of the academician N. N. Krasovskiy developed
for ordinary differential systems. The centerpiece of this modification is the new
definition of the position of the game for which it is necessary to calculate the total
memory to manage stress, that greatly complicates the entire study compared with
the case of ordinary differential systems.
Results and conclusions. The considered method can be extended to the case of
nonlinear integrodifferential and integral systems. The paper presents significantly
new results that complement and extend the general theory of dynamic games.
Key words: integrodifferential equation of Volterra, Volterra integral equation,
control action, measurable function, position of the game, optimal strategy.
Предлагаемая работа продолжает исследование [1]. В дальнейшем следует иметь в виду, что встречающиеся ниже обозначения и понятия, не сопровождаемые ссылками и пояснениями, определены в [1]. Решение задач
Physical and mathematical sciences. Mathematics
59
Известия высших учебных заведений. Поволжский регион
приводится на основе методов, разработанных в [2–5], а также их модификаций из [5–8].
1. Рассматривается задача 1 из [1] с системой функционалов [4]:
Yi (u1 ,.., um ) = ϕi ( x(θ)) , i = 1, m ,
(1)
здесь предполагается, что каждая функция ϕi ( x) определена и непрерывна на
всем пространстве R n и удовлетворяет следующим условиям:
1) множество Gi (α1 ) = {x : ϕi ( x) ≤ αi , αi ∈ R} выпукло,
2) Gi (αi(1) ) = Gi (αi(2) ) ⇔ αi(1) = αi(2) .
Исследуем сначала вспомогательную задачу.
Найдем стратегии, уравновешивающие систему функционалов [4]:
Yi (u1 ,.., u2 ) = ρ( x(θ), Gi (αi )), i = 1, m ,
(2)
здесь αi – фиксированные числа; ρ( x(θ), Gi (αi )) – расстояние от точки x(θ)
до множества Gi (αi ) , которое определяется формулой
ρ( x, Gi (αi )) =
inf
ρ( x, y ).
y∈Gi (αi )
Будем рассматривать, как и в [1], три случая динамических систем,
описывающих эволюцию управляемого объекта.
Пусть движение объекта описывается системой интегродифференциальных уравнений Вольтерра с управляющими воздействиями вне интеграла
t
m

x(t ) = f (t ) + A(t ) x(t ) + K (t , s ) x( s )ds +
 ui (t ) , x(0) = x0 ,
i =1
0
тогда для любого t0 ∈ [0, θ) начала процесса управления вводится величина



ε(t0 , x(θ, t ), α k ) = max  min  (l′(c − x(θ, t0 )) −
||l ||=1 c∈Gk (α k )


θ
−
 u ∈U
t0
max {l′ ⋅ x (θ, s )}uk ( s ) ds −
k
k

min {l′ ⋅ x (θ, s )}ui ( s )ds   ,
u ∈U

i =1 t0 i i
 
i≠k

m t

(3)
которая согласно [5–7] является евклидовым расстоянием от точки x(θ, t ) до
множества Gk (α k ) , k = 1, m , при выборе игроками Pi , i = 1, m , i ≠ k , своих
управляющих воздействий наихудшим образом, т.е. они желают максимизировать величину (3), а игрок Pk величину (3) минимизирует.
В выражении (3) максимум достигается на единственном векторе lk =
= lk (t0 , x(θ, t0 ), α k ), непрерывно зависящем от позиции игры {t0 , x(θ, t0 )}
60
University proceedings. Volga region
№ 2 (30), 2014
Физико-математические науки. Математика
в случае, когда ε k (t0 , x(θ, t0 ), α k ) > 0 [2], т.е. рассматривается регулярный
случай.
t

Напомним, что в [1] введены обозначения Φ (t , s ) = K (t , τ) X ( τ, s )d τ,
s
t

ϕ( s ) = Φ ( s,0) x0 + f ( s ), x (t , s ) = X (t , s ) + X (t , τ) R (τ, s ) d τ,
s
R (t , s ) – резольвента матрицы Φ (t , s ) ,
t

x (t , s ) = X (t , s ) + X (t , τ) R (τ, s )d τ,x(θ, t0 ) = X (θ,0) x0 +
s
m t0
θ

+ x(θ, s )ϕ(θ, s )ds +
  x(θ, s)ui (s)ds,
i =1 0
0
X (t , s ) – матрица Коши системы x (t ) = A(t ) x(t ).
После решения задачи (3) – определения вектора lk и точки
ck ∈ Gk (α k ) , ближайшей в евклидовой метрике к позиции x(θ, t0 ) , определяем условие экстремального прицеливания для k-го игрока:
xke (t0 )u e (t0 ) = max xke (t0 ) ⋅ uk ,
uk ∈U k
(4)
где xke (t0 ) = l x (θ, t0 ) .
k
Далее вводится функция
θ

ε k (t , x(θ, t ), α k ) = lk (ck − x(θ, t0 )) − xke (t )uke (t )dt −
t
t
−

t0
xke (t )uk (t )dt
m θ
−
  xke (t )uke (s)ds.
(5)
i =1 t0
i≠k
В выражении (5) с возрастанием t оптимальная стратегия игрока Pk заменяется на произвольную допустимую. Вычисляем в (5) производную, получаем
d εk
= xke (t )uke (t ) − xke (t )uk (t ) = max xke (t )uk − xke (t )uk (t ) ≥ 0 ,
dt
uk ∈U k
отсюда вытекает, что функция ε k (t , x(θ, t ), α k ), k = 1, m, не убывает при замене оптимальной стратегии k-го игрока на произвольную допустимую uk,
таким образом, для системы функционалов (2) выполняются неравенства
Physical and mathematical sciences. Mathematics
61
Известия высших учебных заведений. Поволжский регион
e
e
Yi (u1e ,.., um
) ≤ Yi (u1e ,.., uke −1 , uk , uke −1 ,.., um
),
(6)
т.е. оптимальные стратегии, определяемые согласно (4), уравновешивают
в смысле Нэша систему функционалов (2). Теперь рассматриваем задачу 1
из [1].
Из формулы (3) следует, что ε k (t , x, α k ) строго возрастает при возрастании α k . Пусть α0k – наименьший корень уравнений ε k (t , x, α k ) = 0 при
фиксированных t и x. Если это уравнение не имеет решения, то полагаем
α0k = min φk ( x) . Из неравенства (6) и строгой монотонности ε k (t , x, α k ) по
α k получаем α0k (θ, xe (θ)) ≤ α 0k (θ, x k (θ)); xe (θ) – точка решения системы (2)
e
; uk – произвольное допустипри t = θ и стратегиях u1e ,.., uke −1 , uk , uke +1 ,.., um
мое управление.
Так как α0k (θ, x(θ)) = ϕk ( x(θ)) , то ϕk ( x e (θ)) ≤ ϕk ( x k (θ)) , и, следовательно, получаем решение задачи 1.
Теорема 1. Оптимальные стратегии, определяемые условиями (4) для
системы (2), уравновешивают в смысле Нэша систему функционалов (1).
2. Пусть теперь динамика управляемого объекта описывается системой (15), в которой управляющие воздействия содержатся под знаком интеграла
t
m t

x (t ) = f (t ) + A(t ) x(t ) + K (t , s ) x( s )ds +
  Bi (t , s)ui (s)ds , x(0) = x0 ,
i =1 0
0
а ее решение с заданным начальным условием определяется формулой (16)
из [1]:
t

x(t ) = X (t ,0) x0 + X (t , s )Ψ ( s,0)dsϕ(0) +
0
t m θ
t


 X (t , τ)Ψ (τ, s )d τ  d ϕ( s ) +
 X (t , τ)χi (τ, s )d τ  ui ( s )ds .




0 s
0 i =1  s


t
 

Напомним, что здесь
t

ψ(t , s ) = E + R (t , τ)d τ,
s
Е – единичная матрица,
t
χi (t , s ) = ψ (t , s ) Bi ( s, s ) +

s
∂Bi ( τ, s )
d τ,
∂τ
θ θ

x(θ, t0 ) = X (θ,0) x0 +  X (θ, τ)ψ (τ, s ) d τ d ϕ( s ) +


0 s


62
University proceedings. Volga region
№ 2 (30), 2014
Физико-математические науки. Математика
t0 m
+
θ

 X (θ, τ)χi (τ, s ) d τ ui ( s )ds,


0 i =0  s

 
θ

x (θ, t ) = X (θ, τ)χi (τ, t )dt.
t
Теперь используем полученное в [1] с помощью формулы (17) состояние системы (16), в момент t0 ≤ t < θ , которое записываем в следующем виде:
t m θ
x(θ, t ) = x(θ, t0 ) +
 [ X (θ, τ)χi (τ, s)d τ]ui (s)ds,
t0 i =1 s
далее решаем задачу нахождения экстремального вектора lk , k = 1, m, и точки
ck ∈ Gk (α k ), ближайшей в евклидовой метрике к позиции x(θ, t0 )

θ


ε k (t0 , x(θ, t0 ), α k ) = max  min  (l ′(c − x(θ, t0 )) − max (l ′xk (θ, s ))uk ( s )ds −
l =1 c∈Gk (α k ) 
u ∈U
t0 k k





′

min (l xi (θ, s ))ui ( s )ds   .
−

u ∈U
i =1 t0 i i
 
i≠k
m θ

(7)
После нахождения решения задачи (7) lk и ck , аналогично (4), определяем условие экстремального прицеливания игрока Pk :
xke (t0 )u e (t0 ) = max xke (t0 )uk , 0 ≤ t0 < θ, xke (t0 ) = lk′ x (θ, t0 ).
uk ∈U k
(8)
Далее записываем функцию ε k (t , x(θ, t ), α k ), которая по форме полностью аналогична функции (5) и дословным повторением дальнейших, после
(5), рассуждений доказывается утверждение.
Теорема 2. Оптимальные стратегии, определяемые условиями (8) для
исследования системы, уравновешивают в смысле Нэша систему функционалов (1).
3. Рассмотрим теперь случай, когда эволюция управляемого объекта
описывается системой линейных интегральных уравнений Вольтерра 2-го рода
t

x(t ) = f (t ) + A(t , s) x( s )ds +
0
m t
  Bi (t, s)ui (s)ds,
i =1 0
тогда, как было указано в [7], состояние системы в момент t ∈ [t0 , θ) определяется формулой
Physical and mathematical sciences. Mathematics
63
Известия высших учебных заведений. Поволжский регион
m t0
θ

x(θ, t ) = Φ (θ,0) f (0) + Φ (θ, s )df ( s ) +

m t
X i (θ, s )ui [ s ]ds +
i =1 0
0
  X i (θ, s)ui (s)ds,
i =1 t0
t

здесь Φ (t , s ) = E + R(t , τ)d τ; E – единичная матрица; R (t , s ) – резольвента
s
матрицы
θ

A(t , s ), X i (θ, s ) = Φ (θ, s ) Bi ( s, s ) + Φ (θ, τ)
s
∂Bi (τ, s )
d τ.
∂τ
Теперь записываем выражение

ε k (t0 , x(θ, t0 ), α k ) = max  min (l ′(c − x(θ, t0 ) −
l =1 c∈Gk ( α k )
θ
−
 u ∈U
t0
max {l ′X k (θ, s )} uk ( s )ds −
k
k

m t
{l ′X i (θ, s)} ui ( s)ds  ,
  umin
∈U
i =1 t0
i≠k
i
i
(9)


которое является евклидовым расстоянием от позиции x(θ, t0 ) до множества
Gk (α k ), после решения задачи (9) записываем функцию
ε k (t , x(θ, t ), α k ) = lk′ (ck − x(θ, t0 )) −
θ

t

− xke (t )uek (t )dt − xke (t )uk (t ) dt −
t
t0
m θ
  xke (t )uie (s)ds,
i =1 t0
i ≠1
здесь xke (t ) = lk′ xk (θ, t ) , uie , i = 1, m – оптимальное управление.
Далее все рассуждения аналогичны доказательству теоремы 1. Таким
образом, справедливо следующее утверждение для рассмотренного случая.
Теорема 3. Оптимальные стратегии, определяемые условиями (8) для
линейной интегральной системы Вольтерра 2-го рода, уравновешивают
в смысле Нэша систему функционалов (1).
Замечание. Отметим, что из каждой позиции x(θ, t0 ), t0 ∈ [0, θ) , для
каждой совокупности стратегий игроков {u1 ,.., um } получается пучок решений и в доказательствах речь идет об одной кривой из этого пучка. На практике физически невозможно непрерывно изменять значения управляющих
воздействий, поэтому в исследованиях по динамическим играм [2, 3] отрезку
управления, например [0, θ], назначают некоторое разбиение на частичные
промежутки [ti, ti+1) и в моменты ti определяют управляющее воздействие на
весь полуинтервал [ti,ti+1) как непрерывную или постоянную функцию, а затем переходят к пределу при стремлении к нулю ранга разбиения в соответствующей метрике.
64
University proceedings. Volga region
№ 2 (30), 2014
Физико-математические науки. Математика
В предлагаемой работе эти моменты опущены, так как сводятся к пересказыванию результатов из работ других авторов.
4. Пусть теперь в n-мерном фазовом пространстве Rn движется группа
из m точек xi , i = 1, m, эволюция каждой из которых описывается системой
t

xi (t ) = f i (t ) + Ai (t ) xi (t ) + Ki (t , s ) xi ( s ) ds + ui (t ), xi (0) = xi0 ,
(10)
0
эту группу преследует точка x, движущаяся в том же фазовом пространстве
Rn по закону
t

x (t ) = f (t ) + A(t ) x(t ) + K (t , s ) x( s) ds + u (t ), x(0) = x0 ,
(11)
0
в (10), (11) ограничения на параметры аналогичны ограничениям для (2).
В каждый момент t ∈ [0, θ) игрокам известны взаимные положения преследуемых и преследователя. В качестве платы игры рассматривается величина
m
J=
 αi
xi (θ) − x(θ) ,
(12)
i =1
игроки Pi , i = 1, m, распоряжаются выбором управляющих воздействий
ui ∈U i , а игрок P распоряжается выбором управляющего воздействия u ∈U ;
Ui, U – выпуклые компакты в R n ; t0 ∈ [0, θ) – начало процесса управления.
Для преследующей точки x требуется найти стратегию, которая к моменту θ
позволит минимизировать величину (12) при любых допустимых воздействиях преследуемых точек xi , i = 1, m.
Решения систем (10) и (11) записываем по формулам [6]:
t
t


xi (t ) = X i (t ,0) xi0 + xi (t , s )ϕi ( s )ds + xi (t , s )ui ( s )ds, x(t ) =
0
0
t

t

= X (t ,0) x0 + x (t , s )ϕ( s ) + x (t , s )u ( s )ds,
0
0
где Xi(t, s), X(t, s) – матрицы Коши систем
xi (t ) = Ai (t ) xi (t ), x(t ) = A(t ) x(t );
Ri (t , s ), R (t , s ) – резольвенты матриц
t

t

Φi (t , s ) = Ki (t , τ) X i (τ, s )d τ, Φ (τ, s ) = K (t , τ) X (τ, s )d τ,
s
t

s
t

xi (t , s ) = X i (t , s ) + X i (t , τ) Ri ( τ, s )d τ, x(t , s ) = X (t , s ) + X (t , τ) R (τ, s)d τ,
s
Physical and mathematical sciences. Mathematics
s
65
Известия высших учебных заведений. Поволжский регион
ϕi ( s ) = Φi ( s,0) xi0 + fi ( s ), ϕ( s) = Φ ( s,0) x0 + f ( s ).
Если до момента t , t ∈ [t0 , t ), игроки применяли некоторые допустимые
управления, а после момента t имеем ui (t ) ≡ 0, u (t ) ≡ 0, то состояния систем
(42), (43) можно записать следующим образом:
θ
t0
0
0
t0
t0
t

t


xi (θ, t ) = X i (θ,0) xi0 + xi (θ, s )ϕi ( s )ds + xi (θ, s )u[ s ]ds + xi (θ, s )ui ( s )ds; (13)
θ



x(θ, t ) = X (θ,0) x0 + x (θ, s )ϕ( s )ds + xi (θ, s )u[ s ]ds + x (θ, s )u ( s )ds,
0
t
(14)
t0
обозначим
θ
t0
0
t


xi (θ, t0 ) = X i (θ,0) xi0 + xi (θ, s)ϕi ( s )ds + xi (θ, s )ui [ s ]ds, x(θ, t0 ) =
t0
θ


= X (θ,0) x0 + x (θ, s )ϕ( s )ds + x (θ, s )u[ s ]ds,
0
t
тогда
t
t


xi (θ, t ) = xi (θ, t0 ) + xi (θ, s )ui ( s ) ds,x(θ, t ) = x(θ, t0 ) + x (θ, s )u ( s)ds;
t0
t0
 

J i = αi xi (θ) − x(θ) = αi max li′ ( xi (θ, t0 ) − x(θ, t0 )) +
li =1 
 
θ
+
 u ( s)∈U
t0
i


max x(θ, s )u ( s )ds   .

u ( s )∈U
t0
 
θ
max xi (θ, s )ui ( s )ds −
i

(15)
По (15) строим функцию типа программного максимина
 

εi (t ) = αi ⋅ max l ′  ( xi (θ, t0 ) − x(θ, t0 )) +
l =1 
 


+ max xi (θ, s )ui ( s )ds − αi max x (θ, s )u ( s ) ds   ,

u ( s )∈U i
u ( s )∈U
t0 i
t0
 
t

t

(16)
решаем в каждый момент t ∈ [t0 , θ) задачу (16) нахождения экстремального
вектора li и определяем экстремальные стратегии игроков.
66
University proceedings. Volga region
№ 2 (30), 2014
Физико-математические науки. Математика
После решения задачи (16) вводим обозначения li' xi (θ, s) = xie ( s ). При
этом предполагается, что в каждый момент t ∈ [t0 , θ) решение задачи (16)
единственное, т.е. рассматривается регулярный случай.
Оптимальные стратегии Pi , i = 1, m, определяем в каждый момент
t ∈ [t0 , θ) условием
max xie (t ) ⋅ ui (t ) = xie (t ) ⋅ uie .
(17)
ui∈U i
m
Для игрока P записываем вектор l0 =
 αili
и его оптимальную стра-
i =1
тегию в каждый момент t ∈ [t0 , θ) определяем соотношением
max x e (t ) ⋅ u (t ) = x e (t )u e ,
(18)
u∈U
где xe (t ) = l0 ⋅ x (θ, t ).
Теперь на основе величины (16) записываем функцию при 1 ≤ k ≤ m :
ε(t ) =
t
+α k

m
m
θ
i =1
i =1
i≠k
t0
 αili′( xi (θ, t0 ) − x(θ, t0 )) +  αi  xie (s)uie (s)ds +
xke ( s )uk ( s )ds + α k
t0
θ

xke ( s )uke ( s ) ds −
t
θ
x
e
( s )u e ( s ) ds,
(19)
t0
здесь игрок Pk с увеличением t начиная с момента t0 заменяет свою оптимальную стратегию на произвольную допустимую; вычисляем для (19) производную
d ε(t )
= α k ⋅ xke (t )uk (t ) − α k xke (t )uke (t ),
dt
d ε(t )
≤ 0, таким образом, с возрастанием t функция ε(t ) не
dt
возрастает и, следовательно, ε(t ) ≤ ε(t0 ) , где ε(t0 ) – программный максимин,
с учетом (17)
m
ε(t0 ) =

αi li' ( xi (θ, t0 ) − x(θ, t0 ) +
i =1
m
θ
i =1
t0
 αi 
xie ( s )uie ( s )ds −
θ
x
e
( s )u e ( s ) ds.
t0
В монографии [5, с. 335] величина αi xi (θ) − x(θ) называется защиm
щенностью точки xi, величина
 αi
xi (θ) − x(θ) – защищенностью группы.
i =1
Следовательно, доказано следующее утверждение.
Physical and mathematical sciences. Mathematics
67
Известия высших учебных заведений. Поволжский регион
Теорема 4. Если эволюции преследуемых и преследователя описываются системами (10) и (11), то в регулярном случае при выборе игроком Р
своей оптимальной стратегии для защищенности группы P1, …, Pm ему будет
обеспечен результат ε(θ) ≤ ε(t0 ) при любых допустимых реализациях управляющих воздействий игроков P1, …, Pm.
5. Пусть теперь в пространстве Rn движется группа из m точек xi ,
i = 1, m, эволюция каждой из которых описывается системой
t
t


xi (t ) = fi (t ) + Ai (t ) xi (t ) xi (t ) + Ki (t , s ) xi ( s) ds + Bi (t , s )ui ( s )ds, xi (0) = xi0 , (20)
0
0
эту группу преследует точка x, движущаяся в том же фазовом пространстве
Rn по закону
t
t


x (t ) = f (t ) + A(t ) x(t ) + K (t , s) x( s )ds + B (t , s)u ( s) ds, x(0) = x0 ,
0
(21)
0
решения систем (20) и (21) записываем по формулам [7]:
t

xi (t ) = X i (t ,0) xi0 + X i (t , s )Ψ i ( s,0)dsϕi (0) +
0
t t
t




+
X i (t , τ)Ψ i (τ, s )d τ d ϕi ( s ) +  X (t , τ)χi (τ, s ) d τ  ui ( s )ds,




0 s
0 s


t


t

x(t ) = X (t ,0) x0 + X (t , s )Ψ ( s,0)ds ⋅ ϕ(0) +
0
t t
t t


+  X (t , τ)Ψ (τ, s )d τ d ϕ( s ) +  X (t , τ)χ(τ, s ) d τ  u ( s )ds,




0 s
0 s




t

в дополнение к предыдущему здесь Ψ i (t , s ) = Ε + Ri (t , τ)d τ, Ri (t , s ) – реs
t

зольвента матрицы Φi (t , s ); Ψ (t , s ) = Ε + R (t , τ) d τ,
R (t , s ) – резольвента
s
матрицы Φ (t , s ); далее
xi (θ, t0 ) =
X i (θ,0) xi0
θ

+ X i (θ, s )Ψ i ( s,0)dsϕi (0) +
0
68
University proceedings. Volga region
№ 2 (30), 2014
Физико-математические науки. Математика
t0  θ


+  X i (θ, τ)Ψ i (τ, s )d τ  d ϕi ( s ) +  X (θ, τ)χ(τ, s )d τ  ui [ s ]ds ;




0 0
0 s


θ θ


θ

x(θ, t0 ) = X (θ,0) x0 + X (θ, s )Ψ ( s,0)dsϕ(0) +
0
t0  θ


 X (θ, τ)Ψ (τ, s )d τ d ϕ( s ) +  X (θ, τ)χ(τ, s )d τ u[ s ]ds,




0 s
0 s


θ θ


тогда
t θ

xi (θ, t ) = xi (θ, t0 ) +  X i (θ, τ)χi (τ, s ) d τ  ui ( s )ds, x(θ, t ) =


t0  s


t θ

= x(θ, t0 ) +  X (θ, τ)χ(τ, s )d τ  u ( s )ds.


t0  s


Программный максимин для Pi определяем формулой
θ

θ

εi (t0 ) = max l ′ ( xi (θ, t0 ) − x(θ, t0 )) + max  l ′X i (θ, τ)χi (τ, s )d τ  ui ( s ) ds −
l =1 
u ∈U 

0 i i s




θ

θ


− max  l ′X (θ, τ)χ( τ, s )d τ  u ( s )ds .
u∈U 

0
0




(22)
Пусть li – решение задачи (22), n-мерные вектор-строки
αi (t ) = l ′X i (θ, t ), α(t ) = li′ X (θ, t ) , они согласно [2, с. 384] являются решениями
дифференциальных систем α i (t ) = − Ai (t )αi , α (t ) = − A(t )α с краевым условием li . Обозначим для краткости
xie (t ) =
θ
 α′i (τ)χi (τ, s)d τ, x
e
θ

(t ) = α′( τ)χ(τ, s )d τ,
t
t
тогда
εi (t0 ) = li′ ( ( xi (θ, t0 ) − x(θ, t0 ) ) +
θ
 umax
∈U
0
i
xie ( s )ui 9 s )ds −
i
θ
x
 max
u∈U
e
( s )u ( s )ds.
0
Далее составляем функцию
m
ε(t ) =

i =1
αi li′ ( xi (θ, t0 ) − x(θ, t0 )) +
m
θ
i =1
i≠k
t0
 αi  xie (s)uie (s)ds +
Physical and mathematical sciences. Mathematics
69
Известия высших учебных заведений. Поволжский регион
t
+α k

xke ( s )uk ( s )ds + α k
t0
θ

xke ( s )uke ( s )ds −
t
θ
x
e
( s ) x( s )ds
0
и вычисляем ее производную
dε
= α k xke (t )uk (t ) − α k xke (t )uke (t ),
dt
dε
≤ 0.
dt
Таким образом при замене игроком Pk оптимальной стратегии на произвольную допустимую функция ε(t ) не возрастает, следовательно, ε(t ) ≤ ε(t0 ).
Следовательно доказано следующее утверждение.
Теорема 5. Если эволюции преследуемых и преследователя описываются системами (20), (21), то в регулярном случае при выборе игроком Р своей оптимальной стратегии для защищенности группы P1, …, Pm ему будет
обеспечен результат ε(θ) ≤ ε(t0 ) при любых допустимых реализациях управляющих воздействий игроков P1 ,…, Pm.
6. Рассматриваем теперь случай, когда эволюция объектов преследуемой
группы описывается линейным интегральным уравнением Вольтерра 2-го рода
условия оптимальности здесь по форме совпадают с (17), (18), тогда
t
t


xi (t ) = fi (t ) + Ai (t , s ) xi ( s )ds + Bi (t , s )ui ( s )ds,
0
(23)
0
эволюция преследователя описывается системой
t
t


x(t ) = f (t ) + A(t , s ) x( s )ds + B (t , s )u ( s )ds.
0
(24)
0
Системы (23), (24) являются линейными интегральными системами
Вольтерра 2-го рода) и удовлетворяют условиям, указанным в [1, 8]. Опишем
кратко решение задачи для этих систем.
Записываем программный максимин для игрока Pi:
θ

εi (t0 , x(θ, t0 )) = max l ′  ( xi (θ, t0 ) − x(θ, t0 )) + max {l ′X i (θ, s )} ui ( s) ds +
l =1 
u ∈U
t0 i i


θ

+ max {l ′X i (θ, s )} ui ( s )ds  .

u ∈U
t0 i i


(25)
Теперь решаем задачу (25) нахождения экстремального вектора li, вводим обозначения xie (t ) = li′ X i (θ, t ), l0 =
m
 li ;
оптимальные (экстремальные)
i =1
значения формально определяются равенствами (49), (50). Далее составляем
функцию
70
University proceedings. Volga region
№ 2 (30), 2014
ε(t ) =
Физико-математические науки. Математика
m
t
i =1
t0
 li ( xi (θ, t0 ) − x(θ, t0 )) + 
xke (θ, s )uk ( s ) +
θ

xke ( s )uke ( s ) +
t
m θ
  xie (s)uie (s)ds,
i =1 t0
i≠k
здесь идет с увеличением t замена оптимальной стратегии игрока Pk на произвольную допустимую. Вычисляем производную
dε
= xke (θ, t )uk (t ) − xke (t )uke (t ) ≤ 0
dt
согласно определению оптимальной стратегии игрока Pk. Получаем следующее утверждение.
Теорема 6. Если эволюции преследуемых и преследователя описываются системами (55), (56), то в случае при выборе игроком P своей оптимальной стратегии для защищенности группы P1, …, Pm ему будет обеспечен результат ε(θ) ≤ ε(t0 ) при любых допустимых реализациях управляющих воздействий игроков P1, …, Pm.
Список литературы
1. П а с и к о в , В. Л. К теории линейных динамических неантагонистических игр /
В. Л. Пасиков // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. – 2013. – № 2 (26). – С. 75–86.
2. К р а с о в с к и й , Н . Н . Игровые задачи о встрече движений / Н. Н. Красовский. –
М. : Наука, 1970. – 420 с.
3. С у б б о ти н , А . И . Оптимизация гарантии в задачах управления / А. И. Субботин, А. Г. Ченцов. – М. : Наука, 1981. – 288 с.
4. Г о р о х о в и к , В. В. О линейных дифференциальных играх нескольких лиц /
В. В. Гороховик, Ф. М. Кириллова // Управляемые системы. – 1971. – № 10. –
С. 3–9.
5. Г а б а с о в, Р . Качественная теория оптимальных процессов / Р. Габасов, Ф. Кириллов. – М. : Наука, 1971. – 508 с.
6. П а с и к о в , В. Л. Экстремальные стратегии в игровых задачах для линейных
интегродифференцированных систем Вольтерра / В. Л. Пасиков // Вестник Южно-уральского государственного университета. Сер. Математика. Механика. Физика. – 2012. – Т. 7, № 34 (293). – С. 33–42.
7. П а с и к о в , В. Л. Задача сближения-уклонения для линейных интегродифференциальных систем Вольтерра с управляющими воздействиями под знаком интеграла / В. Л. Пасиков // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. – 2011. – № 2 (18). – С. 58–70.
8. П а с и к о в , В. Л. Экстремальное прицеливание в игре линейных систем Вольтерра / В. Л. Пасиков // Дифференциальные уравнения. – 1986. – Т. XXII, № 5. –
С. 907–909.
References
1. Pasikov V. L. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Fizikomatematicheskie nauki [University proceedings. Volga region. Physical and mathematical sciences]. 2013, no. 2 (26), pp. 75–86.
2. Krasovskiy N. N. Igrovye zadachi o vstreche dvizheniy [Game problems on motion
meeting]. Moscow: Nauka, 1970, 420 p.
3. Subbotin A. I., Chentsov A. G. Optimizatsiya garantii v zadachakh upravleniya [Guarantee optimization in control problems]. Moscow: Nauka, 1981, 288 p.
Physical and mathematical sciences. Mathematics
71
Известия высших учебных заведений. Поволжский регион
4. Gorokhovik V. V., Kirillova F. M. Upravlyaemye sistemy [Controllable systems]. 1971,
no. 10, pp. 3–9.
5. Gabasov R., Kirillov F. Kachestvennaya teoriya optimal'nykh protsessov [Qualitative
theory of optimal processes]. Moscow: Nauka, 1971, 508 p.
6. Pasikov V. L. Vestnik Yuzhno-ural'skogo gosudarstvennogo universiteta. Ser. Matematika. Mekhanika. Fizika [Bulletin of South-Ural State University. Series: Mathematics. Mechanics. Physics]. 2012, vol. 7, no. 34 (293), pp. 33–42.
7. Pasikov V. L. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Fizikomatematicheskie nauki [University proceedings. Volga region. Physical and mathematical sciences]. 2011, no. 2 (18), pp. 58–70.
8. Pasikov V. L. Differentsial'nye uravneniya [Differential equations]. 1986, vol. XXII,
no. 5, pp. 907–909.
Пасиков Владимир Леонидович
кандидат физико-математических наук,
доцент, кафедра естественноматематических дисциплин, Орский
филиал Оренбургского государственного
института менеджмента (Россия,
Оренбургская область,
г. Орск, Орское шоссе, 4)
Pasikov Vladimir Leonidovich
Candidate of physical and mathematical
sciences, associate professor,
sub-department of natural and mathematical
disciplines, Orsk branch of Orenburg State
Institute of Management (4 Orskoe
highway, Orsk, Orenburg region, Russia)
E-mail: pasikov_fmf@mail.ru
УДК 517.977
Пасиков, В. Л.
Некоторые задачи теории линейных динамических неантагонистических игр / В. Л. Пасиков // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. – 2014. – № 2 (30). – С. 59–72.
72
University proceedings. Volga region
Документ
Категория
Без категории
Просмотров
3
Размер файла
446 Кб
Теги
неантагонистические, игр, линейный, некоторые, задачи, теория, динамическое
1/--страниц
Пожаловаться на содержимое документа