close

Вход

Забыли?

вход по аккаунту

?

Двухуровневая кооперация в дифференциальной игре технологического альянса.

код для вставкиСкачать
УДК 517.977.8
Вестник СПбГУ. Сер. 10. 2015. Вып. 1
Н. В. Колабутин
ДВУХУРОВНЕВАЯ КООПЕРАЦИЯ В ДИФФЕРЕНЦИАЛЬНОЙ ИГРЕ
ТЕХНОЛОГИЧЕСКОГО АЛЬЯНСА
Санкт-Петербургский государственный университет, Российская Федерация,
199034, Санкт-Петербург, Университетская наб., 7/9
Статья посвящена двухуровневой кооперации в дифференциальных играх. Кооперативные дифференциальные игры – один из наиболее актуальных разделов теории игр.
С их помощью возможно математически описать конфликтно-управляемые процессы в менеджменте и экономике. Решением кооперативной дифференциальной игры являются
некоторое кооперативное соглашение и выбранный принцип оптимальности, согласно которому распределяется полученный выигрыш. Исследования показали, что изначально
выбранное кооперативное решение часто теряет свою оптимальность с течением времени. Поэтому встал вопрос об устойчивости кооперативного решения, в первую очередь
о динамической устойчивости или о временной состоятельности. Данное понятие было
формализовано Л. А. Петросяном. Кооперативное решение считается динамически устойчивым, если принцип оптимальности, выбранный в начале игры, сохраняет свою состоятельность на протяжении всего игрового процесса. Для динамической устойчивости необходимо в каждый момент времени проводить регуляризацию выбранного принципа оптимальности. Для этой регуляризации Л. А. Петросян предложил использовать перераспределение полученного выигрыша согласно процедуре распределения дележа. Все чаще
в дифференциальных играх изучаются коалиционные решения, в которых коалиции выступают как отдельные игроки. Коалиции играют друг с другом в бескоалиционную игру,
а выигрыш каждой коалиции распределяется между ее участниками в соответствии с некоторым принципом оптимальности.
В данной статье исследуется модель, в которой участники объединяются в коалиции,
выступающие как отдельные игроки, но при этом коалиции также могут кооперироваться
для увеличения совместного выигрыша. В этом случае коалиции играют в свою кооперативную игру, максимизируя общий выигрыш и распределяя его между собой согласно с некоторым принципом оптимальности. Затем выигрыш каждой коалиции распределяется между ее участниками также в соответствии с некоторым принципом оптимальности. Такая кооперация называется двухуровневой. Принципы распределения выигрыша
между коалициями и внутри коалиции могут отличаться. Для решения таких моделей
требуется на каждом уровне кооперации построить характеристическую функцию и процедуру распределения дележа. Рассмотрена модель двухуровневой кооперации на примере
дифференциальной игры технологического альянса. Участниками игры являются фирмы,
имеющие технологию, приносящую прибыль. На первом (нижнем) уровне фирмы образуют коалиции, чтобы совместная прибыль была больше. На втором (верхнем) уровне
коалиции выступают как отдельные игроки и также объединяются в одну общую коалицию с целью увеличения совместного выигрыша. Полученный на верхнем уровне выигрыш распределяется между коалициями-участниками. Таким образом, каждая коалицияучастник может иметь больше, чем если бы она играла самостоятельно. Затем каждая коалиция распределяет свою долю выигрыша между входящими в нее фирмами. Представлено устойчивое кооперативное решение для этой модели. Для его реализации на каждом
уровне кооперации построена характеристическая функция и доказана ее супераддитивность. В качестве дележа выбран динамический вектор Шепли. Результаты подтверждены
численным примером. Библиогр. 8 назв. Табл. 2.
Ключевые слова: дифференциальная игра, кооперация, процедура распределения прибыли.
Колабутин Николай Валерьевич – старший преподаватель; е-mail: n.kolabutin@spbu.ru
Kolabutin Nikolay Valerievich – senior teacher; е-mail: n.kolabutin@spbu.ru
42
N. V. Kolabutin
TWO-LEVEL COOPERATION IN TECHNOLOGICAL
ALLIANCE DIFFERENTIAL GAMES
St. Petersburg State University, 7/9, Universitetskaya embankment, St. Petersburg,
199034, Russian Federation
The paper is devoted to two-level cooperation in differential games. Cooperative differential
games are currently one of most important parts of game theory. They mathematically describe
the conflict-controlled processes in management and economics. The solution of a differential
game is a cooperative agreement, and the selected principle of optimality, according to which
the received payoff is distributed. Studies showed that initially selected cooperative solution
often loses its optimality over time. Therefore, the question arose about the stability of the
co-operative solutions. The issue of dynamic stability or time consistency is considered. This
concept was formalized by L. A. Petrosyan. Cooperative solution is dynamically stable if the
principle of optimality selected early in the game stays consistent throughout the gameplay.
For dynamic stability it is necessary at each moment of time to carry out the regularization of
the chosen principle of optimality. For this regularization L. A. Petrosyan proposed to use the
redistribution of received payoff in accordance with the “imputation distribution procedure”. In
some cases coalitional solutions in differential games are studied, where the coalitions act as
individual players. Coalitions play with each other in a noncooperative game, and payoff of each
coalition is distributed among its members in accordance with some principle of optimality. In
this paper we began to investigate the model in which participants form coalitions, acting as
individual players, but the coalitions may also cooperate to increase joint payoff. In this case,
the coalition play their cooperative game, maximizing overall benefits and distributing them
among themselves according to some principle of optimality. Then, payoff of each coalition is
distributed among its members as well according to maybe a different principle of optimality.
Such cooperation is called two-level cooperation. Principles of profit distribution between
coalitions and within coalition may be different. To solve such models which is required at both
levels of the cooperation it is necessary to build the characteristic function and imputation
distribution procedure. This paper describes a model of a two-level cooperation on the example
of a technological alliance differential game. Participants in the game are the firms with the
technology that brings profit. On the first (lower) level firms form coalitions to increase joint
profit. On the second (upper) level coalitions act as individual players and also form the
one grand coalition to increase the joint profit. The resulting top-level payoff is distributed
between coalitions-participants. Thus, each coalition party may get more than it would receive
by playing individually. Then each coalition distributes the resulting share of payoff among its
member firms. This article also presented a stable cooperative solution in this model. For its
implementation at every level of cooperation we build the characteristic function and prove its
superadditivity. As a sharing the dynamic Shapley value is selected. The results are illustrated
by a quantitative example. Bibliogr. 8. Tables 2.
Keywords: differential game, cooperation, imputation distribution procedure.
Введение. Рассматривается кооперативная дифференциальная игра, в которой
участвуют фирмы, разрабатывающие некоторую технологию. Множество фирм обозначим N = {1, ..., n}. Параметром каждой фирмы i ∈ N является уровень ее технологии, которое обозначим xi ∈ R+ . Уровень технологии
будем
также называть
состоянием фирмы. Игра начинается из состояния x0 = x01 , ..., x0n в момент t0 и продолжается период T −t0 , в течение которого фирмы получают определенную прибыль
от применяемой технологии. В момент окончания игры T фирмы ликвидируют свои
технологии, вследствие чего получают дополнительную прибыль [1].
Прибыль фирмы зависит от уровня ее технологии, поэтому она стремится его
повысить, для чего фирма инвестирует в развитие технологии. Уровень инвестиций
фирмы i в свое технологическое развитие, являющийся ее стратегией в игре, обозначим ui ∈ R+ . Этот параметр будем также называть управлением фирмы.
Динамика развития фирмы протекает согласно дифференциальному уравнению
43
ẋi (s) = αi [ui (s)xi (s)]
xi (t0 ) =
x0i ,
1/2
− δxi (s),
(1)
i ∈ N,
в котором αi и δ − положительные константы. На правые части уравнения наложены
условия, гарантирующие существование, единственность и продолжимость решений
для любых кусочно-непрерывных управлений ui (s) ∈ R+ , s ∈ [t0 , T ]. Также на систему наложено дополнительное ограничение xi (s) > 0, s ∈ [t0 , T ].
Прибыль фирмы i ∈ N имеет вид
Hi x0i , T
!
T
− t0 , u i =
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
t0
1/2
+ exp [−r(T − t0 )] qi [xi (T )] ,
(2)
"
#
12
где hi (s, xi (s), ui (s)) = Pi [xi (s)] − ci ui (s) − мгновенная прибыль фирмы i в момент s, в состоянии xi (s) и управлении ui (s); Pi , ci − положительные константы;
exp [−r(t − t0 )] − функция, определяющая величину дисконта; r − процентная ставка;
1/2
qi [xi (T )]
− терминальный выигрыш фирмы i в момент окончания игры T и в состоянии xi (T ); qi − положительная постоянная.
Для большей прибыли фирмы могут объединяться в коалиции. За счет своих
партнеров фирма-участник может получить дополнительные возможности в развитии, которые она не могла бы иметь, если бы действовала самостоятельно. Поэтому
динамика развития фирм в коалиции изменяется. Рассмотрим коалицию K, образованную некоторым подмножеством игроков K ⊆ N . Динамика развития коалиции
принимает вид
[j,i]
1/2
ẋi (s) = αi [ui (s)xi (s)] +
bj [xj (s)xi (s)]1/2 − δxi (s),
(3)
j∈K, j=i
xi (t0 ) = x0i ,
i ∈ K,
[j,i]
здесь bj 0 − положительная константа, которая представляет эффект передачи
технологии для фирмы i, осуществляемый фирмой j. Уровень технологии каждой
фирмы в коалиции K оказывает положительный эффект на скорость технологического развития, т. е. выполняются условия ∂fiK [xK (s), ui (s)] /∂xj 0, j ∈ K, где
fiK [xK (s), ui (s)] − правая часть уравнения динамики (3) (заметим, что динамика
развития не зависит явно от времени s). Синергетический эффект технологического
развития фирмы i возникает за счет передачи технологий от других фирм в коалиции K.
Прибыль коалиции K ⊆ N равна суммарному выигрышу всех ее участников:
!
Hi x0i , T − t0 , ui =
i∈K
T
=
i∈K t
0
44
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
i∈K
12
exp [−r(T − t0 )] qi [xi (T )]
.
(4)
Для максимизации прибыли коалиции K требуется рассмотреть задачу оптимального управления, которая состоит в максимизации
(4) %при граничных условиях
$
(3). Эту задачу максимизации обозначим через K; t0 ; x0K .
Подробное решение данной задачи описано Л. А. Петросяном и Д. Янгом [2]. Ими
была введена непрерывно-дифференцируемая функция W (t0 )K (t, xK (t)) : [t0 , T ] ×
Πj∈K Rmj −→ R, определяющая максимальный выигрыш коалиции K ⊆ N на промежутке [t, T ], где t ∈ [t0 , T ]. Эта функция удовлетворяет уравнению Беллмана
&
(t0 )K
(t, xK (t)) = max
hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
−Wt
uK
+
i∈K
'
Wx(ti 0 )K
(t, xK (t)) fiK
i∈K
W (t0 )K (T, xK (T )) =
[xK (t), uK (t)] ,
1/2
exp [−r(T − t0 )] qi [xi (T )]
,
i∈K
K ⊆ N.
f K [xK (t), uK (t)] = fiK [xK (t), ui (t)] i∈K = {ẋi }i∈K ,
%
$
В результате решения задачи K; t0 ; x0K получаем функцию W (t0 )K (t, xK (t))
в виде
(
)
1/2
W (t0 )K (t, xK (t)) =
AK
+ C K (t) exp [−r(t − t0 )] ,
(5)
i (t) [xi (t)]
i∈K
K
где величины {AK
i (t)}i∈K , C (t) являются решением соответствующих дифференциальных уравнений
ȦK
i (t)
δ
AK
= r+
i (t) −
2
Ċ K (t) = rC K (t) −
j∈K,j=i
[i,j]
bj
AK
j (t) − Pi ,
2
α2
i
AK (t),
16ci i
i∈K
AK
i (T )
= qi ,
C (T ) = 0,
K
i ∈ K.
В [2] была подробно рассмотрена кооперативная игра, в которой фирмы, объединяясь в общую коалицию, максимизируют совместный выигрыш и делят его в соответствии с вектором Шепли. В данной статье представлена расширенная модель,
в которой участниками игрового процесса являются не отдельные фирмы {i}i∈N , а их
коалиции, которые выступают как отдельные игроки [3, 4].
Модель. Будем, как и ранее, считать, что в игре участвуют N игроков-фирм.
Параметром состояния фирмы i ∈ N = {1, ..., n} является его уровень технологии
xi ∈ R+ , а стратегией – инвестиции в технологическое развитие ui ∈ R+ . Выигрыш
игрока вычисляется по формуле (2). Пусть Δ = {K1 , K2 , ..., Km } − коалиционное
m
m
*
+
разбиение игры, т. е. Kl1 Kl2 = Ø, l1 = l2,
Kl = N , |Kl | = nl ,
nl = n.
l=1
Множество индексов разбиения обозначим через M = {1, ..., m}.
l=1
45
Дифференциальную игру, в которой коалиции
выступают как отдельные игро!
ки, будем обозначать через ΓΔ x0 , T − t0 . При этом коалиции могут кооперироваться между собой, чтобы увеличить совместный выигрыш. Введем обозначения:
xKl (s) = {xi (s)}i∈Kl , l ∈ M − состояние коалиции Kl в момент s ∈ [t0 , T ], определяемое через набор состояний ее участников; x0Kl = {x0i }i∈Kl − начальное состояние
коалиции Kl ; uKl (s) = {ui (s)}i∈Kl , l ∈ M , − управление коалиции Kl в момент s, представляющее собой набор управлений ее участников; K̆ ⊆ Δ − любая
коалиция, обра
Δ(t0 )
Δ(t0 )
зованная подмножеством элементов разбиения Δ; V
K̆, xK̆ (t), T − t −
=V
характеристическая функция игры.
Динамика развития коалиции Kl ⊂ Δ протекает согласно системе дифференциальных уравнений
[j,i]
ẋi (s) = αi [ui (s)xi (s)]1/2 +
bj [xj (s)xi (s)]1/2 − δxi (s),
(6)
j∈Kl , j=i
xi (t0 ) = x0i ,
i ∈ Kl .
Правую часть уравнения обозначим через fiKl [xKl (s), uKl (s)] .
Выигрыш коалиции Kl равен сумме выигрышей ее участников:
!
!
Hi x0i , T − t0 , ui =
HKl x0Kl , T − t0 , uKl =
i∈Kl
=
T
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
i∈Kl t
0
+
12
exp [−r(T − t0 )] qi [xi (T )]
.
(7)
i∈Kl
"
#
12
В (7) hi (s, xi (s), ui (s)) = Pi [xi (s)] − ci ui (s) − мгновенная прибыль фирмы i в момент s ∈ [t0 , T ].
Кооперация коалиций. Если несколько коалиций объединяются между собой
в более крупную коалицию, то каждая из коалиций-участников может получить дополнительные бонусы в развитии своей технологии, которые она не могла бы иметь
сама. Поэтому уравнение
коалиций-участников изменяется. Рассмотрим
+
+движения
+
коалицию K̆ = Kl1 Kl2 ... Klk , где Kl1 , Kl2 , ..., Klk ⊂ Δ. Уравнение движения
участников коалиции Kl ⊂ K̆ принимает следующий вид:
ẋi (s) = αi [ui (s)xi (s)]
+
1/2
+
[j,i]
bj
[xj (s)xi (s)]1/2 +
j∈Kl1
[j,i]
bj
[xj (s)xi (s)]1/2 + ... +
j∈Kl , j=i
Суммы
j∈Klk
[j,i]
bj
[xj (s)xi (s)]1/2 + ... +
j∈Kl2
[j,i]
bj
[xj (s)xi (s)]1/2 − δxi (s),
(8)
j∈Klk
xi (t0 ) = x0i ,
[j,i]
bj [xj (s)xi (s)]1/2
i ∈ Kl .
представляют собой суммарный эффект передачи тех-
нологии фирме i от соответствующей коалиции. Таким образом, синергетический эффект технологического развития фирмы i получается за счет как участников той
46
коалиции, которой она изначально принадлежала, так и участников остальных коалиций, входящих в коалицию K̆. Объединив суммы, можно упростить выражение (8),
записав его так:
[j,i]
1/2
ẋi (s) = αi [ui (s)xi (s)] +
bj [xj (s)xi (s)]1/2 − δxi (s),
(9)
j∈Ǩ, j=i
xi (t0 ) = x0i ,
i ∈ K̆ ⊆ Δ.
Выигрышем коалиции K̆ является ее прибыль, которая, как и раньше, рассчитывается как сумма прибылей ее участников, т. е. коалиций Kl1 , Kl2 , ..., Klk :
k
! HKlξ x0Kl , T − t0 , uKlξ =
HK̆ x0K̆ , T − t0 , uK̆ =
ξ
ξ=1
=
k
ξ=1
⎛
⎝
T
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
i∈Klξ t
0
+
⎞
12 ⎠
exp [−r(T − t0 )] qi [xi (T )]
.
i∈Klξ
!
Коалицию K̆ = Δ, образованную всеми участниками игры ΓΔ x0 , T − t0 , будем
называть технологическим альянсом коалиций.
!
Для нахождения коалиционного решения в игре ΓΔ x0 , T − t0 требуется
рассчи
тать характеристическую функцию V Δ(t0 ) = V Δ(t0 ) K̆, xK̆ (t), T − t и определить
процедуру распределения совместной прибыли.
!
Вычисление характеристической функции в игре ΓΔ x0 , T − t0 . При вычислении характеристической функции важно помнить, что участниками игры являются не отдельные фирмы, а коалиции, поэтому требуется рассматривать не все
подмножества множества N , а только подмножества Kl ⊂ Δ и их объединения.
Характеристическую функцию будем
искать в два этапа: вначале построим рав!
новесие по Нэшу в игре ΓΔ x0 , T − t0 , затем вычислим значение характеристической
функции для произвольной коалиции K̆ ⊆ Δ, частным случаем которой является технологический альянс коалиций. Считаем, что коалиции из разбиения Δ, не входящие
в K̆, получают выигрыш, соответствующий равновесию по Нэшу.
!
Равновесие по Нэшу в игре коалиций ΓΔ x0 , T − t0 . Поскольку в данной
модели формирование коалиций ведет только к изменению динамики игры и образованные коалиции никак не взаимодействуют между собой, то любая фирма j, не входящая в коалицию Kl , никак не влияет на ее развитие. Поэтому в данном случае
поиск равновесия по Нэшу вырождается в максимизацию коалиционного выигрыша
каждым игроком-коалицией Kl ⊂ Δ.
Коалиция Kl стремится максимизировать свой выигрыш. С этой целью рассмотрим соотношение
V Δ(t0 ) (Kl , xKl (t), T − t) =
= W (t0 )Kl (t, xKl (t)) = max (HKl (xKl (t), T − t, uKl (t))) =
uKl
47
= max
uKl
⎛
= max ⎝
uKl
T
Hi (xi (t), T − t, ui (t))
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
i∈Kl t
+
=
i∈Kl
1/2
exp [−r(T − t0 )] qi [xi (T )]
,
Kl ⊂ Δ,
i∈Kl
где W (t0 )Kl (t, xKl (t)) − непрерывно дифференцируемая функция, определяющая
максимальный гарантированный выигрыш коалиции Kl на временном промежутке
[t, T ], t ∈ [t0 , T ].
Задача максимизации коалиционного выигрыша была описана в [2]. Функция
W (t0 )Kl (t, xKl (t)) удовлетворяет уравнению Беллмана
(t0 )Kl
&
= max
uKl
+
−Wt
(t, xKl (t)) =
hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
i∈Kl
Wx(ti 0 )Kl
'
(t, xKl (t)) fiKl
i∈Kl
W (t0 )Kl (T, xKl (T )) =
[xKl (t), uKl (t)] ,
(10)
12
exp [−r(T − t0 )] qi [xi (T )]
,
i∈Kl
f Kl [xKl (t), uKl (t)] = ẋKl , Kl ⊂ Δ.
В [2] было показано, как определяется значение характеристической функции
для произвольной коалиции. Действуя аналогичным образом, находим
(
)
K
1/2
(t0 )Kl
Kl
l
W
(t, xKl (t)) =
Ai (t) [xi (t)] + C (t) exp [−r(t − t0 )] .
(11)
i∈Kl
Kl
l
(t) являются решением дифференциальных уравЗдесь величины {AK
i (t)}i∈Kl , C
нений
b[i,j]
δ
j
Kl
l
l
ȦK
A
AK
(t)
=
r
+
(t)
−
i
i
j (t) − Pi ,
2
2
j∈Kl ,j=i
Ċ Kl (t) = rC Kl (t) −
α2
i
AKl (t),
16ci i
i∈Kl
l
AK
i (T ) = qi ,
C Kl (T ) = 0,
i ∈ Kl .
Из формул (11) и (12) получаем уравнения для частных производных
(
)
K
(t0 )Kl
1/2
Kl
l
Wt
(t, xKl (t)) =
Ȧi (t) [xi (t)] + Ċ (t) −
i∈Kl
48
(12)
(
−r
)
1/2
l
AK
i (t) [xi (t)]
+ C Kl (t)
exp [−r(t − t0 )] ,
(13)
i∈Kl
1 Kl
−1/2
A (t) [xi (t)]
exp [−r(t − t0 )] ,
2 i
из уравнений (10) и (13) – формулы для оптимальных управлений участников коалиции Kl
,
α2i " Kl #2
A
u∗Kl (t) = {u∗i (t)}i∈Kl =
(t)
.
(14)
i
16(ci )2
i∈Kl
Wx(ti 0 )Kl (t, xKl (t)) =
Определив оптимальные управления участников коалиции (14) и подставляя их
в уравнение развития коалиции Kl (6), выводим уравнение оптимальной коалиционной траектории
ẋi (s) =
α2i Kl
1/2
A (s) [xi (s)] +
4ci i
xi (t0 ) = x0i ,
[j,i]
bj
[xj (s)xi (s)]1/2 − δxi (s),
j∈Kl , j=i
i ∈ Kl , s ∈ [t0 , T ].
Вычисление значения характеристической
+
+ + функции для произвольной коалиции K̆ ⊆ Δ. Пусть K̆ = Kl1 Kl2 ... Klk − объединение некоторого подмножества
коалиций
из разбиения Δ. Характеристическая функция V Δ(t0 ) =
V Δ(t0 ) K̆, xK̆ (t), T − t для коалиции K̆ ищется аналогичным образом. Требуется
решить следующую задачу максимизации:
!!
V Δ(t0 ) = V Δ(t0 ) K̆, xK̆ (t), T − t = max HK̆ xK̆ (t), T − t, uK̆ (t) =
⎛
= max ⎝
uK̆
⎛
Kl ⊂K̆
Kl ⊂K̆ t
+
⎞
HKl (xKl (t), T − t, uKl (t))⎠ =
T
= max ⎝
uK̆
uK̆
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] ds +
i∈Kl
⎞
1/2 ⎠
exp [−r(T − t0 )] qi [xi (T )]
.
Kl ⊂K̆ i∈Kl
Динамика развития коалиции K̆ протекает согласно
системе (9). Уравнение Белл
мана для функции V Δ(t0 ) = V Δ(t0 ) K̆, xK̆ (t), T − t принимает такой вид:
Δ(t0 )
−Vt
= max
uK̆
+
Kl ⊂K̆
⎧
⎨
⎩
K̆, xK̆ (t), T − t =
hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
i∈K̆
⎫
⎬
$
%
Δ(t )
K̆
x
VKl 0 K̆, xK̆ (t), T − t fK
(t),
u
(t)
,
K̆
K̆
l
⎭
(15)
49
V Δ(t0 ) K̆, xK̆ (T ), T =
exp [−r(T − t0 )] qi [xi (T )]12 .
i∈K̆
Здесь
K̆, xK̆ (t), T − t =
1
2
Δ(t )
0)
= gradVKl 0 K̆, xK̆ (t), T − t = VxΔ(t
K̆,
x
(t),
T
−
t
K̆
i
Δ(t0 )
VKl
$
% 1 K̆ $
%2
K̆
x
x
(t),
u
(t)
=
f
(t),
u
(t)
fK
K
i
i
l
K̆
K̆
l
Δ(t0 )
Выражение VKl
i∈Kl
,
i∈Kl
= {ẋi (t)}i∈Kl , Kl ⊂ K̆.
$
%
K̆
K̆, xK̆ (t), T − t fK
xK̆ (t), uKl (t) можно переписать как сумму:
l
Δ(t0 )
VKl
=
$
%
K̆
K̆, xK̆ (t), T − t fK
xK̆ (t), uKl (t) =
l
$
%
0)
K̆, xK̆ (t), T − t fiK̆ xK̆ (t), ui (t) .
VxΔ(t
i
(16)
i∈Kl
Подставив (16) в (15), имеем
Δ(t0 )
−Vt
= max
uK̆
+
⎧
⎨
⎩
K̆, xK̆ (t), T − t =
hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
i∈K̆
$
K̆
0)
K̆, xK̆ (t), T − t fi
VxΔ(t
i
i∈K̆
⎫
%⎬
xK̆ (t), ui (t) ,
⎭
(17)
V Δ(t0 ) K̆, xK̆ (T ), T =
exp [−r(T − t0 )] qi [xi (T )]1/2 .
i∈K̆
Беря частные производные по величинам {ui }i∈K̆ от выражения под знаком max
и приравнивая их нулю, выводим формулы для оптимальных управлений
ui =
#2
α2i " Δ(t0 ) V
K̆,
x
(t),
T
−
t
exp
[r(t
−
t
)]
xi ,
0
K̆
4(ci )2 xi
i ∈ K̆.
Подставляя (18) в (17) и решая полученное уравнение, находим
⎡
⎤
1/2
AK̆
+ C K̆ (t)⎦ exp [−r(t − t0 )] .
V Δ(t0 ) K̆, xK̆ (t), T − t = ⎣
i (t) [xi (t)]
i∈K̆
1
2
Здесь AK̆
i (t)
и C K̆ (t) являются решением дифференциальных уравнений
i∈K̆
ȦK̆
i (t)
50
δ
AK̆
= r+
i (t) −
2
j∈K̆,j=i
[i,j]
bj
AK̆
j (t) − Pi ,
2
(18)
Ċ K̆ (t) = rC K̆ (t) −
α2
i
AK̆ (t),
16ci i
i∈K̆
AK̆
i (T ) = qi ,
C K̆ (T ) = 0,
i ∈ K̆.
Таким образом, характеристическая функция V Δ(t0 ) K̆, xK̆ (t), T − t совпадает
!
с функцией Беллмана W (t0 )K̆ t, xK̆ (t) . Запишем оптимальные управления для коалиции K̆:
,
α2i " K̆ #2
∗
∗
uK̆ (t) = {ui (t)}i∈K̆ =
Ai (t)
.
(19)
16(ci )2
i∈K̆
Динамика развития коалиции принимает вид
ẋ∗i (s) =
α2i K̆
1/2
A (s) [x∗i (s)] +
4ci i
x∗i (t0 ) = x0i ,
[j,i]
bj
[x∗j (s)x∗i (s)]1/2 − δx∗i (s),
(20)
j∈K̆,j=i
i ∈ K̆,
s ∈ [t0 , T ].
Супераддитивность характеристической функции V Δ(t0 ) K̆, xK̆ (t), T − t .
Характеристическая функция V Δ(t0 ) K̆, xK̆ (t), T − t определяется следующим образом:
V Δ(t0 ) (K, xK (t), T − t) =
⎧
⎨
0,
K = ∅,
W (t0 )Kl (t, xKl (t)) , K = Kl ⊂ Δ,
!
⎩
W (t0 )K̆ t, xK̆ (t) , K = K̆ ⊆ Δ.
(21)
Следует установить супераддитивность функции V Δ(t0 ) (K, xK (t), T − t).
Определение. Функция V Δ(t0 ) (K, xK (t), T − t) является супераддитивной, если
для любых коалиций K̆, L̆ ⊂ Δ, K̆ ∩ L̆ = ∅ выполняется условие
3
V Δ(t0 ) K̆
L̆, xK̆ + L̆ (t), T − t V Δ(t0 ) K̆, xK̆ (t), T − t + V Δ(t0 ) L̆, xL̆ (t), T − t .
Учитывая (21), если функция W (t0 )K (t, xK (t)) супераддитивная, то из нее очевидным образом следует супераддитивность функции V Δ(t0 ) (K, xK (t), T − t).
Покажем супераддитивность функции W (t0 )K (t, xK (t)) для любой коалиции L ⊆
K. Для начала приведем без доказательства теорему о сравнении решений [5].
Теорема 1. Пусть даны две задачи Коши:
ẏ1 (t) = f1 (t, y1 (t)) ,
y1 (t0 ) = y10 ,
ẏ2 (t) = f2 (t, y2 (t)) ,
y2 (t0 ) = y20 .
Для каждой задачи выполняются условия существования и единственности решения и, кроме того, условие f1 (t, u(t)) f2 (t, u(t)) | ∀ (t, u(t)) .
Тогда, если y10 y20 , то при всех t t0 выполняется
y1 (t, t0 , y10 ) y2 (t, t0 , y20 ).
Теперь можно доказать супераддитивность функции W (t0 )K (t, xK (t)).
51
Теорема 2. Функция W (t0 )K (t, xK (t)), задаваемая формулой (5), является супераддитивной.
Д о к а з а т е л ь с т в о т е о р е м ы 2. Рассмотрим две коалиции S1 , S2 ⊂
N , S1 ∩ S2 = ∅ и их объединение S1 ∪ S2 . Функция W (t0 )K (t, xK (t)) для каждой
из коалиций принимает следующий вид:
W (t0 )S1 ∪S2 (t, xS1 ∪S2 (t)) =
⎛
= max ⎝
uS1 ∪S2
T "
#
12
Pi [xi (s)] − ci ui (s) exp [−r(s − t0 )] ds +
i∈S1 ∪S2 t
+
12
exp [−r(T − t0 )] qi [xi (T )]
,
i∈S1 ∪S2
⎛
W (t0 )S1 (t, xS1 (t)) = max ⎝
uS1
+
T
#
"
Pi [xi (s)]12 − ci ui (s) exp [−r(s − t0 )] ds +
i∈S1 t
12
exp [−r(T − t0 )] qi [xi (T )]
,
i∈S1
⎛
W
(t0 )S2
(t, xS2 (t)) = max ⎝
uS1
+
T
#
"
12
Pi [xi (s)] − ci ui (s) exp [−r(s − t0 )] ds +
i∈S1 t
1/2
exp [−r(T − t0 )] qi [xi (T )]
.
i∈S1
При этом уравнения движений для каждой из коалиций имеют вид
ẋi (s) = fiS1 ∪S2 [s, xS1 ∪S2 (s), ui (s)] = αi [ui (s)xi (s)]1/2 +
[j,i]
+
bj [xj (s)xi (s)]1/2 − δxi (s),
(22)
j∈S1 ∪S2 , j=i
xi (t0 ) = x0i ,
i ∈ S1 ∪ S2 ,
s ∈ [t0 , T ],
ẋi (s) = fiS1 [s, xS1 (s), ui (s)] = αi [ui (s)xi (s)]
[j,i]
bj [xj (s)xi (s)]1/2 − δxi (s),
+
1/2
+
(23)
j∈S1 , j=i
xi (t0 ) = x0i ,
i ∈ S1 ,
s ∈ [t0 , T ],
ẋi (s) = fiS2 [s, xS2 (s), ui (s)] = αi [ui (s)xi (s)]1/2 +
[j,i]
bj [xj (s)xi (s)]1/2 − δxi (s),
+
j∈S2 , j=i
xi (t0 ) = x0i ,
52
i ∈ S2 ,
s ∈ [t0 , T ].
(24)
Из условия xi (s) > 0 для ∀i ∈ N следует, что для любых ui
fiS1 ∪S2 [s, xS1 ∪S2 (s), ui (s)] fiS1 [s, xS1 (s), ui (s)] ,
fiS1 ∪S2
[s, xS1 ∪S2 (s), ui (s)] i ∈ S1 ,
i ∈ S2 .
2
1
,
Обозначим решения уравнений (22)–(24) соответственно через xSi 1 ∪S2 (s)
i∈S1 ∪S2
1
2
1
2
xSi 1 (s)
и xSi 2 (s)
.
i∈S1
[s, xS2 (s), ui (s)] ,
fiS2
i∈S2
Учитывая теорему 1, получаем, что для любых допустимых ui (s) уровень технологии фирмы xSi 1 ∪S2 (s) xSi 1 (s), i ∈ S1 , и xSi 1 ∪S2 (s) xSi 2 (s), i ∈ S2 .
Из формулы выигрыша предприятия (2) находим, что для любого допустимого
ui (s) выигрыш фирмы Hi (xi (t), T − t, ui ) в коалиции S1 ∪ S2 больше, чем выигрыш
той же фирмы в коалиции S1 или S2 :
Hi xSi 1 ∪S2 (t), T − t, ui (t) Hi xSi 1 (t), T − t, ui (t) , i ∈ S1 ,
Hi xSi 1 ∪S2 (t), T − t, ui (t) Hi xSi 2 (t), T − t, ui (t) , i ∈ S2 .
Просуммировав выигрыши фирм по коалициям, имеем
Hi xSi 1 ∪S2 (t), T − t, ui (t) Hi xSi 1 (t), T − t, ui (t) ,
i∈S1
Hi
i∈S1
xSi 1 ∪S2 (t), T
i∈S2
Обозначим через
− t, ui (t) Hi xSi 2 (t), T − t, ui (t) .
2
1
uSi 1 (s)
(25)
i∈S2
1
2
uSi 2 (s)
и
i∈S1
управления, максимизирующие
i∈S2
суммы выигрышей в коалиции S1 и S2 . Подставляя их в (25), получаем
Hi xSi 1 ∪S2 (t), T − t, uSi 1 (t) Hi xSi 1 (t), T − t, uSi 1 (t) ,
i∈S1
Hi
xSi 1 ∪S2 (t), T
−
i∈S1
t, uSi 2 (t)
i∈S2
Hi xSi 2 (t), T − t, uSi 2 (t) .
(26)
i∈S2
Сложив неравенства (26), находим
Hi xSi 1 ∪S2 (t), T − t, uSi 1 (t) +
Hi xSi 1 ∪S2 (t), T − t, uSi 2 (t) i∈S1
Hi
i∈S2
xSi 1 (t), T
−
t, uSi 1 (t)
i∈S1
2
1
Обозначив через uSi 1 ∪S2
+
i∈S2
i∈S1 ∪S2 (s)
управления, максимизирующие суммы вы-
игрышей в коалиции S1 ∪ S2 , получаем
Hi
xSi 1 ∪S2 (t), T − t, uSi 1 ∪S2 (t) =
i∈S1 ∪S2
Hi xSi 2 (t), T − t, uSi 2 (t) .
&
max
ui ,i∈S1 ∪S2
Hi xSi 1 ∪S2 (t), T − t, ui (t)
'
i∈S1 ∪S2
Hi xSi 1 ∪S2 (t), T − t, uSi 1 (t) +
Hi xSi 1 ∪S2 (t), T − t, uSi 2 (t) i∈S1
i∈S2
53
&
= max
ui ,i∈S1
Hi xSi 1 (t), T − t, uSi 1 (t) +
Hi xSi 2 (t), T − t, uSi 2 (t) =
i∈S1
Hi
'
xSi 1 (t), T − t, ui (t)
+ max
&
ui ,i∈S2
i∈S1
По определению
&
max
ui ,i∈S1 ∪S2
i∈S2
'
Hi xSi 2 (t), T − t, ui (t)
. (27)
i∈S2
Hi xSi 1 ∪S2 (t), T − t, ui (t)
'
= W (t0 )S1 ∪S2 (t, xS1 ∪S2 (t)) ,
i∈S1 ∪S2
&
max
ui ,i∈S1
&
max
ui ,i∈S2
Hi xSi 1 (t), T − t, ui (t)
i∈S1
Hi xSi 2 (t), T − t, ui (t)
'
= W (t0 )S1 (t, xS1 (t)) ,
(28)
'
= W (t0 )S2 (t, xS2 (t)) .
i∈S2
Подставив (28) в (27), имеем
W (t0 )S1 ∪S2 (t, xS1 ∪S2 (t)) W (t0 )S1 (t, xS1 (t)) + W (t0 )S2 (t, xS2 (t)) ,
что и требовалось доказать.
Супераддитивность функции V Δ(t0 ) (K, xK (t), T − t) очевидным образом вытекает из супераддитивности функции W (t0 )K (t, xK (t)).
Процедура распределения прибыли в технологическом альянсе коалиций. Будем предполагать, что участники технологического альянса коалиций делят
полученный выигрыш в соответствии с динамическим вектором Шепли (см. [6]). Отметим, что рассчитывается не доля каждой отдельной фирмы, а доля каждой коалиции Kl ⊂ Δ. Формула для компоненты вектора Шепли принимает следующий вид:
νKl (V ) =
#
(k − 1)!(m − k)! "
V (K̆) − V (K̆ \ Kl ) .
m!
(29)
K̆⊆Δ
+
+ +
Здесь K̆ = Kl1 Kl2 ... Klk − объединение некоторого подмножества коалиций
из разбиения Δ, Klξ , ξ = 1, ..., k, k − число коалиций-участников игры, входящих
в коалицию K̆.
Чтобы максимизировать доход технологического альянса, игроки на промежутке
[t0 , T ] будут применять набор кооперативных управлений в соответствии с формулой
(19) и реализовывать соответствующие оптимальные траектории (20) для случая K̆ =
Δ. Предполагается, что для дележа совместного дохода игроки будут использовать
вектор Шепли, компоненты которого вычисляются по формуле (29). В начальный
момент времени t0 доля кооперативной прибыли коалиции Kl будет равна
(t )
νK0l
=
!
t0 , x0N =
#
(k − 1)!(m − k)! "
V Δ(t0 ) K̆, x0K̆ , T − t0 − V Δ(t0 ) K̆ \ Kl , x0K̆\K , T − t0 .
l
m!
K̆⊆Δ
(30)
54
!
Учитывая, что V Δ(t0 ) K̆, xK̆ (t), T − t = W (t0 )K̆ t, xK̆ (t) , можно переписать
(30) в следующем виде:
#
(k − 1)!(m − k)! "
!
!
W (t0 )K̆ t0 , x0K̆ − W (t0 )K̆\Kl t0 , x0K̆\K
. (31)
t0 , x0N =
l
m!
(t )
νK0l
K̆⊆Δ
Вектор Шепли должен поддерживаться в течение всего времени игры. Это означает, что в каждый момент времени t ∈ [t0 , T ] должно выполняться равенство
#
(k − 1)!(m − k)! "
!
W (t0 )K̆ t, x∗K̆ (t) − W (t0 )K̆\Kl t, x∗K̆\K (t) .
l
m!
(t )
νK0l (t, x∗N (t)) =
K̆⊆Δ
Для реализации динамического вектора Шепли, чтобы компенсировать переходные изменения, необходимо определить процедуру распределения дележа (см. [7]) как
T
функцию BΔ (t) = {BKl (t)}t=t0 , такую, что
(t )
νK0l
t0 , x0N
!
T
=
BKl (s) exp [−r(s − t0 )] ds + exp [−r(T − t0 )]
qi [x∗i (T )]1/2 . (32)
i∈Kl
t0
Функция BKl (t) представляет собой мгновенный платеж, получаемый участникомкоалицией Kl в момент t.
Чтобы вектор Шепли поддерживался на всем протяжении игры, необходимо,
чтобы в каждый момент выполнялось равенство
(t )
νK0l
(t, x∗N (t))
T
=
BKl (s) exp [−r(s − t0 )] ds + exp [−r(T − t0 )]
1/2
qi [x∗i (T )]
.
i∈Kl
t
(33)
Из (32) и (33) получаем, что
(t )
νK0l
t0 , x0N
!
t
=
(t )
BKl (s) exp [−r(s − t0 )] ds + νK0l (t, x∗N (t)) .
t0
Последнее условие означает временную состоятельность или динамическую устойчивость [7, 8] решения относительно коалиций-участников {Kl }. Но необходимо также показать динамическую устойчивость решения относительно каждой отдельной
фирмы. Это будет сделано ниже.
Отметим, что в каждый момент s ∈ [t0 , T ] происходит только перераспределение
совместной прибыли, поэтому сумма мгновенных доходов игроков не меняется:
#
"
Pi [x∗i (s)]1/2 − ci u∗i (s) .
BKl (s) =
hi (s, x∗i (s), u∗i (s)) =
Kl ⊂Δ
Kl ⊂Δ i∈Kl
Kl ⊂Δ i∈Kl
В данном случае функция BKl (s) имеет вид
#
(k − 1)!(m − k)! 1" (s)K̆
!
(s)K̆\Kl
Wt
s, x∗K̆\K (s) +
s, x∗K̆ (s) − Wt
BKl (s) =
l
m!
K̆⊆Δ
55
+
"
!# N $ ∗
%
K̆
∗
Wx(s)
s,
x
(s)
fj xN (s), u∗j (s) −
j
K̆
j∈K̆
−
⎫
⎬
#
"
K̆\Kl
∗
N
∗
∗
Wx(s)
s,
x
(s)
f
[x
(s),
u
(s)]
.
h
N
h
h
K̆\Kl
⎭
h∈K̆\Kl
Распределение
прибыли внутри коалиции Kl . Выигрыш, полученный в иг!
ре ΓΔ x0 , T − t0 , коалиция Kl делит между своими фирмами-участниками. Необходимо вычислить долю каждой фирмы от такого выигрыша. Будем считать, что внутри коалиции Kl фирмы действуют кооперативно. В качестве дележа используется
также динамический вектор
Шепли. Это означает, что можно определить кооператив!
ную игру ΓKl x0 , T − t0 , в которой Kl – множество игроков, а V (t0 )Kl (L, xL (t), T − t),
где L ⊆ Kl , – характеристическая функция, рассчитанная в предположении, что
игроки, не входящие в коалицию Kl , применяют свои оптимальные коалиционные
стратегии, а игроки,
не входящие в L, – свои равновесные по Нэшу стратегии в игре
!
ΓKl x0 , T − t0 .
Для вычисления доли дохода каждой фирмы i! ∈ Kl необходимо найти значение
характеристической функции в игре ΓKl x0 , T − t0 и определить процедуру распределения прибыли.
Вычисление значения характеристической функции в игре ΓKl x0 , T −
t0 ). Характеристическую функцию будем искать следующим образом. Вначале вычислим характеристическую функцию для всей коалиции Kl , затем для одной фирмы i ∈ Kl и для произвольной коалиции K ⊂ Kl . При расчете характеристической
функции для !коалиции Kl необходимо учитывать, что она участвует в игре коалиций
ΓΔ x0 , T − t0 и поэтому получает больше прибыли, чем играя самостоятельно. Поскольку любая подкоалиция K ⊂ Kl не включена в разбиение Δ, то можно считать,
что она не имеет тех бонусов, какие доступны для коалиции Kl , и для нее характеристическая функция будет строиться без учета игры коалиций.
Вычисление значения характеристической функции для коалиции Kl .
Значение характеристической функции V = V Kl (t0 ) (Kl , xKl (t), T − t) должно равняться максимальному выигрышу, который возможен для коалиции Kl . Если бы
коалиция играла самостоятельно,
ее максимальный выигрыш был бы равен функ!
ции W (t0 )Kl t, x∗Kl (t) , определяемой формулой (11). Эта функция определяет максимальный выигрыш
коалиции Kl при самостоятельном развитии в игре коалиций
!
ΓΔ x0 , T − t0 . Но поскольку коалиции объединены в технологический альянс, то
в результате распределения прибыли на верхнем уровне каждая коалиция Kl полу(t )
чает долю дохода, равную компоненте вектора Шепли νK0l (t, x∗N (t)), которая вычисляется по формуле (31). В силу индивидуальной рациональности вектора Шеп!
(t )
ли νK0l (t, x∗N (t)) W (t0 )Kl t, x∗Kl (t) , прибыль коалиции оказывается выше, чем
при самостоятельном развитии.
Следовательно, характеристическая функция V =
!
!
V Kl (t0 ) Kl , x∗Kl (t), T − t будет равна выигрышу коалиции Kl в игре ΓΔ x0 , T − t0 ,
т. е. компоненте вектора Шепли:
!
(t )
V Kl (t0 ) Kl , x∗Kl (t), T − t = νK0l (t, x∗N (t)) .
Вычисление значения характеристической функции для отдельной
фирмы i ∈ Kl . Для одной фирмы i ∈ Kl характеристическая функция
будет рав!
на значению выигрыша в равновесии по Нэшу в игре ΓKl x0 , T − t0 . Отметим, что
56
поскольку фирмы не влияют на развитие друг друга, не находясь в кооперации, то
равновесие по Нэшу в данной игре переходит в задачу максимизации выигрыша каждой фирмы. Для того чтобы определить максимальный выигрыш фирмы, требуется
решить систему задач оптимизации
V Kl (t0 ) (i, xi (t), T − t) = max (Hi (xi (t), T − t, ui )) =
ui
⎛ T
= max ⎝ hi (s, xi (s), ui (s)) exp [−r(s − t0 )] +
ui
t
1/2
+ exp [−r(T − t0 )] qi [xi (T )]
,
i ∈ Kl .
При этом уравнение динамики фирмы i задается уравнением (1). Требуется найти
функции V Kl (t0 ) (i, xi (t), T − t), которые удовлетворяют системе уравнений Беллмана:
Kl (t0 )
−Vt
(i, xi (t), T − t) = max {hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
ui
2
+ VxKi l (t0 ) (i, xi (t), T − t) fi [xi (t), ui (t)] ,
(34)
12
V Kl (t0 ) (i, xi (T ), T ) = exp [−r(T − t0 )] qi [xi (T )]
"
#
hi (t, xi (t), ui (t)) = Pi [xi (t)]1/2 − ci ui (t) ,
,
fi [xi (t), ui (t)] = αi [ui (s)xi (s)]1/2 − δxi (s).
Проводя максимизацию по управлению ui , получаем выражение
ui (t) =
#2
α2i " Kl (t0 )
V
(i,
x
(t),
T
−
t)
exp
[r(t
−
t
)]
xi (t).
i
0
4(ci )2 xi
Подставив его в (34) и решив новое уравнение в частных производных, имеем
"
#
{i}
1/2
V Kl (t0 ) (i, xi (t), T − t) = Ai (t) [xi (t)] + C {i} (t) exp [−r(t − t0 )] .
(35)
{i}
Величины Ai (t) и C {i} (t) являются решением дифференциальных уравнений
δ
{i}
{i}
Ai (t) − Pi ,
Ȧi (t) = r +
2
Ċ {i} (t) = rC {i} (t) −
{i}
Ai (T ) = qi ,
α2i {i}
A (t),
16ci i
C {i} (T ) = 0.
Легко убедиться, что выражение (35) совпадает с функцией W (t0 )i (t, xi (t)), опре-!
деляющей максимальный гарантированный выигрыш фирмы в игре Γ x0 , T − t0
между фирмами, описанной в [2]. Вычислив формулы частных производных, получаем формулу оптимальной стратегии фирмы i
l
uK
i (t) =
α2i " {i} #2
Ai (t) ,
16(ci )2
i ∈ Kl .
57
!
Таким образом, оптимальная стратегия для
фирмы i в игре ΓΔ x0 , T − t0 равна
!
ее оптимальной стратегии в игре Γ x0 , T − t0 .
Вычисление значения характеристической функции для произвольной коалиции L ⊂ Kl . Определим теперь характеристическую функцию для произвольной коалиции L ⊂ Kl . Функция V Kl (t0 ) (L, xL (t), T − t) находится посредством
решения следующей задачи оптимизации:
V Kl (t0 ) (L, xL (t), T − t) =
Hi (xi (t), T − t, ui (t)) =
= max (HL (xL (t), T − t, uL (t))) = max
uL
uL
i∈L
⎛
T
hi (s, xi (s), ui (s)) exp [−r(s − t0 )] +
= max ⎝
uL
+
i∈L t
1/2
exp [−r(T − t0 )] qi [xi (T )]
,
L ⊆ Kl .
i∈L
Функция V Kl (t0 ) (L, xL (t), T − t) удовлетворяет уравнению Беллмана
Kl (t0 )
&
= max
uL
+
−Vt
(L, xL (t), T − t) =
hi (t, xi (t), ui (t)) exp [−r(t − t0 )] +
i∈L
'
VxKi l (t0 ) (L, xL (t), T − t) fiL [xL (t), ui (t)] ,
i∈L
! 1/2
exp [−r(T − t0 )] qi [xi (T )] ,
V Kl (t0 ) L, x0N , T =
i∈L
"
#
hi (t, xi (t), ui (t)) = Pi [xi (t)]1/2 − ci ui (t) ,
[j,i]
1/2
bj [xj (s)xi (s)]1/2 − δxi (s).
fiL [xL (t), ui (t)] = αi [ui (s)xi (s)] +
j∈L, j=i
Используя аналогичную технику, приведенную ранее, получаем
(
)
1/2
Kl (t0 )
L
L
(L, xL (t), T − t) =
Ai (t) [xi (t)] + C (t) exp [−r(t − t0 )] .
V
i∈L
L
Величины AL
i (t) и C (t) являются решением дифференциальных уравнений
ȦL
i (t)
=
δ
r+
2
AL
i (t)
−
Ċ L (t) = rC l (t) −
j∈L,j=i
α2
i
AL (t),
16ci i
i∈L
58
[i,j]
bj
AL
j (t) − Pi ,
2
AL
i (T ) = qi ,
C L (T ) = 0,
i ∈ L.
Из уравнений выше находим формулы частных производных
(
)
Kl (t0 )
1/2
L
L
Vt
(L, xL (t), T − t) =
Ȧi (t) [xi (t)] + Ċ (t) −
−r
(
i∈L
1/2
AL
i (t) [xi (t)]
)
+ C L (t)
exp [−r(t − t0 )] ,
i∈L
1 L
−1/2
A (t) [xi (t)]
exp [−r(t − t0 )] .
2 i
Как легко убедиться, характеристическая функция V Kl (t0 ) (L, xL (t), T − t) совпадает в данном случае с функцией W (t0 )L (t, xL (t)), определяющей максимальный
выигрыш коалиции L! в игре фирм [2]. Таким образом, характеристическая функция
в игре ΓKl x0 , T − t0 имеет следующий вид:
⎧
0,
K = ∅,
⎪
⎪
⎨
(t0 )
νKl (t, xN (t)) ,
K = Kl ,
V Kl (t0 ) (K, xK (t), T − t) =
(36)
⎪
W (t0 )i (t, xi (t)) , K = {i} ∈ Kl ,
⎪
⎩
W (t0 )L (t, xL (t)) , K = L ⊂ Kl .
!
Супераддитивность функции ΓKl x0 , T − t0 очевидным образом вытекает
из супераддитивности функции W (t0 )L (t, xL (t)) (теорема 2), а также из условия
!
(t )
νK0l (t, x∗N (t)) W (t0 )Kl t, x∗Kl (t) .
!
Распределение прибыли в игре
ΓKl x0 , T − t0 . Определив характеристиче!
скую функцию в игре ΓKl x0 , T − t0 , введем процедуру распределения совместной
прибыли. В качестве дележа полученной прибыли коалиции
K будем вновь прини! 1 (t0 )Kl l 0 !2
(t0 )Kl
0
мать динамический вектор Шепли ν
t0 , xKl = νi
t0 , xKl
.
i∈Kl !
Поскольку коалиция Kl участвует в игре коалиций ΓΔ x0 , T − t0 , то ее
!
участники-коалиции будут максимизировать совместный выигрыш W (t0 )N t0 , x0N ,
используя набор оптимальных управлений {u∗i (t)}i∈N , полученных по формуле (19),
на промежутке [t0 , T ] и реализовывать соответствующие оптимальные траектории
для случая K̆ = Δ.
В начальный момент времени t0 доля кооперативной прибыли фирмы i ∈ Kl
будет равна
(k − 1)!(kl − k)! "
!
!
(t )K
V Kl (t0 ) K, x0K , T − t0 −
νi 0 l t0 , x0Kl =
kl !
VxKi l (t0 ) (L, xL (t), T − t) =
K⊆Kl
#
− V Kl (t0 ) K \ i, x0K\i , T − t0 .
Здесь kl = |Kl | − число участников коалиции Kl .
Вектор Шепли должен поддерживаться на протяжении всей игры. В момент времени t ∈ [t0 , T ] в состоянии x∗Kl (t) ∈ x∗N (t) для фирмы i ∈ Kl должен быть обеспечен
соответствующий принцип распределения дележа:
(k − 1)!(kl − k)! "
!
(t )K
νi 0 l t, x∗Kl (t) =
V Kl (t0 ) (K, x∗K (t), T − t) −
kl !
K⊆Kl
59
#
− V Kl (t0 ) K \ i, x∗K\i (t), T − t .
Учитывая (36), можно переписать формулу для компонент вектора Шепли в следующем виде:
(k − 1)!(kl − k)! "
!
(t )K
W (t0 )K (t, x∗K (t)) −
νi 0 l t, x∗Kl (t) =
kl !
K⊂Kl
#
#
!
1 " (t0 )
(t0 )K\i
∗
t, xK\i (t) +
νKl t, x∗Kl (t) − W (t0 )Kl \i t, x∗Kl \i (t) .
−W
kl
Для реализации динамического вектора Шепли необходимо в каждый момент
времени выполнять перераспределение совместной прибыли. Определим процедуру
1
2T
распределения дележа [7], как функцию B Kl (t) = BiKl (t)
, такую, что
t=t0
(t )K
νi 0 l
t0 , x0Kl
!
T
=
1/2
BiKl (s) exp [−r(s − t0 )] ds + exp [−r(T − t0 )] qi [x∗i (T )]
.
(37)
t0
Функция BiKl (s) представляет собой мгновенный платеж, получаемый фирмой i ∈ Kl
в момент s ∈ [t0 , T ]. Для того чтобы вектор Шепли поддерживался внутри коалиции,
в каждый момент должно выполняться равенство
(t )K
νi 0 l
!
t, x∗Kl (t)
T
=
1/2
BiKl (s) exp [−r(s − t0 )] ds + exp [−r(T − t0 )] qi [x∗i (T )]
. (38)
t
Из (37) и (38) получаем, что
(t )K
νi 0 l
t0 , x0Kl
!
t
=
(t0 )Kl
BiKl (s) exp [−r(s − t0 )] ds + νi
!
t, x∗Kl (t) .
t0
Формула BiKl (t) определяется из производной компонента вектора Шеп!
(t )K
ли νi 0 l t0 , x0Kl . Необходимо учитывать, что характеристическая функция
(t )
V Kl (t0 ) (Kl , xKl (t), T − t) равна компоненте вектора Шепли νK0l (t, x∗N (t)) в игре коа!
лиций ΓΔ x0 , T − t0 , которая зависит от состояний всех участников разбиения
!
(t )K
Δ. Следовательно, частные производные компонент νi 0 l t, x∗Kl (t) по состояниям
фирм j ∈ Kl будут отличаться от нуля.
В общем случае функция BiKl (s) принимает вид
BiKl (s) = −
(k − 1)!(kl − k)! 1" (s)K
Wt
(s, x∗K (s)) −
kl !
K⊂Kl
# "
#
$
%
(s)K\i
∗
− Wt
s, x∗K\i (s) +
Wx(s)K
(s,
x
(s))
fjN x∗N (s), u∗j (s) −
K
j
j∈K
⎫
⎬
#
"
∗
N
∗
∗
−
Wx(s)K\i
s,
x
(s)
f
[x
(s),
u
(s)]
+
h
N
h
K\i
h
⎭
h∈K\i
60
+
1 1" (t0 ) #
(s)Kl \i
νK l
s, x∗Kl \i (s) +
(s, x∗N (s)) − Wt
kl
t
" (t ) #
$
%
+
νK0l
(s, x∗N (s)) fjN x∗N (s), u∗j (s) −
xj
j∈N
⎫
⎬
#
"
∗
N
∗
∗
l \i
Wx(s)K
s,
x
−
(s)
f
[x
(s),
u
(s)]
.
h
N
h
Kl \i
h
⎭
h∈N \i
Динамическая устойчивость технологического альянса коалиций. Для
доказательства динамической устойчивости построенного коалиционного решения
необходимо показать, что в каждый момент происходит только перераспределение
прибыли между всеми фирмами i ∈ N , а общая сумма мгновенной прибыли остается
неизменной, т. е. требуется доказать равенство
K
Bi l (s) =
Kl ⊂Δ i∈Kl
=
hi (s, x∗i (s), u∗i (s)) =
Kl ⊂Δ i∈Kl
#
"
1/2
Pi [x∗i (s)] − ci u∗i (s) . (39)
Kl ⊂Δ i∈Kl
Ранее уже было установлено, что в каждый момент времени происходит
! перераспределение прибыли между коалициями-участниками игры ΓΔ x0 , T − t0 . Следовательно, равенство (39) можно переписать следующим образом:
K
Bi l (s) =
BKl (s).
Kl ⊂Δ i∈Kl
Kl ⊂Δ
Данное равенство очевидно, если показать, что
i∈Kl
BiKl (s) = BKl (s) для любой
коалиции-участника Kl ⊂ Δ.
Суммируя компоненты BiKl (s), легко установить, что
⎛
⎞
#
"
K
" (t ) #
$
%
(t
)
νK0l
Bi l (s) = − ⎝ νK0l
(s, x∗N (s)) +
(s, x∗N (s)) fjN x∗N (s), u∗j (s) ⎠ .
t
i∈Kl
j∈N
xj
(t )
Правая часть этого равенства представляет собой полную производную νK0l (t, x∗N (t))
по t с обратным знаком, которая по определению равна BKl (s). Таким образом, полученное коалиционное решение будет динамически устойчивым.
Численный пример. Приведем численные результаты на примере трех фирм.
На множестве фирм N = {1, 2, 3} задано разбиение Δ = {{1, 2}, {3}}, состоящее
из двух коалиций. Заданы начальные параметры: t0 = 0; T = 20; r = 0.1; δ = 0.2;
[j,i]
P1 = 0.6; P2 = 0.3; P3 = 0.15; ci = 0.5; αi = 0.3; bj = 0.05; qi = 0.1; i, j ∈ N .
В табл. 1 представлены прибыли коалиций и их суммы в произвольно выбранные
моменты времени до и после ее перераспределения. Значения прибылей до и после
перераспределения различны, но сумма не меняется.
Таблица 1. Прибыли коалиций до и после перераспределения и их суммы
t
0
5
10
h{1.2} (t)
–0.04031
0.85579
1.51064
h{3} (t)
0.02488
0.09914
0.16949
h{1.2} (t) + h{3} (t)
–0.01543
0.95493
1.68013
B{1.2} (t)
–0.07842
0.81135
1.46475
B{3} (t)
0.06299
0.14358
0.21538
B{1.2} (t) + B{3} (t)
–0.01543
0.95493
1.68013
61
В табл. 2 приведена прибыль фирм 1 и 2 в коалиции {1, 2} в произвольно выбранные моменты времени. В каждый момент сумма прибылей фирм равна прибыли
коалиции.
Таблица 2. Прибыли фирм 1 и 2 в коалиции {1,2} и их сумма
t
0
5
10
{1.2}
B1
(t)
–0.12022
0.55274
1.03134
{1.2}
B2
0.04180
0.25861
0.43341
{1.2}
B1
{1.2}
(t) + B2
–0.07842
0.81135
1.46475
(t)
B{1.2} (t)
–0.07842
0.81135
1.46475
Заключение. В данной статье представлена модель двухуровневой кооперации
в игре технологического альянса. Построено кооперативное решение и доказана его
динамическая устойчивость. На каждом уровне кооперации поcтроена своя процедура
распределения прибыли. Результаты подтверждены численными примерами. Представленные выводы могут быть применены в экономике и менеджменте.
Литература
1. Костюнин С. Ю., Шевкопляс Е. В. Об упрощении интегрального выигрыша в дифференциальных играх со случайной продолжительностью // Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная
математика, информатика, процессы управления. 2011. Вып. 4. С. 47–56.
2. Yeung D. W. K., Petrosyan L. A. Cooperative Stochastic Differential Games. New York: Springer,
2006. 253 p.
3. Петросян Л. А., Козловская Н. В., Ильина А. В. Коалиционное решение в задаче сокращения
выбросов // Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы
управления. 2010. Вып. 2. С. 46–59.
4. Петросян Л. А., Седаков А. А., Сюрин А. Н. Многошаговые игры с коалиционной структурой
// Вестн. С.-Петерб. ун-та. Сер. 10: Прикладная математика, информатика, процессы управления.
2006. Вып. 4. С. 97–110.
5. Денисов А. М., Разгулин А. В. Обыкновенные дифференциальные уравнения: пособие для
студентов 2-го курса. М.: Изд-во Моск. ун-та, 2008. 70 c.
6. Petrosyan L. A., Zaccour G. Time-consistent Shapley value allocation of pollution cost reduction
// Journal of economic dynamics and control. 2003. Vol. 27, N 3. P. 381–398.
7. Петросян Л. А. Устойчивость решений в дифференциальных играх со многими участниками
// Вестн. Ленингр. ун-та. 1977. № 19. С. 46–52.
8. Зенкевич Н. А., Петросян Л. А. Проблема временной состоятельности кооперативных решений в менеджменте // Вестн. С.-Петерб. ун-та. Сер. 8: Менеджмент. 2007. Вып. 1. С. 7–42.
References
1. Kostyunin S. Y., Shevkoplyas E. V. Ob uproshhenii integral’nogo vyigrysha v differencial’nyh
igrah so sluchajnoj prodolzhitel’nost’ju (On the simplification of the integral gain in differential games
with random duration). Vestn. of St. Petersburg University. Serie 10: Applied mathematics, computer
science, control processes, 2011, issue 4, pp. 47–56.
2. Yeung D. W. K., Petrosyan L. A. Cooperative Stochastic Differential Games. New York: Springer,
2006, 253 p.
3. Petrosyan L. A., Kozlovskaya N. V., Ilyina A. V. Koalicionnoe reshenie v zadache sokrashhenija
vybrosov (Coalition solution for the problem of reducing emissions). Vestn. of St. Petersburg University.
Serie 10: Applied mathematics, computer science, control processes, 2010, issue 2, pp. 46–59.
4. Petrosyan L. A., Sedakov A. A., Syurin A. N. Mnogoshagovye igry s koalicionnoj strukturoj
(Multistage games with coalition structure). Vestn. of St. Petersburg University. Serie 10: Applied
mathematics, computer science, control processes, 2006, issue 4, pp. 97–110.
5. Denisov A. M., Razgulin A. V. Obyknovennye differencial’nye uravnenija (The ordinary differential
equations). Handbook for 2nd year students. Moscow: Publisher Moscow University, 2008, 70 p.
6. Petrosyan L. A., Zaccour G. Time-consistent Shapley value allocation of pollution cost reduction.
Journal of economic dynamics and control, 2003, vol. 27, no. 3, pp. 381–398.
62
7. Petrosyan L. A. Ustojchivost’ reshenij v differencial’nyh igrah so mnogimi uchastnikami (Stability
of solutions of differential games with many participants). Vestn. of St. Leningrad University, 1977,
issue 19, pp. 46–52.
8. Zenkevich N. A, Petrosyan L. A. Problema vremennoj sostojatel’nosti kooperativnyh reshenij
v menedzhmente (The problem of time consistency of cooperative solutions in management). Vestn. of
St. Petersburg University. Serie 8: Management, 2007, issue 1, pp. 7–42.
Статья поступила в редакцию 13 ноября 2014 г.
63
Документ
Категория
Без категории
Просмотров
4
Размер файла
350 Кб
Теги
технологическая, двухуровневая, игре, дифференциальной, альянс, кооперации
1/--страниц
Пожаловаться на содержимое документа