close

Вход

Забыли?

вход по аккаунту

?

2669.Динамические игры и их приложения в менеджменте

код для вставкиСкачать
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Санкт-Петербург
Высшая школа менеджмента
Н. А. Зенкевич, Л. А. Петросян, Д. В. К. Янг
ДИНАМИЧЕСКИЕ ИГРЫ
И ИХ ПРИЛОЖЕНИЯ
В МЕНЕДЖМЕНТЕ
Учебное пособие
Санкт-Петербург
Издательство «Высшая школа менеджмента»
2009
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
ББК 65.050.2
УДК 518.9,517.9,681.3.07
356
Рецензенты:
д-р техн. наук, проф. Д.А.Новиков
Институт проблем управления РАН
д-р физ.-мат. наук, проф. В.В. Мазалов
Директор Института прикладных математических проблем КарНЦ РАН
Печатается по решению Ученого Совета
Высшей школы менеджмента
Санкт-Петербургского государственного университета
Зенкевич Н.А., Петросян Л.А., Янг Д.В.К.
Динамические игры и их приоложения в менеджменте: учеб. пособие /
Н.А.Зенкевич, Л.А. Петросян, Д.В.К. Янг; Высшая школа менеджмента
СПбГУ. — СПб.: Изд-во «Высшая школа менеджмента», 2009.— 417 с.
ISBN 978-5-9924-0026-7
Предлагаемое учебное пособие впервые в мировой и отечественной практике рассматривает наиболее актуальные теоретико-игровые модели конфликтно-управляемых
процессов в менеджменте, развивающихся во времени. Пособие знакомит читателя с
основами теории динамических и дифференциальных игр и их приложениями к проблемам менеджмента. Основанной упор делается на изложении наиболее современныхрезультатов и методов, которые на сегодняшний день не могут быть найдены в учебной и монографической литература, а опубликованы лишь в специальных научных
журналах.
Учебное пособите адресовано в первую очередь студентам и аспирантам школ бизнеса и факультетов прикладной математики, изучающим курс «Теория отраслевой организации», а также научным работникам, специализирующимся в направлении приложений теории игр в менеджменте и социально-экономической сфере.
c
°Зенкевич
Н.В., Петросян Л.А., Янг Д.В.К., 2009
c
°Высшая
школа менеджмента СПбГУ, 2009
ISBN 978-5-9924-0026-7
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Оглавление
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Глава 1. Статические игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
§ 1.1. Игры в нормальной форме . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
§ 1.2. Классификация игр. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
§ 1.3. Стратегии и некооперативное поведение . . . . . . . . . . . . . . . . . . . . 21
§ 1.4. Коалиции и кооперативное поведение . . . . . . . . . . . . . . . . . . . . . . . 23
§ 1.5. Равновесие по Нэшу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
§ 1.6. Решение, оптимальное по Парето . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
§ 1.7. Множество наилучших ответов. Функция реакции . . . . . . . . 31
§ 1.8. Линейная модель дуополии по Курно . . . . . . . . . . . . . . . . . . . . . . . 33
§ 1.9. Недоминируемые и доминирующие стратегии. . . . . . . . . . . . . . .36
§ 1.10. Принцип единогласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
§ 1.11. Сложное равновесие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
§ 1.12. Осторожное поведение. Антагонистические игры . . . . . . . . . . 44
§ 1.13. Кооперативные игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
§ 1.14. C-ядро кооперативной игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
§ 1.15. Условия не пустоты C-ядра . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
§ 1.16. Вектор Шепли. N -ядро. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
Глава 2. Модели поведения в условиях конкуренции. . . . . . . .65
§ 2.1. Оптимальная схема стимулирования менеджера . . . . . . . . . . . . 65
§ 2.2. Двухставочный тариф . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
§ 2.3. Игры с зависимыми множествами стратегий . . . . . . . . . . . . . . . . 74
§ 2.4. Модель устойчивых межрегиональных соглашений . . . . . . . . . 78
§ 2.5. Игры при ограничениях на множество стратегий . . . . . . . . . . . 80
§ 2.6. Многокритериальная игра двух лиц. . . . . . . . . . . . . . . . . . . . . . . . .84
§ 2.7. Кооперативная модель страхования . . . . . . . . . . . . . . . . . . . . . . . . . 93
Глава 3. Динамические игры с полной информацией . . . . . . 111
§ 3.1. Определение динамической игры с полной информацией . . 111
§ 3.2. Равновесие по Нэшу . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
§ 3.3. Основные функциональные уравнения . . . . . . . . . . . . . . . . . . . . . 119
§ 3.4. Построение единственного равновесия по Нэшу. . . . . . . . . . . .122
§ 3.5. Структура множества абсолютных равновесий по Нэшу . . . 128
3
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.6. Индифферентное равновесие в позиционных играх . . . . . . . . 136
§ 3.7. Стратегии наказания и «народные теоремы» . . . . . . . . . . . . . . 141
§ 3.8. Кооперация в многошаговых играх . . . . . . . . . . . . . . . . . . . . . . . . 145
§ 3.9. Кооперативные стохастические игры . . . . . . . . . . . . . . . . . . . . . . . 158
§ 3.10. Марковские игры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
§ 3.11. Динамические игры с переменным коалиционным
разбиением . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
§ 3.12. Алгоритм построения решения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
§ 3.13. Характеристические функции вспомогательных игр . . . . . . 200
§ 3.14. Многошаговая игра выбора правления . . . . . . . . . . . . . . . . . . . . 206
§ 3.15. Игра распределения по корзинам . . . . . . . . . . . . . . . . . . . . . . . . . 215
Глава 4. Линейно-квадратичные дифференциальные игры225
§ 4.1. Принцип динамического программирования . . . . . . . . . . . . . . . 225
§ 4.2. Принцип максимума Понтрягина . . . . . . . . . . . . . . . . . . . . . . . . . . 231
§ 4.3. Стохастическое управление. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235
§ 4.4. Равновесие по Нэшу в программных стратегиях . . . . . . . . . . . 241
§ 4.5. Равновесие по Нэшу в позиционных стратегиях . . . . . . . . . . . 245
§ 4.6. Конкурентная реклама с двумя участниками . . . . . . . . . . . . . . 249
§ 4.7. Игры с бесконечной продолжительностью . . . . . . . . . . . . . . . . . 252
§ 4.8. Модель конкуренции с бесконечной продолжительностью . 255
§ 4.9. Стохастические дифференциальные игры . . . . . . . . . . . . . . . . . . 257
§ 4.10. Задача добычи ограниченного ресурса . . . . . . . . . . . . . . . . . . . . 259
§ 4.11. Стохастические дифференциальные игры с бесконечной
продолжительностью. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .263
Глава 5. Кооперативные дифференциальные игры в форме
характеристической функции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
§ 5.1. Определение кооперативной игры . . . . . . . . . . . . . . . . . . . . . . . . . . 269
§ 5.2. Дележи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
§ 5.3. Дележи в динамике . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
§ 5.4. Принцип динамической устойчивости . . . . . . . . . . . . . . . . . . . . . . 275
§ 5.5. Динамически устойчивые решения . . . . . . . . . . . . . . . . . . . . . . . . . 276
§ 5.6. Процедура распределения дележа . . . . . . . . . . . . . . . . . . . . . . . . . . 278
§ 5.7. Управление загрязнением окружающей среды . . . . . . . . . . . . . 280
§ 5.8. Построение коалиционного решения . . . . . . . . . . . . . . . . . . . . . . . 292
Глава 6. Кооперативные дифференциальные игры двух
лиц с дисконтированием . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
§ 6.1. Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
§ 6.2. Интерпретация процедуры распределения дележа . . . . . . . . . 316
§ 6.3. Кооперативные игры с бесконечной продолжительностью . 319
§ 6.4. Игры с нетрансферабельными выигрышами . . . . . . . . . . . . . . . 327
4
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 7. Кооперативные стохастические
дифференциальные игры двух лиц . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
§ 7.1. Определение игры с некооперативными исходами . . . . . . . . . 343
§ 7.2. Кооперация при неопределенности . . . . . . . . . . . . . . . . . . . . . . . . . 348
§ 7.3. Динамически устойчивая кооперация . . . . . . . . . . . . . . . . . . . . . . 356
§ 7.4. Процедура распределения дележа . . . . . . . . . . . . . . . . . . . . . . . . . . 358
§ 7.5. Позиционно-состоятельное решение . . . . . . . . . . . . . . . . . . . . . . . . 361
§ 7.6. Кооперация в задаче добычи ограниченного ресурса . . . . . . 364
§ 7.7. Кооперативные стохастические игры с бесконечной
продолжительностью. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .366
Глава 8. Кооперативные стохастические
дифференциальные игры со многими участниками . . . . . . . . 377
§ 8.1. Кооперативные модели освоения технологий. . . . . . . . . . . . . . .377
§ 8.2. Детерминированный случай . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
§ 8.3. Модель совместного предприятия . . . . . . . . . . . . . . . . . . . . . . . . . . 386
§ 8.4. Численные примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
5
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
Для оценки качества менеджмента и разработки методологии его оптимизации используются методы математического и компьютерного моделирования. В том случае, когда управленческие решения принимаются
одним лицом и их результат не зависит от действий других сторон, в качестве аппарата математического моделирования может быть с успехом
использована теория оптимального управления и оптимизации. В то же
время, в подавляющем большинстве случаев даже когда можно условно
предположить, что решение принимается одним лицом, нельзя гарантировать, что его результат не будет зависеть от действий других сторон или
лиц так или иначе в нем заинтересованных. В этом случае необходимо
учитывать наличие несовпадающих, а в ряде случаев и конфликтующих
интересов у сторон, заинтересованных в результатах менеджмента. Игнорирование этого обстоятельства может привести, и в действительности
приводит, к невозможности полной реализации управленческих решений,
а, следовательно, и к недостижению результатов, на которые эти решения
были направлены.
При попытках моделирования подобных ситуаций пользуются методами и подходами теории игр. Однако подавляющее большинство исследований в области теории игр касается, так называемых однократных или
мгновенных игр, в которых конфликт между сторонами происходит мгновенно, и таким образом совершенно не учитывается временной фактор. В
то же время понятно, что реальные процессы принятия решений (реальный менеджмент) происходят на достаточно большом временном интервале, когда в каждый текущий момент времени приходится учитывать
результаты предыдущих решений и только на этой основе вырабатывать
соответствующее управление. Именно поэтому подходящими математическими моделями подобных процессов могут быть динамические и дифференциальные игры, которые с одной стороны учитывают конфликтность
процесса принятия решений, а с другой — необходимость его моделирования на достаточно продолжительном временном промежутке.
На практике долгосрочные управленческие решения вырабатываются
на основе потребностей, выявляемых на всех уровнях системы управле-
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
ния. В результате из большого числа возможных вариантов, на основе
некоторого трудно формализуемого алгоритма, выбирается одно решение, подлежащее дальнейшей реализации. Этот плохо формализуемый и
трудно улавливаемый алгоритм выбора по существу является реализацией установившегося в данной системе менеджмента принципа оптимальности. Здесь мы сталкиваемся с такой интересной проблемой как восстановление принципа оптимальности, лежащего в основе принятия решений
по наборам реализованных решений. Независимо от того, в какой степени
мы сумеем продвинуться в решении этой проблемы, сам факт наличия
такого принципа оптимальности не вызывает сомнения. В то же время
свойства этого принципа оптимальности мы можем наблюдать и без проведения глубокого исследования. Отметим два, на наш взгляд, наиболее
важных свойства, присутствующих и довлеющих на принятие долгосрочных решений. Первое — необходимость оценки качества принимаемого
решения по нескольким критериям. Второе — различная оценка исхода
решения разными сторонами, участвующими в выработке решения. Это
наводит нас на мысль о том, что принцип оптимальности, лежащий в
основе выбора решения, имеет теоретико-игровой, конфликтный характер. Здесь так же как и в теоретико-игровых моделях несколько сторон
влияют на принятие решения в соответствии со своими, не обязательно
совпадающими интересами.
Прогресс в технологиях, коммуникациях, промышленной организации,
международной торговле, экономической интеграции и политических реформах способствовал созданию быстро развивающихся социально-экономических связей, включающих межрегиональную и межгосударственную
деятельность, а также взаимодействие участвующих объектов и субъектов. С точки зрения современного менеджмента, исключительно важно
осознать и реально использовать взаимосвязь и взаимозависимость принимаемых решений в подобных обстоятельствах. Стратегический аспект
принятия решений особенно важен в таких областях как торговые переговоры, иностранные и национальные инвестиции, международный контроль состояния окружающей среды, интеграция и развитие рынков, технологические и продуктовые инновации, маркетинг, региональная кооперация, политика в области обороны и контроль над вооружениями.
Теория игр существенно подняла наш уровень понимания процессов
принятия решений. Однако усложнение социально-экономических и политических проблем требует нахождения новых аналитических методов
и методологических подходов как в самой теории, так и при исследовании
отдельных задач в приложениях. Менеджмент, социальные науки, экономика и финансы и есть те области, в которых использование методологии
8
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
теории игр может дать значительную отдачу именно из-за конфликтного характера возникающих здесь проблем. Исследования следует направить на более реалистический и релевантный анализ процессов принятия
решений в социально-экономической сфере, при этом теоретико-игровой
подход поможет особенно эффективно исследовать и решать задачи и проблемы управления.
Как мы уже отмечали, при моделировании конфликтно-управляемых
процессов в социально-экономической сфере и менеджменте наиболее реалистичными являются математические модели, базирующиеся на теории динамических и дифференциальных игр. Теория дифференциальных
(динамических) игр возникла в пятидесятые годы прошлого века. Основополагающей работой в этой области считается монография Р. Айзекса «Дифференциальные игры», вышедшая в свет в 1965 г. [Isaacs, 1965].
Первые отечественные работы появились в 1965 г. [Красовский, 1966; Петросян, 1965; Понтрягин, 1967]. Однако до середины шестидесятых годов
исследовались лишь антагонистические дифференциальные игры, моделирующие конфликт между двумя сторонами, имеющими прямо противоположные интересы. Понятно, что антагонистические дифференциальные игры могли иметь приложения лишь в ограниченном классе задач,
возникающих при военном столкновении сторон (перехват летательных
аппаратов, обнаружение и уничтожение подводных подвижных объектов,
оптимизация распределения ресурсов при локальных военных столкновениях и т. п.).
Для моделирования социально-экономических процессов необходимо
было разработать теорию неантагонистических дифференциальных игр.
Первые работы в этой области появились в конце шестидесятых годов
[Петросян, Мурзов, 1967; Case 1967; Starr, Ho, 1969a, 1969b]. В этих работах исследовались некооперативные дифференциальные игры со многими
участниками, и поэтому в качестве принципа оптимальности использовалось равновесие по Нэшу. Основополагающие результаты, касающиеся существования и построения решений в неантагонистических дифференциальных играх, получены в работах отечественных авторов [Жуковский,
Чикрий, 1994; Клейменов, 1993; Захаров, 1988; Малафеев, 1982; Чистяков, 1992]. В последующих работах полученные результаты применялись
для исследования различных задач социально-экономического характера
[Haurie, Krawczyk, Roche, 1976; Jorgensen, 1985; Jorgensen, Sorger, 1990;
Jorgensen, Zaccour, 2002; Kaitala, 1993; Sorger, 1989; Yeung, 1992, 1994].
На ранней стадии развития теории динамических игр не рассматривалась возможность кооперации участников конфликтно-управляемого процесса с целью достижения более высоких показателей. И хотя статическая
9
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
теория таких игр была хорошо развита, динамическому аспекту кооперативного поведения не было уделено должного внимания. Теория кооперативных игр дает возможность выработки социально-оптимальных
коалиционно-эффективных решений в задачах со стратегически обусловленными действиями. Формализация условий кооперации и связанного с
этим оптимального поведения участников конфликтно-управляемого процесса (игроков) является фундаментальным основанием этой теории. Однако для сохранения кооперации и принятых соглашений требуется выполнение более жесткого условия: в процессе реализации решения принцип оптимальности, на основе которого вырабатывалось первоначальное
решение, должен оставаться состоятельным в течение всего процесса реализации (генерировать в определенном смысле адекватные решения в
текущих подзадачах, т. е. в каждый момент времени вдоль определенной
заранее оптимальной траектории процесса). Это условие носит название
«динамической устойчивости» или «состоятельности во времени». Иными
словами, свойство динамической устойчивости решения (состоятельности
во времени или временной состоятельности) кооперативной динамической
игры означает, что при развитии игры вдоль кооперативной траектории,
игроки следуют одному и тому же принципу оптимальности в каждый
момент времени (в каждой подзадаче с начальными условиями на этой
оптимальной траектории) и поэтому не имеют побуждения отклониться
от первоначально выбранного оптимального решения в течение всей игры.
При исследовании кооперативных дифференциальных игр в конце 70-х годов нами было обнаружено и доказано, что если специальным
образом не производить регуляризацию принципа оптимальности, то выбранное в начале процесса «оптимальное решение» в ходе его реализации
почти всегда теряет свою «оптимальность» и поэтому не может оставаться основополагающим принципом дальнейшего развития. Данное явление
имеет место даже без каких-либо внешних воздействий или изменения
интереса участников. Это и есть нарушение динамической устойчивости
или временной состоятельности. Нами впоследствии были разработаны
методы регуляризации кооперативного решения, приводящие к состоятельному во времени принципу оптимальности. Несколько позже нарушение динамической устойчивости было обнаружено при решении одной
специальной задачи зарубежными авторами Ф. Кидландом и Е. Прескоттом [Kydland, Prescott, 1977], получившими Нобелевскую премию в области экономики в 2004 г.
Динамическая устойчивость (временная состоятельность) принципов
оптимальности в дифференциальных играх подробно исследовалась в работах специалистов по теории игр. А.Ори [Haurie, 1976] заметил времен10
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
ную несостоятельность арбитражной схемы Нэша при ее использовании в
качестве принципа оптимальности в дифференциальной игре. Л.А. Петросян [Петросян, 1977] математически формализовал понятие динамической устойчивости (временной состоятельности), ввел понятие «процедуры распределения дележа» для кооперативных решений [Петросян, Данилов, 1979]. В работе [Tolwinski, Haurie, Leitmann, 1986] исследовано кооперативное равновесие в дифференциальных играх, когда система угроз
обеспечивает развитие игры по кооперативному пути. В дальнейшем, в
работах [Petrosjan, 1993; Petrosjan, Zenkevich, 1996] проведен подробный
анализ динамической устойчивости в кооперативных дифференциальных
играх и предложен метод регуляризации для построения динамически
устойчивых (состоятельных во времени) решений.
К сожалению, в настоящее время в мировой учебной литературе нельзя найти даже англоязычного учебного пособия, которое смогло бы раскрыть сложную проблематику приложений теоретико-игровых методов в
менеджменте. Положение здесь таково, что большинство англоязычных и
отечественных учебных пособий в этом направлении лишь поверхностно
рассматривают прикладные аспекты теории на уровне модельных примеров и не касаются наиболее актуальных теоретико-игровых моделей
конфликтно-управляемых процессов в менеджменте.
Предлагаемое учебное пособие, как нам представляется, восполняет
этот пробел. Изложение построено таким образом, что для понимания
основ теории читатель может обойтись без предварительных знаний по
теории игр (хотя, конечно, начальное знакомство с понятиями теории игр
было бы желательно).
Как пользоваться учебным пособием.
Общая структура книги
В первых двух главах приводятся основные понятия и некоторые приложения статической теории игр, которая к настоящему времени стала
классической. Здесь изложение сопровождается примерами из теории и
практики менеджмента, хотя из-за статического характера их скорее следует понимать как модельные примеры для иллюстрации основополагающих результатов динамической теории.
Первой главы учебного пособия достаточно, чтобы получить квалифицированное представление о теории игр как теории математических моделей принятия решения в условиях конфликта участвующих сторон. Она
раскрывает основные положения современной статической теории игр и
может служить основой для учебного курса по теории игр для студентов
управленческого и экономического профиля. Вместе с тем материал этой
11
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
главы может самостоятельно изучить каждый аспирант, ранее не знакомый с теорией игр и предполагающий использовать теоретико-игровые
модели в своем исследовании.
Во второй главе книги рассмотрены различные приложения теории
игр. Она может быть рекомендована для самостоятельного изучения в
магистратуре и аспирантуре по направлениям, включающим математическое и компьютерное моделирование задач менеджмента.
В третьей главе в доступной для студентов старших курсов форме
приводятся и обосновываются основные результаты теории дискретных
многошаговых игр с полной информацией, на которой фактически базируется современная теория неантагонистичеких дифференциальных игр,
являющаяся с нашей точки зрения одним из основных математических
инструментов для моделирования долгосрочных процессов в современном менеджменте. Без знакомства с результатами этой главы читателю
будет практически невозможно осознать методологию теоретико-игрового
подхода, который развит в последующих главах. Третья глава является
обязательной для понимания и исследования динамических теоретикоигровых моделей.
Сложный математический аппарат появляется впервые в четвертой
главе, когда динамика процесса описывается системой дифференциальных уравнений. Однако надо понимать, что серьезные результаты в области моделирования процессов в менеджменте невозможны без использования аппарата дифференциальных уравнений и стохастических дифференциальных уравнений. В этом можно убедиться, пролистав последние номера журналов «Econometrica» или «Management Science». На сегодняшний день наиболее ощутимые результаты как с точки зрения теории, так
и с точки зрения практических приложений, получены при исследовании
моделей, описываемых линейно-квадратичными дифференциальными играми. Решению данного класса игр и посвящена эта глава.
Изучение теории игр в объеме первых четырех глав достаточно для
понимания современной научной и учебной литературы (отечественной и
иностранной) в области экономики и менеджмента, если в ней приводится
анализ и решение теоретико-игровых моделей.
Для аспирантов экономического и управленческого профилей последующие главы (главы 5, 6, 7, 8) представляют интерес с точки зрения
рассматриваемых постановок задач, исследуемых проблем, доказанных
результатов, а также в плане моделирования конкретных проблем менеджмента. Вместе с тем именно эти главы представляют особый интерес
и для аспирантов факультетов математических и технических специальностей, занимающихся математическим моделированием, развитием ма12
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
тематических методов моделирования и их практическим применением.
Этот интерес обусловлен научной новизной и актуальностью проблематики, а также наличием многочисленных нерешенных теоретических и
прикладных проблем.
В пятой главе рассматриваются кооперативные дифференциальные
игры в форме характеристичекой функции. Даются определения основных понятий, исследована динамическая устойчивость основных принципов оптимальности кооперативной теории. Здесь вводится фундаментальное понятие процедуры распределения дележа (ПРД), которая обеспечивает динамическую устойчивость принципа оптимальности. Теоретические результаты иллюстрируются на решении задачи управления загрязнением окружающей среды как в кооперативном, так и коалиционном
вариантах. В первом случае строится динамически устойчивый вектор
Шепли, во втором — динамически устойчивый P M S-вектор.
В шестой главе специально исследованы кооперативные дифференциальные игры двух лиц бесконечной продолжительности при наличии
дисконтирования. Помимо теоретических результатов, касающихся нахождения динамически устойчивых кооперативных решений, и соответствующих процедур регуляризации, приведены решения конкретных задач прикладного характера в явной аналитической форме. Особое место
занимает случай, когда выигрыши игроков нетрансферабельны, т.е. они
не могут быть измерены в единой шкале. Такие задачи также достаточно
актуальны в менеджменте, поскольку не всегда результат управленческого решения может быть оценен в денежных единицах. В главе приведены
модельные примеры с решением прикладного характера.
Подход, основанный на исследовании классических характеристических функций, предполагает, что не входящие в коалицию игроки действуют против объединившихся в коалицию игроков. В прикладных задачах
такое предположение часто не реалистично. В седьмой главе рассмотрен
другой подход к определению кооперативной дифференциальной игры.
В рамках данного подхода формулируются принципы оптимальности и
исследуется их позиционная состоятельность, что является обобщением
временной состоятельности на случай стохастической дифференциальной
игры. Проанализирована и решена задача добычи полезного ресурса конкурирующими фирмами при наличии случайных воздействий.
Последняя, восьмая глава, так же как и предыдущая, посвящена наиболее сложному случаю, в котором участвуют несколько игроков (два или
более), когда на развитие конфликтно-управляемого процесса помимо решений принимаемых участниками конфликта влияют случайные факторы. Такого рода задачи описываются стохастическими дифференциаль13
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Введение
ными играми. Для чтения этой главы желательно знакомство с основами
теории стохастических дифференциальных уравнений, но поместить их в
учебное пособие не представилось возможным, поскольку это загромоздило бы и без того достаточно сложный материал. В то же время авторы считают не только возможным, но и необходимым включение данной
главы, поскольку представленная здесь теория является с одной стороны
наиболее современным подходом к моделированию сложных процессов
происходящих в менеджменте, а с другой — дает возможность получения решений в аналитическом виде в динамической задаче управления
совместным предприятием и задаче оптимального использования ограниченного природного ресурса.
Математические требования
Мы старались изложить теорию игр в удобочитаемой форме, нередко заменяя доказательства приводимых теорем ссылкой на литературный
первоисточник. При этом математическая сложность повышается постепенно.
Многообразие и широта представленных моделей не всегда позволяла
приводитьб строгие математические обоснования и доказательства, поэтому в ряде случаев (главы 5–8) авторы были вынуждены изложить материал в упрощенном виде.
Для понимания материала первой и второй главы не требуется глубокой математической подготовки. Достаточно уметь оперировать основными понятиями дифференциального исчисления, включая безусловную и
условную оптимизацию и начальное знакомство с теорией вероятностей.
При изучении третьей главы желательны начальные знания по динамическому программированию и цепям Маркова.
В четвертой, пятой и шестой главах используется аппарат дифференциальных уравнений. Поэтому предварительное знакомство с теорией
дифференциальных уравнений и оптимального управления желательно.
При изучении седьмой и восьмой глав также требуется знание основ
теории стохастических дифференциальных уравнений.
Учебное пособие адресовано аспирантам Высшей школы менеджмента
СПбГУ и других учебных заведений аналогичного профиля. Оно может
быть рекомендовано также студентам и аспирантам, использующим математические методы в социально-экономических науках.
Авторы благодарят Артема Александровича Седакова за выполнение
всех работ, связанных с оформлением рукописи.
14
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 1
Статические игры
§ 1.1.
Игры в нормальной форме
Как же выглядят конфликты, т. е. игры, глазами математиков? Для того,
чтобы ответить на этот вопрос прежде всего следует строго формализовать само понятие игры, т. е. дать его математическое определение.
Введем понятие игры в нормальной форме. Н. Н. Воробьевым [Воробьев, 1973] предложена общая формализация игры, в которую вписываются многие мыслимые и реальные конфликты с конечным числом участников. В этой формализации игра представляется как конечный набор
определенных элементов.
Определение 1.1.1. Игрой в нормальной форме называется набор объектов вида:
Γ = hN ; X1 , . . . , Xi , . . . , Xn ; K1 , . . . , Ki , . . . , Kn i .
(1.1)
Здесь Γ — обозначение игры, N = {1, . . . , i, . . . , n} — множество игроков, Xi = {xi } — множество стратегий игрока i, Ki (x1 , . . . , xi , . . . , xn )
— функция выигрыша игрока i, принимающая вещественные значения.
Значение функции выигрыша представляет собой выигрыш (или полезность), который получает игрок i, если игроками используются стратегии xi ∈ Xi , i = 1, . . . , n.
Игра происходит следующим образом. Игроки одновременно и независимо друг от друга (не имея информации о действиях других игроков)
выбирают свои стратегии xi из множества всех своих возможных стратегий Xi . В результате формируется набор стратегий
Y
xN = (x1 , . . . , xi , . . . , xn ), xN ∈ XN ≡
Xi ,
(1.2)
i∈N
Q
называемый в теории игр ситуацией. Заметим, что в (1.2) символ i∈N Xi
означает декартово произведение множеств Xi . При этом само множество
XN именуют множеством всех ситуаций в данной игре.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
После выбора стратегий игроками игра прекращается, и каждый из
игроков i получает выигрыш, который вычисляется как значение его
функции выигрыша Ki в этой ситуации xN , то есть величину Ki (xN ) =
Ki (x1 , . . . , xi , . . . , xn ).
Неискушенному в математике человеку на первый взгляд может показаться, что приведенная модель игры слишком упрощена и не охватывает
даже реальные салонные игры. Однако это не так. Более того, достаточно широкий спектр различного рода конфликтов, в которых участвует
конечное число участников, укладывается в эту схему.
Наиболее сложным аспектом при построении математической модели
конфликта является описание множеств стратегий {Xi } и математически адекватное выражение предпочтений игроков через их функции выигрыша, а также аналитическое выражение этой функции как функции
выбираемых стратегий.
Если обратиться к шахматам, то в этом случае под стратегией уместно
понимать некоторое всеобъемлющее правило, которое каждой мыслимой
позиции на шахматной доске предписывает однозначное действие — ход
игрока в этой позиции. В этом случае понятно, что пара стратегий игроков
в шахматах однозначно определяет исход игры. Теперь, полагая величину
выигрыша выигрывающего игрока равной единице, величину выигрыша
проигравшего игрока — минус единице, а в случае ничьей, приписав обоим игрокам выигрыш, равный 0, мы строим функцию выигрыша и, тем
самым, завершаем формализацию математической модели шахматной игры. Здесь следует отдавать отчет, что подобное построение носит чисто
умозрительный характер.
При этом ясно, что для выписывания и запоминания даже одной стратегии в шахматной игре не хватит памяти ни одного из существующих
компьютеров. С этим обстоятельством следует считаться при моделировании многих конфликтных процессов в экономике и социальной сфере,
имеющих динамический характер.
Реальные конфликтные процессы отличает от шахмат и то обстоятельство, что в них оказываются вовлеченными не два, а значительно большее
число участников, и далеко не всегда позиция игры (в случае шахмат —
это расположение фигур на доске при совершении хода плюс вся предыстория этого расположения фигур, а в социально-экономических конфликтах — состояние рынка или финансовое состояние фирмы в каждый момент времени) полностью известна всем вовлеченным в конфликт сторонам. Это приближает природу социально-экономических конфликтов
к карточным играм, несколько более сложным с математической точки
зрения. В карточной игре позиция игры (расклад карт у противников)
16
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.1.. Игры в нормальной форме
не известна полностью игрокам. Решения на каждом шаге игры приходится принимать лишь на основе имеющейся неполной информации, при
этом информированность игроков существенным образом сказывается на
величине выигрыша каждого из игроков.
Пример 1.1.1. (Аукцион неделимого товара [Мулен, 1985]). На аукцион
выставлен товар по начальной цене c. Участники аукциона могут рассматриваться как игроки. Обозначим каждого участника индексом i, и
пусть i ∈ {1, . . . , n} = N , где N — множество всех участников аукциона.
Ценность товара для каждого участника оценивается величиной vi . Будем
предполагать, что
c ≤ vn ≤ · · · ≤ v2 ≤ v1 .
Участники независимо друг от друга назначают цену xi ≥ c (аукцион
закрытого типа). Цена xi является стратегией участника i. Победителем
является тот участник, который назначает максимальную цену (аукцион
на повышение). Рассмотрим два типа аукционов. Отличие двух аукционов заключается в том, какой выигрыш должен получить победитель.
Обсудим эти вопросы более детально.
а) Аукцион первой цены. Множество стратегий каждого
участника есть Xi ≡ X = [c, +∞). Пусть в ходе аукциона реализовалась ситуация xN = (x1 , . . . , xi , . . . , xn ). Обозначим множество
игроков, назначивших максимальную цену, через
w(xN ) = {i | xi = max xj }.
j
Функцию выигрыша i-го участника аукциона определим следующим
образом:
(
vi − xi , i = min j,
j∈w(xN )
Ki (xN ) =
0, в противном случае
Таким образом, мы
® получили игру в нормальной форме Γ = hN,
{Xi }i∈N , {Ki }i∈N , которая и представляет собой модель аукциона
закрытого типа на повышение первой цены.
б) Аукцион второй цены. В аукционе второго типа (аукцион Викри) победителем также считается участник, предложивший наибольшую цену, однако он должен уплатить вторую по величине цену.
В этом случае получаем следующую игру.
17
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Множество стратегий каждого участника также есть Xi = X =
[c, +∞). Пусть в ходе аукциона реализовалась ситуация xN =
(x1 , . . . , xi , . . . , xn ). Введем обозначение x+
−i = max xj . Тогда функция выj6=i
игрыша участника может быть записана в виде
(
vi − x+
−i , i = min j,
j∈w(xN )
Ki (xN ) =
0, в противном случае
Снова получена игра в нормальной форме, но это уже иная игра, отличающаяся от предыдущей функциями выигрыша игроков.
Предположим, что нам удалось построить математическую модель
конфликта — игру Γ. Иначе говоря, математически описано множество
стратегий игроков и аналитически выражены их предпочтения в форме
функций выигрыша. Теперь желательно дать рекомендации конфликтующим сторонам (игрокам) как играть в такую игру. Считая игроков рациональными (к сожалению, в реальной жизни это далеко не всегда имеет
место), предположим, что каждый из них намерен действовать наилучшим для себя образом, т. е. «оптимально».
§ 1.2.
Классификация игр
Вопрос о классификации игр актуален в первую очередь потому, что каждый класс игр, вообще говоря, использует свой математический аппарат
(может быть, в этом и кроется основная сложность изучения теории игр
в целом).
На первом уровне классификации игры делятся на статические и динамические. Далее каждый класс можно разделить на бескоалиционные
и кооперативные игры, а в зависимости от знания игроками самой игры (1.1) — на игры с полной и неполной информацией соответственно.
При этом игра Γ называется игрой с полной информацией, если каждый
элемент в представлении (1.1) общеизвестен всем игрокам. В противном
случае игра Γ называется игрой с неполной информацией.
Из класса бескоалиционных игр можно выделить игры с постоянной
суммой. В случае игры с постоянной суммой для каждой ситуации xN
выполняется условие
n
X
Ki (xN ) = const.
(1.3)
i=1
Особенность игр с постоянной суммой заключается в том, что при
любом исходе игры суммарный выигрыш всех игроков один и тот же.
Если эта величина равна 0, то говорят об играх с нулевой суммой.
18
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.2.. Классификация игр
Специально выделяют класс наиболее изученных игр двух лиц. Заметим, что любая игра Γ двух лиц определяется заданием следующих
объектов:
Γ = hX, Y, K1 , K2 i .,
(1.4)
где X — множество стратегий игрока 1, Y — множество стратегий игрока
2, Ki (x, y), x ∈ X, y ∈ Y — функция выигрыша игрока i, i = 1, 2.
Пример 1.2.1. (Модель дуополии по Курно.) Предположим, что две фирмы Fi , i = 1, 2, производят однородный продукт и конкурируют на одном
и том же рынке. Пусть функция затрат фирмы Fi известна обоим участникам и имеет вид: Ci (qi ), где qi ≥ 0 — объем выпуска товара данной
фирмой.
Пусть при этом рынок характеризуется функцией спроса q = D(p), p ≥
0, которая является убывающей функцией цены. Будем предполагать,
что для функции спроса существует обратная функция: p = D−1 (q) ≡
P (q), q ≥ 0, q = q1 + q2 , которую здесь мы будем называть функцией цены.
Будем предполагать, что объемы выпуска (в данном примере объем
выпуска это и это есть стратегия игрока) qi ≥ 0 обе фирмы выбирают
одновременно и независимо друг от друга, причем таким образом, чтобы максимизировать прибыль от реализации своей продукции. В таком
случае функция прибыли фирмы i может быть записана в виде
Πi (qi , qj ) = qi P (qi + qj ) − Ci (qi ).
И игра двух лиц вида ΓC = hQ, Q, Π1 , Π2 i, где Q = {q |q ≥ 0} , называется
дуополией по Курно.
Пример 1.2.2. (Дуополия по Бертрану). Рассмотрим задачу, аналогичную предыдущей, когда две фирмы производят однородный продукт. Однако теперь будем предполагать, что стратегией игрока (фирмы) является
цена pi ≥ 0, которую назначает фирма Fi за единицу своей продукции.
Будем предполагать, что цены (цена в этом примере является стратегией
игрока) назначаются одновременно и независимо друг от друга, при этом
удельные производственные затраты постоянны и равны ci ≥ 0 (другие
затраты не учитываются).
Определим спрос, с которым сталкивается фирма в условиях ценовой
конкуренции, следующим образом:

 D(pi ), если pi < pj ,
D(pi )/2, если pi = pj ,
Di (pi , pj ) =

0, если pi > pj .
19
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Тогда функция прибыли фирмы Fi , будет иметь вид
Πi = (pi − ci )Di (pi , pj ).
Итак, построена игра двух лиц ΓB = hP, P, Π1 , Π2 i, где P = {p |p ≥ 0} .
Эта игра называется дуополией по Бертрану.
Игры двух лиц с нулевой суммой называются антагонистическими.
Особенность антагонистической игры заключается в том, что в любой
ситуации выигрыш каждого игрока равен проигрышу другого. Поэтому
антагонистическая игра Γ1 определяется заданием следующих объектов:
Γ1 = hX, Y, Ki ,
(1.5)
где X — множество стратегий игрока 1, Y — множество стратегий игрока
2, K(x, y), x ∈ X, y ∈ Y — функция выигрыша (функция проигрыша)
игрока 1 (2) соответственно.
В зависимости от cтруктуры множества стратегий игроков игры можно разделить на конечные (с конечным числом стратегий у каждого игрока) и бесконечные игры.
Наиболее изучены классы конечных игр двух лиц, которые называются биматричными (если игра неантагонистическая) и матричными (если
игра антагонистическая) соответственно.
Биматричная m × n игра Γ(A, B) определяется заданием пары матриц
(A, B) = {(aij , bij )} порядка m × n, т.е. матрицы указанного порядка, элементами которой являются пары выигрышей (aij , bij ), где aij — выигрыш
первого игрока, и bij — выигрыш второго, а стратегиями номера строк i
и столбцов j для игроков 1 и 2 соответственно.
Матричная m×n игра Γ(A) определяется заданием матрицы A = {aij }
порядка m×n, элементами которой являются выигрыши (проигрыши) aij
первого (второго) игрока, а стратегиями — номера строк i и столбцов j
для игроков 1 и 2 соответственно, т. е. Γ(A) есть по существу биматричная
игра Γ(A, −A).
Биматричная игра Γ(A, B) (матричная игра Γ(A)) реализуется следующим образом. Игроки одновременно и независимо друг от друга (не
имея информации о действиях другого игрока) выбирают свои стратегии
i ∈ {1, . . . , m} , j ∈ {1, . . . , n} из конечных множеств (выбирают номера
строки и столбца матрицы соответственно). После осуществления своего
выбора они одновременно объявляют свои стратегии. В результате формируется пара стратегий (i, j) (ситуация в игре). После этого игра прекращается и игрок 1 получает выигрыш в размере aij , а игрок 2 — выигрыш
в размере bij , если игра биматричная, или (−aij ), если игра матричная.
20
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.3.. Стратегии и некооперативное поведение
Среди бесконечных игр наиболее изучены непрерывные (игры с непрерывными функциями выигрыша и компактными множествами стратегий). Среди непрерывных игр выделяют подкласс вогнутых игр, когда
функция выигрыша каждого игрока вогнута относительно стратегии этого игрока.
§ 1.3.
Стратегии и некооперативное поведение
В теории игр различают некооперативное и кооперативное поведение. В
случае некооперативного поведения основной акцент делается на тех стратегиях, которые игроки выбирают в предположении рациональности такого выбора. Для игр в нормальной форме мы будем различать стратегии
двух типов: чистые и смешанные стратегии.­
®
Рассмотрим бескоалиционную игру Γ = N, {Xi }i∈N , {Ki }i∈N . Под
чистой стратегией игрока i будем понимать, как и ранее, произвольный
элемент xi ∈ Xi . Смешанная стратегия игрока i — это некоторое распределение вероятностей на множестве чистых стратегий Xi данного игрока.
Предположим для простоты, что игра Γ — конечная и mi — число
чистых стратегий игрока i. Обозначим через µi произвольную смешанную стратегию игрока i, т. е. некоторое распределение вероятностей на
множестве чистых стратегий Xi . Через µi (xi ) обозначим вероятность, которую стратегия µi приписывает конкретной чистой стратегии xi ∈ Xi .
Множество всех смешанных стратегий игрока i обозначим через X̄i .
Пусть каждый игрок i применяет свою смешанную стратегию µi .
Тогда, поскольку выборы игроков осуществляются одновременно и
независимо друг от друга, вероятность появления ситуации xN =
(x1 , . . . , xi , . . . , xn ) равна произведению вероятностей выборов составляющих ее стратегий, т. е.
µ(xN ) = µ1 (x1 ) × · · · × µn (xn ).
(1.6)
Формула (1.6)Q
задает распределение вероятностей на множестве всех ситуаций XN = i∈N Xi , определяемое стратегиями µ1 , . . . , µn .
Набор смешанных стратегий µ = (µ1 , . . . , µn ) называется ситуацией в
смешанных стратегиях. Ситуация в смешанных стратегиях µ реализует
различные ситуации в чистых стратегиях с некоторыми вероятностями,
поэтому выигрыш каждого из игроков является случайной величиной. В
качестве значения функции выигрыша игрока i в ситуации µ принимается
математическое ожидание этой случайной величины:
X
K̄i (µ) =
Ki (xN )µ(xN ) =
x∈X
21
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
=
X
x1 ∈X1
···
X
Ki (x1 , . . . , xn ) × µ1 (x1 ) × · · · × µn (xn ).
xn ∈Xn
D © ª
E
© ª
Таким образом, построена игра Γ̄ = N, X̄i i∈N , K̄i i∈N , которая называется смешанным расширением игры Γ.
Игра Γ̄ реализуется следующим образом. Каждый игрок i независимо от остальных участников выбирает смешанную стратегию µi ∈ X̄i и
реализует случайный механизм в соответствии с распределением µi . Одновременно объявляя результаты реализации смешанных стратегий, получаем ситуацию xN = (x1 , . . . , xn ), в которой игрок i получает выигрыш,
равный Ki (xN ) = Ki (x1 , . . . , xi , . . . , xn ). На этом игра заканчивается.
Для биматричной (матричной) игры Γ(A, B) (Γ(A)) смешанные стратегии игроков определяются следующим образом. Для игрока 1 (2) множество смешанных стратегий X(Y ) имеет вид:
X
X = {x|x = (ξ1 , . . . , ξm ), ξi ≥ 0,
ξi = 1},
i
Y = {y|y = (η1 , . . . , ηn ), ηj ≥ 0,
X
ηj = 1}.
(1.7)
j
Функции выигрыша игроков 1 и 2 в смешанных стратегиях в биматричной игре Γ(A, B) равны:
X
K1 (x, y) = xAy =
aij ξi ηj ,
i,j
K2 (x, y) = xBy =
X
bij ξi ηj .
(1.8)
i,j
Функции выигрыша игроков 1 и 2 в смешанных стратегиях в матричной игре Γ(A) равны:
X
K1 (x, y) = K(x, y) = xAy =
aij ξi ηj ,
i,j
K2 (x, y) = −K(x, y) = x(−A)y =
X
(−aij )ξi ηj .
(1.9)
i,j
Таким образом, смешанные расширения указанных биматричной и
матричной игр являются играми двух лиц и антагонистической игрой и
имеют соответственно вид:
Γ̄(A, B) = hX, Y, K1 , K2 i ,
Γ̄(A) = hX, Y, Ki .
22
(1.10)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.4.. Коалиции и кооперативное поведение
§ 1.4.
Коалиции и кооперативное поведение
При исследовании кооперативного поведения основной акцент делается
на тех типах коалиций (т.е. групп игроков), которые могут образоваться
в игре. Естественно, возникает вопрос: когда игроки имеют мотив объединиться в ту или иную коалицию? Этот мотив связан
• либо с выгодностью совместного выбора стратегий,
• либо с возможностью перераспределения совместного общего выигрыша от кооперации,
• либо и с тем, и с другим.
Для того, чтобы перераспределение выигрыша было возможным, необходимо, чтобы функции выигрыша у игроков обладали свойством линейной трансферабельности.
­
®
Рассмотрим бескоалиционную игру Γ = N, {Xi }i∈N , {Ki }i∈N . Произвольное подмножество S ⊂ N будем называть коалицией в игре. Дополнение этого множества до множества всех игроков, т. е. коалицию
T = N \S, будем называть дополнительной коалицией для коалиции S. В
дальнейшем дополнительную коалицию T для коалиции S будем обозначать следующим образом: T ≡ −S. Понятно, что каждый игрок i ∈ N является коалицией (одноэлементной). Пустое множество и все множество
игроков N также являются коалициями (минимальная и максимальная
коалиции соответственно).
Определим теперь понятие стратегии для коалиции. Под стратегией
xS коалиции S будем понимать набор стратегий, выбранных всеми игроками, входящими в коалицию S, т. е. xS = (xi )i∈S . Множество всех стратегий
коалиции S обозначим через XS . Понятно, что
Y
xS ∈ XS =
Xi .
(1.11)
i∈S
В такой терминологии ситуация xN = (x1 , . . . , xn ) ∈ XN может интерпретироваться как стратегия максимальной коалиции N . При этом в
дальнейшем будем использовать следующее удобное представление, справедливое для любой ситуации xN = (x1 , . . . , xn ) и любой коалиции S:
xN = (xS , x−S ), xS ∈ XS , x−S ∈ X−S ,
(1.12)
где xS , x−S — наборы стратегий игроков, входящих в основную коалицию
S и дополнительную коалицию −S и соответствующих ситуации xN =
(x1 , . . . , xn ).
23
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Понятно, что данное представление ситуации xN = (x1 , . . . , xn )
может быть распространено на любое коалиционное разбиение
{Sj }Jj=1 множества всех игроков N , т. е.
xN = (x1 , . . . , xi , . . . , xn ) = (xS1 , . . . , xSj , . . . , xSJ ),
где xSj ∈ XSj ,
S
j
Sj = N, Si
T
(1.13)
Sj = ∅.
Зафиксируем коалицию S ⊂ N . Под функцией выигрыша коалиции
будем понимать функцию, заданную на всех ситуациях xN ∈ XN следующего вида
X
KS (xN ) = KS (xS , x−S ) ≡
Ki (xS , x−S ).
(1.14)
i∈S
­
®
Таким образом, с каждой игрой Γ = N, {Xi }i∈N , {Ki }i∈N связано
семейство игр двух лиц {Γ(S, −S)}S⊂N , где Γ(S, −S) — игра двух лиц,
определяемая следующим образом:
Γ2 (S, −S) ≡ hXS , X−S , KS , K−S i .
(1.15)
Операцию замены исходной игры Γ семейством игр {Γ(S, −S)}S⊂N , будем
называть декомпозицией игры по коалициям S.
Можно производить декомпозицию игры по коалиционному разбиению {Sj }Jj=1 . С этой целью достаточно ввести семейство игр ΓJ ({Sj }Jj=1 ),
S
Sj = N, Si ∩ Sj = ∅, где
j
D
ªJ
ªJ E
©
©
ΓJ ({Sj }Jj=1 ) ≡ {1, . . . , J} , XSj j=1 , KSj j=1 .
§ 1.5.
(1.16)
Равновесие по Нэшу
Что же означает фраза «действовать в игре оптимально»? Поначалу этот
вопрос кажется чрезвычайно простым. Поскольку каждый из игроков заинтересован в получении максимально возможного значения своей функции выигрыша, первое, что приходит на ум — это рекомендовать игрокам
такие стратегии, которые максимизировали бы их функции выигрыша.
К сожалению, реальность такова (это видно из внимательного рассмотрения игры в нормальной форме Γ (1.1)), что чаще всего ни один из игроков
не в состоянии выбором своей стратегии гарантировать максимально возможное значение своего выигрыша по той простой причине, что его выигрыш существенно зависит от того, что будут делать другие игроки (иначе
говоря, зависит от выбранных стратегий остальных игроков). Именно в
24
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.6.. Решение, оптимальное по Парето
этом заключается, возможно, наиболее важная и сложная проблема теории игр, — выяснить, что понимать под оптимальным поведением в игре
или под решением игры.
Определение 1.5.1. Под принципом оптимальности (или решением) s,
заданным на классе (подклассе) игр Γ = hN, {Xi }ni=1 , {Ki }ni=1 i в нормальной форме понимают функцию, ставящую в соответствие каждой игре
Γ этого класса определенное подмножество s(Γ) из множества XN всех
ситуаций в игре, т. е. s(Γ) ⊂ XN .
Наиболее распространенным принципом оптимального поведения или
принципом оптимальности считается выбор в качестве наилучшей некоторой ситуации равновесия, которая названа в честь Джона Нэша, сформулировавшего указанный принцип оптимальности в 1951 году. Этот принцип определяет в качестве оптимальных такие ситуации, для которых
любые индивидуальные отклонения игроков от входящих в эту ситуацию стратегий, не могут увеличить выигрыша отклонившегося игрока
при условии, что все остальные игроки придерживаются зафиксированных в этой ситуации стратегий. Математически это условие выражается
следующим образом.
Определение 1.5.2. Ситуация
x∗N = (x∗1 , . . . , x∗i−1 , x∗i , x∗i+1 , . . . , x∗n ) ∈ XN
в игре ΓN называется равновесием по Нэшу, если для каждого игрока i
и любой стратегии xi ∈ Xi этого игрока выполняется неравенство
Ki (x∗1 , . . . , x∗i−1 , x∗i , x∗i+1 , . . . , x∗n ) ≥ Ki (x∗1 , . . . x∗i−1 , xi , x∗i+1 , . . . , x∗n ). (1.17)
Заметим, что в обозначениях (1.14) условие (1.17) принимает следующий вид
Ki (x∗i , x∗−i ) ≥ Ki (xi , x∗−i ).
Множество всех ситуаций равновесия по Нэшу в игре Γ будем обозначать N E(Γ). В соответствии с определением 1.5.2, множество N E(Γ)
реализует определенный принцип оптимальности (а именно, принцип равновесия по Нэшу) для игры в нормальной форме.
§ 1.6.
Решение, оптимальное по Парето
Другой принцип оптимальности основан на понятии парето-оптимального
решения.
25
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Определение 1.6.1. Ситуация x̄N ∈ XN в игре Γ называется паретооптимальной (оптимальной по Парето), если не существует другой ситуации xN ∈ XN , когда неравенство
Ki (xN ) ≥ Ki (x̄N )
(1.18)
справедливо для каждого игрока i ∈ N и хотя бы для одного игрока i0 ∈ N
оно выполняется как строгое, т. е.
Ki0 (xN ) > Ki0 (x̄N ).
(1.19)
Множество всех парето-оптимальных решений игры Γ будем обозначать P O(Γ) (построение множества P O(Γ) реализует принцип оптимальности по Парето).
Если условия (1.18)–(1.19) выполнены, то говорят, что ситуация xN ∈
XN доминирует ситуацию x̄N ∈ XN по Парето. Тем самым, P O(Γ) —
это множество ситуаций, которые не доминируемы по Парето в игре Γ.
Другими словами, парето-оптимальной является такая ситуация, когда
состояние ни одного из игроков не может быть улучшено без ухудшения
состояния какого-то, по крайней мере одного другого игрока. В этом состоит коллективная рациональность парето-оптимального решения.
Заметим, что принцип оптимальности по Парето, вообще говоря, нельзя рассматривать как принцип некооперативного поведения, поскольку
его реализация связана с совместным выбором стратегий всеми игроками. Однако сейчас он нас интересует в большей степени как желательное
свойство «оптимального» решения, поскольку принцип оптимальности по
Парето выражает свойство коллективной рациональности принимаемого
решения.
Приведем несколько поучительных примеров нахождения равновесий
по Нэшу и парето-оптимальных решений для простейших биматричных
2 × 2 игр.
Пример 1.6.1. Рассмотрим биматричную игру Γ(A, B) с матрицей
·
¸
(5, 5) (10, 1)
(A, B) =
.
(1, 10) (2, 2)
Так как 5 ≥ 1, то ситуация (1, 1) является равновесием по Нэшу,
т. е. (1, 1) ∈ N E(Γ). Нетрудно проверить, что это единственное равновесие по Нэшу в данной игре, причем его выбор приводит к выигрышам (5,
5). Проверка всех четырех возможных ситуаций показывает, что множество оптимальных по Парето решений в данной задаче состоит из трех
26
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.6.. Решение, оптимальное по Парето
ситуаций и имеет вид: P O(ΓN ) = {(1, 1), (1, 2), (2, 1)}. Таким образом, ситуация (1, 1) является равновесной по Нэшу и одновременно оптимальной
по Парето (это, так называемое, сильное равновесие), поэтому именно его
в данном случае можно предложить в качестве нормативного решения
конфликта, моделируемого данной игрой.
Пример 1.6.2. («Семейный спор»). Рассмотрим игру Γ(A, B) с матрицей
·
¸
(4, 1) (0, 0)
(A, B) =
.
(0, 0) (1, 4)
Интересна экономическая интерпретация игры. Представьте себе, что
у двух игроков имеется два симметричных варианта кооперации, соответствующих выбору обоими игроками одинаковых стратегий. Однако один
вариант кооперации выгоден одному игроку, а другой — другому игроку.
Если же они выбирают различные стратегии, то кооперация не состоится,
и оба игрока имеют нулевой выигрыш.
Нетрудно найти, что в этой игре N E(Γ) = P O(Γ2 ) = {(1, 1), (2, 2)}.
Таким образом, здесь имеются два равновесия по Нэшу, неравнозначных
с точки зрения игроков. По этой причине возникает проблема выбора:
какое именно равновесие из двух указанных выберут игроки? Ясно, что
первому игроку более желательно первое равновесие, а второму — второе.
Тем самым, в процессе игры может возникнуть борьба за лидерство, когда
каждый из игроков стремится первым назвать свою стратегию, чтобы
навязать партнеру «свое равновесие».
Пример 1.6.3. («Дилемма заключенного»). Рассмотрим биматричную
игру Γ(A, B) с матрицей
·
¸
(5, 5) (1, 10)
(A, B) =
.
(10, 1) (2, 2)
Название игры происходит от следующей ее первоначальной интерпретации. Два участника преступной группы (игроки) ограбили банк, однако были задержаны полицией за незначительное нарушение (например,
за хулиганские действия). Полиция подозревает, что они участвовали в
ограблении банка, но у нее нет прямых улик. Для прояснения вопроса
подозреваемых посадили в одиночные камеры, лишив возможности обмениваться информацией и принимать согласованные решения. У каждого
игрока имеется две стратегии: 1-я — не сознаваться в ограблении и 2-я —
сознаться в ограблении.
Здесь также интересна экономическая интерпретация данной игры,
которая вызывает повышенный интерес к данному конфликту на протяжении последних десятилетий. У каждого игрока имеется две стратегии:
27
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
1-я — кооперироваться и 2-я — не кооперироваться (конкурировать). Если
оба игрока придерживаются стратегии кооперироваться, то они получают
выигрыши (5, 5). Если оба игрока придерживаются стратегии конкурировать, то они получают выигрыши (2, 2). Оказывается, однако, что выгодно
конкурировать, если другой игрок придерживается стратегии кооперации
(см. матрицу игры).
Заметим, что данная игра, на первый взгляд, незначительно отличается от игры из примера 1.6.1. Однако она моделирует абсолютно иной
конфликт. В данной игре имеется единственное равновесие по Нэшу:
(2, 2) ∈ N E(Γ), причем это равновесие не является оптимальным по Парето. Множество оптимальных по Парето ситуаций в данной игре такое
же, как и в примере 1.6.1: P O(Γ) = {(1, 1), (1, 2), (2, 1)}. Главная особенность и трудность выбора окончательного решения здесь состоит в том,
что равновесие по Нэшу доминируется по Парето ситуацией (1, 1). Другими словами, в данной игре налицо противоречие между индивидуально
и коллективно рациональным поведениями игроков. Действительно, используя приведенную выше экономическую интерпретацию игры, получаем, что кооперироваться выгодно обоим игрокам, однако такое поведение
не является устойчивым в плане индивидуального отклонения игроков (не
является равновесием по Нэшу). Если оба игрока будут конкурировать,
то получаем равновесие по Нэшу, но такое поведение невыгодно обоим
игрокам.
Пример 1.6.4. («Услуга за услугу»). Рассмотрим игру Γ(A, B) с матрицей
·
¸
(1, 1) (0, 1)
(A, B) =
.
(1, 0) (0, 0)
Интерпретация игры состоит в следующем. Выбор первой строки (столбца) соответствует «благожелательному» поведению по отношению к партнеру, а выбор второй строки (столбца) — «агрессивному» поведению. Если
оба игрока придерживаются «благожелательного» поведения, то они оказывают друг другу услугу и получают выигрыши (1, 1). Если оба игрока
придерживаются «агрессивного» поведения, то они получают выигрыши
(0, 0). В случае, когда игроки придерживаются различных типов поведения, то выбравший «агрессивное» поведение игрок получает выигрыш 1,
а другой игрок — выигрыш 0.
Парадоксальность конфликта заключается в том, что все ситуации в игре являются равновесными по Нэшу, т. е. N E(Γ) =
{(1, 1), (1, 2), (2, 1), (2, 2)} = XN . При этом только одна ситуация (1, 1)
является оптимальной по Парето, т. е. P O(Γ) = {(1, 1)}. Поэтому можно
считать, что здесь нет проблемы выбора. Именно ситуацию (1, 1) можно
28
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.6.. Решение, оптимальное по Парето
рекомендовать в качестве нормативного решения конфликта, моделируемого данной игрой.
Пример 1.6.5. Рассмотрим биматричную игру Γ(A, B) с матрицей
·
¸
(2, 0) (1, 1)
(A, B) =
.
(1, 1) (2, 0)
Непосредственной проверкой определения 1.5.2 для каждой из четырех имеющихся ситуаций в данной игре получаем, что здесь нет равновесия по Нэшу в чистых стратегиях, т. е. N E(Γ) = ∅. С другой стороны, множество оптимальных по Парето ситуаций совпадает с множеством всех
ситуаций в игре: P O(Γ) = {(1, 1), (1, 2), (2, 1), (2, 2)} = XN . Последнее обстоятельство не является случайным, поскольку, как нетрудно заметить,
данная игра — это игра с постоянной суммой. Отсутствие равновесия по
Нэшу делает невозможной проблему выбора конкретного решения в чистых стратегиях. Следует, однако, заметить, что если перейти от чистых
стратегий к смешанным стратегиям, то указанная проблема может быть
успешно решена в терминах равновесия по Нэшу в смешанном расширении игры.
Выделение определенных ситуаций равновесия в качестве претендента на оптимальное поведение достаточно естественно. Однако при ближайшем рассмотрении оказывается, что принцип равновесия по Нэшу
(как принцип оптимальности) обладает рядом свойств, затрудняющим его
практическое применение.
• Входящие в ситуацию равновесия стратегии нельзя считать оптимальными, поскольку ни один из игроков, использующих их в индивидуальном порядке, не может гарантировать себе выигрыша в
равновесной ситуации. Поэтому для реализации ситуации равновесия необходимо некоторое дополнительное соглашение между игроками о том, что они все предполагают придерживаться именно данного равновесия. Из вышесказанного получаем, что можно говорить
лишь об оптимальности ситуации равновесия в целом (т. е. для всех
игроков). Это, в свою очередь, требует, чтобы в игре существовала,
пусть даже незначительная кооперация (хотя бы на уровне возможности обмена информацией о выбираемых стратегиях).
• Также следует отметить (в общем случае) не единственность равновесия (при этом в различных равновесных ситуациях игроки, как
правило, получают различные по величине выигрыши). Другими
словами, может получиться так, что одна равновесная ситуация
29
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
предпочтительна одним игроком, а другая — другим (распространенный в литературе пример на эту тему — игра «семейный спор»).
• Далее может оказаться, что какая-то группа (коалиция) игроков при
отклонении от ситуации равновесия увеличивает свой выигрыш
(распространенный в литературе пример — игра «дилемма заключенного»).
• В случае, когда принцип оптимальности в игре зафиксирован, т. е.
определено, что понимается под оптимальным поведением, необходимо убедиться, что такое поведение возможно. В частности, если
в качестве принципа оптимальности выбрано равновесие по Нэшу,
надо убедиться, что такая ситуация в рассматриваемой игре действительно существует. В общем случае существование равновесия
в чистых стратегиях — достаточно редкое событие, однако известны достаточно широкие классы игр, для которых эта проблема
решается положительно.
Замечание 1.6.1. Особенно удачным является положение, когда равновесная по Нэшу ситуация является также оптимальной по Парето. В
таком случае решение удовлетворяет одновременно двум принципам оптимальности. К сожалению, такое положение дел достаточно редко встречается в статических играх, но может быть реализовано при определенной
модификации задачи в динамических играх.
Отмеченные проблемы, связанные с ситуациями равновесия, являются достаточно глубокими и лежат в самом существе конфликтного взаимодействия многих участников (игроков), и поэтому не должны рассматриваться в качестве негативной аргументации. В то же время, для
приложений наибольший интерес представляют те модели, в которых эти
проблемы могут быть решены хотя бы частично.
Как мы уже отмечали, один из крайне важных вопросов — это существование равновесия по Нэшу. На этот вопрос отвечают утверждения
следующих теорем. Заметим, что под равновесием по Нэшу в смешанных
стратегиях в игре Γ мы понимаем равновесие по Нэшу в ее смешанном
расширении Γ (см. параграф 1.3).
Теорема 1.6.1. В каждой конечной игре Γ в нормальной форме существует по крайней мере одна ситуация равновесия по Нэшу в смешанных
стратегиях.
Доказательство для случая биматричных игр см., например, в [Петросян, Зенкевич, Семина, 1998].
30
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.7.. Множество наилучших ответов. Функция реакции
Теорема 1.6.2. В каждой непрерывной игре ΓN с компактными множествами стратегий игроков существует, по крайней мере, одна ситуация
равновесия по Нэшу в смешанных стратегиях.
В формулировке следующей теоремы используется понятие функции,
которое обобщает понятие вогнутой функции. Функцию f , заданную на
выпуклом множестве X, X ⊂ Rn , называют квазивогнутой на множестве X, если для любых x, x0 ∈ X и всех чисел λ ∈ [0, 1] имеет место
неравенство
f (λx + (1 − λ)x0 ) ≥ min{f (x); f (x0 )}.
Можно проверить, что всякая вогнутая функция является квазивогнутой,
но не наоборот.
Теорема 1.6.3. Если в непрерывной игре Γ множества стратегий всех
игроков непустые, выпуклые и компактные, а функция выигрыша каждого игрока квазивогнута (в частности, вогнута) на множестве стратегий этого игрока, то в игре существует ситуация равновесия по Нэшу
в чистых стратегиях.
Приведенные результаты не являются независимыми. Наиболее общий
из них сформулирован в теореме 1.6.3 (см. [Debreu, 1952; Glicksberg, 1952;
Fan Ky, 1952]). Сами утверждения вышеприведенных теорем указывают
те основные классы игр, в которых рассмотрение равновесия по Нэшу
содержательно оправдано.
Если из тех или иных соображений стало известно, что равновесие
в данной игре существует, то сразу возникает другой, крайне важный с
точки зрения практики, вопрос: как находить существующие равновесия?
§ 1.7.
Множество наилучших ответов. Функция реакции
Из определения 1.5.2 следует, что если стратегия игрока входит в ситуацию равновесия, то на ней достигает максимума его функция выигрыша,
при условии, что остальные игроки придерживаются стратегий, входящих
в ситуацию равновесия. Остановимся на этом свойстве подробнее.
Рассмотрим игру Γ = hN, {Xi }ni=1 , {Ki }ni=1 i в нормальной форме. Обозначим через BRi (x−i ) — множество наилучших ответов игрока i на
поведение дополнительной коалиции x−i ∈ X−i :
¾
½ ¯
¯
BRi (x−i ) = xi ¯¯Ki (xi , x−i ) = max Ki (yi , x−i ) ≡
yi
≡ arg max Ki (yi , x−i ).
yi
(1.20)
31
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Множество наилучших ответов игрока содержит все стратегии этого
игрока, на которых достигается максимум его функции выигрыша, при
условии, что ему известна стратегия дополнительной коалиции.
Непосредственно из определения 1.5.2 следует следующая теорема.
Теорема 1.7.1. Ситуация x∗N ∈ XN образует ситуацию равновесия в
игре ΓN = hN, {Xi }ni=1 , {Ki }ni=1 i тогда и только тогда, когда включение
x∗i ∈ BRi (x∗−i ) имеет место для каждого игрока i.
Данный результат может быть использован для нахождения равновесия по Нэшу, по крайней мере, в классе конечных игр, при условии, что
само равновесие существует.
Пример 1.7.1. («Игра голосование»). Три выборщика (игроки 1, 2, 3 соответственно) должны выбрать одного кандидата (стратегии a, b, c соответственно). Каждый выборщик может и должен голосовать только за
одного кандидата из числа названных представителей. В результате голосования проходит тот кандидат, за которого проголосовало большинство
выборщиков. Обозначим через ui (a) полезность i от того, что в результате голосования прошел кандидат a. Полезности прохождения кандидатов
для игроков равны:
u1 (a) = u2 (b) = u3 (c) = 3,
u1 (b) = u2 (c) = u3 (a) = 2,
u1 (c) = u2 (a) = u3 (b) = 1.
Если ни один из кандидатов не набрал большинства голосов, то не проходит ни один из заявленных кандидатов, и полезности всех игроков в этом
случае равны 0.
Найдем равновесия по Нэшу. Пусть игрок 1 голосует за a. Если игрок
3 голосует за a, то игрок 2 не изменит исход, как бы он не голосовал.
Поэтому его наилучшим ответом будет любая стратегия. Если игрок 2 голосует за a или b, то наилучшим ответом игрока 3 будет a. Если же игрок
2 голосует a или b, а игрок 3 — голосует a, то наилучший ответ игрока 1,
очевидно, — голосовать a. Таким образом, ситуации (a, a, a) и (a, b, a) являются ситуациями равновесия по Нэшу. В качестве упражнения, найдите
множество всех ситуаций равновесия по Нэшу в этой игре.
Пример 1.7.2. («Парадокс Бертрана»). Рассмотрим модель дуополии по
Бертрану, сформулированную в примере 1.2.2 Предположим, что предельные затраты у обеих фирм одинаковы, т. е. ci = c. Тогда единственное
32
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.8.. Линейная модель дуополии по Курно
равновесие по Нэшу имеет вид: (c, c) ∈ N E(ΓB
2 ). Покажем, что (c, c) —
это равновесие по Нэшу в дуополии Бертрана. Очевидно, что c ∈ BRi (c).
Действительно, если игроки выбирают (c, c), то обе фирмы получают нулевую прибыль. Если фирма выбирает pi > c, то она имеет нулевой спрос
и ее прибыль равна нулю. Если же она выбирает pi < c, то получает весь
рыночный спрос, однако прибыль фирмы отрицательна, поскольку цена
продажи ниже предельных затрат. Что касается проверки единственности
равновесия, то для ее осуществления необходимо рассмотреть все другие
возможные варианты и показать, что они не являются равновесиями по
Нэшу. Что и требовалось доказать.
Равновесие по Нэшу в модели Бертрана в экономической литературе называется равновесием Бертрана. Парадокс этой модели (парадокс
Бертрана) заключается в том, что в отрасли с высоким уровнем концентрации (дуополия) фирмы в ситуации равновесия работают с нулевой
прибылью (равновесные цены равны предельным затратам). Известно,
что именно такие цены назначают фирмы в ситуации равновесия, но в
условиях совершенной конкуренции (это утверждение теоремы Эрроу).
§ 1.8.
Линейная модель дуополии по Курно
Нахождение ситуации равновесия по Нэшу в классе непрерывных игр
представляет собой непростую вычислительную задачу. Однако если для
каждого игрока i функция выигрыша Ki (xi , x−i ) является вогнутой по
переменной xi на выпуклом компактном множестве Xi , то в непрерывной игре множество BRi (x−i ) не пусто для всех x−i ∈ X−i и i ∈ N . В
силу теоремы 1.6.3 равновесие в чистых стратегиях существует. Поэтому
для нахождения равновесия по Нэшу можно воспользоваться теоремой
1.7.1. Проблема нахождения равновесия по Нэшу становится технической
и заключается в построении множеств BRi (x−i ) наилучших ответов, что,
однако, на практике может составить сложную вычислительную задачу.
Сделаем теперь дополнительное предположение о том, что множества BRi (x−i ) являются одноэлементными для всех x−i ∈ X−i и i ∈ N ,
т.е. BRi (x−i ) содержит единственный элемент, который мы обозначим
Ri (x−i ). В этом случае условие (1.20) можно переписать в виде
xi = Ri (x−i ) при x−i ∈ X−i ,
(1.21)
где Ki (R(x−i ), x−i ) = max Ki (yi , x−i ). Тем самым, каждому x−i ∈ X−i
yi ∈Xi
ставится в соответствие определенная стратегия xi . Это означает, что
на множестве всех возможных x−i ∈ X−i задана некоторая функция. Ее
называют функцией реакции игрока i.
33
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Для существования функции реакции xi = Ri (x−i ) достаточно, например, предположить, чтобы функции Ki (xi , x−i ) были строго вогнутыми
по переменной xi на выпуклом множестве Xi для всякого игрока i. Таким
образом, имеет место следующий результат.
Теорема 1.8.1. Если в непрерывной игре Γ множества стратегий Xi
всех игроков i непустые, выпуклые и компактные, а функция выигрыша Ki (xi , x−i ) каждого игрока i строго вогнута на множестве стратегий этого игрока, то в такой игре существуют функции реакции
xi = R(x−i ), x−i ∈ X−i для каждого игрока i и равновесие по Нэшу.
Ситуация x∗N = (x∗i , x∗−i ) ∈ XN образует ситуацию равновесия по Нэшу
в игре Γ тогда и только тогда, когда x∗i = R(x∗−i ) для всех i ∈ N .
В предположениях теоремы 1.8.1 мы получаем конструктивные условия для нахождения равновесия по Нэшу:
x∗i = R(x∗−i ) для всех i ∈ N.
Тем самым, проблема нахождения равновесия сводится к построению
функций реакции для каждого из игроков. В условиях дифференцируемости функций выигрыша игроков решение указанной проблемы в некоторых случаях сводится к решению определенной системы уравнений.
В самом деле, обозначим частную производную функции выигрыша
∂Ki (xi , x−i )
произвольного игрока i по переменной xi через Kii (xi , x−i ) ≡
.
∂xi
Аналогично, для частной производной второго порядка примем обозначе∂ 2 Ki (xi , x−i )
. Из курса математического анализа изние Kiii (xi , x−i ) ≡
∂ 2 xi
вестно, что если функция Ki (xi , x−i ) достигает наибольшего значения по
переменной xi во внутренней точке, то выполняется необходимое условие
экстремума первого порядка:
Kii (xi , x−i ) = 0 для всех i ∈ N.
(1.22)
Если при этом функция Ki (xi , x−i ) оказывается вогнутой по xi , то условие
(1.22) является и достаточным для равновесия по Нэшу.
В случае, когда функция выигрыша Ki (xi , x−i ) дважды дифференцируема по xi , условие вогнутости по xi (в терминах частных производных
второго порядка) примет вид:
Kiii (xi , x−i ) ≤ 0, для всех x−i ∈ X−i , i ∈ N.
34
(1.23)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.8.. Линейная модель дуополии по Курно
Решая уравнение (1.22), можно найти равновесие по Нэшу. Если же
функция Ki (xi , x−i ) является строго вогнутой по переменной xi , то уравнение (1.22) неявно задает функцию реакции:
xi = Ri (x−i ), x−i ∈ X−i .
Когда функция Ki (xi , x−i ) дважды дифференцируема по xi , условие строгой вогнутости по xi (необходимое условие экстремума второго порядка)
может быть записано в виде
Kiii (xi , x−i ) < 0 для всех x−i ∈ X−i и всех i ∈ N.
(1.24)
В некоторых простых случаях указанная выше техника позволяет находить равновесие по Нэшу в непрерывной игре.
Пример 1.8.1. («Линейная модель дуополии по Курно».) Рассмотрим
пример 1.2.1 при дополнительных линейных предположениях о функции
спроса и функциях затрат. Заметим, что в экономической литературе равновесие по Нэшу в модели Курно называют равновесием Курно.
Предположим, что обратная функция спроса (функция цены) имеет
вид P (q) = a − q. Пусть функции затрат также линейны по объемам
выпуска, а именно: Ci (qi ) = ci qi . Тогда функции прибыли примут вид:
Πi (qi , qj ) = qi (a − qi − qj ) − ci qi ,
qi ≥ 0.
Заметим, что функции прибыли фирмы i строго вогнуты по объемам
выпуска qi этой фирмы, поэтому условия первого порядка являются необходимыми и достаточными для равновесия по Нэшу.
Выписываем необходимое условие экстремума первого порядка для
функции Πi (qi , qj ) :
qj + 2qi + ci − a = 0.
(1.25)
Отсюда, в частности, получаем функции реакции конкурирующих
фирм:
a − qj − ci
qi = Ri (qj ) =
2
Решая систему уравнений (1.25), получаем равновесие по Нэшу (равновесие Курно):
a − 2ci + cj
qi∗ =
,
3
причем прибыль в равновесии при соответствующей подстановке составит
величину
(a − 2ci + cj )2
Π∗i =
> 0.
9
35
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Заметим, что в отличие от равновесия Бертрана в равновесии Курно каждая фирма имеет положительную прибыль. Равновесный выпуск фирмы
убывает с увеличением ее предельных затрат. Любопытно, что он возрастает с увеличением предельных затрат конкурента. Это происходит от
того, что более высокие затраты конкурента заставляют его снижать объем производства, что, в свою очередь, увеличивает остаточный спрос на
продукцию фирмы, побуждая ее увеличивать объем производства.
§ 1.9.
Недоминируемые и доминирующие стратегии
Прежде чем определить понятия, вынесенные в заголовок параграфа, введем отношения доминирования и эквивалентности на множестве стратегий фиксированного игрока.
Определение 1.9.1. Говорят, что стратегия xi игрока i в игре ΓN =
hN, {Xi }ni=1 , {Ki }ni=1 i доминирует стратегию yi этого игрока, если для
всех x−i ∈ X−i выполнено неравенство
Ki (xi , x−i ) ≥ Ki (yi , x−i )
и хотя бы для одного x−i ∈ X−i справедливо строгое неравенство
Ki (xi , x−i ) > Ki (yi , x−i ).
Отношение доминирования вводит определенное отношение порядка
на множестве стратегий Xi игрока i.
Неформально перефразируя определение 1.9.1, получаем, что одна
стратегия игрока доминирует другую стратегию этого же игрока, если
при использовании игроком этой стратегии его выигрыш не меньше, чем
при использовании другой стратегии независимо от стратегии дополнительной коалиции, при этом найдется такая стратегия дополнительной
коалиции, что этот выигрыш окажется строго больше.
Определение 1.9.2. Будем говорить, что стратегии xi и yi игрока i
эквивалентны, если для всех x−i ∈ X−i выполняется равенство
Ki (xi , x−i ) = Ki (yi , x−i ).
Эквивалентность стратегий означает, что они по существу равнозначны для игрока, поскольку их использование при произвольном поведении дополнительной коалиции приводит к одинаковым выигрышам.
Введем теперь принцип оптимальности, основанный на использовании
игроками не доминируемых стратегий.
36
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.9.. Недоминируемые и доминирующие стратегии
Определение 1.9.3. Будем говорить, что стратегия xi игрока i в игре
ΓN = hN, {Xi }ni=1 , {Ki }ni=1 i является недоминируемой стратегией этого
игрока, если не существует такой стратегии yi ∈ Xi игрока i, которая
доминирует xi . В противном случае стратегия xi игрока i в игре ΓN
называется доминируемой стратегией этого игрока.
Множество всех недоминируемых стратегий игрока i в игре ΓN обозначим через N Di (ΓN ). Из общих соображений ясно, что игроку имеет
прямой смысл выбирать свою стратегию именно из класса недоминируемых стратегий.
Замечание 1.9.1. Формально множество N Di (ΓN ) недоминируемых
стратегий игрока i зависит от функции выигрыша этого игрока и множеств стратегий всех игроков. Пока мы будем использовать введенное
обозначение, однако более корректным является обозначение, которое будет использовано в следующем параграфе:
N Di (ΓN ) = N Di (Ki , {Xi }ni=1 ).
Q
Обозначим через N D(ΓN ) ≡ i∈N N Di (ΓN ) множество всех ситуаций, составленных из недоминируемых стратегий игроков (это, так называемые,
ситуации в недоминируемых стратегиях). Множество N D(ΓN ) всех ситуаций в недоминируемых стратегиях согласно определению 1.5.1 реализует определенный принцип оптимальности.
Нетрудно понять, что в классе конечных игр у каждого игрока существуют недоминируемые стратегии. Для непрерывных игр недоминируемые стратегии у каждого игрока существуют при стандартных предположениях.
Утверждение 1.9.1. Пусть в непрерывной игре множество стратегий
каждого игрока является компактным. Тогда у каждого игрока множество недоминируемых стратегий не пусто.
Доказательство этого результата можно найти, например в [Мулен,
1985].
Введем теперь понятие доминирующей стратегии игрока.
=
Определение 1.9.4. Стратегия xi игрока i в игре ΓN
n
n
hN, {Xi }i=1 , {Ki }i=1 i называется доминирующей стратегией этого
игрока, если для всех x−i ∈ X−i и для всех yi ∈ Xi выполняется
неравенство
Ki (xi , x−i ) ≥ Ki (yi , x−i ).
37
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Другими словами, доминирующая стратегия игрока — это такая стратегия, которая доминирует любую стратегию игрока или же эквивалентна
ей. Обозначим множество всех доминирующих стратегий игрока i через
Di (ΓN ).
Замечание 1.9.2. К сожалению, существование доминирующей стратегии у игрока — это довольно редкое явление в сравнении с существованием недоминируемых стратегий. Доминирующая стратегия может не
существовать даже в классе конечных игр. Приведем результат, который
определенным образом связывает понятия недоминируемой и доминирующей стратегий.
Теорема 1.9.1. Предположим, что в игре ΓN = hN, {Xi }ni=1 , {Ki }ni=1 i
множество доминирующих стратегий Di (ΓN ) не пусто (т. е. Di (ΓN ) 6=
∅). Тогда справедливы следующие уверждения:
1. Все стратегии в множестве Di (ΓN ) эквивалентны между собой.
2. Имеет место равенство множеств Di (ΓN ) = N Di (ΓN ).
Пусть выполнены условия теоремы, т. е. существует доминирующая
стратегия xi игрока i. Покажем, что все доминирующие стратегии эквивалентны.
Если множество Di (ΓN ) одноэлементное, то доказываемое утверждение является очевидным.
Пусть x1i и x2i — две произвольные доминирующие стратегии. Тогда
для всех x−i ∈ X−i выполняются неравенства
Ki (x1i , x−i ) ≥ Ki (x2i , x−i ),
Ki (x2i , x−i ) ≥ Ki (x1i , x−i ).
Поэтому для всех x−i ∈ X−i справедливо равенство
Ki (x1i , x−i ) = Ki (x2i , x−i ).
Если xi ∈ Di (ΓN ), то очевидно, что xi ∈ N Di (ΓN ), т. е. имеет место включение Di (ΓN ) ⊂ N Di (ΓN ). Проверим обратное включение. Если xi ∈ N Di (ΓN ), то, рассуждая от противного, получим включение
xi ∈ Di (ΓN ), и стратегия xi эквивалентна доминирующей стратегии (последняя существует по условию теоремы). Таким образом, справедливо
равенство Di (ΓN ) = N Di (ΓN ).
Замечание 1.9.3. Из доказательства теоремы 1.9.1 получаем, что любая стратегия, эквивалентная доминирующей, также является доминирующей стратегией этого игрока.
38
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.10.. Принцип единогласия
§ 1.10.
Принцип единогласия
Q
Обозначим через D(Γ) ≡ i∈N Di (Γ) множество всех ситуаций в доминирующих стратегиях. Множество D(Γ) реализует принцип оптимальности, который часто называется принципом единогласия.
Особенность этого принципа заключается в том, что каждый игрок
произвольно выбирает свою доминирующую (наилучшую) стратегию, при
этом такой выбор не зависит от того, какая конкретно доминирующая
стратегия выбрана (все доминирующие стратегии игрока эквивалентны).
Поэтому если доминирующие стратегии у каждого игрока существуют, то
трудно предположить, что они откажутся от такого выбора. Таким образом, они единогласно сыграют в ситуацию в доминирующих стратегиях.
Связь между принципами единогласия и равновесия по Нэшу выражена
в следующей теореме.
Теорема 1.10.1. Для игры Γ = hN, {Xi }ni=1 , {Ki }ni=1 i в нормальной форме имеет место включение
D(Γ) ⊂ N E(Γ).
Д о к а з а т е л ь с т в о. Пусть xN = (xi , x−i ) ∈ D(Γ). Тогда для всех
i ∈ N , y−i ∈ X−i и всех yi ∈ Xi имеет место неравенство
Ki (xi , y−i ) ≥ Ki (yi , y−i ).
Это неравенство справедливо и для стратегии дополнительной коалиции
y−i = x−i ∈ X−i . Полученное означает, что xN — равновесие по Нэшу.
Пример 1.10.1. Рассмотрим биматричную игру Γ(A, B) из примера
1.6.1. с матрицей
·
¸
(5, 5) (10, 1)
(A, B) =
.
(1, 10) (2, 2)
Здесь у игрока 1 (игрока 2) выбор строки (столбца) 1 является доминирующей стратегией, поэтому ситуация (1, 1) ∈ N E(Γ) является единственной ситуацией в доминирующих стратегиях, т. е. N D(Γ) = D(Γ) =
N E(Γ) ⊂ P O(Γ).
Пример 1.10.2. («Семейный спор»). Рассмотрим игру Γ(A, B) с матрицей из примера 1.6.2.
·
¸
(4, 1) (0, 0)
(A, B) =
.
(0, 0) (1, 4)
39
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
В этой игре у каждого игрока обе стратегии являются недоминируемыми. Доминирующих стратегий ни у одного игрока не существует, хотя
в наличии два оптимальных по Парето равновесия по Нэшу. Таким образом, в данной игре имеют место следующие соотношения: D(Γ) = ∅,
N D(Γ) ⊃ N E(Γ) = P O(Γ).
Пример 1.10.3. («Дилемма заключенного»). Рассмотрим биматричную
игру Γ(A, B) из примера 1.6.3 с матрицей
·
¸
(5, 5) (1, 10)
(A, B) =
.
(10, 1) (2, 2)
Здесь у игрока 1 (игрока 2) выбор строки (столбца) 2 является доминирующей стратегией. Поэтому ситуация (2, 2) ∈ N E(Γ) является единственной ситуацией в доминирующих
стратегиях, т. е. N D(Γ) = D(Γ) =
T
N E(Γ). Однако N E(Γ) P O(Γ) = ∅.
Пример 1.10.4. («Услуга за услугу») Рассмотрим игру Γ(A, B) из примера 1.6.4. с матрицей
·
¸
(1, 1) (0, 1)
(A, B) =
.
(1, 0) (0, 0)
Здесь у каждого игрока обе стратегии доминирующие, а потому эквивалентные (см. утверждение теоремы 1.9.1). При этом, N D(Γ) = D(Γ) =
N E(Γ) ⊃ P O(Γ), где множество парето-оптимальных ситуаций состоит
из единственного элемента (1, 1).
Пример 1.10.5. Рассмотрим биматричную игру Γ(A, B) с матрицей
·
¸
(2, 0) (1, 1)
(A, B) =
.
(1, 1) (2, 0)
В данной игре ни у одного из игроков не существует доминирующих
стратегий, причем каждая стратегия игрока — недоминируемая. Множество равновесий по Нэшу является пустым. Таким образом, в данной игре имеют место следующие соотношения: D(Γ) = ∅, N E(Γ) = ∅,
N D(Γ) = P O(Γ), при этом все ситуации парето-оптимальны.
Ограниченная применимость принципа единогласия (равновесия в доминирующих стратегиях) заключается в том, что доминирующие стратегии существуют крайне редко, тем более у всех игроков одновременно,
как того требует принцип единогласия.
40
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.11.. Сложное равновесие
Пример 1.10.6. («Аукцион неделимого товара»). Рассмотрим сначала
аукцион первой цены из примера 1.1.1а. Напомним, что при одинаковых
ценах предпочтение здесь отдается игроку с большей ценностью (меньшим номером). Покажем, что стратегия vi доминирует всякую стратегию,
т. е. имеет место неравенство xi > vi . Действительно, если верно xi > vi ,
то для любого x−i ∈ X−i выполняется неравенство
Ki (xi , x−i ) ≤ 0 = Ki (vi , x−i ).
Отсюда следует равенство N Di (ΓN ) = [c, vi ], причем ни у одного из игроков нет доминирующей стратегии, т. е. Di (ΓN ) = ∅, i ∈ N .
Для аукциона второй цены (пример 1.1.1б) ситуация иная. Напомним,
что в случае второй цены победителем является игрок, назначивший большую цену, но платит он вторую из предложенных цен.
Покажем, что стратегия vi является доминирующей для игрока i. Действительно, если, выбирая стратегию vi , игрок выигрывает аукцион при
стратегии дополнительной коалиции x−i ∈ X−i , то для всех xi ∈ Xi имеет
место неравенство
Ki (xi , x−i ) ≤ 0 = Ki (vi , x−i ) = vi − x+
−i .
Если же, выбирая vi , игрок проигрывает аукцион при стратегии дополнительной коалиции x−i ∈ X−i , то для всех xi ∈ Xi выполняется неравенство
Ki (xi , x−i ) ≤ 0 = Ki (vi , x−i ).
Поэтому Di (ΓN ) = {vi } и множество равновесий в доминирующих
стратегиях D(ΓN ) состоит из единственной ситуации vN = (v1 , . . . , vn ).
Выбор равновесия в доминирующих стратегиях приводит к победе игрока 1, при этом он платит цену v2 .
Заметим, что в этом примере равновесие в доминирующих стратегиях
не является оптимальным по Парето, поскольку оно доминируется ситуc = (c, . . . , c).
ацией vN
§ 1.11.
Сложное равновесие
Использование недоминируемых стратегий связано с исключением из рассмотрения доминируемых стратегий каждого игрока, а тем самым сужения множества стратегий, участвующих в рассмотрении. Как правило,
такое исключение стратегий приводит к некоторому подмножеству стратегий игрока, которые несравнимы между собой. Однако такую процедуру можно продолжить, предполагая, что игроки придерживаются только
41
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
недоминируемых стратегий. В ряде случаев такая процедура последовательного исключения естественным образом останавливается. В итоге подобным образом может быть получен новый класс решений.
Определение 1.11.1. Для игры Γ = hN, {Xi }ni=1 , {Ki }ni=1 i последовательное исключение доминируемых
© ªстратегий означает построение
последовательностей множеств Xit для всех i ∈ N (где Xit+1 =
= N Di (Ki , {Xit }ni=1 )), обладающих свойством вложенности друг в друга
Xi = Xi0 ⊃ Xi1 ⊃ · · · ⊃ Xit ⊃ Xit+1 ⊃ · · · .
Говорят, что игра Γ разрешима по доминированию, если существует
такое целое число
величина выигрыша Ki не зависит от xi на мноQ t, что
t =
t , т. е. для всех x , y ∈ X t и x
t
жестве XN
X
i i
−i ∈ X−i выполняется
i
i
i∈N
равенство
Ki (xi , x−i ) = Ki (yi , x−i ).
t в этом
Если игра Γ разрешима по доминированию, то множество XN
случае называется множеством сложных равновесий. Заметим, что праt задает принцип оптимальности (принцип
вило построения множества XN
сложного равновесия) на множестве игр, разрешимых по доминированию.
Анализ приведенных определений показывает, что реализовать сложное равновесие можно только в том случае, когда все игроки придерживаются парадигмы последовательного исключения доминируемых стратегий. При этом сложные равновесия формируются из стратегий игроков,
t в смысле определения 1.9.2.
эквивалентных на XN
Замечание 1.11.1. Если в игре существует ситуация в доминирующих
стратегиях, то данная игра разрешима по доминированию, при этом
процедура исключения доминируемых стратегий сходится за один шаг
к множеству равновесий в доминирующих стратегиях. Поэтому сложное равновесие является естественным обобщением понятия равновесия
в доминирующих стратегиях. Другими словами, если D(ΓN ) 6= ∅, то
t = X 1 = D(Γ ).
XN
N
N
Пример 1.11.1. («Выборы с президентом»). Предполагается, что три
выборщика (игрока) из множества N = {1, 2, 3} должны выбрать один
из трех проектов {a, b, c}. Если большинство голосует за один проект, то
этот проект и проходит. Если, однако, ни за какой проект не подано большинство голосов, то проходит тот проект, который предложил игрок 1
(президент). В этом смысле игрок 1 является главным при данном механизме голосования. Предположим, что полезности игроков от реализации
42
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.11.. Сложное равновесие
проекта (если он будет выбран голосованием) имеют следующую структуру:
u1 (c) < u1 (b) < u1 (a),
u2 (b) < u2 (a) < u2 (c),
u3 (a) < u3 (c) < u3 (b).
Таким образом, мы имеем игру трех лиц в нормальной форме. Множества
стратегий у всех игроков одинаковы: Xi = {a, b, c}. Функции выигрыша
игроков вычисляются по правилу:
Ki (x1 , x2 , x3 ) = ui (s(x1 , x2 , x3 )),
где
½
s(x1 , x2 , x3 ) =
x1 ,
x2 ,
если x2 6= x3 ,
если x2 = x3 .
Проведем анализ на доминирование в данной игре. У игрока 1 имеется
доминирующая стратегия — голосовать a. Таким образом,
X11 = N D1 (K1 , {Xi }3i=1 ) = D1 = {a}.
Игроки 2 и 3 не имеют доминирующих стратегий. Игрок 2 имеет две
недоминируемые стратегии a и c. Игрок 3 также имеет две недоминируемых стратегии: b и c. Поэтому
X21 = N D2 (K2 , {Xi }3i=1 ) = {a, c},
X31 = N D3 (K3 , {Xi }3i=1 ) = {b, c}.
Продолжим процедуру исключения доминируемых стратегий, предполагая, что на втором шаге все игроки используют только недоминируемые
стратегии. В результате имеем
X12 = N D1 (K1 , {Xi1 }3i=1 ) = D1 = {a},
X22 = N D2 (K2 , {Xi1 }3i=1 ) = {c},
X32 = N D3 (K3 , {Xi1 }3i=1 ) = {c}.
Итак, после двух шагов исключения доминируемых стратегий получаем, что данная игра разрешима по доминированию, при этом сложное
равновесие соответствует выбору проекта c, т. е. побеждает большинство.
43
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
§ 1.12.
Осторожное поведение. Антагонистические игры
В этом параграфе рассматривается принцип оптимальности, который реализует пессимистическое предположение игрока о том, что случится самое
худшее.
Рассмотрение не будет использовать информацию о функциях выигрыша всех игроков, но зависит от множеств стратегий всех игроков, так
же как и в случае исключения доминируемых стратегий.
Определение 1.12.1. В игре Γ = hN, {Xi }ni=1 , {Ki }ni=1 i стратегия x0i ∈
Xi называется осторожной стратегией игрока i, если выполнено условие
min Ki (x0i , x−i ) = max
x−i ∈X−i
min Ki (yi , x−i ) ≡ αi .
yi ∈Xi x−i ∈X−i
Следует отметить, что осторожная стратегия игрока i часто называется максиминной стратегией данного игрока, что связано со способом
построения стратегии. Число αi называют максимальным гарантированным выигрышем игрока i. Обозначим через CPi (Γ) множество всех осторожных стратегий игрока i.
0
0
0
Введем следующие обозначения:
Q xN = (x1 , . . . , xn ) — ситуация в осторожных стратегиях и CP (Γ) =
CPi (Γ) — множество всех ситуаций
i∈N
в осторожных стратегиях.
Принцип оптимальности, реализующий выбор CP (Γ), будем
в дальнейшем называть принципом осторожного поведения или
принципом гарантированного результата.
Понятно, что в классе конечных игр осторожное поведение реализуемо. Для непрерывных игр справедлив следующий результат, доказательство которого можно найти, например в [Debreu, 1952].
Утверждение
1.12.1. В непрерывной игре с компактными
множествами стратегий игроков множество осторожных стратегий каждого игрока не пусто и компактно.
Заметим, что осторожное поведение далеко не всегда «оптимально»
в смысле равновесия по Нэшу. В качестве примера, подтверждающего
указанное положение, рассмотрим следующую простую игру.
Пример 1.12.1. Пусть дана матричная игра с матрицей выигрышей
(проигрышей) игрока 1 (игрока 2):
·
¸
1 0
.
0 1
44
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.12.. Осторожное поведение. Антагонистические игры
Максимальный гарантированный выигрыш игрока 1 в этой игре равен
0, а максимальный гарантированный проигрыш игрока 2 равен 1. При
этом в игре нет равновесия. Поэтому ситуация в осторожных стратегиях
не образует ситуацию равновесия.
Если игрок i использует осторожную стратегию x0i ∈ Xi , то он независимо от поведения дополнительной коалиции гарантирует себе выигрыш,
по меньшей мере, в размере αi . Интуитивно понятно, что при любом таком «оптимальном» поведении каждый игрок должен получать выигрыш
не меньше максимального гарантированного.
Определение 1.12.2. Ситуация xN ∈ XN называется индивидуально
рациональной для игрока i, если выполняется неравенство Ki (xN ) ≥ αi .
Множество всех индивидуально рациональных ситуаций
игрока i в
T
игре Γ обозначим через IRi (Γ). Множество IR(Γ) ≡
IRi (Γ) будем наi∈N
зывать множеством индивидуально рациональных ситуаций в игре Γ.
Нетрудно понять, что имеет место включение CP (Γ) ⊂ IR(Γ), т.е. в игре
каждая ситуация в осторожных стратегиях является индивидуально рациональной. Из определений 1.12.1, 1.12.2 непосредственно следует такой
результат.
Утверждение 1.12.2. Произвольное равновесие по Нэшу в игре Γ индивидуально рационально для каждого игрока.
Формально указанный результат можно записать следующим образом:
N E(Γ) ⊂ IR(Γ).
Отсюда, в частности, получаем, что равновесие в доминирующих стратегиях также индивидуально рационально.
Замечание 1.12.1. Продолжая теперь мысль, сформулированную в замечании 1.6.1, можно сказать, что принцип оптимальности можно считать «приемлемым» в некотором классе игр в нормальной форме, если он удовлетворяет одновременно свойствам индивидуальной и коллективной рациональности, т. е. является индивидуально рациональным,
равно как и оптимальным по Парето. К сожалению, подобное положение
имеет место не всегда.
Однако не все так пессимистично. Например, в классе игр с нулевой
(постоянной) суммой принцип равновесия по Нэшу является приемлемым принципом оптимальности. Действительно, равновесие по Нэшу
45
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
является индивидуально рациональным, а в игре с нулевой суммой всякая ситуация оптимальна по Парето.
В дальнейшем будет показано, что в классе антагонистических игр
приемлемым принципом оптимальности является осторожное поведение (при условии, что равновесие существует).
Приведем пример игры с постоянной суммой, для которой осторожное
поведение приемлемо.
Пример 1.12.2. («Дележ пирога»). Рассмотрим дележ пирога конечного размера между n игроками. Предполагается, что выигрыш каждого
участника равен доле пирога, которая ему достанется в результате дележа. Постулируется следующая n-шаговая процедура дележа пирога. На
первом шаге разыгрывается первая доля пирога и игрок 1 объявляет, что
он претендует на долю x1 ≤ 1. Игрок 2 может с ним согласиться. Если
все остальные игроки также согласны с предложением игрока 1, то игрок
1 получает свою долю и покидает игру. Если игрок 2 не согласен, то он
должен сделать свою заявку x2 < x1 . Далее игрок 3 может либо согласиться с игроком 2, либо сделать свое предложение и т. д. Игрок, чья заявка
xi < xi−1 принята всеми игроками, забирает заявленную долю и покидает
игру. После этого игроки по этой схеме разыгрывают очередную долю. На
последнем шаге остается один игрок, который забирает остаток. Анализ
показывает, что максимальный гарантированный выигрыш каждого игрока равен 1/n, осторожное поведение оптимально (в смысле равновесия
по Нэшу), и оно ведет к справедливому (т. е. с равными долями) дележу
пирога.
Исследуем теперь, как осторожное поведение реализуется в классе антагонистических игр. Оказывается, что в этом классе игр осторожное поведение является оптимальным в том смысле, что оно является равновесием в игре.
Рассмотрим антагонистическую игру Γ1 = hX, Y, Ki. Здесь каждый игрок выбором своей стратегии стремится максимизировать свой выигрыш.
Однако для игрока 1 он определяется функцией выигрыша K(x, y), а для
игрока 2 — противоположной по знаку функцией, т. е. −K(x, y). Предполагается, что оба игрока действуют «разумно», т. е. стремятся к получению
максимального выигрыша, считая, что соперник действует наилучшим
(для себя) образом. Пусть игрок 1 выбрал стратегию x. Тогда в худшем
случае он выиграет величину miny K(x, y). Поэтому игрок 1 всегда может
гарантировать себе выигрыш в размере maxx miny K(x, y). Если отказаться от предположения достижимости экстремумов, то игрок 1 может всегда
46
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.12.. Осторожное поведение. Антагонистические игры
получить выигрыш, сколь угодно близкий к величине
v = sup inf K(x, y),
x∈X y∈Y
(1.26)
которую будем называть нижним значением игры Γ1 . Если же внешний экстремум (т. е. супремум) в (1.26) достигается, то величина v также называется максимином, принцип построения стратегии, основанный
на максимизации минимального выигрыша, — принципом максимина, а
выбираемая в соответствии с этим принципом стратегия — максиминной
стратегией игрока 1.
Для игрока 2 можно провести аналогичные рассуждения. Пусть он
выбрал стратегию y. Тогда в худшем случае он проиграет величину
maxx K(x, y). Поэтому игрок 2 всегда может гарантировать себе проигрыш в размере miny maxx K(x, y). Число
v = inf sup K(x, y)
y∈Y x∈X
(1.27)
называется верхним значением игры Γ1 . Если внешний экстремум (т.е.
инфимум) в равенстве (1.27) достигается, то величина v называется минимаксом, принцип построения стратегии, основанный на минимизации
максимального проигрыша, — принципом минимакса, а выбираемая в соответствии с этим принципом стратегия — минимаксной стратегией игрока 2. Подчеркнем, что существование минимаксной (или максиминной)
стратегии определяется достижимостью внешнего экстремума в (1.26) (соответственно в (1.27)).
Для любой антагонистической игры Γ1 = hX, Y, Ki справедливо следующее утверждение, доказательство которого предлагается провести читателю в качестве простого упражнения. В случае возникновения затруднений можно обратиться к [Воробьев, 1985; Петросян, Зенкевич, Семина,
1998].
Лемма 1.12.1. В антагонистической игре Γ1 всегда выполнено неравенство
v ≥ v,
(1.28)
или, более подробно,
inf sup K(x, y) ≥ sup inf K(x, y).
y∈Y x∈X
x∈X y∈Y
(1.29)
В антагонистической игре Γ1 = hX, Y, Ki понятие равновесия по Нэшу
естественным образом приводит к следующему определению.
47
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Определение 1.12.3. Ситуация (x∗ , y ∗ ) называется ситуацией равновесия или седловой точкой в игре Γ1 = hX, Y, Ki, если неравенства
K(x, y ∗ ) ≤ K(x∗ , y ∗ ) ≤ K(x∗ , y)
(1.30)
имеют место для всех x ∈ X и y ∈ Y .
Заметим еще раз, что ситуация равновесия в антагонистической игре является равновесием по Нэшу, но в применении к антагонистической
игре свойство равновесия принимает вид (1.30). Поэтому множество всех
ситуаций равновесия в игре Γ1 будем обозначать N E(Γ1 ).
Естественно возникает вопрос о существовании ситуации равновесия.
Ответ на этот вопрос дает следующая теорема (интересующийся читатель
может найти доказательство теоремы и следствия, например, в [Воробьев,
1985; Петросян, Зенкевич, Семина, 1998]).
Теорема 1.12.1. Для того чтобы в игре Γ1 = hX, Y, Ki существовала
ситуация равновесия, необходимо и достаточно, чтобы существовали
минимакс и максимин
min sup K(x, y),
y∈Y x∈X
max inf K(x, y)
x∈X y∈Y
(1.31)
и, кроме того, выполнялось равенство
v = max inf K(x, y) = min sup K(x, y) = v.
x∈X y∈Y
y∈Y x∈X
(1.32)
Следствие 1.12.1. Если минимакс и максимин из (1.31) существуют и
внешние экстремумы достигаются на y, x соответственно, то имеют
место неравенства
max inf K(x, y) ≤ K(x, y) ≤ min sup K(x, y).
x∈X y∈Y
y∈Y x∈X
Определение 1.12.4. Пусть в игре Γ1 = hX, Y, Ki существует ситуация равновесия. Тогда число v = v = v называют значением игры Γ1 .
Множество ситуаций равновесия в игре Γ1 обладает свойствами, которые позволяют говорить об оптимальности ситуации равновесия и входящих в нее стратегий.
Теорема 1.12.2. [Петросян, Зенкевич, Семина, 1998]. Пусть
(x∗1 , y1∗ ), (x∗2 , y2∗ ) — две произвольные ситуации равновесия в антагонистической игре Γ1 . Тогда выполняются следующие два условия
48
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.12.. Осторожное поведение. Антагонистические игры
1. K(x∗1 , y1∗ ) = K(x∗1 , y2∗ ) = K(x∗2 , y1∗ ) = K(x∗2 , y2∗ ) = v;
2. (x∗1 , y2∗ ) ∈ N E(Γ1 ),
(x∗2 , y1∗ ) ∈ N E(Γ1 ).
Из теоремы 1.12.2 следует, что если ситуация равновесия (x∗ , y ∗ ) в игре существует, то выигрыш в любой ситуации равновесия равен значению
игры, и при этом любая пара стратегий, входящих в какие-либо ситуации равновесия, также образует ситуацию равновесия. Обозначим через
X ∗ , Y ∗ проекции множества N E(Γ1 ) на X, Y соответственно, т. е.
X ∗ = {x∗ |x∗ ∈ X, ∃y ∗ ∈ Y, (x∗ , y ∗ ) ∈ N E(Γ1 ) } ,
Y ∗ = {y ∗ |y ∗ ∈ Y, ∃x∗ ∈ X, (x∗ , y ∗ ) ∈ N E(Γ1 ) } .
Определение 1.12.5. Множество X ∗ (Y ∗ ) называют множеством оптимальных стратегий игрока 1 (игрока 2) в игре Γ1 , а его элементы —
оптимальными стратегиями игрока 1 (игрока 2).
Ранее отмечалось, что даже в матричной игре не всегда существует
ситуация равновесия в чистых стратегиях. Вместе с тем в смешанном
расширении матричной игры ситуация равновесия существует всегда. В
данном параграфе будет рассмотрено смешанное расширение матричной
игры и свойства оптимальных смешанных стратегий.
Рассмотрим матричную игру Γ1 (A) и ее смешанное расширение
Γ̄1 (A) = hX, Y, Ki.
Определение 1.12.6. Пусть x = (ξ1 , . . . , ξm ) ∈ X — смешанная стратегия игрока 1. Тогда множество индексов
Mx = {i | i ∈ M, ξi > 0} ,
где M = {1, . . . , m}, назовем спектром стратегии x.
Аналогично для смешанной стратегии y = (η1 , . . . , ηn ) ∈ Y спектр
стратегии определяется следующим образом:
Ny = {j |j ∈ N, ηj > 0 } ,
где N = {1, . . . , n}.
Определение 1.12.7. Ситуация (x, y) называется ситуацией равновесия в смешанных стратегиях в игре Γ1 (A), если она является ситуацией
равновесия в ее смешанном расширении Γ̄1 (A).
49
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Справедлива теорема, которая решает вопрос о существовании ситуации равновесия в матричной игре.
Теорема 1.12.3. Всякая матричная игра имеет ситуацию равновесия в
смешанных стратегиях.
Следующий результат дает универсальный способ решения матричных игр.
Введем в рассмотрение пару двойственных задач линейного программирования:
min xu, xA ≥ w, x ≥ 0,
max yw, Ay ≤ u, y ≥ 0,
где u = (1, . . . , 1) ∈ Rm , w = (1, . . . , 1) ∈ Rn .
Теорема 1.12.4. Пусть Γ1 (A) — матричная игра с положительной
матрицей A (все ее элементы положительны). Применительно к указанной выше паре двойственных задач линейного программирования имеют место следующие три утверждения:
1) обе задачи линейного программирования имеют решение, причем
θ = min xu = max yw;
x
y
2) значение игры Γ1 (A) равно
v = 1/θ,
а стратегии
x∗ = x̄/θ, y ∗ = ȳ/θ
являются оптимальными, где x̄, ȳ — оптимальные решения прямой и двойственной задач линейного программирования соответственно;
3) любые оптимальные стратегии игроков могут быть получены указанным выше способом.
Теорема 1.12.4 сводит решение матричной игры в смешанных стратегиях к решению пары двойственных задач линейного программирования.
Доказательство приведенных результатов можно найти в [Воробьев, 1985;
Петросян, Зенкевич, Семина, 1998].
Изучим свойства оптимальных стратегий, которые в ряде случаев помогают находить значение игры и ситуацию равновесия.
Критерий для ситуации равновесия в смешанных стратегиях имеет
следующий вид.
50
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.13.. Кооперативные игры
Теорема 1.12.5. Для того, чтобы ситуация (x∗ , y ∗ ) была ситуацией
равновесия в смешанных стратегиях в матричной игре Γ1 (A), необходимо и достаточно выполнение неравенств
K(i, y ∗ ) ≤ K(x∗ , y ∗ ) ≤ K(x∗ , j)
для всех i ∈ M, j ∈ N .
Следствие 1.12.2. Пусть (i∗ , j ∗ ) — ситуация равновесия в игре Γ1 (A).
Тогда ситуация (i∗ , j ∗ ) равновесна и в ее смешанном расширении Γ̄1 (A).
∗ ) ∈ X, y ∗ = (η ∗ , . . . ,
Теорема 1.12.6. Пусть x∗ = (ξ1∗ , . . . , ξm
1
∗
ηn ) ∈ Y — оптимальные стратегии в игре Γ̄1 (A), v — значение игры.
Тогда для любого i, при котором K(i, y ∗ ) < v, имеет место равенство
ξi∗ = 0, а для любого j такого, что v < K(x∗ , j), имеет место равенство
ηj∗ = 0. Обратно, если верно неравенство ξi∗ > 0, то выполнено равенство
K(i, y ∗ ) = v, а если имеет место неравенство ηj∗ > 0, то v = K(x∗ , j).
Подробное изложение теории можно найти в [Воробьев, 1985; Петросян, Зенкевич, Семина, 1998].
§ 1.13.
Кооперативные игры
Характеристической функцией игры с множеством игроков N называют
вещественную функцию v, определенную на всех возможных коалициях
S ⊆ N , при этом для любой пары непересекающихся коалиций T, S (T ⊂
N, S ⊂ N ) выполняется свойство супераддитивности:
v(T ) + v(S) ≤ v(T ∪ S), v(∅) = 0.
(1.33)
Содержательно выполнение свойства (1.33) означает, что возможности
объединенной коалиции не меньше, чем возможности двух непересекающихся коалиций, действующих независимо друг от друга. Поэтому у
игроков имеется мотив объединения в максимальную коалицию N .
Говорят, что игра Γ = hN, vi задана в форме характеристической
функции, если указаны множество игроков N и характеристическая
функция v.
Из свойства супераддитивности характеристической функции следует,
что для любых непересекающихся коалиций S1 , . . . , Sk имеет место неравенство
k
X
v(Si ) ≤ v(N ).
i=1
51
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Отсюда, в частности, следует, что не существует такого разбиения множества игроков на коалиции, при котором суммарный гарантированный
выигрыш этих коалиций превышал бы максимальный гарантированный
выигрыш максимальной коалиции (т. е. множества всех игроков).
Возникает естественный вопрос: можно ли построить характеристическую функцию игры с множеством игроков N по изначально заданной
игре в нормальной форме? Оказывается, на данный вопрос можно дать
положительный ответ. Строгое доказательство этого утверждения имеется в [Воробьев, 1985; Петросян, Зенкевич, Семина, 1998].
­
®
Лемма 1.13.1. Для бескоалиционной игры ΓN = N, {Xi }i∈N , {Ki }i∈N
введем функцию
v(S) = sup inf K̄S (µS , ν−S ),
µS νS
S ⊂ N,
­
®
где µS ∈ X̄S , ν−S ∈ X̄−S , Γ̄1 (S) = X̄S , X̄−S , K̄S — смешанное расширение антагонистической игры Γ1 (S). Тогда для любых непересекающихся
коалиций T, S(T ⊂ N, S ⊂ N ) выполняется
v(T ) + v(S) ≤ v(T ∪ S), v(∅) = 0.
(1.34)
Следует отметить, что данный результат справедлив и в более простой
форме, когда супремум и инфимум вычисляются по чистым стратегиям
xS , x−S коалиции S, S ⊂ N , и ее дополнительной коалиции −S соответственно.
Утверждение леммы позволяет интерпретировать значение характеристической функции как максимальный гарантированный выигрыш коалиции в некоторой бескоалиционной игре в нормальной форме.
­
®
Лемма 1.13.2. Пусть ΓN = N, {Xi }i∈N , {Ki }i∈N — бескоалиционная
игра с постоянной суммой, причем характеристическая функция определена как в предыдущей лемме, и игра Γ1 (S) для всякой коалиции S ⊂ N
имеет значение в смешанных стратегиях. Тогда выполнено
v(T ) + v(S) = v(T ∪ S), S ⊂ N.
Д о к а з а т е л ь с т в о. Из определения игры с постоянной суммой
получаем
X
X
v(N ) =
Ki (xN ) =
K̄i (µN ) = c
i∈N
i∈N
для всех ситуаций xN в чистых и µN — в смешанных стратегиях.
52
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.13.. Кооперативные игры
С другой стороны, имеем
P
P
v(S) = sup inf
K̄i (µS , ν−S ) = sup inf (c −
K̄i (µS , ν−S ) =
µS ν−S i∈S
µS ν−S
i∈N \S
P
= c − sup inf
K̄i (µS , ν−S ) = c − v(N \S),
µS ν−S i∈S
что завершает доказательство.
В дальнейшем под кооперативной игрой будем понимать просто пару
hN, vi, где v — характеристическая функция, удовлетворяющая неравенству (1.34), поскольку содержательная интерпретация самой характеристической функции не имеет принципиального значения.
Определение 1.13.1. Вектор α = (α1 , . . . , αn ), удовлетворяющий условиям
αi ≥ v(i) для всех i ∈ N,
(1.35)
n
X
αi = v(N ),
(1.36)
i=1
где v(i) — значение характеристической функции для одноэлементной
коалиции S = {i} называется дележом. Множество всех дележей в кооперативной игре Γ = hN, vi будем обозначать I(Γ).
Геометрически множество I(Γ) является выпуклым многогранником в
Rn (о многогранниках см., например, [Кузютин, Зенкевич, Еремеев, 2003,
глава 11]). Грубо говоря, многогранник представляет собой распространение понятия плоского многоугольника на общий пространственный случай.
Условие (1.35) называется условием индивидуальной рациональности
дележа и означает, что, участвуя в коалиции, каждый игрок получает, по
меньшей мере, столько, сколько он мог бы получить, действуя самостоятельно и не заботясь о поддержке каких-либо других игроков. Должно
также выполняться условие (1.36), так как в противном случае либо существует распределение, при котором каждый игрок получит больше, чем
его доля в конкретном дележе, либо игроки делят между собой нереализуемый выигрыш, а тогда сам дележ неосуществим. Таким образом, вектор
α = (α1 , . . . , αn ) является дележом только при выполнении условия (1.36),
которое называется условием коллективной рациональности дележа.
На основании условий (1.35)–(1.36), для того, чтобы вектор α =
(α1 , . . . , αn ) был дележом в кооперативной игре Γ = hN, vi, необходимо
и достаточно выполнение равенства
αi = v(i) + γi
для всех i ∈ N,
53
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
причем
γi ≥ 0 для всех i ∈ N ;
X
γi = v(N ) −
i∈N
X
v(i).
i∈N
Определение 1.13.2. Игра Γ = hN, vi называется существенной, если
X
v(i) < v(N );
i∈N
в противном случае игра Γ = hN, vi называется несущественной.
В несущественной игре имеется единственный дележ α
=
(v(1), . . . , v(n)), который естественно является оптимальным (в любом приемлемом смысле), а поэтому проблема выбора здесь отсутствует.
Поэтому в дальнейшем нас будут интересовать лишь существенные игры.
Пример 1.13.1. Рассмотрим игру трех лиц N = {1, 2, 3}:
v(1) = 0, v(2) = v(3) = 1,
v(1, 2) = v(1, 3) = v(2, 3) = 2,
v(1, 2, 3) = 3.
Данная игра является существенной. Подумайте, какое минимальное изменение нужно сделать в значениях характеристической функции, чтобы
она стала несущественной?
Что следует понимать под оптимальным поведением в кооперативной
игре или под решением кооперативной игры?
Определение 1.13.3. Под принципом оптимальности (или решением)
s кооперативной игры Γ = hN, vi в форме характеристической функции
понимают правило, ставящее в соответствие каждой кооперативной
игре Γ определенное подмножество s(Γ) множества дележей I(Γ).
Понятно, что если s(Γ) = ∅, то принцип оптимальности s не применим
к данной игре Γ.
Мы рассмотрим три кооперативных принципа оптимальности: C-ядро,
вектор Шепли и N -ядро.
54
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.14.. C-ядро кооперативной игры
§ 1.14.
C-ядро кооперативной игры
Во всякой существенной игре множество дележей бесконечно. Проведем
анализ таких игр на основе отношения доминирования.
Определение 1.14.1. Будем говорить, что дележ α = (α1 , . . . , αn )
доминирует дележ β = (β1 , . . . , βn ) по коалиции S ⊂ N (обозначение
α ÂS β), если
αi > βi для всех i ∈ S,
(1.37)
α(S) ≤ v(S),
P
где использовано обозначение α(S) ≡ i∈S αi .
(1.38)
Первое из условий в определении доминирования дележей по коалиции, т. е. (1.37), означает, что дележ α = (α1 , . . . , αn ) лучше дележа
β = (β1 , . . . , βn ) для всех членов коалиции, а второе условие, т. е. (1.38),
отражает реализуемость дележа α = (α1 , . . . , αn ) коалицией (т.е. коалиция на самом деле может предложить каждому из игроков указанную в
дележе долю).
Замечание 1.14.1. Заметим, что доминирование невозможно по одноэлементной коалиции и множеству всех игроков (т. е. по максимальной
коалиции), поскольку в первом случае это противоречит (1.37), а во втором — условию (1.38).
Определение 1.14.2. Говорят, что дележ α = (α1 , . . . , αn ) доминирует дележ β = (β1 , . . . , βn ), если существует коалиция S ⊂ N , для
которой α ÂS β. Доминирование дележа β = (β1 , . . . , βn ) дележом
α = (α1 , . . . , αn ) обозначается в виде α Â β.
Перейдем к рассмотрению принципов оптимального поведения в кооперативных играх, т. е. принципов оптимального распределения максимального суммарного выигрыша между игроками.
Возможен следующий подход. Пусть игроки в кооперативной игре пришли к такому соглашению (договору о дележе) о распределении выигрыша максимальной коалиции, при котором ни один из дележей не доминирует указанное соглашение (договорной дележ). Тогда такое распределение устойчиво в том смысле, что ни одной из коалиций невыгодно отделиться от других игроков и распределить между членами коалиции максимальный гарантированный выигрыш коалиции. Подобные рассуждения
наводят на мысль о целесообразности рассмотрения множества недоминируемых дележей.
55
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Определение 1.14.3. Множество недоминируемых дележей кооперативной игры Γ = hN, vi называется ее C-ядром.
Множество всех дележей из C-ядра кооперативной игры Γ = hN, vi
будем обозначать C(Γ). Из определения следует, что имеет место включение C(Γ) ⊂ I(Γ). Справедлива следующая теорема, характеризующая
C-ядро.
Теорема 1.14.1. Для того чтобы дележ α = (α1 , . . . , αn ) принадлежал
C-ядру, необходимо и достаточно выполнение для всех S ⊂ N следующих
неравенств:
X
v(S) ≤ α(S) =
αi .
(1.39)
i∈S
Д о к а з а т е л ь с т в о. Для несущественных игр утверждение
теоремы очевидно. Рассмотрим произвольную существенную игру. Докажем достаточность. Пусть для дележа α = (α1 , . . . , αn ) выполнено условие (1.39). Покажем, что дележ α = (α1 , . . . , αn ) принадлежит C-ядру.
Предположим противное, т.е. найдется такой дележ β = (β1 , . . . , βn ), что
β(S) > α(S), β(S) ≤ v(S). Эти неравенства противоречат соотношению
(1.39).
Проверим необходимость. Вновь предположим противное, т. е. дележ
α = (α1 , . . . , αn ) принадлежит C-ядру, но существует коалиция S ⊂ N ,
для которой α(S) < v(S). Положим
v(S) − α(S)
для всех i ∈ S,
s
P
v(N ) − v(S) −
v(i)
βi = αi +
βi = v(i) +
i∈N \S
для всех i ∈
/ S,
n−s
где s — число элементов множества S. Непосредственно проверяется, что
вектор β = (β1 , . . . , βn ) является дележом, причем β ÂS α. Отсюда следует, что дележ α = (α1 , . . . , αn ) не принадлежит C-ядру.
Из теоремы 1.14.1 следует, что C-ядро является замкнутым, выпуклым
подмножеством множества всех дележей. Однако существенный недостаток такого подхода к понятию оптимальности в кооперативной игре — это
возможная пустота C-ядра.
Приведем содержательную аргументацию в пользу C-ядра на основе
приведенного критерия принадлежности C-ядру.
Пусть игроки договариваются о выборе кооперативного соглашения.
Из свойства супераддитивности характеристической функции следует,
56
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.14.. C-ядро кооперативной игры
что такое соглашение ведет к образованию максимальной коалиции (т. е.
коалиции, состоящей из всех игроков). Далее решается вопрос о способе
дележа суммарного дохода.
Минимальным требованием для получения согласия игроков выбрать
дележ является индивидуальная рациональность этого дележа. Пусть
игроки договариваются о выборе конкретного дележа. Против выбора
дележа может возражать некоторая коалиция, требующая для себя более выгодного распределения. Указанная коалиция выдвигает это требование, угрожая в противном случае нарушить общую кооперацию (это
вполне реальная угроза, так как для достижения выигрыша максимальной коалиции необходимо единодушное согласие всех ее игроков). Предположим, что остальные игроки реагируют на эту угрозу объединенными действиями против указанной коалиции. Тогда максимальный гарантированный доход коалиции оценивается значением характеристической
функции. Утверждение теоремы означает существование стабилизирующей угрозы со стороны дополнительной коалиции. Тем самым, C-ядром
кооперативной игры является множество устойчивых в смысле коалиционных угроз распределений максимального суммарного дохода игроков.
Пример 1.14.1. Рассмотрим игру трех лиц с характеристической функцией
v(1) = 20, v(2) = 30, v(3) = 0,
v(1, 2) = 80, v(1, 3) = 50, v(2, 3) = 65,
v(1, 2, 3) = 100.
Вектор α = (α1 , α2 , α3 ) в игре принадлежит C-ядру тогда и только тогда,
когда выполняются следующие соотношения

α + α2 + α3 = 100,


 1
α1 + α2 ≥ 80, α2 + α3 ≥ 65, α1 + α3 ≥ 50



α1 ≥ 20, α2 ≥ 30, α3 ≥ 0.
Множество решений этой системы неравенств представляет собой выпуклую оболочку следующих трех дележей: (35, 45, 20), (35, 50, 15), (30,
50, 20). Геометрическую интерпретацию множества решений систем линейных неравенств, понятия выпуклой оболочки множеств и выпуклого
многогранника см., например, в [Кузютин, Зенкевич, Еремеев, 2003]. Типичным представителем ядра является его центр (т.е. среднее арифметическое крайних точек, а именно: α∗ = (33.3, 48.3, 18.3)). Этот дележ представляет собой определенный справедливый компромисс, расположенный
57
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
внутри C-ядра. Заметим также, что дележ α∗ обладает свойством, что
все двухэлементные коалиции имеют одинаковый дополнительный доход:
αi + αj − v(i, j) = 1.6.
Приведем еще один критерий принадлежности дележа C-ядру, который непосредственно следует из предыдущей теоремы 1.14.1.
Теорема 1.14.2. Дележ α = (α1 , . . . , αn ) принадлежит C-ядру в том
и только том случае, когда для любой коалиции S ⊂ N выполняется
неравенство:
X
v(N ) − v(N \S) ≥ α(S) =
αi .
(1.40)
i∈S
Доказательство данной теоремы оставляем читателю в качестве простого упражнения.
Пример 1.14.2. (Симметричные игры). В симметричной игре коалиции
с одинаковым числом игроков имеют одинаковый выигрыш. Характеристическая функция такой игры имеет следующий вид:
v(S) = f (|S|)
для всех S ⊂ N , где |S| — число элементов множества S.
Без потери общности предположим, что f (1) = 0. Тогда множество
дележей игры Γ = hN, vi определяется решением следующей системы:
n
X
αi = f (n) = v(N ), αi ≥ 0, i = 1, . . . , n.
i=1
C-ядро является выпуклым многогранником из множества дележей, причем симметричным (игра симметричная). Поэтому можно показать, что
C-ядро не пусто тогда и только тогда, когда оно содержит центр множества всех дележей, т. е. точку с координатами αi∗ = f (n)/n для всех i ∈ N .
Тогда из (1.39) получаем, что C-ядро не пусто тогда и только тогда, когда
верно неравенство
(1/ |S|)f (|S|) ≤ (1/n)f (n) для всех S ⊂ N.
Тем самым, C-ядро не пусто, если для каждой коалиции средняя доля
гарантированного выигрыша игрока не превосходит этой величины для
максимальной коалиции.
58
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.15.. Условия не пустоты C-ядра
§ 1.15.
Условия не пустоты C-ядра
Пример 1.14.2 носит частный характер. В общем случае возникает естественный вопрос: когда C-ядро кооперативной игры не пусто, и какие
имеются общие критерии проверки его не пустоты?
Для ответа на этот вопрос введем следующие понятия. В дальнейшем
будем называть коалицию собственной, если она не совпадает с максимальной коалицией.
Определение 1.15.1. Для заданного множества игроков N сбалансированным покрытием называют такое отображение δ из множества
собственных коалиций в отрезок [0, 1], что равенство
X
δS = 1
{S|i∈S }
выполняется для всех игроков i ∈ N , где суммирование ведется по всем
собственным коалициям, содержащим игрока i ∈ N .
Теорема 1.15.1. C-ядро кооперативной игры Γ = hN, vi не пусто тогда
и только тогда, когда для любого сбалансированного покрытия δ выполнено неравенство
X
δS · v(S) ≤ v(N ).
S⊂N,S6=N
Игры, удовлетворяющие условиям теоремы, называют сбалансированными. Заметим, что свойство сбалансированности игры влечет свойство
супераддитивности.
Сбалансированные покрытия образуют выпуклый компактный многогранник. Поскольку такой многогранник представляет собой выпуклую
оболочку своих крайних точек, то выполнение нераверства достаточно
проверить для указанных крайних точек многогранника. Если удастся
найти эти крайние точки, то свойство сбалансированности может быть
записано в виде системы линейных неравенств, в которых участвует характеристическая функция v. В частности, для игры трех лиц имеет место
следующий результат.
Следствие 1.15.1. Игра Γ = hN, vi с тремя игроками имеет не пустое
C-ядро тогда и только тогда, когда выполнено
v(1) + v(2) + v(3) ≤ v(N ),
v(1) + v(2, 3), v(2) + v(1, 3), v(3) + v(1, 2) ≤ v(N ),
1
2 [v(1, 2)
+ v(2, 3) + v(1, 3)] ≤ v(N ).
59
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Пример 1.15.1. Легко проверить, что кооперативная игра из примера
1.14.1 удовлетворяет условиям следствия 1.15.1. Проверьте, удовлетворяет
ли условиям следствия игра из примера 1.13.1?
Второй подход к проверке не пустоты C-ядра связан с понятием выпуклой кооперативной игры.
Определение 1.15.2. Кооперативная игра Γ = hN, vi называется выпуклой, если она обладает свойством:
[
\
v(T ) + v(S) ≤ v(T
S) + v(T
S).
Теорема 1.15.2. Если кооперативная игра Γ = hN, vi выпуклая, то ее
C-ядро не пусто.
Доказательство теоремы см., например, в [Печерский, Яновская, 2004].
Для выпуклой кооперативной игры можно конструктивно построить все
крайние точки C-ядра, а тем самым и само C-ядро.
§ 1.16.
Вектор Шепли. N -ядро
Множество дележей, входящих в C-ядро кооперативной игры, а также
жесткие условия существования недоминируемых дележей (не пустоты Cядра) мотивируют поиск таких принципов оптимальности, существование
и единственность которых имели бы место в каждой кооперативной игре.
К таким принципам оптимальности относится вектор Шепли и N -ядро.
Носителем игры Γ = hN, vi называется такая коалиция T , что равенство v(S) = v(S ∩ T ) имеет место для любой коалиции S ⊂ N .
Содержательно последнее определение означает, что любой игрок, не
принадлежащий носителю, является в определенном смысле «болваном»,
т. е. он ничего не может изменить в действиях ни одной из коалиций.
Пример 1.16.1. Рассмотрим игру трех лиц N = {1, 2, 3} с характеристической функцией
v(1) = 0, v(2) = v(3) = 1,
v(1, 2) = v(1, 3) = 1, v(2, 3) = 3,
v(1, 2, 3) = 3.
В этой игре носителем является коалиция {2, 3}, при этом игрок 1 — «болван».
60
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.16.. Вектор Шепли. N -ядро
Рассмотрим произвольную перестановку Π упорядоченного множества
игроков N = {1, . . . , n}. С этой перестановкой связана подстановка π,
т.е. такая взаимно однозначная функция π : N → N , что для любого
i ∈ N значение π(i) ∈ N представляет собой элемент из N = {1, . . . , n}, в
который переходит i ∈ N в перестановке Π.
Определение 1.16.1. Пусть Γ = hN, vi — кооперативная игра, Π —
перестановка множества N = {1, . . . , n}, а π : N → N — соответствующая ей подстановка. Тогда через Γπ = hN, πvi обозначим такую игру
hN, ui, что для любой коалиции S ⊂ N, S = {i1 , . . . , is } верно
u({π(i1 ), . . . , π(is )}) = v(S).
Заметим, что игра Γπ = hN, πvi отличается от игры Γ = hN, vi лишь
тем, что в последней игроки поменялись местами в соответствии с перестановкой Π.
На основе данных определений изложим аксиоматику Шепли. Сначала отметим, что при одном и том же множестве игроков кооперативная игра отождествляется с характеристической функцией игры. В этом
смысле можно говорить о сумме игр или о произведении игры на число.
Поставим в соответствие каждой кооперативной игре Γ = hN, vi вектор ϕ[v] = (ϕ1 [v], . . . , ϕn [v]), компоненты которого будем интерпретировать как выигрыши, полученные игроками в результате соглашения или
решения некоторого арбитра. При этом будем считать, что указанное соответствие удовлетворяет нижеследующим аксиомам. Использование аксиоматического подхода при формировании оптимального решения называется характеризацией решения.
Аксиома 1. Если T — произвольный носитель игры Γ = hN, vi, то
выполнено равенство:
X
ϕi [v] = v(T ).
i∈T
Аксиома 2. Для любой подстановки π : N → N и любого i ∈ N
имеет место равенство:
ϕπ(i) [πv] = ϕi [v].
Аксиома 3. Если hN, vi и hN, ui — две любые кооперативные игры с
одинаковым множеством игроков, то справедливо равенство:
ϕi [u + v] = ϕi [u] + ϕi [v].
61
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
Определение 1.16.2. Пусть ϕ : {hN, vi} → Rn — функция, ставящая
в соответствие каждой игре Γ = hN, vi вектор ϕ[v] = (ϕ1 [v], . . . , ϕn [v]),
удовлетворяющий аксиомам 1–3. Тогда вектор ϕ[v] = (ϕ1 [v], . . . , ϕn [v])
называется вектором значений или вектором Шепли игры Γ = hN, vi.
Теорема 1.16.1. (Шепли). Существует единственная функция ϕ :
{hN, vi} → Rn , определенная на множестве всех игр Γ = hN, vi и удовлетворяющая аксиомам 1–3, при этом компоненты вектора Шепли вычисляются по формулам:
X
(s − 1)!(n − s)!
ϕi [v] =
[v(S) − v(S\i)], для всех i ∈ N,
n!
{S|i∈S⊂N }
где s обозначает количество игроков в коалиции S.
Доказательство данного результата см., например, в [Петросян, Зенкевич, Семина, 1998; Печерский, Беляева, 2001].
Вектору Шепли можно дать следующее содержательное истолкование. Предположим, что игроки решили встретиться в определенном месте и в определенное время с целью переговоров по дележу выигрыша
максимальной коалиции. Естественно, что из-за случайных отклонений
все они будут прибывать к месту встречи в различные моменты времени.
Предположим, что любой порядок прибытия игроков (т. е. каждая из всех
возможных перестановок набора игроков) имеет одну и ту же вероятность
1/n!. Далее предположим, что если игрок i, прибывая, застает на месте
только членов коалиции S\i (т. е. остальные игроки еще не подошли),
то он получает выигрыш, равный величине v(S) − v(S\i). Иначе говоря,
его выигрышем является тот вклад, который он вносит в максимальный
гарантированный выигрыш новой коалиции. Тогда компонента вектора
Шепли ϕi [v], являясь по определению дележа долей выигрыша игрока i,
представляет собой не что иное, как математическое ожидание выигрыша
игрока i в соответствии с описанной выше вероятностной схемой.
Несмотря на существование и единственность в каждой кооперативной игре, основным недостатком вектора Шепли является тот факт, что
он не обязательно принадлежит C-ядру. Другими словами, он не является
селектором (т. е. представителем) C-ядра. Поэтому желательно построить
такой дележ (такой принцип оптимальности), который сохранял бы положительные свойства вектора Шепли и принадлежал C-ядру в случае его
не пустоты. Наиболее интересным представителем C-ядра является так
называемое N -ядро.
62
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 1.16.. Вектор Шепли. N -ядро
Определение 1.16.3. Пусть α = (α1 , . . . , αn ) — дележ
P кооперативной
игры Γ = hN, vi. Величина e(α, S) = v(S)−α(S), α(S) =
αi называется
эксцессом дележа α = (α1 , . . . , αn ) по коалиции S ⊂ N .
i∈S
Величина e(α, S) может быть интерпретирована как мера неудовлетворенности коалиции распределением выигрышей, которое
предписывается дележом α = (α1 , . . . , αn ). Заметим здесь, что чем
больше α(S), тем меньше эксцесс, т.е̇. тем меньше неудовлетворенность
дележом у данной коалиции. Наоборот, чем больше v(S), тем такая
неудовлетворенность больше.
Пусть I(Γ) — множество дележей игры Γ = hN, vi. Для любого дележа
α = (α1 , . . . , αn ) определим вектор эксцессов e(α), компоненты которого
суть эксцессы дележа α = (α1 , . . . , αn ) для всех коалиций, упорядоченные
в порядке убывания, т. е.
e(α) = (e(α, S1 ), e(α, S2 ), . . . , e(α, S2n )).
Будем говорить, что вектор e(α) лексикографически меньше вектора
e(β) и записывать это как e(α) <lex e(β), если найдется такое натуральное
число m, и что равенство e(α, Si ) = e(β, Si ) имеет место для всех i < m и,
0
0
кроме того, выполнено неравенство e(α, Sm ) < e(β, Sm ), где e(β, Si ) — i-я
компонента вектора эксцессов e(β).
Определение 1.16.4. N -ядром кооперативной игры Γ = hN, vi называют такое подмножество дележей N (Γ), которое состоит из дележей,
для которых соответствующие векторы эксцессов минимальны относительно лексикографического отношения порядка, т. е.
N (Γ) = {α ∈ I |e(α) ≤
lex e(β), β
∈ I} .
Заметим, что в определении 1.16.4 используется нестрогое лексикографическое отношение порядка a ≤lex b на множестве векторов эксцессов,
что означает: a <lex b или a = b.
Теорема 1.16.2. (Шмайдлер). N -ядро кооперативной игры Γ = hN, vi
не пусто, состоит из единственного дележа и лежит в C-ядре, если
последнее не пусто.
Доказательство теоремы можно найти в [Shmeidler, 1971] или [Печерский, Яновския, 2004].
63
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
1 Статические игры
64
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 2
Модели поведения в условиях конкуренции
§ 2.1.
Оптимальная схема стимулирования менеджера
Проблема стимулирования возникает, например, в фирме между менеджером и собственниками. Уровень усилий менеджера непосредственно
влияет на размер прибыли, которая подлежит распределению. Прилагаемые усилия, учитывая вид деятельности, требуют определенного уровня
затрат. Если доход менеджера не зависит от размера реализованной прибыли фирмы, то менеджер не имеет стимула для приложения этих усилий,
поскольку величина усилий не влияет на его доход. Таким образом, постоянная величина заработной платы не решает проблему стимулирования
усилий высокого уровня.
Мы рассмотрим два подхода к построению структуры оплаты труда, которая стимулировала бы усилия менеджера. Математические модели, иллюстрирующие указанные подходы, соответствуют методологии
Ж. Тироля [Тироль, 2000]. Далее будут получены расчетные формулы для
заработной платы менеджера, которые были рассчитаны для конкретного
вида функции полезности.
Определим понятие равновесия по Штакельбергу. Для этого проанализируем поведение типа лидер–ведомый в игре двух лиц Γ2 =
hX, Y, K1 , K2 i. Пусть игрок 1 — лидер, а игрок 2 — ведомый. Рассмотрим следующую двухшаговую игру.
На первом шаге лидер (игрок 1) выбирает свою стратегию x ∈ X.
На втором шаге ведомый (игрок 2), зная x, выбирает стратегию y ∈ Y .
После чего игра заканчивается, и игроки получают выигрыши K1 (x, y) и
K2 (x, y) соответственно. Такую постановку задачи будем называть моделью Штакельберга или игрой лидер–ведомый.
Обозначим через BR2 (x) множество наилучших ответов ведомого на
стратегию x лидера, т.е.
½
¾
BR2 (x) = y| K2 (x, y) = max K2 (x, z) .
z∈Y
65
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Определение 2.1.1. Назовем ситуацию (x̄, ȳ) ∈ X × Y равновесием по
Штакельбергу в игре лидер–ведомый, если
K1 (x̄, ȳ) = max
min
x∈X y∈BR2 (x)
K1 (x, y).
Понятно, что в постановке Штакельберга лидер имеет преимущество
первого хода, и равновесие будет несимметричным. В случае существования функции реакции R2 (x) у второго игрока, равновесие по Штакельбергу (x̄, ȳ) является решением следующей оптимизационной задачи:
K1 (x̄, ȳ) = max K1 (x, R2 (x)).
x∈X
Рассматриваемые в данном параграфе модели могут рассматриваться в
контексте поведения лидер–ведомый.
Ниже приведем схему стимулирования высокого уровня усилий.
Пусть прибыль фирмы может принимать два значения: Π1 или Π2 ,
при этом
Π1 < Π2 .
(2.1)
Менеджер выбирает между высоким («работа») и низким («уклонение
от работы») уровнями усилий. Если менеджер придерживается высокого
уровня усилий, то полезность для него составляет U = u(w − Φ), если
низкого, то полезность равна u(w), где w — заработная плата менеджера,
u — возрастающая вогнутая функция (u0 (w) → 0 при w → +∞) и Φ —
затраты на усилия высокого уровня (Φ > 0). Целевая функция для менеджера представляет собой математическое ожидание полезности u. Будем
предполагать, что, работая за пределами фирмы, он имеет возможность
получить заработную плату w0 , которая даст ему полезность U0 ≡ u(w0 ).
Понятно, что для обеспечения участия менеджера собственники должны
предоставить ему зарплату ожидаемой полезности не менее U0 . Величину w0 будем называть исходной заработной платой менеджера. Разумно
предположить, что целевая функция собственников представляет собой
математическое ожидание Π − w.
Будем считать, что функция полезности менеджера имеет вид:
w
u(w) = UH (1 − e− c ),
(2.2)
где UH и c — заданные положительные константы (рис. 2.1).
Вид функции полезности, на наш взгляд, отражает реальные предпочтения менеджера в отношении величины заработной платы. Полезность
возрастает с ростом заработной платы, но до некоторого предела насыщения UH , что следует из свойств функции (2.2).
66
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.1. Оптимальная схема стимулирования менеджера
Рис. 2.1. График функции полезности.
Предположим, что величина прибыли фирмы случайна. При этом, если уровень усилий высокий, прибыль составит Π2 с вероятностью x и,
соответственно, Π1 с вероятностью 1 − x. Если уровень усилий низкий, то
прибыль составит Π2 с вероятностью y и Π1 с вероятностью 1 − y, где
0 < y < x < 1.
(2.3)
Допустим, что договор (контракт) менеджеру предлагают и утверждают
собственники. В данной схеме лидером являются собственники, которые
устанавливают уровень заработной платы w. Ведомый — менеджер, который выбирает уровень усилий.
Предположим также, что за усилиями менеджера наблюдают собственники, и что они могут по своему усмотрению потребовать от менеджера любой возможный уровень усилий и контролировать его выполнение. В данном случае проблема стимулирования не возникает потому, что
усилия наблюдаемы, однако появляется проблема мотивации менеджера,
поскольку оптимальный договор предписывает менеджеру получение постоянного дохода при любом уровне усилий [Тироль, 2000].
Предположим теперь, что собственников устраивает низкий уровень
усилий. Тогда w1 = w2 = w0 , где второе равенство может быть обосновано тем, что собственникам не выгодно платить менеджеру больше его
исходной заработной платы. В этом случае ожидаемая прибыль собственников составляет
yΠ2 + (1 − y)Π1 − w0 .
(2.4)
Если собственники требуют высокого уровня усилий, то оптимальный договор вновь определяет для менеджера постоянную заработную плату
w1 − Φ = w2 − Φ = w0 .
(2.5)
67
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Ожидаемая прибыль для собственников в этом случае равна
xΠ2 + (1 − x)Π1 − (w0 + Φ).
(2.6)
Таким образом, в случае наблюдаемых усилий менеджер не имеет стимула
прикладывать высовие усития.
Теперь рассмотрим случай, когда усилия менеджера не наблюдаемы
собственниками. Здесь, как отмечено выше, постоянная величина заработной платы вступает в конфликт со стимулами. Чтобы менеджер имел
стимулы для усилий высокого уровня, собственники должны материально
поощрять менеджера, когда прибыли высоки.
Пусть w1 — заработная плата менеджера при реализации прибыли в
размере Π1 , w2 — заработная плата менеджера при реализации прибыли
в размере Π2 .
Величина заработной платы, стимулирующая высокий уровень усилий, должна удовлетворять ограничению:
xu(w2 − Φ) + (1 − x)u(w1 − Φ) ≥ yu(w2 ) + (1 − y)u(w1 ).
(2.7)
Из неравенства (2.7) следует, что
w1 < w2 .
(2.8)
Докажем неравенство (2.7). Левая часть неравенства (2.8) строго меньше,
чем xu(w2 ) + (1 − x)u(w1 ), если w1 ≥ w2 выполнено условие (2.3), что
противоречит (2.8).
В случае ненаблюдаемых усилий к ограничению (2.7) необходимо добавить ограничение «индивидуальной рациональности», или «участия»
вида:
xu(w2 − Φ) + (1 − x)u(w1 − Φ) ≥ u(w0 ).
(2.9)
Ожидаемая прибыль собственников тогда составит
x(Π2 − w2 ) + (1 − x)(Π1 − w1 ).
(2.10)
Таким образом мы пришли к задаче максимизации прибыли (2.10) при
ограничениях (2.7) и (2.9) Убедимся в том, что при максимизации прибыли собственников с учетом ограничений (2.7) и (2.9) оба ограничения являются активными, т. е. выполняются как равенства при оптимальных значениях w1 и w2 . Предположим, что ограничение (2.7) не является активным. Как показано выше, максимизация ожидаемой прибыли собственников приводит к случаю w1 = w2 , если соблюдается ограничение (2.9),
но такая структура заработной платы не удовлетворяет условию (2.8), а
68
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.1. Оптимальная схема стимулирования менеджера
поэтому (2.7). Предположим теперь, что активным является только ограничение (2.7). В таком случае собственники могут, например, уменьшить
w1 , сохраняя выполнение ограничения (2.7); если уменьшение w1 не слишком велико, то ограничение (2.9) будет по-прежнему выполняться. Однако
при уменьшении w1 ожидаемая прибыль (2.10) будет увеличиваться, т. е.
заработные платы w1 и w2 не будут оптимальны. Таким образом, для
обеспечения высокого уровня усилий оптимальная структура заработной
платы (в смысле максимизации прибыли собственников) может быть получена из (2.7) и (2.9), которые должны выполняться как равенства:
xu(w2 − Φ) + (1 − x)u(w1 − Φ) = yu(w2 ) + (1 − y)u(w1 ),
xu(w2 − Φ) + (1 − x)u(w1 − Φ) = u(w0 ).
(2.11)
(2.12)
Решая систему уравнений (2.11), (2.12) при (2.7), получаем оптимальную
схему стимулирования, т. е. искомые величины заработной платы менеджера в зависимости от размера полученной прибыли:
w1 = w0 + Φ + c ln(
w2 = w0 + c ln(
x−y
),
xeΦ/c − y
x−y
).
x − 1 − e−Φ/c (y − 1)
(2.13)
(2.14)
Данное решение имеет смысл, если выполнено неравенство:
c>
Φ
.
ln [(y − 1)/(x − 1)]
(2.15)
Ожидаемая заработная плата менеджера в случае усилий высокого и низкого уровня строго больше исходной заработной платы:
xw2 + (1 − x)w1 > w0 + Φ,
(2.16)
yw2 + (1 − y)w1 > w0 .
(2.17)
Этот факт говорит о том, что построенная структура заработной платы
побуждает менеджера работать в данной фирме на данных условиях. На
это же обстоятельство указывает условие (2.8), поскольку менеджер будет
получать бо́льшую заработную плату, выбирая высокий уровень усилий,
чем в случае низкого уровня усилий.
Данный подход имеет недостаток. Схема, по сути, не является стимулирующей, т. к. при решении оптимизационной задачи (2.7)–(2.10) ограничения (2.11) и (2.12) являются активными, а, следовательно, ожидаемая полезность заработной платы для менеджера не зависит от уровня
69
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
прилагаемых усилий и равна в точности полезности исходной заработной
платы:
xu(w2 − Φ) + (1 − x)u(w1 − Φ) = yu(w2 ) + (1 − y)u(w1 ) = u(w0 ).
Другими словами, проблема мотивации менеджера на приложение высоких усилий остается открытой.
§ 2.2.
Двухставочный тариф
Более прогрессивным подходом в смысле стимулирования усилий менеджера является так называемый двухставочный тариф.
Менеджер выбирает некоторый уровень усилий e. Полезность для него
составляет
Re2
U = u(w −
),
(2.18)
2
где R — параметр, u(w) имеет вид (2.2). Слагаемое Φ = Re2 /2 является
конкретизацией затрат Φ на заданный уровень усилий e. Пусть как и
ранее исходная заработная плата менеджера равна w0 .
Тогда ограничение (2.9) примет вид
u(w −
Re2
) ≥ u(w0 ).
2
(2.19)
Пусть прибыль фирмы составляет величину
Π = e + ε,
(2.20)
где ε — такая случайная величина, что Eε = 0. Будем предполагать, что
ε распределена по стандартному нормальному закону, т. е. плотность распределения этой случайной величины имеет вид
ε2
1
f (ε) = √ e− 2 .
2π
(2.21)
Если собственники могут наблюдать реальный уровень усилий, то оптимальный договор (контракт) предусматривает фиксированную заработную плату w = w̄. Для заданного уровня усилий зарплата менеджера
определяется из ограничения по участию:
w̄ = w0 +
70
Re2
.
2
(2.22)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.2. Двухставочный тариф
Максимизация ожидаемой прибыли собственников
Eε (e + ε − w0 −
Re2
Re2
) = e − w0 −
2
2
(2.23)
дает e∗ = 1/R (в предположении, что w0 ≤ 1/2R).
Предположим, что усилие не наблюдаемо, а прибыль наблюдаема.
Рассмотрим линейную схему стимулирования:
w(Π) = a + bΠ,
(2.24)
где a — фиксированная часть заработной платы менеджера, а b — доля
от прибыли Π фирмы. Tакая схема стимулирования называется двухставочным тарифом [Тироль, 2000].
Найдем оптимальную схему стимулирования (оптимальный двухставочный тариф). Ожидаемая полезность для менеджера имеет вид
Eε u(a + be + bε −
Re2
).
2
(2.25)
Максимизация по e дает e = b/R, поэтому оптимальный уровень усилия
линейно возрастает по b. При b = 1 менеджер является претендентом на
остаток и e = e∗ . Таким образом, ожидаемая полезность для менеджера
равна
b2
+ bε).
(2.26)
Eε u(a +
2R
Ожидаемая чистая прибыль для собственников составит
Πe = Eε (e + ε − a − be − bε) =
b
(1 − b) − a.
R
(2.27)
Чтобы найти оптимальную линейную схему стимулирования, необходимо
решить задачу максимизации
max Πe = max [f racbR(1 − b) − a]
(2.28)
при условии, что
b2
+ bε) ≥ u(w0 ).
(2.29)
2R
Подстановка a из (2.27) в ограничение по участию (которое здесь является
активным) дает
Eε u(a +
Eε u(−Πe +
b2
b
−
+ bε) = u(w0 ).
R 2R
(2.30)
71
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Для максимизации Πe собственники должны выбрать b так, чтобы максимизировать левую часть уравнения (2.30). Отсюда имеем
1−b
+ E(u0 ε) = 0.
(2.31)
R
Учитывая вид функции полезности менеджера (2.2) и предположение, что
ε — случайная величина, распределенная по стандартному нормальному
закону с плотностью (2.21), имеем математическое ожидание полезности
менеджера:
µ
¶

b
b2
e
− −Π + −
+ bε 
+∞
Z
R 2R
UH 

 − ε22
c
√ 1 − e
dε.
(2.32)
Eε u =
e

2π 
(Eu0 )
−∞
Максимизируя (2.32) по b, получаем оптимальное значение доли от прибыли:
c
, 0 < b < 1.
(2.33)
b=
c+R
Для нахождения фиксированной части a заработной платы менеджера,
подставляем значение (2.33) в ограничение по участию (2.30) и решаем
полученное уравнение относительно a. Тогда фиксированная часть зарплаты равна
c(R − c)
.
(2.34)
a = w0 +
2R(c + R)2
Если коэффициент c возрастает, т. е. наклон графика функции полезности
уменьшается, полезность получаемая от менеджера, все более зависит не
только от величины материального стимулирования, но и карьерного роста, социального пакета и т. п. При этом постоянная часть a уменьшается
и может стать даже меньше w0 .
Учитывая ограничение на b в (2.33), приходим к заключению, что оптимальная линейная структура заработной платы отражает схему участия менеджера в прибыли — компромисс между фиксированной заработной платой b = 0, которая обеспечивает максимальное страхование доходов, и претензией на остаток b = 1, обеспечивающей максимальное стимулирование. Преимуществом данного подхода также является то, что хотя
ожидаемая полезность для менеджера совпадает с полезностью исходной
заработной платы, т. е. ограничение (2.19) является активным, менеджер
выбирает не самый высокий, а оптимальный уровень усилий e∗ .
Заметим, что полученное оптимальное решение, является равновесием
по Штакельбергу. Здесь a и b есть параметры стратегии собственников
(лидер), e — стратегия менеджера (ведомый).
72
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.2. Двухставочный тариф
Линейная зависимость прибыли от уровня усилий, определяемая соотношением (2.20), по нашему предположению, все же имеет сезонный
характер. Таким образом, можно предположить, что структура заработной платы, линейно зависящей от размера прибыли, должна иметь место
на небольших промежутках времени, например, сезон или месяц.
Пример 2.2.1. Проиллюстрируем на конкретных примерах полученные
расчетные формулы для заработной платы менеджера при различных,
рассмотренных выше стимулирующих структурах оплаты труда.
Таблица 2.1 содержит величины заработной платы менеджера в схеме стимулирования усилий высокого уровня при ненаблюдаемых усилиях. Пример иллюстрирует теоретические выводы. А именно, заработная
плата менеджера w2 при реализации большей прибыли Π2 превышает заработную плату w1 в условиях реализации меньшей прибыли Π1 , а также
значительно больше исходной заработной платы w0 .
Таблица 2.1. Схема стимулирования высокого уровня усилий
x
y
w0 (у.е.) Φ (у.е.)
c
w1 (у.е.) w2 (у.е.)
1/2 1/4
400
100
300
675
1178
Численные результаты расчета двухставочного тарифа отражены в
таблице 2.2. Заработная плата в этом случае складывается из фиксированной части a и доли от прибыли b, рассчитанные значения которых приводятся в таблице. Заработная плата менеджера в несколько раз больше
исходной заработной платы. Согласно результатам численного моделирования, уровень усилий менеджера достаточно высок и размер оплаты
труда также высокий. Это соответствует интуитивным предположениям
о том, что прилагая высокий уровень усилий, менеджер будет требовать
и высокую зарплату.
e (у.е.)
R
4000
1
80000
Таблица 2.2. Двухставочный тариф
w0 (у.е.) Φ (у.е.)
c
a (у.е.)
400
100
1
1000000
524
b
w (у.е.)
0.0741
2820
Итак, в двух последних параграфах предложены две структуры оплаты труда, стимулирующие усилия менеджера. Более перспективной с точки зрения стимулов является схема двухставочного тарифа. Расчетные
формулы, полученные в каждом из подходов, позволяют рассчитать в
явном виде заработную плату менеджера в случаях наблюдаемых и ненаблюдаемых усилий.
73
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
§ 2.3.
Игры с зависимыми множествами стратегий
В этом параграфе мы рассмотрим игру с зависимыми множествами стратегий, введем понятие равновесия в согласованных стратегиях и проанализируем свойства оптимальных решений.
Рассмотрим следующую однократную задачу принятия решения с участием n игроков. Здесь N = {1, . . . , n} — множество игроков.
Игрок с номером i ∈ N выбирает свою стратегию из множества
¯
ª
©
(2.35)
Xi (x−i ) = xi ∈ R1 ¯g i (xi , x−i ) ≤ 0 ,
¡
¢
где g i : Rn → Rmi , x−i = x1 , . . . xi−1 , xi+1 , . . . xn , x = (xi , x−i ), с целью
достижения максимального значения своего выигрыша
max Hi (xi , x−i ) ,
(2.36)
где Hi : Rn → R1 .
Предположим, что игроки осуществляют свой выбор xi ∈ Xi одновременно. Тогда для возможности реализации такого решения необходимо
выполнение условия x = (x1 , x2 , . . . xn ) ∈ Ω, где Ω — множество решений
следующей системы неравенств:
 1
g (x) ≤ 0


 2
g (x) ≤ 0
.
(2.37)
...


 n
g (x) ≤ 0
Определение 2.3.1. Множество Ω, определяемое системой (2.37) будем называть множеством согласованных стратегий игроков.
Таким образом, построена игра n лиц
­
®
Γ = N, Ω, {Hi }i∈N
с множеством игроков N , множеством согласованных стратегий Ω и функциями выигрыша {Hi }i∈N .
Теперь определим понятие равновесия в рассматриваемом классе стратегий.
Определение 2.3.2. Ситуацией равновесия в согласованных ¡стратеги¢
ях в игре Γ будем называть ситуацию x∗ = (x∗1 , x∗2 , . . . , x∗n ) = x∗i , x∗−i ∈
Ω, для которой выполняется неравенство
¡
¢
¡
¢
Hi xi , x∗−i ≤ Hi x∗i , x∗−i ,
(2.38)
¡
¢
для любого игрока i ∈ N и для всех ситуаций xi , x∗−i ∈ Ω.
74
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.3. Игры с зависимыми множествами стратегий
Как правило, понятие равновесия характеризует индивидуально рациональное поведение игроков к игре. Коалиционная рациональность поведения игроков задается обычно свойством парето-оптимальности.
Определение 2.3.3. Набор (H1 (x) , H2 (x) , . . . , Hn (x)) будем называть
парето-оптимальным исходом в игре Γ, а ситуацию x = (x1 , x2 , . . . xn ) ∈
Ω — оптимальной по Парето в игре Γ, если не существует такой ситуации x = (x1 , x2 , . . . xn ) ∈ Ω, что
Hi (x) ≥ Hi (x) ,
(2.39)
для всех i ∈ N и хотя бы одно из неравенств (2.39) выполняется как
строгое.
Понятие равновесия характеризует устойчивость решения при отклонении одного игрока, а оптимальность по Парето — устойчивость при
отклонении максимальной коалиции (множества N всех игроков). Теперь
рассмотрим концепцию сильного равновесия, когда произвольной коалиции не выгодно отклоняться от данного решения. Понятие сильного равновесия обобщает понятия равновесия и оптимальности по Парето на случай произвольной коалиции. Понятно, что хотелось бы получить решение
именно в смысле сильного равновесия. Однако в играх в нормальной форме сильное равновесие существует крайне редко.
Обозначим xS = (x)i∈S — стратегию коалиции S, S ⊂ N . Тогда можно
ввести следующее понятие.
Определение 2.3.4. Ситуация x̂ = (x̂1 , x̂2 , . . . , x̂n ) ∈ Ω называется ситуацией сильного равновесия в игре Γ, если не существует коалиции S,
для которой было бы выгодно отклонится от x̂ в случае, если дополнительная коалиция N \S ¡не отклонияется,
то есть не существует таких
¢
S ⊂ N и xS , что x = xS , x̂N \S ∈ Ω, для которой выполнена система
неравенств
(
Hi (x) ≥ Hi (x̂) для всех i ∈ S,
(2.40)
Hi0 (xi ) > Hi0 (x̂i ) хотя бы для одного i0 ∈ S.
Оказывается, что нахождение равновесий в согласованных стратегиях
связано с решением следующих задач математического программирования:
n
X
λi Hi (x) ,
(2.41)
max
(x1 ,x2 ,...xn )∈Ω i=1
75
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
где параметры λi удовлетворяют условиям
λi ∈ (0, 1) , i = 1, n,
n
X
λi = 1.
(2.42)
i=1
Набор параметров λ = (λ1 , λ2 , . . . , λn ), удовлетворяющий условиям
(2.42), будем называть допустимым набором параметров.
Предположим,
что
при
любом
допустимом
наборе
λ ¡ = (λ1 , λ2 , .¢. . , λn ), задача имеет оптимальное решение xλ =
= xλ1 , xλ2 , . . . xλn .
Тогда справедливо следующее утверждение.
¡
¢
Утверждение 2.3.1. Пусть xλ = xλ1 , xλ2 , . . . xλn оптимальное решение задачи (2.41) при фиксированном
наборе
¡ ¡ λ ¢ допустимом
¡ λ¢
¡ λ ¢¢ параметров
λ = (λ1 , λ2 , . . . , λn ). Тогда ¡H1 x , H2 ¢x , . . . , Hn x
— паретооптимальный исход, ­а xλ = xλ1 , xλ2 ®, . . . xλn — оптимальная по Парето
ситуация в игре Γ = N, Ω, {Hi }i∈N .
Д о к а з а т е л ь с т в о. Предположим, что ¡существует
ситуация
¢
x = (x1 , x2 , . . . xn ) ∈ Ω, для которой Hi (x) ≥ Hi xλ для всех i ∈ N
и хотя бы одно из неравенств строгое. Умножим данные неравенства на
n
P
λi ∈ (0, 1) ,
λi = 1 и сложим. Тогда получим
i=1
n
X
i=1
λi Hi (x) >
n
X
³ ´
λi Hi xλ ,
i=1
при этом
x = (x¢1 , x2 , . . . xn ) ∈ Ω, но это противоречит тому, что
¡
xλ = xλ1 , xλ2 , . . . xλn — решение задачи (2.41) для данного набора λ =
(λ1 , λ2 , . . . , λn ). Данное противоречие и доказывает утверждение.
Теперь рассмотрим подкласс игр Γ, когда функции выигрыша игроков
имеют вид H̃i (xi ) ≡ Hi (x), x = (xi , x−i ) ∈ Ω. В этом подклассе функция
выигрыша игрока зависит только от стратегий этого игрока, однако множества стратегий игроков зависимы и определяются Ω. В дальнейшем
знак ∼ в обозначении функции выигрыша будем опускать.
Для таких игр справедливы следующие утверждения.
λ
λ λ
λ
Утверждение 2.3.2. Любое
Pn оптимальное решение x = (x1 , x2 , . . . , xn ),
λ = (λ1 , . . . , λn ), λi > 0, i=1 λi = 1 задачи (2.41) является ситуацией
равновесия в согласованных стратегиях в игре Γ.
76
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.3. Игры с зависимыми множествами стратегий
¡
¢
¡
¢
Д о к а з а т е л ь с т в о. Если xλ = xλ1 , xλ2 , . . . xλn ¡= xλi¢, xλ−i
оптимальное решение задачи (2.41), то для любой ситуации xi , xλ−i ∈ Ω
выполняется неравенство:
n
X
n
³ ´ X
³
´
λi Hi xλ ≥
λi Hi xi , xλi .
i=1
i=1
Учитывая, что функции выигрыша зависят только от стратегий одного игрока, имеем
³ ´
³ ´
λ1 H1 xλ1 + . . . + λi Hi (xi ) + . . . + λn Hn xλn ≥
³ ´
³ ´
³ ´
≥ λ1 H1 xλ1 + . . . + λi Hi xλi + . . . + λn Hn xλn
¡ λ¢
Откуда очевидно,
¡ λ ¢что λi Hi (xi ) ≥ λi Hi xi , а следовательно (λi >
0) и Hi (xi ) ≥ Hi xi для всех i ∈ N , а значит, верны неравенства из
определения 2.3.1 для данного подкласса игр.
¡
¢
Утверждение 2.3.3. Пусть x̂λ = x̂λ1 , x̂λ2 , . . . x̂λn решение задачи
max
n
X
(x1 ,x2 ,...xn )∈ Ω
λi Hi (xi )
i=1
для некоторого допустимого набора λ = (λ1 , λ2 , . . . , λn ). Тогда x̂λ — сильное равновесие в рассматриваемой игре.
Д о к а з а т е л ь с т в о. Предположим, что x̂λ не является сильным
равновесием,
³
´ то есть существует коалиция S ⊂ N и xS , такая что x =
λ
xS , x̂N \S ∈ Ω, для которых верны неравенства
(
¡ ¢
Hi (xi ) ≥ Hi x̂λi для всех i ∈ S,
¡ ¢
Hi0 (xi ) > Hi0 x̂λi хотя бы для одного i0 ∈ S
Умножим каждое неравенство системы на λi > 0, i ∈ S и сложим.
Тогда получим
³ ´
X
X
λi Hi (xi ) >
λi Hi x̂λi .
i∈S
i∈S
¡ ¢
Добавим к обеим частям равенства слагаемые λi Hi x̂λi , для i ∈ N \S.
Получим
X
i∈S
λi Hi (xi ) +
X
i∈N \S
n
³ ´ X
³ ´
λ
λi Hi x̂i >
λi Hi x̂λi ,
i=1
77
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
³
´
где x = xS , x̂λN \S ∈ Ω. А это противоречит тому, что x̂λ решение задачи
нелинейного программирования
max
(x1 ,x2 ,...xn )∈ Ω
n
X
λi Hi (xi ) .
i=1
В явном виде в согласованных стратегиях удалось решить только
несколько игр двух лиц (имеющих конкретную экономическую интерпретацию), а так же игр многих лиц с линейными ограничениями на множества стратегий игроков.
§ 2.4.
Модель устойчивых межрегиональных соглашений
Рассмотрим линейную модель формирования устойчивых межрегиональных соглашений для случая двух регионов (игроки 1 и 2). Предположим,
что игрок 1 имеет экономическую программу x= (x1 , x2 , . . . xm ) ≥ 0, т. е.
планирует производство m видов продукции объемом xi ≥ 0, обладая
запасами собственных ресурсов a = (a1 , a2 , . . . ak ), и технологическими
матрицами A и B, при этом будут использованы xA собственных ресурсов т и xB ресурсов игрока 2. Экономическая эффективность стратегии оценивается вектором b = (b1 , b2 , . . . bm ) > 0. Аналогично игрок 2
имеет экономическую программу y = (y1 , y2 , . . . yn ) ≥ 0, запас собственных ресурсов c = (c1 , c2 , . . . ck ), технологические k × k матрицы C и D,
используя при этом yC собственных ресурсов и yD ресурсов игрока 1.
Экономическая эффективность стратегии игрока 2 оценивается вектором
d = (d1 , d2 , . . . dn ) > 0.
Таким образом, имеем следующую задачу принятия решения. Игрок
1 выбирает стратегию (вектор x) из множества
X1 (y) = {x |xA ≤ a − yD, x ≥ 0 } , a > 0, A ≥ 0, D ≥ 0
(2.43)
с целью достижения максимального значения своего выигрыша
max H1 (x) = max bx,
(2.44)
а игрок 2 выбирает вектор y из множества
X2 (x) = {y |yC ≤ c − xB, y ≥ 0 } , c > 0, C ≥ 0, B ≥ 0
(2.45)
с целью достижения максимального значения своего выигрыша
max H2 (y) = max dy.
78
(2.46)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.4.. Модель устойчивых межрегиональных соглашений
Предполагается, что игроки осуществляют выбор своих экономических программ x и y одновременно. Для возможности реализации такого
решения необходимо выполнение условия (x, y) ∈ Ω, где Ω — множество
согласованных стратегий, которое задается в данном случае следующей
системой неравенств
xA + yD ≤ a, yC + xB ≤ c, x ≥ 0, y ≥ 0.
(2.47)
Таким образом, построена игра двух лиц Γ = hΩ, H1 , H2 i с множеством
согласованных стратегий Ω и функциями выигрышей H1 , H2 .
В соответствии с определением 2.3.2 ситуацией равновесия в согласованных стратегиях в игре Γ будем называть пару векторов (x∗ , y ∗ ) ∈ Ω,
для которой выполняются неравенства H1 (x) ≤ H1 (x∗ ) , H2 (y) ≤ H2 (y ∗ )
для всех согласованных пар (x∗ , y), (x, y ∗ ) ∈ Ω.
Следуя определению 2.3.3, пару (H1 (x) , H2 (y)) будем называть
парето-оптимальным исходом, а ситуацию (x, y) ∈ Ω — ситуацией оптимальной по Парето в игре Γ, если не существует такой согласованной
пары (x, y) ∈ Ω, что H1 (x) ≥ H1 (x) , H2 (y) ≥ H2 (y), и хотя бы одно из
неравенств строгое.
Утверждение 2.4.1. Пара (xλ , yλ ) ∈ Ω является оптимальной по Парето тогда и только тогда, когда она является решением задачи линейного
программирования
max θ (x, y, λ) = max (λH1 (x) + (1 − λ)H2 (y))
(x,y)∈Ω
(2.48)
при некотором значении параметра λ ∈ (0, 1).
Д о к а з а т е л ь с т в о. Необходимость. Покажем, что пара (H1 (xλ ) , H2 (yλ )) является парето-оптимальным исходом. Предположим противное, т. е. существует такая пара (x0 , y 0 ) ∈ Ω, для которой
bx0 ≥ bxλ , dy 0 ≥ dyλ и хотя бы одно из неравенств строгое. Умножим
оба неравенства на λ > 0 и 1 − λ > 0 соответственно и сложим. Тогда
получим λ (bx0 ) + (1 − λ) dy 0 > λ (bxλ ) + (1 − λ) (dyλ ), но это противоречит
тому, что (xλ , yλ ) ∈ Ω — решение задачи линейного программирования
для заданного λ ∈ (0, 1).
Достаточность. Предположим противное, т. е. (x, y) ∈ Ω — ситуация
парето-оптимальная в игре Γ, но ни при каком λ ∈ (0, 1) она не является
решением задачи линейного программирования (2.48). Поскольку (x, y) ∈
Ω, то для всех λ ∈ (0, 1) выполнено строгое неравенство
λ (bxλ ) + (1 − λ) (dyλ ) > λ (bx) + (1 − λ) dy.
79
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Если bxλ ≥ bx, то всегда существует такое достаточно малое λ > 0,
что (1 − λ) (dyλ ) > (1 − λ) dy. Тогда dyλ > dy, что противоречит условию
оптимальности по Парето ситуации (x, y) ∈ Ω.
Предположим, что bxλ < bx. Тогда dyλ > dy. Выберем λ ∈ (0, 1) достаточно близкое к 1 для которого λ (bxλ ) > λ (bx). Полученное противоречие
доказывает утверждение.
При различных значениях параметра λ ∈ (0, 1) получается множество решений, каждое из которых является реализуемым, индивидуально
и коалиционно устойчивым, поэтому может быть принято обеими сторонамиюО̇днако при различных значениях параметра λ ∈ (0, 1) решения
неравнозначны с точки зрения игроков, поэтому каждый из игроков вправе стремиться к такой ситуации, которая более выгодна с точки зрения
его собственного выигрыша.
§ 2.5.
Игры при ограничениях на множество стратегий
Рассмотрим частный случай игры n лиц, в которой каждый игрок выбирает свою стратегию (число xi ) из множества

¯

¯


X
¯
Xi (x−i ) = xi ∈ R1 ¯¯xi Ai ≤ ai −
xj ,
(2.49)


¯
j∈N \{i}
1 , N = {1, 2, . . . n} — множество игроков. Целью игрока i
где ai , Ai ∈ R+
является достижение максимального значения своего выигрыша
1
Hi (xi ) = ci xi , ci ∈ R+
.
(2.50)
Для реализации ситуации x = (x1 , x2 , . . . xn ) необходимо выполнение
условия x ∈ Ω, где Ω — множество решений следующей системы

P
 xi Ai ≤ ai −
xj
j∈N \{i}
(2.51)
 x ≥ 0, i = 1, n
i
Таким образом, построена игра n лиц
­
®
Γ = N, Ω, {Hi }i∈N
с множеством игроков N , множеством согласованных стратегий Ω и функциями выигрыша {Hi }i∈N . В данной игре можно рассмотреть следующие
принципы оптимальности: равновесие в согласованных стратегиях, оптимальность по Парето и сильное равновесие.
80
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.5. Игры при ограничениях на множество стратегий
Утверждение 2.5.1. Для игры Γ существует ситуация равновесия в
согласованных стратегиях.
Д о к а з а т е л ь с т в о. Рассмотрим задачу линейного программирования
n
n
X
X
max
Hi (xi ) =
max
ci xi ,
(x1 ,x2 ,...xn )∈ Ω i=1
(x1 ,x2 ,...xn )∈ Ω i=1
где Ω имеет вид

x1 A1 + x2 + . . . + xn ≤ a1




 x1 + x2 A2 + . . . + xn ≤ a2
... ... ... ... ...


x + x2 + . . . + xn An ≤ an


 1
xi ≥ 0, i = 1, n
(2.52)
и двойственную к ней задачу
min
n
X
ai ti
i=1
при ограничениях

t1 A1 + t2 + . . . + tn ≥ c1




 t1 + t2 A2 + . . . + tn ≥ c2
... ... ... ... ...


t + t2 + . . . + tn An ≥ cn


 1
ti ≥ 0, i = 1, n
(2.53)
Вектор x = (x1 , x2 , . . . xn ) = (0, 0, . . . , 0) является допустимым решением задачи (2.52). Для задачи (2.53) можно подобрать такой вектор
T = (t1 , t2 , . . . tn ), который будет удовлетворять ограничениям. Тогда, по
теореме двойственности, прямая задача (2.52) будет иметь оптимальное
решение x∗ = (x∗1 , x∗2 , . . . x∗n ).
Утверждение 2.5.2. Любое оптимальное решение xλ = (xλ1 , xλ2 , . . . xλn )
задачи
n
X
max
λi Hi (xi ) ,
(2.54)
(x1 ,x2 ,...,xn )∈ Ω i=1
Pn
при фиксированном наборе λ = (λ1 , λ2 , . . . , λn ), λi ∈ (0, 1) ,
i=1 λi = 1
является ситуацией равновесия в согласованных стратегиях.
¡
¢
Д о к а з а т е л ь с т в о. Если xλ = xλ1 , xλ2 , . . . xλn оптимальное
решение задачи (2.54), то выполняется следующее неравенство
n
X
i=1
n
³ ´ X
λi Hi xλi ≥
λi Hi (xi )
i=1
81
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
¡
¢
для всех xi , xλ−i
¡ λ∈¢ Ω. Откуда очевидно (см. доказательство утверждения
2.3.2, что
λ
H
xi ≥ λi Hi (xi ) для всех
верны неравенi
i
¡ ¢
¡ i ∈ N , а значит,
¢
ства Hi xλi ≥ Hi (xi ). Поэтому xλ = xλ1 , xλ2 , . . . xλn — ситуация равновесия в согласованных стратегиях.
Утверждение 2.5.3. Пусть xλ = (xλ1 , xλ2 , . . . , xλn ) оптимальное решение задачи
наборе
, λ2 , . . . , λn ),
¡ ¡ λ¢
¡ λ ¢ λ = ¡(λλ1¢¢
Pn (2.54) при фиксированном
λi ∈ (0, 1) ,
λ
=
1.
Тогда
H
x
,
H
x
,
.
.
.
,
H
x
— паретоi
1
2
n
i=1
¡
¢
оптимальный исход, ­а xλ = xλ1 , xλ2 ®, . . . xλn — оптимальная по Парето
ситуация в игре Γ = N, Ω, {Hi }i∈N .
Д о к а з а т е л ь с т в о. Предположим, что ¡существует
ситуация
¢
λ
x = (x1 , x2 , . . . xn ) ∈ Ω, для которой Hi (xi ) ≥ Hi xi для всех i ∈ N
и хотя бы одно
Pnиз неравенств строгое. Умножим данные неравенства на
λi ∈ (0, 1) ,
i=1 λi = 1 и сложим. Тогда, учитывая, что все λi > 0,
получим:
n
n
³ ´
X
X
λi Hi (xi ) >
λi Hi xλi
i=1
i=1
при этом
¡ λ xλ = (x
¢1 , x2 , . . . xn ) ∈ Ω, но это противоречит тому, что
λ
λ
x = x1 , x2 , . . . xn — решение задачи (2.54) для данного набора λ =
(λ1 , λ2 , . . . , λn ). Данное противоречие доказывает утверждение.
Утверждение 2.5.4. Пусть
­ x = (x1 , x2 , .®. . xn ) ∈ Ω парето-оптимальная ситуация в игре Γ = N, Ω, {Hi }P
i∈N . Тогда найдется такой наn
бор λ = (λ1 , λ2 , . . . , λn ), λi ∈ (0, 1) ,
i=1 λi = 1, для которого x =
= (x1 , x2 , . . . xn ) — оптимальное решение задачи (2.54).
Д о к а з а т е л ь с т в о. Предположим противное, то есть x ∈ Ω паретооптимальная ситуация, но ни для какого набора λ = (λ1 , λ2 , . . . , λn ) она не
является решением задачи линейного программирования (2.54). Поскольку x ∈ Ω, то для любого набора λ выполняется неравенство
n
X
i=1
n
³ ´ X
λi Hi xλi >
λi Hi (xi ) .
(2.55)
i=1
¡ ¢
Если λi Hi xλi ≥ λi Hi (xi ) для всех i = 1, n − 1, то для набора λ =
(λ1 , λ2 , . . . , λn ), в котором λi , i = 1, n − 1 близки к нулю, а λn близко к 1,
будет выполнено неравенство:
³ ´
λn Hn xλn > λn Hn (xn ) ,
что противоречит парето-оптимальности ситуации x ∈ Ω.
82
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.5. Игры при ограничениях на множество стратегий
¡ λ¢
Предположим,
что
λ
H
xi < λi Hi (xi ) для всех i = 1, n − 1. Тогда
i
i
¡ ¢
обязательно Hn xλn > Hn (xn ). Если набор λ = (λ1 , λ2 , . . . , λn ) такой,
n−1
¡ ¢
P
что λn достаточно близко к нулю, то из (2.55) получим
λi Hi xλi >
n−1
P
i=1
i=1
¡ ¢
λi Hi (xi ), откуда λi Hi xλi ≥ λi Hi (xi ) для всех i = 1, n − 1 и хотя бы
одно из этих неравенств выполняется как строгое. Полученное противоречие доказывает утверждение.
Согласно определению 2.3.4, ситуация x̂ = (x̂1 , x̂2 , . . . x̂n ) =
= (x̂S , x̂N \S ) ∈ Ω является ситуацией сильного равновесия в игре, если
не существует коалиции S, для игроков которой было бы выгодно отклонится от x̂ в случае, если дополнительная коалиция N \S придерживается
x̂N \S , то есть не существует S ⊂ N и xS такой, что
¡ стратегии
¢
x = xS , x̂N \S ∈ Ω, для которой выполнена система неравенств
(
Hi (xi ) ≥ Hi (x̂i ) для всех i ∈ S,
Hi0 (xi ) > Hi0 (x̂i ) хотя бы для одного i0 ∈ S.
Полагая S = {i}, i ∈ N в данном определении, получаем что любая ситуация сильного равновесия является равновесием в согласованных стратегиях. Рассматривая S = N , получаем, что любая ситуация сильного
равновесия является оптимальной по Парето.
¡
¢
Утверждение 2.5.5. Пусть x̂λ = x̂λ1 , x̂λ2 , . . . x̂λn решение задачи математического программирования (2.54
n
X
max
λi Hi (xi )
(x1 ,x2 ,...xn )∈ Ω i=1
при допустимом наборе λ = (λ1 , λ2 , . . . , λn ), λi ∈ (0, 1) i = 1, n и
P
n
λ
i=1 λi = 1. Тогда x̂ — сильное равновесие в рассматриваемой игре.
Д о к а з а т е л ь с т в о. Предположим, что x̂λ не является сильным
равновесием,
³
´ то есть существует коалиция S ⊂ N и xS , такие что x =
λ
xS , x̂N \S ∈ Ω, для которых верны неравенства
¡ λ¢


 Hi (xi ) ≥ Hi x̂i для всех i ∈ S,
существует такое i0 ∈ S, rm что

¡ ¢

Hi0 (xi ) > Hi0 x̂λi .
83
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Умножим каждое неравенство системы на λi > 0, i ∈ S и сложим.
Тогда получим
³ ´
X
X
λi Hi (xi ) >
λi Hi x̂λi .
i∈S
i∈S
¡ ¢
Добавим к обеим частям равенства слагаемые λi Hi x̂λi , для i ∈ N \S,
n
P
где вектор λ = (λ1 , λ2 , . . . λn ) такой, что λi ∈ (0, 1), i = 1, n,
λi = 1.
i=1
Получим
X
i∈S
λi Hi (xi ) +
X
n
³ ´ X
³ ´
λi Hi x̂λi >
λi Hi x̂λi ,
i∈N \S
i=1
³
´
где x = xS , x̂λN \S ∈ Ω. Это противоречит тому, что x̂λ решение задачи
линейного программирования (2.54).
§ 2.6.
Многокритериальная игра двух лиц
Оказывается, что для игры в нормальной форме согласованное поведение
является обязательным условием оптимальности решения, если ее рассматривать как двухкритериальную задачу. Многокритериальность постановки задачи может возникнуть при рассмотрении игры в смешанных
стратегиях. Тогда выигрыши каждого игрока становятся случайной величиной, которую можно оценивать по двум критериям: ожидаемому выигрышу и дисперсии выигрыша.
Рассматривается биматричная игра с матрицами выигрышей A и B
размерности m × n игроков 1 и 2, соответственно. Будем рассматривать
ситуацию
в смешанных стратегиях (x, y), где x = (x1 , x2 , . . . , xm ) : xi ≥
P
0,
xi = 1, i = 1, m — смешанная стратегия игрока 1; y = (y1 , y2 , . . . , yn ):
i
P
yj ≥ 0, j yj = 1, j = 1, n — смешанная стратегия игрока 2.
Выигрыш в ситуации (x, y) игрока 1 определяется как математическое
ожидание его выигрыша при условии, что игроки используют смешанные
стратегии x и y:
E1 (x, y) =
m X
n
X
i=1 j=1
где αij — элементы матрицы A.
84
αij xi yj = xAy,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.6. Многокритериальная игра двух лиц
И, соответственно, выигрыш в ситуации (x, y) игрока 2 определяется
следующим образом:
E2 (x, y) =
m X
n
X
bij xi yj = xBy,
i=1 j=1
где bij — элементы матрицы B.
Риск выигрыша игрока 1 будем оценивать дисперсией выигрыша, которая равна разности между математическим ожиданием квадрата выигрыша 1-го игрока в ситуации (x, y) и квадратом ожидаемого выигрыша
1-го игрока в ситуации (x, y), т. е.
D1 (x, y) = E1 (x, y)2 − (E1 (x, y))2 = xA2 y − (xAy)2 ,
где A2 — матрица, элементы которой равны квадратам элементов матри2 , i = 1, m, j = 1, n.
цы A: αij(2) = αij
Аналогичным образом строится функция риска игрока 2:
D2 (x, y) = E2 (x, y)2 − (E2 (x, y))2 = xB2 y − (xBy)2 ,
где B2 — матрица, элементы которой равны квадратам элементов матрицы B: bij(2) = b2ij , i = 1, m, j = 1, n. В постановке данного параграфа
каждый игрок за счет выбора своей стратегии старается решить двухкритериальную задачу: максимизировать свой выигрыш и минимизировать
свою функцию риска.
Определение 2.6.1. Стратегию x∗ игрока 1 будем называть наилучшим ответом на стратегию y игрока 2, если не существует стратегии
x игрока 1, для которой следующие неравенства выполняются одновременно: E1 (x, y) ≥ E1 (x∗ , y); D1 (x, y) ≤ D1 (x∗ , y) и хотя бы одно неравенство строгое.
Определение 2.6.2. Стратегию y ∗ игрока 2 будем называть наилучшим ответом на стратегию x игрока 1, если не существует стратегии
y игрока 2, для которой следующие неравенства выполняются одновременно: E2 (x, y) ≥ E2 (x, y ∗ ); D2 (x, y) ≤ D2 (x, y ∗ ) и хотя бы одно неравенство строгое.
Определение 2.6.3. Пару стратегий (x∗ , y ∗ ) будем называть равновесием, если для игроков 1 и 2 стратегии x∗ и y ∗ являются наилучшими
ответами друг на друга, соответственно.
85
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Будем исследовать нашу двухкритериальную игру по методу главного
критерия. В качестве главного критерия выберем оцениваемый дисперсией риск, тогда задача может быть сформулирована следующим образом.
Задача. Каждый игрок стремится минимизировать функцию риска
и получить ожидаемый выигрыш не ниже заданного значения. В случае
неоднозначного решения задачи минимизации, будем выбирать такое решение, которое дает больший ожидаемый выигрыш.
Определение 2.6.4. Множеством согласованных решений M (m1 , m2 )
задачи будем называть множество таких пар (x, y), которые удовлетворяют системе неравенств,
M (m1 , m2 ) = {(x, y)|E1 (x, y) ≥ m1 , E2 (x, y) ≥ m2 ,
xu = 1, x ≥ 0, yv = 1, y ≥ 0},
(2.56)
где m1 ≥ 0, m2 ≥ 0 заданные числа, u = (1, . . . , 1) ∈ Rm , v = (1, . . . , 1) ∈
Rn .
Утверждение 2.6.1. Множество согласованных решений M (m1 , m2 )
является замкнутым множеством.
Д о к а з а т е л ь с т в о. Рассмотрим последовательность точек
{xk , yk }∞
k=1 таких, что (xk , yk ) ∈ M (m1 , m2 ).
Пусть (x, y) = limk→∞ (xk , yk ). Докажем, что (x, y) ∈ M (m1 , m2 ).
В силу непрерывности E1 (x, y) по своим аргументам E1 (x, y) =
limk→∞ E1 (xk , yk ) и следовательно E1 (x, y) ≥ m1 . Следовательно, (x, y) ∈
M (m1 , m2 ) и M (m1 , m2 ) является замкнутым множеством по определению.
Для игрока 1 задача нахождения наилучшего ответа на стратегию y
игрока 2 при заданном m1 может быть сформулирована следующим образом:
max E1 (x, y) ,
(2.57)
x
где максимум берется по решениям x задачи нелинейного программирования:
min D1 (x, y) = min[xA2 y − (xAy)2 ].
x
x
В последней задаче минимум берется по таким x, что (x, y) ∈
M (m1 , m2 ), y — стратегия игрока 2.
86
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.6. Многокритериальная игра двух лиц
Для игрока 2 задача нахождения наилучшего ответа на стратегию x
игрока 1 при заданном m2 формулируется аналогичным образом:
max E2 (x, y) ,
y
(2.58)
где максимум берется по решениям y задачи нелинейного программирования:
min D2 (x, y) = min[xB2 y − (xBy)2 ].
y
y
Здесь минимум берется по таким y, что (x, y) ∈ M (m1 , m2 ), x — стратегия игрока 1.
Множеством допустимых решений задачи (2.57) будем называть
множество: M1 (y, m1 , m2 ) ≡ {x |(x, y) ∈ M (m1 , m2 ) }. Соответственно,
множеством допустимых решений задачи (2.58) будем называть множество: M2 (x, m1 , m2 ) ≡ {y |(x, y) ∈ M (m1 , m2 ) }.
Для множеств допустимых решений справедливо следующее утверждение.
Утверждение 2.6.2. Множества допустимых решений M1 (y, m1 , m2 ),
M2 (x, m1 , m2 ) являются выпуклыми многогранниками в соответствующих пространствах.
Д о к а з а т е л ь с т в о. Докажем утверждение для множества
M1 (y, m1 , m2 ). Для множества M2 (x, m1 , m2 ) доказательство аналогичное.
Рассмотрим множество
M1 (y, m1 , m2 ) = {x |E1 (x, y) ≥ m1 , E2 (x, y) ≥ m2 , xu = 1, x ≥ 0 } .
Множество M1 (y, m1 , m2 ) задается системой линейных неравенств, поэтому оно многогранное, замкнутое и выпуклое. Имеет место включение:
M1 (y, m1 , m2 ) ⊂ P1 , где P1 = {x |xu = 1, x ≥ 0 } — многогранник в Rm .
Поэтому M1 (y, m1 , m2 ) — ограниченное множество. Тогда M1 (y, m1 , m2 ) —
многогранное, выпуклое и ограниченное множество, т. е. выпуклый многогранник.
Определение 2.6.5. Стратегию x∗ (y, m1 , m2 ) игрока 1 будем называть
(m1 , m2 ) − наилучшим ответом игрока 1 на стратегию y, если (x∗ , y) ∈
M (m1 , m2 ) и
x∗ (y, m1 , m2 ) = arg max E1 (x, y) ,
x
где максимум берется по значениям
x = arg
min
x∈M1 (y,m1 ,m2 )
D1 (x, y) .
87
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Введем аналогичное понятие для игрока 2.
Определение 2.6.6. Стратегию y ∗ (x, m1 , m2 ) игрока 2 будем называть
(m1 , m2 ) − наилучшим ответом игрока 2 на стратегию x, если (x, y ∗ ) ∈
M (m1 , m2 ) и
y ∗ (x, m1 , m2 ) = arg max E2 (x, y) ,
y
где максимум берется по
y = arg
min
y∈M2 (x,m1 ,m2 )
D2 (x, y) .
Определение 2.6.7. Пару стратегий (x∗ , y ∗ ) будем называть
(m1 , m2 )-равновесием, если стратегии x∗ и y ∗ являются (m1 , m2 ) —
наилучшими ответами игроков 1 и 2 друг на друга соответственно,
т. е.
x∗ = x∗ (y ∗ , m1 , m2 ) , y ∗ = y ∗ (x∗ , m1 , m2 ) .
Утверждение 2.6.3. Функция D1 (x, y) = xA2 y − (xAy)2 как функция
переменной x является непрерывно дифференцируемой и выпуклой вверх
(вогнутой).
Д о к а з а т е л ь с т в о. Функция D1 (x, y) непрерывно дифференцируема по x, как сумма двух непрерывно дифференцируемых по x
функций.
Исследуем функцию D1 (x, y) на вогнутость. Для этого рассмотрим
матрицу вторых частных производных функции D1 (x, y) по x.
Слагаемое xA2 y не влияет на вогнутость, т. к. для него вторая производная по x равна 0.
³P P
´2
m
n
Рассмотрим второе слагаемое (xAy)2 =
. Произi=1
j=1 αij xi yj
водные по x равны:


2


m n
m X
n
n
X
X
∂ X X
αij xi yj  = 2 
αij xi yj  
αij yj  ,
∂xi
i=1 j=1

∂

∂xi ∂xk
n
m X
X
i=1 j=1
i=1 j=1
j=1
2



n
n
X
X
αij xi yj  = 2 
αij yj  
αkj yj  .
j=1
j=1
Следовательно, матрица вторых производных функции D1 (x, y) по x
88
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.6. Многокритериальная игра двух лиц
имеет вид:

n
P
)2
(
α1j yj

j=1

n
 P
P
 (
α2j yj )( nj=1 α1j yj )

 j=1

n
n
P
−2  ( P
α3j yj )(
α1j yj )

 j=1
j=1


···
 P
n
n
P

(
αmj yj )(
α1j yj )
j=1
j=1
... (
···
···
···
···
n
P

α1j yj ) 


(
αmj yj )(
α2j yj ) 


j=1
j=1

n
n
P
P
.
(
αmj yj )(
α3j yj ) 


j=1
j=1


···

n
P

2
(
αmj yj )
j=1
n
P
αmj yj )(
n
P
j=1
n
P
j=1
Заметим, что в каждой строке матрицы есть общий множитель. Следовательно, все миноры (в том числе и главные) порядка k ≥ 2 равны 0.
Главные миноры 1-ого порядка (элементы, стоящие на главной диагонали) меньше или равны 0. Следовательно, функция D1 (x, y) как функция
x является вогнутой.
Доказательство для функции D2 (x, y) как функции y проводится аналогично.
Утверждение 2.6.4. Минимум функции D1 (x, y) (D2 (x, y)) на множестве допустимых решений M1 (y, m1 , m2 ) (M2 (x, m1 , m2 )) достигается в
вершине этого множества.
Д о к а з а т е л ь с т в о. Множество M1 (y, m1 , m2 ) является выпуклым многогранником, поэтому его можно представить как выпуклую
линейную комбинацию его вершин x0i , i = 1, r:
©
ª
M1 (y, m1 , m2 ) = conv x01 , x02 , . . . , x0r ,
Следовательно, любой элемент x ∈ M1 (y, m1 , m2 ) можно представить в
виде:
r
r
X
X
0
x=
λi xi λi ≥ 0,
λi = 1.
i=1
i=1
Поскольку стратегия y — фиксирована, обозначим D1 (x, y) = f (x).
Тогда
à r
!
r
r
X
X
¡ ¢ X
¡ ¢
¡ ¢
0
f (x) = f
λi xi ≥
λi f x0i ≥
λi f x0i0 = f x0i0 ,
i=1
i=1
i=1
¡ 0¢
¡ 0¢
где i=1 λi = 1,
¡ 0x ¢∈ M1 (y, m1 , m2 ), f xi0 = mini=1,r f xi .
Поэтому f xi0 = minx∈M1 (y,m1 ,m2 ) f (x) и утверждение доказано.
Pr
89
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Пример 2.6.1. В качестве иллюстрации решения биматричной игры в
смешанных стратегиях как двухкритериальной игры двух лиц рассмотрим простейшую биматричную игру типа «Семейный спор».
Пусть матрицы выигрышей имеют вид:
Ã
!
(4, 1) (0, 0)
.
(0, 0) (1, 4)
Множество согласованных стратегий в задаче нахождения (m1 , m2 )равновесия определяется следующей системой неравенств:


 E1 (x, y) = 5xy − y − x + 1 ≥ m1
E2 (x, y) = 5xy − 4y − 4x + 4 ≥ m2


0 ≤ x ≤ 1, 0 ≤ y ≤ 1
где (x, 1 − x), (y, 1 − y) — смешанные стратегии игроков 1 и 2 соответственно.
Можно показать, что множество точек, удовлетворяющих уравнению
E1 (x, y) = m1 (E2 (x, y) = m2 ) является гиперболой, а, следовательно, множество согласованных стратегий есть пересечение множества смешанных
стратегий (0 ≤ x ≤ 1, 0 ≤ y ≤ 1) с фигурой ограниченной этими двумя
гиперболами (область с двойной штриховкой на рис. 2.2–2.7).
Рассмотрим случай, когда m1 = m2 = m, т. е. когда игроки имеют одинаковые амбиции. Можно показать, что множество согласованных стратегий для данной матрицы выигрышей является непустым при m ∈ [0, 5/4],
симметричным относительно прямой x = y и в общем случае невыпуклым.
Будем решать задачу нахождения (m, m)-равновесия графически в системе Matlab. Данная игра имеет две ситуации равновесия в чистых стратегиях:
x1∗ = (1, 0), y 1∗ = (1, 0);
x2∗ = (0, 1),
y 2∗ = (0, 1).
Ясно, что если эти ситуации являются (m, m)-допустимыми, то они и образуют ситуации (m, m)-равновесия, поскольку в этих ситуациях дисперсия равна 0, отклонение на чистые стратегии не увеличивает выигрыша, а
отклонение на смешанную — увеличивает дисперсию. В противном случае
решение будет более сложным.
Рассмотрим несколько частных случаев для различных допустимых
значений параметра m. На рис. 2.2–2.7 изображены множества согласованных стратегий (область двойной штриховки в квадрате 0 ≤ x ≤ 1,
0 ≤ y ≤ 1) и линии уровня дисперсии.
90
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.6. Многокритериальная игра двух лиц
Рис. 2.2. Согласованные
стратегии при m = 0.
Рис. 2.3. Область согласованных
стратегий при m = 1/2.
Классифицируем решение рассматриваемой игры в зависимости от
значений этого параметра.
При m = 0 (рис. 2.2) множество согласованных стратегий совпадает
с множеством смешанных стратегий биматричной игры. Поэтому игра
имеет два (m, m)-равновесия в чистых стратегиях:
x1∗ = (1, 0) , y 1∗ = (1, 0) ; x2∗ = (0, 1) , y 2∗ = (0, 1) .
Пусть m ∈ (0, 1], тогда множество согласованных стратегий имеет вид
как на рис. 2.3–2.5 (двойная штриховка). Если изобразить на графике
линии уровня функции D (x, y), то можно заметить, что дисперсия достигает минимального значения равного нулю в двух точках: (1, 1) и (0, 0).
Непосредственно проверяем, что опять игра имеет только два (m, m)равновесия в чистых стратегиях:
x1∗ = (1, 0) , y 1∗ = (1, 0) ; x2∗ = (0, 1) , y 2∗ = (0, 1) .
Пусть m ∈ (1, 5/4), тогда множество согласованных стратегий имеет
вид как на рис. 2.6. В этом случае игра имеет два смешанных (m, m)равновесия, которые находятся как точки пересечения графиков функций, задающих ожидаемые выигрыши, поскольку в них достигается минимальное значение дисперсии:
q
q


1 + 1 − 45 m 1 − 1 − 54 m
,
x1∗ = 
,
2
2

y 1∗ = 
1−
q
q

1 − 45 m 1 + 1 − 45 m
,
,
2
2
91
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Рис. 2.4. Случай m = 4/5.

x2∗ = 

y 2∗ = 
Рис. 2.5. При m = 5/6 область
согласованных стратегий —
несвязанная.
q
1 − 45 m 1 +
,
2
1−
q
1+
1 − 45 m 1 −
,
2
q
1 − 54 m
2

,
q

1 − 54 m
.
2
При m = 5/4 (рис. 2.7) множество согласованных стратегий состоит
из единственной точки x∗ = (1/2, 1/2) , y ∗ = (1/2, 1/2), которая и является
(m, m)-равновесием.
Рис. 2.6. В случае m = 6/5
решение имеет высокую
дисперсию.
92
Рис. 2.7. При m = 5/4 решение
имеет самую высокую дисперсию.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
§ 2.7.
Кооперативная модель страхования
Классическая актуарная теория в основном рассматривает проблемы передачи рисков с точки зрения интересов страховщиков. Основное внимание при этом уделяется определению подходящих премий для покрытия
страхового риска.
В классических актуарных моделях конкуренция, возникающая из-за
присутствия на страховом рынке других страховщиков, а также интересы
страхователя зачастую не учитываются.
В данном параграфе для решения проблем страхования будем применять кооперативную теорию игр. Кооперативный подход в теории игр
отражает ситуацию, когда несколько представителей страхового сообщества решают объединиться с целью увеличения общего дохода.
В нашем случае модель кооперативной игры должна определяться соответствующим набором инструментов, используемых для анализа проблем страхования. Сложности при создании модели возникают при описании неопределенности, которая играет большую роль в страховании.
Мы покажем как кооперативная игровая модель может быть применена к исследованию проблем страхования. Заметим, что проблематика
страхования приводит к необходимости рассмотрения неклассических кооперативных моделей. Из известной литературы на русском языке здесь
следует отметить работу С.Л. Печерского и А.И. Соболева [Печерский,
Соболев, 1983] и русский перевод книги Э. Мулена [Мулен, 1993]. Из поздних работ можно рекомендовать книгу [Печерский, Яновская, 2004]. В модели рассматривается объединение игроков для страхования персональных рисков, а также перестрахования портфелей страховых компаний.
Кооперируясь со страховщиками, страхователь получает возможность передать свои будущие случайные потери объединению страховых компаний. В результате он заключает договор страхования. Подобным образом,
объединяясь с другими страховщиками, страховая компания может передать часть рисков по своему страховому портфелю другим компаниям. В
результате страховщик заключает договор перестрахования.
Особое внимание в параграфе будет уделено нахождению оптимального распределения рисков и тому, какие премии лучше назначить при таком
обмене рисками. Мы покажем, что в нашей модели существует единственное оптимальное распределение риска, причем данное распределение не
будет зависеть от страховых премий, которые игроки платят за передачу риска. Для нахождения страховых премий мы рассмотрим ядро игры
страхования и покажем, что часто используемый для вычисления премий
принцип нулевой полезности приводит к распределению, принадлежаще93
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
му ядру.
Построим модель кооперативного поведения участников страхования
со случайными выигрышами. Покажем, что при кооперации страховщики и страхователи могут перераспределить свои риски и, таким образом,
улучшить свое благосостояние. Впервые кооперативные игры со случайными выигрышами были исследованы в работах [Suijs, Borm, 1998; 1999],
методологии которых мы следуем.
Сначала определим участников игры. В нашем случае игроки могут
быть двух типов: индивидуальные страхователи и страховщики. Множество индивидуальных страхователей обозначим через NP , а множество
страховщиков — NI . Тогда множество участников игры (игроков) — это
множество NI ∪ NP .
Далее предположим, что игроки несклонны к риску. Это означает, что
игрок предпочитает один риск другому, если ожидаемая полезность первого превышает ожидаемую полезность второго. Заметим, что страховщик также предполагается несклонным к риску. Функция полезности для
каждого игрока i ∈ NI ∪ NP может быть представлена в виде:
ui (t) = βi e−αi t , t ∈ R,
где βi < 0, αi > 0. Так как βi < 0 и αi > 0, то функция полезности ui —
вогнутая функция.
Для описания будущих случайных потерь игроков, введем следующие
условные обозначения. Пусть {Yk ∼ exp(µk )|k ∈ K} — конечное множество независимых экспоненциально распределенных случайных величин.
Заметим, что exp(µk ) обозначает распределение случайной величины t
на [0, +∞) с плотностью f (t) = µk e−µk t . Эти величины можно интерпретировать как возможные случайные потери, которые может понести
страховщик. Они показывают, например, денежный эквивалент ущерба,
нанесенного машине, дому или человеку. Тогда потери Xi для игрока i
равны
X
Xi =
fik Yk ,
(2.59)
k∈K
где 0 ≤ fik ≤ 1 для всех k ∈ K. Здесь K — множество всевозможных
рисков. Тогда мы можем определить множество Kj = {k ∈ K|fjk 6= 0}
рисков игрока j ∈ NI ∪ NP .
Если игрок i — страховщик, то потери Xi представляют собой его страховой портфель. Более того, страховой портфель Xi может быть комбинацией случайных потерь. Величина fik определяет долю потерь, которую
страхователь застраховал у определенного страховщика. Если игрок i —
страхователь, то Xi представляет собой случайные потери, которые дан94
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
ный страхователь желает застраховать. Заметим, что портфели различных игроков могут быть стохастически зависимы. Действительно, страхователь может застраховать часть своих потерь у страховщика i, а другую
часть у страховщика j. Но это довольно редкий случай и мы его рассматривать не будем.
Теперь выясним что происходит, когда игроки решают объединиться. Рассмотрим коалицию S. Общие потери коалиции XS будем считать
равными
P сумме частных потерь участников данной коалиции S, то есть
XS = i∈S Xi . В дальнейшем потери XS необходимо распределить между
членами коалиции S.
При распределении потерь XS мы будем различать следующие три
случая. В первом случае коалиция состоит только из страховых компаний (страховщиков), т.е. S ⊂ NI . Такая коалиция распределяет потери
XS следующим образом. Обозначим rij ∈ [0, 1] долю потерь Xj , которую
страховщик j ∈ S передает страховщику i ∈ S. ТакимPобразом, суммарные потери,
P которые несет страховщик i, составляют j∈S rij Xj , где
rij ∈ [0, 1] и k∈S rkj = 1. Данный случай называется перестрахованием.
Эту часть распределения XS для коалиции S можно представить в виде
матрицы {rij } = R, R ∈ RS×S
+ , где rij — доля потерь Xj страховщика
j, которая передается страховщику i. Будем предполагать при этом, что
каждая P
страховая компания i ∈ S получает некоторую величину di ∈ R,
причем j∈S dj = 0. Величину di можно интерпретировать, как трансферт, который страховщики обязаны выплатить страховой компании i за
передачу рисков. Таким образом, под распределением потерь Xs будем
понимать пару (d, R).
Во втором случае коалиция S состоит только из индивидуальных страхователей. Другими словами, S ⊂ NP . В этом случае доход от объединения равен нулю. Это происходит потому, что мы предполагаем невозможным обмен рисками между самими индивидуальными страхователями.
Таким образом, возможно только распределение (d, R) потерь XS , где
rii = 1, для всех i ∈ S и rij = 0 для всех i, j ∈ S, i 6= j. Понятно, что
в этом случае di = 0, i ∈ S. Однако, если позволить передачу рисков
между индивидуальными страхователями (взаимное страхование), то это
будет эквивалентно случаю объединения страховых компаний, поэтому
распределение будет таким же.
В третьем случае коалиция S состоит как из страховых компаний, так
и из индивидуальных страхователей, т.е. S ⊂ NI ∪ NP . В этом случае
страховщикам позволяется обмениваться своими страховыми портфелями друг с другом, а индивидуальные страхователи могут передать им свои
риски. Как и в предыдущем случае, индивидуальные страхователи не мо95
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
гут обмениваться рисками между собой. Более того, страховые компании
не передают свои страховые портфели индивидуальным страхователям.
Подводя итоги, определим понятия допустимого распределения для
коалиции. Обозначим через SI — множество страховых компаний в коалиции S, т.е. SI = S ∩ NI и через SP — множество индивидуальных
страхователей из коалиции S, т.е. SP = S ∩ NP . Будем говорить, что расдопустимо для коалиции
пределение (d, R) ∈ RS × RS×S
+
P S, если для всех
i ∈ SP и для всех j ∈ S таких что i 6= j, rij = 0 и i∈S rij = 1 для всех
j ∈ S. Обозначим через Z(S) множество всех допустимых распределений
(d, R) для коалиции S. Поясним понятие допустимого распределения на
числовом примере.
Пример 2.7.1. Пусть NI = {1, 2}, NP = {4, 5} и K = {1, 2, 3, 4, 5}. Имеется пять независимых экспоненциально распределенных рисков. Предположим, что X1 = 13 Y1 + Y2 , X2 = 13 Y1 + Y3 , X4 = Y4 и X5 = Y5 .
Рассмотрим коалицию S = {1, 4, 5}. Тогда XS ≡ X1 + X4 + X5 =
Рассмотрим следующее допустимое распределение для
S. Пусть d = (3, −2, −1) и r11 = 1, r14 = 12 , r44 = 12 , r15 = 51 и r55 = 45 .
Тогда:
1
3 Y1 + Y2 + Y4 + Y5 .
1
1
1
1
1
(d, R)1 ≡ 3 − (X1 + X4 + X5 ) = 3 − ( Y1 + Y2 + Y4 + Y5 ),
2
5
3
2
5
1
1
(d, R)4 ≡ −2 − X4 = −2 − Y4 ,
2
2
4
4
(d, R)5 ≡ −1 − X5 = −1 − Y5 ,
5
5
где (d, R)i — обозначает величину выигрыша игрока i ∈ {= 1, 4, 5}.
В соответствии с распределением, игроки 4 и 5 (страхователи) премии
выплачивают в размере 2 и 1 единицы соответственно страховщику 1 за
переданные ему риски.
Таким образом мы определили кооперативную игру страхования вида
Γ = hNI ∪ NP , (XS )S⊂NI ∪NP , (ui )i∈NI ∪NP i ,
с множеством игроков NI ∪ NP , где NI — множество страховых компаний,
NP — множество индивидуальных страхователей. Здесь XS — случайные
потери для коалиции S,Pа ui — функция полезности игрока i ∈ NI ∪ NP .
Напомним, что XS =
i∈S Xi , S ⊂ NI ∪ NP , все игроки несклонны к
риску и стремятся максимизировать ожидаемую полезность. Класс таких
страховых игр со страховщиками NI и индивидуальными страхователями
NP обозначим через IG(NI , NP ).
96
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
Заметим, что данная игра страхования не является игрой в нормальной форме или в форме характеристической функции. Здесь мы используем термин «кооперативная игра страхования» в контексте статьи [Suijs,
Borm, 1998], где впервые была рассмотрена такая модель.
Перейдем к определению оптимальных рисков. Поскольку предпочтения индивидуального страхователя и страховой компании точно описываются функцией полезности, то мы можем рассматривать детерминированный эквивалент случайного выигрыша каждого из них. Детерминированный эквивалент случайного выигрыша — это такая денежная величина, когда игроку становится безразлично получить ли ему
случайный выигрыш или получить указанную денежную величину. Для
функции полезности, рассматриваемой в нашей модели, мы можем определить детерминированный эквивалент случайного выигрыша X как
mi (X) = u−1
i (E(ui (X))), в предположении, что ожидаемая полезность существует. Тогда для всех случайных выигрышей X выполняется равенство E(ui (mi (X))) ≡ ui (mi (X)) = E(ui (X)). Когда одна полезность равна
другой, игроку i становится безразлично получить случайный выигрыш
X или детерминированный выигрыш mi (X). Более того, для описанной
выше страховой игры детерминированный выигрыш такой, что можно
применить результаты Сьюиса и Борма [Suijs, Borm, 1998].
Определение 2.7.1. Распределение (d, R) потерь XS будем называть
оптимальным для коалиции S, если не существует такого допустимого
˜ R̃) ∈ Z(S) для XS , что
распределения (d,
˜ R̃)i )) > E(ui ((d, R)i ))
E(ui ((d,
для всех i ∈ S.
Утверждение 2.7.1. ([Suijs, Borm, 1999]). Пусть Γ ∈ IG(NI , NP ) и S ⊂
NI ∪ NP . Распределение (d, R) ∈ Z(S) оптимально для коалиции S тогда
и только тогда, когда
X
i∈S
mi ((d, R)i ) =
max
˜ R̃)∈Z(S)
(d,
X
˜ R̃)i ).
mi ((d,
(2.60)
i∈S
В соответствии с этим утверждением, распределение оптимально тогда
и только тогда, когда достигается наибольшее значение суммы детерминированных эквивалентов. Для того, чтобы определить такие распределения
необходимо, по меньшей мере, уметь вычислять детерминированные эквиваленты распределения (d, R) для всех игроков i ∈ S. ПустьP
S ⊂ NI ∪ NP
и (d, R) ∈ Z(S). Случайные потери коалиции S равны XS = i∈S Xi . Для
данного распределения (d, R) ∈ Z(S) случайный выигрыш игрока i ∈ S
97
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
равен
(
(d, R)i =
di −
P
j∈S rij Xj ,
di − rii Xi ,
i ∈ SI ,
i ∈ SP
.
Тогда


 
E ui di −
mi ((d, R)i ) = u−1
i
X
rij Xj  =
j∈S
1
= − log
αi
µ
1 ³ −αi (di −Pj∈S rij Xj ) ´
E βi e
βi
¶
=
³ ³
´´
P
P
1
log E e−αi di eαi j∈S k∈K rij fjk Yk )
=
αi


Y
Y
1
E(eαi rij fjk Yk ) =
= − log e−αi di
αi
=−
j∈S k∈K
=−
³
´
³
´
1
1 XX
log E(eαi rij fjk Yk ) =
log e−αi di −
αi
αi
j∈S k∈K
= di −
³
´
1 XX
log E(eαi rij fjk Yk ) =
αi
j∈S k∈K
∞

Z
1 XX
log  µk e−t(µk −αi rij fjk ) dt .
= di −
αi
j∈S k∈K
0
Так как мы предполагаем, что ожидаемая полезность существует, то
необходимо, чтобы µk − αi rij fjk > 0 для всех j ∈ S и k ∈ K. Тогда
mi ((d, R)i ) = di −
µ
¶
µk
1 XX
log
=
αi
µk − αi rij fjk
j∈S k∈K
X X −1
= di +
log
αi
j∈S k∈K
Ã
1
1
1 − µk αi rij fjk
!
=
µ
¶
XX 1
1
= di +
log 1 −
αi rij fjk .
αi
µk
j∈S k∈K
98
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
Поскольку rij = 0 для всех i ∈ SP , j ∈ S, i 6= j, получаем, что детерминированный эквивалент (d, R)i равен
³
´

P 1
1

log
1
−
α
r
f
,
i ∈ SP ,
i
ii
ik
 di +
αi
µk
k∈K
³
´
mi ((d, R)i ) =
(2.61)
P P 1
1

log
1
−
α
r
f
,
i
∈
S
.
 di +
i
ij
I
jk
αi
µk
j∈S k∈K
Сумма детерминированных эквивалентов тогда равна
µ
¶
X
X X 1
1
log 1 −
mi ((d, R)i ) =
αi rii fik +
αi
µk
i∈S
i∈SP k∈K
µ
¶
XXX 1
1
+
log 1 −
αi rij fjk .
αi
µk
(2.62)
i∈SI j∈S k∈K
Таким образом, сумма детерминированных эквивалентов не зависит
от вектора трансфертов d. Интуитивно это понятно. Действительно, увеличение di означает, P
что dj уменьшается, по меньшей мере, для одного
игрока j, поскольку h∈S dh = 0. Следовательно, оптимальность определяется исключительно выбором матрицы перераспределения рисков R.
Следующая теорема показывает, что существует единственная оптимальная матрица перераспределения рисков.
Теорема 2.7.1. Пусть Γ ∈ IG(NI , NP ) и S ⊂ NI ∪ NP . Распределение
(d, R∗ ) ∈ Z(S) оптимально для коалиции S тогда и только тогда, когда

1


 Xαi 1 ,
i, j ∈ SI ,






αh

h∈SI





∗
1
rij =
αi


X
1 , i ∈ SI ∪ {j} и j ∈ SP ,





αh



 h∈SI ∪{j}




0,
в остальных случаях.
Д о к а з а т е л ь с т в о. Нам необходимо показать, что R∗ является
единственным решением, на котором достигается максимум выражения

µ
¶
X X 1
1

max
log 1 −
αi rii fik +
αi
µk
i∈SP k∈K
99
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции

µ
¶
XXX 1
1
log 1 −
αi rij fjk  ;
+
αi
µk
i∈SI j∈S k∈K
rjj +
X
X
i∈SI
i∈SI
rij = 1, j ∈ SP ;
rij = 1, j ∈ SI ;
rii ≥ 0, i ∈ SP ; rij ≥ 0, i ∈ SI , j ∈ S.
Поскольку целевая функция строго вогнута по rij для всех значимых комбинаций i, j ∈ S, то достаточно доказать, что на R∗ достигается
максимум. Для доказательства нам понадобится условие Куна-Таккера,
которое заключается в следующем.
Если f (x) = maxy f (y), при условии gk (y) ≤ 0, k ∈ K и gl (y) = 0, l ∈ L,
то существуют такие числа vk ≥ 0, k ∈ K и λl ∈ R, l ∈ L, что
X
X
λl ∇gl (x),
vk ∇gk (x) +
∇f (x) =
k∈K
l∈L
причем vk gk (x) = 0, k ∈ K.
Более того, если функция f строго вогнута, gk , k ∈ K — выпуклые
функции, а gl , l ∈ L — линейные функции, то условие Куна–Таккера
(равенство градиентов) является достаточнымдля существования решения задачи максимизацииза информациюПришлите мне пожалуйста Ваши слайды до 25-го, причем максимум достигается в единственной точке.
Записывая условия Куна–Таккера для исходной задачи максимизации,
получаем результат теоремы.
Таким образом, для формирования оптимального распределения потерь Xj внутри коалиции S необходимо рассматривать два случая. В
первом случае, индекс j относится к страховым компаниям, а во втором — к индивидуальным страхователям. Когда Xj — потери страховщиков (j ∈ SI ), то потери распределяются в пропорции 1/αi среди страховщиков коалиции S. В том случае, когда Xj — потери индивидуальных
страхователей (j ∈ SP ), потери распределяются в отношении 1 / αi среди
страховых компаний коалиции S самого страхователя j.
Пример 2.7.2. В данном примере все денежные значения будут измеряться в тысячах рублей. Рассмотрим следующую ситуацию на рынке
страхования автомобилей с тремя страховыми компаниями и двумя индивидуальными страхователями, т.е. NI = {1, 2, 3} и NP = {4, 5}. Функция полезности каждого игрока задана формулой ui (t) = −e−αi t , где
α1 = 0.33, α2 = 0.1, α3 = 0.25, α4 = 0.4 и α5 = 0.25 соответственно.
100
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
Таким образом, второй игрок менее остальных несклонен к риску, в
отличие от четвертого, который больше всех несклонен к риску. На каждую страховую компанию возложен риск по всем машинам, входящим в ее
страховой портфель. Автомобили могут быть двух типов. Первому типу
соответствуют средние автомобили с закрытым верхом, с которыми связаны относительно низкие потери. Второму типу соответствуют эксклюзивные спортивные автомобили, с которыми связаны относительно большие
потери. Формально, денежный эквивалент потерь, генерируемый машиной, описывается экспоненциальным распределением вероятностей exp(5)
для машин первого типа и exp(0.5) для машин второго типа. Ожидаемые потери для первого и второго типов машин равны 0.2 и 2 единицы
соответственно.
Портфель первого страховщика состоит из 1800 автомобилей первого типа и 10 машин второго типа. Портфель второй страховой компании состоит из 900 автомобилей первого типа и 25 машин второго.
И, наконец, у третьего страховщика 300 автомобилей первого и 90 машин второго типа. Ожидаемые потери первого страховщика составляют
1800 × 0.2 + 10 × 2 = 380. Потери второго и третьего страховщика составляют соответственно 230 и 240 соответственно. Рассматриваются два
индивидуальных страхователя, каждый из которых обладает одним автомобилем: у четвертого игрока машина первого типа, а у пятого — второго.
Таким образом, их ожидаемые потери составляют 0.2 и 2 соответственно.
Далее, пусть Xi обозначают потери игрока i. Если все игроки объединятся, то оптимальная матрица перераспределения рисков общих потерь
X1 + X2 + X3 + X4 + X5 имеет вид:


3/17 3/17 3/17 6/39 3/21
 10/17 10/17 10/17 20/39 10/21 




∗
R =  4/17 4/17 4/17 8/39 4/21 


 0
0
0
5/39
0 
0
0
0
0
4/21
Соответственно, выигрыши игроков при оптимальном распределении
будут равны
(d, R∗ )1 = d1 −
3
6
3
(X1 + X2 + X3 ) − X4 − X5 ,
17
39
21
10
(X1 + X2 + X3 ) −
17
4
(d, R∗ )3 = d3 − (X1 + X2 + X3 ) −
17
(d, R∗ )2 = d2 −
20
X4 −
39
8
X4 −
39
10
X5 ,
21
4
X5 ,
21
101
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
5
X4 ,
39
4
(d, R∗ )5 = d5 − X5 .
21
Нахождение матрицы перераспределения рисков R∗ является, естественно, только одной частью распределения потерь. Необходимо также
определить вектор трансфертов d. Хотя распределение (d, R∗ ) будет оптимальным при любом выборе d, подходящим с социальной точки зрения,
страховщик может не согласиться на страхование рисков других игроков,
если он не получит достаточные премии за их страхование. Так же страховщики и индивидуальные страхователи не согласятся страховать свои
потери, если премии, которые им необходимо заплатить, будут необоснованно высокими. Таким образом, возникает конфликт интересов, поскольку компании и страхователи хотят платить как можно меньшие премии
за страхование своих рисков, в то время как страховщики хотят получить
большие премии за взятие на себя рисков других игроков. Какие премии
являются приемлемыми? Постараемся ответить на этот вопрос.
Для нахождения приемлемой величины премий мы рассмотрим ядро
страховой игры. Разумно считать, что если ядро не пусто, то оптимальное
распределение должно принадлежать ядру, которое здесь будем понимать
в следующем смысле.
(d, R∗ )4 = d4 −
Определение 2.7.2. Будем говорить, что допустимое распределение
(d, R) для NI ∪ NP принадлежит ядру, если ни для одной коалиции
˜ R̃), что каждый
S ⊂ NI ∪ NP не существует такого распределения (d,
˜ R̃)i выигрышу (d, R)i ,
игрок i из этой коалиции предпочтет выигрыш (d,
˜
то есть E(ui ((d, R̃)i )) > E(ui ((d, R)i )) для всех i ∈ S.
Множество всех распределений, принадлежащих ядру игры Γ ∈
IG(NI , NP ), обозначим через Core(Γ). Заметим, что распределения, принадлежащие ядру, оптимальны для NI ∪ NP . Следовательно, (d, R) ∈
Core(Γ) означает, что R имеет структуру оптимальной матрицы перераспределения рисков R∗ , которая описана в теореме 2.7.1.
Покажем, что ядро страховой игры не пусто. Таким образом, всегда
существует оптимальное распределение для NI ∪ NP в указанном выше
смысле.
Поставим в соответствие каждой страховой игре Γ ∈ IG(NI , NP ) кооперативную игру ∆Γ ∈ IG(NI , NP ) с детерминированными выигрышами.
Это означает, что выигрыш коалиции в игре ∆Γ это число, а не случайная
величина. Игру ∆Γ будем называть детерминированным эквивалентом игры Γ.
102
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
Пусть S ⊂ NI ∪ NP . Выигрыш xS для коалиции S в игре ∆Γ определяется следующим образом
xS =
X
max
(d,R)∈Z(S)
mi ((d, R)i ) .
i∈S
Формула выигрыша основана на утверждении 2.7.1, в котором говорится, что распределение оптимально тогда и только тогда, когда сумма
детерминированных эквивалентов равна xS . Таким образом, игра ∆Γ задается как ∆Γ = (NI ∪ NP , (xS )S⊂NI ∪NP , (ui )i∈NI ∪NP ). Следующий результат есть следствие теоремы 2.7.1.
Утверждение 2.7.2. Пусть Γ ∈ IG(NI , NP ) — страховая игра и ∆Γ ее
детерминированный эквивалент. Тогда
Core(Γ) 6= ∅
<=>
Core(∆Γ ) 6= ∅.
Более того, пусть (d, R) распределение для NI ∪NP и y ∈ RNI ∪NP , такие,
что mi ((d, R)i ) = yi для всех i ∈ (d, R). Тогда
(d, R) ∈ Core(Γ)
<=>
y ∈ Core(∆Γ ).
Пример 2.7.3. Рассмотрим ситуацию, описанную в примере 2.7.1 и определим детерминированный эквивалент данной страховой игры. Заметим,
что поскольку fjk = 1 для всех k ∈ Kj и j ∈ NI , мы имеем

xS =
X X
j∈SI k∈Kj

Ã
X 1
1

 log 1 −
P
αi
µk i∈SI
i∈S

+
X X
j∈SP k∈Kj

I
!
1
αi

X
i∈SI ∪{j}
Ã
1
1
log 1 −
P
αi
µk i∈SI ∪{j}
!
1
αi
,
для всех коалиций S ⊂ NI ∪ NP . Таким образом, мы получаем
µ
x{1} = 1800 × 3 log 1 −
1
5×3
¶
µ
+ 10 × 3 log 1 −
1
0.5 × 3
¶
= −405.52.
Аналогично можно вычислить значение xS для всех коалиций S. Полученные значения представлены в таблице 2.3.
103
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Таблица 2.3. Потери коалиций
S
{1}
{2}
{3}
{4}
{5}
{1,2}
{1,3}
{1,4}
{1,5}
{2,3}
{2,4}
xS
-405.52
-237.61
-311.08
-0.21
-2.77
-620.21
-661.65
-405.72
-407.88
-489.91
-237.81
S
{2,5}
{3,4}
{3,5}
{4,5}
{1,2,3}
{1,2,4}
{1,2,5}
{1,3,4}
{1,3,5}
{1,4,5}
xS
-239.77
-311.28
-313.38
-2.98
-869.53
-620.41
-622.34
-661.85
-663.86
-408.08
S
{2,3,4}
{2,3,5}
{2,4,5}
{3,4,5}
{1,2,3,4}
{1,2,3,5}
{1,2,4,5}
{1,3,4,5}
{2,3,4,5}
{1,2,3,4,5}
xS
-490.11
-492.03
-239.97
-313.58
-869.76
-871.63
-622.14
-664.06
-492.23
-871.83
Ядро игры ∆Γ тогда определяется следующим образом:
¯
(
¯P
¯ 5
5
Core(∆Γ ) =
y∈R ¯
y = −871.83,
¯j=1 j
¾
P
∀S ⊂ NI ∪ NP :
yi ≥ xS
i∈S
Для оптимального распределения (d, R∗ ) мы имеем
m1 ((d, R∗ )1 ) = d1 − 153.77, m2 ((d, R∗ )2 ) = d2 − 512.59,
m3 ((d, R∗ )3 ) = d3 − 205.04, m4 ((d, R∗ )4 ) = d4 − 0.03,
m5 ((d, R∗ )5 ) = d5 − 0.4.
Пусть d0 = (−229.65, 278.33, −46.81, −0.17, −1.70). Тогда резальтирующие выигрыши будут равны:
mi ((d0 , R∗ )i )i∈{1,2,3,4,5} = (−383.42, −234.26, −251.85, −0.20, −2.10).
Можно проверить, что это распределение принадлежит ядру детерминированной игры ∆Γ . Следовательно, (d0 , R∗ ) ∈ Core(Γ).
Таким образом, если все игроки кооперируются, то существует такое
распределение, при котором кооперация стабильна. Более того из оптимальности принадлежащего ядру распределения следует, что матрица перераспределения рисков определена единственным образом. Открытым
остался вопрос: почему мы взяли вектор трансфертов d0 в таком виде?
104
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
Принципы вычисления премий показывают, как определить размер
премии для конкретного риска. Таких принципов существует много. Например, принципы нетто-премии, ожидаемой полезности и нулевой полезности. Рассмотрим принцип нулевой полезности. Данный принцип определяет премию πi (X) для индивидуального страхователя i и риска X так,
чтобы уровень полезности оставался неизменным в то время как благосостояние ωi данного страхователя меняется и равно ωi + πi (X) − X, то есть
премии πi (X) удовлетворяют условию ui (ωi ) = E (ui (ωi + πi (X) − X)). Запомним, что премия за риск X зависит от индивидуального страхователя,
страхующего данный риск, и от уровня его благосостояния ωi .
Теперь вернемся к страховой игре и применим принцип нулевой полезности для вычисления трансфертов d ∈ RNI ∪NP . Результат может показаться сложным, так как в данном случае используется понятие начального благосостояния, которое не определялось в нашей модели. Однако предположение о несклонности игроков к риску приводит к тому,
что принцип нулевой полезности не зависит от начального благосостояния ωi . Покажем это. Пусть Γ ∈ IG(NI , NP ) — страховая игра. Поскольку функция полезности экспоненциальная, то мы можем переписать
ui (ωi ) = E (ui (ωi + πi (X) − X)) следующим образом:
ωi ≡ u−1
i [E (ui (ωi + πi (X) − X))] =
= ωi + πi (X) + u−1
i (E(ui (−X))) .
Таким образом, мы получили, что πi (X) ≡ −u−1
i [E (ui (−X))] =
−mi (−X), то есть величина премии не зависит от благосостояния ωi .
Далее мы можем вычислить премии, которые страховщик получает за
переданные ему риски. Для этого вспомним, что для оптимального распределения матрица перераспределения рисков R∗ имеет вид:

1

αi ,


i, j ∈ SI ,
X

1





αh

h∈SI





∗
1
rij =
αi


X
1 , i ∈ SI ∪ {j} и i ∈ SP ,





αh


h∈SI ∪{j}






0,
в остальных случаях.
105
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Итак, принимаемый риск игрока i (страховщика), равен
X
∗
rij
Xj .
j∈NI ∪NP
Премия, которую он должен за это получить по принципу нулевой полезности, равна:




X X
X
∗
∗
rij
fjk Yk  =
πi 
rij
Xj  = πi 
j∈NI ∪NP
j∈NI ∪NP k∈K

= −mi −
X
X

∗
rij
fjk Yk  =
j∈NI ∪NP k∈K
¶
µ
X 1
1
∗
=−
log 1 −
αi rij fjk =
α
µk
j∈NI ∪NP k∈K
!
Ã
X X 1
1
=
=−
log 1 −
P
αi
µk /fjk h∈NI α1h
j∈N k∈K
X
j
I
Ã
X X 1
1
=−
log 1 −
P
αi
µk /fjk h∈NI ∪{j}
j∈N k∈K
!
1
αh
j
P
.
Заметим, что для данного типа игр премия, определяемая согласно
принципу нулевой полезности аддитивна, то есть
³X
´ X
∗
∗
πi
rij
Xj =
πi (rij
Xj ).
j∈NI ∪NP
j∈NI ∪NP
Предположим, что страховщик i должен заплатить страховщику j за пе∗ своего портфеля X величину равную сумме пререстрахование доли rij
i
мий, которые он ожидает получить за взятие на себя данных рисков, т. е.
!
Ã
X
∗
∗
πj (rji
Xi ) ≡ −mj −
rji
fik Yk =
k∈K
Ã
X 1
1
=
log 1 −
P
αj
µk /fik h∈NI
k∈K
i
!
1
αh
Общая премия страховщика i равна
X
X
∗
∗
πi (rij
Xj ) −
πj (rji
Xi ).
j∈NI ∪NP
106
j∈NI
.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
И наконец, индивидуальный страхователь i ∈ NP заплатит страховщику j за страхование своих потерь по принципу нулевой полезности столько, сколько данный страховщик ожидает получить за взятие на себя риска. Следовательно, страхователь i заплатит страховщику j величину
Ã
!
X 1
1
∗
πj (rji Xi ) = −
log 1 −
.
P
1
αj
µ
/f
k
ik
h∈N
∪{i}
α
I
k∈K
h
i
Так как индивидуальный страхователь не имеет права передавать свой
риск другим индивидуальным страхователям, то он не получает никакой
премии. Таким образом, в итоге он получит
X
∗
−
πj (rji
Xi ).
j∈NI
Следовательно,


X X
X
X
X
∗
∗
∗

πj (rji
Xi ) = 0.
πj (rji
Xi )−
πi (rij
Xj )−
i∈NP j∈NI
j∈NI
i∈NI j∈NI ∪NP
Из принципа нулевой полезности получаем вектор трансфертов d0 , где
X
X
∗
∗
πj (rji
Xi ) =
πi (rij
Xj ) −
d0i =
j∈NI
j∈NI ∪NP
Ã
X X 1
1
=−
log 1 −
P
αi
µk /fjk h∈NI
j∈N k∈K
j
I
!
Ã
X X 1
1
−
× log 1 −
P
αi
µk /fjk h∈NI ∪{j}
j∈N k∈K
j
P
Ã
X X 1
1
+
log 1 −
P
αj
µk /fik h∈NI
j∈N k∈K
I
i
−
1
αh
!
1
αh
+
!
1
αh
для всех i ∈ NI и
d0i
≡−
X
∗
πj (rji
Xi )
j∈NI
Ã
X X 1
1
log 1 −
=
P
αj
µk /fik h∈NI ∪{i}
j∈N k∈K
I
i
!
1
αh
для всех i ∈ NP .
107
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
Теорема 2.7.2. ([Зенкевич, Воинова, 2006]). Пусть Γ ∈ IG(NI , NP ). Если d0 — вектор трансфертов, вычисленный по принципу нулевой полез∗
ности
¡ 0 ∗ ¢и R — оптимальная матрица перераспределения рисков, тогда
d , R ∈ Core(Γ).
Пример 2.7.4. Рассмотрим пример 2.7.1. Применим принцип нулевой
полезности для первого игрока
¶
µ
¶
µ
1
1
− 115 × 3 log 1 −
−
d01 = −1200 × 3 log 1 −
5 × 17
0.5 × 17
µ
¶
µ
¶
1
1
−1 × 3 log 1 −
− 1 × 3 log 1 −
+ 1800 × 10×
5 × 39
0.5 × 21
µ
¶
µ
¶
1
1
× log 1 −
+ 10 × 10 log 1 −
+ 1800 × 4×
5 × 17
5 × 17
¶
µ
¶
µ
1
1
+ 10 × 4 log 1 −
=
× log 1 −
5 × 17
0.5 × 17
= 42.60 + 43.18 + 0.03 + 0.30 − 213.02 − 12.52 − 85.21 − 5.01 = −229.65.
Аналогично получим значения трансфертов для страховщиков 2 и 3 и
для индивидуальных страхователей 4 и 5
d02 = 248.52 + 125.17 + 0.10 + 1.00 − 31.95 − 9.39 − 42.60 − 12.52 = 278.33
d03 = 127.81 + 17.53 + 0.04 + 0.40 − 10.65 − 33.79 − 35.50 − 112.65 = −46.81
d04 = −0.03 − 0.10 − 0.04 = −0.17
d05 = 7 − 0.3 + 1.00 − 0.4 = −1.7
Таким образом, d0 = (−229.65, 278.33, −46.81, −0.17, −1.7). В примере 2.7.3 мы ранее получили, что распределение (d0 , R∗ ) принадлежит
ядру игры. Другими словами распределение с трансфертами, вычисленными по принципу нулевой полезности, принадлежит ядру игры. В свою
очередь теорема 2.7.2 доказывает, что этот факт не случаен.
Пример 2.7.5. Продолжим рассмотрение страховой игры, представленной в примере 2.7.2. Теперь сосредоточимся на изменениях полезности
первого игрока при реализации распределения (d0 , R∗ ). В начальном состоянии страхователь 1 имеет только риск X1 в своем собственном страховом портфеле. Детерминированный эквивалент X1 равен
µ
¶
µ
¶
1
1
m1 (X1 ) = 1800 × 3 log 1 −
+ 10 × 3 log 1 −
= −405.52.
5×3
0.5 × 3
108
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 2.7.. Кооперативная модель страхования
При оптимальном распределении общего риска, первому игроку пере∗ = 3/17 риска X второго страховщика. За данный риск
дается доля r12
2
он получает премию π1 ((3/17)X2 ), определенную по принципу нулевой
полезности. Из определения принципа нулевой полезности получаем, что
m1 (X1 + (3/17)X2 − π1 ((3/17)X2 )) = −405.52. Поэтому благосостояние
страховщика 1 не изменяется, когда он страхует часть рисков второго
страховщика или риски любого другого игрока. Следовательно,
m1 (X1 −
3
3
3
3
6
X2 + π1 ( X2 ) − X3 + π1 ( X3 ) − X4 +
17
17
17
17
39
6
3
3
X4 ) − X5 + π1 ( X5 )) = −405.52
39
21
21
Благосостояние первого страховщика увеличивается только тогда, когда он передает риски (10/17)X1 и (4/17)X1 соответственно второму и
третьему страховщикам. Действительно,
+π1 (
m1 (
10
4
3
3
3
3
− π2 ( X1 ) − π3 ( X1 ) + X1 − X2 + π1 ( X2 ) − X3
17
17
17
17
17
17
+π1 (
3
6
6
3
3
X3 ) − X4 + π1 ( X4 ) − X5 + π1 ( X5 ))
17
39
39
21
21
≡ m1 ((d0 , R∗ )1 ) = −229.65 > −405.52
Данный пример показывает, что благосостояние страховщика всегда
остается неизменным, если он принимает риски от кого-то в обмен на
премию, вычисленную по принципу нулевой полезности. Увеличение благосостояния происходит только тогда, когда он перекладывает на другого
игрока свой собственный риск или его часть. Следовательно, благосостояние страховщика не увеличивается, когда страхователи передают ему свои
риски. Для увеличения заинтересованности страховщиков можно использовать другие принципы назначения премий.
109
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2 Модели поведения в условиях конкуренции
110
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 3
Динамические игры с полной информацией
§ 3.1.
Определение динамической игры с полной информацией
Ранее нами рассматривалась игра в нормальной форме. К такой форме
в принципе может быть сведен динамический (т. е. происходящий в течение некоторого промежутка времении) конфликтно-управляемый процесс
путем подходящего определения чистой стратегии. В тех немногочисленных случаях, когда мощность пространства стратегий невелика и имеется возможность численного нахождения решений, такой подход является вполне допустимым. Однако в большинстве задач поиска оптимального поведения участников конфликтно-управляемого процесса переход к
нормальной форме, т. е. сведение задачи к однократному выбору чистых
стратегий как элементов пространств больших размерностей или функциональных пространств, не приводит к эффективным способам нахождения решений, хотя и позволяет аглядно иллюстрировать те или иные
принципы оптимальности. В ряде случаев общие теоремы существования
решения для игр в нормальной форме не позволяют находить или даже
конкретизировать оптимальное поведение в играх, нормализацией которых они являются. Как будет показано ниже, в «шахматах» существует
решение в классе чистых стратегий. Однако этот результат невозможно
получить непосредственным исследованием матричной игры. Еще более
наглядно это обстоятельство проявляется при исследовании дифференциальных игр, для которых в ряде случаев удается находить решения в
явной форме. Однако нормальная форма дифференциальной игры является настолько общей, что получение конкретных результатов оказывается практически невозможным.
Математические модели конфликтов, учитывающие динамику, исследуются в теории позиционных игр. Наиболее простым классом позиционных игр является класс конечношаговых игр с полной информацией.
Для определения конечношаговой игры n лиц с полной информацией
потребуются элементарные сведения из теории графов.
Пусть X — некоторое конечное множество. Правило f , ставящее в
111
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
соответствие каждому элементу x ∈ X элемент f (x) ∈ X, называется
однозначным отображением X в X или функцией, определенной на X и
принимающей значения в X. Многозначное отображение F множества X
в X – это правило, которое каждому элементу x ∈ X ставит в соответствие
некоторое подмножество Fx ⊂ X (при этом не исключается возможность
Fx = ∅). В дальнейшем будем употреблять термин «отображение», понимая под ним «многозначное отображение».
Пусть F — отображение X в X, иSA ⊂ X. Под образом множества A
будем понимать множество F (A) ≡= x∈A Fx .
Полагаем F (∅) = ∅. Можно убедиться в том, что если Ai ⊂ X, i =
1, . . . , n, то
F(
n
[
i=1
Ai ) =
n
[
i=1
F (Ai ), F (
n
\
i=1
Ai ) ⊂
n
\
F (Ai ).
i=1
Определим отображения F 2 , F 3 , . . . , F k , . . ., следующим образом:
Fx2 ≡= F (Fx ), Fx3 ≡ F (Fx2 ), . . . , Fxk ≡ F (Fxk−1 ), . . .
Отображение Fb множества X в X называется транзитивным замыканием отображения F , если Fbx ≡ {x} ∪ Fx ∪ Fx2 ∪ . . . ∪ Fxk . . . .
Отображение F −1 , обратное отображению F , определяется как
ª
©
Fy−1 ≡ x|y ∈ Fx .
Другими словами, Fy−1 — это множество тех точек x, образ которых содержит точку y. Аналогично отображению Fxk определяется отображение
¡ −1 ¢k
F
:
y
¡ −1 ¢2
¢
¡
F
≡ F −1 (F −1 )y ,
y
¡ −1 ¢3
¡ −1 2 ¢
¡ −1 k−1 ¢
−1
−1 k
−1
F
=
F
(F
)
,
.
.
.
,
(F
)
=
F
(F )y
.
y
y
y
©
ª
Если B ⊂ X, то полагаем F −1 (B) ≡ x|Fx ∩ B 6= ∅ .
Определение 3.1.1. П ара (X, F ) называется графом, если X — некоторое конечное множество, а F — отображение X в X.
Граф (X, F ) будем обозначать символом G. В дальнейшем элементы
множества X будем изображать точками на плоскости, а пары точек x и y,
для которых y ∈ Fx , соединять непрерывной линией со стрелкой, направленной от x к y. Каждый элемент множества X называется вершиной или
узлом графа, а пара элементов (x, y), в которой y ∈ Fx , — дугой графа.
112
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.1.. Определение динамической игры с полной информацией
Для дуги p = (x, y) вершины x и y называются граничными вершинами
дуги, причем x — начало, а y — конец дуги. Две дуги p и q называются
смежными, если они различны и имеют общую граничную точку.
Множество дуг в графе будем обозначать P . Задание множества дуг в
графе G = (X, F ) определяет отображение F и, наоборот, отображение F
определяет множество P . Поэтому граф G можно записывать как в виде
G = (X, F ), так и в виде G = (X, P ).
Путем в графе G = (X, F ) называется такая последовательность p =
(p1 , p2 , . . . , pk , . . .) дуг, что конец каждой предыдущей дуги совпадает с
началом следующей. Длина пути p = (p1 , . . . , pk ) есть число l(p) = k дуг
последовательности. В случае бесконечного пути p полагаем l(p) ≡ ∞ .
Ребром графа G = (X, F ) называется множество из двух элементов
x, y ∈ X, для которых или (x, y) ∈ P , или (y, x) ∈ P . В отличие от дуги
в ребре ориентация роли не играет. Ребра будем обозначать буквами p, q,
а множество ребер — P . Под цепью будем понимать последовательность
ребер (p1 , p2 , . . .), в которой у каждого ребра pk одна из граничных вершин
является также граничной для pk−1 , а другая — граничной для pk+1 .
Цикл — это конечная цепь, начинающаяся в некоторой вершине и
оканчивающаяся в той же вершине. Граф называется связным, если любые две его вершины можно соединить цепью.
Дерево или древовидный граф, по определению, есть конечный связный
граф без циклов, имеющий не менее двух вершин, в котором существует
единственная вершина x0 , такая, что Fbx0 = X. Вершина x0 называется
начальной вершиной графа G.
Пусть z ∈ X. Подграфом Gz древовидного графа G = (X, F ) называется граф вида (Xz , Fz ), где Xz = Fbz , а Fz x = Fx ∩ Xz .
В древовидном графе для всех x ∈ Xz множество Fx и множество
Fz x совпадают, т. е. отображение Fz является сужением отображения F
на множество Xz . Поэтому для подграфов древовидного графа будем использовать обозначение Gz = (Xz , F ).
Перейдем к определению многошаговой игры с полной информацией
на древовидном конечном графе.
Определение 3.1.2. Пусть G = (X, F ) — древовидный граф. Рассмотрим разбиение
множества вершин X на n + 1 множество
Sn+1
X1 , . . . , Xn , Xn+1 , i=1 Xi = X, Xk ∩ Xe = ∅, k 6= l, где Fx = ∅
для x ∈ Xn+1 . Множество Xi , i = 1, . . . , n называется множеством
очередности игрока i, а множество Xn+1 — множеством окончательных позиций. На множестве окончательных позиций Xn+1 определены
n вещественных функций H1 (x), . . . , Hn (x), x ∈ Xn+1 . Функция Hi (x),
i = 1, . . . , n, называется выигрышем игрока i.
113
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Игра происходит следующим образом. Задано множество игроков N ,
где N = {1, 2, . . . , n}. Пусть x0 ∈ Xi1 , тогда в вершине (позиции) x0 «ходит» игрок i1 и выбирает вершину x1 ∈ Fx0 . Если x1 ∈ Xi2 , то в вершине
x1 «ходит» игрок i2 и выбирает следующую вершину (позицию) x2 ∈ Fx1 ,
и т. д. Таким образом, если на k-м шаге вершина (позиция) xk−1 ∈ Xik , то
в ней «ходит» игрок ik и выбирает следующую вершину (позицию) из множества Fxk−1 . Игра прекращается, как только достигается окончательная
вершина (позиция) xl ∈ Xn+1 , т. е. такая, для которой Fxl = ∅.
В результате последовательного выбора позиций однозначно реализуется некоторая последовательность x0 , . . . , xk , . . . , xl , которая определяет
путь в древовидном графе G, исходящий из начальной позиции x0 и заканчивающийся в одной из окончательных позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовидности графа G каждая
партия заканчивается в окончательной позиции xl и, наоборот, окончательная позиция xl однозначно определяет партию. В позиции xl каждый
из игроков i = 1, 2, . . . , n получает выигрыш Hi (xl ). Будем предполагать,
что игрок i при совершении выбора в позиции x ∈ Xi знает эту позицию x,
а следовательно, из-за древовидности графа G может восстановить и все
предыдущие позиции. В таком случае говорят, что игроки имеют полную
информацию. Примером игр с полной информацией служат шахматы и
шашки, поскольку в них игроки могут записывать ходы и поэтому можно считать, что они знают предысторию игры при совершении каждого
очередного хода.
Определение 3.1.3. Однозначное отображение ui , которое каждой вершине (позиции) x ∈ Xi ставит в соответствие некоторую вершину (позицию) y ∈ Fx , называется стратегией игрока i.
Множество всевозможных стратегий игрока i будем обозначать через
Ui .
Таким образом, стратегия игрока i предписывает ему в любой позиции x из множества его очередности Xi однозначный выбор следующей
позиции.
Упорядоченный набор u = (u1 , . . . , ui , . . . , un ), Q
где ui ∈ Ui , называется
ситуацией в игре, а декартово произведение U = ni=1 Ui — множеством
ситуаций. Каждая ситуация u = (u1 , . . . , ui , . . . , un ) однозначно определяет партию игры, а следовательно, и выигрыши игроков. Действительно,
пусть x0 ∈ Xi . Тогда в ситуации u = (u1 , . . . , ui , . . . , un ) следующая позиция x1 определяется однозначно по правилу ui1 (x0 ) = x1 . Пусть теперь
x1 ∈ Xi2 . Тогда x2 определяется однозначно по правилу ui2 (x1 ) = x2 . Если
теперь на k-м шаге реализовалась позиция xk−1 ∈ Xik , то xk определяется
однозначно по правилу xk = uik (xk−1 ) и т. д.
114
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.2.. Равновесие по Нэшу
Пусть ситуации u = (u1 , . . . , ui , . . . , un ) в указанном смысле соответствует партия x0 , x1 , . . . , xl . Тогда можно ввести понятие функции выигрыша Ki игрока i, положив ее значение в каждой ситуации u равным
значению выигрыша Hi в окончательной позиции партии x0 , x1 , . . . , xl ,
соответствующей ситуации u = (u1 , . . . , un ), т. е. Ki (u1 , . . . , ui , . . . , un ) =
Hi (xl ), i = 1, . . . , n. Функции Ki , i = 1, . . . , n, определены на множеn
Q
стве ситуаций U =
Ui . Таким образом мы получаем некоторую игру в
i=1
нормальной форме Γ = hN, {Ui }i∈N , {Ki }i∈N i, где N = {1, . . . , i, . . . , n} —
множество игроков, Ui — множество стратегий игрока i, Ki — функция
выигрыша игрока i.
§ 3.2.
Равновесие по Нэшу
Повторим определение 1.5.2, сформулировав его в обозначениях, принятых в теории динамических игр с полной информацией. Ситуация
u∗ = (u∗1 , . . . , u∗i , . . . , u∗n ) называется равновесием по Нэшу, если имеет место неравенство
Ki (u∗1 , . . . , u∗i−1 , u∗i , u∗i+1 , . . . , u∗n ) ≥ Ki (u∗1 , . . . , u∗i−1 , ui , u∗i+1 , . . . , u∗n )
для всех ui ∈ Ui , i ∈ N .
Для дальнейшего исследования игры Γ необходимо ввести понятие
подыгры, т. е. игры на подграфе графа G основной игры.
Пусть z ∈ X. Рассмотрим подграф Gz = (Xz , F ), с которым свяжем подыгру Γz следующим образом. Множество очередности игроков в
подыгре Γz определяется по правилу Yiz = Xi ∩ Xz , i = 1, 2, . . . , n, множеz
ство окончательных позиций — Yn+1
= Xn+1 ∩ Xz , выигрыш Hiz (x) игрока
i в подыгре полагается равным
Hiz (x) = Hi (x),
z
x ∈ Yn+1
,
i = 1, . . . , n.
В соответствии с этим стратегия uzi игрока i в подыгре Γz определена
как сужение стратегии ui игрока i в игре Γ на множество Yiz , т. е. uzi =
ui (x), x ∈ Yiz = Xi ∩ Xz , i = 1, . . . , n. Множество всех стратегий i-го
игрока в подыгре обозначается через Uiz . В результате с каждым подграфом Gz мы связываем подыгру в нормальной форме Γz = hN, {Uiz }, {Kiz }i,
где функции выигрыша
Kiz , i = 1, . . . , n, определены на декартовом проQn
z
z
изведении U = i=1 Ui .
Определение 3.2.1. Ситуация равновесия по Нэшу основной игры u∗ =
(u∗1 , . . . , u∗n ) называется ситуацией абсолютного равновесия по Нэшу в
115
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
игре Γ, если для любого z ∈ X ситуация (u∗ )z = ((u∗1 )z , . . . , (u∗n )z ) является ситуацией равновесия по Нэшу в подыгре Γz , где (u∗i )z — сужение
стратегии u∗i на подыгру Γz .
Имеет место следующая основная теорема.
Теорема 3.2.1. В любой многошаговой игре с полной информацией на
конечном древовидном графе существует ситуация абсолютного равновесия по Нэшу.
Прежде чем перейти к ее доказательству, введем понятие длины игры.
Под длиной игры Γ будем понимать длину наибольшего пути в графе
G = (X, F ).
Д о к а з а т е л ь с т в о. Проведем его индукцией по длине игры. Если длина игры Γ равна единице, то может ходить лишь один из игроков,
который, выбирая следующую вершину из условия максимизации своего
выигрыша, будет действовать согласно стратегии, образующей абсолютное равновесие по Нэшу.
Пусть теперь игра Γ имеет длину k и x0 ∈ Xi1 (т. е. в начальной позиции x0 ходит игрок i1 ). Рассмотрим семейство подыгр Γz , z ∈ Fx0 , длина
каждой из которых не превосходит k−1. Предположим, что теорема справедлива для всех игр, длина которых не превосходит k − 1, и докажем ее
для игры k. Поскольку подыгры Γz , z ∈ Fx0 , имеют длину не более k − 1,
по предположению индукции для них теорема справедлива и тем самым
существует ситуация абсолютного равновесия по Нэшу. Обозначим для
каждой подыгры Γz , z ∈ Fx0 эту ситуацию через
£
¤
(ū)z = (ū1 )z , . . . , (ūn )z .
(3.1)
Используя ситуации абсолютного равновесия в подыграх Γz , построим
ситуацию абсолютного равновесия в игре Γ. Пусть ūi (x) = (ūi (x))z для
x ∈ Xi ∩ Xz , z ∈ Fx0 , i = 1, . . . , n, ūi1 (x0 ) = z̄, где z̄ находится из условия
£
¤
£
¤
Kiz̄1 (ū)z̄ = max Kiz1 (ū)z .
(3.2)
z∈Fx0
Функция ūi определена на множестве Xi очередности i-го игрока, а
при каждом фиксированном x ∈ Xi значение ūi (x) ∈ Fx . Таким образом,
ūi является стратегией i-го игрока в игре Γ, т. е. ūi ∈ Ui . По построению,
сужение (ūi )z стратегии ūi на множество Xi ∩ Xz является стратегией,
входящей в абсолютное равновесие по Нэшу игры Γz , z ∈ Fx0 . Следовательно, для завершения доказательства теоремы достаточно показать,
что стратегии, ūi , i = 1, . . . , n, образуют ситуацию равновесия по Нэшу в
116
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.2.. Равновесие по Нэшу
игре Γ. Пусть i 6= i1 . По построению стратегии ūi1 , после выбора игроком
i1 позиции z̄ на первом шаге игра Γ переходит в подыгру Γz̄ , поэтому
©
ª
©
ª
Ki (ū) = Kiz̄ (ū)z̄ ≥ Kiz̄ (ū||ui )z̄ = Ki (ū||ui ),
(3.3)
ui ∈ Ui , i = 1, . . . , n, i 6= i1 ,
(ū)z
так как
— ситуация абсолютного равновесия в подыгре Γz̄ . Пусть
ui1 ∈ Ui1 — произвольная стратегия игрока i1 в игре Γ. Обозначим z0 =
ui1 (x0 ). Тогда
Ki1 (ū) = Kiz̄1 {(ū)z̄ } = max Kiz1 {(ū)z } ≥ Kiz10 {(ū)z0 } ≥
z∈Fx0
≥ Kiz10 {(ū||ui1 )z0 } = Ki1 (ū||ui1 ).
(3.4)
Утверждение теоремы следует теперь из (3.3), (3.4).
Пример 3.2.1. Пусть игра Γ происходит на графе, изображенном на
рис. 3.1, и пусть множество N состоит из двух игроков: N = {1, 2}.
Рис. 3.1. Игра с полной информацией на древовидном графе.
Определим множества очередности. Изобразим вершины множества
X1 в виде кружков, а вершины множества X2 — в виде квадратиков.
117
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Выигрыши игроков записаны в окончательных позициях. Перенумеруем двойными индексами позиции, входящие в множества X1 и X2 , а дуги, выходящие из каждой вершины, — одним индексом. Выбор в вершине x эквивалентен выбору следующей вершины x0 ∈ Fx , поэтому
будем предполагать, что стратегии указывают в каждой вершине номер дуги, по которой следует двигаться дальше. Например, стратегия
u1 = (2, 1, 2, 3, 1, 2, 1, 1 ) игрока 1 предписывает ему выбор дуги 2 в вершине 1, дуги 1 — в вершине 2, дуги 2 — в вершине 3, дуги 3 — в вершине
4 и т. д. Так как множество очередности первого игрока состоит из восьми вершин, то его стратегия представляет собой восьмимерный вектор.
Аналогично любая стратегия игрока 2 представляет собой семимерный
вектор. Всего у первого игрока 864 стратегии, а у второго игрока — 576
стратегий. Таким образом, соответствующая нормальная форма оказывается биматричной игрой с матрицами размера 864 × 576. Естественно,
что решение таких биматричных игр достаточно сложно. Вместе с тем
рассматриваемая игра проста, и ее можно решить.
Действительно, обозначим через v1 (x), v2 (x) выигрыши в подыгре Γx
в некоторой фиксированной ситуации абсолютного равновесия. Сначала решаем подыгры Γ1,6 , Γ1,7 , Γ2,7 . Как легко убедиться, v1 (1.6) = 6,
v2 (1.6) = 2, v1 (1.7) = 2, v2 (1.7) = 4, v1 (2.7) = 1, v2 (2.7) = 8. Далее решаем подыгры Γ2,5 , Γ2,6 , Γ1,8 . В подыгре Γ2.5 два равновесия по Нэшу,
поскольку игроку 2 безразлично, какую альтернативу выбрать. Вместе с
тем его выбор оказывается существенным для игрока 1, поскольку при
выборе игроком 2 левой дуги первый игрок выигрывает +1, а при выборе
игроком 2 второй дуги +6. Отметим это обстоятельство и предположим,
что игрок 2 «благожелателен» и выбирает в позиции (2.5) правую дугу.
Тогда v1 (2.5) = v1 (1.6) = 6, v2 (2.5) = v2 (1.6) = 2, v1 (2.6) = v1 (1.7) = 2,
v2 (2.6) = v2 (1.7) = 4, v1 (1.8) = 2, v2 (1.8) = 3. Далее решаем игры Γ1,3 ,
Γ1,4 , Γ2,3 , Γ1,5 , Γ2,4 . В подыгре Γ1,3 два равновесия по Нэшу, поскольку
игроку 1 безразлично, какую альтернативу выбрать. Вместе с тем его
выбор оказывается существенным для игрока 2, так как при выборе игроком 1 левой альтернативы он выигрывает 1, а при выборе правой — 10.
Предположим, что игрок 1 «благожелателен» и выбирает в позиции (1.3)
правую альтернативу. Тогда v1 (1.3) = 5, v2 (1.3) = 10, v1 (1.4) = v1 (2.5) = 6,
v2 (1.4) = v2 (2.5) = 2, v1 (1, 5) = v1 (2.6) = 2, v2 (1.5) = v2 (2.6) = 4, v1 (2.3) =
0, v2 (2.3) = 6, v1 (2.4) = 3, v2 (2.4) = 5. Далее решаем игры Γ2,1 , Γ1,2 ,
Γ2,2 : v1 (2.1) = v1 (1, 3) = 5, v2 (2.1) = v2 (1.3) = 10, v1 (1.2) = v1 (2.4) = 3,
v2 (1.2) = v2 (2.4) = 5, v1 (2.2) = −5, v2 (2.2) = 6. Теперь решаем игру Γ1,1 .
Здесь v1 (1.1) = v1 (2.1) = 5, v2 (1.1) = v2 (2.1) = 10.
В результате получаем ситуацию абсолютного равновесия по Нэшу
118
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.3.. Основные функциональные уравнения
(u∗1 , u∗2 ), где
u∗1 = (1, 2, 2, 2, 2, 3, 2, 1),
u∗2 = (1, 3, 2, 2, 2, 1, 2).
(3.5)
В ситуации (u∗1 , u∗2 ) игра развивается по пути (1.1), (2.1), (1.3). В процессе построения было замечено, что стратегии u∗i , i = 1, 2, «доброжелательны» в том смысле, что игрок i при совершении своего хода, будучи в
равной степени заинтересован в выборе последующих альтернатив, выбирает ту из них, которая более благоприятна для другого игрока.
В игре Γ существуют ситуации абсолютного равновесия, в которых
выигрыши игроков будут другими. Для построения таких равновесий
достаточно снять условие «доброжелательности» игроков и заменить
его обратным условием «недоброжелательности». Обозначим через v 1 (x),
v 2 (x) выигрыши игроков в подыгре Γx при использовании игроками
«недоброжелательного» равновесия. Тогда имеем v1 (1.6) = v 1 (1.6) = 6,
v2 (1.6) = v 2 (1.6) = 2, v1 (1.7) = v 1 (1.7) = 2, v2 (1.7) = v 2 (1.7) = 4,
v 1 (2.7) = −2, v2 (2.7) = v 2 (2.7) = 8. Как уже отмечалось, в подыгре
Γ2,5 два равновесия по Нэшу. В отличие от предыдущего случая предположим, что игрок 2 «недоброжелателен» и выбирает ту из вершин, в
которой при его максимальном выигрыше выигрыш игрока 1 минимален.
Тогда v 1 (2.5) = 1, v 2 (2.5) = 2, v 1 (2.6) = v1 (1.7) = 2, v 2 (2.6) = v2 (1.7) = 4,
v 1 (1.8) = v1 (1.8) = 2, v 2 (1.8) = v2 (1.8) = 3. Далее ищем решение игр
Γ1,3 , Γ1,4 , Γ1,5 , Γ2,3 , Γ2,4 . В подыгре Γ1,3 два равновесия по Нэшу. Как
и в предыдущем случае, выберем «недоброжелательные» действия игрока 1. Тогда имеем: v 1 (1.3) = v1 (1.3) = 5, v 2 (1.3) = 1, v 1 (1.4) = 2,
v 2 (1.4) = 3, v 1 (1.5) = v1 (2.6) = v1 (1.5) = 2, v 2 (1.5) = v2 (2.6) = v2 (2.6) = 4,
v 1 (2.3) = v1 (2.3) = 0, v 2 (2.3) = v2 (2.3) = 6, v 1 (2.4) = v1 (2.4) = 3, v 2 (2, 4) =
v2 (2.4) = 5. Далее решаем игры Γ2,1 , Γ1,2 , Γ2,2 . Имеем v 1 (2.1) = v 1 (1.5) = 2,
v 2 (2.1) = v 2 (1.5) = 4, v 1 (1.2) = v 1 (2.4) = 3, v 2 (1.2) = v 2 (2.4) = 5,
v 2 (2.2) = v2 (2.2) = 6, v1 (2.2) = v 1 (2.2) = −5. Теперь решаем игру Γ = Γ1,1 .
Здесь v 1 (1.1) = v 1 (1.2) = 3, v 2 (1.1) = v 2 (1.2) = 5.
Таким образом, получена новая ситуация равновесия по Нэшу
u∗1 = (2, 2, 1, 1, 2, 3, 2, 1),
u∗2 = (3, 3, 2, 2, 1, 1, 3).
(3.6)
Выигрыши обоих игроков в ситуации (3.6) меньше таковых в ситуации
(3.5). Ситуация (3.6), так же как и ситуация (3.5), является ситуацией
абсолютного равновесия.
§ 3.3.
Основные функциональные уравнения
Рассмотрим многошаговые антагонистические игры с полной информацией. Если в условиях определения 3.1.2 множество игроков состоит из
119
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
двух элементов N = {1, 2} и H2 (x) = −H1 (x) для всех x ∈ X3 (X3 —
множество окончательных позиций в игре Γ), то игра Γ = h1 , U2 , K12 i оказывается антагонистической многошаговой игрой с полной информацией. Очевидно, что антагонистическими являются все подыгры Γz игры Γ.
Так как из условия H2 (x) = −H1 (x) немедленно следует, что K2 (u1 , u2 ) =
−K1 (u1 , u2 ) для всех u1 ∈ U1 , u2 ∈ U2 , то в ситуации равновесия по Нэшу (u∗1 , u∗2 ) выполняются неравенства K1 (u1 , u∗2 ) ≤ K1 (u∗1 , u∗2 ) ≤ K1 (u∗1 , u2 )
для всех u1 ∈ U1 , u2 ∈ U2 . Пару (u∗1 , u∗2 ) в этом случае будем называть
ситуацией равновесия или седловой точкой, а стратегии, образующие
ситуацию равновесия, оптимальными. Значения функции выигрыша в
ситуации равновесия обозначим v и назовем значением игры Γ.
Из § 3.2. следует, что в антагонистической многошаговой игре с полной информацией на конечном древовидном графе существует ситуация
абсолютного равновесия, т. е. такая ситуация (u∗1 , u∗2 ), сужение которой
на любую подыгру Γz игры Γ образует в Γz ситуацию равновесия. Для
любой подыгры Γy можно также определить число v(y), представляющее значение функции выигрыша в ситуации равновесия этой подыгры
и называемое значением подыгры Γy . Можно легко показать, что значение антагонистической игры (т. е. значение функции выигрыша игрока
1 в ситуации равновесия) определяется единственным образом, поэтому
функция v(y) определена для всех y ∈ X1 , y ∈ X2 и является однозначной
функцией.
Выведем функциональные уравнения для вычисления функции v(y).
Из определения v(y) следует, что
v(y) = K1y ((u∗1 )y , (u∗2 )y ) = −K2y ((u∗1 )y , (u∗2 )y ),
где ((u∗1 )y , (u∗2 )y ) — ситуация равновесия в подыгре Γy , являющаяся сужением ситуации абсолютного равновесия (u∗1 , u∗2 ).
Пусть y ∈ X1 и z ∈ Fy . Тогда имеем
v(y) = max K1z ((u∗1 )z , (u∗2 )z ) = max v(z).
z∈Fy
z∈Fy
(3.7)
Для y ∈ X2 аналогично получаем
v(y) = −K2y ((u∗1 )y , (u∗2 )y ) = − max K2z ((u∗1 )z , (u∗2 )z ) =
z∈Fy
= − max(−v(z)) = min v(z).
z∈Fy
z∈Fy
(3.8)
Из (3.7) и (3.8) окончательно имеем
v(y) = max v(z),
z∈Fy
120
y ∈ X1 ;
(3.9)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.3.. Основные функциональные уравнения
v(y) = min v(z),
z∈Fy
y ∈ X2 .
(3.10)
Уравнения (3.9), (3.10) решаются при граничном условии
v(y)|y∈X3 = H1 (y).
(3.11)
Система уравнений (3.9), (3.10) с граничным условием (3.11) позволяет осуществить попятную рекуррентную процедуру нахождения значения
игры и оптимальных стратегий игроков. Действительно, пусть значения
всех подыгр Γz длиной l(z) ≤ k − 1 известны и равны v(z), пусть Γy —
некоторая подыгра длиной l(y) = k. Тогда, если y ∈ X1 , то v(y) определяется по формуле (3.9), если же y ∈ X2 , то v(y) находится по формуле
(3.10). При этом значения функций v(z) в формулах (3.9), (3.10) известны,
поскольку соответствующие подыгры имеют длину не более чем k−1. Эти
формулы указывают способ построения стратегий игроков. Действительно, если y ∈ X1 , то игрок 1 (максимизирующий) должен выбрать в точке y
вершину z ∈ Fy , для которой значение следующей подыгры максимально.
Если же y ∈ X2 , то игрок 2 (минимизирующий) должен выбрать позицию
z ∈ Fy , для которой значение следующей подыгры минимально.
В случае, когда выборы игроков в антагонистической многошаговой
игре чередуются (поочередная игра), уравнения (3.9), (3.10) могут быть
записаны в виде одного уравнения. Действительно, рассмотрим подыгру
Γx и пусть, для определенности, x ∈ X1 . Тогда в следующей позиции ходит
игрок 2 или эта позиция является (игра поочередная) окончательной, т.
е. Fx ⊂ X2 ∪ X3 . Поэтому можно записать
v(x) = max v(y),
x ∈ X1 ;
(3.12)
y ∈ Fx ⊂ X2 ∪ X3 .
(3.13)
y∈Fx
v(y) = min v(z),
z∈Fy
Подставляя (3.13) в (3.12), получаем
v(x) = max[min v(z)],
y∈Fx z∈Fy
x ∈ X1 .
(3.14)
Если x ∈ X2 , то аналогично имеем
v(x) = min [max v(z)].
y∈Fx z∈Fy
(3.15)
Уравнения (3.14), (3.15) эквивалентны и должны рассматриваться с начальным условием v(x)|x∈X3 = H1 (x).
121
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Теорема о существовании абсолютного равновесия по Нэшу, рассматриваемая применительно к антагонистическим поочередным многошаговым играм, позволяет утверждать существование ситуации равновесия в
«шахматах» и «шашках», в классе чистых стратегий, а уравнения (3.14),
(3.15) показывают путь для нахождения значения игры. Вместе с тем
очевидно, что в обозримом будущем решение указанных функциональных уравнений для нахождения значения игры и оптимальных стратегий
не будет реализовано на ЭВМ и мы так и не узнаем, может ли какойлибо игрок, «белый» или «черный», гарантировать победу в любой партии
или всегда возможна «ничья»? Однако в шахматах и шашках делаются
небезуспешные попытки построения приближенно оптимальных решений
путем создания программ, думающих на несколько шагов вперед, использование всевозможных (полученных, как правило, эмпирическим путем)
функций оценки текущих позиций. Такой подход возможен и при исследовании общих антагонистических многошаговых игр с полной информацией. Последовательное итерирование оценочных функций на несколько
шагов вперед может привести к желательным результатам.
§ 3.4.
Построение единственного равновесия по Нэшу
Как и прежде, пусть N — множество игроков, X1 , . . . , Xn — множества
очередности и Xn+1 — множество окончательных позиций. Для каждого
i ∈ N определим вектор предпочтений i-го игрока Fi = {fi (j)}, j ∈
N \ {i} таким образом, что n-мерный вектор {|fi (j)|}, j ∈ N представляет
собой перестановку чисел 1, . . . , n, с fi (i) = 1 на i-м месте. Пусть n = 3
и рассмотрим перестановку (1,3,2), Тогда вектор {|f1 (1)|, |f1 (2)|, |f1 (3)|}
имеет вид (1,3,2). Однако сам вектор предпочтений Fi может иметь одно
из следующих четырех представлений: (1,3,2), (1,3,-2), (1,-3,2), (1,-3,-2).
Можно представить себе следующую интерпретацию вектора предпочтений fi (j), j ∈ N \ {i}, i ∈ N : если fi (j) = k > 0, тогда игрок j является
«другом» игрока i уровня k, а если fi (j) = k < 0, тогда игрок j является «врагом» игрока i уровня k и fi (i) = 1. Например, если n = 3 и
F1 = (1, 3, −2), то это означает, что игрок 1 является своим собственным
«другом» уровня 1, игрок 2 является «другом» игрока й уровня 3, а игрок
3 является «врагом» игрока 1 уровня 2.
Каждый вектор Fi определяет отношение игрока i к другим игрокам
или «тип» игрока (здесь мы используем терминологию, впервые введенную в [Dresher, 1961], в некоторой отдаленной аналогии).
Предположим, что абсолютное равновесие в игре Γ найдено методом математической индукции. Сначала рассмотрим подыгры наимень122
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.4.. Построение единственного равновесия по Нэшу
Рис. 3.2. Альтернативы в позиции y.
шей длины Γ (одношаговые подыгры). Далее разбиваем Γ на подыгры
меньшей длины, предполагая, что в подыграх используются равновесные
по Нэшу стратегии. При построении равновесия по Нэшу может случиться, что в некоторой подыгре Γx , x ∈ Xi игры Γ игрок i, совершающий выбор в x, обнаруживает, что его выигрыш (при условии продолжения игры в соответствии с данным равновесием по Нэшу в подыграх) не зависит от того, какую альтернативу в x он выберет. В этом случае, используя вектор предпочтений, он обратит внимание на игрока j, для которого |fi (j)| = 2. Если fi (j) > 0, он выберет альтернативу в x так, чтобы
максимизировать выигрыш игрока j, а если fi (j) < 0, — так, чтобы его
минимизировать.
Если выигрыш игрока j во всех подыграх, непосредственно следующих из Γx , один и тот же, то игрок i смотрит на игрока j, для которого |fi (j)| = 3, и ведет себя аналогичным образом, и т. д. Стратегию,
включающую такой способ поведения, будем называть тип-стратегией.
Абсолютное равновесие, получаемое методом динамического программирования с использованием тип-стратегий, назовем равновесием по Нэшу в тип-стратегиях. Обозначим его через T = (T1 , . . . , Tn ) и через
Ki (T ), i ∈ N , соответствующие выигрыши.
Дадим определение равновесия по Нэшу в тип-стратегиях индукцией
по длине l дерева игры. Обозначим через x(k; y) позицию, непосредственно
следующую за y, если в y выбрана альтернатива (дуга) k (рис. 3.2).
Если l = 1, то в Γ имется только один ход в x0 , который заканчивается
©
ª
окончательной позицией. Пусть x0 ∈ Xi1 . Выигрыши игроков hi x(k; x0 ) ,
i = 1, . . . , n, определены в окончательных позициях x(k; x0 ) ∈ Xn+1 .
Пусть F( i1 ) — вектор предпочтений игрока i1 , введем последовательность i1 , i2 , . . . , in таким образом, что |fi1 (ik )| = 1 + |fi1 (ik−1 )|, k =
2, . . . , n (fi1 (i1 ) = 1).
123
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Обозначим через ϕ(j) = signfi1 (ij ), j = 1, . . . , n, тогда fi1 (ik ) =
k[signfi1 (ik )].
Определим семейство множеств Ai1 [ϕ(j)], j = 2, . . . , n, так:
·
¸
Ai1 [ϕ(1)] = arg max hi1 {x(k; x0 )} ,
k

"
#



hij {x(k; x0 )} , если ϕ(j) > 0,

 arg k∈Aimax
[ϕ(j−1)]
1
"
#
Ai1 [ϕ(j)] =



hij {x(k; x0 )} , если ϕ(j) < 0.

 arg k∈Aimin
[ϕ(j−1)]
1
Отсюда Ai1 [ϕ(j)] ⊂ Ai1 [ϕ(j − 1)], i1 ∈ N .
n
T
Обозначим A∗i1 =
Ai1 [ϕ(j)]. В одношаговой игре Γ в вершине x0 ∈
j=1
Xi1 тип-стратегия Ti1 выбирает любую альтернативу k ∈ A∗i1 , т.e.
Ti1 (x0 ) = k, k ∈ A∗i1 .
(3.16)
Лемма 3.4.1. Для всех k1 , k2 ∈ A∗ имеем
hj {x(k1 ; x0 )} = hj {x(k2 ; x0 )},
j = 1, . . . , n.
(3.17)
Д о к а з а т е л ь с т в о. Предположим, что (3.17) не выполняется
для некоторого j ∈ N . Тогда существует j, такое что
hij {x(k1 ; x0 )} = hij {x(k2 ; x0 )},
ij < ij ,
hij {x(k1 ; x0 )} 6= hij {x(k2 ; x0 )}.
Поскольку k1 , k2 ∈
(3.18)
A∗ ,

"
#



arg
max
hij {x(k; x0 )} , если ϕ(j) > 0,



k∈Ai1 [ϕ(j−1)]

k1 , k2 ∈ A[ϕ(j)] =
"






arg
#
min
k∈Ai1 [ϕ(j−1)]
hij {x(k; x0 )} , если ϕ(j) < 0.
(3.19)
В (3.19) max (min) функции hij определен на одном множестве Ai1 [ϕ(j −
1)]. Пусть ϕ(j) > 0, тогда по определению
max
k∈Ai1 [ϕ(j−1)]
hij {x(k; x0 )} = hij {x(k1 ; x0 )} = hij {x(k2 ; x0 )},
что противоречит (3.18). Так же можно рассмотреть и случай ϕ(j) < 0.
Лемма доказана.
124
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.4.. Построение единственного равновесия по Нэшу
Следствие 3.4.1. Из леммы 3.4.1 следует, что в случае l = 1 в любых
двух ситуациях в тип-стратегиях Ti01 , Ti002 соответствующие векторвыигрыши совпадают.
Пусть в Γ x0 ∈ Xi1 . Все подыгры Γx , начинающиеся из вершин
(позиций), непосредственно следующих за x0 , имеют длину < l. Пусть
тип-стратегии уже определены по индукции в подыграх. Для каждого x
зафиксируем
ситуацию ¢T x = (T1x , . . . , Tnx ) в тип-стратегиях в Γx . Пусть
¡
v(x) = v1 (x), . . . , vn (x) — соответствующий вектор выигрышей в Γx в
ситуации T x . Если вершина x соответствует альтернативе k в x0 , то будем писать
©
ª
©
ª
v(x) = v x(k; x0 ) , vi (x) = vi x(k; x0 ) , i = 1, . . . , n.
Определим семейство множеств Ai1 [ϕ(j)], j = 2, . . . , n,
·
¸
Ai1 [ϕ(1)] = arg max vi1 {x(k; x0 )} ,
k

"
#



vij {x(k; x0 )} , если ϕ(j) > 0,

 arg k∈Aimax
[ϕ(j−1)]
1
"
#
Ai1 [ϕ(j)] =



vij {x(k; x0 )} , если ϕ(j) < 0.

 arg k∈Aimin
[ϕ(j−1)]
1
Обозначим A∗i1 =
n
T
j=1
Ai1 [ϕ(j)]. Определим тип-стратегию в игре Γ:
Ti1 (x0 ) = k, k ∈ A∗i1 , Ti1 (y) = Tix1 (y) при y ∈ Xix1 ,
где X x = {X1x , . . . , Xix1 , . . . , Xnx } — множество очередности в подыгре Γx ,
начинающейся с позиции x, непосредственно следующей за x0 :
Ti (y) = Tix (y) для y ∈ Xix ,
i 6= i1 .
Доказательство следующей
повторяет предыдущее,
©
ª леммы
© полностью
ª
если мы заменим hi x(k; x0 ) на vi x(k; x0 ) .
Лемма 3.4.2. Для всех k1 , k2 ∈ A∗ имеет место:
vj {x(k1 ; x0 )} = vj {x(k2 ; x0 )},
j = 1, . . . , n.
(3.20)
Теорема 3.4.1. Если любому игроку известен свой тип и типы остальных игроков, и все об этом знают, то в каждой игре Γ существует его
125
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
абсолютное равновесие по Нэшу в тип-стратегиях, и в любых различных ситуациях T = (T1 , . . . , Tn ), T 0 = (T10 , . . . , Tn0 ) в тип-стратегиях
выигрыши игроков совпадают, т.е.
Ki (T1 , . . . , Tn ) = Ki (T10 , . . . , Tn0 ), i ∈ N.
(3.21)
Д о к а з а т е л ь с т в о. Рассмотрим две различные ситуации в
тип-стратегиях T = (T1 , . . . , Tn ), T 0 = (T10 , . . . , Tn0 ). Из построения T (T 0 )
следует, что она образует абсолютное равновесие в Γ.
Предположим, что (3.21) не выполняется при некотором i1 ∈ N :
Ki1 (T1 , . . . , Tn ) 6= Ki1 (T10 , . . . , Tn0 ).
(3.22)
Рассмотрим два различных случая:
1. Ti1 (x0 ) = Ti01 (x0 ) = k;
2. Ti1 (x0 ) 6= Ti01 (x0 ).
В случае 1 в ситуациях T и T 0 после выбора в позиции x0 игроки попадают
в одну и ту же подыгру Γx , где x = x(k; x0 ).
По рекуррентному построению ситуаций T , T 0 выигрыши в подыгре
Γx в этих ситуациях соответственно равны:
0
0
Kix (T1x , . . . , Tnx ) = Kix (T1x , . . . , Tnx ) = vi (k; x0 ),
(3.23)
0
i = 1, . . . , n, где Tix (Ti x ) — след стратегии Ti (Ti0 ) в подыгре Γx . Однако
в случае 1
Ki (T1 , . . . , Tn ) = Kix (T1x , . . . , Tnx ),
0
(3.24)
0
Ki (T10 , . . . , Tn0 ) = Kix (T1x , . . . , Tnx ),
i = 1, . . . , n, и теорема следует из (3.23), (3.24).
Пусть в случае 2 Ti1 (x0 ) = k1 , Ti01 (x0 ) = k2
x(k1 ; x0 ), x2 = x(k2 ; x0 ). Тогда по лемме 2
(k1 6= k2 ) и x1 =
Kix1 (T1x1 , . . . , Tnx1 ) = vi (k1 ; x0 ) =
0
0
= vi (k2 ; x0 ) = Kix2 (T1x2 , . . . , Tnx2 ),
i = 1, . . . , n.
(3.25)
Однако
Ki (T1 , . . . , Tn ) = Kix1 (T1x1 , . . . , Tnx1 ),
0
0
Ki (T10 , . . . , Tn0 ) = Kix2 (T1x2 , . . . , Tnx2 ),
(3.26)
i = 1, . . . , n, и в случае 2 теорема следует из (3.25), (3.26).
Положение намного сложнее, если игроки не знают тип противника
или знают лишь некоторые вероятностные распределения на типах.
126
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.4.. Построение единственного равновесия по Нэшу
Пример 3.4.1. Рассмотрим игру двух лиц (рис. 3.3). Элементы множества X1 обозначим кружками, а множества X2 — квадратиками. Вершины
дерева игры перенумерованы двойными индексами.
В позициях (1.2) и (1.3) оба выбора игрока 1 приводят к одинаковому
для него выигрышу. В то же время, если f1 (2) = 2 (игрок 2 «друг» игрока 1), то он выберет альтернативу 2 в позиции (1.2) и альтернативу 1 в
позиции (1.3). Если f1 (2) = −2 (игрок 2 «враг» игрока 1), он выберет 1 в
позиции (1.2) и 2 в позиции (1.3).
Рис. 3.3. Пример, когда выигрыши в «благожелательном» равновесии
меньше, чем в «неблагожелательном».
¡
¢
В случае F1 = (1, 2) f1 (2) = 2 единственное абсолютное равновесие
по Нэшу будет {(2, 2, 1, 1, 1), (2, 1)} с выигрышами (2, 1) в случае, если
оба игрока знают вектор предпочтений F1 . Если это не имеет места, то
положение усложняется.
2 думает, что вектор предпочтений
¡ Пусть игрок
¢
игроеа 1 F1 = (1, −2) f1 (2) = −2 (хотя в действительности f1 (2) = 2), и
игрок 1 знает о мнении игрока 2 о себе. Тогда, используя метод динамического программирования, мы получим пару стратегий {(1, 2, 1, 1, 1), (1, 1)}
с выигрышами (5, 4), которая не является равновесием по Нэшу.
127
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Если игрок 1 не знает мнение игрока 2 о себе, решение будет другим.
Также интересно отметить, что в случае, когда вектор F1 известен
обоим игрокам и f1 (2) = −2, единственное равновесие по Нэшу в типстратегиях будет {(1, 1, 2, 1, 1), (1, 1)} с выигрышами (5, 3). Это довольно
необычно, так как оказывается, что дружеские отношения между игроками могут иногда приводить к меньшим выигрышам для обоих игроков,
чем враждебные.
§ 3.5.
Структура множества абсолютных равновесий по Нэшу
В § 3.2. нами была доказана теорема о существовании ситуации абсолютного равновесия по Нэшу в конечной игре с полной информацией в чистых
стратегиях. В данном параграфе дается полное конструктивное описание
всех ситуаций абсолютного равновесия по Нэшу в играх с полной информацией на древовидном графе [Мамкина, Петросян, 2004]. Построен
специальный класс абсолютных равновесий по Нэшу в конечной игре с
полной информацией в стратегиях поведения, предусматривающих возможность случайного выбора альтернатив, и показано, что любая ситуация абсолютного равновесия принадлежит данному классу.
Пусть задана многошаговая позиционная игра с полной информацией
на конечном древовидном графе (см. определение 3.1.2).
Для упрощения дальнейшего изложения введем некоторые дополнительные обозначения. Пусть x — некоторая вершина (позиция), G(x) —
дерево подыгры Γx , т.е. поддерево дерева игры G с началом в вершине x.
Обозначим через Z(x) множество вершин, непосредственно следующих за
x, Z(x) = Fx . Альтернативами в вершине x называются вершины y, следующие за x (y ∈ Z (x)). Игрока i, принимающего решение в позиции x
(выбирающего следующую альтернативу в вершине x ) будем обозначать
через i (x). Обозначим выбор игрока i (x) в позиции x через x̄ ∈ Z (x), а
подыгру Γx для удобства — через Γ(x).
Нам также удобнее будет в этом параграфе множества Xi обозначить
через Pi (Xi ≡ Pi ), i = 1, . . . , n + 1 (см. определение 3.1.2). Заметим, что
для простоты изложения в этом паранпафе мы рассматриваем лишь игры
с терминальным выигрышем, но все результаты тривиальным образом
переносимы и на игры, выигрыши в которых определены во всех позициях
дерева G.
Обычные стратегии, определенные в 3.1.3, мы будем называть чистыми стратегиями т. е. чистой стратегией игрока i называется однозначное
отображение ui (·), которое в каждой позиции x ∈ Pi ставит в соответствие
некоторую альтернативу y ∈ Z (x).
128
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.5.. Структура множества абсолютных равновесий по Нэшу
Как и раньше в этой главе множество всевозможных чистых стратегий
игрока i будем обозначать через Ui .
Определение 3.5.1. Стратегией поведения игрока i называется однозначное отображение bi (·), которое каждой позиции x ∈ Pi ставит в
соответствие некоторое вероятностное распределение
X
p (y) ≥ 0,
pxk (y) = 1
y∈Z(x)
на множестве альтернатив Z (x) (здесь |Z (x) |.
Множество всевозможных стратегий поведения игрока i будем обозначать через Bi .
Введение класса стратегий поведения позволяет удобным образом описать множество всех ситуаций абсолютного равновесия в конечной игре
с полной информацией. В данном параграфе мы построим специальный
класс абсолютных равновесий по Нэшу в конечной игре с полной информацией в стратегиях поведения и покажем, что любая ситуация абсолютного равновесия принадлежит данному классу.
Под длиной игры Γ (x0 ) будем понимать длину наибольшего пути (число вершин содержащихся в пути) на дереве G (x0 ).
Пусть длина игры Γ (x0 ) равна T +1. Рассмотрим разбиение множества
всех позиций дерева игры G (x0 ) на T + 1 множество X0 , X1 , . . . , XT =
{x0 }, где множество Xt состоит из позиций, достигаемых из начальной
позиции x0 в точности за T −t ходов. Обозначим позиции, принадлежащие
множеству Xt , через xt , t = 0, . . . , T .
При построении абсолютного равновесия по Нэшу методом обратной
индукции может случиться, что в некоторой подыгре Γ (x) на поддереве
G (x) игрок i (x), совершающий выбор в позиции x, обнаружит, что при
различных продолжениях игры выбором некоторых альтернатив y ∈ Z (x)
его выигрыш, при условии что игроки и далее будут придерживаться данного фиксированного абсолютного равновесия по Нэшу, принимает одно
и то же значение (т. е. для игрока i (x) выбор любой из таких альтернатив представляет одинаковый интерес). Именно это обстоятельство и
приводит к множественности ситуаций абсолютного равновесия по Нэшу
в конечных играх с полной информацией.
Следующее определение вполне аналогично определению 3.2.1 и приводится для стратегий поведения.
Определение 3.5.2. Ситуация равновесия по Нэшу в стратегиях поведения ((b1 (·) , . . . , bn (·)) = b (·) называется абсолютным равновесием в
129
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
игре Γ (x0 ), если ее сужение в любой подыгре Γ (x) является ситуацией
равновесия в этой подыгре.
Ниже мы приведем алгоритм построения
рав¡ ситуации абсолютного
¢
новесия по Нэшу в стратегиях поведения (b̄1 (·) , . . . , b̄n (·) = b̄ (·) для
конечной игры с полной информацией и покажем, что любая ситуация
абсолютного равновесия в Γ (x0 ) может быть получена с помощью этого
алгоритма.
Рассмотрим множество позиций X0 . Так как длина игры равна T +1, то
X0 ⊂ Pn+1 и выигрыши игроков уже определены и равны hi (x0 ) , x0 ∈
X0 , i = 1, . . . , n.
Шаг 1. Перейдем от позиций X0 к позициям x1 ∈ X1 . Если x1 ∈
/ Pn+1 ,
то в позиции x1 ходит игрок i (x1 ). Алгоритм предписывает игроку i (x1 )
выбрать любую из позиций (альтернатив) x ∈ Z (x1 ) из условия:
max
x∈Z(x1 )
hi(x1 ) (x) = h
i(x1 ) (x̄0 ) .
(3.27)
Однако, максимум в (3.27) может достигаться не в одной точке. Обозначим через
Z̃i(x1 ) (x1 ) = arg max hi(x1 ) (x) ,
x∈Z(x1 )
т. е.
n
Z̃i(x1 ) (x1 ) =
y : hi(x1 ) (y) =
max
x0 ∈Z(x1 )
hi(x1 ) (x0 )
o
(3.28)
В позиции x1 ∈ X1 стратегия поведения b̄i(x1 ) игрока i (x1 ) выбирает
любую из альтернатив множества y ∈ Z̃i(x1 ) (x1 ) с некоторыми вероятноP
стями px1 (y) ≥ 0, y∈Z̃
(x1 ) px1 (y) = 1 )(которые определяются данной
i(x1 )
стратегией ¯b̄i(x1 ) ). Если
¯ максимум (3.27) достигается в единственной точ¯
¯
ке x̄0 , т. е. ¯Z̃i(x1 ) (x1 )¯ = 1, то очевидно, что стратегия поведения b̄i(x1 )
игрока i (x1 ) в x1 предписывает ему выбор точки x0 ∈ Z (x1 ) с вероятностью 1. При этом выигрыш игрока i равен
X
px1 (x0 ) hi (x0 ) , i = 1, . . . , n.
x0 ∈Z̃i(x ) (x1 )
1
Если x1 ∈ Pn+1 , то выигрыши игроков уже определены и равны соответственно hi (x1 ), i = 1, . . . , n.
¯ Заметим,¯ что из-за возможного попадания игрока i (x1 ) в вершину x1
¯
¯
с ¯Z̃i(x1 ) (x1 )¯ > 1 предполагаемая схема выбора не определяет путь (дугу)
130
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.5.. Структура множества абсолютных равновесий по Нэшу
однозначно,
и мы
¯
¯ получим некоторое «поддерево» дерева G (x1 ). В случае
¯
¯
если ¯Z̃i(x1 ) (x1 )¯ = 1, то «поддерево» будет состоять из единственной дуги
(или одной вершины, если x1 ∈ Pn+1 ).
Применяя аналогичные рассуждения, можно построить «поддерево»
с началом в x1 ∈ X1 для каждой позиции x1 ∈ X1 . Таким образом, на
каждом поддереве G (x1 ), x1 ∈ X1 фиксируется позиция x̄0 , являющаяся
предполагаемой окончательной позицией строящегося «поддерева»
игры
¯
¯
¯
¯
Γ (x0 ), или вероятностное распределение на Z̃i(x1 ) (x1 ), если ¯Z̃i(x1 ) (x1 )¯ >
1. Поэтому, зная поведение игроков на поддеревьях G (x1 ), x1 ∈ X1 , мы
можем ввести аналог функций Беллмана
1
Hi1 : X1 → R+
, i = 1, . . . , n.
Hi1 — ожидаемый выигрыш игрока i в позиции x1 ∈ X1 , в предположении, что на поддереве G (x1 ) игроки действуют согласно предложенному
алгоритму:

hi (x1 ) ,
x1 ∈ Pn+1



P
,
(3.29)
Hi1 (x1 ) =

pxi (y) hi (y) ,
x1 ∈
/ Pn+1


y∈Z̃i(x1 ) (x1 )
X
px1 (y) = 1
(3.30)
y∈Z̃i(x1 ) (x1 )
T
Стратегии b̄i (·) строим в позиции x1 ∈ X1 Pi по правилу:
(
x̄0 , x̄0 ∈ arg max hi(x1 ) (y),
|Z̃i(x1 ) (x1 )| = 1,
y∈Z(x1 )
b¯i (·) =
px1 = {px1 (y), y ∈ Z̃i(x1 ) (x1 )}, |Z̃i(x1 ) (x1 )| > 1,
здесь
P
y∈Z̃i(x1 ) (x1 ) px1
(y) = 1,
(3.31)
px1 (y) ≥ 0 — некоторое фиксированное
вероятностное распределение на множестве альтернатив Z̃i(x1 ) (x1 ).
Предположим, что функции Hil (xl ) и стратегии b̄i (·), i ∈ N построены
для всех l < t.
Рассмотрим шаг t. Предположим, что, двигаясь к «корню» Γ игры,
мы достигли позиции xt ∈ Xt . Пусть функции
1
Hit−1 (xt−1 ) : Xt−1 → R+
,i ∈ N
определяют, какие выигрыши получают игроки i ∈ N в подыгре Γ (xt−1 )
после выбора ими в позиции xt ∈ Xt , l < t предложенных нами решений.
131
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Шаг t. Пусть далее
Z̃i(xt ) (xt ) = arg max Hit−1 (y) .
(3.32)
y∈Z(x1 )
В позиции xt ∈ Xt стратегия поведения b̄i (xt ) игрока i (xt ) выбирает
любую из альтернатив множества y ∈ Z̃i x (xt ) с некоторыми вероятно( t1 )
стями
X
pxt (y) = 1.
pxt (y) ≥ 0,
y∈Z̃i(x1 ) (x1 )
При этом выигрыши игроков i ∈ N в подыграх Γ (xt ), xt ∈ Xt равны
X
pxt (xt−1 ) Hit−1 (xt−1 ) , i ∈ N.
xt−1 ∈Z̃i(x ) (x1 )
t
Очевидно, если максимум (3.32) достигается в единственной точке x̄t ,
то b̄i(xt ) выбирает эту точку с вероятностью 1.
Если xt ∈ Pn+1 , то выигрыши игроков уже определены и равны соответственно hi (xt ), i = 1, . . . , n.
1 i ∈ N зададим следующим образом:
Функции Hit (xt ) : Xt → R+

hi (xt ) ,
xt ∈ Pn+1



P
.
(3.33)
Hi1 (xt ) =

pxt (y) hi (y) ,
xt ∈
/ Pn+1


y∈Z̃i(xt ) (xt )
T
Стратегии b̄i (·) строим в позиции xt ∈ Xt Pi , i ∈ N по правилу:
(
x̄t−1 , x̄t−1 ∈ arg max hi(xt ) (y), |Z̃i(xt ) (xt )| = 1,
y∈Z(xt )
b¯i (·) =
(3.34)
pxt = {pxt (y), y ∈ Z̃i(xt ) (xt )},
|Z̃i(xt ) (xt )| > 1, i ∈ N,
P
pxt (y) ≥ 0.
где y∈Z̃i(x ) (xt ) pxt (y) = 1,
t
¡
¢
x
Обозначим через b̄ t (·) = b̄x1 t (·) , . . . , b̄xnt (·) ситуацию в подыгре
Γ (xt ), построенную на первых t шагах алгоритма.
Продолжая спускаться по дереву игры Γ (x0 ) к начальной позиции O
и последовательно определяя выборы игроков в оставшихся множествах
Xτ , τ = t¡+ 1, . . . , T , мы построим
поддерево, соответствующее ситуации
¢
b̄x0 (·) = b̄x1 0 (·) , . . . , b̄xn0 (·) = b̄ (·), и соответствующие выигрыши, которые реализуются в игре Γ (x0 ).
¡
¢
Теорема 3.5.1. Построенная ситуация b̄ (·) = b̄1 (·) , . . . , b̄n (·) образует
ситуацию абсолютного равновесия по Нэшу в Γ (x0 ).
132
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.5.. Структура множества абсолютных равновесий по Нэшу
Доказательство теоремы аналогично доказательству теоремы 3.2.1 и
при первом чтении может быть опущено.
Д о к а з а т е л ь с т в о. Обозначим через
¡
¢
¡
¢
Ki x, b̄x1 (·) , . . . , b̄xn (·) = Ki x; b̄x (·)
математическое
ожидание
игроков i ∈ N в подыгре Γ (x) в си¡
¢ выигрышей
x (·) в стратегиях поведения. Тогда, по опретуации b̄x1 (·) , . . . , b̄xn (·)
=
b
¢
¡
делению, в ситуации b̄x1 t (·) , . . . , b̄xnt (·) = bxt (·) имеет место равенство
¡
¢
Ki x; b̄xt (·) = Hit (xt ) , i ∈ N, xt ∈ Xt .
Для доказательства теоремы достаточно показать, что
¡
¢
¡
¢
Ki x; b̄xt (·) ≥ Ki xt ; b̄xt (·) ||bxi t (·)
(3.35)
для всех xt ∈ Xt , i ∈ N , bxi t (·) ∈ Bixt (здесь Bixt — множество стратегий
поведения игрока i в подыгре Γ (xt ), представляющее сужение множества
Bi на позиции подыгры Γ (xt )).
Проведем доказательство индукцией по длине игры. Если длина игры
равна 1, то теорема тривиальна, т. к. все позиции в игре окончательные
и игроки в них ходов не делают. Пусть теперь игра Γ имеет длину T .
Рассмотрим семейство подыгр Γ (xT −1 ) на поддереве G (xT −1 ), xT −1 ∈
Z (xt ). Длина каждой из этих подыгр не превосходит T −1. Предположим,
что теорема справедлива для всех игр, длина которых не превосходит
T − 1, и докажем ее для игры длины T .
x
Пусть i = i (xT ). Поскольку b̄i T −1 (·) по индукционному предположению есть ситуация абсолютного равновесия в Γ (xT −1 ), то имеем:
¡
¢
T
Ki(xT ) xT ; b̄xT (·) = Hi(x
(xT ) =
T)
max
xT −1 ∈Z(xT )
T −1
(xT −1 ) =
Hi(x
T)
T −1
T −1
(xT −1 ) =
(x̄T −1 ) ≥ Hi(x
= Hi(x
T)
T)
³
´
xT −1
= Ki(xT ) xT −1 ; b̄i(x
(·) ≥
T)
¡
¢
≥ Ki(xT ) xT −1 ; b̄xT −1 (·) ||bi(xT ) (·) =
¡
¢
= Ki(xT ) xT ; b̄xT (·) ||bi(xT ) (·) .
133
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Если i 6= i (xT ), то
¡
¢
Ki xT ; b̄xT (·) =
X
y∈Z̃
=
pxT (y) HiT −1 (y) =
( ) (xT )
X
¡
¢
pxT (y) Ki xT −1 ; b̄y (·) ≥
i x
T
y∈Z̃i(x ) (xT )
T
≥
=
X
¡
¢
pxT (y) Ki xT −1 ; b̄y (·) ||bi (y) =
y∈Z̃i(x ) (xT )
T
¡
¢
Ki xT ; b̄xT (·) ||bi (·)
и теорема доказана.
Докажем теперь в некотором смысле обратное утверждение.
Теорема 3.5.2. Любая ситуация абсолютного равновесия по Нэшу в
Γ (x0 ) может быть получена в результате реализации построенного
алгоритма при соответствующим образом выбранных вероятностных
распределениях
X
px (y) ≥ 0, x ∈ Pi ,
px (y) = 1.
(3.36)
y∈Z̃i(x) (x)
Д о к а з а т е л ь с т в о. Обозначим через B ∗ множество всевозможных ситуаций абсолютного равновесия по Нэшу в Γ (x0 ), и покажем, что
B ∗ ⊂ B̄. Пусть b∗ ∈ B ∗ . Покажем, что существует ситуация в стратегиях
поведения b̄ ∈ B̄, предписывающая такие вероятности
X
px (y) ≥ 0, x ∈ Pi ,
px (y) = 1, i ∈ N,
y∈Z̃i(x) (x)
что b∗ = b̄. Здесь B̄ — класс абсолютных равновесий по Нэшу в Γ (x0 ),
полученный в результате реализации предложенного алгоритма.
Обозначим через B̄ixt и Bi∗ сужение множества B̄i и Bi∗ соответственно
на позиции подыгры Γ (xt ). Рассмотрим семейство подыгр Γ (x1 ). Пусть
b∗ ∈ B ∗ и пусть не существует b̄ ∈ B̄, порождающей поведения (вероятностные распределения), определенные формулой (3.36) для позиции
x1 : b∗ 6= b̄, b̄ ∈ B̄. Так как длина игры Γ (x1 ) не превышает 2, то в игре Γ (x1 ) ходит только один игрок i (x1 ). Следовательно, ситуации b∗x1 и
b̄x1 отличаются разве лишь стратегиями игрока i (x1 ) b∗i(x1 ) (x1 ) и b̄i(x1 ) (x1 )
соответственно. Т.е. b̄x1 может быть представлено как b∗x1 ||bi(x1 ) для некоторого bi(x1 ) (x1 ) = b̄i(x1 ) (x1 ).
134
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.5.. Структура множества абсолютных равновесий по Нэшу
Так как b∗ — ситуация абсолютного равновесия по Нэшу в Γ (x0 ), то
ее сужение на любую из подыгр игры Γ (x0 ) также является ситуацией
абсолютного равновесия в соответствующей подыгре. Поэтому
³
´
1
Ki(x1 ) (x1 ; b∗x1 (·)) ≥ Ki(x1 ) x1 ; b∗x1 (·) ||bxi(x
(·)
=
1)
(3.37)
¡
¢
= Ki(x1 ) x1 ; b̄x1 (·) .
¯
¯
¯
¯
Если ¯Z̃i(x1 ) (x1 )¯ = |Z (x1 )|, то b∗ имеет структуру b̄, т. е. b∗ ∈ B̄.
Пусть существует x ∈ Z (x1 ): x ∈
/ Z̃i(x1 ) (x1 ). Если b∗x1 не имеет структуры b̄, то это означает, что вероятности px (y), порожденные b∗x1 , должны
предписывать положительную меру вершинам x ∈ Z (x1 ), x ∈
/ Z̃i(x1 ) (x1 ).
Тогда
¡
¢
1
Ki(x1 ) x1 ; b̄x1 (·) = Hi(x
(x1 ) = max hi(x1 ) (x) >
1)
x∈Z(x1 )
P
>
px1 (y) hi(x1 ) (y) = Ki(x1 ) (x1 ; b∗x1 (·))
y∈Z(x1 )
Из (3.37) и последней цепочки равенств и неравенств следует, что наше
утверждение не верно и b∗x1 = b̄x1 , для некоторого b ∈ B̄.
Рассмотрим семейство подыгр Γ (x2 ). Мы показали, что b∗x1 = b̄x1 для
некоторого b ∈ B̄. Следовательно, ситуации b∗x2 и b̄x2 отличаются разве
лишь стратегиями игрока i (x2 ) в позиции x2 . Тогда
³
´
2
Ki(x2 ) (x2 ; b∗x2 (·)) ≥ Ki(x2 ) x2 ; b∗x2 (·) ||bxi(x
(·)
=
2)
(3.38)
¡
¢
= Ki(x2 ) x2 ; b̄x2 (·) ,
так как b¯∗x2 является
¯ ситуацией абсолютного равновесия в Γ (x2 ).
¯
¯
Если ¯Z̃i(x1 ) (x1 )¯ = |Z (x1 )|, то утверждение теоремы очевидно.
Пусть теперь существует x ∈ Z (x2 ) : x ∈
/ Z̃i(x2 ) (x2 ). Если b∗x2 не
имеет структуры b̄, то это означает, что вероятности px (y), порожденные
b∗x2 , должны предписывать положительную меру вершинам x ∈ Z (x2 ),
x∈
/ Z̃i(x2 ) (x2 ). Тогда
¡
¢
1
1
(x) >
Ki(x2 ) x2 ; b̄x2 (·) = Hi(x
(x2 ) = max Hi(x
2)
)
>
X
y∈Z(x2 )
x∈Z(x2 )
2
1
px2 (y) Hi(x
(y) = Ki(x2 ) (x2 ; b∗x2 (·)) .
)
(3.39)
2
Это противоречит тому, что b∗ ∈ B ∗ . Из (3.38) и (3.39) следует, что
= b̄x2 для некоторого вероятностного распределения, определенного
условием (3.36) для позиции x2 (для некоторого b ∈ B̄).
b∗x2
135
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Предположим, что утверждение теоремы справедливо для всех подыгр
длины k, т.е. существует вероятностное распределение, определенное условием (3.36) для всех позиций xk , такое что b∗xk = b̄xk . Рассмотрим семейство подыгр Γ (xk+1 ) и покажем, что b∗xk+1 = b̄xk+1 для некоторого b ∈ B̄.
Предположим, что это не так.
Имеем:
³
´
xk+1
Ki(xk+1 ) (xk+1 ; b∗xk+1 (·)) ≥ Ki(xk+1 ) xk+1 ; b∗xk+1 (·) ||bi(x
(·)
0=
k+1 )
¡
¢
= Ki(xk+1 ) xk+1 ; b̄xk+1 (·) .
Пусть существует x ∈ Z (xk+1 ): x ∈
/ Z̃i(xk+1 ) (xk+1 ) и
¡
¢
k+1
Ki(xk+1 ) xk+1 ; b̄xk+1 (·) = Hi(x
(xk+1 ) =
k+1 )
>
X
y∈Z(xk+1 )
pxk+1 (y) Hik x
(
k+1 )
max
x∈Z(xk+1 )
Hik x
(
k+1 )
(x) >
(y) = Ki(xk+1 ) (xk+1 ; b∗xk+1 (·)) .
Это противоречит тому, что b∗ ∈¯ B ∗ . А значит,¯ b∗xk+1 = b̄xk+1 для некото¯
¯
рого b ∈ B̄. Для случая, когда ¯Z̃i(xk+1 ) (xk+1 )¯ = |Z (xk+1 )| утверждение
теоремы тривиально. Теорема доказана.
§ 3.6.
Индифферентное равновесие в позиционных играх
Как мы видели ранее в § 3.4.–§ 3.5., в позиционных играх ситуация абсолютного равновесия по Нэшу может не являться единственной и зависит
от «доброжелательности» игроков в том смысле, что один из игроков, будучи в равной степени заинтересован в выборе любой из последующих
альтернатив, может осуществлять выбор руководствуясь своими «личными» соображениями. Например, в случае «доброжелательности», игрок
из множества своих позиций, в которых выбор последующих альтернатив
принесет ему одинаковый максимальный выигрыш, выбирает ту, которая более благоприятна для другого игрока, или же ту, которая является
неблагоприятной для какого-либо из игроков (см. § 3.4.). В настоящем
параграфе мы предложим другой способ построения абсолютного равновесия по Нэшу, применяемый только для смешанных стратегий.
Пример 3.6.1. На рисунке 3.4 представлена позиционная игра двух лиц
с полной информацией на древовидном графе. Выигрыши игроков записаны в окончательных позициях. Причем, выигрыш первого игрока соответствует верхнему числу, второго — нижнему.
136
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.6.. Индифферентное равновесие в позиционных играх
Рис. 3.4 Дерево игры.
Множество очередности игрока 1 — P1 = {x0 , x3 , x6 }, второго игрока — P2 = {x1 , x2 }, множество окончательных позиций — P3 =
{x4 , x5 , x7 , x8 , x9 , x10 }.
В позиции x3 ходит игрок 1. Так как максимум
max
x∈Z(x3 )
h1 (x)
достигается в двух точках, построим множество
Z̃1 (x3 ) = arg max h1 (x) = {x7 , x8 } .
x∈Z(x3 )
Предположим, что игрок 1 настроен доброжелательно по отношению к игроку 2. Это означает, что в позиции x3 он выбирает позицию x8 ∈ Z̃1 (x3 ),
которая является более благоприятной для игрока 2, чем позиция x7 ∈
Z̃1 (x3 ). Тогда выигрыши игроков в равновесной по Нэшу подыгре Γ (x3 )
составят H (x3 ) = (3, 6)∗ (здесь и далее звездочкой отмечены выинрыши
в равновесии по Нэшу).
В позиции x6 ходит игрок 1. Так как максимум
max h1 (x) = 1
x∈Z(x6 )
достигается в x9 , следовательно, в позиции x6 игрок 1 выберет альтернативу x9 . Тогда в подыгре Γ (x6 ) выигрыши игроков составят H (x6 ) = (1, 1)∗ .
137
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
В позиции x1 ходит игрок 2. Так как максимум
max h2 (x) = 6
x∈Z(x1 )
достигается в x3 , следовательно, в позиции x1 игрок 2 выберет альтернативу x3 . Тогда в подыгре Γ (x1 ) выигрыши игроков составят
H (x1 ) = (3, 6)∗ .
В позиции x2 ходит игрок 2. Максимум выигрыша второго игрока
max h2 (x) = 2
x∈Z(x2 )
достигается в x5 , следовательно в позиции x2 игрок 2 выберет альтернативу x5 . Тогда в подыгре Γ (x2 ) выигрыши игроков составят H (x1 ) = (1, 2)∗ .
Рассмотрим позицию x0 . В позиции x0 ходит игрок 1 и выбирает альтернативу x1 ∈ Z (x0 ) из условия
max h1 (x) = 3.
x∈Z(x0 )
Тогда выигрыш игроков во всей игре Γ (x0 ) составит H (x0 ) = (3, 6)∗ .
Заметим, что в позиции x3 множество Z̃1 (x3 ) состоит более чем из
одного элемента, что порождает неоднозначность выбора альтернативы в
позиции x3 . Выше мы строили абсолютное равновесие по Нэшу в предположении «доброжелательности» первого игрока. Рассмотрим случай,
когда игрок 1 настроен «недоброжелательно» по отношению к игроку 2.
Это означает, что в позиции x3 игрок 1 выбирает позицию x7 ∈ Z̃1 (x3 ),
Z̃1 (x3 ) = arg max h1 (x) = {x7 , x8 } ,
x∈Z(x3 )
которая является менее благоприятной для игрока 2, чем позиция x8 ∈
Z̃1 (x3 ). Тогда выигрыши игроков в позиции x3 в подыгре Γ (x3 ) составят
H (x3 ) = (3, 2)∗ .
В позиции x6 ходит игрок 1. Так как максимум
max h1 (x) = 1
x∈Z(x6 )
достигается в x9 , следовательно, в позиции x6 игрок 1 выберет альтернативу x9 . Тогда в подыгре Γ (x6 ) выигрыши игроков составят H (x6 ) = (1, 1)∗ .
В позиции x1 ходит игрок 2. Так как максимум
max h2 (x) = 3
x∈Z(x1 )
138
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.6.. Индифферентное равновесие в позиционных играх
достигается в x4 , следовательно, в позиции x1 игрок 2 выберет альтернативу x4 . Тогда в подыгре Γ (x1 ) выигрыши игроков составят
H (x1 ) = (4, 3)∗ .
В позиции x2 ходит игрок 2. Максимум выигрыша второго игрока
max h2 (x) = 2
x∈Z(x2 )
достигается в x5 , следовательно, в позиции x2 игрок 2 выберет альтернативу x5 . Тогда в подыгре Γ (x2 ) выигрыши игроков составят H (x1 ) = (1, 2)∗ .
Рассмотрим позицию x0 . В позиции x0 ходит игрок 1 и выбирает альтернативу x1 ∈ Z (x0 ) из условия
max h1 (x) = 4.
x∈Z(x0 )
Тогда выигрыш игроков во всей игре Γ (x0 ) составит H (x0 ) = (4, 3)∗ .
Как видно из рассмотренного примера, при различном поведении одного из игроков (доброжелательном и недоброжелательном) абсолютные
равновесия в игре Γ (x0 ) и соответствующие им выигрыши различны.
Как отмечалось ранее, при построении абсолютного равновесия по Нэшу методом обратной индукции, в подыгре один из игроков может обнаружить, что его выигрыш (при условии продолжения игры в соответствии
с данным равновесием по Нэшу в подыграх) не зависит от того, какую
альтернативу он выберет. Для устранения проблемы многозначности абсолютных равновесий по Нэшу введем понятие индифферентного равновесия, отражающее «безразличие» при выборе альтернативы в указанных позициях. В позициях x ∈ G (x0 ), в которых принимающему решение
игроку i (x) безразлично, какую из альтернатив y ∈ Z̃i(x) (x) выбирать,
предпишем игроку i (x) выбирать вершины y ∈ Z̃i(x) (x) с равными вероятностями, т. е. вероятность выбора каждой из альтернатив yk ∈ Z̃i(x) (x),
¯
¯
¯
¯
1
¯.
k = 1, . . . , ¯Z̃i(x) (x)¯ в позиции x ∈ G (x0 ) равна ¯¯
¯
¯Z̃i(x) (x)¯
Процедура построения индифферентного равновесия по Нэшу отличается от классического построения абсолютного равновесия методом обратной индукции только выбором стратегий и определением выигрыша
игрока в позициях y ∈ Z̃i(x) (x). А именно,
Hi (x) =
X
px (y) Hi (y) , i ∈ N,
y∈Z̃i(x) (x)
139
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
где Hi (y), y ∈ Z̃i(x) (x) — выигрыш игрока i ∈ N в подыгре Γ (y). Очевидно, что если Z̃i(x) (x) состоит из одного элемента, то выбор альтернативы
y ∈ Z̃i(x) (x) осуществляется с вероятностью 1 и процедура построения
индифферентного равновесия совпадает с классической процедурой построения абсолютного равновесия по Нэшу методом обратной индукции.
Вернемся к примеру 3.6.1 (рис. 3.4) и найдем для него индифферентное
равновесие.
В позиции x3 имеем множество Z̃1 (x3 ) = {x7 , x8 }. Согласно предложенному выше алгоритму, альтернатива из Z̃1 (x3 ) в x3 выбирается с равными вероятностями. Тогда выигрыши игроков x3 составят
H (x) =
¡1
2
¢∗
(3 + 3) , 12 (2 + 6) = (3, 4)∗ .
В позиции x6 ходит игрок 1. Так как максимум
max h1 (x) = 1
x∈Z(x6 )
¯
¯
¯
¯
достигается в x9 , следовательно, ¯Z̃1 (x6 )¯ = 1, и в позиции x6 игрок 1
выберет альтернативу x9 с вероятностью 1. Тогда в подыгре Γ (x6 ) выигрыши игроков составят H (x6 ) = (1, 1)∗ .
В позиции x1 ходит игрок 2. Так как максимум
max H2 (x) = 4
x∈Z(x1 )
¯
¯
¯
¯
достигается в x3 , следовательно, ¯Z̃1 (x1 )¯ = 1, и в позиции x1 игрок 2
выберет альтернативу x3 с вероятностью 1. Тогда в подыгре Γ (x1 ) выигрыши игроков составят H (x1 ) = (3, 4)∗ .
Аналогично в позиции x2 выигрыши игроков составят H (x1 ) = (1, 2)∗ ,
а выигрыш игроков во всей игре Γ (x0 ) составит H (x0 ) = (3, 4)∗ .
Как видно из примера 3.6.1, выигрыши игроков при индифферентном
равновесии отличны от выигрышей в рассмотренных нами выше других
равновесиях.
Вернемся к описанному в параграфе § 3.5. классу всех абсолютных
равновесий по Нэшу. Полагая в нашем примере вероятности на Z̃1 (x3 )
равными px3 (x8 ) = 1, px3 (x7 ) = 0, получим абсолютное равновесие по
Нэшу при «доброжелательном» настрое игрока 1. Полагая px3 (x8 ) = 0,
px3 (x7 ) = 1 получим абсолютное равновесие по Нэшу при «недоброжелательном» настрое игрока 1. В случае, когда px3 (x8 ) = px3 (x7 ) = 21 , мы
получим индифферентное равновесие в стратегиях поведения.
140
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.7.. Стратегии наказания и «народные теоремы»
Очевидно, что результаты § 3.5.–?? полностью сохраняют силу и для
случая, когда выигрыши игроков заданы не только в окончательных позициях, а во всех вершинах дерева игры и суммируются вдоль партии
игры.
§ 3.7.
Стратегии наказания и «народные теоремы»
В § 3.2. нами была доказана теорема о существовании ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информацией
на конечном древовидном графе. В то же время при исследовании конкретных игр этого класса можно обнаружить целое семейство ситуаций
равновесия, сужения которых необязательно являются ситуациями равновесия во всех подыграх исходной игры. К числу таких ситуаций равновесия относятся и равновесия в стратегиях наказания. Проиллюстрируем
это понятие на примере.
Пример 3.7.1. Пусть игра Γ происходит на графе, изображенном на
рис. 3.5. Множество N = {1, 2} состоит из двух игроков. Кружками изображены вершины, составляющие множество X1 , квадратиками — множество X2 . Вершины графа перенумерованы двойными индексами, дуги —
одинарными.
Рис. 3.5. Абсолютное равновесие и стратегии наказания.
141
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Нетрудно убедиться в том, что ситуация u∗1 = (1, 1, 2, 2, 2), u∗2 = (1, 1)
является абсолютно равновесной в игре Γ. При этом выигрыши игроков равны 8 и 2 соответственно. Рассмотрим теперь ситуацию u1 =
(2, 1, 2, 1, 2), u2 = (2, 2). В этой ситуации выигрыши игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем в ситуации
(u∗1 , u∗2 ). Ситуация (u1 , u2 ) является равновесной в игре Γ, но не является
абсолютно равновесной. Действительно, в подыгре Γ1,4 сужение стратегии
u1 диктует игроку 1 выбор левой дуги, что не является для него оптимальным в позиции (1.4) Такое действие игрока 1 в позиции (1.4) можно
интерпретировать как угрозу «наказания» игрока 2, если он отклонится
от желательного для игрока 1 выбора дуги 2 в позиции (2.2), лишив тем
самым игрока 1 максимального выигрыша, равного 10. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий игрок при этом сам может потерять в выигрыше
5 единиц (действуя неоптимально в игре Γ1,4 ).
Дадим строгое определение стратегий наказания. Для простоты ограничимся случаем неантагонистической игры двух лиц.
Пусть задана неантагонистическая игра двух лиц
Γ = hU1 , U2 , K1 , K2 i.
С игрой Γ свяжем две антагонистические игры Γ1 и Γ2 следующим образом. Игра Γ1 — это антагонистическая игра, построенная на основе игры
0
Γ, в которой игрок 2 играет против игрока 1, т. е. K2 = −K1 . Игра Γ2 — это
антагонистическая игра, построенная на основе игры Γ, в которой игрок 1
0
играет против игрока 2, т. е. K1 = −K2 . Графы игр Γ1 , Γ2 , Γ и множества
стратегий в них совпадают. Обозначим через (u∗11 , u∗21 ) и (u∗12 , u∗22 ) ситуации абсолютного равновесия в играх Γ1 и Γ2 соответственно. Пусть Γ1x ,
Γ2x — подыгры игр Γ1 , Γ2 ; v1 (x), v2 (x) — значения этих подыгр. Тогда
ситуации {u∗11 x , u∗21 x } и {u∗12 x , u∗22 x } являются равновесными в играх Γ1x ,
Γ2x соответственно и v1 (x) = K1x (u∗11 x , u∗21 x ), v2 (x) = K2x (u∗12 x , u∗22 x ).
Рассмотрим произвольную пару (u1 , u2 ) стратегий в игре Γ. Разумеется, эта пара стратегий является таковой и в играх Γ1 , Γ2 . Пусть
Z = (x0 = z0 , z1 , . . . , zl ) — путь, реализуемый в ситуации (u1 , u2 ).
e1 (·) называется стратегией наказаОпределение 3.7.1. Стратегия u
ния игрока 1, если:
u
e1 (zk ) = zk+1
u
e1 (y) =
142
u∗12 (y)
для
для
zk ∈ Z ∩ X1 ,
y ∈ X1 ,
y∈
/ Z.
(3.40)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.7. Стратегии наказания и «народные теоремы»
Стратегия u
e2 (·) называется стратегией наказания игрока 2, если:
u
e2 (zk ) = zk+1
u
e2 (y) =
u∗21 (y)
для
для
zk ∈ Z ∩ X2 ,
y ∈ X2 ,
y∈
/ Z.
(3.41)
Из определения стратегий наказания сразу получаем следующие свойства:
1. K1 (e
u1 (·), u
e2 (·)) = H1 (zl ), K2 (e
u1 (·), u
e2 (·)) = H2 (zl ).
2. Пусть один из игроков, например игрок 1, используя стратегию u1 (·),
для которой позиция zk ∈ Z ∩ X1 является первой в пути Z, где u1 (·) дик0
тует выбор следующей позиции zk+1
, отличной от выбора, диктуемого
0
стратегией u
e1 (·), т. е. zk+1 6= zk+1 . Тогда из определения стратегии наказания u
e2 (·) следует, что
K1 (u1 (·), u
e2 (·)) ≤ v1 (zk ).
(3.42)
Аналогично, если игрок 2 использует стратегию u2 (·), для которой позиция zk ∈ Z ∩ X2 является первой в пути Z, где u2 (·) диктует выбор
0
следующей позиции zk+1
, отличной от диктуемой стратегией u
e2 (·), т. е.
0
zk+1 6= zk+1 , то из определения стратегии наказания u
e1 (·) следует, что
K2 (e
u1 (·), u2 (·)) ≤ v2 (zk ).
(3.43)
Отсюда, в частности, получаем следующую теорему.
Теорема 3.7.1. Пусть (e
u1 (·), u
e2 (·)) — ситуация в стратегиях наказания. Для равновесности ситуации (e
u1 (·), u
e2 (·)) достаточно, чтобы для
всех k = 0, 1, . . . , l − 1 выполнялись неравенства
K1 (e
u1 (·), u
e2 (·)) ≥ v1 (zk ),
K2 (e
u1 (·), u
e2 (·)) ≥ v2 (zk ),
(3.44)
где z0 , z1 , . . . , zl — путь, реализовавшийся в ситуации (e
u1 (·), u
e2 (·)).
Пусть u∗11 (·) и u∗22 (·) — оптимальные стратегии игроков 1 и 2 во
вспомогательных антагонистических играх Γ1 и Γ2 соответственно и Z =
{z 0 , z 1 , . . . , z l } — путь, соответствующий ситуации (u∗11 (·), u∗22 (·)). Предположим, что стратегии наказания u
e1 (·) и u
e2 (·) таковы, что u
e1 (z k ) = u∗11 (z k )
для z k ∈ Z ∩ X1 и u
e2 (z k ) = u∗22 (zk ) для z k ∈ Z ∩ X2 . Тогда ситуация
(e
u1 (·), u
e2 (·)) образует ситуацию равновесия по Нэшу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что
K1 (u∗11 (·), u∗22 (·)) = K1 (e
u1 (·), u
e2 (·)) ≥ v1 (z k ),
K2 (u∗11 (·), u∗22 (·)) = K2 (e
u1 (·), u
e2 (·)) ≥ v2 (z k ), k = 0, l − 1,
(3.45)
143
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
и воспользоваться теоремой из предыдущего пункта. Неравенства (3.45)
следуют из оптимальности стратегий u∗11 (·) и u∗22 (·) в играх Γ1 и Γ2 соответственно, их обоснование предлагаем в качестве упражнения. Таким
образом, получена следующая теорема.
Теорема 3.7.2. В игре Γ всегда существует ситуация равновесия в стратегиях наказания, в которой выигрыши равны
Ki (u∗11 (·), u∗22 (·)), где u∗11 (·) и u∗22 (·) — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Γ1 и Γ2
соответственно.
Смысл стратегий наказания заключается в том, что игрок заставляет
партнера придерживаться определенного пути в игре (определенных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партнера. Множество ситуаций
равновесия в классе стратегий наказания достаточно представительно,
однако эти стратегии не следует считать очень «хорошими», поскольку,
наказывая партнера, игрок может еще сильнее наказать самого себя.
Пример 3.7.2. Рассмотрим игру N лиц, изображенную на
рис. 3.6. В этой игре игроки ходят один за другим по одному разу,
имея возможность в каждой позиции выбрать одну из двух альтернатив:
A или D. Выигрыши игроков записаны в окончательных позициях. Легко
убедиться, действуя по индукции с конца игры, что ситуация u∗i = A,
i = 1, . . . , N , u∗ = (A, A, . . . , A) является ситуацией равновесия по Нэшу
и абсолютно равновесной ситуацией с выигрышами (2, 2, . . . , 2).
Действительно, пусть игрок i выбирает ui = D, тогда в ситуации
(u∗ |ui ) = (u∗ |D) = (A, A, . . . , A, D, A, . . . , A) выигрыши всех игроков равны соответственно (1/i, 1/i, . . . , 1/i), т. е.
1
2 = Ki (u∗ ) > Ki (u∗ |ui = D) = ,
i
и u∗ есть равновесие по Нэшу. Очевидно, что это же рассуждение можно
провести для любой подыгры, начиная с шага k.
В то же время эта ситуация в определненном смысле является устойчивой. При большом числе игроков нельзя быть уверенным (первым игрокам), что какой-то из игроков не «ошибется» и вместо A не выберет D. Тогда все игроки (не только тот, который «ошибся») потеряют в выигрыше.
В этой игре имеется множество других ситуаций равновесия в стратегиях наказания. Каждая ситуация, в которой первый и еще один (любой другой) игрок выбирают D, является ситуацией равновесия по Нэшу.
144
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
Рис. 3.6. Множественность равновесий по Нэшу в простейшей
игре с двумя альтернативами у каждого игрока.
Иными словами, равновесными оказываются ситуации вида
u = (D, A, . . . , D, . . . , A).
(где D стоит на первом месте и еще одно D — на любом другом). Выигрыши во всех таких ситуациях одни и те же и равны (1, 1, . . . , 1).
Действительно, пусть в ситуации u другой игрок, выбирающий D, имеет номер k > 1. Если игрок i ≥ 2 выбирает стратегию ui , отличную от
той, которая входит в ситуацию u, то выигрыши игроков не меняются,
так как выбор игроком 1 на первом шаге альтернативы D гарантирует
завершение игры на этом шаге, причем все игроки получают выигрыш 1.
Если игрок i = 1 выбирает вместо D альтернативу A, то благодаря наличию в ситуации u еще одного игрока, выбирающего D (игрока с номером
k), выигрыш игрока 1 уменьшится и станет равным 1/k.
Выигрыши в ситуации u, конечно, меньше выигрышей в ситуации
∗
u = (A, A, . . . , A), но не зависят от случайных ошибок при большом числе
игроков.
§ 3.8.
Кооперация в многошаговых играх
Рассмотрим игру Γ с полной информацией на конечном графе, как в § 3.1.,
но изменим определение выигрышей игроков. Здесь будем предполагать,
что для каждого x, принадлежащего X, определены n действительных
чисел hi (x), i = 1, . . . , n, и для каждого пути игры z = (z0 , z1 , . . . , zl ),
zl ∈ Xn+1 , выигрыш i-го игрока определяется как
Hi (z0 ) =
l
X
hi (zk ), hi ≥ 0.
k=0
Если hi (x) = 0, x ∈ Xi , i = 1, . . . , n, то мы имеем в точности игру, определенную в § 3.1.. Как принято (см. [Воробьев, 1985]) в теории
145
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
классических кооперативных игр, предположим, что перед началом игры
игроки соглашаются выбрать такой набор стратегий
u(·) = (u1 (·), . . . , ui (·), . . . , un (·)),
который максимизирует сумму выигрышей игроков. Если z =
(z 0 , . . . , z k , . . . , z l ), zl ∈ Xn+1 — путь (траектория), реализованная в ситуации u(·) = (u1 , . . . , ui , . . . , un ), то по определению ситуации u(·) имеем
n X
l
X
max
z0 ,...,zi ,...,zl
i=1 k=0
hi (zk ) =
n X
l
X
hi (z k ).
(3.46)
i=1 k=0
Кооперативная игра Γ развивается вдоль траектории z
=
(z 0 , . . . , z k , . . . , z l ), которую мы будем называть оптимальной траекторией.
Ясно, что в игре Γ может существовать целое семейство «оптимальных
траекторий», каждая из которых дает одинаковый максимальный общий
выигрыш. В этом параграфе для простоты предполагается, что оптимальная траектория единственна. Определим характеристическую функцию в
игре Γ (см. §1.13).
Характеристическая функция может быть введена аксиоматически
или как значение игры с нулевой суммой, происходящей между коалициями S ⊂ N и N \ S.
Как известно, важным свойством характеристической функции является выполнение условий
V (N ) =
l
n X
X
hi (z k ), N = {1, . . . , n},
(3.47)
i=1 k=0
и для
V (S1 ∪ S2 ) ≥ V (S1 ) + V (S2 ), V (∅) = 0,
S1 ⊂ N, S2 ⊂ N, S1 ∩ S2 = ∅.
Если характеристическая функция известна, то мы можем определить
множество дележей
I = {ξ = (ξi ) :
n
X
ξi = V (N ), ξi ≥ V ({i}), i = 1, . . . , n},
i=1
ядро
C = {ξ = (ξi ) :
X
i∈S
146
ξi ≥ V (S), S ⊂ N } ⊂ I,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
вектор Шепли, а также реализации других принципов оптимальности
классической теории кооперативных игр. В дальнейшем будем обозначать
через M ⊂ I любой из этих принципов оптимальности.
Предположим, что в начале игры игроки соглашаются использовать
принцип оптимальности M ⊂ I как основу для выбора «оптимального»
дележа ξ ∈ M . Это означает, что, играя кооперативно, выбирая стратегии, максимизирующие общий выигрыш, игроки ожидают, что каждый из
них получит доход ξ i из оптимального дележа ξ ∈ M после окончания игры (после того как максимальный общий выигрыш V (N ) действительно
будет получен всеми игроками).
Но когда игра Γ действительно развивается вдоль оптимальной траектории z = (z 0 , z 1 , . . . , z k , . . . , z l ), в каждой вершине z k игроки находятся
в новой многошаговой игре с полной информацией Γz k , k = 0, . . . , l, которая является подыгрой исходной игры Γ, начинающейся из вершины z k с
выигрышами
H(z k ) =
l
X
hi (zj ), hi ≥ 0, i = 1, . . . , n.
j=k
Важно заметить, что для задачи (3.46) принцип оптимальности Беллмана
выполняется и что часть z k = (z k , . . . , z j , . . . , z l ) траектории z, начинающейся с z k , максимизирует сумму выигрышей в подыгре Γz k , т. е.
max
zk ,...,zj ,...,zl
l
n X
X
hi (zj ) =
l
n X
X
hi (z j ).
(3.48)
i=1 j=k
i=1 j=k
Это означает, что траектория z k = (z k , . . . , z j , . . . , z l ) также является «оптимальной» в подыгре Γz k .
Перед попаданием в подыгру Γz k , каждый из игроков i уже заработал
выигрыш
k−1
X
Hiz k =
hi (zj ).
(3.49)
j=0
В то же время в начале игры Γ = Γ(x0 ) = Γ(z 0 ) игрок i стремился получить доход ξ i — i-ю компоненту «оптимального» дележа ξ ∈ M ⊂ I.
Отсюда следует, что в подыгре Γz k он ожидает получить доход, равный
z
ξ i − Hiz k = ξ i k ,
i = 1, . . . , n,
z
(3.50)
z
z
z
Возникает вопрос, останется ли новый вектор ξ k = (ξ 1k , . . . , ξ i k , . . . , ξ nk )
оптимальным в подыгре Γz k , в смысле того же принципа оптимальности,
147
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
для которого дележ ξ был оптимален в подыгре Γ(z 0 ). Если не останется, то в подыгре Γz k игроки не будут ориентироваться на тот же принцип
оптимальности, что и в игре Γ(z 0 ). Это может побудить их выйти из кооперации и измененить выбор кооперативных стратегий ui (·), i = 1, . . . , n, в
результате чего может изменениться оптимальная траектория z k в подыгре Γz k . Постараемся теперь обосновать справедливость этих доводов.
Введем в подыгре Γz k , k = 1, . . . , l, характеристическую функцию
V (S; z k ), S ⊂ N , таким же образом, каким она была введена в игре
Γ = Γ(z0 ). Основываясь на характеристической функции V (S; z k ), можно
ввести множество дележей
I(z k ) = {ξ = (ξi ) :
n
X
ξi = V (N ; z k ), ξi ≥ V ({i}; z k ), i = 1, . . . , n},
i=1
ядро
C = {ξ = (ξi ) :
X
ξi ≥ V (S; z k ), S ⊂ N } ⊂ C(z k ),
i∈S
вектор Шепли и другие принципы оптимальности классической теории
игр. Обозначим через M (z k ) ⊂ I(z k ) принцип оптимальности M ⊂ I (который был выбран игроками в игре Γ(z0 )), рассмотриваемый в подыгре
Γz k .
Если мы предположим, что игроки в игре Γ(z0 ), двигаясь
вдоль оптимальной траектории (z 0 , . . . , z k , . . . , z l ), следуют одинаковой
z
идеологии оптимального поведения, то вектор ξ k = ξ − H z k должен принадлежать множеству M (z k ) — соответствующему принципу оптимальности в кооперативной игре Γz k , k = 0, . . . , l.
Ясно видно, что очень трудно найти игры и соответствующие принципы оптимальности, для которых это условие выполняется. Постараемся
проиллюстрировать это на следующем примере.
Предположим, что в игре Γ hi (z) 6= 0 только для z ∈ Xn+1 (игра Γ —
игра с терминальным выигрышем из § 3.1.). Тогда последнее условие дает
z
ξ = ξ k ∈ M (z k ), k = 0, . . . , l, откуда получается
ξ ∈ ∩lk=0 M (z k ).
(3.51)
Для k = l имеем ξ ∈ M (z l ). Но M (z l ) = I(z l ) = {hi (z l )}, и это условие
должно выполняться для всех дележей множества M (z 0 ) и для всех принципов оптимальности M (z0 ) ⊂ I(z0 ). Это, в свою очередь, означает, что в
кооперативной игре с терминальным выигрышем единственно разумным
принципом оптимальности будет ξ = {hi (z l )} — вектор выигрыша, получаемый в конечной точке кооперативной траектории в игре Γ(z0 ). В то
148
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
же время простейшие примеры показывают, что включение (3.51), кроме
случая «болванов», не выполняется для игры с терминальными выигрышами.
Как же преодолеть это затруднение? Возможным способом представляется введение специального правила выплат (пошаговая плата) игры
таким образом, чтобы выплаты на каждом шаге не превышали общей
суммы, заработанной игроками на этом шаге, и выплаты, получаемые игроками, начиная с шага k (в подыгре Γz k ), принадлежали бы тому же
принципу оптимальности, что и дележ ξ, на который игроки согласились
в игре Γz 0 в начале игры. Обсудим ниже, является ли это возможным.
Введем понятие процедуры распределения дележа.
Определение 3.8.1. Предположим, что ξ = {ξ1 , . . . , ξi , . . . , ξn } ∈ M (z0 ).
Всякая матрица β = {βik }, i = 1, . . . , n, k = 0, . . . , l, такая, что
ξi =
l
X
βik ,
βik ≥ 0,
(3.52)
k=0
называется процедурой распределения дележа (ПРД).
Обозначим βk = (β1k , . . . , βnk ), β(k) =
следующая:
k−1
P
m=0
βm . Интерпретация ПРД β
βik — выплата игроку i на шаге k игры Γz0
,
т. е. на первом шаге подыгры Γz k . βi (k) — сумма, получаемая игроком i
на первых k шагах игры Γz0 . . Из определения 3.8.1 следует, что в игре
Γz0 каждый игрок i получает доход ξ i , i = 1, . . . , n, который он ожидает
получить как i-ю компоненту оптимального дележа ξi ∈ M (z0 ) в игре
Γz0 .
Определение 3.8.2. Принцип оптимальности M (z0 ) называется динамически устойчивым, если для каждого ξ ∈ M (z0 ) существует ПРД β,
такая что
ξ k = ξ − β(k) ∈ M (zk ), k = 1, . . . , l.
(3.53)
Определение 3.8.3. Принцип оптимальности M (z0 ) называется сильно динамически устойчивым, если для каждого ξ ∈ M (z0 ) существует
ПРД β, такая, что
β(k) ⊕ M (z k ) ⊂ M (z0 ),
k = 1, . . . , l,
где a ⊕ A = {a + a0 : a0 ∈ A, a ∈ Rn , A ⊂ Rn }.
149
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Динамическая устойчивость принципа оптимальности M (z0 )
подразумевает, что для каждого дележа ξ ∈ M существует такая
ПРД β, что если выплаты в каждой позиции z k на оптимальной траектории z будут сделаны игрокам в соответствии с ПРД β, то в каждой
k
подыгре Γz k игроки могут ожидать получения выплат ξ , которые
являются оптимальными в подыгре Γz k в том же смысле, в каком они
были оптимальными в исходной игре Γz0 .
Сильная динамическая устойчивость означает, что если выплаты сделаны в соответствии с ПРД β, то, заработав на первых k шагах сумму
β(k), игроки (если они ориентировались в подыгре Γz k на тот же принцип
оптимальности, что и в Γz0 ), пересматривая оптимальный дележ в этой
подыгре (заменяя один оптимальный дележ другим), все равно получат
в результате в игре Γz0 выплаты в соответствии с некоторым дележом,
оптимальным в предыдущем смысле, т. е. дележом, принадлежащим множеству M (z0 ).
Если мы опустим условие неотрицательности βik ≥ 0, налагаемое на
компоненты ПРД β, то для любого принципа оптимальности M (z0 ) ⊂
⊂ I(z0 ) и для каждого ξ ∈ M (z0 ) можно определить βik по следующим
формулам:
z
z
z
ξ i k − ξ i k+1 = βik , ξ i l = βil , i = 1, . . . , n, k = 0, . . . , l − 1.
(3.54)
Из определения следует, что
l
X
βik =
l−1
X
z
z
z
z0
(ξ i k − ξ i k+1 ) + ξ i l = ξ i = ξ i .
k=0
k=0
В то же время ξ − β(k) = ξ z k ∈ M (z k ), k = 0, . . . , l. Последнее включение может означать динамическую устойчивость M (z0 ), если мы будем
уверены, что
z
z
βik = ξ i k − ξ i k+1 ≥ 0, i = 1, . . . , n, k = 0, . . . , l.
(3.55)
К сожалению, последнее неравенство не может быть гарантировано даже в простейших случаях. В этом можно убедиться, рассматривая игры с
терминальными выигрышами. Для таких игр условие (3.55) практически
никогда не выполняется. Если же рассмотреть свойство сильной динамической устойчивости, то оно более сильное. Для него мы не можем даже
вывести формулу типа (3.55).
Проведем регуляризацию (улучшение) классических принципов оптимальности, которая приведет нас к сильной динамической устойчивости.
150
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
Более того, регуляризация порождает динамическую устойчивость новых
принципов оптимальности.
Рассмотрим следующие величины:
P
ξi0 ni=1 hi (z 0 )
0
βi =
, ξ 0 ∈ M (z0 );
V (N ; z0 )
P
ξi1 ni=1 hi (z 1 )
1
βi =
, ξ 1 ∈ M (z 1 );
V (N, z 1 )
...
(3.56)
Pn
k
ξi i=1 hi (z k )
k
k
βi =
, ξ ∈ M (z k );
V (N, z k )
...
Pn
l
ξ
hi (z l )
βil = i i=1
, ξ l ∈ M (z l ).
V (N, z l )
k
Определим ПРД β = {βik , i = 1, . . . , n}, k = 0, . . . , l. Легко видеть, что
k
β ≥ 0. Рассмотрим формулу (3.56). Для различных дележей ξ k ∈ M (z k )
получаем разные значения βik и, следовательно, разные β. Пусть B k —
k
множество всевозможных β для всех ξ k ∈ C̃(z k ), k = 1, . . . , l.
P
k
k
Рассмотрим множества M̃ (z0 ) = {ξ : ξ = lk=0 β , β ∈ B k } и M̃ (z k ) =
P
k
k
m
m
{ξ : ξ = lm=k β , β ∈ B m }.
Множество M̃ (z0 ) называется регуляризованным принципом оптимальности (ПО) M (z0 ) и, соответственно, M̃ (z k ) — регуляризованный
ПО M (z k ).
Будем считать M̃ (z0 ) новым принципом оптимальности в игре Γ(z0 ).
Теорема 3.8.1. Если ПРД β определена как β, k = 1, . . . , l, то всегда
выполняется β(k) ⊕ M̃ (z k )³ ⊂ M̃ (z 0 ), т. е. ПО
M̃ (z0 ) является сильно
Pk−1 m ´
динамически устойчивым β(k) = m=0 β . Здесь множество β(k) ⊕
k
k
⊕C̃(z k ) есть множество всех векторов β(k) + ξ , где ξ ∈ C̃(z k )
Д о к а з а т е л ь с т в о. Пусть ξ ∈ β(k) ⊕ M̃ (z k ), тогда
ξ=ξ
zk
+
k−1
X
β
m
m=0
для некоторых β m ∈ B m , m = k, . . . , l.
k−1
P 0m
z
Но ξ k =
β для некоторых β 0m ∈ B m , m = 0, . . . , k − 1.
m=0
151
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Рассмотрим
½
00 m
(β )
тогда (β 00 )m ∈ B m , ξ =
доказана.
Мы имеем также:
n
X
=
l
P
β 0m , m = 0, . . . , k − 1,
β m , m = k, . . . , l,
(β 00 )m и, следовательно, ξ ∈ M̃ (z0 ). Теорема
m=0
βik
=
i=1
n
X
hi (z k ),
k = 0, . . . , l,
i=1
и, следовательно, при 0 ≤ Θ ≤ n
Θ
X
k=0
βik
=
n X
Θ
X
hi (z k ),
(3.57)
i=1 k=0
что является действительным выигрышем, который можно распределить
между игроками на первых Θ + 1 шагах и, как это видно из (3.57), в
точности равен сумме, заработанной ими на этих шагах.
Пример 3.8.1. Рассмотрим игру трех лиц Γ, изображенную на рис. 3.7.
В данном пункте исследуем динамическую устойчивость одного классического принципа оптимальности вектора Шепли. Не вдаваясь в подробную интерпретацию этого принципа оптимальности, отметим
только, что это дележ, определяемый по формуле
i
X
(s − 1)!(n − s)! h
Shi = ξi =
V (S) − V (S \ {i}) ,
n!
S:S⊂N,{i}∈S
где s — число элементов множества S.
Здесь в скобках записаны выигрыши игроков 1, 2, 3 в каждом из
узлов графа, N = {1, 2, 3}. Множества стратегий игроков X1 = X2 =
X3 = {A, B} состоят из двух элементов A и B. Выигрыши игроков равны H1 (A, A, A) = H2 (A, A, A) = H3 (A, A, A) = (12, 12, 12); H1 (B, x2 , x3 ) =
H2 (B, x2 , x3 ) = H3 (B, x2 , x3 ) = (9, 9, 9) при любых x2 ∈ X2 , x3 ∈ X3 ;
H1 (A, B, x3 ) = H2 (A, B, x3 ) = H3 (A, B, x3 ) = (9, 9, 9) при любых x3 ∈X3 ;
H1 (A, A, B) = H1 (A, A, B) = H1 (A, A, B) = (11, 11, 11).
Правила вычисления выигрыша можно проследить, используя
рис. 3.7. Если реализована последовательность A, A, A, то выигрыш игрока равен сумме его выигрышей в каждой вершине графа; если реализованный путь включает выбор B одним из игроков, то выигрыш каждого
152
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
Рис. 3.7. Простейшая игра, в которой выигрыши
накапливаются в процессе игры.
игрока равен сумме выигрышей вдоль пути, заканчивающегося первым
выбором стратегии B.
Вычислим значения характеристической функции V . Здесь возможны
следующие коалиции: {1, 2, 3}, {1, 2}, {1, 3}, {2, 3}, {1}, {2}, {3}.
V ({1, 2, 3}) = 36, так как, выбирая A, каждый игрок получает 12 (а
вся коалиция 12 × 3 = 36).
V ({1, 2}) = 22, так как игроки 1, 2, выбирая A, могут обеспечить себе
в худшем случае 22. Худший случай имеет место, если игрок 3 выберет
B.
V ({1, 3}) = 18, так как игрок 1, выбирая A, может обеспечить себе и
игроку 3 в худшем случае выигрыш 18. Худший случай имеет место, если
игрок 2 выберет B.
V ({2, 3}) = 18, так как игрок 1, выбирая B, всегда может сделать так,
что выигрыш игроков {2, 3} не будет превосходить 18. При другом выборе
игрока 1 игроки {2, 3}, очевидно, получат больший выигрыш.
V ({1}) = 9, этот выигрыш достигается выбором B игроком 1 и выбором B игроком 2. Очевидно, что выбором B игрок 2 ограничивает выигрыш игрока 1 числом 3.
V ({2}) = 9, здесь игрок 1, выбирая B, ограничивает выигрыш игрока
2 числом 9. При другом выборе игрока 1 выигрыш игрока 2 может быть
больше.
V ({3}) = 9, этот случай подобен предыдущему.
Вычислим вектор Шепли: Sh1 = 76/6, Sh2 = 76/6, Sh3 = 64/6, т. е.
вектор Шепли предписывает одинаковые выигрыши игрокам 1 и 2.
Пример 3.8.2. Найдем характеристическую функцию для примера,
изображенного на рис. 3.8 (здесь выигрыши игроков заданы в окончательных позициях).
153
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Рис. 3.8. Кооперативный вариант простейшей игры с двумя
альтернативами у каждого игрока.
Характеристическая функция имеет вид
V ({1, 2, 3}) = 6,
V ({1, 2}) = 2,
V ({1, 3}) = 2,
1
V ({2}) = ,
2
Для вектора Шепли получаем:
V ({1}) = 1,
Sh1 = 2,
Sh2 = 2,
V ({2, 3}) = 2,
1
V ({3}) = .
2
Sh3 = 2.
Данный пример используем для иллюстрации последующих результатов.
Рассмотрим позиции игры Γ вдоль оптимальной траектории x (траектории, максимизирующей суммарный выигрыш игроков), т. е. подыгры Γ = Γx1 , Γx2 , . . . , Γxl . Очевидно, что отрезок траектории x вида
xk = (xk , . . . , xi , . . . , xl ), рассмотренный в подыгре Γxk , является оптимальной траекторией в этой подыгре (принцип оптимальности Беллмана). Обозначим через V (S, k), S ⊂ N , характеристическую функцию в
подыгре Γxk . В частности, V (S, 0) = V (S), S ⊂ N , есть характеристическая функция игры Γ. Зная характеристические функции подыгры,
можно построить вектор Шепли для подыгры Γxk . Обозначим его через Sh(k) = {Shi (k), i = 1, . . . , n}. Предположим, что в кооперативной
игре Γx0 = Γ в качестве принципа оптимальности выбран вектор Шепли. Это означает, что игроки, договорившись о выборе набора стратегий
u = (u1 , . . . , ui , . . . , un ), гарантирующего максимальный суммарный выигрыш игроков, расчитывают получить выигрыши, определяемые вектором
Шепли для игры Γx0 . Именно это и служит основой для их кооперации.
В ситуации u игра развивается вдоль оптимальной траектории x =
(x0 , x1 , . . . , xl ). После первого шага игра переходит в вершину x1 , и фактически игроки играют в новую игру Γx1 , которая является подыгрой игры
154
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
Γx0 . Вектор Шепли в этой подыгре Sh(1) отличается, вообще говоря, от
вектора Шепли Sh(0) = Sh в игре Γx0 . Поэтому, если мы желаем произвести выплаты в Γx0 согласно Sh(0), что являлось основой для кооперации в
Γx0 , то в Γx1 для сохранения кооперации игроки должны ожидать получение выигрышей в соответствии с Sh(1) — вектором Шепли, расчитанным
для Γx1 . Вопрос заключается в том, можно ли, осуществляя выплаты на
каждом шаге игры, добиться того, чтобы оставшиеся выплаты представляли собой компоненты вектора Шепли для подыгры, начинающейся с
данного шага.
Предыдущие определения ПРД 3.8.1 и динамической устойчивости
3.8.2 для вектора Шепли примут следующий вид (заметим, что из единственности вектора Шепли следует, что понятие динамической устойчивости и сильной динамической устойчивости совпадают).
i , β i ), i = 1, . . . , n, наОпределение 3.8.4. Вектор β i = (β0i , β1i , . . . , βl−1
l
зывается процедурой распределения вектора Шепли (ПДРШ), если
1.
l
X
βki = Shi (0) = Shi ,
(3.58)
k=0
2.
β i (k) + Shi (k) = Shi (0),
где β i (k) =
k−1
P
m=0
(3.59)
i .
βm
Определение 3.8.5. Вектор Шепли в игре Γ называется динамически
устойчивым (состоятельным во времени), если существует неотрицательная процедура распределения вектора Шепли.
Таким образом, если вектор Шепли динамически устойчив, то осуществляя на каждом шаге траектории выплаты игрокам в соответствии
с ПДРШ (т. е. выплачивая на шаге k игроку i сумму βki ), можно добиться того, чтобы вектор Шепли для подыгры Γxk как раз соответствовал
выигрышам, которые игрокам осталось получить в подыгре Γxk . Если не
требовать неотрицательности βki , i = 1, . . . , n, k = 1, . . . , l, то соотношение
(3.59) всегда может быть выполнено, однако отрицательные βki не имеют экономического смысла, так как игроки едва ли согласятся отдавать
средства во имя кооперации.
155
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Пример 3.8.3. Рассмотрим игру Γ из примера 3.8.1 как многошаговую
игру с полной информацией. Здесь V (N ) = 36, u = (A, A, A) и оптимальная траектория имеет вид (x0 , x1 , x2 , x3 ) = x. В примере 3.8.1 характеристическая функция и вектор Шепли для игры Γ = Γx0 была найдена:
V ({1, 2, 3}, 0) = 36, V ({1, 2}, 0) = 22, V ({1, 3}, 0) = 18,
V ({2, 3}, 0) = 18, V ({1}, 0) = 9, V ({2}, 0) = 9, V ({3}, 0) = 9.
Sh(0) = {76/6, 76/6, 64/6}.
Характеристические функции для игр Γx1 , Γx2 , Γx3 вычисляются аналогично и равны соответственно
V ({1, 2, 3}, 1) = 27, V ({1, 2}, 1) = 16, V ({1, 3}, 1) = 12,
V ({2, 3}, 1) = 18, V ({1}, 1) = 6, V ({2}, 1) = 8, V ({3}, 1) = 6,
V ({1, 2, 3}, 2) = 18, V ({1, 2}, 2) = 10, V ({1, 3}, 2) = 12,
V ({2, 3}, 2) = 12, V ({1}, 2) = 5, V ({2}, 2) = 5, V ({3}, 2) = 6;
n 22 34 25 o
n 1 1 o
, ,
Sh(1) =
, Sh(2) = 5 , 5 , 7 , Sh(3) = {3, 3, 3},
3 3 3
2 2
³ 16 4 7 ´
³ 11 32 8 ´
h(0) =
, ,
, ,
+ Sh(1), Sh(1) =
+ Sh(2),
3 3 3
6 6 6
³ 1 1 ´
Sh(2) = 2 , 2 , 4 + Sh(3), Sh(3) = (3, 3, 3),
2 2
т. е. βki > 0, i = 1, 2, 3, k = 1, 2, 3, и вектор Шепли в рассмотренной игре
является динамически устойчивым. Следующий пример показывает, что
это имеет место далеко не всегда.
Пример 3.8.4. Рассмотрим игру из примера 3.8.2 как многошаговую игру с полной информацией. Здесь V (N ) = 6, u = (A, A, A) и оптимальная
траектория, как и в предыдущем случае, имеет вид (x0 , x1 , x2 , x3 ) = x.
Характеристическая функция и вектор Шепли для игры Γ = Γx0 были
найдены в примере 3.8.2:
V ({1, 2, 3}, 0) = 6, V ({1, 2}, 0) = 2, V ({1, 3}, 0) = 2, V ({2, 3}, 0) = 2,
V ({1}, 0) = 1, V ({2}, 0) = 1/2, V ({3}, 0) = 1/2.
³
´
Sh(0) = 26/12, 23/12, 23/12 .
156
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.8.. Кооперация в многошаговых играх
Характеристические функции для игр Γx1 , Γx2 , Γx3 вычисляются аналогично и равны соответственн
V ({1, 2, 3}, 1) = 6, V ({1, 2}, 1) = 1, V ({1, 3}, 1) = 1,
V ({2, 3}, 1) = 4, V ({1}, 1) = 1/2, V ({2}, 1) = 1/2, V ({3}, 1) = 1/2,
n
1 1o
Sh(1) = 1, 2 , 2 ,
2 2
2
V ({1, 2, 3}, 2) = 6, V ({1, 2}, 2) = , V ({1, 3}, 2) = 4,
3
1
1
V ({2, 3}, 2) = 4, V ({1}, 2) = , V ({2}, 2) = , V ({3}, 2) = 2,
3
3
n 21 21 66 o
Sh(2) =
, ,
, Sh(3) = {2, 2, 2},
18 18 18
³ 24
³ 3 24 21 ´
7
7´
Sh(0) =
,− ,−
+ Sh(1), Sh(1) = − , , −
+ Sh(2),
12 12 12
18 18 18
³ 15 15 30 ´
Sh(2) = − , − ,
+ Sh(3), Sh(3) = (2, 2, 2).
18 18 18
В данном примере вектор Шепли динамически неустойчив, так как
среди величин βki имеются отрицательные. Как мы отмечали ранее, это
обстоятельство является типичным для игр с терминальными выигрышами, т. е. когда игроки получают выигрыши лишь в окончательных позициях игры.
В данном параграфе невозможно охватить все вопросы, связанные с
динамической устойчивостью принципов оптимальности. Заметим только,
что понятие динамической устойчивости решений дифференциальных игр
было впервые введено и исследовано Л.А. Петросяном в работах [Петросян, 1979, 1992, 1993, 1997]. Ф. Кидланд и Е. Прескотт [Kidland, Prescott,
1977] обратили внимание на данное свойство в экономическом контексте
и предложили назвать его time-consistency (состоятельность во времени).
Отсутствие динамической устойчивости вектора Шепли делает невозможным реальное применение этого принципа дележа в динамической кооперативной игре. Оказывается невозможным организовать пошаговые выплаты игрокам таким образом, чтобы они могли рассчитывать на справедливое распределение выигрышей (в соответствии с вектором Шепли,
который они выбрали в качестве принципа оптимальности) в каждой текущей подыгре. К сожалению, многие из принципов оптимальности классической кооперативной теории оказываются динамически неустойчивыми.
Важнейшей задачей современной теории динамических игр является построение и исследование новых динамически устойчивых принципов
оптимальности.
157
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
§ 3.9.
Кооперативные стохастические игры
Пусть задан древовидный бесконечный граф G(x0 ) = (X, F ), где X —
множество вершин графа, а F — точечно-множественное отображение,
F (x) ⊂ X, (x ∈ X). Предполагаем, что число элементов множества F (x)
равномерно ограничено некоторым числом M > 0, x0 — начальная вершина.
Пусть в каждой вершине x ∈ X графа G(x0 ) задан игровой элемент —
одновременная игра n лиц в нормальной форме
Γ(x) = hN, U1x , . . . , Unx , U1x , . . . , Knx i ,
где N = {1, 2, . . . , n} — множество игроков, одинаковое для всех вершин
x ∈ X; Uix — множество стратегий i-го игрока, предполагаем, что оно
конечно для любых x ∈ X и i ∈ N , Kix (ux1 , . . . , uxn ) — функция выигрыша
игрока i (i ∈ N, uxi ∈ Uix ). Набор стратегий ux = (ux1 , . . . , uxn ), uxi Q
∈ Uix ,
x
x
i ∈ N называется ситуацией в игровом элементе Γ(x), u ∈ U =
Uix
i∈N
— множество ситуаций в одновременной игре Γ(x). Предполагается, что
Kix (ux ) > 0 для всех x ∈ X, ux ∈ U x и любого игрока i ∈ N .
Для каждой вершины x ∈ X в зависимости от ситуации ux , реализовавшейся в игровом элементе Γ(x), определены вероятности перехода в
следующие вершины y ∈ F (x) графа G(x0 )
p(x, y; ux1 , . . . , uxn ) = p(x, y; ux ) > 0,
X
p(x, y; ux ) = 1,
y∈F (x)
где p(x, y; ux ) — вероятность того, что реализуется игровой элемент Γ(y)
(y ∈ F (x)), если на предыдущем шаге (в одновременной игре Γ(x)) реализовалась ситуация ux = (ux1 , . . . , uxn ).
Кроме того, в каждой вершине x ∈ X задана вероятность qk того,
что игра закончится на шаге k, 0 < qk ≤ 1. Шаг k в вершине x ∈ X
определяется из условия x ∈ (F (x0 ))k .
Определение 3.9.1. Стохастической игрой G(x0 ) со случайной продолжительностью будем называть систему
­
®
x
N, G(x0 ), {Γ(x)}x∈X , {qk }∞
k=0 , {p(x, y; u )}x∈X,y∈F (x);ux ∈U x ,
где x0 — начальная вершина древовидного графа G(x0 ).
158
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
Из определения стохастической игры со случайной продолжительностью понятно, что заданным изначально считаются древовидный граф
G(x0 ) и множество игровых элементов {Γ(x)}x∈X , а случайными в описанной структуре стохастической игры G(x0 ) являются переходы из одних
вершин графа G(x0 ) в другие, а также момент окончания игры.
Стохастическая игра со случайной продолжительностью G(x0 ) происходит следующим образом.
1. В вершине x0 графа G(x0 ) осуществляется игровой элемент Γ(x0 ).
Пусть в нем реализуется некоторая ситуация ux0 ∈ U x0 . Далее игра
G(x0 ) либо прекращается с вероятностью q0 (0 < q0 ≤ 1), либо игра
G(x0 ) продолжается c вероятностью (1 − q0 ) и переходит в вершину y ∈ F (x0 ) графа G(x0 ). Переход осуществояется с вероятностью
p(x0 , y; ux0 ), которая зависит от ситуации ux0 , реализовавшейся в
игровом элементе Γ(x0 ).
2. Предположим, что на k-ом шаге игровой процесс находится в вершине xk ∈ X, где задан игровой элемент Γ(xk ), и в этом игровом
элементе реализуется ситуация uxk ∈ U xk . Далее игра либо заканчивается с вероятностью qk , 0 < qk ≤ 1, либо с вероятностью 1 − qk
продолжается и переходит в вершину графа xk+1 ∈ F (xk ) с вероятностью p(xk , xk+1 ; uxk ), которая зависит от ситуации uxk , реализовавшейся в игровом элементе Γ(xk ).
Обозначим через G(x) подыгру игры G(x0 ), берущую начало в вершине x ∈ X графа G(x0 ) (игрового элемента Γ(x)), которая естественно
также является стохастической игрой со случайной продолжительностью.
Получим основные функциональные уравнения для стохастической
игры со случайной продолжительностью. Предположим, что в стохастической игре со случайной продолжительностью G(x0 ) реализовалась последовательность ситуаций ux0 , ux1 , . . . , uxl , . . ., где ux0 ∈ U x0 , ux1 ∈ U x1 ,
. . . , uxl ∈ U xl , . . ., x1 ∈ F (x0 ), x2 ∈ F (x1 ), . . ., xl ∈ F (xl−1 ), . . ., и F (xl ) = ∅.
Тогда выигрыш i-го игрока определяется следующим образом:


à j
!
∞
X
Y
 X
x
x

Ki (x0 ) =
qj 
(1 − qk )
Ki m (u m ) .

j=0
k<j
k>0
m=0
Введем определение стратегии i-го игрока в стохастической игре со случайной продолжительностью G(x0 ), которую обозначим через ui (·). ui (·)
— это стратегия i-го игрока в игре G(x0 ), то есть правило, по которому для
159
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
каждого игрового элемента Γ(x) (x ∈ X) определяется, какую стратегию
в игровом элементе Γ(x) выбрать,
ui (x) = uxi
для всех x ∈ X, а uxi ∈ Uix .
Если ui (·) — стратегия i-го игрока в игре G(x0 ), то усечение этой стратегии, рассмотренное на подграфе G(x) графа G(x0 ), которое обозначим
через uxi (·), будет стратегией i-го игрока в подыгре G(x) игры G(x0 ).
Пусть u(·) = (u1 (·), . . . , un (·)) — ситуация в игре G(x0 ), а ux (·) =
(ux1 (·), . . . , uxn (·)) — ситуация в подыгре G(x0 ).
Так как игра имеет стохастическую структуру, то в качестве выигрыша естественно (или целесообразно) рассматривать математическое ожидание выигрыша:
Ei (x0 , u(·)) = E (Ki (x0 ), u(·)) .
Ki (x0 , u(·)) = Ki (x0 ) — функция выигрыша игрока i в ситуации u(·).
Математическое ожидание выигрыша i-го игрока Ei (x0 ) удовлетворяет функциональному уравнению
Ei (x0 , u(·)) = q0 Kix0 (ux0 ) +


X
+ (1 − q0 ) Kix0 (ux0 ) +
p(x0 , y; ux0 )Ei (y, uy (·)) =
y∈F (x0 )
=
Kix0 (ux0 )
X
+ (1 − q0 )
p(x0 , y; ux0 )Ei (y, uy (·)),
y∈F (x0 )
где Ei (y, uy (·)) — математическое ожидание выигрыша i-го игрока в
подыгре G(y), начинающейся в вершине y ∈ X, y ∈ F (x0 ), графа G(x0 )
при условии реализации ситуации uy (·). Предположим, что Ei (x, u(·)) конечно для любых x ∈ X и u(·) ∈ U (·), и что оно равномерно ограничено.
Пусть x ∈ (F (x0 ))k , то есть игровой процесс на k-м шаге попадает
в вершину x ∈ X, тогда для математического ожидания выигрыша i-го
игрока в подыгре G(x) справедлива формула
Ei (x, ux (·)) = qk Kix (ux (·)) +


+ (1 − qk ) Kix (ux (·)) +
X
p(x, y; ux (·))Ei (y, uy (·)) =
y∈F (x)
=
Kix (ux (·))
+ (1 − qk )
X
y∈F (x)
160
p(x, y; ux (·))Ei (y, uy (·)).
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
В стохастической игре со случайной продолжительностью G(x0 ) в качестве смешанных стратегий игроков рассмотрим стратегии поведения.
В кооперативной теории стратегии игроков используют лишь для нахождения кооперативного пути, то есть пути, который максимизирует суммарный выигрыш игроков. В случае стохастических игр — это поддерево с заданными вероятностями перехода, на которых достигается максимум математического ожидания суммарного выигрыша игроков. Однако,
максимум математического ожидания суммарного выигрыша игроков в
классе смешанных стратегий поведения равен максимуму математического ожидания суммарного выигрыша игроков в классе чистых стратегий
поведения, поэтому для нахождения кооперативного поведения в стохастической игре можно ограничиться классом чистых стратегий.
Построим кооперативный вариант стохастической игры со случайной
продолжительностью. Обозначим через
u(·) = (u1 (·), . . . , un (·))
ситуацию в чистых стратегиях поведения в стохастической игре G(x0 ),
которая максимизирует сумму математических ожиданий выигрышей игроков
"
#
X
V (N, x0 ) = max
Ei (x0 , u(·)) .
u(·)
i∈N
Назовем такую ситуацию кооперативным решением. Можем определить
кооперативное решение для любой подыгры G(x), x ∈ X, начинающейся с игрового элемента Γ(x) (см. [Петросян, Баранова, Шевкопляс, 2004;
Petrosyan, 2006]).
Для определения кооперативного варианта стохастической игры необходимо определить характеристическую функцию для каждого подмножества S (коалиции) множества игроков N . Характеристическую функцию, вычисленную для подыгры G(x) (x ∈ X), обозначим через V (S, x),
где S ⊂ N .
Сначала найдем максимум суммарного выигрыша коалиции N в стохастической игре G(x0 ). С этой целью выпишем уравнение Беллмана для
максимума суммы математических ожиданий выигрышей игроков:


X
X
Kix0 (ux0 ) + (1 − q0 )
p(x0 , y; ux0 )V (N, y) =
V (N, x0 )= xmaxx 
ui 0 ∈Ui 0
i∈N
i∈N
=
X
i∈N
y∈F (x0 )
Kix0 (ux0 ) + (1 − q0 )
X
p(x0 , y; ux0 )V (N, y) (3.60)
y∈F (x0 )
161
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
с граничным условием
V (N, x) = max
x
x
X
ui ∈Ui
i∈N i∈N
Kix (ux ),
x ∈ {x : F (x) = ∅} .
(3.61)
В дальнейшем, в этой главе, для определенности будем предполагать,
что x ∈ (F (x0 ))k .
Для подыгры G(x) (x ∈ X) уравнение (3.60) с начальным условием
(3.61) принимает вид:


V (N, x) = max
x
x
ui ∈Ui
i∈N

X
Kix (ux ) + (1 − qk )
i∈N
=
X
X
p(x, y; ux )V (N, y)
y∈F (x)
Kix (ux ) + (1 − qk )
i∈N
X
p(x, y; ux )V (N, y) (3.62)
y∈F (x)
с граничным условием
V (N, x) = max
x
x
X
ui ∈Ui
i∈N i∈N
Kix (ux ),
x ∈ {x : F (x) = ∅} .
(3.63)
Ситуация в чистых стратегиях u(·) = (u1 (·), . . . , un (·)) в стохастической игре G(x0 ) порождает вероятностные распределения на множестве
X вершин графа G(x0 ).
Определение 3.9.2. Подграф графа G(x0 ), который состоит из вершин
x ∈ X графа G(x0 ), имеющих положительную вероятность реализации,
порожденную ситуацией u(·) (кооперативным решением), назовем коb 0 ).
оперативным поддеревом и обозначим через G(x
b 0 ) является древовидным графом. МножеОчевидно, что подграф G(x
b
ство вершин в графе G(x0 ) обозначим через CX ⊂ X.
Определим кооперативную стохастическую игру со случайной продолжительностью, построенную на основе стохастической игры со случайной продолжительностью G(x0 ), описанной выше. Для этого, для каждой
вершины x ∈ CX определим вспомогательную игру с нулевой суммой,
которую обозначим через GS (x). Это антагонистическая игра между коалицией S ⊂ N , выступающей в качестве максимизирующего игрока, и
коалицией N \ S, выступающей в качестве минимизирующего игрока, где
выигрыш коалиции S определяется как сумма выигрышей игроков, входящих в коалицию S. Тогда значение характеристической функции V (S, x)
зададим как нижнее значение антагонистической игры GS (x) в чистых
стратегиях (аналогично нижнему значению матричной игры).
162
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
Функция V (S, x), x
уравнению
∈
"
V (S, x) = max
x
x
minx
uS ∈US ux
∈UN \S
N \S
CX, удовлетворяет функциональному
X
Kix (uxS , uxN \S )+
i∈S
+(1 − qk )

X
p(x, y; uxS , uxN \S )V (S, y) (3.64)
y∈F (x)
с граничным условием
V (S, x) = max
x
x
min
x
∈UN
uS ∈US ux
\S
N \S
X
Kix (uxS , uxN \S ),
x ∈ {x : F (x) = ∅} , (3.65)
i∈S
где игроки
i1 , i2 , . . . , ik ∈ S, uxS = (uxi1 , . . . , uxik ) — стратегия коалиции S, а
Q
x
US = j=1,k Uixj — множество стратегий коалиции S;
игроки ik+1 , . . . , in образуют коалицию N \S ({i1 , i2 , . . . , ik } ∪ {ik+1 , . . . , in }
x
= N ), и uxN \S = (uxik+1 , . . . , uxin ) — стратегия коалиции N \S, а UN
\S =
Q
x
j=k+1,n Uij — множество стратегий коалиции N \S.
Для всех x ∈ CX естественно предположить, что
V (∅, x) = 0.
(3.66)
Таким образом, для каждой подыгры G(x), x ∈ CX, мы определили
характеристическую функцию V (S, x), S ⊂ N ; V (S, x) определяется уравнением Беллмана (3.62) с граничным условием (3.63), а также уравнением
(3.64) с граничным условием (3.65) и уравнением (3.66).
Характеристическая функция V (S, x), определенная формулами
(3.62), (3.63), (3.64), (3.65) и (3.66), супераддитивна по S.
Определение 3.9.3. Кооперативной стохастической игрой со случайной продолжительностью G(x0 ), основанной на стохастической игре
G(x0 ), назовем пару (N, V (S, x0 )), где V (S, x0 ) — характеристическая
функция, определенная по формуле (3.60) с граничным условием (3.61)
для коалиции N , по формуле (3.64) с граничным условием (3.65) для коалиции S 6= ∅ и по формуле (3.66) для коалиции S = ∅.
Определение 3.9.4. Дележом в кооперативной стохастической игре
G(x0 ) будем называть вектор ξ(x0 ) = (ξ1 (x0 ), . . . , ξn (x0 )), удовлетворяющийPусловиям:
1)
ξi (x0 ) = V (N, x0 ),
i∈N
2) ξi (x0 ) > V ({i}, x0 ), для всех i ∈ N .
163
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Множество дележей в кооперативной стохастической игре G(x0 ) обозначим через I(x0 ).
Определение 3.9.5. Решением кооперативной стохастической игры
G(x0 ) будем называть любое фиксированное подмножество C(x0 ) множества дележей I(x0 ).
Предположим, что решение C(x0 ) кооперативной стохастической игры
G(x0 ) является непустым подмножеством множества дележей I(x0 ).
Кооперативной подыгрой G(x), x ∈ X, кооперативной стохастической
игры G(x0 ), основанной на подыгре G(x) стохастической игры G(x0 ), будем называть пару (N, V (S, x)), где V (S, x) — характеристическая функция, определенная по формуле (3.62) с граничным условием (3.63) для
коалиции N , по формуле (3.64) с граничным условием (3.65) для коалиции S 6= ∅ и по формуле (3.66) для коалиции S = ∅.
Определение 3.9.6. Дележом в кооперативной подыгре G(x) будем называть
P вектор ξ(x) = (ξ1 (x), . . . , ξn (x)), удовлетворяющий условиям:
1)
ξi (x) = V (N, x),
i∈N
2) ξi (x) > V ({i}, x), для всех i ∈ N .
Множество дележей в кооперативной подыгре G(x) обозначим через
I(x).
Определение 3.9.7. Решением кооперативной подыгры G(x) будем называть любое фиксированное подмножество C(x) множества дележей
I(x).
Предположим, что решение C(x) кооперативной подыгры G(x) является непустым подмножеством множества дележей I(x) для всех x ∈ CX.
Если C(x0 ) — решение кооперативной стохастической игры
G(x0 ), то далее под решением C(x) кооперативной подыгры G(x)
будем понимать решение, построенное по тем же правилам, что и C(x0 ).
Например, если C(x0 ) — вектор Шепли для стохастической игры G(x0 ),
то C(x) — вектор Шепли, вычисленный для кооперативной подыгры
G(x). Предполагается, что игроки выбирают для себя какое-то фиксированное подмножество множества дележей, обладающее «оптимальными»
для них свойствами, то есть игроки, объединившись в коалицию N ,
собираются следовать некоторому правилу распределения выигрышей в
течение всего игрового процесса.
164
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
Далее будем предполагать, что C(x) является непустым подмножеством множества I(x) для любого x ∈ CX, то есть для каждой вершины
x ∈ CX существует по крайнем мере один дележ
ξ(x) = (ξ1 (x), . . . , ξn (x)) ∈ C(x) ⊂ I(x).
Определение 3.9.8. [Петросян и др., 2004]. Вектор-функцию β(x) =
(β1 (x), . . . , βn (x)), где x ∈ CX, назовем кооперативной процедурой распределения дележа (ПРД) в вершине x, если
X
βi (x) =
i∈N
X
Kix (ux1 , . . . , uxn ) =
i∈N
X
Kix (ux ),
(3.67)
i∈N
где ux = (ux1 , . . . , uxn ) — ситуация в игровом элементе Γ(x), реализовавшаяся при кооперативном решении u = (u1 (·), . . . , un (·)).
Определение 3.9.9. Путем в стохастической игре будем называть последовательность ситуаций ux0 , ux1 , . . . , uxl , . . ., где uxi — это ситуация,
реализовавшаяся в игровом элементе Γ(xi ), xi ∈ F (xi−1 ), i = 1, . . . , l, . . ..
Пусть x ∈ CX и x ∈ (F (x0 ))k . В любой кооперативной подыгре G(x)
игрок может связать с отрезком пути ux , uy , . . . = ux,y,... , реализовавшимся при кооперативном решении u = (u1 (·), . . . , un (·)), случайную величину — сумму величин βi (x), вычисленных вдоль этого отрезка пути ux,y,...
(очевидно, что все x, y, . . . ∈ CX, так как CX — множество вершин кооперативного поддерева, и ситуация u фиксирована).
Будем предполагать, что игрок i на каждом шаге игры, то есть в
каждой вершине пути, получает выплаты βi (x), βi (y), . . .. Математическое
ожидание сумм таких выплат, посчитанных вдоль такого отрезка пути
ux,y,... в кооперативной подыгре G(x), обозначим через Bi (x). Величины
Bi (x) удовлетворяют следующему функциональному уравнению:
Bi (x) = βi (x) + (1 − qk )
X
p(x, y; ux )Bi (y)
(3.68)
y∈F (x)
с граничным условием
Bi (x) = βi (x) для x ∈ {x : F (x) = ∅} .
(3.69)
Для каждой кооперативной подыгры G(x) (x ∈ CX) составим функциональное уравнение для компонент ξi (x) дележа ξ(x) ∈
C(x) ⊂ I(x).
165
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Определим величины γi (x) из уравнения
X
ξi (x) = γi (x) + (1 − qk )
p(x, y; ux )ξi (y),
(3.70)
y∈F (x)
где ξ(y) = (ξ1 (y), . . . , ξn (y)) — некоторый дележ, принадлежащий решению C(y) кооперативной подыгры G(y).
Лемма 3.9.1. Вектор γ(x) = (γ1 (x), . . . , γn (x)), определяемый формулой
(3.70), является кооперативной процедурой распределения дележа.
Д о к а з а т е л ь с т в о. Из (3.70) выразим величины γi (x) и суммируем
их по i ∈ N , получая


X
X
X
X

γi (x) =
ξi (x) − (1 − qk )
p(x, y; ux )ξi (y) .
(3.71)
i∈N
i∈N
i∈N
y∈F (x)
Так как
ξ(x) = (ξ1 (x), . . . , ξn (x)) ∈ C(x) ⊂ I(x),
ξ(y) = (ξ1 (y), . . . , ξn (y)) ∈ C(y) ⊂ I(y),
то из (3.71) следует, что
X
X
p(x, y; ux )V (N, y).
γi (x) = V (N, x) − (1 − qk )
i∈N
Из (3.72) и (3.62) следует, что
(3.72)
y∈F (x)
P
i∈N
γi (x) =
P
i∈N
Kix (ux ) для ситуации
ux = (ux1 , . . . , uxn ), которая реализовалась в игровом элементе Γ(x) при
использовании игроками кооперативного решения u = (u1 (·), . . . , un (·)).
Получается, что γi (x) удовлетворяет условию (3.67), то есть лемма доказана.
Игроки перед началом игры приходят к соглашению о кооперации,
то есть договариваются максимизировать математическое ожидание суммарного выигрыша и рассчитывают получить дележ ξ(x0 ) ∈ C(x0 ). Развитию игры во времени соответствует движение вдоль вершин коопераb 0 ). Однако, поскольку стохастическая структура
тивного поддерева G(x
игры подразумевает неоднозначность в реализации вершин кооперативного поддерева, движение вдоль вершин кооперативного поддерева, ещё
не обеспечивает сохранение кооперации. Действительно, при движении
вдоль пути игроки попадают в кооперативные подыгры с начальными
состояниями, в которых один и тот же игрок имеет различные возможности. Это вполне естественно, поскольку со временем изменяются условия
166
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
конфликта и возможности участвующих в нем сторон. То есть, в некоторый момент времени, в вершине x ∈ CX, сумма оставшихся выплат для
игрока i может не равняться i-ой компоненте дележа из решения C(x) кооперативной подыгры G(x), являющегося решением подыгры G(x). Следовательно, в вершине x ∈ CX перед игроком i может встать вопрос о целесообразности придерживаться намеченного перед началом игры соглашения действовать «совместно оптимально», поскольку отклонившись от
договоренного кооперативного решения игрок i может получить бо́льший
выигрыш. Если такое отклонение будет выгодно хотя бы для одного из
игроков, то это и будет означать позиционную несостоятельность дележа
ξ(x0 ) ∈ C(x0 ) и, соответственно, самого движения вдоль вершин кооперативного поддерева.
Определение 3.9.10. Дележ ξ(x0 ) ∈ C(x0 ) называется позиционно
состоятельным в кооперативной стохастической игре G(x0 ), если для
каждой вершины x ∈ CX ∩ (F (x0 ))k существует неотрицательная ПРД
β(x) = (β1 (x), . . . , βn (x)) такая, что
ξi (x) = βi (x) + (1 − qk )
X
p(x, y; ux )ξi (y),
(3.73)
y∈F (x)
и
ξi (x) = βi (x),
x ∈ {x : F (x) = ∅} ,
(3.74)
где x ∈ (F (x0 ))k , ξ(y) = (ξ1 (y), . . . , ξn (y)) — некоторый дележ, принадлежащий решению C(y) кооперативной подыгры G(y).
Определение 3.9.11. Будем говорить, что кооперативная стохастическая игра со случайной продолжительностью G(x0 ) имеет позиционно
состоятельное решение C(x0 ), если все дележи ξ(x0 ) ∈ C(x0 ) являются
позиционно состоятельными.
Отсюда получаем, что если дележ ξ(x0 ) позиционно состоятелен в игре
G(x0 ), то ПРД может быть определена для всех x ∈ CX и таких, что
x∈
/ {x : F (x) = ∅} по формуле
βi (x) = ξi (x) − (1 − qk )
X
p(x, y; ux )ξi (y),
(3.75)
y∈F (x)
а для x ∈ {x : F (x) = ∅} — по формуле (3.74). Однако из (3.75) следует,
что в общем случае невозможно гарантировать неотрицательность βi (x)
для всех вершин x ∈ CX.
167
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Найдем значения величин Bi (x) для всех x ∈ CX, то есть математические ожидания сумм βi (x) из (3.68) и (3.69), вдоль путей, реализовавшихся
b 0 )),
в кооперативной подыгре G(x) игры G(x0 ) (вдоль путей подграфа G(x
при использовании игроками кооперативного решения u(·).
Лемма 3.9.2. Имеет место равенство Bi (x) = ξi (x) для всех x ∈ CX и
всех i ∈ N .
Д о к а з а т е л ь с т в о. Доказательство является очевидным и следует
из того, что Bi (x) и ξi (x) удовлетворяют одним и тем же функциональным
уравнениям (3.68) и (3.73) с одними и теми же граничными условиями
(3.69) и (3.74).
Из леммы 3.9.1 следует, что если выплаты игрокам производить не в
соответствии с их выигрышами в игровых элементах, по которым проходит кооперативный путь, а в соответствии с кооперативной процедурой
распределения дележа β(x) = (β1 (x), . . . , βn (x)), определенной формулами (3.74), (3.75) для всех x ∈ CX, где βi (x) — это выплата i-му игроку в вершине x ∈ CX, то математическое ожидание всех выплат i-му
игроку будет совпадать с математическим ожиданием i-ой компоненты
выбранного игроками дележа из решения, что следует из леммы 3.9.2.
Таким образом, игроки могут пойти и на получение в каких-то вершинах отрицательных выплат, чтобы гарантировать сохранение коалиции на
протяжении всей игры и получение компонент заранее выбранного дележа ξ(x0 ), принадлежащего решению C(x0 ) кооперативной стохастической
игры G(x0 ).
Предлагаемый способ реализации дележа обладает важным свойством: в каждой вершине пути игроки ориентируются на один и тот же
«принцип оптимальности» и, в этом смысле, не имеют оснований для нарушения ранее принятого кооперативного поведения, то есть реализации
кооперативного решения.
В случае, когда нельзя гарантировать неотрицательность βi (x) для
всех вершин x ∈ CX, можно пойти по пути построения нового позиционно состоятельного решения на основе решения из классической теории
кооперативных игр. Покажем, как это делается, когда в качестве решения
рассматривается множество C(x0 ) ⊂ I(x0 ). Заметим, что данная процедура может быть применена для дележей, известных в классической статической кооперативной теории (C-ядро, N -ядро, вектор Шепли и т. д.).
Для всех вершин x ∈ CX определим новую ПРД по формуле
P
Ki (ux1 , . . . , uxn )
i∈N
βi (x) =
ξi (x),
(3.76)
V (N, x)
168
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.9. Кооперативные стохастические игры
где ξ(x) = (ξ1 (x), . . . , ξn (x)) ∈ C(x); а ux = (ux1 , . . . , uxn ) — реализация
кооперативного решения u = (u1 (·), . . . , un (·)) в вершине x ∈ CX, максимизирующего сумму математических ожиданий выигрышей игроков в
стохастической игре G(x0 ); V (N, x) — значение характеристической функции для коалиции N , вычисленное для кооперативной подыгры G(x).
Поскольку Ki (ux ) > 0 для всех вершин x P
∈ CX и всех i ∈ N , то βi (x) >
0 для любой вершины x ∈ CX. Из того, что
ξi (x) = V (N, x), и из (3.85)
i∈N
следует также, что текущая выплата βi (x) игроку i в игровом элементе
Γ(x) должна быть пропорциональна i-ой компоненте дележа ξ(x) ∈ C(x)
в кооперативной подыгре G(x) стохастической игры G(x0 ).
Определим компоненты нового дележа в кооперативной подыгре G(x),
где x ∈ CX, и x ∈ (F (x0 ))k на основе «старого» дележа ξ(x) как решение
функционального уравнения
P
Ki (ux )
X
i∈N
p(x, y; ux )ξbi (y)
ξbi (x) =
ξi (x) + (1 − qk )
(3.77)
V (N, x)
y∈F (x)
с граничным условием
ξbi (x) =
P
i∈N
Ki (ux )
V (N, x)
ξi (x) = ξi (x)
(3.78)
для x ∈ {x : F (x) = ∅}.
Построим новую характеристическую функцию Vb (S, x) для каждой
кооперативной подыгры G(x) для всех x ∈ CX, используя функциональное уравнение
P
Ki (ux )
X
i∈N
Vb (S, x) =
V (S, x) + (1 − qk )
p(x, y; ux )Vb (S, y)
(3.79)
V (N, x)
y∈F (x)
с граничным условием
Vb (S, x) = V (S, x) для x ∈ {x : F (x) = ∅} .
(3.80)
Функции Vb (S, x) и V (S, x) супераддитивны, и Vb (N, x) = V (N, x).
Для всех позиционно несостоятельных дележей ξ(x) ∈ C(x) для всех
b
x ∈ CX вычислим регуляризированные дележи ξ(x)
и найдем множество
b
C(x) следующим образом:
P
Ki (ux )
X
i∈N
b : ξbi (x) =
b
C(x)
= {ξ(x)
ξi (x) + (1 − qk )
p(x, y; ux )ξbi (y) (3.81)
V (N, x)
y∈F (x)
169
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
с граничным условием ξbi (x) = ξi (x) для x ∈ {x : F (x) = ∅}, где ξ(x) ∈
∈ C(x)}.
b 0 ), определенное формулой (3.81),
Определение 3.9.12. Множество C(x
назовем регуляризованным решением кооперативной стохастической игры со случайной продолжительностью G(x0 ).
Таким образом, у игроков есть возможность регуляризовать выбранное ими в начале игры решение, чтобы в каждой вершине стохастической
b 0 ) было позиционно состоятельным. Но
игры G(x0 ) «новое» решение C(x
b 0 ), водележ, принадлежащий новому регуляризованному решению C(x
обще говоря, не будет являться дележом для кооперативной игры с характеристической функцией V (S, x0 ), определенной по формулам (3.64),
(3.65), а будет являться дележом для кооперативной стохастической игры
с новой характеристической функцией Vb (S, x0 ), построенной по формулам (3.79), (3.80).
b
= (ξb1 (x), . . . , ξbn (x)), определенный формуТеорема 3.9.1. Дележ ξ(x)
лой (3.77) c граничным условием (3.78), является позиционно состоятельным дележом в кооперативной игре (N, Vb ), где характеристическая
функция Vb (S, x) задана функциональным уравнением (3.79) с граничным
условием (3.80).
Д о к а з а т е л ь с т в о. Позиционная состоятельность следует из
b
построения «нового дележа»
P ξ(x). Для доказательства необходимо покаi∈N
Ki (ux )
зать неотрицательность V (N,x) ξi (x), которая очевидна, поскольку по
определению стохастической игры:
Kix (ux1 , . . . , uxn ) > 0
для всех x ∈ X и любого игрока i ∈ N .
b = (ξb1 (x), . . . , ξbn (x)) обладает свойствами деТеперь покажем, что ξ(x)
лежа для кооперативной игры с характеристической функцией Vb (S, x),
которая задана функциональным уравнением (3.79) с граничным условием (3.80). Для этого, необходимо показать свойства:
P
1. i∈N ξbi (x) = Vb (N, x),
2. ξbi (x) > Vb ({i}, x)
для любого игрока i ∈ N и любой вершины x ∈ CX.
Первое свойство очевидно для вершин x ∈ {x : F (x) = ∅} и таких, что
x ∈ CX. Теперь докажем его для вершин x ∈ {x : F (x) 3 y и F (y) = ∅}
170
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10.. Марковские игры
и таких, что x ∈ CX.
P
Ã
!
Ki (ux )
X
X
X
X
i∈N
x
ξbi (x)=
ξi (x) + (1 − qk )
p(x, y; u )
ξbi (y) =
V (N, x)
i∈N
i∈N
i∈N
y∈F (x)
P
x
Ki (u )
´
X ³
i∈N
=
V (N, x) + (1 − qk )
p(x, y; ux )Vb (N, x) =
V (N, x)
y∈F (x)
= V (N, x) = Vb (N, y),
так как вершина y ∈ {y : F (y) = ∅}.
Второе свойство для вершин x ∈ {x : F (x) = ∅}также очевидно. Для
вершин x ∈ {x : F (x) 3 y и F (y) = ∅} покажем, что ξbi (x) − Vb ({i}, x) > 0,
используя формулы (3.79) и (3.77):
P
Ki (ux )
X
i∈N
p(x, y; ux )ξbi (y)−
ξbi (x) − Vb ({i}, x) =
ξi (x) + (1 − qk )
V (N, x)
y∈F (x)
P

x
Ki (u )


X
i∈N
p(x, y; ux )Vb ({i}, y) =
V ({i}, x) + (1 − qk )
−
 V (N, x)

y∈F (x)
P
Ki (ux )
i∈N
(ξi (x) − V ({i}, x)) +
=
V (N, x)
³
´
X
p(x, y; ux ) ξbi (y) − Vb ({i}, y) > 0.
+ (1 − qk )
y∈F (x)
Первое слагаемое неотрицательно, поскольку ξ(x) является дележом кооперативной подыгры G(x). Второе слагаемое неотрицательно, потому
что вершина y ∈ {y : F (y) = ∅}. Используя метод математической индукции, свойства 1 и 2 могут быть доказаны для всех вершин.
§ 3.10.
Марковские игры
Пусть задано конечное множество
одновременных
игр n лиц в нормальной
©
ª
форме (игровых элементов) Γ1 , . . . , Γt :
Γj = hN, U1j , . . . , Unj , K1j , . . . , Knj i,
где N — множество игроков, одинаковое для всех игр Γj , j = 1, . . . , t; Uij
(i = 1, . . . , n) — множество стратегий i-го игрока в игре Γj , множество
171
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Uij конечно для³ любого игрока
i ∈ N и любого игрового элемента Γj ,
´
j = 1, . . . , t. Kij uj1 , . . . , ujn — функция выигрыша i-го игрока в игре Γj ,
³
´
причем, Kij uj1 , . . . , ujn > 0 для всех i ∈ N , для любого j = 1, . . . , t и
любого uji ∈ Uij .
³
´
Набор стратегий uj = uj1 , . . . , ujn называется ситуацией в игре Γj .
Для каждого игрового элемента Γj , j = 1, . . . , t, в зависимости от ситуации uj , реализовавшейся в этом игровом элементе, определены вероятности перехода в следующие игровые элементы Γ1 , . . . , Γt :
p(j, k; uj ) > 0,
t
X
p(j, k; uj ) = 1,
k=1
где p(j, k; uj ) — вероятность того, что состоится одновременная игра Γk ,
если на предыдущем шаге (в игровом элементе Γj ) реализовалась ситуация uj = (uj1 , . . . , ujn ).
Задана вероятность q окончания игры на каждом шаге — (0 < q 6 1).
Также будем считать, что задан вектор начального распределения вероt
P
ятностей π = (π1 , . . . , πn ),
πj = 1 на множестве игровых элементов
j=1
{Γ1 , . . . , Γt },
где πj , j = 1, . . . , t — вероятность того, что на «нулевом» шаге (то есть перед началом игрового процесса) «случай» выбирает игровой
элемент Γj . .
Определение 3.10.1. Марковской игрой G со случайной продолжительностью называется следующий набор
+
*
© j ªt
©
ª
n
.
(3.82)
Ḡ = N, Γ j=1 , q, π, p(j, k; uj )
Q
j
j
j=1,t,k=1,t,u ∈
l=1
Ul
Марковская игра G происходит следующим образом.
1. Перед началом игры «случай» выбирает игровой элемент в соответствии с вектором начального распределения вероятностей π. Другими словами, с вероятностью π1 марковская игра G начнется с игрового элемента Γ1 , с вероятностью π2 — c игрового элемента
Γ2 и ªтак
©
далее. Пусть «случай» выбрал игровой элемент Γj ∈ Γ1 , . . . , Γt ,
j
2. Пусть на первом шаге марковской
Qn игрыj G в игровом элементе Γ реj
j
ализуется ситуация u ∈ U = k=1 Uk . Далее стохастическая игра
172
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
с конечным числом игровых элементов G либо прекращается с вероятностью q, 0 < q 6 1, либо второй переходит на шаг с вероятностью
(1 − q).
3. На втором шаге игры G происходит одна из одновременных игр
Γ1 , . . . , Γt с вероятностями p(j, 1; uj ), . . . , p(j, t; uj ) соответственно.
Далее игра G может прекратиться с вероятностью q, 0 < q 6 1,
либо с вероятностью (1 − q) переходит на третий шаг.
4. Аналогично предыдущему реализуется третий шаг и т.д.
Подыгру стохастической игры с конечным числом игровых элементов,
начинающуюся с k-го шага, обозначим через G(k).
Замечание 3.10.1. Марковская игра, рассматриваемая в данном параграфе, является частным случаем игры, рассматриваемой в параграфе
§ 3.9., поскольку в данной постановке задачи предполагается, что множество игровых элементов конечно. Марковская игра G представляет собой
марковскую цепь с вектором
начального
распределения π, конечным мно©
ª
жеством состояний Γ1 , . . . , Γt и матрицей вероятностей перехода, состоящей из элементов
©
ª
Π(u) = p(j, k; uj ) j=1,t,k=1,t,uj ∈U j .
Выпишем основные функциональные уравнения для марковской игры.
Так как игра G имеет стохастическую структуру, в качестве выигрышей
игроков будем рассматривать математическое ожидание выигрышей. Для
математического ожидания выигрыша i-го игрока в игре G имеет место
формула
E i = π1 Ei1 + . . . + πt Eit = πEi ,
где Ei = (Ei1 , . . . , Eit ), а Eij (j = 1, . . . , t) — математическое ожидание
(j)
выигрыша i-го игрока в подыгре G при условии, что игра начинается с
игрового элемента Γj .
Для условного математического ожидания выигрыша игрока i будет
верна формула
Eij
=
Kij (uj )
+ (1 − q)
t
X
p(j, k; uj )Eik ,
(3.83)
k=1
где uj ∈ U j =
элементе Γj .
Qn
j
k=1 Uk
— ситуация, которая реализовалась в игровом
173
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Стратегия ηi (·) i-го игрока в игре G — это правило, в соответствии
с которым для каждого игрового элемента Γj ∈ {Γ1 , . . . , Γt } (j = 1, t)
определяется, какую стратегию выбрать в одновременной игре Γj .
Определение марковской игры предполагает, что игровой процесс на
каждом шаге может попадать в одни и те же игровые элементы, поэтому в данной постановке стохастической игры целесообразно использовать
класс стационарных стратегий.
Определение 3.10.2. Стратегия ηi (·) игрока i в игре G называется
стационарной,
стратегии в каждом игровом элементе из
© 1если выбор
ª
t
множества Γ , . . . , Γ на каждом шаге зависит только от того, какой
игровой элемент реализуется на этом шаге, то есть
ηi : Γj 7−→ uji ∈ Uij , j = 1, t.
В марковской игре, рассматриваемой в классе стационарных стратегий, выбор игроками стратегии в игровых элементах не зависит от ситуаций, реализовавшихся на предыдущих шагах, а зависит только от самого
игрового элемента, в котором на данном шаге игра G находится.
Марковская игра G рассматривается в классе стационарных
стратегий, и множество одновременных игр {Γ1 , . . . , Γt } конечно. Поэтому
1
t
достаточно рассмотреть t подыгр игры G, обозначенных через G , . . . , G ,
начинающихся с игровых элементов Γ1 , . . . , Γt соответственно.
Пусть η(·) = (η1 (·), . . . , ηn (·)) — ситуация в стационарных стратегиях,
такая что ηi (Γj ) = uji ∈ Uij , где j = 1, . . . , t, i ∈ N . Будем рассматривать
класс чистых стационарных стратегий.
Множество чистых стационарных стратегий i-го игрока в марковской
игре G обозначим через Ξi . Очевидно, что стационарная стратегия i-го
игрока в игре G будет являться стационарной стратегией в любой подыгре
1
t
G ,...,G .
Поскольку марковская игра G рассматривается в классе стационарных стратегий, и множество игровых элементов конечно, то вероятности
перехода p(i, j; ui ) из игрового элемента Γi ∈ {Γ1 , . . . , Γt } в игровой элемент Γj ∈ {Γ1 , . . . , Γt } при реализации ситуации ui ∈ U i в одновременной
игре Γi будут принимать значения из конечного множества.
Рассмотрим матрицу вероятностей перехода из одних игровых элементов в другие, которая зависит от ситуации в стационарных стратегиях η(·),
174
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
реализовавшейся в марковской игре G:

p(1, 1; u1 )
p(2, 1; u2 )

Π(η(·)) = 

...
p(t, 1; ut )

. . . p(1, t; u1 )
. . . p(2, t; u2 )

,
...
... 
. . . p(t, t; ut )
(3.84)
где η(·) = (η1 (·), . . . , ηn (·)), а ηi (·) : ηi (Γ1 ) = u1i ∈ Ui1 , . . . , ηi (Γt ) = uit ∈ Uit ,
а ситуация, реализовавшаяся в игровом элементе Γj (j = 1, t), — это
ситуация uj = (uj1 , . . . , ujn ).
Тогда можно записать формулу для вычисления математического
ожидания выигрыша i-го игрока в любой подыгре марковской игры
Q G
при реализации ситуации в чистых стационарных стратегиях η(·) ∈
Ξi .
i∈N
Имеет место формула
Ei (η(·)) = Ki (η(·)) + (1 − q)Π(η(·))Ei (η(·)),
(3.85)
¡
¢
где Ei (η(·)) = Ei1 (η(·)), . . . , Eit (η(·)) , а Eij (·) — математическое ожидаj
ние выигрыша i-го игрока в подыгре G , то есть подыгре, начинающейся с игрового элемента Γj ; Ki (η(·)) = (Ki1 (u1 ), . . . , Kit (ut )), где Kij (uj ) —
это выигрыш i-го игрока в игровом элементе Γj при условии, что в этом
игровом элементе реализовалась ситуация uj ∈ U j . Если определитель
det(E − (1 − q)Π(η(·))) 6= 0, то из (3.85) получаем
Ei (η(·)) = (E − (1 − q)Π(η(·)))−1 Ki (η(·)).
(3.86)
Формула (3.86) позволяет в явном виде вычислять математическое
ожидание выигрыша
Q для любой подыгры марковской игры G для каждой
ситуации η(·) ∈
Ξi .
i∈N
Для марковской игры G математическое ожидание выигрыша i-го игрока обозначим через E i (η(·)). Оно зависит от вектора начального распределения вероятностей π и математического ожидания выигрышей i1
t
го игрока Ei1 (·), . . . , Eit (·) в подыграх G , . . . , G соответственно, и может
быть найдено по формуле
E i (η(·)) = πEi (η(·)) = π (E − (1 − q)Π(η(·)))−1 Ki (η(·)).
(3.87)
Построим кооперативный вариант марковской игры. Обозначим через
η(·) = (η 1 (·), . . . , η n (·)) ситуацию в чистых стационарных стратегиях, максимизирующую сумму математических ожиданий выигрышей игроков в
175
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
марковской игре G, то есть
max
Q
η(·)∈
i∈N
X
Ξi
E i (η(·)) =
i∈N
X
E i (η(·)).
(3.88)
i∈N
Будем называть ситуацию η(·) кооперативным решением.
Определим характеристическую функцию V (N ) в марковской игре G
следующим образом. Сначала определим значения характеристической
1
t
функции для каждой подыгры G , . . . , G игры G. Сформируем вектор,
состоящий из значений характеристических функций для коалиции N
подыгр игры G: V (N ) = (V 1 (N ), . . . , V t (N )), где V j (N ) — максимальный
j
суммарный выигрыш коалиции N в подыгре G , j = 1, . . . , t.
Для значения V (N ) уравнение Беллмана принимает вид:
"
#
X
V (N ) = max
Ki (η(·)) + (1 − q)Π(η(·))V (N ) =
Q
η(·)∈
i∈N
Ξi
i∈N
=
X
Ki (η(·)) + (1 − q)Π(η(·))V (N ),
i∈N
где η(·) — ситуация в чистых стационарных стратегиях, которая удовлетворяет условию (3.88). Если det(E − (1 − q)Π(η(·))) 6= 0, то
X
V (N ) = (E − (1 − q)Π(η(·)))−1
(3.89)
Ki (η(·)).
i∈N
Для стохастической игры с конечным числом игровых элементов G максимальный ожидаемый суммарный выигрыш коалиции N обозначим через
V (N ) и вычислим по формуле:
X
V (N ) = πV (N ) = π (E − (1 − q)Π(η(·)))−1
(3.90)
Ki (η(·)).
i∈N
j
Для каждой подыгры G (j = 1, . . . , t) марковской игры G определим
j
вспомогательную марковской игру с нулевой суммой GS между коалицией S ⊂ N , выступающей в качестве максимизирующего игрока, и коалицией N \S, выступающей в качестве минимизирующего игрока. Значение
j
функции V j (S) для подыгры G зададим как нижнее значение антагоj
нистической игры GS , найденное в чистых стратегиях (фактически как
нижнее значение матричной игры):
X j
V j (S) = max min
Ei (ηS (·), ηN \S (·)), j = 1, t,
(3.91)
ηS (·) ηN \S (·)
176
i∈S
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
V (∅) = 0,
где пара (ηS (·), ηN \S (·)) образует ситуацию в чистых стационарных стратегиях, а ηS (·) = (ηi1 (·), . . . , ηik (·)) — вектор стациQk
онарных стратегий игроков i1 , . . . , ik ∈ S, ηS (·) ∈
j=1 Ξij
— множество чистых стратегий коалиции S ⊂ N , а ηN \S (·)
— вектор стационарных стратегий игроков ik+1 , . . . , in ∈ N \S,
n
S S
Q
Ξij — множество чистых стратегий коалиik+1 . . . in = N \S,
j=k+1
ции N \S. Обозначим через V (S) вектор (V 1 (S), . . . , V t (S)), где все V j (S),
j = 1, . . . , t, удовлетворяют уравнению (3.91).
Тогда значение характеристической функции для коалиции S марковской игры G обозначим через V (S) и вычислим по формуле:
V (S) = πV (S),
(3.92)
V (∅) = 0.
Определение 3.10.3. Кооперативной марковской игрой, основанной на
игре G, называется кооперативная игра G = hN, V i, где N — это множество игроков, а V : S −→ R — характеристическая функция, определенная по формулам (3.90) и (3.92).
Определение 3.10.4. Кооперативной марковской подыгрой, основанной
j
j
на подыгре G , назовем кооперативную игру G = hN, V i, где N — это
множество игроков, а V : S −→ R — характеристическая функция,
определенная по формулам (3.89) и (3.91).
Характеристическая функция V (S), определяемая формулами (3.90)
и (3.92), и функция V (S), определенная формулами (3.89) и (3.91), являются супераддитивными характеристическими функциями.
Определение 3.10.5. Дележом в кооперативной марковской игре G будем называть вектор ξ = (ξ 1 , . . . , ξ n ), удовлетворяющий свойствам:
1.
P
i∈N
ξ i = V (N ),
2. ξ i > V ({i}), i ∈ N.
Множество дележей в кооперативной марковской игре G обозначим
через I.
177
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Определение 3.10.6. Решением кооперативной марковской игры G будем называть любое фиксированное подмножество C множества дележей I.
Решением, в частности, может быть одно из классических решений
статической теории кооперативных игр (C-ядро, N -ядро, вектор Шепли).
Предположим, что решение C кооперативной марковской игры G является непустым подмножеством множества дележей I.
Вектором Шепли кооперативной марковской игры G будем называть
вектор Sh = (Sh1 , . . . , Shn ), где элемент Shi вычисляется по формуле
Shi =
X (|S| − 1)! (n − |S|)! ¡
¢
V (S) − V (S \ {i}) ,
n!
S⊂N
S3i
i ∈ N и |S| — мощность множества S.
Определения дележа, множества дележей, решения, вектора Шепли
j
для любой кооперативной подыгры G (j = 1, . . . , t) кооперативной марковской игры G вводятся аналогичным образом, только в качестве характеристической функции берется соответствующая функция, определенная
формулами (3.89) и (3.91).
Обозначим через Shi вектор (Sh1i , . . . , Shti ), i ∈ N . Для игрока i вектор Shi , состоящий из i-ых компонент векторов Шепли, рассчитанных
1
t
для кооперативных подыгр G , . . . , G соответственно, и i-ая компонента вектора Шепли Sh, рассчитанного для марковской игры G связаны
следующим соотношениям
Shi = πShi .
³
´
Определение 3.10.7. Вектор-функцию β j = β1j , . . . , βnj , j = 1, . . . , t,
назовем кооперативной процедурой распределения дележа (ПРД) в игровом элементе Γj , если
X
i∈N
βij =
X
Kij (uj1 , . . . , ujn ),
(3.93)
i∈N
где выражение в правой части — суммарный выигрыш игроков в игровом
элементе Γj , вычисленный при реализации кооперативного решения η(·)
в чистых стационарных стратегиях, удовлетворяющего условию (3.88)
и такой, что η(Γj ) = uj , j = 1, . . . , t.
178
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
Определение 3.10.8. Путем в кооперативной марковской игре G
будем называть последовательность реализовавшихся ситуаций u(1),
. . . , u(j), . . ., где u(j) — это ситуация, реализовавшаяся на j-ом шаге игры.
Пусть u — это путь в игре G, полученный при реализации кооперативного решения η(·), определенного формулой (3.88). В марковской
j
подыгре G (j = 1, t) путем будет являться усечение последовательности
u. Так как множество игровых элементов конечно, и марковская игра G
j
рассматривается в классе стационарных стратегий, то для подыгры G
(начинающейся с одновременной игры Γj ) путем при условии, что игроки
придерживаются кооперативного решения η(·), будет последовательность
ситуаций, которую обозначим через u{j} .
j
Предположим, что игрок i в подыгре G вдоль пути u{j} , в каждом нулевом элемента Γk , реализовавшемся вдоль этого пути, получает выплаты
βi∗ (в соответствии с ПРД). Тогда в кооперативной марковской подыгре
j
G , j = 1, . . . , t, игрок i может связать с реализовавшимся путем u{j}
в ситуации η(·) = (η 1 (·), . . . , η n (·)) случайную величину — сумму величин βi∗ , вычисленных вдоль этого пути. Математическое ожидание таких
j
βi , посчитанных вдоль пути u{j} в кооперативной подыгре G , обозна1
t
чим через Bij . Величины Bi1 , . . . , Bit , вычисленные для подыгр G , . . . , G
соответственно, образуют вектор Bi = (Bi1 , . . . , Bit ), и Bi удовлетворяет
следующему уравнению
Bi = βi + (1 − q)Π(η(·))Bi ,
где βi = (βi1 , . . . , βit ), а βij — это выплата i-му игроку на том шаге игры, на
котором реализуется игровой элемент Γj . Если det(E − (1 − q)Π(η(·))) 6= 0,
то можно написать:
Bi = (E − (1 − q)Π(η(·)))−1 βi .
(3.94)
Математическое ожидание суммы выплат i-му игроку, вычисленный
вдоль пути u в кооперативной марковской игре G обозначим через B i ;
для этой величины верна формула:
B i = πBi = π(E − (1 − q)Π(η(·)))−1 βi .
(3.95)
Определим вектор γi = (γi1 , . . . , γit ) из уравнения
Shi = γi + (1 − q)Π(η(·))Shi .
(3.96)
179
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Лемма 3.10.1. Вектор γi = (γi1 , . . . , γit ), определяемый формулой (3.96),
состоит из i-ых компонент ПРД игровых элементов Γ1 , . . . , Γt соответственно.
Д о к а з а т е л ь с т в о. Для доказательства достаточно проверить
выполнение неравенства (3.93). Из уравнения (3.96) следует:
γi = (E − (1 − q)Π(η(·)))Shi .
Суммируя эти равенства по всем игрокам i ∈ N , получаем
X
γi = (E − (1 − q)Π(η(·)))V (N ).
i∈N
Учитывая равенство (3.89), получаем
X
X
γi = (E − (1 − q)Π(η(·))) (E − (1 − q)Π(η(·)))−1
Ki (η(·)).
i∈N
i∈N
Поэтому верно равенство:
X
γi =
i∈N
X
Ki (η(·)),
i∈N
что и доказывает лемму.
Предположим,что игроки перед началом игры договариваются о выборе набора стратегий, гарантирующего максимальный суммарный выигрыш и рассчитывают получить компоненты вектора Sh = (Sh1 , . . . , Shn ),
Shi = πShi . Развитию игры во времени соответствует движение вдоль
некоторого случайного пути u, который получается при реализации кооперативного решения η(·). После первого шага игра переходит в новое
состояние, являющееся начальным для подыгры, начинающейся со второго шага, то есть, фактически, игроки попадают в новую стохастическую
игру, которая является подыгрой игры G. Для сохранения кооперации на
этом шаге игроки должны ожидать получение выигрышей в соответствии
с вектором Шепли, рассчитанным для этой подыгры (фактически, рассчи1
t
танным для одной из подыгр {G , . . . , G }). К сожалению, осуществляя
выплаты на каждом шаге игры в соответствии с выигрышами в игровых
элементах, реализовавшихся на этих шагах, невозможно добиться того,
чтобы оставшиеся выплаты представляли собой компоненты вектора Шепли для подыгры, начинающейся с данного шага. Это и есть проявление
позиционной несостоятельности вектора Шепли. Требуется перераспределять выигрыши игроков в каждом игровом элементе, чтобы позиционная
несостоятельность вектора Шепли была преодолена.
180
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
Определение 3.10.9. [Baranova, Petrosjan, 2006]. Вектор Шепли Sh =
(Sh1 , . . . , Shn ), Shi = πShi (i ∈ N ) назовем позиционно состоятельным в
марковской игре G, если для каждого игрового элемента Γj (j = 1, . . . , t)
существует неотрицательная ПРД β j = (β1j , . . . , βnj ) такая, что
Shi = βi + (1 − q)Π(η(·))Shi
(3.97)
для любого i ∈ N . Здесь Shi = (Sh1i , . . . , Shti ), βi = (βi1 , . . . , βit ) и βij — это
i-ый элемент кооперативной процедуры распределения дележа для игрового элемента Γj , а Π(η(·)) — матрица вероятностей перехода, построенная согласно (3.84), а η(·) — кооперативное решение, удовлетворяющее
условию (3.88).
Если вектор Шепли позиционно состоятелен, то осуществляя на каждом шаге пути выплаты игрокам в соответствии с их ПРД, можно добиться того, чтобы эти выплаты были неотрицательными и чтобы математическое ожидание вектора Шепли, вычисленного для кооперативной
j
марковской подыгры G , (j = 1, . . . , t), совпадало бы с математическим
ожиданием выигрышей, которые игрокам осталось получить в подыгре
j
G марковской игры G.
Если det(E − (1 − q)Π(η(·))) 6= 0, то формула (3.97) примет вид
Shi = (E − (1 − q)Π(η(·)))−1 βi .
(3.98)
Это уравнение имеет единственное решение относительно βi , если det(E −
(1 − q)Π(η(·))) 6= 0. Получаем формулу для вычисления величин выплат
βi i-му игроку, i ∈ N :
βi = (E − (1 − q)Π(η(·)))Shi .
(3.99)
В общем случае невозможно гарантировать неотрицательность элементов вектора βi = (βi1 , . . . , βit ), таким образом невозможно гарантировать
позиционную состоятельность вектора Шепли Sh в кооперативной стохастической игре G.
Лемма 3.10.2. Имеют место равенства Bi = Shi , B i = Shi для всех
i ∈ N.
Д о к а з а т е л ь с т в о. Оно аналогично доказательству леммы 3.9.2.
Лемма 3.10.2 говорит о том, что математическое ожидание сумм βi ,
j
рассчитанных вдоль пути u{j} для подыгры G , j = 1, . . . , t, равное Bij ,
где βi представляет собой вектор выплат игроку i, производимых вдоль
181
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
j
реализовавшегося пути u{j} подыгры G , когда игроки придерживаются
кооперативного решения η(·), равно математическому ожиданию выигрыша i-го игрока в этой подыгре (то есть i-ой компоненте вектора Шепли
Shj ). Таким образом, представлен конструктивный способ построения реальных выплат игрокам на каждом шаге игры, причем, исходя из леммы
3.10.2, можно утверждать, что игроки заинтересованы в перераспределении своих выигрышей, так как, получая βi1 , . . . , βit в игровых элементах
Γ1 , . . . , Γt соответственно, игрок i в игре G получит столько же (с точки зрения математического ожидания), сколько и планировал получить в
начале игры (то есть Shi ), и оставшиеся выплаты будут соответствовать
тому же «принципу оптимальности» (в нашем случае, вектору Шепли).
Это означает, что на каждом шаге игры G оставшиеся выплаты будут
рассчитаны по тем же «правилам», что и в начале игры (в нашем случае,
по аксиомам Шепли).
Пример 3.10.1. Рассмотрим кооперативную игру передачи данных в
беспроводных сетях [Sagduyu, Ephremides, 2006; Michiardi et al., 2003;
Srinivasan et al., 2003]. Беспроводная сеть представлена на рис. 3.9.
Рис. 3.9. Простая схема беспроводной сети.
Рассмотрим систему, в которой приемники (вершины 1 и 2) независимо
генерируют пакеты данных на каждом промежутоке времени с вероятностями a1 и a2 соответственно. Пакет данных может появиться в вершине 1
(2) с вероятностью a1 (a2 ) только, если в конце предыдущего временного
промежутка очередь в вершине 1 (2) пуста. Сделаем следующие предположения:
1) вершины 1 и 2 (игроки 1 и 2 соответственно) стремятся послать
пакеты данных, скопившихся у них, в конечный пункт назначения — вершину 3;
2) максимальная емкость буфера каждой вершины равна единице.
Вершина 3 не может принять одновременно два пакета данных в один
промежуток времени. В данной постановке исключается многопакетная
182
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
передача данных, а также исключается одновременное отправление и принятие пакетов любой из вершин в любой промежуток времени;
3) если игроки одновременно пересылают пакеты в вершину 3, то эти
пакеты не принимаются и возвращаются в начальные вершины, таким образом, в следующий промежуток времени ни один новый пакет не может
появиться в вершинах 1 и 2;
4) все пересылаемые пакеты данных имеют одинаковый размер, и доставка одного пакета данных из одной вершины в другую, которые связаны пебром, занимает один промежуток времени;
5) игрок 1 (вершина 1) выбирает одну из двух стратегий: переслать
пакет данных напрямую в вершину 3 или переслать этот пакет в вершину
2, чтобы тот послал этот пакет в вершину 3 в следующий промежуток
времени;
6) если игрок 1 (вершина 1) пересылает пакет данных игроку 2, который уже имеет в данный промежуток времени пакет в своей очереди,
игрок 2 отклоняет переданный ему пакет. В противном случае игрок 2
решает принять или отклонить пакет, переданный ему игроком 1.
Предположим, что в вышеописанной системе передачи данных введена
следующая схема поощрений и наказаний:
1. величина f > 0 — это премия, которую получает игрок 1 или 2 за
каждую успешную передачу одного пакета данных в вершину 3;
2. игрок 1 получает премию в размере c > 0 от игрока 2 за передачу
одного пакета данных игроку 2, который, в свою очередь, может рассчитывать на премию размером f только после успешной передачи этого
пакета в конечный пункт (вершину 3) в следующий промежуток времени;
3. задержка пакета данных в вершине 1 или 2 на один промежуток времени приносит игроку, находящемуся в этой вершине, издержки в размере
d > 0, независимо от того, по какой причине произошла задержка;
4. величина Dij — это издержки по пересылке одного пакета данных
из вершины i в вершину j, которые несет игрок i.
Процесс передачи данных может остановиться в любой промежуток
времени с вероятностью 0 < q < 1. Вероятность q, по сути, является
дисконт-фактором. Модель передачи данных в беспроводных сетях может быть представлена марковской игрой. Игроки, находящиеся в вершинах 1 и 2, стремятся максимизировать ожидаемый суммарный выигрыш
с последующим разделом этого выигрыша с помощью вектора Шепли.
Обозначим через (Q1 , Q2 ) состояние в беспроводной сети, где Qi —
это число пакетов данных, находящееся в очереди игрока i, где i = 1, 2.
Число Qi может принимать значения 0 или 1, если ни одного или один
пакет данных находится в данный промежуток времени в очереди игрока
183
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
i, соответственно.
В марковской игре передачи данных в беспроводных сетях возможно
4 состояния:
T = {(0, 0); (0, 1); (1, 0); (1, 1)}.
Предположим, что игроки имеют информацию о состоянии не только своей очереди, но и очереди другого игрока. Это предположение разумно,
поскольку мы пытаемся найти кооперативное решение, которое подразумевает совместные действия, включая обмен информацией о состоянии
очередей обоих игроков.
Определим, исходя из условия задачи, игровые элементы во всех состояниях системы.
1. Игровой элемент Γ(0, 0).
У игрока 1 имеется одна стратегия W (ожидать), у игрока 2 — одна
стратегия W (ожидать). Выигрыши игроков будут (0, 0).
2. Игровой элемент Γ(0, 1).
У игрока 1 имеется одна стратегия W (ожидать), у игрока 2 — одна
3
стратегия −→ (послать пакет в вершину 3). Выигрыши игроков будут
следующими: (0, f − D23 ).
3. Игровой элемент Γ(1, 0).
3
Игрок 1 имеет две стратегии: 1) −→ (послать пакет в вершину 3), 2)
2
−→ (послать пакет в вершину 2); игрок 2 имеет две стратегии: 1) Ac (принять пакет от игрока 1), 2) Rej (не принять пакет от игрока 1). Выигрыши
игроков будут следующими:
µ
¶
(f − D13 , 0)
(f − D13 , 0)
.
(c − D12 , −c) (−d − D12 , 0)
4. Игровой элемент Γ(1, 1).
3
Игрок 1 имеет две стратегии: 1) −→ (послать пакет в вершину 3), 2) W
3
(ожидать); игрок 2 имеет две стратегии: 1) −→ (послать пакет в вершину
3), 2) W (ожидать). Выигрыши игроков будут следующими:
µ
¶
(−d − D13 , −d − D23 ) (f − D13 , −d)
.
(−d, f − D23 )
(−d, −d)
Без потери общности прибавим число
z = − min{0, f − D13 , f − D23 , −d, −d − D13 , −d − D23 , −d − D12 ,
c − D12 , −c}
184
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
ко всем выигрышам игроков во всех игровых элементах, чтобы сделать
все выигрыши неотрицательными.
Будем решать описанную выше марковскую игру в классе стационарных стратегий. Обозначим через Xi множество смешанных стационарных
стратегий игрока i, i = 1, 2.
В соответствии со структурой марковской игры передачи данных в
беспроводной сети смешанная стационарная стратегия игрока 1 диктует
ему выбрать стратегию W с вероятностью 1 в состояниях (0, 0), (0, 1),
3
3
стратегию −→ с вероятностью p11 в состоянии (1, 0), и стратегию −→ с
вероятностью p12 в состоянии (1, 1). Смешанная стационарная стратегия
игрока 2 диктует ему выбрать стратегию W с вероятностью 1 в состояниях
3
(0, 0), стратегию −→ в состоянии (0, 1), стратегию Ac с вероятностью p21
3
в состоянии (1, 0), и стратегию −→ с вероятностью p22 в состоянии (1, 1).
Обозначим через ui = (pi1 , pi2 ) смешанную стационарную стратегию игрока i и множество смешанных стационарных стратегий игрока i через Ui , i = 1, 2. Получаем ситуацию в стационарных стратегиях
u = (u1 , u2 ) = (p11 , p12 , p21 , p22 ). Матрица переходных вероятностей в ситуации в стационарных стратегиях u будет следующей:


α11 α12 α13 α14
α21 α22 α23 α24 

Π(u) = 
α31 α32 α33 α34  ,
α41 α42 α43 α44
где
α11
α12
α13
α14
α21
α22
α23
α24
α31
α32
α33
α34
α41
α42
α43
α44
= (1 − a1 )(1 − a2 ),
= (1 − a1 )a2 ,
= a1 (1 − a2 ),
= a1 a2 ,
= (1 − a1 )(1 − a2 ),
= (1 − a1 )a2 ,
= a1 (1 − a2 ),
= a1 a2 ,
= p11 (1 − a1 )(1 − a2 ),
= p11 (1 − a1 )a2 + (1 − p11 )p21 (1 − a1 ),
= p11 a1 (1 − a2 ) + (1 − p11 )(1 − p21 )(1 − a2 ),
= p11 a1 a2 + (1 − p11 )p21 a1 + (1 − p11 )(1 − p21 )a2 ,
= 0,
= p12 (1 − p22 )(1 − a1 ),
= (1 − p12 )p22 (1 − a2 ),
= p12 p22 + (1 − p12 )(1 − p22 ) + p12 (1 − p22 )a1 + (1 − p12 )p22 a2 .
185
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Если в описанной выше марковской игре реализуется ситуация в стационарных стратегиях u, выигрыши игрока 1 в соответствующих состояниях будут следующими:


z


z


p11 (z + f − D13 ) + (1 − p11 )p21 (z + c − D12 )+
.
K1 (u) = 


+(1 − p11 )(1 − p21 )(z − d − D12 )




p12 p22 (z − d − D13 )+
+p12 (1 − p22 )(z + f − D13 ) + (1 − p12 )(z − d)
Аналогично рассчитывается выигрыш игрока 2:


z


z + f − D23


.
(1 − p11 )p21 (z − c)
K2 (u) = 




p12 p22 (z − d − D23 )+
+(1 − p12 )p22 (z + f − D23 ) + (1 − p22 )(z − d)
Кооперативную игру передачи данных в беспроводной сети будем рассматривать в классе чистых стационарных стратегий. Обозначим через Ξi
множество чистых стационарных стратегий игрока i, i = 1, 2. Например,
чистая стационарная стратегия η1 = (1, 0) игрока 1 диктует ему выби3
рать стратегию −→ в состоянии (1, 0) и стратегию W в состоянии (1, 1).
Каждый игрок имеет 4 чистых стационарных стратегии, т.е. мы получаем
16 ситуаций в чистых стационарных стратегиях. Для ситуации в чистых
стационарных стратегиях η = (η1 , η2 ) можно записать в упрощенном виде
матрицу переходных вероятностей Π(η).
Так, для ситуации η 1 = (1, 1, 1, 1) матрица переходных вероятностей
будет иметь вид:


(1 − a1 )(1 − a2 ) (1 − a1 )a2 a1 (1 − a2 ) a1 a2
(1 − a1 )(1 − a2 ) (1 − a1 )a2 a1 (1 − a2 ) a1 a2 

Π(η 1 ) = 
(1 − a1 )(1 − a2 ) (1 − a1 )a2 a1 (1 − a2 ) a1 a2  .
0
0
0
1
Q
Для каждой ситуации в чистых стационарных стратегиях η ∈ Ξ = 2i=1 Ξi
мы можем посчитать математическое ожидание выигрышей игроков для
каждой подыгры, начинающейся с определенного состояния:
(0,0)
Ei = (Ei
186
(0,1)
, Ei
(1,0)
, Ei
(1,1)
, Ei
).
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
Математическое ожидание выигрышей игрока i для подыгр можно рассчитать по следующей формуле:
Ei (η) = (E − (1 − q)Π(η))−1 Ki (η),
где Ki (η), Π(η) определены выше.
Математическое ожидание выигрыша игрока i во всей марковской игре, включая ход «случая» (т.е. выбор начального состояния) может быть
рассчитано по формуле:
E i (η) = πEi (η),
где π = (π(0,0) , π(0,1) , π(1,0) , π(1,1) ) — вектор начальных вероятностей, и πk
— вероятность того, что первое состояние в марковской игре будет k ∈ T .
Для кооперативного решения этой марковской игры необходимо найти
кооперативное решение η = (η 1 , η 2 ), т.е. ситуацию в чистых стационарных
стратегиях такую, что
X
X
E i (η) = max
E i (η).
η∈Ξ
i∈{1,2}
i∈{1,2}
Значение характеристических функций для подыгр
V (S) = (V (0,0) (S), V (0,1) (S), V (1,0) (S), V (1,1) (S))
можно рассчитать по формуле (3.91), а для всей марковской игры — по
формуле (3.92).
Кооперативной
марковской
игрой передачи данныхPв беспроводной се­
®
ти будет пара {1, 2}, V (S) , V (∅) = 0 и V ({1, 2}) =
E i (η).
i∈{1,2}
В качестве дележа максимального суммарного математического ожидания выигрыша игроков рассмотрим вектор Шепли. Обозначим через
Sh = (Sh1 , Sh2 ), где
(0,0)
Shi = (Shi
(0,1)
, Shi
(1,0)
, Shi
(1,1)
, Shi
)
вектор Шепли, рассчитанный для подыгр и через Sh = (Sh1 , Sh2 ) вектор
Шепли, рассчитанный для всей марковской игры.
Игроки перед началом игры договариваются о кооперации и ожидают
получить совместный выигрыш V ({1, 2}) и соответствующие компоненты
Sh1 и Sh2 вектора Шепли.
Было бы естественно, если выплаты игрокам в игровых элементах, соответствующих состояниям марковской игры, были бы равны выигрышам
игроков в одновременных играх, что эквивалентно условию:
Shi = Ki (η) + (1 − q)Π(η)Shi .
187
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Но это условие не всегда выполняется, поэтому используем кооперативную процедуру распределения дележа
(0,0)
βi = (βi
(0,1)
, βi
(1,0)
, βi
(1,1)
, βi
).
Это вектор реальных выплат игроку i в состояниях (0, 0), (0, 1), (1, 0),
(1, 1) соответственно, при этом
2
X
i=1
βik =
X
Kik (η)
i∈N
для любого k ∈ {(0, 0), (0, 1), (1, 0), (1, 1)}. Найдем вектор βi по формуле
(3.99).
Можно потребовать, чтобы выплаты i-му игроку βik были неотрицательными для любого состояния k ∈ K и любого игрока i ∈ N , что экви(0,0)
(0,1)
валентно тому, чтобы система уравнений относительно βi = (βi , βi ,
(1,0)
(1,1)
βi , βi )
Shi = (E − (1 − q)Π(η(·)))−1 βi
имела бы неотрицательное решение. Тем самым мы проверяем условие
позиционной состоятельности вектора Шепли.
Рассмотрим численный пример кооперативной игры передачи данных
в беспроводной сети, поскольку в общем виде представить расчеты матрицы (E − (1 − q)Π(η))−1 в книге не имеется возможности. Пусть параметры
игры принимают следующие значения:
a1 = 0.5,
q = 0.01,
a2 = 0.1,
f = 1,
D12 = 0.1,
d = 0.1,
D13 = 0.6,
c = 0.3,
1 1 1 1
π=( , , , )
4 4 4 4
D23 = 0.2,
Таблица 3.1 показывает для каждой ситуации в чистых стационарных
стратегиях η рассчитанные значения математических ожиданий. Здесь
(0,0)
(0,1)
(1,0)
(1,1)
E1 (η) = (E1 (η), E1 (η), E1 (η), E1 (η)) — вектор математических ожиданий выигрышей игрока 1 в подыграх;
(0,0)
(0,1)
(1,0)
(1,1)
E2 (η) = (E2 (η), E2 (η), E2 (η), E2 (η)) — вектор математических P
ожиданий выигрышей игрока 2 в подыграх;
E i (η) — математическое ожидание суммарного выигрыша игроi∈{1,2}
ков.
188
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
Таблица 3.1 Ожидаемые значения
η
η 1 = (1, 1, 1, 1)
η 2 = (1, 1, 1, 0)
η 3 = (1, 0, 1, 1)
η 4 = (1, 0, 1, 0)
η 5 = (1, 1, 0, 1)
η 6 = (1, 1, 0, 0)
η 7 = (1, 0, 0, 1)
η 8 = (1, 0, 0, 0)
η 9 = (0, 1, 1, 1)
E1 (η)
14.75966387
14.75966387
15.15966387
0
89.80000000
89.80000000
90.20000000
90.20000000
88.22724883
88.22724883
88.62724883
88.30952131
64.67563026
64.67563026
65.07563026
60.
14.75966387
14.75966387
15.15966387
0.
89.80000000
89.80000000
90.20000000
90.20000000
88.22724883
88.22724883
88.62724883
88.30952131
64.67563026
64.67563026
65.07563026
60.
3.870077599
3.870077599
2.815688411
0.
E2 (η)
45.70756302
46.50756302
45.70756302
40.
76.24887286
77.04887286
76.24887286
76.71127141
77.92000000
78.72000000
77.92000000
78.72000000
62.34621849
63.14621849
62.34621849
60.
45.70756302
46.50756302
45.70756302
40.
76.24887286
77.04887286
76.24887286
76.71127141
77.92000000
78.72000000
77.92000000
78.72000000
62.34621849
63.14621849
62.34621849
60.
41.81391498
42.61391498
41.29388792
40.
E1 (η) + E2 (η)
60.46722689
61.26722689
60.86722689
40.
166.0488729
166.8488729
166.4488729
166.9112714
166.1472488
166.9472488
166.5472488
167.0295213
127.0218488
127.8218488
127.4218488
120.
60.46722689
61.26722689
60.86722689
40.
166.0488729
166.8488729
166.4488729
166.9112714
166.1472488
166.9472488
166.5472488
167.0295213
127.0218488
127.8218488
127.4218488
120.
45.68399258
46.48399258
44.10957633
40.
189
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Продолжение таблицы 3.1
η
η 10 = (0, 1, 1, 0)
η 11 = (0, 0, 1, 1)
η 12 = (0, 0, 1, 0)
η 13 = (0, 1, 0, 1)
η 14 = (0, 1, 0, 0)
η 15 = (0, 0, 0, 1)
η 16 = (0, 0, 0, 0)
E1 (η)
85.30045000
85.30045000
85.58955000
85.78955000
75.28276807
75.28276807
75.40659007
75.23559576
60.82133034
60.82133034
60.70655852
60.
5.432827686
5.432827686
4.587155964
0.
62.35393639
62.35393639
62.07747575
63.29742280
51.37623762
51.37623762
50.99000000
51.09000000
59.38868199
59.38868199
59.08256880
60.
E2 (η)
82.15225000
82.95225000
82.29775000
82.49775000
93.56491025
94.36491025
93.89870345
94.52135936
60.79766590
61.59766590
60.59084462
60.
43.10048870
43.90048870
42.75229358
40.
75.10793102
75.90793102
75.07981035
75.59292249
77.92000001
78.72000001
77.92000000
78.72000000
61.08577346
61.88577346
60.91743119
60.
E1 (η) + E2 (η)
167.4527000
168.2527000
167.8873000
168.2873000
168.8476783
169.6476783
169.3052935
169.7569551
121.6189962
122.4189962
121.2974031
120.
48.53331639
49.33331639
47.33944954
40.
137.4618674
138.2618674
137.1572861
138.8903453
129.2962376
130.0962376
128.9100000
129.8100000
120.4744554
121.2744554
120.
120.
В примере 3.10.1 кооперативным решением будет ситуация
2
3
3
η11 = ((W, W, −→, W ), (W, −→, Ac, −→)).
Максимум математического ожидания суммарного выигрыша игроков в
этой марковской игре будет следующим:
max
η∈Ξ
190
X
i∈N
E i (η) = 169.39.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.10. Марковские игры
Значения характеристических функций для подыгр:
V ({1}) = (64.68, 64.68, 65.08, 60),
V ({2}) = (61.09, 61.89, 60.92, 60),
V ({1, 2}) = (168.85, 169.65, 169.31, 169.76),
и для всей марковской игры:
V ({1}) = 63.61,
V ({2}) = 60.97,
V ({1, 2}) = 169.39.
Вектора Шепли, рассчитанные для подыгр марковской игры передачи
данных, будут следующими:
Sh1 = (86.22, 86.22, 86.73, 84.88),
Sh2 = (82.63, 83.43, 82.57, 84.88).
Компоненты вектора Шепли, рассчитанного для всей марковской игры
передачи данных, имеют значения:
Sh1 = 86.01,
Sh2 = 83.38.
Процедуры распределения дележа для игроков имеют следующие значения:
β1 = (0.7, 0.7, 2.04, −0.8),
β2 = (0.7, 1.5, −0.74, 2.9).
Если игроки в каждый промежуток времени хотят в оставшейся части
игры передачи данных в беспроводной сети получать компоненты вектора
Шепли, то выплаты игрокам должны быть
• в состоянии (1, 0):
2.04 игроку 1 вместо 0.9,
−0.74 игроку 2 вместо 0.4,
• в состоянии (1, 1):
−0.8 игроку 1 вместо 0.6,
2.9 игроку 2 вместо 1.5.
В нашем численном примере марковской игры передачи данных вектор Шепли Sh = (86.01, 83.38) не является позиционно состоятельным.
191
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
§ 3.11.
Динамические игры с переменным коалиционным разбиением
В данном параграфе в качестве базовой модели рассматривается многошаговая игра n лиц с полной информацией, которая включает в себя возможность случайного возникновения или изменения коалиционных
разбиений в некоторых вершинах дерева игры. Предложен принцип оптимальности, который основывается с одной стороны на равновесии по
Нэшу для игроков входящих в коалицию, а с другой — на векторе Шепли для игроков внутри коалиций. Указан алгоритм построения такого
принципа оптимальности и соответствующего ему пучка путей, основан
на предположении, что игроки, находясь в составе той или иной коалиции,
стремятся своими действиями максимизировать суммарный выигрыш игроков, входящих в коалицию [Петросян, Мамкина, 2004].
Определение 3.11.1. Деревом игры G называется конечный древовидный граф с отмеченной вершиной x0 (корнем дерева).
Как и в § 3.5.–?? будем придерживаться следующих обозначений.
Пусть x — некоторая вершина (позиция дерева игры G). Обозначим через
G(x) поддерево дерева G с началом в вершине x. Обозначим через Z(x)
множество вершин (позиций), непосредственно следующих за x. Игрока,
принимающего решение в позиции x (выбирающего следующую альтернативную позицию в вершине x), будем обозначать через i(x). Выбор игрока
i(x) в позиции x будем обозначать x ∈ Z(X).
Пусть N = {1, . . . , n} — множество игроков. Под разбиением множе|∆ |
ства игроков
N будем понимать
множество множеств ∆k = {Sj }j=1k , таких
T
S
что Sj Si = ∅; j 6= i; Sj = N . Множество всех допустимых разбиений
множества N обозначим через ∆.
Прежде, чем приступить к определению игры, необходимо ввести общие термины, связанные с деревом игры.
Определение 3.11.2. Альтернативами в вершине x называются вершины y, следующие за x (y ∈ Z(x)).
Дадим точное определение позиционной игры n лиц с переменным
коалиционным разбиением.
Определение 3.11.3. Позиционной игрой n лиц с переменным коалиционным разбиением Γ(x0 ) называется дерево игры G, на котором заданы:
1. Разбиение множества вершин (позиций) на n + 2 множества
P1 , P2 , . . . , Pn , Pn+1 , Pn+2 , называемое разбиением на множества
192
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.11. Игры с переменным коалиционным разбиением
очередностей. Позиции x ∈ Pi называются личными позициями i-го
игрока, для i = 1, . . . , n; позиции x ∈ Pn+1 — позициями случайного
хода; позиции x ∈ Pn+2 — окончательными позициями. Предполагается, что x0 ∈ Pn+1 .
2. Для каждой из вершин x разбиение ∆(x) ⊂ ∆ множества игроков
N такое, что
½
x∈
/ Pn+1
∆(x) ≡ ∆(y), ∀y ∈ Z (x) ,
x ∈ Pn+1
∃y ∈ Z(x) : ∆(x) 6≡ ∆(y),
3. Для каждого y ∈ Z(x) = {y1 , . . . , yn }, x ∈ Pn+1 вероятностное распределение
px (y1 ), . . . , px (yr ), px (yk ) ≥ 0, k = 1, . . . , r,
X
px (y) = 1, r = |Z(x)|.
y∈Z(x)
S
S
4. На множестве позиций x ∈ Pi Pn+1 Pn+2 , i = 1, .S. . , n набор
S вещественных чисел h(x) = (h1 (x), . . . , (hn (x)), x ∈ Pi Pn+1 Pn+2 .
Числа hi (x), i = 1, . . . , n, называются мгновенными выигрышами
игроков i ∈ N .
Определение 3.11.4. Стратегией игрока i называется однозначное
отображение Ui (·), которое в каждой позиции x ∈ Pi ставит в соответствие единственную альтернативу y ∈ Z(x).
Множество всевозможных стратегий игрока i будем обозначать через Ψi .
Предполагается, что игрок i ∈ N в позициях x ∈ Pi (в своем множестве
очередности) играет в интересах коалиции Sj , его содержащей (i ∈ Sj ,
Sj ∈ ∆ (x)), то есть стремится максимизировать суммарный выигрыш
игроков из коалиции Sj .
Пусть игроки выбрали свои стратегии U1 (·), . . . , Un (·) и образовалась
ситуация U (·) = (U1 (·), . . . , Un (·)). Тогда игра Γ(x0 ) развивается следующим образом.
Игра Γ(x0 ) начинается в позиции x0 ∈ Pn+1 , в которой задано некоторое коалиционное разбиение ∆(x0 ) ⊂ ∆. В начальной позиции x0 ходит «случай», который в соответствии с вероятностями, определенными условием 3 определения 3.11.3 в позиции x0 , выбирает альтернативу x1 ∈ Z(x0 ). Этой альтернативе соответствует коалиционное разбиение
∆(x1 ) ⊂ ∆. Предположим, что x1 ∈ Pi(x1 ) . Тогда в позиции x1 ходит игрок i(x1 ) и выбирает альтернативу x2 = Ui(x1 ) (x1 ) ∈ Z(x1 ), действуя в
193
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
интересах своей коалиции, которая образовалась в соответствии с реализовавшимся коалиционным разбиением в позиции x0 ∈ Pn+1 .
Пусть позиции x2 соответствует коалиционное разбиение
∆(x2 ), совS
падающее с ∆(x1 ) (∆(x2 ) ≡ ∆(x1 )). Если x2 ∈
/ Pn+1 Pn+2 , то в позиции
x2 ходит игрок i(x2 ) и выбирает альтернативу x3 = Ui(x2 ) (x2 ) ∈ Z(x2 ),
действуя в интересах коалиции его содержащей. Если же x2 ∈ Pn+1 , т.е.
в позиции x2 ходит случай, то в позиции x2 альтернатива x3 выбирается
в соответствии с вероятностями, определенными условием 3 определения
3.11.3 для позиции x2 . Выбранной таким образом позиции x3 ∈ Z(x2 ) соответствует коалиционное разбиение ∆(x3 ) ⊂ ∆ , которое может совпадать
с коалиционной структурой в x2 , а может и нет и т.д.
S
Если на шаге k, xk ∈
/ Pn+1 Pn+2 , то в позиции xk ходит игрок i(xk )
и выбирает альтернативу xk+1 = Ui(xk ) (xk ) ∈ Z(xk ), действуя в интересах
коалиции его содержащей. Если на k-ом шаге игра попадает в позицию
случайного хода, т.е. xk ∈ Pn+1 , то в позиции xk альтернатива xk+1 выбирается в соответствии с вероятностями, определенными в п.3 определения
3.11.3 для позиции xk . Выбранной таким образом позиции xk+1 ∈ Z(xk )
соответствует коалиционное разбиение ∆(xk+1 ) ⊂ ∆, которое может совпадать с коалиционной структурой в xk , а может и нет.
Игра продолжается до достижения некоторой позиции ω ∈ Pn+2 . Это
происходит
S за конечное число шагов, т. к. дерево K конечно. В позициях
x ∈ Pn+2 Pi , i = 1, . . . , n согласно условию 4 определения 3.11.3 заданы
выигрыши h(x) = (h1 (x), . . . , (hn (x)) игроков, а окончательный выигрыш
игрока i ∈ N в игре Γ (x0 ) определяется как сумма выигрышей hi (x)
вдоль пути, реализовавшегося в процессе игры. Каждый набор стратегий
U (·) = (U1 (·), . . . , Un (·)) или ситуация
определяют некоторое вероятностS
ное распределение на x ∈ Pn+2 Pi , i = 1, . . . , n позициях игры (из-за
случайных выборов в позициях x ∈ Pn+1 ), а следовательно выигрыш i
-го игрока оказывается случайной величиной.
Поэтому каждой ситуации U (·) = (U1 (·), . . . , Un (·)) однозначно соответствует математическое
ожидание выигрышей игроков
P
Ei (U1 (·), . . . , Un (·)) = E[ lk=1 hi (x̄k )], i ∈ N , где l — число вершин
(позиций) в реализовавшейся партии x̄0 , . . . , x̄l , приводящей в окончательную позицию x̄l .
Таким образом, формально мы можем записать нашу игру как игру
в нормальной форме hN ; {U1 }, . . . , {Un }, E1 , . . . , En i, где {Ui } множеств
стратегий игрока i ∈ N .
Однако такая запись мало пригодна для исследования и носит лишь
иллюстративный характер, поскольку никак не учитывает принадлежность игроков к различным коалициям на различных этапах игры. По194
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.12.. Алгоритм построения решения
следнее делает малоосмысленным использование классических принципов оптимальности (равновесие по Нэшу, оптимальность по Парето и др.)
для построения оптимального поведения. Ниже мы приведем новый подход к построению оптимального решения, который учитывает наличие
определенной коалиционной структуры в игре и динамику ее изменения.
§ 3.12.
Алгоритм построения решения
В этом разделе мы предложим способ построения решения игры Γ(x0 ),
который приводит также к построению соответствующего оптимального
пучка траекторий (поскольку из-за наличия случайных ходов каждой ситуации соответствует некоторый пучок траекторий). Решение игры Γ(x0 )
будем строить методом обратной индукции, двигаясь от окончательной
позиции к начальной. Процедура построения решения напоминает схему
построения абсолютного равновесия по Нэшу (см. § 3.2.) в обычной позиционной игре с полной информацией, а также алгоритм построения оптимального пути в игре с частичной кооперацией. Различие заключается
в следующем. Пусть x — некоторая позиция случайного хода (x ∈ Pn+1 ).
Как уже было отмечено выше, при построении решения мы исходим из
того, что игроки в своих личных позициях стремятся максимизировать
сумму выигрышей игроков коалиции, в которую они попадают в результате реализации соответствующего коалиционного разбиения. Поэтому в
позициях поддерева G(x) помимо выигрышей игроков i ∈ N необходимо рассматривать выигрыши соответствующих коалиций. На поддереве
G(x), используя схему Нэша, решение игрока i, максимизирующего выигрыш коалиции, к которой он принадлежит, может быть легко определено.
Однако, поскольку выигрыши игрока i не выделены из коалиционного выигрыша, при другом коалиционном разбиении выбор игрока i в его личных позициях, находящихся между позицией x и начальной позицией x0 ,
где игрок i, вообще говоря, может играть в составе другой коалиции, оказывается нетривиальным. Если доля игрока i в коалиционном выигрыше
известна, то, применяя снова схему Нэша, мы можем построить решение
игрока i в его личных позициях вдоль пути x0 , . . . , x, заново структурируя
выигрыши в новом коалиционном разбиении.
Прежде, чем перейти к построению решения игры Γ(x0 ), введем понятие длины игры Γ(x0 ). Под длиной игры Γ(x0 ) будем понимать длину
наибольшего пути на дереве K(x0 ) (число вершин входящих в максимальный путь). Предположим, что длина игры Γ(x0 ) равна T + 1. Рассмотрим
разбиение множества всех позиций дерева игры K(x0 ) на T + 1 множество X0 , X1 , . . . , Xt : XT = {x0 }, где множество Xt состоит из позиций,
195
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
достигаемых из начальной позиции в точности за T − t ходов. Обозначим
позиции, принадлежащих множеству Xt , через yt , t = 1, . . . , T .
Заметим, что в определении 3.11.3 вершины, входящие во множества
Pi , i = 1, . . . , n+2, были обозначены нами через xi , xi ∈ Pi , i = 1, . . . , n+2.
Для того, чтобы избежать недоразумений, множества позиций, принадлежащих множеству Xt , мы обозначаем так же через yt , t = 1, . . . , T . То
есть в наших обозначениях x0 ∈ Pn+1 , а y0 ∈ Pn+2 .
Рассмотрим множество позиций X0 . Так как длина игры равна T +1, то
X0 ⊂ Pn+2 , и выигрыши игроков уже определены и равны соответственно
hi (y0 ), y0 ∈ X0 , i = 1, . . . , n.
Шаг 1. Перейдем от позиций S
x ∈ X0 к предшествующим. Пусть теперь y1 ∈ X1 . Если y1 ∈
/ Pn+1 Pn+2 , тогда в позиции y1 ходит игрок i(y1 ). Пусть для определенности i(y1 ) принадлежит коалиции Sj (y1 );
Sj (y1 ) ∈ ∆(y1 ). Здесь {Sk (y1 )}
составляющих коалиT — набор коалиций,
S
ционное разбиение ∆(y1 ) (Sj Si = ∅; j 6= i ; Sk = N ). Алгоритм предписывает игроку i(y1 ) выбрать любую позицию (альтернативу) y 0 ∈ Z(y1 )
из условия:
X
X
max
hi (y) =
hi (y 1 ).
(3.100)
y∈Z(y1 )
i∈Sj (y1 )
i∈Sj (y1 )
Формула (3.100), вообще говоря, определяет вершину y 1 ∈ Z(y1 ) неоднозначно, что в свою очередь порождает неединственность решения.
Если y1 ∈ Pn+1 (т.е. в позиции y1 ходит случай), и игра переходит в позицию y ∈ Z(y1 ) с вероятностями py1 (y), определенными правилами
игры, то ожидаемые выигрыши игроков в y1 при этом равны:
P
py1 (y)hi (y) + hi (y1 ), i = 1, . . . , n, где py1 (y) — вероятность реалиy∈Z(y1 )
зации альтернативы (позиции) y ∈ Z(y1 ), а hi (y1 ) — мгновенные выигрыши в вершине y1 , определенные условием 4 определения 3.11.3. Если
y1 ∈ Pn+2 , то выигрыши игроков в y1 определяются как hi (y1 ), i = 1, . . . , n.
Заметим, что из-за возможнй случайности хода предлагаемая схема
выбора не определяет путь (дугу) однозначно, и мы получаем некоторый «пучок» (поддерево). Назовем это поддерево пучком путей. В случае, если на поддереве K(y1 ) не имел место случайный ход (y1 ∈
/ Pn+1 ), то
«пучок» будет состоять из единственной дуги (или одной вершины, если
y1 ∈ Pn+2 ).
Применяя аналогичные рассуждения, можно построить «пучок» с началом (корнем) в y1 ∈ X1 для каждой позиции y1 множества X1 . Таким
образом, на каждом поддереве G(y1 ) , y1 ∈ X1 (это поддерево может состоять и из единственной вершины, если y1 ∈ Pn+2 ) фиксируется позиция y 1 ,
являющаяся предполагаемой окончательной позицией строящегося пучка
196
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.12. Алгоритм построения решения
игры Γ(x0 ), или вероятностное распределение на Z(y1 ), если y1 ∈ Pn+1 .
Поэтому, зная поведение игроков на поддеревьях G(y1 ), y1 ∈ X1 , мы вместо рассмотрения функций выигрыша hi , i = 1, . . . , n можем использовать
1 , i = 1, . . . , n, задаваемые на множестве X .
функции r̄i1 : X1 → R+
1


hi (y 1 ) + hi (y1 ) ,





 P
py1 (y)hi (y) + hi (y1 ) ,
1
r̄i (y1 ) =
y∈Z(y1 )






 h (y ) ,
i
1
если
y1 ∈
/ Pn+2
если
y1 ∈ Pn+1
если
y1 ∈ Pn+2
S
Pn+1
(3.101)
Шаг 2. Продолжим движение по направлению к корню дерева игры. Поскольку в позициях y2 ∈ X2 алгоритм включает новые элементы,
подробно остановимся и на этом случае.
Определим выборы игроков в
S
позиции y2 ∈ X2 . Если y2 ∈
/ Pn+2 Pn+1 , то в позиции y2 ходит игрок
i(y2 ) ∈ Sj (y2 ), Sj (y2 ) ∈ ∆ (y2 ). Предписываем игроку i(y2 ) выбрать любую
позицию y 1 исходя из условия:
max
y∈Z(y2 )
X
r̄i1 (y) =
i∈Sj (y2 )
X
r̄i1 (y 1 ),
(3.102)
i∈Sj (y2 )
где r̄i1 определяется формулой (3.101).
Если y2 ∈ Pn+1 (т.е. в позиции y2 ходит случай), то в силу того, что
∆(y2 ) может не совпадать с ∆(y1 ), y1 ∈ Z(y2 ), в позиции y2 возникает
неопределенность с выигрышами игроков. Чтобы определить выигрыши
r̄i2 (y2 ) в позиции y2 (корне «пучка» игры на поддереве G(y2 )), необходимо выделить выигрыши игроков из коалиционных выигрышей, т. е. определить некоторый дележ суммарного выигрыша для каждой коалиции
|∆(y )|
{Sj (y1 )}j=1 1 . Подобный дележ может быть произведен с использованием характеристических функций, построенных для каждого элемента коалиционного разбиения ∆(y), y ∈ X1 . Сам способ построения характеристических функций будет приведен в следующем параграфе. Сейчас
же мы предположим, что характеристическая функция v (y, R (Sk (y))),
R ⊂ Sk (y), Sk (y) ∈ ∆(y), k = 1, . . . , |∆(y)| известна.
Выберем произвольно коалицию Sk (y1 ) ∈ ∆(y1 ). Рассмотрим кооперативную игру |Sk (y1 )| лиц G(y1 , Sk (y1 )). Полагаем выигрыш наибольшей
коалиции ( Sk (y1 ) ) в кооперативной игре G(y1 , Sk (y1 )) равным:
v(y1 , Sk (y1 )) =
X
r̄i1 (y i ).
(3.103)
i∈Sk (y1 )
197
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Вычислим в G(y1 , Sk (y1 )) вектор Шепли с
Shi (Sk (y1 )), i ∈ Sk (y1 ), где
X
Shi (Sk (y1 )) = v(y1 , Sk (y1 ))
компонентами
i∈Sk (y1 )
и будем рассматривать его как способ дележа коалиционного выигрыша v(y1 , Sk (y1 )). При этом для определения компонент вектора Шепли Shi (Sk (y1 )) пользуемся характеристической функцией v(y1 , R(Sk (y1 )),
R ⊂ Sk (y1 ), Sk (y1 ) ∈ ∆(y1 ). Формула для вычисления вектора Шепли для
игроков i ∈ Sk (y1 ) ∈ ∆(y1 ) с использованием характеристических функций v(y1 , R(Sk (y1 )), R ⊂ Sk (y1 ), Sk (y1 ) ∈ ∆(y1 ) имеет вид:
P
Shi (Sk (y1 )) =
R\i ∈ R ⊂ Sk (y1 )
(|R| − 1)! (|Sk (y1 )| − |R|)!
×
|Sk (y1 )|!
× [v (y1 , R (Sk (y1 ))) − v (y1 , R (Sk (y1 )) \i (y1 ))] ,
i ∈ N.
Рассуждая аналогично, находим дележ и для других коалиций из
{∆(y1 )\Sk (y1 )}.
Построим вектора
SP M S(y1 ) = (SP M S 1 (y1 ), . . . , SP M S n (y1 )),
и
P M S (y2 ) =
X
py2 (y1 )SP M S i (y1 ) + hi (y2 ) ,
(3.104)
y1 ∈Z(y2 )
где SP M S i (y1 ) = Shi (Sk (y1 )), i ∈ Sk (y1 ). (С помощью SP M S вектора
определяются выигрыши игроков 1, . . . , n в y1 , в случае, если y2 ∈ Pn+1 .)
Если y2 ∈ Pn+2 , то выигрыши игроков в y2 определяются как hi (y2 ),
i = 1, . . . , n.
Зададим на множестве X2 функцию r̄i2 : X2 → R1+ , i ∈ N ,
S
 1
если
y2 ∈
/ Pn+2 Pn+1
r̄i (y 1 ) + hi (y2 ) ,





1
2
r̄i (y2 ) =
если
y2 ∈ Pn+1 ,
P M S i (y2 ) ,





если y2 ∈ Pn+2
hi (y2 ) ,
1
(3.105)
где P M S i (y2 ) определяются из (3.104), а r̄i1 (ȳ1 ) — из (3.101), i = 1, . . . , n.
Таким образом «пучок» путей на каждом поддереве K(y2 ) построен.
198
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.12. Алгоритм построения решения
Дальнейшие шаги процедуры аналогичны шагам 1 и 2. Рассмотрим
шаг t. Предположим, что, продолжая двигаться к корню игры x0 дерева
1,
игры, мы достигли позиции yt ∈ Xt . Пусть функции r̄it−1 : Xt−1 → R+
i ∈ N определяют, какие выигрыши получают игроки i ∈ N после выбора
ими в позициях yl ∈ Xl , l < t предписанных нами решений.
S
Шаг t. Рассмотрим некоторую позицию yt ∈ Xt . Если yt ∈
/ Pn+1 Pn+2 ,
то в позиции yt , ходит игрок i(yt ) ∈ Sk (yt ) ∈ ∆(yt ). Предписываем игроку
i(yt ) выбрать любую позицию y t−1 , исходя из условия:
X
max
y∈Z(yt )
r̄it−1 (y) =
i∈Sk (yt )
X
r̄it−1 (y t−1 ).
(3.106)
i∈Sk (yt )
Формула (3.106), вообще говоря, определяет вершину ȳt−1 неоднозначно, что в свою очередь порождает неединственность решения.
Если yt ∈ Pn+1 , то необходимо выделить выигрыши отдельных игроков
из коалиционных выигрышей, т.е. определить некоторый дележ суммар|∆(y
)|
ного выигрыша для каждой коалиции {Sj (yt−1 )}j=1 t−1 .
Выберем произвольно коалицию Sk (yt−1 ) ∈ ∆(yt−1 ). Рассмотрим кооперативную игру |Sk (yt−1 )| лиц G(yt−1 , Sk (yt−1 )). Выигрыш наибольшей
коалиции (Sk (yt−1 )) в кооперативной игре G(yt−1 , Sk (yt−1 )) полагаем равным:
X
r̄it−1 (y t−1 ).
(3.107)
v(yt−1 , Sk (yt−1 )) =
i∈Sk (yt−1 )
Мы будем рассматривать вектор Шепли с компонентами
Shi (Sk (yt−1 )), i ∈ Sk (yt−1 ), где
X
Shi (Sk (yt−1 )) = v(yt−1 , Sk (yt−1 )),
i∈Sk (yt−1 )
в
качестве
оптимального
дележа
коалиционного
выигрыша
v(yt−1 , Sk (yt−1 )). При этом, для определения компонент вектора Шепли Shi (Sk (yt−1 )), i ∈ Sk (yt−1 ) пользуемся характеристической функцией v(yt−1 , R(Sk (yt−1 )), R ⊂ Sk (yt−1 ), Sk (yt−1 ) ∈
∆(yt−1 ). Формула для вычисления вектора Шепли для игроков
i ∈ Sk (yt−1 ) ∈ ∆(yt−1 ) с использованием характеристических функций
v(y, R(Sk (y)), R ⊂ Sk (y), Sk (y) ∈ ∆(y) примет вид:
Shi (Sk (yt−1 )) =
P
R\i ∈ R ⊂ Sk (yt−1 )
(|R| − 1)! (|Sk (yt−1 )| − |R|)!
×
|Sk (yt−1 )|!
× [v (yt−1 , R (Sk (yt−1 ))) − v (yt−1 , R (Sk (yt−1 )) \i (yt−1 ))] ,
i ∈ N.
199
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Рассуждая аналогично, находим дележ и для других коалиций из
{∆(yt−1 )\Sk (yt−1 )}.
Построим вектора
SP M S(yt−1 ) = (SP M S 1 (yt−1 ), . . . , SP M S n (yt−1 )),
и
P M S (yt ) =
X
pyt (yt−1 )SP M S i (yt−1 ) + hi (yt ) ,
(3.108)
yt−1 ∈Z(yt )
где SP M S i (yt−1 ) = Shi (Sk (yt−1 )), i ∈ Sk (yt−1 ). С их помощью определяются выигрыши игроков i ∈ N в случае, если yt ∈ Pn+1 . Если yt ∈ Pn+2 ,
то выигрыши игроков в yt определяются как hi (yt ), i = 1, . . . , n.
Функции rit : Xt → R1+ , i ∈ N зададим следующим образом:
S
 t−1
x
∈
/
P
Pn+1
если
r̄
(y
)
+
h
(y
)
,
t
n+2
i
t

i
t−1




r̄it (yt ) =
xt ∈ Pn+1 ,
если
P M S i (yt ) + hi (yt ) ,





если yt ∈ Pn+2
hi (yt ) ,
(3.109)
где P M S i (ȳt ), i = 1, . . . , n определяются из (3.108). Таким образом «пучок» путей на каждом поддереве G(yt ), yt ∈ Xt построен.
Функции r̄it (yt ) имеют смысл ожидаемого (прогнозируемого) выигрыша игрока i, i = 1, . . . , n в позиции yt ∈ Xt в предположении, что на
поддереве G (yt ) игроки действуют согласно построенному алгоритму.
Продолжая спускаться по дереву игры Γ(x0 ) к начальной позиции x0
и последовательно определяя выборы игроков на оставшихся множествах
Xτ , τ = t + 1, . . . , T , мы построим «пучок» путей, который реализуется
в игре Γ(x0 ). Будем называть этот «пучок» путей оптимальным пучком
в игре с переменным коалиционным разбиением, полученным на основе
использования P M S-векторов.
Отметим, что в силу определения игры Γ(x0 ) в начальной позиции x0
ходит случай, x0 ∈ Pn+1 и поэтому выигрыши, которые каждый из игроков получит в позиции x0 ∈ Pn+1 , равны соответствующей компоненте
P M S вектора, т. е. выигрыши игроков i ∈ N в позиции x0 ∈ Pn+1 равны
соответственно P M S i (ȳT ).
§ 3.13.
Характеристические функции вспомогательных игр
Укажем способ построения характеристической функции v(y, R), R ⊂
Sk (y) игры Γ(y, Sk (y)). При построении оптимального «пучка» развития
200
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.13.
Характеристические функции вспомогательных игр
игры Γ(x0 ) в § 3.12. было определено поведение игроков i ∈ N в каждой личной позиции y ∈ Pi , i ∈ N принятия решения. Обозначим через U ∗ (·) = (U1 (·), . . . , Un (·)) набор стратегий игроков, определенных в
§ 3.12., приводящих к реализации оптимального пучка в игре Γ(x0 ). Кооперативная игра G(y, Sk (y)) строится с использованием этих стратегий.
Введем понятие следа ситуации. След ситуации в подыгре есть сужение
этой ситуации на множество позиций данной подыгры. Рассмотрим след
Uy∗ (·) = (U1y (·), . . . , Uny (·)) набора U ∗ в подыгре Γ(y) и рассмотрим вспомогательную подыгру Γ(y) игры Γ(x0 ), в которой выборы игроков i ∈
/ Sk (y)
∗,
в их личных позициях зафиксированы в соответствии со стратегиями Uiy
i ∈ N.
Будем строить характеристическую функцию v(y, R), R ⊂ Sk (y) методом математической индукции для y ∈
/ Pn+1 (т.к. для y ∈ Pn+1 наш
алгоритм не требует построения вектора Шепли). Рассмотрим множество
позиций X0 . Так как длина игры равна T + 1, P
то X0 ⊂ Pn+2 и v(y, R),
R ⊂ Sk (y) в этом случае просто равна v(y, R) =
hi (y).
i∈R
Шаг 1. Перейдем от позиций y ∈ X0 к предшествующим. Пусть y1 ∈ X1
и y1 ∈
/ Pn+1 . Рассмотрим след Uy∗1 (·) = (U1y1 (·), . . . , Uny1 (·)) набора Uy∗1 (·)
в подыгре Γ(y1 ). Пусть Γ(y1 ) — подыгра игры Γ(y1 ), в которой выборы игроков i ∈
/ Sk (y1 ) в их личных позициях зафиксированы в соответствии со стратегиями Uy∗1 (·). Таким образом, игра Γ(y1 ) оказывается
игрой между игроками, входящими в коалицию Sk (y1 ). Для каждой подкоалиции R ⊂ Sk (y1 ) рассмотрим ассоциированную с Γ(y1 ) игру с нулевой суммой Γ(y1 , Sk (y1 )) между двумя игроками: коалицией R, являющейся максимизирующим игроком (выигрыш коалиции R равен сумме
выигрышей игроков R ), и коалицией Sk (y1 )\R, являющейся минимизирующим игроком (выигрыш коалиции Sk (y1 )\R равен выигрышу коалиции R с обратным знаком). Можно показать, что выигрыш каждой коалиции R, определенный
таким образом, не может превысить величины
P
1
v(y1 , Sk (y1 )) =
ri (y1 ) (см. (3.103)), поскольку по построению коаi∈Sk (y1 )
лиция Sk (y1 ) получает выигрыш v(y1 , Sk (y1 )), используя наилучший ответ
∗ (·) игроков i ∈
против стратегий Uiy
/ Sk (y1 ). Пусть v(y1 , R) будет значе1
нием игры Γ(y1 , Sk (y1 )). С помощью функции v(y1 , R), R ⊂ Sk (y1 ) вектор
Шепли строится в игре Γ(y1 ) обычным способом.
Шаг t. Для позиции yt ∈ Xt , yt ∈
/ Pn+1 . Рассмотрим след Uy∗t (·) =
∗
(U1yt (·), . . . , Unyt (·)) набора Uyt (·) в подыгре Γ(yt ). Рассмотримдалее вспомогательную подыгру Γ(yt ) игры Γ(x0 ), в которой выборы игроков i ∈
/
Sk (yt ) в их личных позициях определены в соответствии со стратегиями
201
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Uy∗t (·). Таким образом, игра Γ(yt ) оказывается игрой между игроками, входящими в коалицию Sk (yt ). Для каждой подкоалиции R ⊂ Sk (yt ) рассмотрим ассоциированную с Γ(yt ) игру с нулевой суммой Γ(yt , Sk (yt )) между
двумя игроками: коалицией R, являющуейся максимизирующим игроком
(выигрыш коалиции R равен сумме выигрышей игроков из R), и коалицией Sk (yt )\R, являющейся минимизирующим игроком (выигрыш коалиции Sk (yt )\R равен выигрышу коалиции R с обратным знаком). Можно
показать, что выигрыш каждой коалиции R, определенный
таким обраP
rit (yt ), поскольку
зом, не может превысить величины v(yt , Sk (yt )) =
i∈Sk (xt )
по построению коалиция Sk (yt ) получает выигрыш v(yt , Sk (yt )), исполь∗ (·) игроков i ∈
зуя наилучший ответ против стратегий Uiy
/ Sk (yt ). Пусть
t
v(yt , R) будет значением игры Γ(yt , Sk (yt )). С помощью характеристической функции v(yt , R), R ⊂ Sk (yt ) вектор Шепли строится в игре Γ(yt )
обычным способом.
Продолжая далее, можем построить v(y, R), R ⊂ Sk (y) и соответствующий вектор Шепли для всех y ∈
/ Pn+1 . Заметим, что для построения
характеристической функции v(y, R), R ⊂ Sk (y), y ∈ Xt требуется набор
Uy∗t (·). При построении последнего также используются v(y, R), но уже
при y ∈ Xl , l < t, поэтому наше построение вполне корректно.
Пример 3.13.1. Рассмотрим позиционную игру Γ(x0 ) с переменным коалиционным разбиением и деревом игры G(x0 ), изображенном на рис.
3.10. Множество игроков N = {1, 2, 3}. Множество очередности игрока 1
состоит из P1 = {x1 , x2 , x3 , x23 , x24 , x25 }. Множество очередности игрока
2 состоит из P2 = {x7 , x8 , x11 , x27 , x29 , x31 }. Множество очередности игрока 3 состоит из P3 = {x5 , x13 , x33 , x35 , x37 }. Множество позиций случая
P4 = {x0 , x14 , x39 }.
S
Предположим, что hi = 0, i = 1, 2, 3 для всех вершин x ∈ Pi P4 , т.е
мгновенные выигрыши отличны от нуля только в окончательных позициях. Выигрыши записаны в окончательных позициях, причем в каждом столбце верхнее число есть выигрыш игрока 1 и т.д. Предположим, что множество допустимых разбиений игроков N = {1, 2, 3} на
коалиции имеет вид ∆ = {∆1 , ∆2 , ∆3 }, ∆1 = {1}, {3, 2}; ∆2 = {1, 2, 3};
∆3 = {1, 3}, {2}. Пусть в вершинах x ∈ Z(x0 ) заданы переходные вероятности p(x1 ), p(x2 ), p(x3 ), p(x1 ) + p(x2 ) + p(x3 ) = 1, p(x1 ) = p(x3 ) = 61 ;
p(x2 ) = 23 . Пусть ∆(x1 ) = {1}, {3, 2}; ∆(x2 ) = {1, 2, 3}; ∆(x3 ) = {1, 3}, {2}.
Аналогично в вершинах x ∈ Z(x14 ) заданы переходные вероятности
p(x20 ) = p(x22 ) = 16 ; p(x21 ) = 23 , ∆(x20 ) = {1}, {3, 2}; ∆(x21 ) = {1, 2, 3};
∆(x22 ) = {1, 3}, {2}. В вершинах x ∈ Z(x19 ) заданы переходные вероятно202
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.13.
Характеристические функции вспомогательных игр
Рис. 3.10. Дерево игры с переменным коалиционным разбиением.
сти p(x23 ) = p(x25 ) = 16 ; p(x24 ) = 23 , ∆(x23 ) = {1}, {3, 2}; ∆(x24 ) = {1, 2, 3};
∆(x25 ) = {1, 3}, {2}.
Построим оптимальный «пучок» в игре Γ(x0 ). Процедура построения
оптимального «пучка» начинается в окончательных позициях x38 , x39 , x40 ,
x41 , x42 , x43 . Рассмотрим подыгры на деревьях K(x33 ), K(x35 ), K(x37 ).
203
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Разбиение ∆(x33 ) = ∆(x38 ) = ∆(x39 ). В позиции x33 ходит игрок 3. Игрок
3 ∈ {3, 2} ⊂ ∆(x33 ).
h2 (x38 ) + h3 (x38 ) = 5 > h2 (x39 ) + h3 (x39 ) = 4.
Следовательно, в позиции x33 игрок 3 выберет альтернативу, ведущую в
x38 . Тогда
r̄1 (x33 ) = (2, 3, 2)∗ ; r̄1 (x31 ) = (1, 1, 1)∗ .
Разбиение ∆(x35 ) = ∆(x40 ) = ∆(x41 ). В позиции x35 ходит игрок 3. Игрок
3 ∈ {1, 2, 3} ∈ ∆(x35 ).
h1 (x40 ) + h2 (x40 ) + h3 (x40 ) = 6 < h1 (x41 ) + h2 (x41 ) + h3 (x41 ) = 8.
Следовательно, в позиции x35 для игрока 3 оптимальным является выбор
альтернативы x41 . Тогда
r̄1 (x35 ) = (3, 4, 1)∗ ; r̄1 (x34 ) = (1, 3, 1)∗ .
Разбиение ∆(x37 ) = ∆(x42 ) = ∆(x43 ). В позиции x37 ходит игрок 3. Игрок
3 ∈ {1, 3} ⊂ ∆(x33 ).
h1 (x42 ) + h3 (x42 ) = 2 > h1 (x43 ) + h3 (x43 ) = 1.
Таким образом, r̄1 (x37 ) = (1, 1, 1)∗ , r̄1 (x36 ) = (0, 0, 1)∗ и в x37 игрок 3
выберет альтернативу x42 .
Рассмотрим подыгры на деревьях G(x27 ), G(x29 ), G(x31 ). Имеем
∆(x27 ) = ∆(x31 ) = ∆(x33 ). В позиции x27 ходит игрок 2. 2 ∈ {3, 2} ∈
∆(x31 ). Так как
r̄21 (x32 ) + r̄31 (x32 ) < r̄21 (x33 ) + r̄31 (x33 ) = 5,
то в x27 игрок 2 выберет альтернативу x33 и
r̄2 (x27 ) = (2, 3, 2)∗ , r̄2 (x26 ) = (0, 2, 2)∗ .
Действуя аналогично, получим, что
r̄2 (x29 ) = (3, 4, 1)∗ , r̄2 (x28 ) = (0, 5, 0)∗ ;
r̄2 (x31 ) = (1, 1, 1)∗ , r̄2 (x30 ) = (0, 1, 1)∗ .
Рассмотрим подыгры на деревьях G(x27 ), G(x29 ), G(x31 ). Имеем
∆(x27 ) = ∆(x31 ) = ∆(x33 ). В позиции x24 ходит игрок 1. Игрок 1 ∈ {1} ∈
∆(x23 ). Так как
r̄12 (x26 ) = 0 < r̄12 (x27 ) = 2,
204
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.13.
Характеристические функции вспомогательных игр
то в позиции x23 игрок 1 выберет альтернативу x27 . Тогда
r̄3 (x23 ) = (2, 3, 2)∗ .
Рассуждая аналогично, получим:
r̄3 (x24 ) = (3, 4, 1)∗ ; r̄3 (x25 ) = (1, 1, 1)∗ .
Рассмотрим подыгру на поддереве G(x19 ). В позиции x19 ходит случай.
∆(x29 ) = {3, 2}, {1}. Выберем коалицию {3, 2} ∈ ∆(x23 ) и рассмотрим
кооперативную игру G(x23 , {3, 2}) 2-х лиц с характеристической функцией
v(x23 , R), R ⊂ {3, 2}. Построим характеристическую функцию v(x23 , R),
R ⊂ {3, 2}.
v(x23 , {3, 2}) = 5, v(x23 , {3}) = 1, v(x23 , {2}) = 2.
Тогда в позиции x23 : Sh2 ({3, 2}, x23 ) = 3; Sh3 ({3, 2}, x23 ) = 2;
{∆(x23 )\{3, 2}} = {1}. Тогда Sh1 ({1}, x23 ) = 2. Построим вектор
SP M S(x23 ).
SP M S 1 (x23 ) = Sh1 ({1}, x23 ) = 2,
SP M S 2 (x23 ) = Sh2 ({3, 2}, x23 ) = 3,
SP M S 3 (x23 ) = Sh3 ({3, 2}, x23 ) = 2.
Таким образом,
SP M S(x23 ) = (2, 3, 2).
∆(x24 )
=
{1, 2, 3}.
Рассмотрим
кооперативную
игру
G(x24 , {1, 2, 3}) 3-х лиц с характеристической функцией v(x24 , R),
R ⊂ {1, 2, 3}. Построим характеристическую функцию v(x24 , R),
R ⊂ {1, 2, 3}.
v(x24 , {1, 2, 3}) = 8, v(x24 , {1, 2}) = 6, v(x24 , {2, 3}) = 5,
v(x24 , {1, 3}) = 2, v(x24 , {1}) = 1, v(x24 , {2}) = 4, v(x24 , {3}) = 0.
Тогда в позиции x24 : Sh1 ({1, 2, 3}, x24 ) = 2; Sh2 ({1, 2, 3}, x24 ) = 5;
Sh3 ({1, 2, 3}, x24 ) = 1;
SP M S 1 (x24 ) = Sh1 ({1, 2, 3}, x24 ) = 2,
SP M S 2 (x24 ) = Sh2 ({1, 2, 3}, x24 ) = 5,
SP M S 3 (x24 ) = Sh3 ({1, 2, 3}, x24 ) = 1.
205
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Тогда
SP M S(x24 ) = (2, 5, 1).
Действуя аналогично, получим
1
3
SP M S(x25 ) = ( , 1, ).
2
2
Тогда
P M S 1 (x19 ) = p(x23 ) · SP M S 1 (x23 ) + p (x24 ) · SP M S(x24 )+
+p (x25 ) · SP M S 1 (x25 ) = 21
12 ;
P M S 2 (x19 ) = p(x23 ) · SP M S 2 (x23 ) + p (x24 ) · SP M S 2 (x24 )+
+p (x25 ) · SP M S 2 (x25 ) = 48
12 ;
P M S 3 (x19 ) = p(x23 ) · SP M S 3 (x23 ) + p (x24 ) · SP M S 3 (x24 )+
+p (x25 ) · SP M S 3 (x25 ) = 15
12 .
Таким образом,
r̄4 (x19 ) = (
21 48 15 ∗ 4
, , ) ; r̄ (x16 ) = (0, 1, 1)∗ , r̄4 (x17 ) = (0, 0, 0)∗ ,
12 12 12
r̄4 (x18 ) = (1, 4, 1)∗ , r̄4 (x20 ) = (0, 3, 0)∗ , r̄4 (x21 ) = (3, 0, 0)∗ ,
r̄4 (x22 ) = (0, 0, 0)∗ .
Опустим детальное изложение последующих шагов. Продолжая двигаться к корню игры x0 и рассуждая аналогично, мы достигнем позиции
x0 . Поскольку в позиции x0 ходит случай (x0 ∈ P4 ),
r̄8 = (
91 73 46 ∗
, , ) ,
36 36 36
то выигрыши при движении вдоль оптимального пучка совпадают с
P M S-вектором для всей игры. Оптимальный «пучок» на рис. 3.10 отмечен жирной линией.
§ 3.14.
Многошаговая игра выбора правления
Рассмотрим одно интересное приложение рассмотренных игр n лиц. Пусть
n независимых компаний, объединенных в концерн, собираются выбрать
правление концерна. Обозначим через ai число избирателей в компании
Ai , i ∈ N = {1, 2, . . . , n} и будем называть ai весом компании Ai в концерне.
206
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.14. Многошаговая игра выбора правления
Каждая компания предлагает одного кандидата для участия в выборах, bi ∈ Ai , i = 1, . . . , n. Таким образом, имеем n кандидатов
(b1 , . . . , bi , . . . , bn ), где bi — кандидат компании Ai , i = 1, . . . , n.
Каждый избиратель решает «да» или «нет» относительно каждого из
кандидатов. Итогом голосования будет n-мерный вектор, i-я компонента
которого принимает одно из значений: «да» или «нет». Например, бюллетень избирателя после голосования может выглядеть так: (да, нет,. . . ,
да, . . . , нет). Кандидат bi считается P
выбранным в правление, если за него
1
отдано более половины голосов > 2 ni=1 ai «да»).
Предположим, что правление выбрано. Обозначим его B = {bi : i ∈
∈ S ⊂ N }. Правление B получает выигрыш K, который не зависит от
числа его членов.
Причем
P
P
K > 0, если i∈S ai = a(S) > 12 i∈N ai = a(N )/2, и
K = 0, если a(S) ≤ a(N )/2.
Этот выигрыш делится между членами правления пропорционально
весу компаний, представленных в нем, т. е. выигрыш члена bi (или, что то
же самое, компании Ai ) составляет
ai
(3.110)
βi = P K,
ai
если мы обозначим
P
i∈S
i∈S
ai = a(S), то равенство перепишется в виде
βi =
ai
K, βi = 0, i ∈
/ S.
a(S)
(3.111)
Проблема состоит в том, как следует голосовать избирателям, каков
оптимальный размер правления и набор его членов. Построим теоретикоигровую модель и рассмотрим два различных подхода, каждый из которых приводит к равновесию по Нэшу в специально сконструированной
многошаговой игре с полной информацией.
Рассмотрим такие множества Ŝ (коалиции), Ŝ ⊂ N , для которых выполнено следующее условие:
a(Ŝ) >
a(N )
,
2
(3.112)
P
P
где a(Ŝ) = i∈Ŝ ai , a(N ) = i∈N ai .
Такие коалиции Ŝ будем называть допустимыми.
Обозначим через S минимальную допустимую коалицию, т.е.
a(S) = min a(Ŝ),
(3.113)
Ŝ
207
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
где Ŝ удовлетворяют условию (3.112). Множества B = {bi , i ∈ S} и
B̂ = {bi , i ∈ Ŝ} назовем, соответственно, оптимальным правлением и минимальным правлением.
Коалиция S включает в себя более половины избирателей и, в то же
время, является минимальной из всех коалиций, удовлетворяющих этому условию. Понятно, что коалиция S, определяемая из условий (3.112)–
(3.113), не единственная. Однако члены некоторой фиксированной коалиции S не заинтересованы в том, чтобы к ним присоединялись другие
участники, так как в этом случае выигрыш каждого из членов уменьшится (см. (3.110)–(3.111)).
Как же должны вести себя члены коалиции S, чтобы обеспечить формирование правления из представителей S?
Предположим, что каждая компания Ai решает, как голосовать каждому из своих избирателей. В этом случае, если все избиратели из ∪i∈S Ai
проголосуют «да» относительно кандидатов из Ai , i ∈ S и «нет» относительно всех остальных кандидатов, то желаемое правление будет избрано.
Рассмотрим одновременную игру голосования Γ. Множество игроков
в этой игре будет представлять собой множество всех избирателей. Число игроков равно n = a(N ). Каждый игрок l имеет 2n стратегий. Множество стратегий избирателя l состоит из всевозможных векторов вида
αl = {α1l , . . . , αil , . . . , αnl }, где αil принимает одно из значений: «да», «нет».
В ситуации α = (α1 , . . . , αl , . . . , αn ) результат выборов определяется следующим образом: если общее количество «да», стоящих на i-м месте, по
всем стратегиям игроков больше a(N )/2, то кандидат компании Ai считается избранным. В противном случае кандидат не проходит в правление.
Предположим, что в ситуации α правление B = {bi , i ∈ S} выбрано, коалиция S является допустимой. Каждый избиратель l из компании
Ai , i ∈ S, выигрывают сумму
kl (α) = P
K
i∈S
ai
=
K
, l ∈ Ai , i ∈ S.
a(S)
(3.114)
Выигрыши остальных игроков равны нулю. Если коалиция S не является
допустимой, то полагаем выигрыши всех игроков равными нулю.
Построим равновесие по Нэшу в игре Γ. Предположим, что множество
S определено из условий (3.112), (3.113). Если l ∈ Ai , i ∈ S, то в стратегии
αl игрока (избирателя)
½ l
αi = «да»,
если i ∈ S;
αli = «нет», еcли i ∈
/ S.
Для l ∈
/ Ai , i ∈ S, стратегии αl произвольные.
208
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.14. Многошаговая игра выбора правления
Теорема 3.14.1. Ситуация α = (α1 , . . . , αn ) есть равновесие по Нэшу в
игре Γ.
Д о к а з а т е л ь с т в о. Выигрыш kl , если разыгрывается ситуация
α, равен
K
kl (α) =
(3.115)
для l ∈ Ai , i ∈ S,
a(S)
kl (α) = 0 для l ∈ Aj , j ∈
/ S.
(3.116)
kl (α||αl ) ≤ kl (α), l = 1, . . . , n.
(3.117)
Покажем, что
Предположим, что l ∈ Ak , k ∈ S. Если изменение в рассматриваемой
стратегии αl на αl изменит результат голосования, то необходимо рассмотреть два варианта:
А. Пусть кандидат bk ∈ Ak побеждает на выборах, т. е. bk ∈ B̂, где B̂
— новое правление, избранное в ситуации (α||αl ). Если a(Ŝ) > a(N )/2, где
Ŝ = {i : bi ∈ B̂}, то kl (α||αl ) = K/a(Ŝ). Так как Ŝ не обязательно является минимальной допустимой коалицией, то a(Ŝ) ≥ a(S), и из формулы
(3.115) следует неравенство (3.117).
Б. Пусть кандидат bk ∈ Ak не побеждает на выборах. Следовательно,
bk ∈
/ B̂, где B̂ — новое правление, избираемое в ситуации (α||αl ). Из (3.116)
имеем: kl (α||αl ) = 0. Таким образом, неравенство (3.117) выполняется и в
этом случае.
Предположим теперь, что l ∈ Ak , k ∈
/ S. В данном случае изменение
стратегии игроком l не приведет к изменению минимальной допустимой
коалиции и самого правления. Таким образом, в ситуации (α||αl ) компания Ak не будет представлена в правлении и, следовательно, kl (α||αl ) = 0.
Итак, мы показали, что отклонение любого игрока от стратегии не
приведет к увеличению его выигрыша. Следовательно, ситуация является
равновесием по Нэшу. Теорема доказана.
Из теоремы следует, что для различных минимальных допустимых
коалиций S мы получим различные равновесия по Нэшу.
Рассмотрим многошаговую игру n лиц G с полной информацией.
Под множеством игроков будем понимать множество всех компаний:
A1 , . . . , Ai , . . . , An . Пусть N = {1, . . . , i, . . . , n}. Любое подмножество S ⊂
N назовем коалицией в игре G. Иногда вместо Ai нам будет удобнее писать
i. В данном параграфе предлагаемая модель формирования коалиции будет описана с помощью блок-схемы рис. 3.11 (Д — «да», Н — «нет»).
Для любой игры голосования Γ модель порождает конечную игру G(Γ)
с полной информацией.
209
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Процесс формирования коалиции представлен как последовательность
шагов. Рассмотрим подробно описание блок-схемы.
Блок 2. M — множество активных игроков, т. е. тех, которые еще ни
разу не ходили. В начале игры M = N — множеству игроков; S — множество игроков, которые собираются сформировать коалицию. В начале
S — пустое множество, r — номер текущего шага. Игра начинается на
первом шаге.
Блок 3. Любой игрок i из множества M может быть выбран в качестве
принимающего решение с одной и той же вероятностью.
Блок 4. Принимающий решение игрок i исключается из множества
активных игроков.
Блок 5. Принимающий решение игрок i либо соглашается вступить в
коалицию S, либо отказывается.
Блок 6. Игрок i принимает решение вступить в коалицию S.
Блок 7. Принимающий решение может быть последним из активных
игроков или не последним.
Блок 8. Игрок i — последний из активных игроков. Проверяем, является сформировавшаяся коалиция допустимой, т. е. a(S) > a(N )/2, или
нет.
Блок 9. S — допустимая коалиция, и каждый игрок получает выигрыш
hj = aj /a(S) · K, Aj ∈ S; hj = 0, Aj ∈
/ S.
Блок 10. i — не последний из активных игроков. Он может либо пригласить очередного участника в коалицию S, либо отказаться от этого и
завершить формирование коалиции.
Блок 11. Игрок i выбирает следующего принимающего решение игрока
j — Aj . Переименовываем его: игрок j становится игроком i. Начинается
новый шаг.
Блок 12. Игрок i отказывается выбирать следующего принимающего
решение. Коалиция S сформирована. Проверяем, является ли она допустимой:
a(N )
?
a(S) >
2
Блок 13. Принимающий решение игрок i не захотел войти в коалицию
S. Проверяем, является ли S допустимой.
Блок 14. Условие допустимости не выполнено, т. е. a(S) ≤ a(N )/2. У
игрока i есть две альтернативы: он может либо предложить сформировать
другую коалицию, включающую его самого, либо выйти из игры.
Блок 15. Игрок i решает сформировать новую коалицию, включающую его самого и некоторых из оставшихся активных игроков. Он выбирает следующего принимающего решение игрока j ∈ M .
210
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.14. Многошаговая игра выбора правления
Блок 16. Игрок i выходит из игры. Члены коалиции S исключаются
из игры (S = ∅).
Блок 17. Если игрок i был последним активным игроком, то игра заканчивается. Если нет — игра продолжается с новым множеством активных игроков M .
Блок 18. Начинается новый шаг.
Блок-схема (рис. 3.11) содержит все необходимое для построения
многошаговой игры G(Γ) с полной информацией, моделирующей формирование коалиции. Введем понятия позиции, стратегии, историй,
множества альтернатив и выигрышей.
П о з и ц и и. Начальная позиция u0 = N состоит из множества всех игроков в игре G(Γ). Если на предыдущем шаге игрок i был выбран случайно или приглашен в коалицию предшествующим принимающим решение игроком, то позиция — это совокупность
трех элементов u = (M, S, i), где M — множество активных игроков,
S — формирующаяся коалиция, i — принимающий решение игрок.
Если на предыдущей позиции принимающий решение игрок вышел из
игры или отказался продолжить формирование коалиции, то позицией назовем совокупность u = (M, S, Ri ), где M — множество активных игроков,
S — сформировавшаяся коалиция, Ri — отказ i-го игрока на предыдущей
позиции.
М н о ж е с т в о а л ь т е р н а т и в A(u). В начальной позиции u0
множество альтернатив совпадает с множеством игроков N в игре G(Γ)
и выбор принимающего решение осуществляется с вероятностью 1/|N |. В
позиции u = (M, S, i) множество A(u) состоит из следующих альтернатив:
а) {R} — выйти из игры;
б) {RYk , k ∈ M } — отказаться войти в коалицию S, решить сформировать новую коалицию, включтв в нее себя, и предложить игроку k ∈ M
войти в эту коалицию, выбрав его в качестве следующего принимающего
решение;
в) {Y R} — согласиться войти в коалицию S, но отказаться пригласить
в нее других игроков, т. е. завершить формирование коалиции S;
г) {Y Yk , k ∈ M } — согласиться войти в коалицию S и пригласить в нее
игрока k ∈ M , выбрав его в качестве следующего принимающего решение.
В позиции u = (M, S, Ri ) множество альтернатив A(u) = M и выбор
1
следующего ходящего осуществляется с вероятностью |M
| , если S = ®
или a(S) ≤ a(N )/2. Если a(S) > a(N )/2, то такая позиция u = (M, S, Ri )
является терминальной (или конечной) и A(u) = ®.
211
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Итак,

{R} ∪ {RYk , k ∈ M } ∪ {Y R} ∪ {Y Yk , k ∈ M },







M,
A(u) =




 N,


если u = (M, S, i),
если u = (M, S, Ri ),
если u = u0 .
И с т о р и и. История q игры G(Γ) есть последовательность позиций
q = (u0 , . . . , uT ), где ut+1 ∈ A(ut ) для t = 0, . . . , T − 1. Если позиция
uT является терминальной, то такую историю назовем оканчивающейся.
Множество всех историй обозначим Q.
П а р т и я. Партия z определяется как оканчивающаяся история q =
(u0 , . . . , uT ), вместе с терминальным выбором aT ∈ A(uT ) в ее последней
позиции: z = (u0 , . . . , uT ; aT ). Множество всех партий обозначим Z.
В ы и г р ы ш и. Выигрыш hi (z) игрока i определяется в конце партии
с помощью условий (3.111). Если в ходе игры в партии z не сформировалась допустимая коалиция, то hi (z) для каждого i ∈ N полагается равным
нулю.
С т р а т е г и и. Стратегия αi — это функция, которая ставит в соответствие каждой позиции, где игрок i принимает решение, единственную
альтернативу.
Ф у н к ц и я в ы и г р ы ш а. В ситуации α = (α1 , . . . , αi , . . . , αn )
функция выигрыша определена как математическое ожидание выигрыша
hi (z), если игроки используют стратегии α1 , . . . , αi , . . . , αn .
Табл. 3.2 показывает, какие позиции могут последовать за некоторой
позицией u в зависимости от выбираемых альтернатив a ∈ A(u) и условий, налагаемых на этот выбор и саму позицию. Множество всех позиций,
которые могут последовать за позицией u в зависимости от выбора A(u),
обозначим через D(u, a). Если D(u, a) = ®, то из данной позиции u мы
выходим на «конец» (см. рис. 3.11) и игра заканчивается, т. е. данная позиция u терминальная, а D(u) – объединение D(u, a) при всевозможных
a ∈ A(u).
Зафиксируем S — произвольную минимальную допустимую коалицию. Определим набор стратегий (α1 , . . . , αi , . . . , αn ). Если i ∈
/ S, то αi —
произвольная стратегия. Предположим, что i ∈ S. В позиции u = (M, S, i)
(i ∈ S — принимающий решение игрок) игрок i решает сформировать новую коалицию (если S ∩S = ®), включив в нее себя и приглашая войти туда остальных игроков из S, выбрав одного из них в качестве принимающего решение (т. е. отказывается формировать коалицию S). Если S ∩S 6= ®,
то игрок i соглашается войти в коалицию S и, если (M \ i) ∩ S 6= ®, то
212
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.14. Многошаговая игра выбора правления
он приглашает любого из игроков k ∈ (M \ i) ∩ S войти в S, выбрав его в
качестве следующего принимающего решение. Если (M \ i) ∩ S = ®, игрок
входит в коалицию S и отказывается выбирать следующего принимающего решение, т. е. завершает формирование коалиции.
Таблица 3.2
Условие на позиции
Начальная
позиция
Принимающий
решение игрок i
выбран предыдущим игроком
Выборы
Случайно выбираем
игрока i ∈ M
R
RYk , k ∈ M
YR
Условие
на выбор
—
M 6= ®
M =®
—
a(S) ≥
a(S) <
Предыдущий
принимающий
решение игрок
вышел из игры
Предыдущий
принимающий
решение
отказывается
продолжать
формирование
коалиции
a(N )
2
a(N )
2
Y Yk , k ∈ M
—
Случайно выбираем
игрока i ∈ M
M 6= ®
M =®
Случайно выбираем
игрока i ∈ M
Следующия
позиция
(M, S, i),
где i ∈ M
(M, S, Rj )
где j ∈ M
Конец
(M, i, k),
где k ∈ M
Конец
(M, ®, Ri )
где i ∈ M
(M, S, k)
где k ∈ M
(M, ®, i),
где i ∈ M
Конец
a(S) >
a(N )
2
Конец
a(S) ≤
a(N )
2
(M, ®, i),
где i ∈ M
Теорема 3.14.2. Ситуация (α1 , . . . , αi , . . . , αn ) является равновесием по
Нэшу в игре G.
Д о к а з а т е л ь с т в о. Вычислим выигрыш в ситуации
(α1 , . . . , αi , . . . , αn ). Из построения стратегий αi следует, что в ситуации α
коалиция S обязательно будет сформирована. В этом случае выигрыши
213
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
Рис. 3.11. Блок-схема игры, моделирующей формирование коалиций.
214
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.15.. Игра распределения по корзинам
игроков будут следующими:
Kai
если i ∈ S,
a(S)
ki (α) = 0, если i ∈
/ S.
ki (α) =
(3.118)
Рассмотрим ситуацию (α||αi ). Если i ∈
/ S, то игрок i не может помешать
формированию коалиции S в ситуации (α||αi ). Таким образом, ki (α) =
ki (α||αi ) = 0.
Предположим теперь, что i ∈ S. При этом вполне возможно, что в
ситуации (α||αi ) сформируется коалиция, отличающаяся от S. Но она
принесет игроку i меньший выигрыш, чем S (в силу структуры коалиции S, выигрыш игрока, вошедшего в нее, максимален). Таким образом,
ki (α||αi ) ≤ ki (α) i ∈ S. Теорема доказана.
Абсолютность данного равновесия может быть доказана аналогичными рассуждениями для каждой подыгры.
§ 3.15.
Игра распределения по корзинам
Рассмотрим кооперативную игру, называемую в литературе «игрой распределения по корзинам». Само название говорит о комбинаторном характере, который носит игра, и объясняет ее суть: происходит распределение
предметов (природа их не существенна для решения задач, которые будут
поставлены) по корзинам (или по емкостям, способным вмещать распределяемые предметы).
Пусть количество предметов n, корзин m, размер i-го предмета ai ,
i = 1, n; размер j-й корзины bj , j = 1, m. Будем предполагать, что ai ≤ bj
для всех i, j, т. е. всякий предмет может вместиться в любую корзину.
Игроками считаются владельцы предметов и владельцы корзин. Каждый
игрок — владелец одной корзины или предмета. Обозначим через N общее
число игроков, |N | = n + m.
Рассмотрим игру в кооперативной форме. Обозначим подмножество
множества предметов через A, подмножество множества корзин — через
B, A ⊆ {1, . . . , n}, B ⊆ {1, . . . , m}.
Обозначим через Aj множество предметов из A, упакованных в корзину Bj .
Характеристическая функция v(S), S = A ∪ B, S ⊂ N , определяется как максимум общего размера предметов из A, которые могут быть
упакованы в корзины из множества B, т.е.
XX
v(S) = max
ai ,
(3.119)
j∈B i∈Aj
215
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
где максимум берется по всевозможным
распределениям множества A по
P
ai ≤ bj , j ∈ B.
B подмножествам Aj , таким, что
i∈Aj
Множества Aj , таким образом, представляют всевозможные распределения множества A такие, что каждое Aj содержит набор предметов,
общий размер которых не превышает bj (т. е. которые могут уместиться в
корзину j).
Если же коалиция S состоит только из владельцев предметов или только из владельцев корзин, то v(S) = 0.
Большая коалиция N может гарантировать своим участникам (иначе
говоря, всем игрокам, когда они действуют совместно) общий выигрыш
v(N ) = max
m X
X
ai .
(3.120)
j=1 i∈Aj
Обратим внимание на то, что в формулах (3.119), (3.120) максимум,
как отмечалось выше, берется по всевозможным Aj , j = 1, m.
Данную игру можно рассматривать как многошаговую игру с полной
информацией с числом шагов m, где на каждом шаге j ходит игрок j
(владелец корзины) и выбирает неразмещенные предметы для заполнения
(корзины размером bj ).
Кооперативный вариант игры предполагает, что заполнение корзин
происходит вдоль оптимального пути (т. е. при использовании оптимального способа заполнения).
Обозначим через A1 , A2 , . . ., Am один из возможных оптимальных путей (т. е. оптимальных способов распределения общего числа предметов
по m корзинам). Динамическая процедура заполнения корзин состоит в
следующем. Корзины заполняются последовательно одна за другой. Множество A1 — множество тех предметов, которые оптимальным образом
заполняют первую корзину; на шаге j происходит заполнение корзины
j предметами из Aj ; множество Am содержит предметы, заполняющие
оптимальным образом корзину m вдоль выбранного оптимального пути.
Выбор такого способа заполнения корзин можно оправдать, если представить продуктовый склад и, к примеру, грузовые машины с различными
вмещающими способностями, которые доставляют товары с этого склада
потребителям. В каждый момент загружается только одна машина (скажем, они прибывают по очереди). Ставится вопрос: зная размеры продуктов и вмещающие способности машин, как следует производить загрузку,
чтобы максимальным образом освободить склад (погрузить товары, общий размер которых наибольший).
216
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.15. Игра распределения по корзинам
В качестве принципа оптимальности рассмотрим вектор Шепли. Вопрос формулируется следующим образом: будет ли распределение общего
выигрыша между игроками в соответствии с вектором Шепли вдоль описанного выше оптимального пути реализуемым?
Итак, A1 , A2 , . . ., Am — оптимальный путь, или оптимальный способ
заполнения корзин. Вектор оптимального заполнения A1 , A2 , . . ., Am доставляет максимум в формуле (3.120). Тогда значение игры v(N ) имеет
вид
m X
m X
X
X
v(N ) = max
ai .
(3.121)
ai =
j=1 i∈Aj
j=1 i∈Aj
S
Обозначим через A множество всех предметов, A = nj=1 Aj . Согласно
определению векторы Шепли [Shapley, 1953], выигрыш i-го игрока определяется по формуле
X (s − 1)!(n + m − s)! £
¤
shi (∅, A) =
v(S) − v(S \ {i}) ,
(3.122)
(n + m)!
i∈S
S:S⊂N
где shi (∅, A) — i-я компонента вектора Шепли на начало игры, на первом
месте в скобках стоит множество заполненных корзин (пустое на момент
начала игры), на втором — множество еще не размещенных предметов
(т. е. множество, из которого производится дальнейшее размещение).
Обозначим игру распределения всех предметов A между m корзинами
через Γ(m). Результатом первого шага является заполненная оптимальным способом первая корзина. Второй шаг — заполнение m − 1 корзины
предметами из множества, оставшегося после заполнения первой, т. е. из
множества A \ A1 . Обозначим эту уже подыгру через Γ(m − 1).
Пусть через v(S; 1) обозначается характеристическая функция (S ⊂
N ) в подыгре Γ(m−1), т. е. когда одна корзина уже заполнена. Обозначим
через B 1 корзину размером b1 , через B — множество всех корзин. Тогда
в подыгре Γ(m − 1), характеристическая функция v(S; 1) определяется по
формуле
X
X
v(S; 1) = max
ai ,
j∈B⊂B\B 1
i∈Aj
Aj ⊂A\A1
где S = A ∪ B ⊂ N \ (B 1 ∪ A1 )
Здесь, как и ранее, Aj — множество предметов из A, упакованных в
корзину Bj .
Для произвольного T ⊂ N значение v(T ; 1) определяется следующим
образом:
v(T ; 1) = v(S; 1),
217
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
где S = T ∩ [N \ B 1 ∩ A1 ].
Найдем i-ю компоненту вектора Шепли в подыгре Γ(m − 1):
=
X
S3i
S:S⊂N \(B 1 ∪A1 )
где l = |A \ A1 |,
shi (B 1 , A \ A1 ) =
·
¸
(s − 1)!(l + m − 1 − s)!
v(S; 1) − v(S \ {i}; 1) ,
(l + m − 1)!
s = |S|,
B 1 — корзина размера b1 .
Shi (B 1 , A \ A1 ) = 0
для i ∈ B 1 ∪ A1 .
S
Введем следующие обозначения: Ãk = kj=1 Aj , B̃k = {B 1 , . . . , B k };
Ãk — множество предметов, заполнивших корзины j = 1, 2, . . . , k на соответствующих шагах; B̃k — множество корзин, заполненных на шагах
j = 1, 2, . . . , k.
Через v(S; k) далее всюду обозначается характеристическая
функция коалиции S в подыгре Γ(m − k) ∀S = A ∪ B ⊂ N \ (B̃k ∪ Ãk ).
Очевидно, v(S; k) определяется по формуле
X
X
v(S; k) = max
ai
j∈B⊂B\B̃k
i∈Aj
Aj ⊂A\Ãk
(Aj — множество предметов из A, упакованных в корзину Bj ).
Для произвольного T ⊂ N , v(T ; k) определяется следующим образом.
Пусть
S = T ∩ [N \ (B̃k ∪ Ãk )],
тогда
v(T ; k) = v(S; k),
где v(S; k) определено выше.
Таким образом, на k-м шаге образуется подыгра Γ(m − k), вектор Шепли в которой определяется формулой:
¸
X (s−1)!(l+m−k−s)! ·
× v(S; k)−v(S \ {i}; k) ,
shi (B̃k , A \ Ãk ) =
(l + m − k)!
S3i
S:S⊂N \(B̃k ∪Ãk )
(3.123)
где l = |A \ Ãk |,
s = |S|.
Из (3.123) следует, что Shi (B̃k , A \ Ãk ) = 0 для i ∈ B̃k ∪ Ãk .
Применим определение динамической устойчивости вектора Шепли к
рассматриваемой здесь игре.
218
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.15. Игра распределения по корзинам
Определение 3.15.1. Вектор Шепли {shi (∅; A)}, i = 1, 2, . . . , n + m,
динамически
устойчив
в
многошаговой
комбинаторной
игре
распределения
Γ(m),
если
существуют
вектор-функции
β(k) = {βi (k)}, βi (k) ≥ 0, i = 1, 2, . . . , n + m, k = 0, . . . , m − 1,
такие, что
shi (∅, A) =
k−1
X
βi (j) + shi (B̃k , A \ Ãk ), i = 1, . . . , n + m.
(3.124)
j=0
Нетрудно определить βi (k):
βi (k) = shi (B̃k , A \ Ãk ) − shi (B̃k+1 , A \ Ãk+1 ).
(3.125)
Вектор-функция β(k) как и в § 3.8. (определение 3.8.1), имеет смысл процедуры распределения дележа. Она необходима для
исследования принципа оптимальности на динамическую устойчивость. Процедура распределения определяет доходы игроков на
каждом шаге k, k = 0, . . . , m − 1 (в то время как принцип оптимальности
дает информацию о выигрыше в течение всей игры). Чтобы следовать вектору оптимального заполнения корзин A1 , . . . , Am , игроки должны быть
уверены в том, что их будущие доходы останутся оптимальными в том
же смысле, в каком был определен оптимальный доход в начальной игре Γ(m). И это как раз то, что невозможно выяснить, зная лишь доход
во всей игре, поскольку, определенный в начале игры как оптимальный,
первоначальный способ распределения может не оказаться таковым на
каком-либо шаге k, что и будет означать динамическую неустойчивость
выбранного в начале игры принципа оптимальности.
Если на некотором шаге k для некоторого i окажеься, что βi (k) < 0, то
это будет означать динамическую неустойчивость выбранного принципа
оптимальности: в этом случае на шаге k игроку i придется возвращать
назад часть своего дохода, а такая перспектива едва ли может реализоваться на практике.
Итак, принятое в начале игры как оптимальное, распределение дохода
может перестать быть таковым. К сожалению, в большинстве случаев
вектор Шепли динамически неустойчив.
Можно показать, что в рассматриваемой нами игре распределения n
предметов по m корзинам вектор Шепли при определенных значениях
параметров задачи может быть динамически неустойчив.
Однако , опираясь на результаты § 3.8. и теорему 3.8.1, можно построить некий новый, «регуляризованный» вектор Шепли, который будет заведомо динамически устойчивым. Этот новый вектор Шепли основан на
219
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
«усовершенствовании» характеристической функции, о чем пойдет речь
в следующем разделе.
Введем следующее обозначение:
X
(3.126)
ai = a(Aj ).
i∈Aj
Тогда значение характеристической функции для большой коалиции N в
подыгре Γ(m − k) определяется как
v(N ; k) =
m
X
a(Aj ).
(3.127)
a(Aj+1 )
,
v(N ; j)
(3.128)
j=k+1
Введем новую функцию v(S), S ⊂ N :
v(S) =
m−1
X
v(S; j)
j=0
а для подыгры Γ(m − k), k = 1, . . . , m − 1:
v(S; k) =
m−1
X
j=k
v(S; j)
a(Aj+1 )
.
v(N ; j)
(3.129)
Предполагаем, что суммируются лишь те компоненты, для которых
v(N ; j) 6= 0.
Утверждение 3.15.1. Функция v(S), определяемая по формуле (3.128),
является характеристической функцией.
Д о к а з а т е л ь с т в о. Напомним определение характеристической
функции в применении к данной задаче.
Определение 3.15.2. Характеристическая функция v(S), S ⊂ N , в игре
Γ(m) определяется аксиоматически как вещественнозначная функция на
множестве всех коалиций S ⊂ N со следующими свойствами:
1) v(∅) = 0;
2) v(S1 ∪ S2 ) ≥ v(S1 ) + v(S2 ); S1 ⊂ N , S2 ⊂ N , S1 ∩ S2 = ∅;
m P
m
P
P
3) v(N ) =
ai =
a(Aj ).
j=1 i∈Aj
j=1
Для рассматриваемой нами функции v(S) первые два условия выполняются ввиду того, что v(S) является характеристической функцией.
Нетрудно показать, что и третье условие выполнено. Действительно,
220
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.15. Игра распределения по корзинам
v(N ) =
m−1
X
v(N ; j)
j=0
m−1
X
a(Aj+1 )
=
a(Aj+1 ).
v(N ; j)
j=0
Таким образом, утверждение доказано.
Введем вектор Шепли, соответствующий характеристической функции v(S).
Определение 3.15.3. Вектор Шепли, определенный для новой характеристической функции v(S), назовем «регуляризованным» вектором Ше˜ i (∅; A) и вычисляется согласно формуле:
пли. Он обозначается как sh
¸
X (s − 1)!(n + m − s)! ·
˜
shi (∅; A) =
v(S) − v(S \ {i}) ,
(3.130)
(n + m)!
S:S⊂N,
S3i
i = 1, . . . , n + m; s = |S|.
Теорема 3.15.1. Вектор Шепли, определенный для характеристической
функции (3.129), динамически устойчив в игре распределения Γ(m).
Д о к а з а т е л ь с т в о. Определим вектор-функцию βi (k), k =
0, . . . , m − 1, i = 1, . . . , n + m, по правилу:
βi (k) =
shi (B̃k ; A \ Ãk ) · a(Ak+1 )
.
m
P
a(Aj )
(3.131)
j=k+1
Очевидно, что βi (k) = 0 для i ∈ B̃k ∪ Ãk , т. к. в этом случае Shi (B̃k , A \
Ãk ) = 0.
Однако
·
¸
X
(s−1)!(l+m−k−s)!
shi (B̃k ; A \ Ãk ) =
× v(S; k)−v(S \ {i}; k) =
(l + m − k)!
S:S⊂N \(B̃k ∪Ãk ),S3i
¸
X (s − 1)!(n + m − s)! ·
=
v(S; k) − v(S \ {i}; k) ,
(n + m)!
S:S3i
l = |A \ Ãk |,
s = |S|.
Подставив (3.132) в (3.131), получим
X (s − 1)!(n + m − s)!
βi (k) =
×
(n + m)!
S:S3i
·
¸
a(Ak+1 )
× v(S; k) − v(S \ {i}; k) m
≥ 0,
P
a(Aj )
(3.132)
(3.133)
j=k+1
221
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
а согласно (3.129)
v(S; k) =
m−1
X
v(S; j)
j=k
=
m−1
X
j=k
a(Aj+1 )
=
v(N ; j)
a(Aj+1 )
v(S; j) m
.
P
a(Aγ )
(3.134)
γ=j+1
Используя проделанные выше выкладки, определим i-ю компоненту
регуляризованного вектора Шепли на шаге k:
˜ i (B̃k ; A \ Ãk ) =
sh
X (s − 1)!(n + m − s)!
×
(n + m)!
S:S3i
¸
·
× v(S; k) − v(S \ {i}; k) =
X (s − 1)!(n + m − s)!
×
(n + m)!
=
S:S3i
×
m−1
X·
j=1
=
m−1
X
¸
a(Aj+1 )
=
v(S; j) − v(S \ {i}; j)
v(N ; j)
¸
X (s − 1)!(n + m − s)! ·
a(Aj+1 )
v(S; j) − v(S \ {i}; j)
=
(n + m)!
v(N ; j)
j=1 S:S3i
=
m−1
X
j=k
Поскольку v(N ; j) =
m
P
γ=j+1
shi (B̃j ; A \ Ãj )
a(Aj+1 )
.
v(N ; j)
(3.135)
ai (Aγ ), то, согласно (3.131), под знаком суммы
в (3.135) стоит i-я компонентаPвектор-функции β(j) на j-м шаге. Сле˜ i (B̃k ; A \ Ãk ) = m−1 βi (j). Отсюда получаем sh
˜ i (∅; A) =
довательно, sh
j=k
Pm−1
P
k−1
˜
˜
j=0 βi (j). Таким образом, shi (∅; A) =
j=0 βi (j) + shi (B̃k ; A \ Ãk ), откуда следует (см. (3.124)) динамическая устойчивость регуляризованного
˜ i (∅; A). Теорема доказана.
вектора Шепли sh
Замечание 3.15.1. Рассмотренный здесь способ регуляризации принципов оптимальности не является единственным.
222
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 3.15. Игра распределения по корзинам
Вектор Шепли sh(∅; A) в игре размещения n предметов по m корзинам,
определяемый по формулам
m−1
1 X
shi (∅; A) =
shi (B̃k ; A \ Ãk ),
m
k=0
также динамически устойчив. Это следует из соответствующей вектору
Шепли shi (∅; A), i = 1, 2, . . . , n + m, процедуры распределения дележа,
которая определяется в этом случае следующим образом:
βi (k) =
1
shi (B̃k ; A \ Ãk ), k = 0, 1, . . . , m − 1.
m
223
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3. Динамические игры с полной информацией
224
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 4
Линейно-квадратичные дифференциальные игры
§ 4.1.
Принцип динамического программирования
Рассмотрим классическую задачу оптимального управления с одним критерием или с одним лицом, принимающим решение:
½Z T
¾
max
g [s, x (s) , u (s)] ds + q (x (T )) ,
(4.1)
u
t0
при условии, что переменная состояния x изменяется в соответствии с
дифференциальным уравнением:
ẋ (s) = f [s, x (s) , u (s)] ds,
x (t0 ) = x0 ,
(4.2)
где x (s) ∈ X ⊂ Rm и u ∈ U управление. Функции f [s, x, u], g [s, x, u] и
q (x) предполагаются дифференцируемыми.
Программное управление u∗ (t) (здесь U некоторое компактное множество в Rl ), доставляющее максимум функционалу (4.1), будем называть
оптимальным управлением.
Для определения оптимального управления задачи (4.1)–(4.2) используется техника динамического программирования и принцип максимума. Техника динамического программирования впервые была введена
Р. Беллманом [Bellman, 1957]. Его суть содержится в следующей теореме.
Теорема 4.1.1. Управление u∗ (t) = ϕ∗ (t, x) образует оптимальное решение задачи управления (4.1)–(4.2), если существует непрерывно-дифференцируемая
функция
V (t, x),
определенная
на
[t0 , T ] × Rm → R и удовлетворяющая следующему уравнению (уравнению Беллмана):
−Vt (t, x) = max {g [t, x, u] + Vx (t, x) f [t, x, u]} =
u
= {g [t, x, ϕ∗ (t, x)] + Vx (t, x) f [t, x, ϕ∗ (t, x)]} ,
V (T, x) = q (x) .
225
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Здесь Vt (t, x) и Vx (t, x) — частные производные функции V (t, x) по t и x
соответственно.
Д о к а з а т е л ь с т в о. Введем функцию Беллмана как значение
максимизируемого функционала (4.1), (4.2) при оптимальном управлении,
если задача решается из начального состояния x и начального момента
времени t. А именно,
·Z T
¸
V (t, x) = max
g (s, x (s) , u (s)) ds + q (x (T )) =
Z
u
T
=
t
g [s, x∗ (s) , ϕ∗ (s, x∗ (s))] ds + q (x∗ (T ))
t
при граничном условии
V (T, x∗ (T )) = q (x∗ (T )) ,
и условии
ẋ∗ (s) = f [s, x∗ (s) , ϕ∗ (s, x∗ (s))] ,
x∗ (t0 ) = x0 .
Если u (s) ∈ U некоторое другое управление, реализующее траекторию
x (s), то из условий теоремы 4.1.1 следует
g (t, x, u) + Vx (t, x) f (t, x, u) + Vt (t, x) ≤ 0,
g (t, x∗ , u∗ ) + Vx∗ (t, x∗ ) f (t, x∗ , u∗ ) + Vt (t, x∗ ) = 0.
Интегрируя указанное выражение на отрезке [t0 , T ], получаем
Z T
g (s, x (s) , u (s)) ds + V (T, x (T )) − V (t0 , x0 ) ≤ 0,
t0
T
Z
t0
g (s, x∗ (s) , u∗ (s)) ds + V (T, x∗ (T )) − V (t0 , x0 ) = 0.
Исключив V (t0 , x0 ), имеем
Z T
Z T
g (s, x (s) , u (s)) ds + q (x (T )) ≤ g (s, x∗ (s) , u∗ (s)) ds + q (x∗ (T )) ,
t0
t0
Откуда следует, что u∗ есть оптимальное управление.
Подставив оптимальное управление (стратегию) ϕ∗ (t, x) в (4.2), получим уравнение для оптимальной траектории в виде
ẋ (s) = f [s, x (s) , ϕ∗ (s, x (s))] ds,
226
x (t0 ) = x0 .
(4.3)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.1. Принцип динамического программирования
Обозначим через x∗ (t), t ∈ [t0 , T ] решение уравнения (4.3). Оптимальная траектория {x∗ (t)}Tt=t0 может быть записана в виде
Z t
∗
x (t) = x0 +
f [s, x∗ (s) , ϕ∗ (s, x∗ (s))] ds, t ∈ [t0 , T ].
(4.4)
t0
Для упрощения обозначений в дальнейшем наряду с обозначением
x∗ (t) для оптимальной траектории мы будем использовать обозначение
x∗t .
Функция Беллмана или функция значения V (t, x) из начального состояния на оптимальной траектории, т.е. при x = x∗t может быть записана
в виде
Z
V (t, x∗t ) =
T
g [s, x∗ (s) , ϕ∗ (s)] ds + q (x∗ (T )) .
t
Пример 4.1.1. Рассмотрим следующую задачу оптимального управления
½Z T
¾
h
i
2
max
exp [−rs] −x (s) − cu (s) ds + exp [−rT ] qx (T )
(4.5)
u
0
при условии
ẋ (s) = a − u (s) (x (s))1/2 ,
x (0) = x0 ,
u (s) ≥ 0,
(4.6)
где a, c, x0 , r, q — положительные вещественные числа.
Используя теорему 4.1.1 получаем
h
io
n£
¤
−Vt (t, x) = max −x − cu2 exp [−rt] + Vx (t, x) a − ux1/2 ,
и
u
V (T, x) = exp [−rT ] dx.
(4.7)
Легко видеть, что максимизирующее управление в (4.7) имеет вид
ϕ (t, x) =
−Vx (t, x) x1/2
exp [rt] .
2c
Подставляя ϕ (t, x) в (4.7) и решая, получаем
V (t, x) = exp [−rt] [A (t) x + B (t)] ,
где A (t) и B (t) удовлетворяют системе уравнений
A (t)2
+ 1,
4c
Ḃ (t) = rB (t) − aA (t) ,
Ȧ (t) = rA (t) −
227
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
при граничном условии
A (T ) = q,
B (T ) = 0.
Таким образом, оптимальное управление может быть найдено в явном
виде и определяется по формуле
ϕ (t, x) =
−A (t) x1/2
exp [rt] .
2c
Рассмотрим задачу оптимизации на бесконечном промежутке времени
с постоянным дисконтированием
½Z ∞
¾
max
g [x (s) , u (s)] exp [−r (s − t0 )] ds ,
(4.8)
u
t0
при условии
ẋ (s) = f [x (s) , u (s)] ds,
x (t0 ) = x0 .
(4.9)
Параметр s не входит явным образом в g [x (s) , u (s)]. Такие задачи
называются автономными задачами управления.
Рассмотрим теперь семейство задач подобного рода из любых начальных состояний, т. е. задачу
Z ∞
max
g [x (s) , u (s)] exp [−r (s − t)] ds,
(4.10)
u
t
при условии
ẋ (s) = f [x (s) , u (s)] ,
x (t) = x.
(4.11)
Задача (4.10)–(4.11) не зависит от выбора начального момента времени
t, а зависит лишь от состояния, в котором система находится в данный
момент, а именно от x.
Определим функцию значений или функцию Беллмана для задачи
(4.8)–(4.9) по аналогии с предыдущим случаем по формуле
¯
½Z ∞
¾
¯
∗
¯
V (t, x) = max
g [x (s) , u (s)] exp [−r (s − t0 )] ds¯ x (t) = x = xt ,
u
t
где x∗t — состояние системы в момент t на оптимальной траектории. Более
того, мы можем записать
V (t, x) =
½Z
= exp[−r(t − t0 )] max
u
228
¾
∞
g[x(s), u(s)] exp[−r(s − t)]ds|x(t) = x =
t
x∗t
.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.1. Принцип динамического программирования
Поскольку задача
¯
½Z ∞
¾
¯
∗
¯
max
g [x (s) , u (s)] exp [−r (s − t)] ds¯ x (t) = x = xt
u
t
зависит лишь от текущего состояния x, мы можем написать
¯
½Z ∞
¾
¯
∗
¯
W (x) = max
g [x (s) , u (s)] exp [−r (s − t)] ds¯ x (t) = x = xt .
u
t
Таким образом получаем
V (t, x) = exp [−r (t − t0 )] W (x) ,
Vt (t, x) = −r exp [−r (t − t0 )] W (x) ,
(4.12)
Vx (t, x) = −r exp [−r (t − t0 )] Wx (x) .
Подставляя выражение (4.12) в основную формулу теоремы 4.1.1, получаем
rW (x) = max {g [x, u] + Wx (x) f [x, u]} .
(4.13)
u
Поскольку время в (4.13) явно не присутствует, управление u является
функцией лишь от x. Получаем следующую теорему.
Теорема 4.1.2. Управление u = ϕ∗ (x) представляет собой оптимальное решение задачи на бесконечном промежутке времени (4.10)–(4.11),
если существует непрерывно-дифференцируемая функция W (x), определенная на Rm → R и удовлетворяющая следующему уравнению
rW (x) = max {g [x, u] + Wx (x) f [x, u]}
u
= {g [x, ϕ∗ (x)] + Wx (x) f [x, ϕ∗ (x)]} .
Подставляя оптимальное управление, полученное с использованием
теоремы 4.1.2 в (4.9), имеем уравнение для оптимальной траектории
ẋ (s) = f [x (s) , ϕ∗ (x (s))] ds,
x (t0 ) = x0 .
Отсюда можно получить выражение для оптимальной траектории
{x∗ (t)}t≥to в виде
Z
x∗ (t) = x0 +
t
t0
f [x∗ (s) , ϕ∗ (x∗ (s))] ds,
for t ≥ t0 .
Как и раньше будем обозначать x∗ (t) через x∗t . Оптимальное программное
управление в задаче на бесконечном промежутке времени (4.8) представимо в виде функции ϕ∗ (x∗t ), t ∈ [t0 , ∞).
229
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Пример 4.1.2. Рассмотрим задачу оптимального управления на бесконечном промежутке времени
Z ∞
h
i
max
exp [−rs] −x (s) − cu (s)2 ds
(4.14)
u
0
при условии (4.6).
Используя теорему 4.1.2, получаем
n£
h
io
¤
rW (x) = max −x − cu2 + Wx (x) a − ux1/2 .
u
(4.15)
Найдем максимизирующую функцию в (4.15). Она будет иметь вид
−Vx (x) x1/2
.
2c
Подставляя ϕ∗ (x) в (4.15) и решая, получаем
ϕ∗ (x) =
V (t, x) = exp [−rt] [Ax + B] ,
где A и B удовлетворяют уравнениям
A2
−a
+ 1, B =
A.
4c
r
Решая квадратное уравнение, найдем A.
h
¡
¢1/2 i
A = 2c r ± r2 + c−1
.
0 = rA −
Максимум достигается при отрицательном корне в выражении для A. Оптимальное управление имеет вид
ϕ∗ (x) =
−Ax1/2
.
2c
Подставляя ϕ∗ (x) = −Ax1/2 / (2c) в (4.6), получаем формулу для оптимальной траектории
ẋ (s) = a +
A
(x (s)) ,
2c
получаем
x (0) = x0 .
Решая
это
уравнение,
оптимальную
траекторию
∗
{x (t)}t≥t0 в явном виде
·
¸
µ
¶
2ac
A
2ac
∗
x (t) = x0 +
exp
t −
= x∗t ,
t ≥ t0 .
A
2c
A
Тогда оптимальное управление для задачи (4.14)–(4.15) будет иметь вид
∗
ϕ
230
(x∗t )
−A (x∗t )1/2
.
=
2c
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.2.. Принцип максимума Понтрягина
§ 4.2.
Принцип максимума Понтрягина
Принцип максимума был предложен Л.С. Понтрягиным и его учениками [Понтрягин, Болтянский, Гамкрелидзе, Мищенко, 1962]. Рассмотрим
вновь задачу оптимального управления (4.1)–(4.2)
Теорема 4.2.1. (Принцип максимума Понтрягина.) Пусть управление
u∗ (s) = ζ ∗ (s, x0 ) является оптимальным решением задачи (4.1)–(4.2)
и {x∗ (s) , t0 ≤ s ≤ T } является соответствующей оптимальной траекторией, тогда существуют сопряженные функции Λ (s) : [t0 , T ] → Rm ,
такие что выполнены следующие соотношения
ζ ∗ (s, x0 ) ≡ u∗ (s) = arg max {g [s, x∗ (s) , u (s)] +
u
∗
+Λ (s) f [s, x (s) , u (s)]} ,
∗
ẋ (s) = f [s, x∗ (s) , u∗ (s)] , x∗ (t0 ) = x0 ,
∂
{g [s, x∗ (s) , u∗ (s)] + Λ (s) f [s, x∗ (s) , u∗ (s)]} ,
Λ̇ (s) = −
∂x
∂
Λ (T ) =
q (x∗ (T )) .
∂x∗
Д о к а з а т е л ь с т в о. Доказательство проведем в предположении
дважды непрерывной дифференцируемости функции Беллмана. Определим функцию (гамильтониан)
H (t, x, u) = g (t, x, u) + Vx (t, x) f (t, x, u) .
Из теоремы 4.1.1 имеем
−Vt (t, x) = max H (t, x, u) .
u
Используя выражение для оптимального управления u∗ , получаем
H (t, x, u∗ ) + Vt (t, x) ≡ 0,
что является тождеством по x. Возьмем частные производные от этого
выражения по x. Это дает нам
Vtx (t, x) + gx (t, x, u∗ ) + Vx (t, x) fx (t, x, u∗ ) + Vxx (t, x) f (t, x, u∗ ) +
∂u∗
+ [gu (t, x, u∗ ) + Vx (t, x) fu (t, x, u∗ )]
= 0.
∂x
Если u∗ является внутренней точкой области ограничений на управления, тогда [gu (t, x, u∗ ) + Vx (t, x) fu (t, x, u∗ )] = 0, что следует из условия
231
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
−Vt (t, x) = maxu H (t, x, u). Если u∗ не является внутренней точкой, то
можно показать что
[gu (t, x, u∗ ) + Vx (t, x) fu (t, x, u∗ )]
∂u∗
= 0,
∂x
поскольку из оптимальности следует ортогональность векторов
[gu (t, x, u∗ ) +Vx (t, x) fu (t, x, u∗ )] и ∂u∗ /∂x. А в отдельных случаях
может быть даже ∂u∗ /∂x = 0. Выражение
Vtx (t, x) + Vxx (t, x) f (t, x, u∗ ) ≡ Vtx (t, x) + Vxx (t, x) ẋ
может быть записано в виде [dVx (t, x)] (dt)−1 . Таким образом
dVx (t, x)
+ gx (t, x, u∗ ) + Vx (t, x) fx (t, x, u∗ ) = 0.
dt
Вводя сопряженный вектор Λ (t) = Vx∗ (t, x∗ ), где x∗ — траектория,
соответствующая управлению u∗ , получим
∂
dVx (t, x∗ )
=Λ̇ (s)= −
{g [s, x∗ (s) , u∗ (s)]+Λ (s) f [s, x∗ (s) , u∗ (s)]} .
dt
∂x
И, наконец, граничные условия для Λ (t) определяются из граничного
условия для задачи оптимального управления и теоремы 4.1.1:
Λ (T ) =
∂q (x∗ )
∂V (T, x∗ )
=
.
∂x
∂x
Таким образом, теорема 4.2.1 доказана.
Пример 4.2.1. Рассмотрим задачу, содержащуюся в примере 4.1.1. Используя теорему 4.2.1, найдем управление u (s) из условия
nh
i
h
io
arg max −x∗ (s) − cu (s)2 exp [−rs] + Λ (s) a − u (s) x∗ (s)1/2 .
u
Проведя оптимизацию, получим
u∗ (s) =
−Λ (s) x∗ (s)1/2
exp [rs] .
2c
(4.16)
Имеем также уравнение для сопряженного вектора (в данном случае
одномерного)
1
Λ̇ (s) = exp [−rs] + Λ (s) u∗ (s) x∗ (s)−1/2 .
2
232
(4.17)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.2. Принцип максимума Понтрягина
Подставляя выражение u∗ (s) из (4.16), в (4.6) и в (4.17) получаем пару
дифференциальных уравнений
ẋ∗ (s) = a +
1
Λ (s) (x∗ (s)) exp [rs] ,
2c
1
Λ̇ (s) = exp [−rs] + Λ (s)2 exp [rs] ,
4c
с начальным и граничным условиями
(4.18)
x∗ (0) = x0 и Λ (T ) = exp [−rT ] q.
Решив (4.18), получим
µ
·
¸¶
q − 2cθ1
θ1 − θ2
Λ (s) = 2c θ1 − θ2
exp
(T − s) exp (−rs) ÷
q − 2cθ2
2
·
¸¶
µ
q − 2cθ1
θ1 − θ2
exp
(T − s) ,
÷
1−
q − 2cθ2
2
·
¸
Z s
∗
−1
x (s) = $ (0, s) x0 +
$ (0, t) a dt ,
s ∈ [0, T ] ,
0
где
r
θ1 =
$ (0, s) =
H (τ ) =
÷
r
1
1
r − r2 + and θ2 = r + r2 + ;
c
c
·Z s
¸
exp
H (τ ) dτ ,
0
·
¸¶
µ
θ1 − θ2
q − 2cθ1
exp
(T − τ ) ÷
θ1 − θ2
q − 2cθ2
2
µ
·
¸¶
q − 2cθ1
θ1 − θ2
1−
exp
(T − τ ) .
q − 2cθ2
2
Подставляя Λ (s) и x∗ (s) в (4.16), получаем выражение для управления
= ζ ∗ (s, x0 ), которое оказывается функцией от s и x0 .
u∗ (s)
Рассмотрим теперь задачу оптимального управления на бесконечном
промежутке времени (4.8)–(4.9). Гамильтониан может быть записан в виде
H (t, x, u) = g (x, u) exp [−r (t − t0 )] + Λ (t) f (x, u) .
Введем функцию λ (t) = Λ (t) exp [r (t − t0 )]. Тогда формула для текущего значения гамильтониана примет вид
Ĥ (t, x, u) = H (t, x, u) exp [r (t − t0 )]
= g (x, u) + λ (t) f (x, u) .
(4.19)
233
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Используя (4.19), можно переформулировать теорему 4.2.1 для задачи
(4.10)–(4.11).
Теорема 4.2.2. Пусть управление u∗ (s) = ζ ∗ (s, xt ) является оптимальным решением задачи управления на бесконечном промежутке времени
(4.10)–(4.11) и {x∗ (s) , s ≥ t} — соответствующей оптимальной траекторией, тогда существуют такие сопряженные функции λ (s) : [t, ∞) →
Rm , что выполнены следующие условия:
ζ ∗ (s, xt ) ≡ u∗ (s) = arg max {g [x∗ (s) , u (s)]+λ (s) f [x∗ (s) , u (s)]} ,
u
∗
∗
∗
ẋ (s) = f [x (s) , u (s)] ,
x∗ (t) = xt ,
∂
λ̇ (s) = rλ (s) −
{g [x∗ (s) , u∗ (s)] + λ (s) f [x∗ (s) , u∗ (s)]} .
∂x
Пример 4.2.2. Рассмотрим задачу, предложенную в примере 4.1.2 на
бесконечном промежутке времени. Используя теорему 4.1.2, получаем
ζ ∗ (s, xt ) ≡ u∗ (s) =
= arg max
u
∗
nh
i
h
io
−x∗ (s) − cu (s)2 + λ (s) a − u (s) x∗ (s)1/2 ,
ẋ (s) = a − u (s) (x∗ (s))1/2 ,
x∗ (t) = xt ,
¸
·
1
−1/2
∗
∗
.
λ̇ (s) = rλ (s) + 1 + λ (s) u (s) x (s)
2
∗
(4.20)
Проведя максимизацию, находим оптимальное управление
u∗ (s) =
−λ (s) x∗ (s)1/2
.
2c
Подставив u∗ (s) в (4.20), получим
λ (s) ∗
u (s) x∗ (s) , x∗ (t) = xt ,
2c
·
¸
1
2
λ̇ (s) = rλ (s) + 1 − λ (s) .
4c
ẋ∗ (s) = a +
(4.21)
Решая (4.21) аналогично тому как мы делали в примере 4.2.2, получаем явные выражения для x∗ (s) и λ (s).
Подставив эти выражения в u∗ (s), получим оптимальное решение нашей задачи.
234
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.3.. Стохастическое управление
§ 4.3.
Стохастическое управление
Рассмотрим классическую задачу оптимального управления с одним лицом, принимающим решение
½Z
max Et0
u
T
¾
g i [s, x (s) , u (s)] ds + q (x (T )) ,
(4.22)
t0
при условии, что изменение переменной состояния x происходит в соответствии со стохастическим дифференциальным уравнением:
dx (s) = f [s, x (s) , u (s)] ds + σ [s, x (s)] dz (s) ,
x (t0 ) = x0 .
(4.23)
Здесь Et0 обозначает оператор математического ожидания, примененный
в момент t0 , σ [s, x (s)] есть m × Θ-мерная матрица, z (s) есть Θ-мерный
винеровский процесс, и начальное состояние ζ задано (см., например,
[Fleming, Rishel, 1975]).
Пусть Ω [s, x (s)] = σ [s, x (s)] σ [s, x (s)]T матрица ковариаций с элементами Ωhζ [s, x (s)], стоящими в строке h и столбце ζ.
Техника решения задачи стохастического управления была разработана У. Флемингом [Fleming, 1969] и может быть использована для решения
указанной задачи.
Теорема 4.3.1. Управление u∗ (t) = ϕ∗ (t, x) представляет оптимальное
решение задачи (4.22)–(4.23), если существует дважды непрерывно-дифференцируемая функция V (t, x) : [t0 , T ] × Rm → R, удовлетворяющая
следующему уравнению в частных производных:
m
1 X hζ
Ω (t, x) Vxh xζ (t, x) =
−Vt (t, x) −
2
h,ζ=1
©
ª
= max g i [t, x, u] + Vx (t, x) f [t, x, u] ,
u
V (T, x) = q (x) .
Д о к а з а т е л ь с т в о. Подставим оптимальное управление ϕ∗ (t, x) в
(4.23) и получим стохастическое уравнение для оптимальных траекторий
dx (s) = f [s, x (s) , ϕ∗ (s, x (s))] ds + σ [s, x (s)] dz (s) ,
(4.24)
x (t0 ) = x0 .
235
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Решение системы (4.24) обозначим через x∗ (t). Оно может быть записано в виде
Z t
∗
x (t) = x0 +
f [s, x∗ (s), ϕ∗ (s, x∗ (s))] ds
t0
Z
t
(4.25)
∗
σ [s, x (s)] dz (s) .
+
t0
Обозначим через Xt∗ множество возможных значений x∗ (t) в момент
t, определяемых системой (4.25). В данном контексте через x∗t обозначем
элемент множества Xt∗ .
Введем максимальное значение математического ожидания выигрыша
в момент t из начального состояния x∗t как функцию Беллмана
¯
¾
¯
∗
¯
g [s, x (s) , u (s)] ds + q (x (T ))¯ x (t) = xt =
t
¾
∗
∗
∗
∗
g [s, x (s) , ϕ (s, x (s))] ds + q (x (T ))
½Z
V
(t, x∗t )
= max Et0
u
½Z T
= Et0
T
i
t
с граничным условием
V (T, x∗ (T )) = q (x∗ (T )) .
Выражение V (t, x∗t ) можно записать в виде
V (t, x∗t ) =
= max Et0
½Z
T
¯
¾
¯
∗
¯
g [s, x (s) , u (s)] ds + q (x (T ))¯ x (t) = xt =
i
(4.26)
½Z t+∆t
¾
i
∗
∗
∗
= max Et0
g [s, x (s) , u (s)] ds + V (t + ∆t, xt + ∆xt ) x (t) = xt ,
u
t
u
t
где
∆x∗t = f [t, x∗t , ϕ∗ (t, x∗t )] ∆t + σ [t, x∗t ] ∆zt + o (∆t) ,
∆zt = z (t + ∆t) − z (t) и Et [o (∆t)] /∆t → 0 при ∆t → 0.
Применяя при ∆t → 0 лемму Ито к уравнению (4.26), получаем


∗
V (t, xt ) = max Et0 g i [t, x∗t , u] ∆t + V (t, x∗t ) + Vt (t, x∗t ) ∆t +
u

236
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.3. Стохастическое управление
+ Vxt (t, x∗t ) f [t, x∗t , ϕ∗ (t, x∗t )] ∆t + Vxt (t, x∗t ) σ [t, x∗t ] ∆zt + (4.27)

m

X
1
+
Ωhζ (t, x) Vxh xζ (t, x) ∆t + o (∆t) .

2
h,ζ=1
Деля обе части (4.27) на ∆t и устремляя ∆t → 0, получаем
−Vt (t, x∗t ) −
m
1 X hζ
Ω (t, x) Vxh xζ (t, x) =
2
h,ζ=1
©
ª
= max g i [t, x∗t , u] + Vxt (t, x∗t ) f [t, x∗t , ϕ∗ (t, x∗t )] ,
(4.28)
u
и граничное условие
V (T, x∗ (T )) = q (x∗ (T )) .
Это доказывает теорему 4.3.1.
Пример 4.3.1. Рассмотрим задачу стохастического управления
(Z "
#
T
c
1/2
Et0
u (s) −
u (s) exp [−r (s − t0 )] ds +
x (s)1/2
t0
)
+ exp [−r (T − t0 )] qx (T )
1/2
(4.29)
,
при условии
dx (s) =
h
i
ax (s)1/2 − bx (s) − u (s) ds + σx (s) dz (s) ,
x (t0 ) = x0 ∈ X,
(4.30)
где c, a, b и σ — положительные параметры. Используя теорему 4.3.1,
получаем
1
−Vt (t, x) − σ 2 x2 Vxx (t, x) =
nh 2
h
io
c i
= max u1/2 − 1/2 u exp[−r(t − t0 )] + Vx (t, x) ax1/2 − bx − u (4.31)
,
u
x
V (T, x) exp [−r (T − t0 )] qx1/2 .
Проводя максимизацию в (4.31), получаем
ϕ∗ (t, x) =
x
£
¤2 .
4 c + Vx exp [r (t − t0 )] x1/2
(4.32)
237
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Подставляя ϕ∗ (t, x) из (4.32) в (4.31) и решая (4.31), получаем выражение для функции Беллмана (функции значения)
h
i
V (t, x) exp [−r (t − t0 )] A (t) x1/2 + B (t) ,
где A (t) и B (t) удовлетворяют системе дифференциальных уравнение
·
¸
1 2 b
1
Ȧ (t) = r + σ +
A (t) −
+
8
2
2 [c + A (t) /2]
A (t)
c
,
2 +
4 [c + A (t) /2]
8 [c + A (t) /2]2
a
Ḃ (t) = rB (t) − A (t) ,
2
A (T ) = q, B (T ) = 0.
+
Оптимальное управление для задачи (4.29)–(4.30) получается в виде
ϕ∗ (t, x) =
x
h
i2 .
4 c + A(t)
2
Рассмотрим задачу стохастического управления на бесконечном промежутке времени с постоянным дисконтированием
½Z ∞
¾
max Et0
g i [x (s) , u (s)] exp [−r (s − t0 )] ds ,
(4.33)
u
t0
при условии
dx (s) = f [x (s) , u (s)] ds + σ [x (s)] dz (s) ,
x (t0 ) = x0 ,
(4.34)
Поскольку s явно не присутствует в g [x (s) , u (s)], система (4.33)–(4.34)
— автономная.
Рассмотрим теперь вышеприведенную задачу для всевозможных начальных условий и начальных моментов, т. е.
¾
½Z ∞
i
max Et
g [x (s) , u (s)] exp [−r (s − t)] ds ,
(4.35)
u
t
при условии
dx (s) = f [x (s) , u (s)] ds + σ [x (s)] dz (s) ,
x (t) = xt .
(4.36)
Задача на бесконечном промежутке времени (4.35)–(4.36) является автономной и не зависит от выбора t, а зависит лишь от состояния в начальный момент времени, т.е. от xt .
238
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.3. Стохастическое управление
Определим функцию значения или функцию Беллмана для задачи
(4.35)–(4.36) по формуле
¯
¾
½Z ∞
¯
∗
∗
¯
g [x (s) , u (s)] exp [−r (s − t0 )] ds¯ x (t) = xt ,
V (t, xt ) = max Et0
u
t
где x∗t принадлежит множеству допустимых значений при реализации оптимального движения в момент t. Боле того, мы можем написать
V (t, x∗t ) = exp [−r (t − t0 )] max Et0
u
½Z ∞
¾
∗
g [x (s) , u (s)] exp [−r (s − t)] dsx (t) = xt .
t
Поскольку задача
¯
½Z ∞
¾
¯
∗
¯
max Et0
g [x (s) , u (s)] exp [−r (s − t)] ds¯ x (t) = xt
u
t
зависит лишь от текущего состояния x∗t , имеем
¯
½Z ∞
¾
¯
∗
∗
W (xt ) = max Et0
g [x (s) , u (s)] exp [−r (s − t)] ds¯¯ x (t) = xt .
u
t
Таким образом, получаем
V (t, x∗t ) = exp [−r (t − t0 )] W (x∗t ) ,
Vt (t, x∗t ) = −r exp [−r (t − t0 )] W (x∗t ) ,
Vxt (t, x∗t ) = −r exp [−r (t − t0 )] Wxt (x∗t ) ,
(4.37)
Vxt xt (t, x∗t ) = −r exp [−r (t − t0 )] Wxt xt (x∗t ) .
Подставив (4.37) в уравнение из теоремы 4.3.1, получим
rW (x) −
m
1 X hζ
Ω (t, x) Wxh xζ (t, x)=max {g [x, u]+Wx (x) f [x, u]} . (4.38)
u
2
h,ζ=1
Поскольку время явно не входит в (4.38), полученное оптимальное
управление u будет функцией только переменной состояния x.
Теорема 4.3.2. Управление u = ϕ∗ (x) является оптимальным решением стохастической задачи управления на бесконечном интервале времени (4.33)–(4.34), если существует дважды непрерывно239
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
дифференцируемая функция W (x), определенная на Rm → R и удовлетворяющая следующему уравнению
rW (x) −
m
1 X hζ
Ω (t, x) Wxh xζ (t, x) =
2
h,ζ=1
= max {g [x, u] + Wx (x) f [x, u]} =
u
= {g [x, ϕ∗ (x)] + Wx (x) f [x, ϕ∗ (x)]} .
Подставляя оптимальное управление, определяемое в теореме 4.3.2, в
(4.34), получаем стохастическое уравнение для оптимальной траектории
dx (s) = f [x (s) , ϕ∗ (x (s))] ds + σ [x (s)] dz (s) ,
x (t0 ) = x0 .
Решение этого стохастического дифференциального уравнения имеет
вид
Z t
Z t
∗
∗
∗
∗
x (t) = x0 +
f [x (s) , ϕ (x (s))] ds +
σ [x∗ (s)] dz (s) .
(4.39)
t0
t0
Здесь так же как и ранее будем использовать выражение Xt∗ для обозначения множества возможных значений x∗ (t) к моменту t, определяемое уравнением (4.39). Элементы множества Xt∗ обозначаются через x∗t .
При заданных x∗t и t оптимальное управление в задаче на бесконечном
интервале времени (4.33)–(4.34) может быть записано в виде ϕ∗ (x∗t ).
Пример 4.3.2. Рассмотрим задачу на бесконечном интервале времени
(Z "
#
)
∞
c
Et0
u (s)1/2 −
u (s) exp [−r (s − t0 )] ds ,
(4.40)
x (s)1/2
t0
при ограничениях
h
i
dx (s) = ax (s)1/2 − bx (s) − u (s) ds + σx (s) dz (s) ,
x (t0 ) = x0 ∈ X,
(4.41)
где c, a, b и σ положительные вещественные числа. Используя теорему
4.3.2, получаем
1 2 2
σ x Wxx (x) =
2
nh
h
io (4.42)
c i
1/2
1/2
= max u − 1/2 u + Wx (x) ax − bx − u .
u
x
rW (x) −
240
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.4.. Равновесие по Нэшу в программных стратегиях
Максимизируя в (4.42), получаем управление
ϕ∗ (x) =
x
£
¤2 .
4 c + Wx (x) x1/2
Подставляя ϕ∗ (t, x) в (4.42) и решая (4.42), получаем
для
£ 1/2 выражение
¤
функции значения (функции Беллмана) W (x) = Ax +B , где A и B
удовлетворяют уравнениям
·
¸
1
A
b
1
c
0 = r + σ2 +
+
,
A−
+
8
2
2 [c + A/2] 4 [c + A/2]2 8 [c + A/2]2
a
B =
A.
2r
При этом оптимальное управление представляется в виде
x
.
4 [c + A/2]2
n
o
Подставляя выражение ϕ∗ (x) = x/ 4 [c + A/2]2 в (4.41), получаем
уравнение для оптимальной траектории
·
¸
x (s)
1/2
dx (s) = ax (s) − bx (s) −
ds + σx (s) dz (s) ,
4 [c + A/2]2
ϕ∗ (x) =
x (t0 ) = x0 ∈ X.
Решая данное уравнение, получаем выражение для оптимальной траектории {x∗ (t)}t≥t0 :
·
¸2
Z t
1/2
−1
x (t) = $ (t0 , t) x0 +
$ (t0 , s) H1 ds , t ≥ t0 ,
2
∗
(4.43)
t0
где
·Z t ·
$ (t0 , t) = exp
H1 =
§ 4.4.
1
a,
2
¸
¸
Z t
σ2
σ
H2 −
dυ +
dz (υ) ,
8
t0
t0 2
·
¸
1
1
σ2
H2 = − b +
+
.
2
8
4 [c + A/2]2
Равновесие по Нэшу в программных стратегиях
Наиболее сложной и в то же время плодотворной областью теории игр являются динамические или дифференциальные игры, в которых принятие
241
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
решения конкурирующими сторонами происходит непрерывно во времени, и при этом делаются дополнительные предположения, касающиеся
информационной структуры, неопределенности и возможности предварительных соглашений. Дифференциальные игры возникли в 40-х годах,
когда Р. Айзекс сформулировал задачу перехвата самолета управляемой
ракетой в терминах навигационных переменных (состояния и управления)
и вывел основополагающие уравнения для решения задачи ([Isaacs, 1965]).
Вклад Айзекса вместе с классическим исследованием Беллмана в области
динамического программирования и Понтрягина в области теории управления заложили основы детерминистической теории дифференциальных
игр. Первые работы в области дифференциальных игр были направлены
на использование результатов теории оптимального управления для решения игровых задач. Л. Берковиц [Berkovitz, 1964] развил вариационный
подход к дифференциальным играм. Г. Лейтман и Г. Мон [Leitmann, Mon,
1967] изучали геометрические аспекты дифференциальных игр. Л. Понтрягин [Pontryagin, 1966] предложил решать дифференциальные игры с
использованием принципа максимума.
Работы в области дифференциальных игр продолжают появляться в
различных областях и разделах математики. В частности, в приложениях к экономике и менеджменту исследования развиваются достаточно
быстро. Их подробный анализ указанных работ можно найти в работе
[Dockner, Jorgensen, 2000].
В дифференциальных играх или играх с непрерывным временем изучается класс проблем принятия решений, в которых эволюция состояния
описывается дифференциальным уравнением, и игроки действуют на заданном временном промежутке.
В частности, в общей дифференциальной игре n лиц игрок i стремится
Z T
max g i [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ds+q i (x (T ))
ui
(4.44)
t0
для i ∈ N = {1, 2, . . . , n} ,
при условии, что состояние системы подчинено детерминированному дифференциальному уравнению
ẋ (s) = f [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ,
x (t0 ) = x0 ,
(4.45)
где x (s) ∈ X ⊂ Rm означает состояние системы в игре, и ui ∈ U i —
управление игрока i при i ∈ N .
Функции f [s, x, u1 , u2 , . . . , un ], g i [s, ·, u1 , u2 , . . . , un ] и q i (·) при i ∈ N и
s ∈ [t0 , T ] предполагаются дифференцируемыми.
242
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.4. Равновесие по Нэшу в программных стратегиях
Определим понятие стратегии в дифференциальной игре. Вспомним
как определялась стратегия ui игрока i в динамической игре с полной информацией (см. определение 3.1.3). Там под стратегией понималось некоторое правило, которое каждой позиции игрока x ∈ Xi из его множества
очередности ставило в соответствие следующую позицию y ∈ Fx . Заметим,
что реализация такой стратегии предполагает знание игроком позиции, в
которой он находится при совершении очередного хода. Однако, поскольку граф игры является деревом, то знание позиции эквивалентно знанию
всей предыстории игры до данной позиции. Стратегии в дифференциальной игре определяются аналогичным образом, при этом различаются два
вида информационных состояний в игре: знание в каждый момент времени s ∈ [t0 , T ] начального состояния игры x0 и момента s или знание в
каждый момент времени s ∈ [t0 , T ] начального состояния игры x0 , момента s и состояния игры в момент s, т.е. знание x(s).
Под стратегией игрока i ∈ N мы будем понимать функцию υi (s),
ставящую в соответствие информации, имеющейся у игрока i в момент
s, управление ui из множества возможных управлений. В зависимости
от состояния информации стратегии могут быть функциями времени
υi (s) = ui (x0 , s) и функциями состояния υi (s) = ui (x0 , x(s), s). В первом
случае мы будем говорить о программных стратегиях, в во втором — о позиционных. К сожалению, такое определение стратегии математически не
достаточно корректно (хотя им пользуются большинство авторов [Isaacs,
1965; Jorgensen, 1985; Haurie, 1976; Leitmann, 1974] и др.), поскольку не
всегда при подстановке стратегий в правую часть уравнения движения
(4.45) можно гарантировать существование, единственность и продолжимость решения на весь отрезок [t0 , T ]. Именно поэтому имеются различные уточнения понятия стратегий, свободные от указанного недостатка.
Наиболее удачными являются стратегии, введенные в работах [Красовский, Субботин, 1974; Красовский, 1985; Клейменов, 1993; Чистяков, 1992;
Малафеев, 1982], однако, их определение и использование предполагает
глубокие знания соответствующего математического аппарата, изложение
которого в данном учебном пособии не представляется возможным. Для
наших целей введенное нами определение стратегий вполне достаточно.
стратегий
(ситуация)
{υ1∗ (s),
Определение
4.4.1. Набор
∗
∗
υ2 (s), . . . , υn (s)} образует равновесие по Нэшу в дифференциальной
игре (4.44)–(4.45) n лиц, если следующие неравенства выполнены для
всех υi (s) ∈ U i , i ∈ N
Z T
g 1 [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q 1 (x∗ (T )) ≥
t0
243
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Z
T
≥
Z
t0
T
g 2 [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q 2 (x∗ (T )) ≥
t0
Z
h
i
³
´
g 2 s, x[2] (s) , υ1∗ (s) , υ2 (s) , υ3∗ (s) , . . . , υn∗ (s) ds + q 2 x[2] (T ) ,
T
≥
t0
Z
h
i
³
´
g 1 s, x[1] (s) , υ1 (s) , υ2∗ (s) , . . . , υn∗ (s) ds + q 1 x[1] (T ) ,
..
.
..
.
T
t0
..
.
..
.
g n [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] ds + q n (x∗ (T )) ≥
Z
h
i
³
´
∗
g n s, x[n] (s) , υ1∗ (s) , . . . , υn−1
(s) , υn (s) ds + q n x[n] (T ) ;
T
≥
t0
и на отрезке времени s ∈ [t0 , T ]:
ẋ∗ (s) = f [s, x∗ (s) , υ1∗ (s) , υ2∗ (s) , . . . , υn∗ (s)] , x∗ (t0 ) = x0 ,
h
i
ẋ[1] (s)=f s, x[1] (s) , υ1 (s) , υ2∗ (s) , . . . , υn∗ (s) , x[1] (t0 ) = x0 ,
h
i
ẋ[2] (s)=f s, x[2] (s) , υ1∗ (s) , υ2 (s) , υ3∗ (s) , . . . , υn∗ (s) , x[2] (t0 ) = x0 ,
..
.
..
.
..
.
..
.
h
i
∗
ẋ[n] (s) = f s, x[n] (s) , υ1∗ (s) , . . . , υn−1
(s) , υn (s) , x[n] (t0 ) = x0 .
Если игроки строят свои стратегии изначально, не предполагая изменять управлений в будущем в зависимости от состояния, информационная
структура может быть рассмотрена как программная. Эти стратегии являются функциями начального состояния x0 и времени s и могут быть
записаны в виде {ui (s) = ϑi (s, x0 ) , i ∈ N }. В частности, равновесие по
Нэшу в программных стратегиях в игре (4.44) и (4.45) описывается следующей теоремой.
Теорема 4.4.1. Пусть множество стратегий {u∗i (s) = ζi∗ (s, x0 ) ,
i ∈ N } образует равновесие по Нэшу в программных стратегиях в игре
(4.44)–(4.45), и {x∗ (s) , t0 ≤ s ≤ T } — соответствующая оптимальная
траектория, тогда существуют сопряженные функции Λi (s) : [t0 , T ] →
Rm при i ∈ N такие, что имеют место следующие соотношения:
244
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.5.. Равновесие по Нэшу в позиционных стратегиях
ζi∗ (s, x0 ) ≡ u∗i (s) =
© £
¤
= arg max g i s,x∗ (s) ,u∗1 (s) ,. . . ,u∗i−1 (s) ,ui (s) ,u∗i+1 (s) ,. . . ,u∗n (s) +
ui ∈U i
£
¤ª
+ Λi (s) f s,x∗ (s) ,u∗1 (s) ,. . . ,u∗i−1 (s) ,ui (s) ,u∗i+1 (s) ,. . . ,u∗n (s) ,
ẋ∗ (s) = f [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] ,
x∗ (t0 ) = x0 ,
∂ © i
g [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] +
∂x∗
ª
+ Λi (s) f [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] ,
Λ̇i (s) = −
Λi (T ) =
∂ i ∗
q (x (T )) .
∂x∗
Д о к а з а т е л ь с т в о. Из условий теоремы 4.4.1 фактически следует,
что программное управление u∗i (s) = ζi∗ (s, x0 ) максимизирует выражение
Z T
£
¤
g i s, x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ds +
t0
+q i (x (T )) ,
на множестве всех программных управлений ui (s) ∈ U i при условии
£
¤
ẋ (s) = f s, x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
x (t0 ) = x0 ,
i ∈ N.
Это стандартная задача оптимального управления для игрока i, поскольку u∗j (s) при j ∈ N и j 6= i — фиксированные программные управления, не зависящие от u∗i (s). Поэтому теорема 4.4.1 прямо следует из
принципа максимума Понтрягина, сформулированного в теореме 4.2.1.
§ 4.5.
Равновесие по Нэшу в позиционных стратегиях
Предположим что информационная структура такова, что в каждый момент времени игрокам известны переменная состояния в этот момент времени, время и начальные условия. Стратегии игрока (позиционные стратегии) оказываются функциями начальных условий x0 , текущего состояния x (s) и текущего времени s и могут быть представлены в виде {ui (s) =
ϑi (s, x, x0 ) для i ∈ N }. Следующая теорема содержит необходимые условия, которым должно удовлетворять равновесие по Нэшу в таком классе
стратегий.
245
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Теорема 4.5.1. Пусть набор стратегий {ui (s) = ϑi (s, x, x0 ) , для i ∈ N }
образует равновесие по Нэшу в позиционных стратегиях в игре (4.44)–
(4.45), и {x∗ (s) , t0 ≤ s ≤ T } — соответствующая оптимальная траектория, тогда существуют n сопряженных функций Λi (s) : [t0 , T ] → Rm
при i ∈ N таких, что выполнены следующие условия:
ϑ∗i (s, x∗ , x0 ) ≡ u∗i (s) =
© £
¤
= arg max g i s, x∗ (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) +
ui ∈U i
£
¤ª
+Λi (s) f s, x∗ (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
ẋ∗ (s) = f [s, x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] ,
x∗ (t0 ) = x0 ,
∂ © i
g [s, x∗ (s) , ϑ∗1 (s, x∗ , x0 ) , ϑ∗2 (s, x∗ , x0 ) , . . .
∂x∗
¤
. . . , ϑ∗i−1 (s, x∗ , x0 ) , u∗i (s) , ϑ∗i+1 (s, x∗ , x0 ) , . . . , ϑ∗n (s, x∗ , x0 ) +
Λ̇i (s) = −
+Λi (s) f [s, x∗ (s) , ϑ∗1 (s, x∗ , x0 ) , ϑ∗2 (s, x∗ , x0 ) , . . .
¤
. . . , ϑ∗i−1 (s, x∗ , x0 ) , u∗i (s) , ϑ∗i+1 (s, x∗ , x0 ) , . . . , ϑ∗n (s, x∗ , x0 ) ,
Λi (T ) =
∂ i ∗
q (x (T )) .
∂x∗
Д о к а з а т е л ь с т в о. Рассмотрим i-ое равенство в условиях теоремы
4.5.1, в котором зафиксированы все стратегии игроков (кроме стратегии
i-го игрока) и управление u∗j (s) = ϑ∗j (s, x∗ , x0 ) является оптимальным
управлением игрока i при j 6= i и j ∈ N . Тогда вышеприведенные условия следуют из принципа максимума Понтрягина, игрок i максимизирует
функционал
Z T
£
¤
g i s, x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ds +
t0
+q i (x (T )) ,
на множестве выборов ui (s) ∈ U i при условии
£
¤
ẋ (s) = f s, x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
x (t0 ) = x0 ,
i ∈ N.
Заметим, что частная производная по переменной x в сопряженных
уравнениях теоремы 4.5.1 вычисляется при условии, что оставшиеся n − 1
стратегии игроков зависят от значений текущего состояния x. Это обстоятельство отсутствует в сопряженных уравнениях теоремы 4.4.1
246
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.5. Равновесие по Нэшу в позиционных стратегиях
Рассмотрим теперь состоятельное равновесие по Нэшу. Заметим что
определенное нами позиционное равновесие и равновесие в программных
стратегиях зависят от начальных условий задачи. Однако во многих случаях удается построить равновесные решения, имеющие абсолютный характер, не зависящий от начального состояния процесса. Назовем такие
равновесия состоятельными позиционными равновесиями.
игре n лиц (4.1)–(4.2) набор стратегий
© ∗В дифференциальной
ui (s) = ϕ∗i (s, x) ∈ U i , i ∈ N } образует состоятельное позиционное равновесие, если существуют функционалы (аналоги функции Беллмана)
V i (t, x), определенные на [t0 , T ] × Rm и удовлетворяющие следующим
условиям:
V i (T, x) = q i (x) ,
V i (t, x) =
Z
T
=
t
Z
≥
t
T
g i [s, x∗ (s) , ϕ∗1 (s, x) , . . . , ϕ∗n (s, x)] ds + q i (x∗ (T )) ≥
h
g i s, x[i] (s) , ϕ∗1 (s, x) , . . . , ϕ∗i−1 (s, x) ,
³
´
¤
ϕi (s, x) , ϕ∗i+1 (s, x) , . . . , ϕ∗n (s, x) ds + q i x[i] (T ) , x ∈ Rn
при всех ϕi (s, x), i ∈ N . При этом на интервале [t0 , T ] имеет место
h
ẋ[i] (s) = f s, x[i] (s) , ϕ∗1 (s, x) , . . . , ϕ∗i−1 (s, x) ,
i
ϕi (s, x) , ϕ∗i+1 (s, x) , . . . , ϕ∗n (s, x) , x[1] (t) = x;
ẋ∗ (s) = f [s, x∗ (s) , ϕ∗1 (s, x) , . . . , ϕ∗n (s, x)] ,
x (s) = x;
Одно важное свойство введенного нами определения заключается в
том, что если набор {ϕ∗i ; i ∈ N } образует состоятельное равновесие по
Нэшу в дифференциальной игре на отрезке [t0 , T ], то его сужение на интервале [t, T ] для всех t0 ≤ t ≤ T образует состоятельное позиционное
равновесие по Нэшу в той же самой дифференциальной игре, но определенной на более коротком промежутке [t, T ] из начального состояния
x (t). Отсюда следует что стратегия, образующая состоятельное позиционное равновесие зависит лишь от времени и текущего состояния, но не
зависит от предыстории (включая начальное состояние x0 ). Поэтому стратегии игроков могут быть записаны в виде {ui (s) = ϕi (s, x) , для i ∈ N }.
Следующая теорема определяет необходимое условие существования состоятельных позиционных равновесий для игры (4.44)–(4.45).
247
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
©
ª
Теорема 4.5.2. Набор стратегий u∗i (s) = ϕ∗i (t, x) ∈ U i , i ∈ N является состоятельным позиционным равновесием по Нэшу в игре
(4.44)–(4.45), если существуют непрерывно-дифференцируемые функции
V i (t, x) : [t0 , T ] × Rm → R, i ∈ N , удовлетворяющие следующей системе
дифференциальных уравнений в частных производных:
©
−Vti (t, x) = max g i [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . .
ui
¤
. . . , ϕ∗i−1 (t, x) , ui (t, x) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) +
+ Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . .
¤ª
. . . , ϕ∗i−1 (t, x) , ui (t, x) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) =
=
+
© i
g [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] +
ª
Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] ,
V i (T, x) = q i (x) ,
i ∈ N.
Д о к а з а т е л ь с т в о. По теореме 4.4.1 V i (t, x) являются функциями
значения (функциями Беллмана) в задаче оптимального управления для
игрока i ∈ N . Из определения 4.4.1 следует, что условие теоремы 4.5.2
являются условиями равновесия по Нэшу.
Рассмотрим теперь антагонистический вариант игры (4.44)–(4.45), в
которой имеется всего два игрока и выигрыш игрока 1 равен выигрышу
игрока 2 с обратным знаком. В этом случае состоятельное позиционное
равновесие характеризуется следующей теоремой.
Теорема 4.5.3. Пара стратегий {ϕ∗i (t, x) ; i = 1, 2} образует ситуацию равновесия (седловую точку) в антагонистическом варианте игры
(4.44)–(4.45), если существует непрерывно-дифференцируемая функция
V : [t0 , T ] × Rm → R, удовлетворяющая следующему уравнению в частных производных:
−Vt (t, x) = min max {g [t, x, u1 (t) , u2 (t)] + Vx f [t, x, u1 (t) , u2 (t)]} =
u1
u2
= max min {g [t, x, u1 (t) , u2 (t)] + Vx f [t, x, u1 (t) , u2 (t)]} =
u2
u1
= {g [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x)] + Vx f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x)]} ,
V (T, x) = q (x) .
Д о к а з а т е л ь с т в о. Этот результат является частным случаем теоремы 4.5.2, если взять n = 2, g 1 (·) = −g 2 (·) ≡ g (·) и q 1 (·) = −q 2 (·) ≡ q (·).
В этом случае V 1 = −V 2 ≡ V , и существование седловой точки (ситуации равновесия) эквивалентно взаимозаменяемости операций минимума
и максимума.
248
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.6.. Конкурентная реклама с двумя участниками
§ 4.6.
Конкурентная реклама с двумя участниками
В этом параграфе мы рассмотрим приложение теории диффенциальных
игр к конкуренции в области рекламы — динамическую игру конкурентной рекламы, впервые предложенную Г. Зоргером [Sorger, 1989].
На рынок выходят две фирмы, при этом функции дохода фирмы 1 и
фирмы 2 имеют соответственно вид
Z
T
i
h
c1
2
q1 x (s) − u1 (s) exp (−rs) ds + exp (−rT ) S1 x (T )
2
T
h
i
c2
q2 (1 − x (s)) − u2 (s)2 exp (−rs) ds +
2
+ exp (−rT ) S2 [1 − x (T )] ,
0
и
Z
0
(4.46)
где r, qi , ci , Si при i ∈ {1, 2} — положительные постоянные, x (s) — доля
рынка фирмы 1 в момент s, [1 − x (s)] — доля рынка фирмы 2, ui (s) —
вложения в рекламу фирмы i ∈ {1, 2}.
Предполагается, что емкость рынка не изменяется со временем. Единственным рыночным инструментом, которым пользуются фирмы, является реклама. Реклама влияет на динамику доли рынка каждой из фирм.
Динамика доли рынка первой фирмы определяется следующим дифференциальным уравнением:
ẋ (s) = u1 (s) [1 − x (s)]1/2 − u2 (s) x (s)1/2 ,
x (0) = x0 .
(4.47)
Предположим, что в качестве принципа оптимальности фирмы было
выбрано равновесие по Нэшу в программных стратегиях. Использование
программных стратегий требует, чтобы фирмы определили свои управления в начальный момент времени. Такое предположение реалистично
лишь в том случае, если есть четкие соглашения, касающиеся рекламы.
Согласно теореме 4.4.1 решение в программных стратегиях игры (4.46)–
(4.47) должно удовлетворять следующим условиям:
i
nh
c1
u∗1 (s) = arg max q1 x∗ (s) − u1 (s)2 exp (−rs) +
u1
2
³
´o
+ Λ1 (s) u1 (s) [1 − x∗ (s)]1/2 − u2 (s) x∗ (s)1/2 ,
249
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
i
nh
c2
u∗2 (s) = arg max q2 (1 − x∗ (s)) − u2 (s)2 exp (−rs) +
u2
2
³
´o
+ Λ2 (s) u1 (s) [1 − x∗ (s)]1/2 − u2 (s) x∗ (s)1/2 ,
ẋ∗ (s) = u∗1 (s) [1 − x∗ (s)]1/2 − u∗2 (s) x∗ (s)1/2 ,
x∗ (0) = x0 ,
Λ̇1 (s) = −q1 exp (−rs) +
µ
¶
1 ∗
1 ∗
−1/2
−1/2
1
∗
∗
+ Λ (s)
,
u (s) [1 − x (s)]
+ u2 (s) x (s)
2 1
2
Λ̇2 (s) = q2 exp (−rs) +
µ
¶
1 ∗
1 ∗
−1/2
−1/2
2
∗
∗
+ Λ (s)
u (s) [1 − x (s)]
+ u2 (s) x (s)
,
2 1
2
Λ1 (T ) = exp (−rT ) S1 ,
Λ2 (T ) = − exp (−rT ) S2 .
(4.48)
Из (4.48) следует, что
u∗1 (s) =
u∗2 (s) =
Λ1 (s)
[1 − x∗ (s)]1/2 exp (rs) ,
c1
Λ2 (s) ∗
[x (s)]1/2 exp (rs) .
c2
Подставляя u∗1 (s) и u∗2 (s) в (4.48), получаем
(
ã
!)
¤
1 (s) 2
1 (s) Λ2 (s)
Λ
Λ
Λ̇1 (s) =
−q1 exp (−rs) +
+
,
2c1
2c2
(4.49)
(
ã
!)
¤
2 (s) 2
1 (s) Λ2 (s)
Λ
Λ
Λ̇2 (s) =
q2 exp (−rs) +
+
,
2c2
2c1
с граничными условиями
Λ1 (T ) = exp (−rT ) S1 , Λ2 (T ) = − exp (−rT ) S2 .
Тогда уравнение движения в ситуации равновесия имеет вид
ẋ∗ (s) =
250
Λ1 (s) exp (rs)
Λ2 (s) exp (rs) ∗
[1 − x∗ (s)]−
x (s) , x∗ (0) = x0 . (4.50)
c1
c2
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.6. Конкурентная реклама с двумя участниками
Решив систему дифференциальных уравнений (4.49)–(4.50), мы получим выражения для x∗ (s), Λ1 (s) и Λ2 (s).
Подставив эти выражения в u∗1 (s) и u∗2 (s), получим программные равновесные стратегии.
Попытаемся теперь найти позиционно-состоятельное решение в задаче
конкурентной рекламы. Позиционное решение позволяет игрокам строить
свои уровни рекламы в зависимости от состояния игры (состояния рынка),
что является более реалистичным подходом к решению задачи (4.46)–
(4.47). Из теоремы 4.5.2 следует, что равновесное решение игры (4.46)–
(4.47) должно удовлетворять следующим условиям:
nh
c1 i
−Vt1 (t, x) = max q1 x − u21 exp (−rt) +
u1
2
³
´o
+ Vx1 (t, x) u1 [1 − x]1/2 − ϕ∗2 (t, x) x1/2 ,
nh
c2 i
(4.51)
−Vt2 (t, x) = max q2 (1 − x) − u22 exp (−rt) +
u2
2
³
´o
+ Vx2 (t, x) ϕ∗1 (t, x) [1 − x]1/2 − u2 x1/2 ,
V 1 (T, x) = exp (−rT ) S1 x,
V 2 (T, x) = exp (−rT ) S2 (1 − x) .
Нахождение максимизирующих стратегий в (4.51) дает нам
Vx1 (t, x)
[1 − x]1/2 exp (rt) ,
c1
V 2 (t, x) 1/2
[x] exp (rt) .
ϕ∗2 (t, x) = x
c2
ϕ∗1 (t, x) =
Подставляя ϕ∗1 (t, x) и ϕ∗2 (t, x) в (4.51) и решая уравнение, получаем
следующие функции значения (функции Беллмана):
V 1 (t, x) = exp [−r (t)] [A1 (t) x + B1 (t)] ,
V 2 (t, x) = exp [−r (t)] [A2 (t) (1 − x) + B2 (t)] ,
(4.52)
где A1 (t), B1 (t), A2 (t) и B2 (t) удовлетворяют уравнениям
A1 (t)2 A1 (t) A2 (t)
+
,
2c1
2c2
A2 (t)2 A1 (t) A2 (t)
+
,
Ȧ2 (t) = rA2 (t) − q2 +
2c2
2c1
Ȧ1 (t) = rA1 (t) − q1 +
A1 (T ) = S1 , B1 (T ) = 0, A2 (T ) = S2 и B2 (T ) = 0.
251
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Подставив соответствующие частные производный функций
V 1 (t, x) и V 2 (t, x) из (4.52) в (4.51), получим состоятельное позиционное равновесие по Нэшу
ϕ∗1 (t, x) =
§ 4.7.
A1 (t)
[1 − x]1/2 ,
c1
ϕ∗2 (t, x) =
A2 (t) 1/2
[x] .
c2
(4.53)
Игры с бесконечной продолжительностью
Рассмотрим дифференциальную игру с бесконечной продолжительностью
и с постоянным параметром дисконтирования. Будем считать что игрок
i ∈ N стремится
Z
∞
max
ui
t0
g i [x (s) , u1 (s) , u2 (s) , . . . , un (s)] exp [−r (s − t0 )] ds,
(4.54)
при ограничении
ẋ (s) = f [x (s) , u1 (s) , u2 (s) , . . . , un (s)] ,
x (t0 ) = x0 ,
(4.55)
где r — постоянный параметр дисконтирования.
Рассмотрим теперь подыгры игры (4.54)–(4.55), начинающиеся в момент времени t
Z
max
ui
t
∞
g i [x (s) , u1 (s) , u2 (s) , . . . , un (s)] exp [−r (s − t)] ds, i ∈ N, (4.56)
при условии
ẋ (s) = f [x (s) , u1 (s) , u2 (s) , . . . , un (s)] ,
s ≥ t,
x (t) = x.
(4.57)
Автономная игра (4.56)–(4.57), заданная на бесконечном промежутке
времени не зависит от выбора начального момента t, а зависит лишь от
состояния x в момент начала игры.
Как мы ранее показали, управление в задаче на бесконечном промежутке времени в случае автономной системы является функцией только
состояния.
Определение 4.7.1. В дифференциальной игре n лиц (4.54)–(4.55) набор
стратегий
© ∗
ª
ui (s) = ϕ∗i (ηs ) ∈ U i , для i ∈ N
252
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.7. Игры с бесконечной продолжительностью
образует состоятельное позиционное равновесие по Нэшу, если существуют функции V i (t, x), определенные на [t0 , ∞) × Rm и удовлетворяющие следующим соотношениям:
Z ∞
g i [x∗ (s), ϕ∗1 (ηs ), . . . , ϕ∗n (ηs )] exp [−r(s − t0 )] ds ≥
V i (t, x) =
t
Z
∞
£
¤
g i x(s), ϕ∗1 (ηs ), . . . , ϕ∗i−1 (ηs )ϕi (ηs )ϕ∗i+1 (ηs ), . . . , ϕ∗n (ηs ) ×
≥
t
× exp [−r (s − t0 )] ds
∀ϕi (·, ·) ∈ Γi ,
x ∈ Rn ,
для всех ϕi (ηs ), i ∈ N , при этом, на интервале [t0 , ∞) имеет место
£
¤
ẋ (s) = f s(s), ϕ∗1 (ηs ), . . . , ϕ∗i−1 (ηs )ϕi (ηs )ϕ∗i+1 (ηs ), . . . , ϕ∗n (ηs ) ,
x[1] (t) = x;
ẋ∗ (s) = f [x∗ (s) , ϕ∗1 (ηs ) , ϕ∗2 (ηs ) , . . . , ϕ∗n (ηs )] ,
x∗ (s) = x;
здесь символ ηs означает либо информационное состояние {x (s) , x0 }, либо информационное состояние {x (τ ) , τ ≤ s} в зависимости от того какая информационная структура рассматривается.
Мы можем записать
Z
i
V (t, x) = exp [−r (t − t0 )]
t
∞
g i [x∗ (s) , ϕ∗1 (ηs ) , . . . , ϕ∗n (ηs )] ×
× exp [−r (s − t)] ds,
где
x (t) = x = x∗t = x∗ (t) .
Поскольку
Z ∞
g i [x∗ (s) , ϕ∗1 (ηs ) , ϕ∗2 (ηs ) , . . . , ϕ∗n (ηs )] exp [−r (s − t)] ds
t
зависит лишь от текущего состояния x, можно написать
Z ∞
i
W (x) =
g i [x∗ (s) , ϕ∗1 (ηs ) , . . . , ϕ∗n (ηs )] exp [−r (s − t)] ds.
t
Отсюда получаем для i ∈ N
V i (t, x) = exp [−r (t − t0 )] W i (x) ,
Vti (t, x) = −r exp [−r (t − t0 )] W i (x) ,
Vxi (t, x)
= exp [−r (t −
(4.58)
t0 )] Wxi (x) .
253
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Состоятельное позиционное равновесие по Нэшу для автономной игры
на бесконечном промежутке времени (4.56)–(4.57) может быть охарактеризовано следующим образом.
©
ª
Теорема 4.7.1. Набор стратегий u∗i (s) = ϕ∗i (·) ∈ U i ; для i ∈ N является состоятельным позиционным равновесием по Нэшу в игре на бесконечном интервале времени (4.56)–(4.57), если существуют непрерывнодифференцируемые функции W i (x) : Rm → R, i ∈ N , удовлетворяющие
следующей системе дифференциальных уравнений в частных производных:
© £
¤
rW i (x) = max g i x, ϕ∗1 (x), ϕ∗2 (x), . . . , ϕ∗i−1 (x), ui , ϕ∗i+1 (x), . . . , ϕ∗n (x) +
ui
£
¤ª
+ +Wxi (x)f x, ϕ∗1 (x), . . . , ϕ∗i−1 (x), ui (x), ϕ∗i+1 (x), . . . , ϕ∗n (x) =
©
= g i [x, ϕ∗1 (x), ϕ∗2 (x), . . . , ϕ∗n (x)] +
ª
+ Wxi (x)f [x, ϕ∗1 (x), ϕ∗2 (x), . . . , ϕ∗n (x)] ,
для i ∈ N.
Д о к а з а т е л ь с т в о. По теореме 4.1.2 функция W i (x) является
функцией значения соответствующей задачи оптимизации игрока i ∈ N .
Вместе с неравенством в определении 4.4.1 условия теоремы 4.7.1 дают
равновесие по Нэшу.
Поскольку s явно не входит в уравнение с частными производными из теоремы 4.4.1 мы получаем независимость состоятельного позиционного равновесия по Нэшу от времени {u∗i = ϕ∗i (x) ,
i ∈ N }. Подставляя равновесные стратегии из теоремы 4.4.1 в (4.55), находим равновесную траекторию
ẋ (s) = f [x (s) , ϕ∗1 (x (s)) , ϕ∗2 (x (s)) , . . . , ϕ∗n (x (s))] ,
x (t0 ) = x0 .
Решив дифференциальные уравнения, получим оптимальную траекторию {x∗ (t)}t≥t0 в виде
Z t
x∗ (t) = x0 +
f [x∗ (s) , ϕ∗1 (x∗ (s)) , . . . , ϕ∗n (x∗ (s))] ds, t ≥ t0 .
t0
Как и ранее обозначаем выражение x∗ (t) через x∗t . Тогда состоятельное позиционное равновесие для игры на бесконечном отрезке времени
(4.54)–(4.55) может быть записано в виде
[ϕ∗1 (x∗t ) , ϕ∗2 (x∗t ) , . . . , ϕ∗n (x∗t )] ,
t ≥ t0 .
Следуя теоремам 4.2.2 и 4.4.1, охарактеризуем равновесие в программных стратегиях для игры с бесконечной временной продолжительностью
(4.56) и (4.57).
254
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.8.. Модель конкуренции с бесконечной продолжительностью
Теорема 4.7.2. Пусть множество стратегий {u∗i (s) = ζi∗ (s, xt ) , i ∈ N }
образует равновесие по Нэшу в программных стратегиях для игры на бесконечном промежутке времени (4.56)–(4.57), и {x∗ (s) ,
t ≤ s ≤ T } — соответствующая оптимальная траектория, тогда существуют n таких сопряженных функций λi (s) : [t, T ] → Rm при i ∈ N ,
что выполнены следующие условия:
ζi∗ (s, x) ≡ u∗i (s) =
© £
¤
= arg max g i x∗ (s), u∗1 (s), . . . , u∗i−1 (s), ui (s), u∗i+1 (s), . . . , u∗n (s) +
ui ∈U i
£
¤ª
i
+ λ (s) f x∗ (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
ẋ∗ (s) = f [x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] ,
x∗ (t) = xt ,
∂ © i ∗
g [x (s) , u∗1 (s) , u∗2 (s) , . . .
∂x∗
ª
. . . , u∗n (s)] + λi (s) f [x∗ (s) , u∗1 (s) , u∗2 (s) , . . . , u∗n (s)] .
λ̇i (s) = rλ (s) −
Д о к а з а т е л ь с т в о. Рассмотрим i-ое равенство в теореме 4.7.2
из которого следует, что u∗i (s) = ζi∗ (s, xt ) максимизирует
Z ∞
£
¤
g i x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ds,
t0
на множестве ui (s) ∈ U i при ограничении
£
¤
ẋ (s) = f x (s) , u∗1 (s) , . . . , u∗i−1 (s) , ui (s) , u∗i+1 (s) , . . . , u∗n (s) ,
x (t) = xt ,
i ∈ N.
Это есть задача оптимального управления для игрока i на бесконечном
интервале времени. Поскольку u∗j (s) при j ∈ N и j 6= i — программные
управления и, следовательно, не зависят от u∗i (s), эти результаты следуют
из теоремы 4.2.2.
§ 4.8.
Модель конкуренции с бесконечной продолжительностью
Рассмотрим динамическую дуополию, в которой две фирмы продают однородный продукт. Будем следовать [Tsutsui, Mino, 1990] и предположим,
что
Ṗ (s) = k [a − u1 (s) − u2 (s) − P (s)] , P (t0 ) = P0 ,
(4.59)
где P (s) — рыночная цена в момент s, ui (s) — объем выпуска продукции фирмой i ∈ {1, 2}, и текущий спрос определяется по формуле
255
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
P (s) = [a − u1 (s) − u2 (s)]. Коэффициент k > 0 характеризует скорость
изменения цены.
Выигрыш фирмы i определяется как суммарный доход, дисконтированный на момент начала процесса
Z ∞
©
ª
P (s)ui (s) − cui (s) − (1/2)[ui (s)]2 exp[−r(s − t0 )]ds, i ∈ {1, 2} , (4.60)
t0
где cui (s) + (1/2) [ui (s)]2 есть затраты на производство продукции в объеме ui (s), а r — процентная ставка.
Рассмотрим подыгру
Z ∞
©
ª
max P (s)ui (s) − cui (s) − (1/2)[ui (s)]2 exp[−r(s−t)]ds, i ∈ {1, 2}, (4.61)
ui
t
при условии
Ṗ (s) = k [a − u1 (s) − u2 (s) − P (s)] ,
P (t) = P.
(4.62)
Игра на бесконечном промежутке времени (4.61)–(4.62) является автономной с постоянной процентной ставкой, поэтому можно применить
теорему 4.7.1 для характеризации состоятельного позиционного равновесия по Нэшу. Поэтому можем написать следующие уравнения:
nh
i
rW i (P ) = max P ui − cui − (1/2) (ui )2 +
ui
(4.63)
£ ¡
¢¤ª
+ WPi k a − ui − ϕ∗j (P ) − P
, i ∈ {1, 2} .
Проведя максимизацию в (4.63), найдем
ϕ∗i (P ) = P − c − kWPi (P ) ,
i ∈ {1, 2} .
(4.64)
Поставив (4.64) в (4.63) и решив уравнение, получим
1
W i (P ) = AP 2 − BP + C,
2
(4.65)
где
q
A =
B =
C =
256
r + 6k −
(r + 6k)2 − 12k 2
6k 2
−akA + c − 2kcA
,
r − 3k 2 A + 3k
c2 + 3k 2 B 2 − 2kB (2c + a)
.
2r
,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.9.. Стохастические дифференциальные игры
Подставляя W i (P ) и ее производные в (4.63) и (4.64) мы можем еще
раз убедиться в том, что W i (P ), определяемая (4.65), действительно решает (4.63), .
Равновесные стратегии могут быть записаны в виде
ϕ∗i (P ) = P − c − k (AP − B) ,
i ∈ {1, 2} .
Подстановка равновесных стратегий в (4.59) дает возможность представить равновесную траекторию игры (4.59)–(4.60) в виде
Ṗ (s) = k [a − 2 (c + kB) − (3 − kA) P (s)] ,
P (t0 ) = P0 .
Решение этого дифференциального уравнения дает нам выражение
для оптимальной траектории
¸
·
k [a − 2 (c + kB)]
∗
P (t) = P0 −
exp [−k (3 − kA) t] +
k (3 − kA)
+
k [a − 2 (c + kB)]
.
k (3 − kA)
Обозначим для простоты P ∗ (t) через Pt∗ . Состоятельное позиционное равновесие для игры (4.59)–(4.60) может быть записано в виде
ϕ∗i (Pt∗ ) = Pt∗ − c − k (APt∗ − B) ,
{1, 2} .
Нахождение программного равновесия оставим читателю.
§ 4.9.
Стохастические дифференциальные игры
Одним из способов включения случайных элементов в динамику управляемого процесса является использование стохастических
дифференциальных уравнений. Динамика процесса в дифференциальной
игре с предписанной продолжительностью представлена следующими стохастическими дифференциальными уравнениями
dx(s) = f [s, x(s), u1 (s), u2 (s), . . . , un (s)]ds + σ[s, x(s)]dz(s),
x (t0 ) = x0 .
(4.66)
σ [s, x (s)] есть m × Θ матрица и z (s) — Θ-мерный винеровский процесс,
x0 — начальное состояние.
Заданы функции выигрыша
½Z T
¾
i
i
Et0
g [s, x(s), u1 (s), u2 (s), . . . , un (s)]ds + q (x(T )) , i ∈ N, (4.67)
t0
257
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
где Et0 {·} означает оператор математического ожидания, взятый
в начальный момент времени t0 . Обозначим через Ω [s, x (s)] =
σ [s, x (s)] σ [s, x (s)]0 ковариационную матрицу с элементами Ωhζ [s, x (s)],
стоящими на пересечении строки h и столбца
h
iζ. Более того, винеровский
2
процесс E [dz$ ] = 0, E [dz$ dt] = 0, E (dz$ ) = dt для $ ∈ [1, 2, . . . , Θ];
и далее винеровский процесс E [dz$ dzω ] = 0 для $ ∈ [1, 2, . . . , Θ], ω ∈
[1, 2, . . . , Θ] и $ 6= ω. Информационное состояние может иметь один из
двух видов, рассматриваемых ранее, и информационный элемент будет
обозначаться η i (s) = {x (s)} , s ∈ [t0 , T ].
Равновесие по Нэшу в стохастической игре (4.66)–(4.67) характеризуется следующей теоремой.
Теорема
4.9.1. Набор
состоятельных позиционных стратегий
© ∗
ª
ϕi (t, x) ∈ U i ; i ∈ N является равновесием по Нэшу (4.66)–(4.67),
если существует дважды непрерывно-дифференцируемые функции
V i : [t0 , T ] × Rm → R, i ∈ N , удовлетворяющие следующей системе
параболических уравнений в частных производных
n
1 X hζ
Ω (t, x) Vxih xζ =
2
h,ζ=1
©
= max g i [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . .
−Vti −
ui
¤
. . . , ϕ∗i−1 (t, x) , ui (t) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) +
+ Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . .
¤ª
. . . , ϕ∗i−1 (t, x) , ui (t) , ϕ∗i+1 (t, x) , . . . , ϕ∗n (t, x) =
=
+
© i
g [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] +
ª
Vxi (t, x) f [t, x, ϕ∗1 (t, x) , ϕ∗2 (t, x) , . . . , ϕ∗n (t, x)] ,
V i (T, x) = q i (x) ,
i ∈ N.
Д о к а з а т е л ь с т в о. Теорема следует непосредственно из определения равновесия по Нэшу и теоремы 4.3.1, поскольку если зафиксировать равновесные стратегии всех игроков кроме игрока i, то мы получаем
задачу стохастического оптимального управления, к которой применима
теорема 4.3.1.
Рассмотрим теперь антагонистический вариант игры (4.66)–
(4.67), в которой участвуют лишь 2 игрока, и выигрыш игрока 1
равен выигрышу игрока 2 с обратным знаком. Для этого случая теорема
4.9.1 может быть переформулирована следующим образом.
258
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.10.. Задача добычи ограниченного ресурса
© ∗
ª
Теорема 4.9.2. Пара стратегий
φi (t, x) ∈ U i ; i = 1, 2
является ситуацией равновесия в антагонистическом варианте игры
(4.66)–(4.67), если существует дважды непрерывно-дифференцируемая
функция V : [t0 , T ] × Rm → R, удовлетворяющая следующему уравнению
в частных производных 2-го порядка:
−Vt −
n
1 X hζ
Ω (t, x) Vxh xζ =
2
h,ζ=1
=
=
=
min max {g [t, x, u1 , u2 ] + Vx f [t, x, u1 , u2 ]} =
u1 ∈S 1 u2 ∈S 2
max min {g [t, x, u1 , u2 ] + Vx f
u2 ∈S 2 u1 ∈S 1
{g [t, x, φ∗1 (t, x) , φ∗2 (t, x)] + Vx f
[t, x, u1 , u2 ]} =
[t, x (t) φ∗1 (t, x) , φ∗2 (t, x)]} ,
V (T, x) = q (x) .
Д о к а з а т е л ь с т в о. Теорема является частным случаем теоремы
4.9.1 при n = 2, g 1 (·) = −g 2 (·) ≡ g (·), и q 1 (·) = −q 2 (·) ≡ q (·), при
этом V 1 = −V 2 ≡ V , и существование ситуации равновесия эквивалентно
перестановочности операции min max.
Т. Башар [Basar, 1977а; 1977с; 1980] первым получил основные результаты в области квадратичных стохастических дифференциальных игр.
В дальнейшем различные примеры, для которых были получены явные решения стохастических дифференциальных игр, были опубликованы в работах [Clemhout, Wan, 1985; Kaitala, 1993; Jorgensen, Yeung, 1996;
Jorgensen, Yeung, 1999; Yeung, 1998; Yeung, 1991; Yeung, 2001].
§ 4.10.
Задача добычи ограниченного ресурса
Пусть имеется n ≥ 2 добывающих фирм, которые разрабатывают месторождение некоторого ограниченного ресурса с начальным запасом x0 .
Процесс добычи начинается в момент t0 и заканчивается в момент T .
Обозначим через ui (s) скорость добычи ресурса фирмой i в момент s,
i ∈ N = {1, 2, . . . , n}. Эта величина является управлением для соответствующей добывающей фирмы. Пусть U i — множество допустимых скоростей добычи, и x (s) — величина запаса ресурса в момент s. В частности,
U i ⊂ R+ для x > 0 и U i = {0} для x = 0. Затраты на добычу ресурса
фирмы i ∈ N зависят от размера добытого ресурса ui (s), запаса ресурса
x (s) и параметра c.
Затраты в момент s могут быть приближенно оценены по формуле
C i (s) = cui (s) /x (s)1/2 . Рыночная цена ресурса зависит от общего объема добытого ресурса, который предлагается на рынок. Предположим, что
259
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
−1/2
цена ресурса
, где
P в момент s определяется по формуле P (s) = Q (s)
u
(s)
—
общее
количество
добытого
ресурса
в
момент
s.
Q (s) =
i∈N i
В момент окончания добычи каждая добывающая фирма обладает терминальным бонусом w[x (T )]1/2 для консервации разработки. Обозначим
через r — параметр дисконтирования, который один и тот же для всех
добывающих фирм. Добывающая фирма i стремится максимизировать
математическое ожидание выигрыша
½ ·³
¸
´−1/2
R T Pn
c
Et0 t0
1/2 ui (s) exp [−r (t − t0 )] ds
j=1 uj (s) ui (s) −
x(s)
o
+ exp [−r (T − t0 )] wx (T )1/2 ,
(4.68)
i ∈ N,
при условии
h
i
P
dx (s) = ax (s)1/2 − bx (s) − nj=1 uj (s) ds + σx (s) dz (s) ,
x (t0 ) = x0 ∈ X.
(4.69)
Используя
теорему
4.9.1,
найдем
условия,
при
кото∗
∗
рых
состоятельные
позиционные
стратегии
{ui (t) = φi (t, x) ;
i ∈ N } образуют равновесие по Нэшу в игре (4.68)–(4.69). Они заключаются в существовании функций V i (t, x) : [t0 , T ] × R → R, i ∈ N ,
удовлетворяющих следующей системе уравнений в частных производных;
1
i
(t, x) =
−Vti (t, x) − σ 2 x2 Vxx
2
 

−1/2


n


c

X ∗

φj (t, x) + ui 
− 1/2 ui 
= max ui 
 exp[−r(t − t0 )] +
x
ui ∈U i 

j=1

j6=i



n

X

i
1/2
∗
(4.70)
+ Vx ax − bx −
φj (t, x) − ui  ,


j=1
j6=i
V i (T, x) = exp [−r (T − t0 )] wx1/2 .
Значение управления, на котором достигается максимум в правой части уравнения (4.70), получаем из условия первого порядка
·µ
¶³
¸
´−3/2
Pn
Pn
1 ∗
c
∗
∗
− x1/2 ×
j=1 φj (t, x) +
j=1 φj (t, x)
2 φi (t, x)
j6=i
× exp [−r(t − t0 )] − Vxi = 0,
260
i ∈ N.
(4.71)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.10. Задача добычи ограниченного ресурса
Суммируя по i = 1, 2, . . . , n в (4.71), имеем:
−1

1/2

µ
¶ X
n
n h
i
X
1
c


+ exp[r(t − t0 )]Vxj  . (4.72)
φ∗j (t, x) = n −
1/2
2
x
j=1
j=1
Подставив (4.72) в (4.71), получим уравнение
µ
¶
¡
¢−3
Pn
1 ∗
∗
n − 12
×
j=1 φj (t, x) +
2 φi (t, x)
j6=i
×
−
³P
n
h
j=1
c
x1/2
+ exp [r (t − t0 )] Vxj
c
− exp [r (t − t0 )] Vxi = 0,
x1/2
i´3
−
(4.73)
i ∈ N.
После дополнительных преобразований в (4.73), получаем


n
1
X ∗

φj (t, x) + φ∗i (t, x) =

2
j=1
j6=i
(4.74)
µ
¶
1 3
[c + exp[r(t − t0 )]Vxi x1/2 ]x
= n−
³P
h
i´3 , i ∈ N.
2
j 1/2
n
c
+
exp
[r(t
−
t
)]
V
x
x
0
j=1
Условие (4.74) представляет собой систему линейных уравнений относительно {φ∗1 (t, x) , φ∗2 (t, x) , . . . , φ∗n (t, x)}. Решив (4.74), получаем
φ∗i (t, x) =
x (2n − 1)2
h
ii3 ×
j 1/2
j=1 c + exp [r (t − t0 )] Vx x
hP
n
2

"
#

n
X
Vxj x1/2
×
c+
−

exp [−r (t − t0 )]
 j=1
(4.75)
j6=i
−
#)
µ
¶"
3
Vxi x1/2
n−
c+
, i ∈ N.
2
exp [−r (t − t0 )]
Подставляя φ∗i (t, x) в (4.75)) и в (4.70) и решая их, получаем.
Следствие 4.10.1. Система (4.70) допускает решение вида
h
i
V i (t, x) = exp [−r (t − t0 )] A (t) x1/2 + B (t) ,
(4.76)
261
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
где A (t) и B (t) удовлетворяют дифференциальным уравнениям
·
¸
µ
¶
A (t) −1
1 2 b
(2n − 1)
c+
Ȧ (t) = r + σ +
A (t) −
8
2
2n2
2
¶−2
2
2 µ
A (t)
(2n − 1) A (t)
c (2n − 1)
c+
+
+
,
3
4n
2
8n2 (c + A(t)/2)2
a
Ḃ (t) = rB (t) − A (t) ,
2
A (T ) = w,
(4.77)
B (T ) = 0.
Первое из уравнений в (4.77) может быть переписано в виде:
(µ
¶
¶
µ
1 2 b [A (t)]3
1 2 b
Ȧ(t) =
r+ σ +
c [A (t)]2 +
+ r+ σ +
8
2
4
8
2
"µ
¡ 2
¢#
¶
4n − 8n + 3
1 2 b 2
A (t) −
(4.78)
+
r+ σ +
c +
8
2
8n2
¶
¾ µ
(2n − 1) c .
A (t) 2
−
c+
.
4n3
2
Знаменатель правой части уравнения (4.78) всегда положителен. Перепишем числитель правой части уравнения (4.78) в виде:
F [A (t)] −
(2n − 1) c
.
4n3
(4.79)
Из (4.78) следует, что F [A (t)] — полином от A (t) третьей степени.
Более того, F [A (t)] = 0 для A (t) = 0, и для всех A (t) ∈ (0, ∞) выполнено:
µ
¶
µ
¶
dF [A (t)]
1 2 b 3 [A (t)]2
1 2 b
= r+ σ +
+2 r + σ +
c [A (t)] +
dA (t)
8
2
4
8
2
(4.80)
"µ
¡ 2
¢#
¶
4n − 8n + 3
1 2 b 2
+
r+ σ +
c +
> 0.
8
2
8n2
Таким образом, существует единственное число A∗ , для которого
F [A∗ ] −
(2n − 1) c
= 0.
4n3
(4.81)
Если A (t) = A∗ , то Ȧ (t) = 0. Для значений A (t) < A∗ , производная
Ȧ (t) отрицательна. Для значений A (t) > A∗ , производная Ȧ (t) положительна. Фазовая диаграмма, показывающая соотношения между Ȧ (t) и
262
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.10. Задача добычи ограниченного ресурса
Рис. 4.1. Диаграмма,
показывающая связь между
Ȧ (t) и A (t).
Рис. 4.2. Траектория A (t).
A (t) приведена на рисунке 4.1, в то время как функция A (t) и значение
A∗ показаны на рисунке 4.2.
Для заданного значения w, которое не превосходит A∗ , траектория
{A (t)}Tt=t0 будет начинаться значением A (t0 ), которое превосходит w и
меньше чем A∗ . Значения A (t) убывают во времени и достигают величины
w в момент T . В то же время для значения величины w, большей чем
A∗ , траектория {A (t)}Tt=t0 начинается со значения A (t0 ), которое меньше
чем w и больше чем A∗ . Значения A (t) убывают во времени и достигают
значения w в момент T . Таким образом функция A (t) монотонна, и A (t) >
0 при t ∈ [tτ , T ].
Используя выражение A (t), можно получить решение B (t) в виде
µ
¶
Z t
a
B (t) = exp (rt) K −
A (s) exp (−rs) ds ,
(4.82)
t0 2
где K =
§ 4.11.
RT
t0
a/2 · A (s) exp (−rs) ds.
Стохастические дифференциальные игры с бесконечной
продолжительностью
Рассмотрим игровую задачу на бесконечном промежутке времени с постоянным параметром дисконтирования. Игровая задача может быть записана следующим образом:
½Z ∞
¾
i
max Et0
g [x (s) , u1 (s) , . . . , un (s)] exp [−r (s − t0 )] ds , i ∈ N, (4.83)
ui
t0
263
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
при условии
dx(s) = f [x(s), u1 (s), u2 (s), . . . , un (s)] ds +
+ σ [x(s)] dz(s), x(t0 ) = x0 .
Рассмотрим подыгру, в которой целью игроков является
©R ∞
maxui Et t g i [x (s) , u1 (s) , u2 (s) , . . . , un (s)] ×
¯
¾
¯
× exp [−r (s − t)] ds¯¯ x (t) = xt , i ∈ N
(4.84)
(4.85)
при условии
dx (s) = f [x (s) , u1 (s) , u2 (s) , . . . , un (s)] ds +
+ σ [x (s)] dz (s) , x (t) = xt .
(4.86)
Игра на бесконечном промежутке времени (4.85)–(4.86) не зависит от
выбора момента начала t, а зависит лишь от состояния x в начальный
момент времени.
Используя теорему 4.3.2 и проводя рассуждения, приводящие к формулировке теоремы 4.7.1, можно получить следующее условие, характеризующие равновесие по Нэшу в стохастической дифференциальной игре
с бесконечной продолжительностью.
©
ª
Теорема 4.11.1. Набор стратегий u∗i (s) = φ∗i (·) ∈ U i , i ∈ N образует
равновесие по Нэшу в игре (4.85)–(4.86), если существуют дважды непрерывно-дифференцируемые функции W i (x) : Rm → R, i ∈ N , удовлетворяющие следующей системе дифференциальных уравнений:
n
1 X hζ
Ω (x) Wxi h xζ (x) =
2
h,ζ=1
©
= max g i [x, φ∗1 (x) , φ∗2 (x) , . . .
rW i (x) −
ui
¤
. . . , φ∗i−1 (x) , ui (x) , φ∗i+1 (x) , . . . , φ∗n (x) +
+ Wxi (x) f [x, φ∗1 (x) , φ∗2 (x) , . . .
¤ª
. . . , φ∗i−1 (x) , ui (x) , φ∗i+1 (x) , . . . , φ∗n (x)
©
= g i [x, φ∗1 (x) , φ∗2 (x) , . . . , φ∗n (x)] +
ª
+ Wxi (x) f [x, φ∗1 (x) , φ∗2 (x) , . . . , φ∗n (x)] , i ∈ N.
Д о к а з а т е л ь с т в о. Теорема обосновывается аналогично теореме 4.9.1.
264
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.11.
Стохастические игры с бесконечной продолжительностью
Пример 4.11.1. Рассмотрим игру на бесконечном промежутке времени,
в которой добывающая фирма i ∈ N стремится максимизировать математическое ожидание выигрыша
 


−1/2


n
Z T X

c



Et0
u
(s)
(4.87)
uj (s) ui (s)−
exp
[−r
(s
−
t
)]
ds


i
0


x (s)1/2
 t0

j=1
при условии

dx(s) = ax(s)1/2 − bx(s) −
n
X

uj (s) ds + σx(s)dz(s),
j=1
(4.88)
x(t0 ) = x0 ∈ X.
Рассмотрим подыгру, в которой игроки стремятся максимизировать
 


−1/2


n
Z T

c
X


Et
uj (s) ui (s)−
ui (s)exp [−r (s − t)] ds ,



x (s)1/2
t

j=1
(4.89)
i ∈ N,
при условии

dx (s) = ax (s)1/2 − bx (s) −
n
X

uj (s) ds + σx (s) dz (s) ,
j=1
x (t) = x ∈ X.
(4.90)
Используя теорему 4.11.1, получаем, что набор состоятельных позиционных стратегий {φ∗i (x) , i ∈ N } образует равновесие по Нэшу в игре
(4.89)–(4.90), если существуют дважды непрерывно-дифференцируемые
функции V i (x) : R → R при i ∈ N , удовлетворяющие следующей системе
уравнений в частных производных:
1
i
(x) =
rW i (x) − σ 2 x2 Wxx
2
 

−1/2


n


c
X ∗

u
φj (x) + ui 
− 1/2 ui 
= max 
(4.91)
i

+
x
ui ∈U i 

j=1

j6=i



n

X

i
1/2
∗
+ +Wx ax − bx −
φj (x) − ui  .


j=1
j6=i
265
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
Максимизируя правую часть уравнения в (4.91) для игрока i ∈ N ,
получаем условие первого порядка в виде



−3/2
n
n
c 
1
X ∗
 X ∗
φj (x)
− 1/2  − Wxi = 0.
φj (x) + φ∗i (x) 
(4.92)

2
x
j=1
j=1
j6=i
Суммируя по i = 1, 2, . . . , n в (4.92), получаем

−1

1/2
¶ X
µ
n h
n
i
X
1 
c

φ∗j (x) = n −
+ Wxj  .
1/2
2
x
(4.93)
j=1
j=1
Подстановка (4.93) в (4.92) дает
µ
¶
i´3
h
¡
¢ ³
Pn
j
1 ∗
1 −3 Pn
c
∗
+
W
φ
(x)
n
−
−
j=1 φj (x) +
x
j=1 x1/2
2 i
2
j6=i
c
− Wxi = 0,
− x1/2
i ∈ N.
После преобразования (4.94), получим:


µ
¶
n
1 ∗ 
1 3
[c + Wxi x1/2 ]x
X ∗
φj (x) + φi (x) = n −
, i ∈ N.

Pn
2
2
( j=1 [c + Wxj x1/2 ])3
j=1
(4.94)
(4.95)
j6=i
Условие (4.95) представляет собой линейное уравнение относительно
Решая (4.95), получаем:


n h
X
i
x (2n − 1)2
∗
c + Wxj x1/2 −
φi (x) =
hP
h
ii3

j 1/2
n
 j=1
2
j=1 c + Wx x
j6=i
(4.96)
µ
¶h
¾
i
3
i 1/2
−
n−
c + Wx x
, i ∈ N.
2
{φ∗1 (x) , φ∗2 (x) , . . . , φ∗n (x)}.
Подставив φ∗i (t, x) в (4.96) и далее в (4.91) и решая, получим следующее следствие.
Следствие 4.11.1. Система (4.91) допускает решение в виде
h
i
W i (x) − Ax1/2 + B ,
266
(4.97)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 4.11.
Стохастические игры с бесконечной продолжительностью
где A и B удовлетворяют уравнениям
µ
·
¸
¶
1 2 b
(2n − 1)
A −1
0 = r+ σ +
−
c+
+
8
2
2n2
2
µ
¶
c (2n − 1)2
A −2
(2n − 1)2 A
+
c
+
,
+
4n3
2
8n2 (c + A/2)2
B =
(4.98)
a
A.
2r
267
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4 Линейно-квадратичные дифференциальные игры
268
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 5
Кооперативные дифференциальные игры в форме
характеристической функции
§ 5.1.
Определение кооперативной игры
Рассмотрим общую дифференциальную игру Γ(x0 , T − t0 ) для n лиц с
уравнением движения вида
ẋ (s) = f [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ,
x (t0 ) = x0 ,
(5.1)
Выигрыш игрока i определяется так:
RT
t0
g i [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ds + q i (x (T )) ,
i ∈ N = {1, 2, . . . , n} ,
(5.2)
где x (s) ∈ X ⊂ Rm — позиционная переменная игры и ui ∈ U i — управление игрока i ∈ N . Выигрыши игроков предполагаются трансферабельными. В предположении, что игроки в игре не кооперируются, состоятельное
позиционное равновесие может быть построено с использованием теоремы
4.5.2.
А теперь рассмотрим случай, когда игроки согласились на кооперацию. Обозначим через Γc (x0 , T − t0 ) кооперативную игру с игровой структурой игры Γ (x0 , T − t0 ), в которой игроки решили действовать в соответствии с некоторым заранее определенным принципом оптимальности.
Соглашение о том, как кооперироваться и как разделить выигрыш, получившийся в результате кооперации составляет содержание принципа оптимальности в кооперативной игре. Таким образом, принцип оптимальности
в кооперативной игре Γc (x0 , T − t0 ) состоит из:
— соглашения о множестве кооперативных стратегий (управлений),
— механизма распределения общего выигрыша между игроками.
269
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
Принцип оптимальности должен сохранять свою эффективность
вдоль кооперативной траектории {x∗s }Ts=t0 . Более того, групповая рациональность требует, чтобы игроки ориентировались на множество стратегий (управлений), дающих оптимальное по Парето решение. В дополнении к этому, принцип распределения выигрыша должен удовлетворять
свойству индивидуальной рациональности в том смысле, что ни один из
игроков не должен ухудшить свое состояние в результате кооперации.
Для выполнения свойства групповой рациональности в случае трансферабельных выигрышей игроки должны стремиться к максимизации
суммарного выигрыша
¾
N ½Z T
X
j
j
g [s, x (s) , u1 (s) , u2 (s) , . . . , un (s)] ds + q (x (T )) ,
(5.3)
j=1
t0
при условии (5.1).
Множество оптимальных управлений u∗ (s) = [u∗1 (s) , u∗2 (s) , . . . , u∗n (s)]
может быть получено с использованием теоремы 4.2.1. Подставляя этот
набор оптимальных управлений в (5.1), получаем оптимальную траекторию {x∗ (t)}Tt=t0 , где
Z t
∗
x (t) = x0 +
f [s, x∗ (s) u∗ (s)] ds,
t ∈ [t0 , T ] .
(5.4)
t0
Как и ранее мы будем использовать как обозначение x∗ (t), так и обозначение x∗t как взаимозаменяемые.
Обозначим величину
¾
n ½Z T
X
j
∗
∗
j
∗
g [s, x (s) , u (s)] ds + q (x (T ))
j=1
t0
через v (N ; x0 , T − t0 ). Пусть S ⊆ N , и v (S; x0 , T − t0 ) — характеристическая функция, отражающая гарантированный выигрыш коалиции S.
Величина v (S; x0 , T − t0 ) означает максимальный выигрыш коалиции S
в случае, когда оставшиеся игроки из коалиции N \S играют против S.
Используя супераддитивность характеристической функции, получаем
v (S; x0 , T − t0 ) ≥ v (S 0 ; x0 , T − t0 ), если S 0 ⊂ S ⊆ N . Поэтому игрокам выгодно создавать максимальную коалицию N для получения максимально
возможного суммарного выигрыша v (N ; x0 , T − t0 ) в данной игре.
§ 5.2.
Дележи
Важнейшей частью исследования кооперативных игр является исследование возможности создания коалиций и конструирование (построение)
270
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.2. Дележи
«приемлемого» распределения суммарного кооперативного выигрыша
между игроками. В действительности, аппарат характеристических функций показывает возможности коалиций и является основой для построения схем распределения суммарного выигрыша, которые приемлемы для
игроков-участников.
Мы будем использовать символ Γv (x0 , T − t0 ) для обозначения кооперативной дифференциальной игры в форме характеристической функции.
Исследуем различные решения игры Γv (x0 , T − t0 ).
=
[ξ1 (x0 , T − t0 ) ,
Определение 5.2.1. Вектор ξ (x0 , T − t0 )
ξ2 (x0 , T − t0 ) , . . . , ξn (x0 , T − t0 )], удовлетворяющий условиям:
1.
ξi (x0 , T − t0 ) ≥ v ({i} ; x0 , T − t0 ) , i ∈ N .
И
2.
P
j∈N ξj
(x0 , T − t0 ) = v (N ; x0 , T − t0 )
называется дележом в игре Γv (x0 , T − t0 ).
Условие 1 определения 5.2.1 гарантирует индивидуальную рациональность в том смысле, что игрок в условиях данного дележа получает по
крайней мере столько же сколько бы он мог получить если бы играл против всех игроков. Условие 2 гарантирует оптимальность по Парето, а следовательно, и групповую рациональность.
Теорема 5.2.1. Предположим что функция w : 2n × Rm × R1 → R1
аддитивна на S ⊂ N , т. е. для любых S, A ⊂ 2n , S ∩ A = ∅ мы
имеем w (S ∪ A; x0 , T − t0 )
= w (S; x0 , T − t0 ) + w (A; x0 , T − t0 ).
Тогда в игре Γw (x0 , T − t0 ) существует единственный дележ
ξi (x0 , T − t0 ) = w ({i} ; x0 , T − t0 ) для всех i ∈ N .
Д о к а з а т е л ь с т в о. Из аддитивности функции w мы немедленно
получаем
w (N ; x0 , T − t0 ) = w ({1} ; x0 , T − t0 ) + · · · + w ({n} ; x0 , T − t0 ) ,
Откуда с учетом индивидуальной рациональности дележа следует теорема 5.2.1.
Игры с аддитивной характеристической функцией называются несущественными, в отличие от игр с супераддитивной функцией, которые
называются существенными. В существенных играх Γv (x0 , T − t0 ) множество дележей бесконечно. Действительно, любой вектор вида
[v ({1} ; x0 , T − t0 ) + α1 , v ({2} ; x0 , T − t0 ) + α2 , . . .
. . . , v ({n} ; x0 , T − t0 ) + αn ] , [.2pc]
(5.5)
271
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
где αi ≥ 0, i ∈ N и
X
X
αi = v (N ; x0 , T − t0 ) −
v ({i} ; x0 , T − t0 ) ,
i∈N
i∈N
является дележом в игре Γv (x0 , T − t0 ).
Обозначим множество дележей в
Iv (x0 , T − t0 ).
игре
Γv (x0 , T − t0 )
Определение 5.2.2. Будем говорить, что дележ
доминирует дележ η (x0 , T − t0 ) по коалиции S
S
ξ (x0 , T − t0 ) Â
η (x0 , T − t0 ), если
1.
через
ξ (x0 , T − t0 )
и писать
ξi (x0 , T − t0 ) > ηi (x0 , T − t0 ) , i ∈ S.
И
2.
P
i∈S ξi (x0 , T
− t0 ) ≤ v (S; x0 , T − t0 ).
Дележ
ξ (x0 , T − t0 )
доминирует
дележ
η (x0 , T − t0 ),
или
ξ (x0 , T − t0 ) Â η (x0 , T − t0 ), если существует коалиция S ⊂ N , такая что
S
ξ (x0 , T − t0 ) Â
η (x0 , T − t0 ). Из определения следует что доминирование
по одноэлементным и максимальной коалициям не возможно.
Определение 5.2.3. Множество недоминируемых дележей игры Γv (x0 , T − t0 ) называется ядром игры и обозначается через
Cv (x0 , T − t0 ).
Определение 5.2.4. Множество Lv (x0 , T − t0 ) ⊂ Iv (x0 , T − t0 ) называется решением по Нейману и Моргенштерну (НМ-решением) игры
Γv (x0 , T − t0 ), если:
1. Из ξ (x0 , T − t0 ) , η (x0 , T − t0 ) ∈ Lv (x0 , T − t0 ) , следует
ξ (x0 , T − t0 ) 6Â η (x0 , T − t0 ),
2. а из
η (x0 , T − t0 ) ∈
/ Lv (x0 , T − t0 ), следует существование
дележа
ξ (x0 , T − t0 ) ∈ Lv (x0 , T − t0 ), для которого
ξ (x0 , T − t0 ) Â η (x0 , T − t0 ).
Заметим, что НМ-решение всегда содержит ядро, если последнее не
пусто.
Определение 5.2.5. Вектор Φv (x0 , T − t0 )
=
{Φvi (x0 , T − t0 ) ,
i = 1, . . . , n} называется вектором Шепли игры Γv (x0 , T − t0 ), если
он представим в виде
Φvi (x0 , T − t0 ) =
X (n − s)! (s − 1)!
=
[v (S; x0 , T − t0 ) − v (S\i; x0 , T − t0 )] , i ∈ N.
n!
S⊂N (S3i)
272
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.3.. Дележи в динамике
Компоненты вектора Шепли являются выигрышами игроков от кооперации. Вектор Шепли всегда единственный и является дележом. Интересно отметить, что вектор Шепли, в отличие от ядра и НМ-решения,
определяет способ распределения суммарного выигрыша v (N ; x0 , T − t0 )
без использования понятия доминирования.
§ 5.3.
Дележи в динамике
В § 5.2. мы построили дележи, определенные в начальный момент игры.
Игроков естественно интересует как происходит изменение дележей при
развитии игры вдоль кооперативной траектории. В этом параграфе мы
сосредоточимся на динамие дележей, подчиненных определенным принципам оптимальности.
Пусть в игре Γv (x0 , T − t0 ) выбран некоторый принцип оптимальности. Этот принцип оптимальности, примененный к игре из начальных
состояний x (t0 ) = x0 , t = t0 определяет некоторое подмножество множества дележей Wv (x0 , T − t0 ) ⊆ Iv (x0 , T − t0 ) и оптимальную траекторию
{x∗ (t)}Tt=t0 , которая максимизирует
¾
n ½Z T
X
j
∗
∗
j
∗
g [s, x (s) , u (s)] ds + q (x (T )) .
j=1
t0
Мы предполагаем также, что Wv (x0 , T − t0 ) 6= ∅.
Определение 5.3.1. Любая траектория {x∗ (t)}Tt=t0 системы (5.1), для
которой имеет место
¾
n ½Z T
X
g j [s, x∗ (s) , u∗ (s)] ds + q j (x∗ (T )) = v (N ; x0 , T − t0 )
j=1
t0
называется оптимальной траекторией игры Γv (x0 , T − t0 ) или оптимальной кооперативной траекторией.
Из определения 5.3.1 следует, что вдоль оптимальной траектории
игроки получают максимальный суммарный выигрыш. Предположим,
что такая траектория существует. Рассмотрим поведение множества
Wv (x0 , T − t0 ) вдоль оптимальной траектории {x∗ (t)}Tt=t0 . Для каждого текущего состояния x∗ (t) ≡ x∗t на оптимальной траектории текущая
подыгра Γv (xt∗ , T − t) определяется следующим образом. Для момента
времени t и состояния x∗ (t) определим характеристическую функцию


S=∅
 0,
∗
∗
S⊂N ,
V al ΓS (xt , T − t) ,
(5.6)
v (S; xt , T − t) =

 K (x∗ (t) , u∗ (·) , T − t) ,
S=N
N
273
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
где
KN (x∗t , u∗ (·) , T
− t) =
n ½Z
X
j=1
T
¾
g [s, x (s) , u (s)] ds + q (x (T ))
j
∗
∗
j
∗
t
представляет суммарный выигрыш игроков на промежутке времени [t, T ]
вдоль оптимальной траектории {x∗ (s)}Ts=t , и V al ΓS (x∗t , T − t) — значение антагонистической игры ΓS (x∗t , T − t) между коалициями S и N \S из
начального состояния x∗ (t) ≡ x∗t продолжительностью T − t, в которой
коалиция S является максимизирующей.
Множество дележей в игре Γv (x∗t , T − t) имеет вид
¯
(
¯
∗
n¯
Iv (xt , T − t) =
ξ ∈ R ¯ ξi ≥ v ({i} ; x∗t , T − t) , i = 1, 2, . . . , n;
¯
(5.7)
)
X
∗
ξi = v (N ; xt , T − t) ,
i∈N
где
v (N ; x∗t , T − t) =
= v (N ; x0 , T − t0 ) −
n ½Z
X
j=1
t
¾
j
∗
∗
j
∗
g [s, x (s) , u (s)] ds + q (x (T )) .
t0
o
Pn nR t j
∗ (s) , u∗ (s)] ds + q j (x∗ (T ))
Величина
g
[s,
x
представляет
j=1
t0
собой кооперативный выигрыш игроков на промежутке времени [t0 , t]
вдоль траектории {x∗ (s)}Ts=t0 .
Рассмотрим семейство текущих игр {Γv (x∗t , T − t) , t0 ≤ t ≤ T } и их
решений Wv (x∗t , T − t) ⊂ Iv (x∗t , T − t), порожденных тем же принципом
оптимальности, который определял решение Wv (x0 , T − t0 ) в начальный
момент.
Лемма 5.3.1. Множество Wv (x∗T , 0) является решением текущей игры
Γv (x∗T , 0) в момент T и состоит из единственного дележа
©
ª
q (x∗ (T )) = q 1 (x∗ (T )) , q 2 (x∗ (T )) , . . . , q n (x∗ (T ))
©
ª
= q 1 (x∗T ) , q 2 (x∗T ) , . . . , q n (x∗T ) .
Д о к а з а т е л ь с т в о. Поскольку игра Γv (x∗T , 0) имеет нулевую
продолжительность, для всех i ∈ N имеет место v ({i} ; x∗T , 0) = q i (x∗T ).
274
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.4.. Принцип динамической устойчивости
P
P
i
∗
∗
Поэтому i∈N v ({i} ; x∗T , 0) =
i∈N q (xT ) = v (N ; xT , 0) , и характери∗
стическая функция игры Γv (xT , 0) аддитивна по S. Тогда по теореме 5.2.1
имеем
Iv (x∗T , 0) = q (x∗T ) = Wv (x∗T , 0) ,
что завершает доказательство леммы.
§ 5.4.
Принцип динамической устойчивости
Построение оптимального поведения игроков является основным элементом теории кооперативных игр. Поведение игроков, удовлетворяющее
определенному принципу оптимальности, образует решение игры. Иными
словами решения кооперативных игр порождаются целой совокупностью
принципов оптимальности (например, вектор Шепли [Shapley, 1953], решение Неймана-Моргенштерна [Neumann, Morgenstern, 1944], арбитражное
решение Нэша [Nash, 1953]. В динамических играх должно выполняться
еще одно важное требование: выбранный принцип оптимальности должен
генерировать то же решение в любой подыгре, возникающей вдоль оптимальной траектории, выбранной игроками в начальный момент игры. Это
условие носит название динамической устойчивости или временной состоятельности. Предположим, что в начале игры игроки выбрали некоторый
принцип оптимальности (который включает в себя соглашение о выборе траектории, максимизирующей суммарный выигрыш игроков). Когда
игра развивается вдоль оптимальной траектории может оказаться, что
выбранный принцип оптимальности или будет порождать пустое множество решений, или решение отличное от того, которое соответствовало ему
в начальный момент игры. В этом случае некоторые игроки могут посчитать для себя более выгодным отклониться от кооперативной траектории
(траектории, максимизирующей суммарный выигрыш игроков), выбранной ими в начале игры. Если такое происходит, то это ведет к неустойчивости процесса и, как следствие, к нереализуемости первоначально выбранного решения о кооперации. В частности, динамическая устойчивость
(временная состоятельность) принципа оптимальности означает, что когда игра развивается вдоль кооперативной траектории, в каждый момент
времени игроки, ориентируясь на один и тот же принцип оптимальности,
следуют одним и тем же решениям и поэтому не имеют оснований отказаться от принципа оптимальности, принятого ими в начале игры и тем
самым не имеют оснований отказаться от кооперации.
Вопрос динамической устойчивости в кооперативных дифференциальных играх подробно обсуждался последние десятилетия в научной литературе. А. Ори [Haurie, 1976] заметил возможную динамическую неустой275
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
чивость арбитражной схемы Нэша при попытке ее переноса на дифференциальные игры. Л. Петросян [Petrosjan, 1977] формализовал понятие
динамической устойчивости для кооперативных дифференциальных игр.
Петросян и Данилов [Petrosjan, Danilov, 1979; 1982] ввели понятие процедуры распределения дележей во времени для кооперативных решений,
которая позволяет в определенном смысле преодолеть проблему динамической устойчивости. В. Толвинский и др. [Tolwinski, 1986] рассмотрели
кооперативное равновесие в дифференциальной игре с использованием
стратегий угроз, которое позволяло игрокам оставаться на кооперативной
траектории. В книге Л. Петросяна и Н. Зенкевича [Petrosjan, Zenkevich,
1996] приведен детальный анализ динамической устойчивости в дифференциальных играх. В частности, предложен метод регуляризации для
построения динамически устойчивых (состоятельных во времени) принципов оптимальности. Д. Янг и Л. Петросян [Yeung, Petrosjan, 2001] построили состоятельные во времени решения дифференциальной игры и
вывели условия, которым должен удовлетворять состоятельный во времени оптимальный дележ. Л. Петросян [Petrosjan, 2003] использовал метод
регуляризации для построения состоятельных во времени арбитражных
решений.
§ 5.5.
Динамически устойчивые решения
Пусть заданы решения подыгр Wv (x∗t , T − t) 6= ∅, t0 ≤ t ≤ T вдоль оптимальной кооперативной траектории (максимизирующей суммарный выигрыш игроков) {x∗ (t)}Tt=t0 . Если условие непустоты решений не будет
выполнено, то игроки не смогут следовать выбранному принципу оптимальности, поскольку в первый же момент времени t, для которого окажется Wv (x∗t , T − t) = ∅, игроки потеряют возможность выбора решения,
соответствующего первоначальному принципу оптимальности. Предположим, что в начальном состоянии игры x0 игроки согласились на выбор
дележа
ξ (x0 , T − t0 ) = [ξ1 (x0 , T − t0 ) , . . . , ξn (x0 , T − t0 )] ∈ Wv (x0 , T − t0 ) .
Это означает, что игроки договорились на такой дележ суммарного
выигрыша, при котором выигрыш i-го игрока на промежутке времени
[t0 , T ] составляет ξi (x0 , T − t0 ). Если в соответствии с дележом игрок i
должен получить выигрыш $i [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] на отрезке
времени [t0 , t], то на оставшемся промежутке [t, T ] в соответствии с
дележом ξ (x0 , T − t0 ) он должен получить выигрыш равный
276
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.5. Динамически устойчивые решения
ηi [ξ (x0 , T − t0 ) ; x∗ (t) , T − t] =
= ξi (x0 , T − t0 ) − $i [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] .
(5.8)
Определение 5.5.1. Пусть η [ξ (x0 , T − t0 ) ; x∗ (t) , T − t] — вектор с
компонентами
ηi [ξ (x0 , T − t0 ) ; x∗ (t) , T − t] ,
для i ∈ {1, 2, . . . , n} .
Для того чтобы первоначально выбранный принцип оптимальности
ξ (x0 , T − t0 ) сохранял свою значимость в текущий момент t на оптимальной траектории необходимо чтобы вектор
η [ξ (x0 , T − t0 ) ; x∗ (t) , T − t] ∈ Wv (x∗t , T − t) ,
(5.9)
и тогда η [ξ (x0 , T − t0 ) ; x∗ (t) , T − t] будет действительно решением текущей подыгры Γv (x∗t , T − t). Если это условие выполняется в каждый
момент времени t ∈ [t0 , T ] вдоль траектории {x∗ (t)}Tt=t0 , тогда дележ
ξ (x0 , T − t0 ) динамически устойчив.
Вдоль траектории x∗ (t) на отрезке времени [t, T ], t0 ≤ t ≤ T коалиция
состоящая из всех игроков N получает выигрыш
∗
v (N ; x (t) , T − t) =
n ½Z
X
T
¾
j
∗
∗
j
∗
g [s, x (s) , u (s)] ds + q (x (T )) . (5.10)
t
j=1
Тогда разность
∗
v (N ; x0 , T − t0 ) − v (N ; x (t) , T − t) =
n ½Z
X
j=1
t
¾
g [s, x (s) , u (s)] ds
j
∗
∗
t0
есть выигрыш коалиции N на промежутке [t0 , t].
Динамическая устойчивость (состоятельность во времени) дележа
ξ (x0 , T − t0 ) гарантирует, что принцип оптимальности, породивший этот
дележ, примененный к начальным условиям на оптимальной траектории в
более поздние моменты времени приводит к дележу аналогичной структуры. Более того, сохраняется групповая и индивидуальная рациональность
решения. Для выполнения этого условия необходимо ввести некоторый
механизм реализации дележа во времени (механизм временных выплат).
277
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
§ 5.6.
Процедура распределения дележа
Мы определим процедуру распределения дележа (ПРД), впервые введенную Л. Петросяном в 1978 г. таким образом, чтобы первоначально выбранный принцип оптимальности мог бы быть в действительности реализован
в игре. Предположим, что выигрыш, получаемый игроком i на интервале
времени [t0 , t] может быть представлен в виде
Z t
∗
$i [ξ (x0 (·) , T − t0 ) ; x (·) , t − t0 ] =
Bi (s) ds,
(5.11)
t0
где
X
Bj (s) =
j∈N
X
g j [s, x∗ (s) , u∗ (s)] ,
t0 ≤ s ≤ t ≤ T.
j∈N
Из (5.11) получаем
d$i
= Bi (t) .
(5.12)
dt
Эта величина может интерпретироваться как мгновенный выигрыш игрока i в момент времени t. Очевидно, что вектор B (t) =
[B1 (t) , B2 (t) , . . . , Bn (t)] определяет распределение суммарного мгновенного выигрыша между игроками коалиции N . Правильным выбором
функций B (t) можно достичь того, чтобы игроки не были заинтересованы
в моменты времени t ∈ [t0 , T ] отказаться от первоначального соглашения
о дележе ξ (x0 , T − t0 ).
Определение 5.6.1. Дележ ξ (x0 , T − t0 ) ∈ Wv (x0 , T − t0 ) динамически
устойчив (состоятелен во времени) в игре Γv (x0 , T − t0 ), если выполнены следующие условия:
1. существует оптимальная траектория {x∗ (t)}Tt=t0 , вдоль которой
Wv (x∗ (t) , T − t) 6= ∅, t0 ≤ t ≤ T ;
2. существуют функции B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)] интегрируемые на отрезке [t0 , T ] и такие что
X
X
Bj (t) =
g j [t, x∗ (t) , u∗ (t)] , t0 ≤ s ≤ t ≤ T,
j∈N
j∈N
ξ (x0 , T − t0 ) ∈
\
∈
($ [ξ (x0 (·) , T − t0 ) ; x∗ (t) , t − t0 ] ⊕ Wv (x∗ (t) , T − t)) ,
t0 ≤t≤T
где $ [ξ (x0 (·) , T − t0 ) ; x∗ (t) , t − t0 ] — вектор с компонентами
$i [ξ (x0 (·) , T − t0 ) ; x∗ (t) , t − t0 ], i ∈ N ; Wv (x∗ (t) , T − t) — решение
278
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.6. Процедура распределения дележа
текущей подыгры Γv (x∗ (t) , T − t) вдоль оптимальной траектории,
и оператор ⊕ означает: для η ∈ Rn и A ⊂ Rn , η ⊕ A={ η + a| a ∈ A}.
Мы будем говорить, что кооперативная дифференциальная игра
Γv (x0 , T − t0 ) имеет динамически устойчивое (состоятельное во времени)
решение Wv (x0 , T − t0 ), если все дележи ξ (x0 , T − t0 ) ∈ Wv (x0 , T − t0 )
динамически устойчивы (состоятельны во времени).
Из определения 5.6.1 получаем
ξ (x0 , T − t0 ) ∈ ($ [ξ (x0 (·) , T − t0 ) ; x∗ (t) , T − t0 ] ⊕ Wv (x∗ (T ) , 0)) ,
где Wv (x∗ (T ) , 0) = q (x∗ (T )) — решение игры Γv (x∗ (T ) , 0). Поэтому
можно написать
Z T
ξ (x0 , T − t0 ) =
B (s) ds + q (x∗ (T )) .
t0
Динамически устойчивый дележ ξ (x0 , T − t0 ) ∈ Wv (x0 , T − t0 ) может
быть реализован следующим образом. Из определения 5.6.1 следует, что
в каждый момент времени t0 ≤ t ≤ T мы имеем включение:
ξ (x0 , T − t0 ) ∈ ($ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] ⊕ Wv (x∗ (t) , T − t)) , (5.13)
Rt
где $ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] = t0 B (s) ds — вектор выигрышей игроков на отрезке времени [t0 , t].
Выигрыш игрока i на этом же отрезке времени может быть выражен
в виде:
Z
$i [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] =
t
t0
Bi (s) ds.
Когда игра развивается на отрезке времени [t0 , t], игроки делят суммарный заработанный на этом отрезке выигрыш
Z tX
g j [s, x∗ (s) , u∗ (s)] ds
t0 j∈N
таким образом, что выполняется включение:
ξ (x0 , T − t0 ) − $ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] ∈ Wv (x∗ (t) , T − t) . (5.14)
Условие (5.14) обеспечивает существование вектора ξ (x∗t , T − t)
Wv (x∗ (t) , T − t), удовлетворяющего соотношению
∈
ξ (x0 , T − t0 ) = $ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] + ξ (x∗t , T − t) .
279
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
Таким образом после выбора вектора B (s) вектор выигрышей, получаемый игроками на оставшемся отрезке времени [t, T ], удовлетворяет
условию
ξ (x∗t , T − t) = ξ (x0 , T − t0 ) − $ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] =
Z T
=
B (s) ds + q (x∗ (T )) ,
t
где
X
j∈N
Bj (s) =
X
g j [s, x∗ (s) , u∗ (s)] ds, t ≤ s ≤ T,
j∈N
ξ (x∗t , T
− t) ∈ Wv (x∗ (t) , T − t) .
Изменяя вектор $ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] при условии
Z tX
X
∗
$j [ξ (x0 , T − t0 ) ; x (t) , t − t0 ] =
g j [s, x∗ (s) , u∗ (s)] ds
j∈N
t0 j∈N
игроки гарантируют расположение множества
($ [ξ (x0 , T − t0 ) ; x∗ (t) , t − t0 ] ⊕ Wv (x∗ (t) , T − t))
таким образом, что условие (5.13) выполняется.
Реализуя свои выигрыши с использованием ПРД B (t), удовлетворяющей условиям (5.13)–(5.14) в каждый момент времени t0 ≤ t ≤ T , игроки
ориентированы на один и тот же принцип оптимальности, приводящий к
одному и тому же дележу ξ (x∗t , T − t) ∈ Wv (x∗ (t) , T − t) в течение всей
игры и поэтому не имеют оснований для пересмотра первоначального решения.
Динамическая неустойчивость решений кооперативной дифференциальной игры приводит к обесцениванию принципа оптимальности, породившего данное решение, поскольку выбранный в начале игры дележ
из решения Wv (x0 , T − t0 ) не остается в этом решении, когда игра заканчивается. Именно поэтому мы считаем, что множество Wv (x0 , T − t0 )
может называться решением игры Γv (x0 , T − t0 ), если оно динамически
устойчиво. В противном случае мы вынуждены констатировать, что игра
Γv (x0 , T − t0 ) не имеет решения в смысле данного принципа оптимальности.
§ 5.7.
Управление загрязнением окружающей среды
Рассмотрим модель загрязнения окружающей среды предложенную
Л. Петросяном и Д. Закуром в [Petrosjan, Zaccour, 2003]. Обозначим
280
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
через N множество стран-участниц соглашения о сокращении вредных выбросов в атмосферу (игроков). Загрязнение страны (игрока) i ∈
{1, 2, . . . , n} = N в момент времени t ∈ [0, ∞) обозначим через mi (t).
Пусть x (t) — загрязнение, накопленное к моменту t с момента начала
игры. Изменение совокупной величины загрязнения происходит в соответствии с дифференциальным уравнением
X
dx (t)
= ẋ (t) =
mi (t) − δx (t) , x (0) = x0 ,
dt
(5.15)
i∈I
где δ характеризует уровень естественной очистки загрязнения.
Каждый из игроков стремится минимизировать общую дисконтированную сумму затрат на сокращение вредных выбросов и затрат, возникающих из-за потерь, вызванных загрязнением атмосферы. Последнее
зависит от накопленного загрязнения. В дальнейшем для упрощения обозначений мы опускаем аргумент, означающий время в тех случаях, когда
это не приводит к возможному непониманию текста. Обозначим через
Ci (mi ) затраты на сокращение выбросов игрока i при условии, что он
ограничил свои выбросы величиной mi , через Di (x) обозначим затраты,
возникающие из-за потерь вызванных загрязнением атмосферы. Предположим что обе функции непрерывно дифференцируемы и выпуклы, и
C 0 (mi ) < 0 и D0 (x) > 0. Таким образом задача каждой страны (игрока) i
состоит в
Z ∞
i
min J (m, x) =
exp (−rs) {Ci (mi (s)) + Di (x (s))} ds
(5.16)
mi
0
при условии (5.15), где m = (m1 , m2 , . . . , mn ), и r — единая для всех участников ставка дисконтирования.
Наша модель выбрана исходя из следующих предпосылок. Во-первых,
упрощенная динамика в рассмотренной эколого–экономической задаче
позволяет выделить проблему распределения затрат между участниками
соглашения и позволяет построить механизм распределения этих затрат
во времени. Далее в этой постановке присутствует основная особенность
рассматриваемой проблемы, а именно то, что затраты каждого игрока зависят от общего уровня выбросов и накопленного к данному моменту загрязнения. Условие выпуклости рассматриваемых функций и условия на
знак производных кажутся нам также вполне естественными. Например,
условие выпуклости функции Ci (ei ) означает, что прирост затрат на сокращение выбросов выше при невысоких уровнях выброса (см. [Germain,
1998]). Далее для простоты математических выкладок предполагается,
что страны дисконтируют свои затраты одинаковым образом. В данной
281
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
постановке для упрощения задачи мы считаем, что снижение уровня загрязнения происходит только за счет снижения уровня вредных выбросов
в атмосферу и никак не учитываем возможности проведения очистных мероприятий. Последний случай исследовался в работе [Krawczyk, Zaccour,
1999].
Рассмотрим вопрос о распределении вектора Шепли на временном интервале. Для решения задачи распределения затрат на сокращение вредных выбросов использовалась методология теории кооперативных дифференциальных игр. Выделим основные этапы использования методологии:
1. Вычисление значений характеристической функции кооперативной
игры.
2. Распределение между игроками суммарных кооперативных затрат
в соответствии с вектором Шепли.
3. Распределение затрат определяемых компонентами вектора Шепли
для каждого игрока на отрезке времени с целью обеспечения динамической устойчивости (временной состоятельности) вектора Шепли.
Мы используем вектор Шепли в качестве принципа оптимальности по
двум причинам: единственности и возможности построения его для любых игровых задач. Первые два этапа методики являются классическими (может быть кроме, частично, шага 1, поскольку способ вычисления
значений характеристической функции в нашем случае будет не традиционным). Третий шаг предполагает распределение затрат на временном
интервале состоятельным во времени способом. Ниже мы покажем как
это предполагается сделать.
Состояние игры определяется парой (t, x). Тогда кооперативная
подыгра, берущая начало из этого состояния, будет обозначаться через
Γv (x, t). Обозначим через xN (t) траекторию (траекторию развития уровня загрязнения) при полной кооперации (максимальная коалиция N ). В
дальнейшем мы будем использовать¡ два обозначения
для кооперативной
¢
N , t — подыгра с началом на котраектории xN (t) и xN
.
Пусть
Γ
x
v
t
t
оперативной траектории. Значение характеристической функции, вычисленной для коалиции K ⊆ N в подыгре Γv (x, t) определяется как минимальные затраты этой коалиции и обозначается как v (K; x, t) (далее мы
подробно объясним как вычисляются эти минимальные затраты). Следуя этому определению, общие кооперативные затраты, которые должны
быть распределены между игроками, равны v (N ; x, 0), что и составляет
минимальные затраты коалиции N и совпадает со значением характеристической функции для большой коалиции в игре Γv (x, 0). Обозначим
282
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
через Φv (x, t) = [Φv1 (x, t) , Φv2 (x, t) , . . . , Φvn (x, t)] вектор Шепли в подыгре
Γv (x, t). Обозначим далее через Bi (t) затраты игрока i в момент времени
t, и пусть B (t) = (B1 (t) , . . . , Bn (t)).
Вектор B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)] представляет собой процедуру распределения дележа (ПРД), так что имеет место
Z
Φvi (x, 0) =
0
∞
exp (−rt) Bi (t) dt,
i = 1, . . . , n.
(5.17)
Интерпретация этого определения очевидна. Функция времени Bi (t),
являясь компонентой ПРД, распределяет затраты игрока i, вычисленные
по вектору Шепли, вычисленной для всей игры Γv (x, 0). Вектор B (t) является
устойчивой (состоятельной во времени) ПРД, если
¡ динамически
¢
для xN
,
t
и
t
∈
[0,
∞)
выполнено следующее условие:
t
Z
Φvi (x0 , 0) =
0
t
¡
¢
exp (−rτ ) Bi (τ ) dτ + exp (−rt) Φvi xN
t ,t .
(5.18)
Для интерпретации условия (5.18) предположим, что игроки пожелали пересмотреть кооперативное соглашение о затратах в игре Γv (x, 0) в
какой-то произвольный промежуточный момент времени t. В этот момент
состояние системы будет xN (t), что означает, что кооперация игроков происходила до момента t и что каждый из игроков понес затраты, определяемые первым слагаемым в формуле (5.18). Если то, что он уже потратил
до момента t плюс то, что он еще должен потратить, начиная с этого
момента, ориентируясь на тот же принцип оптимальности (компоненту
вектора Шепли в подыгре, начинающейся с этого момента) совпадает с
компонентой вектора Шепли, тогда изменение первоначального соглашения не имеет смысла. Иными словами, если можно найти такую ПРД
B (t) = [B1 (t) , B2 (t) , . . . , Bn (t)], что (5.18) выполнено, то эта ПРД динамически устойчива (состоятельна во времени). Мы предложим алгоритм
построения такой ПРД в предположении дифференцируемости вектора
Шепли.
Перейдем к описанию алгоритма решения задачи. На первых трех шагах алгоритма вычисляются элементы, необходимые для построения характеристической функции, которое происходит на четвертом шаге. На
последних двух шагах вычисляются вектор Шепли и функции ПРД Bi (t),
i = 1, 2, . . . , n.
Шаг 1. Минимизация суммарных затрат большой коалиции.
Максимальная коалиция решает задачу минимизации суммарных затрат методом динамического программирования при ограничениях зада283
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
ваемых динамикой развития накопленного загрязнения, т. е.
XZ
min
m1 ,m2 ,...,mn
i∈N
t
∞
exp [−r (τ − t)] {Ci (mi (τ )) + Di (x (τ ))} dτ
при условии ẋ (s) =
X
mi (s) − δx (s) ,
x (t) = xN (t) .
i∈N
Обозначим через W (N, x, t) функцию Беллмана для этой задачи. В
результате
задачи
оптимизации
¡
¢решения
£
¡этой
¢
¡
¢¤ получаем вектор выбросов
N (τ ) , . . . , mN xN (τ )
mN xN (τ ) = mN
x
и соответствующее накопn
1
N
ленное загрязнение при полной кооперации x (τ ).
Шаг 2. Вычисляем состоятельное позиционное равновесие.
Поскольку игра происходит на бесконечном отрезке времени рассматриваются лишь стационарные стратегии. Для получения равновесия по
Нэшу, при условии непрерывной дифференцируемости функций значения (выигрышей в равновесии по Нэшу) необходимо решить следующую
систему нелинейных уравнений Айзекса–Беллмана (см. теорему 4.7.1)
(
i
rV (x) = min Ci (mi ) + Di (x) + V
mi
"
i
x (x)
X
#)
mi − δx
,
i ∈ N.
i∈I
Обозначим через m∗ (x) = [m∗1 (x) , m∗2 (x) , . . . , m∗n (x)] любое состоятельное позиционное равновесие кооперативной игры. Этот набор можно
рассматривать как обычную стратегию выбросов при отсутствии кооперации. В дальнейшем для конкретного случая мы получим выражения
этих стратегий в явном виде. Теперь же мы отметим, что используя эти
стратегии, мы можем получить в игре Γv (x0 , 0) затраты в ситуации равноi
весия по Нэшу, которые мы обозначим
V i (0, x0 ) = V (x0 ) и затраты
¡ через
¢
в ситуации равновесия в подыгре Γv xN
t , t которые мы обозначим через
¡ N¢
i ¡ N¢
i
V t, xt = V xt .
Шаг 3. Вычисление затрат для подкоалиций.
Для получения затрат для любого подмножества игроков (коалиций)
мы поступим следующим образом. Затраты каждой коалиции определяются как сумма затрат игроков, входящих в коалицию. В функции затрат
игроков и в правую часть дифференциального уравнения мы в качестве
управлений игроков, не входящих в коалицию, подставим стратегии, полученные на шаге 2 (т.е. стратегии, входящие в равновесие по Нэшу).
Обозначим через W (K, x, t) значение этих затрат, вычисленные для коа284
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
лиции K. Это значение определяется из решения следующей задачи:
W (N, x, t) =
X ½Z
= min
mi ,i∈K
ẋ(s) =
X
i∈K
t
¾
∞
exp [−r(τ − t)] {Ci (mi (τ )) + Di (x(τ ))} dτ
,
mi (s) − δx(s), x(t) = xN (t). mj = mN
j , для j ∈ N \K.
i∈N
Шаг 4. Определим теперь характеристическую функцию.
Характеристическая функция v (K; x, t) определяется следующим образом:
i
v ({i} ; x, t) = V i (x, t) = V (x) ,
v (K; x, t) = W (K; x, t) ,
i = 1, . . . , n;
K ⊆ N.
Шаг 5. Вычисление вектора Шепли.
Обозначим через Φv (x, t) = [Φv1 (x, t) , Φv2 (x, t) , . . . , Φvn (x, t)] вектор
Шепли в игре Γv (x, t). i-ая компонента вектора Шепли определяется по
формуле
Φvi (x, t) =
X (n − k)! (k − 1)!
K3i
n!
[W (K; x, t) − W (K\ {i} ; x, t)] ,
где k — число игроков в коалиции K. Если кооперация продолжается в течение всей игры, то затраты игрока i определяются компонентой вектора
Шепли в игре Γv (x0 , 0) и равны
Φvi (x0 , 0) =
X (n − k)! (k − 1)!
K3i
n!
[W (K; x0 , 0) − W (K\ {i} ; x0 , 0)] .
Обоснование нестандартного подхода к определению характеристической функции будет дано позже.
Шаг 6. Построение состоятельной во времени динамически устойчивой
ПРД.
Распределяем затраты игрока i, i = 1, . . . , n на отрезке времени t ∈
[0, ∞) в соответствии с формулой
¡
¢
d v¡ N ¢
Bi (t) = rΦvi xN
Φ x ,t .
t ,t −
dt i t
(5.19)
Утверждение 5.7.1. Вектор B (t) = (B1 (t) , . . . , Bn (t)), компоненты
которого Bi (t) определяются формулой (5.19), является динамически
устойчивой ПРД.
285
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
т.е.
Д
о к а з а т е л ь с т в о. Покажем, что вектор (5.19) является ПРД ,
R∞
v
0 exp (−rt) Bi (t) dt = Φi (x0 , 0).
Умножая (5.19) на дискаунт exp (−rt) и интегрируя, получаем
·
¸
Z ∞
Z ∞
¡
¢
¡
¢
d
exp (−rt) Bi (t) dt = exp (−rt) rΦvi xN , t − Φvi xN , t dt =
dt
0
0
¡ N ¢¯∞
v
v
= − exp (−rt) Φi x , t ¯0 = Φi (x0 , 0) .
¡
¢
Повторяя интегрирование для Φvi xN
, t , можно показать, что
t
¡
¢
Rt
Φvi (x0 , 0) = 0 exp (−rτ ) Bi (τ ) dτ + exp (−rt) Φvi xN
t , t , то есть условие
динамической устойчивости выполнено.
Перейдем теперь к обоснованию алгоритма и особого вида характеристической функции. Как было ранее отмечено в работе [Petrosjan, Zaccour,
2003], при построении алгоритма решения задачи важнейшим элементом
теории переговоров является определение точки статус-кво, которая показывает что могут получить игроки, если переговоры проваливаются.
Эта точка определяет индивидуальную силу игрока, когда он действует
в одиночку. Та же идея применима и к подмножеству игроков. Для измерения силы некоторого подмножества игроков (коалиции) необходимо
обратиться к понятию характеристической функции — математическому
аппарату, созданному для измерения подобной силы. Все известные решения кооперативной теории (ядро, вектор Шепли, НМ-решение и др.)
используют аппарат характеристических функций для определения множеств дележей, определяющих то или иное решение. В частности, ядро
состоит из дележей, выбор которых не может быть оспорен ни одной из
коалиций, а вектор Шепли представляет собой дележ, удовлетворяющий
определенной системе аксиом. Если полученное таким образом множество дележей состоит более чем из одного дележа, игроки могут вести
переговоры о выборе единственного дележа из этого. В динамической
(дифференциальной) игре дележи соответствуют выигрышам (в нашем
случае дисконтированным суммам затрат), получаемым игроками в течение всей игры. Важнейшим условием является то, чтобы распределение
выигрыша во времени было бы допустимым, т. е. чтобы интегрированный
выигрыш, получаемый игроками в течение всей игры совпадал бы с его
компонентой дележа-решения (см. определение процедуры распределения
дележа (ПРД)). Очевидно, что можно построить бесконечное число подобных распределений дележа на временном интервале игры, но далеко не
все эти распределения могут быть концептуально и интуитивно обоснованы. Основной принцип, заложенный нами в распределение индивидуальных затрат на временном интервале, заключается в том, что если игроки
286
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
вздумают пересмотреть первоначальное соглашение о выбранном дележе
в любой промежуточный момент времени на оптимальной кооперативной
траектории, то они получат тот же результат (тот же дележ).
Заметим, что в данном случае вычисление характеристической функции производится нестандартным путем. Предполагается, что при вычислении значения характеристической функции для коалиции K игроки, не
входящие в коалицию, а именно, игроки из коалиции (N \K) используют
свои равновесные по Нэшу стратегии. Отметим, что в теории игр имеется
не так много подходов к определению характеристической функции.
Классический подход был предложен Д. фон Нейманом и О. Моргенштерном [Neumann, Morgenstern, 1944], в соответствии с которым предполагается, что игроки, не входящие в коалицию, стремятся, объединившись, максимизировать затраты игроков, входящих в коалицию. Этот
подход, приводит к минимальным гарантированным затратам, что не совсем подходит для решения нашей задачи. Действительно, мало вероятно,
что если какие-то страны объединились в коалицию для решения своих
проблем, связанных с охраной окружающей среды, другие страны объединятся в антикоалицию с тем чтобы препятствовать этим усилиям. Мы,
конечно, признаем возможность использования подхода фон Неймана и
Моргенштерна в кооперативной теории, однако, в нашем случае он не
применим.
Другим подходом является аксиоматический, при котором значения
характеристической функции приписываются коалициям из некоторых
внешних соображений, показывающих силу коалиции, как это было предложено Д. Филаром и П. Гертнером [Filar, Gaertner, 1997]. Этот подход
применим в тех случаях, когда сила коалиции может быть оценена экспертным путем без анализа индивидуальных возможностей игроков. Кроме того такой подход сильно затруднен при использовании в дифференциальных играх, поскольку не позволяет найти зависимость характеристической функции от начальных состояний игры. Здесь мы используем
более традиционный способ для определения значений характеристической функции, который основывается непосредственно на исследовании
игрового процесса как такового.
Третий подход заключается в предположении, что значения характеристической функции вычисляются как выигрыши в равновесии по Нэшу
в игре между этой коалицией и антикоалицией. Здесь мы сталкиваемся
с вычислительными трудностями и трудностями связанными с неединственностью равновесия. Действительно, для определения значений характеристической функции таким образом нам пришлось бы решить 2n −2
дифференциальных неантагонистических игр (число, равное числу непу287
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
стых коалиций в игре). В нашем же случае мы решаем лишь одну дифференциальную игру (находим равновесия по Нэшу). Все остальные задачи
сводятся к стандартным задачам оптимального управления. Такой подход значительно проще, поскольку решение дифференциальной игры существенно сложнее задачи оптимального управления. Вспомним теперь,
что в качестве оптимального дележа нами выбран вектор Шепли. Поэтому нашей целью является вычисление i-ой компоненты этого вектора.
Для ее вычисления нам нужно вычислить маргинальные вклады игрока
во все коалиции, т.е. величины v (K, S, t) − v (K\ {i} , S, t). Если бы нам
пришлось пользоваться третьим подходом к определению характеристической функции, то нам пришлось бы находить равновесия по Нэшу в
игре между коалицией K и дополнительной коалицией N \K. При этом
если в какой-то из этих 2n − 2 игр равновесие по Нэшу было бы неединственным, то мы столкнулись бы с исключительно сложной проблемой
выбора.
При нашем подходе игроки не входящие в коалицию придерживаются
равновесных стратегий (выбросов) из одного и того же равновесия по
Нэшу, которое было первоначально найдено в игре. Если окажется так,
что на шаге 2 алгоритма мы получим несколько равновесий по Нэшу, то
мы просто можем подсчитать вектор Шепли для каждого из них, минуя
при этом проблему выбора.
Пример 5.7.1. Рассмотрим здесь некоторые частные виды функций, фигурирующих в нашей задаче. Пусть в (5.16) имеем
γ
[mi − mi ]2 , 0 ≤ mi ≤ mi , γ > 0, i ∈ {1, 2, 3} ;
2
Di (x) = πx,
π > 0.
Ci (mi ) =
Вычисление оптимальных затрат большой коалиции (Шаг 1)
Функция значения W (N, x, t) удовлетворяет следующему уравнению
Беллмана
rW (N, x, t) =
#)(5.20)
" 3
( 3
´
X
X ³γ
mi − δx
.
[mi − mi ]2 + πx + Wx (N, x, t)
min
m1 ,m2 ,m3
2
i=1
i=1
Проведя операцию максимизации в (5.20), получим
mN
i = mi −
288
1
Wx (N, x, t) ,
γ
при i ∈ {1, 2, 3} .
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
Подставив mN
i в (5.20) и решая, получим
(" 3
#
)
X
3π
32 π
W (N, x, t) = W (N, x) =
+ rx , (5.21)
mi −
r (r + δ)
2γ (r + δ)
i=1
и
mN
i = mi −
3π
, при i ∈ {1, 2, 3} .
γ (r + δ)
Оптимальная траектория выбросов имеет вид
#
)
(" 3
X
1
xN (t) = exp (−δt) x (0) +
mN
[1 − exp (−δt)] .
i
δ
(5.22)
(5.23)
i=1
Вычисление равновесия по Нэшу (Шаг 2) (см. § 3.12.)
Для нахождения состоятельного позиционного равновесия по Нэшу
используем теорему 4.7.1, что приводит к следующему уравнению Беллмана
i
rV (x) =
(5.24)






γ
i
 X

[mi −mi ]2 +πx+V x (x)
m∗j +mi −δx , i ∈ {1, 2, 3}.
min
mi 

2


j∈[1,2,3]
i6=j
Минимум в правой части (5.24), достигается при
m∗i = mi −
1 i
V (x) ,
γ x
i ∈ {1, 2, 3} .
(5.25)
Подставляя (5.25) в (5.24) и решая уравнение, находим
i
V (x) =
π
r (r + δ)
(
(5.26)
)
3
X
π
3π
+
mi −
+ rx
i ∈ {1, 2, 3t}.
2γ (r + δ)
γ (r + δ)
i=1
Тогда равновесные по Нэшу выбросы имеют вид
m∗i = m∗i −
π
,
γ (r + δ)
i ∈ {1, 2, 3} .
(5.27)
Разница между выбросами по Нэшу и выбросами при кооперации состоит в том, что в кооперативном случае игрок учитывает маргинальные
затраты всех членов большой коалиции, а не только свои.
289
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
Вычисление оптимальных затрат для промежуточных коалиций
(Шаг 3)
Функция значения W (K, x, t) для каждой коалиции K, состоящей из
двух игроков должна удовлетворять следующему уравнению Беллмана
rW (K, x, t) =
(
"
#) (5.28)
´
X ³γ
X
= min
mi + m∗j −δx
,
[mi −mi ]2 +πx +Wx (K, x, t)
m1 ,i∈K
2
i∈K
i∈K
где j ∈
/ K.
Пользуясь тем же способом решения, который мы использовали для
нахождения значения для большой коалиции, получаем
W (K, x, t) = W (K, x) =
(
) (5.29)
X
4π
π
2π
mi −
−
+ rx .
=
r (r + δ)
2γ (r + δ) γ (r + δ)
i∈K
Соответствующие выбросы для игроков коалиции K будут равны
2π
mK
,
i ∈ K.
(5.30)
i = mi −
γ (r + δ)
Определение характеристической функции (Шаг 4)
i
v ({i} ; x, t) = V i (x, t) = V (x) =
(
)
3
X
π
π
3π
=
+
mi −
+ rx , i = 1, 2, 3;
r (r + δ) 2γ (r + δ)
γ (r + δ)
i=1
v (K; x, t) = W (K, x, t) = W (K, x) =
(
)
X
4π
π
2π
=
mi −
−
+ rx ,
r (r + δ)
2γ (r + δ) γ (r + δ)
i∈K
K ⊆ {1, 2, 3} .
Вычисление вектора Шепли (Шаг 5)
Если значения mi симметричны, то вектор Шепли вычисляется в явном виде
X (n − k)! (k − 1)!
[v (K; x, t) − v (K\ {i} ; x, t)]
Φvi (x, t) =
n!
K3i
(5.31)
( Ã 3
!
)
X
1
9π 2
=
2π
mi + ρS −
, i = 1, 2, 3.
2r (r + δ)
γ (r + δ)
i=1
290
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.7. Управление загрязнением окружающей среды
Вычисление функций ПРД (Шаг 6)
Заметим, что согласно (5.23) функции ПРД имеют вид
¡
¢
d v¡ N ¢
Bi (t) = rΦvi xN
Φ x ,t .
t ,t −
dt i t
Прямые вычисления дают нам
Bi (t) = πxN (t) +
9π 2
,
2γ (r + δ)2
i = 1, 2, 3.
(5.32)
Умножим обе части (5.32) на дискаунт–фактор и интегрировав, получим
Z ∞
exp (−rt) Bi (t) dt =
0
Z
∞
=
0
(5.33)
¸
9π 2
exp (−rt) πx (t) +
dt, i = 1, 2, 3.
2γ (r + δ)2
·
N
И из (5.22)–(5.23) следует



¶
3 µ

 X
1
3π
 [1 − exp (−δt)] .

xN (t) = exp (−δt) x (0) +
mj −

δ
2γ (r + δ)
j=1
Z
0
Подстановка выражения xN (t) в (5.33) дает нам
∞
exp (−rt) βi (t) dt =
Z
∞
=
exp [− (r + δ) t] πx0 dt +
à 3
!
Z ∞
9π
π X
mi −
dt +
+
exp (−rt)
δ
γ (r + δ)
0
i=1
à 3
!
Z ∞
π X
9π
+
exp [− (r + δ) t]
mi −
dt +
δ
γ (r + δ)
0
i=1
Z ∞
9π 2
+
exp (−rt)
dt.
2γ (r + δ)2
0
0
В результате игтегрирования получим
Z ∞
exp (−rt) βi (t) dt =
0
( Ã 3
!
)
X
9π 2
1
2π
mi + rx (0) −
=
=
2r (r + δ)
γ (r + δ)
i=1
=
Φvi
(x0 , 0) , i = 1, 2, 3.
291
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
§ 5.8.
Построение коалиционного решения
Введем в рассмотрение коалиционное разбиение множества игроков N =
{1, 2, . . . , n}.
Определение 5.8.1. Система подмножеств (S1 , S2 , . . . , Sp ) множества
N является коалиционным разбиением множества игроков N , если Si ∩
Sj 6= ∅, ∪Si = N .
Пусть (S1 , S2 , . . . , Sp ) — коалиционное разбиение множества игроков
N . Тогда будем полагать, что каждый игрок i ∈ N действует в интересах
коалиции Sk , которой он принадлежит, пытаясь минимизировать сумму
затрат ее членов, а именно
min
mi ,i∈Sk
X
i∈SK
Z∞
i
e−rs
J (m, x) =
0
X
{Ci (mi (s)) + Di (x(s))}ds.
(5.34)
i∈SK
Коалиционные решения ранее изучались в ряде работ [Albizur,
Zarzuelo, 2004; Bloch, 1966; Ono, 2002; Owen, 1977]. Оуэн [Owen] определет коалиционное решение для одношаговых игр с трансферабельными
выигрышами при помощи обобщения решения Шепли для коалиционного разбиения, а именно: на первом шаге вычисляется вектор Шепли для
игры, в которой игроками являются элементы коалиционного разбиения,
а на втором шаге разыгрывается кооперативная игра внутри этих коалиций. Это означает, что на первом шаге коалиции могут объединиться
в максимальную коалицию, как отдельные игроки. Вектор Шепли, который вычисляется для характеристической функции, определенной таким
образом, носит название значения Шепли-Оуэна.
Рассмотрим следующий подход к построению решения в коалиционных играх: на первом шаге коалиции не могут объединиться в максимальную коалицию, а действуют согласно равновесию по Нэшу, на втором шаге
вычисляется вектор Шепли внутри каждой коалиции.
По предположению, сделанному выше, каждый игрок играет в интересах коалиции, которой он принадлежит. Не умаляя общности, можно
считать, что каждая коалиция Sk действует как один игрок, а издержки
каждой коалиции перераспределяются внутри коалиции в соответствии
с вектором Шепли. Таким образом можно сформулировать следующий
алгоритм:
• Вычисление равновесия по Нэшу в игре, разыгрываемой коалициями
S1 , S2 , . . . , Sp . Для того, чтобы найти равновесие по Нэшу (мы полагаем, что оно существует), необходимо решить следующую систему
292
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.8. Построение коалиционного решения
задач минимизации:
Z∞
e−r(τ −t)
min
mi ,i∈Sk
t
X
{Ci (mi (τ )) + Di (x(τ ))} dτ
(5.35)
i∈Sk
Траекторию игры, реализованную в равновесии по Нэшу в игре между коалициями, будем называть коалиционной траекторией и обозначать xn (t).
• Распределение затрат внутри коалиции Sk . Подыгра ΓvSk (x, t)
определяется следующим образом: пусть Sk — это множество игроков, вовлеченных в игру ΓvSk (x, t), которая начинается в момент
времени t из начального состояния x. ΓvSk (x, t) — кооперативная
игра. Вычисление характеристической функции этой игры не стандартно и производится по алгоритму, изложенному в предыдущем
параграфе. При этом игроки, не вошедшие в коалицию Sk , действуют согласно стратегиям, полученным на предыдущем шаге. Обозначим характеристическую функцию игры ΓvSk (x, t) как VSk (M ; x, t),
где M — произвольная коалиция, M ⊂ Sk . После нахождения характеристической функции VSk (M ; x, t) вычисляем вектор Шепли
ΦvSk (x, t) по формуле:
vSk
Φi
(x, t) =
X (n − k)!(k − 1)!
[vSk (K; x, t) − vSk (K\{i}; x, t)] .
n!
(5.36)
K⊃i
Выигрыши всех игроков i ∈ N формируют PMS-вектор, который
был введен в статье [Петросян, Мамкина, 2004].
Определим PMS-вектор следующим образом (см. §3.2).
Определение 5.8.2. Вектор
P M S(x, t) = [P M S1 (x, t), P M S2 (x, t), . . . , P M Sn (x, t)]
(5.37)
vS
называется PMS-вектором, если P M Si (x, t) = Φi k (x, t), при i ∈ Sk , причем вектор Шепли определяется формулой (5.36).
Рассмотрим подыгры нашей игры с начальными условиями (xn (t), t)
на коалиционной траектории. Обозначим как P M S(xn (t), t) соответствующий PMS-вектор:
P M S(xn (t), t) = [P M S1 (xn (t), t), . . . , P M Sn (xn (t), t)],
293
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
vS
где P M Si (xn (t), t) = Φi k (xn (t), t), при i ∈ Sk . Вектор β(t) =
[β1 (t), β2 (t), . . . , βn (t)] называется процедурой распределения PMSвектора, если
Z∞
e−rt βi (t)dt, i ∈ N, t0 = 0.
P M Si (x0 , t0 ) =
(5.38)
0
Вектор β(t) = (β1 (t), β2 (t), . . . , βn (t)) называется динамически устойчивой процедурой распределения PMS-вектора, если
Zt
e−rτ βi (τ )dτ + e−rt P M Si (xn (t), t), i ∈ N, t0 = 0. (5.39)
P M Si (x0 , t0 ) =
0
Справедлива следующая теорема.
Теорема 5.8.1. Вектор β(t) = (β1 (t), β2 (t), . . . , βn (t)), где β(t) задается
формулой
d
(5.40)
βi (t) = rP M Si (xn (t), t) − P M Si (xn (t), t)
dt
является динамически устойчивой процедурой распределения PMSвектора.
Пример 5.8.1. Рассмотрим модель, динамика которой изложена в
§ 5.7.. Будем считать, что в игре принимают участие n игроков: N =
{1, 2, . . . , n}. Функции издержек имеют вид:
Ci (mi ) =
γ
[mi − m̄i ]2 ,
0 ≤ mi ≤ m̄i , γ > 0;
2
Di (x) = πx,
π > 0.
(5.41)
Все нижеследующие вычисления более подробно приведены в работе
[Petrosjan, Kozlovskaya, 2007].
Равновесие по Нэшу в игре между коалициями (шаг 1)
Функция Беллмана W (Sk , x, t) для задачи (5.35) находится решением
следующей системы уравнений Гамильтона–Якоби–Беллмана:
(
= min
mi ,i∈Sk
294
rW (Sk , x, t) =
P
i∈Sk
( γ2 [mi − m̄i ]2 + πx) + Wx (Sk , x, t)[
P
i∈I
) (5.42)
(mi − δx)] ,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.8. Построение коалиционного решения
для любой коалиции Sk , k = 1, 2, . . . , m. Минимизируя правую часть в
формуле (5.42), находим, по аналогии с примером 5.7.1, стратегии в равновесии по Нэшу для игры между коалициями Sk :
mni = m̄i −
1 nk π
,
γr+δ
i ∈ Sk .
(5.43)
В результате получаем
W (Sk , x, t) = W̄ (Sk , x) =
n
p
i=1
i=1
X
X 1 n2 π
nk π
1 n2k π
i
(rx +
m̄i −
+
).
r(r + δ)
γ r + δ 2γ r + δ
=
(5.44)
Построение PMS-вектора (шаг 2)
Напомним, что издержки каждой коалиции Sk , k = 1, 2, . . . , m, распределяются между игроками согласно вектору Шепли. Согласно алгоритму,
изложенному в предыдущем параграфе, мы можем найти характеристическую функцию для игры ΓvSk (x, t) и вектор Шепли. Аналогичные вычисления были продемонстрированы ранее, приведем здесь только результат:
W̄ (Sk , x)
=
nk
p
n
X
X
π
1 n2i π
1 n2k π
=
(rx +
m̄i −
+
).
r(r + δ)
γ r + δ 2γ r + δ
vSk
Φi
(x, t)) =
i=1
(5.45)
i=1
Наконец, получаем формулу для PMS-вектора:
P M S(x, t) = (P M S1 (x, t), P M S2 (x, t), . . . , P M Sn (x, t)),
(5.46)
vS
где P M Si (x, t) = Φi k (x, t), если i ∈ Sk .
Коалиционную траекторию находим в виде:
1 X
m̄i −
xn (t) = (x0 − [
δ
i∈N
−
p
X
i=1
p
X 1 n2 π
1 X
1
i
])e−rt + [
m̄i −
].
γr+δ
δ
γr+δ
n2i π
i∈N
(5.47)
i=1
Динамическая устойчивость PMS-вектора
Рассмотрим PMS-вектор (5.46), подставив его в формулу (5.40) получим:
µ
¶
1
nk π 2
n
βi (t) = πx (t) +
,
2γ r + δ
где i ∈ Sk , а xn (t) задается формулой (5.47). Очевидно, что βi (t) ≥ 0, а
это и означает динамическую устойчивость PMS-вектора.
295
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
Пример 5.8.2. Изменим начальные функции. Пусть теперь
Ci (mi ) =
γ
[mi − m̄i ]2 ,
0 ≤ mi ≤ m̄i , γ > 0;
2
Di (x) = πi x,
πi > 0.
(5.48)
Вычисление равновесия по Нэшу в игре между коалициями Sk (Шаг
1)
Решение системы (5.35) сводится к решению следующей системы уравнений Гамильтона-Якоби-Беллмана:
rW (Sk , x, t) =

 (5.49)
X
X γ
min
= 
( [mi − m̄i ]2 + πi x) + Wx (Sk , x, t)(
mi − δx) ,
mi ,i∈Sk
2
i∈Sk
i∈N
для любой коалиции Sk , k = 1, 2, . . . , m.
Минимизируя правую часть формулы (5.49) получаем формулы для
стратегий, соответствующих равновесию по Нэшу в игре, разыгрываемой
между коалициями Sk :
P
πj
1 j∈Sk
n
,
i ∈ Sk .
(5.50)
mi = m̄i −
γ r+δ
Таким образом, издержки коалиции Sk имеют вид:
P
P
P
πj
πj
πj
n
m
X
X
ni j∈Si
nk j∈Sk
j∈Sk
W (Sk , x, t) =
(rx +
ūi −
+
).
r(r + δ)
γ r+δ
2γ r + δ
i=1
i=1
Построение PMS-вектора (Шаг 2)
Вычислим характеристическую функцию игры ΓvSk (x, t). Для этого
необходимо найти равновесие по Нэшу в игре между игроками произвольной коалиции K, при условии, что игроки вне коалиции Sk используют
стратегии mni , найденные выше.
• Нахождение равновесия по Нэшу в игре Γ(Sk , x, t). Для того, чтобы
найти равновесие по Нэшу необходимо решить следующую систему
уравнений:
γ
rV̄ i (x) = min[( [mi − m̄i )]2 + πi x)+
mi
2
n
X
mi − δx)], i ∈ Sk ,
+V̄ i (x)(
i=1
296
(5.51)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 5.8. Построение коалиционного решения
причем, mi = mni (см. формулу (5.50)), если i ∈
/ Sk .
Стратегии, соответствующие равновесию по Нэшу ΓvSk (x, t) имеют
вид:
1
mN
i ∈ Sk ,
(5.52)
i = m̄i − Ai ,
γ
πi .
r+δ
Таким образом, получаем:
где Ai =
p
n
X
X
Ai
1 X
V̄ (x) =
(rx +
m̄i −
Aj −
r
γ
i
j=1
P
k∈Sj
где ASj =
πk
r+δ
j∈Sk
j=1,j6=k
nj
1
ASj +
Ai ), (5.53)
γ
2γ
.
• Характеристическая функция для произвольной коалиции K ⊂ Sk .
Характеристическая функция для произвольной коалиции K вычисляется, находится решением уравнения Гамильтона–Якоби–Беллмана:
rW (K, x, t) =
(
= min
mi ,i∈K
(5.54)
)
X
X γ
mi − δx] .
( [mi − m̄i ]2 + Di (x)) + Wx (K, x, t)[
2
i∈N
i∈K
При этом мы полагаем, что игроки из коалиции N \Sk придерживаются управлений mni (5.50), а игроки из коалиции Sk \K управлений mN
i (5.52). Дифференцируя правую часть уравнения (5.54) по
mi , i ∈ K и приравнивая нулю выражение, стоящее под знаком миK
n
N
нимума, получаем управления mK
i , i ∈ K. Подставляя mi , mi , mi
в формулу (5.54) и действуя аналогично предыдущему шагу, получаем W (K, x, t):
W (K, x, t) = W̄ (K, x) =
n
=
X
AK
1
(rx +
m̄i −
r
γ
j=1
P
где AK =
k∈K
X
j∈SK \K
Aj −
p
X
j=1,j6=k
nj
k
(5.55)
ASJ −
AK ),
γ
2γ
πk
r+δ
297
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5 Кооперативные дифференциальные игры
• Характеристическая функция игры ΓvSk (x, t).
Таким образом
VSk (K; x, t):
мы
получили
характеристическую
v({i}; x, t) = V i (x, t) = V̄ i (x),
функцию
i ∈ N,
v(K; x, t) = W (K; x, t) = W̄ (K, x),
K ⊂ N,
где V̄ i (x) и W̄ (K, x) описываются формулами 5.53 и 5.55.
• Вектор Шепли. Вектор Шепли вычисляется по известной формуле
и равен:


p
n
X
X
X
n
πi
πi
π
vSk
j
l 

Φi (x, t) =
x+
m̄i −
−
r+δ
r(r + δ)
γ
r+δ
i=1
j=1,j6=k
l∈Sj
P
P
πj
πj
1 1 j∈Sk
2nk πi j∈Sk
2
−
( (
) +
−
(5.56)
2γr 3 r + δ
3 r+δ r+δ
P 2
πj
nk πi 2 1 j∈Sk
−
(
) +
).
6 r+δ
6 (r + δ)2
• PMS-вектор. Наконец, получаем формулу для PMS-вектора:
P M S(x, t)
=
(P M S1 (x, t), P M S2 (x, t), . . . , P M Sn (x, t)), где
vSk
P M Si (x, t) = Φi (x, t) (см. формулу (5.56)), если i ∈ Sk .
Подставляя стратегии (5.52) в уравнение динамики, получаем коалиционную траекторию:


P
πj
p
X ni j∈Si
1 X


xn (t) = x0 − [
m̄i −
] e−δt +
δ
γ r+δ
i=1
i∈N


P
πj
p
X
X
1
ni j∈Si 
m̄i −
+ 
.
δ
γ r+δ
i∈N
298
i=1
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
Глава 6
Кооперативные дифференциальные игры двух лиц с дисконтированием
§ 6.1.
Постановка задачи
Рассмотрим неантагонистическую дифференциальную игру двух лиц
из начального состояния x0 продолжительности T − t0 . Заданы пространство состояний X ⊂ Rm и пространство допустимых траекторий
{x (s) , t0 ≤ s ≤ T }. Состояние игры изменяется в соответствии с системой
дифференциальных уравнений
ẋ (s) = f [s, x (s) , u1 (s) , u2 (s)] ,
x (t0 ) = x0 .
(6.1)
Мгновенный выигрыш (плотность выигрыша) игрока i ∈ {1, 2} в момент времени s ∈ [t0 , T ] обозначим через g i [s, x(s), u1 (s), u2 (s)]. Кроме
того, в момент T завершения игры игрок i получает выигрыш (премию)
q i (x(T )). Выигрыши предполагаются трансферабельными, как между игроками так и во времени. Задается параметр дисконтирования в каждый
момент времени r (s) для всех s ∈ [t0 , T ] иhпоэтому выигрыши,
получаемые
i
Rt
в момент t умножаются на величину exp − t0 r (y) dy . Таким образом, в
момент t0 выигрыш игрока i ∈ {1, 2} определяется по формуле
· Z s
¸
Z T
i
g [s, x (s) , u1 (s) , u2 (s)] exp −
r (y) dy ds
t0
· Z
+ exp −
T
¸
t0
(6.2)
r (y) dy q i (x (T )) .
t0
Рассмотрим случай некооперативного поведения игроков. Обозначим
через Γ (x0 , T − t0 ) игру (6.1)–(6.2). Используя теорему 4.5.2, мы можем
охарактеризовать решение игры Γ(x0 , T − t0 ) следующим образом.
n
(t )∗
(t )∗
Теорема
6.1.1. Множество стратегий
u1 0 (t) = φ1 0 (t, x),
o
(t )∗
(t )∗
u2 0 (t) = φ2 0 (t, x)
образует состоятельное позиционное рав299
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
новесие по Нэшу в игре Γ (x0 , T − t0 ), если существуют непрерывно дифференцируемые функции V (t0 )1 (t, x) : [t0 , T ] × Rm → R и
V (t0 )2 (t, x) : [t0 , T ] × Rm → R, удовлетворяющие следующей системе
уравнений Айзекса–Беллмана:
(t )i
−Vt 0 (t, x)
½ h
¸
· Z t
i
(t0 )∗
i
= max g t, x, ui , φj
r (y) dy +
(t, x) exp −
ui
t0
h
i¾
(t0 )∗
(t0 )i
,
+ Vx
(t, x) f t, x, ui , φj
(t, x)
и
V
(t0 )i
· Z
(T, x) = exp −
T
¸
r (y) dy q i (x) , i ∈ {1, 2}, j ∈ {1, 2}, j 6= i.
t0
Состоятельные позиционные стратегии являются марковскими. Они
зависят лишь от текущего момента времени t и текущего состояния x и
не зависят от предыстории игры.
Рассмотрим подыгру Γ (xτ , T − τ ) со структурой выигрышей вида (6.1)
и с динамикой (6.2), начинающуюся в момент времени τ ∈ [t0 , T ] из состояния xτ ∈ X. Обозначим равновесие по Нэшу
n в состоятельных поo
(τ )∗
(τ )∗
зиционных стратегиях в игре Γ (xτ , T − τ ) через φ1 (t, x) , φ2 (t, x)
и соответствующую функцию значения для игрока i ∈ {1, 2} (выигрыш в ситуации равновесия как функция начального состояния) через
V (τ )i (t, xt ) : [τ, T ] × Rn → R как теореме 6.1.1. Тогда функции V (τ )1 (t, x)
и V (τ )2 (t, x) удовлетворяют следующей системе уравнений:
½ h
· Z t
¸
i
(τ )∗
i
= max g t, x, ui (t, x) , φj (t, x) exp −
r (y) dy +
ui
τ
h
i¾
(τ )∗
(τ )i
+ +Vx (t, x) f t, x, ui (t, x) , φj (t, x)
,
(6.3)
· Z T
¸
(τ )i
V
(T, x) = exp −
r (y) dy q i (x) , i ∈ {1, 2}, j ∈ {1, 2}, j 6= i.
(τ )i
−Vt (t, x)
τ
Замечание 6.1.1. Заметим, что равновесные стратегии являются марковскими в том смысле, что они зависят только от текущего состояния
и времени. Сравнивая уравнения Айзекса–Беллмана (6.3) для различных
значений τ ∈ [t0 , T ] можно заметить, что
(τ )∗
φi
300
(t0 )∗
(s, x (s)) = φi
(s, x (s)) , s ∈ [τ, T ] ,
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
·Z
τ
¸
(τ, xτ ) = exp
r (y) dy V (t0 )i (τ, xτ ) ,
t0
·Z t
¸
(t)i
V
(t, xt ) = exp
r (y) dy V (τ )i (t, xt ) ,
V
(τ )i
τ
t0 ≤ τ ≤ t ≤ T, i ∈ {1, 2} .
В равновесии по Нэшу игры Γ (xτ , T − τ ) настоящее значение выигрыша i-го игрока на интервале времени [t, T ] при x (t) = xt и t ∈ [τ, T ]
определяется по формуле
V (τ )i (t, xt ) =
· Z s
¸
Z Th
i
(τ )∗
(τ )∗
i
= g s, x (s) , φ1 (s, x (s)) , φ2 (s, x (s)) exp −
r (y) dy ds +
t
τ
¯
· Z T
¸
¯
i
+ exp −
r (y) dy q (x (T ))¯¯ x (t) = xt ,
i ∈ {1, 2} .
τ
Траектория игры в ситуации равновесия получается из решения системы дифференциальных уравнений
h
i
(τ )∗
(τ )∗
ẋ (s) = f s, x (s) , φ1 (s, x (s)) , φ2 (s, x (s)) , x (t) = xτ .
(6.4)
Пример 6.1.1. Рассмотрим игру добычи ограниченного ресурса, в которой две фирмы имеют лицензию на проведение работ на отрезке времени
[t0 , T ]. Запасы ресурса x (s) ∈ X ⊂ R изменяются в соответствии с дифференциальным уравнением
ẋ (s) = ax (s)1/2 − bx (s) − u1 (s) − u2 (s) ,
x (t0 ) = x0 ∈ X,
(6.5)
где u1 (s) — уровень добычи игрока 1 и u2 (s) — уровень добычи игрока 2. Мгновенные выигрыши в момент времени s ∈ [t0 , T ] игроков 1 и 2
соответственно равны
"
#
"
#
c
c
1
2
u1 (s)1/2 −
u1 (s) и u2 (s)1/2 −
u2 (s) ,
x (s)1/2
x (s)1/2
где c1 и c2 константы и c1 6= c2 .
В момент времени T каждая добывающая фирма получает дополнительный выигрыш в размере
qx (T )1/2 ,
301
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
который зависит от величины запаса ресурса в момент окончания игры.
Выигрыши трансферабельны во времени и между игроками. Задан постоянный параметр дисконтирования r и поэтому выигрыши, получаемые
в момент t умножаются на множитель exp [−r (t − t0 )].
В момент времени t0 выигрыши игроков 1 и 2 соответственно равны
Z
T
"
1/2
u1 (s)
t0
−
c1
x (s)1/2
#
u1 (s) exp [−r (t − t0 )] ds +
+ exp [−r (T − t0 )] qx (T )1/2 ,
и
Z
T
"
1/2
u2 (s)
t0
−
c2
x (s)1/2
#
u2 (s) exp [−r (t − t0 )] ds
+ exp [−r (T − t0 )] qx (T )1/2 .
h
i
(t )∗
(t )∗
Пусть φ1 0 (t, x) , φ2 0 (t, x) ,
(6.6)
t ∈ [t0 , T ] — равновесие по Нэшу в
игре Γ (x0 , T − t0 ) и V (t0 )i (t, x) : [t0 , T ] × Rn → R — функции значения
игроков i ∈ {1, 2}. Тогда они должны удовлетворять уравнениям Айзекса–
Беллмана (теорема 4.5.1) вида
(t0 )i
−Vt
i
nh
ci
ui (t)1/2 − 1/2 ui (t) exp [−r (t − t0 )]
ui
x
h
io
(t )∗
(t0 )i
1/2
Vx
(t, x) ax − bx − ui (t) − φj 0 (t, x) ,
(t, x) = max
+
V (t0 )i (T, x) = exp [−r (T − t0 )] qx (T )1/2 ,
(6.7)
i ∈ {1, 2} , j ∈ {1, 2} , j 6= i.
Максимизируя правую часть равенства (6.7), получаем
(t0 )∗
φi
(t, x) =
x
h
i2 .
(t0 )i
1/2
4 ci + Vx
exp [r (t − t0 )] x
(6.8)
Утверждение 6.1.1. Функция значения игрока i ∈ {1, 2} (выигрыш в
ситуации равновесия по Нэшу) в игре Γ (x0 , T − t0 ) равна
h
i
V (t0 )i (t, x) = exp [−r (t − t0 )] Ai (t) x1/2 + Bi (t) ,
302
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
где i, j ∈ {1, 2} и i 6= j, Ai (t), Bi (t), Aj (t) и Bj (t) удовлетворяют уравнениям
·
¸
b
1
ci
Ȧi (t) = r +
Ai (t) −
+
+
2
2 [ci + Ai (t) /2] 4 [ci + Ai (t) /2]2
+
Ai (t)
Ai (t)
,
2 +
8 [ci + Ai (t) /2]
8 [cj + Aj (t) /2]2
a
Ḃi (t) = rBi (t) − Ai (t) и Ai (T ) = q, и Bi (T ) = 0.
2
(t )∗
Д о к а з а т е л ь с т в о получается подстановкой φ1 0 (t, x) и
(t )∗
φ2 0 (t, x) в (6.7) и решением уравнения (6.7).
Используя утверждение 6.1.1, можно получить выражения для равновесных по Нэшу стратегий в виде
(t )∗
φ1 0 (t, x) =
x
,
4 [c1 + A1 (t) /2]2
(t )∗
φ2 0 (t, x) =
x
.
4 [c2 + A2 (t) /2]2
(6.9)
Рассмотрим теперь подыгру Γ (xτ , T − τ ) со структурой выигрыша
(6.6) и динамикой (6.5), которая начинается в момент времени τ ∈ [t0 , T ]
из начального состояния xτ ∈ X. Из предыдущих рассмотрений следует,
что функция значения V (τ )i (t, x) : [τ, T ]×R → R при i ∈ {1, 2} и τ ∈ [t0 , T ]
подыгры Γ (xτ , T − τ ) может быть определена следующим образом.
Утверждение 6.1.2. Функция значения игрока i ∈ {1, 2} в подыгре
Γ (xτ , T − τ ) имеет вид
h
i
V (τ )i (t, x) = exp [−r (t − τ )] Ai (t) x1/2 + Bi (t) ,
где i, j ∈ {1, 2} и i 6= j, Ai (t), Bi (t), Aj (t) и Bj (t) определяются таким
же образом, как и в утверждении 6.1.1.
Д о к а з а т е л ь с т в о. Оно аналогично утверждению 6.1.1.
Равновесные по Нэшу стратегии в подыгре Γ (xτ , T − τ ) соответственно равны
(τ )∗
φ1
(t, x) =
x
,
4 [c1 + A1 (t) /2]2
(τ )∗
φ2
(t, x) =
x
.
4 [c2 + A2 (t) /2]2
(6.10)
При этом выполняются условия замечания 6.1.1.
Предположим теперь, что игроки решили кооперироваться. Обозначим через Γc (x0 , T − t0 ) кооперативный вариант игры
303
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Γ (x0 , T − t0 ), в которой игроки выбрали совместно некоторый принцип
оптимальности. Соглашения о кооперации и о том как распределить
между собой общий суммарный выигрыш (выигрыши предполагаются
трансферабельными) составляют принцип оптимальности при кооперативном поведении. В частности, принцип оптимальности в кооперативной
игре Γc (x0 , T − t0 ) включает в себя:
1. Соглашение о кооперативных стратегиях (управлениях);
2. Механизм распределения суммарного выигрыша между игроками.
Принцип оптимальности должен сохранять свою оптимальность вдоль
кооперативной траектории {x∗s }Ts=t0 . Более того, групповая рациональность требует, чтобы игроки использовали оптимальную по Парето траекторию. В дополнение к этому принцип распределения выигрыша должен
удовлетворять условию индивидуальной рациональности в том смысле,
что ни один из игроков не мог бы получить больший выигрыш, действуя
индивидуально.
Исследуем условие групповой рациональности на оптимальной траектории. Поскольку выигрыши трансферабельны, групповая рациональность сводится к максимизации игроками суммарного выигрыша. Рассмотрим кооперативную игру Γc (x0 , T − t0 ). Как мы уже говорили, игроки должны при кооперации действовать таким образом, чтобы максимизировать суммарный выигрыш
maxu1 ,u2
h R
i
j [s, x (s) , u (s) , u (s)] exp − s r (y) dy ds +
g
1
2
j=1
t0
(6.11)
h R
iP
o
T
2
j
+ exp − t0 r (y) dy
j=1 q (x (T )) ,
nR P
T
2
t0
при условии (6.1).
Обозначим задачу оптимального управления (6.11) и (6.1) через
Ψ (x0 , T − t0 ). Оптимальное управление в этой задаче будем называть
кооперативным управлением T . Для решения задачи можно воспользоваться как теорией динамического программирования, так и принципом
максимума Л.С. Понтрягина. Для простоты в данном случае применим
технику динамического программирования. Используя теорему 4.1.1, получаем:
nh
i
(t )∗
(t )∗
Теорема 6.1.2. Набор управлений
ψ1 0 (t, x) , ψ2 0 (t, x)
при
t ∈ [t0 , T ]} образует оптимальное управление в задаче Ψ (x0 , T − t0 ),
если существует непрерывно-дифференцируемая функция W (t0 ) (t, x) :
[t0 , T ] × Rm → R, удовлетворяющая уравнению Беллмана:
304
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
(t0 )
−Wt
(t, x) =


· Z t
¸
2
X

= max
g j [t, x, u1 , u2 ] exp −
r (y) dy + Wx(t0 ) f [t, x, u1 , u2 ] ,
u1 ,u2 

t0
j=1
при граничном условии
W
(t0 )
· Z
(T, x) = exp −
T
t0
r (y) dy
¸X
2
q j (x) .
j=1
используютo кооперативные управления
nh Итак, пусть игроки
i
(t0 )∗
(t0 )∗
ψ1
(t, x) , ψ2
(t, x) , при t ∈ [t0 , T ] . При кооперации вопрос
неединственности кооперативных управлений легко решается, поскольку
все кооперативные управления обеспечивают один и тот же максимальный суммарный выигрыш, и с этой точки зрения безразлично какое
именно кооперативное управление будет на самом деле использовано.
Подставляя выбранные кооперативные управления в уравнения (6.1),
получаем уравнение для кооперативной траектории
h
i
(t )∗
(t )∗
ẋ (s) = f s, x (s) , ψ1 0 (s, x (s)) , ψ2 0 (s, x (s)) ,
x (t0 ) = x0 . (6.12)
Пусть x∗ (t), t ∈ [t0 , T ] — решение уравнения (6.12). Оптимальная траектория {x∗ (t)}Tt=t0 может быть записана в виде
Z
∗
x (t) = x0 +
t
t0
h
i
(t )∗
(t )∗
f s, x∗ (s) , ψ1 0 (s, x∗ (s)) , ψ2 0 (s, x∗ (s)) ds.
(6.13)
Для удобства мы будем одновременно использовать обозначения x∗ (t) и
x∗t .
Кооперативные программные управления имеют вид
nh
i
o
(t )∗
(t )∗
ψ1 0 (t, x∗ (t)) , ψ2 0 (t, x∗ (t)) , t ∈ [t0 , T ] .
(6.14)
Рассмотрим кооперативную подыгру Γc (x∗τ , T − τ ) с динамикой (6.1) и
некооперативным выигрышем (6.2) с началом в момент времени τ ∈ [t0 , T ]
из состояния x∗τ на кооперативной траектории. В момент τ групповая рациональность требует, чтобы игроки решали задачу
nR P
£ Rs
¤
T
2
j
maxu1 ,u2 τ
j=1 g [s, x (s) , u1 (s) , u2 (s)] exp − τ r (y) dy ds +
(6.15)
o
h R
iP
T
2
j (x (T )) ,
q
+ exp − τ r (y) dy
j=1
при условии ẋ (s) = f [s, x (s) , u1 (s) , u2 (s)], x (τ ) = x∗τ .
305
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Из теории динамического программирования следует, что кооперативное управление в игре Γc (x∗τ , T − τ ) на отрезке времени [τ, T ] совпадает
с кооперативным управлением в игре Γc (x0 , T − t0 ) на том же отрезке
времени. Поэтому оптимальная траектория в игре Γc (x∗τ , T − τ ) является
отрезком оптимальной траектории игры Γc (x0 , T − t0 ) на соответствующем промежутке времени.
Замечание 6.1.2. Вдоль оптимальной траектории {x∗ (s)}Ts=t0 имеет место следующее тождество
W (t0 ) (t, x∗t ) =

2
Z T X
h
i
(t )∗
(t )∗
g j s, x (s) , ψ1 0 (s, x∗ (s)) , ψ2 0 (s, x∗ (s)) ×
=
 t
j=1
· Z s
¸
× exp −
r (y) dy ds +
t0

· Z T
¸X
2

+ exp −
r (y) dy
q j (x∗ (T )) =

t0
j=1
· Z t
¸
= exp −
r (y) dy
t0

2
Z T X
h
i
(τ )∗
(τ )∗
g j s, x (s) , ψ1 (s, x∗ (s)) , ψ2 (s, x∗ (s)) ×
 t
j=1
· Z s
¸
× exp −
r (y) dy ds +
t

· Z T
¸X
2

+ exp −
r (y) dy
q j (x∗ (T )) =

t
j=1
· Z t
¸
= exp −
r (y) dy W (τ ) (t, x∗t ) , i ∈ {1, 2} .
t0
Пример
6.1.2. Рассмотрим задачу оптимального управления
Ψ (x0 , T − t0 ) максимизации суммы выигрышей игроков 1 и 2 из
примера 6.1.1.
Z
T
t0
306
Ã"
u1 (s)
1/2
−
c1
x (s)1/2
#
u1 (s) +
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
"
+
1/2
u2 (s)
−
c2
x (s)1/2
#!
u2 (s)
exp [−r (t − t0 )] ds +
(6.16)
+ 2 exp [−r (T − t0 )] qx (T )1/2 ,
при условии (6.5).
h
i
(t )∗
(t )∗
Пусть ψ1 0 (t, x) , ψ2 0 (t, x) — управления, решающие задачу максимизации Ψ (x0 , T − t0 ), и W (t0 ) (t, x) : [t0 , T ] × Rn → R — функция Беллмана, удовлетворяющая уравнению (см. теорему 6.1.2)
(t0 )
−Wt
(t, x) =
i h
i´
n³h
c1
c2
1/2
1/2
= max
u1 − 1/2 u1 + u2 − 1/2 u2 exp [−r (t − t0 )] +(6.17)
u1 ,u2
x
x
h
io
+ Wx(t0 ) (t, x) ax1/2 − bx − u1 − u2 ,
W (t0 ) (T, x) = 2 exp [−r (T − t0 )] qx1/2 .
Максимизация правой части (6.17) дает выражения для оптимальных
управлений
x
(t )∗
ψ1 0 (t, x) =
h
i2 ,
(t )
4 c1 + Wx 0 exp [r (t − t0 )] x1/2
x
(t )∗
ψ2 0 (t, x) =
h
i2 .
(t )
4 c2 + Wx 0 exp [r (t − t0 )] x1/2
(t )∗
(t )∗
Подставив ψ1 0 (t, x) и ψ2 0 (t, x) в (6.17), получим явное выражение
для функции Беллмана
h
i
W (t0 ) (t, x) = exp [−r (t − t0 )] Â (t) x1/2 + B̂ (t) ,
·
¸
b
1
1
i− h
i+
 (t) − h
r+
2
2 c1 + Â (t) /2
2 c2 + Â (t) /2
c1
c2
+
h
i2 + h
i2 +
4 c1 + Â (t) /2
4 c2 + Â (t) /2
˙
 (t) =
+
 (t)
 (t)
h
i2 + h
i2 ,
8 c1 + Â (t) /2
8 c2 + Â (t) /2
a
˙
B̂ (t) = rB̂ (t) − Â (t) , Â (T ) = 2q, B̂ (T ) = 0.
2
307
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Оптимальные кооперативные управления могут быть представлены в
виде
x
x
(t )∗
(t0 )∗
ψ1 0 (t, x) = h
(t, x) = h
i2 , и ψ2
i2 .
4 c1 + Â (t) /2
4 c2 + Â (t) /2
Подставляя эти управления в (6.5), получаем уравнение для кооперативной траектории
x (s)
x (s)
ẋ (s) = ax (s)1/2 − bx (s) − h
i2 − h
i2 ,
4 c1 + Â (s) /2
4 c2 + Â (s) /2
(6.18)
x (t0 ) = x0 .
Решая (6.18), получаем кооперативную траекторию Γc (x0 , T − t0 )
·
¸2
Z s
1/2
2
∗
−1
x (s) = $ (t0 , s) x0 +
$ (t0 , t) H1 dt , s ∈ [t0 , T ] ,
(6.19)
t0
где
·Z
$ (t0 , s) = exp

s
t0
¸
1
H2 (τ ) dτ , H1 = a,
2

1
1
1

H2 (s) = −  b + h
i2 + h
i2  .
2
8 c1 + Â (s) /2
8 c2 + Â (s) /2
Кооперативные программные управления в игре Γc (x0 , T − t0 ) на отрезке времени [t0 , T ] имеют вид:
(t )∗
ψ1 0 (t, x∗t ) =
x∗t
x∗t
(t0 )∗
(t, x∗t ) = h
h
i2 , и ψ2
i2 , (6.20)
4 c1 + Â (t) /2
4 c2 + Â (t) /2
при этом выполнены условия замечания 6.1.1.
В подыгре Γ (x∗τ , T − τ ) программные управления вдоль оптимальной
траектории имеют вид
(τ )∗
ψ1
(t, x∗t ) =
x∗t
x∗t
(τ )∗
∗
h
i2 , и ψ2 (t, xt ) = h
i2 .
4 c1 + Â (t) /2
4 c2 + Â (t) /2
Оптимальная кооперативная траектория определяется по формуле:
·
¸2
Z s
2
∗
∗ 2
−1
x (s) = $ (τ, s) (xτ ) +
$ (τ, t) H1 dt , s ∈ [τ, T ] ,
(6.21)
τ
308
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
где
·Z
$ (τ, s) = exp

τ
s
¸
1
H2 (ς) dς , H1 = a,
2

1
1
1

H2 (s) = −  b + h
i2 + h
i2  .
2
8 c1 + Â (s) /2
8 c2 + Â (s) /2
Выражения (6.21) и (6.19) совпадают на промежутке [τ, T ], т.е. x∗ (s)
в (6.21) является подмножеством множества из (6.19). Таким образом,
вдоль кооперативной траектории {x∗ (s)}Ts=t0 групповая рациональность
сохраняется в каждый момент времени t ∈ [t0 , T ].
И н д и в и д у а л ь н а я р а ц и о н а л ь н о с т ь. Предположим, что в
момент t0 в состоянии x0 выбранный
£ принцип оптимальности предписыва¤
ет выбор дележа ξ (x0 , T − t0 ) = ξ 1 (x0 , T − t0 ) , ξ 2 (x0 , T − t0 ) . Это означает, что игроки согласились на такой дележ суммарного выигрыша, при
котором выигрыш игрока i на отрезке времени [t0 , T ] равен ξ i (x0 , T − t0 ).
Индивидуальная рациональность дележа означает, что должно иметь
место неравенство
ξ i (x0 , T − t0 ) ≥ V (t0 )i (t0 , x0 ) ,
i ∈ {1, 2} .
Пусть тот же принцип оптимальности в момент τ в состоянии x∗τ на
кооперативной траектории в подыгре с началом в момент τ , предписывает
выбор дележа
£
¤
ξ (x∗τ , T − τ ) = ξ 1 (x∗τ , T − τ ) , ξ 2 (x∗τ , T − τ ) ,
при котором выигрыш игрока i на отрезке времени [τ, T ] равен
ξ i (x∗τ , T − τ ). Индивидуальная рациональность будет иметь место, если
ξ i (x∗τ , T − τ ) ≥ V (τ )i (τ, x∗τ ) ,
i ∈ {1, 2} .
В динамической постановке индивидуальная рациональность должна
выполняться в каждый момент времени τ ∈ [t0 , T ] на оптимальной траектории {x∗ (t)}Tt=t0 .
Как было нами ранее указано в § 5.4.–§ 5.5., важнейшим дополнительным требованием к решению динамических кооперативных игр является
динамическая устойчивость или состоятельность во времени. Свойство
динамической устойчивости решения заключается в том, что когда игра
развивается вдоль кооперативной траектории, в каждый момент времени игроки руководствуются одним и тем же принципом оптимальности
309
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
и, следовательно, не имеют оснований для отклонения от принципа оптимальности, выбранного в начале игры. В этом параграфе мы исследуем
свойство динамической устойчивости или временной состоятельности в
неантагонистических кооперативных играх двух лиц с дисконтированным
выигрышем.
Как было отмечено ранее, принцип оптимальности кооперативной игры Γc (x0 , T − t0 ) включает в себя:
1. соглашение о множестве кооперативных стратегий (управлений);
2. механизм распределения суммарного выигрыша между игроками.
Рассмотрим кооперативную игру Γc (x0 , T − t0 ), в которой игроки решили совместными действиями максимизировать суммарный выигрыш и
применить некоторый механизм дележа этого выигрыша между собой.
Для достижения максимального hсуммарного выигрышаi игроки приме(t )∗
(t )∗
няют кооперативные управления ψ1 0 (t, x) , ψ2 0 (t, x) , полученные в
теореме 6.1.2. При этом, кооперативная траектория {x∗ (s)}Ts=t0 определяется уравнением (6.13).
В момент t0 в начальном состоянии x0 компонента дележа ξ (t0 )i (t0 , x0 )
представляет собой часть максимального суммарного выигрыша (получаемого на отрезке времени [t0 , T ]), на которую игрок i ориентирован согласно выбранному и согласованному принципу оптимальности.
Рассмотрим теперь кооперативную подыгру Γc (x∗τ , T − τ ), начинающуюся в промежуточный момент времени τ ∈ [t0 , T ] из начального состояния x∗τ , в которой используется тот же принцип оптимальности что и в
основной игре. Пусть ξ (τ )i (τ, x∗τ ) — компонента дележа (часть кооперативного выигрыша) игрока i £на промежутке времени¤ [τ, T ] в этой подыгре.
Векторы ξ (τ ) (τ, x∗τ ) = ξ (τ )1 (τ, x∗τ ) , ξ (τ )2 (τ, x∗τ ) , τ ∈ [t0 , T ] будут допустимыми дележами, если выполнены следующие условия.
Определение 6.1.1. Вектор ξ (τ ) (τ, x∗τ ) является дележом кооперативной игры Γc (x∗τ , T − τ ) при τ ∈ [t0 , T ], если выполнены следующие условия:
£
¤
1. ξ (τ ) (τ, x∗τ ) = ξ (τ )1 (τ, x∗τ ) , ξ (τ )2 (τ, x∗τ ) – парето-оптимальный дележ;
2. ξ (τ )i (τ, x∗τ ) ≥ V (τ )i (τ, x∗τ ), i ∈ {1, 2}.
Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], построим процедуру распределения дележа (ПРД), чтобы согласованный в начале принцип оптимальности мог бы реально реализоваться в игре. Пусть B τ (s) =
310
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
[B1τ (s) , B2τ (s)] — мгновенные выигрыши (плотности выигрышей) при кооперации в момент времени s ∈ [τ, T ] в кооперативной игре Γc (x∗τ , T − τ ).
Иными словами, игрок i ∈ {1, 2} получает выигрыш Biτ (s) в момент времени s. Терминальный выигрыш q i (x∗T ) получается игроком i в момент
T.
В частности, Biτ (s) и q i (x∗T ) образуют ПРД в игре Γc (xτ , T − τ ), если
величина ξ (τ )i (τ, x∗τ ) будет равна
½µZ
· Z s
¸
(s) exp −
r (y) dy ds +
τ
τ
· Z T
¸¶¯
¾
¯
i
∗
∗
+q (xT ) exp −
r (y) dy ¯¯ x (τ ) = xτ ,
T
Biτ
(6.22)
τ
; i ∈ {1, 2} , τ ∈ [t0 , T ] .
Определим для i ∈ {1, 2} и t ∈ [τ, T ] вспомогательную величину
ξ (τ )i (t, x∗t ), равную
½µZ
T
t
Biτ
+q
i
· Z
(s) exp −
¸
s
r (y) dy ds +
τ
(x∗T ) exp
· Z
−
τ
T
¸¶¯
¾
¯
∗
r (y) dy ¯¯ x (t) = xt ,
(6.23)
для обозначения оценки (с учетом дисконтирования) кооперативного выигрыша игрока i на отрезке времени [t, T ] из состояния x∗t в момент времени t ∈ [τ, T ], когда игрок находится в начале подыгры, стартующей в
момент τ из состояния x∗τ .
£
¤
Определение 6.1.2. Вектор ξ (τ ) (τ, x∗τ ) = ξ (τ )1 (τ, x∗τ ) , ξ (τ )2 (τ, x∗τ ) ,
определенный в (6.22) и (6.23), есть состоятельный во времени дележ
в подыгре Γc (x∗τ , T − τ ) при τ ∈ [t0 , T ], если ξ (τ ) (τ, x∗τ ) — оптимальный
по Парето дележ, при t ∈ [τ, T ] имеет место неравенство ξ (τ )i (t, x∗t ) ≥
V (t)i (t, x∗t ) для i ∈ {1, 2}, t ∈ [τ, T ], и выполнено условие
ξ
(τ )i
(t, x∗t )
· Z t
¸
= exp −
r (y) dy ξ (t)i (t, x∗t ) ,
τ
для τ ≤ t ≤ T, i ∈ {1, 2} .
Определение 6.1.2 означает, что часть выигрыша, который игрок в
начальный момент рассчитывает получить в подыгре при использовании
некоторого выбранного заранее принципа оптимальности (с точностью до
311
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
процедуры дисконтирования), совпадает с выигрышем, который он реально может получить, в этой подыгре при использовании того же принципа
оптимальности, но уже примененного к этой подыгре. Кроме того групповая и индивидуальная рациональность выполняются на всем отрезке
времени на котором происходит игра.
Как отмечалось в [Jorgensen, Zaccour, 2002], условия, гарантирующие
временную состоятельность кооперативных решений, могут быть достаточно сложными и аналитически трудно представимыми. Для того чтобы
достичь временной состоятельности или динамической устойчивости решения ξ (τ ) (τ, x∗τ ), удовлетворяющего определению 6.1.2, необходимо определить некоторый дополнительный механизм выплат на отрезке времени,
на котором происходит игра, то есть механизм реализации дележей на
временном интервале. В работе [Yeung, Petrosjan, 2004] получена общая
теорема, с помощью которой такой механизм выплат (ПРД) распределения дележа во времени может быть получен. Ниже мы используем этот
подход для детерминированной дифференциальной игры.
П р о ц е д у р а р а с п р е д е л е н и я д е л е ж а. Процедура распределения дележа (ПРД) в кооперативной игре, определенная в (6.22) и
(6.23), должна быть сформулирована таким образом, чтобы первоначально согласованный дележ мог быть реализован.
Для того чтобы условия, сформулированные в определении 6.1.2, выполнялись необходимо потребовать, чтобы Biτ (s) = Bit (s) при i ∈ {1, 2} и
τ ∈ [t0 , T ] и t ∈ [t0 , T ] и τ 6= t. Используя обозначение Biτ (s) = Bit (s) =
Bi (s) и определение 6.1.2, ПРД для состоятельного во времени (динамически устойчивого) дележа должна удовлетворять условиям:
1.
2
X
Bi (s) =
j=1
2.
2
X
h
i
(τ )∗
(τ )∗
g j s, x∗s , ψ1 (s, x∗s ) , ψ2 (s, x∗s ) , s ∈ [t0 , T ] ;
j=1
h R
i
£ Rs
¤
RT
T
i (x∗ (T )) exp − r
B
(s)
exp
−
r
(y)
dy
ds
+
q
(y)
dy
≥
τ i
τ
τ
≥ V (τ )i (τ, x∗τ ) , i ∈ {1, 2} , τ ∈ [t0 , T ] ;
3.
· Z s
¸
=
Bi (s) exp −
r (y) dy ds +
τ
τ
· Z τ +∆t
¸
+ exp −
r (y) dy ξ (τ +∆t)i (τ + ∆t, x∗τ + ∆x∗τ ) ,
Z
ξ
(τ )i
(τ, x∗τ )
τ +∆t
τ
τ ∈ [t0 , T ] , i ∈ {1, 2} ;
312
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
где
h
i
(τ )∗
(τ )∗
∆x∗τ = f τ, x∗τ , ψ1 (τ, x∗τ ) , ψ2 (τ, x∗τ ) ∆t + o (∆t) .
Рассмотрим следующее условие, касающееся ξ (τ ) (t, x∗t ) для τ ∈ [t0 , T ]
и t ∈ [τ, T ]:
Условие 6.1.1. При i ∈ {1, 2}, t ≥ τ и τ ∈ [t0 , T ] величины ξ (τ )i (t, x∗t )
непрерывно-дифференцируемы по t и x∗t .
Если величины ξ (τ ) (t, x∗t ), при τ ∈ [t0 , T ] удовлетворяют условию 6.1.1,
можно получить следующее соотношение:
· Z s
¸
Z τ +∆t
Bi (s) exp −
r (y) dy ds =
τ
τ
· Z τ +∆t
¸
(τ )i
∗
=ξ
(τ, xτ ) − exp −
r (y) dy ξ (τ +∆t)i (τ + ∆t, x∗τ + ∆x∗τ ) = (6.24)
τ
=ξ
(τ )i
(τ, x∗τ )
−ξ
(τ )i
(τ + ∆t, x∗τ + ∆x∗τ ) ,
для всех τ ∈ [t0 , T ] и i ∈ {1, 2}.
При ∆t → 0 из (6.24) получаем
¯ i
h
(τ )i
∗ ¯
Bi (τ ) ∆t = − ξt (t, xt )¯
∆t −
¯ t=τ
h
i h
i
¯
(τ )i
(τ )∗
(τ )∗
− ξx∗ (t, x∗t )¯
f τ, x∗τ , ψ1 (τ, x∗τ ) , ψ2 (τ, x∗τ ) ∆t − (6.25)
t
t=τ
− −o (∆t) .
Таким образом получаем следующую теорему.
Теорема 6.1.3. Если оптимальный дележ ξ (τ )i (τ, x∗τ ), при i ∈ {1, 2} и
τ ∈ [t0 , T ] удовлетворяет условиям определения 6.1.1 и условию 6.1.1 с
терминальной выплатой q i (x∗T ) в момент T и мгновенными выплатами
в моменты времени τ ∈ [t0 , T ]:
¯ i
h
(τ )i
∗ ¯
Bi (τ ) = − ξt (t, xt )¯
−
t=τ
¯ i h
i
h
¯
(τ )∗
(τ )∗
(τ )i
f τ, x∗τ , ψ1 (τ, x∗τ ) , ψ2 (τ, x∗τ ) ,
− ξx∗ (t, x∗t )¯
t
t=τ
при i ∈ {1, 2} ,
то он представляет
Γc (x0 , T − t0 ).
состоятельное
во
времени
решение
игры
313
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Рассмотрим теперь динамически устойчивые (состоятельные во времени) решения для конкретных принципов оптимальности.
Рассмотрим кооперативную игру Γc (x0 , T − t0 ), в которой игроки максимизируют суммарный выигрыш и делят его в соответствии с арбитражной схемой Нэша. Эта схема также совпадает с вектором Шепли для
кооперативной игры двух лиц. Известно, что при таком подходе дележ
имеет вид, представленный в следующем утверждении.
Утверждение 6.1.3. В игре Γc (x0 , T − t0 ) компонента дележа


2
X
1
ξ (t0 )i (t0 , x0 ) = V (t0 )i (t0 , x0 ) + W (t0 ) (t0 , x0 ) −
V (t0 )j (t0 , x0 )
2
j=1
предписывается игроку i ∈ {1, 2} согласно арбитражной схеме Нэша, и
в подыгре Γc (x∗τ , T − τ ), при τ ∈ (t0 , T ] компонента дележа


2
X
1
ξ (τ )i (τ, x∗τ ) = V (τ )i (τ, x∗τ ) + W (τ ) (τ, x∗τ ) −
V (τ )j (τ, x∗τ ) ,
2
j=1
предписывается игроку i ∈ {1, 2} согласно той же схеме.
Заметим, что при таком дележе каждый из игроков получает свой
некооперативный выигрыш (выигрыш в равновесии по Нэшу) плюс половину дополнительного выигрыша, получаемого в результате кооперации
на отрезке времени [τ, T ], при τ ∈ [t0 , T ].
Можно убедиться, что ξ (τ )i (τ, x∗τ ) удовлетворяет определению 6.1.2.
Более того, используя замечания 6.1.1 и 6.1.2, получаем
·Z t
¸
ξ (t)i (t, x∗t ) = exp
r (y) dy ×
τ



2


X
1  (τ )
∗
(τ )j
∗ 
(τ )i
∗
W (t, xt ) −
V
(t, xt )
=
× V
(t, xt ) +


2
j=1
·Z t
¸
= exp
r (y) dy ξ (τ )i (t, x∗t ) , при t0 ≤ τ ≤ t.
(6.26)
τ
Таким образом ξ (τ )i (τ, x∗τ ), как это следует из определения 6.1.2,
является состоятельным во времени дележом в кооперативной игре
Γc (x0 , T − t0 ). Используя теорему 6.1.3, получаем
314
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.1. Постановка задачи
Следствие 6.1.1. ПРД с терминальной выплатой q i (x (T )) в момент
времени T и мгновенными выплатами (плотностью выплат) в моменты времени τ ∈ [t0 , T ]:
Bi (τ ) =
+
−
+
+
+
¯ i
−1 hh (τ )i
¯
Vt (t, xt )¯
+
¯ i t=τh
h2
ii
¯
(τ )∗
(τ )∗
Vx(τt )i (t, xt )¯
f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) −
t=τ
¯ i
1 hh (τ )
¯
Wt (t, xt )¯
+
(6.27)
2h
¯ t=τ
ii
i h
¯
(τ )∗
(τ )∗
Wx(τt ) (t, xt )¯
f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) +
t=τ
¯ i
1 hh (τ )j
¯
Vt
(t, xt )¯
+
2h
¯ t=τ
i h
ii
¯
(τ )∗
(τ )∗
Vx(τt )j (t, xt )¯
f τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ ) ,
t=τ
при i, j ∈ {1, 2} и i 6= j,
представляет собой состоятельное во времени (динамически устойчивое) решение кооперативной игры Γc (x0 , T − t0 ), в которой игроки согласились делить свой кооперативный выигрыш в соответствии с
утверждением 6.1.3.
Пример 6.1.3. Построим состоятельную во времени ПРД в игре добычи
полезного ресурса, когда игроки договорились делить кооперативный выигрыш в соответствии утверждением 6.1.3. Поэтому рассмотрим пример
6.1.1, в котором две добывающие фирмы согласились максимизировать
суммарный выигрыш и разделить его между собой согласно утверждению 6.1.3.
Используя результаты, полученные в примерах 6.1.1, 6.1.2 и теореме
6.1.1, мы получаем следующее следствие.
Следствие 6.1.2. ПРД с терминальным выигрышем q i (x (T )) в момент
времени T и мгновенными выплатами (плотностью выплат) в моменты времени τ ∈ [t0 , T ] имеет вид:


³h
i h
i´
−1 
Bi (τ ) =
Ȧi (τ ) (x∗τ )1/2 + Ḃi (τ ) +r Ai (τ ) (x∗τ )1/2 +Bi (τ ) +
2 

·
¸
1
∗ −1/2
+
Ai (τ ) (xτ )
×
2
315
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием



x∗τ
x∗τ


∗ 1/2
∗
a
(x
)
−
bx
−
−

h
i2
h
i2  −
τ
τ


4 ci + Â (τ ) /2
4 cj + Â (τ ) /2


i
h
i´
1  ³h ˙
˙
 (τ ) (x∗τ )1/2 + B̂ (τ ) + r  (τ ) (x∗τ )1/2 + B̂ (τ ) +
2

·
¸
1
 (τ ) (x∗τ )−1/2 ×
(6.28)
2




x∗τ
x∗τ


∗ 1/2
∗
a (xτ ) − bxτ − h
i2 − h
i2  +


4 ci + Â (τ ) /2
4 cj + Â (τ ) /2


i
h
i´
1  ³h
Ȧj (τ ) (x∗τ )1/2 + Ḃj (τ ) + r Aj (τ ) (x∗τ )1/2 + Bj (τ ) +
2

¸
·
1
Aj (τ ) (x∗τ )−1/2 ×
2




x∗τ
x∗τ


∗ 1/2
∗
a
(x
)
−
bx
−
−

h
i2
h
i2  ,
τ
τ


4 ci + Â (τ ) /2
4 cj + Â (τ ) /2

×
−
+
×
+
+
×
при i, j ∈ {1, 2} и i 6= j,
и является состоятельным во времени решением кооперативной игры
Γc (x0 , T − t0 ), в которой игроки решили делить кооперативный выигрыш
в соответствии с утверждением 6.1.3.
§ 6.2.
Интерпретация процедуры распределения дележа
Рассмотрим кооперативную игру Γc (x0 , T − t0 ), в которой игроки договорились о максимизации суммарного выигрыша и разделе этого выигрыша
между собой в соответствии с некоторым механизмом дележа. В частности, таким механизмом может быть арбитражная схема Нэша, которая
использовалась в утверждении 6.1.3.
В более общей постановке дележ ξ (τ )i (τ, x∗τ ) может быть представлен
как некоторая функция от кооперативного выигрыша и некооперативных (в равновесии по Нэшу) выигрышей игроков. То есть можно написать
316
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.2. Интерпретация процедуры распределения дележа
h
i
ξ (τ )i (τ, x∗τ ) = ω (τ )i W (τ ) (τ, x∗τ ), V (τ )i (τ, x∗τ ), V (τ )j (τ, x∗τ ) , и
(6.29)
h
i
(τ )i
∗
(τ )i
(τ )
∗
(τ )i
∗
(τ )j
∗
ξ (t, xt ) = ω
W (t, xt ), V
(t, xt ), V
(t, xt ) , i ∈ {1, 2}.
Если ω (τ )i (t, x∗t ) — непрерывно-дифференцируемы по W (τ ) (t, x∗t ),
V (τ )i (t, x∗t ) и V (τ )j (t, x∗t ), то условие 6.1.1 выполняется, если последние
выражения непрерывно-дифференцируемы по t и x∗t . От оптимального
(τ )i
(τ )i
дележа естественно потребовать, чтобы ωW (t, x∗t ) ≥ 0, ωV i (t, x∗t ) ≥ 0
(τ )i
и ωV j (t, x∗t ) ≤ 0. Используя теорему 6.1.3, можно получить следующую
формулу для ПРД:
(τ )i
Bi (τ ) = ωW (τ, x∗τ )
2
X
g j [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] +
j=1
½
(τ )i
∗
+ ωV i (τ, xτ ) g i [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] +
¯ i
h
¯
(τ )i
+ ξx∗ (t, x∗t )¯
×
(6.30)
¾
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
(f [τ, xτ , φ1 (τ, xτ ) , φ2 (τ, xτ )] − f [τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ )]) +
½
(τ )i
∗
ωV j (τ, xτ ) g j [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] +
¯ i
h
¯
(τ )j
ξx∗ (t, x∗t )¯
t
t=τ
¾
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
(f [τ, xτ , φ1 (τ, xτ ) , φ2 (τ, xτ )] − f [τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ )]) .
t
×
+
+
×
t=τ
Д о к а з а т е л ь с т в о. Используя теорему 6.1.1 и выражения (6.29),
получаем
¯ i
nh
¯
(τ )i
(τ )
Bi (τ ) = −ωW (τ, xτ∗ )
Wt (t, x∗t )¯
+
t=τ
¯ i
h
o
¯
(τ )
+ Wx∗ (t, x∗t )¯
f [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] −
t
¯ i
n ht=τ
¯
(τ )i
(τ )i
∗
+
(6.31)
−ωV i (τ, xτ )
Vt (t, x∗t )¯
t=τ
¯ i
o
h
¯
(τ )i
f [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] −
+ Vx∗ (t, x∗t )¯
t
t=τ
¯ i
nh
¯
(τ )i
(τ )j
+
−ωV j (τ, xτ∗ ) Vt
(t, x∗t )¯
t=τ
¯ i
o
h
¯
(τ )j
f [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] .
+ Vx∗ (t, x∗t )¯
t
t=τ
317
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Уравнение Беллмана дает нам
h
−
¯
¯
(τ )
Wt (t, x∗t )¯
i
=
t=τ
¯
¯
(τ )
+ Wx∗ (t, x∗t )¯
t
2
X
g j [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] +
j=1
i
h
t=τ
(6.32)
f [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] .
Из уравнений Айзекса–Беллмана получаем
¯ i
h
¯
(τ )i
− Vt (t, x∗t )¯
= g i [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] +
t=τ
(6.33)
¯ i
h
(τ )i
∗ ¯
∗
∗
∗
∗
∗
+ Vx∗ (t, xt )¯
f [τ, xτ , φ1 (τ, xτ ) , φ2 (τ, xτ )] , i ∈ {1, 2}.
t
t=τ
Подставляя (6.32) и (6.33) в (6.31), получаем:
(τ )i
Bi (τ ) = ωW (τ, x∗τ )
2
X
g j [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )] +
j=1
½
(τ )i
∗
+ωV i (τ, xτ ) g i [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] +
¯
h
¯
(τ )i
+ Vx∗ (t, x∗t )¯
t
× (f
i
×
t=τ
¾
[τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )]
−f
[τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )])
+
½
(τ )i
+ωV j (τ, x∗τ ) g j [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] +
¯
h
¯
(τ )j
+ Vx∗ (t, x∗t )¯
t
× (f
t=τ
i
×
[τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )]
¾
−f
[τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )])
,
что и обосновывает формулу (6.30).
Формула (6.30) позволяет экономически интерпретировать компонен(τ )i
ты ПРД. Величина ωW (τ, x∗τ ) представляет собой маргинальную долю кооперативного выигрыша, который игрок i предполагает получить
согласно используемому принципу оптимальности. С другой стороны,
(τ )i
ωV i (τ, x∗τ ) представляет маргинальную часть собственного выигрыша,
который игрок i предполагает получить согласно используемому прин(τ )i
ципу оптимальности и, наконец, ωV j (τ, x∗τ ) представляет маргинальную
318
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.3.. Кооперативные игры с бесконечной продолжительностью
часть выигрыша другого игрока, которую игрок i собирается получить
согласно используемому принципу оптимальности.
P2
j
∗
∗
∗
∗
∗
Слагаемое
представляет
соj=1 g [τ, xτ , ψ1 (τ, xτ ) , ψ2 (τ, xτ )]
бой мгновенный кооперативный суммарный выигрыш игроков, а
g i [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] — мгновенный выигрыш игрока i при
некооперативном поведении. Слагаемое
h
¯
¯
(τ )i
ξx∗ (t, x∗t )¯
t
i
t=τ
×
× (f [τ, x∗τ , φ∗1 (τ, x∗τ ) , φ∗2 (τ, x∗τ )] − f [τ, x∗τ , ψ1∗ (τ, x∗τ ) , ψ2∗ (τ, x∗τ )])
отражает мгновенное изменение некооперативного выигрыша игрока i
при переходе с некооперативной траектории (6.13) x∗τ на кооперативную
(6.4).
Таким образам, мгновенный выигрыш Bi (τ ), получаемый игроком при
использовании ПРД, является суммой следующих слагаемых:
1. маргинальная доля игрока i в суммарном кооперативном выигрыше;
2. маргинальный некооперативный выигрыш игрока i плюс мгновенное изменение некооперативного выигрыша, вызванного изменением
позиционной переменной x∗τ при переходе с некооперативной траектории на кооперативную;
3. договоренную заранее игроком i маргинальную некооперативную
часть выигрыша игрока j плюс мгновенное изменение некооперативного выигрыша игрока j, вызванного изменением позиционной
переменной x∗τ при переходе с некооперативной траектории на кооперативную.
§ 6.3.
Кооперативные игры с бесконечной продолжительностью
Во многих конкретных задачах продолжительность игры T либо слишком
велика, либо неизвестна участникам. Например, сегодняшняя стоимость
фирмы определяется дисконтированной суммой ее будущих доходов. Никто не знает когда фирма прекратит существовать. Как справедливо замечено в работе [Dockner, Jorgensen, 2000], в этом случае предположение
T = ∞ может быть хорошим приближением. Важнейшими примерами
задач такого рода являются добыча возобновляемых ресурсов, природоохранный менеджмент и оценка корпоративной собственности.
319
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Рассмотрим неантагонистическую дифференциальную игру с выигрышами
Z ∞
g i [x (s) , u1 (s) , u2 (s)] exp [−r (s − t0 )] ds, i ∈ {1, 2}
(6.34)
t0
и динамикой
ẋ (s) = f [x (s) , u1 (s) , u2 (s)] ,
x (t0 ) = x0 .
(6.35)
Поскольку время s не присутствует явно в g i [x (s) , u1 (s) , u2 (s)], выигрышах и уравнениях динамики, игра (6.34)–(6.35) является автономной.
Рассмотрим подыгру Γ (x):
Z ∞
max
g i [x (s) , u1 (s) , u2 (s)] exp [−r (s − t)] ds, i ∈ {1, 2}
ui
t
при условии
ẋ (s) = f [x (s) , u1 (s) , u2 (s)] ,
x (t) = x.
Автономная задача Γ (x) с бесконечной продолжительностью не зависит от t, а зависит лишь от x.
Используя теорему 4.7.1, мы можем охарактеризовать некооперативное позиционное равновесие по Нэшу.
Теорема 6.3.1. Пара стратегий {φ∗1 (x) , φ∗2 (x)} образует позиционное равновесие по Нэшу в игре Γ (x), если существуют непрерывнодифференцируемые функции V 1 (x) : Rm → R и V 2 (x) : Rm → R, удовлетворяющие следующей системе уравнений в частных производных:
© £
¤
£
¤ª
rV i (x) = max g i x, ui , φ∗j (x) + Vxi (x) f x, ui , φ∗j (x) ,
ui
i ∈ {1, 2} , j ∈ {1, 2} , j 6= i.
Здесь
Z
i
V (x) =
t
∞
g i [x (s) , φ∗1 (s) , φ∗2 (s)] exp [−r (s − t)] ds
есть выигрыш игрока i в ситуации позиционного равновесия в подыгре,
начинающейся в момент t ∈ [t0 , ∞] из состояния x.
Рассмотрим теперь случай, когда игроки решили кооперироваться.
Пусть Γc (x) — кооперативная игра, определенная на структуре игры Γ (x)
из начального состояния x. Предположим, что игроки предварительно договорились о максимизации суммарного выигрыша, то есть


2
Z ∞ X

j
max
g [x (s) , u1 (s) , u2 (s)] exp [−r (s − t)] ds ,
(6.36)
u1 ,u2  t

j=1
320
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.3. Кооперативные игры с бесконечной продолжительностью
ẋ (s) = f [x (s) , u1 (s) , u2 (s)] , x (t) = x.
Следуя теореме 4.1.2, получаем следующую теорему.
Теорема 6.3.2. Набор управлений {[ψ1∗ (x) , ψ2∗ (x)]} решает задачу (6.36), связанную с игрой Γc (x), если существует непрерывнодифференцируемая функция W (x) : Rm → R, удовлетворяющая уравнению Беллмана для задачи с бесконечной продолжительностью


2
X

rW (x) = max
g j [x, u1 , u2 ] + Wx f [x, u1 , u2 ] =
u1 ,u2 

j=1
=
2
X
g j [x, ψ1∗ , ψ2∗ ] + Wx f [x, ψ1∗ , ψ2∗ ].
j=1
Обозначим соответствующие кооперативные управления через
[ψ1∗ (x) , ψ2∗ (x)]. Подставляя эти управления в (6.35), получаем уравнение
для оптимальной кооперативной траектории
ẋ (s) = f [x (s) , ψ1∗ (x (s)) , ψ2∗ (x (s))] ,
x (t) = x.
Если игра начинается в момент t0 , x (t0 ) = x0 , то
ẋ (s) = f [x (s) , ψ1∗ (x (s)) , ψ2∗ (x (s))] ,
x (t0 ) = x0 .
(6.37)
Пусть x∗ (t) — решение (6.37). Как и раньше будем использовать обозначения x∗ (t) и x∗t в зависимости от обстоятельств.
Предположим, что в момент времени t ≥ t0 в начальном состоянии
x∗t первоначально
принцип оптимальности предписывает
£ согласованный
¤
дележ ξ (x∗t ) = ξ 1 (x∗t ) , ξ 2 (x∗t ) . Это означает, что игроки договариваются
о таком дележе, когда выигрыш игрока i в игре равен ξ i (x∗t ).
Условие индивидуальной рациональности требует выполнения неравенства
ξ i (x∗t ) ≥ V i (x∗t ) ,
при i ∈ {1, 2} .
Следуя [Petrosjan, 1997] и [Yeung, Petrosjan, 2004], будем обозначать
через B (s) = [B1 (s) , B2 (s)] мгновенные выигрыши игроков (плотности
выигрышей)¡ при
¢ кооперации в момент времени s ∈ [t0 , ∞) в кооператив∗
ной игре Γc xt0 .
Тогда вдоль кооперативной траектории {x∗ (t)}t≥t0
Z ∞
i
∗
ξ (xτ ) =
Bi (s) exp [−r (s − τ )] ds,
i ∈ {1, 2} ,
τ
Z ∞
ξ i (x∗t ) =
Bi (s) exp [−r (s − t)] ds,
i ∈ {1, 2} t ≥ τ.
t
321
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Далее определим величины
Z ∞
γ i (τ ; τ, x∗τ ) =
Bi (s) exp [−r (s − τ )] ds = ξ i (x∗τ ) ,
Zτ ∞
i
∗
γ (τ ; t, xt ) =
Bi (s) exp [−r (s − τ )] ds, i ∈ {1, 2} , τ ∈ [t0 , ∞) .
t
Заметим, что
Z
γ
i
(τ ; t, x∗t )
= exp [−r (t − τ )]
t
∞
Biτ (s) exp [−r (s − t)] ds, =
= exp [−r (t − τ )] ξ i (x∗t ) =
(6.38)
= exp [−r (t − τ )] γ i (t; t, x∗t ) , i ∈ {1, 2} .
Условие (6.38) гарантирует динамическую устойчивость дележа в том
смысле, что применение согласованного в начале игры принципа оптимальности к подыгре, стартующей позже из начальных условий на оптимальной траектории сохраняет оптимальность выбранного дележа.
Следуя схеме доказательства теоремы 6.1.3, получим
Z
γ
i
(τ ; τ, x∗τ )
τ +∆t
=
Bi (s) exp [−r (s − τ )] ds
τ
+ exp [−r (∆t)] γ i (τ + ∆t; τ + ∆t, x∗τ + ∆x∗τ ) ,
(6.39)
для τ ∈ [t0 , T ] и i ∈ {1, 2} ,
где
∆x∗τ = f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] ∆t + o (∆t) .
Поскольку x∗τ + ∆x∗τ = x∗τ +∆t , из (6.39) следует
¡
¢
¡
¢
γ i τ ; τ + ∆t, x∗τ +∆t = exp [−r (∆t)] ξ i x∗τ +∆t =
¡
¢
= exp [−r (∆t)] γ i τ + ∆t; τ + ∆t, x∗τ +∆t = (6.40)
= exp [−r (∆t)] γ i (τ + ∆t; τ + ∆t, x∗τ + ∆x∗τ ) .
Поэтому (6.39) можно переписать в виде
Z
γ i (τ ; τ, x∗τ ) =
τ
τ +∆t
¡
¢
Bi (s) exp [−r (s − τ )] ds + γ i τ ; τ + ∆t, x∗τ +∆t ,
τ ∈ [t0 , T ] и i ∈ {1, 2} ,
322
(6.41)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.3. Кооперативные игры с бесконечной продолжительностью
откуда
Z
τ +∆t
τ
¡
¢
Bi (s) exp [−r (s − τ )] ds = γ i (τ ; τ, x∗τ ) − γ i τ ; τ + ∆t, x∗τ +∆t , (6.42)
для всех τ ∈ [t0 , T ] и i ∈ {1, 2}.
При ∆t → 0 условие (6.42) переходит в
¯ ¤
£
Bi (τ ) ∆t = − γti (τ ; t, x∗t )¯t=τ ∆t −
(6.43)
¯ i
h
i
∗ ¯
∗
∗
∗
∗
∗
− γx∗t (τ ; t, xt )¯
f [xτ , ψ1 (xτ ) , ψ2 (xτ )] ∆t − o (∆t) .
t=τ
Деля обе части (6.43) на ∆t, и устремляя ∆t → 0, получаем
¯ ¤
£
Bi (τ ) = − γti (τ ; t, x∗t )¯t=τ −
¯ i
h
¯
− γxi ∗t (τ ; t, x∗t )¯
f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] .
(6.44)
t=τ
Используя (6.38), получаем γ i (τ ; t, x∗t ) = exp [−r (t − τ )] ξ i (x∗t ) и
γ i (τ ; τ, x∗τ ) = ξ i (x∗τ ). Тогда из (6.44) получаем следующую теорему.
Теорема 6.3.3. Мгновенные выплаты игрокам в моменты времени τ ∈
[t0 , T ] в соответствии с ПРД
Bi (τ ) = rξ i (x∗τ ) − ξxi ∗τ (x∗τ ) f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] ,
для всех τ ∈ [t0 , T ] и i ∈ {1, 2} ,
(6.45)
обеспечивают динамическую устойчивость решения в кооперативной
игре Γc (x0 ).
Рассмотрим теперь динамическую устойчивость (временную состоятельность) решений для конкретных принципов оптимальности.
Рассмотрим кооперативную игру Γc (x0 ), в которой игроки договорились о максимизации суммы выигрышей и последующего ее раздела в
соответствии с арбитражной схемой Нэша. В этом случае дележ должен
иметь вид, описываемый в следующем утверждении.
Утверждение 6.3.1. В игре Γc (x0 ) в момент времени t0 игроку i приписывается компонента дележа


2
X
1
V j (x0 )
ξ i (x0 ) = V i (x0 ) + W (x0 ) −
2
j=1
323
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
при i ∈ {1, 2}. И в момент времени τ ∈ (t0 , ∞) игроку i приписывается
3 компонента дележа


2
X
1
ξ i (x∗τ ) = V i (x∗τ ) + W (x∗τ ) −
V j (x∗τ ) ,
2
j=1
при i ∈ {1, 2}.
Используя теорему 6.3.3 (подстановкой значений ξ i в соответствие с
утверждением 6.3.1), можно получить формулу для ПРД в виде
o
1n i ∗
rV (xτ ) − Vxi∗τ (x∗τ ) f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] +
2
ª
1©
+
rW (x∗τ ) − Wx∗τ (x∗τ ) f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] − (6.46)
2
o
1n j ∗
−
rV (xτ ) − ξxj ∗τ (x∗τ ) f [x∗τ , ψ1∗ (x∗τ ) , ψ2∗ (x∗τ )] ,
2
Bi (τ )=Bi (x∗τ ) =
при j ∈ {1, 2} и i 6= j.
ПРД, определенная в (6.46), обеспечивает динамическую устойчивость
(временную состоятельность) решения кооперативной игры Γc (x0 ), в которой игроки условились о разделе максимального суммарного выигрыша
по правилам утверждения 6.3.1.
Пример 6.3.1. Рассмотрим игру добычи ограниченного ресурса из примера 6.1.1, полагая, что продолжительность игры бесконечна. В момент
t0 выигрыши игроков 1 и 2 соответственно равны
#
Z ∞"
c1
1/2
u1 (s) −
u1 (s) exp [−r (t − t0 )] ds,
x (s)1/2
t0
(6.47)
#
Z ∞"
c
2
u2 (s)1/2 −
u2 (s) exp [−r (t − t0 )] ds.
x (s)1/2
t0
Запас ресурса x (s) ∈ X ⊂ R изменяется в соответствии с уравнением
(6.5).
Равновесие по Нэшу в игре (6.5)–(6.47) характеризуется следующим
образом:
n
h
io
ci
1/2
rV i (x) = max ui − 1/2 ui + Vxi (x) ax1/2 − bx − ui − φ∗j (x) , (6.48)
ui
x
для i, j ∈ {1, 2} и i 6= j.
324
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.3. Кооперативные игры с бесконечной продолжительностью
Максимум в правой части (6.48), достигается при
φ∗i (x) =
x
£
¤2 , i ∈ {1, 2} .
i
4 ci + Vx (x) x1/2
Подставив φ∗1 (x) и φ∗2 (x) в (6.48) и решив (6.48), получим функции
значения игроков i ∈ {1, 2} в виде
i
h
V i (t, x) = Ai x1/2 + Bi ,
где при i, j ∈ {1, 2} и i 6= j, Ai , Bi , Aj и Bj удовлетворяют уравнениям
¸
·
1
b
ci
Ai −
r+
+
+
2
2 [ci + Ai /2] 4 [ci + Ai /2]2
Ai
Ai
+
= 0,
2 +
8 [ci + Ai /2]
8 [cj + Aj /2]2
a
Bi = Ai .
2
Равновесные стратегии имеют вид
x
x
φ∗1 (x) =
φ∗2 (x) =
.
2,
4 [c1 + A1 /2]
4 [c2 + A2 /2]2
Рассмотрим теперь случай, когда игроки приходят к соглашению максимизировать суммарный выигрыш и разделить его потом в соответствии
с правилом из утверждениея 6.3.1. В этом случае они должны решить следующую задачу максимизации:
#
Z ∞ Ã"
c1
1/2
u1 (s) −
u1 (s) +
x (s)1/2
t0
(6.49)
"
#!
c
2
+ u2 (s)1/2 −
u2 (s)
exp [−r (t − t0 )] ds
x (s)1/2
при условии (6.5).
Используя теорему 6.3.2, получаем
n³h
i h
i´
c1
c2
1/2
1/2
rW (x) = max
u1 − 1/2 u1 + u2 − 1/2 u2 +
u1 ,u2
x
x
h
io
1/2
+ Wx (x) ax − bx − u1 − u2 .
Повторяя стандартные выкладки, получаем
h
i
W (x) = Âx1/2 + B̂ ,
325
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
где
·
¸
b
r+
 −
2
+
1
1
c1
h
i− h
i+ h
i2 +
2 c1 + Â/2
2 c2 + Â/2
4 c1 + Â/2
c2
Â
Â
h
i2 + h
i2 + h
i2 = 0,
4 c2 + Â/2
8 c1 + Â/2
8 c2 + Â/2
a
Â.
2r
Оптимальные кооперативные решения тогда могут быть представлены
в виде
x
x
∗
ψ1∗ (x) = h
(6.50)
i2 , ψ2 (x) = h
i2 .
4 c1 + Â/2
4 c2 + Â/2
B̂ =
Подстановка этих управлений в (6.5) дает уравнения движения в случае кооперации
x (s)
x (s)
ẋ (s) = ax (s)1/2 −bx (s)− h
i2 − h
i2 , x (t0 ) = x0 . (6.51)
4 c1 + Â/2
4 c2 + Â/2
Решив (6.51), получим кооперативную траекторию игры Γc (x0 ) в виде
h a
³
i2
a ´
1/2
x∗ (s) =
+ x0 −
exp [−H (s − t0 )] ,
2H
2H
где


1
1
b

H = − + h
i2 + h
i2  .
2
8 c1 + Â/2
8 c2 + Â/2
Используя (6.46), получаем
Bi (τ ) = Bi (x∗τ ) =
=
i
h
i
h
io
1n h
r Ai (x∗τ )1/2 +Bi +r  (x∗τ )1/2 + B̂ −r Aj (x∗τ )1/2 +Bj −
2
o
1n
Ai (x∗τ )−1/2 + Â (x∗τ )−1/2 − Aj (x∗τ )−1/2 ×
(6.52)
−
4


x∗τ
x∗τ


× a (x∗τ )1/2 − bx∗τ − h
i2 − h
i2  ,
4 c1 + Â/2
4 c2 + Â/2
при i, j ∈ {1, 2} и i 6= j.
326
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4.. Игры с нетрансферабельными выигрышами
§ 6.4.
Игры с нетрансферабельными выигрышами
Выигрыши игроков в игре можно считать трансферабельными, если существует некоторая приемлемая разменная единица. В то же время существует множество случаев, кода выигрыши нельзя считать трансферабельными — рассмотрим хотя бы ситуации, касающиеся вопросов политической стабильности, религиозной терпимости, или суверенитета. Решения соответствующих кооперативных дифференциальных игр в этом случае существенно усложняются. В этом разделе мы будем рассматривать
кооперативные дифференциальные игры с нетрансферабельными выигрышами.
Рассмотрим неантагонистическую дифференциальную игру двух лиц
с динамикой (6.1) и выигрышами (6.2) как игру с нетрансферабельными
выигрышами. Очевидно, что некооперативное решение этой игры будет
тем же, что и в игре с трансферабельными выигрышами.
Рассмотрим парето-оптимальные траектории при кооперации. В случае нетрансферабельных выигрышей необходимыми условиями оптимальности, так же как и в случае трансферабельных выигрышей, является
групповая и индивидуальная рациональность. Для достижения групповой
рациональности необходимо ограничиться управлениями, которые приводят к парето-оптимальным исходам.
Рассмотрим кооперативную игру Γc (x0 , T − t0 ), в которой выигрыши
нетрансферабельны. Парето-оптимальные исходы в Γc (x0 , T − t0 ) могут
быть получены выбором весового коэффициента α1 ∈ (0, ∞) и решению
следующей задачи максимизации (см. [Yeung, Petrosjan, 2005]):
©
ª
max J 1 (t0 , x0 ) + α1 J 2 (t0 , x0 ) ≡
u1 ,u2
½Z T
¡ 1
≡ max
g [s, x (s) , u1 (s) , u2 (s)]
u1 ,u2
t0
· Z
¢
+α1 g [s, x (s) , u1 (s) , u2 (s)] exp −
2
s
¸
(6.53)
r (y) dy ds +
t0
· Z T
¸¯
¾
¯
£
¤
+ q 1 (x (T ))+α1 q 2 (x (T )) exp − r (y) dy ¯¯ x (t0 ) = x0 ,
t0
при условии
(6.1). Заметим, чтоªоптимальные управления для задачи
©
maxu1 ,u2 J 1 (t0 , x0 ) + α1 J 2 (t
управле©0 , x0 ) совпадают с оптимальными
ª
ниями для задачи maxu1 ,u2 J 2 (t0 , x0 ) + α2 J 1 (t0 , x0 ) , если α1 = 1/α2 .
Пусть в Γc (x0 , T − t0 ) весовой коэффициент α10 выбран игроками в
соответствии с некоторым принципом оптимальности. Используя теорему
4.1.1, мы получаем следующуютеорему.
327
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Теорема 6.4.1. Пара управлений
nh 0
i
o
α0 (t )
α (t )
ψ1 1 0 (t, x) , ψ2 1 0 (t, x) , при t ∈ [t0 , T ]
представляет собой оптимальное решение задачи
©
ª
max J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) ,
u1 ,u2
если существует такая непрерывно-дифференцируемая функция
0
W α1 (t0 ) (t, x) : [t0 , T ] × Rm → R, которая удовлетворяет следующему уравнению Беллмана:
α01 (t0 )
−Wt
(t, x) =
½
· Z t
¸
¡ 1
¢
0 2
= max g [t, x, u1 , u2 ] + α1 g [t, x, u1 , u2 ] exp −
r (y) dy +
u1 ,u2
t0
o
α0 (t )
+Wx 1 0 f [t, x, u1 , u2 ] =,
· Z t
¸
³
´
α01
α01
α01
α01
1
0 2
= g [t, x, ψ1 , ψ2 ] + α1 g [t, x, ψ1 , ψ2 ] exp −
r(y)dy
t0
где
0
W α1 (t0 ) (T, x) =
· Z T
¸X
· Z T
¸
2
£
¤
= exp − r (y) dy
q j (x) q 1 (x)+α1 q 2 (x) exp − r (y) dy .
t0
t0
j=1
α0 (t )
α0 (t )
Подставляя ψ1 1 0 (t, x) и ψ2 1 0 (t, x) в (6.1), получаем уравнение для
парето-оптимальной траектории, соответствующей весовому коэффициенту α10 :
h
i
α0 (t )
α0 (t )
(6.54)
ẋ(s) = f s, x(s), ψ1 1 0 (s, x(s)), ψ2 1 0 (s, x(s)) , x(t0 ) = x0 .
0
Решение (6.54) xα1 (t) может быть представлено в виде
Z t h
i
0
0
0
α0 (t )
α0 (t )
α01
x (t) = x0 +
f s, xα1 (s), ψ1 1 0 (s, xα1 (s)), ψ2 1 0 (s, xα1 (s)) ds, (6.55)
t0
при t ∈ [t0 , T ].
n 0 oT
Путь xα1 (t)
представляет собой оптимальную траекторию в заt=t0
даче
©
ª
max J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) .
u1 ,u2
328
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами
α0
0
Обозначения xα1 (t) и xt 1 мы будем использовать в дальнейшем как взаимозаменяющие.
Для обеспечения групповой рациональности кооперативные управления
h 0
i
α (t )
α0 (t )
ψ1 1 0 (t, x) , ψ2 1 0 (t, x)
должны быть использованы на отрезке времени
³ [t00 , T ]. ´
α
Рассмотрим теперь кооперативную игру Γc xτ 1 , T − τ при τ ∈ [t0 , T ].
Пусть α1τ — весовой коэффициент, выбранный в соответствии с согласованным в начале игры
Мы
nh τ принципомτ оптимальности.
i
o будем использоα1(τ )
α1 (τ )
вать обозначения ψ1
(t, x) , ψ2
(t, x) , t ∈ [τ, T ] для определения
τ
множества оптимальных управлений и W α1 (τ ) (t, x) : [τ, T ] × Rn → R для
функции значения из теоремы 6.4.1.
Можно показать, что
h τ
i h 0
i
α (τ )
ατ (τ )
α (t )
α0 (t )
ψ1 1 (t, x) , ψ2 1 (t, x) = ψ1 1 0 (t, x) , ψ2 1 0 (t, x) при α1τ = α10 .
Замечание 6.4.1. Групповая рациональность будет иметь место только в случае, если α1τ = α10 будет весовым коэффициентом во всех играх
Γc (xτ , T − τ ) при τ ∈ [t0 , T ].
Рассмотрим теперь индивидуальные выигрыши игроков при кооперации. Для проверки индивидуальной рациональности выигрыша игрока
найдем выигрыши игроков при кооперации вдоль кооперативной траектории. Для того чтобы это сделать, подставим кооперативные управления
α0 (t )
α0 (t )
ψ1 1 0 (t, x) и ψ2 1 0 (t, x) в выражения для выигрышей (6.2) и получим
ожидаемые выигрыши игроков в игре Γc (x0 , T − t0 ) с весовым коэффициентом α10 . Следуя [Yeung, 2004], сформулируем определение.
Определение 6.4.1. Определим кооперативный выигрыш игрока i на
отрезке времени [t, T ] как
Z T h
³
´i
´
³
0
0
0
α0 (t )
α0 (t )
α01
α01 (t0 )i
Ŵ
(t, xt ) =
g i s, xα1 (s), ψ1 1 0 s, xα1 (s) , ψ2 1 0 s, xα1 (s) ×
· Z st
¸
× exp −
r (y) dy ds +
t0
T
· Z
+ exp −
¸
³ 0
´
r (y) dy q i xα1 (T ) , i ∈ {1, 2} ,
t0
где
h
³
´
³
´i
0
0
0
0
α0 (t )
α0 (t )
ẋα1 (s) = f s, xα1 (s) , ψ1 1 0 s, xα1 (s) , ψ2 1 0 s, xα1 (s) ,
0
α0
xα1 (t) = xt 1 .
329
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
При малых ∆t > 0 имеет место соотношение
³
´
0
α0
Ŵ α1 (t0 )i t, xt 1 =
Z t+∆t h
³
´
³
´i
0
0
0
α0 (t )
α0 (t )
=
g i s, xα1 (s) , ψ1 1 0 s, xα1 (s) , ψ2 1 0 s, xα1 (s) ×
t
· Z s
¸
× exp −
r (y) dy ds +
(6.56)
t0
³
´
0
0
α0
+Ŵ α1 (t0 )i t + ∆t, xt 1 + ∆xα1 ,
h
³
´
³
´i
0
α0
α0 (t )
α0
α0 (t )
α0
где ∆xα1 = f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ∆t.
Используя теорему Тейлора, получаем
³
´
0
α0
Ŵ α1 (t0 )i t, xt 1 =
· Z t
¸
h
³
´
³
´i
α01
α01 (t0 )
α01
α01 (t0 )
α01
i
= g t, xt , ψ1
t, xt , ψ2
t, xt
exp −
r (y) dy ∆t +
t0
³
´
³
´
0
α0
α0 (t )i
α0
+Ŵ α1 (t0 )i t, xt 1 + Ŵt 1 0 t, xt 1 ∆t +
(6.57)
α0 (t0 )i
+Ŵx 1
³
´ h
³
´
³
´i
α0
α0
α0 (t )
α0
α0 (t )
α0
t, xt 1 f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ∆t +
+o (∆t) ,
i ∈ {1, 2} .
Разделив на ∆t при ∆t → 0, получим:
´
³
α0
α0 (t )i
−Ŵt 1 0 t, xt 1 =
· Z t
¸
h
³
´
³
´i
α01
α01 (t0 )
α01
α01 (t0 )
α01
i
= g t, xt , ψ1
t, xt , ψ2
t, xt
exp −
r (y) dy +(6.58)
α0 (t )i
+Ŵx 1 0
³
t0
α0
t, xt 1
´ h
³
´
³
´i
α0
α0 (t )
α0
α0 (t )
α0
f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ,
i ∈ {1, 2t}
Граничные условия дают нам
· Z T
¸ ³ ´
³
´
α01
α0
α01 (t0 )i
Ŵ
T, xT = exp −
r (y) dy q i xT 1 , i ∈ {1, 2} .
(6.59)
t0
Теорема 6.4.2. ([Янг, 2004]).
´ существуют непрерывно-дифферен³ Если
0 (t )i
α01
α
0
: [t0 , T ] × Rm → R, i ∈ {1, 2}, удовлецируемые функции Ŵ 1
t, xt
330
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами
творяющие
´
α0
t, xt 1 =
· Z t
¸
h
³
´
³
´i
α01
α01 (t0 )
α01
α01
α01 (t0 )
i
= g t, xt , ψ1
t, xt , ψ2
t, xt
exp −
r (y) dy +
α01 (t0 )i
³
−Ŵt
α01 (t0 )i
+Ŵx
и
Ŵ
α01 (t0 )i
³
t0
´ h
³
´
³
´i
α0
α0 (t )
α0
α0 (t )
α0
t, xt f t, xt 1 , ψ1 1 0 t, xt 1 , ψ2 1 0 t, xt 1 ,
α01
· Z
³
´
α01
T, xT = exp −
T
t0
¸
³ 0´
α
r (y) dy q i xT 1 , i ∈ {1, 2} ,
³
´
0
α0
то Ŵ α1 (t0 )i t, xt 1 есть кооперативный выигрыш игрока i на отрезке
времени [t, T ] при весовом коэффициенте α10 .
³ 0
´
α
Повторим предыдущие рассуждения для подыгры Γc xτ 1 , T − τ с
α0
началом в момент времени τ из состояния xτ 1 с выбранным весовым коэффициентом α1τ = α10 . Легко можно видеть, что
·Z τ
¸
³
´
³
´
0
α01
α0
α01 (t0 )i
Ŵ
τ, xτ exp
r (y) dy = Ŵ α1 (τ )i τ, xτ 1 , i ∈ {1, 2} . (6.60)
t0
Замечание 6.4.2. Для выполнения условия индивидуальной рациональности в течение всей игры выбранный коэффициент α10 должен удовлетворять условию
·Z τ
¸
³
´
³
´
0
α01
α0
α01 (t0 )i
Ŵ
τ, xτ exp
r (y) dy = Ŵ α1 (τ )i τ, xτ 1 ≥
≥V
(τ )i
³
α0
τ, xτ 1
´
t0
, i ∈ {1, 2} .
Исследуем теперь состоятельность во времени (динамическую устойчивость) решения. Введенное в § 6.1. понятие динамической устойчивости
(временной состоятельности) было использовано при исследовании кооперативных дифференциальных игр. Временная состоятельность принципа оптимальности гарантирует сохранение оптимальности первоначально
выработанного решения в каждый момент времени, когда игра развивается вдоль выбранной в начале игры оптимальной траектории. В дополнение к этому должны сохраняться парето-оптимальность и индивидуальная рациональность решения вдоль оптимальной траектории. В случае
игры Γc (x0 , T − t0 ) с нетрансферабельными выигрышами временная состоятельность сводится к выполнению следующих условий.
331
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Условие 6.4.1.
h
´
´i
³
³
τ
τ
α0
α0
1. Дележ Ŵ τ (α1 )1 τ, xτ 1 , Ŵ τ (α1 )2 τ, xτ 1 , при τ ∈ [t0 , T ] должен
оставаться парето-оптимальным в подыграх вдоль оптимальной
траектории.
´
´
³
³
τ
α0
α0
Ŵ α1 (τ )i τ, xτ 1 ≥ V (τ )i τ, xτ 1 ,
2. для i ∈ {1, 2} и τ ∈ [t0 , T ].
´
hR
´
³
i
³
0
τ
α0
α0
τ
Ŵ α1 (t0 )i τ, xτ 1 exp t0 r (y) dy = Ŵ α1 (τ )i τ, xτ 1 ,
3. для i ∈ {1, 2} и τ ∈ [t0 , T ].
Часть 1) обеспечивает парето-оптимальность на всем отрезке игры,
часть 2) обеспечивает индивидуальную рациональность на всем отрезке
игры, и часть 3) гарантирует временную состоятельность.
Предположим, что в начальный момент t0 игроки согласились на некоторый принцип оптимальности в игре Γc (x0 , T − t0 ), который заключается:
α10 , и соответствующей
пары ко1. в выборе весового коэффициента
i
h 0
α01 (t0 )
α1 (t0 )
(t, x)
(t, x) , ψ2
оперативных управлений ψ1
2. в выборе на этой основе дележа
h
i
0
0
Ŵ α1 (t0 )1 (t0 , x0 ) , Ŵ α1 (t0 )2 (t0 , x0 ) .
В последующие моменты времени τ ∈ (t0 , T ], используя тот же принцип оптимальности, игроки соглашаются:
весовой коэффициент
α1τ и пару кооперативных управлений
1. выбрать
h τ
i
α1 (τ )
ατ1 (τ )
ψ1
(t, x) , ψ2
(t, x) , и
h
³
´
³
´i
τ
τ
α0
α0
2. выбрать на основе этого дележ Ŵ α1 (τ )1 τ, xτ 1 , Ŵ α1 (τ )2 τ, xτ 1 .
Теорема 6.4.3. Принцип оптимальности, на основе которого игроки
0
выбирают
один
³ 0
´ и тот же весовой коэффициент α1 во всех подыграх
α
Γc xτ 1 , T − τ и такой, что
´
´
³
´
³
´
³
³
0
0
α0
α0
α0
α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 , Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1
представляет собой состоятельное во времени (динамически устойчивое) решение кооперативной игры Γc (x0 , T − t0 ).
332
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами
Д о к а з а т е л ь с т в о. Если игроки выбирают один и тот же
весовой
α10 во всей игре, то это означает, что в течение иг³ коэффициент
´
0
α
ры Γc xτ 1 , T − τ будет использована одна и та же пара кооперативных
h 0
i
α (t )
α0 (t )
управлений ψ1 1 0 (t, x) , ψ2 1 0 (t, x) при t ∈ [t0 , T ]. Групповая оптимальность при этом гарантирована, и дележ
h
³
´
´i
³
0
0
α0
α0
ξ (τ ) (xτ , T − τ ) = Ŵ τ (α1 )1 τ, xτ 1 , Ŵ τ (α1 )2 τ, xτ 1 , при τ ∈ [t0 , T ] ,
действительно оптимален по Парето во всех подыграх и в основной игре.
Таким образом, часть 1) условия 6.4.1 выполнена.
Индивидуальная рациональность следует из условия теоремы
³
³
³
³
´
´
´
´
0
0
α0
α0
α0
α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 и Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1 ,
при τ ∈ [t0 , T ].Часть 2) условия 6.4.1 выполнена.
Более того, из условия (6.60) имеем:
·Z τ
¸
³
´
³
´
0
α0
α01
α01 (t0 )i
τ, xτ exp
r (y) dy = Ŵ α1 (τ )i τ, xτ 1 , i ∈ {1, 2} .
Ŵ
t0
Часть 3) условия 6.4.1 выполнена.
Пример 6.4.1. Рассмотрим неантагонистическую дифференциальную
игру двух лиц из примера 6.1.1. в предположении, что выигрыши нетрансферабельны. Необходимыми условиями, которым должен отвечать выбранный принцип оптимальности, являются групповая рациональность и
индивидуальная рациональность.
Парето-оптимальные исходы в игре Γc (x0 , T − t0 ) определяются решением следующей задачи оптимального управления, включая выбор весового множителя α10 ∈ (0, ∞):
©
ª
max J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) ≡
u1 ,u2
(Z Ã"
#
T
c
1
≡ max
[u1 (s)]1/2 −
u (s) +
(6.61)
1/2 1
u1 ,u2
x
(s)
t0
#!
"
c2
1/2
u2 (s)
exp [−r (s − t0 )] ds +
+α1 [u2 (s)] −
x (s)1/2
)
³
´¯
1/2
1/2 ¯
0
+ exp [−r (T − t0 )] q1 x (T ) + α1 q2 x (T )
¯ x (t0 ) = x0 ,
333
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
при ограничениях
h 0 (6.5).
i
α0 (t )
α (t )
Пусть ψ1 1 0 (t, x) , ψ2 1 0 (t, x) , t ∈ [t0 , T ] — пара управлений, ©которая доставляет ªмаксимум в задаче управления
maxu1 ,u2 J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) , и W α1 (t0 : [t0 , T ] × Rn → R —
функция значения, удовлетворяющая следующему уравнению (теорема
6.4.1):
α01 (t0 )
−Wt
(t, x) =
h
n³h
i
i´
c2
c1
1/2
1/2
= max
u1 − 1/2 u1 + α10 u2 − 1/2 u2 exp [−r (t − t0 )] +
u1 ,u2
x
x
io
h
0
α (t )
+Wx 1 0 (t, x) ax1/2 − bx − u1 − u2 ,
(6.62)
h
i
0
W α1 (t0 ) (T, x) = exp [−r (T − t0 )] q1 x1/2 + α10 q2 x1/2 .
Максимизация правой части в (6.62) дает
α0 (t0 )
ψ1 1
x
i2 ,
h
0
α1 (t0 )
1/2
(t, x) exp [r (t − t0 )]
4 c1 + x Wx
(t, x) =
α0 (t )
ψ2 1 0 (t, x)
x
=
h
α0 (t )
4 c2 + x1/2 Wx 1 0 (t, x) exp [r (t − t0 )] /α1
α0 (t )
(6.63)
i2 , t ∈ [t0 , T ] .
α0 (t )
Подставляя ψ1 1 0 (t, x) и ψ2 1 0 (t, x) из (6.63) в (6.62), получаем выражение для функции значения
h 0
i
0
0
W α1 (t0 ) (t, x) = exp [−r (t − t0 )] Aα1 (t) x1/2 + B α1 (t) , t ∈ [t0 , T ] , (6.64)
0
0
где Aα1 (t) и B α1 (t) удовлетворяют уравнениям:
·
¸
b
1
α10
0
α01
i− h
i,
Ȧ (t) = r +
Aα1 (t) − h
0
0
2
4 c1 + Aα1 (t) /2
4 c2 + Aα1 (t) /2α1
a 0
0
0
Ḃ α1 (t) = rB α1 (t) − Aα1 (t) ,
2
0
0
α01
A (T ) = q1 + α1 q2 , B α1 (T ) = 0.
Подставляя
α0 (t )
ψ1 1 0 (t, x)
даче
334
частные
производные
α0 (t0 )
Wx 1
(t, x)
из
(6.64)
в
α0 (t )
и ©ψ2 1 0 (t, x), получаем ªоптимальное управление в заmaxu1 ,u2 J 1 (t0 , x0 ) + α10 J 2 (t0 , x0 ) . Подставляя эти управления
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами
в (6.5), получаем парето-оптимальную траекторию, соответствующую
весовому коэффициенту α10 в виде
x (s)
x (s)
ẋ (s) = ax (s)1/2 −bx (s)− h
i2 − h
i2 ,
0
0
0
α
α
1
1
4 c1 + A (s) /2
4 c2 + A (s) /2α1
x (t0 ) = x0 .
(6.65)
Решая (6.65), получаем явное выражение для парето-оптимальной траектории, соответствующее весовому коэффициенту α10 в виде
½
·
¸¾2
Z s
a
1/2
α01
−1
, s ∈ [t0 , T ] ,
(6.66)
x (s) = Φ (t0 , s) x0 +
Φ (t0 , t) dt
2
t0
hR
i
s
где Φ (t0 , s) = exp t0 H2 (τ ) dτ и


1
1

b
H2 (s) = −  + h
i2 + h
i2  .
0
0
2
8 c1 + Aα1 (s) /2
8 c2 + Aα1 (s) /2α10
α10
Кооперативное управление, соответствующее весовому коэффициенту
на временном промежутке [t0 , T ], определяется по формуле
α0 (t )
ψ1 1 0
´
³
α0
=
t, xt 1
α01 (t0 )
´
³
α0
=
t, xt 1
ψ2
α0
xt 1
h
i2
0
4 c1 + Aα1 (t) /2
α0
(6.67)
xt 1
h
i2 ,
0
4 c2 + Aα1 (t) /2α10
при t ∈ [t0 , T ].
Найдем
игроков.
Подставим
´ индивидуальные
³
´ выигрыши
³
α01
α01 (t0 )
α01 (t0 )
α01
t, xt , определенные в (6.67), в выражение
и ψ2
ψ1
t, xt
для функции выигрыша на отрезке времени [t, T ]. Тогда получаем
³
´
0
α0
Ŵ α1 (t0 )1 t, xt 1 =


Z T
0
0
1/2
1/2
c xα1 (s)
 h xα1 (s)

i− h 1
=

i2  exp [−r (s − t0 )] ds +
0
0
α
t
2 c1 + A 1 (s) /2
4 c1 + Aα1 (s) /2
0
+ exp [−r (T − τ )] q1 xα1 (T )1/2 ;
335
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Z
³
´
0
α0
Ŵ α1 (t0 )2 t, xt 1 =

=
t
T
0
xα1
1/2

0
xα1
1/2
(s)
c2
(s)
 h

i− h

i2  exp [−r (s − t0 )] + ds
0
0
2 c2 + Aα1 (s) /2α10
4 c2 + Aα1 (s) /2α10
³ 0 ´1/2
α
+ exp [−r (T − τ )] q2 xT 1
.
Из теоремы 6.4.2 имеем, что если существуют непрерывно-дифференцируемые функции
³
´
0
α0
Ŵ α1 (t0 )i t, xt 1 : [t0 , T ] × Rm → R, i ∈ {1, 2} ,
удовлетворяющие уравнениям
α01 (t0 )1
−Ŵt

³
³
´
α0
t, xt 1 =
´
α0 1/2
xt 1
³ 0 ´1/2
α
c1 xt 1



i− h
= h
i2  exp [−r (t − t0 )] +
0
0
α
2 c1 + A 1 (t) /2
4 c1 + Aα1 (t) /2

α0
³
´
³ 0 ´1/2
xt 1
α01 (t0 )1
α01 
α1
α01
+Ŵx
t, xt a xt
− bxt − h
i2 −
0
α
1
4 c1 + A (t) /2

α0
xt 1

− h
i2  ,
0
4 c2 + Aα1 (t) /2α1
³
´
0
0
α0
Ŵ α1 (t0 )1 T, xT 1 exp [−r (T − τ )] q1 xα1 (T )1/2
α0 (t0 )2
Ŵt 1

(6.68)
³
´
α0
t, xt 1 =
³ 0 ´1/2
α
xt 1
³
´
α0 1/2
xt 1

c2


i− h
= h
i2  exp [−r (t − t0 )] + [.2pc]
0
0
2 c2 + Aα1 (t) /2α10
4 c2 + Aα1 (t) /2α10
336
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами

α0
³
´
³ 0 ´1/2
xt 1
α01 (t0 )2
α01 
α1
α01
+Ŵx
t, xt a xt
− bxt − h
i2 −
0
α
1
4 c1 + A (t) /2

α0
xt 1

− h
i2  ,
0
4 c2 + Aα1 (t) /2α1
³ 0 ´1/2
³
´
0
α0
α
Ŵ α1 (t0 )2 T, xT 1 exp [−r (T − τ )] q2 xT 1
,
³
´
0
α0
то Ŵ α1 (t0 )i t, xt 1 — кооперативный выигрыш игрока i на отрезке [t, T ]
с весовым коэффициентом α10 .
0
Утверждение 6.4.1. Функция Ŵ α1 (t0 )1 (t, x) : [τ, T ] × R → R, удовлетворяющая (6.68), имеет вид
i
´
h 0
³
0
α0
α
α0
Ŵ α1 (t0 )1 t, xt 1 = exp [−r (t − t0 )] Â1 1 (t) x1/2 + B̂1 1 (t) ,
(6.69)
где
˙ α0
Â1 1 (t) =
·
¸
b
1
c1
α0
i+ h
r+
Â1 1 (t) − h
i2 +
0
0
2
2 c1 + Aα1 (t) /2
4 c1 + Aα1 (t) /2
α0
+
α0
Â1 1 (t)
Â1 1 (t)
h
i2 + h
i2 ,
0
0
8 c1 + Aα1 (t) /2
8 c2 + Aα1 (t) /2α10
a α0
α0
α0
α0
˙ α0
B̂1 1 (t) = rB̂1 1 (t) − Â1 1 (t) , Â1 1 (T ) = q1 , B̂1 1 (T ) = 0.
2
³
´
α0 (t )1
α0
Д о к а з а т е л ь с т в о. Вычисляя производные Ŵt 1 0
t, xt 1 и
³
´
α0 (t )1
α0
Ŵxt1 0
t, xt 1 и подставляя их в (6.68), получаем утверждение 6.4.1.
0
Утверждение 6.4.2. Функция Ŵ α1 (t0 )2 (t, x) : [τ, T ] × R → R, удовлетворяющая (6.68), имеет вид
i
´
h 0
³
0
α0
α
α0
Ŵ α1 (t0 )2 t, xt 1 = exp [−r (t − t0 )] Â2 1 (t) x1/2 + B̂2 1 (t) ,
(6.70)
337
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
где
·
¸
b
1
c2
˙ α01
¤+ h
Â2 (t) = r+ Âα2 1 (t)− £
i2 +
0
α
1
0
2
2 c2 + A (t) /2α1
4 c2 + Aα1 (t) /2α10
α0
+
Â2 1 (t)
α0
Â2 1 (t)
i2 + h
i2 ,
h
0
0
8 c1 + Aα1 (t) /2
8 c2 + Aα1 (t) /2α10
a α0
α0
α0
α0
˙ α0
B̂2 1 (t) = rB̂2 1 (t) − Â2 1 (t) , Â2 1 (T ) = q2 , B̂2 1 (T ) = 0.
2
´
³
α0 (t )2
α0
Д о к а з а т е л ь с т в о. Вычисляя производные Ŵt 1 0
t, xt 1 и
´
³
α0 (t )2
α0
Ŵxt1 0
t, xt 1 и подставляя их в (6.68), получаем утверждение 6.4.2.
Используя (6.60) и повторяя предыдущее утверждение для подыгр,
получаем
´
´
³
³
0
0
1
α0
α0
Ŵ α1 (t0 ) t, xt 1 exp [−r (τ − t0 )] = Ŵ α1 (τ )1 t, xt 1 =
·
¸
³ 0 ´1/2
α0
α
α0
= exp [−r (t − τ )] Â1 1 (t) xt 1
+ B̂1 1 (t) ,
³
´
³
´
0
0
α0
α0
Ŵ α1 (t0 )2 t, xt 1 exp [−r (τ − t0 )] = Ŵ α1 (τ )2 t, xt 1 =
·
¸
³ 0 ´1/2
α01
α1
α01
= exp [−r (t − τ )] Â2 (t) xt
+ B̂2 (t) .
(6.71)
Для выполнения свойства индивидуальной рациональности выбранный весовой коэффициент α10 должен удовлетворять условиям
³
´
³
´
³
´
³
´
0
0
α0
α0
α0
α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 и Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1 .
Предложим состоятельное во времени (динамически устойчивое) решение кооперативной игры Γc (x0 , T − t0 ). Как это следует из теоремы 6.4.3 принцип оптимальности, согласно которому игроки договари0
ваются
выбрать
³
´ один и тот же весовой коэффициент α1 во всех играх
α0
Γc xτ 1 , T − τ
и при этом имеют место неравенства
³
´
³
´
³
´
³
´
0
0
α0
α0
α0
α0
Ŵ α1 (τ )1 τ, xτ 1 ≥ V (τ )1 τ, xτ 1 , Ŵ α1 (τ )2 τ, xτ 1 ≥ V (τ )2 τ, xτ 1 ,
определяет состоятельное во времени решение кооперативной игры
Γc (x0 , T − t0 ).
338
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
§ 6.4. Игры с нетрансферабельными выигрышами
³
´
³
´
0
α0
α0
Условие Ŵ α1 (τ )i τ, xτ 1 ≥ V (τ )i τ, xτ 1 ,
i ∈ {1, 2} порождает сле-
дующие ограничение на выбор весового коэффициента α10 :
·
¸ ·
¸
³ 0 ´1/2
³ 0 ´1/2
α01
α1
α01
α1
Âi (τ ) xτ
+ B̂i (τ ) ≥ Ai (τ ) xτ
+ Bi (τ ) ,
при i ∈ {1, 2}, τ ∈ [t0 , T ].
(6.72)
α0
Заметим, что из утверждения 6.4.1 и 6.4.2 можно получить B̂i 1 (τ ) =
α0
(a/2r) Âi 1 (τ ), и из утверждения 6.4.1 можно получить Bi (τ )
α0
Âi 1
(a/2r) Ai (τ ). Поэтому, если
(τ ) ≥ Ai (τ ), то
i ∈ {1, 2}, τ ∈ [t0 , T ].
Для выполнения (6.72) необходимо, чтобы
α0
Âi 1 (τ ) ≥ Ai (τ ) ,
α0
B̂i 1
=
(τ ) ≥ Bi (τ ) , при
i ∈ {1, 2} и τ ∈ [t0 , T ] .
(6.73)
Определение 6.4.2. Обозначим множество всех весовых коэффициенαt
тов α1t , удовлетворяющих условию Âi 1 (t) ≥ Ai (t) , при i ∈ {1, 2} в
момент t ∈ [t0 , T ) через St . Обозначим через αt1 точную нижнюю границу значений α1 в St , и через αt1 — точную верхнюю границу. Когда
t стремится к T , используем обозначения αT1 для limt→T − αt1 , и αT1 для
limt→T − αt1 .
T
Определение 6.4.3. Определим множество SτT = τ ≤t<T St при τ ∈
[t0 , T ).
St — множество весовых коэффициентов α1 , для которых выполнено условие индивидуальной рациональности в момент t ∈ [t0 , T ) и SτT —
множество весовых коэффициентов α1 , для которых выполнено условие
индивидуальной рациональности на всем промежутке [τ, T ). В общем случае SτT 6= StT при τ, t ∈ [t0 , T ), где τ 6= t.
Рассмотрим типичные конфигурации St . Для нахождения типичных
конфигураций St при t ∈ [t0 , T ) в игре Γc (x0 , T − t0 ) мы провели численные эксперименты, изменяя параметры a, b, σ, c1 , c2 , q1 , q2 , T , r, x0 в
широких пределах. Мы вычислили функции A1 (t), B1 (t), A2 (t) и B2 (t)
при t ∈ [t0 , T ] из примера 6.1.1. Далее мы выбрали весовые коэффициенты
αt
αt
αt
αt
α1t и вычислили функции Â1 1 (t), Â2 1 (t), B̂1 1 (t) и B̂2 1 (t) из утверждений 6.4.1 и 6.4.2 при t ∈ [t0 , T ]. В каждый момент времени t ∈ [t0 , T ] мы
выделели множество тех весовых коэффициентов α1t , при которых имеет
αt
место Âi 1 (t) ≥ Ai (t) при i ∈ {1, 2} с целью построения множеств St при
t ∈ [t0 , T ).
339
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6 Игры двух лиц с дисконтированием
Расположение значений αt1 при t ∈ [t0 , T ) мы представили в виде кривой α1 , и расположение значений αt1 — в виде кривой α1 . Отметим две
основные особенности:
1. кривые α1 и α1 непрерывны и, при этом, или обе монотонно возрастают, или обе монотонно убывают;
2. множество StT0 может оказаться как пустым, так и непустым.
Типичные случаи изображены на рисунках 6.1.-6.3.
£
¤
Рис. 6.1. Множество St = αt1 , αt1 , при StT0 6= ∅.
£
¤
Рис. 6.2. Множество St = αt1 , αt1 , при StT0 6= ∅.
Замечание 6.4.3. Рассмотрим случай StT0 6= ∅. Если α1 и α1 монотонно
/ SτT и α1T − ∈ SτT при τ ∈ [t0 , T ) встречаются чаще.
убывают, условия αT1 − ∈
340
Copyright ОАО «ЦКБ &laq