close

Вход

Забыли?

вход по аккаунту

?

346

код для вставкиСкачать
ОГЛАВЛЕНИЕ
Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Список обозначений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
12
Г л а в а 1. Предварительные сведения . . . . . . . . . . . . . . . . . . . . . .
1.1. Выпуклый анализ и конусы . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Нелинейный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1. Неподвижные точки (21). 1.2.2. Сильная регулярность для
обобщенных уравнений (22). 1.2.3. Количественная устойчивость
допустимого множества: общие возмущения (27). 1.2.4. Метрическая регулярность и контингентный конус (35). 1.2.5. Условия регулярности ограничений (39). 1.2.6. Количественная устойчивость
допустимого множества: возмущения по направлениям (42).
1.3. Условия оптимальности. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Условия первого порядка (48). 1.3.2. Условия второго порядка (61).
15
15
21
Г л а в а 2. Чувствительность для задач оптимизации . . . . . . . . . . .
2.1. Общие возмущения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Количественная устойчивость при наличии оценки расстояния до допустимого множества возмущенной задачи (74).
2.1.2. Количественная устойчивость в случае регулярности
Робинсона (80).
2.2. Возмущения по направлениям . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Количественная устойчивость в случае регулярности по направлению (83). 2.2.2. Асимптотики функции минимума и решений: случаи липшицевой устойчивости (97). 2.2.3. Асимптотики
функции минимума и решений: случай гёльдеровой устойчивости (108).
73
73
48
82
Г л а в а 3. Чувствительность для систем условий оптимальности . . 129
3.1. Сильная регулярность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.1.1. Задачи с ограничениями-равенствами и случай строгой дополнительности (130). 3.1.2. Общий случай (135).
3.2. За пределами сильной регулярности . . . . . . . . . . . . . . . . . . . . . 148
Г л а в а 4. Специальные случаи и приложения. . . . . . . . . . . . . . . . 159
4.1. Задачи с постоянным допустимым множеством . . . . . . . . . . . . . . 159
4.1.1. Общие возмущения (159). 4.1.2. Возмущения по направлениям (161).
4
Оглавление
4.2. Задачи с ограничениями-равенствами . . . . . . . . . . . . . . . . . . . .
4.3. Задачи с комплементарными ограничениями. . . . . . . . . . . . . . . .
4.3.1. Регулярность ограничений и концепции стационарности (170). 4.3.2. Необходимые условия второго порядка и достаточные условия оптимальности (176). 4.3.3. Чувствительность
при наличии регулярной ветви (180). 4.3.4. Чувствительности
при ЗОКО-условии линейной независимости (183). 4.3.5. Методы
релаксации (189).
4.4. Штрафы и методы множителей . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1. Степенные штрафы (195). 4.4.2. Оценки расстояния до решения. Метод модифицированных функций Лагранжа и двойственные методы (205).
4.5. Ньютоновские методы условной оптимизации . . . . . . . . . . . . . . .
4.5.1. Метод Ньютона для обобщенных уравнений (225).
4.5.2. Метод Ньютона для систем условий оптимальности.
Последовательное квадратичное программирование (231).
164
168
194
224
Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
Посвящается памяти
моего отца
Введение
Предметом исследования в теории чувствительности является поведение решений рассматриваемой задачи при (параметрических) возмущениях. В случае задачи оптимизации, помимо свойств самих решений, изучается также поведение значения минимума. Понятие чувствительности родственно понятию устойчивости, но является более
общим. Устойчивость — качественное понятие; устойчивость либо есть,
либо ее нет. Чувствительность же — понятие количественное, она
может быть большей или меньшей. В определенном смысле чувствительность можно понимать как количественную устойчивость.
Всюду в этой книге Σ = Rs , X = Rn , Y = Rl , f : Σ × X → R —
гладкая функция, F : Σ × X → Y — гладкое отображение, Q ⊂ Y —
замкнутое выпуклое множество (если не оговорено иное). Для каждого
значения параметра σ ∈ Σ будем рассматривать задачу оптимизации
f (σ, x) → min,
x ∈ D(σ),
(1)
где допустимое множество D(σ) обычно будет определяться следующим образом:
D(σ) = {x ∈ X | F (σ, x) ∈ Q}.
(2)
Пусть σ ∈ Σ — базовое значение параметра, а x ∈ X — локальное
решение соответствующей невозмущенной задачи
f (σ, x) → min,
x ∈ D(σ),
(3)
поведение которого при воздействии возмущений как раз и предлагается изучать. В ряде случаев предлагаемый ниже анализ использует
дополнительное предположение о коничности множества Q в точке
F (σ, x) ∈ Q, состоящее в том, что в пересечении с некоторой окрестностью нуля множество Q − F (σ, x) совпадает с радиальным конусом
RQ (σ, x) = cone(Q − F (σ, x)) к множеству Q в точке F (σ, x). Заметим, что в этом случае радиальный конус RQ (σ, x) — по необходимости замкнутый (и выпуклый), и при локальных (вблизи точки (σ, x))
рассмотрениях семейства задач (1) допустимое множество, заданное
в (2), можно заменить на
D(σ) = {x ∈ X | F (σ, x) − F (σ, x) ∈ RQ (F (σ, x))}.
Легко заметить, что для любого полиэдрального множества Q коничность имеет место в каждой его точке. В частности, это свойство
автоматически выполнено для задач математического программирования, т. е. задач с конечным числом ограничений типа равенств
6
Введение
и неравенств, что соответствует случаю, когда Q представимо в виде
Q = {0} × Rl−2 , где 0 — нулевой элемент в пространстве Rl1 , l1 + l2 = l.
Подчеркнем, что случай полиэдрального Q легко сводится к (формально более частному) случаю задачи математического программирования. Действительно, если Q = {y ∈ Y | ai , y bi , i = 1, ... , m} при
некоторых ai ∈ Y и числах bi , i = 1, ... , m, то множество D(σ) в (2)
можно записать в виде
D(σ) = {x ∈ X | G(σ, x) 0},
где G : Σ × X → Rm ,
Gi (σ, x) = ai , F (σ, x) − bi ,
i = 1, ... , m.
Заметим, однако, что результаты о чувствительности, вообще говоря,
не инвариантны по отношению к форме записи ограничений, и поэтому
пользоваться подобными приемами сведе́ния нужно с осторожностью.
Понятие коничности множества в данной его точке имеет в своей
основе концепцию однородности вместо более частной концепции линейности, характеризующей полиэдральные множества.
С другой стороны, в некоторых важных классах задач, привлекающих в настоящее время большое внимание специалистов, коничность
соответствующего множества Q часто нарушается (прежде всего, сюда
относятся задачи с ограничениями типа условия неотрицательной определенности матриц 1), а также задачи полубесконечной оптимизации 2);
см. [49, 50]). Автор надеется, что в тексте книги достаточно ясно
обозначено, где именно и зачем используется требование коничности.
Подчеркнем, что во многих случаях требование коничности на самом
деле можно снять, но за счет существенного усложнения анализа и
формы получаемых результатов.
Локальная оптимальность точки x в задаче (3) означает существование числа δ > 0 такого, что точка x является (глобальным) решением
задачи
f (σ, x) → min, x ∈ D(σ) ∩ B,
(4)
где B = Bδ (x) = {x ∈ X | x − x δ}. Всюду далее считаем, что
радиус δ выбран именно таким образом. Более того, если x — строгое
локальное решение задачи (3), то считаем δ выбраным так, что x —
единственное (глобальное) решение задачи (4). Когда ниже что-то
предполагается относительно свойств функции f и отображения F
в окрестности точки (σ, x), всегда считается, что эта окрестность
содержит множество {σ} × B. Заметим, что если x — (строгое) глобальное решение задачи (3), то можно формально положить δ = +∞
считая, что при этом B = X, и задача (4) совпадает с (3).
1)
2)
Semidefinite programming.
Semi-infinite programming.
7
Введение
Рассмотрим возмущение задачи (4):
f (σ, x) → min,
x ∈ D(σ) ∩ B.
(5)
Множество (глобальных) решений задачи (5) будем обозначать как
S(σ) = S(x, δ; σ). Кроме того, определим (локальную) функцию минимума задачи (1) как функцию минимума задачи (5): для σ ∈ Σ
v(σ) = v(x, δ; σ) =
inf
x∈D(σ)∩B
f (σ, x).
По определению, v(σ) = f (σ, x). Кроме того, отметим следующее очевидное обстоятельство: для любого σ ∈ Σ всякая точка x ∈ S(σ),
достаточно близкая к x, является локальным решением задачи (1).
Заметим также, что если функция f и отображение F непрерывны в
окрестности точки (σ, x), то множество S(σ) замкнуто (а значит, и
компактно, поскольку содержится в компакте B) для любого σ ∈ Σ,
достаточно близкого к σ.
Локальный анализ чувствительности (а настоящий курс посвящен
именно локальному анализу) включает в себя, прежде всего, возможно более точные оценки сверху и снизу на значения v(σ), а также
описание структуры множества S(σ) при σ, близких к σ. Все это
подразумевает обоснование тех или иных свойств непрерывности v(·)
и S(·) в точке σ, а также, по возможности, их «дифференциальных»
свойств.
П р е д л о ж е н и е 1. Пусть функция f : Σ × X → R и отображение F : Σ × X → Y непрерывны в окрестности точки (σ, x) ∈ Σ × X.
Пусть x — локальное решение задачи (3).
Тогда функция v полунепрерывна снизу в точке σ.
Д о к а з а т е л ь с т в о. От противного: предположим, что существуют последовательность {σ k } ⊂ Σ и число ε > 0 такие, что {σ k } → σ
(k → ∞) и v(σ k ) v(σ) − ε ∀ k. При этом ∀ k множество D(σ k ) ∩ B
непусто (так как если оно пусто, то v(σ k ) = +∞) и замкнуто (в силу
непрерывности F и замкнутости Q), а значит, согласно теореме Вейерштрасса, найдется точка xk ∈ S(σ k ). Последовательность {xk } ⊂ B
имеет предельную точку x
∈ B, причем F (σ, x
) ∈ Q (снова в силу
непрерывности F и замкнутости Q). Таким образом, x
∈ D(σ) ∩ B,
причем
f (σ, x
) lim sup f (σ k , xk ) = lim sup v(σ k ) v(σ) − ε,
k→∞
k→∞
что противоречит определению значения функции v в точке σ
.
Установленная в предложении 1 полунепрерывность снизу функции
минимума — едва ли не единственное утверждение о чувствительности, которое не требует дальнейших предположений. Действительно,
легко привести примеры, в которых для σ ∈ Σ, сколько угодно близких
к σ, множество D(σ) пусто, а значит, v(σ) = +∞, и полунепрерыв-
8
Введение
ность функции v сверху не имеет места, не говоря уже о каких-либо
свойствах непрерывности S(·).
Разумный (в идеале минимальный) выбор дополнительных предположений, дающих возможность получить более сильные утверждения
о чувствительности — центральный вопрос настоящего курса.
Книга состоит из 4 глав.
Глава 1 содержит необходимые предварительные сведения из нелинейного анализа и теории оптимизации. Обсуждаются элементы конечномерного выпуклого анализа; сильная регулярность для обобщенных
уравнений; условие Робинсона регулярности ограничений и связанная
с ним теорема устойчивости (с недавно предложенным нетрадиционным доказательством, использующим теорему Брауэра); другие условия регулярности ограничений; условие регулярности по направлению;
условия оптимальности.
Локальная теория чувствительности для задач оптимизации излагается в гл. 2. Сначала рассматриваются общие возмущения, а потом —
возмущения вдоль дуг в пространстве параметров (случай, допускающий наиболее полную количественную теорию). Предлагаемый подход
к анализу общих возмущений в монографической литературе публикуется впервые.
Глава 3 посвящена вопросам чувствительности для обобщенных
уравнений, получаемых как прямодвойственные системы условий первого порядка оптимальности для соответствующих задач оптимизации.
Ясно, что свойства чувствительности для всякой такой системы имеют
самое непосредственное отношение к соответствующим свойствам для
исходной задачи оптимизации.
Наконец, гл. 4 посвящена некоторым частным случаям и приложениям. Обсуждаются задачи с постоянным (не зависящим от параметра) допустимым множеством; задачи с чистыми ограничениямиравенствами; задачи с комплементарными ограничениями (класс задач
оптимизации с неизбежным недостатком регулярности ограничений);
приложения к исследованию важнейших средств численного решения
задач условной оптимизации (штрафов, методов модифицированных
функций Лагранжа, двойственных и ньютоновских методов).
Несколько слов о существующей литературе по теории чувствительности. Первоначально идея исследования дифференциальных
свойств функции минимума посредством получения оценок сверху
и снизу на ее производные по направлениям восходит к теории
максимина [11, 12, 30]. Эта идея нашла свое воплощение в целом
ряде работ, в том числе в [62, 64], где, в частности, было обнаружено,
что дифференциальные свойства первого порядка функции минимума
тесно связаны со свойствами вторых (а не только первых)
производных функции f и отображения F .
Определенную роль в пробуждении серьезного интереса к вопросам количественной устойчивости решений задач оптимизации сыграла
Введение
9
книга [31] (а также последовавшая за ней книга [56], посвященная
специально вопросам чувствительности). Развиваемый в ней подход основан на сведе́нии прямодвойственных систем условий первого порядка
оптимальности к гладким системам уравнений (в тех случаях, когда
такое сведение возможно) и применении к последним классической
теоремы о неявной функции. Этот подход приводит к очень специальным (и в некотором смысле тривиальным) результатам, справедливым
лишь в очень жестких предположениях; см. п. 3.1.1.
Важное место в теории чувствительности занимают результаты
работ [109, 115], в которых также рассматриваются вопросы чувствительности для прямодвойственных систем условий оптимальности, но
со значительно более общих позиций и в более естественных предположениях.
Возвращаясь собственно к задаче оптимизации, необходимо отметить работу [114], где была получена теорема о количественной
устойчивости допустимого множества вида (2), играющая важнейшую
роль в анализе чувствительности для общих возмущений.
Что же касается более современных работ, то, при наличии массы
журнальных публикаций, автору известна лишь одна русскоязычная
книга [21], специально посвященная теории чувствительности в оптимизации, причем изложение в ней явно перегружено стремлением
к обобщениям, что делает ее трудной для восприятия. В настоящее
время основной ссылкой в данной области (да и вообще в теории
оптимизации) является прекрасно написанная и действительно всеобъемлющая монография [50] (см. также обзорную статью [49], предварявшую выход в свет этой монографии). Однако обе указанные
книги ориентированы на специалистов в теории оптимизации и ни в
коей мере не являются учебниками (а последняя еще и недоступна
широкому российскому читателю).
Целью автора было написание компактного введения в современную теорию чувствительности, позволяющего составить представление
о важнейших проблемах и методах этой науки. В основе книги лежит
читаемый автором спецкурс для студентов 3–5 курсов факультета
ВМиК МГУ им. М. В. Ломоносова.
Требования к читателю весьма невысоки: предполагается его знакомство с математическим анализом в объеме начальных курсов (см.,
например, [18]), включая дифференциальное исчисление функций и
отображений многих переменных. Весьма желательно также иметь
представление о базовых понятиях теории конечномерной оптимизации
[15], а также быть знакомым с конечномерным выпуклым анализом
[28, 29].
Автор сознательно избегал систематического использования теории
точечно-множественных отображений и негладкого анализа (и, в частности, любых концепций обобщенного дифференцирования). С современной теорией точечно-множественных отображений и соответству-
10
Введение
ющим взглядом на вещи можно познакомиться по фундаментальным
трудам [98, 99, 117] и цитированной там литературе.
Отметим еще одну особенность настоящей книги: в ней не исследуется отдельно случай выпуклости задачи (1), (2). Соответственно, не
привлекаются никакие соображения, относящиеся к теории двойственности для выпуклых задач оптимизации.
Разумеется, многие вопросы, относящиеся к проблематике теории
чувствительности, в курс не вошли. Отметим те из них, с которыми
(в той или иной мере, и в той или иной комбинации), по мнению
автора, заинтересованный читатель обязательно должен познакомиться
при более глубоком изучении предмета, например, по цитированной
выше литературе:
— случаи неизолированных решений или стационарных точек;
— случаи возможной неединственности множителя для прямодвойственных систем условий первого порядка оптимальности;
— случаи возможного отсутствия коничности Q (там, где коничность сейчас предполагается) и соответствующие приложения
(см. выше; например, для этого может использоваться техника
сводимости к конусу из [50, разд. 3.4.4]);
— случаи бесконечномерного X (и, возможно, Y ) и приложения
к задачам оптимального управления;
— случаи негладкости функции f и отображения F ;
— случаи невыпуклого Q, а также случаи, когда Q зависит от σ
и/или от x;
— систематическое исследование случаев возможного нарушения
традиционных условий регулярности ограничений;
— анализ для приближенных решений.
В тексте содержится большое количество задач, в подавляющем
большинстве которых читателю предлагается доказать те или иные
вполне содержательные утверждения, являющиеся неотъемлимой частью излагаемого материала. Автор настоятельно рекомендует не пропускать задачи при чтении книги.
Несколько замечаний технического характера. Общепринятые обозначения в тексте специально не оговариваются; их пояснение вынесено в список обозначений. Для удобства ссылок в книге применяется
следующая система нумерации ее разделов. Номер параграфа состоит
из двух цифр, первая из которых обозначает номер главы, в которой
находится этот параграф. Аналогично, номер пункта состоит из трех
цифр, первые две из которых составляют номер параграфа, в котором
находится этот пункт. Нумерация объектов (формул, определений, теорем, и т. п.) в каждом параграфе независимая. При ссылке на объект
извне параграфа, где он находится, используется номер, состоящий
из трех цифр, первые две из которых составляют номер параграфа,
а последняя — номер объекта в параграфе. Под «условиями» того или
Введение
11
иного утверждения (теоремы, предложения, леммы) всегда понимается
все то, что сказано в этом утверждении до слова «Тогда».
Автор выражает глубокую признательность многим коллегам, общение и сотрудничество с которыми поддерживает его интерес к теории
чувствительности в оптимизации; среди них Евгений Аваков, Арам
Арутюнов, Дитхард Клатте, Борис Мордухович, Михаил Солодов и
Александр Шапиро. Автор также благодарит Анну Дарьину за неоценимую помощь в устранении имевшихся в рукописи неточностей и
опечаток.
Список обозначений
R — множество вещественных чисел.
R+ — множество неотрицательных вещественных чисел.
Rn — n-мерное арифметическое пространство, снабженное евклидовым скалярным произведением и некоторой нормой.
Σ = Rs — пространство параметров.
X = Rn — пространство (прямых) переменных.
Y = Rl — пространство ограничений (двойственных переменных).
n
Rn
+ — неотрицательный ортант в пространстве R .
x1 , ... , xn — (обычно) компоненты вектора x ∈ Rn в стандартном базисе
пространства Rn .
xI — вектор с компонентами xi , i ∈ I.
I(x) = {i = 1, ... , l2 | (F2 )i (x) = 0} — множество номеров активных в точке
x ограничений-неравенств задачи математического программирования (в
случае наличия параметра σ пишется I(σ, x)).
I+ (x, λ) = {i ∈ I(x) | λi > 0} (в случае наличия параметра σ пишется I+
+(σ, x, λ)).
min{x1 , x2 } = (min{x11 , x21 }, ... , min{x1n , x2n }) — покомпонентный минимум
векторов x1 , x2 ∈ Rn (аналогично определяется покомпонентный максимум).
· — норма (в случае линейного оператора — всегда подчиненная).
x∞ = max{|x1 |, ... , |xn |} — ∞-норма вектора x ∈ Rn .
p 1/p
xp = ( n
— p-норма вектора x ∈ Rn (p 1).
j=1 |xj | )
·, · — евклидово скалярное произведение.
L(X, Y ) — пространство действующих из арифметического пространства X
в арифметическое пространство Y линейных операторов, снабженное
нормой, подчиненной нормам в X и Y .
Bδ (x) = {ξ ∈ X | ξ − x δ} — (замкнутый) шар радиуса δ с центром в
точке x ∈ X.
dist(x, M ) = inf x − ξ — расстояние от точки x до множества M .
ξ∈M
πM (x) — (метрическая) проекция точки x на (замкнутое выпуклое) множество M .
{xk } = {x0 , x1 , ... , xk , ...} — последовательность.
{xk } → x (k → ∞) — последовательность {xk } сходится к элементу x (для
числовых последовательностей {ak } используются также обозначения
ak → a (k → ∞) и lim ak = a).
k→∞
lim sup ak (lim inf ak ) — верхний (нижний) предел числовой последовательноk→∞
k→∞
сти {ak }.
13
Список обозначений
ak bk + O(ck ) (ak bk + O(ck )) — для числовых последовательностей
{ak }, {bk } и {ck } имеет место lim sup(ak − bk )/ck < +∞ (lim inf (ak −
k→∞
k→∞
− bk )/ck > −∞).
ak bk + o(ck ) (ak bk + o(ck )) — для числовых последовательностей {ak },
{bk } и {ck } имеет место lim sup(ak − bk )/ck 0 (lim inf (ak − bk )/ck 0).
k→∞
k→∞
int M — внутренность множества M .
ri M — относительная внутренность (выпуклого) множества M .
fr M — граница множества M .
cl M — замыкание множества M .
span M — линейная оболочка множества M , т. е. минимальное линейное
подпространство, содержащее M .
lin M — линеал 1) множества M , т. е. максимальное линейное подпространство, содержащееся в M .
aff M — аффинная оболочка множества M , т. е. минимальное аффинное
множество, содержащее M .
Lin M — линейное подпространство, параллельное множеству M .
cone M — коническая оболочка множества M , т. е. минимальный конус (не
обязательно выпуклый!), содержащий M .
conv M — выпуклая оболочка множества M , т. е. минимальное выпуклое
множество, содержащее M .
dim M — размерность линейного подпространства M .
M ⊥ = {ξ ∈ X | ξ, x = 0 ∀ x ∈ M } — ортогональное дополнение (аннулятор)
множества M ⊂ X.
K ◦ = {ξ ∈ Rn | ξ, x 0 ∀ x ∈ K} — полярный (отрицательно сопряженный)
конус к конусу K ⊂ X.
RM (x) = cone(M − x) — радиальный конус к множеству M в точке x ∈ M .
TM (x) = {ξ ∈ X | ∃ {tk } ⊂ R \ {0} такая, что {tk } → 0 (k → ∞), dist(x +
+ tk ξ, M ) = o(tk )} — контингентный конус к множеству M в точке
x ∈ M.
(TM (x))◦ , если x ∈ M ,
нормальный конус к множеству M
NM (x) =
—
.
∅, если x ∈ M ,
в точке x ∈ X
−1
(ξ) = {x ∈ X | ξ ∈ NM (x)}.
NM
F (M ) = {y ∈ Y | ∃ x ∈ M такой, что y = F (x)} — образ множества M ⊂ X
при отображении F : X → Y .
F −1 (M ) = {x ∈ X | F (x) ∈ M } — прообраз множества M ⊂ Y при отображении F : X → Y .
D = F −1 (Q) — допустимое множество задачи оптимизации.
1)
Lineality space.
14
Список обозначений
C(x) = C1 (x) = {ξ ∈ (F (x))−1 (TQ (F (x))) | f (x), ξ 0} — критический
конус задачи оптимизации в точке x ∈ D.
C2 (x) = {ξ ∈ C(x) | F (x)[ξ, ξ] ∈ cl(TQ (F (x)) − im F (x))} — суженный критический конус задачи оптимизации в точке x ∈ D.
L(·, ·) — функция Лагранжа задачи оптимизации.
∂L
Λ(x) = λ ∈ NQ (F (x))
(x, λ) = 0 — множество множителей Лагранжа
∂x
задачи оптимизации, отвечающих точке x.
L0 (·, ·, ·) — обобщенная функция Лагранжа задачи оптимизации.
∂L0
(x, λ0 , λ) = 0, (λ0 , λ) = 0 — мноΛ0 (x) = (λ0 , λ) ∈ R+ × NQ (F (x))
∂x
жество обобщенных множителей Лагранжа задачи оптимизации, отвечающих точке x.
E — тождественный оператор.
Ax — действие линейного оператора A на элемент x.
A∗ — оператор, сопряженный к линейному оператору A.
im A = A(X) — образ (множество значений) линейного оператора A : X → Y .
ker A = A−1 (0) — ядро (множество нулей) линейного оператора A.
rank A = dim im A — ранг линейного оператора A.
|I| — количество элементов конечного множества I.
∂f (x) — супердифференциал вогнутой функции f (т. е. субдифференциал
выпуклой функции −f ) в точке x.
— знак окончания доказательства.
ЗОКО — задача оптимизации с комплементарными ограничениями.
РЗМП — расширенная задача математического программирования.
СЗМП — суженная задача математического программирования.
Глава 1
ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ
Данная глава содержит необходимые для дальнейшего изложения
све́дения из выпуклого анализа, нелинейного анализа и теории оптимизации.
1.1. Выпуклый анализ и конусы
Этот параграф содержит сводку необходимых для дальнейшего
све́дений из выпуклого анализа и смежных областей. Те факты, которые присутствуют в любом руководстве по конечномерному выпуклому
анализу, приводятся без доказательств; исчерпывающую информацию
по этим вопросам можно найти, например, в [9, 28, 29].
Напомним, что множество M ⊂ X называется выпуклым, если
вместе с любыми двумя своими точками оно содержит соединяющий
их отрезок: θx1 + (1 − θ)x2 ∈ M ∀ x1, x2 ∈ M , ∀ θ ∈ [0, 1]. Внутренность
int M и замыкание cl M любого выпуклого множества M — выпуклые множества. Проекция πM (x) любой точки x ∈ X на замкнутое
выпуклое множество M ⊂ X (определяемая как ближайшая к x точка
множества M ) существует и единственна.
Множество M ⊂ X называется аффинным, если вместе с любыми
двумя своими точками оно содержит проходящую через них прямую:
θx1 + (1 − θ)x2 ∈ M ∀ x1 , x2 ∈ M , ∀ θ ∈ R. Разумеется, всякое аффинное множество выпукло и замкнуто.
Множество K ⊂ X называется конусом, если вместе с любой своей
точкой оно содержит проходящий через эту точку луч с началом в нуле:
θx ∈ K ∀ x ∈ K, ∀ θ 0. В частности, любое линейное подпространство является выпуклым конусом. Конус называется острым, если он
не содержит нетривиальных линейных подпространств. Замыкание
конуса является конусом.
Аффинной оболочкой aff M множества M ⊂ X называется минимальное аффинное множество, содержащее M . Аффинная оболочка M
совпадает с множеством всевозможных (конечных) аффинных комби-
16
Гл. 1. Предварительные сведения
s
i
i
наций точек множества
i=1 θi x , где x ∈ M ,
s M , т. е. точек вида
θi ∈ R, i = 1, ... , s,
i=1 θi = 1. Линейным подпространством, параллельным множеству M ⊂ X, называется линейное подпространство Lin M = aff M − x, где x ∈ aff M — любая фиксированная точка
(легко видеть, что Lin M не зависит от выбора x ∈ aff M ).
Относительной внутренностью ri M выпуклого множества M ⊂
⊂ X называется его внутренность как подмножества линейного пространства aff M , снабженного индуцированной топологией. Иными
словами, x ∈ ri M тогда и только тогда, когда существует такая
окрестность U точки x (в X), что U ∩ aff M ⊂ M . В частности,
если int M = ∅, то ri M = int M . В конечномерном пространстве
относительная внутренность любого непустого выпуклого множества
M ⊂ X непуста, причем для любых x1 ∈ ri M и x2 ∈ cl M выполняется
θx1 + (1 − θ)x2 ∈ ri M ∀ θ ∈ (0, 1].
Конической оболочкой cone M множества M ⊂ X называется
минимальный конус, содержащий M . Коническая оболочка выпуклого
множества M является выпуклым конусом и совпадает с множеством
всевозможных (конечных) неотрицательных
комбинаций точек мноs
жества M , т. е. точек вида i=1 θi xi , где xi ∈ M , θi 0, i = 1, ... , s.
Выпуклой оболочкой conv M множества M ⊂ X называется минимальное выпуклое множество, содержащее M . Выпуклая оболочка
M совпадает с множеством всевозможных (конечных)
выпуклых комs
i
i
бинаций точек множества
M , т. е. точек вида
i=1 θi x , где x ∈ M ,
s
θi 0, i = 1, ... , s, i=1 θi = 1.
Следующий результат можно рассматривать как далеко идущее
обобщение теоремы о малом возмущении обратимого линейного оператора (о результатах такого рода см. [3]).
Л е м м а 1. Пусть A ∈ L(X, Y ), K ⊂ X — выпуклый конус, и
элемент y ∈ Y удовлетворяет условию y ∈ int A(K).
Тогда найдутся числа δ > 0 и L > 0 такие, что для любого
A ∈ L(X, Y ), достаточно близкого к A, существует непрерывное
отображение ϕA : cone Bδ (y) → K, удовлетворяющее следующим
требованиям:
AϕA (y) = y,
ϕA (y) Ly ∀ y ∈ cone Bδ (y).
(1)
Д о к а з а т
е л ь с т в о.
Пусть
η i = y + εei ,
i = 1, ... , l,
l
i
1
l
η
= y − ε i=1 e , где e , ... , e — векторы стандартного базиса
в Y = Rl , а ε > 0 — некоторое число. Как нетрудно видеть,
y ∈ int conv{η 1 , ... , η l+1 }, т. е. найдется число δ > 0 такое, что
l+1
B2δ (y) ⊂ conv{η 1 , ... , η l+1 }.
(2)
С другой стороны, в силу условия y ∈ int A(K), число ε > 0 можно
выбрать столь малым, что η 1 , ... , η l+1 ∈ A(K), т. е. найдутся ξ i ∈ K
1.1. Выпуклый анализ и конусы
17
такие, что Aξ i = η i , i = 1, ... , l + 1. При этом для любого A ∈ L(X, Y ),
достаточно близкого к A, точки η i (A) = Aξ i будут мало отличаться от
η i , i = 1, ... , l + 1, откуда и из (2) легко выводится, что
Bδ (y) ⊂ M (A),
(3)
где M (A) = conv{η 1 (A), ... , η l+1 (A)}.
Далее,
всякая точка y ∈ M (A) однозначно представляется
в виl+1
l+1
де y = i=1 θi η i (A), где θi 0, i = 1, ... , l + 1,
θ
=
1.
Числа
i=1 i
θi = θi (A; y) называются барицентрическими координатами точки y,
лежащей в l-мерном симплексе M (A) (см. [20, с. 197]). Зафиксируем
и зададим отображение ϕA : cone Bδ (y) → K следуючисло δ ∈ (0, δ]
щим образом:
ϕA (0) = 0,
ϕA (y) =
l+1
y γ
y ξ i , y ∈ (cone Bδ (y)) \ {0},
θi A;
γ
y
i=1
где
γ=
y, если y = 0,
δ, если y = 0.
Легко проверить, что если число δ достаточно мало́, то в любом случае
γy/y ∈ Bδ (y) ∀ y ∈ (cone Bδ (y)) \ {0}, и в силу (3) отображение ϕA
определено корректно. При этом
l+1
y γ
y Aξ i =
θi A;
AϕA (y) =
γ
y
i=1
l+1
y γ
y γ
y η i (A) =
y=y
θi A;
=
γ
y
γ y
i=1
и
l+1
y γ
ϕA (y) y ξ i θi A;
γ
y
i=1
l+1
1
y
γ
y =
θi A;
max ξ i max ξ i y,
i=1, ..., l+1
γ
y
γ i=1, ..., l+1
i=1
т. е. выполнено (1) при L =
max
i=1, ..., l+1
ξ i /γ. Непрерывность построен-
ного отображения ϕA легко проверяется.
Важнейшим инструментом выпуклого анализа являются так называемые теоремы отделимости. Множество H ⊂ X называется гиперплоскостью, если оно представимо в виде H = H(a, b) = {x ∈
∈ X | a, x = b} при некоторых a ∈ X \ {0} и b ∈ R. Для заданных
18
Гл. 1. Предварительные сведения
множеств M1 , M2 ⊂ X гиперплоскость H(a, b) называется разделяющей, если
a, x1 b a, x2 ∀ x1 ∈ M1 , ∀ x2 ∈ M2 .
Гиперплоскость H называется опорной к множеству M ⊂ X в точке
x ∈ cl M , если она является разделяющей для множеств M и {x} (это
подразумевает, что x ∈ H).
З а д а ч а 1. Показать, что любая гиперплоскость, являющаяся
опорной к конусу, содержит 0.
Следующий результат объединяет в себе теорему об опорной гиперплоскости [29, гл. 3, теор. 2.2] и теорему Минковского об отделимости
точки от множества [29, гл. 3, следствие 1 из теор. 2.1].
Т е о р е м а 1. Пусть M ⊂ X — выпуклое множество.
Тогда:
а) для любой точки x ∈ fr M существует опорная гиперплоскость
к M в этой точке;
б) для любой точки x ∈ X \ cl M существует опорная к M гиперплоскость H, которая является разделяющей для M и {x},
причем x ∈ H.
Из теоремы 1 выводится так называемая теорема Фенхеля о собственной отделимости [29, гл. 3, теор. 2.3], частным случаем которой
является следующая теорема об отделимости.
Т е о р е м а 2. Пусть M1 , M2 ⊂ X — выпуклые множества.
Тогда если M1 ∩ M2 = ∅, то для M1 и M2 существует разделяющая гиперплоскость.
Полярным к конусу K ⊂ X называется конус
K ◦ = {ξ ∈ X | ξ, x 0 ∀ x ∈ K}.
Элементарно проверяется, что полярный конус к любому конусу является выпуклым и замкнутым.
З а д а ч а 2. Доказать, что если M ⊂ X — линейное подпространство, то M ◦ = M ⊥ (и, в частности, X ◦ = {0}, {0}◦ = X).
З а д а ч а 3. Доказать равенство (Rn+ )◦ = Rn− .
З а д а ч а 4. Доказать следующие утверждения:
а) для произвольного конуса K ⊂ X имеет место равенство K ◦ =
= (cl K)◦ ;
б) для произвольного выпуклого конуса K ⊂ X такого, что int K =
= ∅, имеет место равенство K ◦ = (int K ∪ {0})◦ ;
1.1. Выпуклый анализ и конусы
19
в) для произвольного замкнутого выпуклого конуса K ⊂ X имеет
место равенство (K ◦ )◦ = K;
г) для произвольных конусов K1 , K2 ⊂ X имеет место равенство
(K1 + K2 )◦ = K1◦ ∩ K2◦ ;
д) для произвольных выпуклых конусов K1 , K2 ⊂ X имеет место
равенство (K1 ∩ K2 )◦ = cl(K1◦ + K2◦ ).
З а д а ч а 5. Доказать, что если K ⊂ X — замкнутый выпуклый
острый конус, то int K ◦ = ∅.
Множество называется полиэдральным, если оно является множеством решений некоторой конечной системы линейных неравенств.
Согласно теореме Минковского–Вейля [29, теор. 2.11], компактное полиэдральное множество является выпуклой оболочкой конечного числа
точек, и наоборот: выпуклая оболочка конечного числа точек есть
компактное полиэдральное множество; полиэдральный конус является
конической оболочкой конечного числа точек, и наоборот: коническая
оболочка конечного числа точек есть полиэдральный конус. Полиэдральное множество конично в каждой своей точке. Полярный конус
к полиэдральному конусу также полиэдрален.
При выводе прямодвойственных необходимых условий первого порядка оптимальности важную роль играет следующий факт.
Л е м м а 2. Пусть A ∈ L(X, Y ), K ⊂ Y — выпуклый замкнутый
конус. Пусть выполнено хотя бы одно из следующих условий:
1) конус K — полиэдральный;
2) im A − K = Y.
Тогда
(A−1 (K))◦ = A∗ (K ◦ ).
(4)
Заметим, что равенство (4) подразумевает замкнутость выпуклого
конуса A∗ (K ◦ ). На самом деле, дополнительные предположения, такие,
как 1) или 2), нужны именно для обеспечения замкнутости этого
конуса.
З а д а ч а 6. Привести примеры, показывающие, что образ выпуклого замкнутого конуса при линейном отображении может быть незамкнут.
Д о к а з а т е л ь с т в о. Включение
(A−1 (K))◦ ⊃ A∗ (K ◦ )
(5)
устанавливается элементарно, причем условия 1) или 2) для этого не
требуются.
В случае выполнения условия 1) доказываемую лемму называют
леммой Фаркаша; ее доказательство можно найти в любом руководстве
по математическому программированию (см., например, [9, теор. 3.5.8],
20
Гл. 1. Предварительные сведения
[50, предл. 2.42], [15, лемма 1.4.3]). Поэтому ограничимся доказательством обратного к (5) включения
(A−1 (K))◦ ⊂ A∗ (K ◦ )
(6)
лишь в случае выполнения условия 2).
Можно было бы сначала доказать замкнутость конуса A∗ (K ◦ ) при
выполнении условия 2), а затем вывести требуемое включение (6) из
утверждения б) теоремы 1. Однако возможно более короткое прямое
доказательство, опирающееся на теорему 2.
А именно, зафиксируем ξ ∈ (A−1 (K))◦ и введем множества
M1 (ξ) = {(ξ, x, Ax) ∈ R × Y | x ∈ X},
M2 (ξ) = (R+ \ {0}) × K.
Первое из этих множеств — линейное подпространство в R × Y ; второе
множество выпукло, причем M1 (ξ) ∩ M2 (ξ) = ∅. Применяя теорему 2,
получаем существование пары (λ0 , λ) ∈ (R × Y ) \ {0} такой, что
λ0 ξ, x + λ, Ax λ0 α + λ, y ∀ x ∈ X, ∀ α > 0, ∀ y ∈ K.
Отсюда элементарно выводится, что
λ0 ξ + A∗ λ = 0,
λ0 0,
λ ∈ K ◦.
(7)
Если предположить, что λ0 = 0, то из (7) имеем включение
λ ∈ (ker A∗ ∩ K ◦ ) \ {0}. Но это противоречит условию 2), поскольку,
согласно утверждению из задачи 2, утверждению г) из задачи 4 и этому
условию справедлива цепочка равенств
ker A∗ ∩ K ◦ = (im A)⊥ ∩ K ◦ = (im A)◦ ∩ K ◦ = (im A + K)◦ = {0}.
Таким образом, λ0 < 0, откуда и из (7), полагая η = −λ/λ0 , получаем
ξ = A∗ η, η ∈ K ◦ . Таким образом, ξ ∈ A∗ (K ◦ ), что и доказывает включение (6).
Теория выпуклых функций ниже по существу использоваться не
будет. Ограничимся следующим фактом, который вытекает из значительно более общих результатов этой теории (например, из [9, теоремы 4.3.1, 4.3.4]).
П р е д л о ж е н и е 1. Пусть q : X × X → R — симметричная билинейная форма, M ⊂ X — замкнутое выпуклое множество, причем
q[ξ, ξ] > 0 ∀ ξ ∈ Lin M \ {0}.
Тогда для любого a ∈ X задача
q[x, x] + a, x → min,
x ∈ M,
имеет единственное локальное решение, которое является и глобальным.
1.2. Нелинейный анализ
21
1.2. Нелинейный анализ
В основе анализа чувствительности для задач оптимизации и
систем условий оптимальности лежат результаты о количественной
устойчивости решений систем нелинейных уравнений и неравенств
и их обобщений. При получении таких результатов центральную роль
играет идея (полной или частичной) линеаризации задачи: с одной
стороны, в тех или иных предположениях регулярности линейная аппроксимация адекватно характеризует локальные свойства исходной
нелинейной задачи, а с другой стороны, линеаризованная задача уже
может быть достаточно простой для решения и/или анализа. Эта идея
находит применения как в теоретических построениях, так и в качестве
основы для эффективных численных методов (см., например, п. 4.5.1).
1.2.1. Неподвижные точки. Пусть Z = Rm , M ⊂ Z — заданное
множество, Φ : M → Z — непрерывное отображение. Неподвижной
точкой отображения Φ называется всякая такая точка z ∈ M , что
Φ(z) = z.
Цель этого короткого раздела — напомнить читателю два необходимых для дальнейшего изложения фундаментальных факта о неподвижных точках. Первый из этих фактов, называемый принципом сжимающих отображений, дает достаточные условия не только для существования, но и для единственности неподвижной точки. В этом смысле
второй факт, а именно, знаменитая теорема Брауэра, устанавливает
более слабое свойство (только существование), но зато эта теорема
использует более слабые требования на отображение Φ. Подчеркнем,
правда, что, в отличие от принципа сжимающих отображений, теорема
Брауэра существенно конечномерна.
Т е о р е м а 1. Пусть множество M ⊂ Z непусто и замкнуто,
отображение Φ : M → Z удовлетворяет условию Φ(M ) ⊂ M и является сжимающим на M , т. е. существует число q ∈ (0, 1) такое,
что
Φ(z 1 ) − Φ(z 2 ) qz 1 − z 2 ∀ z 1 , z 2 ∈ M.
(1)
Тогда Φ имеет на M единственную неподвижную точку.
Д о к а з а т е л ь с т в о. Зафиксируем произвольную точку z 0 ∈ M и
определим последовательность {z k } ⊂ M следующим образом: для
всякого k
z k+1 = Φ(z k ).
(2)
Последовательность {z k } является фундаментальной. Действительно,
в силу (1), (2) и неравенства треугольника для любых номеров k и j
имеем
z k+j − z k = Φ(z k+j−1 ) − Φ(z k−1 ) qz k+j−1 − z k−1 ... 22
Гл. 1. Предварительные сведения
q k z j − z 0 q k
j
i=1
z i − z i−1 q k
j
q i−1 z 1 − z 0 =
i=1
1 − qj 1
qk
z − z 0 <
z 1 − z 0 → 0 (k → ∞),
= qk
1−q
1−q
где учтено, что q ∈ (0, 1). Таким образом, последовательность {z k }
сходится к некоторому z ∈ Z, причем, в силу замкнутости M , точка z
лежит в M . С другой стороны, переходя к пределу в левой и правой
частях (2) и используя вытекающую из (1) непрерывность Φ на M ,
получаем, что z = Φ(z), т. е. z — неподвижная точка отображения Φ.
Если предположить, что отображение Φ имеет две неподвижные
точки z 1 , z 2 ∈ M , то из (1) имеем
z 1 − z 2 = Φ(z 1 ) − Φ(z 2 ) qz 1 − z 2 ,
и поскольку q ∈ (0, 1), то это возможно лишь при z 1 = z 2 .
Теорему Брауэра приведем без доказательства. Дело в том, что
все известные доказательства этой теоремы весьма сложны и связаны
с привлечением дополнительного материала из других разделов математики. Видимо, именно по этой причине теорема Брауэра не входит
в стандартные университетские курсы. Доказательство, использующее
методы алгебраической топологии, можно найти, например, в [24,
с. 263–265].
Т е о р е м а 2. Пусть множество M ⊂ Z — непустой выпуклый компакт, а отображение Φ : M → Z удовлетворяет условию
Φ(M ) ⊂ M и непрерывно на M.
Тогда Φ имеет на M неподвижную точку.
1.2.2. Сильная регулярность для обобщенных уравнений.
Пусть Z = Rm , Φ : Σ × Z → Z — гладкое отображение. Идеал,
к которому стремится теория чувствительности, достигается для
нелинейных уравнений
Φ(σ, z) = 0
(3)
в классической теореме о неявной функции.
Т е о р е м а 3. Пусть отображение Φ : Σ × Z → Z непрерывно
дифференцируемо в некоторой окрестности точки (σ, z) ∈ Σ × Z.
Пусть z является решением уравнения (3) при σ = σ, причем опера∂Φ
тор
(σ, z) обратим.
∂z
Тогда для любого σ ∈ Σ, достаточно близкого к σ, уравнение (3)
имеет вблизи z единственное решение z(σ), причем отображение
z(·) непрерывно дифференцируемо вблизи σ и
−1
∂Φ
∂Φ
z (σ) = −
(4)
(σ, z)
(σ, z).
∂z
∂σ
1.2. Нелинейный анализ
23
Более того, если в теореме 3 соответствующим образом повысить
требования гладкости на Φ, то можно гарантировать любую нужную
гладкость неявной функции z(·) и получить явные формулы для ее
старших дифференциалов.
Теорема 3 является частным случаем приводимой ниже теоремы 4
(более традиционное доказательство теоремы 3 можно найти, например, в [18]). Подчеркнем, что идея линеаризации играет в теореме 3
центральную роль: для σ ∈ Σ решение уравнения (3) ищется в виде
z(σ) = z + ζ(σ) + o(σ − σ), где ζ(σ)(= z (σ)(σ − σ)) определяется из
линеаризованного уравнения
∂Φ
∂Φ
(σ, z)(σ − σ) +
(σ, z)ζ = 0
∂σ
∂z
(ср. с (4)). Заметим, что при выполнении условия регулярности,
∂Φ
состоящего в обратимости оператора
(σ, z), линеаризованное урав∂z
нение действительно корректно определяет ζ(σ), причем ζ(σ) линейно
зависит от (σ − σ).
Теперь вместо уравнения (3) будем рассматривать более общую
задачу, называемую (абстрактным) обобщенным уравнением:
Φ(σ, z) + N (z) 0,
(5)
где для всякого z ∈ Z множество N (z) ⊂ Z считается заданным (подчеркнем, что это множество не зависит от параметра). Очевидно, если
N (·) ≡ {0}, то (5) принимает вид (3). Однако, разумеется, класс обобщенных уравнений не исчерпывается обычными уравнениями. Этот
формат весьма универсален и удобен, в частности, при работе с прямодвоственными системами условий первого порядка оптимальности
для задач оптимизации (см. гл. 3 и параграф 4.5).
В качестве важного примера обобщенного уравнения рассмотрим
вариационное неравенство, состоящее в отыскании точки z ∈ Z такой,
что
z ∈ M , Φ(σ, z), u − z 0 ∀ u ∈ M ,
где M ⊂ Z — заданное замкнутое выпуклое множество. Если M = Z,
то вариационное неравенство совпадает с уравнением (3). В общем
же случае вариационное неравенство можно записать как обобщенное
уравнение (5), если для каждого z ∈ Z определить множество N (z)
соотношением
{ζ ∈ Z | ζ, u − z 0 ∀ u ∈ M }, если z ∈ M ,
N (z) =
(6)
∅, если z ∈ M
(это множество есть ни что иное, как вводимый ниже нормальный
конус к множеству M в точке z).
В случае обобщенного уравнения (5) идея линеаризации трансформируется в идею частичной линеаризации: линеаризуется лишь Φ,
24
Гл. 1. Предварительные сведения
а N (·) остается неизменным. В результате заданному решению z ∈ Z
обобщенного уравнения (5) при заданном σ = σ ∈ Σ сопоставляется
(частично) линеаризованное обобщенное уравнение
Φ(σ, z) +
∂Φ
∂Φ
(σ, z)(σ − σ) +
(σ, z)ζ + N (z + ζ) 0.
∂σ
∂z
(7)
Кроме того, для всякого r ∈ Z введем в рассмотрение следующее
(частично) линеаризованное по z обобщенное уравнение с возмущенной правой частью:
Φ(σ, z) +
∂Φ
(σ, z)ζ + N (z + ζ) r.
∂z
(8)
О п р е д е л е н и е 1. Говорят, что решение z обобщенного уравнения (5) при σ = σ является сильно регулярным, если для любого r ∈ Z,
достаточно близкого к 0, линеаризованное по z обобщенное уравнение
(8) имеет вблизи 0 единственное решение ζ(r), причем отображение
ζ(·) непрерывно по Липшицу вблизи 0.
Условие сильной регулярности обобщает условие обратимости опе∂Φ
ратора
(σ, z) в теореме 3. Очевидно, если выполнено условие силь∂z
∂Φ
(σ, z)(σ − σ), получим,
ной регулярности, то, полагая r = r(σ) = −
∂σ
что для любого σ ∈ Σ, достаточно близкого к σ, линеаризованное обобщенное уравнение (7) имеет вблизи z единственное решение ζ(r(σ)),
где отображение ζ(·) введено в определении 1. Разумеется, зависимость
ζ(r) от r (а значит, и ζ(r(σ)) от (σ − σ)) здесь уже совершенно не
обязательно будет линейной.
Понятие сильной регулярности было введено в [115]; там же была
доказана следующая теорема.
Т е о р е м а 4. Пусть отображение Φ : Σ × Z → Z дифференцируемо в точке (σ, z) ∈ Σ × Z, а также непрерывно по Липшицу
и дифференцируемо по z в некоторой окрестности этой точки,
причем его производная по z непрерывна в точке (σ, z). Пусть z
является сильно регулярным решением обобщенного уравнения (5)
при σ = σ.
Тогда для любого σ ∈ Σ, достаточно близкого к σ, обобщенное
уравнение (5) имеет вблизи z единственное решение z(σ), причем
отображение z(·) непрерывно по Липшицу вблизи σ и
∂Φ
(σ, z)(σ − σ) + o(σ − σ),
z(σ) = z + ζ −
(9)
∂σ
где отображение ζ(·) введено в определении 1.
25
1.2. Нелинейный анализ
Д о к а з а т е л ь с т в о. Для всякой пары (σ, z) ∈ Σ × Z положим
∂Φ
(σ, z)(z − z) − Φ(σ, z) =
∂z
∂Φ
(σ, z)(σ − σ) + o(σ − σ) + o(z − z). (10)
=−
∂σ
ρ(σ, z) = Φ(σ, z) +
Тогда обобщенное уравнение (5) переписывается в виде
Φ(σ, z) +
∂Φ
(σ, z)(z − z) + N (z) ρ(σ, z)
∂z
(11)
(ср. с (7)). При этом ρ(σ, z) = 0, поэтому правая часть ρ(σ, z) обобщенного уравнения (11) близка к 0 при (σ, z), близком к (σ, z). Значит,
в силу определения 1 при любом σ ∈ Σ, близком к σ, обобщенное
уравнение (11) вблизи z эквивалентно (обычному!) уравнению
z = z + ζ(ρ(σ, z)).
(12)
Обозначим через L1 > 0 константу Липшица для Φ вблизи (σ, z),
а через L2 > 0 — константу Липшица для ζ(·) вблизи нуля, и зафиксируем число ε ∈ (0, 1/(3L2 )]. Пусть числа δ1 > 0 и δ2 > 0 достаточно
малы, тогда для σ ∈ Bδ1 (σ) и z ∈ Bδ2 (z), пользуясь первым равенством
в (10) и привлекая теорему о среднем [18, теорема 13.17], имеем
ρ(σ, z) ∂Φ
Φ(σ, z) − Φ(σ, z) + Φ(σ, z) +
(σ, z)(z − z) − Φ(σ, z)
∂z
∂Φ
∂Φ
L1 σ − σ + sup ∂z (σ, θz + (1 − θ)z) − ∂z (σ, z) z − z θ∈[0, 1]
L1 δ1 + εδ2 .
Уменьшая при необходимости δ1 и δ2 (и, в частности, обеспечивая
выполнение неравенства δ1 < δ2 /(3L1 L2 )), отсюда выводим
ζ(ρ(σ, z)) = ζ(ρ(σ, z)) − ζ(0) 1
1
L2 ρ(σ, z) L2 L1 δ1 +
δ2 L 1 L 2 δ1 + δ2 < δ2 .
3L2
3
В частности, отображение z + ζ(ρ(σ, ·)) переводит шар Bδ2 (z) в себя.
26
Гл. 1. Предварительные сведения
Далее, снова уменьшая при необходимости δ1 и δ2 и вновь привлекая теорему о среднем, для любых σ ∈ Bδ1 (σ) и z 1 , z 2 ∈ Bδ2 (z) имеем
ρ(σ, z 1 ) − ρ(σ, z 2 ) ∂Φ
1
2
1
2 Φ(σ,
z
(σ,
)
−
Φ(σ,
z
)
−
z)(z
−
z
)
∂z
∂Φ
1
∂Φ
1
2
2
sup (σ, θz + (1 − θ)z ) −
(σ, z)
z − z ∂z
θ∈[0, 1] ∂z
εz 1 − z 2 .
(13)
Поэтому
ζ(ρ(σ, z 1 )) − ζ(ρ(σ, z 2 )) 1 1
z − z 2 ,
3
откуда следует, что отбражение z + ζ(ρ(σ, ·)) в шаре Bδ2 (z) является
сжимающим. В силу принципа сжимающих отображений (теорема 1)
уравнение (12) (а значит, и каждое из эквивалентных (12) обобщенных
уравнений (5) и (11)) имеет в Bδ2 (z) единственное решение z(σ).
Для любых σ 1 , σ 2 ∈ Bδ1 (σ) в силу (10) и (13) справедливо
L2 ρ(σ, z 1 ) − ρ(σ, z 2 ) L2 εz 1 − z 2 ρ(σ 1 , z(σ 1 )) − ρ(σ 2 , z(σ 2 )) ρ(σ 1 , z(σ 1 )) − ρ(σ 2 , z(σ 1 )) + ρ(σ 2 , z(σ 1 )) − ρ(σ 2 , z(σ 2 )) Φ(σ 1 , z(σ 1 )) − Φ(σ 2 , z(σ 1 )) + εz(σ 1 ) − z(σ 2 ) L1 σ 1 − σ 2 + εz(σ 1 ) − z(σ 2 ).
Отсюда, вспоминая, что z(σ) удовлетворяет (12), выводим
z(σ 1 ) − z(σ 2 ) L2 ρ(σ 1 , z(σ 1 )) − ρ(σ 2 , z(σ 2 )) L2 (L1 σ 1 − σ 2 + εz(σ 1 ) − z(σ 2 )) 1
L1 L2 σ 1 − σ 2 + z(σ 1 ) − z(σ 2 ),
3
т. е.
3
z(σ 1 ) − z(σ 2 ) L1 L2 σ 1 − σ 2 .
2
Таким образом, отображение z(·) непрерывно по Липшицу на Bδ1 (σ)
(с константой 3L1 L2 /2).
Наконец, вновь вспоминая, что z(σ) удовлетворяет (12), и используя (10), имеем
z(σ) = z + ζ(ρ(σ, z(σ))) =
∂Φ
(σ, z)(σ − σ) + o(σ − σ + z(σ) − z) ,
=z+ζ −
∂σ
откуда и из непрерывности ζ(·) и z(·) по Липшицу следует (9).
1.2. Нелинейный анализ
27
З а д а ч а 1. Вывести из теоремы 4 теорему 3. (Указание. Для доказательства непрерывной дифференцируемости неявной функции z(·)
воспользоваться тем, что эта функция удовлетворяет (12).)
З а д а ч а 2. Вывести из теоремы 4 следующее утверждение об
устойчивости свойства сильной регулярности: в условиях теоремы 4
∂Φ
для любых A ∈ L(Z, Z) и r ∈ Z, достаточно близких к
(σ, z) и 0
∂z
соответственно, обобщенное уравнение
Φ(σ, z) + Aζ + N (z + ζ) r
имеет вблизи 0 единственное решение ζ(A, r), причем отображение
∂Φ
(σ, z), 0).
ζ(·) непрерывно по Липшицу вблизи точки (
∂z
1.2.3. Количественная устойчивость допустимого множества:
общие возмущения. В основе теории чувствительности для задач
оптимизации неизбежно должна лежать теория чувствительности их
допустимых множеств. Чтобы сохранить параллели с предыдущим
пунктом, начнем со случая, когда допустимое множество задается
ограничениями-равенствами:
D(σ) = {x ∈ X | F (σ, x) = 0}.
(14)
Из классической теоремы о неявной функции выводится следующий
результат об устойчивости такого D(·).
Т е о р е м а 5. Пусть отображение F : Σ × X → Y непрерывно дифференцируемо в некоторой окрестности точки (σ, x) ∈
∈ Σ × X. Пусть x ∈ D(σ), где множество D(·) введено в (14),
∂F
(σ, x) = Y.
причем im
∂x
Тогда для (σ, x) ∈ Σ × X, близких к (σ, x), имеет место оценка
dist(x, D(σ)) = O(F (σ, x)).
(15)
Д о к а з а т е л ь с т в о. Выберем линейный оператор A: X →
∂F
→ ker
(σ, x), удовлетворяющий условию
∂x
∂F
(σ, x) ∩ ker A = {0}
ker
∂x
(например, в качестве A можно взять оператор ортогонального проек∂F
(σ, x)).
тирования на ker
∂x
∂F
Введем отображение Φ : (Σ × X) × X → Y × ker
(σ, x),
∂x
Φ((σ, x), χ) = (F (σ, x + χ), Aχ).
(16)
28
Гл. 1. Предварительные сведения
Для этого отображения в точке ((σ, x), 0) выполнены все условия
теоремы 3. Поэтому для любой пары (σ, x) ∈ Σ × X, близкой к (σ, x),
существует точка χ(σ, x) такая, что
Φ((σ, x), χ(σ, x)) = 0,
причем отображение χ(·, ·) непрерывно в точке (σ, x) и χ(σ, x) = 0.
В частности, x + χ(σ, x) ∈ D(σ) (см. (14) и (16)), значит,
dist(x, D(σ)) χ(σ, x).
(17)
Заметим, что для произвольного ξ ∈ X справедливо
−1
∂Φ
∂Φ
ξ = ((σ, x), 0)
((σ, x), 0)ξ ∂χ
∂χ
−1 ∂Φ
∂Φ
.
((σ,
((σ,
x),
0)
x),
0)ξ
∂χ
∂χ
Привлекая теорему о среднем, отсюда выводим, что при достаточной
близости (σ, x) к (σ, x) имеет место
∂Φ
((σ, x), 0)χ(σ, x)
F (σ, x) = Φ((σ, x), 0) −
∂χ
∂Φ
− Φ((σ, x), χ(σ, x)) − Φ((σ, x), 0) −
((σ, x), 0)χ(σ, x)
∂χ
−1 −1
∂Φ
χ(σ, x) −
((σ,
x),
0)
∂χ
∂Φ
∂Φ
((σ, x), θχ(σ, x)) −
((σ, x), 0)
− sup χ(σ, x) ∂χ
θ∈[0, 1] ∂χ
−1 −1
∂Φ
1
χ(σ, x).
((σ, x), 0)
2
∂x
Отсюда и из (17) следует (15).
Требования гладкости в этой теореме, конечно же, избыточны и
связаны лишь с тем, что при ее доказательстве используется теорема 3.
«Правильные» требования гладкости см. в приводимой ниже более
общей теореме 7.
Теперь обратимся к случаю более общих ограничений:
D(σ) = {x ∈ X | F (σ, x) ∈ Q}.
(18)
Пусть, как обычно, σ ∈ Σ — базовое значение параметра. Следующая
теорема доказана в [33].
1.2. Нелинейный анализ
29
Т е о р е м а 6. Пусть отображение F : Σ × X → Y непрерывно в
точке (σ, x) ∈ Σ × X и дифференцируемо по x в некоторой окрестности этой точки, причем его производная по x непрерывна в точке
(σ, x). Пусть x ∈ D(σ), где множество D(·) введено в (18), а элемент
y ∈ Y удовлетворяет условию
∂F
(σ, x) − Q .
y ∈ int F (σ, x) + im
(19)
∂x
Тогда найдется число δ > 0 такое, что для (σ, x, y) ∈ Σ × X × Q,
близких к (σ, x, F (σ, x)) и таких, что
−(F (σ, x) − y) ∈ cone Bδ (y),
(20)
имеет место оценка
dist(x, D(σ)) = O(F (σ, x) − y).
(21)
Следующая лемма существенно облегчает доказательство теоремы 6 в рассматриваемом здесь конечномерном случае (точнее, в случае
конечномерного Y ).
Л е м м а 1. Пусть отображение F : Σ × X → Y дифференцируемо
в точке (σ, x) ∈ Σ × X по переменной x.
Тогда если для элемента y ∈ Y выполнено условие (19), то найдется конечный набор точек y i ∈ Q, i = 1, ... , s, таких, что
∂F
1
s
(σ, x) − conv{y , ... , y } ,
y ∈ int F (σ, x) + im
(22)
∂x
причем s можно взять равным l + 1.
Д о к а з а т е л ь с т в о. В силу (19), найдется конечный набор точек
η i ∈ Y , i = 1, ... , s, таких, что, с одной стороны,
y ∈ int conv{η 1 , ... , η s },
(23)
∂F
(σ, x) − Q ∀ i = 1, ... , s
∂x i
(например, можно
положить s = l + 1 и η = y + εei , i = 1, ... , l,
l
l+1
i
η
= y − ε i=1 e , где e1 , ... , el — векторы стандартного базиса в
Y = Rl , а ε > 0 — достаточно малое число). Тогда найдутся ξ i ∈ X и
∂F
y i ∈ Q такие, что η i = F (σ, x) +
(σ, x)ξ i − y i ∀ i = 1, ... , s. Элемен∂x
тарно проверяется, что при этом
а с другой стороны, η i ∈ F (σ, x) + im
conv{η 1 , ... , η s } ⊂ F (σ, x) + im
откуда и из (23) следует (22).
∂F
(σ, x) − conv{y 1 , ... , y s },
∂x
30
Гл. 1. Предварительные сведения
Данная лемма позволяет при доказательстве некоторых результатов
заменять для каждого σ ∈ Σ множество D(σ) более узким множеством
D(σ)
= {x ∈ X | F (σ, x) ∈ Q},
(24)
задаваемым ограничениями, в которых фигурирует полиэдральное множество
= conv{y 1 , ... , y s , F (σ, x)}.
Q
(25)
По сути дела, именно этот прием используется при доказательстве
теоремы 6 ниже. Согласно лемме 1, выполнение в точке x для элемента
y ∈ Y условия (19) для ограничений в (18) влечет аналогичное свойство для ограничений в (24), причем с последними дело иметь проще.
Д о к а з а т е л ь с т в о т е о р е м ы 6. Введем отображение Φ : Σ ×
× (X × Y ) → Y ,
Φ(σ, z) = F (σ, x) − y,
z = (x, y),
(26)
и положим P = X × Q. Для каждого σ ∈ Σ определим множество
Δ(σ) = {z ∈ P | Φ(σ, z) = 0}.
(27)
Положим z = (x, F (σ, x)) ∈ P . Если доказать, что найдется число δ > 0
такое, что для (σ, z) ∈ Σ × P , близких к (σ, z) и удовлетворяющих
включению
−Φ(σ, z) ∈ cone Bδ (y),
(28)
имеет место оценка
dist(z, Δ(σ)) = O(Φ(σ, z)),
(29)
то немедленно получим требуемое утверждение. Действительно, для
произвольной тройки (σ, x, y) ∈ Σ × X × Q, близкой к (σ, x, F (σ, x)) и
удовлетворяющей (20), имеем: z = (x, y) ∈ P , z близко́ к z и выполнено
(28), и поэтому найдется z = z(σ, z) = (
x, y) ∈ X × Y такой, что
z + z ∈ P ,
Φ(σ, z + z) = 0,
z = O(Φ(σ, z))
(см. (27)). Тогда с учетом (26) имеют место соотношения
y + y ∈ Q,
F (σ, x + x
) − (y + y) = 0,
x + y = O(F (σ, x) − y).
Отсюда имеем
F (σ, x + x
) ∈ Q,
что и дает (21).
x = O(F (σ, x) − y),
1.2. Нелинейный анализ
31
Выберем точки y i ∈ Q, i = 1, ... , s, согласно лемме 1; определим
согласно (25), а также (полиэдральное)
(полиэдральное) множество Q
множество P = X × Q. Тогда из (26) и определения z следует, что
включение (22) можно переписать в виде
y ∈ int
∂Φ
(σ, z)(P − z).
∂z
(30)
Если int Q = ∅, то отображение Φ можно заменить на отображение
: Σ × (X × span(Q − F (σ, x))) → Y ,
Φ
Φ(σ,
z) = Φ(σ, z + z),
и для всякого σ ∈ Σ множество Δ(σ) можно заменить на
Δ(σ)
= {z ∈ P − z | Φ(σ,
z + z) = 0}.
Действительно, Δ(σ) = Δ(σ)
+ z, и совершенно очевидно, что выполнение при некотором δ > 0 для (σ, z) ∈ Σ × P , близких к (σ, z) и
удовлетворяющих условию (28), оценки (29) равносильно выполнению
для (σ, z) ∈ Σ × (P − z), близких к (σ, 0) и удовлетворяющих условию
−Φ(σ,
z) ∈ cone Bδ (y),
оценки
dist(z, Δ(σ))
= O(Φ(σ,
z)).
Кроме того, (30) равносильно условию
y ∈ int
∂Φ
(σ, 0)(P − z).
∂z
С другой стороны, внутренность множества Q − F (σ, x) относительно содержащего это множество линейного подпространства
span(Q − F (σ, x)) = aff(Q − F (σ, x)) совпадает с ri(Q − F (σ, x)),
а значит, непуста.
Таким образом, всюду далее без ограничения общности будем считать, что int Q = ∅. Тогда малым шевелением точек y i ∈ Q всегда
можно добиться выполнения включений y i ∈ int Q ∀ i = 1, ... , s (откуда
\ {F (σ, x)} ⊂ int Q, а значит P \ {z} ⊂ int P ),
легко следует, что Q
причем так, что условие (30) останется выполненным.
Из (30) вытекает, что
y ∈ int
∂Φ
(σ, z)(cone(P − z)).
∂z
Отсюда и из леммы 1.1.1 следует существование чисел δ > 0 и L > 0
таких, что для (σ, z), достаточно близкого к (σ, z), найдется непре-
32
Гл. 1. Предварительные сведения
рывное отображение ϕσ, z : cone Bδ (y) → cone(P − z), удовлетворяющее
следующим требованиям:
∂Φ
(σ, z)ϕσ, z (y) = y, ϕσ, z (y) Ly ∀ y ∈ cone Bδ (y).
(31)
∂z
Выберем число δ > 0 так, чтобы для (σ, z), достаточно близких к
(σ, z), и для всякого y ∈ (cone Bδ (y)) ∩ Bδ (0) точка z + θϕσ, z (y) при
любом θ ∈ [0, 1] попадала в область дифференцируемости отображения
Φ по переменной z и выполнялось
∂Φ
∂Φ
γ ,
sup (σ,
z
+
θϕ
(σ,
z)
(32)
(y))
−
σ, z
∂z
2L
∂z
θ∈[0, 1]
⎧
⎪
δ
⎨ min
, 1 , если y = 0,
2y
(33)
γ=
⎪
⎩
1, если y = 0.
Для всякого такого (σ, z) определим отображение Gσ, z : (cone Bδ (y)) ∩
∩ Bδ (0) → Y ,
Gσ, z (y) = y − Φ(σ, z + ϕσ, z (y)),
причем это отображение непрерывно на своей области определения и
где
Gσ, z (y) = −Φ(σ, z) − Ωσ, z (y),
(34)
где, в силу (31), теоремы о среднем и неравенства (32), отображение
Ωσ, z : (cone Bδ (y)) ∩ Bδ (0) → Y удовлетворяет оценке
∂Φ
Φ(σ,
z
+
ϕ
Ωσ, z (y) = (σ,
z)ϕ
(y))
−
Φ(σ,
z)
−
(y)
σ, z
σ, z
∂z
∂Φ
∂Φ
sup ∂z (σ, z + θϕσ, z (y)) − ∂z (σ, z) ϕσ, z (y) θ∈[0, 1]
γ
γ
Ly = y ∀ y ∈ (cone Bδ (y)) ∩ Bδ (0).
(35)
2L
2
Как нетрудно проверить, найдется число δ ∈ (0, δ/2]
такое, что если
Считая, что Φ(σ, z) = 0 (поη ∈ cone Bδ (y), то yη/η − y δ/2.
скольку противный случай тривиален), положим δ(σ,
z) = Φ(σ, z).
Для (σ, z), достаточно близких к (σ, z) и удовлетворяющих (28), и
для всякого y ∈ (cone Bδ (y)) ∩ B2δ(σ,
z) (0) имеем: если y = 0, то в силу
(33), (35)
y
− y Φ(σ, z) −
Ωσ, z (y) − y Φ(σ, z)
Φ(σ, z)
δ
δ δ y
y
+
y
Φ(σ,
z)
−
y
+ = δ,
−
Φ(σ, z)
Φ(σ, z) 4y
2 2
1.2. Нелинейный анализ
33
откуда и из (34) следует, что
Gσ, z (y) =
y
Φ(σ, z)
y
Φ(σ, z) −
Ωσ, z (y) ∈ cone Bδ (y).
=
−
y
Φ(σ, z)
Φ(σ, z)
Если же y = 0, то cone Bδ (y) = Y , и включение Gσ, z (y) ∈ cone Bδ (y)
выполняется тривиальным образом. Кроме того, в силу (34)
1
z).
Gσ, z (y) = Φ(σ, z) + Ωσ, z (y) Φ(σ, z) + y 2δ(σ,
2
Таким образом, для (σ, z), близких к (σ, z), отображение Gσ, z
непрерывно отображает выпуклый компакт (cone Bδ (y)) ∩ B2δ(σ,
z) (0)
в себя. Поэтому в силу теоремы Брауэра (теорема 2) это отображение
в данном множестве имеет неподвижную точку, т. е. найдется элемент
y = y(σ, z) ∈ (cone Bδ (y)) ∩ B2δ(σ,
z) (0) такой, что y = Gσ, z (y), т. е.
Φ(σ, z + ϕσ, z (y)) = 0.
При этом, согласно (31),
z) = O(Φ(σ, z))
ϕσ, z (y) Ly 2Lδ(σ,
(36)
и для доказательства (29) остается убедиться, что z + ϕσ, z (y) ∈ P .
Из полиэдральности P, а также из включения P \ {z} ⊂ int P легко
выводится, что найдется число ε > 0 такое, что z + (cone(P − z)) ∩
∩ (Bε (0) \ {0}) ⊂ int P . Тогда для любого z ∈ P , достаточно близкого к
z, справедливо включение
z + (cone(P − z)) ∩ Bε (0) ⊂ P.
(37)
Действительно, предположим, что существуют последовательности
{z k } ⊂ P и {ζ k } ⊂ cone(P − z) такие, что {z k } → z (k → ∞), ζ k ε,
z k + ζ k ∈ P ∀ k. Очевидно, в силу выпуклости P без ограничения
общности можем считать, что ζ k = ε ∀ k и что последовательность
{ζ k } сходится к некоторому ζ ∈ cone(P − z) (напомним, что конус
cone(P − z) полиэдральный, значит, замкнутый), причем ζ = ε. Но
тогда {z k + ζ k } → z + ζ (k → ∞), значит, z + ζ ∈ int P , что противоречит выбору ε.
Напомним, ϕσ, z (y) ∈ cone(P − z). Кроме того, из (36) следует,
что при достаточной близости (σ, z) к (σ, z) справедливо неравенство
ϕσ, z (y) ε. Отсюда и из (37) следует требуемое.
О п р е д е л е н и е 2. Говорят, что в точке x ∈ D(σ) выполнено условие Робинсона регулярности ограничений, задающих множество D(σ)
согласно (18), если (19) выполняется при y = 0, т. е. если
∂F
(38)
0 ∈ int F (σ, x) + im
(σ, x) − Q .
∂x
2 А. Ф. Измаилов
34
Гл. 1. Предварительные сведения
Очевидно, что условие Робинсона, впервые предложенное в работе
∂F
[114], обобщает условие сюръективности оператора
(σ, x) в теоре∂x
ме 5 и превращается в него в случае, когда Q = {0} (т. е. в случае
чистых ограничений-равенств). Об интерпретациях условия Робинсона
и его расшифровках для более специальных классов ограничений см.
п. 1.2.6.
Выдающаяся роль, которую условие Робинсона регулярности ограничений играет в современной оптимизации и, в частности, в теории
чувствительности, определяется, в первую очередь, следующей теоремой устойчивости Робинсона, которая была впервые доказана в [114]
и которая немедленно вытекает из теоремы 7, если в последней положить y = 0 и взять y = πQ (F (σ, x)) для каждой пары (σ, x) ∈ Σ × X.
Т е о р е м а 7. Пусть отображение F : Σ × X → Y непрерывно
в точке (σ, x) ∈ Σ × X и дифференцируемо по x в некоторой окрестности этой точки, причем его производная по x непрерывна в точке
(σ, x). Пусть x ∈ D(σ), где множество D(·) введено в (18), причем
в точке x выполнено условие Робинсона (38).
Тогда для (σ, x) ∈ Σ × X, близких к (σ, x), имеет место оценка
dist(x, D(σ)) = O(dist(F (σ, x), Q)).
(39)
Для получения простых доказательств подобных утверждений
(в конечномерном случае!) теорема Брауэра использовалась, скажем,
в работах [2, 5]. Известные доказательства, проходящие в более общем (бесконечномерном) случае (см., например, [50, теор. 2.87], или
оригинальное доказательство в [114]), связаны с привлечением так
называемой теоремы устойчивости Робинсона–Урсеску [112, 127].
Из оценки (39) в соответствующих требованиях гладкости F для
σ ∈ Σ имеем:
dist(x, D(σ)) = O(F (σ, x) − F (σ, x)) = O(σ − σ).
(40)
В случае наличия такой оценки говорят о липшицевой устойчивости
допустимой точки x (по отношению к возмущениям допустимого множества). Таким образом, условие Робинсона регулярности ограничений
влечет липшицеву устойчивость допустимой точки.
З а д а ч а 3. Доказать следующее утверждение об устойчивости
условия Робинсона (38): если оно выполнено в точке x ∈ D(σ), то для
∂F
(σ, x) и F (σ, x)
любых A ∈ L(X, Y ) и y ∈ Y , достаточно близких к
∂x
соответственно, имеет место включение
0 ∈ int(y + im A − Q).
1.2. Нелинейный анализ
35
В частности, для (σ, x) ∈ Σ × X, близких к (σ, x), в условиях теоремы 7 имеет место включение
∂F
0 ∈ int F (σ, x) + im
(σ, x) − Q .
∂x
(Указание. Воспользоваться теоремой 1.1.1.)
1.2.4. Метрическая регулярность и контингентный конус.
В этом и следующем пунктах речь пойдет о свойствах невозмущенного
допустимого множества, в связи с чем опустим зависимость F и D от
параметра. Таким образом, F : X → Y — гладкое отображение и
D = {x ∈ X | F (x) ∈ Q} = F −1 (Q).
(41)
Согласно теореме 7 условие Робинсона, которое в обозначениях
этого пункта принимает вид
0 ∈ int(F (x) + im F (x) − Q),
(42)
влечет следующую оценку расстояния до допустимого множества: для
x ∈ X, близких к x, имеет место
dist(x, D) = O(dist(F (x), Q)).
(43)
Следующее понятие, восходящее к [112] (или даже к классическим
работам [23, 65]; см. также [13] и недавний обзор [19]), выражает
несколько более сильное, чем (43), свойство. Подчеркнем, что эта концепция не является неотъемлимой частью данного курса, она упоминается здесь лишь в целях прояснения геометрической природы условия
Робинсона, а также в значительной степени следуя традиции. Все, что
на самом деле нужно для дальнейшего, содержится в теореме 7 и,
в частности, в оценках (40) и (43).
О п р е д е л е н и е 3. Говорят, что отображение F метрически регулярно в точке x ∈ F −1 (Q) относительно множества Q, если для
(x, y) ∈ X × Y , близких к (x, 0), имеет место оценка
dist(x, F −1 (Q − y)) = O(dist(F (x) + y, Q)).
(44)
Заметим, что F −1 (Q − y) = {x ∈ X | F (x) + y ∈ Q}. Из теоремы 7
немедленно следует, что достаточным для метрической регулярности
является условие Робинсона. Оказывается, что, на самом деле, справедлива и обратная импликация.
Т е о р е м а 8. Пусть отображение F : X → Y непрерывно дифференцируемо в некоторой окрестности точки x ∈ X. Пусть x ∈ D,
где множество D введено в (41).
Тогда отображение F метрически регулярно в точке x относительно множества Q тогда и только тогда, когда в точке x
выполнено условие Робинсона (42).
2*
36
Гл. 1. Предварительные сведения
Д о к а з а т е л ь с т в о. Предположим, что F метрически регулярно
в точке x относительно Q, но (42) не выполняется. Тогда, в силу
утверждения б) из теоремы 1.1.1, найдется элемент μ ∈ Y \ {0} такой,
что
μ, y 0 ∀ y ∈ F (x) + im F (x) − Q.
Отсюда элементарно следует, что μ ∈ (im F (x))⊥ ∩ (RQ (F (x)))◦ .
Для x = x и y = tμ, где t > 0 мало́, из (44) имеем
dist(x, F −1 (Q − tμ)) = dist(x, F −1 (Q − y)) =
= O(dist(F (x) + y, Q)) = O(dist(F (x) + tμ, Q)) = O(t).
Таким образом, для любого достаточно малого t > 0 существует
x(t) ∈ X такой, что
F (x(t)) ∈ Q − tμ,
Тогда
x(t) − x = O(t).
μ, F (x(t)) − F (x) −μ2 t,
а с другой стороны
μ, F (x(t)) − F (x) = μ, F (x)(x(t) − x) + o(x(t) − x) = o(t),
что невозможно.
Введем одно из наиболее содержательных и часто используемых
понятий касательного конуса.
О п р е д е л е н и е 4. Контингентным конусом к произвольному
множеству M ⊂ X в точке x ∈ M называется множество
TM (x) = {ξ ∈ X | ∃ {tk } ⊂ R+ \ {0} такая,
что {tk } → 0 (k → ∞), dist(x + tk ξ, M ) = o(tk )}.
Тот факт, что так определенный контингентный конус действительно является конусом, проверяется элементарно.
З а д а ч а 4. Доказать, что контингентный конус к любому множеству в любой точке замкнут.
З а д а ч а 5. Доказать, что если множество M ⊂ X выпукло, то для
любой точки x ∈ M справедливо следующее утверждение:
TM (x) = cl RM (x)
(и, в частности, TM (x) — выпуклое множество), причем для всякого
ξ ∈ TM (x) оценка
dist(x + tξ, M ) = o(t)
1.2. Нелинейный анализ
37
имеет место для t 0 (а не только вдоль некоторой сходящейся к нулю
справа подпоследовательности {tk }).
Доказать, что если K ⊂ X — выпуклый конус, то для любой точки
x ∈ K справедливо
RK (x) = K + span{x} = K − cone{x}.
З а д а ч а 6. Доказать, что коничность в точке x ∈ M выпуклого
множества M ⊂ X эквивалентна замкнутости RM (x).
Двойственным объектом по отношению к контингентному конусу
является так называемый нормальный конус к множеству M ⊂ X
в точке x ∈ X, определяемый следующим образом:
(TM (x))◦ , если x ∈ M ,
NM (x) =
∅, если x ∈ M.
В силу замкнутости полярного конуса, нормальный конус к любому
множеству в любой точке замкнут.
Если множество M выпукло, то, согласно первому утверждению из
задачи 5, в определении нормального конуса можно заменить TM (x) на
RM (x). Отсюда, например, следует, что для всякого z ∈ Z множество
N (z), введенное в (6), есть ни что иное, как NM (z).
Некоторые полезные соотношения между контингентным и нормальным конусами к выпуклому множеству устанавливаются в следующей лемме.
Л е м м а 2. Пусть M ⊂ X — замкнутое выпуклое множество.
Тогда для любой точки x ∈ M имеет место равенство
(lin TM (x))⊥ = span NM (x),
причем для всякого ξ ∈ ri NM (x) справедливо
lin TM (x) = TM (x) ∩ {ξ}⊥ .
З а д а ч а 7. Доказать лемму 2.
З а д а ч а 8. Для произвольного выпуклого замкнутого множества
M ⊂ X, точки x ∈ M и сходящейся к x последовательности {xk } ⊂ M
доказать следующие утверждения:
a) для любого ξ ∈ TM (x) найдется сходящаяся к ξ последовательность {ξ k } ⊂ X такая, что ξ k ∈ TM (xk ) ∀ k;
б) любая предельная точка любой последовательности {ξ k } ⊂ X
такой, что ξ k ∈ NM (xk ) ∀ k, лежит в NM (x).
З а д а ч а 9. Для произвольного множества M ⊂ X и точек x ∈ M
иx
∈ X доказать следующие равенства:
TM (x) = TM−x (x − x
),
NM (x) = NM−x (x − x
).
38
Гл. 1. Предварительные сведения
Ниже будет постоянно использоваться конус
(F (x))−1 (TQ (F (x))) = {ξ ∈ X | F (x)ξ ∈ TQ (F (x))},
получаемый линеаризацией в точке x ограничений, задающих множество D. Подчеркнем, что здесь линеаризуется как отображение F
(в точке x), так и множество Q (в точке F (x)), если понимать замену
множества контингентным конусом к нему как линеаризацию. Согласно утверждению из задачи 5 вместо TQ (F (x)) можно использовать его
явное выражение:
TQ (F (x)) = cl RQ (F (x)) = cl cone(Q − F (x)).
Однако без особой необходимости это делаться не будет, поскольку
использование TQ (F (x)) несет в себе больше геометрической интуиции.
Из теоремы 7 (а точнее, из справедливой в условиях этой теоремы оценки (43)) легко вытекает следующее утверждение, которое,
в случае чистых ограничений-равенств, принято называть теоремой
Люстерника.
С л е д с т в и е 1. Пусть отображение F : X → Y дифференцируемо в некоторой окрестности точки x ∈ X, причем его производная
непрерывна в этой точке. Пусть x ∈ D, где множество D введено
в (41).
Тогда TD (x) ⊂ (F (x))−1 (TQ (F (x))), причем если в точке x выполнено условие Робинсона (42), то TD (x) = (F (x))−1 (TQ (F (x))) и,
более того, для всякого ξ ∈ (F (x))−1 (TQ (F (x))) оценка
dist(x + tξ, D) = o(t)
(45)
имеет место при t 0.
Д о к а з а т е л ь с т в о. Пусть ξ ∈ TD (x) и пусть {tk } ⊂ R+ \ {0} —
числовая последовательность, отвечающая ξ в силу определения 4,
т. е. {tk } → 0 (k → ∞), dist(x + tk ξ, D) = o(tk ). Тогда существует
последовательность {xk } ⊂ D такая, что xk = x + tk ξ + o(tk ). Имеем
Q F (xk ) = F (x + tk ξ + o(tk )) = F (x) + tk F (x)ξ + o(tk ),
откуда следует, что
tk F (x)ξ + o(tk ) ∈ Q − F (x) ⊂ RQ (F (x)).
Разделив левую и правую части на tk и перейдя к пределу при
k → ∞, с учетом утверждения из задачи 5 получаем включение
F (x)ξ ∈ TQ (F (x)), т. е. ξ ∈ (F (x))−1 (TQ (F (x))).
1.2. Нелинейный анализ
39
Пусть теперь ξ ∈ (F (x))−1 (TQ (F (x))). Тогда F (x)ξ ∈ TQ (F (x)) и,
в силу утверждения из задачи 5, для t 0 имеет место
dist(F (x) + tF (x)ξ, Q) = o(t).
Если выполнено условие Робинсона (42), то согласно теореме 7 для
x ∈ X, близких к x, справедлива оценка (43). Тогда
dist(x + tξ, D) = O(dist(F (x + tξ), Q)) =
= O(dist(F (x) + tF (x)ξ + o(t), Q)) =
= O(dist(F (x) + tF (x)ξ, Q)) + o(t) = o(t),
т. е. справедлива оценка (45), из которой и из определению 4 следует
включение ξ ∈ TD (x).
Таким образом, множество (F (x))−1 (TQ (F (x))) является внешней
аппроксимацией первого порядка контингентного конуса TQ (F (x)),
причем при выполнении в точке x условия Робинсона эта аппроксимация является точной.
1.2.5. Условия регулярности ограничений. По-прежнему рассматриваем невозмущенное допустимое множество вида (41), где
F : X → Y — гладкое отображение. Напомним, что в точке x ∈ D
условие Робинсона регулярности ограничений, задающих множество
D, имеет вид (42). Обсудим некоторые эквивалентные формы этого
условия, а также его расшифровку для некоторых важных специальных
случаев.
З а д а ч а 10. Показать, что условие Робинсона (42) равносильно
условию
cone(F (x) + im F (x) − Q) = Y ,
которое, в свою очередь, равносильно условию
im F (x) − RQ (F (x)) = Y.
(46)
(Указание. Для доказательства первой эквивалентности воспользоваться утверждением а) теоремы 1.1.1 и утверждением из задачи 1.1.1.)
Напомним, что если множество Q конично в точке F (x), то при
локальных (вблизи точки x) рассмотрениях множество D можно заменить на
D = {x ∈ X | F (x) − F (x) ∈ RQ (F (x))}.
(47)
Весьма важным является следующее наблюдение. Из утверждения,
сформулированного в задаче 10, легко следует, что в точке x условие
Робинсона для ограничений, задающих множество D в (47), совпадает
с условием Робинсона для ограничений, задающих множество D в исходной форме (41).
40
Гл. 1. Предварительные сведения
З а д а ч а 11. Показать, что условие Робинсона (42) равносильно
каждому из следующих условий:
im F (x) − TQ (F (x)) = Y ,
(im F (x))⊥ ∩ NQ (F (x)) = {0},
cl(im F (x) − TQ (F (x))) = Y ,
cl(im F (x) − RQ (F (x))) = Y.
(Указание. Воспользоваться теоремой 1.1.1, а также утверждениями г)
и д) из задачи 1.1.4 и утверждением из задачи 10.)
Разумеется, в (46), а также во всех формулах в задаче 11 знак «−»
можно заменить на «+», но предпочтительнее это не делать, сохраняя
визуальную аналогию этих условий с исходным условием (42).
Как уже отмечалось выше, в случае чистых ограничений-равенств
(т. е. если Q = {0} или, более общим образом, Q является одноточечным множеством), то условие Робинсона (42) принимает вид
im F (x) = Y .
Более общая ситуация рассматривается в следующем предложении.
П р е д л о ж е н и е 1. Пусть Y , F и Q представимы в виде Y =
= Y1 × Y2 , F (·) = (F1 (·), F2 (·)) и Q = {0} × Q2 соответственно, где
Y1 и Y2 — (конечномерные) линейные пространства, F1 : X → Y1 и
F2 : X → Y2 — дифференцируемые в точке x ∈ X отображения, 0 —
нулевой элемент в Y1 , Q2 — (замкнутое выпуклое) множество в Y2 ,
причем int Q2 = ∅. Пусть x ∈ D, где множество D введено в (41).
Тогда условие Робинсона (42) равносильно следующему:
im F1 (x) = Y1 и существует элемент ξ ∈ ker F1 (x) такой, что
F2 (x) + F2 (x)ξ ∈ int Q2 .
З а д а ч а 12. Доказать предложение 1. (Указание. Воспользоваться теоремой 1.1.2.)
В частности, если int Q = ∅ (к этому случаю относятся, например,
чистые ограничения-неравенства: для них Q = Rl− ), то условие Робинсона (42) равносильно существованию элемента ξ ∈ X такого, что
F (x) + F (x)ξ ∈ int Q.
Рассмотрим, наконец, ограничения задачи математического программирования. А именно, пусть выполнены условия предложения 1,
причем Y1 = Rl1 , Y2 = Rl2 , Q2 = R− l2 , l1 + l2 = l. Иными словами,
пусть множество D имеет вид
D = {x ∈ X | F1 (x) = 0, F2 (x) 0}.
(48)
Тогда из предложения 1 элементарно выводится, что условие Робинсона
(42) равносильно так называемому условию Мангасариана–Фромови-
1.2. Нелинейный анализ
41
ца [96] регулярности ограничений в точке x, состоящему в следующем:
rank F1 (x) = l1 и существует элемент ξ ∈ ker F1 (x) такой, что
(F2 )I(x) (x)ξ < 0,
где I(x) = {i = 1, ... , l2 | (F2 )i (x) = 0} — множество номеров активных в точке x ограничений-неравенств (т. е. тех, которые в данной
точке выполняются как равенства).
Вернемся к общим ограничениям. Иногда приходится иметь дело
с ситуацией, когда наряду с функциональными ограничениями присутствуют прямые, т. е.
D = {x ∈ P | F (x) ∈ Q},
(49)
где P — замкнутое выпуклое множество в X. Эта постановка сводится
к (41), если ввести отображение Ψ : X → X × Y ,
Ψ(x) = (x, F (x)),
(50)
D = {x ∈ X | Ψ(x) ∈ P × Q}.
(51)
и переписать (49) в виде
З а д а ч а 13. Пусть x ∈ D, где множество D введено согласно (50),
(51). Показать, что условие Робинсона регулярности ограничений, задающих D, в точке x имеет вид
0 ∈ int(F (x) + F (x)(P − x) − Q),
или, эквивалентным образом,
F (x)(RP (x)) − RQ (F (x)) = Y.
Из утверждения, сформулированного в задаче 11, очевидным образом следует, что достаточным для выполнения условия Робинсона (42)
является равенство
im F (x) + lin TQ (F (x)) = Y.
(52)
Это еще одно важное условие регулярности ограничений, называемое
в литературе условием невырожденности (см. [50, разд. 4.6], а также
[106, 122]). Для допустимого множества (48) задачи математического
программирования это условие принимает вид известного условия линейной независимости
F1 (x)
rank
(53)
= l1 + |I(x)|.
(F2 )I(x) (x)
42
Гл. 1. Предварительные сведения
Действительно, в этом случае
TQ (F (x)) = {(0, η 2 ) ∈ Y1 × Y2 | ηi2 0 ∀ i ∈ I(x)},
поэтому
lin TQ (F (x)) = {(0, η 2 ) ∈ Y1 × Y2 | ηi2 = 0 ∀ i ∈ I(x)},
и теперь очевидно, что (52) выполняется тогда и только тогда, когда
выполняется (53).
Условия регулярности ограничений играют чрезвычайно важную
роль в теории оптимизации и, в частности, в теории условий оптимальности; см. параграф 1.3.
1.2.6. Количественная устойчивость допустимого множества:
возмущения по направлениям. Вернемся к вопросу о чувствительности допустимого множества, задаваемого формулой (18), но, в отличие от п. 1.2.3, здесь обратимся к случаю более специальных возмущений. А именно, для заданного направления d ∈ Σ будем рассматривать
значения параметра вида σ = σ(t) = σ + td + o(t), t 0. С одной
стороны, с возмущениями такого типа часто приходится иметь дело
в приложениях. С другой стороны, в этом случае удается несколько
ослабить используемые условия регулярности ограничений и придать
результатам об устойчивости более выраженный количественный характер.
Пусть x ∈ D(σ). Считая элемент ξ ∈ X фиксированным, будем
искать такие дуги вида x(t) = x + tξ + o(t), что x(t) ∈ D(σ(t)) для
любого достаточно малого t 0. Несложно получить необходимые
условия первого порядка, которым должны удовлетворять d и ξ для
существования такой дуги.
З а д а ч а 14. Пусть отображение F : Σ × X → Y дифференцируемо
в точке (σ, x), где x ∈ D(σ). Показать, что для любых d ∈ Σ и ξ ∈ X
и любых последовательностей {tk } ⊂ R+ \ {0} и {ρk } ⊂ Σ таких, что
{tk } → 0, ρk = o(tk ), из справедливости оценки
dist(x + tk ξ, D(σ + tk d + ρk )) = o(tk )
следует включение
∂F
∂F
(σ, x)d +
(σ, x)ξ ∈ TQ (F (σ, x)).
(54)
∂σ
∂x
Для доказательства обратной импликации потребуется следующее
условие, введенное в [43].
О п р е д е л е н и е 5. Говорят, что для заданного в (18) множества
D(·) в точке x ∈ D(σ) выполнено условие регулярности по направлению d ∈ Σ, если
∂F
∂F
0 ∈ int F (σ, x) + im
(55)
(σ, x) + cone
(σ, x)d − Q .
∂x
∂σ
1.2. Нелинейный анализ
43
Заметим, что условие (55) отличается от условия Робинсона (38)
лишь тем, что в правой части (55) присутствует луч cone{ ∂F
∂σ (σ, x)d}
(если d = 0, то этот «луч» вырождается в точку 0, и условия (38) и
(55) совпадают). В частности, очевидно, что если в точке x выполнено
условие Робинсона, то в этой точке выполнено и условие регулярности
по любому направлению d ∈ Σ. Обратное же, конечно, неверно: условие
регулярности по данному направлению d в точке x может иметь место
и при нарушении в этой точке условия Робинсона.
П р и м е р 1. Пусть n = l = 1, F (σ, x) = x2 − σ, Q = R− , σ = x = 0.
Легко проверить, что условие (55) выполнено для любого d > 0. Вместе
с тем, для любого d 0 (55) не имеет места (и, в частности, не имеет
места (38)).
З а д а ч а 15. Показать, что условие (55) регулярности по направлению d ∈ Σ равносильно условию
∂F
∂F
cone F (σ, x) + im
(σ, x) + cone
(σ, x)d − Q = Y ,
∂x
∂σ
которое, в свою очередь, равносильно условию
∂F
∂F
im
(σ, x) + cone
(σ, x)d − RQ (F (σ, x)) = Y
∂x
∂σ
(ср. с задачей 10).
З а д а ч а 16. Показать, что условие (55) регулярности по направлению d ∈ Σ равносильно каждому из следующих условий:
∂F
∂F
im
(σ, x) + cone
(σ, x)d − TQ (F (σ, x)) = Y ,
∂x
∂σ
⊥ ∂F
(σ, x)
im
∩ η∈Y
∂x
η, ∂F (σ, x)d 0 ∩
∂σ
∩ NQ (F (σ, x)) = {0},
∂F
∂F
(σ, x) + cone
(σ, x)d − TQ (F (σ, x)) = Y ,
cl im
∂x
∂σ
∂F
∂F
(σ, x) + cone
(σ, x)d − RQ (F (σ, x)) = Y
cl im
∂x
∂σ
(ср. с задачей 11).
44
Гл. 1. Предварительные сведения
З а д а ч а 17. Показать, что условие (55) регулярности по направлению d ∈ Σ равносильно условию
∂F
∂F
(σ, x)d ∈ int RQ (F (σ, x)) − im
(σ, x) .
∂σ
∂x
(Указание. Воспользоваться теоремой 1.1.1 и утверждением из задачи 16.)
Из утверждения, приведенного в задаче 17, немедленно следует,
что те d ∈ Σ, для которых выполняется условие (55) регулярности
по направлению d, образуют открытое выпуклое множество, которое
является конусом (возможно, с удаленной точкой 0). В частности, если
для некоторого d ∈ Σ в точке x выполняется как условие регулярности
по направлению d, так и условие регулярности по направлению −d, то
в этой точке выполняется условие Робинсона.
З а д а ч а 18. Введем отображение F : R × X → R × Y , F(t, x) =
= R+ × Q. Показать, что условие
= (t, F (σ + td, x)) и множество Q
(55) регулярности по направлению d ∈ Σ равносильно выполнению в
точке (0, x) условия Робинсона регулярности ограничений, задающих
множество
= {(t, x) ∈ R × X | F (t, x) ∈ Q}.
D
Вернемся к вопросу о допустимых дугах.
З а д а ч а 19. Показать, что если выполнено условие (55) регулярности по направлению d ∈ Σ, то множество элементов ξ ∈ X, удовлетворяющих (54), непусто. (Указание. Воспользоваться теоремой 1.1.1
и утверждением из задачи 1.1.1.)
Т е о р е м а 9. Пусть отображение F : Σ × X → Y дифференцируемо в точке (σ, x) ∈ Σ × X и дифференцируемо по x в некоторой
окрестности этой точки, причем его производная по x непрерывна
в точке (σ, x). Пусть x ∈ D(σ), где множество D(·) введено в (18).
Тогда если в точке x выполнено условие (55) регулярности по
заданному направлению d ∈ Σ, то для любого ξ ∈ X, удовлетворяющего (54), и для любого отображения ρ : R+ → Σ такого, что
ρ(t) = o(t), при t 0 имеет место оценка
dist(x + tξ, D(σ + td + ρ(t))) = o(t).
Данная теорема вытекает немедленно из следующей леммы, которая
в несколько более общем варианте была получена в работе [43].
Л е м м а 3. Пусть выполнены условия теоремы 9.
Тогда если в точке x выполнено условие (55) регулярности по
заданному направлению d ∈ Σ, то для любых последовательностей
45
1.2. Нелинейный анализ
{tk } ⊂ R+ \ {0}, {ρk } ⊂ Σ и {xk } ⊂ X таких, что {tk } → 0, ρk = o(tk )
и
xk − x = O(tk ),
dist(F (σ + tk d + ρk , xk ), Q) = o(tk ),
(56)
справедлива оценка
dist(xk , D(σ + tk d + ρk )) = O(dist(F (σ + tk d + ρk , xk ), Q)).
(57)
Д о к а з а т е л ь с т в о. Из утверждения, приведенного в задаче 17,
несложно вывести, что для любого достаточно малого τ > 0 элемент
∂F
(σ, x)d удовлетворяет условию (19). Тогда согласно теореy = −τ
∂σ
ме 6 найдется число δ > 0 такое, что для (σ, x, y) ∈ Σ × X × Q,
близких к (σ, x, F (σ, x)) и удовлетворяющих включению
F (σ, x) − y ∈ cone Bδ
∂F
(σ, x)d ,
∂σ
(58)
имеет место оценка (21).
Для каждого k положим τk = dist(F (σ + tk d + ρk , xk ), Q) и будем
считать, что τk = 0 (поскольку противный случай тривиален). Выбирая
число γ > 0 достаточно большим, добьемся выполнения включения
∂F
∂F
(σ, x)d + B1 (0) ⊂ cone Bδ
(σ, x)d ,
γ
(59)
∂σ
∂σ
и для каждого k положим
θk = (γ + 1)
τk
.
tk
(60)
Заметим, что, в силу второго соотношения в (56), θk → 0 (k → ∞).
В силу первого соотношения в (56), для каждого k имеем
F (σ + tk d + ρk , xk ) =
= F (σ, x) + tk
∂F
∂F
(σ, x)d +
(σ, x)(xk − x) + o(tk ),
∂σ
∂x
откуда, полагая y k = πQ (F (σ + tk d + ρk , xk )), в силу второго соотношения в (56) выводим
∂F
∂F
(σ, x)(xk − x) = y k − F (σ, x) − tk
(σ, x)d + o(tk ).
∂x
∂σ
46
Гл. 1. Предварительные сведения
C учетом этого равенства, а также первого соотношения в (56), для
любого достаточно большого k получаем
F (σ + tk d + ρk , xk − θk (xk − x)) = F (σ + tk d + ρk , xk ) −
∂F
(σ + tk d + ρk , xk )(xk − x) + o(θk xk − x) =
− θk
∂x
∂F
(σ, x)(xk − x) + o(θk tk ) =
= F (σ + tk d + ρk , xk ) − θk
∂x
∂F
(σ, x)d + o(θk tk ),
= F (σ + tk d + ρk , xk ) − θk (y k − F (σ, x)) + θk tk
∂σ
откуда и из (60) следует, что
F (σ + tk d + ρk , xk − θk (xk − x)) − (y k − θk (y k − F (σ, x))) =
∂F
(σ, x)d + o(τk ) =
= F (σ + tk d + ρk , xk ) − y k + (γ + 1)τk
∂σ
∂F
F (σ + tk d + ρk , xk ) − y k
+γ
(σ, x)d +
= τk
F (σ + tk d + ρk , xk ) − y k ∂σ
∂F
(σ, x)d + o(τk ) .
+ τk
∂σ
∂F
(σ, x)d) в си∂σ
∂F
(σ, x)d) для
лу (59). Второе слагаемое также лежит в cone Bδ (
∂σ
любого достаточно большого k, и поэтому для таких k имеет место включение (58) при σ = σ + tk d + ρk , x = xk − θk (xk − x),
y = y k − θk (y k − F (σ, x)).
Как известно (см., например, [9, теор. 4.4.2]), оператор проектирования на замкнутое выпуклое множество является липшицевым с константой 1, поэтому в силу теоремы о среднем и первого соотношения
в (56)
Первое слагаемое в правой части лежит в cone Bδ (
y k − F (σ, x) = πQ (F (σ + tk d + ρk , xk )) − πQ (F (σ, x)) F (σ + tk d + ρk , xk ) − F (σ, x)) = O(tk ) + O(xk − x) = O(tk ).
С учетом этой оценки, из (21), теоремы о среднем, первого соотношения в (56), а также из (60), выводим
dist(xk , D(σ + tk d + ρk )) dist(xk − θk (xk − x), D(σ + tk d + ρk )) + θk xk − x =
= O(F (σ + tk d + ρk , xk − θk (xk − x))−
− (y k − θk (y k − F (σ, x))) + θk xk − x =
1.2. Нелинейный анализ
47
= O(F (σ + tk d + ρk , xk ) − y k ) +
+ O(θk xk − x) + O(θk y k − F (σ, x)) =
= O(dist(F (σ + tk d + ρk , xk ), Q)) + O(θk tk ) =
= O(dist(F (σ + tk d + ρk , xk ), Q)),
что и дает (57).
З а д а ч а 20. Используя лемму 3, доказать теорему 9.
Так же, как и условие Робинсона, в ряде специальных случаев
условие регулярности по направлению можно привести к более простой
и удобной для проверки форме. Начнем со следующего наблюдения:
для задач с чистыми ограничениями-равенствами понятие регулярности по направлению не может быть содержательным. Действительно,
из утверждения, приведенного в задаче 17, следует, что если Q = {0},
то для любого d ∈ Σ условие (55) регулярности по направлению d
выполняется тогда и только тогда, когда выполняется условие регуляр∂F
ности im
(σ, x) = Y .
∂x
П р е д л о ж е н и е 2. Пусть Y , F и Q представимы в виде Y =
= Y1 × Y2 , F (·, ·) = (F1 (·, ·), F2 (·, ·)) и Q = {0} × Q2 соответственно,
где Y1 и Y2 — (конечномерные) линейные пространства, F1 : Σ ×
× X → Y1 и F2 : Σ × X → Y2 — дифференцируемые в точке (σ, x) ∈
∈ Σ × X отображения, 0 — нулевой элемент в Y1 , Q2 — (замкнутое
выпуклое) множество в Y2 , причем int Q2 = ∅. Пусть x ∈ D(σ), где
множество D(·) введено в (18).
Тогда условие (55) регулярности по направлению d ∈ Σ равно∂F1
сильно следующему: im
(σ, x) = Y1 и существуют число t > 0 и
∂x
элемент ξ ∈ X такие, что
∂F1
∂F1
(σ, x)d +
(σ, x)ξ = 0,
∂σ
∂x
F2 (σ, x) + t
∂F2
∂F2
(σ, x)d +
(σ, x)ξ ∈ int Q2 .
∂σ
∂x
З а д а ч а 21. Доказать предложение 2 (ср. с задачей 12).
В частности, если int Q = ∅, то условие (55) регулярности по
направлению d равносильно существованию числа t > 0 и элемента
ξ ∈ X таких, что
F (σ, x) + t
∂F
∂F
(σ, x)d +
(σ, x)ξ ∈ int Q.
∂σ
∂x
Рассмотрим, наконец, ограничения задачи математического программирования. А именно, пусть выполнены условия предложения 2,
48
Гл. 1. Предварительные сведения
причем Y1 = Rl1 , Y2 = Rl2 , Q2 = Rl−2 , l1 + l2 = l. Иными словами, пусть
для σ ∈ Σ
D(σ) = {x ∈ X | F1 (σ, x) = 0, F2 (σ, x) 0}.
Тогда из предложения 2 легко выводится, что условие (55) регулярности по направлению d равносильно так называемому условию Голлана
∂F1
[64] в точке x, состоящему в следующем: rank
(σ, x) = l1 и суще∂x
ствует элемент ξ ∈ X такой, что
∂F1
∂F1
(σ, x)d +
(σ, x)ξ = 0,
∂σ
∂x
∂(F2 )I(σ, x)
∂(F2 )I(σ, x)
(σ, x)d +
(σ, x)ξ < 0,
∂σ
∂x
где I(σ, x) = {i = 1, ... , l2 | (F2 )i (σ, x) = 0}.
1.3. Условия оптимальности
При изложении условий оптимальности, составляющих ядро теории
оптимизации, будем следовать концепции прямой и прямо-двойственной форм таких условий, принятой, скажем, в книге [15, гл. 1] (где,
однако, речь шла лишь о задачах математического программирования).
В этом параграфе рассматривается невозмущенная задача оптимизации, в связи с чем зависимость f , F и D от параметра будем
опускать. Таким образом, речь идет о задаче
f (x) → min,
x ∈ D,
D = {x ∈ X | F (x) ∈ Q} = F −1 (Q),
(1)
(2)
где f : X → R — гладкая функция, F : X → Y — гладкое отображение.
1.3.1. Условия первого порядка. С помощью введенного в определении 1.2.4 понятия контингентного конуса удобно формулировать
необходимое и достаточное условия первого порядка оптимальности
в задаче (1) с произвольным допустимым множеством.
Т е о р е м а 1. Пусть D ⊂ X — произвольное множество, а функция f : X → R дифференцируема в точке x ∈ D.
Тогда если x является локальным решением задачи (1), то
f (x), ξ 0 ∀ ξ ∈ TD (x).
(3)
Д о к а з а т е л ь с т в о. Зафиксируем произвольный ξ ∈ TD (x) и отвечающую ему в силу определения 1.2.4 такую последовательность
1.3. Условия оптимальности
49
{tk } ⊂ R+ \ {0}, что {tk } → 0 (k → ∞), dist(x + tk ξ, D) = o(tk ). Тогда
найдется последовательность {xk } ⊂ D такая, что xk = x + tk ξ + o(tk )
(при этом по необходимости {xk } → x (k → ∞)).
В силу локальной оптимальности точки x в задаче (1) имеем: для
любого достаточно большого k
0 f (xk ) − f (x) = f (x), xk − x + o(xk − x) = tk f (x), ξ + o(tk ).
Разделив левую и правую части этого неравенства на tk и перейдя
к пределу при k → ∞, получим требуемое неравенство в (3).
Необходимое условие оптимальности, приведенное в теореме 1,
называют прямым, в том смысле, что в нем фигурируют лишь переменные исходной задачи (элементы пространства X, также называемые
прямыми переменными). Вместе с тем, (3) эквивалентным образом
переписывается в двойственной форме:
−f (x) ∈ (TD (x))◦ .
(4)
Как будет показано ниже, вычисление конуса (TD (x))◦ для множества
D, заданного в (2), связано с привлечением двойственных переменных (элементов пространства Y ), поэтому получаемые на этом пути
необходимые условия оптимальности называют прямодвойственными.
Приведенному в теореме 1 необходимому условию оптимальности
естественным образом отвечает достаточное условие первого порядка
оптимальности: оно получается заменой для ξ = 0 нестрогого неравенства в (3) строгим.
О п р е д е л е н и е 1. Будем говорить, что для задачи (1) в точке x ∈
∈ D выполнено условие линейного роста, если существует число γ > 0
такое, что для любого x ∈ D, достаточно близкого к x, имеет место
неравенство
f (x) f (x) + γx − x.
Т е о р е м а 2. Пусть выполнены условия теоремы 1.
Тогда условие линейного роста для задачи (1) в точке x равносильно условию
f (x), ξ > 0 ∀ ξ ∈ TD (x) \ {0}.
(5)
В частности, при выполнении (5) x является строгим локальным
решением задачи (1).
Д о к а з а т е л ь с т в о. Докажем, что из условия линейного роста
следует (5). От противного: предположим, что существует элемент
ξ ∈ TD (x) \ {0} такой, что
f (x), ξ 0.
(6)
50
Гл. 1. Предварительные сведения
Такому ξ в силу определения 1.2.4 отвечает последовательность {tk } ⊂
⊂ R+ \ {0} такая, что {tk } → 0 (k → ∞), dist(x + tk ξ, D) = o(tk ). Тогда
найдется последовательность {xk } ⊂ D такая, что xk = x + tk ξ + o(tk ).
При этом по необходимости {xk } → x (k → ∞) и tk = O(xk − x).
В силу условия линейного роста и (6), для любого достаточно большого
k имеем
γxk − x f (xk ) − f (x) = f (x), xk − x + o(xk − x) =
= tk f (x), ξ + o(xk − x) o(xk − x),
что невозможно при любом γ > 0.
Теперь докажем, что из (5) следует условие линейного роста.
Вновь от противного: предположим, что существует последовательность {xk } ⊂ D \ {x} такая, что {xk } → x (k → ∞) и
f (xk ) f (x) + o(xk − x).
(7)
Последовательность {(xk − x)/xk − x} лежит на единичной сфере
в X, которая является компактом, а значит, эта последовательность
имеет предельную точку. Без ограничения общности можем считать,
что вся последовательность сходится к некоторому ξ ∈ X \ {0}. В силу
определения 1.2.4 при этом ξ ∈ TD (x), поскольку для любого k
D x = x + x − xξ + x − x
k
k
k
xk − x
−ξ =
xk − x
= x + xk − xξ + o(xk − x).
С другой стороны, согласно (7) для любого k
o(xk − x) f (xk ) − f (x) = f (x), xk − x + o(xk − x).
Разделив левую и правую части этого неравенства на xk − x и
перейдя к пределу при k → ∞, получаем
f (x), ξ 0,
что противоречит (5).
Пусть теперь множество D задано в (2). Напомним, что условие
Робинсона регулярности ограничений, задающих D, в точке x ∈ D
имеет вид
0 ∈ int(F (x) + im F (x) − Q).
(8)
Согласно следствию 1.2.1 при выполнении этого условия имеет место
равенство
(9)
TD (x) = (F (x))−1 (TQ (F (x))).
1.3. Условия оптимальности
51
Далее, согласно утверждению из задачи 1.2.11 условие Робинсона (8)
равносильно равенству
im F (x) − TQ (F (x)) = Y.
Отсюда и из утверждения б) леммы 1.1.2 о полярном конусе вытекает,
что
((F (x))−1 (TQ (F (x))))◦ = (F (x))∗ ((TQ (F (x)))◦ ),
(10)
причем, поскольку F (x) ∈ Q, то
(TQ (F (x)))◦ = NQ (F (x)).
(11)
Суммируя (9)–(11), получаем, что при выполнении условия Робинсона необходимое условие первого порядка оптимальности (4) принимает вид
−f (x) ∈ (F (x))∗ (NQ (F (x))).
Иными словами, это условие состоит в существовании такого элемента
λ ∈ NQ (F (x)), что
−f (x) = (F (x))∗ λ.
Для того чтобы привести полученное необходимое условие оптимальности к общепринятой форме, введем функцию Лагранжа задачи
(1), (2): для x ∈ X, λ ∈ Y положим
L(x, λ) = f (x) + λ, F (x).
Кроме того, определим множество
∂L
Λ(x) = λ ∈ NQ (F (x)) (x, λ) = 0 .
∂x
(12)
О п р е д е л е н и е 2. Точка x ∈ X называется стационарной точкой задачи (1), (2), если Λ(x) = ∅. Элементы множества Λ(x) называются множителями Лагранжа, отвечающими стационарной точке x.
Напомним, что непустота нормального конуса NQ (F (x)) подразумевает включение F (x) ∈ Q. Поэтому непустота множества Λ(x)
подразумевает допустимость точки x в задаче (1), (2).
Следующая теорема, вытекающая из сказанного выше и справедливого для всех x ∈ X, λ ∈ Y равенства
∂L
(x, λ) = f (x) + (F (x))∗ λ,
∂x
(13)
содержит прямодвойственное необходимое условие первого порядка
оптимальности.
52
Гл. 1. Предварительные сведения
Т е о р е м а 3. Пусть функция f : X → R дифференцируема в точке x ∈ X, а отображение F : X → Y дифференцируемо в некоторой окрестности этой точки, причем его производная непрерывна
в точке x.
Тогда, если x является локальным решением задачи (1) и (2)
и в точке x выполнено условие Робинсона (8), то x — стационарная
точка задачи (1), (2) в смысле определения 2.
Элементарно проверяется, что множество Λ(x) всегда выпукло и
замкнуто (это следует из выпуклости и замкнутости нормального конуса).
З а д а ч а 1. Доказать следующий результат (полученный в работе
[60] для задачи математического программирования): если для данной
точки x ∈ X множество Λ(x) непусто, то это множество ограничено
тогда и только тогда, когда в точке x выполнено условие Робинсона (8).
(Указание. Воспользоваться утверждением из задачи 1.2.11.)
Подчеркнем, что условие Робинсона не гарантирует единственности множителя Лагранжа, отвечающего стационарной точке x задачи
(1), (2). Единственность множителя гарантируется более сильными
условиями регулярности ограничений, например, введенным в п. 1.2.5
условием невырожденности
im F (x) + lin TQ (F (x)) = Y.
(14)
З а д а ч а 2. Доказать, что если в стационарной точке x задачи
(1), (2) выполнено условие невырожденности (14), то множество Λ(x)
состоит из единственного элемента. (Указание. Воспользоваться леммой 1.2.2.)
Следующее условие, введенное в [120], также гарантирует единственность множителя.
О п р е д е л е н и е 3. Говорят, что в стационарной точке x задачи (1), (2) для множителя Лагранжа λ ∈ Λ(x) выполнено строгое
условие регулярности ограничений, если
где
0 ∈ int(F (x) + im F (x) − Q0 (x, λ)),
(15)
Q0 (x, λ) = {y ∈ Q | λ, y − F (x) = 0}.
(16)
Заметим, что F (x) ∈ Q0 (x, λ). Поскольку Q0 (x, λ) ⊂ Q, из строгого
условия регулярности (15) следует условие Робинсона (8). Точнее,
условие (15) есть ни что иное, как условие Робинсона в точке x для
ограничений вида F (x) ∈ Q0 (x, λ). В частности, это условие допускает
эквивалентные интерпретации, указанные в задачах 1.2.10, 1.2.11, если
в них Q заменить на Q0 (x, λ). Например, (15) равносильно условию
(im F (x))⊥ ∩ NQ0 (x, λ) (F (x)) = {0}.
(17)
1.3. Условия оптимальности
53
Разумеется, условие im F (x) = Y является достаточным как для
строгой регулярности, так и для невырожденности в смысле (14).
Л е м м а 1. Пусть функция f : X → R и отображение F : X → Y
дифференцируемы в точке x ∈ X. Пусть x — стационарная точка
задачи (1), (2), а λ ∈ Y — отвечающий x множитель Лагранжа.
Тогда справедливы следующие утверждения:
а) если в точке x для множителя Лагранжа λ выполнено строгое
условие регулярности (15), то Λ(x) = {λ};
б) если Λ(x) = {λ} и, кроме того, конус RNQ (F (x)) (λ) замкнут, то
выполнено строгое условие регулярности (15).
Д о к а з а т е л ь с т в о. Докажем а). Для произвольного λ ∈ Λ(x)
из (12) и (13) следует включение λ − λ ∈ ker(F (x))∗ . В силу (15)
для произвольного y ∈ Y найдутся число t > 0 и элементы ξ ∈ X
и η ∈ Q0 (x, λ) такие, что ty = F (x) + F (x)ξ − η. При этом, в силу
(16), λ, η − F (x) = 0 и η − F (x) ∈ Q − F (x) ⊂ RQ (F (x)) ⊂ TQ (F (x)).
Тогда, согласно (12),
λ − λ, ty = (F (x))∗ (λ − λ), ξ + λ − λ, F (x) − η =
= λ, F (x) − η 0,
что в силу произвольности y ∈ Y возможно лишь при λ − λ = 0.
Докажем б). От противного: предположим, что (15), а значит,
и (17) не имеет места, т. е. найдется элемент η ∈ ((im F (x))⊥ ∩
∩ NQ0 (x, λ) (F (x))) \ {0}.
Поскольку, согласно (16),
Q0 (x, λ) − F (x) = {y ∈ Q − F (x) | λ, y = 0},
то
RQ0 (x, λ) (F (x)) = {η ∈ RQ (F (x)) | λ, η = 0}.
Тогда согласно утверждениям утверждениям а) и д) из задачи 1.1.4
и утверждению из задачи 1.2.5, используя замкнутость RNQ (F (x)) (λ),
выводим
NQ0 (x, λ) (F (x)) = (TQ0 (x, λ) (F (x)))◦ = (RQ0 (x, λ) (F (x)))◦ =
= cl(NQ (F (x)) + span{λ}) = TNQ (F (x)) (λ) = RNQ (F (x)) (λ).
Таким образом, η ∈ RNQ (F (x)) (λ). Отсюда и из (12), (13) легко вывоη ∈ Λ(x) для любого достаточно малого t > 0, а это
дится, что λ + t
противоречит тому, что Λ(x) состоит из единственного элемента λ. Отметим, что условие замкнутости RNQ (F (x)) (λ) в утверждении б)
доказанной леммы существенно (см. [50, пример 4.54]).
54
Гл. 1. Предварительные сведения
Стационарные точки задачи (1), (2) и отвечающие им множители
Лагранжа характеризуются следующей прямодвойственной системой
условий первого порядка оптимальности относительно (x, λ) ∈ X × Y :
∂L
(x, λ) = 0,
∂x
λ ∈ NQ (F (x)).
(18)
О чувствительности для таких систем, которые можно рассматривать
как обобщенные уравнения (см. п. 1.2.2), речь пойдет в гл. 3.
Займемся расшифровкой полученных результатов для некоторых
важных специальных случаев.
В очередной раз напомним, что если множество Q конично в точке
F (x) ∈ Q, то при локальных (вблизи точки x) рассмотрениях множество D можно заменить на
D = {x ∈ X | F (x) − F (x) ∈ RQ (F (x))},
(19)
причем в точке x условие Робинсона для ограничений, задающих
множество D в (19), совпадает с условием Робинсона для ограничений, задающих множество D в исходной форме (2), т. е. с (8) (см.
п. 1.2.5). При этом в (12) условие λ ∈ NQ (F (x)) следовало бы заменить на λ ∈ NRQ (F (x)) (0) = (RQ (F (x)))◦ , где принято во внимание
очевидное равенство TRQ (F (x)) (0) = RQ (F (x)). Вместе с тем, в силу утверждения а) из задачи 1.1.4 и утверждения из задачи 1.2.5
NQ (F (x)) = (TQ (F (x)))◦ = (RQ (F (x)))◦ , значит, условия λ ∈ NQ (F (x))
и λ ∈ (RQ (F (x)))◦ на самом деле равносильны. Заметим, однако, что
при использовании последнего условия на множители допустимость
точки x в задаче (1), (2) уже не является автоматической, и требование
допустимости должно явно присутствовать в определении стационарной точки.
Заметим далее, что, в случае коничности множества Q в точке F (x), в пересечении с некоторой окрестностью нуля множество
Q0 (x, λ) − F (x) совпадает с конусом
K(x, λ) = {η ∈ RQ (F (x)) | λ, η = 0}.
Поэтому строгое условие регулярности (15) и его эквивалентное представление (17) можно переписать в виде эквивалентных соотношений
im F (x) − K(x, λ) = Y
и
(im F (x))⊥ ∩ (K(x, λ))◦ = {0}
(20)
соответственно.
Другой важный частный случай — это когда само множество Q
является конусом. Согласно утверждению из задачи 1.2.5 при этом
TQ (F (x)) = cl RQ (F (x)) = cl(Q + span{F (x)})
55
1.3. Условия оптимальности
откуда и из утверждения из задачи 1.1.2 и утверждений а) и г) из
задачи 1.1.4 следует, что если x ∈ D, то
NQ (F (x)) = Q◦ ∩ {F (x)}⊥ .
Таким образом, условие λ ∈ NQ (F (x)) можно записать в виде
F (x) ∈ Q,
λ ∈ Q◦ ,
λ, F (x) = 0,
(21)
а система (18) принимает вид
∂L
(x, λ) = 0,
∂x
F (x) ∈ Q,
λ ∈ Q◦ ,
λ, F (x) = 0.
Заметим, что при этом фигурирующее в строгом условии регулярности
множество Q0 (x, λ) в (16) есть
Q0 (x, λ) = {y ∈ Q | λ, y = 0}.
(22)
Еще более специальным является случай задачи математического
программирования. Пусть Y = Y1 × Y2 , Y1 = Rl1 , Y2 = Rl2 , l1 + l2 = l,
F (·) = (F1 (·), F2 (·)), F1 : X → Y1 и F2 : X → Y2 — (гладкие) отображения, Q = {0} × Rl−2 , 0 — нулевой элемент в Y1 . Иными словами, пусть
множество D имеет вид
D = {x ∈ X | F1 (x) = 0, F2 (x) 0}.
(23)
Поскольку при этом Q является конусом, пользуясь формой (21) условия λ ∈ NQ (F (x)) получаем, что последнее условие можно записать
в виде
F1 (x) = 0,
F2 (x) 0,
λ2 0,
λ2 , F2 (x) = 0,
(24)
где λ = (λ1 , λ2 ), λ1 ∈ Y1 , λ2 ∈ Y2 . Аналогично, прямодвойственная
система условий первого порядка оптимальности (18) принимает вид
системы уравнений и неравенств
∂L
(x, λ) = 0,
∂x
F1 (x) = 0,
F2 (x) 0,
λ2 0,
λ2 , F2 (x) = 0,
называемой системой Каруша–Куна–Таккера [76, 83].
Последнее условие в (24) при выполнении двух предыдущих равносильно следующему:
(λ2 )i (F2 )i (x) = 0 ∀ i = 1, ... , l2 .
В такой форме это условие называют условием дополняющей нежесткости. Оно равносильно тому, что
(λ2 )i = 0 ∀ i ∈ {1, ... , l2 } \ I(x),
56
Гл. 1. Предварительные сведения
что и выражает смысл условия дополняющей нежесткости: оно «выключает» из рассмотрения те ограничения-неравенства, которые не
являются активными в рассматриваемой точке x и, соответственно,
локально ни на что не влияют.
Отметим, что в случае задачи математического программирования
конус RNQ (F (x)) (λ), фигурирующий в утверждении б) леммы 1, полиэдрален (поскольку полиэдральное множество конично в каждой своей
точке, а полярный конус к полиэдральному конусу полиэдрален). Это
значит, что в данном случае строгое условие регулярности (15) является не только достаточным, но необходимым и для единственности
множителя Лагранжа λ ∈ Λ(x), отвечающего стационарной точке x.
Поскольку строгое условие регулярности (15) есть условие Робинсона для ограничения F (x) ∈ Q0 (x, λ), где в данном случае Q0 (x, λ)
задается формулой (22), то это условие можно интерпретировать как
условие Мангасариана–Фромовица (см. п. 1.2.5) при наличии дополнительного ограничения λ, F (x) = 0. Учитывая форму ограничений
в (23) и неравенство λ2 0, это дополнительное ограничение в его
содержательной части имеет вид
(F2 )i (x) = 0,
где
i ∈ I+ (x, λ),
I+ (x, λ) = {i ∈ I(x) | (λ2 )i > 0}.
Соответствующие ограничения-неравенства (с номерами i ∈ I+ (x, λ))
нужно, разумеется, опустить.
Таким образом, строгое условие регулярности в стационарной точке
x задачи математического программирования (1), (23) для множителя
Лагранжа λ ∈ Λ(x) состоит в следующем:
F1 (x)
= l1 + |I+ (x, λ)|
rank
(F2 )I (x, λ) (x)
+
и существует элемент ξ ∈ ker F1 (x) ∩ ker(F2 )I
+ (x, λ)
(x) такой, что
(F2 )I(x)\I+ (x, λ) (x)ξ < 0.
В литературе по математическому программированию это условие известно как строгое условие Мангасариана–Фромовица. Совершенно
очевидно, что это условие слабее введенного в п. 1.2.5 условия линейной независимости (эквивалента условия невырожденности для задачи
математического программирования). Это и понятно: условие невырожденности является лишь достаточным для единственности множителя,
в то время как строгое условие регулярности в случае задачи математического программирования является и необходимым.
В случае задачи с чистыми ограничениями-равенствами (т. е. при
Q = {0}, или l2 = 0 в обозначениях задачи математического программи-
1.3. Условия оптимальности
57
рования), условие λ ∈ NQ (F (x)) принимает вид F (x) = 0; прямодвойственная система условий первого порядка оптимальности (18) суть
система уравнений
∂L
(x, λ) = 0,
∂x
F (x) = 0,
называемая системой Лагранжа, а сама теорема 3 в этом случае
выражает классический принцип Лагранжа.
Наконец, в случае задачи безусловной оптимизации (т. е. при l =
= 0), теорема 3 выражает принцип Ферма: всякое локальное решение
x такой задачи должно удовлетворять равенству f (x) = 0.
Вернемся к случаю общих ограничений. Утверждение из задачи 1.2.11 позволяет заключить, что нарушение в точке x ∈ D условия
Робинсона равносильно существованию элемента λ ∈ Y \ {0} такого,
что
(F (x))∗ λ = 0, λ ∈ NQ (F (x)).
(25)
Но тогда в теореме 3 можно отказаться от условия Робинсона, если
соответствующим образом модифицировать определение стационарной
точки. Для этого введем обобщенную функцию Лагранжа задачи (1),
(2): для x ∈ X, λ0 ∈ R+ , λ ∈ Y положим
L0 (x, λ0 , λ) = λ0 f (x) + λ, F (x).
Кроме того, определим множество
∂L0
(x, λ0 , λ) = 0 . (26)
Λ0 (x) = (λ0 , λ) ∈ (R+ × NQ (F (x))) \ {0} ∂x
О п р е д е л е н и е 4. Точка x ∈ X называется обобщенно-стационарной точкой задачи (1), (2), если Λ0 (x) = ∅. Элементы множества
Λ0 (x) называются обобщенными множителями Лагранжа, отвечающими обобщенно-стационарной точке x.
Т е о р е м а 4. Пусть выполнены условия теоремы 3.
Тогда если x является локальным решением задачи (1), (2),
то x — обобщенно-стационарная точка задачи (1), (2) в смысле
определения 4.
Действительно,
Λ(x) = {λ ∈ Y | (1, λ) ∈ Λ0 (x)},
(27)
поэтому в случае выполнения условия Робинсона нужное утверждение
следует из теоремы 3. Если же условие Робинсона не выполнено, то
(0, λ) ∈ Λ0 (x), где λ — тот ненулевой элемент, который удовлетворяет
(25). Подчеркнем, что в последнем случае получаемое необходимое
58
Гл. 1. Предварительные сведения
условие оптимальности не слишком содержательно: оно выполняется
при любой целевой функции f вне зависимости от того, является ли
x локальным решением задачи (1), (2) или нет. Можно сказать, что в
этом случае теорема 4 выражает только сам факт нарушения в допустимой точке x условия Робинсона. Тем не менее, в теории оптимизации
эта теорема находит приложения, например, при построении условий
второго порядка оптимальности (см. п. 1.3.2, а также монографию [4],
в которой, помимо прочего, излагаются тонкие необходимые условия
второго порядка оптимальности, содержательные и при нарушении
условия Робинсона).
В контексте задач математического программирования теорема 4
известна как теорема Ф. Джона [73].
З а д а ч а 3. Расшифровать теорему 4 для задачи математического
программирования.
Заметим, что все условия на (λ0 , λ) в (26) положительно-однородны
относительно этого набора двойственных переменных. Поэтому, если
множество Λ0 (x) содержит обобщенный множитель (λ0 , λ), у которого
λ0 > 0, то (1, λ/λ0 ) ∈ Λ0 (x), а значит, λ/λ0 ∈ Λ(x) (см. (27)), т. е. точка
x является стационарной в смысле определения 2.
Общим образом, под условием регулярности ограничений задачи
(1), (2) принято понимать любое условие на F и Q, которое гарантирует, что для рассматриваемого локального решения x этой задачи
существует обобщенный множитель (λ0 , λ), у которого λ0 > 0. Согласно сказанному выше, условие Робинсона (8), и, тем более, условие
невырожденности (14) являются условиями регулярности ограничений
в указанном смысле.
Другой важный пример условия регулярности доставляет условие
линейности, состоящее в том, что отбражение F аффинно, а множество Q полиэдрально (при этом задача (1), (2) сводится к задаче
математического программирования с линейными ограничениями).
З а д а ч а 4. Доказать, что условие линейности является условием
регулярности ограничений. (Указание. Воспользоваться утверждением
а) леммы 1.1.2 о полярном конусе.)
Следующий пример, заимствованный из [50, пример 3.12], демонстрирует, что без требования полиэдральности множества Q условие
линейности не является условием регулярности ограничений.
П р и м е р 1. Пусть n = 2, l = 3, f (x) = x2 , F (x) = (x1 , x2 , x1 ),
Q = {y ∈ R3 | y12 + y22 y32 , y3 0}. При этом D = {x ∈ R2 | x1 0, x2 = 0}, и, в частности, точка x = 0 является решением задачи
(1), (2). Заметим, что Q — конус, причем F (x) = 0, т. е. Q обладает
коничностью в точке F (x), но полиэдральным конус Q не является.
1.3. Условия оптимальности
59
Далее, как легко видеть из (12), множители Лагранжа, отвечающие
точке x, определяются соотношениями
λ1 + λ3 = 0,
и
1 + λ2 = 0
λ ∈ NQ (F (x)) = Q◦ = −Q,
причем последнее включение расписывается как
λ21 + λ22 λ23 ,
λ3 0.
Очевидно, что полученная система соотношений относительно λ несовместна, т. е. Λ(x) = ∅.
Заметим, наконец, что условие Робинсона (8) (а, тем более, условие невырожденности (14)) не только является условием регулярности
ограничений, но и сообщает задаче (1), (2) следующее свойство: выполнение этого условия делает невозможным существование обобщенных
множителей вида (0, λ) ни при каком λ ∈ Y \ {0} (ср. с задачей 1).
Для условия линейности подобное, конечно, не имеет места.
С некоторыми недавними результатами о содержательных необходимых условиях оптимальности без предположений о регулярности
ограничений, либо в ослабленных предположениях такого рода, можно
познакомиться в работах [4, 16, 17].
Переходя к достаточным условиям первого порядка оптимальности
для задачи (1), (2), определим так называемый критический конус
этой задачи в точке x ∈ D:
C(x) = {ξ ∈ (F (x))−1 (TQ (F (x))) | f (x), ξ 0}.
(28)
Этот объект играет центральную роль в достаточных условиях оптимальности, а также в необходимых условиях второго порядка.
Л е м м а 2. Пусть функция f : X → R и отображение F : X → Y
дифференцируемы в точке x ∈ X, которая является стационарной
точкой задачи (1), (2).
Тогда
C(x) = {ξ ∈ (F (x))−1 (TQ (F (x))) | f (x), ξ = 0},
причем для произвольного λ ∈ Λ(x) имеет место равенство
C(x) = {ξ ∈ (F (x))−1 (TQ (F (x))) | λ, F (x)ξ = 0}.
(29)
Д о к а з а т е л ь с т в о. Для произвольных ξ ∈ C(x) и λ ∈ Λ(x) в силу
(12), (13) справедливо
0 f (x), ξ = −λ, F (x)ξ 0,
откуда немедленно следует требуемое.
60
Гл. 1. Предварительные сведения
Для задачи математического программирования, т. е. задачи (1),
(23),
C(x) = {ξ ∈ X | F1 (x)ξ = 0, (F2 )I(x) ξ 0, f (x), ξ 0},
а формула (29) принимает вид
C(x)={ξ ∈ X | F1 (x)ξ =0, (F2 )I(x) ξ 0, (λ2 )i (F2 )i (x), ξ=0 ∀ i ∈ I(x)}.
О п р е д е л е н и е 5. Говорят, что в стационарной точке x задачи
(1), (2) для множителя Лагранжа λ ∈ Λ(x) выполнено условие строгой
дополнительности, если
λ ∈ ri NQ (F (x)).
(30)
З а д а ч а 5. Доказать, что если стационарной точке x задачи (1),
(2) отвечает единственный множитель Лагранжа и для этого множителя выполнено условие строгой дополнительности, то для точки x
выполнено условие невырожденности (14) (ср. с задачей 2.) (Указание.
Воспользоваться леммой 1.2.2).
Из лемм 1.2.2 и 2 вытекает
Л е м м а 3. Пусть функция f : X → R и отображение F : X → Y
дифференцируемы в точке x ∈ X, которая является стационарной
точкой задачи (1), (2), причем для некоторого λ ∈ Λ(x) выполнено
условие строгой дополнительности.
Тогда
C(x) = (F (x))−1 (lin TQ (F (x))),
(31)
и, в частности, C(x) является линейным подпространством.
Для задачи математического программирования, т. е. задачи (1),
(23), условие строгой дополнительности (30) и формула (31) принимают соответственно вид
(λ2 )i > 0 ∀ i ∈ I(x)
и
C(x) = {ξ ∈ X | F1 (x)ξ = 0, (F2 )I(x) ξ = 0}.
Из следствия 1.2.1 и теоремы 2 вытекает
Т е о р е м а 5. Пусть функция f : X → R и отображение F : X →
→ Y дифференцируемы в точке x ∈ X. Пусть x ∈ D, где множество
D введено в (2).
Тогда справедливы следующие утверждения:
1.3. Условия оптимальности
61
а) если
C(x) = {0},
(32)
то для задачи (1), (2) в точке x выполнено условие линейного
роста, и, в частности, x является строгим локальным решением задачи (1), (2);
б) если отображение F : X → Y дифференцируемо в некоторой
окрестности точки x, а его производная непрерывна в этой
точке, причем в точке x выполнено условие Робинсона (8),
то условие линейного роста для задачи (1), (2) в точке x
равносильно условию (32).
П р и м е р 2. Пусть n = l = 1, f (x) = −x, F (x) = x, Q = R− . Элементарно проверяется, что при этом в точке x = 0 ∈ D выполнено
условие Робинсона (8) (которое в данном случае равносильно условию
Мангасариана–Фромовица), достаточное условие первого порядка (32),
а также условие линейного роста для задачи (1), (2).
Ясно, что достаточное условие первого порядка оптимальности (32) может выполняться только в том случае, когда конус
(F (x))−1 (TQ (F (x))) является острым (см. (28)). В случае задачи
математического программирования
(F (x))−1 (TQ (F (x))) = {ξ ∈ X | F1 (x)ξ = 0, (F2 )I(x) ξ 0},
и этот конус не может быть острым, если n > l, т. е. количество
переменных превосходит количество ограничений (заметим, что в примере 2 n = l). Поэтому область применимости теоремы 5 весьма ограничена. В случае, когда (32) не имеет места, для получения более
тонких необходимых, а также достаточных, условий оптимальности
следует привлекать информацию о вторых производных функции f и
отображения F .
Условиям первого порядка оптимальности для задач с абстрактными ограничениями посвящены работы многих авторов (см., например,
[85, 97, 107, 128]).
1.3.2. Условия второго порядка. Начнем со следующего наблюдения.
З а д а ч а 6. Пусть отображение F : X → Y дважды дифференцируемо в точке x ∈ X. Пусть x ∈ D, где множество D введено в (2).
Показать, что
TD (x) ⊂ {ξ ∈ (F (x))−1 (TQ (F (x))) | F (x)[ξ, ξ] ∈
∈ cl(TQ (F (x)) − im F (x))}. (33)
(Указание. Воспользоваться утверждением из задачи 1.2.5.)
62
Гл. 1. Предварительные сведения
Таким образом, множество в правой части (33) можно рассматривать как внешнюю аппроксимацию второго порядка контингентного
конуса. Заметим, что согласно утверждению из задачи 1.2.11 при
выполнении в точке x условия Робинсона это множество совпадает
с (F (x))−1 (TQ (F (x))), и включение (33) ничего не добавляет к включению
TD (x) ⊂ (F (x))−1 (TQ (F (x))),
установленному в следствии 1.2.1. Однако при нарушении условия
Робинсона это не так: (33) может давать более точную аппроксимацию
контингентного конуса, чем аппроксимация первого порядка из следствия 1.2.1, что видно уже на простейших примерах.
П р и м е р 3. Пусть n = l = 1, F (x) = x2 , Q = R− . При этом x = 0 ∈
∈ D, TD (x) = {0} и, как нетрудно вычислить, (F (x))−1 (TQ (F (x))) =
= R, в то время как множество в правой части (33) равно {0}.
Разумеется, условие Робинсона (Мангасариана–Фромовица) в точке x
не имеет места.
Сказанное приводит к мысли ввести в рассмотрение следующее
сужение критического конуса задачи (1), (2) в точке x ∈ D:
C2 (x) = {ξ ∈ C(x) | F (x)[ξ, ξ] ∈ cl(TQ (F (x)) − im F (x))}
(34)
(при этом для согласованности обозначений естественно положить
C1 (x) = C(x)). Еще раз подчеркнем, что при выполнении условия
Робинсона (8) C2 (x) = C(x).
З а д а ч а 7. Показать, что в случае задачи математического программирования (1), (23)
C2 (x) = {ξ ∈ C(x) | ∃ u ∈ X такой, что F1 (x)u + F1 (x)[ξ, ξ] = 0,
(F2 )I(x) (x)u + (F2 )I(x) [ξ, ξ] 0}.
Из теоремы 2 и утверждения из задачи 6 вытекает следующее
достаточное условие оптимальности в задаче (1), (2).
Т е о р е м а 6. Пусть функция f : X → R дифференцируема в точке x ∈ X, а отображение F : X → Y дважды дифференцируемо
в этой точке. Пусть x ∈ D, где множество D введено в (2).
Тогда если
C2 (x) = {0},
(35)
то для задачи (1), (2) в точке x выполнено условие линейного роста,
и, в частности, x является строгим локальным решением задачи
(1), (2).
В задаче из примера 3 с любой целевой функцией в точке x
выполняются (35) и условие линейного роста для задачи (1), (2) (три-
1.3. Условия оптимальности
63
виальным образом, поскольку x — единственная допустимая точка), а
вот (32) выполняться не может, поскольку конус (F (x))−1 (TQ (F (x)))
не является острым.
П р и м е р 4. Пусть n = l = 2, f (x) = x1 + ax2 , где a ∈ [−1, 1];
F (x) = (−x1 , −x21 + x22 ), Q = R2− . Легко проверить, что при этом точка
x = 0 является решением задачи (1), (2), и при a ∈ (−1, 1) в этой
точке имеет место (35), но не (32), поскольку C(x) = {ξ ∈ R2 | ξ1 0,
ξ1 −aξ2 } = {0}. Условие Робинсона (Мангасариана–Фромовица)
в точке x, конечно же, не выполняется, и Λ(x) = ∅ при любом a, кроме
a = 0.
Подчеркнем, что приведенное достаточное условие оптимальности
(35) (как, разумеется, и более сильное достаточное условие первого
порядка (32)) не предполагает, что x — стационарная точка задачи (1),
(2) в смысле определения 2: множество множителей Λ(x) может быть
пустым. В задаче из примера 3 это множество будет пусто для любой
целевой функцией f такой, что f (x) = 0. В задаче из примера 4 это
множество пусто при любом a, кроме a = 0.
Теперь же обратимся к случаю стационарности рассматриваемой
точки x, не предполагая чего-либо относительно свойств C1 (x) или
C2 (x). Заметим, что в теории чувствительности используются прежде
всего достаточные условия оптимальности. Однако естественные достаточные условия второго порядка всегда отвечают некоторым необходимым условиям второго порядка; с последних и начнем, предполагая
выполнение в точке x условия Робинсона, а также коничность множества Q в точке F (x).
Поскольку речь идет об условиях второго порядка, будем рассматривать более «детализированное» понятие касания. Точнее, вместо
векторов ξ ∈ TD (x) будем рассматривать такие пары (ξ 1 , ξ 2 ) ∈ X × X,
для которых существует последовательность {tk } ⊂ R+ \ {0} такая,
что {tk } → 0 (k → ∞) и
dist(x + tk ξ 1 + t2k ξ 2 , D) = o(t2k ).
(36)
Подход к получению необходимых условий второго порядка посредством анализа на оптимальность вдоль таких «параболических» касательных дуг был предложен, видимо, в [38] и развит в целом ряде
последующих работ (см., например, [39, 45, 53]).
П р е д л о ж е н и е 1. Пусть отображение F : X → Y непрерывно
дифференцируемо в некоторой окрестности точки x ∈ X и дважды
дифференцируемо в этой точке. Пусть x ∈ D, где множество D
введено в (2).
Тогда справедливы следующие утверждения:
а) если для данной пары (ξ 1 , ξ 2 ) ∈ X × X существует последовательность {tk } ⊂ R+ \ {0} такая, что {tk } → 0 (k → ∞) и
64
Гл. 1. Предварительные сведения
выполнено (36), то ξ 1 ∈ (F (x))−1 (TQ (F (x))) и
1
F (x)ξ 2 + F (x)[ξ 1 , ξ 1 ] ∈ TTQ (F (x)) (F (x)ξ 1 );
2
(37)
б) если множество Q конично в точке F (x), а в точке x выполнено условие Робинсона (8), то для любой пары (ξ 1 , ξ 2 ) ∈
∈ (F (x))−1 (TQ (F (x))) × X, удовлетворяющей (37), при t 0
справедлива оценка
dist(x + tξ 1 + t2 ξ 2 , D) = o(t2 ).
(38)
Напомним, что если ξ 1 ∈ C(x), то F (x)ξ 1 ∈ TQ (F (x)), поэтому
формула (37) в этой теореме корректна.
Д о к а з а т е л ь с т в о. Докажем а). Из (36) следует, что ξ 1 ∈ TD (x).
Поэтому, согласно следствию 1.2.1, ξ 1 ∈ (F (x))−1 (TQ (F (x))). Далее,
найдется последовательность {xk } ⊂ D такая, что xk = x + tk ξ 1 +
+ t2k ξ 2 + o(t2k ) (при этом по необходимости {xk } → x (k → ∞)). Тогда ∀ k
Q F (xk ) = F (x + tk ξ 1 + t2k ξ 2 + o(t2k )) =
1
= F (x) + tk F (x)ξ 1 + t2k F (x)ξ 2 + F (x)[ξ 1 , ξ 1 ] + o(t2k ),
2
поэтому
1
tk F (x)ξ 1 + t2k F (x)ξ 2 + F (x)[ξ 1 , ξ 1 ] + o(t2k ) ∈
2
∈ Q − F (x) ⊂ RQ (F (x)) ⊂ TQ (F (x)),
откуда следует, что
1
F (x)ξ 1 + tk F (x)ξ 2 + F (x)[ξ 1 , ξ 1 ] + o(tk ) ∈ TQ (F (x)).
2
Это дает (37).
Докажем б). Из (37) и утверждения из задачи 1.2.5 имеем: для
любого достаточно малого t > 0 найдется η(t) ∈ TQ (F (x)) такой, что
1
(39)
η(t) = F (x)ξ 1 + t F (x)ξ 2 + F (x)[ξ 1 , ξ 1 ] + o(t)
2
(при этом по необходимости η(t) → F (x)ξ 1 (t → 0)).
Напомним, что свойство коничности множества Q в точке F (x)
состоит в том, что в пересечении с некоторой окрестностью нуля множество Q − F (x) совпадает с RQ (x). При этом конус RQ (x) замкнут
по необходимости, а значит, согласно утверждению из задачи 1.2.5
65
1.3. Условия оптимальности
в пересечении с некоторой окрестностью нуля TQ (F (x)) = RQ (F (x))
совпадает с Q − F (x). Отсюда и из включения η(t) ∈ TQ (F (x)) следует,
что для любого достаточно малого t > 0 имеет место tη(t) ∈ Q − F (x).
Но тогда, в силу (39),
dist(F (x + tξ 1 + t2 ξ 2 ), Q) = dist(F (x) + tη(t) + o(t2 ), Q) = o(t2 ),
и из теоремы 1.2.7 о количественной устойчивости допустимого множества вытекает оценка (38).
Заметим, что, согласно утверждению из задачи 1.2.5,
TTQ (F (x)) (F (x)ξ 1 ) = cl TQ (F (x)) + span{F (x)ξ 1 } .
Из предложения 1 вытекает следующее прямое необходимое условие второго порядка оптимальности.
Т е о р е м а 7. Пусть функция f : X → R и отображение F : X →
→ Y дважды дифференцируемы в точке x ∈ X, причем отображение
F : X → Y непрерывно дифференцируемо в некоторой окрестности
этой точки.
Тогда если x является локальным решением задачи (1), (2),
причем множество Q конично в точке F (x), и в точке x выполнено
условие Робинсона (8), то для всякого ξ 1 ∈ C(x) и любого ξ 2 ∈ X,
удовлетворяющего (37), справедливо неравенство
1
f (x), ξ 2 + f (x)[ξ 1 , ξ 1 ] 0.
2
(40)
Д о к а з а т е л ь с т в о. Зафиксируем произвольные ξ 1 ∈ C(x) и ξ 2 ∈
∈ X, удовлетворяющие (37). В силу утверждения б) предложения 1,
для любой последовательности {tk } ⊂ R+ \ {0} такой, что {tk } → 0
(k → ∞), найдется последовательность {xk } ⊂ D такая, что xk = x +
+ tk ξ 1 + t2k ξ 2 + o(t2k ) (при этом по необходимости {xk } → x (k → ∞)).
В силу локальной оптимальности точки x в задаче (1), (2) имеем:
для любого достаточно большого k
0 f (xk ) − f (x) =
1
= tk f (x), ξ 1 + t2k f (x), ξ 2 + f (x)[ξ 1 , ξ 1 ] + o(t2k ) 2
1
2
tk f (x), ξ 2 + f (x)[ξ 1 , ξ 1 ] + o(t2k ),
2
где учтено, что f (x), ξ 1 0. Разделив левую и правую части полученного неравенства на t2k и перейдя к пределу при k → ∞, получим
требуемое неравенство в (40).
Для того чтобы получить прямодвойственную форму установленного в теореме 7 необходимого условия второго порядка оптмальности,
3 А. Ф. Измаилов
66
Гл. 1. Предварительные сведения
воспользуемся теоремой 1.1.2 об отделимости двух выпуклых множеств.
Т е о р е м а 8. Пусть выполнены условия теоремы 7.
Тогда если x является локальным решением задачи (1), (2),
причем множество Q конично в точке F (x), и в точке x выполнено
условие Робинсона (8), то
∀ ξ ∈ C(x) ∃ λ ∈ Λ(x) такой, что
∂ 2L
(x, λ)[ξ, ξ] 0.
∂x2
(41)
Д о к а з а т е л ь с т в о. Возьмем произвольный элемент ξ ∈ C(x) и
обозначим через T2 (ξ) множество тех ξ 2 ∈ X, которые удовлетворяют
(37) при ξ 1 = ξ. Определим множества
1
M1 (ξ) = (α, y) ∈ R × Y α = f (x), ξ 2 + f (x)[ξ, ξ],
2
1
y = F (x)ξ 2 + F (x)[ξ, ξ], ξ 2 ∈ X ,
2
M2 (ξ) = (R− \ {0}) × TTQ (F (x)) (F (x)ξ).
Первое из этих множеств аффинно, а второе выпукло, причем, согласно теореме 7, M1 (ξ) ∩ M2 (ξ) = ∅. Применяя теорему 1.1.2, получаем
существование пары (λ0 , λ) ∈ (R × Y ) \ {0} такой, что
1
1
λ0 f (x), ξ 2 + f (x)[ξ, ξ] + λ, F (x)ξ 2 + F (x)[ξ, ξ] 2
2
λ0 β + λ, η
∀ ξ 2 ∈ X, ∀ β < 0, ∀ η ∈ TTQ (F (x)) (F (x)ξ).
Отсюда элементарно следует, что
λ0 f (x) + (F (x))∗ λ = 0,
λ0 0, λ ∈ (TTQ (F (x)) (F (x)ξ))◦ ,
1
λ0 f (x)[ξ, ξ] + λ, F (x)[ξ, ξ] 0.
2
Поскольку, в силу утверждения из задачи 1.2.5,
(42)
(43)
TQ (F (x)) ⊂ TTQ (F (x)) (F (x)ξ),
то
(TTQ (F (x)) (F (x)ξ))◦ ⊂ (TQ (F (x)))◦ = NQ (F (x)),
откуда и из последнего соотношения в (42) следует, что λ ∈ NQ (F (x)).
Тогда из первого и второго соотношений в (42) вытекает включение
(λ0 , λ) ∈ Λ0 (x) (см. (26)), и, как уже было отмечено выше, условие Робинсона гарантирует, что λ0 > 0. Переобозначая λ/λ0 через λ,
получаем: λ ∈ Λ(x), причем, согласно (43), имеет место требуемое
неравенство в (41).
1.3. Условия оптимальности
67
П р и м е р 5. Пусть n = l = 2, f (x) = −x21 − x22 и F (x) = (x1 x2 ,
− x22 ), Q = {0}. При этом x = 0 — единственная допустимая точка,
а значит решение задачи (1), (2), и Λ(x) = R2 , C(x) = R2 . Очевидно,
что ∀ ξ ∈ R2 \ {0} найдется элемент λ ∈ R2 такой, что
x21
λ, F (x)[ξ, ξ] > 0
(поскольку F (x)[ξ, ξ] = 0). Домножая при необходимости λ на достаточно большое положительное число можем добиться выполнения
неравенства
∂ 2L
(x, λ)[ξ, ξ] = f (x)[ξ, ξ] + λ, F (x)[ξ, ξ] > 0.
∂x2
Таким образом, (41) действительно имеет место.
Заметим, что матрица
λ1
−2(1 − λ2 )
∂ 2L
(x,
λ)
=
λ1
−2(1 + λ2 )
∂x2
в этом примере не является неотрицательно определенной ни при
каком λ ∈ R2 , т. е. нельзя указать универсальный (не зависящий от ξ)
множитель λ ∈ Λ(x), с которым неравенство в (41) выполнялось бы
для всех ξ ∈ C(x).
В приведенном примере условие Робинсона в точке x не выполняется. Более того, для задач с чистыми ограничениями-равенствами
регулярность ограничений (т. е. равенство im F (x) = Y ) гарантирует
единственность множителя, и при этом необходимое условие второго
порядка если выполняется, то именно с этим множителем. Однако для
задач с более общими ограничениями это не так: условие Робинсона
не гарантирует выполнение неравенства в (41) с универсальным (не
зависящим от ξ ∈ C(x)) множителем. Следующий пример заимствован
из [36] (хотя примеры такого рода были известны и ранее; см., например, [2]).
√
2
Прим
√е р 6. Пусть2 n = l = 3, 2f (x) 2= x3 , F (x) = (23 3 x1 x2 − 2x2 −
− x3 , −2 3 x1 x2 − 2x2 − x3 , −3x1 + x2 − x3 ), Q = R− . Ограничения
можно записать в виде
x3 qi [x, x],
i = 1, 2, 3,
где qi : X × X → R — симметричные билинейные формы, которые, как
нетрудно видеть, обладают следующим свойством: ∀ x ∈ X qi [x, x] 0
хотя бы для одного i = 1, 2, 3. Отсюда немедленно следует, что точка
x = 0 является глобальным решением задачи (1), (2). В этой точке
выполняется условие Робинсона (Мангасариана–Фромовица), причем
3*
68
Гл. 1. Предварительные сведения
Λ(x) = {λ ∈ R3+ | λ1 + λ2 + λ3 = 1}, C(x) = {ξ ∈ R3 | ξ3 = 0}, и для
ξ 1 = (1, 0, 0) ∈ C(x), ξ 2 = (0, 1, 0) ∈ C(x) и любого λ ∈ R3 справедливо
∂2L
∂2L
(x, λ)[ξ 1 , ξ 1 ] = −λ3 ,
(x, λ)[ξ 2 , ξ 2 ] = −4λ1 − 4λ2 + 2λ3 .
2
∂x
∂x2
Ни при каком λ ∈ Λ(x) выражения в правых частях одновременно
неотрицательны быть не могут.
Следующий пример показывает, что снять требование коничности в
теоремах 7 и 8 нельзя. Это совершенно естественно: при отсутствии коничности необходимые условия второго порядка оптимальности должны учитывать кривизну множества Q вблизи точки F (x), что приводит
к появлению в этих условиях так называемого σ-члена [45, 50].
П р и м е р 7. Пусть n = l = 2, f (x) = x1 − x22 и F (x) = x, Q =
= {y ∈ R2 | y1 ay22 }, a 1. При этом D = {x ∈ R2 | x1 ax22 }, и,
в частности, точка x = 0 является решением задачи (1), (2), причем
im F (x) = Y , значит, в этой точке выполняется условие Робинсона
(и даже условие невырожденности и строгое условие регулярности),
но множество Q не обладает коничностью в точке F (x). Далее,
C(x) = {ξ ∈ R2 | ξ1 = 0}, и при любом λ ∈ R2
∂ 2L
(x, λ)[ξ, ξ] = f (x)[ξ, ξ] = −2ξ22 < 0 ∀ ξ ∈ C(x) \ {0},
∂x2
т. е. (41) не имеет места, как и (40), при ξ 2 = 0.
Обратимся к достаточным условиям, отвечающим полученным
необходимым условиям второго порядка. При нарушении (35) расчитывать на линейный рост уже не приходится. В связи с этим введем
следующее (более слабое) условие.
О п р е д е л е н и е 6. Будем говорить, что для задачи (1) в точке x ∈
∈ D выполнено условие квадратичного роста, если существует число
γ > 0 такое, что для любого x ∈ D, достаточно близкого к x, имеет
место неравенство
f (x) f (x) + γx − x2 .
Т е о р е м а 9. Пусть функция f : X → R и отображение F : X →
→ Y дважды дифференцируемы в точке x ∈ X. Пусть x ∈ D, где
множество D введено в (2).
Тогда справедливы следующие утверждения:
а) если
∂2L
(x, λ)[ξ, ξ] > 0, (44)
∂x2
то для задачи (1), (2) в точке x выполнено условие квадратичного роста, и, в частности, x является строгим локальным
решением задачи (1), (2);
∀ ξ ∈ C(x) \ {0} ∃ λ ∈ Λ(x) такой, что
1.3. Условия оптимальности
69
б) если множество Q конично в точке F (x) и если в точке x
выполнено условие Робинсона (8), то условие квадратичного
роста для задачи (1), (2) в точке x равносильно условию (44).
Д о к а з а т е л ь с т в о. Докажем а). От противного: предположим,
что существует последовательность {xk } ⊂ D \ {x} такая, что {xk } → x
(k → ∞) и
f (xk ) f (x) + o(xk − x2 ).
(45)
Без ограничения общности можем считать, что последовательность
{(xk − x)/xk − x} сходится к некоторому ξ ∈ X \ {0}. В силу определения 1.2.4 при этом ξ ∈ TD (x), а значит, ξ ∈ (F (x))−1 (TQ (F (x)))
(см. следствие 1.2.1).
С другой стороны, в силу (45)
o(xk − x2 ) f (xk ) − f (x) = f (x), xk − x + o(xk − x).
Разделив левую и правую части этого неравенства на xk − x и
перейдя к пределу при k → ∞, получаем
f (x), ξ 0.
Таким образом, ξ ∈ C(x) \ {0} (см. (28)).
Выберем для полученного ξ множитель λ ∈ Λ(x) согласно (44).
Тогда поскольку для любого k справедливо F (xk ) − F (x) ∈ Q − F (x) ⊂
⊂ RQ (F (x)) ⊂ TQ (F (x)) (см. задачу 1.2.5), то из (12) для любого
достаточно большого k имеем
f (xk ) − f (x) f (xk ) − f (x) + λ, F (xk ) − F (x) =
∂L
(x, λ), xk − x +
= L(xk , λ) − L(x, λ) =
∂x
1 ∂ 2L
(x, λ)[xk − x, xk − x] + o(xk − x2 ) =
2 ∂x2
1
∂ 2L
= xk − x2 2 (x, λ)[ξ, ξ] + o(xk − x2 ) γxk − x2
2
∂x
+
при некотором γ > 0, что противоречит (45).
З а д а ч а 8. Доказать утверждение б) теоремы 9. (Указание. Доказательство можно получить несложной модификацией доказательств
теорем 7 и 8.)
Невозможность снять условие коничности в утверждении б) теоремы 9 демонстрируется примером 7.
З а д а ч а 9. Показать, что в примере 7 при a > 1 в точке x = 0
выполнено условие квадратичного роста.
70
Гл. 1. Предварительные сведения
З а д а ч а 10. Доказать, что условие (44) равносильно следующему
(формально более сильному условию): существует ограниченное подмножество M ⊂ Λ(x) такое, что
∀ ξ ∈ C(x) \ {0} ∃ λ ∈ M такой, что
∂ 2L
(x, λ)[ξ, ξ] > 0.
∂x2
П р и м е р 8. Пусть n = l = 2, f (x) = x1 − x2 + x22 , F (x) = (−x1 +
+ x2 , −x21 + x22 ), Q = R2− (ср. с примером 4). Легко видеть, что при
этом точка x = 0 является решением задачи (1), (2), Λ(x) = {(1, λ2 ) ∈
∈ R2 | λ2 0}, C(x) = C2 (x) = {ξ ∈ R2 | ξ1 = ξ2 }, и ∀ ξ ∈ C(x) \ {0}
∂2L
(x, λ)[ξ, ξ] = 2ξ12 > 0 ∀ λ ∈ Λ(x),
∂x2
т. е. выполнено (44), но не (35), а тем более (32).
В приведенном примере (44) выполняется с универсальным (не
зависящим от ξ ∈ C(x)) множителем, но это вовсе не всегда так (см.
примеры 5, 6).
При рассмотрении случаев возможного нарушения условия Робинсона часто используется достаточное условие второго порядка оптимальности следующего вида:
∂ 2 L0
(x, λ0 , λ)[ξ, ξ] > 0
∂x2
(46)
(см., например, [22, 97]). Однако, как показывается в следующем предложении, это условие суть лишь комбинация условий (35) и (44), причем использование последних двух условий по отдельности приводит
к более точным оценкам в теории чувствительности. Это совершенно
естественно, поскольку первое из них гарантирует линейный рост,
а второе — лишь квадратичный.
∀ ξ ∈ C(x) \ {0} ∃ (λ0 , λ) ∈ Λ0 (x) такой, что
П р е д л о ж е н и е 2. Пусть выполнены условия теоремы 9.
Тогда справедливы следующие утверждения:
а) условие (46) равносильно условию
∂ 2 L0
(x, λ0 , λ)[ξ, ξ] > 0;
∂x2
б) если Λ(x) = ∅, то условие (46) равносильно условию (35);
в) если Λ(x) = ∅, то условие (46) равносильно условию (44), которое, в свою очередь, равносильно условию
∀ ξ ∈ C2 (x) \ {0} ∃ (λ0 , λ) ∈ Λ0 (x) такой, что
∀ ξ ∈ C2 (x) \ {0} ∃ λ ∈ Λ(x) такой, что
∂ 2L
(x, λ)[ξ, ξ] > 0.
∂x2
(47)
71
1.3. Условия оптимальности
Д о к а з а т е л ь с т в о. Прежде всего убедимся, что для всех элементов ξ ∈ X таких, что F (x)[ξ, ξ] ∈ cl(TQ (F (x)) − im F (x)), условие
(46) выполняется автоматически. Действительно, в силу утверждения
б) теоремы 1.2.1 и утверждения из задачи 1.2.1 для всякого такого ξ
найдется такой элемент λ ∈ (cl(TQ (F (x)) − im F (x)))◦ , что
λ, F (x)[ξ, ξ] > 0
(48)
(последнее подразумевает, что λ = 0). Но, согласно утверждению из
задачи 1.1.2 и утверждениям а) и г) из задачи 1.1.4,
(cl(TQ (F (x)) − im F (x)))◦ = (TQ (F (x)))◦ ∩ (im F (x))◦ =
= NQ (F (x)) ∩ (im F (x))⊥ = NQ (F (x)) ∩ ker(F (x))∗ , (49)
откуда следует, что (0, λ) ∈ Λ0 (x) (см. (26)), причем, согласно (48),
∂ 2 L0
(x, 0, λ)[ξ, ξ] = λ, F (x)[ξ, ξ] > 0.
∂x2
В силу (28) и (34), сказанное доказывает утверждение а), а также
тот факт, что из (35) следует (46).
Далее, если Λ(x) = ∅, то, как легко видеть из (26)
Λ0 (x) = {(0, λ) ∈ R+ × (NQ (F (x)) \ {0}) | λ ∈ ker(F (x))∗ } =
= {0} × ((NQ (F (x)) ∩ (im F (x))⊥ ) \ {0}).
Но тогда для любой пары (λ0 , λ) ∈ Λ0 (x) и любого ξ ∈ X такого, что
F (x)[ξ, ξ] ∈ cl(TQ (F (x)) − im F (x)), в силу (49) справедливо
∂ 2 L0
(x, λ0 , λ)[ξ, ξ] = λ, F (x)[ξ, ξ] 0,
∂x2
поэтому (46) может иметь место лишь при выполнении (35) (см. также
(34)). Тем самым доказано утверждение б).
Пусть теперь Λ(x) = ∅ и для заданного ξ ∈ C(x) \ {0} и некоторой
пары (λ0 , λ) ∈ Λ0 (x) выполнено неравенство в (46). Если λ0 > 0, то
неравенство в (44) также выполнено, если подставить в него λ/λ0 ∈
∈ Λ(x) и θ 0
∈ Λ(x) вместо λ. Если же λ0 = 0, то для произвольных λ
имеем: (θ, λ + θλ) ∈ Λ0 (x) (см. (26)), причем если θ > 0 достаточно
мало, то
∂ 2 L0
(x, θ, λ + θλ)[ξ,
ξ] > 0,
∂x2
и все сведено к уже рассмотренному случаю λ0 > 0. Таким образом,
в этом случае из (46) следует (44). Обратная импликация тривиальна
(см. (27)).
72
Гл. 1. Предварительные сведения
Для доказательства эквивалентности (44) и (47) остается вспомнить доказанное выше автоматическое выполнение (46) для ξ ∈ X
таких, что F (x)[ξ, ξ] ∈ cl(TQ (F (x)) − im F (x)). Это завершает доказательство утверждения в).
Из утверждения в) доказанного предложения в частности следует,
что если Λ(x) = ∅, то условие (44) слабее, чем (35). Если же Λ(x) =
= ∅, то (44) очевидным образом эквивалентно достаточному условию
первого порядка (32), которое, разумеется, сильнее условия (35), если
только не предполагать выполнение условия Робинсона (38).
Достаточное условие второго порядка оптимальности вида (46)
естественным образом соответствует определенным необходимым условиям второго порядка, формулируемым в терминах обобщенной функции Лагранжа и обобщенных множителей и справедливым без какихлибо условий регулярности ограничений. Дополнительные сведения и
библиографические комментарии по условиям второго порядка оптимальности можно найти в работах [50, гл. 3] и [4].
Глава 2
ЧУВСТВИТЕЛЬНОСТЬ ДЛЯ ЗАДАЧ
ОПТИМИЗАЦИИ
Эта глава посвящена «непосредственному» анализу чувствительности для задач оптимизации. Сначала рассматриваются общие возмущения, а потом более специальные возмущения по направлениям,
допускающие более тонкий количественный анализ.
2.1. Общие возмущения
В этом параграфе обратимся к изучению семейства задач оптимизации
f (σ, x) → min, x ∈ D(σ),
(1)
D(σ) = {x ∈ X | F (σ, x) ∈ Q},
(2)
где σ ∈ Σ — параметр. Пусть σ ∈ Σ — базовое значение этого параметра, x ∈ X — локальное решение задачи (1), (2) при σ = σ, и пусть
функция минимума v и множества S(σ) решений возмущенных задач
определены так же, как во введении, σ ∈ Σ.
Для каждого σ ∈ Σ определим функцию Лагранжа задачи (1), (2):
для x ∈ X, λ ∈ Y
L(σ, x, λ) = f (σ, x) + λ, F (σ, x).
Кроме того, следуя терминологии, введенной в параграфе 1.3, для
задачи (1), (2) при σ = σ в точке x определим множество множителей
Лагранжа
∂L
Λ(σ, x) = λ ∈ NQ (F (σ, x)) (σ, x, λ) = 0 ,
(3)
∂x
критический конус
C(σ, x) = C1 (σ, x) =
−1
∂f
∂F
(TQ (F (σ, x))) = ξ∈
(σ, x)
(σ, x), ξ 0 , (4)
∂x
∂x
74
Гл. 2. Чувствительность для задач оптимизации
а также его сужение
2
∂ F
(σ, x)[ξ, ξ] ∈
C2 (σ, x) = ξ ∈ C(σ, x)
∂x2
∂F
(σ, x)
. (5)
∈ cl TQ (F (σ, x)) − im
∂x
2.1.1. Количественная устойчивость при наличии оценки расстояния до допустимого множества возмущенной задачи. В этом
пункте никакие конкретные условия регулярности выполненными не
предполагаются, однако предполагается, что существует p ∈ (0, 1] такое, что для σ ∈ Σ имеет место оценка
dist(x, D(σ)) = O(σ − σp ),
(6)
т. е. точка x обладает гёльдеровой (с показателем p) устойчивостью
по отношению к возмущениям допустимого множества. Естественно,
(6) подразумевает, что D(σ) ∩ B = ∅ для всех σ ∈ Σ, достаточно
близких к σ.
При выполнении в точке x условия Робинсона
∂F
0 ∈ int F (σ, x) + im
(σ, x) − Q
(7)
∂x
оценка (6) имеет место при p = 1 согласно теореме 1.2.7 (случай
липшицевой устойчивости допустимой точки x; см. (1.2.40)). Вместе
с тем, известны более слабые условия, гарантирующие оценку (6),
правда, возможно, при p < 1; см. [6, 34].
Следующая теорема объединяет в себе теорему устойчивости для
задачи (1), (2) и оценку сверху функции минимума. Более общие
результаты об устойчивости для задач оптимизации можно найти,
например, в работах [37] и [50, разд. 4.1].
Т е о р е м а 1. Пусть функция f : Σ × X
F : Σ × X → Y непрерывны в окрестности
Пусть x — локальное решение задачи (1),
последовательность {σ k } ⊂ Σ такова, что
существует p ∈ (0, 1] такое, что
→ R и отображение
точки (σ, x) ∈ Σ × X.
(2) при σ = σ. Пусть
{σ k } → σ (k → ∞) и
dist(x, D(σ k )) = O(σ k − σp ).
(8)
Тогда имеет место равенство
lim v(σ k ) = v(σ),
k→∞
(9)
причем если функция f непрерывна по Липшицу в окрестности
точки (σ, x), то справедлива оценка
v(σ k ) v(σ) + O(σ k − σp ).
(10)
2.1. Общие возмущения
75
Кроме того, S(σ k ) = ∅ для любого достаточно большого k и
sup dist(x, S(σ)) → 0 (k → ∞).
(11)
x∈S(σk )
В частности, если x — строгое локальное решение задачи (1), (2)
при σ = σ, то
sup x − x → 0 (k → ∞).
(12)
x∈S(σk )
Д о к а з а т е л ь с т в о. Полунепрерывность v снизу в точке σ установлена в предложении 1 во введении, поэтому для доказательства (9)
достаточно проверить, что
lim sup v(σ k ) v(σ).
(13)
k→∞
Из (8) следует, что найдется последовательность {xk } ⊂ X такая, что
xk ∈ D(σ k ) для любого достаточно большого k, причем
xk − x = O(σ k − σp ).
(14)
Тогда для любого достаточно большого k справедливо xk ∈ D(σ k ) ∩ B,
поэтому v(σ k ) f (σ k , xk ), следовательно,
lim sup v(σ k ) lim f (σ k , xk ) = f (σ, x) = v(σ),
k→∞
k→∞
что и дает (13). Более того, если функция f непрерывна по Липшицу
в окрестности точки (σ, x), то, в силу (14),
v(σ k ) − v(σ) f (σ k , xk ) − f (σ, x) =
= O(σ k − σ) + O(xk − x) = O(σ k − σp ),
что доказывает (10).
Непустота S(σ k ) для всех достаточно больших k следует из непустоты D(σ k ) ∩ B и теоремы Вейерштрасса. Докажем (11). От противного: без ограничения общности можем предположить, что найдутся
число ε > 0 и последовательность {xk } ⊂ X такие, что ∀ k имеет место
xk ∈ S(σ k ), но
dist(xk , S(σ)) ε.
(15)
k
При этом {x } содержится в компакте B, значит, имеет предельную
) ∈ Q в силу непрерывности F и замкнутости Q.
точку x
, причем F (σ, x
Таким образом, x
∈ D(σ) ∩ B. Переходя при необходимости к подпоследовательностям, в силу доказанного равенства (9) имеем
f (σ, x
) = lim f (σ k , xk ) = lim v(σ k ) = v(σ),
k→∞
k→∞
) = v(σ), значит, x
∈ S(σ). Но это противоречит (15).
т. е. f (σ, x
76
Гл. 2. Чувствительность для задач оптимизации
Если x — строгое локальное решение задачи (1), (2) при σ = σ,
то (12) является следствием (11) и соглашений о выборе радиуса δ
шара B, принятых во введении (эти соглашения подразумевают, что в
данном случае S(σ) = {x}).
В следующих двух теоремах предполагается выполненной оценка
(10) (которая, согласно теореме 1, выполняется автоматически при
выполнении (6)). Комбинируя это предположение с различными достаточными условиями оптимальности из параграфа 1.3, приходим к
оценкам на решения возмущенных задач, а также оценкам снизу функции минимума. В контексте задач математического программирования
эти теоремы были предложены в [14].
Т е о р е м а 2. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дифференцируемы в точке (σ, x) ∈ Σ × X. Пусть
x ∈ D(σ), где D(·) введено в (2). Пусть последовательности {σ k } ⊂ Σ
и {xk } ⊂ X таковы, что {σ k } → σ, {xk } → x (k → ∞), xk ∈ D(σ k )
∀ k и существует p ∈ (0, 1] такое, что
f (σ k , xk ) f (σ, x) + O(σ k − σp ).
(16)
Тогда:
а) если отображение F дважды дифференцируемо в точке (σ, x)
по переменной x и
C2 (σ, x) = {0},
(17)
то
xk − x = O(σ k − σmin{p, 1/2} ),
(18)
f (σ k , xk ) f (σ, x) + O(σ k − σmin{p, 1/2} );
(19)
C(σ, x) = {0},
(20)
xk − x = O(σ k − σp ),
(21)
f (σ k , xk ) f (σ, x) + O(σ k − σp );
(22)
б) если
то
в) если отображение F дважды дифференцируемо в точке (σ, x)
по переменной x, выполнено (17) и для любого достаточно
большого k выполняется
∂F
∂F
−
(σ, x)(σ k − σ) ∈ cl TQ (F (σ, x)) − im
(σ, x) ,
(23)
∂σ
∂x
то имеют место оценки (21), (22).
2.1. Общие возмущения
77
Д о к а з а т е л ь с т в о. Пусть xk = x для любого достаточно большого k (рассмотрение подпоследовательностей, вдоль которых xk = x,
тривиально). Предположим, что выполнено (17), а (18) не имеет места,
т. е. (возможно для подпоследовательности)
σ k − σmin{p, 1/2}
→ 0 (k → ∞).
xk − x
(24)
Для каждого k положим ξ k = (xk − x)/xk − x, и будем считать,
что {ξ k } сходится к некоторому ξ ∈ X \ {0}. Тогда
Q − F (σ, x) F (σ k , xk ) − F (σ, x) =
∂F
(σ, x)ξ k + O(σ k − σ) + o(xk − x), (25)
= xk − x
∂x
∂F
∂F
(σ, x) ⊃ Q − F (σ, x) −
(σ, x)(xk − x) ∂x
∂x
∂F
(σ, x)(xk − x) =
F (σ k , xk ) − F (σ, x) −
∂x
1
∂ 2F
= xk − x2 2 (σ, x)[ξ k , ξ k ] + O(σ k − σ) + o(xk − x2 ). (26)
2
∂x
Q − F (σ, x) − im
Кроме того, из (16) имеем
O(σ k − σp ) f (σ k , xk ) − f (σ, x) =
∂f
k
k
(σ, x), ξ
= x − x
+ O(σ k − σ) + o(xk − x). (27)
∂x
Разделив левую и правую части соотношения (25) на xk − x и
перейдя к пределу при k → ∞, получаем включение
∂F
(σ, x)ξ ∈ cl RQ (F (σ, x)) = TQ (F (σ, x))
∂x
(см. задачу 1.2.5). Аналогично, в силу (24), разделив левую и правую
части (26) на xk − x2 и перейдя к пределу при k → ∞, получим
∂ 2F
(σ, x)[ξ, ξ] ∈ cl(RQ (F (σ, x))−
∂x2
∂F
∂F
(σ, x)) ⊂ cl(TQ (F (σ, x)) − im
(σ, x)).
− im
∂x
∂x
k
Наконец, разделив левую и правую
части (27)
на x − x и перейдя
∂f
к пределу при k → ∞, получим
(σ, x), ξ 0, где вновь принято
∂x
78
Гл. 2. Чувствительность для задач оптимизации
во внимание (24). Таким образом, ξ ∈ C2 (σ, x) \ {0} (см. (4) и (5)),
что противоречит (17). Тем самым, доказана оценка (18). Оценка (19)
следует немедленно из (18). Это доказывает утверждение а).
Утверждение б) доказывается аналогично. Более того, соотношение
(26) в этом случае не требуется, но здесь важно, что p 1.
Предположим теперь, что выполнены условия (17) и (23), а (21) не
имеет места, т. е.
σ k − σp
→ 0 (k → ∞).
(28)
xk − x
В этом случае вместо (26) воспользуемся следующим соотношением,
вытекающим из (23):
∂F
cl TQ (F (σ, x)) − im
(σ, x) ⊃
∂x
∂F
∂F
(σ, x)(xk − x) −
(σ, x)(σ k − σ) ∂x
∂σ
∂F
∂F
(σ, x)(xk − x) −
(σ, x)(σ k − σ) =
F (σ k , xk ) − F (σ, x) −
∂x
∂σ
∂ 2F
1
= xk − x2 2 (σ, x)[ξ k , ξ k ] +
2
∂x
(29)
+ O(σ k − σ2 ) + O(σ k − σxk − x) + o(xk − x2 ).
⊃ Q − F (σ, x) −
Рассуждая аналогично доказательству утверждения а), получаем, что
соотношения (25), (27)–(29) влекут включение ξ ∈ C2 (σ, x) \ {0} (напомним, что p 1), а это противоречит (17). Тем самым, доказана
оценка (21), значит, и вытекающая из нее оценка (22). Это завершает
доказательство утверждения в).
В случае выполнения условия Робинсона (7) C2 (σ, x) = C(σ, x)
(и, соответственно, условия (17) и (20) эквивалентны), а условие
(23) выполняется автоматически (см. задачу 1.2.10). В противном же
случае условие (23) может существенно ограничивать класс последовательностей {σ k }, к которым может быть применимо утверждение в)
теоремы 2. Вместе с тем, известны важные приложения, в которых (23)
выполняется автоматически и при нарушении условия Робинсона (см.
п. 4.3.1 и работу [14]).
З а д а ч а 1. Пусть Y = Y1 × Y2 , Y1 = Rl1 , Y2 = Rl2 , l1 + l2 = l,
F (σ, x) = (F1 (σ, x), F2 (σ, x)), F1 : Σ × X → Y1 и F2 : Σ × X → Y2 —
(гладкие) отображения, Q = {0} × Rl−2 , 0 — нулевой элемент в Y1 (случай задачи математического программирования). Показать, что условие
(23) в теореме 2 равносильно следующему: существует элемент uk ∈ X
такой, что
∂F1
∂F1
(σ, x)uk −
(σ, x)(σ k − σ) = 0,
∂x
∂σ
79
2.1. Общие возмущения
∂(F2 )I(σ, x)
∂(F2 )I(σ, x)
(σ, x)uk −
(σ, x)(σ k − σ) 0.
∂x
∂σ
Т е о р е м а 3. Пусть в дополнение к условиям теоремы 2 функция
f и отображение F дважды дифференцируемы в точке (σ, x) по
переменной x.
Тогда если Λ(σ, x) = ∅ и
∀ ξ ∈ C(σ, x) \ {0} ∃ λ ∈ Λ(σ, x) такой, что
то
∂ 2L
(σ, x, λ)[ξ, ξ] > 0,
∂x2
(30)
xk − x = O((max{0, f (σ k , xk )−f (σ, x)})1/2 )+O(σ k −σmin{p,1/2} ) =
= O(σ k − σp/2 ),
f (σ k , xk ) f (σ, x) + O(σ k − σmin{2p, 1} ).
(31)
(32)
В частности, если в этой теореме
f (σ k , xk ) f (σ, x) + O(σ k − σmin{2p, 1} )
(например, если f (σ k , xk ) f (σ, x) ∀ k), то первое равенство в (31)
принимает вид (18).
Как будет видно из приводимого ниже доказательства, условие
непустоты Λ(σ, x) в теореме 3 нужно лишь для получения оценки снизу (32). Если Λ(σ, x) = ∅, то достаточное условие второго порядка (30)
равносильно достаточному условию первого порядка (20), и вместо (31)
в теореме 3 имеет место более сильная оценка (21) из утверждения б)
теоремы 2. В то же время, оценку (32) таким образом получить нельзя,
поскольку она сильнее оценки (22) из утверждения б) теоремы 2.
Д о к а з а т е л ь с т в о. Будем считать, что xk = x для любого достаточно большого k. Предположим, что (возможно для подпоследовательности) имеет место (24).
Для каждого k положим ξ k = (xk − x)/xk − x и будем считать,
что {ξ k } сходится к некоторому ξ ∈ X \ {0}. Используя те же рассуждения, что и при доказательстве утверждения а) теоремы 2, можно
показать, что ξ ∈ C(σ, x) (на самом деле, ξ ∈ C2 (σ, x); ср. с утверждением в) предложения 1.3.2).
Выберем для полученного ξ множитель λ ∈ Λ(σ, x) согласно (30).
Тогда, поскольку для любого k справедливо F (σ k , xk ) − F (σ, x) ∈
∈ Q − F (σ, x) ⊂ RQ (F (σ, x)) ⊂ TQ (F (σ, x)), то из (3) для любого
достаточно большого k имеем
max{0, f (σ k , xk ) − f (σ, x)} f (σ k , xk ) − f (σ, x) f (σ k , xk ) − f (σ, x) + λ, F (σ k , xk ) − F (σ, x) =
∂L
k
k
k
= L(σ , x , λ) − L(σ, x, λ) =
(σ, x, λ), x − x +
∂x
80
Гл. 2. Чувствительность для задач оптимизации
1 ∂ 2L
(σ, x, λ)[xk − x, xk − x] + O(σ k − σ) + o(xk − x2 ) =
2 ∂x2
1
∂ 2L
= xk − x2 2 (σ, x, λ)[ξ k , ξ k ]+O(σ k − σ) + o(xk − x2 ) 2
∂x
k
2
γx − x + O(σ k − σ)
(33)
+
при некотором γ > 0. Таким образом, либо имеет место оценка
xk − x = O((max{0, f (σ k , xk ) − f (σ, x)} + σ k − σ)1/2 ),
либо предположение о выполнении (24) было неверным даже для
подпоследовательности, т. е. имеет место оценка (18). Объединяя две
эти возможности, приходим к оценке (31).
Далее, для тех номеров k, для которых f (σ k , xk ) f (σ, x), оценка
снизу (32) выполняется тривиальным образом. Поэтому без ограничения общности можем считать, что f (σ k , xk ) f (σ, x) ∀ k. Но тогда,
как было отмечено в комментариях перед доказательством, имеет место оценка (18), из которой и из промежуточных соотношений в (33)
(именно здесь требуется непустота Λ(σ, x)!), следует (32).
Заметим, что если последовательность {σ k } ⊂ Σ такова, что {σ k } →
→ σ (k → ∞) и
v(σ k ) v(σ) + O(σ k − σp ),
то при соответствующих требованиях гладкости условия (а значит, и
утверждения) теорем 2 и 3 выполняются для любой последовательности {xk } ⊂ X такой, что {xk } → x (k → ∞) и xk ∈ S(σ k ) ∀ k. Оценки
(19), (22) и (32) при этом превращаются в
v(σ k ) v(σ) + O(σ k − σmin{p, 1/2} ),
v(σ k ) v(σ) + O(σ k − σp )
и
v(σ k ) v(σ) + O(σ k − σmin{2p, 1} )
соответственно.
2.1.2. Количественная устойчивость в случае регулярности Робинсона. Традиционно центральное место в анализе чувствительности занимает случай, когда (6) выполняется при p = 1 (см. [21, 49, 50]).
Напомним, что в силу теоремы 1.2.7 именно так обстоит дело в случае
выполнения условия Робинсона (7). Именно этому случаю и посвящен
настоящий пункт.
Из теорем 1 и 1.2.7 вытекает следующая
Т е о р е м а 4. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y непрерывны в окрестности точки (σ, x) ∈ Σ × X.
Пусть, кроме того, отображение F непрерывно в точке (σ, x) и
2.1. Общие возмущения
81
дифференцируемо по x в некоторой окрестности этой точки, причем его производная по x непрерывна в точке (σ, x). Пусть x —
локальное решение задачи (1), (2) при σ = σ, причем в точке x
выполнено условие Робинсона (7).
Тогда функция v непрерывна в точке σ, причем если функция f
непрерывна по Липшицу в окрестности точки (σ, x), то при σ ∈ Σ
справедлива оценка
v(σ) v(σ) + O(σ − σ).
(34)
Кроме того, S(σ) = ∅ для всех σ ∈ Σ, достаточно близких к σ,
и имеет место (11). В частности, если x — строгое локальное
решение задачи (1), (2) при σ = σ, то имеет место (12).
Перейдем к оценкам на решения, а также к оценкам снизу на
функцию минимума. Из утверждения б) теоремы 2 и из теоремы 4
вытекает следующий результат.
Т е о р е м а 5. Пусть функция f : Σ × X → R непрерывна по Липшицу в окрестности точки (σ, x) ∈ Σ × X и дифференцируема в
этой точке, а отображение F : Σ × X → Y непрерывно в точке
(σ, x) и дифференцируемо по x в некоторой окрестности этой
точки, причем его производная по x непрерывна в точке (σ, x).
Пусть x ∈ D(σ), где D(·) введено в (2), причем в точке x выполнено
условие Робинсона (7).
Тогда если выполнено (20), то при σ ∈ Σ имеют место оценки
sup x − x = O(σ − σ),
(35)
x∈S(σ)
v(σ) v(σ) + O(σ − σ).
(36)
Наконец, используя вместо теоремы 2 теорему 3, а также привлекая
теорему 1.3.3, приходим к следующему результату.
Т е о р е м а 6. Пусть в дополнение к условиям теоремы 5 функция
f и отображение F дважды дифференцируемы в точке (σ, x) по
переменной x.
Тогда если выполнено (30), то для σ ∈ Σ имеют место оценки
sup x − x = O(σ − σ1/2 )
(37)
x∈S(σ)
и (36).
Оценка (37) выражает гёльдерову (с показателем 1/2) устойчивость локального решения x задачи (1), (2). Эта оценка в предположениях теоремы 6 улучшена быть не может (в частности, утверждать липшицеву устойчивость локального решения x, т. е. выполнение оценки
(35), в этих предположениях нельзя). Следующий пример заимствован
из работы [63].
82
Гл. 2. Чувствительность для задач оптимизации
П р и м е р 1. Пусть s = 1, n = l = 2, f (x) = −x2 , F (σ, x) = (x21 +
+ x2 − σ, −x21 + x2 ), Q = R2− . Точка x = 0 является решением задачи
(1), (2) при σ = σ = 0, причем в этой точке выполнено условие Робинсона (Мангасариана–Фромовица), Λ(σ, x) = {λ ∈ R2 | λ1 + λ2 = 1, λ1 0, λ2 0}. Далее, C(σ, x) = {ξ ∈ R2 | ξ2 = 0} и, взяв, например,
λ = (1, 0) ∈ Λ(σ, x), получаем:
∂ 2L
(σ, x, λ)[ξ, ξ] = 2ξ12 > 0 ∀ ξ ∈ C(σ, x) \ {0},
∂x2
т. е. выполнено (30) (но не (20)).
Несложно убедиться, что для любого σ > 0 возмущенная задача
(1), (2) имеет два решения: x± (σ) = (±(σ/2)1/2 , σ/2).
Оценка (37) может быть улучшена до линейной, если вместо условия Робинсона предполагать выполненным строгое условие регулярности (см. теорему 3.2.3).
Оценка (37) была получена другими средствами в [120]. При получении результатов такого рода вместо достаточного условия второго
порядка оптимальности (30) можно требовать выполнение условия
квадратичного роста, которое, вообще говоря, слабее (см. теорему 1.3.9
и пример 1.3.7; при выполнении условия Робинсона гарантировать
эквивалентность этих двух условий можно лишь в случае коничности
Q в точке F (σ, x)).
З а д а ч а 2. Доказать, что оценка (37) в теореме 6 останется верной, если опустить требование непустоты Λ(σ, x), а вместо (30) предполагать выполненным условие квадратичного роста (см. определение 1.3.6). (Указание. Воспользоваться тем обстоятелсьством, что
условие Робинсона в точке x гарантирует не только (6) при p = 1, но
также липшицеву оценку расстояния (1.2.43) до допустимого множества невозмущенной задачи.)
В заключение отметим, что в последнее время наблюдается все
возрастающий интерес к анализу чувствительности в случаях, когда
условие Робинсона может не иметь места [6, 7, 32, 34]. Это связано с
наличием важных приложений, например, таких, как задачи оптимизации с комплементарными ограничениями (см. [14, 34] и параграфа
4.3). Если при этом удается установить выполнение (6) (возможно, при
p < 1), теоремы 1–3 по-прежнему остаются удобными средствами для
получения результатов о чувствительности при общих возмущениях.
2.2. Возмущения по направлениям
Продолжим изучение семейства задач оптимизации
f (σ, x) → min,
x ∈ D(σ),
D(σ) = {x ∈ X | F (σ, x) ∈ Q},
(1)
(2)
2.2. Возмущения по направлениям
83
где σ ∈ Σ — параметр, базовым значением которого является σ ∈ Σ.
Однако в этом параграфе займемся более специальными возмущениями, уже обсуждавшимися в п. 1.2.6: для заданного направления d ∈ Σ
будем рассматривать значения параметра вида σ = σ(t) = σ + td + o(t),
t 0.
Пусть x ∈ X — локальное решение задачи (1), (2) при σ = σ и пусть
функция минимума v и множества S(σ) решений возмущенных задач
определены так же, как во введении, σ ∈ Σ. В большинстве результатов
этого параграфа используется условие
∂F
∂F
0 ∈ int F (σ, x) + im
(σ, x) + cone
(σ, x)d − Q
(3)
∂x
∂σ
регулярности по направлению d в точке x (см. определение 1.2.5).
Для каждого σ ∈ Σ определим функцию Лагранжа задачи (1), (2):
для x ∈ X, λ ∈ Y
L(σ, x, λ) = f (σ, x) + λ, F (σ, x).
Следуя терминологии, введенной в параграфе 1.3, для задачи (1), (2)
при σ = σ в точке x определим множество множителей Лагранжа
∂L
(σ, x, λ) = 0 ,
Λ(σ, x) = λ ∈ NQ (F (σ, x)) (4)
∂x
критический конус
−1
∂f
∂F
C(σ, x) = ξ ∈
(σ, x)
(σ, x), ξ 0 ,
(TQ (F (σ, x))) ∂x
∂x
(5)
а также его сужение
2
∂ F
C2 (σ, x) = ξ ∈ C(σ, x) (σ, x)[ξ, ξ] ∈
∂x2
∂F
(σ, x)
.
∈ cl TQ (F (σ, x)) − im
∂x
2.2.1. Количественная устойчивость в случае регулярности по
направлению. Для заданного d ∈ Σ введем в рассмотрение вспомогательную задачу
∂f
∂f
(σ, x), d +
(σ, x), ξ → min, ξ ∈ Ξ1 (σ, x; d),
(6)
∂σ
∂x
∂F
∂F
Ξ1 (σ, x; d) = ξ ∈ X (σ, x)d +
(σ, x)ξ ∈ TQ (F (σ, x)) , (7)
∂σ
∂x
84
Гл. 2. Чувствительность для задач оптимизации
и обозначим через S1 (σ, x; d) множество (глобальных) решений этой
задачи, а через v1 (σ, x; d) — значение минимума в ней:
∂f
∂f
v1 (σ, x; d) =
(σ, x), d +
(σ, x), ξ
inf
.
(8)
∂σ
∂x
ξ∈Ξ1 (σ, x; d)
З а д а ч а 1. Показать, что выполнение в произвольной допустимой
точке задачи (6), (7) условия Робинсона регулярности ограничений
этой задачи равносильно условию (3) регулярности по направлению d.
(Указание. Воспользоваться утверждением из задачи 1.2.16.)
З а д а ч а 2. Показать, что если C(σ, x) = {0}, то для введенной
в (8) величины v1 (σ, x; d) справедливо v1 (σ, x; d) > −∞.
Аналогом теоремы 2.1.4 является
Т е о р е м а 1. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y непрерывны в окрестности точки (σ, x) ∈ Σ × X.
Пусть, кроме того, функция f дифференцируема в точке (σ, x), а
отображение F дифференцируемо в точке (σ, x) и дифференцируемо
по x в некоторой окрестности этой точки, причем его производная
по x непрерывна в точке (σ, x). Пусть x — локальное решение
задачи (1), (2) при σ = σ, причем в точке x выполнено условие (3)
регулярности по заданному направлению d ∈ Σ.
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), имеет место равенство
lim v(σ + td + ρ(t)) = v(σ),
t→0+
причем если функция f непрерывна по Липшицу в окрестности
точки (σ, x), то справедлива оценка
v(σ + td + ρ(t)) v(σ) + v1 (σ, x; d)t + o(t),
(9)
где для введенной в (8) величины v1 (σ, x; d) справедливо v1 (σ, x; d) <
< +∞. Кроме того, S(σ + td + ρ(t)) = ∅ для любого достаточно
малого t 0 и
sup
dist(x, S(σ)) → 0 (t → 0+).
(10)
x∈S(σ+td+ρ(t))
В частности, если x — строгое локальное решение задачи (1), (2)
при σ = σ, то
sup
x∈S(σ+td+ρ(t))
x − x → 0
(t → 0+).
2.2. Возмущения по направлениям
85
Д о к а з а т е л ь с т в о. Согласно утверждению из задачи 1.2.19, имеет место неравенство Ξ1 (σ, x; d) = ∅, а значит, v1 (σ, x; d) < +∞.
Кроме того, в силу теоремы 1.2.9, для всякого ξ ∈ Ξ1 (σ, x; d) найдется
отображение r : R+ → X такое, что r(t) = o(t) и
x + tξ + r(t) ∈ D(σ + td + ρ(t))
(11)
для любого достаточно малого t 0. Отсюда, в частности, следует, что
dist(x, D(σ + td + ρ(t))) = O(t).
Теперь все утверждения доказываемой теоремы, кроме оценки (9),
следуют из теоремы 2.1.1.
Для любого достаточно малого t 0, из (11) имеем
v(σ + td + ρ(t)) − v(σ) f (σ + td + ρ(t), x + tξ + r(t)) − f (σ, x) =
∂f
∂f
(σ, x), d +
(σ, x), ξ
t + o(t),
=
∂σ
∂x
откуда, в силу произвольности ξ ∈ Ξ1 (σ, x; d), а также в силу (8),
следует (9).
Оценка (9) сверху на функцию минимума была получена в [89]
(с условием Робинсона вместо условия регулярности по направлению)
и в [43]. Неравенство v1 (σ, x; d) < +∞ гарантирует, что в условиях
теоремы 1 оценка (9) содержательна. Кроме того, справедливо
П р е д л о ж е н и е 1. Пусть функция f : Σ × X → R и отображение F : Σ × X → Y дифференцируемы в точке (σ, x) ∈ Σ × X. Пусть
x ∈ D(σ), где множество D(·) введено в (18).
Тогда для любого d ∈ Σ для введенной в (8) величины v1 (σ, x; d)
справедливы следующие утверждения:
а) имеет место неравенство
∂L
v1 (σ, x; d) sup
(σ, x, λ), d ,
(12)
∂σ
λ∈Λ(σ, x)
и, в частности, если Λ(σ, x) = ∅, то v1 (σ, x; d) > −∞, причем
если для заданных ξ ∈ Ξ1 (σ, x; d) и λ ∈ Λ(σ, x) справедливо
равенство
∂F
∂F
(σ, x)d +
(σ, x)ξ = 0,
λ,
(13)
∂σ
∂x
то ξ является решением задачи (6), (7), а λ реализует точную
верхнюю грань в правой части (12);
б) если в точке x выполнено условие (3) регулярности по направлению d, то неравенство (12) выполняется как равенство, т.е.
∂L
(σ, x, λ), d ,
v1 (σ, x; d) = sup
(14)
∂σ
λ∈Λ(σ, x)
86
Гл. 2. Чувствительность для задач оптимизации
и, в частности, v1 (σ, x; d) > −∞ тогда и только тогда, когда
Λ(σ, x) = ∅, причем в этом случае точная верхняя грань в (14)
достигается, а выполнение для ξ ∈ Ξ1 (σ, x; d) и λ ∈ Λ(σ, x) равенства (13) является необходимым и достаточным условием
того, что ξ является решением задачи (6), (7), а λ реализует
точную верхнюю грань в правой части (14).
Д о к а з а т е л ь с т в о. Для произвольных ξ ∈ Ξ1 (σ, x; d) и λ ∈
∈ Λ(σ, x) из (4) и (7) имеем
∂f
∂f
(σ, x), d +
(σ, x), ξ =
∂σ
∂x
∗
∂f
∂F
(σ, x), d −
(σ, x) λ, ξ =
=
∂σ
∂x
∂L
∂F
∂F
(σ, x, λ), d − λ,
(σ, x)d +
(σ, x)ξ =
∂σ
∂σ
∂x
∂F
(σ, x)d .
(15)
λ,
∂σ
Отсюда немедленно следует а).
Пусть теперь v1 (σ, x; d) > −∞. Определим множества
∂f
∂f
(σ, x), d +
(σ, x), ξ −
M1 (d) = (α, y) ∈ R × Y α =
∂σ
∂x
∂F
∂F
(σ, x)d +
(σ, x)ξ, ξ ∈ ,
− v1 (σ, x; d), y =
∂σ
∂x
M2 (d) = (R− \ {0}) × TQ (F (σ, x)).
Первое из этих множеств аффинно, а второе выпукло, причем согласно (8), M1 (d) ∩ M2 (d) = ∅. В силу теоремы 1.1.2, существует пара
(λ0 , λ) ∈ (R × Y ) \ {0} такая, что
∂f
∂f
(σ, x), d +
(σ, x), ξ − v1 (σ, x; d) +
λ0
∂σ
∂x
∂F
∂F
(σ, x)d +
(σ, x)ξ + λ,
∂σ
∂x
λ0 β + λ, η ∀ ξ ∈ X, ∀ β < 0, ∀ η ∈ TQ (F (σ, x)).
Отсюда элементарно следует, что
∗
∂F
∂f
(σ, x) λ = 0, λ0 0, λ ∈ NQ (F (σ, x)), (16)
λ0 (σ, x) +
∂x
∂x
∂f
∂F
(σ, x), d − v1 (σ, x; d) + λ,
(σ, x)d 0.
λ0
(17)
∂σ
∂σ
2.2. Возмущения по направлениям
87
Если предположить, что λ0 = 0, то из (16) и (17) имеем следующее:
∂F
λ ∈ ((im
(σ, x))⊥ ∩ NQ (F (σ, x))) \ {0}, причем
∂x
∂F
(σ, x)d 0.
λ,
∂σ
Однако согласно утверждению из задачи 1.2.16 это противоречит условию (3) регулярности по направлению d. Таким образом, с учетом
второго соотношения в (16), λ0 > 0, и, переобозначая λ/λ0 через λ, из
(4) и первого и последнего соотношений в (16) получаем включение
λ ∈ Λ(σ, x), а из (17) получаем неравенство
∂f
∂L
∂F
(σ, x), d + λ,
(σ, x)d =
(σ, x, λ), d .
v1 (σ, x; d) ∂σ
∂σ
∂σ
Объединяя это неравенство с (12) приходим к (14), причем λ реализует
точную верхнюю грань в (14).
Последнее утверждение в б) следует из доказанного и из (15). Если множество Q полиэдрально (например, если (1), (2) является
задачей математического программирования), то задача (6), (7) сводится к задаче линейного программирования, и конечность значения
v1 (σ, x; d) этой задачи гарантирует существование у нее решения (см.,
например, [15, теор. 7.1.1]). Однако в общем случае это, конечно,
не так.
Из предложения 1 вытекает, что если в условиях теоремы 1
Λ(σ, x) = ∅, то оценка (9) из этой теоремы принимает вид равенства
lim sup
t→0+
v(σ + td + ρ(t)) − v(σ)
= −∞.
t
(18)
Иными словами, с ростом t из нуля значение v(σ + td + ρ(t)) убывает, причем быстрее, чем линейно по t. Ясно, что количественная
характеризация этого убывания заслуживает дальнейшего изучения
(см. п. 2.2.3).
Если же Λ(σ, x) = ∅, то величина v1 (σ, x; d) в оценке (9) конечна.
Заметим, что величина v1 (σ, x; d) зависит от x и если, например,
условие регулярности по направлению d выполняется в любой точке
x ∈ S(σ), то оценку (9) для t 0 следует заменить более сильной
оценкой:
v(σ + td + ρ(t)) v(σ) + inf v1 (σ, x; d)t + o(t).
x∈S(σ)
(19)
Однако, если x — строгое локальное решение задачи (1), (2), то,
согласно договоренностям во введении, S(σ) = {x} и оценка (9) вполне
адекватна, но возникает вопрос о неулучшаемости этой оценки.
88
Гл. 2. Чувствительность для задач оптимизации
С одной стороны, элементарные примеры показывают, что оценка
(9) в условиях теоремы 1 может выполняться как равенство, и в
этом смысле неулучшаема. С другой стороны, поскольку, в отличие
от всех рассматривавшихся до сих пор оценок, данная оценка носит
выраженный количественный характер, то неулучшаемость здесь следует понимать в более сильном смысле. А именно, можно ли утверждать, что в условиях теоремы 1 оценка (9) всегда выполняется
как равенство, т. е. что этой оценке сверху на функцию минимума
отвечает такая же оценка снизу? Положительный ответ на этот вопрос
означал бы, в частности, что функция v дифференцируема в точке σ
по направлению d, причем v (σ; d) = v1 (σ, x; d).
Ответ на поставленный вопрос отрицателен, причем даже если
S(σ) = {x}. Действительно, как легко проверить, в примере 2.1.1
при d = 1 имеет место следующее: v(σ + td) = −t/2 для t 0, но
v1 (σ, x; d) = 0. Таким образом, и в случае Λ(σ, x) = ∅ остаются актуальными вопросы о возможности уточнения оценки (9) (см. п. 2.2.3),
а также о соответствующих оценках снизу. Кроме того, даже если
оценка (9) выполняется как равенство, возникает естественный вопрос
о получении дальнейших членов в асимптотическом разложении v (см.
п. 2.2.2).
Что касается оценок снизу на функцию минимума, то, как уже
было продемонстрировано в параграфе 2.1, такие оценки, как и оценки
на решения возмущенных задач, обычно получают, предполагая выполнение в точке x тех или иных достаточных условий оптмальности
для невозмущенной задачи. Результаты такого рода излагаются ниже
в этом параграфе. Однако сначала приведем доказанную в [63] (см.
также [61, 89]) теорему об оценке снизу на функцию минимума без
каких либо предположений типа достаточных условий оптимальности
или условий роста. Более того, в этой теореме не предполагается даже,
что x — строгое локальное решение задачи (1), (2).
Т е о р е м а 2. Пусть функция f : Σ × X → R непрерывна по Липшицу в окрестности точки (σ, x) ∈ Σ × X и дифференцируема в
этой точке, а отображение F : Σ × X → Y непрерывно дифференцируемо в окрестности точки (σ, x). Пусть x — локальное решение
задачи (1), (2) при σ = σ, причем в любой точке x ∈ S(σ) выполнено
условие Робинсона
∂F
0 ∈ int F (σ, x) + im
(σ, x) − Q .
(20)
∂x
Тогда для любого d ∈ Σ и любого отображения ρ : R+ → Σ
такого, что ρ(t) = o(t), при t 0 справедливы оценки
∂L
(σ, x, λ), d t + o(t) v(σ + td + ρ(t)) − v(σ) inf
inf
∂σ
x∈S(σ) λ∈Λ(σ, x)
∂L
(σ, x, λ), d t + o(t). (21)
sup
inf
x∈S(σ) λ∈Λ(σ, x)
∂σ
2.2. Возмущения по направлениям
89
В частности, если для каждого x ∈ S(σ) множество Λ(σ, x) состоит из единственного элемента λ(x), то
∂L
v(σ + td + ρ(t)) = v(σ) + inf
(σ, x, λ(x)), d t + o(t).
(22)
x∈S(σ)
∂σ
Из равенства (22) при ρ(·) ≡ 0 следует, что функция v дифференцируема в точке σ по направлению d, причем
∂L
v (σ; d) = inf
(σ, x, λ(x)), d .
∂σ
x∈S(σ)
Более того, если x — строгое локальное решение задачи (1), (2) при
σ = σ, то S(σ) = {x}, и из равенства (22) несложно вывести,
что функ
∂L
ция v дифференцируема в точке σ, причем v (σ) =
(σ, x, λ), d ,
∂σ
где λ = λ(x).
Заметим, что согласно утверждению из задачи 1.2.3 из выполнения условия Робинсона (20) при x = x вытекает выполнение этого
условия для любого x, достаточно близкого к x. Отсюда следует, что
в теореме 2 достаточно предполагать выполнение условия Робинсона
(20) только при x = x, если дополнительно оговориться, что радиус
δ шара B, фигурирующего в определениях S(·) и v(·) (см. введение),
достаточно мал.
Д о к а з а т е л ь с т в о. Напомним, что из условия Робинсона в точке
x ∈ S(σ) следует выполнение в этой точке условия регулярности по
любому направлению. Тогда вторая оценка в (21) следует из теоремы 1
и утверждения а) предложения 1 (см. также (19)).
Рассмотрим произвольную последовательность {tk } ⊂ R+ такую,
что {tk } → 0 (k → ∞). Согласно теореме 1 для любого достаточно
большого k найдется точка xk ∈ S(σ k ), где σ k = σ + tk d + ρ(tk ), причем, согласно (10),
dist(xk , S(σ)) → 0 (k → ∞).
(23)
Заметим, что включение xk ∈ S(σ k ) можно переписать как
F (σ k , xk ) ∈ Q,
f (σ k , xk ) = v(σ k ).
(24)
Последовательность {xk } содержится в компакте B, значит, имеет предельные точки. В дальнейших рассуждениях такая предельная точка
x
∈ X произвольна, поэтому без ограничения общности можем считать,
что вся последовательность {xk } сходится к x
при k → ∞. При этом
из (23) и замкнутости множества S(σ) следует, что x
∈ S(σ).
Ключевой момент доказательства состоит в следующем: наряду
с направлением d будем рассматривать направление −d. Из условия
90
Гл. 2. Чувствительность для задач оптимизации
Робинсона в точке x
следует выполнение в этой точке условия регулярности и по направлению −d, откуда, в свою очередь, следует существование элемента ξ ∈ Ξ1 (σ, x
; −d) (см. утверждение из задачи 1.2.19).
Согласно (7) для любого такого ξ найдется отображение r : R+ → X
такое, что r(τ ) = o(τ ) и для любого достаточно малого τ 0
F (σ, x
) + τ
∂F
∂F
(σ, x
(σ, x
−
)d +
)ξ + r(τ ) ∈ Q.
∂σ
∂x
(25)
Для любого достаточно малого τ > 0 и любых σ ∈ Σ и x ∈ X,
полагая
η(τ , σ, x) =
1
∂F
∂F
(F (σ, x
(σ, x
(σ, x
) − F (σ, x) + r(τ )) −
)d +
)ξ,
τ
∂σ
∂x
(26)
из (25) имеем
F (σ, x) + τ η(τ , σ, x) ∈ Q.
Но тогда из первого соотношения в (24) и из выпуклости Q следует,
что для любого достаточно большого k
F (σ k , xk ) + tη(τ , σ k , xk ) ∈ Q ∀ t ∈ [0, τ ].
(27)
Зафиксируем произвольное число ε > 0 и выберем τ > 0 настолько малым, чтобы выполнялось r(τ )/τ ε/4. Тогда, поскольку
{(σ k , xk )} → (σ, x
) (k → ∞), то, используя (26), для любого достаточно большого k имеем
∂F k k
ε
∂F k k
k
k −
∂σ (σ , x )d + ∂x (σ , x )ξ − η(τ , σ , x ) 2 ,
откуда и из (27) следует, что
dist(F (σ, xk + tk ξ), Q) =
∂F k k
∂F k k
(σ , x )d +
(σ , x )ξ + o(tk ), Q = dist F (σ k , xk ) + tk −
∂σ
∂x
k
k
dist F (σ , x ) + tk η(τ , σ k , xk ), Q + εtk = εtk (28)
(здесь принято во внимание, что tk ∈ [0, τ ] для любого достаточно
большого k).
Далее, поскольку при x = x
выполняется условие Робинсона (20),
то из теоремы 1.2.7 и из (28) выводим
dist(xk + tk ξ, D(σ)) = O(dist(F (σ, xk + tk ξ), Q)) = O(εtk ),
2.2. Возмущения по направлениям
91
т. е. для любого достаточно большого k найдется точка x
k ∈ D(σ)
k
k
= O(εtk ). Но тогда, с учетом липшицевости
такая, что x + tk ξ − x
функции f и второго соотношения в (24), получаем
v(σ) f (σ, x
k ) = f (σ, xk + tk ξ) + O(xk + tk ξ − x
k ) =
= f (σ k − tk d, xk + tk ξ) + O(εtk ) =
∂f
∂f
(σ, x
(σ, x
= v(σ k )+tk
),−d +
), ξ
+O(εtk ).
∂σ
∂x
Вспоминая, что ξ — произвольный элемент в Ξ1 (σ, x
; −d), и используя
(7), (8) и утверждение б) предложения 1, отсюда выводим
; −d) + O(εtk ) =
v(σ) − v(σ k ) tk v1 (σ, x
∂L
(σ, x
= tk sup
, λ), −d + O(εtk ) =
∂σ
λ∈Λ(σ, x
)
∂L
(σ, x
= −tk inf
, λ), d + O(εtk ),
λ∈Λ(σ, x
)
∂σ
откуда в силу произвольности ε > 0 следует неравенство
∂L
v(σ k ) − v(σ)
(σ, x
inf
, λ), d lim inf
k→∞
tk
∂σ
λ∈Λ(σ, x
)
∂L
(σ, x, λ), d ,
inf
inf
x∈S(σ) λ∈Λ(σ, x)
∂σ
что и дает первую оценку в (21).
Теперь займемся случаем, когда в точке x предполагаются выполненными те или иные достаточные условия оптимальности для
невозмущенной задачи. Аналогом теоремы 2.1.5 является
Т е о р е м а 3. Пусть функция f : Σ × X → R непрерывна по Липшицу в окрестности точки (σ, x) ∈ Σ × X и дифференцируема в
этой точке, а отображение F : Σ × X → Y дифференцируемо в
точке (σ, x) и дифференцируемо по x в некоторой окрестности
этой точки, причем его производная по x непрерывна в точке (σ, x).
Пусть x ∈ D(σ), где D(·) введено в (2), причем в точке x выполнено
условие (3) регулярности по заданному направлению d ∈ Σ.
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), при t 0 справедливы следующие утверждения:
а) если отображение F дважды дифференцируемо в точке (σ, x)
по переменной x и
C2 (σ, x) = {0},
(29)
то
sup
x∈S(σ+td+ρ(t))
x − x = O(t1/2 ),
(30)
92
Гл. 2. Чувствительность для задач оптимизации
б) если
v(σ + td + ρ(t)) v(σ) + O(t1/2 );
(31)
C(σ, x) = {0},
(32)
то
x − x = O(t),
(33)
v(σ + td + ρ(t)) v(σ) + O(t);
(34)
sup
x∈S(σ+td+ρ(t))
в) если отображение F дважды дифференцируемо в точке (σ, x),
выполнено (29), ρ(·) ≡ 0 и выполняется
∂F
∂F
(σ, x)d ∈ cl TQ (F (σ, x)) − im
(σ, x) ,
(35)
−
∂σ
∂x
то имеют место оценки (33), (34).
Д о к а з а т е л ь с т в о. Достаточно сослаться на теоремы 2.1.2 и 1.
Подчеркнем, что согласно утверждению из задачи 2 и утверждению б) предложения 1 в условиях утверждения б) теоремы 3 множество
Λ(σ, x) не может быть пусто. Этот факт можно вывести также и без
ссылки на задачу 2: если бы Λ(σ, x) было пусто, то оценка (34)
противоречила бы (18).
Вместе с тем, в условиях утверждений а) и в) теоремы 3 множество
Λ(σ, x) может быть пусто. Следующий пример демонстрирует неулучшаемость оценок (30) и (31) в утверждении а).
П р и м е р 1. Пусть s = 1, n = l = 2, f (σ, x) = 2x1 − x2 , F (σ, x) =
= (−x1 , −x21 + x22 − σ), Q = R2− (ср. с примером 1.3.4). Точка x = 0
является решением задачи (1), (2) при σ = σ = 0, причем F (σ, x) = 0,
для d ∈ R и ξ ∈ R2 справедливо равенство
∂F
∂F
(σ, x)d +
(σ, x)ξ = −(ξ1 , d),
∂σ
∂x
и если d > 0, то обе компоненты вектора в правой части отрицательны
при ξ1 = ξ 1 > 0, т. е. в точке x выполнено условие регулярности по
такому направлению d (условие Голлана; см. п. 1.2.6). Если же d < 0,
то условие регулярности по такому направлению d в точке x не выполняется и, в частности, в этой точке не выполняется условие Робинсона
(Мангасариана–Фромовица).
Далее, C(σ, x) = {ξ ∈ R2 | ξ1 0, 2ξ1 − ξ2 0} = {0}, но C2 (σ, x) =
= {ξ ∈ C(σ, x) | ξ12 − ξ22 0} = {0}, т. е. имеет место (29), но не (32).
Заметим также, что (35) не имеет места при d > 0 (см. задачу 2.1.1).
Положим d = 1. Несложно убедиться, что для любого t > 0 задача
(1), (2) при σ = σ + td имеет единственное решение x(t) = (0, t1/2 ),
причем v(σ + td) = −t1/2 .
Подчеркнем, что в данном примере Λ(σ, x) = ∅, и поэтому, согласно
утверждению б) предложения 1, v1 (σ, x; d) = −∞.
2.2. Возмущения по направлениям
93
Дополнительное предположение о непустоте Λ(σ, x) не позволяет
улучшить оценку (30) в утверждении а) теоремы 3. Чтобы убедиться в этом, достаточно в примере 1 заменить целевую функцию на
f (x) = x1 . Однако неулучшаемость оценки (31) так модифицированный пример уже демонстрировать не будет, и это не случайно: при
Λ(σ, x) = ∅ эта оценка действительно может быть улучшена. Это вытекает из следующей теоремы, являющейся аналогом теоремы 2.1.6, и из
утверждения б) предложения 1.3.2, согласно которому при Λ(σ, x) = ∅
из условия (29) следует выполнение достаточного условия второго
порядка оптимальности, приводимого ниже в (36).
Т е о р е м а 4. Пусть в дополнение к условиям теоремы 3 функция
f и отображение F дважды дифференцируемы в точке (σ, x) по
переменной x.
Тогда если
∂ 2L
∀ ξ ∈ C(σ, x) \ {0} ∃ λ ∈ Λ(σ, x) такой, что
(σ, x, λ)[ξ, ξ] > 0,
∂x2
(36)
то Λ(σ, x) = ∅ и для любого отображения ρ : R+ → Σ такого, что
ρ(t) = o(t), при t 0 имеют место оценки (30), (34).
Д о к а з а т е л ь с т в о. Если предположить, что Λ(σ, x) = ∅, то (36)
может иметь место лишь при выполнении (32), а последнее, как было
отмечено выше, в данном случае влечет непустоту Λ(σ, x). Остается
сослаться на теоремы 2.1.3 и 1.
Следующая теорема, доказанная в [123] для задач математического
программирования и в [35] в общем случае (см. также [46, 48, 124]),
не имеет аналога в случае общих возмущений, поскольку в ней используется специальное сильное достаточное условие второго порядка
оптимальности по направлению d, состоящее в следующем:
∂ 2L
(σ, x, λ)[ξ, ξ] > 0,
∂x2
(37)
где через Λ1 (σ, x; d) обозначено множество решений задачи
∂L
(σ, x, λ), d → min, λ ∈ Λ(σ, x)
(38)
∂σ
∀ ξ ∈ C(σ, x) \ {0} ∃ λ ∈ Λ1 (σ, x; d) такой, что
(ср. с правой частью (12) или (14); читатель, знакомый с теорией
линейного программирования, легко проверит, что в случае, когда (1),
(2) является задачей математического программирования, (38), (4) есть
ни что иное, как двойственная задача по отношению к задаче линейного программирования (6), (7)). Ясно, что условие (37) сильнее, чем
(36), поскольку Λ1 (σ, x; d) ⊂ Λ(σ, x). Оказывается, что такое усиление
требований позволяет утверждать липшицеву устойчивость локального
решения x задачи (1), (2) при возмущениях по направлению d, если
выполнено условие регулярности по этому направлению.
94
Гл. 2. Чувствительность для задач оптимизации
Т е о р е м а 5. Пусть в дополнение к условиям теоремы 3 функция
f и отображение F дважды дифференцируемы в точке (σ, x) по
переменной x. Пусть, кроме того, множество Q конично в точке
F (σ, x), и задача (6), (7) имеет решение.
Тогда если выполнено (37), то Λ(σ, x) = ∅ и для любого отображения ρ : R+ → Σ такого, что ρ(t) = O(t2 ), при t 0 имеет место
оценка (33).
Для доказательства воспользуемся следующей леммой из [119],
в которой в соответствующих дополнительных предположениях уточняется оценка (9). Подчеркнем, что присутствующие в теореме 5
условия коничности множества Q в точке F (σ, x) и существования
решения у задачи (6), (7) будут использованы лишь при доказательстве
этой леммы.
Л е м м а 1. В условиях теоремы 5 для любого отображения
ρ : R+ → Σ такого, что ρ(t) = O(t2 ), при t 0 справедлива оценка
v(σ + td + ρ(t)) v(σ) + v1 (σ, x; d)t + O(t2 ).
(39)
Д о к а з а т е л ь с т в о. Пусть ξ — решение задачи (6), (7). При этом
ξ ∈ Ξ1 (σ, x; d) и в силу (7) и коничности множества Q в точке F (σ, x)
обычным образом получаем, что для любого достаточно малого t > 0
∂F
∂F
t
(σ, x)d +
(σ, x)ξ ∈ Q − F (σ, x),
∂σ
∂x
откуда следует, что
dist(F (σ + td + ρ(t), x + tξ), Q) =
∂F
∂F
2
(σ, x)d +
(σ, x)ξ + O(t ), Q = O(t2 ).
= dist F (σ, x) + t
∂σ
∂x
Согласно лемме 1.2.3 отсюда и из условия регулярности по направлению d вытекает существование отображения r : R+ → X такого,
что r(t) = O(t2 ) и для любого достаточно малого t 0 выполнено
x + tξ + r(t) ∈ D(σ + td + ρ(t)), значит,
v(σ + td + ρ(t)) − v(σ) f (σ + td + ρ(t), x + tξ + r(t)) − f (σ, x) =
∂f
∂f
=
(σ, x), d +
(σ, x), ξ
t + O(t2 ) = v1 (σ, x; d)t + O(t2 ).
∂σ
∂x
Доказательство теоремы 5. Непустота Λ(σ, x) обосновывается так
же, как при доказательстве теоремы 4. Далее, предположим противное:
95
2.2. Возмущения по направлениям
пусть существуют последовательности {tk } ⊂ R+ и {xk } ⊂ X такие,
что {tk } → 0 (k → ∞), xk ∈ S(σ + tk d + ρ(tk )) \ {x} ∀ k и
tk
→0
xk − x
(k → ∞).
(40)
Для каждого k положим ξ k = (xk − x)/xk − x и будем считать,
что {ξ k } сходится к некоторому ξ ∈ X \ {0}. Тогда
Q − F (σ, x) F (σ + tk d + ρ(tk ), xk ) − F (σ, x) =
∂F
(σ, x)ξ k + O(tk ) + o(xk − x). (41)
= tk
∂x
Кроме того, из установленной в теореме 1 оценки (9) имеем
O(tk ) v(σ + tk d + ρ(tk )) − v(σ) = f (σ + tk d + ρ(tk ), xk ) − f (σ, x) =
∂f
k
= tk
(σ, x), ξ
+ O(tk ) + o(xk − x). (42)
∂x
Разделив левую и правую части соотношения (41) на xk − x и перейдя к пределу при k → ∞, с использованием (40) получаем включение
∂F
(σ, x)ξ ∈ cl RQ (F (σ, x)) = TQ (F (σ, x)) (см. задачу 1.2.5). Совер∂x
∂f
(σ, x), ξ 0.
шенно аналогично из (42) выводится неравенство
∂x
Таким образом, ξ ∈ C(σ, x) \ {0} (см. (5)).
Выберем для полученного ξ множитель λ ∈ Λ1 (σ, x; d) в соответствии с (37). Тогда, поскольку для любого k согласно включению в (41)
справедливо F (σ k , xk ) − F (σ, x) ∈ RQ (F (σ, x)) ⊂ TQ (F (σ, x)), то из
определения множества Λ1 (σ, x; d), (4), (40), а также из утверждения
б) предложения 1, для любого достаточно большого k имеем
v(σ + tk d + ρ(tk )) − v(σ) = f (σ + tk d + ρ(tk ), xk ) − f (σ, x) f (σ + tk d + ρ(tk ), xk ) − f (σ, x) +
+ λ, F (σ + tk d + ρ(tk ), xk ) − F (σ, x) =
= L(σ + tk d + ρ(tk ), xk , λ) − L(σ, x, λ) =
∂L
∂L
(σ, x, λ), d tk +
(σ, x, λ), xk − x +
=
∂σ
∂x
1 ∂ 2L
+
(σ, x, λ)[xk − x, xk − x] + O(t2k ) + o(xk − x2 ) =
2 ∂x2
∂L
∂ 2L
1
=
(σ, x, λ), d tk + xk − x2 2 (σ, x, λ)[ξ k , ξ k ] +
∂σ
2
∂x
+ o(xk − x2 ) v1 (σ, x; d)tk + γxk − x2
96
Гл. 2. Чувствительность для задач оптимизации
при некотором γ > 0. Объединяя полученную оценку с оценкой (39) из
леммы 1, получаем
γxk − x2 O(t2k ),
что противоречит (40).
Подчеркнем, что в теореме 5 речь идет о возмущениях вдоль дуг
вида σ(t) = σ + td + ρ(t), t 0, где ρ(t) = O(t2 ), а не просто ρ(t) = o(t),
и это существенно. Действительно, предположим, что утверждение
данной теоремы верно при ρ(t) = o(t). Пусть множество Q конично
в точке F (σ, x) и при x = x выполнено условие Робинсона (20). Тогда
в точке x выполняется условие регулярности по любому направлению
d ∈ Σ, включая d = 0, причем Λ1 (σ, x; 0) = Λ(σ, x), и поэтому условие
(37) при d = 0 равносильно условию (36). Предполагая выполнение
последнего, можем для d = 0 применить теорему 5, которая дает оценку
(33). При этом σ(t) − σ = ρ(t), и если, например, ρ(t) = t3/2 , то
оценка (33) дает
sup
x − x = O(σ(t) − σ2/3 ).
x∈S(σ(t))
Однако пример 2.1.1 показывает, что выполнение такой оценки в данных предположениях утверждать нельзя.
Если множество Q полиэдрально (например, если (1), (2) является
задачей математического программирования), то оно конично в любой
своей точке и, как уже отмечалось выше, конечность значения задачи
(6), (7) гарантирует существование у нее решения. В общем же случае
оба указанных требования (коничности Q и существования решения
у задачи (6), (7)) в теореме 5 существенны; см. [50, примеры 4.54,
4.63].
З а д а ч а 3. Пусть в стационарной точке x задачи (1), (2) при σ = σ
для множителя Лагранжа λ ∈ Λ(σ, x) выполнено строгое условие регулярности ограничений (см. определение 1.3.3). Показать, что при этом
в теореме 5 условие коничности множества Q в точке F (σ, x) можно
снять, а условие существования решения у задачи (6), (7) выполняется
автоматически.
Подведем некоторые итоги. Пусть выполнено условие (3) регулярности по направлению d. Тогда липшицева устойчивость локального
решения x задачи (1), (2) при возмущениях по этому направлению
может быть гарантирована при выполнении достаточного условия первого порядка оптимальности (32) (утверждение б) теоремы 3), либо
усиленного достаточного условия второго порядка оптимальности по
направлению d (37) (теорема 5). Подчеркнем, что условие (32) сильнее,
чем (37), но при выполнении последнего липшицеву устойчивость удается установить лишь в некоторых дополнительных предположениях
(коничность Q в точке F (σ, x) и существование решения у задачи (6),
2.2. Возмущения по направлениям
97
(7)), которые, впрочем, выполняются автоматически в случае полиэдральности Q.
При выполнении одного из более слабых условий, а именно, (29)
либо достаточного условия второго порядка оптимальности (36), можно гарантировать лишь гёльдерову (с показателем 1/2) устойчивость
локального решения x при таких возмущениях (утверждение а) теоремы 3 и теорема 4).
Во всех указанных случаях, кроме случая выполнения (29), множество Λ(σ, x) не может быть пусто.
Дальнейший анализ будет проводиться отдельно для случаев липшицевой и гёльдеровой устойчивости локального решения x. В первом случае для количественного уточнения полученных выше оценок
представляется естественным рассматривать для произвольных фиксированных ξ 1, ξ 2 ∈ X «параболические» дуги x(t) = x + tξ 1 + t2 ξ 2 + o(t2 )
такие, что x(t) ∈ D(σ(t)) для любого достаточно малого t 0.
Во втором же случае разумно ввести в рассмотрение дуги вида
x(t) = x + t1/2 ξ + o(t1/2 ), либо их более детализированные версии,
например, x(t) = x + t1/2 ξ 1 + tξ 2 + o(t), t 0.
2.2.2. Асимптотики функции минимума и решений: случаи
липшицевой устойчивости. Прежде всего заметим, что существование решения у задачи (6), (7) является необходимым условием
липшицевой устойчивости локального решения x задачи (1), (2) при
возмущениях по направлению d. Более того, задача (6), (7) характеризует направления, по которым точки x(t) ∈ S(σ + td + o(t)), удовлетворяющие при t 0 оценке x(t) − x = O(t), могут «входить» в
x при t → 0. Точнее, справедливо следующее предложение, впервые
сформулированное в [43]. В этом предложении и всюду далее для
всяких ε 0 и σ ∈ Σ под ε-решением задачи (1), (2) понимается точка
x ∈ D(σ) ∩ B такая, что f (σ, x) v(σ) + ε.
П р е д л о ж е н и е 2. Пусть выполнены условия теоремы 3.
Тогда для любых последовательностей {tk } ⊂ R+ \ {0}, {ρk } ⊂ Σ
и {xk } ⊂ X таких, что {tk } → 0, ρk = o(tk ), {xk } → x (k → ∞), причем для любого k точка xk является o(tk )-решением задачи (1), (2)
при σ = σ + tk d + ρk , любая предельная точка последовательности
{(xk − x)/tk } является решением задачи (6), (7).
Д о к а з а т е л ь с т в о. Будем считать, что последовательность
{(xk − x)/tk } сходится к некоторому ξ ∈ X, т. е. xk = x + tk ξ + o(tk ),
причем, напомним, xk ∈ D(σ + tk d + ρk ) ∀ k. Тогда в силу утверждения
из задачи 2.1.14 и в силу (7) ξ ∈ Ξ1 (σ, x; d). Кроме того, с учетом
оценки (9) из теоремы 1, получаем
f (σ + tk d + ρk , xk ) v(σ + tk d + ρk ) + o(tk ) v(σ) + v1 (σ, x; d)tk + o(tk ). (43)
4 А. Ф. Измаилов
98
Гл. 2. Чувствительность для задач оптимизации
С другой стороны,
f (σ + tk d + ρk , xk ) = v(σ)+
∂f
∂f
tk + o(tk ),
(σ, x), d +
(σ, x), ξ
∂σ
∂x
откуда и из (43) следует, что
∂f
∂f
(σ, x), d +
(σ, x), ξ v1 (σ, x; d),
∂σ
∂x
т. е. ξ ∈ S1 (σ, x; d).
Т е о р е м а 6. Пусть в дополнение к условиям теоремы 3 либо
выполнено (32), либо функция f и отображение F дважды дифференцируемы в точке (σ, x) по переменной x и выполнено (37), причем
в последнем случае множество Q конично в точке F (σ, x), а задача
(6), (7) имеет решение.
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t) в случае выполнения (32), и ρ(t) = O(t2 ) в случае выполнения
(37), при t 0 справедливо равенство
v(σ + td + ρ(t)) = v(σ) + v1 (σ, x; d)t + o(t),
(44)
причем для любого решения ξ задачи (6), (7) задача (1), (2) при
σ = σ + td + ρ(t) имеет o(t)-решение вида x + tξ + o(t).
Д о к а з а т е л ь с т в о. Учитывая установленную в теореме 1 оценку
(9), для обоснования (44) достаточно получить для t 0 оценку
v(σ + td + ρ(t)) v(σ) + v1 (σ, x; d)t + o(t).
От противного: предположим, что существуют последовательность
{tk } ⊂ R+ \ {0} и число ε > 0 такие, что {tk } → 0 (k → ∞) и ∀ k
v(σ + tk d + ρ(tk )) − v(σ)
v1 (σ, x; d) − ε.
tk
(45)
Рассмотрим произвольную последовательность {xk } ⊂ X такую, что
xk ∈ S(σ + tk d + ρ(tk )) ∀ k. Для каждого k положим ξ k = (xk − x)/tk .
Тогда в силу утверждения б) теоремы 3, а также в силу теоремы 5, последовательность {ξ k } ограничена, и без ограничения общности можно
считать, что эта последовательность сходится к некоторому ξ ∈ X. При
этом, в силу предложения 2, выполнено ξ ∈ S1 (σ, x; d).
Далее,
v(σ + tk d + ρ(tk )) − v(σ) = f (σ + tk d + ρ(tk ), xk ) − f (σ, x) =
∂f
∂f
tk + o(tk ),
=
(σ, x), d +
(σ, x), ξ
∂σ
∂x
2.2. Возмущения по направлениям
99
и поскольку ξ — решение задачи (6), (7), то
v(σ + tk d + ρ(tk )) − v(σ)
=
k→∞
tk
∂f
∂f
(σ, x), d +
(σ, x), ξ = v1 (σ, x; d),
=
∂σ
∂x
lim
что противоречит (45). Таким образом, равенство (44) доказано.
Теперь рассмотрим произвольную точку ξ ∈ S1 (σ, x; d). В силу теоремы 1.2.9 найдется отображение r : R+ → X такое, что r(t) = o(t) и
x + tξ + r(t) ∈ D(σ + td + ρ(t))
для любого достаточно малого t 0. Но тогда, с учетом (44), для
всякого такого t
f (σ + td + ρ(t), x + tξ + r(t)) =
∂f
∂f
= f (σ, x) +
(σ, x), d +
(σ, x), ξ
t + o(t) =
∂σ
∂x
= v(σ) + v1 (σ, x; d)t + o(t) v(σ + td + ρ(t)) + o(t),
т. е. x + tξ + r(t) является o(t)-решением задачи (1), (2).
Таким образом, в условиях теоремы 6 оценка (9) выполняется как
равенство, т. е. функция v дифференцируема в точке σ по направлению d, причем v (σ; d) = v1 (σ, x; d). Однако при этом возникает
естественный вопрос о вычислении следующего (квадратичного) члена
в асимптотическом разложении (44) функции v и, соответственно, об
уточнении результатов, полученных в предложении 2 и теореме 6. В
частности, множество S1 (σ, x; d) решений задачи (6), (7) часто оказывается слишком широким, чтобы давать полезную информацию об
асимптотическом поведении решений возмущенных задач. Например,
как нетрудно видеть, в случае задачи безусловной оптимизации (которую можно интерпретировать как (1), (2) при Q = Y ) это множество
совпадает со всем пространством X.
Далее в этом пункте ограничимся возмущениями вдоль луча в
пространстве Σ, т. е. значениями параметра вида σ = σ(t) = σ + td,
t 0. Обратимся к рассмотрению для произвольных фиксированных
ξ 1 , ξ 2 ∈ X дуг вида x(t) = x + tξ 1 + t2 ξ 2 + o(t) таких, что x(t) ∈ D(σ(t))
для любого достаточно малого t 0. Результаты, излагаемые в оставшейся части этого пункта, с разной степенью общности были получены
в [35, 41, 43, 46, 48, 62, 121, 123].
П р е д л о ж е н и е 3. Пусть отображение F : Σ × X → Y дважды
дифференцируемо в точке (σ, x) ∈ Σ × X. Пусть x ∈ D(σ), где D(·)
введено в (2).
Тогда для любого d ∈ Σ справедливы следующие утверждения:
4*
100
Гл. 2. Чувствительность для задач оптимизации
а) если для данной пары (ξ 1 , ξ 2 ) ∈ X × X существует последовательность {tk } ⊂ R+ \ {0} такая, что {tk } → 0 (k → ∞) и
dist(x + tk ξ 1 + t2k ξ 2 , D(σ + tk d)) = o(t2k ),
то
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 ∈ TQ (F (σ, x)),
∂σ
∂x
(46)
∂F
1
(σ, x)ξ 2 + F (σ, x)[(d, ξ 1 ), (d, ξ 1 )] ∈
∂x
2
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 ; (47)
∈ TTQ (F (σ, x))
∂σ
∂x
б) если отображение F дифференцируемо по x в некоторой
окрестности точки (σ, x), его производная по x непрерывна в
этой точке, множество Q конично в точке F (σ, x), а в точке
x выполнено условие (3) регулярности по направлению d, то
для любой пары (ξ 1 , ξ 2 ) ∈ X × X, удовлетворяющей (46), (47),
для t 0 имеет место оценка
dist(x + tξ 1 + t2 ξ 2 , D(σ + td)) = o(t2 ).
(48)
Д о к а з а т е л ь с т в о. Доказательство этой теоремы получается
несложной модификацией доказательства предложения 1.3.1.
Докажем а). Включение (46) является следствием утверждения из
задачи 1.2.14. Далее, найдется последовательность {xk } ⊂ X такая,
что xk ∈ D(σ + tk d) ∀ k, xk = x + tk ξ 1 + t2k ξ 2 + o(t2k ) (при этом по
необходимости {xk } → x (k → ∞)). Тогда для любого k
Q F (σ + tk d, xk ) = F (σ + tk d, x + tk ξ 1 + t2k ξ 2 + o(t2k )) =
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 +
= F (σ, x) + tk
∂σ
∂x
∂F
1 2
2
1
1
(σ, x)ξ + F (σ, x)[(d, ξ ), (d, ξ )] + o(t2k ),
+ tk
∂x
2
поэтому
tk
∂F
∂F
1
(σ, x)d +
(σ, x)ξ
+
∂σ
∂x
∂F
1
(σ, x)ξ 2 + F (σ, x)[(d, ξ 1 ), (d, ξ 1 )] + o(t2k ) ∈
+ t2k
∂x
2
∈ Q − F (σ, x) ⊂ RQ (F (σ, x)) ⊂ TQ (F (σ, x)),
2.2. Возмущения по направлениям
101
откуда следует, что
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 +
∂σ
∂x
1
∂F
(σ, x)ξ 2 + F (σ, x)[(d, ξ 1 ), (d, ξ 1 )] + o(tk ) ∈ TQ (F (σ, x)).
+ tk
∂x
2
Это дает (47).
Докажем б). Из (47) имеем: для любого достаточно малого t > 0
найдется η(t) ∈ TQ (F (σ, x)) такой, что
η(t) =
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 +
∂σ
∂x
∂F
1 2
1
1
(σ, x)ξ + F (σ, x)[(d, ξ ), (d, ξ )] + o(t)
+t
∂x
2
(49)
∂F
∂F
(σ, x)d +
(σ, x)ξ 1 (t → 0)).
(при этом по необходимости η(t) →
∂σ
∂x
В силу условия коничности множества Q в точке F (σ, x) в пересечении с некоторой окрестностью нуля множество Q − F (σ, x) совпадает с RQ (σ, x). При этом конус RQ (σ, x) замкнут по необходимости, значит, согласно утверждению из задачи 1.2.5, в пересечении с
некоторой окрестностью нуля TQ (F (σ, x)) = RQ (F (σ, x)) совпадает с
Q − F (σ, x). Отсюда и из включения η(t) ∈ TQ (F (σ, x)) следует, что
для любого достаточно малого t > 0 имеет место tη(t) ∈ Q − F (σ, x).
Но тогда, в силу (49),
dist(F (σ + td, x + tξ 1 + t2 ξ 2 ), Q) =
= dist F (σ, x) + tη(t) + o(t2 ), Q = o(t2 ),
и из леммы 1.2.3 вытекает оценка (48).
Для заданного d ∈ Σ введем в рассмотрение вспомогательную задачу
v1, 2 (σ, x; d, ξ) → min, ξ ∈ S1 (σ, x; d),
(50)
где для всякого ξ ∈ S1 (σ, x; d)
v1, 2 (σ, x; d, ξ) =
=
inf
ξ 2 ∈Ξ1, 2 (σ, x; d, ξ)
Ξ1, 2 (σ, x; d, ξ) =
∂f
(σ, x), ξ 2
∂x
1 + f (σ, x)[(d, ξ), (d, ξ)] , (51)
2
∂F
1
(σ, x)ξ 2 + F (σ, x)[(d, ξ), (d, ξ)] ∈
ξ 2 ∈ X ∂x
2
∂F
∂F
∈ TTQ (F (σ, x))
. (52)
(σ, x)d +
(σ, x)ξ
∂σ
∂x
102
Гл. 2. Чувствительность для задач оптимизации
Обозначим через v1, 2 (σ, x; d) значение минимума в задаче (50):
v1, 2 (σ, x; d) =
inf
ξ∈S1 (σ, x; d)
v1, 2 (σ, x; d, ξ).
(53)
Т е о р е м а 7. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дважды дифференцируемы в точке (σ, x) ∈ Σ × X.
Пусть x — локальное решение задачи (1), (2) при σ = σ, причем
множество Q конично в точке F (σ, x), а в точке x выполнено
условие (3) регулярности по заданному направлению d ∈ Σ. Пусть,
наконец, Λ(σ, x) = ∅.
Тогда для t 0 справедлива оценка
v(σ + td) v(σ) + v1 (σ, x; d)t + v1, 2 (σ, x; d)t2 + o(t2 ),
(54)
причем если S1 (σ, x; d) = ∅, то для введенной в (53) величины
v1, 2 (σ, x; d) справедливо v1, 2 (σ, x; d) < +∞.
Напомним, что, согласно теореме 1 и утверждению б) предложения 1 условие Λ(σ, x) = ∅ здесь является необходимым и достаточным
для конечности величины v1 (σ, x; d).
Д о к а з а т е л ь с т в о. Прежде всего заметим, что согласно утверждению из задачи 1.2.5 ∀ ξ ∈ X
∂F
∂F
TTQ (F (σ, x))
(σ, x)d +
(σ, x)ξ =
∂σ
∂x
∂F
∂F
(σ, x)d +
(σ, x)ξ
, (55)
= cl TQ (F (σ, x)) − cone
∂σ
∂x
и поэтому
∂F
∂F
∂F
(σ, x)d +
(σ, x)ξ − im
(σ, x) ⊃
TTQ (F (σ, x))
∂σ
∂x
∂x
∂F
∂F
∂F
(σ, x)d +
(σ, x)ξ − im
(σ, x) =
⊃ TQ (F (σ, x)) − cone
∂σ
∂x
∂x
∂F
∂F
(σ, x)d − im
(σ, x).
= TQ (F (σ, x)) − cone
∂σ
∂x
Но тогда в силу выполнения в точке x условия (3) регулярности по
направлению d согласно утверждению из задачи 1.2.16 имеет место
равенство
∂F
∂F
∂F
TTQ (F (σ, x))
(σ, x)d +
(σ, x)ξ − im
(σ, x) = Y ,
∂σ
∂x
∂x
откуда и из (52) немедленно следует, что Ξ1, 2 (σ, x; d, ξ) = ∅.
103
2.2. Возмущения по направлениям
Из сказанного и из (51), (53) вытекает, что если S1 (σ, x; d) = ∅,
то v1, 2 (σ, x; d) < +∞.
Если S1 (σ, x; d) = ∅, то v1, 2 (σ, x; d) = +∞, и оценка (54) выполняется тривиальным образом. Поэтому далее считаем, что существует
элемент ξ ∈ S1 (σ, x; d). Тогда, по доказанному, существует элемент
ξ 2 ∈ Ξ1, 2 (σ, x; d, ξ). С учетом (7) и (52), в силу утверждения б) предложения 3, найдется отображение r : R+ → X такое, что r(t) = o(t2 ) и
x + tξ + t2 ξ 2 + r(t) ∈ D(σ + td)
для любого достаточно малого t 0. Но тогда для всякого такого t
v(σ + td) − v(σ) f (σ + td, x + tξ + t2 ξ 2 + r(t)) − f (σ, x) =
∂f
∂f
(σ, x), d +
(σ, x), ξ
t+
=
∂σ
∂x
∂f
1
(σ, x), ξ 2 + f (σ, x)[(d, ξ), (d, ξ)] t2 + o(t2 ),
+
∂x
2
откуда в силу (8), (51), (53) и произвольности элементов ξ ∈ S1 (σ, x; d)
и ξ 2 ∈ Ξ1, 2 (σ, x; d, ξ) следует (54).
П р е д л о ж е н и е 4. Пусть функция f : Σ × X → R и отображение F : Σ × X → Y дважды дифференцируемы в точке (σ, x) ∈ Σ × X.
Пусть x ∈ D(σ), где множество D(·) введено в (18), причем в точке
x выполнено условие (3) регулярности по направлению d ∈ Σ.
Тогда для любого ξ ∈ S1 (σ, x; d) имеет место равенство
v1, 2 (σ, x; d, ξ) =
1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)],
2
λ∈Λ1 (σ, x; d) 2 ∂(σ, x)
sup
(56)
и, в частности, v1, 2 (σ, x; d, ξ) > −∞ выполняется тогда и только
тогда, когда Λ1 (σ, x; d) = ∅, причем в этом случае точная верхняя
грань в (56) достигается.
Д о к а з а т е л ь с т в о. Для любых ξ ∈ S1 (σ, x; d) и ξ 2 ∈
∈ Ξ1, 2 (σ, x; d, ξ) и для любого λ ∈ Λ1 (σ, x; d) с учетом (4), (52), (55)
и утверждения б) предложения 1 (см. (13)) имеем
∂f
1
2
(σ, x), ξ + f (σ, x)[(d, ξ), (d, ξ)] =
∂x
2
∂f
1 ∂ 2L
2
=
(σ, x), ξ
(σ, x, λ)[(d, ξ), (d, ξ)] +
−
2 ∂(σ, x)2
∂x
1
− λ, F (σ, x)[(d, ξ), (d, ξ)] =
2
∂L
1 ∂ 2L
2
(σ, x, λ), ξ
(σ, x, λ)[(d, ξ), (d, ξ)] +
−
=
2 ∂(σ, x)2
∂x
104
Гл. 2. Чувствительность для задач оптимизации
∂F
1
(σ, x)ξ 2 + F (σ, x)[(d, ξ), (d, ξ)] λ,
∂x
2
1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)].
2 ∂(σ, x)2
−
Отсюда, в силу произвольности ξ 2 ∈ Ξ1, 2 (σ, x; d, ξ) и λ ∈ Λ1 (σ, x, d), с
учетом (51) вытекает неравенство
v1, 2 (σ, x; d, ξ) 1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)],
2
λ∈Λ1 (σ, x; d) 2 ∂(σ, x)
sup
(57)
и, в частности, если Λ1 (σ, x; d) = ∅, то v1, 2 (σ, x; d, ξ) > −∞.
Пусть теперь v1, 2 (σ, x; d, ξ) > −∞ (иначе требуемое равенство (56)
тривиально следует из доказанного неравенства (57)). Определим множества
∂f
2
M1 (d, ξ) = (α, y) ∈ R × Y α =
(σ, x), ξ +
∂x
1
+ f (σ, x)[(d, ξ), (d, ξ)] − v1, 2 (σ, x; d, ξ),
2
∂F
1 2
2
y=
(σ, x)ξ + F (σ, x)[(d, ξ), (d, ξ)], ξ ∈ X ,
∂x
2
∂F
∂F
(σ, x)d +
(σ, x)ξ .
M2 (d, ξ) = (R− \ {0}) × TTQ (F (σ, x))
∂σ
∂x
Первое из этих множеств аффинно, а второе выпукло, причем, в силу
(51), M1 (d, ξ) ∩ M2 (d, ξ) = ∅. В силу теоремы 1.1.2 существует пара
(λ0 , λ) ∈ (R × Y ) \ {0} такая, что
∂f
1 2
(σ, x), ξ + f (σ, x)[(d, ξ), (d, ξ)] − v1, 2 (σ, x; d, ξ) +
λ0
∂x
2
∂F
1 2
+ λ,
(σ, x)ξ + F (σ, x)[(d, ξ), (d, ξ)] λ0 β + λ, η
∂x
2
∂F
∂F
2
∀ ξ ∈ X, ∀ β < 0, ∀ η ∈ TTQ (F (σ, x))
(σ, x)d +
(σ, x)ξ .
∂σ
∂x
Отсюда и из (55) элементарно выводится, что выполнены соотношения
(13), (16) и, кроме того,
1 λ0
f (σ, x)[(d, ξ), (d, ξ)] − v1, 2 (σ, x; d, ξ) +
2
1 + λ, F (σ, x)[(d, ξ), (d, ξ)] 0. (58)
2
105
2.2. Возмущения по направлениям
Если
предположить, что λ0 = 0, то
∂F
(σ, x))⊥ ∩ NQ (F (σ, x))) \ {0}, и
λ ∈ ((im
∂x
принимает вид
∂F
(σ, x)d = 0.
λ,
∂σ
из
(16)
имеем:
соотношение
(13)
Однако, согласно утверждению из задачи 1.2.16, это противоречит
условию (3) регулярности по направлению d. Таким образом, с учетом
второго соотношения в (16), λ0 > 0, и, переобозначая λ/λ0 через λ, из
(4) и первого и последнего соотношений в (16) получаем включение
λ ∈ Λ(σ, x), а из (58) получаем неравенство
v1, 2 (σ, x; d, ξ) 1 f (σ, x)[(d, ξ), (d, ξ)] +
2
=
λ,
1 F (σ, x)[(d, ξ), (d, ξ)] =
2
1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)]. (59)
2 ∂(σ, x)2
Кроме того, в силу (13) и утверждения а) предложения 1 справедливо
включение λ ∈ Λ1 (σ, x; d). Поэтому, объединяя (57) и (59), приходим
к (56), причем λ реализует точную верхнюю грань в (56).
П р е д л о ж е н и е 5. Пусть выполнены условия теоремы 7.
Тогда для любых последовательностей {tk } ⊂ R+ \ {0} и {xk } ⊂
⊂ X таких, что {tk } → 0, {xk } → x (k → ∞), причем для любого
k точка xk является o(t2k )-решением задачи (1), (2) при σ = σ +
+ tk d, любая предельная точка последовательности {(xk − x)/tk }
является решением задачи (50).
Д о к а з а т е л ь с т в о. Будем считать, что последовательность
{(xk − x)/tk } сходится к некоторому ξ ∈ X. Согласно предложению 2
ξ ∈ S1 (σ, x; d). Если Λ1 (σ, x; d) = ∅, то, по предложению 4,
v1, 2 (σ, x; d, ξ) = −∞ ∀ ξ ∈ S1 (σ, x; d), и поэтому, формально, ξ
является решением задачи (50). Далее считаем, что Λ1 (σ, x; d) = ∅.
Учитывая оценку (54) из теоремы 7, получаем
f (σ + tk d, xk ) v(σ + tk d) + o(t2k ) v(σ) + v1 (σ, x; d)tk + v1, 2 (σ, x; d)t2k + o(t2k ). (60)
С другой стороны, поскольку для всякого k справедливо
F (σ + tk d, xk ) − F (σ, x) ∈ Q − F (σ, x) ⊂ RQ (F (σ, x)) ⊂ TQ (F (σ, x)),
106
Гл. 2. Чувствительность для задач оптимизации
для произвольного λ ∈ Λ1 (σ, x; d) в силу (4) и утверждения б) предложения 1 имеем
f (σ + tk d, xk ) − v(σ) f (σ + tk d, xk ) − f (σ, x) +
+ λ, F (σ + tk d, xk ) − F (σ, x) = L(σ + tk d, xk , λ) − L(σ, x, λ) =
∂L
∂L
=
(σ, x, λ), d tk +
(σ, x, λ), xk − x +
∂σ
∂x
2
1 ∂ L
(σ, x, λ)[(d, (xk − x)/tk ), (d, (xk − x)/tk )]t2k + o(t2k ) =
+
2 ∂(σ, x)2
1 ∂ 2L
= v1 (σ, x; d)tk +
(σ, x, λ)[(d, ξ), (d, ξ)]t2k + o(t2k ), (61)
2 ∂(σ, x)2
откуда и из (60) следует, что
1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)] v1, 2 (σ, x; d),
2 ∂(σ, x)2
откуда в силу произвольности λ ∈ Λ1 (σ, x; d) и предложения 4 получаем
v1, 2 (σ, x; d, ξ) =
=
1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)] v1, 2 (σ, x; d),
2
λ∈Λ1 (σ, x; d) 2 ∂(σ, x)
sup
т. е. ξ является решением задачи (50).
Т е о р е м а 8. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дважды дифференцируемы в точке (σ, x) ∈ Σ × X.
Пусть x ∈ D(σ), где D(·) введено в (2), причем множество Q конично
в точке F (σ, x), а в точке x выполнено условие (3) регулярности по
заданному направлению d ∈ Σ. Пусть, наконец, Λ(σ, x) = ∅, и либо
выполнено (32), либо выполнено (37), причем в последнем случае
задача (6), (7) имеет решение.
Тогда для t 0 справедливо равенство
v(σ + td) = v(σ) + v1 (σ, x; d)t + v1, 2 (σ, x; d)t2 + o(t2 ),
(62)
причем для любого решения ξ задачи (50) и любого
2
ξ ∈ Ξ1, 2 (σ, x; d, ξ), реализующего точную нижнюю грань в (51) при
2
ξ = ξ (если такие ξ и ξ существуют), задача (1), (2) при σ = σ + td
2
имеет o(t2 )-решение вида x + tξ + t2 ξ + o(t).
Д о к а з а т е л ь с т в о. Учитывая установленную в теореме 7 оценку
(54), для обоснования (62) достаточно получить для t 0 оценку
v(σ + td) v(σ) + v1 (σ, x; d)t + v1, 2 (σ, x; d)t2 + o(t2 ),
2.2. Возмущения по направлениям
107
От противного: предположим, что существуют последовательность
{tk } ⊂ R+ \ {0} и число ε > 0 такие, что {tk } → 0 (k → ∞) и ∀ k
v(σ + tk d) − v(σ) − v1 (σ, x; d)tk
v1, 2 (σ, x; d) − ε.
t2k
(63)
Рассмотрим произвольную последовательность {xk } ⊂ X такую, что
xk ∈ S(σ + tk d) ∀ k. Для каждого k положим ξ k = (xk − x)/tk . Тогда
в силу утверждения б) теоремы 3, а также в силу теоремы 5, последовательность {ξ k } ограничена, и без ограничения общности можно
считать, что эта последовательность сходится к некоторому ξ ∈ X. При
этом, в силу предложения 5, ξ является решением задачи (50).
Далее, точно так же, как при доказательстве предложения 5, для
произвольного λ ∈ Λ1 (σ, x; d) выводим (61), откуда следует, что
v(σ + tk d) − v(σ) − v1 (σ, x; d)tk 1 ∂ 2L
(σ, x, λ)[(d, ξ), (d, ξ)]t2k + o(t2k ),
2 ∂(σ, x)2
а значит, в силу произвольности λ ∈ Λ1 (σ, x; d) и оптимальности ξ
в задаче (50), из предложения 4 имеем
lim inf
k→∞
v(σ + tk d) − v(σ) − v1 (σ, x; d)tk
t2k
1 ∂ 2L
sup
(σ, x, λ)[(d, ξ), (d, ξ)] =
2
λ∈Λ1 (σ, x; d) 2 ∂(σ, x)
= v1, 2 (σ, x; d, ξ) = v1, 2 (σ, x; d),
что противоречит (63). Таким образом, равенство (62) доказано.
Теперь рассмотрим произвольное решение ξ ∈ S1 (σ, x; d) задачи
2
(50) и произвольный элемент ξ ∈ Ξ1, 2 (σ, x; d, ξ), реализующий точную нижнюю грань в (51) при ξ = ξ. В силу утверждения б) предложения 3 найдется отображение r : R+ → X такое, что r(t) = o(t2 ) и
2
x + tξ + t2 ξ + r(t) ∈ D(σ + td)
для любого достаточно малого t 0. Но тогда, учитывая (8), (51), (53)
и (62), для всякого такого t
2
f (σ + td, x + tξ + t2 ξ + r(t)) =
∂f
∂f
= f (σ, x) +
(σ, x), d +
(σ, x), ξ
t+
∂σ
∂x
∂f
1
2
(σ, x), ξ + f (σ, x)[(d, ξ), (d, ξ)] t2 + o(t2 ) =
+
∂x
2
108
Гл. 2. Чувствительность для задач оптимизации
= v(σ) + v1 (σ, x; d)t + v1, 2 (σ, x; d, ξ)t2 + o(t2 ) =
= v(σ) + v1 (σ, x; d)t + v1, 2 (σ, x; d)t2 + o(t2 ) v(σ + td) + o(t2 ),
2
т. е. x + tξ + t2 ξ + r(t) является o(t2 )-решением задачи (1), (2).
Проиллюстрируем полученные результаты примером из [123].
П р и м е р 2. Пусть s = 2, n = l = 2, f (σ, x) = ((x1 − 1)2 + x22 )/2,
F (σ, x) = (x1 , x1 + σ1 x2 + σ2 ), Q = R2− . Точка x = 0 является единственным решением задачи (1), (2) при σ = σ = 0, причем в этом
решении выполнено условие Робинсона (Мангасариана–Фромовица),
Λ(σ, x) = {λ ∈ R2 | λ1 + λ2 = 1, λ1 0, λ2 0},
и, как легко проверить, условие (37) выполняется для любого d ∈ R2 .
Нетрудно убедиться, что при любом σ ∈ R2 задача (1), (2) имеет
единственное решение
⎧
0, если σ2 < 0,
⎪
⎪
⎪
⎪
⎪
⎨ 0, − σ2 , если 0 σ < σ 2 ,
2
1
σ1
x(σ) =
⎪
⎪ σ2 − σ
⎪
σ1 (1 + σ2 )
2
⎪
1
⎪
,−
, если σ12 σ2 ,
⎩
2
1 + σ1
1 + σ12
и поведение этого решения при σ → σ характеризуется предложением 5
и теоремой 8.
Пусть, например, d = (1, 0). Тогда S1 (σ, x; d) = {ξ ∈ R2 | ξ1 = 0},
Λ1 (σ, x; d) = Λ(σ, x), единственным решением задачи (50) является
ξ = 0, и, как и следовало ожидать, x (σ; d) = ξ.
Если d = (1, α), где α > 0, то S1 (σ, x; d) = {ξ ∈ R2 | ξ1 = −α},
Λ1 (σ, x; d) = {(0, 1)}, единственным решением задачи (50) является
ξ = −(α, 1), и x (σ; d) = ξ.
Подчеркнем, что, как следует из сказанного, в этом примере зависимость x (σ; d) от направления d не является непрерывной. Заметим
также, что зависимость x(σ) от σ не является липшицевой ни в какой
окрестности точки σ.
2.2.3. Асимптотики функции минимума и решений: случай
гёльдеровой устойчивости. Для произвольного фиксированного ξ ∈
∈ X будем рассматривать дуги вида x(t) = x + t1/2 ξ + o(t1/2 ) такие, что
x(t) ∈ D(σ(t)) для любого достаточно малого t 0. Для доказательства
существования таких дуг лемма 1.2.3 уже не подходит.
П р е д л о ж е н и е 6. Пусть отображение F : Σ × X → Y дифференцируемо в точке (σ, x) ∈ Σ × X и дважды дифференцируемо в
этой точке по переменной x. Пусть x ∈ D(σ), где D(·) введено в (2).
Тогда для любого d ∈ Σ справедливы следующие утверждения:
109
2.2. Возмущения по направлениям
а) если для данного ξ ∈ X существуют последовательности
{tk } ⊂ R+ \ {0} и {ρk } ⊂ Σ такие, что {tk } → 0 (k → ∞),
ρk = o(tk ) и
1/2
1/2
dist(x + tk ξ, D(σ + tk d + ρk )) = o(tk ),
−1
то ξ ∈ ( ∂F
∂x (σ, x)) (TQ (F (σ, x))) и
∂F
1 ∂ 2F
∂F
(σ, x)d +
(σ,
(σ,
x)[ξ,
ξ]
∈
cl
T
(F
(σ,
x))
−
im
x)
;
Q
∂σ
2 ∂x2
∂x
(64)
б) если отображение F дифференцируемо по x в некоторой
окрестности точки (σ, x), его производная по x непрерывна
в этой точке, множество Q конично в точке F (σ, x), а в точке
x выполнено условие (3) регулярности по направлению d, то
−1
∂F
(σ, x)
для любого ξ ∈
(TQ (F (σ, x))), удовлетворяюще∂x
го (64), и для любого отображения ρ : R+ → Σ такого, что
ρ(t) = o(t), при t 0 имеет место оценка
dist(x + t1/2 ξ, D(σ + td + ρ(t))) = o(t1/2 ).
(65)
Д о к а з а т е л ь с т в о. Докажем а). В условиях этого утверждения, найдется последовательность {xk } ⊂ X такая, что xk = x +
1/2
1/2
+ tk ξ + o(tk ) (при этом по необходимости {xk } → x (k → ∞))
k
и x ∈ D(σ + tk d + ρk ) ∀ k. Тогда
1/2
1/2
Q F (σ + tk d + ρk , xk ) = F (σ + tk d + ρk , x + tk ξ + o(tk )) =
1/2 ∂F
1/2
= F (σ, x) + tk
(σ, x)ξ + o(tk ), (66)
∂x
Q − im
∂F
∂F
(σ, x) F (σ + tk d + ρk , xk ) −
(σ, x)(xk − x) =
∂x
∂x
∂F
1 ∂ 2F
(σ, x)d +
= F (σ, x) + tk
(σ,
x)[ξ,
ξ]
+ o(tk ). (67)
∂σ
2 ∂x2
Из (66) следует, что
1/2 ∂F
tk
∂x
1/2
(σ, x)ξ + o(tk ) ∈ Q − F (σ, x) ⊂ RQ (F (σ, x)).
1/2
Разделив левую и правую части на tk и перейдя к пределу при k →
∂F
(σ, x)ξ ∈ TQ (F (σ, x)), которое иначе
→ ∞, получаем включение
∂x −1
∂F
(σ, x)
(TQ (F (σ, x))).
записывается как ξ ∈
∂x
110
Гл. 2. Чувствительность для задач оптимизации
Кроме того, из (67) следует, что
tk
∂F
1 ∂ 2F
(σ, x)d +
(σ, x)[ξ, ξ] + o(tk ) ∈
∂σ
2 ∂x2
∂F
∂F
(σ, x) ⊂ RQ (F (σ, x)) − im
(σ, x).
∈ Q − F (σ, x) − im
∂x
∂x
Разделив левую и правую части на tk и перейдя к пределу при k → ∞,
получаем включение (64).
Докажем б). Для этого сначала убедимся, что множество тех ξ ∈ X,
для которых выполнено (65), является замкнутым. Предположим противное: существует сходящаяся к некоторому ξ ∈ X последовательность {ξ k } ⊂ X такая, что для каждого k при ξ = ξ k выполняется
(65), но, в то же время, существуют число γ > 0 и последовательность
{tj } ⊂ R+ \ {0} такие, что {tj } → 0 (j → ∞) для каждого j
1/2
1/2
dist(x + tj ξ, D(σ + tj d + ρ(tj ))) γtj .
(68)
Это значит, что ∀ x ∈ D(σ + tj d + ρ(tj ))
1/2
1/2
x + tj ξ − x γtj .
(69)
С другой стороны, для любого достаточно большого k выполняется
ξ k − ξ γ/2, поэтому, в силу (68) и (69),
1/2
1/2
1/2
x + tj ξ k − x x + tj ξ − x − tj ξ k − ξ 1/2
γtj
т. е.
1/2
dist(x + tj ξ k , D(σ + tj d + ρ(tj ))) 1 1/2
1 1/2
− γtj = γtj ,
2
2
1 1/2
γt ,
2 j
что противоречит выполнению (65) при ξ = ξ k .
Из утверждения, приведенного в задаче 1.2.17, и из (64) вытекает,
что для любого фиксированного θ ∈ [0, 1) справедливо включение
∂F
1 2 ∂ 2F
∂F
(σ, x)d + θ
(σ, x) .
(σ, x)[ξ, ξ] ∈ int TQ (F (σ, x)) − im
∂σ
2 ∂x2
∂x
Отсюда легко следует, что для любого достаточно малого τ > 0 элемент
∂F
1 ∂ 2F
(σ, x)d + θ2 2 (σ, x)[ξ, ξ] удовлетворяет включению
y = −τ
∂σ
2 ∂x
∂F
(σ, x) − Q .
y ∈ int F (σ, x) + im
∂x
2.2. Возмущения по направлениям
111
Тогда, согласно теореме 1.2.6 найдется δ > 0 такое, что для (σ, x, y) ∈
∈ Σ × X × Q, близких к (σ, x, F (σ, x)) и удовлетворяющих включению
1 ∂ 2F
∂F
(σ, x)d +
(σ, x)[θξ, θξ] ,
(70)
F (σ, x) − y ∈ cone Bδ
∂σ
2 ∂x2
имеет место оценка
dist(x, D(σ)) = O(F (σ, x) − y).
(71)
Для любого достаточно малого t > 0, полагая σ = σ + td + ρ(t),
∂F
x = x + t1/2 θξ, y = F (σ, x) + t1/2
(σ, x)θξ, и учитывая
∂x
коничность множества Q в точке F (σ, x) и условие ξ ∈
−1
∂F
(σ, x)
(TQ (F (σ, x))), имеем: y ∈ Q и
∈
∂x
F (σ, x) − y = t
∂F
1 ∂ 2F
(σ, x)d +
(σ, x)[θξ, θξ] + o(t) ∈
∂σ
2 ∂x2
1 ∂ 2F
∂F
(σ, x)d +
∈ cone Bδ
(σ, x)[θξ, θξ] , (72)
∂σ
2 ∂x2
т. е. выполнено (70). Поэтому, в силу (71) и равенства в (72),
dist(x + t1/2 θξ, D(σ + td + ρ(t))) = O(F (σ, x) − y) = O(t).
Остается заметить, что θξ → ξ (θ → 1), и воспользоваться доказанной выше замкнутостью множества тех ξ ∈ X, для которых выполнено (65).
Для заданного d ∈ Σ введем в рассмотрение вспомогательную
задачу
∂f
(σ, x), ξ → min, ξ ∈ Ξ1/2 (σ, x; d),
(73)
∂x
∂F
1 ∂2F
Ξ1/2 (σ, x; d) = ξ ∈ C(σ, x) (σ, x)d +
(σ, x)[ξ, ξ] ∈
∂σ
2 ∂x2
∂F
(σ, x)
, (74)
∈ cl TQ (F (σ, x)) − im
∂x
и обозначим через v1/2 (σ, x; d) значение минимума в этой задаче:
∂f
(σ, x), ξ .
v1/2 (σ, x; d) =
inf
(75)
ξ∈Ξ1/2 (σ, x; d) ∂x
112
Гл. 2. Чувствительность для задач оптимизации
Заметим, что в силу утверждения из задачи 1.2.17 условие (3)
регулярности по направлению d ∈ Σ равносильно следующему:
∂F
∂F
(σ, x)d ∈ int RQ (F (σ, x)) − im
(σ, x) .
∂σ
∂x
При выполнении этого условия любой вектор ξ ∈ C(σ, x) достаточно
малой нормы удовлетворяет (64) и, значит, лежит в Ξ1/2 (σ, x; d).
В частности,
0 ∈ Ξ1/2 (σ, x; d).
(76)
З а д а ч а 4. Показать, что если C2 (σ, x) = {0}, то для введенной
в (75) величины v1/2 (σ, x; d) справедливо v1/2 (σ, x; d) > −∞.
Т е о р е м а 9. Пусть функция f : Σ × X → R дифференцируема по
x в точке (σ, x) ∈ Σ × X, а отображение F : Σ × X → Y дифференцируемо в точке (σ, x), а также дифференцируемо по x в некоторой
окрестности точки (σ, x) и дважды дифференцируемо по x в этой
точке, причем его производная по x непрерывна в точке (σ, x).
Пусть x — локальное решение задачи (1), (2) при σ = σ, причем
множество Q конично в точке F (σ, x), а в точке x выполнено
условие (3) регулярности по заданному направлению d ∈ Σ.
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), при t 0 справедлива оценка
v(σ + td + ρ(t)) v(σ) + v1/2 (σ, x; d)t1/2 + o(t1/2 ),
(77)
причем точка ξ = 0 допустима в задаче (73), (74) и, в частности, для введенной в (75) величины v1/2 (σ, x; d) справедливо
v1/2 (σ, x; d) 0.
Д о к а з а т е л ь с т в о. Неравенство v1/2 (σ, x; d) 0 следует немедленно из (75) и (76).
Далее, в силу (5), (74) и утверждения б) предложения 6 для всякого
элемента ξ ∈ Ξ1/2 (σ, x; d) (напомним, что Ξ1/2 (σ, x; d) непусто в силу
(76)) найдется отображение r : R+ → X такое, что r(t) = o(t1/2 ) и
x + t1/2 ξ + r(t) ∈ D(σ + td + ρ(t))
для любого достаточно малого t 0. Но тогда для всякого такого t
v(σ + td + ρ(t)) − v(σ) f (σ + td + ρ(t), x + t1/2 ξ + r(t)) − f (σ, x) =
∂f
(σ, x), ξ t1/2 + o(t1/2 ),
=
∂x
откуда в силу произвольности ξ ∈ Ξ1/2 (σ, x; d) и в силу (75) следует (77).
2.2. Возмущения по направлениям
113
Если Λ(σ, x) = ∅, то в условиях теоремы 9 v1/2 (σ, x; d) = 0. Это
следует из (5), (74) и того, что согласно (4) для произвольного λ ∈
−1
∂F
(σ, x)
∈ Λ(σ, x) и всякого ξ ∈
(TQ (F (σ, x))) справедливо
∂x
∗
∂F
∂f
∂F
(σ, x), ξ = −
(σ, x) λ, ξ = − λ,
(σ, x)ξ 0.
∂x
∂x
∂x
В этом случае оценка (77) не представляет интереса, поскольку в
теореме 1 установлена более сильная оценка (9).
Вместе с тем, при Λ(σ, x) = ∅ оценка (77) может быть содержательной. Например, если множество Q полиэдрально, то при этом
в условиях теоремы 9 имеем v1/2 (σ, x; d) < 0. Действительно, если
предположить, что
◦
−1
∂F
∂f
(σ, x)
(TQ (F (σ, x))) ,
− (σ, x) ∈
∂x
∂x
то из полиэдральности Q, утверждения а) леммы 1.1.2 и из (4) получаем противоречие с пустотой множества Λ(σ, x). Таким образом, най−1
∂f
∂F
(TQ (F (σ, x))) такой, что
дется ξ ∈
(σ, x)
(σ, x), ξ < 0,
∂x
∂x
причем, в силу сказанного выше, θξ ∈ Ξ1/2 (σ, x; d) для любого достаточно малого θ > 0.
Следующий пример показывает, что в условиях теоремы 9 величина
v1/2 (σ, x; d) может быть даже равна −∞. В таких случаях оценка (77)
означает, что с ростом t из нуля значение v(σ + td + ρ(t)) убывает
быстрее по порядку, чем −t1/2 .
П р и м е р 3. Пусть s = 1, n = 3, l = 2, f (σ, x) = x1 . Пусть далее F (σ, x) = (F1 (σ, x), F2 (σ, x)) = (x1 − x3 − x33 , x21 + x22 − x23 − σ),
Q = {(0, y2 ) ∈ R2 | y2 ∈ R− }. Заметим, что для D(·), введенного в (2),
при σ = 0 справедливо D(σ) = {0}, и, в частности, точка x = 0 явля∂F1
(σ, x) = 0,
ется решением задачи (1), (2) при σ = σ. Кроме того,
∂σ
3
F2 (σ, x) = 0 и для любого d > 0 и всякого ξ ∈ R такого, что ξ 1 = ξ 3 ,
имеем:
∂F1
∂F1
(σ, x)d +
(σ, x)ξ = ξ 1 − ξ 3 = 0,
∂σ
∂x
∂F2
∂F2
(σ, x)d +
(σ, x)ξ = −d < 0,
∂σ
∂x
т. е. в точке x выполнено условие регулярности по такому направлению d (условие Голлана; см. п. 1.2.6).
Положим d = 1. Несложно убедиться, что
Ξ1/2 (σ, x; d) = {ξ ∈ R3 | ξ1 − ξ3 = 0, ξ12 + ξ22 − ξ32 1},
114
Гл. 2. Чувствительность для задач оптимизации
и точки, например, вида ξ = (θ, ±d1/2 , θ) являются допустимыми в задаче (73), (74) при любом θ ∈ R. Вместе с тем, для таких ξ
∂f
(σ, x), ξ = ξ1 = θ → −∞ (θ → −∞).
∂x
Заметим, что в этом примере (ср. с задачей 4)
C2 (σ, x) = {ξ ∈ R3 | ξ1 = ξ3 , ξ2 = 0, ξ1 0} = {0}.
П р е д л о ж е н и е 7. Пусть выполнены условия теоремы 9.
Тогда для любых последовательностей {tk } ⊂ R+ \ {0}, {ρk } ⊂ Σ
и {xk } ⊂ X таких, что {tk } → 0, ρk = o(tk ), {xk } → x (k → ∞), при1/2
чем для любого k точка xk является o(tk )-решением задачи (1), (2)
k
при σ = σ + tk d + ρ , любая предельная точка последовательности
1/2
{(xk − x)/tk } является решением задачи (73), (74).
Доказательство данного предложения проводится по той же схеме,
что и доказательство предложения 2, только вместо утверждения из
задачи 1.2.14 нужно использовать утверждение а) предложения 6,
а вместо оценки (9) из теоремы 1 — оценку (77) из теоремы 9.
З а д а ч а 5. Доказать предложение 7.
Т е о р е м а 10. Пусть в дополнение к условиям теоремы 9 выполнено (29).
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), для t 0 справедливо равенство
v(σ + td + ρ(t)) = v(σ) + v1/2 (σ, x; d)t1/2 + o(t1/2 ),
(78)
причем для любого решения ξ задачи (73), (74) задача (1), (2) при
σ = σ + td + ρ(t) имеет o(t1/2 )-решение вида x + t1/2 ξ + o(t1/2 ).
Д о к а з а т е л ь с т в о этой теоремы получается с помощью вполне
понятной модификации доказательства теоремы 6. Тем не менее, приведем доказательство полностью.
Учитывая установленную в теореме 9 оценку (77), для обоснования
(78) достаточно получить для t 0 оценку
v(σ + td + ρ(t)) v(σ) + v1/2 (σ, x; d)t1/2 + o(t1/2 ).
От противного: предположим, что существуют последовательность
{tk } ⊂ R+ \ {0} и число ε > 0 такие, что {tk } → 0 (k → ∞) и ∀ k
v(σ + tk d + ρ(tk )) − v(σ)
1/2
tk
v1/2 (σ, x; d) − ε.
(79)
2.2. Возмущения по направлениям
115
Рассмотрим произвольную последовательность {xk } ⊂ X такую, что
1/2
xk ∈ S(σ + tk d + ρ(tk )) ∀ k. Для каждого k положим ξ k = (xk − x)/tk .
Тогда в силу утверждения а) теоремы 3 последовательность {ξ k }
ограничена, и без ограничения общности можно считать, что эта
последовательность сходится к некоторому ξ ∈ X. При этом в силу
предложения 7 элемент ξ является решением задачи (73), (74).
Далее,
v(σ + tk d + ρ(tk )) − v(σ) = f (σ + tk d + ρ(tk ), xk ) − f (σ, x) =
∂f
1/2
1/2
=
(σ, x), ξ tk + o(tk ),
∂x
и поскольку ξ — решение задачи (73), (74), то
∂f
v(σ + tk d + ρ(tk )) − v(σ)
lim
(σ,
=
x),
ξ
= v1/2 (σ, x; d),
1/2
k→∞
∂x
t
k
что противоречит (79). Таким образом, равенство (78) доказано.
Пусть теперь ξ — произвольное решение задачи (73), (74). В силу
утверждения б) предложения 6 найдется отображение r : R+ → X
такое, что r(t) = o(t1/2 ) и
x + t1/2 ξ + r(t) ∈ D(σ + td + ρ(t))
для любого достаточно малого t 0. Но тогда, с учетом (78), для
всякого такого t
f (σ + td + ρ(t), x + t1/2 ξ + r(t)) =
∂f
(σ, x), ξ t1/2 + o(t1/2 ) =
= f (σ, x) +
∂x
= v(σ) + v1/2 (σ, x; d)t1/2 + o(t1/2 ) v(σ + td + ρ(t)) + o(t1/2 ),
т. е. x + t1/2 ξ + r(t) является o(t1/2 )-решением задачи (1), (2).
Результаты, родственные теореме 9, предложению 7 и теореме 10,
были получены в работах [41, 44].
Теперь обратимся к случаю, когда Λ(σ, x) = ∅ (напомним, что
при этом v1/2 (σ, x; d) = 0, и оценка (77) нуждается в дальнейшем
уточнении). Для этого обратимся к рассмотрению более детализированных дуг, а именно, дуг вида x(t) = x + t1/2 ξ 1 + tξ 2 + o(t), t 0, для
фиксированных ξ 1 , ξ 2 ∈ X. Результаты, излагаемые в оставшейся части
этого пункта, были получены в работах [44, 48, 62, 64].
В основе предлагаемого ниже анализа лежит следующая лемма (ср.
с леммой 1.2.3).
116
Гл. 2. Чувствительность для задач оптимизации
Л е м м а 2. Пусть отображение F : Σ × X → Y дифференцируемо в точке (σ, x) ∈ Σ × X и дифференцируемо по x в некоторой
окрестности этой точки, причем его производная по x непрерывна
в точке (σ, x). Пусть x ∈ D(σ), где множество D(·) введено в (2).
Тогда если в точке x выполнено условие (3) регулярности по
заданному направлению d ∈ Σ, то найдется число L > 0 такое,
что для любых последовательностей {tk } ⊂ R+ \ {0}, {ρk } ⊂ Σ и
{xk } ⊂ X, удовлетворяющих условиям {tk } → 0, ρk = o(tk ), {xk } → x
(k → ∞) и
dist(F (σ + tk d + ρk , xk ), Q) = o(tk ),
(80)
и для любого числа θ > 0 справедливо неравенство
dist(xk , D(σ + (1 + θ)tk d + ρk )) Lθtk
(81)
для любого достаточно большого k.
Д о к а з а т е л ь с т в о. Точно так же, как и при доказательстве леммы 1.2.3, получаем существование δ > 0 такого, что для (σ, x, y) ∈ Σ ×
× X × Q, близких к (σ, x, F (σ, x)) и удовлетворяющих включению
∂F
(σ, x)d ,
(82)
F (σ, x) − y ∈ cone Bδ
∂σ
справедлива оценка (71).
Для каждого k имеем
F (σ + (1 + θ)tk d + ρk , , xk )=F (σ + tk d + ρk , xk ) + θtk
∂F
(σ, x)d + o(tk ),
∂σ
откуда, полагая y k = πQ (F (σ + tk d + ρk , xk )), в силу (80) для любого
достаточно большого k выводим
F (σ + (1 + θ)tk d + ρk , xk ) − y k =
∂F
∂F
= θtk
(σ, x)d + o(tk ) ∈ cone Bδ
(σ, x)d , (83)
∂σ
∂σ
т. е. имеет место включение (82) при σ = σ + (1 + θ)tk d + ρk , x = xk ,
y = yk .
Из (71) получаем
dist(xk , D(σ + (1 + θ)tk d + ρk )) = O(F (σ + (1 + θ)tk d + ρk , xk ) − y k ),
откуда и из равенства в (83) следует требуемая оценка (81) при
соответствующем выборе L > 0.
2.2. Возмущения по направлениям
117
П р е д л о ж е н и е 8. Пусть отображение F : Σ × X → Y дифференцируемо в точке (σ, x) ∈ Σ × X и дважды дифференцируемо
в этой точке по переменной x. Пусть x ∈ D(σ), где D(·) введено
в (2).
Тогда для любого d ∈ Σ справедливы следующие утверждения:
а) если для данной пары (ξ 1 , ξ 2 ) ∈ X × X существуют последовательности {tk } ⊂ R+ \ {0} и {ρk } ⊂ Σ такие, что {tk } → 0
(k → ∞), ρk = o(tk ) и
1/2
dist(x + tk ξ 1 + tk ξ 2 , D(σ + tk d + ρk )) = o(tk ),
−1
∂F
то ξ 1 ∈
(σ, x)
(TQ (F (σ, x))) и
∂x
∂F
1 ∂ 2F
∂F
(σ, x)d +
(σ, x)ξ 2 +
(σ, x)[ξ 1 , ξ 1 ] ∈
∂σ
∂x
2 ∂x2
∂F
(σ, x)ξ 1 ; (84)
∈ TTQ (F (σ, x))
∂x
б) если отображение F дифференцируемо по x в некоторой
окрестности точки (σ, x), его производная по x непрерывна в этой точке, множество Q конично в точке F (σ, x),
а в точке x выполнено условие (3) регулярности по направлению d, то существует число L > 0 такое, что для любой
−1
∂F
пары (ξ 1 , ξ 2 ) ∈
(σ, x)
(TQ (F (σ, x))) × X, удовлетворя∂x
ющей (84), для любого отображения ρ : R+ → Σ такого, что
ρ(t) = o(t), и для любого числа θ > 0 справедливо неравенство
dist(x + t1/2 ξ 1 + tξ 2 , D(σ + (1 + θ)td + ρ((1 + θ)t))) Lθt (85)
для любого достаточно малого t 0.
Д
о к а з а т е ль с т в о. Докажем а). Для доказательства включения
−1
∂F
(σ, x)
(TQ (F (σ, x))) достаточно сослаться на утверждеξ1 ∈
∂x
ние а) предложения 6. Далее, найдется последовательность {xk } ⊂ X
1/2
такая, что xk ∈ D(σ + tk d + ρk ) ∀ k и xk = x + tk ξ 1 + tk ξ 2 + o(tk ) (при
k
этом по необходимости {x } → x (k → ∞)). Тогда ∀ k
1/2
Q F (σ + tk d + ρk , xk ) = F (σ + tk d + ρk , x + tk ξ 1 + tk ξ 2 + o(tk )) =
1/2 ∂F
(σ, x)ξ 1 +
= F (σ, x) + tk
∂x
∂F
∂F
1 ∂ 2F
2
1
1
+ tk
(σ, x)[ξ , ξ ] + o(tk ),
(σ, x)d +
(σ, x)ξ +
∂σ
∂x
2 ∂x2
118
Гл. 2. Чувствительность для задач оптимизации
поэтому
1/2 ∂F
tk
(σ, x)ξ 1 +
∂F
1 ∂ 2F
∂F
1
1
(σ, x)d +
(σ, x)ξ 2 +
+ tk
(σ,
x)[ξ
,
ξ
]
+ o(tk ) ∈
∂σ
∂x
2 ∂x2
∈ Q − F (σ, x) ⊂ RQ (σ, F (σ, x)) ⊂ TQ (F (σ, x)),
∂x
откуда следует, что
∂F
1/2
(σ, x)ξ 1 + tk
∂x
∂F
∂F
1 ∂ 2F
1
1
(σ, x)d +
(σ, x)ξ 2 +
(σ,
x)[ξ
,
ξ
]
+
∂σ
∂x
2 ∂x2
1/2
+ o(tk ) ∈ TQ (F (σ, x)).
Это дает (84).
Докажем б). Число L > 0 определим согласно лемме 2. Из (84)
имеем: для любого достаточно малого t > 0 найдется η(t) ∈ TQ (F (σ, x))
такой, что
∂F
(σ, x)ξ 1 +
η(t) =
∂x
∂F
∂F
1 ∂ 2F
1/2
2
1 1
(σ, , x)d +
(σ, x)ξ +
+t
(σ, x)[ξ , ξ ] + o(t1/2 ) (86)
∂σ
∂x
2 ∂x2
∂F
(при этом по необходимости η(t) →
(σ, x)ξ 1 (t → 0)).
∂x
В силу условия коничности множества Q в точке F (σ, x) в пересечении с некоторой окрестностью нуля множество Q − F (σ, x) совпадает с RQ (σ, x). При этом конус RQ (σ, x) замкнут по необходимости, а значит, согласно утверждению из задачи 1.2.5, в пересечении
с некоторой окрестностью нуля TQ (F (σ, x)) = RQ (F (σ, x)) совпадает
с Q − F (σ, x). Отсюда и из включения η(t) ∈ TQ (F (σ, x)) следует, что
для любого достаточно малого t > 0 имеет место t1/2 η(t) ∈ Q − F (σ, x).
Но тогда, в силу (86),
dist(F (σ + td + ρ(t), x + t1/2 ξ 1 + tξ 2 ), Q) =
= dist F (σ, x) + t1/2 η(t) + o(t), Q = o(t),
и требуемая оценка (85) вытекает из леммы 2 (нужно еще учесть,
что из условия ρ(t) = o(t) следует соотношение ρ((1 + θ)t) = o(t) для
любого фиксированного θ > 0).
Для заданного d∈Σ введем в рассмотрение вспомогательную задачу
v1/2, 1 (σ, x; d, ξ) → min,
где для всякого ξ ∈ C(σ, x)
ξ ∈ C(σ, x),
(87)
2.2. Возмущения по направлениям
119
∂f
(σ, x), d +
v1/2, 1 (σ, x; d, ξ) =
inf
∂σ
ξ 2 ∈Ξ1/2, 1 (σ, x; d, ξ)
∂f
1 ∂ 2f
+
(σ, x), ξ 2 +
(σ,
x)[ξ,
ξ]
, (88)
∂x
2 ∂x2
Ξ1/2, 1 (σ, x; d, ξ) =
∂F
∂F
1 ∂ 2F
2
(σ, x)d +
(σ, x)ξ 2 +
= ξ ∈ X (σ, x)[ξ, ξ] ∈
∂σ
∂x
2 ∂x2
∂F
(σ, x)ξ
. (89)
∈ TTQ (F (σ, x))
∂x
Обозначим через v1/2, 1 (σ, x; d) значение минимума в задаче (87):
v1/2, 1 (σ, x; d) =
inf
ξ∈C(σ, x)
v1/2, 1 (σ, x; d, ξ).
(90)
Заметим, что, согласно (7), (8) и (88), (89), величина
v1/2, 1 (σ, x; d, 0) совпадает с v1 (σ, x; d). Отсюда, согласно теореме 1,
следует, что при выполнении в точке x условия (3) регулярности по
направлению d имеет место
v1/2, 1 (σ, x; d) v1 (σ, x; d) < +∞.
(91)
Т е о р е м а 11. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дифференцируемы в точке (σ, x) ∈ Σ × X и дважды
дифференцируемы в этой точке по переменной x. Пусть, кроме того, отображение F дифференцируемо по x в некоторой окрестности
точки (σ, x), а его производная по x непрерывна в этой точке.
Пусть x — локальное решение задачи (1), (2) при σ = σ, причем
множество Q конично в точке F (σ, x), а в точке x выполнено
условие (3) регулярности по заданному направлению d ∈ Σ. Пусть,
наконец, Λ(σ, x) = ∅.
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), при t 0 справедлива оценка
v(σ + td + ρ(t)) v(σ) + v1/2, 1 (σ, x; d)t + o(t).
(92)
причем для введенной в (90) величины v1/2, 1 (σ, x; d) справедливо (91).
Д о к а з а т е л ь с т в о. Число L > 0 определим согласно утверждению б) предложения 8. Тогда, с учетом (5), (89), можно утверждать,
что для произвольных элементов ξ ∈ C(σ, x) и ξ 2 ∈ Ξ1/2, 1 (σ, x; d, ξ) и
для любого числа θ > 0 найдется отображение rθ : R+ → X такое, что
rθ (t) Lθt и
x + t1/2 ξ + tξ 2 + rθ (t) ∈ D(σ + (1 + θ)td + ρ((1 + θ)t))
(93)
120
Гл. 2. Чувствительность для задач оптимизации
для любого достаточно малого t 0. Поэтому, с учетом (5),
v(σ + td + ρ(t)) − v(σ)
=
t
t→0+
v(σ + (1 + θ)td + ρ((1 + θ)t)) − v(σ)
= lim sup
(1 + θ)t
t→0+
1
1
lim sup
f (σ + (1 + θ)td + ρ((1 + θ)t),
1 + θ t→0+ t
x + t1/2 ξ + tξ 2 + rθ (t)) − f (σ, x) =
1
∂f
∂f
1
1/2
=
+ (1 + θ)
lim sup
(σ, x), ξ t
(σ, x), d +
1 + θ t→0+ t
∂x
∂σ
∂f
1 ∂ 2f
2
(σ, x), ξ +
(σ, x)[ξ, ξ] t + o(t) + O(rθ (t)) +
∂x
2 ∂x2
∂f
1
(σ, x), d +
(1 + θ)
1+θ
∂σ
∂f
1 ∂2f
(σ, x), ξ 2 +
+
(σ,
x)[ξ,
ξ]
+ O(θ).
∂x
2 ∂x2
lim sup
Переходя к пределу при θ → 0+, получаем, что для t 0 справедлива
оценка
v(σ + td + ρ(t)) − v(σ) ∂f
∂f
1 ∂ 2f
(σ, x), d +
(σ, x), ξ 2 +
(σ,
x)[ξ,
ξ]
t + o(t),
∂σ
∂x
2 ∂x2
откуда в силу (88), (90) и произвольности элементов ξ ∈ C(σ, x) и
ξ 2 ∈ Ξ1/2, 1 (σ, x; d, ξ) следует (92).
П р е д л о ж е н и е 9. Пусть функция f : Σ × X → R и отображение F : Σ × X → Y дифференцируемы в точке (σ, x) ∈ Σ × X и
дважды дифференцируемы в этой точке по переменной x. Пусть
x ∈ D(σ), где множество D(·) введено в (2). Пусть, наконец,
Λ(σ, x) = ∅.
Тогда для любого d ∈ Σ справедливы следующие утверждения:
а) для любого ξ ∈ C(σ, x) имеет место неравенство
v1/2, 1 (σ, x; d, ξ) 1 ∂ 2L
∂L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] , (94)
sup
∂σ
2 ∂x2
λ∈Λ(σ, x)
и, в частности, v1/2, 1 (σ, x; d, ξ) > −∞;
2.2. Возмущения по направлениям
121
б) если в точке x выполнено условие (3) регулярности по направлению d, то для введенной в (90) величины v1/2, 1 (σ, x; d)
справедливо равенство
v1/2, 1 (σ, x; d) =
=
inf
sup
ξ∈C(σ, x) λ∈Λ(σ, x)
∂L
1 ∂ 2L
(σ, x, λ), d +
(σ,
x,
λ)[ξ,
ξ]
.
∂σ
2 ∂x2
(95)
Доказательство. Докажем а). Прежде всего, аналогично (55), согласно утверждению из задачи 1.2.5 ∀ ξ ∈ X имеем
∂F
∂F
(σ, x)ξ = cl TQ (F (σ, x)) − cone
(σ, x)ξ
TTQ (F (σ, x))
.
∂x
∂x
(96)
Для любых ξ ∈ C(σ, x) и ξ 2 ∈ Ξ1/2, 1 (σ, x; d, ξ) и для любого λ ∈
∈ Λ(σ, x), с учетом (4), (89), (96) и леммы 1.3.2, имеем
∂f
∂f
1 ∂ 2f
2
(σ, x), d +
(σ, x), ξ +
(σ, x)[ξ, ξ] =
∂σ
∂x
2 ∂x2
∂L
1 ∂2L
(σ, x, λ), d +
=
(σ, x, λ)[ξ, ξ] −
∂σ
2 ∂x2
∂F
∂F
1 ∂ 2F
2
(σ, x)d +
(σ, x)ξ +
− λ,
(σ, x)[ξ, ξ] ∂σ
∂x
2 ∂x2
∂L
1 ∂2L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ].
∂σ
2 ∂x2
Отсюда, в силу произвольности ξ 2 ∈ Ξ1/2, 1 (σ, x; d, ξ) и λ ∈ Λ(σ, x)
и с учетом (88), вытекает неравенство (94).
На сегодняшний день неизвестно, можно ли в условиях утверждения б) доказать выполнение (94) как равенства для любого ξ ∈ C(σ, x).
Для доказательства утверждения б) потребуется следующая
Л е м м а 3. Пусть в дополнение к условиям предложения 9 для
заданного d ∈ Σ в точке x выполнено условие (3) регулярности по
направлению d.
Тогда для всякого ξ ∈ C(σ, x) справедливы следующие утверждения:
а) если существует число θ > 1 такое, что Ξ1/2, 1 (σ, x; d, θξ) = ∅,
то (94) выполняется как равенство, т.е.
v1/2, 1 (σ, x; d, ξ) =
∂L
1 ∂ 2L
= sup
(σ, x, λ), d +
(σ,
x,
λ)[ξ,
ξ]
, (97)
∂σ
2 ∂x2
λ∈Λ(σ, x)
122
Гл. 2. Чувствительность для задач оптимизации
причем точная верхняя грань в правой части (97) достигается;
б) если величина в правой части (94) конечна, то
Ξ1/2, 1 (σ, x; d, θξ) = ∅ ∀ θ ∈ [0, 1).
Д о к а з а т е л ь с т в о. Докажем а). Пусть v1/2, 1 (σ, x; d, ξ) > −∞
(иначе требуемое равенство (97) тривиально следует из доказанного
неравенства (94)). Определим множества
∂f
M1 (d, ξ) = (α, y) ∈ R × Y α =
(σ, x), d +
∂σ
2
∂f
1∂ f
(σ, x), ξ 2 +
+
(σ, x)[ξ, ξ] − v1/2, 1 (σ, x; d, ξ),
∂x
2 ∂x2
∂F
∂F
1 ∂ 2F
y=
(σ, x)d +
(σ, x)ξ 2 +
(σ,
x)[ξ,
ξ]
,
∂σ
∂x
2 ∂x2
∂F
M2 (d, ξ) = (R− \ {0}) × TTQ (F (σ, x))
(σ, x)ξ .
∂x
Первое из этих множеств аффинно, а второе выпукло, причем, в силу
(88), M1 (d, ξ) ∩ M2 (d, ξ) = ∅. В силу теоремы 1.1.2 существует пара
(λ0 , λ) ∈ (R × Y ) \ {0} такая, что
∂f
∂f
1 ∂ 2f
2
(σ, x), d +
(σ, x), ξ +
λ0
(σ, x)[ξ, ξ] −
∂σ
∂x
2 ∂x2
− v1/2, 1 (σ, x; d, ξ) +
∂F
∂F
1 ∂ 2F
2
(σ, x)d +
(σ, x)ξ +
+ λ,
(σ, x)[ξ, ξ] λ0 β + λ, η
∂σ
∂x
2 ∂x2
∂F
(σ, x)ξ .
∀ ξ 2 ∈ X, ∀ β < 0, ∀ η ∈ TTQ (F (σ, x))
∂x
Отсюда и из (96) элементарно выводится, что выполнено (16) и, кроме
того,
λ0
∂f
1 ∂ 2f
(σ, x), d +
(σ,
x)[ξ,
ξ]
−
v
(σ,
x;
d,
ξ)
+
1/2, 1
∂σ
2 ∂x2
∂F
1 ∂ 2F
(σ, x)d +
+ λ,
(σ,
x)[ξ,
ξ]
0. (98)
∂σ
2 ∂x2
= 0, то из (16) имеем:
Если
что λ0 предположить,
⊥
∂F
λ ∈
im
∩ NQ (F (σ, x)) \ {0}, а соотношение (98)
(σ, x)
∂x
2.2. Возмущения по направлениям
принимает вид
1 ∂ 2F
∂F
(σ, x)d +
(σ,
x)[ξ,
ξ]
0.
λ,
∂σ
2 ∂x2
123
(99)
Поскольку v1/2, 1 (σ, x; d, ξ) > −∞, то, согласно (88), Ξ1/2, 1 (σ, x; d, ξ) =
= ∅, и поэтому, в силу (89),
∂F
∂F
1 ∂ 2F
∂F
(σ, x)d +
(σ, x)ξ − im
(σ, x),
(σ, x)[ξ, ξ] ∈ TTQ (F (σ,x))
2
∂σ
2 ∂x
∂x
∂x
откуда и из (96) следует, что (99) может выполняться только как
равенство, т. е.
∂F
1 ∂ 2F
(σ, x)d +
λ,
(σ, x)[ξ, ξ] = 0.
(100)
∂σ
2 ∂x2
Далее, поскольку Ξ1/2, 1 (σ, x; d, θξ) = ∅, из (89) вытекает, что
∂F
∂F
TTQ (F (σ, x))
(σ, x)ξ − im
(σ, x) ∂x
∂x
∂F
1 ∂ 2F
(σ, x)d +
(σ, x)[θξ, θξ] =
∂σ
2 ∂x
2
∂F
1 ∂ 2F
2 ∂F
2
(σ, x)d + θ
(σ, x)d +
= (1 − θ )
(σ, x)[ξ, ξ] ,
∂σ
∂σ
2 ∂x2
откуда и из (96), (100) следует, что
∂F
2
(σ, x)d 0.
(1 − θ ) λ,
∂σ
Вспоминая, что θ > 1, отсюда имеем
∂F
(σ, x)d 0.
λ,
∂σ
Однако, согласно утверждению из задачи 1.2.16, это противоречит
условию (3) регулярности по направлению d.
Таким образом, с учетом второго соотношения в (16), λ0 > 0, и,
переобозначая λ/λ0 через λ, из (4) и первого и последнего соотношений
в (16) получаем включение λ ∈ Λ(σ, x), а из (98) получаем
∂f
∂F
(σ, x), d + λ,
(σ, x)d +
v1/2, 1 (σ, x; d, ξ) ∂σ
∂σ
2
1 ∂ f
∂ 2F
+
(σ, x)[ξ, ξ] + λ,
(σ, x)[ξ, ξ]
=
2 ∂x2
∂x2
∂L
1 ∂ 2L
=
(σ, x, λ)[ξ, ξ],
(σ, x, λ), d +
∂σ
2 ∂x2
124
Гл. 2. Чувствительность для задач оптимизации
откуда и из утверждения а) предложения 9 следует (97), причем λ
реализует точную верхнюю грань в (97).
Докажем б). Предположим противное: пусть существует число θ ∈
∈ [0, 1) такое, что Ξ1/2, 1 (σ, x; d, θξ) = ∅, т. е.
∂F
1 ∂2F
(σ, x)d +
(σ, x)[θξ, θξ] ∈
∂σ
2 ∂x2
∂F
∂F
(σ, x)ξ − im
(σ, x)
∈ TTQ (F (σ, x)) θ
∂x
∂x
(см. (89)). В правой части последнего соотношения стоит выпуклый
конус, поэтому, в силу утверждения б) теоремы 1.2.1 и утверждения
из задачи 1.2.1, найдется элемент
◦
∂F
∂F
μ ∈ TTQ (F (σ, x)) θ
(σ, x)ξ − im
(σ, x) \ {0}
∂x
∂x
такой, что
1 ∂2F
∂F
(σ, x)d +
(σ, x)[θξ, θξ] 0.
μ,
∂σ
2 ∂x2
Отсюда и из (96), согласно
г) из задачи 1.2.4, получаем,
∗ утверждению ∂F
(σ, x) ∩ NQ (F (σ, x)) \ {0} и
что μ ∈ ker
∂x
∂F
∂F
1 ∂ 2F
(1 − θ2 ) μ,
(σ, x)d + θ2
(σ, x)d +
(σ,
x)[ξ,
ξ]
=
∂σ
∂σ
2 ∂x2
∂F
1 ∂ 2F
(σ, x)d +
= μ,
(σ,
x)[θξ,
θξ]
0.
∂σ
2 ∂x2
Cогласно утверждению из задачи 1.2.16 из условия (3) регулярности
по направлению d и из условия θ < 1 следует отрицательность первого
слагаемого в левой части последнего неравенства, поэтому
∂F
1 ∂ 2F
(σ, x)d +
μ,
(σ, x)[ξ, ξ] > 0.
(101)
∂σ
2 ∂x2
Из (4) легко следует, что для всякого λ ∈ Λ(σ, x) и любого τ 0
справедливо включение λ + τ μ ∈ Λ(σ, x), причем, в силу (101),
∂L
1 ∂ 2L
(σ, x, λ + τ μ), d +
(σ, x, λ + τ μ)[ξ, ξ] =
∂σ
2 ∂x2
∂L
1 ∂ 2L
(σ, x, λ), d +
=
(σ, x, λ)[ξ, ξ] +
∂σ
2 ∂x2
∂F
1 ∂ 2F
+ τ μ,
(σ, x)[ξ, ξ] → ∞ (τ → +∞),
(σ, x)d +
∂σ
2 ∂x2
125
2.2. Возмущения по направлениям
и поэтому величина в правой части (94) бесконечна, что не так по
предположению.
Продолжение доказательства предложения 9. Докажем б). Если
для данного ξ ∈ C(σ, x) величина в правой части (94) равна +∞,
то то же самое справедливо и для величины в левой части, т. е.
v1/2, 1 (σ, x; d, ξ) = +∞. Вместе с тем, в силу (90) и (91), существует ξ ∈ C(σ, x), для которого v1/2, 1 (σ, x; d, ξ) < +∞, а значит,
величина в правой части (94) конечна, и именно элементы ξ, обладающие последним свойством, и нужно рассматривать. Тогда cогласно утверждению б) леммы 3, для всякого θ ∈ [0, 1) справедливо
Ξ1/2, 1 (σ, x; d, θξ) = ∅, причем, конечно же, θξ ∈ C(σ, x), а значит,
в силу утверждения а) той же леммы, а также утверждения б) предложения 1, имеем
v1/2, 1 (σ, x; d, θξ) =
1 ∂ 2L
∂L
(σ, x, λ), d +
(σ, x, λ)[θξ, θξ] =
= sup
∂σ
2 ∂x2
λ∈Λ(σ, x)
∂L
∂L
2
2
= sup
(σ, x, λ), d + θ
(σ, x, λ), d +
(1 − θ )
∂σ
∂σ
λ∈Λ(σ, x)
1 ∂ 2L
+
(σ,
x,
λ)[θξ,
θξ]
(1 − θ2 )v1 (σ, x; d) +
2 ∂x2
∂L
1 ∂ 2L
+ θ2 sup
(σ, x, λ), d +
(σ,
x,
λ)[ξ,
ξ]
.
∂σ
2 ∂x2
λ∈Λ(σ, x)
Поэтому, в силу (90) и второго неравенства в (91),
v1/2,1 (σ, x; d) lim inf v1/2,1 (σ, x; d, θξ) lim
θ→1−
θ→1−
(1 − θ2 )v1 (σ, x; d) +
1 ∂ 2L
∂L
+θ
(σ, x, λ), d +
sup
(σ, x, λ)[ξ, ξ]
=
∂σ
2 ∂x2
λ∈Λ(σ, x)
∂L
1 ∂ 2L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] ,
= sup
∂σ
2 ∂x2
λ∈Λ(σ, x)
2
откуда и из доказанного утверждения а) следует (95).
Введем в рассмотрение еще одну вспомогательную задачу:
∂L
1 ∂ 2L
sup
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] → min,
∂σ
2 ∂x2
λ∈Λ(σ, x)
ξ ∈ C(σ, x)
(ср. с правой частью (95)).
(102)
126
Гл. 2. Чувствительность для задач оптимизации
П р е д л о ж е н и е 10. Пусть выполнены условия теоремы 11.
Тогда для любых последовательностей {tk } ⊂ R+ \ {0}, {ρk } ⊂ Σ
и {xk } ⊂ X таких, что {tk } → 0, ρk = o(tk ), {xk } → x (k → ∞), причем для любого k точка xk является o(tk )-решением задачи (1), (2)
при σ = σ + tk d + ρk , любая предельная точка последовательности
1/2
{(xk − x)/tk } является решением задачи (102).
Д о к а з а т е л ь с т в о. Будем считать, что последовательность
1/2
{(xk − x)/tk } сходится к некоторому ξ ∈ X. Согласно предложению 7,
ξ является решением задачи (73), (74) и, в частности, ξ ∈ C(σ, x).
С учетом оценки (92) из теоремы 11, получаем
f (σ + tk d + ρk , xk ) v(σ + tk d) + o(tk ) v(σ) + v1/2, 1 (σ, x; d)tk + o(tk ). (103)
С другой стороны, поскольку для всякого k справедливо F (σ +
+ tk d, xk ) − F (σ, x) ∈ Q − F (σ, x) ⊂ RQ (F (σ, x)) ⊂ TQ (F (σ, x)), для
произвольного λ ∈ Λ(σ, x), в силу (4), имеем
f (σ + tk d + ρk , xk ) − v(σ) f (σ + tk d + ρk , xk ) − f (σ, x) + λ, F (σ + tk d + ρk , xk ) − F (σ, x) =
= L(σ + tk d + ρk , xk , λ) − L(σ, x, λ) =
∂L
∂L
k
(σ, x, λ), d tk +
(σ, x, λ), x − x +
=
∂σ
∂x
1 ∂ 2L
1/2
1/2
+
(σ, x, λ)[(xk − x)/tk , (xk − x)/tk ]tk + o(tk ) =
2 ∂x2
∂L
1 ∂ 2L
(σ, x, λ), d +
(σ,
x,
λ)[ξ,
ξ]
tk + o(tk ),
=
∂σ
2 ∂x2
(104)
откуда и из (103) следует, что
∂L
1 ∂ 2L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] v1/2, 1 (σ, x; d),
∂σ
2 ∂x2
а значит, в силу произвольности λ ∈ Λ(σ, x)
∂L
1 ∂ 2L
sup
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] v1/2, 1 (σ, x; d).
∂σ
2 ∂x2
λ∈Λ(σ, x)
Отсюда и из утверждения б) предложения 9 вытекает требуемое.
Т е о р е м а 12. Пусть в дополнение к условиям теоремы 11 выполнено (36).
127
2.2. Возмущения по направлениям
Тогда для любого отображения ρ : R+ → Σ такого, что ρ(t) =
= o(t), для t 0 справедливо равенство
v(σ + td + ρ(t)) = v(σ) + v1/2, 1 (σ, x; d)t + o(t).
Если, кроме того, в точке x выполнено условие Робинсона
∂F
0 ∈ int F (σ, x) + im
(σ, x) − Q ,
∂x
(105)
(106)
2
то для любого решения ξ задачи (87) и любого ξ ∈ Ξ1/2, 1 (σ, x; d, ξ),
реализующего точную нижнюю грань в (88) при ξ = ξ (если такие
2
ξ и ξ существуют), задача (1), (2) при σ = σ + td + ρ(t) имеет
2
o(t)-решение вида x + t1/2 ξ + tξ + o(t).
Д о к а з а т е л ь с т в о. C учетом установленной в теореме 9 оценки
(92), для обоснования (105) достаточно получить для t 0 оценку
v(σ + td + ρ(t)) v(σ) + v1/2, 1 (σ, x; d)t + o(t).
От противного: предположим, что существуют последовательность
{tk } ⊂ R+ \ {0} и число ε > 0 такие, что {tk } → 0 (k → ∞) и ∀ k
v(σ + tk d + ρ(tk )) − v(σ)
v1/2, 1 (σ, x; d) − ε.
tk
(107)
Рассмотрим произвольную последовательность {xk } ⊂ X такую, что
1/2
xk ∈ S(σ + tk d + ρ(tk )) ∀ k. Для каждого k положим ξ k = (xk − x)/tk .
k
Тогда, в силу теоремы 4, последовательность {ξ } ограничена, и без
ограничения общности можно считать, что эта последовательность
сходится к некоторому ξ ∈ X. При этом, в силу предложения 10, ξ
является решением задачи (102).
Далее, совершенно аналогично тому, как в доказательстве предложения 10 было выведено (104), для всякого λ ∈ Λ(σ, x) получаем
v(σ + tk d + ρ(tk )) − v(σ) = f (σ + tk d + ρ(tk ), xk ) − f (σ, x) ∂L
1 ∂ 2L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] tk + o(tk ),
∂σ
2 ∂x2
и поскольку ξ — решение задачи (102), то в силу утверждения б)
предложения 9
lim inf
k→∞
v(σ + tk d + ρ(tk )) − v(σ)
t
k
∂L
1 ∂ 2L
(σ, x, λ), d +
(σ, x, λ)[ξ, ξ] = v1/2, 1 (σ, x; d),
∂σ
2 ∂x2
что противоречит (107). Таким образом, равенство (105) доказано.
128
Гл. 2. Чувствительность для задач оптимизации
Теперь рассмотрим произвольное решение ξ ∈ C(σ, x) задачи (87)
2
и произвольный элемент ξ ∈ Ξ1/2, 1 (σ, x; d, ξ), реализующий точную
нижнюю грань в (88) при ξ = ξ. Используя (5) и (89) легко проверить,
что для t 0
2
dist(F (σ + td + ρ(t), x + t1/2 ξ + tξ )) = o(t).
Но тогда, если выполнено условие Робинсона (106), то согласно теореме 1.2.7 найдется отображение r : R+ → X такое, что r(t) = o(t) и
2
x + t1/2 ξ + tξ + r(t) ∈ D(σ + td + ρ(t))
(108)
для любого достаточно малого t 0. С учетом (5), (88) и (105), для
всякого такого t имеем
∂f
2
f (σ + td + ρ(t), x + t1/2 ξ + tξ + r(t)) = f (σ, x) +
(σ, x), ξ t1/2 +
∂x
∂f
∂f
1 ∂ 2f
2
(σ, x), d +
(σ, x), ξ +
+
(σ,
x)[ξ,
ξ]
t + o(t) ∂σ
∂x
2 ∂x2
v(σ) + v1/2, 1 (σ, x; d, ξ)t + o(t) =
= v(σ) + v1/2, 1 (σ, x; d)t + o(t) v(σ + td + ρ(t)) + o(t),
2
т. е. x + t1/2 ξ + tξ + r(t) является o(t)-решением задачи (1), (2) при
σ = σ + td + ρ(t).
З а д а ч а 6. Выяснить, во что превращаются результаты этого параграфа в случае выполнения в точке x условия Робинсона (106).
З а д а ч а 7. Расшифровать результаты этого параграфа для задачи
математического программирования. (Указание. Воспользоваться теорией линейного программирования, в том числе теорией двойственности; см., например, [9, 15, 29].)
Глава 3
ЧУВСТВИТЕЛЬНОСТЬ ДЛЯ СИСТЕМ УСЛОВИЙ
ОПТИМАЛЬНОСТИ
В этой главе излагается еще один подход к исследованию чувствительности для задач оптимизации, не столь «непосредственный»,
как тот, о котором речь шла в предыдущей главе. А именно, вместо
самих оптимизационнных задач рассматриваются отвечающие им системы условий первого порядка оптимальности и изучаются свойства
чувствительности их решений. В некотором смысле такой «опосредованный» подход является более грубым, поскольку оптимизационная
сущность задачи уходит на второй план. С другой стороны, часто
в разумных предположениях удается «вернуться» от стационарных
точек к решениям (например, с помощью тех или иных теорем об
устойчивости решений), и на этом пути получаются весьма полезные
и тонкие результаты о чувствительности, находящие разнообразные
приложения.
3.1. Сильная регулярность
В этом и следующем параграфах вместе с семейством задач оптимизации
f (σ, x) → min, x ∈ D(σ),
(1)
D(σ) = {x ∈ X | F (σ, x) ∈ Q}
(2)
с параметром σ ∈ Σ будем рассматривать соответствующую параметрическую прямодвойственную систему условий первого порядка оптимальности
∂L
(σ, x, λ) = 0, λ ∈ NQ (F (σ, x)),
(3)
∂x
характеризующую стационарные точки задачи (1), (2) и отвечающие
им множители Лагранжа. Здесь, как обычно, используется определенная для каждого σ ∈ Σ функция Лагранжа задачи (1), (2):
L(σ, x, λ) = f (σ, x) + λ, F (σ, x),
где x ∈ X, λ ∈ Y .
5 А. Ф. Измаилов
130
Гл. 3. Чувствительность для систем условий оптимальности
Пусть σ ∈ Σ — базовое значение параметра, (x, λ) ∈ X × Y —
решение системы (3) при σ = σ.
3.1.1. Задачи с ограничениями-равенствами и случай строгой
дополнительности. Начнем с простейшего случая задачи с чистыми
ограничениями-равенствами: пусть Q = {0}, т. е. для каждого σ ∈ Σ
множество D(σ) имеет вид
D(σ) = {x ∈ X | F (σ, x) = 0}.
(4)
При этом система (3) становится параметрической системой Лагранжа
∂L
(σ, x, λ) = 0,
∂x
F (σ, x) = 0.
(5)
Подчеркнем, что (5) — чистая система уравнений, в которой число
уравнений совпадает с числом неизвестных, и с ней можно иметь дело
с помощью традиционных средств нелинейного анализа, а именно,
с помощью классической теоремы о неявной функции.
Введем отображение Φ : Σ × (X × Y ) → X × Y ,
∂L
Φ(σ, (x, λ)) =
(σ, x, λ), F (σ, x) .
∂x
Тогда систему (5) можно записать в виде
Φ(σ, (x, λ)) = 0.
Заметим, что для любых σ ∈ Σ и (x, λ) ∈ X × Y
⎛ 2
∗
∂F
∂ L
(σ, x)
⎜ ∂x2 (σ, x, λ)
∂Φ
∂x
(σ, (x, λ)) = ⎜
⎝ ∂F
∂(x, λ)
(σ, x)
0
∂x
(6)
⎞
⎟
⎟.
⎠
(7)
Л е м м а 1. Пусть функция f : Σ × X → R и отображение F :
Σ × X → Y дважды дифференцируемы по x в точке (σ, x) ∈ Σ × X.
Тогда если
∂F
im
(σ, x) = Y
(8)
∂x
и для заданного λ ∈ Y имеет место
∂2L
∂F
(σ, x) \ {0},
(σ, x, λ)[ξ, ξ] > 0 ∀ ξ ∈ ker
2
∂x
∂x
то оператор
∂Φ
(σ, (x, λ)) обратим.
∂(x, λ)
(9)
131
3.1. Сильная регулярность
Д о к а з а т е л ь с т в о. Для всякого (ξ, η) ∈ ker
∂Φ
(σ, (x, λ))
∂(x, λ)
в силу (7) справедливо
∂2L
(σ, x, λ)ξ +
∂x2
∗
∂F
(σ, x) η = 0,
∂x
∂F
(σ, x)ξ = 0.
∂x
(10)
(11)
Умножая левую и правую части (10) скалярно на ξ и используя (11)
получаем
0=
∂2L
(σ, x, λ)ξ, ξ
∂x2
2
∂ L
∂F
(σ, x)ξ =
+ η,
(σ,
x,
λ)ξ,
ξ
.
∂x
∂x2
Это
означает, что ξ = 0, поскольку
иначе было бы нарушено (9)
∂F
(σ, x) в силу (11) . Но тогда из (10) вытекает, что
ξ ∈ ker
∂x
∗ ⊥
∂F
∂F
η ∈ ker
(σ, x)
(σ, x)
= im
= {0}, где последнее равен∂x
∂x
ство справедливо согласно (8). Таким образом, η = 0, а значит,
∂Φ
(σ, (x, λ)) = {0}, что и дает требуемое.
ker
∂(x, λ)
Условие (8) — традиционное условие регулярности ограничений
для задач оптимизации с ограничениями-равенствами. Совершенно
очевидно, что условие Мангасариана–Фромовица (Робинсона), строгое
условие Мангасариана–Фромовица (строгое условие регулярности; см.
п. 1.3.1), а также условие линейной независимости (невырожденности;
см. п. 1.2.5) для таких задач принимают вид (8). В частности, очевидно, что при выполнении этого условия точке x может отвечать не
более одного λ ∈ Y такого, что (x, λ) является решением системы (5)
при σ = σ. Соответственно, при выполнении (8) условие (9) есть ни
что иное, как достаточное условие второго порядка оптимальности из
теоремы 1.3.9.
Т е о р е м а 1. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дважды непрерывно дифференцируемы в некоторой
окрестности точки (σ, x) ∈ Σ × X. Пусть x — стационарная точка
задачи (1), (4) при σ = σ, а λ ∈ Y — отвечающий ей множитель
Лагранжа.
Тогда если выполнены условия (8) и (9), то для любого σ ∈ Σ,
достаточно близкого к σ, имеет место следующее:
5*
132
Гл. 3. Чувствительность для систем условий оптимальности
а) система (5) имеет вблизи (x, λ) единственное решение
(x(σ), λ(σ)), причем отображение (x(·), λ(·)) непрерывно
дифференцируемо вблизи σ и
∗
∂F
∂2L
∂2L
(σ,
(σ, x, λ),
(σ,
x,
λ)x
(σ)
+
x)
λ (σ) = −
2
∂x
∂x
∂σ∂x
∂F
∂F
(σ, x)x (σ) = −
(σ, x);
∂x
∂σ
б) x(σ) является единственным локальным решением задачи (1),
(4) вблизи x, а λ(σ) — единственным отвечающим x(σ) множителем Лагранжа.
Д о к а з а т е л ь с т в о. Утверждение а) вытекает из леммы 1 и теоремы 1.2.3 (классической теоремы о неявной функции).
Докажем б). Сразу отметим, что, поскольку множество множителей
Лагранжа выпукло (в данном случае оно даже аффинно), локальная
(вблизи λ) единственность множителя λ(σ), отвечающего x(σ), влечет
его глобальную единственность.
Из (9) легко следует, что при достаточной близости σ ∈ Σ к σ
(а значит, и достаточной близости (x(σ), λ(σ)) к (x, λ)) имеет место
∂2L
∂F
(σ, x(σ)) \ {0},
(σ, x(σ), λ(σ))[ξ, ξ] > 0 ∀ ξ ∈ ker
2
∂x
∂x
т. е. в точке x(σ) для задачи (1), (4) выполнено достаточное условие
второго порядка оптимальности из теоремы 1.3.9. Значит, x(σ) является локальным решением этой задачи. Остается доказать локальную
единственность этого локального решения.
От противного: рассмотрим произвольные последовательности
{σ k } ⊂ Σ и {xk } ⊂ X такие, что {σ k } → σ, {xk } → x (k → ∞), и ∀ k
точка xk является локальным решением (1), (4) при σ = σ k , причем
xk = x(σ k ).
(12)
Поскольку условие регулярности (8) очевидным образом устойчиво по
∂F
отношению к малым возмущениям оператора
(σ, x), для любого
∂x
достаточно большого k имеем
im
∂F k k
(σ , x ) = Y.
∂x
Но тогда согласно теореме 1.3.3 точка xk является стационарной точкой задачи (1), (4) при σ = σ k , причем ей отвечает единственный
множитель Лагранжа λk ∈ Y .
Если последовательность {λk } ограничена, то без ограничения общ ∈ Y . Поности можем считать, что она сходится к некоторому λ
3.1. Сильная регулярность
133
скольку Φ(σ k , (xk , λk )) = 0 для любого достаточно большого k, то
= 0, т. е. λ
— множитель Лагранжа, отвечающий стациΦ(σ, (x, λ))
онарной точке x задачи (1), (4) при σ = σ. Но единственным таким
= λ, а значит, {(xk , λk )} → (x, λ)
множителем является λ, поэтому λ
(k → ∞), что противоречит (12), поскольку для любого достаточно
большого k точка (x(σ k ), λ(σ k )) является единственным вблизи (x, λ)
решением уравнения (6) при σ = σ k .
Если последовательность {λk } не ограничена, то без ограничения
общности можем считать, что λk = 0 ∀ k, λk → ∞ (k → ∞), а последовательность {λk /λk } сходится к некоторому η ∈ Y \ {0}. Тогда
∗ k
∂F k k
λ
1 ∂f k k
1 ∂L k k k
(σ , x , λ ) = k
(σ , x ) +
(σ , x )
→
0= k
λ ∂x
λ ∂x
∂x
λk ∗
∂F
→
(σ, x) η (k → ∞),
∂x
то есть η ∈ ker
воречит (8).
∗
⊥
∂F
∂F
(σ, x) \ {0} = im
(σ, x)
\ {0}, что проти∂x
∂x
Теорема 1 дает очень естественные условия, при которых для задачи
оптимизации с ограничениями-равенствами имеют место существование, непрерывность, локальная единственность и даже дифференцируемость решения возмущенной задачи. В этой теореме достигается
идеал теории чувствительности для задач оптимизации в том же смысле, в котором он достигается для уравнений в классической теореме
о неявной функции. К сожалению, для задач с более общими ограничениями достичь этого идеала (или хотя бы приблизиться к нему)
удается лишь при весьма жестких (в контексте этих классов задач)
предположениях.
Рассмотрим задачу математического программирования: пусть Y =
= Y1 × Y2 , Y1 = Rl1 , Y2 = Rl2 , l1 + l2 = l, F (σ, x) = (F1 (σ, x), F2 (σ, x)),
F1 : Σ × X → Y1 и F2 : Σ × X → Y2 — (гладкие) отображения, Q =
= {0} × Rl−2 , 0 — нулевой элемент в Y1 . Иными словами, пусть для
каждого σ ∈ Σ множество D(σ) имеет вид
D(σ) = {x ∈ X | F1 (σ, x) = 0, F2 (σ, x) 0}.
(13)
В этом случае система (3) становится параметрической системой Каруша–Куна–Таккера
∂L
(σ, x, λ) = 0,
(14)
∂x
F1 (σ, x) = 0,
F2 (σ, x) 0,
λ2 0,
λ2 , F2 (σ, x) = 0.
(15)
134
Гл. 3. Чувствительность для систем условий оптимальности
Предположим, что в стационарной точке x задачи (1), (13) для
множителя Лагранжа λ = (λ1 , λ2 ), λ1 ∈ Y1 , λ2 ∈ Y2 , выполнено условие
строгой дополнительности, т. е.
(λ2 )i > 0
∀ i ∈ I(σ, x)
(16)
(см. определение 1.3.5 и сопровождающее его обсуждение). Как легко
убедиться, при этом локально (для σ ∈ Σ, близких к σ, и вблизи (x, λ))
система (14), (15) равносильна следующей параметрической системе
уравнений:
∂L
(σ, x, λ) = 0,
∂x
F1 (σ, x) = 0, (F2 )I(σ, x) (σ, x) = 0, (λ2 ){1, ..., l2 }\I(σ, x) = 0.
Подставляя последнее равенство в остальные приходим к системе уравнений
∗
∗
∂(F2 )I(σ, x)
∂F1
∂f
(σ, x) +
(σ, x) λ1 +
(σ, x) (λ2 )I(σ, x) = 0,
∂x
∂x
∂x
(17)
F1 (σ, x) = 0,
(F2 )I(σ, x) (σ, x) = 0,
(18)
а это есть ни что иное, как система Лагранжа для параметрической
задачи оптимизации с ограничениями-равенствами
f (σ, x) → min,
x ∈ D(σ),
(19)
D(σ) = D(σ, x; σ) = {x ∈ X | F1 (σ, x) = 0, (F2 )I(σ, x) (σ, x) = 0}. (20)
Совершенно очевидно, что если точка x является локальным решением задачи (1), (13) при σ = σ, то эта точка является локальным
решением и задачи (19), (20) при том же σ. Более того, в точке x
условие регулярности ограничений (аналог (8)) для последней задачи
есть ни что иное, как условие линейной независимости
⎞
⎛
∂F1
(σ,
x)
⎟
⎜
∂x
⎟ = l1 + |I(σ, x)|
rank ⎜
(21)
⎠
⎝ ∂(F2 )I(σ, x)
(σ, x)
∂x
для задачи (1), (13) при σ = σ, причем это условие гарантирует единственность множителя λ. Далее, достаточное условие второго порядка
(аналог (9)) для задачи (19), (20) при σ = σ при выполнении (16) совпадает с обычным достаточным условием второго порядка для задачи
(1), (13) при том же σ, т. е. имеет вид
∂2L
(σ, x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C(σ, x) \ {0},
∂x2
(22)
3.1. Сильная регулярность
где
C(σ, x) =
135
∂F1
∂(F2 )I(σ, x)
(σ, x)ξ = 0,
(σ, x)ξ 0,
ξ ∈ X ∂x
∂x
∂(F2 )I(σ, x)
(σ, x)ξ = 0 ∀ i ∈ I(σ, x)
(23)
(λ2 )i ,
∂x
— критический конус (см. лемму 1.3.2 и сопровождающие ее комментарии). Действительно, из (16) и (23) следует, что в этом случае
∂(F2 )I(σ, x)
∂F1
(σ, x) ∩ ker
(σ, x).
(24)
∂x
∂x
Остается воспользоваться теоремой 1 применительно к системе (17),
(18) и задаче (19), (20).
C(σ, x) = ker
З а д а ч а 1. Получить аналог теоремы 1 для задачи математического программирования, предполагая выполнение условия линейной
независимости, достаточного условия второго порядка и условия строгой дополнительности.
Описанный подход к анализу чувствительности для задач математического программирования был предложен в [31] и развит в [56].
Однако в современной литературе условие строгой дополнительности
(16), позволяющее сводить систему Каруша–Куна–Таккера к системе
уравнений, принято считать слишком обременительным. В следующем
пункте будет рассмотрен более общий подход, не связанный с привлечением условия строгой дополнительности, но, тем не менее, позволяющий получить результат о чувствительности, близкий к идеалу,
достигнутому в теореме 1 для задач с ограничениями-равенствами.
Один специальный случай, когда условие строгой дополнительности
для задачи с общими ограничениями (1), (2) позволяет перейти от
системы (3) к локально эквивалентной ей системе уравнений, будет
рассмотрен в параграфе 3.2.
3.1.2. Общий случай. Теперь обратимся к общей задаче (1), (2)
и отвечающей ей системе (3). Идея состоит в том, чтобы свести (3)
к обобщенному уравнению вида
Φ(σ, (x, λ)) + N (x, λ) 0,
(25)
где Φ : Σ × (X × Y ) → X × Y — гладкое отображение, а N (x, λ) ⊂
⊂ X × Y — заданное для всякой пары (x, λ) ∈ X × Y множество.
Тогда вместо классической теоремы о неявной функции можно будет
воспользоваться теоремой 1.2.4.
Подчеркнем, что множество N (·) в (25) не должно зависеть от
параметра. В связи с этим условие λ ∈ NQ (F (σ, x)) в (3) нужно
«обратить», а именно, переписать в виде
−1
F (σ, x) ∈ NQ
(λ),
136
где
Гл. 3. Чувствительность для систем условий оптимальности
−1
NQ
(λ) = {y ∈ Y | λ ∈ NQ (y)}.
З а д а ч а 2. Показать, что если Q — конус, то для всякого λ ∈ Y
−1
(λ) = NQ◦ (λ).
NQ
Таким образом, система (3) принимает вид (25), где для σ ∈ Σ и
(x, λ) ∈ X × Y
∂L
Φ(σ, (x, λ)) =
(σ, x, λ), −F (σ, x) ,
(26)
∂x
−1
N (x, λ) = N (λ) = {0} × NQ
(λ).
(27)
Напомним, что, согласно определению 1.2.1, сильная регулярность
решения (x, λ) такого обобщенного уравнения (25) означает, что для
любой пары (r, ρ) ∈ X × Y , достаточно близкой к (0, 0), линеаризованное обобщенное уравнение
∗
∂ 2L
∂F
(σ, x) η = r,
(σ, x, λ)ξ +
(28)
∂x2
∂x
−F (σ, x) −
∂F
−1
(σ, x)ξ + NQ
(λ + η) ρ
∂x
(29)
имеет вблизи (0, 0) единственное решение (ξ(r, ρ), η(r, ρ)), причем
отображение (ξ(·), η(·)) непрерывно по Липшицу вблизи (0, 0).
О п р е д е л е н и е 1. Будем говорить, что решение (x, λ) системы
(3) при σ = σ является сильно регулярным, если (x, λ) является сильно
регулярным решением обобщенного уравнения (25), в котором Φ(·×
×) и N (·) введены согласно (26) и (27) соответственно.
З а д а ч а 3. Показать, что если (x, λ) — сильно регулярное решение системы (3) при σ = σ, то в точке x выполнено условие Робинсона
∂F
(σ, x) − Q .
(30)
0 ∈ int F (σ, x) + im
∂x
Из приводимой ниже теоремы 2, которая в такой форме была доказана в [51], в частности, следует, что если (x, λ) — сильно регулярное
решение системы (3), то λ — единственный множитель Лагранжа,
отвечающий стационарной точке x задачи (1), (2). Впрочем, в этой
теореме утверждается намного больше.
3.1. Сильная регулярность
137
Т е о р е м а 2. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дважды непрерывно дифференцируемы в некоторой
окрестности точки (σ, x) ∈ Σ × X. Пусть x — стационарная точка
задачи (1), (2) при σ = σ, а λ ∈ Y — отвечающий x множитель
Лагранжа.
Тогда если (x, λ) является сильно регулярным решением системы
(3) при σ = σ, то для любого σ ∈ Σ, достаточно близкого к σ, имеет
место следующее:
а) система (3) имеет вблизи (x, λ) единственное решение
(x(σ), λ(σ)), причем отображение (x(·), λ(·)) непрерывно
по Липшицу вблизи σ и x(σ) = x + ξ(σ) + o(σ − σ),
λ(σ) = λ + η(σ) + o(σ − σ), где (ξ(σ), η(σ)) — единственное
вблизи (0, 0) решение системы
∗
∂F
∂ 2L
∂2L
(σ,
(σ, x, λ)(σ − σ), (31)
(σ,
x,
λ)ξ
+
x)
η
=
−
∂x2
∂x
∂σ∂x
∂F
∂F
(σ, x)ξ +
(σ, x)(σ − σ) , (32)
λ + η ∈ NQ F (σ, x) +
∂x
∂σ
которое по необходимости непрерывно по Липшицу вблизи
(0, 0);
б) если x — локальное решение задачи (1), (2) при σ = σ, то x(σ)
является единственным локальным решением задачи (1), (2)
вблизи x, а λ(σ) — единственным отвечающим x(σ) множителем Лагранжа.
Д о к а з а т е л ь с т в о. Утверждение а) вытекает из теоремы 1.2.4.
Докажем б). Снова отметим, что локальная (вблизи λ) единственность множителя λ(σ), отвечающего x(σ), влечет его глобальную единственность, поскольку множество множителей всегда выпукло.
Доказательство утверждения б) состоит из двух частей, очень похожих друг на друга. Первая часть касается невозмущенной задачи,
а вторая возмущенной. Покажем сначала, что локальное решение x
задачи (1), (2) при σ = σ является строгим. От противного: предположим, что существует последовательность {xk } ⊂ D(σ) \ {x} такая,
что {xk } → x (k → ∞) и f (xk ) = f (x) ∀ k. Очевидно, что для любого
достаточно большого k точка xk является локальным решением задачи (1), (2) при σ = σ. Согласно утверждению из задачи 3 в точке
x выполняется условие Робинсона, а значит, для любого достаточно
большого k оно выполняется и в точке xk (см. задачу 1.2.3). Поэтому,
согласно теореме 1.3.3, xk является стационарной точкой задачи (1),
(2) при σ = σ с некоторым множителем Лагранжа λk ∈ Y .
Если последовательность {λk } ограничена, то без ограничения общ ∈ Y . При этом
ности можем считать, что она сходится к некоторому λ
∀ k пара (xk , λk ) является решением системы (3) при σ = σ k , и, привле является решекая утверждение из задачи 1.2.8, выводим, что (x, λ)
138
Гл. 3. Чувствительность для систем условий оптимальности
нием системы (3) при σ = σ. Но в силу утверждения а) доказываемой
теоремы единственным таким решением является (x(σ), λ(σ)) = (x, λ),
= λ, а значит, {(xk , λk )} → (x, λ) (k → ∞), что противорепоэтому λ
чит условию xk = x, поскольку, в силу того же утверждения а), точка
(x, λ) является изолированным решением системы (3) при σ = σ.
Если же последовательность {λk } не ограничена, то без ограничения общности можем считать, что λk = 0 ∀ k, λk → ∞ (k → ∞),
а последовательность {λk /λk } сходится к некоторому η ∈ Y \ {0}.
Тогда
1 ∂L
(σ, xk , λk ) =
λk ∂x
∗ k
∗
∂F
∂F
λ
1 ∂f
k
k
(σ, x ) +
(σ, x )
→
(σ, x) η
= k
λ ∂x
∂x
λk ∂x
0=
т. е.
η ∈ ker
∗ ⊥
∂F
∂F
(σ, x) = im
(σ, x)
.
∂x
∂x
(k → ∞),
(33)
С другой стороны, λk /λk ∈ NQ (F (σ, xk )) ∀ k, поэтому, вновь привлекая утверждение из задачи 1.2.8, имеем
η ∈ NQ (F (σ, x)).
(34)
Соотношения (33) и (34) в совокупности противоречат условию Робинсона (30) (см. задачу 1.2.11; напомним, что η = 0).
Таким образом, x является строгим локальным решением задачи
(1), (2) при σ = σ, причем в этом решении выполняется условие
Робинсона (30). В силу теоремы 2.1.4 для достаточно малого числа
δ > 0 и любого σ ∈ Σ, достаточно близкого к σ, задача (1), (2) с дополнительным ограничением x ∈ Bδ (x) имеет (глобальное) решение
x
(σ), причем любое такое решение стремится к x при σ → σ. Как
уже отмечалось выше, при σ, достаточно близком к σ, такая точка
x
(σ) по необходимости является локальным решением задачи (1), (2).
Более того, любое локальное решение x
(σ) задачи (1), (2), достаточно
близкое к x, является стационарной точкой этой задачи. Это следует
из теоремы 1.3.3 и утверждения из задачи 1.2.3, согласно которому
в любой такой точке x
(σ) выполнено условие Робинсона. Таким образом, остается показать, что для любого σ, достаточно близкого к
σ, любая стационарная точка x
(σ) задачи (1), (2) совпадает с x(σ).
С одной стороны это будет означать, что x(σ) является локальным решением задачи (1), (2), а с другой стороны, будет означать локальную
единственность этого локального решения.
От противного: рассмотрим произвольные последовательности
{σ k } ⊂ Σ и {xk } ⊂ X такие, что {σ k } → σ, {xk } → x (k → ∞), и ∀ k
точка xk является стационарной точкой задачи (1), (2) при σ = σ k
с некоторым множителем Лагранжа λk ∈ Y , причем имеет место (12).
3.1. Сильная регулярность
139
Если последовательность {λk } ограничена, то без ограничения общ ∈ Y . При этом
ности можем считать, что она сходится к некоторому λ
∀ k пара (xk , λk ) является решением системы (3) при σ = σ k , и, привле является решекая утверждение из задачи 1.2.8, выводим, что (x, λ)
нием системы (3) при σ = σ. Но в силу утверждения а) доказываемой
теоремы единственным таким решением является (x(σ), λ(σ)) = (x, λ),
= λ, а значит, {(xk , λk )} → (x, λ) (k → ∞), что протипоэтому λ
воречит (12), поскольку для любого достаточно большого k точка
(x(σ k ), λ(σ k )) является единственным вблизи (x, λ) решением системы
(3) при σ = σ k .
Если последовательность {λk } не ограничена, то снова без ограничения общности можем считать, что λk = 0 ∀ k, λk → ∞ (k → ∞),
а последовательность {λk /λk } сходится к некоторому η ∈ Y \ {0}.
Тогда точно так же, как и при доказательстве теоремы 1, выводим
соотношение (33). С другой стороны, λk /λk ∈ NQ (F (σ k , xk )) ∀ k,
откуда снова следует соотношение (34). Как уже говорилось выше,
соотношения (33) и (34) в совокупности противоречат условию Робинсона (30).
С помощью вариационного принципа Экланда [25] можно показать,
что сильная регулярность и локальная оптимальность точки x в задаче
(1), (2) при σ = σ влекут выполнение в точке x для этой задачи условия
квадратичного роста (см. определение 1.3.6). Доказательство можно
найти в монографии [50, теор. 5.20], либо в оригинальной работе [51].
Отметим следующее обстоятельство. Если рассматривать двойственную переменную в виде λ + η, то для каждого σ ∈ Σ система
(31), (32), определяющая «главные члены» ξ(σ) и η(σ) разложения x(σ)
и λ(σ) соответственно, является прямодвойственной системой условий
первого порядка оптимальности для задачи
∂f
∂ 2L
(σ, x), ξ +
(σ, x, λ)[σ − σ, ξ] +
∂x
∂σ∂x
1 ∂ 2L
+
(σ, x, λ)[ξ, ξ] → min, ξ ∈ D1 (σ, x; σ), (35)
2 ∂x2
D1 (σ, x; σ) =
∂F
∂F
= ξ ∈ X F (σ, x) +
(σ, x)ξ +
(σ, x)(σ − σ) ∈ Q . (36)
∂x
∂σ
Легко проверить, что сильная регулярность решения (x, λ) системы (3)
при σ = σ эквивалентна сильной регулярности решения (0, 0) системы
(31), (32) при σ = σ. Поэтому утверждения теоремы 2 справедливы и
для задачи (35), (36) (вместо (1), (2)) и системы (31), (32) (вместо
(3)). В частности, для σ ∈ Σ, близких к σ, можно искать «главный
член» ξ(σ) разложения x(σ) с помощью локальных алгоритмов решения
задачи (35), (36), стартуя из точки x (или (x, λ) для прямодвойствен-
140
Гл. 3. Чувствительность для систем условий оптимальности
ных алгоритмов; см. [15]). Кроме того, если (1), (2) является задачей
математического программирования, то (35), (36) суть задача квадратичного программирования, для которой существуют эффективные
специальные численные методы [15, 29].
Для задачи математического программирования (1), (13) зависимость от σ главных членов ξ(σ) и η(σ) разложения x(σ) и λ(σ)
соответственно является положительно-однородной. Точнее, для любого направления d ∈ Σ найдутся элементы ξ(d) = ξ(σ, x, λ; d) ∈ X
и η(d) = η(σ, x, λ; d) ∈ Y такие, что ξ(td) = tξ(d), η(td) = tη(d) для
всех достаточно малых t 0. Действительно, как легко заметить, для
задачи (1), (13) при σ = td система (31), (32) локально (при малых
t 0, и вблизи (0, 0)) эквивалентна системе
∗
∂ 2L
∂F
∂ 2L
(σ,
(σ,
(σ,
x,
λ)ξ
+
t
x,
λ)d
+
x)
η = 0,
(37)
∂x2
∂σ∂x
∂x
∂F1
∂F1
(σ, x)ξ + t
(σ, x)d = 0,
∂x
∂σ
∂(F2 )I+ (σ, x, λ)
∂(F2 )I+ (σ, x, λ)
(σ, x)ξ + t
(σ, x)d = 0,
∂x
∂σ
(η2 )I(σ, x)\I+ (σ, x, λ) 0,
∂(F2 )I(σ, x)\I+ (σ, x, λ)
∂x
(η2 )i
(σ, x)ξ + t
∂(F2 )i
(σ, x), ξ
∂x
+t
∂(F2 )I(σ, x)\I+ (σ, x, λ)
∂σ
(σ, x)d 0,
(38)
(39)
(40)
(41)
∂(F2 )i
(σ, x), d
=
∂σ
= 0, i ∈ I(σ, x) \ I+ (σ, x, λ), (42)
(η2 ){1, ..., l2 }\I(σ, x) = 0,
(43)
где I+ (σ, x, λ) = {i ∈ I(σ, x) | (λ2 )i > 0}. Для t > 0 положим ξ = ξ/t,
η = η/t. Тогда система (37)–(43) равносильна (в очевидном смысле)
системе
∗
2
∂ 2L
+ ∂ L (σ, x, λ)d + ∂F (σ, x) η = 0,
(σ,
x,
λ)
ξ
(44)
∂x2
∂σ∂x
∂x
∂F1
∂F1
(σ, x)ξ +
(σ, x)d = 0,
∂x
∂σ
∂(F2 )I+ (σ, x, λ)
∂(F2 )I+ (σ, x, λ)
(σ, x)ξ +
(σ, x)d = 0,
∂x
∂σ
(
η2 )I(σ, x)\I+ (σ, x, λ) 0,
(45)
(46)
(47)
3.1. Сильная регулярность
141
∂(F2 )I(σ, x)\I+ (σ, x, λ)
∂(F2 )I(σ, x)\I+ (σ, x, λ)
(σ, x)ξ +
(σ, x)d 0, (48)
∂x
∂σ
∂(F2 )i
∂(F2 )i
(
η2 )i
(σ, x), ξ +
(σ, x), d
=
∂x
∂σ
= 0, i ∈ I(σ, x) \ I+ (σ, x, λ), (49)
(
η2 ){1, ..., l2 }\I(σ, x) = 0,
(50)
в которой уже не фигурирует t. Поэтому решение (ξ(d), η(d)) этой
системы не зависит от t, а соответствующее решение системы (37)–(43)
имеет вид (ξ(td), η(td)) = (tξ(d), tη(d)), что и требовалось. В частности, отображения x(·) и λ(·) дифференцируемы в точке σ по направлению d, причем x (σ; d) = ξ(d), λ (σ; d) = η(d). Этот результат был
получен в [110, 121].
Разумеется, условие сильной регулярности в теореме 2 весьма абстрактно и требует расшифровки или, по крайней мере, указания проверяемых достаточных условий для его выполнения, что, собственно,
и было сделано в теореме 1 для задачи с ограничениями-равенствами
(см. предложение 2 ниже).
К сожалению, в случае общих ограничений известны лишь весьма
грубые достаточные условия для сильной регулярности. Следующее
достаточное условие было предложено в [51] (для задачи математического программирования это условие сводится к полученному в [115];
см. доказательство утверждения а) предложения 2 ниже).
П р е д л о ж е н и е 1. Пусть функция f : Σ × X → R и отображение F : Σ × X → Y дважды дифференцируемы по x в точке
(σ, x) ∈ Σ × X, а множество Q является конусом. Пусть x — стационарная точка задачи (1), (2) при σ = σ, а λ ∈ Y — отвечающий
x множитель Лагранжа.
Тогда если
∂F
(σ, x) = Y
(51)
im
∂x
и
−1
∂F
∂2L
(σ, x)
(σ, x, λ)[ξ, ξ] > 0 ∀ ξ ∈
(span Q) \ {0},
(52)
∂x2
∂x
то (x, λ) является сильно регулярным решением системы (3) при
σ = σ.
Д о к а з а т е л ь с т в о. Для произвольной пары (r, ρ) ∈ X × Y , рассмотрим линеаризованное обобщенное уравнение (28), (29). Легко видеть, что это обобщенное уравнение равносильно прямодвойственной
системе условий первого порядка оптимальности для задачи
∂f
1 ∂2L
(σ, x) − r, ξ +
(σ, x, λ)[ξ, ξ] → min, ξ ∈ D1 (σ, x; ρ), (53)
∂x
2 ∂x2
142
Гл. 3. Чувствительность для систем условий оптимальности
D1 (σ, x; ρ) =
∂F
(σ, x)ξ + ρ ∈ Q
ξ ∈ X F (σ, x) +
∂x
(54)
(ср. с задачей (35), (36)). Заметим, что множество D1 (σ, x; ρ) выпукло,
причем, как нетрудно проверить, справедливо включение
Lin D1 (σ, x; ρ) ⊂
−1
∂F
(σ, x)
(span Q).
∂x
Тогда из условия (52) и предложения 1.1.1 вытекает, что задача (53),
(54) имеет единственное локальное решение ξ(r, ρ) ∈ X (которое является и глобальным). Кроме того, условие (51) гарантирует выполнение для ограничений задачи (53), (54) в любой ее допустимой точке
условия Робинсона, а значит, согласно теореме 1.3.3, решение ξ(r, ρ)
задачи (53), (54) является стационарной точкой этой задачи, причем
из (51) вытекает, что этой стационарной точке отвечает единственный
множитель Лагранжа η(r, ρ) ∈ Y ; множитель определяется однозначно
уже одним только уравнением (28), поскольку
ker
∗ ⊥
∂F
∂F
(σ, x) = im
(σ, x)
= {0}.
∂x
∂x
(55)
Далее, совершенно очевидно, что контингентный конус к любому
множеству в любой точке содержится в линейной оболочке этого множества. Отсюда и из условия (52) следует, что в любой стационарной
точке ξ ∈ X задачи (53), (54) выполняется достаточное условие второго
порядка оптимальности, приведенное в теореме 1.3.9. Таким образом,
ξ является локальным решением задачи (53), (54), и значит, ξ = ξ(r, ρ)
(поскольку ξ(r, ρ) — единственное локальное решение этой задачи).
Остается доказать, что отображение (ξ(·), η(·)) непрерывно по Липшицу вблизи (0, 0). Приводимое ниже рассуждение обосновывает липшицевость этого отображения на всем пространстве X × Y .
От противного: предположим, что существуют последовательности
{rk }, {
rk } ⊂ X, {ρk }, {
ρk } ⊂ Y такие, что
ξ(rk , ρk ) − ξ(
rk , ρk ) + η(rk , ρk ) − η(
rk , ρk )
→ ∞ (k → ∞). (56)
k
k
k
k
r − r + ρ − ρ Для каждого k положим ξ k = ξ(rk , ρk ), ξk = ξ(
rk , ρk ), η k = η(rk , ρk ),
k
k
k
η = η(
r , ρ ). В силу (56) можем считать, что ξ k = ξk , η k = ηk ∀ k и
rk − rk + ρk − ρk → 0 (k → ∞).
ξ k − ξk + η k − ηk (57)
Без ограничения общности можем считать, что лежащая на единичной
сфере (при соответствующем выборе нормы в пространстве X × Y ) по-
3.1. Сильная регулярность
143
следовательность {(ξ k − ξk , η k − ηk )/(ξ k − ξk + η k − ηk )} сходится
к некоторому (ξ, η) ∈ (X × Y ) \ {0}.
Поскольку (ξ k , η k ) является решением уравнения (28) при r = rk ,
а (ξ k , ηk ) является решением того же уравнения при r = rk , то
∗
∂2L
k
k ) + ∂F (σ, x) (η k − ηk ) = rk − rk .
(σ,
x,
λ)(ξ
−
ξ
∂x2
∂x
Разделив левую и правую части последнего равенства на ξ k − ξk +
+ η k − ηk и перейдя к пределу при k → ∞, с учетом (57) имеем
∗
∂F
∂ 2L
(σ,
(σ,
x,
λ)ξ
+
x)
η=0
(58)
∂x2
∂x
и, следовательно,
∂ 2L
∂F
(σ,
(σ,
x,
λ)[ξ,
ξ]
=
−
η,
x)ξ
.
∂x2
∂x
(59)
Далее, поскольку (ξ k , η k ) удовлетворяет включению (29) при ρ =
= ρk , а (ξk , ηk ) удовлетворяет тому же включению при ρ = ρk , то
∂F
k
k
k
(σ, x)ξ + ρ ,
λ + η ∈ NQ F (σ, x) +
(60)
∂x
∂F
(σ, x)ξk + ρk .
λ + ηk ∈ NQ F (σ, x) +
(61)
∂x
Поскольку Q является конусом, то, согласно утверждению из задачи 1.2.5, а также утверждению из задачи 1.1.2 и утверждению г) из
задачи 1.1.4, соотношения (60), (61) можно переписать в следующей
эквивалентной форме:
F (σ, x) +
∂F
(σ, x)ξ k + ρk ∈ Q,
∂x
F (σ, x) +
∂F
(σ, x)ξk + ρk ∈ Q,
∂x
⊥
∂F
k
k
(σ, x)ξ + ρ
λ + η ∈ Q ∩ F (σ, x) +
,
∂x
⊥
∂F
k
◦
k
k
(σ, x)ξ + ρ
λ + η ∈ Q ∩ F (σ, x) +
.
∂x
k
◦
Отсюда имеем:
∂F
(σ, x)(ξ k − ξk ) + (ρk − ρk ) ∈ span Q,
∂x
(62)
144
Гл. 3. Чувствительность для систем условий оптимальности
∂F
(σ, x)ξk + ρk =
η k − ηk , F (σ, x) +
∂x
∂F
k
k
k
(σ, x)ξ + ρ −
= λ + η , F (σ, x) +
∂x
∂F
k
k
k
(σ, x)ξ + ρ 0,
− λ + η , F (σ, x) +
∂x
∂F
k
k
k
k
(σ, x)ξ + ρ
η − η , F (σ, x) +
=
∂x
∂F
k
k
k
(σ, x)ξ + ρ
−
= λ + η , F (σ, x) +
∂x
∂F
(σ, x)ξ k + ρk 0.
− λ + η k , F (σ, x) +
∂x
Из двух последних соотношений выводим
0
∂F
(σ, x)ξk + ρk −
η k − ηk , F (σ, x) +
∂x
∂F
(σ, x)ξ k + ρk =
− η k − ηk , F (σ, x) +
∂x
∂F
k
k
k
k
k
k
(σ, x)(ξ − ξ ) + ρ − ρ . (63)
= η − η ,
∂x
Разделив левые и правые части соотношений (62) и (63) на ξ k − ξk +
+ η k − ηk и перейдя к пределу при k → ∞, с учетом (57) получаем
∂F
(σ, x)ξ ∈ span Q,
∂x
∂F
(σ, x)ξ 0.
− η,
∂x
(64)
Из последнего неравенства и из (59) вытекает неравенство
∂2L
(σ, x, λ)[ξ, ξ] 0,
∂x2
которое вместе с (52) и (64)
означает,
∗что ξ = 0. Но тогда из (58)
∂F
(σ, x) \ {0}, которое противоречит
вытекает включение η ∈ ker
∂x
условию (51) (см. (55)).
Ряд точных характеризаций сильной регулярности известен в случае полиэдрального Q, что, напомним, сводится к случаю задачи ма-
3.1. Сильная регулярность
145
тематического программирования (см. [54]). Ограничимся следующим
предложением для задачи (1), (13) (утверждение а) этого предложения
было впервые получено в [115], а утверждение б) доказано, например,
в [51]).
П р е д л о ж е н и е 2. Пусть Y1 = Rl1 , Y2 = Rl2 , функция f : Σ ×
× X → R и отображения F1 : Σ × X → Y1 и F2 : Σ × X → Y2 дважды
дифференцируемы по x в точке (σ, x) ∈ Σ × X. Пусть x — стационарная точка задачи (1), (13) при σ = σ, а λ = (λ1 , λ2 ) ∈ Y1 × Y2 —
отвечающий x множитель Лагранжа.
Тогда справедливы следующие утверждения:
а) если в точке x выполнено условие линейной независимости
(21) и условие
∂ 2L
(σ, x, λ)[ξ, ξ] > 0
(65)
∂x2
∂(F2 )I+ (σ, x, λ)
∂F1
(σ, x) ∩ ker
(σ, x) \ {0},
∀ ξ ∈ ker
∂x
∂x
то (x, λ) — сильно регулярное решение системы (14), (15) при
σ = σ;
б) если (x, λ) — сильно регулярное решение системы (14), (15)
при σ = σ, то в точке x выполнено условие линейной независимости; если же, кроме того, x является локальным решением
задачи (1), (2) при σ = σ, то выполнено и условие (65).
Д о к а з а т е л ь с т в о. Докажем а). Локально (при σ ∈ Σ, близких к
σ, и вблизи (x, λ)) система (15) равносильна системе
F1 (σ, x) = 0,
(F2 )I+ (σ, x, λ) (σ, x) = 0,
(λ2 )I(σ, x)\I+ (σ, x, λ) 0,
(λ2 )i (F2 )i (σ, x) = 0,
(F2 )I(σ, x)\I+ (σ, x, λ) (σ, x) 0,
i ∈ I(σ, x) \ I+ (σ, x, λ),
(λ2 ){1, ..., l2 }\I(σ, x) = 0.
(66)
(67)
(68)
(69)
Заметим, что, с учетом (69), соотношения (14), (66)–(68) дают прямодвойственную систему условий первого порядка оптимальности для
задачи (1) с допустимым множеством
$
D(σ) = x ∈ X | F1 (σ, x) = 0, (F2 )I+ (σ, x, λ) (σ, x) = 0,
%
(F2 )I(σ, x)\I+ (σ, x, λ) (σ, x) 0 . (70)
Применяя к системе (14), (66)–(68) и задаче (1), (70) предложение 1
(и не забывая про (69)), получим требуемое.
Докажем б). Прежде всего заметим, что сильная регулярность
решения (x, λ) системы (14), (15) при σ = σ означает, что для любой
146
Гл. 3. Чувствительность для систем условий оптимальности
тройки (r, ρ1 , ρ2 ) ∈ X × Y1 × Y2 , достаточно близкой к (0, 0, 0), линеаризованная система
∗
∗
∂F1
∂F2
∂2L
(σ, x) η1 +
(σ, x) η2 = r,
(σ, x, λ)ξ +
(71)
∂x2
∂x
∂x
∂F1
(σ, x)ξ + ρ1 = 0,
∂x
∂F2
(σ, x)ξ + ρ2 0,
λ2 + η2 0, F2 (σ, x) +
∂x
∂F2
(σ, x)ξ + ρ2 = 0
λ2 + η2 ,
∂x
(72)
(73)
(74)
имеет вблизи (0, 0, 0) единственное решение
(ξ(r, ρ1 , ρ2 ), η1 (r, ρ1 , ρ2 ), η2 (r, ρ1 , ρ2 )),
и отображение (ξ(·), η1 (·), η2 (·)) непрерывно по Липшицу вблизи
(0, 0, 0).
Если предположить, что условие линейной независимости (21) не
выполняется, то существует пара (η 1 , η 2 ) ∈ (Y1 × Y2 ) \ {0} такая, что
∗
∗
∂F1
∂F2
(σ, x) η 1 +
(σ, x) η 2 = 0,
∂x
∂x
(η 2 ){1, ..., l2 }\I(σ, x) = 0.
Зафиксируем произвольный элемент η2 ∈ Y2 такой, что
(
η2 )I(σ, x) > 0,
(
η2 ){1, ..., l2 }\I(σ, x) = 0.
Тогда для любого t > 0 и любого достаточно малого τ 0 тройка вида
(0, tτ η 1 , t(
η2 + τ η 2 )) является решением системы (71)–(74) при
∗
∂F2
(σ, x) η2 , ρ = 0,
r=t
∂x
что противоречит единственности решения такой системы вблизи
(0, 0, 0) при достаточно малых t > 0.
Теперь предположим, что x является локальным решением задачи
(1), (2) при σ = σ. Для (r, ρ1 , ρ2 ), близких к (0, 0, 0), и вблизи
(0, 0, 0), система (73), (74) равносильна системе
∂(F2 )I+ (σ, x, λ)
∂x
(σ, x)ξ + (ρ2 )I+ (σ, x, λ) = 0,
(η2 )I(σ, x)\I+ (σ, x, λ) 0,
(75)
(76)
3.1. Сильная регулярность
147
∂(F2 )I(σ, x)\I+ (σ, x, λ)
(η2 )i
∂x
∂(F2 )i
(σ, x), ξ
∂x
(77)
(σ, x)ξ + (ρ2 )I(σ, x)\I+ (σ, x, λ) 0,
+ (ρ2 )i = 0, i ∈ I(σ, x) \ I+ (σ, x, λ), (78)
(η2 ){1, ..., l2 }\I(σ, x) = 0.
(79)
Для t > 0 рассмотрим систему (71), (72), (75)–(79) при r = 0, ρ1 =
= 0, (ρ2 )I+ (σ, x, λ) = 0, (ρ2 )i = −t, i ∈ I(σ, x) \ I+ (σ, x, λ). Очевидно,
что такая система имеет тривиальное решение (ξ, η) = (0, 0), откуда
и из утверждения б) теоремы 2 следует, что для любого достаточно
малого t > 0 задача оптимизации
f (σ, x) → min,
x ∈ D(t),
D(t) = D(σ, x, λ; t) =
= x ∈ X | F1 (σ, x) = 0, (F2 )I+ (σ, x, λ) (σ, x) = 0,
(F2 )I(σ, x)\I+ (σ, x, λ) (σ, x) t, (F2 ){1, ..., l2 }\I(σ, x) (σ, x) 0 , (80)
имеет вблизи x единственное локальное решение x(t), причем x(t) =
= x + o(t). Но тогда, если t достаточно мало, то, как легко видеть,
ограничения-неравенства в (80) не могут быть активными в точке x(t),
а значит, x(t) является единственным вблизи x локальным решением
задачи
f (σ, x) → min, x ∈ D,
(81)
D = D(σ, x, λ) = {x ∈ X | F1 (σ, x) = 0, (F2 )I+ (σ, x, λ) (σ, x) = 0}. (82)
Поскольку последняя задача не зависит от t, отсюда следует, что
x(t) = x, т. е. x является (изолированным) локальным решением задачи
(81), (82). Но тогда в силу доказанного условия линейной независимости и теоремы 1.3.8
∂ 2L
(σ, x, λ)[ξ, ξ] 0
∂x2
∂(F2 )I+ (σ, x, λ)
∂F1
(σ, x) ∩ ker
(σ, x).
∀ ξ ∈ ker
(83)
∂x
∂x
Пусть для некоторого
∂(F2 )I+ (σ, x, λ)
∂F1
ξ ∈ ker
(σ, x) ∩ ker
(σ, x) \ {0}
∂x
∂x
неравенство в (83) выполняется как равенство. Тогда ξ является (глобальным) решением задачи оптимизации
∂(F2 )I+ (σ, x, λ)
∂ 2L
∂F1
(σ, x) ∩ ker
(σ, x),
(σ, x, λ)[ξ, ξ] → min, ξ ∈ ker
2
∂x
∂x
∂x
148
Гл. 3. Чувствительность для систем условий оптимальности
которую можно рассматривать как задачу с линейными ограничени∂(F2 )I+ (σ, x, λ)
∂F1
(σ, x)ξ = 0,
(σ, x) = 0. Поэтому в силу утверями
∂x
∂x
ждения из задачи 1.3.4 найдутся η1 ∈ Y1 и η2 ∈ Y2 такие, что
(
η2 ){1, ..., l2 }\I+ (σ, x) = 0 и
∂2L
(σ, x, λ)ξ +
∂x2
∗
∗
∂F1
∂F2
(σ, x) η1 +
(σ, x) η2 = 0.
∂x
∂x
Но тогда для всякого t > 0 и любого достаточно малого θ > 0 тройка
θ
(θξ,
η1 , θ
η2 ) является решением системы (71), (72), (75)–(79) (значит,
и системы (71)–(74)) при r = 0, ρ1 = 0, (ρ2 )I+ (σ, x, λ) = 0, (ρ2 )i = −
−t, i ∈ I(σ, x) \ I+ (σ, x, λ), что противоречит единственности решения
последней системы вблизи (0, 0, 0) при достаточно малых t > 0.
Заметим, что если не предполагать локальную оптимальность точки
x в задаче (1), (2) при σ = σ, то из сильной регулярности выполнение
(65), разумеется, не следует (как не следует даже выполнение необходимого условия второго порядка оптимальности). Чтобы убедиться
в этом, достаточно рассмотреть стационарную точку x = 0 задачи
−x2 → min,
x ∈ R.
Заметим также, что в случае выполнения условия строгой дополнительности (16) имеет место равенство (24), поэтому
ker
∂(F2 )I+ (σ, x, λ)
∂F1
(σ, x) ∩ ker
(σ, x) = C(σ, x)
∂x
∂x
и (65) совпадает с обычным достаточным условием второго порядка
оптимальности (22). Однако если условие строгой дополнительности
(16) не выполнено, то (65) сильнее (22). В связи с этим (65) называют
сильным достаточным условием второго порядка.
3.2. За пределами сильной регулярности
Согласно предложению 3.1.2 для задач математического программирования сильная регулярность равносильна комбинации условия линейной независимости и сильного достаточного условия второго порядка. И то, и другое — весьма ограничительные требования, поэтому
во многих случаях расчитывать на выполнение сильной регулярности
и соответствующие сильные свойства чувствительности решения было
бы слишком оптимистично. В этом параграфе будут получены некоторые результаты о чувствительности для прямодвойственных систем
условий первого порядка оптимальности в более слабых предположениях. Разумеется, и сами утверждения при этом являются более слабыми.
3.2. За пределами сильной регулярности
149
Изложение в этом параграфе следует работе [122] (в частности, теоремы 1 и 2 в основном соответствуют леммам 4.1 и 4.2 из этой работы).
Снова вместе с семейством задач оптимизации
f (σ, x) → min,
x ∈ D(σ),
D(σ) = {x ∈ X | F (σ, x) ∈ Q}
(1)
(2)
с параметром σ ∈ Σ будем рассматривать параметрическую прямодвойственную систему условий первого порядка оптимальности
∂L
(σ, x, λ) = 0,
∂x
λ ∈ NQ (F (σ, x)),
(3)
характеризующую стационарные точки задачи (1), (2) и отвечающие
им множители Лагранжа. Здесь снова используется определенная для
каждого σ ∈ Σ функция Лагранжа задачи (1), (2):
L(σ, x, λ) = f (σ, x) + λ, F (σ, x),
где x ∈ X, λ ∈ Y .
Пусть σ ∈ Σ — базовое значение параметра, (x, λ) ∈ X × Y —
решение системы (3) при σ = σ. Всюду в этом параграфе будем предполагать, что множество Q конично в точке F (σ, x) (о возможности
распространения приводимых результатов на более общий случай см.
[122]). В силу утверждения из задачи 1.2.9 условие λ ∈ NQ (F (σ, x))
может быть записано в виде
λ ∈ NQ−F (σ, x) (F (σ, x) − F (σ, x)),
которое, в свою очередь, в силу условия коничности локально (для
σ ∈ Σ, близких к σ, и x, близких к x) переписывается в виде
λ ∈ NRQ (F (σ, x)) (F (σ, x) − F (σ, x)).
(4)
Это — ключевой момент построений данного параграфа: условие коничности позволяет записать второе соотношение в (3) как условие
принадлежности λ нормальному конусу к выпуклому конусу. Нормальный конус к выпуклому конусу обладает той структурой, которая
достаточна для проводимого здесь анализа (в частности, для осуществления предельных переходов; см. ниже). Согласно утверждению из
задачи 1.2.5, а также утверждению из задачи 1.1.2 и утверждениям а)
и г) из задачи 1.1.4, включение (4) можно записать как
F (σ, x) − F (σ, x) ∈ RQ (F (σ, x)),
λ ∈ (RQ (F (σ, x)))◦ ,
λ, F (σ, x) − F (σ, x) = 0.
(5)
(6)
150
Гл. 3. Чувствительность для систем условий оптимальности
Систему (5), (6) «линеаризуем» (в не совсем традиционном смысле этого термина) в точке (σ, x, λ) следующим образом. Линеаризуя
отображение F в точке (σ, x), приходим к системе
∂F
∂F
(σ, x)d +
(σ, x)ξ ∈ RQ (F (σ, x)), λ ∈ (RQ (F (σ, x)))◦ ,
∂σ
∂x
∂F
∂F
(σ, x)d +
(σ, x)ξ = 0
λ,
∂σ
∂x
(7)
(8)
относительно (d, ξ, λ) ∈ Σ × X × Y . Если в (8) взять λ = λ (что
соответствует отсутствию вариации по λ), то получаем
∂F
∂F
(σ, x)d +
(σ, x)ξ = 0,
λ,
(9)
∂σ
∂x
что вместе с первым соотношением в (7) дает включение
где
∂F
∂F
(σ, x)d +
(σ, x)ξ ∈ K(σ, x, λ),
∂σ
∂x
(10)
K(σ, x, λ) = {y ∈ RQ (F (σ, x)) | λ, y = 0}.
(11)
Далее, если во втором соотношении в (7) заменить λ на λ + η и
огрубить полученное условие до однородного относительно η ∈ Y , то
придем к соотношению
η ∈ (RQ (F (σ, x)))◦ − λ ⊂ cl((RQ (F (σ, x)))◦ + span{λ}) =
= (K(σ, x, λ))◦
(12)
(см. утверждение из задачи 1.1.2 и утверждения а) и г) из задачи 1.1.4). Кроме того, из (8) и (9) имеем
∂F
∂F
(σ, x)d +
(σ, x)ξ = 0.
(13)
η,
∂σ
∂x
Линеаризуя (уже традиционным образом) первое соотношение в (3)
в точке (σ, x, λ) и возвращаясь от (10), (12), (13) к эквивалентной
записи через нормальный конус к конусу K(σ, x, λ), получаем следующую «линеаризованную» систему:
∗
∂2L
∂F
∂ 2L
(σ, x, λ)d +
(σ, x) η = 0,
(σ, x, λ)ξ +
(14)
∂σ∂x
∂x2
∂x
∂F
∂F
(σ, x)d +
(σ, x)ξ .
(15)
η ∈ NK(σ, x, λ)
∂σ
∂x
3.2. За пределами сильной регулярности
151
Несмотря на сделанную попытку объяснить механизм возникновения системы (14), (15), пока ее следует воспринимать как формально
введенный объект. Заметим, что (14), (15) есть прямодвойственная
система условий первого порядка оптимальности для задачи
∂ 2L
1 ∂ 2L
(σ, x, λ)[d, ξ] +
(σ, x, λ)[ξ, ξ] → min,
∂σ∂x
2 ∂x2
ξ ∈ C(σ, x, λ; d),
(16)
где
∂F
∂F
C(σ, x, λ; d) = ξ ∈ X (σ, x)d +
(σ, x)ξ ∈ K(σ, x, λ) .
∂σ
∂x
Содержательные связи между системой (14), (15) и исходной системой (3) устанавливаются в следующих двух теоремах.
Т е о р е м а 1. Пусть функция f : Σ × X → R и отображение
F : Σ × X → Y дважды дифференцируемы в точке (σ, x) ∈ Σ × X.
Пусть x — стационарная точка задачи (1), (2) при σ = σ, а λ ∈ Y —
отвечающий x множитель Лагранжа. Пусть, наконец, множество
Q конично в точке F (σ, x).
Тогда для любых последовательностей {σ k } ⊂ Σ, {xk } ⊂ X,
k
{λ } ⊂ Y и {tk } ⊂ R+ \ {0} таких, что {σ k } → σ, {xk } → x,
{λk } → λ, {tk } → 0 (k → ∞), причем для каждого k точка (xk , λk )
является решением системы (3) при σ = σ k , любая предельная
точка (d, ξ, η) ∈ Σ × X × Y последовательности {(σ k − σ, xk − x,
λk − λ)/tk } удовлетворяет системе (14), (15).
Д о к а з а т е л ь с т в о. Без ограничения общности считаем, что последовательность {(σ k − σ, xk − x, λk − λ)/tk } сходится к (d, ξ, η).
Тогда эта последовательность ограничена, откуда следует, что
σ k − σ = O(tk ),
xk − x = O(tk ),
λk − λ = O(tk ).
Принимая во внимание эти оценки, для каждого k из первого соотношения в (3) имеем
0=
∂L k k k
∂ 2L
(σ , x , λ ) =
(σ, x, λ)(σ k − σ) +
∂x
∂σ∂x
∗
∂F
∂2L
k
(σ, x) (λk − λ) + o(tk ).
+
(σ, x, λ)(x − x) +
∂x2
∂x
Разделив левую и правую части на tk и перейдя к пределу при k → ∞,
получаем (14).
152
Гл. 3. Чувствительность для систем условий оптимальности
Кроме того, для каждого k из соотношений (5), (6), эквивалентных
второму соотношению в (3), имеем
RQ (F (σ, x)) F (σ k , xk ) − F (σ, x) =
∂F
∂F
(σ, x)(σ k − σ) +
(σ, x)(xk − x) + o(tk ), (17)
=
∂σ
∂x
(K(σ, x, λ))◦ =
= cl (RQ (F (σ, x)))◦ + span{λ} ⊃ (RQ (F (σ, x)))◦ − λ λk − λ,
(18)
0 = λk , F (σ k , xk ) − F (σ, x) =
∂F
k ∂F
k
k
(σ, x)(σ − σ) +
(σ, x)(x − x) + o(tk ) (19)
= λ ,
∂σ
∂x
(в (18) приняты во внимание промежуточные соотношения в (12)).
Разделив левые и правые части (17)–(19) на tk и перейдя к пределу при
k → ∞, получаем первое соотношение в (7) и (12) и (9) соответственно.
Первое соотношение в (7) вместе с (9) дает (10) (см. (11)).
Вспоминая, что λ ∈ NRQ (F (σ, x)) (0) = (RQ (F (σ, x)))◦ (см. (4)), из
включения в (17) имеем
λ, F (σ k , xk ) − F (σ, x) 0.
Объединяя это неравенство с первым равенством в (19), выводим
0 λk − λ, F (σ k , xk ) − F (σ, x) =
∂F
∂F
(σ, x)(σ k − σ) +
(σ, x)(xk − x) + o(tk ).
= λk − λ,
∂σ
∂x
Разделив левую и правую части этого соотношения на tk и перейдя
к пределу при k → ∞, получаем неравенство
∂F
∂F
(σ, x)d +
(σ, x)ξ 0.
η,
∂σ
∂x
С другой стороны, из (10) и (12) следует обратное (нестрогое) неравенство, т. е. на самом деле имеет место (13).
Как уже обсуждалось выше, соотношения (10), (12), (13) в совокупности равносильны (15).
Для систем Каруша–Куна–Таккера этот результат был указан в [90]
в терминах так называемых контингетных производных, а также приведены в работах [78–81]. Однако прототипы этого результата появлялись в литературе гораздо раньше [86, 87, 104].
3.2. За пределами сильной регулярности
153
На содержательном уровне доказанную теорему можно понимать
как внешнюю оценку «производной по направлению» d в пространстве параметров множества решений системы (3) в случае существования и «разумного» асимптотического поведения этих решений. Подчеркнем, что ни существование решений возмущенной системы, ни существование предельных точек у последовательности
{(σ k − σ, xk − x, λk − λ)/tk } в этой теореме не утверждается. Последнее можно гарантировать при tk = σ k − σ в случае наличия локальной липшицевой оценки сверху на расстояние от (x, λ) до решений
возмущенной системы. Достаточные условия для этого свойства (известного в литературе под разными названиями; см. [90]) приводятся
в следующей теореме.
Т е о р е м а 2. Пусть выполнены условия теоремы 1.
Тогда если единственным решением системы (14), (15) при d =
= 0 является пара (ξ, η) = (0, 0), то для любого σ ∈ Σ, достаточно
близкого к σ, любое решение (x(σ), λ(σ)) системы (3), у которого
компонета x(σ) достаточно близка к x, удовлетворяет оценке
x(σ) − x + λ(σ) − λ = O(σ − σ).
Система (14), (15) при d = 0 имеет вид
∗
∂F
∂ 2L
(σ,
(σ,
x,
λ)ξ
+
x)
η = 0,
(20)
∂x2
∂x
∂F
(σ, x)ξ .
η ∈ NK(σ, x, λ)
(21)
∂x
Эта система всегда имеет решение (ξ, η) = (0, 0). Если это решение
единственное, то, в частности, система (20), (21) при ξ = 0 имеет
единственное решение η = 0. Отсюда следует, что
∗
∂F
(σ, x) ∩ NK(σ, x, λ) (0) = {0},
(22)
ker
∂x
а это равносильно введенному в определении 1.3.3 строгому условию
регулярности ограничений (см. (1.3.20). Поэтому, согласно лемме 1.3.1,
в условиях теоремы 2 λ — единственный множитель Лагранжа, отвечающий стационарной точке x.
Напомним, что, как указано в п. 1.3.1, при выполнении строгого
условия регулярности автоматически выполняется условие Робинсона:
∂F
0 ∈ int F (σ, x) + im
(σ, x) − Q .
(23)
∂x
Д о к а з а т е л ь с т в о т е о р е м ы 2. От противного: предположим,
что существуют последовательности {σ k } ⊂ Σ \ {σ}, {xk } ⊂ X
154
Гл. 3. Чувствительность для систем условий оптимальности
и {λk } ⊂ Y такие, что {σ k } → σ, {xk } → x (k → ∞) и для каждого k
точка (xk , λk ) является решением системы (3) при σ = σ k , причем
xk − x + λk − λ
→ ∞ (k → ∞).
σ k − σ
Тогда можем считать, что (xk , λk ) = (x, λ) ∀ k и
σ k − σ
→0
xk − x + λk − λ
(k → ∞).
(24)
Покажем, что {λk } → λ (k → ∞). Если последовательность {λk }
ограничена, то она имеет предельные точки, причем с помощью утверждения из задачи 1.2.8 выводится, что для любой такой предельной
∈ Y пара (x, λ)
является решением системы (3) при σ = σ.
точки λ
Но тогда λ = λ, поскольку, как отмечено выше, λ — единственный
множитель Лагранжа, отвечающий стационарной точке x.
Если же последовательность {λk } не ограничена, то точно так
же, как при доказательстве утверждения б) теоремы 3.1.2, получаем
противоречие с условием Робинсона (23).
Для каждого k положим tk = xk − x + λk − λ. Согласно теореме 1 любая предельная точка (d, ξ, η) последовательности {(σ k − σ,
xk − x, λk − λ)/tk } удовлетворяет системе (14), (15). При этом из
(24) следует, что d = 0, а вот (ξ, η) нулем быть не может, поскольку
является предельной точкой последовательности, лежащей на единичной сфере (при соответствующем выборе нормы в X × Y ). Получаем
противоречие с тем, что система (20), (21) имеет только тривиальное
решение, откуда следует утверждение теоремы.
Для систем Каруша–Куна–Таккера близкий результат был получен
в [90].
Заметим, что, как следует из доказанной теоремы, если в предположениях теоремы 1 система (14), (15) при d = 0 имеет только
тривиальное решение, то точка (x, λ) является изолированным решением системы (3) при σ = σ, причем, напомним, в точке x для
множителя λ выполнено строгое условие регулярности. Кроме того,
если, например, для любого σ ∈ Σ, достаточно близкого к σ, определено
такое решение (x(σ), λ(σ)) системы (3), что x(σ) → x (σ → σ), и для
данного d ∈ Σ система (14), (15) имеет единственное решение (ξ, η), то
согласно теоремам 1 и 2 отображение (x(·), λ(·)) дифференцируемо по
направлению d и его производная по этому направлению равна (ξ, η).
Отметим следующее обстоятельство, вытекающее из леммы 1.3.2 и
∂F
из (11): включение
(σ, x)ξ ∈ K(σ, x, λ), которое подразумевается
∂x
3.2. За пределами сильной регулярности
155
соотношением (21), равносильно тому, что ξ ∈ C(σ, x), где
−1
∂f
∂F
C(σ, x) = ξ ∈
(σ, x)
(σ, x), ξ 0
(TQ (F (σ, x))) ∂x
∂x
— критический конус задачи (1), (2) при σ = σ в точке x. Здесь
нужно принять во внимание, что RQ (F (σ, x)) = TQ (F (σ, x)) в силу
результата из задачи 1.2.5 и коничности множества Q в точке F (σ, x)
(последнее подразумевает замкнутость RQ (F (σ, x)) ).
Оптимизационная сущность достаточного условия для локальной
липшицевой оценки сверху расстояния до решений возмущенных задач, установленного в теореме 2, проясняется следующей леммой.
Л е м м а 1. Пусть выполнены условия теоремы 1.
Тогда справедливы следующие утверждения:
а) если в точке x для множителя Лагранжа λ выполнено строгое
условие регулярности, а также достаточное условие второго
порядка
∂ 2L
(σ, x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C(σ, x) \ {0},
(25)
∂x2
то единственным решением системы (14), (15) при d = 0 является пара (ξ, η) = (0, 0);
б) если единственным решением системы (14), (15) при d = 0
является пара (ξ, η) = (0, 0), то в точке x для множителя
Лагранжа λ выполнено строгое условие регулярности; если
же, кроме того, x является локальным решением задачи (1),
(2) при σ = σ, то выполнено и достаточное условие второго
порядка (25).
Д о к а з а т е л ь с т в о. Докажем а). От противного: предположим,
что система (20), (21) имеет ненулевое решение (ξ, η) ∈ X × Y . Как
отмечено выше, соотношение (21) влечет включение ξ ∈ C(σ, x). Кроме
того, поскольку K(σ, x, λ) — конус, (21) влечет равенство
∂F
(σ, x)ξ = 0,
η,
(26)
∂x
где вновь использовано утверждение из задачи 1.2.5, а также утверждение из задачи 1.1.2 и утверждение г) из задачи 1.1.4.
Из (20) и (26) имеем
∂F
∂2L
(σ, x, λ)[ξ, ξ] = − η,
(σ, x)ξ = 0,
∂x2
∂x
что, согласно (25), возможно
лишь при ξ = 0. Таким образом, имеет
∂F
(σ, x))∗ ∩ NK(σ, x, λ) (0) \ {0}, что проместо включение η ∈ ker(
∂x
156
Гл. 3. Чувствительность для систем условий оптимальности
тиворечит соотношению (22), равносильному строгому условию регулярности.
Докажем б). Первая часть этого утверждения уже была обоснована
выше. Согласно теореме 1.3.8 из локальной оптимальности точки x
в задаче (1), (2) при σ = σ следует выполнение необходимого условия
второго порядка:
∂2L
(σ, x, λ)[ξ, ξ] 0 ∀ ξ ∈ C(σ, x)
∂x2
(27)
(напомним, что в точке x для множителя λ выполнено строгое условие
регулярности, влекущее единственность множителя и условие Робинсона (23)).
От противного: предположим, что существует такой элемент ξ ∈
∈ C(σ, x) \ {0}, что
∂2L
(σ, x, λ)[ξ, ξ] = 0.
∂x2
Тогда, в силу (27), ξ является решением следующей задачи оптимизации:
1 ∂ 2L
∂F
(σ, x)ξ ∈ K(σ, x, λ)
(σ, x, λ)[ξ, ξ] → min,
(28)
2 ∂x2
∂x
(ср. с (16); напомним, что, согласно сказанному выше, допустимое
множество этой задачи совпадает с C(σ, x) ).
В силу (22) ограничения задачи (28) в каждой допустимой точке
удовлетворяют условию Робинсона (см. задачу 1.2.11). Применяя к решению ξ задачи (28) теорему 1.3.3, получаем существование элемента
η ∈ Y такого, что выполнены соотношения (20), (21), что невозможно,
поскольку ξ = 0.
Вопрос о существовании решений у возмущенной системы в теореме 2, по-прежнему, не рассматривается. Однако этот вопрос легко
решается положительно в случае, когда x является строгим локальным
решением задачи (1), (2) при σ = σ. Пусть это так и пусть функция
минимума v и множества S(σ) решений возмущенных задач определены так же, как во введении, σ ∈ Σ. Если предполагать, что в точке x
для множителя Лагранжа λ выполнено строгое условие регулярности,
то, тем более, выполнено условие Робинсона (23). Но тогда, в силу
теоремы 2.1.4, S(σ) = ∅ для всех σ ∈ Σ, достаточно близких к σ,
причем
sup x − x → 0 (σ → σ).
x∈S(σ)
Отсюда следует, что для всякого σ ∈ Σ, достаточно близкого к σ,
всякая точка x(σ) ∈ S(σ) является локальным решением задачи (1),
(2), причем, в силу устойчивости условия Робинсона (см. задачу 1.2.3)
и теоремы 1.3.3, всякая такая точка x(σ) вместе с некоторым λ(σ) ∈ Y
3.2. За пределами сильной регулярности
157
является решением системы (3). Более того, из сказанного и из теоремы 2 и леммы 1 вытекает следующая теорема.
Т е о р е м а 3. Пусть в дополнение к условиям теоремы 1 производная отображения F (σ, ·) непрерывна в некоторой окрестности
точки x для всех σ ∈ Σ, достаточно близких к σ.
Тогда если в точке x для множителя Лагранжа λ выполнено
строгое условие регулярности, а также достаточное условие второго порядка (25), то для σ ∈ Σ имеет место оценка
sup x − x = O(σ − σ).
x∈S(σ)
Таким образом, теорема 3 содержит условия, гарантирующие липшицеву устойчивость локального решения x задачи (1), (2), но не
предполагающие, что
C(σ, x) = {0}
(ср. с теоремами 2.1.5 и 2.1.6).
В заключение обратим внимание на следующее. Если (1), (2) — параметрическая задача математического программирования, и x является ее локальным решением при σ = σ, то условие сильной регулярности
эквивалентно комбинации условия линейной независимости и сильного
достаточного условия второго порядка (см. предложение 1.3.2). Первое
сильнее строгого условия Мангасариана–Фромовица, которое является
эквивалентом строгого условия регулярности для задач математического программирования, а второе, конечно же, сильнее обычного достаточного условия второго порядка (25). Таким образом, можно утверждать, что для задач математического программирования ситуация,
рассматриваемая в теоремах 2 и 3, является существенно более общей,
чем случай сильной регулярности.
Тем не менее, можно указать по крайней мере один частный случай, когда отсутствие у системы (14), (15) при d = 0 нетривиальных
решений позволяет сделать столь же (и даже несколько более) сильные
выводы, чем сильная регулярность. А именно, предположим, что конус
RQ (F (σ, x)) является острым (например, это будет так для невозмущенной задачи математического программирования, все ограничениянеравенства которой активны в рассматриваемой точке x), причем в
точке x для множителя λ выполнено введенное в определении 1.3.5
условие строгой дополнительности, т. е.
λ ∈ ri(RQ (F (σ, x)))◦ .
(29)
Но, согласно утверждению из задачи 1.1.5, острота и замкнутость
конуса RQ (F (σ, x)) (напомним, что конус RQ (F (σ, x)) замкнут в силу
коничности Q в точке F (σ, x)) влекут равенство ri(RQ (F (σ, x)))◦ =
= int(RQ (F (σ, x)))◦ , и условие (29) принимает вид
λ ∈ int(RQ (F (σ, x)))◦ .
(30)
158
Гл. 3. Чувствительность для систем условий оптимальности
Отсюда и из (11) следует, что K(σ, x, λ) = {0} и условие (15) принимает вид
∂F
∂F
(σ, x)d +
(σ, x)ξ = 0,
(31)
∂σ
∂x
т. е. система (14), (15) превращается в систему линейных уравнений
(14), (31). Более того, в силу (30) для любого λ ∈ Y , достаточно
близкого к λ, имеет место включение
λ ∈ int(RQ (F (σ, x)))◦ ,
и для таких λ условия (5), (6) могут иметь место лишь при
F (σ, x) − F (σ, x) = 0. Таким образом, система (3) локально эквивалентна системе уравнений
∂L
(σ, x, λ) = 0,
∂x
F (σ, x) = F (σ, x),
(32)
а система (14), (31) является линеаризацией системы (32) в точке
(σ, x, λ) в самом традиционном смысле. В частности, если система
(14), (31) при d = 0 имеет только тривиальное решение, то к системе
(32) в точке (σ, x, λ) применима теорема 1.2.3 (классическая теорема
о неявной функции), согласно которой для любого σ ∈ Σ, достаточно
близкого к σ, система (32) (а значит, и (3)) имеет вблизи (x, λ)
единственное решение (x(σ), λ(σ)), причем отображение (x(·), λ(·))
является гладким вблизи σ и можно указать явные формулы для его
дифференциалов (ср. с теоремой 3.1.1).
З а д а ч а 1. Расшифровать результаты этого параграфа для задачи
математического программирования (см. [69]).
Вопросы количественной устойчивости решений прямодвойственных систем условий первого порядка оптимальности разрабатывались
во многих работах, в том числе при весьма слабых предположениях,
не включающих в себя (в отличие от приведенных выше результатов) предположения о единственности множителя Лагранжа, отвечающего стационарной точке невозмущенной задачи (см., например,
[69, 78, 82, 84, 91, 92, 108, 109, 111, 113], а также недавно опубликованные книги [55, 81]), и даже вообще какие бы то ни было условия
регулярности ограничений [66].
Глава 4
СПЕЦИАЛЬНЫЕ СЛУЧАИ И ПРИЛОЖЕНИЯ
Заключительная глава книги посвящена специализации полученных выше результатов для некоторых важных частных случаев, а также приложениям этих результатов, в первую очередь, к анализу некоторых важнейших подходов к численному решению задач условной
оптимизации.
4.1. Задачи с постоянным допустимым множеством
В этом параграфе обратимся к случаю, когда допустимое множество
рассматриваемой параметрической задачи оптимизации не зависит от
параметра. Иными словами, будем рассматривать семейство задач
f (σ, x) → min,
x ∈ D,
(1)
D = {x ∈ X | F (x) ∈ Q},
(2)
где F : X → Y — гладкое отображение, а параметр σ ∈ Σ фигурирует
только в целевой функции f . Пусть σ ∈ Σ — базовое значение этого
параметра, x ∈ X — локальное решение задачи (1), (2) при σ = σ, и
пусть функция минимума v и множества S(σ) решений возмущенных
задач определены так же, как во введении, σ ∈ Σ.
На самом деле, в приводимом ниже анализе способ задания множества D не играет никакой роли; важно лишь, чтобы это множество
было замкнуто. Тем не менее, ради единообразия изложения, не будем
и здесь отказываться от принятого в этом курсе способа задания
допустимого множества (в виде (2)).
Случай постоянного допустимого множества обладает сильной спецификой, выявлению которой и посвящен настоящий параграф.
4.1.1. Общие возмущения. В ситуации, рассматриваемой в этом
параграфе, при любом σ ∈ Σ точка x допустима в возмущенной задаче
(1), (2), т. е. dist(x, D) = 0, и, в частности, формально справедлива
оценка
dist(x, D) = O(σ − σ).
160
Гл. 4. Специальные случаи и приложения
Применяя теорему 2.1.1 при p = 1, получаем следующий результат об
устойчивости и оценке сверху на функцию минимума.
Т е о р е м а 1. Пусть функция f : Σ × X → R непрерывна в
окрестности точки (σ, x) ∈ Σ × X, а отображение F : X → Y
непрерывно в окрестности точки x. Пусть x — локальное решение
задачи (1), (2) при σ = σ.
Тогда функция v непрерывна в точке σ, причем если функция f
непрерывна по Липшицу в окрестности точки (σ, x), то справедлива оценка
v(σ) v(σ) + O(σ − σ).
Кроме того, S(σ) = ∅ для всех σ ∈ Σ, достаточно близких к σ, и
sup dist(x, S(σ)) → 0 (σ → σ).
x∈S(σ)
В частности, если x — строгое локальное решение задачи (1), (2)
при σ = σ, то
sup x − x → 0 (σ → σ).
x∈S(σ)
Далее можно было бы воспользоваться теоремами 2.1.2 и 2.1.3, однако эти теоремы в данном случае оказываются недостаточно тонкими:
непосредственный анализ, использующий специфику задач с постоянным допустимым множеством, приводит к более точным оценкам,
причем вместо достаточных условий оптимальности в этом анализе
можно использовать более общие условия линейного и квадратичного
роста (см. определения 1.3.1 1.3.6; отметим, что, в отличие от достаточных условий оптимальности, условия роста не связаны со спецификой
способа задания допустимого множества).
Т е о р е м а 2. Пусть функция f : Σ × X → R непрерывна по Липшицу и дифференцируема по x в окрестности точки (σ, x) ∈ Σ × X,
причем ее производная по x непрерывна в точке (σ, x). Пусть
отображение F : X → Y непрерывно в окрестности точки x. Пусть
x ∈ D, где множество D введено в (2).
Тогда:
а) если для задачи (1), (2) при σ = σ в точке x выполнено условие
линейного роста, то для любого σ ∈ Σ, достаточно близкого
к σ, имеют место равенство S(σ) = {x} и оценка
v(σ) v(σ) + O(σ − σ);
(3)
б) если частная производная f по x непрерывна по Липшицу
вблизи (σ, x), и для задачи (1), (2) при σ = σ в точке x
выполнено условие квадратичного роста, то для σ ∈ Σ имеют
место оценки
sup x − x = O(σ − σ)
(4)
x∈S(σ)
и (3).
4.1. Задачи с постоянным допустимым множеством
161
Д о к а з а т е л ь с т в о. Будем рассматривать произвольные последовательности {σ k } ⊂ Σ и {xk } ⊂ X такие, что {σ k } → σ (k → ∞) и
xk ∈ S(σ k ) ∀ k. В частности, xk ∈ D ∀ k. Кроме того, при выполнении
условия линейного или квадратичного роста точка x является строгим
локальным решением задачи (1), (2) при σ = σ, поэтому, согласно
теореме 1, {xk } → x (k → ∞).
Таким образом, если выполнено условие линейного роста, то существует γ > 0 такое, что для любого достаточно большого k
γxk − x f (σ, xk ) − f (σ, x) =
= f (σ k , xk ) − f (σ k , x) + f (σ, xk ) − f (σ k , xk ) − (f (σ, x) − f (σ k , x)) ∂f
k
∂f k
k
k
x − x =
(σ,
(σ
θx
+
(1
−
θ)x)
−
,
θx
+
(1
−
θ)x)
sup ∂x
∂x
θ∈[0, 1]
= o(xk − x)
(неравенство следует из включения xk ∈ S(σ k ) и допустимости точки
x в задаче (1), (2) при σ = σ k , а также из теоремы о среднем), что
возможно лишь в том случае, когда xk = x для любого достаточно
большого k.
Если же выполнено условие квадратичного роста и частная производная f по x непрерывна по Липшицу вблизи (σ, x), то аналогичные
рассуждения приводят к следующему: существует γ > 0 такое, что для
любого достаточно большого k
γxk − x2 = O(σ k − σxk − x),
откуда следует, что
xk − x = O(σ k − σ).
Это доказывает оценку (4).
Оценка (3) следует из доказанного и липшицевости f .
4.1.2. Возмущения по направлениям. Как было показано в параграфах 2.1 и 2.2, в общем случае оценки снизу на функцию минимума удается получить лишь в предположениях о выполнении тех или
иных достаточных условий оптимальности, либо, во всяком случае,
тех или иных условий роста. Важное специфическое свойство задач
с постоянным допустимым множеством состоит в том, что в случае
возмущений по направлениям для них удается получить точную оценку
снизу на функцию минимума и, в частности, установить дифференцируемость этой функции по любому направлению без каких-либо
условий роста и, более того, без предположения о том, что x — строгое
локальное решение невозмущенной задачи, т. е. S(σ) = {x}.
Следующий результат был в основном получен в работах [11, 12].
6 А. Ф. Измаилов
162
Гл. 4. Специальные случаи и приложения
Т е о р е м а 3. Пусть функция f : Σ × X → R непрерывна в некоторой окрестности точки (σ, x) ∈ Σ × X и дифференцируема по σ
в этой окрестности, причем ее производная по σ непрерывна в этой
окрестности. Пусть x — локальное решение задачи (1), (2) при
σ = σ.
Тогда для любого d ∈ Σ и любого отображения ρ : R+ → X
такого, что ρ(t) = o(t), для t 0 имеет место равенство
∂f
v(σ + td + ρ(t)) = v(σ) + min
(σ, x), d t + o(t),
(5)
x∈S(σ) ∂σ
а также предельное соотношение
dist(x, S(σ;
d)) → 0 (t → 0+),
sup
(6)
x∈S(σ+td+ρ(t))
где S(σ;
d) — множество решений задачи
∂f
(σ, x), d → min, x ∈ S(σ).
∂σ
(7)
Д о к а з а т е л ь с т в о. Зафиксируем произвольный элемент x ∈ S(σ).
Тогда x ∈ D, v(σ) = f (σ, x) и для всякого t 0 справедливо неравенство v(σ + td + ρ(t)) f (σ + td + ρ(t), x), поэтому
v(σ + td + ρ(t)) − v(σ) f (σ + td + ρ(t), x) − f (σ, x) =
∂f
(σ, x), d t + o(t).
∂σ
Отсюда в силу произвольности x ∈ S(σ) следует оценка
∂f
(σ, x), d t + o(t)
v(σ + td + ρ(t)) v(σ) + min
x∈S(σ) ∂σ
(8)
(напомним, что множество S(σ) является компактом, поэтому минимум
в правой части (8) действительно достигается).
Теперь рассмотрим такие произвольные последовательности {tk } ⊂
⊂ R+ \ {0} и {xk } ⊂ X, что {tk } → 0 (k → ∞) и xk ∈ S(σ + td + ρ(t))
∀ k. Последовательность {xk } содержится в компакте B, а значит,
имеет предельную точку x
, причем, согласно теореме 2.2.1, x
∈ S(σ).
Тогда для всякого k имеем: v(σ + tk d + ρ(tk )) = f (σ + tk d + ρ(tk ), xk ),
v(σ) f (σ, xk ), поэтому, переходя при необходимости к подпоследовательностям, получаем
v(σ + tk d + ρ(tk )) − v(σ) f (σ + tk d + ρ(tk ), x ) − f (σ, x ) =
k
k
∂f
), d tk + o(tk ). (9)
(σ, x
∂σ
4.1. Задачи с постоянным допустимым множеством
163
Отсюда и из (8) следует неравенство
∂f
∂f
(σ, x
(σ, x), d ,
), d min
∂σ
x∈S(σ) ∂σ
которое, с учетом включения x
∈ S(σ), означает, что x
является решением задачи (7). Это доказывает (6). Кроме того, из (9) вытекает
оценка
∂f
(σ, x), d tk + o(tk ),
v(σ + tk d + ρ(tk )) v(σ) + min
x∈S(σ) ∂σ
которая вместе с (8) дает (5).
В условиях теоремы 3 из равенства (5) вытекает дифференцируемость v по направлению d и равенство
∂f
v (σ; d) = min
(σ, x), d .
(10)
x∈S(σ) ∂σ
Более того, если S(σ) = {x}, то из равенства (5) легко выводится, что
∂f
(σ, x).
функция v дифференцируема в точке σ, причем v (σ) =
∂σ
З а д а ч а 2. Показать, что если в условиях теоремы 3 x — строгое
локальное решение задачи (1), (2), то функция v дифференцируема
в точке σ. Если S(σ) = {x}, то дифференцируемость функции v в
точке σ может не иметь места.
П р и м е р 4. Пусть s = n = 1, f (σ, x) = σx, D = R. Очевидно,
что при σ = σ = 0 решением задачи (1) является любая точка из R.
Зафиксируем произвольную точку x ∈ R и произвольное число δ > 0
и будем считать, что функция v и множества S(σ), σ ∈ R, определены
так же, как во введении, с использованием шара B = Bδ (x).
Элементарно проверяется, что
⎧
если σ < 0,
⎨ {x + δ},
[x − δ, x + δ], если σ = 0,
S(σ) =
(11)
⎩
{x − δ},
если σ > 0;
σ(x + δ), если σ 0,
v(σ) =
σ(x − δ), если σ > 0.
В частности, в точке σ функция v не дифференцируема, но имеет
производную по любому направлению, и
x + δ, если d < 0,
v (σ; d) =
x − δ, если d > 0,
6*
164
Гл. 4. Специальные случаи и приложения
что согласуется с формулой (10), поскольку в данном случае S(σ) =
∂f
= [x − δ, x + δ] и для всякого x ∈ R справедливо равенство
(σ, x) =
∂σ
= x. В частности,
⎧
если d < 0,
⎨ {x + δ},
[x − δ, x + δ], если d = 0,
S(σ; d) =
⎩
если d > 0,
{x − δ},
откуда и из (11) следует, что S(σ + td) = S(σ;
d) для любого d ∈ R и
любого t > 0.
4.2. Задачи с ограничениями-равенствами
В этом коротком параграфе рассмотрим отдельно важный частный
случай, когда допустимое множество параметрической задачи оптимизации задается только ограничениями-равенствами, т. е. когда Q = {0}.
Итак, будем рассматривать семейство задач вида
f (σ, x) → min,
x ∈ D(σ),
D(σ) = {x ∈ X | F (σ, x) = 0},
(1)
(2)
где, как обычно, σ ∈ Σ — параметр. Пусть σ ∈ Σ — базовое значение
этого параметра, x ∈ X — локальное решение задачи (1), (2) при σ = σ,
и пусть функция минимума v и множества S(σ) решений возмущенных
задач снова определены так же, как во введении, σ ∈ Σ.
Для каждого σ ∈ Σ определим функцию Лагранжа задачи (1), (2):
для x ∈ X, λ ∈ Y
L(σ, x, λ) = f (σ, x) + λ, F (σ, x).
Задачи с ограничениями-равенствами обладают определенными специальными свойствами (в том числе, и с точки зрения чувствительности), отсутствующими в случае более общих ограничений. Выявлению
этой специфики и посвящен настоящий параграф.
Заметим, что специфика задач с ограничениями-равенствами уже
обсуждалась выше в контексте сильной регулярности, в п. 3.1.1. Там
было отмечено, что для задач этого класса в теореме 3.1.1 достигается
идеал теории чувствительности. А именно, пусть выполнено условие
регулярности ограничений
im
∂F
(σ, x) = Y.
∂x
(3)
Тогда x является стационарной точкой задачи (1), (2) при σ = σ,
причем этой точке отвечает единственный множитель Лагранжа λ ∈ Y .
4.2. Задачи с ограничениями-равенствами
165
Если, кроме того, выполнено достаточное условия второго порядка
оптимальности
∂2L
∂F
(σ, x, λ)[ξ, ξ] > 0 ∀ ξ ∈ ker
(4)
(σ, x) \ {0},
2
∂x
∂x
то, согласно теореме 3.1.1, возмущенная задача (1), (2) при σ, близких
к σ, имеет вблизи x единственное решение, которое зависит от σ гладким образом, и можно выписать явные формулы для дифференциалов
этого решения.
Комбинация условий (3) и (4) в данном контексте очень естественна. Точнее, если предполагать выполнение условия регулярности
ограничений (3), то рассматривать отдельно случай выполнения достаточного условия первого порядка оптимальности (например, применяя
теорему 2.1.5) здесь нет никакого смысла. Во-первых, как нетрудно
убедиться, упомянутое условие в данном случае имеет вид
∂F
(σ, x) = {0},
(5)
∂x
что может иметь место лишь при n = l, а этот случай слишком
специален. Во-вторых, согласно сказанному выше, липшицевы оценки,
которые можно получить с помощью теоремы 2.1.5, справедливы здесь
и при выполнении более слабого, чем (5), условия (4).
Кроме того, даже при анализе возмущений вдоль заданного направления d ∈ Σ, в данном случае не имеет смысла пытаться заменить
условие регулярности (3) условием регулярности по направлению d, поскольку, как отмечено в п. 1.2.6, в случае чистых ограничений-равенств
эти условия эквивалентны. При этом оказывается, что в случае выполнения условия регулярности (3) и при достаточных требованиях
гладкости анализ чувствительности для задачи (1), (2) можно свести
к соответствующему анализу для задачи с постоянным допустимым
множеством, т. е. к случаю, которому был посвящен параграф 4.1.
А именно, справедлива следующая теорема о представлении семейств
нелинейных отображений (см. [17, теор. 1.2.1 ]).
ker
Т е о р е м а 4. Пусть отображение F : Σ × X → Y непрерывно
дифференцируемо в некоторой окрестности точки (σ, x) ∈ Σ ×
× X. Пусть x ∈ D(σ), где множество D(·) введено в (2), причем
∂F
(σ, x) = Y.
im
∂x
Тогда найдется непрерывно-дифференцируемое в окрестности
точки (σ, 0) отображение χ : Σ × X → X такое, что для любой
пары (σ, ξ) ∈ Σ × X, достаточно близкой к (σ, 0), справедливо равенство
∂F
F (σ, χ(σ, ξ)) =
(σ, x)ξ,
(6)
∂x
∂χ
(σ, 0) = E.
причем χ(σ, 0) = x,
∂ξ
166
Гл. 4. Специальные случаи и приложения
Д о к а з а т е л ь с т в о. Выберем линейный оператор
∂F
→ ker
(σ, x), удовлетворяющий условию
∂x
∂F
(σ, x) ∩ ker A = {0}
ker
∂x
A:
X →
∂F
(σ, x)).
(например, оператор ортогонального проектирования на ker
∂x
∂F
Введем отображение Φ : (Σ × X) × X → Y × ker
(σ, x),
∂x
∂F
(σ, x)ξ, A(χ − x) − Aξ) .
(7)
Φ((σ, ξ), χ) = F (σ, χ) −
∂x
Для этого отображения в точке ((σ, 0), x) выполнены все условия
теоремы 1.2.3. Поэтому для любых (σ, ξ) ∈ Σ × X, близких к (σ, 0),
существует точка χ(σ, ξ) такая, что
Φ((σ, ξ), χ(σ, ξ)) = 0,
(8)
причем отображение χ(·, ·) непрерывно дифференцируемо вблизи (σ, 0)
и χ(σ, 0) = x. В частности, выполнено соотношение (6) (см. (7)), а
также равенство
∂Φ
∂χ
∂Φ
(σ, x) +
(σ, x) (σ, 0) = 0,
∂ξ
∂χ
∂ξ
которое получается дифференцированием равенства (8) по переменной
ξ в точке ((σ, 0), x). Таким образом,
−1
∂Φ
∂χ
∂Φ
(σ, 0) = −
(σ, x)
(σ, x) = E,
∂ξ
∂χ
∂ξ
поскольку, согласно (7),
∂Φ
∂Φ
(σ, x) = −
(σ, x).
∂ξ
∂χ
Далее, применяя теорему 1.2.3 в точке (σ, 0) к отображению χ,
существование которого утверждается в теореме 4, получаем, что найдутся окрестности U точки 0 и V точки x в X такие, что для всякого
σ ∈ Σ, достаточно близкого к σ, отображение χ(σ, ·) взаимно однозначно отображает U на V . Отсюда и из (6) элементарно выводится, что
если точка x является строгим локальным решением задачи (1), (2)
при σ = σ, то точка 0 является строгим локальным решением задачи
f(σ, ξ) → min,
ξ ∈ ker
∂F
(σ, x),
∂x
(9)
при σ = σ, где f : Σ × X → R,
f(σ, ξ) = f (σ, χ(σ, ξ)).
(10)
4.2. Задачи с ограничениями-равенствами
167
Заметим, что допустимое множество задачи (9) уже не зависит
от параметра σ. Зафиксируем настолько малое число δ > 0, что 0
является единственным (глобальным) решением задачи (9) при σ = σ,
и для каждого σ ∈ Σ определим S(σ)
как множество решений задачи
(9) с дополнительным ограничением ξ ∈ Bδ (0). Кроме того, определим
(локальную) функцию минимума задачи (9):
v(σ) =
ξ∈ker
∂F
∂x
inf
(σ, x)∩Bδ (0)
f(σ, ξ),
σ ∈ Σ.
Согласно теоремам 2.1.4 и 4.1.1 справедливы предельные соотношения
sup x − x → 0,
sup ξ → 0 при σ → σ.
x∈S(σ)
ξ∈S(σ)
Отсюда и из (10) легко выводится, что для всякого σ ∈ Σ, достаточно
близкого к σ, справедливы равенства
S(σ)
= {ξ ∈ X | χ(σ, ξ) ∈ S(σ)},
v(σ) = v(σ).
(11)
Тем самым, в рассматривамой ситуации локальный анализ чувствительности для задачи (1), (2) полностью сведен к соответствующему
анализу для задачи (9) с постоянным допустимым множеством.
Т е о р е м а 5. Пусть функция f : Σ × X → R непрерывна в некоторой окрестности точки (σ, x) ∈ Σ × X, дифференцируема в этой
точке, а также дифференцируема по σ в указанной окрестности
точки (σ, x), причем ее производная по σ непрерывна в этой окрестности. Пусть отображение F : Σ × X → Y непрерывно дифференцируемо в некоторой окрестности точки (σ, x). Пусть x — строгое
локальное решение задачи (1), (2) при σ = σ, причем выполнено
условие регулярности ограничений (3), а λ ∈ Y — (единственный)
отвечающий x множитель Лагранжа.
Тогда для любого d ∈ Σ и любого отображения ρ : R+ → X
такого, что ρ(t) = o(t), для t 0 имеет место равенство
∂L
(σ, x, λ), d t + o(t).
(12)
v(σ + td + ρ(t)) = v(σ) +
∂σ
Д о к а з а т е л ь с т в о. Применяя к задаче (9) теорему 4.1.3 получаем
равенство
&
'
∂ f
v(σ + td + ρ(t)) = v(σ) +
(σ, 0), d t + o(t).
(13)
∂σ
Дифференцируя равенство (6) по переменной ξ в точке (σ, 0), получаем
∂F
∂χ
∂F
(σ, x) +
(σ, x) (σ, 0) = 0.
∂σ
∂x
∂σ
168
Гл. 4. Специальные случаи и приложения
Отсюда в силу (10) имеем
&
' ∂f
∂f
∂ f
∂χ
(σ, 0), d =
(σ, x), d +
(σ, x),
(σ, 0)d =
∂σ
∂σ
∂x
∂σ
∂f
∂F
∂χ
∂L
=
(σ, x), d − λ,
(σ, x) (σ, 0)d =
(σ, x, λ), d ,
∂σ
∂x
∂σ
∂σ
и поэтому, с учетом второго равенства в (11), равенство (13) принимает
вид (12).
В условиях теоремы 5 из равенства (12) легко выводится, что
∂L
функция v дифференцируема в точке σ, причем v (σ) =
(σ, x, λ).
∂σ
4.3. Задачи с комплементарными ограничениями
Основная (общепринятая) формулировка задачи оптимизации
с комплементарными ограничениями (ЗОКО) выглядит следующим
образом:
f (x) → min, x ∈ D,
(1)
где
D = {x ∈ X | G(x) 0, H(x) 0, G(x), H(x) = 0}.
(2)
Здесь f : X → R — достаточно гладкая функция, G, H : X → R —
достаточно гладкие отображения. ЗОКО — важный частный случай
так называемых задач оптимизации с равновесными ограничениями,
в которых допустимое множество задается с помощью параметрического вариационного неравенства. Ограничения могут включать также
«обычные» равенства и неравенства, но это обобщение не связано
с дополнительными принципиальными трудностями и здесь не рассматривается. Смысл комплементарных ограничений состоит в следующем:
допустимыми являются точки, в которых все компоненты отображений
G и H неотрицательны, причем в каждой паре соответствующих компонент G и H хотя бы одна из этих компонент равна нулю.
Следующий модельный пример будет постоянно использоваться
ниже.
m
П р и м е р 1. Пусть n = 2, m = 1, f (x) = a1 x1 + a2 x2 , G(x) = x1 ,
H(x) = x2 , где a1 , a2 — числовые параметры.
Допустимое множество образуется двумя лучами (так называемыми ветвями; см. ниже), а именно, неотрицательными координатными
полуосями. Если a1 0 и a2 0, то x = 0 является решением ЗОКО
(1), (2).
Без преувеличения можно сказать, что в последнее десятилетие
задачи оптимизации с равновесными и, в частности, с комплементарными ограничениями привлекают огромное внимание специалистов.
4.3. Задачи с комплементарными ограничениями
169
Многочисленные примеры возникновения таких задач в приложениях
можно найти в [94, 100] и цитированной там литературе; важнейшие
приложения связаны с так называемыми двухуровневыми задачами
оптимизации [52]. Помимо несомненного прикладного значения, этот
класс задач оптимизации представляет существенный математический
интерес. Дело в том, что специальная структура ограничений делает
эти задачи трудными как с точки зрения применения к ним традиционной теории оптимизации, так и с точки зрения их эффективного
численного решения.
Положим I = {1, ... , m}. Пусть x ∈ X — допустимая точка задачи
(1), (2). Определим связанные с ней множества индексов
IG = IG (x) = {i ∈ I | Gi (x) = 0},
IH = IH (x) = {i ∈ I | Hi (x) = 0},
I0 = I0 (x) = IG ∩ IH .
По необходимости, IG ∪ IH = I, I \ IG = IH \ IG = IH \ I0 , I \ IH =
= IG \ IH = IG \ I0 и
GI\IG (x) > 0,
HI\IH (x) > 0.
(3)
При локальных рассмотрениях может быть удобна следующая интерпретация ограничений ЗОКО: в пересечении с некоторой окрестностью точки x
$
D = x ∈ X | GIG \IH (x) = 0, HIH \IG (x) = 0,
%
GI0 (x) 0, HI0 (x) 0, Gi (x)Hi (x) = 0, i ∈ I0 . (4)
Условие I0 = ∅ называется условием строгой дополнительности
нижнего уровня. При выполнении этого условия из (4) следует, что
D = {x ∈ X | GIG (x) = 0, HIH (x) = 0},
т. е. допустимое множество D вблизи точки x описывается гладкими равенствами, и комплементарная структура ограничений исчезает.
Поэтому при локальных рассмотрениях этот случай не слишком интересен (в том смысле, что он «берется» стандартными средствами).
Однако, более важно то, что условие строгой дополнительности в решении ЗОКО считается слишком ограничительным предположением,
и накладывать такое предположение в современной литературе не
принято.
В примере 1 условие строгой дополнительности выполнено в любой
допустимой точке, кроме x = 0, где IG = IH (= I = I0 ). Заметим, что
в этом примере при a1 > 0 и a2 > 0 точка x = 0 является единственным
решением; если же хотя бы одно из чисел a1 или a2 отрицательно,
то решений нет. Это иллюстрирует тот факт, что условие строгой
дополнительности в решении ЗОКО действительно часто нарушается.
Природа принципиальных трудностей, с которыми связаны как
теоретический анализ, так и эффективное численное решение ЗОКО,
раскрывается в следующем пункте.
170
Гл. 4. Специальные случаи и приложения
4.3.1. Регулярность ограничений и концепции стационарности. Задачу (1), (2) можно, разумеется, рассматривать как обычную
задачу математического программирования. Проблема, однако, в том,
что ограничения этой задачи крайне нерегулярны: они не удовлетворяют условию Мангасариана–Фромовица (см. п. 1.2.5) ни в одной
допустимой точке, даже при выполнении в ней условия строгой дополнительности (впервые этот факт был отмечен, видимо, в работе [52]).
А именно, если IG = IH (= I0 = I) (как в точке x = 0 в примере 1),
то градиент ограничения-равенства равен нулю, и условие Мангасариана–Фромовица выполняться не может. В противном случае (как
в примере 1 в допустимых точках, отличных от нуля), этот градиент
имеет вид
(G (x))T H(x) + (H (x))T G(x) =
Hi (x)Gi (x) +
Gi (x)Hi (x) =
=
i∈I\IH
=
i∈I\IG
Hi (x)Gi (x)
i∈IG \IH
+
Gi (x)Hi (x),
(5)
i∈IH \IG
а градиенты активных ограничений-неравенств имеют вид
Gi (x), i ∈ IG ,
Hi (x), i ∈ IH .
(6)
Условие Мангасариана–Фромовица в данном случае означает существование элемента ξ ∈ X такого, что
i∈IG \IH
GIG (x)ξ > 0,
Hi (x)Gi (x), ξ +
HI H (x)ξ > 0,
Gi (x)Hi (x), ξ = 0,
(7)
i∈IH \IG
а это невозможно, поскольку согласно (3), (7) все слагаемые в суммах
в левой части последнего равенства положительны. Таким образом,
условие Мангасариана–Фромовица выполняться не может, как, разумеется, и более сильное условие линейной независимости (см. п. 1.2.5).
Вообще, условие Мангасариана–Фромовица подразумевает существование допустимых точек, в которых все ограничения-неравенства
выполняются строгим образом. Как нетрудно видеть, для ЗОКО таких
точек не существует.
Сказанное означает, что (локальная) оптимальность точки x в задаче (1), (2), вообще говоря, не влечет стационарность точки x в
этой задаче в смысле определения 1.2.2. Иными словами, множитель
H
m
m
λ = (λ1 , λG
2 , λ2 ) ∈ R × R × R , который вместе с x удовлетворял
бы соотношениям
∂L
(x, λ) = 0,
(8)
∂x
4.3. Задачи с комплементарными ограничениями
G
λG
2 0, λ2 , G(x) = 0,
H
λH
2 0, λ2 , H(x) = 0
171
(9)
из соответствующей системы Каруша–Куна–Таккера (см. п. 1.3.1),
может не существовать. Здесь используется функция Лагранжа задачи
H
m
m
(1), (2): для x ∈ X, λ = (λ1 , λG
2 , λ2 ) ∈ R × R × R
H
L(x, λ) = f (x) + λ1 G(x), H(x) − λG
2 , G(x) − λ2 , H(x).
Тем не менее, как будет показано ниже, такая (стандартная) концепция стационарности для ЗОКО вполне разумна. Всюду далее, как
обычно, через Λ = Λ(x) обозначается множество множителей ЛагранH
m
m
жа, отвечающих точке x (т. е. тех λ = (λ1 , λG
2 , λ2 ) ∈ R × R × R ,
для которых выполнены соотношения (8), (9)).
Сопоставим данной допустимой точке x задачи (1), (2) две «обычные» задачи математического программирования следующим образом.
Расширенная задача математического программирования (РЗМП)
имеет вид
f (x) → min, x ∈ DРЗМП ,
(10)
$
DРЗМП = DРЗМП (x) = x ∈ X | GIG \IH (x) = 0, HIH \IG (x) = 0,
%
GI0 (x) 0, HI0 (x) 0 . (11)
Ее ограничения получаются снятием в (4) ограничений-равенств последней группы. Суженная задача математического программирования (СЗМП) имеет вид
f (x) → min,
x ∈ DСЗМП ,
(12)
где
DСЗМП = DСЗМП (x) = {x ∈ X | GIG (x) = 0, HIH (x) = 0}.
(13)
Ограничения этой задачи получаются заменой ограничений-неравенств
в (4) на равенства (и отбрасыванием становящихся при этом излишними ограничений-равенств последней группы). Очевидно, в пересечении
с некоторой окрестностью точки x справедливы включения
DСЗМП ⊂ D ⊂ DРЗМП ,
(14)
причем точка x допустима во всех трех задачах.
Введем ЗОКО-функцию Лагранжа задачи (1), (2): для x ∈ X, μ =
= (μG , μH ) ∈ Rm × Rm положим
L(x, μ) = f (x) − μG , G(x) − μH , H(x).
Ясно, что это — обычная функция Лагранжа для РЗМП и СЗМП, если
ограничения этих задач формально дополнить неактивными в точке x
неравенствами
GIH \IG (x) 0, HIG \IH (x) 0.
(15)
Следующие понятия были введены в [125].
172
Гл. 4. Специальные случаи и приложения
О п р е д е л е н и е 1. Точка x ∈ D называется сильно (слабо) стационарной точкой ЗОКО (1), (2), если она является стационарной
(в смысле определения 1.2.2) в РЗМП (10), (11) (в СЗМП (12), (13)).
Таким образом, слабая стационарность означает существование такого множителя μ = (μG , μH ) ∈ Rm × Rm , что
∂L
(x, μ) = 0,
∂x
(μG )i Gi (x) = 0,
(μH )i Hi (x) = 0,
(16)
i ∈ I,
(17)
а сильная стационарность подразумевает, что, дополнительно,
(μG )I0 0,
(μH )I0 0.
(18)
В последнем случае μ называют ЗОКО-множителем, отвечающим
сильно стационарной точке x. Множество ЗОКО-множителей, отвечающих точке x, будем обозначать M = M(x).
Согласно левому включению в (14) из локальной оптимальности
точки x в ЗОКО следует ее локальная оптимальность в СЗМП.
В частности, слабая стационарность является необходимым условием
оптимальности для ЗОКО при выполнении в точке x ЗОКО-условия
линейной независимости, состоящего в линейной независимости градиентов в (6) (что равносильно условию линейной независимости для
СЗМП (12), (13) в точке x), но, вообще говоря, такая концепция
стационарности является слишком слабой. Может показаться, что,
наоборот, сильная стационарность является слишком сильной концепцией стационарности для ЗОКО. Однако эта концепция признается
вполне разумной и естественной. Причина этого в следующем. Если
выполнено ЗОКО-условие линейной независимости, то сильная стационарность, как и слабая, является необходимым условием оптимальности для ЗОКО (см. теорему 1 ниже). Вместе с тем, ЗОКО-условие
линейной независимости является условием общего положения [126]
(в отличие от условия строгой дополнительности). Подчеркнем, что
ЗОКО-условие линейной независимости является обычным условием
линейной независимости не только для СЗМП, но и для РЗМП.
Как было показано в [59], сильная стационарность точки x в ЗОКО
(1), (2) равносильна стационарности x в этой задаче в обычном смысле.
Точнее, несложными вычислениями доказывается
П р е д л о ж е н и е 1. Пусть функция f : X → R и отображения
G, H : X → Rm дифференцируемы в точке x ∈ D.
Тогда если точка x стационарна в ЗОКО (1), (2) в смысле определения 1.2.2, т. е. существует множитель Лагранжа λ =
H
= (λ1 , λG
2 , λ2 ) ∈ Λ, то точка x сильно стационарна в этой задаче,
4.3. Задачи с комплементарными ограничениями
173
причем μ ∈ M, где μ = (μG , μH ) ∈ Rm × Rm определяется соотношениями
(μG )i = (λG
2 )i − λ1 Hi (x), i ∈ IG \ IH ,
(μH )i =
(μG )i =
(λH
2 )i −
(λG
2 )i , i
(19)
λ1 Gi (x), i ∈ IH \ IG ,
(20)
∈ IH ,
(21)
(μH )i = (λH
2 )i , i ∈ IG .
Наоборот, если точка x сильно стационарна в ЗОКО (1), (2),
т. е. существует ЗОКО-множитель μ = (μG , μH ) ∈ M, то точка
x стационарна в этой задаче в смысле определения 1.2.2, причем
H
m
m
λ ∈ Λ, где λ = (λ1 , λG
— любой элемент, удо2 , λ2 ) ∈ R × R × R
влетворяющий соотношениям (19)–(21) и
(μG )i i
∈
I
λ1 max max −
\
I
G
H ,
Hi (x) (μH )i i
∈
I
\
I
. (22)
max −
H
G
Gi (x) Если, кроме того, функция f : X → R и отображения G, H : X → Rm
дважды дифференцируемы в точке x, то для всякого ξ ∈ X и для
H
m
m
любых λ = (λ1 , λG
и μ = (μG , μH ) ∈ Rm × Rm ,
2 , λ2 ) ∈ R × R × R
связанных соотношениями (19)–(21), имеет место равенство
∂2L
∂ 2L
(x, λ)[ξ, ξ] =
(x, μ)[ξ, ξ] + 2λ1
Gi (x), ξHi (x), ξ.
2
2
∂x
∂x
(23)
i∈I
З а д а ч а 1. Доказать предложение 1.
Отметим следующее обстоятельство. В контексте ЗОКО возможно
получение более тонких необходимых условий первого порядка оптимальности, чем те, которые используют концепцию сильной стационарности. Однако при этом нужно иметь ввиду, что, помимо тонкости,
условия оптимальности должны быть еще и «достаточно просты» в том
смысле, что они должны быть удобны для использования в анализе,
а также при построении и обосновании численных методов. Наиболее
ясный, простой и естественный подход к ЗОКО (в том числе, к получению тонких и «правильных» условий оптимальности для таких задач),
называемый кусочным анализом, излагается ниже. Вместе с тем, это
построение иллюстрирует тот факт, что стремление к максимальной
идейной простоте и «правильности» получаемых условий оптимальности может ограничивать их «практическую полезность».
Обозначим через I = I(x) множество разбиений множества I0 , т. е.
таких пар (I1 , I2 ) множеств индексов, что I1 ∪ I2 = I0 , I1 ∩ I2 = ∅.
174
Гл. 4. Специальные случаи и приложения
Разумеется, множество I конечно, причем |I| = 2|I0 | . Для каждой пары
(I1 , I2 ) ∈ I определим ветвь D(I1 , I2 ) множества D следующим образом:
$
D(I1 , I2 ) = D(I1 , I2 ) (x) = x ∈ X | G(IG \IH )∪I1 (x) = 0,
%
H(IH \IG )∪I2 (x) = 0, GI2 (x) 0, HI1 (x) 0 . (24)
Очевидно, в пересечении с некоторой окрестностью точки x, множество
D распадается на ветви указанного вида. Точнее, цепочку включений
(14) можно дополнить следующим образом: ∀ (I1 , I2 ) ∈ I
(
)
D(J1 , J2 ) ⊂ D(I1 , I2 ) ⊂ D =
D(J1 , J2 ) ⊂ DРЗМП ,
DСЗМП =
(J1 , J2 )∈I
(J1 , J2 )∈I
(25)
причем точка x принадлежит каждой ветви.
Для каждой пары (I1 , I2 ) ∈ I введем в рассмотрение кусочную
задачу
f (x) → min, x ∈ D(I1 , I2 ) .
(26)
О п р е д е л е н и е 2. Точка x ∈ D называется B-стационарной 1)
(или кусочно стационарной) точкой ЗОКО (1), (2), если для любой пары (I1 , I2 ) ∈ I она является стационарной (в смысле определения 1.2.2) в кусочной задаче (26), (24), т. е. существует множитель
μ = (μG , μH ) ∈ Rm × Rm такой, что выполнены соотношения (16),
(17) и
(μG )I2 0, (μH )I1 0.
(27)
Понятие B-стационарности в контексте ЗОКО было введено в монографии [94] (заметим, однако, что это понятие не вполне согласуется
с тем понятием B-стационарности, которое иногда используется для
«обычных» задач оптимизации [102]).
Из теоремы 1.3.3 и второго включения в (25) следует, что B-стационарность является необходимым условием оптимальности для ЗОКО
(1), (2) при выполнении в точке x, к примеру, кусочного условия Мангасариана–Фромовица, т. е. условия Мангасариана–Фромовица для
ограничений, задающих каждую ветвь D(I1 , I2 ) , (I1 , I2 ) ∈ I. Заметим,
что ЗОКО-условие линейной независимости равносильно условию линейной независимости для каждой такой ветви, а значит, из этого
условия следует кусочное условие Мангасариана–Фромовица. Заметим
также, что из сильной стационарности точки x в ЗОКО (1), (2) следует
B-стационарность x в этой задаче, причем в качестве множителя
Лагранжа для любой кусочной задачи можно взять ЗОКО-множитель.
Кроме того, из B-стационарности x следует слабая стационарность x.
Пусть теперь x — B-стационарная точка задачи (1), (2), причем в этой точке выполнено ЗОКО-условие линейной независимости.
1)
B — в честь Булигана.
4.3. Задачи с комплементарными ограничениями
175
Отсюда следует, что для каждого разбиения (I1 , I2 ) ∈ I существует
единственный множитель μ = (μG , μH ), удовлетворяющий (16), (17) и
(27). Кроме того, как отмечено выше, ЗОКО-условие линейной независимости равносильно условию линейной независимости для СЗМП,
откуда следует, что множитель, удовлетворяющий (16), (17), может
быть только один. Таким образом, множители для всех кусочных задач
совпадают друг с другом и с единственным множителем для СЗМП,
причем из (27) следует, что такой множитель удовлетворяет и (18), т. е.
точка x является сильно стационарной.
Суммируя сказанное, приходим к следующей теореме о необходимых условиях первого порядка оптимальности при выполнении ЗОКОусловия линейной независимости, характеризующей также соотношение различных концепций стационарности для ЗОКО в этой ситуации
(наиболее важная часть утверждения этой теоремы была получена
в [125]).
Т е о р е м а 1. Пусть функция f : X → R дифференцируема в точке x ∈ D, а отображения G, H : X → Rm непрерывно дифференцируемы в некоторой окрестности этой точки. Пусть в точке x
выполнено ЗОКО-условие линейной независимости.
Тогда если x — локальное решение задачи (1), (2), то x является
B-стационарной точкой этой задачи, причем B-стационарность
равносильна сильной стационарности x в этой задаче, а соответствующий ЗОКО-множитель μ = (μG , μH ) определен однозначно.
Более того, условие слабой стационарности точки x, а также
условие стационарности этой точки в кусочной задаче (26), (24)
при любом разбиении (I1 , I2 ) ∈ I выполняется только с этим множителем.
Подведем итог. Итак, B-стационарность является наиболее естественной из упомянутых концепций стационарности для ЗОКО, поскольку она учитывает присущую ЗОКО комбинаторную природу
допустимого множества. Вместе с тем, как раз это-то и делает
B-стационарность трудной для практического использования: проверка этого условия требует проверки стационарности точки x в 2|I0 |
«обычных» задачах оптимизации, что в приложениях часто бывает
огромным числом. Различные подходы, позволяющие избавится от комбинаторной природы условия B-стационарности с сохранением естественности получаемой концепции стационарности, рассматривались
в [70, 71, 95, 102].
С другой стороны, проверка слабой или сильной стационарности —
это проверка стационарности x в одной «обычной» задаче оптимизации (СЗМП или РЗМП соответственно). Более того, проведенный
выше анализ показывает, что при выполнении ЗОКО-условия линейной
независимости (которое, напомним, является условием общего положения) сильная стационарность равносильна B-стационарности, что
качественно упрощает проверку последней в таких задачах.
176
Гл. 4. Специальные случаи и приложения
В примере 1 в точке x = 0 выполнено ЗОКО-условие линейной
независимости и при a1 0 и a2 0 эта точка является сильно стационарной с единственным ЗОКО-множителем μ = (μG , μH ) = (a1 , a2 ).
Заметим, что эта точка является стационарной в ЗОКО (в обычном
смысле) с множителем Лагранжа λ = (λ1 , μG , μH ) при произвольном
λ1 ∈ R.
4.3.2. Необходимые условия второго порядка и достаточные
условия оптимальности. Введем обычным образом критический конус задачи (1), (2) в точке x:
C = C(x) = {ξ ∈ X | GIG \IH (x)ξ = 0; HI H \IG (x)ξ = 0,
GI0 (x)ξ 0, HI 0 (x)ξ 0, f (x), ξ 0}. (28)
Отметим, что этот конус совпадает с критическим конусом расширенной задачи (10), (11).
Далее, для каждого разбиения (I1 , I2 ) ∈ I определим критический
конус соответствующей кусочной задачи (26), (24) в точке x:
C(I1 , I2 ) = C(I1 , I2 ) (x) =
$
= ξ ∈ X | G(IG \IH )∪I1 (x)ξ = 0; H(I
(x)ξ = 0, GI2 (x)ξ 0,
H \IG )∪I2
%
HI 1 (x)ξ 0, f (x), ξ 0 .
Определим конус
2 = C
2 (x) =
C
)
C(I1 , I2 ) =
(I1 , I2 )∈I
$
= ξ ∈ X | GIG \IH (x)ξ = 0; HI H \IG (x)ξ = 0, GI0 (x)ξ 0, HI 0 (x)ξ 0,
%
Gi (x), ξHi (x), ξ = 0, i ∈ I0 , f (x), ξ 0 . (29)
2 , где C2 = C2 (x) — сужеЗ а д а ч а 2. Доказать включение C2 ⊂ C
ние критического конуса задачи (1), (2), вводимое согласно (1.3.34).
Доказать, что при выполнении ЗОКО-условия линейной независимости
2 .
имеет место равенство C2 = C
Начнем с необходимого условия второго порядка оптимальности
при выполнении в точке x ЗОКО-условия линейной независимости.
Напомним, что последнее равносильно выполнению в точке x условия
линейной независимости для каждой кусочной задачи (26), (24). Из
теоремы 1.3.8 и второго равенства в (25) немедленно вытекает следующий результат, впервые указанный в [125].
Т е о р е м а 2. Пусть в дополнение к условиям теоремы 1 функция
f : X → R и отображения G, H : X → Rm дважды дифференцируемы в точке x.
177
4.3. Задачи с комплементарными ограничениями
Тогда если x — локальное решение задачи (1), (2), то для отвечающего x ЗОКО-множителя μ = (μG , μH ), однозначно определяемого
согласно теореме 1, справедливо
∂ 2L
2 .
(x, μ)[ξ, ξ] 0 ∀ ξ ∈ C
∂x2
Заметим, что в силу леммы 1.3.2 и комментариев к ней в условиях
данной теоремы для всякого разбиения (I1 , I2 ) ∈ I справедливо
$
C(I1 , I2 ) = ξ ∈ X | G(IG \IH )∪I1 (x)ξ = 0; H(I
(x)ξ = 0,
H \IG )∪I2
GI2 (x)ξ 0, HI 1 (x)ξ 0, (μG )i Gi (x), ξ = 0, i ∈ I2 ,
%
(μH )i Hi (x), ξ = 0, i ∈ I1 ,
и поэтому из второго равенства в (29) вытекает, что
2 = {ξ ∈ X | G
C
IG \IH (x)ξ = 0; HIH \IG (x)ξ = 0, GI0 (x)ξ 0,
HI 0 (x)ξ 0, (μG )i Gi (x), ξ = 0, (μH )i Hi (x), ξ = 0,
Gi (x), ξHi (x), ξ = 0, i ∈ I0 }.
Перейдем к достаточным условиям оптимальности. Из утверждения а) теоремы 1.3.5 и второго равенства в (25) следует
Т е о р е м а 3. Пусть функция f : X → R и
G, H : X → Rm дифференцируемы в точке x ∈ D.
Тогда если
2 = {0},
C
отображения
(30)
то для задачи (1), (2) в точке x выполнено условие линейного роста,
и, в частности, x является строгим локальным решением этой
задачи.
Действительно, согласно (29) условие (30) равносильно выполнению при любом разбиении (I1 , I2 ) ∈ I для кусочной задачи (26), (24)
в точке x достаточного условия первого порядка оптимальности:
C(I1 , I2 ) = {0}.
(31)
Отметим, что согласно утверждению из задачи 2 для вывода теоремы 3 можно вместо теоремы 1.3.5 использовать теорему 1.3.6. При
этом, однако, пришлось бы предполагать двукратную дифференцируемость отображений G, H : X → Rm в точке x.
Далее, из утверждения а) теоремы 1.3.9 и второго равенства в (25)
вытекает следующий результат, впервые указанный в [125].
Т е о р е м а 4. Пусть функция f : X → R и отображения
G, H : X → Rm дважды дифференцируемы в точке x ∈ D.
178
Гл. 4. Специальные случаи и приложения
Тогда если x — сильно стационарная точка задачи (1), (2) и
2
2 \ {0} ∃ μ ∈ M такой, что ∂ L (x, μ)[ξ, ξ] > 0,
∀ξ ∈ C
∂x2
(32)
то для задачи (1), (2) в точке x выполнено условие квадратичного
роста, и, в частности, x является строгим локальным решением
этой задачи.
Действительно, согласно (29) условие (32) равносильно выполнению при любом разбиении (I1 , I2 ) ∈ I для кусочной задачи (26),
(24) в точке x достаточного условия второго порядка оптимальности,
сформулированного в утверждении а) теоремы 1.3.9.
Заметим, что условие (32), вообще говоря, не влечет выполнение
достаточного условия второго порядка оптимальности для РЗМП (10),
(11), даже при выполнении в точке x ЗОКО-условия линейной независимости.
П р и м е р 2. Пусть все так же, как в модельном примере 1, но
f (x) = (x1 − x2 )2 − x31 .
Точка x = 0 является единственным решением ЗОКО (1), (2),
причем, напомним, в этой точке выполнено ЗОКО-условие линейной
независимости. Легко проверить, что в точке x выполнено (32), но эта
точка не является локальным решением задачи (10), (11).
Тем не менее, замечательный факт состоит в том, что условие (32)
на самом деле равносильно приведенному в теореме 1.3.9 стандартному
достаточному условию второго порядка применительно к задаче (1),
(2), т. е. условию
∀ ξ ∈ C \ {0} ∃ λ ∈ Λ такой, что
∂ 2L
(x, λ)[ξ, ξ] > 0.
∂x2
(33)
П р е д л о ж е н и е 2. Пусть функция f : X → R и отображения
G, H : X → Rm дважды дифференцируемы в точке x ∈ D. Пусть x —
сильно стационарная точка задачи (1), (2).
Тогда
∂2L
∂ 2L
2
(x,
λ)[ξ,
ξ]
=
(x, μ)[ξ, ξ] ∀ ξ ∈ C
(34)
∂x2
∂x2
H
m
m
для любых λ = (λ1 , λG
и μ = (μG , μH ) ∈ Rm ×
2 , λ2 ) ∈ R × R × R
m
× R , связанных соотношениями (19)–(21), и условие (32) равносильно условию (33).
Д о к а з а т е л ь с т в о. Формула (34) для указанных λ и μ следует из
формулы (23) в предложении 1 и из (29). Отсюда и из предложения 1
следует, что условие (32) равносильно условию
2 \ {0} ∃ λ ∈ Λ такой, что
∀ξ ∈ C
∂ 2L
(x, λ)[ξ, ξ] > 0.
∂x2
4.3. Задачи с комплементарными ограничениями
179
Последнее же условие равносильно (33); это следует из предложения 1.3.2 и утверждения из задачи 2.
Обратимся к случаю выполнения в сильно стационарной точке x задачи (1), (2) ЗОКО-условия линейной независимости. Пусть
μ = (μG , μH ) — однозначно отвечающий x ЗОКО-множитель Лагранжа. Достаточное условие второго порядка оптимальности (32) при этом
принимает вид
∂2L
2 \ {0},
(x, μ)[ξ, ξ] > 0 ∀ ξ ∈ C
∂x2
(35)
2 = C2 (см. задачу 2).
причем C
П р е д л о ж е н и е 3. Пусть функция f : X → R и отображения G, H : X → Rm дважды дифференцируемы в точке x ∈ D.
и пусть в точке x выполнено ЗОКО-условие линейной независимости, причем x — сильно стационарная точка задачи (1), (2),
а μ = (μG , μH ) — отвечающий ей ЗОКО-множитель Лагранжа.
Тогда
∂2L
∂ 2L
2 , ∀ λ ∈ Λ,
(x,
λ)[ξ,
ξ]
=
(x, μ)[ξ, ξ] ∀ ξ ∈ C
∂x2
∂x2
и следующие условия равносильны: (33), (35), условие
∂2L
2 \ {0}, ∀ λ ∈ Λ,
(x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C
∂x2
и условие существования универсального
G
H
= (λ1 , λ2 , λ2 ) ∈ Λ такого, что
множителя
∂ 2L
(x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C \ {0}.
∂x2
(36)
(37)
λ =
(38)
Д о к а з а т е л ь с т в о. Формула (36) следует из предложения 1 и
формулы (34) в предложении 2.
Эквивалентность условия (33) условию (35) (которое, напомним,
является адаптированной для данного случая формой условия (32))
установлена в предложении 2. Эквивалентность условия (35) условию
(37) вытекает из формулы (36).
Далее, предполагая выполненным условие (35), зафиксируем число
ε > 0 такое, что
∂2L
(x, μ)[ξ, ξ] > 0 ∀ ξ ∈ Uε ,
(39)
∂x2
где
Gi (x), ξHi (x), ξ < ε, ξ = 1
Uε = Uε (x) = ξ ∈ C i∈I0
180
Гл. 4. Специальные случаи и приложения
(существование такого ε легко следует из формул (28) и (29)). Выберем
число λ1 > 0, удовлетворяющее (22) и такое, что
2
∂ L
2λ1 ε > 2 (x, μ)
,
∂x
H
и определим множитель λ = λ = (λ1 , λG
2 , λ2 ) по формулам (19)–(21).
Тогда, в силу (34), для любого ξ ∈ C \ Uε такого, что ξ = 1, справедливо
2
∂ L
∂2L
(x, λ)[ξ, ξ] 2λ1 ε − 2 (x, μ)
> 0,
2
∂x
∂x
откуда и из (39) следует (38).
Вместе с тем, из выполнения (38) с универсальным λ тривиальным
образом следует (33).
4.3.3. Чувствительность при наличии регулярной ветви. Пусть
теперь функция f и отображения G и H (а значит, и все определяемые
ими объекты) зависят еще и от параметра σ ∈ Σ, описывающего возмущения. Таким образом, теперь f : Σ × X → R — гладкая функция,
G, H : Σ × X → Rm — гладкие отображения. Подчеркнем, что речь
идет именно о возмущениях отображений G и H, а не о произвольных
возмущениях ограничений задачи (т. е. возмущенные задачи сохраняют
структуру ЗОКО). Всюду далее считаем, что x — локальное решение
ЗОКО
f (σ, x) → min, x ∈ D(σ),
(40)
D(σ) = {x ∈ X | G(σ, x) 0, H(σ, x) 0, G(σ, x), H(σ, x) = 0} (41)
при σ = σ, где σ ∈ Σ — базовое значение параметра. Кроме того,
пусть множества индексов IG , IH и I0 , функция L, а также множе2 определены именно при базовом значении параметра.
ства M и C
Пусть функция минимума v и множества решений S(σ) определены
для семейства задач оптимизации (40), (41) так же, как во введении,
σ ∈ Σ.
В этом пункте будем предполагать, что хотя бы для одного разбиения (I1 , I2 ) ∈ I для соответствующей кусочной задачи (26), (24)
в точке x выполнено условие Мангасариана–Фромовица, т. е. градиен∂Gi
∂Hi
ты
(σ, x), i ∈ (IG \ IH ) ∪ I1 ,
(σ, x), i ∈ (IH \ IG ) ∪ I2 , линейно
∂x
∂x
независимы и существует элемент ξ ∈ X такой, что
∂G(IG \IH )∪I1
(σ, x)ξ = 0,
∂x
∂GI2
(σ, x)ξ > 0,
∂x
∂H(IH \IG )∪I2
(σ, x)ξ = 0,
∂x
(42)
∂HI1
(σ, x)ξ > 0.
∂x
(43)
4.3. Задачи с комплементарными ограничениями
181
Тогда, применяя к соответствующей ветви D(I1 , I2 ) допустимого множества теорему 1.2.7, для σ ∈ Σ получаем оценку
dist(x, D(I1 , I2 ) (σ)) = O(σ − σ).
(44)
Вместе с тем, как нетрудно проверить, второе равенство в (25) сохраняется при возмущениях: для всякого σ ∈ Σ, достаточно близкого к σ, в
пересечении с некоторой окрестностью точки x справедливо равенство
)
D(σ) =
D(J1 , J2 ) (σ),
(45)
(J1 , J2 )∈I
и поэтому из (44) вытекает оценка
dist(x, D(σ)) = O(σ − σ).
Из этой оценки и теоремы 2.1.1 вытекает следующая теорема об
устойчивости и оценке сверху на функцию минимума для ЗОКО.
Т е о р е м а 5. Пусть функция f : Σ × X → R непрерывна в окрестности точки (σ, x) ∈ Σ × X, а отображения
G, H : Σ × X → Y непрерывно дифференцируемы в этой окрестности. Пусть x — локальное решение задачи (40), (41) при σ = σ.
Пусть, наконец, хотя бы для одного разбиения (I1 , I2 ) ∈ I градиен∂Hi
∂Gi
(σ, x), i ∈ (IG \ IH ) ∪ I1 ,
(σ, x), i ∈ (IH \ IG ) ∪ I2 , линейно
ты
∂x
∂x
независимы и существует элемент ξ ∈ X, удовлетворяющий
(42), (43).
Тогда функция v непрерывна в точке σ, причем если функция f
непрерывна по Липшицу в окрестности точки (σ, x), то справедлива оценка
v(σ) v(σ) + O(σ − σ).
Кроме того, S(σ) = ∅ для всех σ ∈ Σ, достаточно близких к σ, и
sup dist(x, S(σ)) → 0 при σ → σ
x∈S(σ)
В частности, если x — строгое локальное решение задачи (42), (43)
при σ = σ, то
sup x − x → 0 при σ → σ.
(46)
x∈S(σ)
Из этой теоремы и теорем 2.1.2 и 2.1.3 вытекают следующие результаты об оценках на решения возмущенных задач и оценках снизу
на функцию минимума для ЗОКО.
Т е о р е м а 6. Пусть функция f : Σ × X → R непрерывна по Липшицу в окрестности точки (σ, x) ∈ Σ × X и дифференцируема
в этой точке, а отображения G, H : Σ × X → Y непрерывно диффе-
182
Гл. 4. Специальные случаи и приложения
ренцируемы в окрестности точки (σ, x) и дважды дифференцируемы в этой точке. Пусть хотя бы для одного разбиения (I1 , I2 ) ∈ I
∂Hi
∂Gi
(σ, x), i ∈ (IG \ IH ) ∪ I1 ,
(σ, x), i ∈ (IH \ IG ) ∪ I2 ,
градиенты
∂x
∂x
линейно независимы и существует элемент ξ ∈ X, удовлетворяющий (42), (43). Пусть, наконец, выполнено (30).
Тогда для σ ∈ Σ имеют место оценки
sup x − x = O(σ − σ),
(47)
x∈S(σ)
v(σ) v(σ) + O(σ − σ).
Д о к а з а т е л ь с т в о. Согласно утверждению в) теоремы 2.1.2 достаточно показать, что для всякого σ ∈ Σ найдется элемент u ∈ X
такой, что
∂Gi
∂Gi
(σ, x), u −
(σ, x), σ − σ
Hi (σ, x)
+
∂x
∂σ
i∈IG \IH
∂Hi
∂Hi
(σ, x), u −
(σ, x), σ − σ
+
Gi (σ, x)
= 0,
∂x
∂σ
i∈IH \IG
(48)
∂GIG
∂GIG
(49)
(σ, x)u −
(σ, x)(σ − σ) 0,
∂x
∂σ
∂HIH
∂HIH
(σ, x)u −
(σ, x)(σ − σ) 0
(50)
∂x
∂σ
(см. формулы (5) и (6) для градиента ограничения-равенства и градиентов активных ограничений-неравенств).
∂Gi
(σ, x), i ∈
Из условия линейной независимости градиентов
∂x
∂Hi
(σ, x), i ∈ (IH \ IG ) ∪ I2 , вытекает существование
∈ (IG \ IH ) ∪ I1 ,
∂x
элемента u
∈ X такого, что
∂G(IG \IH )∪I1
∂G(IG \IH )∪I1
(σ, x)
(σ, x)(σ − σ),
u=
∂x
∂σ
∂H(IH \IG )∪I2
∂H(IH \IG )∪I2
(σ, x)
(σ, x)(σ − σ).
u=
∂x
∂σ
Но тогда из (42), (43) следует, что для любого числа t вектор u = u
+
+ tξ удовлетворяет (48), а также (как равенствам) тем неравенствам
в (49) и (50), которые отвечают i ∈ (IG \ IH ) ∪ I1 и i ∈ (IH \ IG ) ∪ I2
соответственно. Более того, выбором достаточно большого t > 0 можно
добиться выполнения и остальных неравенств в (49) и (50).
4.3. Задачи с комплементарными ограничениями
183
З а д а ч а 3. Привести примеры, демонстрирующие неулучшаемость
оценок в теоремах 5 и 6.
Т е о р е м а 7. Пусть функция f : Σ × X → R дважды дифференцируема в точке (σ, x) ∈ Σ × X, а отображения G, H : Σ × X → Y
непрерывно дифференцируемы в окрестности точки (σ, x) и дважды
дифференцируемы в этой точке. Пусть хотя бы для одного разби∂Gi
∂Hi
ения (I1 , I2 ) ∈ I градиенты
(σ, x), i ∈ (IG \ IH ) ∪ I1 ,
(σ, x),
∂x
∂x
i ∈ (IH \ IG ) ∪ I2 , линейно независимы и существует элемент ξ ∈ X,
удовлетворяющий (42), (43). Пусть, наконец, выполнено (32).
Тогда для σ ∈ Σ имеют место оценки
sup x − x = O(σ − σ1/2 ),
x∈S(σ)
v(σ) v(σ) + O(σ − σ).
Д о к а з а т е л ь с т в о. Достаточно воспользоваться теоремой 2.1.3 и
предложением 2.
Следующий пример показывает, что оценки в теореме 7 неулучшаемы даже в случае возмущений вдоль заданного направления в пространстве параметров (ср. с примером 2.1.1).
П р и м е р 3. Пусть s = 1, n = 4, m = 2, f (σ, x) = −x2 + (x23 +
+ x24 )/2, G(σ, x) = (−x2 − x21 + σ, −x2 + x21 ), H(σ, x) = (x3 , x4 ).
Легко проверить, что при σ = σ = 0 точка x = 0 является решением
ЗОКО (40), (41), причем в этом решении для разбиения (I1 , I2 ) =
= (∅, I) (и только для этого разбиения!) выполнено условие Мангасариана–Фромовица для соответствующей ветви D(I1 , I2 ) допустимого
множества. Далее,
M = {μ = (μG , 0) ∈ R2 × R2 | (μG )1 + (μG )2 = 1, (μG )1 0, (μG )2 0},
2 = C = {ξ ∈ R4 | ξ2 = 0, ξ3 0, ξ4 0},
C
и (32) выполнено, причем даже с универсальным множителем (например, с μ = ((1, 0), 0)). При этом для любого достаточно малого σ 0
справедливы равенства
v(σ) = −σ/2,
S(σ) = {(±(σ/2)1/2 , σ/2, 0, 0)}.
4.3.4. Чувствительности при ЗОКО-условии линейной независимости. Пусть теперь в локальном решении x ЗОКО (40), (41)
при σ = σ выполнено ЗОКО-условие линейной независимости. В этом
случае полученные в п. 4.3.3 результаты о чувствительности могут
быть уточнены и дополнены.
184
Гл. 4. Специальные случаи и приложения
Напомним, что согласно теореме 1 в сделанных предположениях
существует единственный множитель μ = μ = (μG , μH ) ∈ Rm × Rm ,
для которого справедливы соотношения (16), (17), причем для этого
множителя выполнено также и (18), т. е. он является ЗОКО-множителем, отвечающим сильно стационарной точке x. Кроме того, для
каждой кусочной задачи
f (σ, x) → min,
x ∈ D(I1 , I2 ) (σ),
D(I1 , I2 ) (σ) = D(I1 , I2 ) (σ, x; σ) =
= {x ∈ X | G(IG \IH )∪I1 (σ, x) = 0, H(IH \IG )∪I2 (σ, x) = 0,
GI2 (σ, x) 0, HI1 (σ, x) 0}
(51)
(52)
при σ = σ в ее локальном решении x выполняется условие линейной
независимости, а значит, к каждой из этих задач в полном объеме применима теория чувствительности, изложенная в главах 2 и 3. Именно
этот подход и используется ниже.
Для всякого разбиения (I1 , I2 ) ∈ I и каждого σ ∈ Σ зададим
S(I1 , I2 ) (σ) как множество решений кусочной задачи (51), (52) с дополнительным ограничением x ∈ B, где B определяется так же, как
и всюду выше. Кроме того, определим (локальную) функцию минимума
задачи (51), (52):
v(I1 , I2 ) (σ) =
inf
x∈D(I1 , I2 ) ∩B
f (σ, x),
σ ∈ Σ.
Сначала займемся возмущениями вдоль произвольного направления
d ∈ Σ. Поскольку из условия линейной независимости в точке x,
конечно же, следует выполнение в этой точке условия регулярности
по любому направлению (условия Голлана), то в силу теоремы 2.2.1
и утверждения б) предложения 2.2.1 имеем: для всякого разбиения
(I1 , I2 ) ∈ I и любого отображения ρ : R+ → Σ такого, что ρ(t) = o(t),
для t 0 справедлива оценка
∂L
(σ, x, μ), d t + o(t) (53)
v(I1 , I2 ) (σ + td + ρ(t)) v(I1 , I2 ) (σ) +
∂σ
(напомним, что ЗОКО-функция Лагранжа L является обычной функцией Лагранжа для каждой кусочной задачи, а μ является единственным
множителем Лагранжа, отвечающим
локальному
решению x кусочной
∂L
(σ, x, μ), d совпадает со значением
задачи). При этом величина
∂σ
минимума в задаче
∂f
∂f
(σ, x), d +
(σ, x), ξ → min, ξ ∈ Ξ1, (I1 , I2 ) (d),
(54)
∂σ
∂x
4.3. Задачи с комплементарными ограничениями
185
где
Ξ1, (I1 , I2 ) (d) = Ξ1, (I1 , I2 ) (σ, x; d) =
∂G(IG \IH )∪I1
∂G(IG \IH )∪I1
= ξ ∈ X (σ, x)d +
(σ, x)ξ = 0,
∂σ
∂x
∂H(IH \IG )∪I2
∂H(IH \IG )∪I2
(σ, x)d +
(σ, x)ξ = 0,
∂σ
∂x
∂GI2
∂HI1
∂HI1
∂GI2
(σ, x)d +
(σ, x)ξ 0,
(σ, x)d +
(σ, x)ξ 0 .
∂σ
∂x
∂σ
∂x
(55)
В частности, значение минимума в задаче (54), (55) не зависит от
разбиения (I1 , I2 ).
Далее, пусть x — строгое локальное решение ЗОКО (40), (41),
значит, и каждой кусочной задачи (51), (52), при σ = σ. Тогда, согласно
теореме 2.2.2, оценка (53) является точной, откуда легко следует, что
v(I1 , I2 ) дифференцируема в точке σ, причем производная
v(I
(σ) =
1 , I2 )
∂L
(σ, x, μ)
∂σ
(56)
не зависит от разбиения (I1 , I2 ).
Для того чтобы перенести полученные результаты на исходную
ЗОКО (40), (41), воспользуемся равенством (45), из которого следует,
что
v(σ) = min v(I1 , I2 ) (σ),
(57)
(I1 , I2 )∈I
S(σ) =
)
S(I1 , I2 ) (σ).
(58)
(I1 , I2 )∈I,
v(I , I ) (σ)=v(σ)
1 2
Из равенства (57) и из сказанного выше легко выводится следующее:
для всякого направления d ∈ Σ и t 0 справедлива оценка сверху
∂L
(σ, x, μ), d t + o(t),
v(σ + td + ρ(t)) v(σ) +
(59)
∂σ
причем если x — строгое локальное решение невозмущенной ЗОКО, то
эта оценка является точной, откуда следует, что функция v дифференцируема в точке σ и
∂L
v (σ) =
(σ, x, μ)
(60)
∂σ
(здесь учтено, что правая часть (56) не зависит от разбиения (I1 , I2 )).
Равенство (60) было получено в [68], где также установлена липшицевость функции v вблизи σ. Близкие по содержанию результаты
в терминах обобщенных производных Мордуховича получены в [93].
186
Гл. 4. Специальные случаи и приложения
Весьма примечательным является тот факт, что при ЗОКО-условии
линейной независимости формула для первой производной функции
минимума ЗОКО оказывается никак не связанной с комбинаторной
природой задачи. Однако в дальнейшем анализе комбинаторная природа уже неизбежно проявляется.
Действительно, для каждого разбиения (I1 , I2 ) ∈ I и направления
d ∈ Σ обозначим через S1, (I1 , I2 ) (d) = S1, (I1 , I2 ) (σ, x; d) множество решений линеаризованной задачи (54), (55) и введем еще одну вспомогательную задачу:
∂2L
(σ, x, μ)[(d, ξ), (d, ξ)] → min,
∂(σ, x)2
ξ ∈ S1, (I1 , I2 ) (d).
(61)
Согласно теореме 2.2.7 и предложению 2.2.4 справедливо следующее уточнение оценки сверху (53), использующее значение минимума
в задаче (61): для t 0
∂L
v(I1 , I2 ) (σ + td) v(I1 , I2 ) (σ) +
(σ, x, μ), d t +
∂σ
1
∂ 2L
inf
+
(σ, x, μ)[(d, ξ), (d, ξ)]t2 + o(t2 ). (62)
2 ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
Отсюда и из (57) следует, что справедливо следующее уточнение
оценки сверху (59):
∂L
(σ, x, μ), d t +
∂σ
∂ 2L
inf
(σ, x, μ)[(d, ξ), (d, ξ)]t2 + o(t2 ), (63)
ξ∈S1,(I1 , I2 ) (d) ∂(σ, x)2
v(σ + td) v(σ) +
+
1
min
2 (I1 ,I2 )∈I
и в этой формуле комбинаторика уже присутствует явно.
Кроме того, согласно (58), (63), предложениям 2.2.4 и 2.2.5, а также
предельному соотношению (46) из теоремы 5, принимая во внимание
конечность множества I, получаем: для любых последовательностей
{tk } ⊂ R+ \ {0} и {xk } ⊂ X таких, что {tk } → 0 (k → ∞) и xk ∈ S(σ +
+ tk d) ∀ k, любая предельная точка последовательности {(xk − x)/tk }
является решением задачи (61) при некотором разбиении (I1 , I2 ) ∈ I
таком, что
v(I1 , I2 ) (σ + tk d) − v(σ) +
lim inf
k→∞
t2k
min
(J1 , J2 )∈I
* ∂L
∂σ (σ,
+
x, μ), d t − k
∂ 2L
(σ, x, μ)[(d, ξ), (d, ξ)].
ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
inf
4.3. Задачи с комплементарными ограничениями
187
Дальнейший анализ связан с привлечением достаточных условий
оптимальности. Пусть, например, для данного разбиения (I1 , I2 ) ∈ I
для соответствующей невозмущенной кусочной задачи в точке x выполнено достаточное условие второго порядка:
∂2L
(x, μ)[ξ, ξ] > 0 ∀ ξ ∈ C(I1 , I2 ) \ {0}.
∂x2
(64)
Применяя теорему 3.2.3, получаем для σ ∈ Σ липшицеву оценку
sup
x∈S(I1 , I2 ) (σ)
x − x = O(σ − σ).
(65)
Далее, применяя теорему 2.2.8, получаем, что для заданного направления d ∈ Σ и t 0 оценка (62) является точной, т. е.
∂L
(σ, x, μ), d t +
∂σ
2
1
∂ L
inf
+
(σ, x, μ)[(d, ξ), (d, ξ)]t2 + o(t2 ), (66)
2 ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
v(I1 , I2 ) (σ + td) = v(I1 , I2 ) (σ) +
и, более того, для любого решения ξ задачи (61) кусочная задача
(51), (52) при σ = σ + td имеет o(t2 )-решение вида x + tξ + O(t2 )
(здесь принято во внимание, что задача линейного программирования
с конечным значением минимума всегда имеет решение, и поэтому
2
элемент ξ , о котором идет речь в теореме 2.2.8, всегда существует;
см. задачу 2.2.7).
При выполнении достаточного условия второго порядка (35) из (58)
и (65) вытекает оценка (47). Кроме того, из (57) и (66) следует, что
оценка (63) при этом является точной, т. е.
v(σ + td) = v(σ) +
+
1
min
2 (I1 , I2 )∈I
∂L
(σ, x, μ), d t +
∂σ
∂ 2L
inf
(σ, x, μ)[(d, ξ), (d, ξ)]t2 + o(t2 )
ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
(близкая оценка была получена в [68]), и для любого решения ξ задачи
(61) для всякого разбиения (I1 , I2 ) ∈ I такого, что
∂ 2L
(σ, x, μ)[(d, ξ), (d, ξ)] =
ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
inf
=
min
(J1 , J2 )∈I
∂ 2L
(σ, x, μ)[(d, ξ), (d, ξ)],
ξ∈S1, (I1 , I2 ) (d) ∂(σ, x)2
inf
188
Гл. 4. Специальные случаи и приложения
ЗОКО (40), (41) при σ = σ + td имеет o(t2 )-решение вида x + tξ +
+ O(t2 ).
Наконец, рассмотрим случай, когда для данного разбиения
(I1 , I2 ) ∈ I для соответствующей невозмущенной кусочной задачи
в точке x выполнено сильное достаточное условие второго порядка:
∂2L
+
(x, μ)[ξ, ξ] > 0 ∀ ξ ∈ C(I
\ {0},
1 , I2 )
∂x2
(67)
где
+
+
= C(I
(σ, x) =
C(I
1 , I2 )
1 , I2 )
∂G(IG \IH )∪I1
∂H(IH \IG )∪I2
= ξ ∈ X (σ, x)ξ = 0,
(σ, x)ξ = 0,
∂x
∂x
∂Gi
∂Hi
(σ, x), ξ = 0, i ∈ I2 , (μH )i
(σ, x), ξ = 0, i ∈ I1
(μG )i
∂x
∂x
(ср. с (3.1.65)). Тогда согласно утверждению а) предложения 3.1.2
пара (x, μ) является сильно регулярным решением системы Kаруша–Kуна–Tаккера для задачи (51), (52), и, в силу теоремы 3.1.2,
для любого σ ∈ Σ, достаточно близкого к σ, задача (51), (52) имеет в некоторой окрестности точки x единственное локальное решение x(σ), которому отвечает единственный множитель Лагранжа
μ(σ) = (μG (σ), μH (σ)), причем отображение (x(σ), μ(σ)) непрерывно
по Липшицу вблизи σ. Отсюда и из сказанного выше о дифференцируемости функции v(I1 , I2 ) в точке σ легко выводится, что эта функция на самом деле непрерывно дифференцируема вблизи σ. Если же
предполагать, что сильное достаточное условие второго порядка (67)
выполняется для любого разбиения (I1 , I2 ) ∈ I, то из сказанного и
из равенства (57) вытекает кусочная гладкость функции v. Если же,
кроме того, выполнено условие строгой дополнительности верхнего
уровня, которое имеет вид
(μG )I0 > 0, (μH )I0 > 0,
(68)
то можно показать, что все возмущенные кусочные задачи имеют
в некоторой окрестности точки x одно и то же единственное локальное
решение, которое, соответственно, является единственным локальным
решением возмущенной ЗОКО в этой окрестности (подробнее об этом
см. в [125]).
П р и м е р 4. Пусть s = n = 2, m = 1, f (σ, x) = a1 x1 + a2 x2 ,
G(σ, x) = x1 − σ1 , H(σ, x) = x2 − σ2 , где a1 0 и a2 0 — числовые
параметры, σ = x = 0. Это — ни что иное, как пример 1, в который
добавлены простейшие возмущения G и H (возмущения «правых
частей»).
4.3. Задачи с комплементарными ограничениями
189
Если a1 > 0 и a2 > 0, то x — строгое локальное решение ЗОКО (40),
(41) при σ = σ. Более того, при этом μ = (a1 , a2 ) > 0, т. е. выполнено
условие (68) строгой дополнительности верхнего уровня, откуда следует, что для любого разбиения (I1 , I2 ) ∈ I сильное достаточное условие
второго порядка (67) равносильно обычному достаточному условию
второго порядка (64), а последнее, конечно же, выполнено, поскольку
здесь выполнено даже (30).
Hетрудно убедиться, что для любого σ ∈ R2 здесь справедливы
равенства
v(σ) = a1 σ1 + a2 σ2 , S(σ) = {(σ1 , σ2 )}.
В частности, возмущенная ЗОКО имеет единственное решение, которое
линейно зависит от параметра, а функция минимума линейна, причем
v (σ) = (a1 , a2 ) = (μG , μH ) =
∂L
(σ, x, μG , μH ).
∂σ
Заметим, что для любого d ∈ R2 при обоих возможных разбиениях
(I1 , I2 ) множества I0 решением линеаризованной задачи (54), (55)
является единственная точка ξ = d, и задача (61) тривиальна в том
смысле, что она имеет одноточечное допустимое множество.
П р и м е р 5. Пусть все так же, как в примере 4, но f (σ, x) = x1 +
+ x22 /2.
Здесь для любого разбиения (I1 , I2 ) ∈ I выполнено сильное достаточное условие второго порядка (67) (а значит, выполнено (35)), в то
время как условия (30) и (68) нарушаются. Легко видеть, что для
любого σ ∈ R2 справедливы равенства
σ1 + σ22 /2, если σ2 0,
v(σ) =
если σ2 < 0,
σ1 ,
{(σ1 , σ2 )}, если σ2 0,
S(σ) =
{(σ1 , 0)},
если σ2 < 0,
что вполне согласуется с изложенной выше теорией. Заметим, что при
I2 = ∅ и любом d ∈ R2 здесь справедливо равенство S1, (I1 , I2 ) (d) =
= Ξ1, (I1 , I2 ) (d), т. е. задача (61) нетривиальна, и именно она определяет
асимптотику решений.
4.3.5. Методы релаксации. Один из многообещающих подходов
к численному решению ЗОКО (1), (2) составляют так называемые
методы релаксации [105, 118]. В рамках этого подхода ограничениеравенство в (2) параметрически возмущается (обычно ослабляется,
с чем и связан термин «релаксация») таким образом, чтобы получаемая возмущенная задача оптимизации, аппроксимирующая исходную
ЗОКО, могла обладать желаемыми свойствами регулярности ограничений.
190
Гл. 4. Специальные случаи и приложения
Разумеется, ограничение-равенство в (2) можно заменить неравенством G(x), H(x) 0; множество D от этого не изменится. Считая,
что это сделано, вложим задачу (1), (2) в следующее параметрическое
семейство задач математического программирования:
f (x) → min,
x ∈ Drelax (t),
Drelax (t) = {x ∈ X | G(x) 0, H(x) 0, G(x), H(x) t},
(69)
(70)
где t 0 — параметр релаксации. При этом Drelax (0) = D и
D ⊂ Drelax (t)
∀ t 0.
(71)
Пусть по-прежнему x является локальным решением ЗОКО (1),
(2). Для каждого t 0 обозначим через Srelax (t) множество решений
задачи (69), (70) с дополнительным ограничением x ∈ B, где шар B
определяется для задачи оптимизации (1), (2) так же, как во введении.
Далее, через vrelax (t) обозначим оптимальное значение задачи (69),
(70) с дополнительным ограничением x ∈ B:
vrelax (t) =
inf
x∈Drelax (t)∩B
f (x).
Центральный вопрос этого пункта — это вопрос об оценке расстояния
от x до Srelax (t). Оценки такого рода могут быть чрезвычайно полезны
при конструировании эффективных практических численных методов,
в основе которых лежит описанная схема релаксации.
Подчеркнем, что в (69), (70) возмущаются не отображения G и H,
а определяемое обоими этими отображниями ограничение, и поэтому
релаксированная задача уже не сохраняет структуру ЗОКО. Поэтому
здесь нельзя, по аналогии с пп. 4.3.3, 4.3.4, воспользоваться кусочным
анализом. Однако для данной схемы релаксации это и не требуется,
поскольку в силу (71) для всякого t 0 справедливо x ∈ D(t), т. е.
dist(x, D(t)) = 0, и, в частности,
vrelax (t) f (x),
(72)
и формально справедлива оценка
dist(x, D(t)) = O(t).
Применяя теорему 2.1.1, получаем следующий результат об устойчивости.
Т е о р е м а 8. Пусть функция f : X → R и отображения
G, H : X → Y непрерывны в окрестности точки x ∈ X. Пусть x —
локальное решение задачи (1), (2).
Тогда функция vrelax непрерывна в точке 0 справа, Srelax (t) = ∅
для всех достаточно малых t 0, и
sup
x∈Srelax (t)
dist(x, Srelax (0)) → 0
(t → 0+).
4.3. Задачи с комплементарными ограничениями
191
В частности, если x — строгое локальное решение задачи (1), (2),
то
sup x − x → 0 (t → 0+).
x∈Srelax (t)
Далее, в силу теоремы 2.1.2 и неравенства (72), которое формально
можно заменить более слабой оценкой
vrelax (t) f (x) + O(t),
(73)
справедлива
Т е о р е м а 9. Пусть функция f : X → R и отображения
G, H : X → Y непрерывны в окрестности точки x ∈ X и
диффренцируемы в этой точке. Пусть x — локальное решение
задачи (1), (2), причем
C = {0}.
Тогда для t 0 имеют место оценки
sup
x∈Srelax (t)
x − x = O(t),
vrelax (t) f (x) + O(t).
(74)
(75)
Наконец, в силу теоремы 2.1.3 и предложения 2, с учетом оценки
(73) приходим к следующему результату.
Т е о р е м а 10. Пусть функция f : X → R и отображения
G, H : X → Y дважды дифференцируемы в точке x ∈ X. Пусть x —
локальное решение задачи (1), (2), являющееся сильно стационарной
точкой этой задачи, причем выполнено (32).
Тогда для t 0 имеют место оценки
sup
x∈Srelax (t)
x − x = O(t1/2 )
(76)
и (75).
В условиях теоремы 10 оценка (76) неулучшаема.
П р и м е р 6. Пусть все так же, как в примере 1, но f (x) = (x1 −
− x2 )2 (ср. с примером 2).
Легко проверить, что здесь M = {0} выполняется (32), и для
любого t 0 справедливы равенства
vrelax (t) = 0,
Srelax (t) = {x ∈ R2 | 0 x1 = x2 t1/2 }.
Оценка (76) может быть усилена до липшицевой, если потребовать
выполнения в точке x ЗОКО-условия линейной независимости, а также
достаточного условия второго порядка оптимальности для РЗМП (10),
(11) (именно последнее нарушается в примере 6). Для этого нужно
воспользоваться тем, что пространство параметров в (69), (70) одно-
192
Гл. 4. Специальные случаи и приложения
мерно, и привлечь понятие регулярности по направлению (т. е. условие
Голлана) и теорему 2.2.5.
Прежде всего, покажем, что из ЗОКО-условия линейной независимости вытекает выполнение условия Голлана. Более того, ЗОКОусловие линейной независимости на этом этапе можно заменить более слабым требованием. Будем говорить, что в точке x выполнено
ЗОКО-условие Мангасариана–Фромовица, если в этой точке выполняется условие Мангасариана–Фромовица для РЗМП (10), (11), т. е.
градиенты Gi (x), i ∈ IG \ IH , Hi (x), i ∈ IH \ IG , линейно независимы
и существует элемент ξ ∈ X такой, что
GIG \IH (x)ξ = 0, HI H \IG (x)ξ = 0, GI0 (x)ξ > 0, HI 0 (x)ξ > 0.
Разумеется, это условие слабее ЗОКО-условия линейной независимости и, как легко видеть, слабее даже условия существования регулярной ветви, т. е. напомним, условия существования такого разбиения
(I1 , I2 ) ∈ I, что для соответствующей кусочной задачи (26), (24) в точке x выполнено условие Мангасариана–Фромовица (см. п. 4.3.3).
Л е м м а 1. Пусть функция f : X → R и отображения G, H : X →
→ Y дифференцируемы в точке x ∈ X, причем в этой точке выполнено ЗОКО-условия Мангасариана–Фромовица.
Тогда для задачи (69), (70) при t = 0 и для направления d =
= 1 в точке x выполнено условие Голлана, т.е. градиенты Gi (x),
i ∈ IG \ IH , Hi (x), i ∈ IH \ IG , линейно независимы и существует
элемент ξ ∈ X такой, что
Gi (x)ξ = 1, i ∈ IG \ IH , Hi (x)ξ = 1, i ∈ IH \ IG ,
GIG (x)ξ > 0,
HI H (x)ξ > 0.
З а д а ч а 4. Доказать лемму 1.
Далее, согласно теореме 1 при выполнении в точке x ЗОКО-условия
линейной независимости этой точке отвечает единственный ЗОКОмножитель Лагранжа μ = (μG , μH ) ∈ Rm × Rm , и достаточное условие
второго порядка оптимальности для РЗМП (10), (11) принимает вид
∂ 2L
(x, μ)[ξ, ξ] > 0 ∀ ξ ∈ C \ {0}.
(77)
∂x2
Т е о р е м а 11. Пусть функция f : X → R и отображения
G, H : X → Y дважды дифференцируемы в точке x ∈ X. Пусть x —
локальное решение задачи (1), (2), причем в точке x выполнены
ЗОКО-условие линейной независимости и (77).
Тогда для t 0 имеет место оценка (74).
Д о к а з а т е л ь с т в о. Введем функцию Лагранжа задачи (69), (70):
H
m
m
для t 0, x ∈ X, λ = (λ1 , λG
положим
2 , λ2 ) ∈ R × R × R
Lrelax (t, x, λ) =
H
= f (x) + λ1 (G(x), H(x) − t) − λG
2 , G(x) − λ2 , H(x).
(78)
4.3. Задачи с комплементарными ограничениями
193
Заметим, что при t = 0 эта функция совпадает с функцией Лагранжа
L задачи (1), (2), и из теоремы 1 и предложения 1 следует, что множество отвечающих x множителей Лагранжа задачи (69), (70) состоит
H
m
m
из таких и только таких λ = (λ1 , λG
2 , λ2 ) ∈ R × R × R , которые
удовлетворяют (19)–(21) при μ = μ и
(μG )i i ∈ IG \ IH ,
λ1 max 0, max −
Hi (x) (μ )i , (79)
max − H i ∈ IH \ IG
Gi (x)
причем для всякого ξ ∈ X имеет место равенство
∂ 2 Lrelax
(0, x, λ)[ξ, ξ] =
∂x2
∂2L
=
(x,
μ)[ξ,
ξ]
+
2λ
Gi (x), ξHi (x), ξ. (80)
1
∂x2
i∈I
Обозначим правую часть (79) через λ1 . Cогласно (78)
∂Lrelax
(0, x, λ) = λ1 ,
∂t
и минимального значения по всем отвечающим x множителям Лагранжа задачи (69), (70) эта величина достигает при λ1 = λ1 , причем
последним равенством и соотношениями (19)–(21) при μ = μ множитель λ однозначно определен. В силу (28), (77) и (80), для этого
множителя λ и любого ξ ∈ C имеет место неравенство
∂ 2 Lrelax
(0, x, λ)[ξ, ξ] > 0.
∂x2
Остается сослаться на лемму 1 и применить к задаче (69), (70)
теорему 2.2.5 при d = 1.
Разумеется, можно рассматривать и другие схемы релаксации, например, определяя для каждого t 0 множество Drelax (t) равенством
Drelax (t) = {x ∈ X | G(x) 0, H(x) 0, Gi (x)Hi (x) t, i ∈ I}. (81)
Задача (69), (70) имеет меньше ограничений, чем задача (69), (81),
однако схема релаксации, основанная на последней задаче, обладает
несколько более сильными свойствами. А именно, можно показать
[105], что при выполнении в точке x ЗОКО-условия линейной независимости и сильного достаточного условия второго порядка (67) для
любого разбиения (I1 , I2 ) ∈ I, для любого достаточно малого t 0
7 А. Ф. Измаилов
194
Гл. 4. Специальные случаи и приложения
задача (69), (81) имеет вблизи x единственную стационарную точку
x(t), которая зависит от t кусочно гладким образом. Задача (69), (70)
этим свойством, видимо, не обладает.
Подчеркнем, что при t > 0 задачи (69), (70) и (69), (81) уже не
являются ЗОКО, и можно расчитывать на выполнение в их решениях
соответствующих условий регулярности ограничений. Вместе с тем,
такая регулярность не является автоматической и должна исследоваться отдельно, как и важный с вычислительной точки зрения вопрос об
ограниченности при малых t > 0 множителей Лагранжа, отвечающих
решениям этих задач. Об этом см. [105].
В заключение отметим еще одну схему релаксации, которая представляется весьма сбалансированной и привлекательной, но анализ
которой требует более изощренных средств, чем те, которые представлены в данной книге. А именно, для каждого t 0 положим
Drelax (t) = {x ∈ X | G(x) 0, H(x) 0, Gi (x)Hi (x) = t, i ∈ I} (82)
(ср. с (81)). Ясно, что при любом t > 0 все ограничения-неравенства
в (82) не являются активными в любой точке множества Drelax (t), и
при разумных реализациях численных методов решения задачи (69),
(82) эти ограничения могут (и должны) отбрасываться, по крайней мере, на завершающей стадии процесса. В этом смысле задача (69), (82),
по сути дела, является задачей с чистыми ограничениями-равенствами, а для таких задач известны эффективные ньютоновские методы
[8, 15], на итерациях которых нужно решать не задачи квадратичного
программирования, а системы линейных уравнений, что дешевле.
Вместе с тем, задача (69), (82) уже не дает схему релаксации
в полном смысле слова, поскольку при t > 0 для введенного в (82)
множества Drelax (t) включение (71) выполняться не может. Схема (69),
(82) анализировалась в [34, 105]. В частности, в [34] было показано,
что если существует такое разбиение (I1 , I2 ) ∈ I, что для соответствующей кусочной задачи (26), (24) в точке x выполнено условие
Мангасариана–Фромовица, то, при выполнении (30), для отвечающего
задаче (69), (82) множества Srelax (t) при t 0 справедлива оценка (76),
а при выполнении (32) справедлива оценка
sup
x∈Srelax (t)
x − x = O(t1/4 ).
4.4. Штрафы и методы множителей
Важнейшей областью применения результатов теории чувствительности является обоснование и анализ свойств численных методов решения задач оптимизации. Некоторым приложениям такого рода посвящены последние два параграфа. В этом параграфе будут использоваться
базовые результаты о количественной устойчивости решений задач оп-
4.4. Штрафы и методы множителей
195
тимизации, полученные в п. 2.1.1, а в следующем — соответствующие
результаты для систем условий оптимальности из параграфа 3.2.
Пусть Y1 = Rl1 , Y2 = Rl2 . Будем рассматривать задачу математического программирования
f (x) → min,
x ∈ D,
D = {x ∈ X | F1 (x) = 0, F2 (x) 0},
(1)
(2)
где f : X → R — гладкая функция, F1 : X → Y1 и F2 : X → Y2 —
гладкие отображения. Всюду в этом параграфе будем предполагать, что
x ∈ X — строгое локальное решение задачи (1), и что число δ > 0 выбрано столь малым, что точка x является единственным (глобальным)
решением задачи
f (x) → min, x ∈ D ∩ B,
(3)
где B = Bδ (x). Когда ниже что-то предполагается относительно
свойств функции f и отображений F1 и F2 в окрестности точки x, то
всегда считается, что эта окрестность содержит множество B.
Определим функцию Лагранжа задачи (1), (2): для x ∈ X, λ =
= (λ1 , λ2 ) ∈ Y1 × Y2
L(x, λ) = f (x) + λ1 , F1 (x) + λ2 , F2 (x).
Кроме того, следуя терминологии, введенной в параграфе 1.3, определим для задачи (1), (2) в точке x множество множителей Лагранжа
∂L
Λ(x) = λ = (λ1 , λ2 ) ∈ Y1 × Y2 (x, λ) = 0, λ2 0, λ2 , F2 (x) = 0 ,
∂x
критический конус
C(x) = {ξ ∈ X | F1 (x)ξ = 0, (F2 )I(x) (x)ξ 0, f (x), ξ 0},
а также его сужение
C2 (x) = {ξ ∈ C(x) | ∃ u ∈ Rn : F1 (x)u + F1 (x)[ξ, ξ] = 0,
(F2 )I(x) (x)u + (F2 )I(x) (x)[ξ, ξ] 0}.
4.4.1. Степенные штрафы. Результаты, излагаемые в этом пункте, были получены в [1].
Напомним, что штрафом для множества D называется любая
функция ψ : X → R, удовлетворяющая условиям
ψ(x) = 0 ∀ x ∈ D,
7*
ψ(x) > 0 ∀ x ∈ X \ D.
(4)
196
Гл. 4. Специальные случаи и приложения
Выбранному штрафу отвечает семейство штрафных функций, определяемое следующим образом: ϕc : X → R,
(5)
ϕc (x) = f (x) + cψ(x),
где c 0 — параметр штрафа. Штрафные функции являются одним из важных технических средств численной оптимизации. О теории штрафных функций и способах их использования см., например,
[8, 9, 15, 26].
Непосредственным образом штрафные функции используются в так
называемых методах штрафа, состоящих в решении вспомогательных задач безусловной оптимизации
ϕc (x) → min,
x ∈ X,
(6)
при все возрастающем значении параметра штрафа c. Отметим следующий стандартный результат о сходимости методов штрафа. Подчеркнем, что ни специфика штрафа, ни даже способ задания допустимого
множества D не играют в этой теореме никакой роли. В частности,
в ней не требуются никакие условия регулярности ограничений, и
основывается она не на каких-либо общих теоремах об устойчивости,
а исключительно на специфике методов штрафа (т. е. на специфике
задачи (6)).
Т е о р е м а 1. Пусть функция f : X → R непрерывна в окрестности точки x ∈ X, D ⊂ X — заданное множество. Пусть точка x
является строгим локальным решением задачи (1).
Тогда если функция ψ : Rn → R удовлетворяет (4) и непрерывна
в окрестности точки x, и для каждого c 0 функция ϕc : X → R
задается формулой (5), то для любого (глобального) решения xc
задачи
(7)
ϕc (x) → min, x ∈ B,
имеет место
xc − x → 0 (c → +∞)
(8)
и, в частности, для любого достаточно большого числа c > 0 точка
xc является локальным решением задачи (6).
Д о к а з а т е л ь с т в о. Заметим, что для каждого c 0 (глобальное)
решение xc задачи (7) существует в силу теоремы Вейерштрасса. При
этом значения отображения c → xc : R+ → X содержатся в компакте
B, а значит, это отображение имеет предельную точку x
∈ B при c →
→ +∞. Докажем, что x
является глобальным решением задачи (3).
Действительно, для всякого c 0 в силу (4), (5) и определения
точки xc имеем
f (xc ) + cψ(xc ) = ϕc (xc ) = inf ϕc (x) x∈B
inf
x∈D∩B
ϕc (x) =
inf
x∈D∩B
f (x),
4.4. Штрафы и методы множителей
197
где в правой части стоит значение v задачи (3). Тогда, фиксируя после (k → ∞),
довательность {ck } ⊂ R+ такую, что ck → +∞ и {xck } → x
получаем
f (
x) + lim sup ck ψ(xck ) v.
(9)
k→+∞
Отсюда следует, что
ψ(
x) = lim ψ(xck ) = 0,
k→∞
т. е. x
∈ D ∩ B. Поэтому
f (
x) v,
(10)
и из (9) вытекает неравенство
lim sup ck ψ(xck ) 0,
k→∞
которое может иметь место только при выполнении равенства
lim ck ψ(xck ) = 0.
k→∞
Таким образом, (9) принимает вид
f (
x) v,
что в совокупности с (10) дает равенство
f (
x) = v,
которое, с учетом допустимости x
в задаче (3), означает, что x
—
глобальное решение этой задачи.
Но тогда, в силу выбора числа δ, справедливо равенство x
= x,
т. е. единственной предельной точкой отображения c → xc является x.
Поэтому выполнено (8) и, в частности, xc ∈ int B для достаточно
больших c 0. Отсюда следует, что для таких c точка xc является
локальным решением задачи (6).
Дальнейшие построения уже связаны с конкретным видом ограничений, задающих множество D в (2). Введем отображение невязки
этих ограничений: Ψ : X → Y1 × Y2 ,
Ψ(x) = (F1 (x), max{0, F2 (x)}),
(11)
и определим так называемый степенной штраф формулой
ψ(x) = (ρ(Ψ(x)))q ,
(12)
где q > 0 — фиксированный показатель степени, а функция ρ : Y1 ×
× Y2 → R+ удовлетворяет следующему условию:
198
Гл. 4. Специальные случаи и приложения
1) ρ(0, 0) = 0, ρ(y1 , y2 ) > 0 ∀ (y1 , y2 ) ∈ (Y1 × Y2 ) \ {0}, причем функция ρ непрерывна в некоторой окрестности точки (0, 0).
Очевидно, что при этом введенная согласно (12) функция ψ удовлетворяет (4) для введенного в (2) множества D, т. е. является штрафом
для этого множества, причем штрафы именно такого типа наиболее
популярны.
Проводимый ниже анализ требует дополнительных предположений
относительно функции ρ. Всюду в дальнейшем будем предполагать,
что:
2) ρ обладает следующим свойством монотонности: если y21 , y22 ∈ Y2
связаны неравенствами 0 y21 y22 , то ρ(y1 , y21 ) ρ(y1 , y22 ) ∀ y1 ∈
∈ Y1 ;
3) ρ мажорирует норму, т. е. для (y1 , y2 ) ∈ Y1 × Y2 имеет место
оценка
(y1 , y2 ) = O(ρ(y1 , y2 ))
(13)
(в силу эквивалентности норм в конечномерном пространстве,
норма в последнем соотношении может быть любой).
Впрочем, как будет показано ниже, требование 2) можно снять.
Функцию ρ в (12) часто определяют либо соотношением
ρ(y1 , y2 ) = (y1 , y2 )∞ = max{y1 ∞ , y2 ∞ },
либо соотношением
ρ(y1 , y2 ) =
l
1
|(y1 )i |q +
i=1
l2
(14)
1/q
|(y2 )i |q
(15)
i=1
(если q 1, то правая часть последнего равенства есть (y1 , y2 )q ).
Легко убедиться, что эти функции удовлетворяют предположениям
1)–3). В частности,
(y1 , y2 )∞ = max{|(y1 )1 |, ... , |(y1 )l1 |, |(y2 )1 |, ... , |(y2 )l2 |} =
= (max{|(y1 )1 |q , ... , |(y1 )l1 |q , |(y2 )1 |q , ... , |(y2 )l2 |q })1/q 1/q
l
l2
1
q
q
|(y1 )i | +
|(y2 )i |
∀ (y1 , y2 ) ∈ Y1 × Y2 ,
i=1
i=1
откуда следует выполнение 3) для функции ρ, вводимой согласно
(15) даже при q ∈ (0, 1). Выбирая ρ согласно (14) и (15), приходим
к штрафам вида
ψ(x) = (max{|(F1 )1 (x)|, ... |(F1 )l1 (x)|, 0, (F2 )1 (x), ... , (F2 )l2 (x)})q
(где 0 присутствует на тот случай, если в задаче (1), (2) нет ограничений-равенств, т. е. l1 = 0) и
ψ(x) =
l1
i=1
|(F1 )i (x)|q +
l2
i=1
(max{0, (F2 )i (x)})q ,
(16)
4.4. Штрафы и методы множителей
199
соответственно.
Важнейшее значение имеет вопрос об оценках скорости сходимости
в (8). Для задачи (1), (2) с ограничениями-равенствами (т. е. при
l2 = 0) оценка скорости сходимости методов штрафа по аргументу
была получена в [27] для метода квадратичного штрафа, т. е. метода
степенного штрафа с функцией ρ, вводимой согласно (15) при q = 2.
В работе [15, теор. 4.7.3] результат из [27] был распространен на
общую задачу (1), (2) за счет стандартного сведения ограничений-неравенств к равенствам с помощью дополнительных переменных 1). Этот
анализ основан на следующих предположениях: считаются выполненными условие линейной независимости (которое, напомним, гарантирует единственность множителя Лагранжа λ ∈ Y1 × Y2 , отвечающего
стационарной точке x задачи (1), (2)), достаточное условие второго
порядка оптимальности, а также условие строгой дополнительности.
Получаемая в этих предположениях оценка скорости сходимости метода квадратичного штрафа имеет вид
λ
xc − x = O
(17)
c
для c > 0.
В этом пункте вопрос об оценках скорости сходимости методов
степенного штрафа изучается в значительно более слабых предположениях: ни условие линейной независимости, ни, тем более, условие
строгой дополнительности выполненными не предполагаются. В основе
используемого здесь подхода лежит следующий прием. Для каждого
c 0 задаче (6) сопоставляется вспомогательная задача математического программирования, которую можно интерпретировать как результат
возмущения правых частей ограничений задачи (1), (2), причем xc
является решением этой новой задачи. Тогда нужные оценки получаются применением к семейству вспомогательных задач результатов
о количественной устойчивости из п. 2.1.1.
Заметим, что известен другой тип анализа скорости сходимости
методов штрафа, а именно, оценки скорости сходимости в более слабом
смысле, по функции (см., например, [15, теор. 4.7.5]). Такой анализ
не использует каких-либо достаточных условий оптимальности, но
основан на оценках расстояния до допустимого множества, справедливость которых можно гарантировать лишь при тех или иных условиях
регулярности ограничений.
Пусть для каждого значения штрафного параметра c 0 точка
xc ∈ X является решением задачи (7) (напомним, что в силу теоремы 1
при этом автоматически выполняется (8)). Введем в рассмотрение
вспомогательную задачу
f (x) → min,
1)
Slack variables.
x ∈ D(xc ) ∩ B,
(18)
200
Гл. 4. Специальные случаи и приложения
где
D(xc ) = {x ∈ Rn | F1 (x) = F1 (xc ), F2 (x) max{0, F2 (xc )}}.
(19)
Если в этой задаче заменить xc на x, то она превращается в задачу (3),
(2). Таким образом, (18), (19) можно рассматривать как возмущение
задачи (3), (2), причем возмущается только правая часть функциональных ограничений, а параметром возмущения является σ = Ψ(xc )
(см. (11) и (19)). Более того, из (8) и (11) следует, что параметр
возмущения стремится к нулю при c → +∞.
Следующее предложение позволяет свести анализ скорости сходимости методов степенного штрафа к анализу чувствительности решения x задачи (3) по отношению к специальным возмущениям последней.
П р е д л о ж е н и е 1. Пусть f : X → R — произвольная функция,
F1 : X → Y1 и F2 : X → Y2 — произвольные отображения. Пусть для
каждого c 0 функция ϕc вводится согласно (5), (11), (12), где
функция ρ удовлетворяет условиям 1)–3).
Тогда для всякого c 0 любое (глобальное) решение xc задачи
(7) является решением задачи (18), (19).
Д о к а з а т е л ь с т в о. Очевидно, что для любого c 0 точка xc
является допустимой в задаче (18), (19). От противного: предположим,
что для некоторого c 0 существует такая точка x
∈ D(xc ) ∩ B, что
f (
x) < f (xc ). Тогда согласно (5), (11), (12) и (19), учитывая свойство
2) монотонности функции ρ, имеем
ϕc (
x) = f (
x) + cΨ(
x)q = f (
x) + c(ρ(F1 (
x), max{0, F2 (
x)}))q <
< f (xc ) + c(ρ(F1 (xc ), max{0, F2 (xc )}))q = ϕc (xc ),
что противоречит оптимальности точки xc в задаче (7).
Примечательно, что предложение 1, безусловно проясняющее идею
развиваемого здесь подхода, на самом деле в дальнейшем использоваться не будет. Точнее, не понадобится оптимальность точки xc в задаче (18), (19) при c 0; достаточно лишь (очевидной) допустимости
точки xc в этой задаче (и, в частности, требование 2) монотонности
функции ρ можно снять, поскольку нигде, кроме предложения 1, оно
не используется). Дело в том, что, в данном случае, принимая во
внимание специфику методов штрафа, можно «оптимальным образом»
оценить величину f (xc ) сверху непосредственно, не используя никаких
оценок расстояния от точки x до допустимого множества задачи (18),
(19) и, соответственно, не накладывая никаких требований регулярности ограничений. Действительно, в силу (5), (11), (12) и оптимальности точки xc в задаче (7), имеем
f (xc ) + c(ρ(Ψ(xc )))q = ϕc (xc ) ϕc (x) = f (x) + c(ρ(Ψ(x)))q = f (x).
(20)
4.4. Штрафы и методы множителей
201
Отсюда, в частности, следует, что
f (xc ) f (x).
(21)
Это значит, что формально справедлива оценка
f (xc ) f (x) + O(Ψ(xc )),
что делает возможным применение теорем 2.1.2 и 2.1.3 при p = 1 для
получения оценок величины xc − x, а также оценок снизу на f (xc )
через Ψ(xc ).
Т е о р е м а 2. Пусть функция f : X → R и отображения F1 : X →
→ Y1 и F2 : X → Y2 непрерывны в окрестности точки x ∈ X и
дважды дифференцируемы в этой точке. Пусть точка x является
строгим локальным решением задачи (1), (2). Пусть, наконец, для
каждого c 0 функция ϕc вводится согласно (5), (11), (12), где
функция ρ удовлетворяет условиям 1) и 3), а xc является (глобальным) решением задачи (7).
Тогда для c > 0 имеют место следующие утверждения:
а) если
C2 (x) = {0},
(22)
то при q > 1/2 имеют место оценки
1
(23)
xc − x = O 1/(2q−1) ,
c
1
(24)
f (x) − f (xc ) = O 1/(2q−1) ,
c
1
Ψ(xc ) = O 2/(2q−1) ,
(25)
c
а при q ∈ (0, 1/2] для любого достаточно большого c имеет
место равенство xc = x;
б) если
C(x) = {0},
(26)
то при q > 1 имеют место оценки
1
(27)
xc − x = O 1/(q−1) ,
c
1
f (x) − f (xc ) = O 1/(q−1) ,
(28)
c
1
(29)
Ψ(xc ) = O 1/(q−1) ,
c
а при q ∈ (0, 1] для любого достаточно большого c имеет
место равенство xc = x;
202
Гл. 4. Специальные случаи и приложения
в) если
∀ ξ ∈ C(x) \ {0} ∃ λ ∈ Λ(x) такой, что
∂2L
(x, λ)[ξ, ξ] > 0, (30)
∂x2
то при q > 1 имеет место оценка
1
xc − x = O 1/2(q−1) ,
c
(31)
а также оценки (28) и (29), а при q ∈ (0, 1] для любого достаточно большого c имеет место равенство xc = x.
Д о к а з а т е л ь с т в о. Докажем а). Из (21) и утверждения а) теоремы 2.1.2 имеем оценки
xc − x = O(Ψ(xc )1/2 ),
(32)
f (x) − f (xc ) = O(Ψ(xc )1/2 ).
(33)
С другой стороны, из (20) следует неравенство
ρ(Ψ(xc )) f (x) − f (xc )
c
1/q
(34)
.
Из (13), (33) и (34) вытекает оценка
Ψ(xc ) = O(ρ(Ψ(xc ))) = O
Ψ(xc )1/2q
c1/q
,
(35)
которая при q > 1/2 превращается в (25). В свою очередь, из (25) и
(32), (33) вытекают оценки (23), (24).
Если же q 1/2, то из (35) вытекает, что для любого достаточно
большого c выполняется Ψ(xc ) = 0. Но тогда, согласно (11), xc ∈ D ∩ B,
причем имеет место неравенство (21). В силу определения шара B это
возможно лишь при xc = x.
Утверждение б) и в) доказываются совершенно аналогично, но
с использованием утверждения б) теоремы 2.1.2 и теоремы 2.1.3 соответственно.
Отметим, что если равенство xc = x выполняется для любого достаточно большого c, то говорят, что используемый штраф является
точным.
Обсудим вопрос о точности полученных оценок. Следующие простейшие примеры показывают, что оценки скорости сходимости, а также верхние границы показателей q, гарантирующих точность штрафа,
в условиях утверждений а) и б) теоремы 2 неулучшаемы, причем даже
в случае отсутствия ограничений-неравенств.
4.4. Штрафы и методы множителей
203
П р и м е р 1. Пусть n = l1 = 1, l2 = 0, f (x) = x, F1 (x) = x2 . Точка
x = 0 является решением задачи (1), (2), причем F1 (x) = 0, т. е. условие
регулярности ограничений нарушено. Вместе с тем, как легко заметить,
C2 (x) = {0}, т. е. имеет место (22) (но не (26)!)
Пусть штраф определяется формулой (16). Легко видеть, что если q ∈ (0, 1/2], то при любом достаточно большом c 0 единственным решением задачи (6) является точка x; если же q > 1/2, то
при любом c 0 единственным решением задачи (6) является точка xc = −1/(2qc)1/(2q−1) , причем f (x) − f (xc ) = −xc = 1/(2qc)1/(2q−1) ,
Ψ(xc ) = F (xc ) = 1/(2qc)2/(2q−1) . Значит, оценки (23)–(25) являются
в этом примере точными.
П р и м е р 2. Пусть все так же, как в примере 1, но F1 (x) = x.
Точка x = 0 и здесь является решением задачи (1), (2), причем в
этой точке выполнены условие регулярности ограничений (поскольку
F (x) = 0) и условие (26) (поскольку C(x) ⊂ ker F1 (x) = {0}).
Пусть штраф определяется формулой (16). Легко проверить, что
если q ∈ (0, 1], то при любом достаточно большом c 0 единственным решением задачи (6) является точка x; если же q > 1, то
при любом c 0 единственным решением задачи (6) является точка xc = −1/(qc)1/(q−1) , причем f (x) − f (xc ) = −xc = 1/(qc)1/(q−1) ,
Ψ(xc ) = F (xc ) = xc = −1/(qc)1/(q−1) . Значит, оценки (27)–(29) являются в этом примере точными.
Заметим далее, что при q = 2 оценка (31) имеет вид
1
xc − x = O 1/2 ,
(36)
c
что, конечно же, хуже, чем оценка (17). Вместе с тем, оценка (36)
получена без условия линейной независимости (и, вообще, без каких-либо предположений о регулярности ограничений), а также без
условия строгой дополнительности. Покажем, что в рассматриваемых
предположениях оценка (36) неулучшаема. Точнее, приведем пример,
показывающий, что оценки (28), (29), (31), а также верхняя граница
показателей q, гарантирующих точность штрафа, в условиях утверждения в) теоремы 2 неулучшаемы, причем даже в случае отсутствия
ограничений-неравенств.
П р и м е р 3. Пусть все так же, как в примере 1, но f (x) = −x2 /2.
Для решения x = 0 задачи (1), (2) имеет место равенство f (x) = 0.
Поэтому Λ(x) = R и, поскольку выполнено (22), то выполнено и (30)
(см. предложение 1.3.2).
Пусть штраф определяется формулой (16). Легко видеть, что если
q ∈ (0, 1], то при любом достаточно большом c 0 единственным решением задачи (6) является точка x; если же q > 1, то при любом c 0
2
= ±1/(2qc)1/(2(q−1)) , прирешениями задачи (6) являются точки x1,
c
1, 2
1, 2 2
1/(q−1)
2
1, 2
чем f (x) − f (xc ) = (xc ) /2 = 1/(2qc)
/2, Ψ(x1,
c ) = F (xc ) =
204
Гл. 4. Специальные случаи и приложения
= 1/(2qc)1/(q−1) . Значит, оценки (28), (29), (31) являются в этом примере точными.
Ситуация, имеющая место в примере 3, весьма специфична, поскольку в нем выполняется (22), т. е. достаточное условие второго
порядка (30) выполняется в некотором смысле тривиальным образом.
Следующая модификация данного примера («подъем размерности»)
демонстрирует, что полученные оценки неулучшаемы и без этой специфики.
П р и м е р 4. Пусть n = 3, l1 = 2, l2 = 0, f (x) = −x21 /2 + x22 /2,
F1 (x) = (x21 + x22 − x23 , x1 x3 ).
Здесь, с точки зрения оценок скорости сходимости методов степенного штрафа, ситуация та же, что и в примере 3, по крайней
мере, при q = 2. Действительно, пусть штраф определяется формулой (16) при q = 2. Несложными вычислениями можно убедиться,
что при любом c 0 задача (6) имеет следующие стационарные точ2
4
ки: x0c = 0, x1,
= (±1/(4c)1/2 , 0, 0), x3,
= (±1/(3c)1/2 , 0, 1/(6c)1/2 )
c
c
5, 6
1/2
1/2
и xc = (±1/(3c) , 0, −1/(6c) ), причем минимум достигается в
4, 5, 6
4, 5, 6
четырех последних точках, и f (x) − f (x3,
) = 1/(12c), Ψ(x3,
)=
c
c
3, 4, 5, 6
) = (1/(6c), 1/(18c)).
= F (xc
Разумеется, в примерах 3 и 4 условие регулярности ограничений
в точке x нарушается. Напомним, что если для задачи без ограничений-неравенств выполняется условие регулярности ограничений и
достаточное условие второго порядка оптимальности, то при q = 2
имеет место более сильная, чем (36), оценка (17). Приведем пример,
демонстрирующий, что при наличии ограничений-неравенств это уже
не так: даже при выполнении условия Мангасариана–Фромовица (но
не условия линейной независимости) и условия строгой дополнительности для некоторого множителя Лагранжа, оценки (28), (29) и (31)
в условиях утверждения в) теоремы 2 неулучшаемы (по крайней мере,
при q = 2).
П р и м е р 5. Пусть n = l2 = 2, l1 = 0, f (x) = x2 − x21 /2, F2 (x) =
= (x21 − x2 , −x21 − x2 ). Из геометрических соображений легко увидеть,
что точка x = 0 является решением задачи (1), (2), причем, как
нетрудно проверить, Λ(x) = {λ = λ2 ∈ R2+ | (λ2 )1 + (λ2 )2 = 1}, и в точке
x выполнены условие Мангасариана–Фромовица (но не условие линейной независимости!), условие строгой дополнительности для любого отвечающего x множителя Лагранжа, кроме λ = λ2 = (1, 0) и
λ = λ2 = (0, 1), а также достаточное условие второго порядка оптимальности (30) (и даже с универсальным множителем, для которого
выполнено условие строгой дополнительности; например, с множителем λ = λ2 = (3/4, 1/4)).
Пусть штраф определяется формулой (16) при q = 2. Тогда при
любом c 0 задача (6) имеет три стационарные точки: x1c = (0, −
3
1/2
−1/4c), x2,
, −1/4c), причем минимум достигается именc = (±(1/8c)
4.4. Штрафы и методы множителей
205
3
2, 3
но в двух последних точках, и f (x) − f (x2,
c ) = 5/16c, Ψ(xc ) =
= (3/8c, 1/8c). Значит, оценки (28), (29), (31) являются в этом примере
точными.
Предложение 1 может быть полезно при выводе оценок скорости
сходимости методов степенного штрафа, если, скажем, вместо достаточного условия второго порядка оптимальности предполагать выполненным более слабое (при нарушении условия Робинсона) условие
квадратичного роста; см. [1]. Здесь, однако, эти вопросы не рассматриваются; ограничимся лишь одним примером.
П р и м е р 6. Пусть все так же, как в примере 4, но f (x) = x1 +
+ x22 /2. Для решения x = 0 задачи (1), (2) имеет место следующее:
Λ(x) = ∅ и условие (26) (и даже (22)) не выполняется, а значит, не
выполняется и (30).
В этом примере с точки зрения оценок скорости сходимости методов степенного штрафа ситуация та же, что и в примере 1 (по
крайней мере, при q = 2). Действительно, пусть штраф определяется
формулой (16) при q = 2. Несложными вычислениями можно убедиться, что при любом c 0 задача (6) имеет стационарные
√ точки
3
x1c = (−1/(4c)1/3 , 0, 0) и x2,
= (−1/(3c)1/3 , 0, ±1/(3c)1/3 / 2 ), приc
чем минимум достигается в первой точке, и f (x) − f (x1c ) = 3/(4c)1/3 ,
Ψ(x1c ) = F (x1c ) = (1/(4c)2/3 , 0).
4.4.2. Оценки расстояния до решения. Метод модифицированных функций Лагранжа и двойственные методы. В этом пункте
речь пойдет главным образом об итеративных методах решения задачи
(1), (2), т. е. о методах, генерирующих последовательности {xk } ⊂ X,
которые при определенных предположениях сходятся к x. Для таких
методов всегда полезно иметь средства, позволяющие для текущей
итерации k оценить xk − x через некоторую легко вычислимую величину χk 0, стремящуюся к нулю при k → ∞. Такие вычислимые
оценки ошибки
xk − x = O(χk )
(37)
позволяют контролировать ход вычислительного процесса и, например,
дают разумные практические критерии его остановки. При этом желательно, чтобы оценка (37) была точной, т. е. неулучшаемой в накладываемых предположениях.
Иногда оценку (37) удается получить из общих соображений, вне
контекста какого-либо конкретного итеративного алгоритма. Отметим
один такой случай. Начнем со следующего факта, указанного в [57],
который устанавливает связь между наличием липшицевой устойчивости точки x и отвечающего ей множителя Лагранжа λ ∈ Y при
специальном каноническом возмущении задачи (1), (2), и наличием
локальной оценки расстояния до точки (x, λ).
206
Гл. 4. Специальные случаи и приложения
Л е м м а 1. Пусть функция f : X → R и отображения F1 : X → Y1
и F2 : X → Y2 дифференцируемы в окрестности точки x ∈ X, причем
производная F2 непрерывна в точке x. Пусть x — стационарная
точка задачи (1), (2), а λ ∈ Y1 × Y2 — отвечающий x множитель
Лагранжа. Пусть, наконец, имеет место следующее свойство: для
любого σ = (a, y1 , y2 ) ∈ Σ = X × Y1 × Y2 , достаточно близкого к
нулю, любая достаточно близкая к x стационарная точка x(σ) ∈ X
задачи
f (x) − a, x → min, x ∈ D(y1 , y2 ),
(38)
D(y1 , y2 ) = {x ∈ X | F1 (x) = y1 , F2 (x) y2 },
(39)
и любой отвечающий этой стационарной точке и достаточно
близкий к λ множитель Лагранжа λ(σ) ∈ Y1 × Y2 удовлетворяют
оценке
x(σ) − x + λ(σ) − λ = O(σ).
Тогда для любого x ∈ X, достаточно близкого к x, а также для
любого λ = (λ1 , λ2 ) ∈ Y1 × Y2 , достаточно близкого к λ, справедлива
оценка
x − x + λ − λ =
∂L
(x, λ) + F1 (x) + min{λ2 , −F2 (x)} . (40)
=O ∂x
Подчеркнем, что в правой части оценки (40) стоит ни что иное,
как невязка отвечающей задаче (1), (2) системы Каруша–Куна–Таккера
(см. п. 1.3.1), которую можно записать в виде
∂L
(x, λ) = 0,
∂x
F1 (x) = 0,
min{λ2 , −F2 (x)} = 0.
Д о к а з а т е л ь с т в о. Стационарные точки задачи (38), (39) и отвечающие им множители Лагранжа характеризуются системой Каруша–Куна–Таккера, которую можно записать в виде
∂L
(x, λ) = a,
∂x
F1 (x) = y1 ,
λ2 0,
F2 (x) y2 ,
(λ2 )i = 0, если (F2 )i (x) < (y2 )i , i = 1, ... , l2 .
(41)
(42)
Для заданных x ∈ X и λ = (λ1 , λ2 ) ∈ Y1 × Y2 положим
I1 = I1 (x, λ2 ) =
= {i = 1, ... , l2 | (λ2 )i 0 или − (F2 )i (x) > (λ2 )i > 0}, (43)
I2 = I2 (x, λ2 ) = {1, ... , l2 } \ I1 =
= {i = 1, ... , l2 | (λ2 )i > 0, −(F2 )i (x) (λ2 )i }, (44)
4.4. Штрафы и методы множителей
2 )i =
(λ
0,
(λ2 )i ,
если i ∈ I1 ,
если i ∈ I2 ,
= (λ1 , λ
2 ),
λ
∂L
(x, λ),
y1 = F1 (x),
a=
∂x
max{0, (F2 )i (x)}, если i ∈ I1 ,
(y2 )i =
если i ∈ I2 .
(F2 )i (x),
207
(45)
(46)
(47)
является решением
Непосредственно проверяется, что точка (x, λ)
системы (41), (42) при указанном σ = (a, y1 , y2 ) (в частности, неравенство (F2 )i (x) < (y2 )i может иметь место лишь при i ∈ I1 ). Поэтому
в предположениях доказываемой теоремы, если точка (x, λ) достаточно
близка к (x, λ), имеет место оценка
− λ = O(σ).
x − x + λ
(48)
Теперь достаточно показать, что
− λ = O( min{λ2 , −F2 (x)})
λ
и
∂L
+ F1 (x) + min{λ2 , −F2 (x)} ;
σ = O (x,
λ)
∂x
(49)
(50)
тогда требуемая оценка (40) будет следовать немедленно из (48).
Пусть i ∈ I1 . Если (λ2 )i 0, то
0 |(λ2 )i | = −(λ2 )i max{−(λ2 )i , (F2 )i (x)} =
= − min{(λ2 )i , −(F2 )i (x)} = | min{(λ2 )i , −(F2 )i (x)}|.
Если же −(F2 )i (x) > (λ2 )i > 0, то
0 |(λ2 )i | = (λ2 )i = min{(λ2 )i , −(F2 )i (x)} = | min{(λ2 )i , −(F2 )i (x)}|.
Отсюда в силу (43) и первого равенства в (45) имеем
2 )i − (λ2 )i | = |(λ2 )i | = | min{(λ2 )i , −(F2 )i (x)}|.
|(λ
Вновь привлекая (45), приходим к оценке (49).
Далее, из (46) и (49) имеем
∂L
− λ) =
+ O(λ
a (x,
λ)
∂x
∂L
=O (x, λ) + min{λ2 , −F2 (x)} , (51)
∂x
208
Гл. 4. Специальные случаи и приложения
y1 = O(F1 (x)).
(52)
Пусть i ∈ I1 , тогда, согласно (47), (y2 )i = max{0, (F2 )i (x)} 0. Если
(λ2 )i 0, то
0 |(y2 )i | = (y2 )i = max{0, (F2 )i (x)} max{−(λ2 )i , (F2 )i (x)} =
= − min{(λ2 )i , −(F2 )i (x)} = | min{(λ2 )i , −(F2 )i (x)}|.
Если же −(F2 )i (x) > (λ2 )i > 0, то (F2 )i (x) < 0, и поэтому (y2 )i = 0.
Пусть теперь i ∈ I2 , тогда, согласно (44) и (47) (y2 )i = (F2 )i (x) −(λ2 )i . Если (F2 )i (x) < 0, то
0 |(y2 )i | = −(y2 )i = −(F2 )i (x) =
= min{(λ2 )i , −(F2 )i (x)} = | min{(λ2 )i , −(F2 )i (x)}|.
Если же (F2 )i (x) 0, то
0 |(y2 )i | = (y2 )i = (F2 )i (x) max{−(λ2 )i , (F2 )i (x)} =
= − min{(λ2 )i , −(F2 )i (x)} = | min{(λ2 )i , −(F2 )i (x)}|.
Суммируя сказанное, приходим к оценке
y2 = O( min{λ2 , −F2 (x)}).
Объединяя эту оценку с (51) и (52), получаем (50).
Т е о р е м а 3. Пусть функция f : X → R и отображения F1 : X →
→ Y1 и F2 : X → Y2 дважды дифференцируемы в точке x ∈ X. Пусть
x — стационарная точка задачи (1), (2), а λ ∈ Y1 × Y2 — отвечающий x множитель Лагранжа.
Тогда если единственным решением системы
∂ 2L
(x, λ)ξ + (F1 (x))∗ η1 + (F1 (x))∗ η2 = 0,
∂x2
(53)
F1 (x)ξ = 0,
(54)
(η2 )i 0, (F2 )i (x), ξ 0, (η2 )i (F2 )i (x), ξ = 0, i ∈ I(x) \ I+ (x, λ),
(55)
(η2 ){1, ..., l2 }\I(x) = 0, (F2 )I (x, λ) (x)ξ = 0,
(56)
+
где
2
I+ (x, λ) = {i ∈ I(x) | λi > 0},
является тройка (ξ, η1 , η2 ) = (0, 0, 0), то для любого x ∈ X, достаточно близкого к x, а также для любого λ = (λ1 , λ2 ) ∈ Y1 × Y2
справедлива оценка (40).
4.4. Штрафы и методы множителей
209
З а д а ч а 1. Используя теорему 3.2.2 и лемму 1 доказать теорему 3.
(Указание. Нужно проверить, что система (53)–(56) является конкретизацией системы (3.2.20), (3.2.21) (т. е. системы (3.2.14), (3.2.15) при
d = 0) для задачи математического программирования.)
С л е д с т в и е 1. Пусть выполнены условия теоремы 3.
Тогда если в точке x для множителя Лагранжа λ выполнено
строгое условие Мангасариана–Фромовица, а также достаточное
условие второго порядка оптимальности
∂2L
(x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C(x) \ {0},
∂x2
(57)
то справедливо утверждение теоремы 3.
З а д а ч а 2. Используя лемму 3.2.1 и теорему 3 доказать следствие 1. (См. указание к задаче 1.)
Предположим, что алгоритм наряду с {xk } генерирует последовательность {λk } ⊂ Y1 × Y2 , которая сходится к λ ∈ Λ(x). Из следствия 1
вытекает, что если в точке x для λ выполнено строгое условие Мангасариана–Фромовица, а также достаточное условие второго порядка
(57), то оценка (37) имеет место при
∂L k k k
k
k
χk = (x , λ )
+ F1 (x ) + min{λ2 , −F2 (x )}.
∂x
Однако в более слабых предположениях для получения оценки расстояния до решения нужно использовать специфику рассматриваемого
алгоритма. Приводимые ниже результаты, полученные в [72], не предполагают выполнения каких-либо условий регулярности ограничений.
Определим семейство модифицированных функций Лагранжа: для
x ∈ X и λ = (λ1 , λ2 ) ∈ Y1 × Y2 положим
c
Lc (x, λ) = f (x) + λ1 , F1 (x) + F1 (x)22 +
2
l2
1 +
(max{0, c(F2 )i (x) + (λ2 )i })2 − (λ2 )2i , (58)
2c
i=1
где c 0 — параметр штрафа. Для каждого значения этого параметра
и фиксированного λ рассмотрим вспомогательную задачу
Lc (x, λ) → min,
x ∈ B.
(59)
Пусть для каждых λ = (λ1 , λ2 ) ∈ Y1 × Y2 и c > 0 точка xλ, c ∈ X является решением задачи (59). Введем в рассмотрение вспомогательную
задачу
f (x) → min, x ∈ D(xλ, c ) ∩ B,
(60)
210
Гл. 4. Специальные случаи и приложения
D(xλ,c ) = {x ∈ X | F1 (x) = F1 (xλ,c ), F2 (x) max{−λ2 /c, F2 (xλ,c )}.
(61)
Заметим, что если заменить xλ, c на x, задача (60), (61), вообще
говоря, не превращается в задачу (3). Интерпретировать (60), (61) как
возмущение задачи (3) удается лишь в рамках конкретного алгоритма,
обсуждаемого ниже. Тем не менее, имеет место
П р е д л о ж е н и е 2. Пусть f : X → R — произвольная функция,
F1 : X → Y1 и F2 : X → Y2 — произвольные отображения. Пусть для
каждых λ = (λ1 , λ2 ) ∈ Y1 × Y2 и c 0 функция Lc (·, λ) вводится
согласно (58).
Тогда для всяких λ = (λ1 , λ2 ) ∈ Y1 × Y2 , где λ2 0, и c > 0 любое
(глобальное) решение xλ, c задачи (59) является решением задачи
(60), (61).
Д о к а з а т е л ь с т в о. Очевидно, что для любых λ ∈ Y1 × Y2 и c > 0
точка xλ, c является допустимой в задаче (60), (61). От противного:
предположим, что для некоторых λ = (λ1 , λ2 ) ∈ Y1 × Y2 , где λ2 0,
и c > 0 существует такая точка x
∈ D(xλ, c ) ∩ B, что f (
x) < f (xλ, c ).
Покажем, что
max{0, cF2 (
x) + λ2 } max{0, cF2 (xλ, c ) + λ2 }.
(62)
Соответствующее неравенство очевидным образом выполняется для
x) + (λ2 )i 0.
компонент с номерами i = 1, ... , l2 такими, что c(F2 )i (
Если же c(F2 )i (
x) + (λ2 )i > 0, то (F2 )i (
x) > −(λ2 )i /c и, поскольку
точка x
допустима в задаче (60), (61), то (F2 )i (
x) (F2 )i (xλ, c ). Поэтому соответствующее неравенство в (62) выполняется и для компонент
с такими номерами i.
Далее, используя (58), (62) и равенство F1 (
x) = F1 (xλ, c ), имеем
c
x, λ) = f (
x) + λ1 , F1 (
x) + F1 (
x)22 +
Lc (
2
l2
1 +
((max{0, c(F2 )i (
x) + (λ2 )i })2 − (λ2 )2i ) <
2c
i=1
c
< f (xλ, c ) + λ1 , F1 (xλ, c ) + F1 (xλ, c )22 +
2
l2
1 +
((max{0, c(F2 )i (xλ,c ) + (λ2 )i })2 − (λ2 )2i ) = Lc (xλ,c , λ),
2c
i=1
что противоречит оптимальности точки xλ, c в задаче (59).
Известный метод модифицированных функций Лагранжа представляет следующую вычислительную процедуру. Для имеющихся
λk = (λk1 , λk2 ) ∈ Y1 × Y2 , где λk2 0, и значения параметра штрафа
ck > 0 очередное приближение xk к искомому решению x задачи (3)
4.4. Штрафы и методы множителей
211
вычисляется как решение задачи (59) при λ = λk и c = ck . Затем по
формулам
λ1k+1 = λk1 + ck F1 (xk ),
λ2k+1 = max{0, λk2 + ck F2 (xk )}
(63)
вычисляется следующее приближение λk+1 = (λ1k+1 , λ2k+1 ) к отвечающему x множителю Лагранжа, выбирается ck+1 , номер шага k увеличивается на 1, и процедура повторяется.
Разумеется, при практической реализации описанного метода ограничение x ∈ B в задаче (59) не принимается во внимание: (59) решают
как задачу безусловной минимизации, а ограничение x ∈ B выражает
лишь естественное стремление среди (локальных) решений (или даже
стационарных точек) такой вспомогательной задачи выбирать то, которое достаточно близко́ к искомому решению задачи исходной.
Метод модифицированных функций Лагранжа был разработан
в [67, 103, 116] и хорошо освещен в существующей литературе
[8, 10, 15]. В частности, по этим источникам можно познакомиться
с условиями, гарантирующими сходимость такого итеративного процесса. Здесь же будем предполагать, что процесс генерирует сходящуюся
к x последовательность {xk } и ограниченную двойственную последовательность {λk }. Напомним, что речь здесь идет о вычислимой оценке
расстояния от xk до x вида (37). Для каждого k определим число Δk
как норму правой части функциональных ограничений в (61):
1/2
l2
k 2
k
k
2
(max{−(λ2 )i /ck , (F2 )i (x )})
.
(64)
Δk = F (x )2 +
i=1
Т е о р е м а 4. Пусть функция f : X → R и отображения F1 : X →
→ Y1 и F2 : X → Y2 дважды дифференцируемы в точке x ∈ X. Пусть
точка x является строгим локальным решением задачи (1), (2).
Пусть для каждых λ = (λ1 , λ2 ) ∈ Y1 × Y2 и c 0 функция Lc (·, λ)
вводится согласно (58).
Тогда, если траектории {xk } ⊂ X и {λk } ⊂ Y1 × Y2 сгенерированы
описанным выше методом модифицированных функций Лагранжа,
причем последовательность {λk } ограничена, последовательность
{ck } отделена от нуля (т. е. при некотором c > 0 справедливо ck c ∀ k), последовательность {xk } сходится к x, и для каждого k
число Δk определяется согласно (64), то имеют место следующие
утверждения 1):
б) если выполнено (26), то
1)
xk − x = O(Δk ),
(65)
f (xk ) = f (x) + O(Δk );
(66)
Отсутствие утверждения а) будет объяснено ниже.
212
Гл. 4. Специальные случаи и приложения
в) если выполнено (30), то имеют место оценки
1/2
xk − x = O(Δk )
(67)
и (66).
Д о к а з а т е л ь с т в о. Ключевым моментом этого доказательства является обоснование того, что
Δk → 0
(k → ∞).
(68)
Предельные соотношения
{F1 (xk )} → 0 (k → ∞)
(69)
и {(F2 )I(x) (xk )} → 0 (k → ∞) очевидны. Из последнего и из справедливого для любого k неравенства −λk2 /ck 0 легко следует предельное
соотношение
max{−(λk2 )i /ck , (F2 )i (xk )} → 0 (k → ∞) ∀ i ∈ I(x).
(70)
Пусть теперь i ∈ {1, ... , l2 } \ I(x). Тогда существуют номер k и
число ε > 0 такие, что (F2 )i (xk ) −ε ∀ k k. Предположим, что для
k
бесконечной подпоследовательности номеров {kj } имеет место (λ2 j )i >
> 0 ∀ j. Тогда для kj > k из второго равенства в (63) имеем
k
k −1
0 < (λ2 j )i = (λ2 j
)i + ckj −1 (F2 )i (xkj −1 ) =
kj −1
= (λk2 )i +
ck (F2 )i (xk ) (λk2 )i − cε(kj − 1 − k) < 0
k=k
при достаточно больших j (которым отвечают достаточно большие kj ),
что, конечно же, невозможно. Таким образом, для любого достаточно
большого k справедливо (λk2 )i = 0, а значит,
max{−(λk2 )i /ck , (F2 )i (xk )} = 0 ∀ i ∈ {1, ... , l2 } \ I(x).
Согласно (64), (69) и (70), это завершает доказательство (68).
Далее, для любых чисел a, b и c > 0 справедливо равенство
1
c
((max{0, ca + b})2 − b2 ) = (max{−b/c, a})2 + b max{−b/c, a}.
2c
2
(71)
Действительно, если a −b/c, то правая часть этого равенства принимает вид b2 /(2c) − b2 /c = −b2 /(2c), что совпадает с левой частью.
Если же a > −b/c, то правая часть принимает вид (c2 a2 + 2cab)/(2c) =
= ca2 /2 + ab, что также совпадает с левой частью.
213
4.4. Штрафы и методы множителей
Для каждого k получим оценку сверху на f (xk ). Используя (58),
(71) и оптимальность xk в задаче (59) при λ = λk и c = ck , имеем
ck
f (xk ) = Lck (xk , λk ) − λk1 , F1 (xk ) − F1 (xk )22 −
2
l2
ck
−
(max{−(λk2 )i /ck , (F2 )i (xk )})2 −
2
i=1
l2
−
(λk2 )i max{−(λk2 )i /ck , (F2 )i (xk )} i=1
Lck (x, λ ) − λk1 , F1 (xk ) −
k
−
ck
F1 (xk )22 −
2
l2
ck (max{−(λk2 )i /ck , (F2 )i (xk )})2 −
2
i=1
l2
−
(λk2 )i max{−(λk2 )i /ck , (F2 )i (xk )} i=1
Lck (x, λk ) − λk1 , F1 (xk ) −
l2
(λk2 )i max{−(λk2 )i /ck , (F2 )i (xk )}.
i=1
(72)
Заметим, что согласно (58)
Lck (x, λk ) = f (x) +
l2
1 (max{0, ck (F2 )i (x) + (λk2 )i })2 − (λk2 )2i .
2ck
i=1
Для i ∈ I(x) справедливо
max{0, ck (F2 )i (x) + (λk2 )i } = max{0, (λk2 )i } = (λk2 )i
(поскольку (λk2 )i 0; см. второе
i ∈ {1, ... , l2 } \ I(x) справедливо
равенство
в
(63)).
Для
max{0, ck (F2 )i (x) + (λk2 )i }) = max{0, ck (F2 )i (x)} = 0 = (λk2 )i
для любого достаточно большого k (поскольку, как было показано
выше, для таких k имеет место равенство (λk2 )i = 0). Таким образом,
для всех достаточно больших k
Lck (x, λk ) = f (x),
и из (64) и (72) вытекает оценка
f (xk ) f (x) − λk1 , F1 (xk ) −
l2
(λ2 )k max{−(λk2 )i /ck , (F2 )i (xk )} =
i=1
= f (x) + O(Δk ), (73)
214
Гл. 4. Специальные случаи и приложения
где принята во внимание ограниченность последовательности {λk }.
Поэтому, учитывая допустимость точки xk в задаче (60), (61) при
λ = λk и c = ck и применяя к этой задаче (как к специальному
возмущению задачи (3)) теоремы 2.1.2 и 2.1.3 при p = 1, получаем
требуемые утверждения.
Если генерируемая методом модифицированных функций Лагранжа
последовательность {xk } сходится к x, то достаточным для ограниченности соответствующей последовательности {λk } является условие
Мангасариана–Фромовица в точке x. Действительно, поскольку при
этом xk ∈ int B для любого достаточно большого k, то для таких k
точка xk является безусловным минимумом, а значит, и критической
точкой функции Lck (·, λk ), т. е. согласно (58)
∂Lck k k
0=
(x , λ ) = f (xk ) + (F1 (xk ))∗ λk1 + ck (F1 (xk ))∗ F1 (xk ) +
∂x
l2
+
max{0, ck (F2 )i (xk ) + (λk2 )i }(F2 )i (xk ) =
i=1
k
= f (x ) + (F1 (xk ))∗ λ1k+1 +
(λ2 )ik+1 (F2 )i (xk ),
(74)
i∈I(x)
где принято во внимание, что, как установлено при доказательстве
теоремы 4, (λk2 )i = 0 для всех i ∈ {1, ... , l2 } \ I(x) и всех достаточно
больших k. Если предположить неограниченность последовательности
{λk }, то, разделив левую и правую части (74) на λk+1 и перейдя
к пределу при k → ∞ (возможно вдоль подходящей подпоследовательности), придем к существованию таких не равных нулю одновременно
элемента λ1 ∈ Y1 и чисел (λ2 )i 0, i ∈ I(x), что
(λ2 )i (F2 )i (x),
0 = (F1 (x))∗ λ1 +
i∈I(x)
а это, как легко видеть, противоречит условию Мангасариана–Фромовица в точке x.
Подчеркнем, что в теореме 4 нигде не предполагается, что Λ(x) = ∅,
но, на самом деле, существование множителя Лагранжа, отвечающего x, в условиях этой теоремы является автоматическим (и именно
поэтому в теореме 4 отсутствует утверждение а): здесь нет смысла
отдельно рассматривать случай выполнения условия (22), как, скажем,
в теореме 2 или в теореме 5 ниже, поскольку согласно утверждению в) предложения 1.3.2 при Λ(x) = ∅ условие (30) является более
слабым, чем (22), а гарантируемые условием (30) оценки не уступают
тем, которые гарантируются условием (22)). Действительно, из (74)
вытекает, что для любой предельной точки λ = (λ1 , λ2 ) (ограниченной)
последовательности {λk } имеет место равенство
f (x) + (F1 (x))∗ λ1 +
(λ2 )i (F2 )i (x) = 0.
i∈I(x)
4.4. Штрафы и методы множителей
215
Кроме того, в очередной раз вспоминая, что для любого достаточно
большого k справедливо (λk2 )i = 0 для всех i ∈ {1, ... , l2 } \ I(x),
а (λk2 )I(x) 0, получаем в пределе (λ2 )i = 0 для всех
i ∈ {1, ... , l2 } \ I(x), (λ2 )I(x) 0, а значит, λ ∈ Λ(x).
Следующее наблюдение также может быть полезным. Прямыми
вычислениями из (63) и (64) выводится равенство
Δk =
λk+1 − λk 2
.
ck
Из этого представления Δk очевидно, что предельное соотношение (68)
имеет место в каждом из следующих случаев:
1) если последовательность {λk } ограничена, а ck → +∞ (k → ∞);
2) если последовательность {λk } сходится, а последовательность
{ck } отделена от нуля.
Подчеркнем, что никакие требования на {xk } при этом не нужны.
Однако предположения теоремы 4 отличны от указанных, и поэтому
предельное соотношение (68) в условиях этой теоремы приходится
доказывать другими средствами.
Рассмотрим подробнее случай 1). При этом способ вычисления
последовательности {λk } уже не играет роли в предлагаемом здесь анализе. В частности, λk = λ ∈ Y1 × Y2 может вообще быть фиксировано,
а сам этот случай относится скорее к рассмотренным в п. 4.4.1 методам
степенного (квадратичного) штрафа, нежели к методам множителей.
Формально метод квадратичного штрафа отвечает выбору λk = 0 ∀ k
(ср. следующую теорему с теоремой 2).
Т е о р е м а 5. Пусть выполнены предположения теоремы 4.
Тогда, если последовательность {λk } ⊂ Y1 × Y2 ограничена, числовая последовательность {ck } бесконечно возрастает (т. е. ck → +
+∞ (k → ∞)), для каждого k точка xk является решением задачи
(59) при λ = λk и c = ck , а число Δk определяется согласно (64),
причем последовательность {xk } сходится к x, то справедливы
утверждения б) и в) теоремы 4, а также следующее утверждение:
а) если выполнено (22), то имеют место оценки (67) и
1/2
f (xk ) f (x) + O(Δk ).
(75)
Кроме того, если выполнено (75) (и, в частности, если выполнено
(22)), то
1
Δk = O
.
(76)
2/3
ck
Если же выполнено (66) (и, в частности, если выполнено (30)), то
1
.
(77)
Δk = O
ck
216
Гл. 4. Специальные случаи и приложения
Д о к а з а т е л ь с т в о. В сделанных предположениях при k → ∞
имеет место (λk2 )i /ck → 0. Кроме того, поскольку {F2 (xk )} → F2 (x) 0,
то max{−λk2 /ck , F2 (xk )} → 0 (k → ∞). Принимая также во внимание
предельное соотношение {F1 (xk )} → 0 (k → ∞), из (64) выводим (68).
По аналогии с доказательством теоремы 4 выводится цепочка соотношений (72). Кроме того, для любого достаточно большого k справедливо следующее:
Lck (x, λk ) = f (x) +
l2
1 (max{0, ck (F2 )i (x) + (λk2 )i })2 − (λk2 )2i =
2ck
i=1
= f (x) −
l2
1 (λk2 )2i f (x), (78)
2ck i=1
i∈I(x)
где второе равенство следует из того, что для любого достаточно
большого k
ck (F2 )i (x) + (λk2 )i < 0 ∀ i ∈ {1, ... , l2 } \ I(x)
(79)
(напомним, что последовательность {λk2 } ограничена, в то время как
ck → +∞ (k → ∞)). Из (64), (72) и (78) следует (73) (здесь вновь
принята во внимание ограниченность последовательности {λk }).
Из (68) и (73) так же, как при доказательстве теоремы 4, выводятся
утверждения а)–в).
Пусть теперь выполнено (75). Тогда из промежуточных соотношений в (72) и (78) имеем
1/2
f (x) + O(Δk
f (x) −
= f (xk ) l2
1 ck
(λk2 )2i − λk1 , F1 (xk ) − F1 (xk )22 −
2ck i=1
2
i∈I(x)
l2
ck −
(max{−(λk2 )i /ck , (F2 )i (xk )})2 −
2
i=1
l2
−
(λk2 )i max{−(λk2 )i /ck , (F2 )i (xk )} =
i=1
= f (x) −
l2
1 ck
(λk2 )2i − F1 (xk )22 −
2ck i=1
2
i∈I(x)
−
ck
2
l2
i=1
(max{−(λk2 )i /ck , (F2 )i (xk )})2 + O(Δk ),
(80)
217
4.4. Штрафы и методы множителей
где в очередной раз принята во внимание ограниченность последовательности {λk }. Поэтому
l2
l2
1 ck
ck (λk2 )2i + F1 (xk )22 +
(max{−(λk2 )i /ck , (F2 )i (xk )})2 =
2ck i=1
2
2
i=1
i∈I(x)
1/2
= O(Δk ). (81)
Согласно (79)
max{−(λk2 )i /ck , (F2 )i (xk )} = −(λk2 )i /ck
∀ i ∈ {1, ... , l2 } \ I(x)
для любого достаточно большого k. Поэтому
l2
l2
1 ck k 2
(λ2 )i =
(max{−(λk2 )i /ck , (F2 )i (xk )})2 ,
2ck i=1
2 i=1
i∈I(x)
i∈I(x)
откуда и из (64) и (81) следует, что
1/2
ck Δ2k = O(Δk ).
(82)
Это и дает (76).
Оценка (77) при выполнении (66) доказывается аналогично. В ле1/2
вой части (80) нужно заменить f (x) + O(Δk ) на f (x) + O(Δk ), в
результате чего вместо (82) приходим к оценке
ck Δ2k = O(Δk ),
дающей (77).
Заметим, что предложение 2 при доказательстве теорем 4 и 5 на
самом деле не использовалось, как не использовалось предложение 1
в контексте методов степенного штрафа. Точнее, не использовалась
оптимальность точки xk в задаче (60), (61) при λ = λk и c = ck , а лишь
допустимость xk в этой задаче. Это снова связано с тем, что величину
f (xk ) удается непосредственно оценить сверху «оптимальным образом».
Далее, в теореме 5, как и в теореме 4, нигде не предполагается, что
Λ(x) = ∅. Однако при выполнении (66) (а значит, и при выполнении
(30)) и здесь существование множителя Лагранжа, отвечающего x, является автоматическим. Действительно, рассмотрим вспомогательную
k } ⊂ Y1 × Y2 , где λ
k = (λ
k , λ
k ),
последовательность {λ
1
1
k = λk + ck F1 (xk ),
λ
1
2
k = max{0, λk + ck F2 (xk )}.
λ
2
2
(83)
218
Гл. 4. Специальные случаи и приложения
Прямыми вычислениями получаем
Δk =
k − λk 2
λ
ck
(84)
(ср. с (63)). Согласно последнему утверждению теоремы 5 последовательность {ck Δk } ограничена. Поэтому из (84) и ограниченности
последовательности {λk } следует ограниченность последовательности
k }. Любая предельная точка последней последовательности лежит
{λ
в Λ(x); это доказывается так же, как и соответствующий факт для
метода множителей Лагранжа выше.
В связи со сказанным полезно отметить следующее. Предположим,
что в условиях теоремы 5 Λ(x) состоит из единственной точки λ. Тогда
k } сходится к этой точке, какой бы ни была последовательность
{λ
{λk }. Более того, если предположить, что сама последовательность
{λk } сходится к λ, то оценку (77) можно уточнить. А именно, из (84)
следует оценка
1
Δk = o
.
(85)
ck
Неулучшаемость оценок, полученных в теореме 5, демонстрируется
примерами 1–5. Приведем еще два примера, демонстрирующих неулучшаемость оценок, полученных в утверждениях б) и в) теорем 4 и 5.
В первом примере речь идет о случае выполнения (26), а во втором —
(30). Оба примера представляют собой задачи с чистыми ограничениями-равенствами, причем во втором примере условие регулярности
ограничений не выполнено, а множество множителей Лагранжа неограничено.
П р и м е р 7. Пусть n = l1 = 1, l2 = 0, f (x) = x + x2 /2, F1 (x) = x.
Единственной допустимой точкой (а значит, единственным решением) задачи (1), (2) является x = 0. Более того, Λ(x) = {−1},
C(x) = ker F1 (x) = {0}, т. е. выполнено (26).
Легко проверить, что для любых λ = λ1 ∈ R и c > 0 единственным
решением задачи (59) является
xλ, c = −(λ + 1)/(c + 1).
(86)
Сначала предположим, что последовательность {λk } ⊂ R генерируется согласно первому равенству в (63), а c > 0 фиксировано. Для
каждого k положим xk = xλk , c . Тогда
λk+1 + 1 = λk + cxk + 1 = λk − c
λk + 1
λk + 1
+1=
c+1
c+1
и, поскольку c > 0, теперь очевидно, что {λk } → λ = −1 (k → ∞), где,
напомним, λ = −1 — единственный множитель Лагранжа, отвечающий
4.4. Штрафы и методы множителей
219
x. Поэтому, с учетом (86), {xk } → x, Δk = |xk | → 0 (k → ∞), f (xk ) =
= xk + o(|xk |), причем оценки (65) и (66) являются точными (заметим,
что для каждого k имеет место xk = Δk при λ0 < −1 и xk = −Δk при
λ0 > −1).
Рассмотрим случай, когда λ ∈ R фиксировано, а ck → +∞ (k → ∞).
Для каждого k положим xk = xλ, ck . Выводы, сделанные для предыдущего случая, остаются верны и здесь (заметим, что для каждого k
имеет место xk = Δk при λ < −1 и xk = −Δk при λ > −1). Более того,
для каждого k имеет место равенство
k = λ + 1 ,
λ
ck + 1
k определяется согласно первому равенству в (83). Ясно, что
где λ
k } → λ (k → ∞). Оценка (77) выполняется и, в общем случае, точна
{λ
(она может быть улучшена, если устремить λ к λ; в этом случае
справедливо (85)).
П р и м е р 8. Пусть n = l1 = 2, l2 = 0, f (x) = x1 + x21 /2 + x42 /2,
F1 (x) = (x1 , x22 ). Единственной допустимой точкой (а значит, единственным решением) задачи (1), (2) является x = 0. Более того,
Λ(x) = {−1} × R и нетрудно убедиться, что здесь имеет место (30).
Легко видеть, что для любых λ = λ1 ∈ R2 и c > 0 единственным
решением задачи (59) является
⎧
(λ1 )1 + 1
⎪
⎪
−
,
0
, если (λ1 )2 0,
⎪
⎨
c+1
1/2 xλ, c =
(87)
−(λ
(λ
)
+
1
)
⎪
1
1
1
2
⎪ −
⎪
,±
, если (λ1 )2 < 0.
⎩
c+1
c+1
Предположим, что последовательность {λk } ⊂ R2 генерируется согласно первому равенству в (63), а c > 0 фиксировано. Для каждого
k положим xk = xλk , c . Положим λ = (−1, 0); заметим, что λ ∈ Λ(x).
Тогда, предполагая, что (λk1 )2 < 0, получим
λk+1 − λ = ((λk1 )1 + cxk1 , (λk1 )2 + c(xk2 )2 ) − λ =
(λk )1 + 1
(λk )2
, (λk1 )2 − c 1
= (λk1 )1 − c 1
−λ=
c+1
c+1
k
λ1 + 1 (λk1 )2
λk − λ
=
,
.
=
c+1 c+1
c+1
В частности, если (λ01 )2 < 0, то (λk1 )2 остается отрицательным для всех
k, а поскольку c > 0, то {λk } → λ (k → ∞). Следовательно, согласно
(87), {xk } → x и
Δk =
((λk1 + 1)21 + (λk1 )22 )1/2
→ 0 (k → ∞).
c+1
220
Гл. 4. Специальные случаи и приложения
Зафиксируем произвольное число θ > 0 и положим λ0 = (−1±θ, −θ).
Тогда
±θ
θ
k
,−
,
λ b = −1 +
(c + 1)k
(c + 1)k
1/2 ∓θ
θ
k
,
,
x =
(c + 1)k+1
(c + 1)k+1
1
∓θ
k
f (x ) =
+o
,
(c + 1)k+1
(c + 1)k+1
√
2θ
,
Δk =
(c + 1)k+1
и оценки (66), (67) являются точными.
Теперь рассмотрим случай, когда λ ∈ R2 фиксировано, а ck → +∞
при k → ∞. Зафиксируем произвольное число θ > 0 и положим λ =
= (−1 ± θ, −θ). Для каждого k положим xk = xλ, ck . Выводы, сделанные для предыдущего случая, остаются верны и здесь. Более того, для
любого k
±θ
θ
k
λ = −1 +
,−
,
ck + 1
ck + 1
k определяется согласно первому равенству в (83). Ясно, что
где λ
k
{λ } → λ (k → ∞). Оценка (77) выполняется и, в общем случае, точна
(она может быть улучшена, если устремить λ к λ, т. е. устремить θ к 0;
в этом случае справедливо (85)).
Наконец, рассмотрим случай, когда λ = (−1, −1). Для каждого k
положим xk = xλ, ck , и заметим, что xk1 = 0, в то время как xk2 = 0.
В точке (xk , λ) невязка системы Лагранжа рассматриваемой задачи
(т. е. правая часть (40)) имеет порядок (xk2 )2 . Поэтому оценка (40)
не выполняется вдоль последовательности {(xk , λ)}. В то же время,
Δk = (xk2 )2 , и оценка (67) выполняется и точна. Аналогичный вывод справедлив не только в случае фиксированного λ = (−1, −1), но
и в случае сходимости последовательности {λk } к этому λ.
Обратимся теперь к двойственным методам (см., например, [15,
гл. 6], [47, гл. 7, 10]), реализующим весьма эффективный подход
к численному решению самых разных классов задач оптимизации
(о многочисленных приложениях этого подхода см. [88]). Идея состоит
в замене прямой задачи (3) двойственной задачей
ϕ(λ) → max,
где
λ ∈ D,
(88)
D = {λ = (λ1 , λ2 ) ∈ Y1 × Y2 | λ2 0},
(89)
ϕ : Y1 × Y2 → R,
(90)
ϕ(λ) = inf L(x, λ).
x∈B
4.4. Штрафы и методы множителей
221
Как нетрудно видеть из (2),
sup L(x, λ) =
λ∈D
f (x), если x ∈ D,
+∞, если x ∈ B \ D,
поэтому прямую задачу (3) можно записать в виде
sup L(x, λ) → min,
x ∈ D,
(91)
λ∈D
причем
D=
x ∈ B sup L(x, λ) < +∞ .
λ∈D
Двойственная задача (88), (89) получается из прямой, по сути дела,
изменением порядка максимизации и минимизации в (91).
Переход от задачи (3) к задаче (88), (89) называют иногда двойственной релаксацией, поскольку двойственная задача часто оказывается проще прямой. Действительно, задача (88), (89) является задачей
максимизации вогнутой функции на выпуклом множестве, задаваемом
очень простыми ограничениями. Вместе с тем, целевая функций этой
задачи, вообще говоря, не является гладкой. О связи между оптимальными значениями и решениями прямой и двойственной задач см.,
например, [29, гл. 4, § 3], [15, п. 6.1.2], [47, гл. 7]. Здесь же речь
пойдет о методах решения двойственной задачи (88), (89).
Для решения задачи (88), (89) может применяться весьма богатый арсенал численных методов негладкой выпуклой оптимизации,
включающий в себя, в числе прочих, субградиентные методы, методы
кусочно линейной аппроксимации 1), а также многошаговые методы
с квадратичными подзадачами 2) [15, гл. 6], [47, гл. 8, 9]. Методы
последнего класса признаются в настоящее время наиболее надежными
и эффективными, но и (в некотором смысле примитивные) субградиентные методы иногда бывают полезны, главным образом, в силу чрезвычайной простоты их реализации. Именно субградиентные методы
рассматриваются ниже, поскольку обсуждение многошаговых методов
с квадратичными подзадачами потребовало бы изложения весьма обширного дополнительного материала, не имеющего прямого отношения
к тематике данной книги. Тем не менее, нет сомнений, что предлагаемый ниже анализ может быть распространен и на другие двойственные
методы.
Пусть для каждого λ = (λ1 , λ2 ) ∈ D точка xλ ∈ X является решением задачи
L(x, λ) → min, x ∈ B.
(92)
1)
2)
Cutting plane methods.
Bundle methods.
222
Гл. 4. Специальные случаи и приложения
Введем в рассмотрение вспомогательную задачу
f (x) → min,
x ∈ D(xλ ) ∩ B,
(93)
D(xλ ) = {x ∈ X | F1 (x) = F1 (xλ ),
(F2 )i (xλ ),
если (λ2 )i > 0,
(F2 )i (x) i = 1, ... , l2 .
max{0, (F2 )i (xλ )}, если (λ2 )i = 0,
(94)
Заметим, что и здесь, если заменить xλ на x, задача (93), (94),
вообще говоря, не превращается в невозмущенную задачу (3), поэтому
и здесь необходим конкретный алгоритмический контекст (конкретная
динамика переменной λ). Тем не менее, имеет место
П р е д л о ж е н и е 3. Пусть f : X → R — произвольная функция,
F1 : X → Y1 и F2 : X → Y2 — произвольные отображения. Пусть
множество D введено согласно (89).
Тогда для всякого λ = (λ1 , λ2 ) ∈ D любое (глобальное) решение
xλ задачи (92) является решением задачи (93), (94).
З а д а ч а 3. Доказать предложение 3.
Как хорошо известно (см., например, [15, теор. 6.1.6]), решение
задачи (92) позволяет не только вычислить значение вводимой согласно
(90) функции ϕ в точке λ ∈ D, но и (без дополнительных затрат) один
суперградиент ϕ в этой точке. А именно,
(F1 (xλ ), F2 (xλ )) ∈ ∂ϕ(λ)
∀ λ ∈ D.
(95)
Субградиентный (правильнее было бы сказать «суперградиентный») метод решения двойственной задачи (88), (89) — это следующая вычислительная процедура. Для имеющегося λk ∈ D сначала
ищется точка xk , являющаяся решением задачи (92) при λ = λk . Затем полагается g k = (F1 (xk ), F2 (xk )) ∈ ∂ϕ(λk ) (см. (95)) и выбирается
параметр длины шага αk > 0. По формуле
λk+1 = πD (λk + αk g k )
(96)
вычисляется следующее приближение λk+1 , номер шага k увеличивается на 1 и процедура повторяется.
Заметим, что формула (96) для вычисления λk+1 = (λ1k+1 , λ2k+1 )
может быть записана в виде
λ1k+1 = λk1 + αk F1 (xk ),
λ2k+1 = max{0, λk2 + αk F2 (xk )}.
(97)
Теоретически, чтобы гарантировать сходимость субградиентного
метода, нужно предполагать, что значения параметров длины шага
удовлетворяют условию
∞
k=0
αk g k = +∞,
(98)
223
4.4. Штрафы и методы множителей
а также одному из условий
∞
α2k g k 2 < +∞
(99)
k=0
либо
lim αk g k = 0.
(100)
k→∞
Точнее, если двойственная задача (88), (89) имеет решение и выполнены условия (98), (99), то описанный субградиентный метод генерирует
траекторию, сходящуюся к решению задачи (88), (89) [15, теор. 6.2.2].
Если же предполагать ограниченность множества решений задачи (88),
(89), то можно утверждать сходимость траектории субградиентного
метода к этому множеству, даже если заменить (99) более слабым
условием (100) [29, гл. 5, § 1, п. 5].
Однако в приводимом ниже анализе потребуется лишь условие (98),
а также ограниченность последовательности {λk }. Кроме того, будем
предполагать, что последовательность {xk }, которую рассматриваемый
процесс генерирует как побочный продукт, сходится к x. (Разумеется,
это свойство не является автоматическим, но может быть гарантировано, например, в соответствующих требованиях выпуклости задачи (1),
(2) и регулярности ее ограничений). При этом последовательность {g k }
автоматически ограничена, а из условия (98) вытекает равенство
∞
(101)
αk = +∞;
k=0
именно оно и будет использоваться ниже.
Вновь обратимся к вычислимой оценке расстояния от xk до x вида
(37). Для каждого k определим число Δk как норму правой части
функциональных ограничений в (94):
Δk =
F (x
k
)22
+
l2
i=1
(λk )i >0
2
k
2
((F2 )i (x )) +
l2
i=1
(λk )i =0
2
1/2
(max{0, (F2 )i (x )})
.
k
2
(102)
Т е о р е м а 6. Пусть функция f : X → R и отображения F1 : X →
→ Y1 и F2 : X → Y2 дважды дифференцируемы в точке x ∈ X. Пусть
точка x является строгим локальным решением задачи (1), (2).
Тогда, если траектории {xk } ⊂ X и {λk } ⊂ Y1 × Y2 сгенерированы
описанным выше субградиентным методом, причем последовательность {λk } ограничена, последовательность {αk } удовлетворяет
(101), а последовательность {xk } сходится к x, и для каждого k
число Δk определяется согласно (102), то справедливы утверждения б) и в) теоремы 4.
224
Гл. 4. Специальные случаи и приложения
Д о к а з а т е л ь с т в о. Пусть i ∈ {1, ... , l2 } \ I(x). Тогда существуют
номер k и число ε > 0 такие, что (F2 )i (xk ) −ε ∀ k k. Предположим,
что для бесконечной подпоследовательности номеров {kj } имеет место
k
(λ2 j )i > 0 ∀ j. Тогда для kj > k из второго равенства в (97) и из (101)
имеем
k
k −1
0 < (λ2 j )i = (λ2 j
)i + αkj −1 (F2 )i (xkj −1 ) =
kj −1
kj −1
αk (F2 )i (xk ) (λk2 )i − ε
αk < 0
= (λk2 )i +
k=k
k=k
при достаточно больших j (которым отвечают достаточно большие kj ),
что невозможно. Таким образом, для любого достаточно большого k
справедливо (λk2 )i = 0.
Из доказанного следует, что если (λk2 )i > 0 для достаточно большого k, то i ∈ I(x), а значит, (F2 )i (xk ) → 0 (k → ∞). Отсюда легко
выводится (68).
Далее,
f (xk ) + λk1 , F1 (xk ) + λk2 , F2 (xk ) = L(xk , λk ) L(x, λk ) f (x).
Таким образом,
f (xk ) f (x) − λk1 , F1 (xk ) − λk2 , F2 (xk ),
откуда и из (102) следует (73) (здесь принята во внимание ограниченность последовательности {λk }).
Из (68) и (73) так же, как при доказательстве теоремы 4, выводятся
требуемые утверждения.
Предложение 3 при доказательстве теоремы 6 не использовалось,
как не использовалось предложение 1 в контексте методов степенного
штрафа, а также предложение 2 в контексте метода модифицированных
функций Лагранжа. Точнее, не использовалась оптимальность точки
xk в задаче (93), (94) при λ = λk , а лишь допустимость xk в этой
задаче. Это опять же связано с тем, что величину f (xk ) удается
непосредственно оценить сверху «оптимальным образом».
Как несложно проверить, неулучшаемость оценок, полученных
в теореме 6, демонстрируется приведенными выше примерами 7 и 8.
Разнообразные сведения об оценках расстояния до решения (или
множества решений) и их использовании в современной оптимизации
можно найти, например, в обзоре [101], а также в [15].
4.5. Ньютоновские методы условной оптимизации
Значение фундаментальной идеи методов ньютоновского типа в численном нелинейном анализе и оптимизации трудно переоценить. Согласно теореме Денниса–Морэ (см., например, [15, теор. 3.2.2]), в со-
4.5. Ньютоновские методы условной оптимизации
225
ответствующих предположениях ньютоновский характер итеративного
процесса является не только достаточным условием высокой скорости
сходимости, но и необходимым. Именно поэтому наиболее эффективные и практически востребованные алгоритмы для различных классов
нелинейных задач имеют в своей основе соответствующим образом
понимаемую и адаптированную ньютоновскую итерацию.
Методы ньютоновского типа для обобщенных уравнений были впервые рассмотрены, по-видимому, в [74, 75], где эти методы изучались
в предположении о сильной регулярности искомого решения. Изложение в этом параграфе основывается на работе [42], поскольку именно
в этой работе были предложены слабейшие известные на сегодняшний
день условия локальной сверхлинейной сходимости метода Ньютона
для обобщенных уравнений, а также расшифровка этих условия для
систем условий оптимальности. Заметим, что в случае задачи математического программирования так понимаемый метод Ньютона есть
ни что иное, как метод последовательного квадратичного программирования 1), практические реализации которого в настоящее время
признаются одними из наиболее эффективных численных методов оптимизации общего назначения [8, 15, 40, 58].
4.5.1. Метод Ньютона для обобщенных уравнений. Пусть Z =
= Rm , Φ : Z → Z — заданное гладкое отображение. В этом пункте
будем рассматривать (абстрактное) обобщенное уравнение
Φ(z) + N (z) 0,
(1)
где для каждого z ∈ Z множество N (z) ⊂ Z также считается заданным.
Пусть z ∈ Z является решением (1).
Метод Ньютона для обобщенного уравнения (1) естественным
образом обобщает классическую схему метода Ньютона для обычных
уравнений. А именно, для имеющегося z k ∈ Z очередное приближение
z k+1 к z вычисляется как решение (частично) линеаризованного в точке z k обобщенного уравнения
Φ(z k ) + Φ (z k )(z − z k ) + N (z) 0,
(2)
номер шага k увеличивается на 1, и процедура повторяется.
Оценки скорости сходимости описанного итеративного процесса
основываются на следующем понятии.
О п р е д е л е н и е 1. Говорят, что решение z обобщенного уравнения (1) является полуустойчивым 2), если для r ∈ Z любое достаточно
близкое к z решение z(r) обобщенного уравнения
Φ(z) + N (z) r
1)
2)
Sequential quadratic programming, SQP.
Semistable.
8 А. Ф. Измаилов
(3)
226
Гл. 4. Специальные случаи и приложения
удовлетворяет оценке
z(r) − z = O(r).
З а д а ч а 1. Показать, что в случае обычного уравнения, т. е. при
N (·) ≡ {0}, полуустойчивость решения z равносильна условию обратимости оператора Φ (z).
В общем случае имеет место следующее необходимое условие полуустойчивости, которое понадобится в дальнейшем.
Л е м м а 1. Пусть отображение Φ : Z → Z дифференцируемо
в точке z ∈ Z. Пусть z является полуустойчивым решением обобщенного уравнения (1).
Тогда ζ = 0 является изолированным решением (частично) линеаризованного обобщенного уравнения
Φ(z) + Φ (z)ζ + N (z + ζ) 0.
(4)
Д о к а з а т е л ь с т в о. От противного: предположим, что найдется
сходящаяся к 0 последовательность {ζ k } ⊂ Z \ {0} такая, что для
каждого k точка ζ k является решением (4). Тогда
Φ(z + ζ k ) + N (z + ζ k ) = Φ(z) + Φ (z)ζ k + N (z + ζ k ) + rk rk ,
где rk ∈ Z, rk = o(ζ k ), т. е. точка z k = z + ζ k является решением
(3) при r = rk . Поэтому согласно условию полуустойчивости имеем
ζ k = z k − z = O(rk ) = o(ζ k ),
что возможно лишь при ζ k = 0 для любого достаточно большого k,
а это противоречит сделанному предположению.
П р е д л о ж е н и е 1. Пусть отображение Φ : Z → Z дифференцируемо в некоторой окрестности точки z ∈ Z, причем его производная непрерывна в этой точке. Пусть z является полуустойчивым
решением обобщенного уравнения (1).
Тогда, если траектория {z k } ⊂ Z корректно определяется методом Ньютона с итерационными обобщенными уравнениями вида (2)
и сходится к z, то скорость сходимости является сверхлинейной,
т. е. имеет место оценка
z k+1 − z = o(z k − z).
(5)
Если же производная отображения Φ непрерывна по Липшицу вблизи точки z, то скорость сходимости является квадратичной, т. е.
имеет место оценка
z k+1 − z = O(z k − z2 ).
(6)
4.5. Ньютоновские методы условной оптимизации
227
Д о к а з а т е л ь с т в о. Если для некоторого k точка z k совпадает с z,
то из полуустойчивости решения z следует, что z k+1 = z k+2 = ... = z,
и утверждение теоремы выполняется тривиальным образом. Поэтому
считаем, что z k = z ∀ k.
Для каждого k точка z k+1 является решением уравнения (2), значит, и уравнения (3) при
r = rk = Φ(z k+1 ) − Φ(z k ) − Φ (z k )(z k+1 − z k ),
(7)
причем, согласно теореме о среднем,
rk sup Φ (θz k+1 + (1 − θ)z k ) − Φ (z k )z k+1 − z k =
θ∈[0, 1]
= o(z k+1 − z k ). (8)
Но тогда из условия полуустойчивости решения z имеем
z k+1 − z = O(rk ) = o(z k+1 − z k ) = o(z k+1 − z + z k − z),
т. е.
0 = lim
k→∞ z k+1
z k+1 − z
1
= lim
,
− z + z k − z k→∞ 1 + z k − z/z k+1 − z
что возможно лишь при
z k − z
→ ∞ (k → ∞),
z k+1 − z
т. е.
z k+1 − z
→ 0 (k → ∞),
z k − z
а это и есть (5).
Кроме того, если производная Φ непрерывна по Липшицу вблизи z,
то из неравенства в (8) вытекает оценка
rk = O(z k+1 − z k 2 ).
Тогда из условия полуустойчивости решения z имеем
z k+1 − z = O(rk ) = O(z k+1 − z k 2 ) =
= O(z k+1 − z2 + z k+1 − zz k − z + z k − z2 ),
т. е. числа
z k+1
8*
−
z2
+
z k+1 − z
=
− zz k − z + z k − z2
1
= k+1
k
z
− z + z − z + z k − z2 /z k+1 − z
z k+1
228
Гл. 4. Специальные случаи и приложения
образуют ограниченную последовательность, что возможно лишь при
существовании числа γ > 0 такого, что
z k − z2
γ
z k+1 − z
т. е.
z k+1 − z ∀ k,
1 k
z − z2
γ
∀ k,
а это и есть (6).
Вопрос о корректной определенности траектории метода Ньютона,
отвечающей достаточно близкому к z начальному приближению z 0 ∈ Z,
решается с помощью следующего понятия.
О п р е д е л е н и е 2. Говорят, что решение z обобщенного уравнения (1) является хемиустойчивым 1), если для любой точки z ∈ Z,
достаточно близкой к z, обобщенное уравнение
Φ(
z ) + Φ (
z )(z − z) + N (z) 0
(9)
имеет такое решение z(
z), что z(
z ) → z (
z → z).
Т е о р е м а 1. Пусть отображение Φ : Z → Z дифференцируемо
в некоторой окрестности точки z ∈ Z, причем его производная
непрерывна в этой точке. Пусть z является полуустойчивым и
хемиустойчивым решением обобщенного уравнения (1).
Тогда найдется число ε > 0 такое, что если начальное приближение z 0 ∈ Z удовлетворяет неравенству z 0 − z ε и на каждом
шаге метода Ньютона в качестве z k+1 берется решение обобщенного уравнения (2), удовлетворяющее неравенству
z k+1 − z k 2ε,
(10)
то таким образом организованный итеративный процесс корректно определяет траекторию {z k } ⊂ Z, которая сходится к z со
сверхлинейной скоростью (т. е. имеет место оценка (5)). Если же
производная отображения Φ непрерывна по Липшицу вблизи точки
z, то скорость сходимости является квадратичной (т. е. имеет
место оценка (6)).
Д о к а з а т е л ь с т в о. В силу полуустойчивости решения z найдутся
числа ε1 > 0 и c > 0 такие, что для r ∈ Z и любого решения z(r) обобщенного уравнения (3), удовлетворяющего неравенству z(r) − z ε1 ,
имеет место оценка
z(r) − z cr.
(11)
1)
Hemistable.
4.5. Ньютоновские методы условной оптимизации
229
Выберем число ε2 ∈ (0, min{ε1 , 1/(3c)}]. В силу хемиустойчивости
решения z найдется число ε ∈ (0, ε2 /3] такое, что если z k − z ε,
то существует такое решение z k+1 обобщенного уравнения (2), что
z k+1 − z ε2 . При этом z k+1 является решением уравнения (3) при
r = rk , определяемом согласно (7), и из неравенства в (8) вытекает,
что, при необходимости уменьшая ε2 (а значит, и ε), можно добиться
выполнения неравенства
rk 1 k+1
z
− z k .
3c
(12)
Поскольку ε2 ε1 , для z k+1 = z(rk ) имеет место (11) при r = rk ,
значит, с учетом (12),
z k+1 − z 1 k+1
1
1
z
− z k z k+1 − z + z k − z.
3
3
3
Отсюда вытекает неравенство
1 k
z − z,
2
из которого, в частности, следует, что
z k+1 − z z k+1 − z ε,
значит,
(13)
(14)
z k+1 − z k z k+1 − z + z k − z 2ε.
Тем самым доказано, что если z k − z ε, то обобщенное уравнение
(2) имеет решение z k+1 , удовлетворяющее (10).
Пусть теперь z k − z ε и решение z k+1 обобщенного уравнения
(2) удовлетворяет (10). Тогда
z k+1 − z z k+1 − z k + z k − z 3ε ε2 ε1 .
Поэтому для z k+1 = z(rk ) имеет место (11) при r = rk , откуда так же,
как и выше, выводятся неравенства (13) и (14).
Таким образом, если z 0 − z ε, то очередное ньютоновское приближение z 1 можно выбирать так, чтобы выполнялось (10), и в этом
случае при k = 1 будет иметь место неравенство (13), а также неравенство (14), т. е. z 1 − z ε. Но из последнего следует, что очередное
ньютоновское приближение z 2 можно выбирать так, чтобы выполнялось (10), и в этом случае при k = 2 будут иметь место неравенства
(13) и (14). Продолжая это рассуждение получаем, что вариант метода
Ньютона, рассматриваемый в данной теореме, корректно определяет
траекторию {z k }, причем такую, что для каждого k имеет место (13),
откуда следует сходимость {z k } к z. Для завершения доказательства
остается воспользоваться предложением 1.
230
Гл. 4. Специальные случаи и приложения
Условие (10) в теореме 1, конечно же, нельзя назвать конструктивным. Иногда это условие заменяют следующим: в качестве z k+1
берется решение обобщенного уравнения (2), ближайшее к z k (см.,
например, [15, теор. 4.4.1]). Однако и такое требование едва ли можно
назвать конструктивным. Вместе с тем, при локальном анализе методов ньютоновского типа в столь слабых предположениях (не гарантирующих единственности решения итерационной системы) избежать
требований такого рода не удается. При практической же реализации
методов эти требования обычно просто игнорируют.
Легко заметить, что в случае обычного уравнения, т. е. при
N (·) ≡ {0}, обратимость оператора Φ (z) является достаточным условием хемиустойчивости решения z (как и полуустойчивости; см. задачу 1). Этот факт распространяется и на общий случай, если заменить
условие обратимости оператора Φ (z) условием сильной регулярности
решения z (см. определение 1.2.1).
З а д а ч а 2. Показать, что из сильной регулярности решения z
обобщенного уравнения (1) следует как полуустойчивость, так и хемиустойчивость этого решения.
Полуустойчивость не является следствием хемиустойчивости даже
для обычных уравнений. Действительно, если N (·) ≡ {0} и, например,
F (·) ≡ 0, то решением (1) является любая точка z ∈ Z, причем любое
решение тривиальным образом хемиустойчиво, но, разумеется, не полуустойчиво. Следующий пример демонстрирует, что, в общем случае,
обратная импликация также не имеет места.
П р и м е р 1. Пусть m = 1, F (z) = z − z 2 /2,
⎧
⎨ ∅,
R+ ,
N (z) =
⎩
{0},
если z < 0,
если z = 0,
если z > 0.
При этом обобщенное уравнение (1) представляет собой вариационное
неравенство, дающее необходимое условие оптимальности в задаче
оптимизации
z2 z3
→ min, z ∈ R+ .
− +
2
6
Эта задача имеет единственное локальное решение z = 2 (которое
является и глобальным). Однако обобщенное уравнение (1), помимо
решения z = 2, имеет еще одно решение z = 0; его и будем рассматривать.
Обобщенное уравнение (3) имеет следующие решения, стремящие√
ся к z при r → 0: z 1 (r) = 0 при всех r 0, а также z 2 (r) = 1 − 1 − 2r
при r ∈ (0, 1/2). Отсюда легко следует полуустойчивость решения z.
4.5. Ньютоновские методы условной оптимизации
231
Элементарно проверяется, что обобщенное уравнение (9), которое
записывается в виде
(1 − z)z +
z2
+ N (z) 0,
2
не имеет решений ни при каком числе z = 0. Таким образом, хемиустойчивостью решение z не обладает.
Вместе с тем, как будет показано в п. 4.5.2, для обобщенных
уравнений, отвечающих системам Каруша–Куна–Таккера для задач
математического программирования, понятия полуустойчивости и хемиустойчивости решения эквивалентны, по крайней мере, если прямая
часть этого решения является локальным решением рассматриваемой
оптимизационной задачи.
4.5.2. Метод Ньютона для систем условий оптимальности. Последовательное квадратичное программирование. Теперь обратимся к задаче оптимизации
f (x) → min,
x ∈ D,
D = {x ∈ X | F (x) ∈ Q}
(15)
(16)
и прямодвойственной системе условий первого порядка оптимальности
∂L
(x, λ) = 0,
∂x
λ ∈ NQ (F (x)),
(17)
характеризующей стационарные точки задачи (15), (16) и отвечающие
им множители Лагранжа. Здесь, как обычно, используется функция
Лагранжа задачи (15), (16):
L(x, λ) = f (x) + λ, F (x),
где x ∈ X, λ ∈ Y .
Как указано в п. 3.1.1, система (17) принимает вид (1), где для
z = (x, λ) ∈ X × Y
∂L
Φ(z) =
(x, λ), −F (x) ,
(18)
∂x
−1
N (z) = N (λ) = {0} × NQ
(λ) = {0} × {y ∈ Y | λ ∈ NQ (y)}.
(19)
Пусть z = (x, λ) ∈ X × Y — решение системы (17).
О п р е д е л е н и е 3. Будем говорить, что решение (x, λ) системы
(17) является полуустойчивым (соответственно, хемиустойчивым),
если (x, λ) является полуустойчивым (хемиустойчивым) решением
обобщенного уравнения (1), в котором Φ(·) и N (·) введены согласно
(18) и (19) соответственно.
232
Гл. 4. Специальные случаи и приложения
Для данного приближения z k = (xk , λk ) ∈ X × Y итерационному
обобщенному уравнению (2) метода Ньютона отвечает система
∂L
∂2L k k
(x , λ )(x − xk ) + (F (xk ))∗ (λ − λk ) = − (xk , λk ),
2
∂x
∂x
λ ∈ NQ (F (xk ) + F (xk )(x − xk )).
(20)
(21)
Заметим, что (20), (21) есть прямодвойственная система условий первого порядка оптимальности для задачи оптимизации
f (xk ), x − xk +
1 ∂ 2L k k
(x , λ )[x − xk , x − xk ] → min,
2 ∂x2
x ∈ Dk , (22)
Dk = {x ∈ X | F (xk ) + F (xk )(x − xk ) ∈ Q}.
(23)
Предполагая, что множество Q конично в точке F (x), обратимся к
вопросу о достаточных условиях полуустойчивости решения z = (x, λ).
Из теоремы 3.2.2 и леммы 3.2.1 немедленно вытекает следующий
результат.
П р е д л о ж е н и е 2. Пусть функция f : X → R и отображение
F : X → Y дважды дифференцируемы в точке x ∈ X. Пусть x —
стационарная точка задачи (15), (16), а λ ∈ Y — отвечающий
x множитель Лагранжа. Пусть, наконец, множество Q конично
в точке F (x).
Тогда справедливы следующие утверждения:
а) если единственным решением системы
∂ 2L
(x, λ)ξ + (F (x))∗ η = 0,
∂x2
η ∈ NK(x, λ) (F (x)ξ),
(24)
где
K(x, λ) = {y ∈ RQ (F (x)) | λ, y = 0},
является пара (ξ, η) = (0, 0), то z = (x, λ) является полуустойчивым решением системы (17);
б) достаточным (а в случае локальной оптимальности x в задаче
(15), (16) и необходимым) для того, чтобы система (24) имела единственное решение (ξ, η) = (0, 0), является выполнение
в точке x для множителя Лагранжа λ строгого условие регулярности в совокупности с достаточным условием второго
порядка
∂2L
(x, λ)[ξ, ξ] > 0 ∀ ξ ∈ C(x) \ {0}.
(25)
∂x2
Здесь
C(x) = {ξ ∈ (F (x))−1 (TQ (F (x))) | f (x), ξ 0}
4.5. Ньютоновские методы условной оптимизации
233
— критический конус задачи (15), (16) в точке x, а условие строгой
регулярности введено в определении 1.3.3.
Из предложений 1 и 2 вытекает
П р е д л о ж е н и е 3. Пусть функция f : X → R и отображение
F : X → Y дважды дифференцируемы в некоторой окрестности
точки x ∈ X, причем их производные непрерывны в этой точке.
Пусть x — стационарная точка задачи (15), (16), а λ ∈ Y — отвечающий x множитель Лагранжа, причем в точке x для множителя
Лагранжа λ выполнено строгое условие регулярности, а также
достаточное условие второго порядка (25). Пусть, наконец, множество Q конично в точке F (x).
Тогда если траектория {(xk , λk )} ⊂ X × Y корректно определяется методом Ньютона с итерационными системами вида (20),
(21) и сходится к (x, λ), то скорость сходимости является сверхлинейной. Если же вторые производные функции f и отображения F
непрерывны по Липшицу вблизи точки x, то скорость сходимости
является квадратичной.
Обратимся теперь к задаче математического программирования:
пусть Y = Y1 × Y2 , Y1 = Rl1 , Y2 = Rl2 , l1 + l2 = l, F (x) = (F1 (x), F2 (x)),
F1 : X → Y1 и F2 : X → Y2 — гладкие отображения, Q = {0} × Rl−2 , 0 —
нулевой элемент в Y1 . Иными словами, пусть множество D имеет вид
D = {x ∈ X | F1 (x) = 0, F2 (x) 0}.
(26)
В этом случае система (17) становится системой Каруша–Куна–Таккера
∂L
(x, λ) = 0,
(27)
∂x
F1 (x) = 0, F2 (x) 0, λ2 0, λ2 , F2 (x) = 0.
(28)
Кроме того, для данного приближения z k = (xk , λk ) ∈ X × Y в итерационной системе (20), (21) метода Ньютона включение (21) можно
переписать в виде
F1 (xk ) + F1 (xk )(x − xk ) = 0,
F2 (xk ) + F2 (xk )(x − xk ) 0,
λ2 , F2 (x ) +
k
F2 (xk )(x
λ2 0,
− x ) = 0,
k
(29)
(30)
(31)
а множество Dk в (23) принимает вид
Dk = {x ∈ X | F1 (xk ) + F1 (xk )(x − xk ) = 0,
F2 (xk ) + F2 (xk )(x − xk ) 0}. (32)
Задача (22), (32) является задачей квадратичного программирования,
а рассматриваемый итеративный процесс с итерационными системами
234
Гл. 4. Специальные случаи и приложения
вида (21), (29)–(31) (являющимися системами Каруша–Куна–Таккера
для задач (22), (32)) — это метод SQP.
Напомним, что достаточное (оно же и необходимое в случае локальной оптимальности x в задаче (15), (16)) условие сильной регулярности
решения (x, λ) системы (27), (28) было приведено в предложении 3.1.2.
Здесь же займемся вопросом о более слабых условиях полуустойчивости и хемиустойчивости этого решения.
П р е д л о ж е н и е 4. Пусть Y1 = Rl1 , Y2 = Rl2 , функция f : X → R
и отображения F1 : X → Y1 и F2 : X → Y2 дважды дифференцируемы
в точке x ∈ X. Пусть x — стационарная точка задачи (15), (26),
λ = (λ1 , λ2 ) ∈ Y1 × Y2 — отвечающий x множитель Лагранжа.
Тогда справедливы следующие утверждения:
а) для полуустойчивости решения (x, λ) системы (27), (28)
необходимо и достаточно, чтобы единственным решением
системы
∂ 2L
(x, λ)ξ + (F (x))∗ η = 0,
(33)
∂x2
F1 (x)ξ = 0,
(η2 )I(x)\I+ (x, λ) 0,
(F2 )I+ (x, λ) (x)ξ = 0,
(F2 )I(x)\I
(η2 )i (F2 )i (x), ξ = 0,
+ (x, λ)
(x)ξ 0,
i ∈ I(x) \ I+ (x, λ),
(η2 ){1, ..., l2 }\I(x) = 0,
(34)
(35)
(36)
(37)
где
I+ (x, λ) = {i ∈ I(x) | (λ2 )i > 0},
являлась пара (ξ, η) = (0, 0);
б) достаточным (а в случае локальной оптимальности x в задаче (15), (26) и необходимым) для полуустойчивости решения
(x, λ) системы (27), (28) является выполнение в точке x для
множителя Лагранжа λ строгого условия Мангасариана–Фромовица в совокупности с достаточным условием второго порядка (25), где в данном случае
C(x) = {ξ ∈ X | F1 (x)ξ = 0, (F2 )I(x) (x)ξ 0, f (x), ξ 0};
(38)
в) в случае локальной оптимальности x в задаче (15), (26), из
полуустойчивости решения (x, λ) системы (27), (28) следует
хемиустойчивость этого решения.
Д о к а з а т е л ь с т в о. Прежде всего, как легко проверить, система
(33)–(37) есть ни что иное, как система (24) применительно к рассматриваемой здесь задаче. Таким образом, достаточность в утверждении
а) следует из утверждения а) предложения 2.
4.5. Ньютоновские методы условной оптимизации
235
Вместе с тем, как опять же легко проверить, для рассматриваемой здесь задачи и для Φ(·) и N (·), введенных согласно (18) и (19)
соответственно, в пересечении с некоторой окрестностью нуля, множество решений системы (33)–(37) совпадает с множеством решений
линеаризованного обобщенного уравнения (4) (отметим, что если (15),
(16) не является задачей математического программирования, то даже
при выполнении условия коничности множества Q в точке F (x), для
системы (24) такое совпадение ниоткуда не следует). Отсюда и из
леммы 1 вытекает необходимость в утверждении а).
Утверждение б) следует из доказанного утверждения а), утверждения б) предложения 2, а также из отмеченной выше эквивалентности
систем (33)–(37) и (24).
Докажем в). Рассмотрим задачу оптимизации
f (
x), x − x
+
1 ∂ 2L
−x
(
x, λ)[x
, x − x
] → min,
2 ∂x2
(39)
x ∈ D(
x, λ),
= {x ∈ X | F1 (
D(
x, λ)
x) + F1 (
x)(x − x
) = 0,
x) + F2 (
x)(x − x
) 0}, (40)
F2 (
∈ X × Y играет роль параметра, базовым значенив которой z = (
x, λ)
ем которого является z = (x, λ). Из доказанного утверждения б) и из
теоремы 3.2.3 следует, что для любого z, достаточно близкого к z, задача (39), (40) имеет такое локальное решение x(
z ), что x(
z ) − x → 0
(
z → z), причем в силу линейности ограничений задачи (39), (40) и
утверждения из задачи 1.3.4 такая точка x(
z ) является стационарной в
этой задаче с некоторым множителем Лагранжа λ(
z ) ∈ Y . Привлекая
доказанное утверждение а), теорему 3.2.2, а также эквивалентность
систем (33)–(37) и (24), получаем, что λ(
z ) − λ → 0 (
z → z). Остается заметить, что для рассматриваемой здесь задачи и для Φ(·) и N (·),
введенных согласно (18) и (19) соответственно, система (9) есть ни что
иное, как система Каруша–Куна–Таккера для задачи (39), (40), значит,
z(
z ) = (x(
z ), λ(
z )) является решением системы (9).
Из теоремы 1 и предложения 4 вытекает
Т е о р е м а 2. Пусть Y1 = Rl1 , Y2 = Rl2 , функция f : X → R и
отображения F1 : X → Y1 и F2 : X → Y2 дважды дифференцируемы
в некоторой окрестности точки x ∈ X, причем их производные
непрерывны в этой точке. Пусть x — стационарная точка задачи
(15), (26), а λ = (λ1 , λ2 ) ∈ Y1 × Y2 — отвечающий x множитель
Лагранжа, причем в точке x для множителя λ выполнено строгое
условие Мангасариана–Фромовица, а также достаточное условие
второго порядка (25), где критический конус C(x) определен в (38).
Тогда найдется число ε > 0 такое, что если начальное
приближение (x0 , λ0 ) ∈ X × Y
удовлетворяет неравенству
236
Гл. 4. Специальные случаи и приложения
x0 − x + λ0 − λ ε, и на каждом шаге метода Ньютона
в качестве (xk+1 , λk+1 ) берется решение системы (21), (29)–(31),
удовлетворяющее неравенству
xk+1 − x + λk+1 − λ 2ε,
то таким образом организованный итеративный процесс корректно определяет траекторию {(xk , λk )} ⊂ X × Y , которая сходится
к (x, λ) со сверхлинейной скоростью. Если же вторые производные
функции f и отображений F1 и F2 непрерывны по Липшицу вблизи
точки x, то скорость сходимости является квадратичной.
Список литературы
1. Аваков Е. Р., Арутюнов А. В., Измаилов А. Ф. Об оценках скорости
сходимости методов степенного штрафа // ЖВМиМФ. — 2004. — Т. 44,
№ 10. — С. 1770–1781.
2. Арутюнов А. В. Возмущения экстремальных задач с ограничениями и
необходимые условия оптимальности // Итоги науки и техники. Математический анализ. — 1989. — Т. 27. — С. 147–253.
3. Арутюнов А. В. Накрывание нелинейных отображений на конусе в
окрестности анормальной точки // Мат. заметки. — 2005. — Т. 77,
вып. 4. — С. 483–497.
4. Арутюнов А. В. Условия экстремума. Анормальные и вырожденные задачи. — М.: Факториал, 1997.
5. Арутюнов А. В., Винтер Р. Б. Метод конечномерной аппроксимации в
теории оптимального управления // Дифф. уравнения. — 2003. — Т. 39,
№ 11. — С. 1443–1451.
6. Арутюнов А. В., Измаилов А. Ф. Анализ чувствительности для анормальных задач оптимизации с конусным ограничением // ЖВМиМФ. —
2004. — Т. 44, № 4. — С. 586–608.
7. Арутюнов А. В., Измаилов А. Ф. Теория чувствительности для анормальных задач оптимизации с ограничениями типа равенств // ЖВМиМФ. —
2003. — Т. 43, № 2. — С. 186–202.
8. Бертсекас Д. Условная оптимизация и методы множителей Лагранжа. —
М.: Радио и связь, 1987.
9. Васильев Ф. П. Методы оптимизации. — М.: Факториал Пресс, 2002.
10. Гольштейн Е. Г., Третьяков Н. В. Модифицированные функции Лагранжа. Теория и методы оптимизации. — М.: Наука, 1989.
11. Данскин Дж. М. Теория максимина и ее приложения к задачам распределения вооружений. — М.: Советское радио, 1970.
12. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука,
1972.
13. Дмитрук А. В., Милютин А. А., Осмоловский Н. П. Теорема Люстерника
и теория экстремума // УМН. — 1980. — Т. 35, вып. 6. — С.11–46.
14. Измаилов А. Ф. Задачи оптимизации с комплементарными ограничениями: регулярность, условия оптимальности и чувствительность // ЖВМиМФ. — 2004. — Т. 44, № 7. — С. 1209–1228.
15. Измаилов А. Ф., Солодов М. В. Численные методы оптимизации. — М.:
Физматлит, 2003.
16. Измаилов А. Ф., Третьяков А. А. Факторанализ нелинейных отображений. — М.: Наука, 1994.
17. Измаилов А. Ф., Третьяков А. А. 2-регулярные решения нелинейных
задач. Теория и численные методы. — М.: Физматлит, 1999.
18. Ильин В. А., Садовничий В. А., Сендов Бл. Х. Математический анализ. —
М.: Наука, 1979.
19. Иоффе А. Д. Метрическая регулярность и субдифференциальное исчисление // УМН. — 2000. — Т. 55, вып. 3. — С. 103–162.
238
Список литературы
20. Иоффе А. Д., Тихомиров В. М. Теория экстремальных задач. — М.: Наука, 1974.
21. Левитин Е. С. Теория возмущений в математическом программировании
и ее приложения. — М.: Наука, 1992.
22. Левитин Е. С., Милютин А. А., Осмоловский Н. П. Условия высших
порядков локального минимума в задачах с ограничениями // УМН. —
1978. — Т. 33, вып. 6. — С.84–148.
23. Люстерник Л. А. Условные экстремумы функционалов // Мат. сб. —
1934. — Т. 31. — С. 390–401.
24. Люстерник Л. А., Соболев В. И. Краткий курс функционального анализа. — М.: Высш. школа, 1982.
25. Обен Ж.-П., Экланд И. Прикладной нелинейный анализ. — М.: Мир,
1988.
26. Поляк Б. Т. Введение в оптимизацию. — М.: Наука, 1983.
27. Поляк Б.Т̇. О скорости сходимости метода штрафных функций // Ж. вычисл. мат. матем. физ. — 1971. — Т. 11, № 1. — С. 3–11.
28. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973.
29. Сухарев А. Г., Тимохов А. В., Федоров В. В. Курс методов оптимизации. — М.: Наука, 1986.
30. Федоров В. В. Численные методы максимина. — М.: Наука, 1979.
31. Фиакко А., Мак-Кормик Г. Нелинейное программирование. Методы последовательной безусловной минимизации. — М.: Мир, 1972.
32. Arutyunov A. V., Izmailov A. F. Abnormal equality-constranted optimization
problems: sensitivity theory // Math. Program. — 2004. — V. 100, № 3. —
P. 485–515.
33. Arutyunov A. V., Izmailov A. F. Directional stability theorem and directional
metric regularity // Math. Oper. Res. (To appear.)
34. Arutyunov A. V., Izmailov A. F. Sensitivity analysis for cone-constrained
optimization problems under the relaxed constrained qualifications // Math.
Oper. Res. — 2005. — V. 30, № 2. — P. 333–353.
35. Auslender A., Cominetti R. First and second order sensitivity analysis of
nonlinear programs under directional constraint qualification conditions //
Optimization. — 1990. — V. 21. — P. 351–363.
36. Baccari A., Trad A. On the classical necessary second-order optimality
conditions in the presence of equality and inequality constraints // SIAM J.
Optim. — 2004. — V. 15, № 2. — P. 394–408.
37. Bank B., Guddat J., Klatte D., Kummer B., Tammer K. Nonlinear Parametric
Optimization. — Berlin: Academie Verlag, 1982.
38. Ben-Tal A. Second-order and related extremality conditions in nonlinear
programming // JOTA. — 1980. — V. 31. — P. 143–165.
39. Ben-Tal A., Zowe J. A unified theory of first and second order conditions for
extremum problems in topological vector spaces // Math. Program. Study. —
1982. — V. 19. — P. 39–76.
40. Bertsekas D. P. Nonlinear Programming. — Second Edition. — Belmont:
Athena, 1999.
41. Bonnans J. F. Directional derivatives of optimal solutions in smooth
nonlinear programming // JOTA. — 1992. — V. 73. — P. 27–45.
Список литературы
239
42. Bonnans J. F. Local analysis of Newton-type methods for variational
inequalities and nonlinear programming // Appl. Math. Optim. — 1994. —
V. 29. — P. 161–186.
43. Bonnans J. F., Cominetti R. Perturbed optimization in Banach spaces, Part I:
A general theory based on a weak directional constraint qualification //
SIAM J. Control Optim. — 1996. — V. 34. — P. 1151–1171.
44. Bonnans J. F., Cominetti R. Perturbed optimization in Banach spaces, Part II:
A theory based on a strong directional constraint qualification // SIAM J.
Control Optim. — 1996. — V. 34. — P. 1172–1189.
45. Bonnans J. F., Cominetti R., Shapiro A. Second order optimality conditions
based on parabolic second order tangent sets // SIAM J. Optim. — 1999. —
V. 9. — P. 466–492.
46. Bonnans J. F., Cominetti R., Shapiro A. Sensitivity analysis of optimization
problems under abstract constraints // Math. Oper. Res. — 1998. — V. 23. —
P. 806–831.
47. Bonnans J. F., Gilbert J. Ch., Lemaréchal C., Sagastizábal C. Numerical
Optimization. Theoretical and Practical Aspects. — Berlin: Springer-Verlag,
2003.
48. Bonnans J. F., Ioffe A. D., Shapiro A. Expansions of exact and approximate
solutions in nonlinear programming // Proc. of the French-German
Conference on Optimization. Lecture Notes in Economics and Mathematical
Systems. — Berlin: Springer-Verlag, 1992. — P. 103–117.
49. Bonnans J. F., Shapiro A. Optimization problems with perturbations:
a guided tour // SIAM Rev. — 1998. — V. 40, № 2. — P. 228–264.
50. Bonnans J. F., Shapiro A. Perturbation Analysis of Optimization
Problems. — New York: Springer-Verlag, 2000.
51. Bonnans J. F., Sulem A. Pseudopower expansion of solutions of generalized
equations and constrained optimization // Math. Program. — 1995. —
V. 70. — P. 123–148.
52. Chen Y., Florian M. The nonlinear bilevel programming problem:
formulations, regularity and optimality conditions // Optimization. —
1995. — V. 32. — P. 193–209.
53. Cominetti R. Metric regularity, tangent sets and second order optimality
conditions // Appl. Math. Optim. — 1990. — V. 21. — P. 265–287.
54. Dontchev A. L., Rockafellar R. T. Characterizations of strong regularity for
variational inequalities over polyhedral convex sets // SIAM J. Optim. —
1996. — V. 6. — P. 1087–1105.
55. Facchinei F., Pang J.-S. Finite-dimensional Variational Inequalities and
Complementarity Problems. — New York: Springer–Verlag, 2003.
56. Fiacco A. V. Introduction to Sensitivity and Stability Analysis in Nonlinear
Programming. — New York: Academic Press, 1983.
57. Fischer A. Local behaviour of an iterative framework for generalized
equations with nonisolated solutions // Math. Program. — 2002. — V. 94. —
P. 91–124.
58. Fletcher R. Practical Methods of Optimization. V. 2. Constrained
Optimization. — Chichester, New York, Brisbane, Toronto: John Wiley,
1981.
240
Список литературы
59. Fletcher R., Leyffer S., Ralph D., Scholtes S. Local convergence of SQP
methods for mathematical programs with equilibrium constraints. Numerical
Analysis Report NA/209 / Department of Mathematics, University of
Dundee, 2002.
60. Gauvin J. A necessary and sufficient regularity conditions to have bounded
multipliers in nonconvex programming // Math. Program. — 1977. —
V. 12. — P. 136–138.
61. Gauvin J., Dubeau F. Differential properties of the marginal function in
mathematical programming // Math. Program. Study. — 1982. — V. 10. —
P. 101–119.
62. Gauvin J., Janin R. Directional behaviour of optimal solution in nonlinear
mathematical programming // Math. Oper. Res. — 1988. — V. 13. —
P. 629–649.
63. Gauvin J., Tolle J. W. Differential stability in nonlinear programming //
SIAM J. Control Optim. — 1977. — V. 15. — P. 294–311.
64. Gollan B. On the marginal function in nonlinear programming // Math.
Oper. Res. — 1984. — V. 9. — P. 208–221.
65. Graves L. M. Some mapping theorems // Duke Math. J. — 1950. — V. 17. —
P. 111–114.
66. Hager W. W., Gowda M. S. Stability in the presence of degeneracy and error
estimation // Math. Program. — 1999. — V. 85. — P. 181–192.
67. Hestenes M. R. Multiplier and gradient methods // JOTA. — 1969. — V. 4. —
P. 303–330.
68. Hu X., Ralph D. A note on sensitivity of value function of mathematical
programs with complementarity constraints // Math. Program. — 2002.
V. 93. — P. 265–279.
69. Izmailov A. F., Solodov M. V. A note on solution sensitivity for
Karush–Kuhn–Tucker systems // Math. Meth. Oper. Res. — 2005. — V. 61,
№ 3. — P. 347–363.
70. Izmailov A. F., Solodov M. V. The theory of 2-regularity for mappings with
Lipschitzian derivatives and its applications to optimality conditions // Math.
Oper. Res. — 2002. — V. 27. — P. 614–635.
71. Izmailov A. F., Solodov M. V. Complementarity constraint qualification via
the theory of 2-regularity // SIAM J. Optim. — 2002. — V. 13. —
P. 368–385.
72. Izmailov A. F., Solodov M. V. Computable primal error bounds based on the
augmented Lagrangian and Lagrangian relaxation algorithms // (To appear.).
73. John F. Extremum problems with inequalities as subsidiary conditions //
Studies and Essays. R. Courant anniversary volume. — New York:
Interscience, 1948. — P.187–204.
74. Josephy N. H. Newton’s method for generalized equations // Tech. Summary
Report № 1965 / Mathematics Research Center, University of Wisconsin. —
Madison, 1979. — 30 p.
75. Josephy N. H. Quasi-Newton methods for generalized equations // Tech.
Summary Report № 1966 / Mathematics Research Center, University of
Wisconsin. — Madison, 1979. — 30 p.
Список литературы
241
76. Karush W. Minima of functions of several variables with inequalities as side
constraints // Tech. report (master’s thesis) / Dept. of Mathematics., Univ.
of Chicago. — Chicago, 1939.
77. Kawasaki H. An envelope-like effect of infinitely many inequality constraints
on second-order necessary conditions for minimization problems // Math.
Program. — 1988. — V. 43. — P. 73–96.
78. Klatte D. Upper Lipschitz behaviour of solutions to perturbed C 1, 1 programs
// Math. Program. — 2000. — V. 88. — P. 285–311.
79. Klatte D., Kummer B. Contingent derivatives of implicit (multi-) functions //
An. Oper. Res. — 2001. — V. 101. — P.313–331.
80. Klatte D., Kummer B. Generalized Kojima functions and Lipschitz stability
of critical points // Comput. Optim. and Appl. — 1999. — V. 13. — P. 61–85.
81. Klatte D., Kummer B. Nonsmooth equations in optimization: Regularity,
calculus, methods and applications. — Dordrecht: Kluwer Academic
Publishers, 2002.
82. Kojima M. Strongly stable stationary solutions in nonlinear programs //
Analysis and Computation of Fixed Points. — New York: Academic Press,
1980. — P. 93–138.
83. Kuhn H. W., Tucker A. W. Non-linear programming // Proc. of the Second
Berkeley Symposium on Mathematical Statistics and Probability. — Berkeley:
Univ. of California Press, 1951. — P.481–493.
84. Kummer B. Generalized equations: Solvability and regulaity // Math.
Program. Study. — 1984. — V. 21. — P. 199–212.
85. Kurcyusz S. On existence and nonexistence of Lagrange multipliers in
Banach spaces // JOTA. — 1976. — V. 20. — P. 81–110.
86. Kyparisis J. Sensitivity analysis for nonlinear programs and variational
inequalities // Math. Oper. Res. — 1990. — V. 15. — P. 286–298.
87. Kyparisis J. Parametric variational inequalities with multivalued solution
sets // Math. Oper. Res. — 1992. — V. 17. — P. 341–364.
88. Lemaréchal C. Lagrangian relaxation // Computational Combinatorial
Optimization. Lecture Notes in Computer Science 2241. — Berlin: Springer,
2001. — P. 112–156.
89. Lempio F., Maurer H. Differential stability in infinite-dimensional nonlinear
programming // Appl. Math. Optim. — 1980. — V. 6. — P. 139–152.
90. Levy A. Solution sensitivity from general principles // SIAM J. Control
Optim. — 2001. — V. 40. — P. 1–38.
91. Levy A., Rockafellar R. T. Sensitivity analysis of solutions in nonlinear
programming problems with nonunique multipliers // Recent Advances in
Optimization. — Singapore: World Scientific Publishers, 1995. — P. 1–38.
92. Liu J. Strong stability in variational inequalities // SIAM J. Control
Optim. — 1995. — V. 33. — P. 725–749.
93. Lucet Y., Ye J. J. Sensitivity analysis of the value function for optimization
problems with variational inequality constraints // SIAM J. Control
Optim. — 2001. — V. 40, № 3. — P. 699–723.
94. Luo Z.-Q., Pang J.-S., Ralph D. Mathematical Programs with Equilibrium
Constraints. — Cambridge: Cambridge University Press, 1996.
242
Список литературы
95. Luo Z.-Q., Pang J.-S., Ralph D., Wu S.-Q. Exact penalization and
stationarity conditions of mathematical programs with equilibrium
constraints // Math. Program. — 1996. — V. 75. — P. 19–76.
96. Mangasarian O., Fromovitz S. The Fritz-John necessary optimality
conditions in the presence of equality and unequality constraints // J. Math.
Anal. Appl. — 1967. — V. 7. — P. 37–47.
97. Maurer H., Zowe J. First and second-order necessary and sufficient
optimality conditions for infinite-dimensional programming problems //
Math. Program. — 1979. — V. 16. — P. 98–110.
98. Mordukhovich B. S. Variational Analysis and Generalized Differentiation.
V. I. Basic Theory / Grundlehren Series (Fundamental Principles of
Mathematical Sciences), V. 330. — Berlin: Springer-Verlag, 2005.
99. Mordukhovich B. S. Variational Analysis and Generalized Differentiation.
V. II. Applications / Grundlehren Series (Fundamental Principles of
Mathematical Sciences), V. 331. — Berlin: Springer-Verlag, 2005.
100. Outrata J. V., Kocvara M., Zowe J. Nonsmooth Approach to Optimization
Problems with Equilibrium Constraints: Theory, Applications and Numerical
Results. — Boston: Kluwer Academic Publishers, 1998.
101. Pang J.-S. Error bounds in mathematical programming // Math. Program. —
1997. — V. 79. — P. 299–332.
102. Pang J.-S., Fukushima M. Complementarity constraint qualifications
and simplified B-stationarity conditions for mathematical programs with
equilibrium constraints // Comput. Optim. Appl. — 1999. — V. 13. —
P. 111–136.
103. Powell M. J. D. A method for nonlinear constraints in minimization
problems // Optimization. — London: Academic Press, 1969. — P. 283–298.
104. Qui Y., Magnanti T. L. Sensitivity analysis for variational inequalities //
Math. Oper. Res. — 1992. — V. 17. — P. 61–76.
105. Ralph D., Wright S. J. Some properties of regularization and penalization
schemes for MPECs / Optimization Technical Report 03-04 // Computer
Sciences Dept., University of Wisconsin. — Madison, 2003. — 22 p.
106. Robinson S. M. Constraint nondegeneracy and variational analysis // Math.
Oper. Res. — 2003. — V. 28, № 2. — P. 201–232.
107. Robinson S. M. First order conditions for general nonlinear optimization //
SIAM J. Appl. Math. — 1976. — V. 30. — P. 597–607.
108. Robinson S. M. Generalized equations and their solutions, Part I: Basic
theory // Math. Program. Study. — 1979. — V. 10. — P. 128–141.
109. Robinson S. M. Generalized equations and their solutions, Part II:
Applications to nonlinear programming // Math. Program. Study. —
1982. — V. 19. — P. 200–221.
110. Robinson S. M. Implicit B-differentiability in generalized equations /
Technical Report № 2854 // Mathematics Research Center, University of
Wisconsin. — Madison, 1985. — 30 p.
111. Robinson S. M. Local epi-continuity and local optimization // Math.
Program. — 1987. — V. 37. — P. 208–223.
112. Robinson S. M. Regularity and stability of convex multivalued functions //
Math. Oper. Res. — 1976. — V. 1. — P. 130–143.
Список литературы
243
113. Robinson S. M. Some continuity properties of polyhedral multifunctions //
Math. Program. Study. — 1981. — V. 14. — P. 206–214.
114. Robinson S. M. Stability theorems for systems of inequalities, Part II:
Differentiable nonlinear systems // SIAM J. Numer. Anal. — 1976. —
V. 13. — P. 497–513.
115. Robinson S. M. Strongly regular generalized equations // Math. Oper.
Res. — 1980. — V. 5. — P. 43–62.
116. Rockafellar R. T. Augmented Lagrangians and applications of the proximal
point algorithm in convex programming // Math. Oper. Res. — 1976. —
V. 1. — P. 97–116.
117. Rockafellar R. T., Wets R. Variational Analysis. — New York: SpringerVerlag, 1998.
118. Scholtes S. Convergence properties of a regularization scheme for
mathematical programs with complementarity constraints // SIAM J.
Optim. — 2001. — V. 11. — P. 918–936.
119. Shapiro A. On Lipschitzian stability of optimal solutions of parametrized
semi-infinite programs // Math. Oper. Res. — 1994. — V. 19. — P. 743–752.
120. Shapiro A. Perturbation analysis of optimization problems in Banach
spaces // Numer. Func. Anal. Optim. — 1992. — V. 13. — P. 97–116.
121. Shapiro A. Second-order sensitivity analysis and asymptotic theory of
parametrized, nonlinear programs // Math. Program. — 1985. — V. 33. —
P. 280–290.
122. Shapiro A. Sensitivity analysis of generalized equations // J. Math.
Sciences. — 2003. — V. 115. — P. 2554–2565.
123. Shapiro A. Sensitivity analysis of nonlinear programs and differentiability
properties of metric projections // SIAM J. Control Optim. — 1988. —
V. 26. — P. 628–645.
124. Shapiro A., Bonnans J. F. Sensitivity analysis of parametrized problems
under cone constraints // SIAM J. Control Optim. — 1992. — V. 30. —
P. 1409–1422.
125. Scheel H., Scholtes S. Mathematical programs with complementarity
constraints: stationarity, optimality and sensitivity // Math. Oper. Res. —
2000. — V. 25. — P. 1–22.
126. Scholtes S., Stöhr M. How stringent is the linear independence assumption
for mathematical programs with complementarity constraints? // Math.
Oper. Res. — 2001. — V. 26. — P. 851–863.
127. Ursescu C. Multifunctions with closed convex graphs // Czech. Math. J. —
1975. — V. 25. — P. 438–441.
128. Zowe J., Kurcyusz S. Regularity and stability for the mathematical
programming problem in Banach spaces // J. of Appl. Math. Optim. —
1979. — V. 5. — P. 49–62.
Предметный указатель
Ветвь 174
Внутренность относительная 16
Возмущение каноническое 205
Гиперплоскость 17
— опорная 18
— разделяющая 18
ЗОКО-множитель 172
ЗОКО-условие
— Мангасариана–Фромовица 192
— линейной независимости 172
ЗОКО-функция Лагранжа 171
Задача двойственная 220
— кусочная 174
— математического программирования 5
— — — расширенная 171
— — — суженная 171
— оптимизации 5
— — с комплементарными ограничениями (ЗОКО) 168
— — с равновесными ограничениями 168
— прямая 220
Комбинация аффинная 16
— выпуклая 16
— неотрицательная 16
Коничность 5
Конус 15
— контингентный 36
— критический 59
— нормальный 37
— острый 15
— полярный 18
— радиальный 5
Координаты барицентрические 17
Метод модифицированных функций
Лагранжа 210
— Ньютона 225
— субградиентный 222
— штрафа 196
Множество аффинное 15
— выпуклое 15
— полиэдральное 19
Множитель Лагранжа 51
— обобщенный 57
Неравенство вариационное 23
Оболочка аффинная 15
— выпуклая 16
— коническая 16
Ограничение-неравенство активное
41
Отображение метрически регулярное 35
— невязки 197
Параметр штрафа 196
Переменная двойственная 49
— прямая 49
Подпространство линейное, параллельное множеству 16
Принцип Лагранжа 57
— Ферма 57
— сжимающих отображений 21
Релаксация двойственная 221
Решение полуустойчивое 225, 231
— сильно регулярное 24, 136
— хемиустойчивое 228, 231
Лемма Фаркаша 19
Симплекс l-мерный 17
Система Каруша–Куна–Таккера 55
— Лагранжа 57
Метод двойственный 220
— квадратичного штрафа 199
Теорема Брауэра 21
— Люстерника 38
Предметный указатель
Теорема Минковского 18
— Минковского–Вейля 19
— Ф. Джона 58
— классическая о неявной функции
22
— о представлении семейств нелинейных отображений 165
— об опорной гиперплоскости 18
— отделимости 18
— устойчивости Робинсона 34
Точка B-стационарная 174
— неподвижная 21
— обобщенно-стационарная 57
— сильно стационарная 172
— слабо стационарная 172
— стационарная 51
Уравнение обобщенное 23
— линеаризованное 24
Условие Голлана 48
— Мангасариана–Фромовица 41
— — — кусочное 174
— — — строгое 56
— Робинсона 33
— дополняющей нежесткости 55
— квадратичного роста 68
— линейного роста 49
245
Условие линейной независимости 41
— линейности 58
— невырожденности 41
— оптимальности
— — прямодвойственное 49
— — необходимое прямое 49
— регулярности 23
— — ограничений 58
— — по направлению 42
— — строгое 52
— строгой дополнительности 60
— — — верхнего уровня 188
— — — нижнего уровня 169
Устойчивость гёльдерова 74, 81
— липшицева 34, 81
Функция Лагранжа 51
— — модифицированная 209
— минимума 7
— обобщенная 57
— штрафная 196
Штраф 195
— степенной 197
— точный 202
ε-решение 97
Документ
Категория
Физико-математические науки
Просмотров
24
Размер файла
1 673 Кб
Теги
346
1/--страниц
Пожаловаться на содержимое документа