close

Вход

Забыли?

вход по аккаунту

?

BakinShelest

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное
образовательное учреждение высшего образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
Е. А. Бакин, М. Н. Шелест
ЗАДАЧИ И МЕТОДЫ
СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ
Учебное пособие
Санкт-Петербург
2015
УДК 519.2(075)
ББК 22.17я73
Б19
Рецензенты:
доктор технических наук В. Т. Яковлев;
доктор технических наук, доцент А. М. Тюрликов
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Бакин, Е. А.
Б19 Задачи и методы статистического оценивания: учеб. пособие / Е. А. Бакин, М. Н. Шелест. – СПб.: ГУАП, 2015. – 61 с.
ISBN 978-5-8088-1055-6
Рассматриваются типовые задачи, возникающие при статистической обработке экспериментальных данных. Основной акцент сделан
на задачах выборочного оценивания различных параметров системы
случайных величин, отражающих свойства исследуемого объекта.
Дается формальное описание наиболее распространенных алгоритмов оценивания таких параметров, например, как моментные и вероятностные характеристики случайной величины, величина сдвига
распределения, корреляционные зависимости и т. д. Качество приведенных алгоритмов анализируется при помощи стандартных критериев несмещенности, состоятельности и эффективности. Пособие содержит большое количество примеров использования рассмотренных
методов оценивания, а также вопросы для самопроверки.
Издание предназначено для бакалавров, обучающихся по направлению 09.03.03 – «Прикладная информатика».
УДК 519.2(075)
ББК 22.17я73
ISBN 978-5-8088-1055-6
©
©
Бакин Е. А., Шелест М. Н., 2015
Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2015
ВВЕДЕНИЕ
Многие технические, социальные и экономические процессы в мире носят вероятностный характер. Поэтому для широкого круга специалистов важным является приобретение основных
знаний в области статистической обработки результатов наблюдений, а также навыков реализации соответствующих алгоритмов
на ЭВМ.
Настоящее пособие направлено на закрепление отдельных глав
материала, читаемого в курсе «Статистическая обработка информации» для студентов ГУАП. Основной акцент делается на оценивании параметров случайных величин и их систем. Предполагается, что читатель знаком с основами теории вероятности в объеме
программы технического вуза.
После освоения очередного раздела предлагается провести самостоятельное исследование с применением ЭВМ для получения
практических навыков реализации и анализа рассмотренных алгоритмов. Программы исследований приведены в методических указаниях по выполнению лабораторных работ. Несмотря на то, что
данные задания не привязаны к конкретной среде программирования, можно порекомендовать применение таких сред компьютерной математики, как Octave, Sci-Lab и Matlab.
В пособии принята следующая система обозначений: та информация, на которой авторы хотели бы акцентировать внимание читателя, выделена жирным шрифтом, новые вводимые определения
и понятия – курсивом. Случайные величины обозначаются греческими буквами без подстрочных индексов, конкретная реализация
случайной величины – соответствующей греческой буквой с индексом, указывающим на номер элемента в выборке. Оценки обозначаются надсимвольным значком ^ (циркумфлекс).
Для более глубокого изучения изложенного материала можно
рекомендовать следующую литературу (см. рекомендуемую литературу в конце пособия):
глава 1 «Основные определения и понятия математической статистики»: п. 1.1 [2, 7]; п. 1.2 [4]; п. 1.3 [1, 7]; п. 1.4 [5];
глава 2 «Общие методы оценки параметров случайной величины»: п. 2.1 [1]; п. 2.2 [1]; п. 2.3 [4, 5]; п. 2.4 [4, 5, 10];
глава 3 «Анализ симметричных распределений» [5];
глава 4 «Оценка закона распределения случайной величины»:
п. 4.1 [1, 4, 7]: п. 4.2 [1, 8]; п. 4.3 [1, 8]; п. 4.4 [9];
3
глава 5 «Анализ многомерных случайных величин. Построение регрессионных моделей»: п. 5.1 [4, 5]; п. 5.2 [1, 4, 5]; п. 5.3 [6];
п. 5.4 [6].
Авторы хотели бы выразить благодарность А. Ю. Фроловой за помощь в подготовке материала, лежащего в основе данного пособия.
4
ГЛАВА 1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ПОНЯТИЯ
МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
1.1. Предмет математической статистики
Статистика является разделом математики, посвященным анализу экспериментальных данных, полученных в ходе наблюдения
за некоторым объектом. В зависимости от решаемых в ходе анализа задач можно провести условное разделение математической статистики на два направления: описательная (дескриптивная) статистика и теория статистических выводов (индуктивная статистика).
Описательная (дескриптивная) статистика (англ. descriptive
statistics) решает задачи систематизации экспериментальных данных, их наглядного представления в виде графиков и эмпирических зависимостей, а также количественного анализа отдельных
статистических показателей (например, среднего значения, разброса, тренда и пр.). Типичными примерами применения описательной
статистики являются представление результатов соцопроса в виде
круговых диаграмм или графики колебания цен на нефть.
Теория статистических выводов (англ. inferential statistics)
решает задачи применения выборочной информации (полученной,
например, в ходе эксперимента) для выявления количественных
и качественных характеристик наблюдаемого объекта. Примером
может служить экспериментальная оценка среднего времени выполнения запроса к базе данных или попытка дать ответ на вопрос,
прием данных с какого из доступных серверов наиболее надежен.
Оговорим еще раз, что приведенное деление является в известной
степени условным, и зачастую статистическая обработка информации начинается с применения чисто описательных методов, а в дальнейшем завершается применением теории статистических выводов.
Теорию статистических выводов, в свою очередь, можно разделить на теорию оценивания и теорию проверки гипотез. Теория оценивания призвана количественно охарактеризовать интересующий
исследователя параметр объекта: либо предположить его конкретное значение (точечное оценивание), либо предположить наиболее
вероятный диапазон его значений (интервальное оценивание). Теория проверки гипотез позволяет на основе экспериментальных данных дать ответ на заранее заданный вопрос касательно свойств объекта (осуществить выбор одной из альтернативных гипотез). Далее
мы будем рассматривать в основном вопросы точечного оценивания.
5
1.2. Проведение статистического эксперимента
Основная схема проведения статистического эксперимента приведена на рис. 1.1. Есть некоторый объект, обладающий параметром (свойством) или набором параметров θ, интересующих исследователя. Ограниченность доступа к объекту или сложность его
организации могут служить препятствием к непосредственному
выяснению θ. Тогда можно прибегнуть к проведению испытаний
с объектом или просто наблюдению за конкретными проявлениями
его функционирования, набрав таким образом экспериментальные
данные (как правило, количественные). Данная последовательность чисел ξ1, ξ2 ,  , ξ N называется выборкой, каждый отдельный результат наблюдения (испытания) ξi – элементом выборки;
N – объемом выборки. Так как исследователю результаты наблюдений заранее не известны, то для него элементы выборки являются
случайными числами. Далее при помощи некоторого формального
правила (алгоритма) по выборке производится оценка параметра
θ̂ .
Пример 1. Пусть объектом изучения является лекарственный препарат,
а задачей исследования – выяснение его эффективности θ : например, насколько в среднем уменьшается уровень холестерина в крови в случае приема препарата. Очевидно, что в силу сложности биохимических реакций
в организме человека теоретический расчет данной величины едва ли возможен. Тогда прибегают к постановке следующего эксперимента: группе
добровольцев замеряют уровень холестерина до приема препарата и после.
В данном примере N соответствует числу пациентов, участвующих в эксперименте; ξi – тому, на сколько ммоль/л уменьшился уровень холестерина
у i-го пациента после приема препарата. Можно предложить следующий
несложный алгоритм оценивания:
1 N
θˆ = Α ( ξ1,  , ξ N ) = ∑ ξi .
N i =1
Оценка параметра
Параметр объекта
θ
Объект
изучения
Выборка

ξ1, ξ2,  , ξN
Алгоритм
оценивания
ˆ Α(ξ ,  , ξ )
θ=
1
N
Рис. 1.1. Общая схема статистического эксперимента
6
θˆ
Пример 2. Как правило, заказчик информационной системы в техническом задании выдвигает к разработчику требования по быстродействию.
Например, требование может быть следующим: время отклика системы на
запрос пользователя с высокой вероятностью (например, 0,99) не должно
превышать заданного порога h. Тогда θ – вероятность того, что время выполнения превысит h. Для того, чтобы доказать соответствие разработки
данному требованию, формируется N запросов, для каждого из которых
регистрируется время выполнения ξi . Тогда простейшим алгоритмом
будет
1 N
θˆ = Α ( ξ1,  , ξ N ) = ∑ I {ξi > h},
N i =1
где I {ξi > h} – индикаторная функция, принимающая значение 1, если
ξi > h , и 0 иначе.
При дальнейшем изложении, если не оговорено отдельно, будем полагать, что все эксперименты проводятся при одинаковых
условиях и независимо друг от друга. Тогда можно считать, что
ξ1, ξ2 ,  , ξ N является выборкой независимых, одинаково распределенных случайных величин1.
Зачастую для оценивания θ можно предложить сразу несколько алгоритмов (оценок), что приводит к необходимости введения
формальных критериев качества их работы. Кратко напомним о
способах представления случайных величин, а затем рассмотрим
три основных свойства оценок, позволяющие сравнивать их между
собой с тем, чтобы выбрать наилучшую.
1.3. Представление случайной величины
Из курса теории вероятности известно, что случайная величина
ξ полностью характеризуется своей интегральной функцией распределения Fξ ( x ) [7]. По определению,
Fξ ( x=
) Pr{ξ ≤ x} , (1.1)
т. е. вероятность того, что данная случайная величина примет значение, не превосходящее x.
1 Выборка одинаково распределенных случайных величин называется однородной. При этом элементы однородной выборки могут быть как зависимы, так и независимы.
7
Для дискретно-распределенной случайной величины вторым
способом описания является ряд распределения, т. е. упорядоченное
множество возможных значений случайной величины {xi } и мно=
ξ xi } , i = 1, K
жество соответствующих им вероятностей p
i Pr {=
(K – количество возможных значений случайной величины).
Для непрерывной случайной величины условным аналогом
ряда распределения является плотность вероятности (дифференциальная функция распределения) fξ ( x ) :
fξ ( x ) = lim
{
},
Pr ξ∈ ( x, x + ∆x ]
∆x
∆x →0
(1.2)
т. е. отношение вероятности попадания случайной величины в малый интервал к длине этого интервала. Учитывая свойства интегральной функции распределения, можно выписать пару преобразований (1.3), (1.4), однозначно связывающих интегральную и
дифференциальную функции распределения:
fξ ( x ) =
Fξ ( x ) =
d
Fξ ( x ); dx
(1.3)
x
∫ fξ ( t ) dt. (1.4)
−∞
Иногда исследователя может интересовать не сама наблюдаемая
в эксперименте случайная величина ξ , а некоторая функция g ( ξ )
от нее.
Пример 3. В физической лаборатории анализируются возможные значения кинетической энергии частиц. Однако лабораторная
установка позволяет измерять только их скорости ξ1, ξ2 ,  , ξ N .
mξ 2
, и далее работа идет уже с выборкой η1, η2 ,  , ηN ,
2
Тогда g ( ξ ) =
где ηi = g ( ξi ) .
Введем следующее стандартное обозначение:
K

 ∑ g ( xi ) pi , åñëè ξ − äèñêðåòíàÿ ñëó÷àéíàÿ âåëè÷èíà
 i =1
M  g ( ξ )  =
.
∞

 ∫ g ( x )fξ ( x ) dx, åñëè ξ − íåïðåðûâíàÿ ñëó÷àéíàÿ âåëè÷èíà
−∞
8
Вычисленная по данной формуле величина M  g ( ξ )  соответствует среднему значению функции g ( ξ ) (например, для примера 1 – средней энергии частицы).
Частичную информацию о случайной величине содержат так
называемые моменты. Для большого класса задач является достаточным знание лишь отдельных моментов случайной величины,
поэтому важной задачей является их оценка по выборке.
По определению, начальным моментом k-го порядка α k называется следующая величина:
α k= M ξk =
 
K k
 ∑ xi pi , åñëè ξ − äèñêðåòíàÿ ñëó÷àéíàÿ âåëè÷èíà
i =1
=∞
. (1.5)

k
 ∫ x fξ ( x ) dx, åñëè ξ − íåïðåðûâíàÿ ñëó÷àéíàÿ âåëè÷èíà
 −∞
Таким образом, неформальным определением начального момента является среднее значение случайной величины, возведенной
в степень k. Отдельно стоит отметить случай k = 1 (первый начальный момент). Момент α1 называется математическим ожиданием
(МО) случайной величины ξ , характеризует ее среднее значение и
традиционно обозначается через µ .
Центральный момент k-го порядка определяется по выражению (1.6):

=
βk M ( ξ − µ )=


k
K

k
 ∑ ( xi − µ ) pi , åñëè ξ − äèñêðåòíàÿ ñëó÷àéíàÿ âåëè÷èíà
 i =1
=∞
. (1.6)
k

 ∫ ( x − µ ) fξ ( x ) dx, åñëè ξ − íåïðåðûâíàÿ ñëó÷àéíàÿ âåëè÷èíà
−∞
Центральный момент 2-го порядка β2 называется дисперсией
случайной величины и характеризует меру разброса случайной
величины относительно среднего значения. Дисперсия также обозначается через D [ ξ] . На практике зачастую удобнее работать не
с самой дисперсией, а с ее корнем – среднеквадратическим откло9
σ
D [ ξ] (СКО). Интерпретация других центральных монением=
ментов, третьего и четвертого, будет рассмотрена в главе 4.
Раскрыв скобки в подынтегральном выражении (1.6) и учитывая (1.5), можно получить следующее выражение для центрального момента:
β=
k
k
∑ ( −1)
i =0
k−i
Cki α i µk−i .
2
Так, в частности, дисперсия D [ ξ] = β2 = α2 − µ2 = M ξ2  − M [ ξ] .
 
Замечание. В случае, если при вычислении интегралов (1.5),
(1.6) для некоторых k появляется неопределенность, соответствующие моменты случайной величины не существуют. Далее, если не будет оговорено отдельно, везде будем полагать,
что рассматриваемые интегралы существуют и являются сходящимися.
1.4. Свойства оценок
1.4.1. Несмещенность
Так как оценка является функцией от нескольких случайных
величин (элементов выборки), то очевидно, что и сама оценка является случайной величиной. Таким образом, оценка может принимать значение, как превышающее истинное, так и, наоборот, заниженное. Естественным желанием является то, чтобы в среднем
оценка совпадала с истинным значением, т. е.
M θˆ  =M  Α ( ξ1,  , ξ N )  =θ .
 
Такая оценка называется несмещенной. Можно ввести величину bΑ ( N ) , характеризующую величину смещения, вносимого при
использовании алгоритма Α по выборке объема N:
bΑ ( N=
) M θˆ ΑN − θ.
Здесь и далее θˆ Α
N обозначает оценку параметра θ при помощи
алгоритма Α по выборке объема N. Если bΑ ( N ) ≠ 0 , то оценка является смещенной. Возможны также случаи, когда для конечного
N оценка смещенная, но
10
lim bΑ ( N ) = 0 .
N →∞
Данная оценка называется асимптотически несмещенной, т. е.
при достаточно большом объеме выборки N величиной смещения
можно пренебречь.
Пример 4. При анализе трафика, передаваемого с сервера на компьютеры клиентов, производится оценка среднего размера пакета, передаваемого по сети. Для этого из общего потока выбирается N пакетов, размеры
которых фиксируются и усредняются. В данном примере случайная величина ξ характеризует размер пакета, искомый параметр θ – среднее
значение ξ (т. е. =
θ M [ ξ] ); элементы выборки ξi – размеры зарегистрированных пакетов, алгоритм оценивания θˆ Α
N =Α ( ξ1,  , ξ N ) =
1 N
∑ ξi .
N i =1
Проверим, является ли данная оценка смещенной:
 N  1
N  1 N
1
θˆ Α
 M 1 ∑
M=
M ∑
NM
=
ξi 
=
ξi 
=
[ ξi ]
[ξ] M [ξ].
∑ M=
N
 
N
N
N
N
i 1
=
 i 1  =
 i 1=

Таким образом, данная оценка является несмещенной.
Пример 5. Пусть известно, что время отклика базы данных на запрос
пользователя является равномерно распределенной случайной величиной
в диапазоне [0, θ] . Задачей исследователя является выяснение величины
θ , т. е. худшего случая, при котором задержка максимальна. Применяется следующая оценка:
θˆ Α
Α ( ξ1,  , ξ N ) =ξ
max ( 1,  , ξ N ) ,
N =
т. е. максимальная задержка, зарегистрированная в ходе проведения эксперимента, состоящего из N запросов. Для упрощения выкладок при проверке смещенности данной оценки введем следующее обозначение для
максимального элемента выборки:
=
η max ( ξ1, , ξ N )
 = M [ η] ). Найдем интегральную функцию распреде(т. е. θˆ Α
η и M θˆ Α
N =
 N
ления величины η :
Fη ( x
=
) Pr{η ≤ x=} Pr{max ( ξ1, , ξN ) ≤ x}.
11
Для того чтобы максимальный элемент выборки не превосходил x, необходимо и достаточно, чтобы каждый элемент выборки не превосходил
x. Обратное также верно. Тогда, учитывая независимость случайных величин ξ1,  , ξ N получим:
{
N
} ∏ Pr{ξi ≤ x=}
Fη ( x
=
) Pr max ( ξ1,  , ξN ) ≤ x=
i =1
FξN ( x ).
Учитывая, что функция Fξ ( x ) описывает равномерное распределение
в диапазоне [0, θ] , получим:
0

N
 x 
Fη ( x )  
=
 θ 
1

ïðè x ≤ 0
ïðè 0 < x ≤ θ .
ïðè x > θ
Воспользовавшись формулой (1.3), получим выражение для плотности
вероятности η :
 0

N −1
 x
=
fη ( x )  N
θN

 0

ïðè x ≤ 0
ïðè 0 < x ≤ θ .
ïðè x > θ
Тогда
 M [ η=]
M θˆ Α
=
 N
θ
∫ xN
0
x N −1
θ
N
dx=
N
θ.
N +1
Таким образом, данная оценка является смещенной, причем
−θ= − θ .
bΑ ( N ) = M θˆ Α
 N
N +1
Очевидно, что lim bΑ ( N ) = 0 и рассмотренная оценка является асимпN →∞
тотически несмещенной.
В тех случаях, когда величина смещения может быть вычислена
заранее, смещенная оценка может быть превращена в несмещенную:
ˆΑ
θˆ Β
N =θ N − bΑ ( N ) =Α ( ξ1,  , ξ N ) − bΑ ( N ) =Α ( ξ1,  , ξ N )
12
θ
.
θ + bΑ ( N )
Так, например, для оценки, рассмотренной в примере 5, несмещенный вариант имеет следующий вид:
N +1
=
θˆ Β
max ( ξ1,  , ξ N ).
N
N
1.4.2. Состоятельность
При обработке выборки исследователь интуитивно предполагает, что чем больше ее объем, тем ближе будет оценка к истинному
значению. То есть с ростом N ошибка в оценивании θˆ Α − θ должна
N
стремиться к нулю. Это возможно, если алгоритм оценки эффективно использует ту информацию об искомом параметре, которая
содержится в выборке.
Формально данное свойство определяется следующим образом:
оценка является состоятельной, если θˆ Α
N сходится по вероятности
к θ :
p
Α
∀θ : θˆ N

→θ ïðè N → ∞ .
Сходимость по вероятности, в свою очередь, означает, что для
любого, сколь угодно малого, отличного от нуля ε
{
}
lim Pr θˆ Α
N − θ ≥ ε =0.
N →∞
То есть всегда найдется такой объем выборки, который с вероятностью, близкой к единице, обеспечит необходимую величину
ошибки в оценивании ε , какой бы малой она не была.
Пример 6. Рассмотрим оценку из примера 4 и выясним, является ли она
 θ и
состоятельной. Эта оценка является несмещенной, а значит, M θˆ Α
N =


можно применить второе неравенство Чебышёва:
{
Pr θˆ Α
N
1 N 
D  ∑ ξi 
 N i =1 
−θ ≥ε ≤ =
=
2
ε
ε2
}

D θˆ Α
 N
N
∑ D [ ξi ]
D [ξ]
.
=
2 2
N ε
Nε2
i =1
Очевидно, что при конечной D [ ξ ] для ∀ε > 0 : lim
N →∞
D [ξ]
Nε2
= 0 , что дока-
зывает состоятельность рассмотренной оценки.
13
При помощи аналогичных рассуждений можно показать, что
оценка из примера 5 также является состоятельной.
Погрешность в оценивании параметра θ
1.4.3. Эффективность
Предположим, что для проведения эксперимента перед исследователем стоит выбор одного из двух алгоритмов оценивания искомого параметра системы. Оба алгоритма обеспечивают оценки
несмещенные и состоятельные. Как осуществить выбор одного из
них? Для ответа на этот вопрос вводят третий параметр оценки –
параметр эффективности. Прежде чем дать формальное определение эффективности, дадим ее качественную интерпретацию. На
рис. 1.2 для двух гипотетических оценок приводятся графики зависимости погрешности оценивания от объема выборки. Несмотря
на то, что оба алгоритма обеспечивают сколь угодно малую погрешность при N → ∞ , при конечном N алгоритм 2 явно кажется более
предпочтительным, т. е. оценка 2 эффективнее оценки 1.
Чтобы количественно измерять эффективность, введем несколько вспомогательных функций.
Функцией штрафа ρ ( e ) называется функция, характеризующая меру негативных последствий, возникающих при той или иной
ошибке e оценивания параметра системы. Как правило, чем больше
e , тем больше значение ρ ( e ) . Функция штрафа выбирается исходя
из специфики той предметной области, в которой ведется статистический анализ и может принимать достаточно сложный вид.
1
Оценка 1
Оценка 2
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
5
6
7
8
Объем выборки N
Рис. 1.2. Сравнение двух алгоритмов оценивания
14
9
10
Падение количества урожая, %
20
18
16
14
12
10
8
6
4
2
0
−100
−80
−60
−40
−20
0
20
40
60
80
100
Ошибка в оценке числа атмосферных осадков, мм
Рис. 1.3. Функция штрафа в примере 7
Пример 7. По данным Гидрометцентра проводится оценка количества
осадков, выпавших в некотором регионе. Из количества осадков определяются тип и объем удобрений, которые необходимо применить на сельскохозяйственном поле. Известно, что неправильно выбранный режим удабривания приводит к падению количества урожая. Тогда функция штрафа
может иметь, например, вид, показанный на рис. 1.3.
Пример 8. В ходе работы телекоммуникационной системы приемник периодически проводит оценку мощности шумов, присутствующих в канале.
Этот уровень учитывается в процессе декодирования принимаемого сообщения. Известно, что ошибочно введенная в декодер информация о шумах повышает вероятность битовой ошибки при приеме данных. При этом заниженная
оценка мощности приводит к существенно бóльшему ухудшению качества
приема, чем завышенная. Типичная функция штрафа показана на рис. 1.4.
Как правило, многие реальные функции штрафа могут быть хорошо аппроксимированы так называемой квадратичной штрафной функцией ρ ( e ) =
e2 или абсолютной штрафной функцией
ρ(e) =
e .
Оценка параметра является случайной величиной, а значит,
ошибка в оценивании и величина штрафа также являются случайными величинами. Таким образом, вводят функцию риска:
(
RΑ ( θ, N=
) M ρ θˆ ΑN − θ
).
15
−1
Вероятность ошибки на бит
10
10−2
10−3
10−4
−8
−6
−4
−2
0
2
4
6
8
Ошибка в оценке мощности шума, дБ
Рис. 1.4. Функция штрафа в примере 8
То есть функция риска характеризует средний штраф, который заплатит исследователь при использовании алгоритма Α для
оценки параметра θ по выборке объема N. Более эффективной является та оценка, которая обеспечивает меньший риск.
Заметим, что для несмещенных оценок в случае применения
квадратичной штрафной функции
(

RΑ ( θ, N=
) M  θˆ ΑN − θ

) =
2
,
D θˆ Α
 N
т. е. функция риска совпадает с дисперсией оценки (1.6).
Как можно видеть, функция риска зависит как от объема выборки, так и от истинного значения параметра θ . Таким образом, для
различных диапазонов значения θ разные оценки могут оказаться
более или менее эффективными. При этом ожидается, что для состоятельных оценок RΑ ( θ, N ) убывает с ростом N. Проиллюстрируем эти зависимости в примерах 9 и 10.
Пример 9. Проводится эксперимент, в ходе которого выясняется вероятность потери пакета θ при передаче по вычислительной сети. Для этого
по сети передаются N тестовых пакетов, успешный прием или потеря которых регистрируется на приемной стороне. Вводится величина ξi , равная
единице, в случае, если i-й пакет оказался утерянным, и нулю иначе. Тогда
воспользуемся следующей несложной оценкой:
16
1 N
θˆ Α
=
∑ ξi .
N
N i =1
Найдем выражение RΑ ( θ, N ) для случая применения квадратичной
штрафной функции. Очевидно, что M [ ξi ] =
θ , тогда
2
 N  1
D [ ξi ]
 Α
 ˆ Α  D  1 ∑ ξi=
.
RΑ ( θ, N=
ND [ ξi=]
−θ =
) M  θˆ N

 D θN=
2

N
N


 i =1  N
(
)
Так как ξi является бернуллиевской случайной величиной с параметром θ , то
2  D [ ξi ] θ (1 − θ )
 Α
.
RΑ ( θ,=
N ) M  θˆ N
− θ=
=

N
N


(
)
Пример 10. Для той же задачи из примера 9 можно также предложить
другую, менее очевидную оценку для θ (оценку Лемана–Ходжеса):
N
1
1
N
Α
θˆ Β
=
ξi +
=θˆ N

∑
N
N + N i =1
2 1+ N
1+ N
(
)

1
.
 +
 2 1+ N
(
)
Тогда
2

 
2
 ˆ Α 

N 
1
 ˆΒ
RΒ ( θ,=
N ) M  θN − θ =
− θ =
+

 M  θN 




1+ N  2 1+ N





2




N  
N   1 
1
 .
= M  θ Α
−
θ
−
θ
+




 N  1 + N   1 + N   1 + N  2 1 + N  

 


 

(
)
(
)
(
)
Перегруппировав слагаемые и вынеся константы за знак математического ожидания, получим:
2

2
1
2

N  θ − 2   
N 

 ˆ Α
=
RΒ ( θ=
M  θΑ
, N ) M  θN − θ 
 −


N −θ +






 1 + N  1 + N    1 + N 


2
2
1
θ2 − θ + 1 4 
N  θ (1 − θ ) θ − θ + 4
1
.
+
=
+
=


2
1+ N 
2
2
N


1+ N
1+ N
4 1+ N
(
(
)
)
(
(
)
(
)
)
17
Значение функции риска
0,025
Оценка A
Оценка B
0,02
0,015
0,01
0,005
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Значение параметра θ
Значение функции риска
Рис. 1.5. Зависимость риска от значения параметра θ
при объеме выборки N = 10 (примеры 9 и 10)
Оценка A
Оценка B
−1
10
−2
10
5
10
15
20
25
30
35
40
Объем выборки N
Рис. 1.6. Зависимость риска от объема выборки при значении
параметра θ =0,2 (примеры 9 и 10)
На рис. 1.5 и 1.6 для обеих оценок приведены графики зависимости
функций риска от θ (при N = 10) и от N (при θ =1 ).
2
Более подробно особенности поведения функции риска будут
рассмотрены в главе 3 на примере оценки смещения симметричного распределения.
18
Вопросы для самопроверки
1. Выведите формулу для математического ожидания гауссовской случайной величины.
2. Выведите формулу для дисперсии гауссовской случайной величины.
3. Выведите формулу для расчета центрального момента через начальные моменты.
4. Как определить вероятность попадания случайной величины в заданный интервал с помощью плотности вероятности и интегральной функции распределения? Приведите пример.
5. Какими преобразованиями связаны между собой интегральная и
дифференциальная функции распределения? Приведите пример пересчета.
6. Докажите первое неравенство Чебышёва. Приведите пример его использования.
7. Докажите второе неравенство Чебышёва. Приведите пример его использования.
2 n
8. Является ли=
θˆ
∑ ξi несмещенной оценкой для правой границы
n i =1
диапазона значений равномерно распределенной случайной величины
[0, θ ]? Если оценка окажется смещенной, найдите величину смещения
(см. пример 5).
θˆ min ( ξi ) несмещенной оценкой для левой границы
9. Является ли=
диапазона значений равномерно распределенной случайной величины
[ θ, 5]? Если оценка окажется смещенной, найдите величину смещения
(см. пример 5).
10. Является ли оценка вероятности бернуллиевской случайной величины из примера 9 смещенной?
11. Является ли оценка Лемана–Ходжеса из примера 10 смещенной?
12. Поясните смысл понятий «сходимость по вероятности» и «состоятельность».
13. Является ли оценка вероятности бернуллиевской случайной величины из примера 9 состоятельной?
14. Является ли оценка Лемана–Ходжеса из примера 10 состоятельной?
15. Проверьте методом моделирования формулу для функции риска
оценки вероятности бернуллиевской случайной величины из примера 9.
16. Проверьте методом моделирования формулу для функции риска
оценки Лемана–Ходжеса (см. ример 10).
17. Предложите оценку параметра N биномиальной случайной величины. Проанализируйте ее смещенность.
19
18. Предложите оценку параметра N биномиальной случайной величины. Проанализируйте ее состоятельность.
19. Постройте методом моделирования функцию риска для оценки вероятности бернуллиевской случайной величины из примера 9 при использовании абсолютного штрафа.
20. Постройте методом моделирования функцию риска для оценки
вероятности бернуллиевской случайной величины из примера 10 при использовании абсолютного штрафа.
20
ГЛАВА 2. ОБЩИЕ МЕТОДЫ ОЦЕНКИ ПАРАМЕТРОВ
СЛУЧАЙНОЙ ВЕЛИЧИНЫ
2.1. Оценка начальных моментов случайной величины
Рассмотрим сначала простейшие оценки начальных моментов
случайной величины. Как было сказано ранее, начальный момент
характеризует среднее значение случайной величины, возведенной
в заданную степень k. Поэтому естественным (но не единственным) алгоритмом оценивания является оценка через выборочный момент, т. е.
αˆ=
k
1 N k
∑ ξi ,
N i =1
(2.1)
где αˆ k – оценка k-го начального момента; N – объем выборки; ξi –
значения элементов выборки. Данная оценка обладает следующими свойствами.
Свойство 1. Оценка αˆ k является несмещенной.
Доказательство. Найдем математическое ожидание выборочного k-го момента:
 1 N k 1
 N k
ξik  α k .
ξi 
=
ξi  M=
M=
M ∑
[αˆ k ] M  N ∑=
 
N
=
 i 1=

 i 1 
Свойство 2. Зависимость дисперсии оценки αˆ k от объема выборки для случая независимых элементов выборки определяется следующим выражением:
D [ αˆ k=]
(
)
1
α2k − α2k . N
(2.2)
Доказательство:
1 N  1
1   2k 
k 2 1
α2k − α2k ,
D [ αˆ k ] = D  ∑ ξki  =
D ξki  =
 M ξi  − M ξi   =


N
 N
 N i =1  N
(
)
т. е. дисперсия данной оценки убывает пропорционально объему
выборки. Соответственно, СКО убывает пропорционально корню
из числа элементов в выборке:
σ [=
αˆ k ]
1
N
α2k − α2k . (2.3)
21
Таким образом, чем больше объем выборки, тем меньше разброс
оценки относительно истинного значения момента. Этот вывод находит свое отражение в следующем свойстве.
Свойство 3. Оценка αˆ k является состоятельной.
Доказательство. По определению свойства состоятельности
(см. главу 1) необходимо доказать, что
∀ε > 0 : lim Pr{ αˆ k − α k ≥ ε} = 0 .
N→∞
Из второго неравенства Чебышёва следует, что
Pr{ αˆ k − α k ≥ ε} ≤
D [ αˆ k ]
ε2
=
α2k − α2k
Nε2
.
Очевидно, что выражение справа от знака равенства стремится
к нулю при N → ∞ , а значит, по теореме о двух милиционерах, и
вероятность стремится к нулю.
Свойство 4. Оценка αˆ k является асимптотически нормальной,
т. е.
N → ∞ : ( αˆ k − α k )
N
α2k − α2k
~ NORM ( 0, 1) .
Доказательство. Данное свойство следует из центральной предельной теоремы (ЦПТ) и того факта, что ξ1k , ξ2k , , ξkN образуют
последовательность независимых одинаково распределенных случайных величин.
Из свойства 4 и закона трех сигм (ЗТС) следует следующее инженерное правило (cвойство 5).
Свойство 5. При достаточно большом объеме выборки N выход
2
2

 k за границы диапазона α − 3 α2k − α k , α + 3 α2k − α k
α
k
k
N
N


ется редким событием.

 явля

2.2. Оценка центральных моментов случайной величины
По аналогии с выборочным начальным моментом можно сформулировать понятие выборочного центрального момента:
22
1 N
k
=
βˆ k
∑ ( ξi − µ ) .
N i =1
(2.4)
Заметим, что для того, чтобы воспользоваться выражением
(2.4), необходимо знание истинного значения МО. Приведем свойства выборочного центрального момента. Доказательства этих
свойств можно провести по полной аналогии с материалами предыдущего подраздела.
Свойство 1. Оценка βˆ k является несмещенной.
Свойство 2. Зависимость дисперсии оценки βˆ k от объема выборки определяется следующим выражением:
(
)
 1 β − β2k . D βˆ k=
  N 2k
Свойство 3. Оценка
Свойство 4. Оценка
(
(2.5)
βˆ k является состоятельной.
βˆ k является асимптотически нормальной:
N → ∞ : βˆ k − βk
)
N
β2k − β2k
~NORM ( 0, 1) .
Свойство 5. При достаточно большом объеме выборки N выход

β − β2
β − β2 
βˆ k за границы диапазона βk − 3 2k k ,βk + 3 2k k  являетN
N




ся редким событием.
На практике, как правило, прямое использование выражения
(2.4) невозможно, так как точное значение µ неизвестно. Однако
величина µ может быть оценена заранее, например, при помощи
выражения (2.1). Выражение (2.4) при этом принимает вид
1 N
k
=
βˆ k
∑ ( ξi − µˆ ) . N i =1
(2.6)
Использование оценки МО вместо истинного значения приводит
к тому, что оценка становится смещенной, причем величина смещения принимает весьма сложный вид с ростом k. Так, например:
 N − 1 β2 ,
M βˆ 2=
 
N
23
т. е. выборочная оценка дисперсии в случае неизвестного МО явля1
β2 . Видно, что величина смещения
ется смещенной на величину
N
стремится к нулю с ростом объема выборки. Это же свойство выполняется и для моментов более высоких порядков k. Таким образом,
свойство 1 формулируется следующим образом.
Свойство 1. Оценка βˆ k является асимптотически несмещенной.
Свойства 2–5 также асимптотически эквиваленты соответствующим свойствам для случая известного МО.
Заметим, что для случая оценки дисперсии, зная величину смещения, несложно найти выражение, дающее несмещенную оценку:
=
βˆ 2
1 N
( ξi − µˆ )2 . ∑
N − 1 i =1
(2.7)
2.3. Метод моментов
В тех случаях, когда исследователю необходимо провести оценку произвольных параметров случайной величины (например,
границ в равномерном распределении или показателя в экспоненциальном), можно воспользоваться достаточно универсальным
методом моментов (ММ). Суть метода заключается в следующем.
Параметры случайной величины однозначно задают функцию распределения Fξ ( x ) , а значит, и все моменты распределения. Тогда,
если необходимо оценить t параметров θ1, θ2 , , θt , можно составить следующую систему из t уравнений1:
α1 =ϕ1 ( θ1, , θt )


.

 α =ϕ ( θ , , θ )
t 1
t
 t
(2.8)
Переразрешив данную систему относительно θ1, , θt , получим новую систему уравнений, позволяющую найти параметры
распределения через его моменты:
1 При составлении исходной системы уравнений можно использовать как начальные, так и центральные моменты.
24
θ1 =ψ1 ( α1, , αt )


. 
 θ =ψ ( α , , α )
t 1
t
 t
(2.9)
После оценки моментов (например, методами, описанными
в п. 2.1, 2.2) и подстановки их в систему (2.9) получим оценки для
искомых параметров распределения.
Пример 11. Оператор сотовой сети анализирует интервалы времени
между звонками, осуществляемыми абонентами. Известно, что эти интервалы распределены по закону, близкому к экспоненциальному. Плотность
вероятности для такой случайной величины записывается следующим образом:
λe−λx
fξ ( x ) = 
 0
ïðè x ≥ 0
.
ïðè x < 0
Тогда искомым будет параметр λ . Подставив выражение для плотности вероятности в формулу (1.5), при k = 1 получим систему (2.8):
1
α1 = .
λ
Тривиальное переразрешение дает следующую систему (2.9):
λ=
1
.
α1
Подставив в данное выражение формулу (2.1) для оценки первого начального момента, получим следующую оценку параметра λ :
N
λˆ = N ,
∑ ξi
i =1
где ξ1,  , ξ N – интервалы времени между звонками, наблюдаемые в процессе работы сети.
Пример 12. По выборке равномерно распределенных случайных величин необходимо одновременно оценить оба параметра данного распределения (левую границу a и правую границу b). Известно, что
25
a+b

 α1 = 2


2 .
β =( b − a )
 2
12
Решив данную систему относительно a и b, получим:
a =α1 − 3β2

.
 b =α1 + 3β2
Оценив по выборке α1 и β2 и подставив их в данную систему, получим
оценки по ММ для a и b.
Очевидными недостатками данного метода являются сложность
переразрешения системы (2.8) в систему (2.9) для некоторых распределений, а также невысокая точность в случае одновременного
оценивания большого количества параметров.
2.4. Метод максимального правдоподобия
Другим распространенным методом оценивания является метод максимального правдоподобия (ММП). Во многих полезных
с точки зрения практики случаях данный метод обладает высокой
эффективностью, хотя известен ряд примеров, когда оценка по
ММП является несостоятельной.
Пусть задана случайная величина ξ , распределение которой характеризуется набором параметров θ1,  , θt . Функцией правдоподобия называется выражение, определяемое следующим образом:
Λ ( θ1, , θt ) =

 ∏ fξ ( ξi ; θ1, , θt ), åñëè ξ − íåïðåðûâíàÿ ñëó÷àéíàÿ âåëè÷èíà

=  i =1
, (2.10)
N

∏ Pr ( ξ = ξi ; θ1, , θt ), åñëè ξ − äèñêðåòíàÿ ñëó÷àéíàÿ âåëè÷èíà
 i =1
N
где ξi – i-й элемент выборки.
26
Тогда оценкой по ММП будет являться такой набор θˆ1, , θˆ t , что
θˆ1, , =
θˆ t  arg max Λ ( θ1, , θt ) . 

θ1, ,θt
(2.11)
В силу монотонности функции логарифма и неотрицательности
функции Λ ( θ1, , θt ) , можно предложить эквивалентное определение для оценки по МПП:
θˆ1, 
, θˆ t  arg max ln Λ ( θ1, , θt ) .
=


θ1, , θt
Пример 13. Известно, что ошибка определения координаты посредством GPS имеет распределение, близкое к распределению Лапласа, плотность которого описывается следующим выражением:
λ −λ x
.
fξ ( x ) = e
2
Из анализа выражения видно, что точность GPS-приемника будет определяться параметром распределения λ (чем λ больше, тем точнее работа
приемника). Для оценки этого параметра GPS устанавливают в точке, координата которой известна точно, и N раз измеряют эту координату, регистрируя каждый раз величину ошибки ξ1, ξ2 , , ξ N . Оценим по этой выборке параметр λ с помощью ММП в формуле (2.11):
N
N
 λ −λ ξ 
=
λ arg max=
ln fξ ( ξi ; λ ) arg max ∑
=
ln  e i 
∑
λ i 1=
λ i 1 2

=
N


λ
= arg max  N ln   − λ ∑ ξi  .
λ 
 2  i =1 
Взяв от выражения правдоподобия производную и приравняв ее
к нулю, получим:
N N
− ∑ ξi =
0.
λ
i =1
Тогда оценка по ММП примет следующий вид:
1N
=
λ
 ∑ ξi
N  i =1




−1
.
27
Пример 14. В теории надежности широко используется модель, согласно которой, время наработки технического устройства до отказа (т. е. время, проходящее с момента начала эксплуатации устройства до момента его
поломки) описывается случайной величиной, имеющей распределение Вейбулла:
 k x k−1
  x k 
  
exp  −    x ≥ 0
fξ ( x; λ, k ) =
.
λ  λ 
  λ  

x<0
0

Это распределение – двухпараметрическое с параметрами k (коэффициент формы) и λ (коэффициент масштаба). Условно можно сказать, что
значение параметра k говорит в основном о характере отказов устройства1,
параметр λ – о среднем сроке эксплуатации. Для оценки значений данных
параметров для нового типа устройства изготавливают опытную партию,
для каждого элемента которой регистрируют время наработки до отказа
ξi ( i = 1, N ). Найдем параметры данного распределения по ММП:
 k ξ k−1
N
N
  ξ k  
 
fξ ( ξi ; λ, k ) arg max ∑ ln   i 
=
λ, k arg max ∑ ln=
exp  −  i   .
λ
λ,k i 1=
λ,k i 1  λ  λ 
=
    

( )
Разложив логарифм произведения в сумму, получим:
N

1 N 
=
λ, k arg max  N ln k − Nk ln λ + ( k − 1) ∑ ln ξi − k ∑ ξki  .
λ,k 
λ i 1 
=i 1=
( )
Найдем градиент функции правдоподобия и приравняем его к нулю:

Nk
k N
−
+ k+1 ∑ ξki =
0

λ
λ

i =1

.
N
ln λ N k 1 N k
N
N
−
ln
λ
+
ln
ξ
+
ξ
−
ξ
ln
ξ
=
0
∑ i λk ∑ i λk ∑ i i
k
=i 1
=i 1=i 1

Из первого уравнения получим:
1 При k < 1 основная доля отказов приходится на первое время после начала эксплуатации; при k > 1 массовые отказы возникают, начиная с определенного срока
эксплуатации.
28
=
λ
k
1 N k
∑ ξi .
N i =1
Подставив данное выражение во второе уравнение и заметив, что
k
λ=
1 N k
∑ ξi , получим систему в следующем виде:
N i =1

1 N

=
λ k ∑ ξki
N i =1


N
.
N
N N k
ξi lnξi =0
 + ∑ ln ξi − N
∑
 k i 1=
=
∑ ξki i 1

i =1

Перегруппировав слагаемые, получим:

1 N
 =
λ k ∑ ξki
N i =1


N

.

ξki lnξi
∑
 −1 i =1
1 N
− ∑ ln ξi
k =
N
N i =1
k

∑ ξi

i =1

Численно решив второе уравнение и подставив полученную оценку па по ММП.
раметра k в первое уравнение, получим пару оценок λ,k
Очевидным недостатком метода максимального правдоподобия является необходимость отыскания максимума от достаточно сложной функции (как, например, в примере 14), что зачастую
приходится делать численно.
Вопросы для самопроверки
1. В чем суть центральной предельной теоремы и как она находит свое
отражение при нахождении выборочных моментов?
2. Докажите, что оценка дисперсии, приведенная в выражении (2.6),
является несмещенной.
29
3. Как зависит средний квадрат ошибки оценивания момента случайной величины от объема выборки? Почему?
4. В чем состоит закон «трех сигм»? Продемонстрируйте его на графиках плотности вероятности и интегральной функции распределения.
5. Разработайте моделирующую программу для нахождения вероятности того, что ошибка оценивания превысит заданную величину. Проведите
серию вычислительных экспериментов и сопоставьте результаты моделирования с неравенствами Чебышёва.
6. Почему график зависимости дисперсии оценки, выполненной по
формулам (2.1) и (2.4), от объема выборки, построенный в логарифмическом масштабе, представляет собой прямую линию?
7. Как связано биномиальное распределение с распределением Бернулли?
8. Докажите, что оценка начального момента (2.1) является несмещенной.
9. Выведите формулу зависимости дисперсии оценки βˆ k от объема выборки.
10. Докажите, что оценка βˆ k , определяемая выражением (2.4), является состоятельной.
11. Докажите, что оценка βˆ k , определяемая выражением (2.4), является асимптотически нормальной.
12. Методом моделирования проведите исследование эффективности
оценки параметра λ экспоненциального распределения по методу моментов (см. пример 11).
13. Методом моделирования проведите исследование эффективности
оценки параметров a и b равномерного распределения по методу моментов
(см. пример 12).
14. Выведите выражение для оценки параметра λ распределения Лапласа по методу моментов (см. пример 13).
15. Сформулируйте и реализуйте вычислительную процедуру для нахождения параметров k и λ распределения Вейбулла по методу моментов.
16. Выведите выражение для оценки математического ожидания гауссовской случайной величины по методу максимального правдоподобия.
17. Выведите выражение для оценки дисперсии гауссовской случайной
величины по методу максимального правдоподобия.
18. Выведите выражение для оценки параметра p биномиального распределения по методу максимального правдоподобия.
19. Выведите выражение для оценки параметра N биномиального распределения по методу максимального правдоподобия.
20. Выведите выражение для оценки параметров a и b равномерного
распределения по методу максимального правдоподобия.
30
ГЛАВА 3. АНАЛИЗ СИММЕТРИЧНЫХ РАСПРЕДЕЛЕНИЙ
3.1. Квадратичный штраф
Как говорилось ранее, для количественного измерения эффективности оценки необходимо выбрать функцию штрафа ρ ( e ) , т. е.
меру негативного эффекта, возникающего при той или иной ошибке оценивания e = θˆ N − θ (здесь θ – истинное значение оцениваемого параметра распределения; θˆ N – оценка параметра по выборке
объема N).
Наиболее распространенной функцией ρ ( e ) является квадратичный штраф, т. е.
(
) (
)
2
ρ θˆ N − θ = θˆ N − θ . (3.1)
При этом функция риска (т. е. средний штраф, характеризующий точность оценки) записывается следующим образом:
(

R ( θ,=
N ) M  θˆ N − θ

)
2
.

(3.2)
Чем меньше значение функции риска, тем более эффективной
является оценка. Как видно из выражения (3.2), если оценка θˆ N
является несмещенной и M θˆ N  =
θ , то функция риска совпадает
 
с дисперсией оценки:
R ( θ, N ) =D θˆ N  .
 
Так, например, для оценки математического ожидания методом
выборочного среднего (см. п. 2.2 и 2.3):
R ( µ, N ) = D [µˆ N ] =
D [ξ]
N
.
3.2. Симметричные распределения
В данном параграфе сравнение эффективности оценок будет иллюстрироваться при помощи симметричных распределений. Будем
называть распределение случайной величины ξ симметричным,
31
если для него существует такое c, что для ∀δ ≥ 0 : fξ ( c −=
δ ) fξ ( c + δ ) .
Очевидно, что при этом число c будет являться центром симметрии
плотности вероятности, или смещением распределения относительно начала координат. Как правило, смещение соответствует медиане симметричного распределения (в случае, если медиана может
быть однозначно определена) и/или математическому ожиданию
(в случае существования первого начального момента). На рис. 3.1
приведены примеры симметричных распределений равномерного,
нормального, биномиального и распределения Лапласа.
Существует ряд задач, для решения которых необходимо оценивание смещения симметричного распределения. Примером может
служить сравнение качества деталей, изготовленных по двум различным методикам. Сравнение можно производить путем оценки
погрешности изготовления, т. е. анализа случайных величин ξ и η ,
характеризующих погрешность изготовления детали по 1-й и 2-й
методике соответственно.
Для определения погрешности рассмотрим процесс изготовления детали по двум разным методикам. Пусть ξ = ξ0 + ∆ξ , где ξ0 –
постоянная величина погрешности, обусловленная методикой изготовления; ∆ξ – случайная величина погрешности, обусловленная
не зависящими от методики факторами. Аналогично η = η0 + ∆η .
Будем считать, что ∆ξ и ∆η являются независимыми одинаково
распределенными случайными величинами с плотностью вероятности f∆ ( x ) . Введем величину γ = η − ξ = ( η0 − ξ0 ) + ( ∆η − ∆ξ ) . Известно, что если две случайные величины (в данном случае ∆ξ и
∆η ) независимы и одинаково распределены, то их разница имеет
симметричное распределение с нулевым смещением, определяемое
следующим выражением:
=
g∆ ( x )
+∞
∫ f∆ ( t )f∆ ( t + x ) dt.
−∞
Таким образом, случайная величина γ будет характеризоваться
симметричной плотностью вероятности g∆ ( x − ( η0 − ξ0 ) ) со смещением ( η0 − ξ0 ) относительно нуля. Если смещение имеет положительный знак ( η0 > ξ0 ), то первая методика позволяет выпускать
более качественные детали, чем вторая, и наоборот.
Для оценки величины смещения изготавливаются две партии деталей, для которых измеренные величины погрешности записываются через ξ1, ξ2 , , ξ N и η1, η2 , , ηN . Тогда можно составить вы32
33
f(x)
f(x)
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0
0,05
0,1
0,15
0,2
0,25
0,3
−1
0
0
1
1
2
3
4
4
N = 4, p = 1/2
5
6
Биномиальное
распределение
5
0,4
0
0,05
0,1
0,15
0,2
0,25
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
−4
0
−3
2
−2
Рис. 3.1. Примеры симметричных распределений
2
x
3
x
Равномерное распределение.
a = 1, b = 5
f(x)
f(x)
−1
4
0
x
x
6
10
1
2
3
4
Распределение Лапласа.
µ = 0, λ = 2
8
Нормальное
распределение.
µ = 5, σ = 1
борку разностей γ1, γ2 , , γ N , где γ i = ηi − ξi = ( η0 − ξ0 ) + ( ∆ηi − ∆ξi ) .
Далее возникает задача оценки по выборке симметрично распределенных случайных величин γ1, γ2 , , γ N значения их смещения
( η0 − ξ0 ) .
3.3. Оценки смещения симметричного распределения
Среди наиболее распространенных способов оценивания смещения симметричного распределения можно выделить следующие четыре: выборочное среднее, усеченное среднее, выборочная медиана,
середина размаха. Рассмотрим подробнее особенности применения,
достоинства и недостатки каждого из них.
Выборочное среднее является простейшей оценкой смещения
случайной величины:
=
cˆÂÑ
1 N
∑ ξi . N i =1
(3.3)
Данный тип оценки был подробно рассмотрен в п. 2.1. Здесь
отметим, что в случае, если дисперсия случайной величины
равна бесконечности, скорость сходимости оценки к истинному значению может быть существенно медленнее, чем ~ 1 ,
N
определяемое в свойствах 2, 3 п. 2.1. В случае же, если не существует математическое ожидание, выборочное среднее является несостоятельной оценкой смещения симметричного распределения и
неприменимо в принципе.
В частности, это справедливо для так называемых «тяжелохвостных» распределений, пример одного из которых (распределения Коши) приведен на рис. 3.2: видно, что, несмотря на кажущуюся схожесть, плотность вероятности Коши имеет одно важное
отличие от нормальной плотности, а именно – существенно более
медленную скорость спадания «хвостов» (обведено на рис. 3.2).
Таким образом, случайная величина, распределенная по закону
Коши, с высокой вероятностью принимает значения, существенно
отклоняющиеся от точки смещения. Эти большие значения (выбросы) сильно искажают результирующую сумму (3.3) и делают
оценку несостоятельной. Данный негативный эффект может быть
частично устранен при помощи метода усечения выборки.
Усеченное среднее (УС). Основной идеей данного метода является предварительное удаление из выборки так называемых
34
0,4
Распределение Коши
Нормальное
распределение
0,35
0,3
f(x)
0,25
0,2
0,15
0,1
0,05
0
−3
−2
−1
0
1
2
3
x
Рис. 3.2. Сравнение распределения Коши
и нормального распределения
выбросов, сильно отклоняющихся от центра распределения величин. Для этого элементы выборки сначала упорядочиваются
в порядке возрастания. Получившаяся в результате последовательность ξ(1) , ξ(2) , , ξ( N ) называется вектором порядковых статистик, а ее i-й элемент ξ(i) – i-й порядковой статистикой. После
этого из выборки удаляются kN первых и kN последних элементов,
а от оставшихся считается среднеарифметическое:
=
cˆÓÑ
1
(1 − 2k ) N
(1−k ) N
∑
i =kN
ξ( i ) . (3.4)
Доля удаляемых элементов k называется коэффициентом усечения и обычно выбирается в диапазоне 0,05–0,2. Чем больше величина k, тем устойчивее оценка к наличию выбросов в выборке, но
тем меньше ее эффективность в случае, когда выборка выбросов не
содержит. Классическим примером использования УС является подсчет среднего балла на спортивных соревнованиях: из выставленных
судьями баллов отбрасываются самый маленький и самый большой.
Таким образом организаторы соревнований борются с намеренным
занижением или завышением балла в случае ангажированности судей.
Предельным случаем усеченного среднего, когда из вектора порядковых статистик удалены все элементы, кроме центрального,
называется метод выборочной медианы.
35
36
1
(1 − 2k ) N
Усеченное
=
cˆÓÑ
сред∗
нее
∑
i =kN
(1−k ) N
ξ( i )
Область применения
Применима для широкого класса распределений
Оценка является состоятельной
при существовании первого начального момента. Указанная
дисперсия гарантируется при
существовании второго центрального момента
∗В
cˆÑÐ =
2
ξ(1) + ξ( N )
)
(c) N
1
∞ y
4fξ2
 x1− k

 ∫ t2fξ ( t ) dt + kx12−k 
2

(1 − 2k ) N  0

2
N
D [ξ]
Дисперсия оценки
N (N − 1)
2
Оценка является состоятель∫ ∫ (x + y) ×
ной при ограниченности об4
−∞ −∞
ласти определения случайной
N −2
величины
×  Fξ ( y ) − Fξ ( x ) 
fξ ( x ) fξ ( y ) dxdy
выражении для дисперсии оценки x1−k−é – (1-k)-й квантиль распределения.
Середина размаха
(
Оценка является состоятельной
ξ(  N /2 ) , N íå÷åòíîå
Выбо


с указанной дисперсией при

рочная cˆ
однозначности определения меìåä =  1
медиа ξ( N /2) + ξ( N /2+1) , N ÷åòíîå дианы распределения и конеч2
на
ности fξ ( c )
=
cˆÂÑ
1 N
∑ ξi
N i =1
Формула оценки
Выборочное
среднее
Метод
Сводная информация по методам оценки смещения
Таблица 3.1
Выборочная медиана получается путем отбрасывания из вектора порядковых статистик всех элементов, кроме центрального (в
случае, если N нечетное), либо двух центральных (если N четное):
cˆìåä
åñëè N íå÷åòíîå
ξ(  N /2 ) ,

 
= 1
.
 ξ( N /2) + ξ( N /2+1) , åñëè N ÷åòíîå
2
)
(
(3.5)
Здесь символ ⋅ обозначает округление вверх до ближайшего
целого. Выборочная медиана является одной из наиболее устойчивых к выбросам оценок, однако неприменима в случае, когда
медиана исходного распределения fξ ( x ) не может быть однозначно определена (т. е. когда fξ ( x ) = 0 в окрестности точки смещения c).
Середина размаха. В случае, когда известно, что распределение
элементов выборки fξ ( x ) задано на ограниченном интервале, хорошие результаты может давать следующая оценка смещения c:
cˆÑÐ =
ξ(1) + ξ( N )
2
,
(3.6)
т. е. среднеарифметическое значение минимального и максимального элементов выборки. Однако если fξ ( x ) отлична от нуля на бесконечном интервале, в большинстве случаев оценка окажется несостоятельной.
В табл. 3.1 приведена сводная информация по четырем рассмотренным оценкам параметра смещения случайной величины с симметричным распределением.
Вопросы для самопроверки
1. В каком случае медиана распределения не может быть однозначно
определена? Приведите пример.
2. Почему график зависимости дисперсии оценки от объема выборки,
построенный в логарифмическом масштабе, представляет собой прямую
линию?
3. Для заданного распределения проверьте зависимость среднего квадрата ошибки оценки смещения по выборочному среднему от объема выборки с помощью теоретического выражения (см. табл. 3.1).
37
4. Для заданного распределения проверьте зависимость среднего квадрата ошибки оценки смещения по выборочной медиане от объема выборки
с помощью теоретического выражения (см. табл. 3.1).
5. Для заданного распределения проверьте зависимость среднего квадрата ошибки оценки смещения по усеченному среднему от объема выборки
с помощью теоретического выражения (см. табл. 3.1).
6. Выведите формулу дисперсии оценки смещения биномиального распределения 2-го порядка по середине размаха.
7. Предложите свою оценку смещения и проведите ее исследование методом моделирования.
8. Докажите, что у распределения Коши не существует математического ожидания.
9. Докажите, что у распределения Коши второй начальный момент равен бесконечности.
10. Для заданного распределения теоретически сравните эффективность двух оценок – выборочного среднего и выборочной медианы.
11. Выведите выражение для α-квантиля экспоненциального распределения.
12. Выведите выражение для α-квантиля равномерного распределения.
13. Докажите, что разница независимых одинаково распределенных
случайных величин имеет симметричное распределение.
14. Дано:
k +1
k
 2 ( x + 1)

k +1
f=
x
(
)
(1 − x )k

ξ
2

0



ïðè
−1 ≤ x < 0
ïðè
0 ≤ x ≤1 .
èíà÷å
Сравните теоретически эффективности оценок смещения для данного
распределения по выборочной медиане и по середине размаха для k = 1.
15. Как зависит эффективность оценки смещения для данного распределения по выборочной медиане от параметра k (см. вопрос 14)?
16. Как зависит эффективность оценки смещения для данного распределения по середине размаха от параметра k (см. вопрос 14)?
17. Выведите выражение для плотности вероятности разности двух независимых случайных величин, распределенных по равномерному закону
с параметрами a и b.
18. Выведите выражение для ряда распределения разности двух независимых случайных величин, распределенных по биномиальному закону
с параметрами N и p.
38
19. Выведите выражение для плотности вероятности разности двух независимых случайных величин, распределенных по экспоненциальному
закону с параметром λ .
20. Выведите выражение для плотности вероятности разности двух независимых случайных величин, распределенных по гауссовскому закону
с параметрами µ и σ .
39
ГЛАВА 4. ОЦЕНКА ЗАКОНА РАСПРЕДЕЛЕНИЯ
СЛУЧАЙНОЙ ВЕЛИЧИНЫ
4.1. Подходы к оценке закона распределения
До этого момента рассматривались различные алгоритмы и критерии качества оценивания отдельных параметров распределения.
Однако на практике часто возникает задача оценивания самого закона распределения.
Так как распределение случайной величины в равной степени
характеризуется функцией плотности вероятности и интегральной
функцией распределения, можно выделить два классических подхода к оцениванию:
1) оценка плотности вероятности методом гистограмм;
2) оценка через эмпирическую интегральную функцию распределения.
Также в последнее время широкое распространение получили
методы экспресс-оценки закона распределения через оценку отдельных моментов случайной величины. В данной главе будет дана
базовая информация по всем трем подходам.
4.2. Метод гистограмм
В основе метода гистограмм лежит идея об аппроксимации плотности вероятности fξ ( x ) при помощи ступенчатой функции по следующему принципу.
Известно, что вероятность попадания случайной величины в заданный интервал [a, b] находится из следующего выражения:
b
Pr{ξ∈ ( a, b ]} = ∫ fξ ( x ) dx.
a
(4.1)
При малой длине (a, b] функцию fξ ( x ) можно считать на этом
интервале почти постоянной и можно воспользоваться следующим
приближением:
Pr{ξ∈ ( a, b ]} ≈ ( b − a ) fξ ( x ) äëÿ ∀x ∈ ( a, b ] .
40
Тогда
fξ ( x ) ≈
Pr{ξ∈ ( a, b ]}
b−a
äëÿ x ∈ ( a, b ] .
Соответственно, можно разбить область определения случайной величины ξ на M непересекающихся интервалов
{[a1,b1 ],( a2,b2 ], , ( aM ,bM ]} и на каждом интервале аппроксимировать плотность вероятности при помощи выражения (4.1).
Очевидно, что чем больше M и меньше длительности интервалов
( ai , bi ] , тем более точной будет аппроксимация (на рис. 4.1 приведены аппроксимации плотности распределения закона Симпсона
при M = 11 и M = 31).
По выборке можно осуществить оценку Pr{ξ∈ ( a, b ]} следующим образом:
1 N
 {ξ∈=
Pr
( a,b]}
∑ I {ξk ∈ ( a,b]} , N k=1
(4.2)
где N – объем выборки; ξk – k-й элемент выборки; I {t} – индикатор события t. Тогда оценка плотности вероятности будет иметь
следующий вид:
N

1
1, M
I {ξk ∈ ( ai , bi ]} äëÿ
x ∈ ( ai , bi ], i =

∑
. (4.3)
fˆξ ( x ) =  ( bi − ai ) N k=1
0
èíà÷å

Графическое изображение функции (4.3) называется гистограммой и имеет характерный ступенчатый вид (рис. 4.2). Очевидно, что гистограмма будет задана на интервале [a1, bM].
Для применения выражения (4.3) приходится решать ряд практических вопросов, таких, например, как оценка области определения случайной величины, выбор числа интервалов M и границ
интервалов (ai, bi] и т. д. Приведем некоторые стандартные рекомендации.
1. Число интервалов разбиения выбирать исходя из правила
Стерджеса: M= 1 + [log2 N ] , где N – объем выборки; [⋅] – знак округления.
2. В некоторых источниках можно встретить следующую рекомендацию к выбору границ области построения гистограммы:
a1 =min ( ξ1, , ξ N ) , bM = max ( ξ1, , ξ N ) . Стоит, однако, иметь
41
а
0,5
Истинная
плотность
вероятности
Аппроксимация
плотности
вероятности
f(x)
0,4
0,3
0,2
0,1
0
−2
−1,5
−1
−0,5
0
x
0,5
1
1,5
2
б
0,5
Истинная
плотность
вероятности
Аппроксимация
плотности
вероятности
f(x)
0,4
0,3
0,2
0,1
0
−2
−1,5
−1
−0,5
0
x
0,5
1
1,5
2
Рис. 4.1. Графики аппроксимации ПВ закона Симпсона
при М=11 (а) и M=31 (б)
в виду, что такой подход может привести к низкой точности оценки
плотности вероятности для «тяжелохвостых» распределений. Поэтому если существует подозрение о тяжелохвостости распределения,
можно провести предварительное усечение выборки (см. главу 3).
3. Для выбора интервалов (ai, bi], как правило, достаточно использовать разбиение интервала [ a1, bM ] на M равных частей дли-
b − a1
b −a
bM − a1
a1 + M 1 ( i − 1) ; b=
i.
ной M
. Тогда ai =
i a1 +
M
M
M
42
0,2
Оценка плотности вероятности
Истинная плотность вероятности
f(x)
0,15
0,1
0,05
0
0
2
4
6
8
10
x
12
14
16
18
20
Рис. 4.2. График плотности распределения хи-квадрат
и построенной гистограммы
Ошибку в оценке плотности вероятности можно количественно
охарактеризовать, посчитав средний квадрат относительного от {ξ∈ ( a, b ]} от истинного значения Pr{ξ∈ ( a, b ]} :
клонения оценки Pr
{ (
{ (
2
} 
} 
 ξ∈ a , b 
Pr
M 
i i
=
eh
∑  1 −
Pr ξ∈ ai , bi 
i = 1
{ (
}
× Pr ξ∈ ai , bi  . (4.4)
Можно показать, что математическое ожидание величины eh
1
убывает обратно пропорционально объему выборки N: M [ eh ] 
.
N
4.3. Оценка интегральной функции распределения
Для оценки интегральной функции обычно исходят из определения, согласно которому Fξ ( x ) показывает, с какой вероятностью
случайная величина попадает в область ( −∞, x ] (см. (1.1)). Соответственно, оценка может быть осуществлена, например, следующим
способом:
1 N
Fˆ=
x
(
)
∑ I {ξk ≤ x}. ξ
N k=1
(4.5)
43
а
1
F(x)
0,8
0,6
0,4
0,2
0
б
0
5
10
Истинная интегральная функция
Эмпирическая интегральная функция
15
20
25
x
1
F(x)
0,8
0,6
0,4
0,2
0
Истинная интегральная функция
Эмпирическая интегральная функция
0
5
10
15
20
25
x
в
1
F(x)
0,8
0,6
0,4
0,2
0
Истинная интегральная функция
Эмпирическая интегральная функция
0
5
10
15
20
25
x
Рис. 4.3. График интегральной и эмпирической интегральной функций
для распределения хи-квадрат (объемы выборок: а – 10; б – 30; в – 100)
44
Оценка F̂ξ ( x ) называется эмпирической интегральной функцией распределения. Как можно видеть из выражения (4.5), F̂ξ ( x )
является ступенчатой функцией, скачкообразно изменяющейся
в точках ξ(1) , ξ(2) ,  , ξ( N ) на величину, равную 1/N.
Очевидно, что чем больше объем выборки N, тем меньше величина «ступеньки» и, значит, тем более точной будет оценка функции Fξ ( x ) . Этот факт выражается в следующих теоремах.
Теорема Гливенко–Кантелли. Пусть ξ1,  ξ N ,  – бесконечная последовательность из чисел, распределенных согласно функN
ции Fξ ( x ) . Пусть Fˆ
( x ) – эмпирическая интегральная функция
{
}
ξ
распределения, построенная по первым N элементам выборки.
Тогда
N
lim sup Fˆξ ( x ) − Fξ ( x ) =
0.
N →∞
x
N
Здесь ec sup Fˆξ ( x ) − Fξ ( x )
=
обозначает точную верхнюю
x
грань1 для ошибки в оценке. Таким образом, эмпирическая интегральная функция распределения является состоятельной оценкой
интегральной функции распределения.
N
Теорема Колмогорова. Скорость сходимости функции Fˆξ ( x )
к Fξ ( x ) определяется из следующего выражения:
N sup Fˆξ
x
N
( x ) − Fξ ( x ) → η
при N → ∞,
где η – случайная величина, распределенная по закону Колмогорова:
Fη=
(x)
+∞
2 2
k
∑ ( −1) e−2k x
,
k =−∞
т. е. максимальная погрешность в оценке в среднем убывает обрат1
но пропорционально корню из объема выборки: M [ ec ] 
(ср.
N
с (2.3) и (2.5)).
1 Зачастую точная верхняя грань эквивалентна максимуму. Таким образом, неформально, теорема Гливенко–Кантелли утверждает, что максимальная ошибка в
оценке интегральной функции распределения стремится к нулю с ростом объема
выборки.
45
4.4. Экспресс-оценка закона распределения
Одним из способов экспресс-оценки распределения является
метод диаграмм Каллена–Фрея. Согласно данному методу, по выборке оцениваются коэффициент асимметрии и коэффициент
эксцесса, по которым можно приближенно определить класс распределений, к которому принадлежит выборка.
Коэффициент асимметрии количественно характеризует степень отклонения формы плотности вероятности от симметричной
функции:
β
(4.6)
γ1 = 33 , σ
7
6
5
4
Текущее наблюдение
10
9
8
Коэффициент эксцесса
3
2
1
где β3 – третий центральный момент; σ – среднеквадратическое
отклонение.
Легко показать, что для симметричных распределений γ1 =
0.
Знак коэффициента асимметрии указывает на перекос распределения вправо или влево относительно математического ожидания.
Теоретическое значение
нормальное
равномерное
экспоненциальное
логистическое
бета
логнормальное
гамма
0
1
2
3
Квадрат коэффициента асимметрии
Рис. 4.4. Диаграмма Каллена–Фрея
46
4
Коэффициент эксцесса – это мера остроты пика распределения
случайной величины:
β
γ2 = 4 , σ4
(4.7)
где β4 – четвертый центральный момент. Так, для нормального закона распределения случайной величины γ2 =
3 . Законы распределения с более острой вершиной, чем у нормального, имеют коэффициент эксцесса более 3 и с менее острой вершиной – менее 3.
Поэтому иногда используют нормированный коэффициент эксцесса: γ2 ' =γ2 − 3 . Так, если γ2 ' > 0, пик распределения более заостренный, чем у нормального закона, если же γ2 ' < 0 , то менее.
Тогда по выборке оцениваются β3 , β4 и σ (например, по методу, рассмотренному в главе 2), которые после подстановки в выражения (4.6) и (4.7) дают оценки для искомых коэффициентов.
Отложив γ̂12 и γ̂2 на осях диаграммы Каллена–Фрея, можно приближенно оценить, к какому классу распределений принадлежит
наблюдаемая выборка (рис. 4.4).
Вопросы для самопроверки
1. Предложите метод оценивания ряда распределения дискретной случайной величины. От чего будет зависеть точность оценки вероятности для
каждой компоненты ряда?
2. Как зависит точность оценки плотности вероятности методом гистограмм от выбранного количества интервалов разбиения? Поясните данную
зависимость.
3. Постройте график теоретической гистограммы для нормального распределения ( µ= 2, σ= 1 ) при количестве интервалов, равном 5 (см. (4.1)).
4. Постройте график теоретической гистограммы для экспоненциального распределения ( λ =2 ) при количестве интервалов, равном 21
(см. (4.1)).
5. Постройте график теоретической гистограммы для распределения Лапласа ( µ= 0, λ= 2 ) при количестве интервалов, равном 41 (см. (4.1)).
6. Поясните принцип, лежащий в основе формулы Стерджеса.
7. В каком случае выбор границ области построения гистограммы как
минимума и максимума из элементов выборки является причиной низкой
точности оценки? Как этого избежать? Продемонстрируйте методом моделирования.
47
8. Используя свойство распределения Стьюдента, обоснуйте зависимость математического ожидания eh от объема выборки: M [ eh ] 
1
(см.
N
п. 4.2).
9. Является ли оценка интегральной функции распределения по формуле (4.5) смещенной? Найдите величину смещения, если оно есть.
10. Как зависит дисперсия оценки интегральной функции распределения по формуле (4.5) от объема выборки?
11. Постройте график интегральной функции распределения и плотности вероятности для закона Колмогорова.
12. Как максимальная погрешность в оценке интегральной функции
распределения по формуле (4.5) зависит от объема выборки? Обоснуйте
данную зависимость.
13. Подберите распределение, для которого верно следующее:
γ1 = 2, γ2 = 1 . Как изменится вид распределения при изменении различных параметров данного распределения?
14. Каким образом можно оценить коэффициенты асимметрии и эксцесса? Приведите пример оценки.
15. Рассчитайте для распределения Симпсона с параметрами a = −15 и
b = 5 коэффициент асимметрии.
16. Рассчитайте для распределения Рэлея с параметрами σ =2 коэффициент эксцесса.
17. Рассчитайте для распределения Лапласа с параметрами µ =1 и
λ =3 коэффициент асимметрии.
18. Для экспоненциального распределения с параметром λ =1 рассчитайте коэффициент эксцесса.
19. Для нормального распределения с параметрами µ =0 и σ =2 рассчитайте коэффициент асимметрии.
20. Для равномерного распределения с параметрами a = −30 и b = −5
рассчитайте коэффициент эксцесса.
48
ГЛАВА 5. АНАЛИЗ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН.
ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ
5.1. Последовательность векторов со случайными
и неслучайными компонентами
До этого момента речь шла о выборках, каждый элемент которых являлся одномерной случайной величиной. Однако на практике зачастую встречаются примеры, когда в результате однократного испытания экспериментатор получает сразу группу (вектор)
случайных или неслучайных величин, каждая из которых отражает различные параметры объекта.
Пример 15. В ходе социологического опроса респонденту предлагается
заполнить анкету, содержащую K вопросов. Экспериментальная выборка
соответствует результатам опроса N участников. Каждый элемент выборки î i будет содержать K компонентов, соответствующих ответам на соот-
ξ
ветствующие вопросы i-го респондента: î i =
 i
1

ξi
2
 ξi
K
.


Пример 16. Пациент, находящийся под наблюдением врачей, периодически посещает поликлинику для сдачи анализа крови. Дата посещения определяется расписанием работы лаборатории и личным временем
пациента. Тогда по итогам N посещений будет сформирована выборка
ξ1, ξ2 , … , ξ N , каждый элемент которой имеет вид
ξ 1
îi =
 i

1
где ξi – дата i-го посещения; ξi
2
2
ξi  ,

– результаты анализа в этот день.
Пример 17. На сайте Bloomberg ежедневно обновляется информация о
текущих котировках валют, акций, цветных металлов и пр. При анализе
динамики цен на интересующий исследователя ресурс формируется подборка информации за последние N дней ξ1, ξ2 ,  , ξ N , в которой
ξi =  ξi

1
2
ξi ,

1
где ξi – дата, за которую запрашивается информация (вообще говоря, ве2
личина не случайная); ξi – цена ресурса в этот день.
49
5.2. Оценка корреляции между компонентами вектора
Одной из типовых задач статистической обработки случайных
векторов является выяснение наличия зависимостей между отдельными их компонентами. Например, в примере 15 в анкете мо1
жет быть вопрос о доходе респондента ξi
и вопрос о его возрасте
2
ξi , и исследователь планирует при помощи эксперимента проанализировать, есть ли взаимосвязь между этим величинами.
Одним из простейших видов зависимости между случайными
величинами является линейная корреляция. По определению, коэффициент линейной корреляции (или просто коэффициент корреляции) между двумя случайными величинами ξ и η вычисляется
исходя из следующего выражения:
rξη
M ( ξ − M [ ξ]) ( η − M [ η])  M [ ξη] − M [ ξ] M [ η]
,
=
σξ ση
σξ ση
(5.1)
где σξ и ση – среднеквадратические отклонения первой и второй
случайной величины соответственно. Коэффициент rξη может
принимать значения в диапазоне [–1, +1]. Значение rξη , близкое
к единице, говорит о высокой коррелированности (а, значит, и зависимости) между ξ и η , причем положительный знак указывает
на положительную корреляцию (условно говоря, в среднем, чем ξ
больше, тем η больше); отрицательный знак – на отрицательную
корреляцию (наоборот, чем ξ больше, тем, в среднем, η меньше).
Пример 18. В ходе эксперимента у случайно выбранного участника регистрируют рост ξ и вес η . Очевидно, что rξη > 0 .
Пример 19. В ходе испытания мобильной сети в случайных точках города производится замер расстояния до ближайшей базовой станции ξ и
максимальной скорости приема данных η . В силу того, что с ростом расстояния сигнал ослабевает и скорость падает, rξη < 0 .
Замечание. Так как коррелированность – это всего лишь один
из возможных типов зависимости, из некоррелированности
( rξη = 0 ), вообще говоря, не следует независимости случайных величин.
Одним из стандартных способов оценивания rξη по выборке
ξ
( 1,η1 ),( ξ2 ,η2 ),  ( ξN ,ηN ) является выборочный коэффициент
корреляции, определяемый следующим выражением:
50
 1,ξη − α
 1,ξ α
 1,η
α
r ξη =
,


σξ ση
(5.2)
N
 1,ξ= 1
где α
ξi – выборочное математическое ожидание случай∑
N i =1
N
 1,η= 1
ной величины ξ ; α
∑ ηi – выборочное математическое ожиN i =1
ξ
дание случайной величины =
η; σ
1 N
∑ ξi − α1,ξ
N i =1
)
– выборочное
η
СКО случайной величины ξ=
; σ
1 N
∑ ηi − α1,η
N i =1
)
– выборочное
(
(
2
2
1 N
 1=
СКО случайной величины η ; α
,ξη
∑ ξi ηi – выборочный перN i =1
вый смешанный момент случайных величин ξ и η .
Дадим выборочному коэффициенту корреляции следующую наглядную интерпретацию. Построим график, на который нанесем
точки, соответствующие всем парам ( ξi , ηi ) (так называемая диаграмма рассеяния, или облако), и проведем через облако прямую
линию вида η = aξ + b . Коэффициенты этой прямой a и b подберем
так, чтобы эта прямая проходила через облако с минимальной невязкой относительно точек ( ξi , ηi ) :
N
2
=
[a,b] arg min ∑ ( aξi + b − ηi ) .
i =1
Такая прямая называется линейной регрессией для выборочных
данных ( ξi , ηi ) . Тогда выборочный коэффициент корреляции будет
прямо пропорционален полученному коэффициенту наклона этой
прямой a:
ξ
σ
r ξη = a
.
η
σ
Примеры диаграмм рассеяния с проведенными прямыми приведены на рис. 5.1.
51
б
2
2
1,5
1,5
1
1
0,5
0,5
0
η
η
а
0
−0,5
−0,5
−1
−1
−1,5
−1,5
−2
−2
−1
0
1
−2
−2
2
−1
г
2
1
2
2
1
1
0,5
0,5
0
0
η
η
2
1,5
1,5
−0,5
−0,5
−1
−1
−1,5
−1,5
−2
1
ξ
ξ
в
0
−2
−1
0
ξ
1
2
−2
−2
−1
0
ξ
Рис. 5.1. Диаграммы рассеяния: а – положительная корреляция;
б – нулевая корреляция; в – нулевая корреляция;
г – отрицательная корреляция
5.3. Построение полиномиальных регрессий
Одним из обобщений приема, приведенного в п. 5.2, на случай,
когда диаграмма рассеивания имеет сложный вид и линейная регрессия плохо описывает конфигурацию облака, называется метод
полиномиальных регрессий.
В этом случае делается попытка подобрать коэффициенты многочлена вида=
η
n
∑ ki ξi , аппроксимирующего облако с минималь-
i =0
ной невязкой. В зависимости от выбранного порядка многочлена
52
7
6
5
4
η
3
2
1
0
−1
−2
−3
−2
−1,5
−1
−0,5
0
0,5
1
1,5
2
ξ
Рис. 5.2. Пример квадратичной регрессии
n получившуюся кривую называют квадратичной регрессией (при
n = 2), кубической регрессией (при n = 3) и пр. Пример использования квадратичной регрессии приведен на рис. 5.2.
Формально задача отыскания вектора коэффициентов
k = [ k0 , , kn ] записывается следующим образом:
2
 N

=
[k0 ,,kn ] arg min ∑  ∑ kj ξij − ηi  ,
=i 1=
j 0
 N
(5.3)
т. е. регрессионная кривая должна проходить так, чтобы сумма квадратов ошибок аппроксимации была минимальна. Соответственно,
метод решения оптимизационной задачи (5.3) называется методом
наименьших квадратов (МНК). Введем вспомогательную матрицу
Ψ и вспомогательный вектор η следующим образом:
1
 1
 ξ1
ψ=


ξn
 1
1

1 

 ξ1N 
, η =[ η1, η2 , , ηN ] .
   

ξ2n  ξnN 
ξ12
(5.4)
53
Тогда набор коэффициентов полинома находится по МНК из
следующего выражения:
(
k = ηψT ψψT
)
−1
.
5.4. Анализ временных рядов
Описанный в п. 5.3 подход может быть использован также при
анализе временных рядов. По определению, временным рядом называется совокупность зафиксированных в определенные моменты
времени (как правило, отстоящие на равные интервалы ∆t ) значений
исследуемого процесса. В этом случае выборка состоит из элементов
вида ξ =( ti si ) , где ti – момент фиксирования i-го отсчета процесса
∆t ); si – его значение (см. примеры 16 и 17). В общем слу( ti +1 − ti =
чае si могут являться зависимыми случайными величинами.
Через облако, образованное множеством точек ( ti si ) , может
быть проведена регрессионная кривая, именуемая также кривой
тренда. В случае, если был использован полином первого порядка,
говорят, что был вычислен линейный тренд случайного процесса.
Тренд позволяет выявить общие, крупномасштабные тенденции
в анализируемом процессе.
Пример 201. Построим график колебания отношения курса евро к курсу доллара за последние 16 лет и аппроксимируем его регрессией 5-го порядка (рис. 5.3) [3].
Полином, описывающий тренд, был получен в результате применения
выражения (5.4) и имеет следующий вид (здесь x – номер дня, начиная
с 01.01.1999):
y=
−3,39 ⋅ 10−18 x5 + 5,83 ⋅ 10−14 x4 − 3,72 ⋅ 10−10 x3 +
+1,03 ⋅ 10−6 x2 − 9,95 ⋅ 10−4 x + 1,2.
Можно видеть, что тренд отражает основные вехи в мировой экономике за последние годы: спад европейской экономики, связанный с кризисом
2002 г., кризис 2008 г., приведший к ослаблению курса доллара, напряженная политическая ситуация в Европе в 2014–2015 гг.
1
54
Данный пример подготовлен студентом М. В. Сафоновым.
Курс евро к доллару
1,8
1,7
1,6
1,5
1,4
1,3
1,2
1,1
1
0,9
0,8
1999
2001
2003
2005
2007
2009
2011
2013
2015
2016
Год
Рис. 5.3. График колебания курса евро к доллару
и тренд 5-го порядка
В случае, если временной ряд демонстрирует неизменное поведение на длительном интервале времени1, полезным инструментом
для его анализа является выборочная корреляционная функция
(ВКФ):
r ∆ =
( )
∆ − α
1
α
β 2
2
,
 1 и β – стандартные оценки математического ожидания и
где α
2
1 N −∆
дисперсии по выборке s1, s2 ,  , sN , r ∆ =
∑ si si+∆ .
N − ∆ i =1
ВКФ показывает, насколько быстро убывает коэффициент корреляции между значениями случайного процесса в моменты t и ( t + ∆ )
с ростом ∆ . Иными словами, по характеру ВКФ можно определить,
насколько события, произошедшие с объектом исследования в один
момент, связаны с его поведением через момент времени ∆ .
Пример 21. Вычтем из графика колебания отношения курса евро к курсу доллара аппроксимирующую его регрессию 5-го порядка (см. пример
20). Получившийся график приведен на рис. 5.4.
1 Строгое определение стационарных случайных процессов см. в работах [1, 6, 7].
55
Курс евро к доллару (вычтен тренд)
0,25
0,2
0,15
0,1
0,05
0
−0,05
−0,1
−0,15
−0,2
1999
2001
2003
2005
2007
2009
2011
2013
2015
Год
Рис. 5.4. График колебаний курса евро к доллару
относительно тренда
Если тренд отражал глобальные мировые события, то данный график
характеризует в основном локальные события (на уровне отдельных государств и отраслей промышленности). Видно, что характер полученного
случайного процесса остается практически неизменным на протяжении
последних 16 лет. Построим его ВКФ (рис. 5.5).
Выборочная корреляционная
функция
1
0,8
0,6
0,4
0,2
0
−0,2
−0,4
0
2
4
6
8
10
Год
Рис. 5.5. ВКФ локальных колебаний курса евро к доллару
56
20
Из полученной зависимости следует, что при ∆ ≈ 1,5 года коэффициент
корреляции равен приблизительно –0,4, что говорит о том, что за локальным подъемом курса одной из валют приблизительно через 1,5 года с высокой вероятностью последует его локальный спад. Также можно видеть,
что ∆ > 4 лет коэффициент корреляции не превышает 0,1. Из этого можно
сделать вывод, что при прогнозировании динамики курсов указанных валют достаточно ограничить анализом лишь последних 4 лет.
Вопросы для самопроверки
1. Используя МНК, выведите формулы для расчета коэффициентов линейной регрессии через значения элементов выборки в явном виде.
2. Выведите формулу для расчета коэффициентов полиномиальной регрессии (5.4).
3. Объясните принцип метода наименьших квадратов.
4. Поясните, почему диаграмма рассеяния, приведенная на рис. 5.1, в,
соответствует нулевой корреляции между случайными величинами.
5. Дана совместная плотность вероятности для пары случайных вели-
−(2x + y + 3xy)
чин ξ и η : fξη (x, y) = aye
, где x, y ∈ [0, +∞) . Выберите коэффициент a исходя из условий нормировки плотности вероятности. Найдите коэффициент корреляции между ξ и η .
6. Дана совместная плотность вероятности для пары случайных вели-
2 −(x + 3y + xy)
чин ξ и η : fξη (x, y) = ax e
, где x, y ∈ [0, +∞) . Выберите коэффициент a исходя из условий нормировки плотности вероятности. Найдите коэффициент корреляции между ξ и η .
7. Дана совместная плотность вероятности для пары случайных величин ξ и η : fξη (x, y) = ax2 y2e−(3x + 2y + 2xy) , где x, y ∈ [0, +∞) . Выберите
коэффициент a исходя из условий нормировки плотности вероятности.
Найдите коэффициент корреляции между ξ и η .
8. Дана совместная плотность вероятности для пары случайных величин ξ и η : fξη (x, y) = ax2 ye−(x + y + xy) , где x, y ∈ [0, +∞) . Выберите коэффициент a исходя из условий нормировки плотности вероятности. Найдите коэффициент корреляции между ξ и η .
9. Дана система случайных величин ( ξ, η ) , равномерно распределенных внутри окружности с единичным радиусом. Являются ли эти величины зависимыми? Являются ли они коррелированными? Проверьте факт
наличия или отсутствия корреляции методом моделирования.
10. Для задачи № 17 постройте график зависимости дисперсии оценки
коэффициента корреляции от объема выборки.
57
11. Приведите пример системы из двух дискретных случайных величин, коэффициент корреляции между которыми равен 0, но случайные величины являются зависимыми.
12. Приведите пример системы из двух непрерывных случайных величин, коэффициент корреляции между которыми равен 0, но случайные величины являются зависимыми.
13. Постройте график колебаний уровня безработицы по данным, загруженным из источника [3] (код «UNRATE»). Подберите порядок и коэффициенты полиномиальной регрессии по МНК.
14. Постройте график колебаний коэффициента эффективности бюджетных вложений безработицы по данным, загруженным из источника [3]
(код «FEDFUNDS»). Подберите порядок и коэффициенты полиномиальной регрессии по МНК.
15. Постройте график роста валового внутреннего продукта (ВВП) по
данным, загруженным из источника [3] (код «GDP»). Подберите порядок и
коэффициенты полиномиальной регрессии по МНК.
16. Постройте график зависимости государственного долга США
как процент от ВВП по данным, загруженным из источника [3] (код
«GFDEGDQ188S»). Подберите порядок и коэффициенты полиномиальной
регрессии по МНК.
17. Дано: ξ1, ξ2 ,... ξn – последовательность независимых, одинаково
распределенных случайных величин; η1, η2 ,... ηm – случайные величи-
ξ1,
i=
1

ны, рассчитанные по формуле ηi =
. Найдите корαξi + (1 − α ) ξi −1, i > 1
реляционную функцию процесса η теоретически. Выполните проверку
методом моделирования.
18. Дано: ξ1, ξ2 ,... ξn – последовательность независимых, одинаково
распределенных случайных величин; η1, η2 ,... ηm – случайные величи-
ξ1,
i=
1

ны, рассчитанные по формуле ηi =
. Найдите корреαξ
+
1
−
α
ξ
,
i
>
1
) i −1
 i (
ляционную функцию процесса η теоретически. Определите, как зависит
ширина корреляционной функции от параметра α .
19. Дано: ξ1, ξ2 ,... ξn – последовательность независимых, одинаково
распределенных случайных величин с M [ ξ ] =0 , η1 : η2 ,... ηm – случай-
ξ1,
i=
1

ные величины, рассчитанные по формуле ηi =
.
1
1
αη
+
−
α
ξ
>
,
i
) i
 i −1 (
58
Найдите корреляционную функцию данного процесса и определите, как
зависит ширина корреляционной функции от параметра α .
20. Подбрасываются два игральных кубика, на первом выпадает значение ξ1 , на втором – ξ2 . Вводим случайные величины η1 и η2 , такие, что
η1 = ξ1 + ξ2 и η2 = ξ1 − ξ2 . Найдите коэффициент корреляции между величинами η1 и η2 .
59
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
1. Вентцель Е. С. Теория вероятности. М.: Наука, 1969.
2. Елисеева И. И., Юзбашев М. М. Общая теория статистики:
учебник / под ред. И. И. Елисеевой. 5-е изд., перераб. и доп. М.:
Финансы и статистика, 2004.
3. Информационный ресурс Федерального резервного банка. URL: https://research.stlouisfed.org/fred2/ (дата обращения
15.12.2015).
4. Крамер Г. Математические методы статистики. М.: Мир,
1975.
5. Лагутин М. Б. Наглядная математическая статистика. М.:
Бином, 2009.
6. Мишулина О. А. Статистический анализ и обработка временных рядов. М.: МИФИ, 2004.
7. Фарафонов В. Г., Устимов В. И. Теория вероятностей и математическая статистика: учеб. пособие: в 2 ч. СПб.: ГУАП, 2009.
8. Чернова Н. И. Математическая статистика. Новосибирск:
СибГУТИ, 2009.
9. Cullen A. C., Frey H. C. Probabilistic Techniques in Exposure
Assessment. A Handbook for Dealing with Variability and Uncertainty
in Models and Inputs. N.-Y., Plenum Press, 1999.
10. Ferguson T. S. An Inconsistent Maximum Likelihood
Estimate // Journal of the American Statistical Association. 1982.
Vol. 77. № 380. Р. 831–834.
60
ОГЛАВЛЕНИЕ
Введение ..................................................................................
3
Глава 1. Основные определения и понятия математической
статистики................................................................................
1.1. Предмет математической статистики.................................
1.2. Проведение статистического эксперимента.........................
1.3. Представление случайной величины..................................
1.4. Свойства оценок..............................................................
Вопросы для самопроверки ....................................................
5
5
6
7
10
19
Глава 2. Общие методы оценки параметров случайной величины.....
2.1. Оценка начальных моментов случайной величины...............
2.2. Оценка центральных моментов случайной величины............
2.3. Метод моментов..............................................................
2.4. Метод максимального правдоподобия.................................
Вопросы для самопроверки.....................................................
21
21
22
24
26
29
Глава 3. Анализ симметричных распределений.............................
3.1. Квадратичный штраф......................................................
3.2. Симметричные распределения..........................................
3.3. Оценки смещения симметричного распределения................
Вопросы для самопроверки.....................................................
31
31
31
34
37
Глава 4. Оценка закона распределения случайной величины..........
4.1. Подходы к оценке закона распределения............................
4.2. Метод гистограмм............................................................
4.3. Оценка интегральной функции распределения....................
4.4. Экспресс-оценка закона распределения..............................
Вопросы для самопроверки.....................................................
40
40
40
43
46
47
Глава 5. Анализ многомерных случайных величин.
Построение регрессионных моделей.............................................
5.1. Последовательность векторов со случайными
и неслучайными компонентами .......................................
5.2. Оценка корреляции между компонентами вектора...............
5.3. Построение полиномиальных регрессий.............................
5.4. Анализ временных рядов..................................................
Вопросы для самопроверки.....................................................
Рекомендуемая литература.........................................................
49
49
50
52
54
57
60
Учебное издание
Бакин Евгений Александрович,
Шелест Мария Николаевна
ЗАДАЧИ И МЕТОДЫ
СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ
Учебное пособие
Редактор В. А. Черникова
Компьютерная верстка Ю. В. Умницына
Сдано в набор 07.12.15. Подписано к печати 23.12.15. Формат 60 × 84 1/16.
Бумага офсетная. Усл. печ. л. 3,9. Уч.-изд. л. 3,6.
Тираж 500 экз. Заказ № 541.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
1
Размер файла
4 630 Кб
Теги
bakinshelest
1/--страниц
Пожаловаться на содержимое документа