close

Вход

Забыли?

вход по аккаунту

?

farafonov

код для вставкиСкачать
Федеральное агенТство по образованию
Государственное образовательное учреждение
высшего профессионального образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
В. Г. Фарафонов, Вяч. Г. Фарафонов,
В. И. Устимов, Д. В. Бутенина
Теория вероятностей и
математическая статистика
Учебное пособие
Часть 2
Санкт-Петербург
2009
УДК 519.22
ББК 22.171
Ф24
Рецензенты:
доктор физ.-мат. наук, профессор А. П. Киселев;
доктор физ.-мат. наук, профессор Л. С. Ивлев
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Фарафонов В. Г., Фарафонов Вяч. Г., Устимов В. И.,
Бутенина Д. В.
Ф24 Теория вероятностей и математическая статистика: учеб.
пособие / В. Г. Фарафонов, Вяч. Г. Фарафонов, В. И. Устимов, Д. В. Бутенина. – СПб.: ГУАП, 2009. Ч. 2. – 102 с.: ил.
ISBN 978-5-8088-0501-9
Во второй части пособия рассмотрены вопросы математической статистики, включая закон больших чисел и предельные теоремы.
Пособие составлено в соответствии с программой по высшей
математике для студентов экономических специальностей.
УДК 519.22
ББК 22.171
ISBN 978-5-8088-0501-9
© В. Г. Фарафонов, Вяч. Г. Фарафонов,
В. И. Устимов, Д. В. Бутенина, 2009
© ГУАП, 2009
1. ЗАКОН БОЛЬШИХ ЧИСЕЛ. ПРЕДЕЛЬНЫЕ
ТЕОРЕМЫ
Массовые случайные явления в своём совокупном действии
создают строгие закономерности, которые проявляются (и, следовательно, могут изучаться) лишь на достаточно большом числе испытаний (опытов). Эти закономерности могут быть количественно выражены только в форме средних чисел; средние числа выражают их тем точнее, чем большее число испытаний ими
охватывается.
В любом массовом явлении наряду с факторами, общими для
всей массы испытаний, действуют факторы случайные, то есть
такие, которые в отдельных испытаниях (опытах) могут быть
различны, и их действие может быть направлено в разные стороны (поскольку между отдельными испытаниями имеется известная степень взаимной независимости). В результате взаимопогашения действия случайных факторов проявляется действие
факторов общих для данного явления, то есть проявляется закономерность всего массового явления в целом.
Таким образом, при достаточно большом числе испытаний,
характеристики случайных событий и случайных величин, наблюдаемых при испытании (в опыте), становятся почти неслучайными. Теория вероятностей изучает эти закономерности.
Группа теорем, устанавливающих соответствие между теоретическими и экспериментальными характеристиками случайных
величин и случайных событий при большом числе испытаний над
ними, а также касающихся предельных законов распределения,
объединяются под общим названием предельных теорем теории
вероятностей.
1
Рассмотрение предельных теорем начнём с утверждений и
теорем, объединённые общим названием – закон больших чисел.
Наиболее изящные и простые доказательства этих теорем получаются с помощью неравенства Чебышева, которое мы и рассмотрим в первую очередь.
1.1. Неравенство Чебышева
Если случайная величина имеет конечное математическое
ожидание и дисперсию, то для любого положительного числа 
справедливо неравенство
 (∣ −  []∣ < ) > 1 −
[]
,
2
(1)
где  – случайная величина,  [] и [] – соответственно математическое ожидание и дисперсия,  > 0 .
Доказательство. Проведем доказательство для непрерывной случайной величины с плотностью вероятности  () . В этом
случае
∫
+∞
[] =
( −  [])2  () .
−∞
Разобъём область интегрирования на две области:
∣ −  []∣ < [] и ∣ −  []∣ ≥ [] , где [] – среднее
квдратичное отклонение ( [] =  2 [] ) и  > 0 :
∫
[] =
( −  [])2  () +
∣− []∣≥[]
∫
+
( −  [])2  () .
∣− []∣<[]
Оба интеграла, входящих в формулу для дисперсии, неотрицательны (в силу неотрицательности подинтегральной функции),
отбросив второй из них и заменив в подинтегральной функции в
2
первом интеграле ∣ −  [] на минимально возможное значение
[] , получим следующее неравенство:
∫
[] ≥
( −  [])2  () >
∣− []∣≥[]
>  2  2 []
∫
 () .
∣− []∣≥[]
 ( ≤  ≤ ) =
Так как,
∫

 () ,
то
[] >  2 [] (∣ −  []∣ ≥ [])
или
1
>  (∣ −  []∣ ≥ []) .
2
Приняв во внимание, что
 (∣ −  []∣ < []) = 1 −  (∣ −  []∣ ≥ [])
и, выбрав  = [] , получим неравенство Чебышева
 (∣ −  []∣ < ) > 1 −
[]
.
2
Замечания
1. Очевидно, что
 (∣ −  []∣ ≥ ) ≤
[]
.
2
(2)
2. Неравенство Чебышева справедливо для любого закона распределения.
3. Неравенство Чебышева позволяет оценить вероятность в
том или ином случае. Обычно это довольно грубая оценка. Так
при  = [] мы получим:
 (∣ −  []∣ ≥ []) ≤
 2 []
=1,
 2 []
3
что и так ясно, ибо вероятность не может быть больше единицы.
Однако при  = 3[] оценка получается более интересной и
точной:
 (∣ −  []∣ ≥ 3[]) ≤
1
 2 []
= = 0.11 .
2
9 []
9
Теоретическое же значение неравенства Чебышева очень велико.
1.2. Закон больших чисел в форме Чебышева
Пусть случайные величины 1 , 2 , ...,  , ...
попарно независимы и имеют конечные дисперсии, ограниченные одной и той
же постоянной  : [ ] ≤ ,  = 1, 2, ... . Тогда, для любого
>0:
{ 
}

1 ∑
1∑
lim  (3)
 −
 [ ] <  = 1 .
→∞


=1
=1
1 ∑
 , тогда
Доказательство. Пусть в  =
 =1
1 ∑
1 ∑

 [] =
.
=1  [ ] и [] = 2
=1 [ ] ≤



Из (2) следует:
}
{ 


1 ∑
1 ∑
1∑

  −
 [ ] ≥  ≤ 2 2
[ ] ≤ 2 .


 
 
=1
=1
=1
Перейдя к пределу при  → ∞ , получаем
}
{ 

1 ∑
∑
1
lim   −
 [ ] ≥  ≤ 0 .
→∞


=1
=1
Так как вероятность не может быть отрицательной, то
{ 
}

1 ∑
1∑
lim   −
 [ ] ≥  = 0
→∞


=1
4
=1
и соответственно
{ 
}

1 ∑
∑
1
lim   −
 [ ] >  = 1 .
→∞


=1
=1
Замечания
1. Закон больших чисел устанавливает условия сходимости по
вероятности среднего арифметического  случайных величин
к среднему арифметическому их математических ожиданий.
2. Для вывода формулы (3) достаточно потребовать, чтобы
[  ]
∑
1
lim 2 
 = 0 .
→∞ 
=1
В этом состоит суть теоремы Маркова, которая утверждает,
что Закон больших чисел выполняется, если дисперсия суммы
слагаемых растёт не слишком быстро с ростом  .
1.3. Теорема Бернулли
Теорема Бернулли – одна из важнейших теорем теории
вероятностей и является простейшим случаем закона больших
чисел. Впервые она была опубликована в труде Я. Бернулли
«Искусство предположений», изданном в 1713 году. Наиболее
изящное и краткое её доказательство нашёл П. Л. Чебышев в
середине 19 века.
Теорема. Рассмотрим схему независимых испытаний. Пусть
 – число наступлений события А в  независимых испытаниях Бернулли, р – вероятность наступления события А в одном
испытании. Тогда для любого  > 0
}
{ 

−  <  = 1 .
(4)
lim  →∞

5
Другими словами, сколь угодно близка к единице вероятность
того, что отклонение относительной частоты от вероятности р
по абсолютной величине будет сколь угодно малым, если число
испытаний n достаточно велико.
Доказательство. Из того, что случайная величина 
распределена по биномиальному закону, имеем [1]
 [ ] =  ,
[ ] = (1 − )
и тогда

[ ]


=,

[ ]


=
(1 − )
.

Неравенство Чебышева (1) принимает следующий вид:
{ 
}
(1 − )

lim  −  <  > 1 −
.
→∞

2
Переходя к пределу в последнем неравенстве при  → ∞ получаем формулу (4).
1.4. Центральная предельная теорема (теорема
Ляпунова)
Группа теорем, касающихся предельных законов распределения суммы случайных величин, носит общее название центральной предельной теоремы.
Рассмотрим классическую формулировку центральной предельной теоремы.
Теорема. Пусть 1 , 2 , ... ,  , ... есть бесконечная последовательность независимых одинаково распределённых случайных
величин, имеющих конечное математическое ожидание и дисперсию. Обозначим последние  и  2 , соответственно. Тогда
∑
 − 
√
, где  = =1  , стремится по распределению при
 
6
 → ∞ к  (0, 1) – нормальному распределению с нулевым математическим ожиданием и стандартным отклонением, равным
единице:
 − 
√
−−−→  (0, 1) .
(5)
→∞
 
Замечания
1.  −→  (,  2 ) по распределению при достаточно больших  .
1 ∑
 , то мы можем переписать резуль2. Если ¯ =
 =1
тат центральной предельной теоремы в следующем виде:
¯ − 
√ −−−→  (0, 1) .
/  →∞
(6)
Доказательство центральной предельной теоремы приведено
в разделе 1.6 (Характеристические функции).
Ниже мы подробно рассмотрим примеры использования
центральной предельной теоремы при решении конкретных
задач.
Пример 1.1. Игральную кость бросают 300 раз. Найти вероятность того, что 1 или 2 выпадет от 85 до 115 раз.
Решение. Будем считать выпадение 1 или 2 благоприятным исходом отдельного испытания (броска). Пусть  — число
благоприятных исходов. Требуется определить  (85 ≤  ≤ 115) .
Отдельные броски игральной кости можно считать независимыми испытаниями и задачу можно решить, используя распределение Бернулли. Вероятность  благоприятных исходов в серии
из  независимых испытаний согласно формуле Бернулли равна
 () =   (1 − )(−) ,
где p – вероятность благоприятного исхода в отдельном испыта1
нии. В нашем случае  = .
3
7
Искомая вероятность будет определяться суммой
 (85 ≤  ≤ 115) =
=115
∑

300
=85
( ) (
)
1
1 (300−)
1−
,
3
3
вычисление которой весьма утомительно.
Более простой и удобный способ решения поставленной задачи состоит в использовании центральной предельной теоремы.
Пусть  – случайная величина, относящаяся к одному испытанию. Будем считать, что  принимает значения  с вероятностью  и имеет следующий закон распределения (1 соответствует благоприятному исходу отдельного испытания, 0 – противоположному случаю):

0
1
 2/3 1/3
 [ ] =  = 1 ×
1
2
1
+0× =
,
3
3
3
( )2
1
2
1
2
+ 02 × −
=
.
3
3
3
9
Очевидно, что при таком выборе закона∑распределения для
отдельных  , случайная величина 300 = 300
будет опи=1 
сывать число благоприятных исходов (выпадение 1 и 2) в нашей
задаче.
Так как общее число испытаний (300) достаточно велико, то
мы можем считать, что условия центральной теоремы выполнены
и 300 имеет нормальное распределена  (,  2 ) с мате1
матическим ожиданием  = × 300 = 100 и дисперсией
3
2
200
2
  = × 300 =
. Если так, то
9
3
∫ 2
 (1 ≤  ≤ 2 ) =
 (,  2 ) =
 =  [2 ] −  [ ]2 =  2 = 12 ×
1
8
{
}
∫ 2
( − )2
1
exp −
 =
= √
2 2
 2 1
(
)
)
(
2 − 
1 − 
√
√
= Φ0
− Φ0
,
 
 
(7)
где Φ0 () – функция Лапласа (некоторые свойства и таблица значений Φ0 () приведены в Приложении).
Как видно из (7),  (1 ≤  ≤ 2 ) не зависит от закона распределения отдельных случайных величин, остаётся зависимость
только от их средних значений – математического ожидания  и
дисперсии  2 .
Подставив численные значения, соответствующие нашей задаче, получим
⎞
⎞
⎛
⎛
⎟
⎜ (115 − 100) ⎟
⎜
⎟ − Φ0 ⎜ (85 −√100) ⎟ =
√
 (85 ≤  ≤ 115) = Φ0 ⎜
⎠
⎝
⎝
2
2 ⎠
10
10
3
3
⎛
⎞
⎜ (115 − 100) ⎟
⎟ = 2Φ0 (1.84) = 2 × 0.4671 = 0.93 .
√
= 2Φ0 ⎜
⎝
2 ⎠
10
3
Иными словами, вероятность того, что полное число благоприятных исходов не заключено в пределах от 85 до 115, составляет лишь 7 процентов.
Замечание. Данный пример относится к схеме независимых испытаний и может быть также рассмотрен с помощью
предельной теоремы Муавра–Лапласа.
Пример 1.2. Величина S – сумма 100 чисел, каждое из которых сгенерировано датчиком случайных чисел. Датчики вырабатывают случайные числа, равномерно распределённые в интервале [ 0 ; 1 ]. Найти пределы, в которые с вероятностью, не
меньшей 0.9, попадёт S.
9
Решение. Пусть
м датчиком. Если 
[ ; ], то [1]
 – случайное число, выработанное равномерно распределены в интервале
+
;
2
В нашем случае  = 0
1
 [ ] =
и
2
1
(1 − 0)2
=
.
[ ] =  2 =
12
12
 [ ] =  =
( − )2
.
12
 = 1 , соответственно
[ ] =  2 =
и
Величина S, согласно центральной предельной теореме, стремится к нормальному распределению  (,  2 ). Будем искать
интервал, симметричный относительно математического ожида√
√
ния [  −   ;  +   ] , где t > 0 — параметр.
√
√
 ( −   ≤  ≤  +  ) = Φ0 () − Φ0 (−) = 2Φ0 () .
По условию задачи  ≥ 0.9 и, следовательно, 2Φ0 () ≥ 0.9
или Φ0 () ≥ 0.45 . Обратившись к таблицам значений функции
Лапласа, мы найдём, что  ≥ 1.64 .
В результате находим искомый интервал:
√
√
16.4
16.4
[  −   ;  +   ] = [50 − √ ; 50 + √ ] = [45.3 ; 54.7] .
2 3
2 3
Ответ: 45.3 ≤  ≤ 54.7 с вероятностью не меньшей 0.9 .
1.5. Предельная (интегральная) теорема
Муавра–Лапласа
Интегральная теорема Муавра–Лапласа является следствием центральной предельной теоремы в случае, когда реализуется
схема независимых испытаний и случайная величина распределена по биномиальному закону.
Теорема. Рассмотрим схему независимых испытаний. Пусть
 – число наступлений события А в  независимых испытаниях
10
Бернулли, р – вероятность наступления события А в одном ис − 
пытании. Тогда √
стремится по распределению при
(1 − )
 → ∞ к  (0, 1) – нормальному распределению с нулевым математическим ожиданием и стандартным отклонением, равным
единице:
 − 
√ 
−−−→  (0, 1) .
(8)
(1 − ) →∞
Доказательство. Пусть  есть сумма независимых, одинаково распределённых случайных величин, имеющих распределение Бернулли (биномиальное распределение):  = 1 + 2 +
... +  , где  = 1, если событие А произошло, и  = 0 в противоположном случае. Закон распределения для  имеет вид:


0
1−
1

и
 [ ] =  = ,
[ ] =  2 = (1 − ) .
Подставляя выражения для  и  2 в выражение для центральной предельной теоремы (5) и положив  =  , мы
получим интегральную теорему Муавра–Лапласа (8).
Замечания
1.  −→  (, (1−)) по распределению при достаточно
больших  .
2. Если


1∑

¯=
=
 ,


=1
то мы можем переписать результат теоремы Муавра–Лапласа в
11
следующем виде:

¯−
√
(1 − )

−−−→  (0, 1) .
→∞
Рассмотрим пример использования интегральной теоремы
Муавра–Лапласа при решении задач.
Пример 1.3. Классическая задача. Монета подбрасывается
100, 900 и 10000 раз. Оценим в каждом из случаев вероятность
того, что частота выпадения герба отличается от половины на
одну сотую или более.
Решение. 
¯ – частота выпадения герба,  = 0.5 . Рассмотрим сначала вероятность противоположного события  (∣¯
 − ∣ ≤
0.01) .
Случайная величина 
¯ −  имеет равное 0 математическое
(1 − )
0.25
ожидание и дисперсию [¯
 − ] =
=
. Тогда


)
(
0.25
и  (∣¯
 − 0.5∣ ≤ 0.01) =

¯ −  −→  0,

=  (−0.01 ≤ 
¯ − 0.5 ≤ 0.01) =
√
√
√
= Φ0 (2 × 0.01 ) − Φ0 (−2 × 0.01 ) = 2Φ0 (0.02 ) .
Таким образом,
для  = 100  (∣¯
 − 0.5∣ ≤ 0.01) = 2Φ0 (0.2) = 0.1586 ,
для  = 900  (∣¯
 − 0.5∣ ≤ 0.01) = 2Φ0 (0.6) = 0.4514 ,
для  = 10000  (∣¯
 − 0.5∣ ≤ 0.01) = 2Φ0 (2.0) = 0.9544 .
Ответ:  (∣¯
 − ∣ ≥ 0, 01) – вероятность того, что частота
выпадения герба отличается от половины на одну сотую или более, для 100, 900 и 10000 бросков равна соответственно 1 – 0.1586
= 0.8414, 1 – 0.4514 = 0.5486 и 1 – 0.9544 = 0.0456.
12
Данный пример иллюстрирует тот факт, что с увеличением
числа бросков (испытаний) частота выпадения герба по вероятности стремится к своему математическому ожиданию, то есть к
половине.
1.6. Характеристические функции
Определение. Характеристической функцией случайной
величины  называется функция
() =  [exp()] .
(9)
Таким образом, () представляет собой математическое ожидание некоторой комплексной случайной величины  = exp(),
связанной с величиной . В частности, если  – дискретная случайная величина, заданная рядом распределения { ;  }, то
() =

∑
exp( ) .
(10)
=1
Для непрерывной случайной величины с плотностью распределения вероятности  ()
∫
+∞
() =
exp() () .
(11)
−∞
Пример 1.4. Пусть  – выпадение 10 и более очков при
одновременном броске двух игральных кубиков. Тогда


0
5/6
1
1/6
5
1
5 + exp()
и по формуле (10) () = exp(×0) +exp(×1) =
.
6
6
6
13
Пример 1.5. Найти характеристическую функцию случайной величины, распределенной по нормальному закону ( 2 – дисперсия,  – математическое ожидание)
{
}
1
( − )2
 () = √
exp −
.
2 2
2
Согласно (11)
∫
+∞
() =
−∞
Пусть  =
{
}
1
( − )2
exp() √
exp −
 .
2 2
2
−
, тогда

( 2)
∫

exp() +∞
exp() exp −
 =
 () = √
2
2
−∞
(
)
2  2
(
)
∫ +∞
exp  −
1
2
2
√
=
exp − ( − )  .
2
2
−∞
Так как
∫
+∞
−∞
(
)
√
1
2
exp − ( − )  = 2 ,
2
то искомая характеристическая функция равна
(
)
2  2
() = exp  −
.
2
(12)
Свойства характеристических функций
1. Функцию  () можно найти по известной характеристической функции () по формуле
∫ +∞
1
 () =
exp(−)() .
(13)
2 −∞
14
Формула (11) – прямое преобразование Фурье, а формула
(13) – обратное преобразование Фурье. В силу единственности
преобразования Фурье, между  () и () имеется однозначное
соответствие: известной плотности распределения вероятности
 () соответствует одна и только одна характеристическая
функция (), и наоборот.
2. Если случайные величины Y и X связаны соотношением
Y = aX , то их характеристические функции связаны соотношением:
 () =  () .
(14)
Доказательство
 () =  [exp( )] =  [exp()] =
=  [exp(˜)] =  (˜) =  () .
3. Характеристическая функция суммы независимых случайных величин равна произведению характеристических функций
слагаемых: если  = 1 + 2 + ... +  , то
 () = 1 () ⋅ 2 () ⋅ ⋅ ⋅  () .
(15)
Доказательство
 () =  [exp( )] =  [exp((1 + 2 + ... +  ))] =
=  [exp(1 ) ⋅ exp(2 ) ⋅ ⋅ ⋅ exp( )] =
=  [exp(1 )] ⋅ ⋅ ⋅  [exp( )] = 1 () ⋅ 2 () ⋅ ⋅ ⋅  () .
Если случайные величины  имеют одинаковое распределение ( () =  () ), то
 () = ( ()) .
(16)
4. Характеристические функции  () =  [exp()] часто
называют производящей функцией начальных моментов.
15
Действительно, пусть существуют начальные моменты порядка  = 1, 2, ... случайной величины  , то есть ∣ [  ]∣ < ∞ . Тогда
характеристическая функция  () непрерывно дифференцируема  раз и её -я производная в нуле связана с -м моментом
равенством:
)
( 

()
=
 (0) =

[exp()]

=0
= ( [   exp()])∣=0 =   [  ] .
(17)
5. Пусть существуют моменты порядка  = 1, 2, ... случайной
величины  , то есть ∣ [  ]∣ < ∞ . Тогда ее характеристическая
функция  () в окрестности точки  = 0 разлагается в ряд Тейлора:


∑
∑
 ()
 

 () =  (0) +
 (0) + (∣ ∣) = 1 +
 [  ] + (∣ ∣) =
!
!
=1
= 1 +  [] −
=1
2
 
 [ 2 ] + ... +
 [  ] + (∣ ∣) .
2
!
(18)
Замечания
1. Нормальное распределение устойчиво относительно суммирования.
Пусть случайные величины 1 и 2 независимы и имеют нормальные распределения  (1 , 12 ) и  (2 , 22 ) соответственно. Тогда, согласно (12) и (15), характеристическая функция суммы
1 + 2 равна
)
(
)
(
2 12
2 22
1 +2 () = 1 () ⋅ 2 () = exp 1 −
⋅ exp 2 −
=
2
2
{
}
2 (12 + 22 )
= exp (1 + 2 ) −
.
2
16
То есть характеристическая функция суммы есть характеристическая функция нормального распределения с параметрами
1 + 2 и 12 + 22 и сумма 1 + 2 распределена соответственно по
нормальному распределению  (1 + 2 , 12 + 22 ) .
2. Если случайная величина X имеет нормальное распределение  (0, 1), то случайная величина  = + имеет нормальное
распределение  (,  2 ).
Действительно, характеристическая функция случайной величины Y равна (см. формулы (12), (14) и (15))
+ () =  () ⋅  () =  () ⋅  () =
2  2
= exp() ⋅ exp −
2
(
)
2  2
= exp  −
2
(
)
.
Характеристическая
функция
случайной
величины
 =  +  есть характеристическая функция нормального распределения с параметрами  и  2 . Следовательно
 =  +  распределена по нормальному закону  (,  2 ), что
и требовалось показать.
Пример 1.6. 1 – случайная величина с нормальным распределением  (1, 4), а 2 – случайная величина с нормальным
распределением  (3, 9). Найти закон распределения вероятности
для  = 5 + 21 + 72 .
Решение. 1 = 1+20 ; 2 = 3+30 , где 0 – случайная
величина, распределённая по нормальному закону  (0, 1) .
 = 5+2(1+20 )+7(3+30 ) = 5+2+21+(4+21)0 = 28+250 .
Случайная величина Y
 (28, 252 ) =  (28, 625) .
имеет
нормальное
распределение
17
Центральная предельная теорема. Доказательство
Теорема. Пусть 1 , 2 , ... ,  , ... есть бесконечная последовательность независимых одинаково распределённых случайных величин, имеющих конечное математическое ожидание
и дисперсию. Обозначим последние  и  2 , соответственно.
∑
 − 
√
стремится по распредеПусть  = =1  , тогда
 
лению при  → ∞ к  (0, 1) — нормальному распределению с
нулевым математическим ожиданием и единичной дисперсией:
 − 
√
−−−→  (0, 1).
→∞
 
Доказательство.
ции.
Используем характеристические функ-
1
Пусть  = √ ( − ) .
 
Согласно формуле (18)  () = 1 +  [ ]−
−
2
3
 
 [2 ] −
 [3 ] + ... +
 [ ] + ... .
2
6
!
(19)
2
1
= . При  → ∞
2
 

(
)
1
2
 () =  () = 1 −
+  .
(20)
2

В сумме (19)  [ ] = 0 и  [2 ] =
Интересующая нас случайная величина

 −  ∑
√
=

 
=1
и её характеристическая функция
18
() = 1 () ⋅ 2 () ⋅ ⋅ ⋅  () =
(

= ( ()) =
( ))
1
2
+  .
1−
2

(21)
Переходя в (21) к пределу при  → ∞ , получим
(
() = lim
→∞
2
1−
2
)
( 2)

= exp −
.
2
(22)
Вывод. При  → ∞ характеристическая функция случай − 
√
ной величины
стремится к характеристической функ 
ции нормального распределения  (0, 1). Так как между случайной величиной и её характеристической функцией имеется однозначное соответствие, то
 − 
√
−−−→  (0, 1) ,
→∞
 
что и требовалось доказать.
1.7. Вопросы для самоконтроля
1. Дать определение сходимости по вероятности.
2. Записать неравенство Чебышева.
3. Для каких законов распределения случайной величины
справедливо неравенство Чебышева?
4. Сформулировать закон больших чисел в форме Чебышева.
5. При каком условии выполняется закон больших чисел согласно Маркову?
6. Сформулировать теорему Бернулли.
7. Сформулировать центральную предельную теорему в форме Ляпунова.
19
8. Привести примеры использования центральной предельной теоремы на практике.
9. Дать определение характеристической функции.
10. Как построить характеристическую функцию дискретной
случайной величины?
11. Какой вид имеет характеристическая функция нормально
распределённой случайной величины?
12. Почему характеристическую функцию называют производящей функцией моментов?
13. Какие свойства характеристических функций лежат в основе доказательства центральной предельной теоремы?
20
2. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Мы живём в мире информации. Информация становится частью действительности и нашего сознания. Без адекватных технологий анализа информации (данных) невозможно ориентироваться в информационной среде.
Математическая статистика позволяет компактно описать
данные, понять их структуру, провести классификацию, установить закономерности в хаосе случайных явлений.
Математическая статистика решает две основные задачи.
Первая – сбор и группировка статистических данных.
Вторая – разработка методов анализа полученных данных в зависимости от целей исследования.
К методам статистического анализа данных относятся:
∙ оценка неизвестной вероятности события;
∙ оценка неизвестной функции распределения;
∙ оценка параметров известного распределения;
∙ проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.
Методы математической статистики применяются практически везде, где используется понятие информации и требуется её
анализ. В частности, статистический анализ является составной
частью инноватики – науки, охватывающей широкий круг вопросов от создания новых знаний до трансформации их в новшества и распространение новшеств.
В качестве примера рассмотрим довольно часто встречающуюся задачу. Предположим, что продуктом инновационной деятельности является важное нововведение (инновация): измене-
21
ние системы оплаты труда, переход на выпуск новой продукции,
использование новой технологии, методики. Требуется оценить
положительный эффект, убедиться, что положительный эффект
обусловлен именно инновацией, а не носит случайный характер.
Для решения этой задачи надо сформировать два набора данных
(выборок), каждый из которых содержит значения интересующего показателя эффективности до и после инновации. Статистические критерии сравнения этих двух выборок покажут насколько
случаен или закономерен рост показателей эффективности и является ли он результатом инновации.
2.1. Основные понятия математической статистики
Генеральная совокупность и выборка
∙ Генеральная совокупность – все множество исследуемых
объектов.
∙ Выборка – набор объектов, случайно отобранных из генеральной совокупности.
∙ Объем генеральной совокупности и объем выборки – соответственно число объектов в генеральной совокупности  и выборке .
Выборка бывает повторной, когда каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность, и безповторной, если отобранный объект в генеральную совокупность не возвращается.
Для того чтобы по выборке можно было сделать выводы об
поведении интересующего нас признака генеральной совокупности, нужно, чтобы выборка правильно представляла особенности
генеральной совокупности, то есть была репрезентативной (представительной). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если:
∙ объём выборки n достаточно большой;
∙ каждый объект выборки выбран случайно;
22
∙ для каждого объекта вероятность попасть в выборку
одинакова.
Пример 2.1. Пусть нас интересует усвоение основ математики школьниками выпускного класса в одном из федеральных
округов. Генеральная совокупность – множество всех школьников. Отобранные случайным образом школьники для проверки
знаний по математике – выборка.
В данном случае генеральная совокупность и выборка
являются одномерными (однофакторными). Если мы будем
интересоваться усвоением школьниками материалов сразу по
нескольким предметам, то генеральная совокупность и соответствующая выборка будут многомерными (многофакторными).
Пример 2.2. Для кредитной организации все потенциальные заёмщики – генеральная совокупность. Заёмщики с
известной кредитной историей – выборка. Исследуя выборку,
кредитная организация может классифицировать заёмщиков по
надёжности возврата кредита, что поможет оценить и снизить
возможные риски.
В данном случае генеральная совокупность и выборка являются
многофакторными и данная задача является примером многофакторного анализа. Если заёмщики являются юридическими
лицами, то роль факторов могут играть размер основных фондов, вид деятельности, объем реализации, частота невозврата
кредитов, факты мошенничества и т.п.
Выборочный закон распределения (статистический
ряд)
Пусть интересующая нас случайная величина  принимает в
выборке объёмом  значение 1 −1 раз, 2 −2 раз, ... ,  − раз.
Тогда, наблюдаемые значения случайной величины 1 , 2 , ... , 
называютcя вариантами, а 1 , 2 , ... ,  -– частотами,  −
23
 – размах выборки.
Величина  =  / называется относительной частотой.
Очевидно, что
=
∑
=
∑
 =  ,
=1
 = 1 .
=1
Если мы запишем варианты в возрастающнм порядке, то получим вариационный ряд.
Таблица, состоящая из упорядоченных вариант, частот и относительных частот называется статистическим рядом или выборочным законом распределения
1
1
1
2
2
2
3
3
3
...
...
...



Выборочный закон распределения является аналогом закона
(ряда) распределения дискретной случайной величины в теории
вероятности, который подробно был рассмотрен в первой части
нашего пособия [1].
Пример 2.3. При проведении 30 серий из 24 бросков каждая, число выпадений шести очков оказалось равным: 4, 2, 5, 6,
1, 4, 3, 7, 4, 4, 2, 3, 3, 5, 6, 4, 5, 3, 2, 4, 5, 1, 8, 3, 4, 4, 5, 2, 4, 6.
Тогда, вариационный ряд: 1, 2, 3, 4, 5, 6, 7 и 8, а выборочный
закон распределения (статистический ряд) имеет вид:



1
2
2/30
2
4
4/30
3
5
5/30
4
9
9/30
5
5
5/30
6
3
3/30
7
1
1/30
8
1
1/30
Если вариационный ряд состоит из очень большого количества чисел (или исследуется некоторый непрерывный признак),
то используют группированную выборку.
24
Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частей (подинтервалов) длиной h. При составлении статистического
ряда в качестве  обычно выбирают середины подинтервалов, а
 – число вариант, попавших в  − подинтервал.
Пусть ℎ = ( − )/, где  ≤  ,  ≥  и  – число
подинтервалов. Тогда, если  – сумма частот вариант, попавших
в  -й подинтервал, то
Номера подинтер.
Границы подинтер.

1
[;  + ℎ]
1
2
( + ℎ;  + 2ℎ]
1
...
...
...

(;  − ℎ]

Полигон частот, выборочная функция распределения
и гистограмма
Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики.
Полигон частот – ломаная линия, отрезки которой соединяют
точки с координатами (1 , 1 ), (2 , 2 ), ... , ( ,  ) . Значения
случайной величины  откладываются на оси абцисс, а значения  – на оси ординат. Если вместо абсолютных значений 
на оси ординат откладывать относительные частоты  , то мы
получим полигон относительных частот (рис. 2.1).

∘@
6
∘
@
@
@∘
∘
∘
- 
0
Рис. 2.1
25
По аналогии с функцией распределения дискретной случайной величины (см., например, [1]) можно построить выборочную
(эмпирическую) функцию распределения:
∗ () =
∑
1 ∑
 =
 .

 ≤
(23)
 ≤
Суммировние в (23) выполняется по всем частотам, для которых соответствующие значения вариант меньще . Эмпирическая
функция распределения зависит от объёма выборки n.
В отличие от ∗ () , найденной опытным путем в результате обработки статистических данных, функцию распределения
 () генеральной совокупности называют теоретической функцией распределения.  () определяет вероятность события при
<:
 () =  ( < ) ,
а ∗ () – его относительную частоту. При достаточно больших
, как следует из теоремы Бернулли (4), ∗ () стремится по
вероятности к  ().
Замечание. В дальнейшем все эмпирические величины
(найденные по выборке) будут иметь индекс ∗ , чтобы отличать
их от соответствующих теоретических величин, относящихся к
генеральной совокупности.
Свойства эмпирической функции распределения ∗ ()
Из определения ∗ () видно, что ее свойства совпадают со
свойствами  (), а именно:
1.) 0 ≤ ∗ () ≤ 1 ;
2.) ∗ () – неубывающая функция, то есть ∗ (2 ) ≥ ∗ (1 ),
если 2 > 1 ;
3.) Если 1 – наименьшая варианта, то ∗ () = 0 при  < 1 ;
если  -– наибольшая варианта, то ∗ () = 1 при  ≥  .
26
Соответственно ∗ (−∞) = 0 и ∗ (+∞) = 1 .
График эмпирической функции распределения имеет характерный ступенчатый вид (рис. 2.2).
∗ ()
1 6
-
- 
-
0
Рис. 2.2
Ещё одним графическим представлением интересующей нас
выборки является гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат подинтервалы длиной h, а высотами – отрезки длиной  /ℎ (гистограмма частот) или  /ℎ (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки , во втором – единице (рис. 2.3).

6
- 
0
Рис. 2.3
27
2.2. Числовые характеристики выборки
Задача математической статистики – получить по имеющейся
выборке информацию о генеральной совокупности. Числовые
характеристики выборки обычно являются хорошей оценкой соответствующих числовых характеристик исследуемой случайной
величины.
Выборочное среднее. Оценки дисперсии, начальных и
центральных моментов распределения, мода и
медиана
Определение. Выборочным средним называется среднее
арифметическое значений вариант в выборке:


¯=
1 + 2 + ... + 
1 1 + ... +  
1∑
=
=
  , (24)



=1
где  – варианты, а  – частоты.
Замечание. Выборочное среднее используется для оценки
математического ожидания исследуемой случайной величины.
Ниже мы рассмотрим вопрос, насколько такая оценка является
точной и надёжной.
Определение. Выборочной дисперсией называется
∗ =


=1
=1
1∑
1∑
( − 
¯)2 =
 ( − 
¯)2 ,


а выборочным средним квадратическим отклонением
√
∗ = ∗ .
(25)
(26)
Как и в случае теории случайных величин, легко показать,
что выполняется следующее соотношение, удобное для вычисления дисперсии:
∗ = ¯2 − 
¯2 ,
(27)
28
где


1∑
1∑ 2
 =
 2 .
¯2 =


=1
(28)
=1
Выборочная дисперсия характеризует разброс вариант относительно выборочного среднего. Чем больше разброс, тем
больше значение дисперсии.
Пример 2.4. Найдём выборочное среднее и выборочную
дисперсию для выборки



1
2
2/30
2
4
4/30
3
5
5/30
4
9
9/30
5
5
5/30
6
3
3/30
7
1
1/30
8
1
1/30
В данном примере  = 30 и  = 8 .

1∑
1

¯=
  = (2 × 1 + 4 × 2 + 5 × 3 + 9 × 4 + 5 × 5+

30
=1
+3 × 6 + 1 × 7 + 1 × 8) = 3.97

1∑
1
¯2 =
 2 = (2 × 12 + 4 × 22 + 5 × 32 + 9 × 42 + 5 × 52 +

30
=1
+ 3 × 62 + 1 × 72 + 1 × 82 ) = 18.43
(¯
)2 = 15.76 , и по (27) найдём, что
∗ = 18.43 − 15.76 = 2.67 и  ∗ =
√
2.67 = 1.63 .
Напомним, что дисперсия не может быть отрицательной.
Получение отрицательной дисперсии по формуле (27) свидетельствует об ошибке в вычислениях.
29
Другими характеристиками вариационного ряда являются:
∙ мода 0 — варианта, имеющая наибольшую частоту (в
нашем примере мода равна 4 );
∙ медиана  — варианта, которая делит вариационный
ряд на две части, равные по числу вариант. Если число вариант нечетно ( = 2 + 1), то  = +1 , а при четном
числе вариант ( = 2)  = 21 ( + +1 ). В частности,
в рассматриваемрй выборке
n = 30
и медиана равна
 = (15 + 16 )/2 = (6 + 4)/2 = 5 .
По аналогии с соответствующими теоретическими выражениями можно построить оценки (так называемые эмпирические
моменты) для начальных и центральных моментов:
начальным эмпирическим моментом порядка  называется
∗



=1
=1
1∑ 
1∑
=
 =
 
 ;


(29)
центральным эмпирическим моментом порядка  называется
∗


=1
=1
1∑
1∑
=
( − 
¯) =
 ( − 
¯) .


(30)
Выражения (29) и (30) имеют одинаковую структуру. В начальных моментах значения вариант "отсчитываются"от начала,
за которое принят 0, в центральных — от выборочного среднего
(центра). В частности:
∙ первый начальный момент 1∗ – выборочное среднее 
¯;
∙ первый центральный момент ∗1 равен нулю;
∙ второй центральный момент ∗2 – выборочная дисперсия ∗ .
30
Cвойства статистических оценок параметров
распределения: несмещенность, состоятельность,
эффективность
Получив статистические оценки параметров распределения
(выборочное среднее, выборочную дисперсию и т. д.), нужно убедиться, что они являются хорошим приближением соответствующих характеристик генеральной совокупности. Найдём условия,
которые должны для этого выполняться.
Пусть ∗ – статистическая оценка неизвестного параметра 
теоретического распределения. Выделим из генеральной совокупности  выборок одного и того же объема  и вычислим для каждой из них оценку параметра ∗ ( = 1, 2, ..., ). Оценку ∗ можно
рассматривать как некоторую случайную величину, принимающую возможные значения ∗ . Если математическое ожидание
∗ не равно оцениваемому параметру, то мы будем получать при
вычислении оценок систематические ошибки одного знака (если
 [∗ ] >  , оценка будет завышена, если  [∗ ] <  – занижена).
Следовательно, необходимым условием отсутствия систематических ошибок является требование  [∗ ] =  .
Определение.
Статистическая оценка ∗ называется
несмещенной, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности  при любом объеме
выборки:
 [∗ ] =  .
(31)
Если условие (31) не выполняется, оценка называется смещённой.
Несмещенность оценки не является достаточным условием
хорошего приближения к истинному значению оцениваемого параметра. Разброс отдельных значений ∗ относительно среднего
значения зависит от величины дисперсии ∗ . Если дисперсия
велика, то значение, найденное по данным одной выборки ∗ ,
31
может значительно отличаться от оцениваемого параметра.
Следовательно, дисперсия должна быть мала.
Определение. Статистическая оценка называется эффективной, если она при заданном объеме выборки  имеет наименьшую возможную дисперсию.
К статистическим оценкам предъявляется еще требование
состоятельности.
Определение. Оценка называется состоятельной, если при
 → ∞ стремится по вероятности к оцениваемому параметру.
Заметим, что несмещённая оценки будет состоятельной, если
при  → ∞ ее дисперсия стремится к 0.
Несмещённость, эффективность и состоятельность
выборочного среднего 
¯.
¯ а варианБудем рассматривать 
¯ как случайную величину ,
ты 1 , 2 , ...,  , составляющие выборку, – как значения независимых, одинаково распределенных случайных величин 1 , 2 , ...,  ,
имеющих математическое ожидание  [ ] =  и дисперсию
[ ] =  2 . Тогда,

∑
¯= 1

 .
(32)

=1
Несмещённость 
¯. Из свойств математического ожидания
[1]
]
[  ]


∑
∑
1
1
1∑
¯ =
 []
 = 
 =
 [ ] =



[
=1
=1

=
1∑

=
=,


=1
что и требовалось доказать.
32
=1
Эффективность 
¯. Найдём сначала дисперсию выборочного среднего. Из свойств дисперсии [1] следует, что
[  ]
[  ]

∑
∑
1
1
1 ∑
¯ =
 = 2
[]
 = 2 
[ ] =



=1
=1
=
1
2

∑
2 =
=1
=1
 2
2
=
;
2

2
.

¯ стремится к нулю при  → ∞ .
Заметим, что []
¯ =
[]
(33)
Для проверки эффективности оценки воспользуемся неравенством Крамера–Рао.
Пусть ∗ – несмещённая оценка параметра генеральной совокупности  по выборке объёмом . Тогда для непрерывной
случайной величины  с плотностью распределения вероятности
 (, ) , зависящей от параметра  :
[∗ ] ≥
1
,
()
где () – информация Фишера
[(
) ]
∂ ln  (, ) 2
.
() = 
∂
(34)
(35)
Несмещённая оценка параметра ∗ будет эффективной, если для неё неравенство Крамера–Рао обращается в равенство. В
этом случае дисперсия данной оценки наименьшая из возможных
и она в некотором смысле лучше всех остальных.
Очевидно, что дальнейшее рассмотрение предполагает знание
распределения случайной величины . Возвращаюсь к выборочному среднему 
¯, в качестве примера, мы рассмотрим генеральную совокупность с нормальным законом распределения.
33
Пусть в неравенстве (34) – (35) ∗ = 
¯, а
}
{
√
( − )2
 (, )) = (1/ 2) exp −
2 2
– нормальный закон распределения с математическим ожиданием  (соответственно  =  ).
Вычислим информацию Фишера (35):
[(
{
(
}))2 ]
( − )2
∂
1
√ exp −
() = 
ln
=
∂
2 2
 2
[(
[(
( (
)
))2 ]
) ]
1
( − )2
− 2
∂
√
ln
−
=
=
=
∂
2 2
2
 2
=
 [( − )2 ]
2
1
=
= 2.
4
4

2
Таким образом, правая часть неравенства (34) равна
.

∗
¯ мы уже вычислили.
Левую часть неравенства (34) [ ] = []
2

Согласно (33) она также равна
.

Неравенство (34) превращается в равенство. Это означает эффективность выборочного среднего как оценки математического
ожидания нормальной генеральной совокупности.
Мы воспользовались при доказательстве эффективности
оценки неравенством Крамера–Рао для непрерывной случайной
случайной величины. Аналогично можеть быть рассмотрен
дискретный случай.
Состоятельность 
¯. Пусть  – оцениваемый параметр (математическое ожидание генеральной совокупности),  2 – дисперсия генеральной совокупности. Рассмотрим неравенство Чебышева в форме (2)
[]
 (∣ −  []∣ ≥ ) ≤ 2 .

34
2
¯  [] =  []
¯ = , [] = []
¯ =
В нашем случае  = ,

2
¯
и  (∣ − ∣ ≥ ) ≤ 2 .

При  → ∞ правая часть неравенства для любого  > 0 стремится к нулю:
¯ − ∣ ≥ )) = 0 .
lim ( (∣
→∞
Таким образом, выборочное среднее 
¯ является состоятельной оценкой математического ожидания  , так как стремится
к нему по вероятности при устремлении объёма выборки  к
бесконечности.
Выборочная дисперсия ∗ как пример смещённой
оценки дисперсии генеральной совокупности  2
Исследуем несмещённость выборочной дисперсии ∗ . Представим 
¯ и ¯2 как случайные величины (см. (32)):


∑
¯= 1

 ,

1∑ 2
 .
¯2 =

=1
=1
¯ 2 . Тогда
Согласно (27) ∗ = ¯2 − ()
⎡
(  )2 ⎤

∑
1
1∑
¯ 2] =  ⎣
 [∗ ] =  [¯2 − ()
2 −
 ⎦ =


=1
=1



1∑
1 ∑∑
2
=
 [  ] .
 [ ] − 2


=1 =1
=1
Разобъём двойную сумму в на две, выделив отдельно суммирование по  =  ,



1∑
1 ∑
1 ∑
2
2
 [ ] =
 [ ] − 2
 [ ] − 2
 [  ] .



∗
=1
=1
(36)
∕=
35
Так как  и  независимые случайные величины, то
 [  ] =  [ ] [ ] (см., например, ]1]). Дисперсия генеральной совокупности  2 = 2 − 12 , где 1 =  [ ] и 2 =  [2 ]
– соответственно первый и второй начальные моменты генеральной совокупности.
Из (36) получим
(
)



1∑
−1
1 ∑
1 ∑ 2
∗
 [ ] =
1 =
2 −
2 − 2
2 − 2





(
−
2
−1

)

12 =
(
−1

∕=
)
(2 − 12 ) =
(
−1

)
2 .
(37)
Итак,  [∗ ] ∕=  2 , то есть ∗ – смещённая оценка дисперсии
генеральной совокупности. Однако,
(
)
−1
lim  [∗ ] = lim
2 = 2 ,
→∞
→∞

что означает асимптотическую несмещённость этой оценки.
Замечания
1. Можно предложить другую оценку дисперсии – исправленную выборочную дисперсию 2 , вычисляемую по формуле:

2 =

1 ∑
∗ =
 ( − 
¯)2 .
−1
−1
(38)
=1
Такая оценка будет несмещенной. Ей соответствует исправленное выборочное среднее квадратическое отклонение
v
u

u 1 ∑
√
⎷
2
=  =
 ( − 
¯)2 .
(39)
−1
=1
36
2. Исправленная выборочная дисперсия 2 – есть несмещённая оценка дисперсии генеральной совокупности при неизвестном математическом ожидании. Если же математическое ожидание известно, то несмещённой оценкой дисперсии генеральной
совокупности будет выборочная дисперсия

20 =
1∑
 ( − )2 .

(40)
=1
2.3. Оценивание параметров известного
распределения
Построив по выборке оценки числовых характеристик генеральной совокукпности, можно перейти к дальнейшему её
изучению. На первом этапе из каких-либо соображений надо
сделать предположения (гипотезу) о форме распределения.
В дальнейшем мы подробно рассмотрим способы проверки
справедливости выдвинутых гипотез. В настоящем же разделе
будем считать, что общий вид распределения нам известен и
остаётся уточнить только детали – параметры, определяющие
окончательную форму распределения генеральной совокупности. Существует несколько подходов к решению этой задачи,
некоторые из них мы рассмотрим подробно.
Метод моментов
Если распределение генеральной совокупности зависит от параметров ⃗ = (1 , 2 , ...,  ) , то и моменты генеральной совокупно⃗ и  =  ()
⃗ .
сти зависят от этих параметров, то есть  =  ()
∗
∗
⃗
⃗
Выборочные моменты  ,  сходятся к  () ,  () и при достаточно больших объёмах выборки  можно считать, что
⃗ ≈ ∗ ,
 ()

⃗ ≈ ∗ .
 ()

(41)
37
Метод моментов (Пирсон, 1894) основан на использовании
⃗ ,  ()
⃗ рассчитыприближённого равенства (41). Моменты  ()
ваются теоретически по известному закону распределения с параметрами ⃗ , выборочные моменты ∗ , ∗ вычисляются по имеющейся выборке. Неизвестные параметры ⃗ определяется в результате решения уравнений (41).
Можно показать [2], что при довольно общих условиях,
оценки параметров ⃗ , полученные по методу моментов, состоятельны, их математические ожидания отличаются от истинных
значений параметров на величину порядка −1 , а средние квадратические отклонения являются величинами порядка −0,5 .
Пример 2.5. Известно, что генеральная совокупность имеет
равномерное распределение, зависящее от параметров  и  :
⎧

0 , если  ∈ (−∞, );

⎨ 1
 () =
, если  ∈ [, ];

−

⎩
0 , если  ∈ (, +∞).
(42)
Требуется определить параметры  и  по известным выборочному среднему 
¯ и выборочной дисперсии ∗ = ( ∗ )2 .
Решение. Как известно, математическое ожидание (первый
начальный момент 1 ) и дисперсия (второй центральный момент
2 ) в случае равномерного распределения равны [1]:
1 =
+
,
2
2 =
( − )2
.
12
Согласно равенству (41)
⎫
+

=
¯
⎬
2

( − )2
= ∗ = ( ∗ )2 ⎭
12
38
(43)
Решая систему (43), найдём
=
¯−
=
¯+
√
√
3 ∗
}
(44)
3 ∗
Метод наибольшего правдоподобия
Метод наибольшего правдоподобия предложен Фишером в
1912 году.
Если случайная величина  относится к непрерывному типу,
то закон распределения генеральной совокупности  описывается
⃗ ; если же мы имеем
функцией плотности распределения  (, )
дело с дискретной случайной величиной, то закон её распреде⃗ – вероятностями, соответствующиления определяется  ( , )
ми дискретным значениям  . Здесь ⃗ = (1 , 2 , ...,  ) - вектор
неизвестных параметров, для которых необходимо получить точечные оценки.
⃗ как закон распределеРассмотрим функцию (1 , 2 , ...,  , )
⃗
ния вектора случайной выборки  = (1 , 2 , ...,  ). Эта функция
называется функцией правдоподобия. Поскольку случайные величины  независимы, функция правдоподобия имеет вид:
⃗ =
(1 , 2 , ...,  , )
⎧∏
⃗

⎨ =1  (, ),
если  непрерывна
(45)

⎩∏
⃗
=1  ( , ), если  дискретна
Метод максимального правдоподобия состоит в
том, что в качестве оценки параметров ⃗ берётся вектор
˜
⃗˜ 1 , 2 , ...,  ), при котором (при заданных значениях
⃗ = (
1 , 2 , ...,  ) функция правдоподобия принимает максимальное
значение:
⃗˜ = max (1 , 2 , ...,  , )
⃗ .
(1 , 2 , ...,  , )
⃗
(46)
39
Как правило, оценки по методу максимального правдоподобия получаются из необходимого условия экстремума функции
⃗ :
(1 , 2 , ...,  , )
⎧
∂

⃗ =0,

(1 , 2 , ...,  , )


∂
1



⎨ ∂ ( ,  , ...,  , )
⃗ =0,
1 2

∂2


.....................





⃗ =0.
⎩ ∂ (1 , 2 , ...,  , )
∂
(47)
Обычно систему (47) называют уравнениями правдоподобия.
Решая (47), находим критические точки. После этого с помощью
достаточного условия экстремума необходимо убедиться, что по˜
лученные значения ⃗ – это действительно максимум функции
правдоподобия.
Достоинства метода наибольшего правдоподобия:
∙ полученная оценка состоятельна (хотя может быть смещенной);
˜
∙ при  → ∞ оценка ⃗ приближается к эффективной оценке;
∙ метод наиболее полно использует данные выборки и поэтому
особенно полезен в случае выборок небольшого объёма.
Недостатком метода наибольшего правдоподобия является
относительная сложность вычислений.
Замечание. При поиске максимума функции правдоподобия для упрощения расчётов можно выполнить действия, при
которых точки функции максимума не изменяются, то есть:
⃗ логарифмическую функ- использовать вместо (1 , 2 , ...,  , )
⃗ = ln (1 , 2 , ...,  , );
⃗
цию правдоподобия (1 , 2 , ...,  , )
- отбросить в выражении для функции правдоподобия слагаемые
и положительные сомножители, не зависящие от параметров,
подлежащих определению.
40
Пример 2.6. Пусть  ∼  (,  2 ) - нормальная генеральная
совокупность с известной дисперсией  2 . Найти методом максимального правдоподобия параметр  .
Решение. Для нормального закона распределения
}
{
1
( − )2
 () = √
exp −
2 2
 2
построим функцию правдоподобия ( – объём выборки)
(1 , ...,  , ) =

∏
(
 ( ) =
=1

1
√
) ∏

2
=1
( − )2
exp −
2 2
{
}
.
В данной задаче удобнее использовать логарифмическую
(
)
1
√
функцию правдоподобия. Отбросим сомножитель
, не
 2
зависящий от параметра  и получим ((1 , 2 , ...,  , ) = (⃗, )):
( 
{
})

∏
∑
( − )2
( − )2
(⃗, ) = ln
exp −
=
−
.
(48)
2 2
2 2
=1
=1
Составим уравнение правдоподобия

∑ ( − )
∂
(⃗, ) =
=0,
∂
2
(49)
=1
решая которое получим 
˜ – оценку параметра :

∑
=1
 =

∑
=1


˜ = ˜
,

˜=
1∑
 .

(50)
=1
Осталось проверить, что при  = 
˜ функция (⃗, ) достигает
своего максимума. Для этого сосчитаем
∂2

(⃗, ) = − 2 .
2
∂

41
∂2
Поскольку
(⃗, 
˜) ≤ 0 , то 
˜ – действительно максимум
∂2
логарифмической функции правдоподобия.
Таким образом, как и следовало ожидать, выборочная
оценка математического ожидания нормального распределения
 совпала с выборочным средним 
¯.
Пример 2.7. Для нормальной генеральной совокупности
( ∼  (,  2 ))( найти
методом максимального правдоподобия па)
раметры  и  2 .
Решение. В отличие от предыдущего примера, в данной
задаче
( 2 ) следует оценить сразу два неизвестных параметра:  и
 . Логарифмическая функция правдоподобия имеет вид

∑
(
( ))


( − )2
 ⃗, ,  2 = − ln( 2 ) − ln(2) −
.
2
2
2 ( 2 )
(51)
=1
( )
Отбросив в (51) слагаемые, которые не зависят от  и  2 ,
напишем систему уравнений правдоподобия (47):
⎧
( )) ∑
∂ (
( − )


 ⃗, ,  2 = =1
=0,


∂
( 2 )
⎨




⎩
(52)
(
( 2 )) ∑ ( − )2

∂

⃗

,
,

= =1
−
= 0.
2
2
∂ ( )
2 ( 2 )
2 ( 2 )
Решая (52), получим
⎧
1 ∑



˜=
 ,

⎨
 =1
(53)


( 2 ) 1 ∑

⎩ 
( − 
˜)2 .
˜ =
 =1
( 2)
Чтобы убедиться, что при 
˜ и 
˜ достигается максимум
функции правдоподобия , следует найти вторые производные
42
( 2 ))
(
( ))
(
( 2 ))
∂2 (
∂2
∂2

⃗

,
,

,
 ⃗, ,  2 .

⃗

,
,

,
2
2
2
2
∂
∂∂ ( )
∂ (( ))
⎧ 2 (
( 2 ))

∂


=− 2 ,
 ∂2  ⃗, , 

( )







⎨ ∂2
(
( ))

1 ∑
2
, ,  2 =
(54)
=1 ( − ) ,
2 ⃗
2 −
2
2
2 )3

∂
(
)
2
(
)
(








(
( ))
∂2
1 ∑


⎩
 ⃗, ,  2 = −
=1 ( − ) .
2
∂∂ ( )
( 2 )2
( ) ( 2)
При  = 
˜ и 2 = 
˜ система (54) перепишется как:
⎧ 2
( 2 ))

∂ (


 ⃗, 
˜, 
˜
=− 2 ,

2

∂
(˜
 )







⎨ ∂2
(
( 2 ))




⃗

,

˜
,

˜
=
,
(55)
2
2 −
2 =−
2
2
2

∂ ( )
2 (˜
 )
(˜
 )
2 (˜
 2 )2







2

(
( 2 ))

 ∂
⎩

⃗

,

˜
,

˜
=0.
∂∂ ( 2 )
Сосчитаем определитель
(
( 2 ))
( 2 ))
∂2 (
∂2

⃗

,

˜
,

˜

⃗

,

˜
,

˜
∂2
∂ (∂ 2 )
=
△ = 2
∂2
(
( 2 ))
(
(
))
∂
2
˜, 
˜
 ⃗, 
˜, 
˜
(∂ 2 ) ∂  ⃗, 
2
(∂ 2 )

−
0
2
(˜

)
=
.
 0
−
2 (˜
 2 )2 43
( 2 ))

∂2 (
 ⃗, 
˜, 
˜
= − 2 < 0.
3
2
2
∂
(˜
 )
2 (˜
 )
Таким образом, достаточные условия существования максимума функции двух переменных выполнены и мы можем утверждать, что задача решена.
Параметр  оценивается в методе максимального
правдопо( )
добия выборочным средним 
¯, а параметр  2 –( выборочной
)
дисперсией ∗ . Заметим, что полученная оценка  2 является
смещённой.
Находим, что △ =
2
>0 и
Пример 2.8.
Пусть 1 , 2 , ...,  – выборка объёмом  из

распределения Пуассона (, ) =
exp(−) , где ( > 0). Най!
˜ параметра
ти методом максимального правдоподобия оценку 
распределения  .
Решение. Построим функцию правдоподобия:
(⃗, ) =

∏
=1
⃗ =
 ( , )

∏
 
=1
 !
∑

exp(−) = ∏

 !
exp(−) =
1 ∑
¯
=∏
exp(−) , где 
¯=
 – выборочное среднее.
 !
 =1
Как и в предыдущих примерах, в дальнейших расчётах удобнее использовать логарифмическую функцию правдоподобия:
(
(⃗, ) = ln
¯
∏
exp(−)
 !
)
= ¯
 ln() − ln

∏
 ! −  . (56)
=1
Тогда
∂
¯

(⃗, ) =
−=0.
∂


˜ – решение уравнения ¯
Точка экстремума 
−  = 0 , то есть
˜

˜=

¯.
44
Это вполне ожидаемый результат, так как если случайная величина распределена согласно распределению Пуассона, то её математическое ожидание равно  . В методе максимального правдоподобия математическое ожидание  оценивается выборочным
средним.
2.4. Интервальное оценивание неизвестных
параметров
Оценки параметров, рассмотренные нами, можно назвать точечными оценками, так как для неизвестного параметра  опре˜ являющаяся его приближёнделяется одна единственная точка ,
ным значением. Однако, такой подход может приводить к грубым ошибкам и точечная оценка может значительно отличаться
от оцениваемого параметра (особенно в случае выборок малого
объёма).
Задачу оценивания параметра распределения можно также
решать путём построения интервала (интервальной оценки), в
который с заданной вероятностью попадает истинные значение
параметра. Разумеется, чем меньше длина этого интервала, тем
точнее оценка параметра.
Если для оценки ˜ некоторого параметра  справедливо неравенство
∣˜ − ∣ <  ,
(57)
то число  > 0 характеризует в некотором смысле точность оценки (чем меньше , тем точнее оценка). Однако статистические методы позволяют говорить только о том, что неравенство (57) выполняется с некоторой вероятностью и "хорошой"оценкой можно
считать построение достаточно маленького интервала ( мало), в
который неизвестный параметр попадает с достаточно большой
вероятностью  .
Пусть
 (∣˜ − ∣ < ) =  (˜ −  <  < ˜ + ) =  .
(58)
45
Тогда,
∙  – вероятность, с которой выполняется неравенство (58),
называется надежностью (доверительной вероятностью) оценки ˜ параметра ;
∙ вероятность  = (1 − ) – уровень значимости;
∙ интервал для параметра  (˜ −  <  < ˜ + ), найденный с
заданной надежностью , есть доверительный интервал.
Построение доверительного интервала для
математического ожидания нормального
распределения при известной дисперсии
Пусть исследуемая случайная величина  распределена по
нормальному закону с известным средним квадратическим отклонением , и требуется по значению выборочного среднего 
¯
оценить ее математическое ожидание .
Будем рассматривать выборочное среднее 
¯ как случай¯ а значения вариант выборки 1 , 2 , ...,  как
ную величину ,
одинаково распределенные независимые случайные величины
1 , 2 , ...,  , каждая из которых имеет математическое ожидание
 и среднее квадратическое отклонение . Тогда (см. (33))

∑
¯= 1

 ,

=1
¯ = ,
 []
¯ = √ .
[]

(59)
¯ −

¯ имеет нормальное распределение
[]
с нулевым математическим ожиданием и единичной дисперсией
–  (0, 1) . Вероятность попадания её в интервал ( -t ; +t ) равна
[1]:
( ¯
)
 − 
 <  = 2Φ0 () ,
[] Случайная величина
где Φ0 () – функция Лапласа (см. Приложение). С учётом (59),
46
после несложных вычислений, получим
⎧ (
)





 
¯+ √
= 2Φ0 ( ) ,
¯− √ <<

⎨





⎩2Φ ( ) =  .
0 
(60)
Уравнение (60) связывает между собой доверительные интервал для математического ожидания
(
)



¯− √ ; 
¯+ √
(61)


и надёжность (доверительную вероятность)  .
Если известна величина , то из второго уравнения в (60),
пользуясь таблицами значений функций Лапласа (см., напрмер,
Приложение), находим параметр  и затем дверительный
интервал из первого уранения в (60). И, наоборот, если известен
доверительный интеревал, то сначала определяют из (61)  ,
затем находим Φ0 ( ) и .
Пример 2.9. Найти доверительный интервал для математического ожидания нормально распредёленной случайной величины, если объем выборки  = 100, 
¯ = 3.2,  = 2.0 , а доверительная вероятность  = 0.9 .
Решение. Определим 0,9 , при котором Φ0 (0,9 ) = 0.9 : 2 =
0.45 : 0.9 = 1.64 . Тогда
3.2−
2.0 × 1.64
2.0 × 1.64
√
<  < 3.2+ √
100
100
или 2.872 <  < 3.528.
Таким образом, (2.872 ; 3.528) – доверительный интервал, в
который попадает математическое ожидание  с надежностью
0.9 .
47
Пример 2.10. Найти  – надёжность (доверительную вероятность) попадания математического ожидания  нормально
распределённой случайной величины ( = 3,  = 49) в интервал
длиной 2.
2
Решение. Длина доверительного интервала равна √ .

Тогда
2 × 3 × 
6
√
×  = 2 . Параметр  = 2.33, Φ0 (2.33) =
=
7
49
0.4901 .
Ответ:  = 2 × 0.4901 = 0.98 .
Доверительный интервал для математического
ожидания нормального распределения при
неизвестной дисперсии
Если известно, что исследуемая случайная величина  распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала
для ее математического ожидания построим новую случайную
величину
 =

¯−
 ,
√

(62)
где 
¯ – выборочное среднее,  – математическое ожидание, 2
– несмещённая (исправленная) выборочная дисперсия (38).  –
объём выборки.
Известно, что случайная величина  имеет распределение
Стьюдента (см. Приложение) с  = −1 степенями свободы. Возможные значения её будем обозначать −1 . Вероятность попадания  в некоторый интервал (−, −1 , +, −1 ), учитывая чётность плотности распределения Стьюдента, можно задать следу48
ющим образом:
⎛
⎞
∫ , −1

⎜ ¯ −  ⎟
 ⎝  < , −1 ⎠ = 2
 (,  − 1) ,
√ 0
 (63)
где
Γ
 (,  − 1) = √
()
2(
( − 1)Γ
−1
2
(
) 1+
2
−1
)− 
2
(64)
– плотность распределения Стьюдента с −1 степенями свободы.
Отсюда получаем выражение, формально похожее на уравнения,
позволяющие найти доверительный интервал для  в случае известной дисперсии (60):
(
)
 , −1
 ,−1
√
√
 
¯−
<<
¯+
=.


(65)
Отличие заключается в том, что вместо  следует подставлять
несмещённое (исправленное) выборочное среднее квадратическое
отклонение  (39), а параметр , −1 находить по известным 
и  из таблиц критических точек или квантилей распределения
Стьюдента.
В силу чётности плотности распределения Стьюдента разумно выбрать доверительный интервал симметричный относитель
¯−
но  .
√

Искомая вероятность  численно равна площади заштрихованной фигуры на рис. 2.4:
49
 (, )
6
- 
−, −1
0
, −1
Рис. 2.4
Площади криволинейных трапеций слева и справа от заштрихованной фигуры в силу симметричности доверительного интер1−
вала равны между собой и численно равны
.
2
Параметр , −1 можно численно находить путём решения
разных уравнений.
1+
Как
– квантиль:
2
 (−1 < ,−1 ) =  +
1−
1+
=
.
2
2
(66)
1−
Как критическую точку для уровня значимости
в слу2
чае таблиц с данными для односторонней критической области:
 (−1 > ,−1 ) = 1 −
50
1+
1−
=
.
2
2
(67)
Или как критическую точку для уровня значимости 1 −  в
случае таблиц с данными для двусторонней критической областии:
 (∣−1 ∣ > ,−1 ) = 1 −  .
(68)
Таким образом, в зависимости от имеющихся таблиц распределения Стьюдента следует использовать тот или иной подход
(см. формулы (66) – (68)).
Пример 2.11. Объем выборки  = 25, 
¯ = 7, а  = 3. Найти
доверительный интервал для  при  = 0.99.
Решение. Уровень значимости
⎧

1 −  = 1 − 0.99 = 0.01
– двусторонняя кр. область,

⎨
=


⎩ 1 −  = 1 − 0.99 = 0.005 – односторонняя кр. область.
2
2
По таблице критических точек распределения Стьюдента (см.
Приложение или, например, [4]) находим ( = 24,  = 0.01), что
0.99 , 24 = 2.797. Тогда
7−
3 × 2.797
3 × 2.797
√
<<7+ √
или
25
25
5.32 <  < 8.68
– искомый доверительный интервал.
Замечание. При больших  распределение Стьюдента стремится к нормальному распределению  (0, 1) и доверительный
интервал (при  ≳ 30) можно находить по формулам:
⎧ (
)




√
√


¯
−
<

<

¯
+
= 2Φ0 ( ) ,

⎨


(69)



⎩2Φ ( ) =  .
0 
51
Доверительные интервалы для среднего
квадратического отклонения нормального
распределения
Случай известного математического ожидания
Рассмотрим случай, когда у выборки с нормальным законом
распределения известно значение математического ожидания  и
требуется оценить только  или дисперсию [] =  2 .
При известном математическом ожидании несмещённой оценкой дисперсии является выборочная дисперсия ∗ = ( ∗ )2 (25).
Рассмотрим случайную величину


=1
=1
∑
 ( ∗ )2
 1∑
2
=
=
⋅
(
−
)
=

2
2 
(
 − 

)2
.
(70)
Cтоящие под знаком суммы (70) случайные величины
( − )/ имеют стандартный нормальный закон распределения
 (0, 1) , а  имеет распределение 2 (хи-квадрат) с  степенями
свободы как сумма квадратов  независимых стандартных
нормальных случайных величин. Свойства распределения 2
приведены в Приложении.
Определим доверительный интервал из условия
(
) ∫ 2
2,
 ( ∗ )2
2
2
 1, <
<

=
2 (2 )2 =  ,
2,
2
2
1,
(71)
где 2 (2 ) – плотность распределения хи-квадрат и  – надёжность (доверительная вероятность).
Величина  численно равна площади заштрихованной фигуры на рис. 2.5 .
52
2
6
1
2
21,
- 2
22,
Рис. 2.5
Плотность распределения хи-квадрат является несимметричной функцией, что приводит к особенностям в построении доверительного интервала. Например, можно потребовать, чтобы
были одинаковы и равны (1 − )/2 вероятности попадания случайной величины в области слева и справа от доверительного
интервала. На рис. 2.5 это условие соответствует равенству площадей 1 и 2 .
Квантили 21, и 22, находятся из условий:
1−
,
2
1−
1+
 (2 < 22, ) =  +
=
.
(72)
2
2
В случае, когда 21, и 22, определяются из таблицы критических точек, следует пользоваться соотношениями:
 (2 < 21, ) =
 (2 > 21, ) =
1+
,
2
 (2 > 22, ) =
1−
.
2
(73)
53
По известным квантилям 21, , 22, легко вычислить интервал, вероятность попадания в который величины [] равна
. Из (71) следует:
)
(
 ( ∗ )2
2
2
< 2, =
 1, <
2
(
)
( ∗ )2
( ∗ )2
=
=
(74)
< [] <
22,
21,
и доверительный интервал для  2 = [] равен
)
(
( ∗ )2 ( ∗ )2
;
.
22,
21,
Для среднего квадратического отклонения 
⎛√
⎞
√


⎝
∗ <  <
∗⎠ = 
22,
21,
(75)
и доверительный интервал соответственно равен
⎛√
⎞
√


⎝
∗ ;
∗⎠ .
22,
21,
Пример 2.12. Найти доверительный интервал для дисперсии  2 с  = 0.9, если объём выборки  равен 20 и ( ∗ )2 = 8.
Решение. В нашем случае (1 − )/2 = 0.05 и (1 + )/2 = 0.95
.
По таблицам распределения 2 (см. Приложение или, например, [4]) с  = 20 находим квантили 21,20 = 10.9 и 22,20 = 31.4 .
Подставляем их в (74) и после выполнения несложных вычислений находим, что  (5.1 <  2 < 14.7) = 0.9 .
Ответ: (5.1 ; 14.7) – доверительный интервал для  2 при  =
0.9 .
54
Случай неизвестного математического ожидания
Наиболее распространённой является ситуация, когда неизвестны оба параметра нормального распределения: математическое ожидание  и дисперсия  2 . В этом случае построение доверительного интервала основывается на теореме Фишера, из которой следует, что случайная величина
=
( − 1)2
,
2
где 2 – несмещённая выборочная дисперсия (38) имеет распределение 2−1 (хи-квадрат) с  − 1 степенями свободы. Тогда имеем
(
)
 21,−1 <  < 22,−1 =  .
(76)
После подстановки в (76) выражения для H и несложных алгебраических преобразований получим
(
)
2
( − 1)2
(
−
1)

< 2 <
=.
(77)
22,−1
21,−1
Квантили 21,−1 , 22,−1 определяются по  из условий
 (2−1 < 21,−1 ) =
1−
,
2
 (2−1 < 22,−1 ) =
1+
.
2
Построение доверительного интервала для
математического ожидания в случае произвольной
выборки
Интервальные оценки математического ожидания  [], полученные для нормально распределённой выборки (формулы (60)
и (65)), являются, вообще говоря, непригодными в общем случае.
Однако есть ситуация, когда соотношениями, аналогичными (60)
и (65), можно пользоваться и в случае произвольных выборок.
Это случай выборок больших объёмов (  >> 1 ).
55
Действительно, будем рассматривать выборочное среднее 
¯
¯
как случайную величину , а варианты 1 , 2 , ...,  как значения независимых, одинаково распределенных случайных величин
1 , ... ,  , имеющих математическое ожидание  [ ] =  и дисперсию [ ] = 2 . Тогда

∑
¯= 1



=1
имеет асимптотически нормальный закон распределения
 ( , 2 /)
c математическим ожиданием  и дисперсией 2 / .
Поэтому, если известно значение  , то можно пользоваться
приближенной формулой, аналогичной (60):
⎧ (
)
 
 


¯ − √ <  < 
¯+ √
= 2Φ0 ( ) ,

⎨ 


(78)



⎩2Φ ( ) =  ,
0 
которая будет точной только в пределе  → ∞.
Если же значение  неизвестно, то при больших  можно
использовать формулу, аналогичную (65):
⎧ (
)




√
√
<

<

¯
+
= 2Φ0 ( ) ,


¯
−


⎨


(79)



⎩2Φ ( ) =  ,
0 
где  – исправленное среднее квадратическое отклонение (39).
Точное равенство в (79) возможно, как и в (78), лишь в пределе
→∞.
56
2.5. Проверка статистических гипотез
Изучение основных подходов к проверке статистических гипотез начнём с ряда определений.
∙ Статистическая гипотеза – гипотеза о виде неизвестного
распределения генеральной совокупности или о параметрах известных распределений.
∙ Нулевая (основная) гипотеза 0 – рассматриваемая гипотеза.
∙ Гипотеза 1 – гипотеза, которая противоречит 0 и может
быть выдвинута в качестве альтернативной (конкурирующей).
∙ Простая гипотеза – гипотеза, содержащую только одно
предположение.
∙ Сложная гипотеза - гипотеза, состоящую из конечного или
бесконечного числа предположений (простых гипотез).
Проверка правильности выдвинутой нулевой гипотезы 0 называется статистической проверкой, так как производится с применением методов математической статистики. При этом возможны ошибки двух видов.
∙ Ошибка первого рода – ошибка, когда отвергается правильная нулевая гипотеза 0 .
∙ Ошибка второго рода – ошибка, когда принимается неверная гипотеза.
∙ Уровень значимости  – вероятность ошибки первого рода.
Основной прием проверки статистических гипотез заключается в том, что по имеющейся выборке вычисляется значение
некоторой случайной величины  , имеющей известный закон
распределения.
∙ Статистический критерий – случайная величина  с известным законом распределения, служащая для проверки 0 .
∙ Критическая область – область значений статистического
критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы – область значений статистического критерия, при которых принимают гипотезу 0 .
57
Таким образом, процесс проверки гипотезы 0 состоит в следующем.
Сначала выбирают статистический критерий  и вычисляют
его эмпирическое (наблюдаемое) значение  ∗ по имеющейся выборке. Затем выбирают уровень значимости  и по известному
закону распределения для статистического критерия вычисляют
 – его критическое значение. Критическое значение статистического критерия  делит область возможных значений  на две
части. Например, если  > 0, то область  >  – это критическая область, а область  ≤  – область принятия гипотезы.
В результате, если вычисленное значение  ∗ попадает в область принятия гипотезы, то нулевая гипотеза принимается, если
в критическую область – нулевая гипотеза отвергается.
Остановимся подробнее на вероятности ошибок второго рода
(принятия неправильной нулевой гипотезы). Пусть вероятность
такой ошибки , тогда (1 − ) – вероятность попадания критерия
 в критическую область при условии, что верна конкурирующая гипотеза 1 . Вероятность (1 − ) называется мощностью
критерия. Чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так,
чтобы мощность критерия была максимальной.
Примеры построения статистических критериев для разных
задач мы рассмотрим ниже.
Проверка гипотезы о математическом ожидании
нормально распределённой генеральной совокупности
Проверка гипотезы о математическом ожидании схожа с процедурой построения доверительного интервала для  .
Пусть генеральная совокупность  имеет нормальное распределение. Требуется проверить предположение о том, что ее
математическое ожидание равно некоторому числу 0 . Рассмотрим два случая.
58
Известна дисперсия  2 генеральной совокупности
Нулевая гипотеза –  [] = 0 . С учётом того, что выборочное
¯ является несмещённой оценкой  [], нулевую гипосреднее 
¯ = 0 .
тезу можно переписать как  []
Для проверки гипотезы выберем критерий
¯ − 0
¯ − 0 )√

(
=
.
(80)
¯ =

[]
Если нулевая гипотеза справедлива, то случайная величина
 имеет нормальное распределение с  [ ] = 0 и [ ] = 1.
Выберем критическую область в зависимости от вида конкурирующей гипотезы.
∙ Если альтернативная гипотеза 1 состоит в том, что
 [] ∕= 0 , то критическая область будет двусторонней и удовлетворять условию  (∣ ∣ >  ) = . На рис. 2.6 критическая область заштрихована, вероятность попадания критерия  в каж
дую из её половин равна
.
2

2

2
@ @ @
@ @
@ @ @
−
- 
0

Рис. 2.6
Так как случайная величина  распределена нормально, то
значения  можно найти из условия
Φ0 ( ) =
1−
,
2
(81)
59
где Φ0 () – функция Лапласа.
Остаётся по выборке вычислить
√
(¯
 − 0 ) 
 =

∗
и сравнить полученное значение с  . Если ∣ ∗ ∣ <  , то нулевая гипотеза принимается; если ∣ ∗ ∣ >  , то нулевая гипотеза
отвергается.
∙ Если гипотеза 1 заключается в том, что  [] > 0 , то
критическая область правосторонняя (рис. 2.7) и  определяется из условия
Φ0 ( ) =
1
−.
2
(82)

- 
0

Рис. 2.7
Нулевая гипотеза 0 принимается, если  ∗ <  и отвергается в противоположном случае ( ∗ >  ).
∙ Если гипотеза 1 есть неравентсво  [] < 0 , то критическая область левосторонняя (рис. 2.8) и  определяется из
условия
1
(83)
Φ0 ( ) = −  .
2

@
@ @
@ @
@ @ @
−
- 
0
Рис. 2.8
60
Нулевая гипотеза 0 принимается, если  ∗ > − и отвергается в противоположном случае ( ∗ < − ).
Дисперсия  2 генеральной совокупности неизвестна
В этом случае выберем в качестве критерия случайную величину
¯ − 0 )√
(
 =
,
(84)

где  – исправленное (несмещённое) среднее квадратичное отклонение (39).
Как известно случайная величина  имеет распределение
Стьюдента с  = −1 степенями свободы. Если конкурирующая
¯ ∕= 0 , то критическая
(альтернативная) гипотеза 1 – это  []
область двусторонняя и критическая точка ,−1 находится по
таблице критических точек распределения Стьюдента по известным  и .
Вычислим наблюдаемое значение критерия
√
(¯
 − 0 ) 
 =
.

∗
(85)
Hулевая гипотеза 0 принимается в случае ∣ ∗ ∣ < ,−1 и
отвергается при ∣ ∗ ∣ > ,−1 .
Аналогичным образом рассматриваются и остальные гипотезы 1 .
Пример 2.13. Пусть есть нормально распределённая выборка объёмом  = 25 с дисперсией  2 = 9 и выборочным средним

¯ = 4.7. Проверить при уровне значимости  = 0.1 гипотезу,
что математическое ожидание соответствующей генеральной совокупности 0 равно 5. Рассмотреть все возможные альтернативные гипотезы 1 .
61
Случай 1. Нулевая гипотеза 0 :  [0 ] = 0 , конкурирующая гипотеза 1 :  [] ∕= 0 .
Φ0 (0.1 ) =
1 − 0.1
= 0.45
2
=⇒
0.1 = 1.65 .
Находим, что
√
√
(4.7 − 5) 25
(¯
 − 0 ) 
=
= −0.5 .
 =

3
∗
Так как ∣ ∗ ∣ < 0.1 , то нулевая гипотеза принимается.
Случай 2. Нулевая гипотеза 0 :  [0 ] = 0 , конкурирующая гипотеза 1 :  [] > 0 .
Φ0 (0.1 ) =
1
− 0.1 = 0.40
2
=⇒
0.1 = 1.28 .
Нулевая гипотеза принимается, так как  ∗ < 0.1 .
Случай 3. Нулевая гипотеза 0 :  [0 ] = 0 , конкурирующая гипотеза 1 :  [] < 0 .
Φ0 (0.1 ) =
1
− 0.1 = 0.40
2
=⇒
0.1 = 1.28 .
Нулевая гипотеза принимается, ибо  ∗ > −0.1 .
Сравнение двух дисперсий нормальных
генеральных совокупностей
Задача сравнения дисперсий возникает, когда требуется сравнить различные методы сбора статистической информации. Очевидно, что предпочтительнее тот метод, который обеспечивает
наименьший разброс собранных данных, то есть наименьшую
дисперсию.
62
Кроме того, при одновременной статистической обработке
нескольких выборок, на первом этапе часто бывает необходимо
проверить насколько значимо (существенно) различаются их дисперсии.
Пусть имеются две нормально распределенные генеральные
совокупности 1 и 2 . Из них извлечены независимые выборки
с объёмами, соответственно равными 1 и 2 , по которым вычислены исправленные выборочные дисперсии 21 и 22 (будем
считать, что 21 > 22 ). Требуется при заданном уровне значимости  проверить нулевую гипотезу 0 о равенстве дисперсий
рассматриваемых генеральных совокупностей.
Учитывая несмещенность исправленных выборочных дисперсий, нулевую гипотезу можно записать следующим образом:
2
2
 [
] =  [
],
1
2
где
(86)

2

1 ∑
( − 
¯)2 .
=
−1
=1
Конечно, исправленные дисперсии, вычисленные по разным
выборкам, будут различными. Мы хотим выяснить, является ли
это различие незначимым и обусловленным случайными причинами или оно является следствием того, что сами генеральные
совокупности различны.
В качестве статистического критерия примем случайную величину
2 1
(87)
 = 
2

2
– отношение большей выборочной дисперсии к меньшей. Величина  имеет распределение Фишера–Снедекора (см. Приложение)
со степенями свободы 1 = 1 −1 и 2 = 2 −1 , где 1 – объем выборки, по которой вычислена б`
льшая исправленная дисперсия
2
1 , а 2 – объем второй выборки, по которой найдена меньшая
исправленная дисперсия 22 .
63
Рассмотрим два вида конкурирующих гипотез 1 : 21 > 22
и 21 ∕= 22 .
1. Нулевая гипотеза 0 : 21 = 22 , конкурирующая гипотеза
1 : 21 > 22 . В этом случае строят одностороннюю, а именно
правостороннюю, критическую область, исходя из условия
 ( >  (, 1 , 2 )) =  .
Критическую точку  (, 1 , 2 ) находят по таблице критических точек распределения Фишера–Снедекора для уровня значимости  и степеням свободы 1 и 2 .
Затем вычисляют
2 1
∗ = 
22
и сравнивают с  (, 1 , 2 ) . Если  ∗ <  (, 1 , 2 ), то нулевая
гипотеза принимается; если  ∗ >  (, 1 , 2 ) – отвергается.
2. Нулевая гипотеза 0 : 21 = 22 , конкурирующая гипотеза
1 : 21 ∕= 22 . В этом случае строят двустороннюю критическую
область из условия, что
 (( < 1 ) ∪ ( > 2 )) =  .
Оказывается, что наибольшая мощность (вероятность попадания критерия в критическую область при справедливости конкурирующей гипотезы) достигается, когда вероятность попадания критерия в каждый из двух интервалов критической области

равна :
2


 ( < 1 ) = ;
 ( > 2 ) = .
2
2
(
)
Правая критическая точка 2 = 
, 1 , 2 находится непо2
средственно по таблицам распределения Фишера–Снедекора по
уровню значимости /2 и степеням свободы 1 и 2 . Левую критическую точку можно и не отыскивать. Действительно, если вероятность попадания критерия в "правую часть" критической
64
области равна /2, то и вероятность попадания в "левую часть"
также равна /2. Так как эти события несовместны, то вероятность попадания рассматриваемого критерия во всю двустороннюю критическую область будет равна:
 
+ =.
2
2
В результате: (
)

∙ если  ∗ < 
, 1 , 2 , нулевая гипотеза принимается;
)
( 2
, 1 , 2 - отвергается.
∙ при  ∗ > 
2
Пример 2.14. Пусть из нормальных генеральных совокупностей 1 и 2 извлечены две независимые выборки объёмом
1 = 12 и 2 = 18 с исправленными выборочными дисперсиями 21 = 1.52 и 22 = 0.60. При уровне значимости  = 0.1
проверить нулевую гипотезу о равенстве дисперсий генеральных
совокупностей при конкурирующей гипотезе 1 [1 ] ∕= [2 ] .
Решение. Найдём  ★ (отношение большей исправленной
дисперсии к меньшей):
★ =
21
1.52
=
= 2.53 .
2
0.60
2
По таблицам критических точек распределения Фишера–
Снедекора для уровня значимости /2 = 0.1/2 = 0.05 и степеней
свободы 1 = 12 − 1 = 11 , 2 = 18 − 1 = 17 находим критическую
точку  (0.05, 11, 17) = 2.41 .
Так как  ∗ >  (0.05, 11, 17) , то нулевую гипотезу о равенстве дисперсий генеральных совокупностей необходимо отвергнуть. Выборочные исправленные дисперсии различаются значимо.
Замечание. Случайную величину  обычно называют
 -критерием, а соответствующее распределение (распределение (87) дисперсионного отношения двух совокупностей) –
65
 -распределением.  -критерий широко используется в дисперсионном анализе, регрессионном анализе, многомерном
статистическом анализе.
Сравнение математических ожиданий двух
независимых нормальных генеральных
совокупностей с известными дисперсиями
Пусть генеральные совокупности 1 и 2 независимы и распределены нормально. Пусть их дисперсии [1 ] и [2 ] известны. Например, они могут быть найдены из какого-то другого
опыта или рассчитаны теоретически. Из генеральных совокупностей извлечены выборки объёмом 1 и 2 соответственно. Пусть
¯1 и ¯2 – выборочные средние для этих выборок.
Требуется по выборочным средним при заданном уровне значимости  проверить нулевую гипотезу о равенстве математических ожиданий рассматриваемых генеральных совокупностей:
 [1 ] =  [2 ] .
(88)
Так как выборочные средние – это несмещённые оценки математических ожиданий, нулевую гипотезу можно записать в следующем виде:
0 :  [¯1 ] =  [¯2 ] .
(89)
В качестве статистического критерия для проверки 0 возьмём случайную величину
=
¯1 − ¯2
¯1 − ¯2
¯1 − ¯2
=√
=√
.
¯
¯
[1 − 2 ]
[1 ] [2 ]
[¯1 − ¯2 ]
+
1
2
(90)
Если нулевая гипотеза (89) справедлива, то величина  имеет
нормальное распределение  (0, 1).
Критическую область строят в зависимости от вида конкурирующей гипотезы 1 .
66
1. Нулевая гипотеза 0 :  [1 ] =  [2 ], конкурирующая
гипотеза  [1 ] ∕=  [2 ]. В этом случае строят двустороннюю
критическую область. Критическая точка  находится из условия
1−
Φ0 ( ) =
.
(91)
2
Затем по имеющимся выборкам вычисляют
∗ = √
¯1 − ¯2
[1 ] [2 ]
+
1
2
и сравнивают с  .
Если ∣ ∗ ∣ <  , то нет оснований отвергать нулевую гипотезу.
Если ∣ ∗ ∣ >  - нулевую гипотезу отвергают.
Пример 2.15. Из нормальных генеральных совокупностей
1 и 2 извлечены две независимые выборки объёмом 1 = 70
и 2 = 50 с выборочными средними ¯1 = 150 и ¯2 = 175. Дисперсии выборок известны и равны соответственно [1 ] = 140
и [2 ] = 100 . При уровне значимости  = 0.01 проверить
нулевую гипотезу о равенстве математических ожиданий генеральных совокупностей при конкурирующей гипотезе  [1 ] ∕=
 [2 ] .
Решение. Найдём  ★ :
★ = √
150 − 175
¯1 − ¯2
25
=√
=−
= − 12.5 .
2
[1 ] [2 ]
140 100
+
+
1
2
70
50
По таблицам функции Лапласа находим  :
Φ0 ( ) =
1 − 0.01
= 0.495 =⇒  = 2.58 .
2
Так как ∣ ∗ ∣ >  - нулевую гипотезу отвергаем, найденный
выборочные средние ¯1 = 150 и ¯2 = 175 различаются значимо.
67
2. Нулевая гипотеза 0 :  [1 ] =  [2 ], конкурирующая
гипотеза  [1 ] >  [2 ]. На практике такая ситуация возникает
тогда, когда из априорных соображений можно ожидать, что математическое ожидание одной генеральной совокупности должно
быть больше, чем математическое ожидание другой. Например,
результатом инновации стало усовершенствование технологического процесса. Естественно ожидать, что инновационная деятельность приведёт к росту некоторого параметра 
¯, связанного
с увеличением выпуска продукции или повышением её качества.
Остаётся убедиться, что рост 
¯ имеет значимый характер, а не
обусловлен случайными причинами.
В этом случае строят правостороннюю критическую область.
Критическая точка  определяется как и в (82) из условия
Φ0 ( ) =
1
−.
2
(92)
Вывод делается по результатам сравнения  ∗ и  .
Если  ∗ <  - нулевую гипотезу принимают. Если  ∗ > 
- отвергают.
Пример 2.16. Из нормальных генеральных совокупностей
1 и 2 извлечены две независимые выборки объёмом 1 = 15
и 2 = 20 с выборочными средними ¯1 = 15.0 и ¯2 = 13.8. Дисперсии выборок известны и равны соответственно [1 ] = 20 и
[2 ] = 18 . При уровне значимости  = 0.05 проверить нулевую
гипотезу о равенстве математических ожиданий генеральных совокупностей при конкурирующей гипотезе  [1 ] >  [2 ] .
Решение. Сосчитаем наблюдаемое значение критерия  ★ :
★ = √
¯1 − ¯2
15.0 − 13.8
1.2
1.2
= √
=√
=
= 0.80 .
1.49
[1 ] [2 ]
2.23
20 18
+
+
1
2
15 20
Находим для правосторонней критической области по табли68
цам функции Лапласа значение критической точки  :
Φ0 ( ) =
1
− 0.05 = 0.45 =⇒  = 1.64 .
2
Так как  ∗ <  , то нет оснований отвергать нулевую гипотезу, выборочные средние ¯1 = 15.0 и ¯2 = 13.8 различаются
незначимо.
3. Нулевая гипотеза 0 :  [1 ] =  [2 ], конкурирующая
гипотеза  [1 ] <  [2 ]. В этом случае строят левостороннюю
критическую область. Критическая точка  определяется (см.
также (83)) из условия
Φ0 ( ) =
1
−.
2
(93)
Нулевая гипотеза 0 принимается, если  ∗ > − и отвергается в противоположном случае, если  ∗ < − .
Пример 2.17. Из нормальных генеральных совокупностей
1 и 2 извлечены две независимые выборки объёмом 1 = 45
и 2 = 55 с выборочными средними ¯1 = 135 и ¯2 = 150. Дисперсии выборок известны и равны соответственно [1 ] = 30 и
[2 ] = 20 . При уровне значимости  = 0, 01 проверить нулевую
гипотезу о равенстве математических ожиданий генеральных совокупностей при конкурирующей гипотезе  [1 ] <  [2 ] .
Решение. Наблюдаемое значение критерия  ★ равно:
★ = √
¯1 − ¯2
135 − 150
15
=√
=−√
= − 14.78 .
[1 ] [2 ]
1.03
30 20
+
+
1
2
45 55
Находим по таблицам функции Лапласа критическую точку  :
Φ0 ( ) =
1
− 0.01 = 0.49 =⇒  = 2.33 .
2
Так как  ∗ < −  - нулевую гипотезу отвергаем. То есть,
выборочное среднее ¯1 = 135 значимо меньше выборочного
69
среднего ¯2 = 150 .
Сравнение математических ожиданий двух
произвольно распределённых генеральных
совокупностей в случае больших независимых
выборок
Если независимые выборки имеют большой объём (не менее
30 каждая), то выборочные средние в силу центральной предельной теоремы распределены приближённо нормально вне зависимости от того по каким законам распределены сами генеральные
совокупности. В этом случае и выборочные дисперсии также являются достаточно хорошими оценками дисперсий генеральных
совокупностей. Другими словами, дисперсии можно считать приближённо известными.
В итоге статистический критерий
˜ = √
¯1 − ¯2
[1 ] [2 ]
+
1
2
имеет распределение близкое к нормальному:
˜ ≈ 0, если справедлива нулевая гипотеза 0 :  [1 ] =
 []
 [2 ] ;
˜ ≈ 1, если рассматриваемые выборки независимы.
[]
Проверка статистических гипотез проводится, как и в случае
критерия  .
Проверка гипотез о виде закона распределения
генеральной совокупности. Критерий Пирсона
Вывод о распределении выборки (и, соответственно, генеральной совокупности) можно сделать из априорных соображений,
основываясь на условиях эксперимента. Однако часто возникает
70
необходимость проверить выдвинутую гипотезу о законе распределения.
Статистические критерии, предназначенные для таких проверок, обычно называются критериями согласия.
Известно несколько критериев согласия. Достоинством критерия Пирсона является его универсальность. С его помощью можно проверять гипотезы о различных законах распределения.
Критерий Пирсона основан на сравнении частот, найденных
по выборке (будем называть их эмпирическими (наблюдаемыми)
частотами) с частотами, рассчитанными с помощью проверяемого закона распределения (теоретическими частотами).
Обычно эмпирические и теоретические частоты различаются.
Следует выяснить, случайно (незначимо) ли расхождение частот
или оно значимо и объясняется тем, что теоретические частоты
вычислены исходя из неверной гипотезы о распределении генеральной совокупности.
Критерий Пирсона, как и любой другой критерий, отвечает
на вопрос, есть ли согласие выдвинутой гипотезы с эмпирическими данными при заданном уровне значимости.
Проверка гипотезы о нормальном распределении
Пусть имеется генеральная совокупность , из которой извлечена выборка достаточно большого объема  с большим количеством различных значений вариант. Для удобства обработки
выборки возьмём два числа  < 1 и  >  и разделим интервал [, ] на  подинтервалов. Будем считать, что значения
вариант, попавших в каждый подинтервал, приближенно равны
числу, задающему середину подинтервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую
сгруппированную выборку:
варианты
частоты
1
1
2
2
...
...


,
71
где  – значения середин подинтервалов, а  – число вариант,
попавших в -й подинтервал (эмпирические частоты).
По полученным данным можно вычислить выборочное среднее 
¯:

1∑

¯=
 

=1
и выборочное среднее квадратическое отклонение  ∗ :
v
u ∑
√
u1 
∗
∗
 =  =⎷
 ( − 
¯)2 .

=1
Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами  [] =

¯ , [] = ( ∗ )2 . Для этого сосчитаем теоретические частоты,
то есть найдём количество чисел из выборки объёмом , которое
должно оказаться в каждом подинтервале, при сделанном предположении  ∼  (¯
, ( ∗ )2 ) .
Сначала по таблице значений функции Лапласа найдем вероятность попадания в -й подинтервал:
(
)
(
)
 − 
¯
 − 
¯
 = Φ0
−
Φ
,
(94)
0
∗
∗
где  и  – границы -го подинтервала. Умножив полученные
вероятности  на объем выборки , найдем теоретические частоты: ′ =  ⋅  .
Наша цель – сравнить эмпирические и теоретические частоты и при уровне значимости  проверить нулевую гипотезу 0 ,
что генеральная совокупность распределена нормально. Для этого используем критерий в виде случайной величины

∑
( − ′ )2
 =
.
′
2
=1
72
(95)
Можно доказать, что вне зависимости от реального закона
распределения генеральной совокупности закон распределения
случайной величины 2 при  → ∞ стремится к закону распределения хи-квадрат с числом степеней свободы  =  − 1 − , где 
– число параметров предполагаемого распределения, оцененных
по данным выборки. Нормальное распределение характеризуется
двумя параметрами, поэтому  =  − 3 .
Для выбранного критерия строится правосторонняя критическая область, определяемая условием
 (2 > 2 (, )) =  ,
(96)
где  – уровень значимости. Критическую точку 2 (, ) находят
по таблицам распределения 2 , используя известные значения 
и  =−3.
Затем, используя данные выборки, по формуле (95) вычисляют наблюдаемое значение критерия (2 )∗ .
∙ Если (2 )∗ < 2 (, ) , то нулевую гипотезу 0 , что генеральная совокупность распределена нормально, принимают;
∙ при (2 )∗ > 2 (, ) - отвергают.
Проверка гипотезы о равномерном распределении
При использовании критерия Пирсона для проверки гипотезы
о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности
⎧
1


⎨  −  , если  ∈ [, ]
 () =
(97)


⎩
0,
если  ∈ (−∞, ) ∪ (, ∞)
параметры  и  можно оценить по методу моментов:
√
√
∗ = 
¯ − 3 ∗ , ∗ = 
¯ + 3 ∗ ,
(98)
73
где 
¯ – выборочное среднее, а  ∗ – выборочное среднее квадратическое отклонение.
1
, можно найти теореЗатем, предполагая, что  () = ∗
 − ∗
тические частоты по формулам:
′1 = 1 =  ()(1 − ∗ ) = 
′ = 
 − −1
,
∗ − ∗
1 − ∗
;
∗ − ∗
 = 2, 3, ...,  − 1 ;
∗ − −1
,
∗ − ∗
где  – правая граница -го подинтервала.
Наблюдаемое значение критерия Пирсона вычисляется по
формуле (95), а критическая точка 2 (, ) – по таблице для
уровня значимости  с учетом того , что число степеней свободы
k=s–3.
После этого границы критической области определяются так
же, как и для проверки гипотезы о нормальном распределении.
На практике может оказатся, что 1 < ∗ или −1 > ∗ .
Такая ситуация свидетельствует не в пользу гипотезы о равномерном распределении исследуемой совокупности.
Можно рекомендовать повторить расчёты с ∗ =  < 1 и
∗
 =  >  .
Замечание. Объём выборки должен быть достаточно большой, во всяком случае не менее 50. Каждый подинтервал должен
содержать не менее 5 – 8 вариант. Если в подинтервале слишком
мало точек, то его следует объединить с соседним.
 = 
2.6. Вопросы для самоконтроля
1. Чем отличается выборка от генеральной совокупности?
2. Что такое повторная и безповторная выборки?
3. Как построить выборочный закон распределения?
74
4. Что такое выборочная функцию распределения?
5. Как по выборке построить гистограмму и полигон?
6. Дать определение начальным и центральным эмпирическим моментам порядка .
7. Чему равен первый центральный момент?
8. Что такое выборочное среднее и выборочная дисперсия?
9. Какая статистическая оценка называется несмещённой?
10. Является ли выборочная дисперсия несмещённой оценкой
дисперсии генеральной совокупности? В каком случае это так?
11. Как проверить состоятельность статистической оценки?
12. Сформулировать метод моментов для построения точечных оценок параметров распределения.
13. Сформулировать метод наибольшего правдоподобия.
14. Дать определение интервальной оценки параметров распределения? Определить понятия доверительного интервала, надёжности (доверительной вероятности), уровня значимости.
15. Как построить доверительный интервал для математического ожидания нормального распределения при известной дисперсии?
16. В чём особенность построения доверительного интервала для математического ожидания нормального распределения в
случае неизвестной дисперсии? Какое распределение называется
распределением Стьюдента?
17. Как построить доверительный интервал для дисперсии
нормального распределения? Какое распределение называется
распределением хи-квадрат?
18. При каком условии можно построить доверительный интервал для математического ожидания в случае произвольной
выборки?
19. Дать определение статистической гипотезе. Что такое нулевая гипотеза 0 и гипотеза 1 ?
20. Что такое ошибки первого и второго рода при проверке
статистических гипотез?
21. Дать определения статистического критерия, уровня зна75
чимости, критической области и области принятия гипотезы.
22. Как строится статистический критерий при проверке гипотезы о величине математического ожидания нормально распределённой генеральной совокупности?
23. Какой статистический критерий используется при сравнении дисперсий двух нормально распределённых генеральных
совокупностей? Какое распределение называется распределением Фишера-Снедекора?
24. Какая случайная величина выбирается в качестве статистического критерия при сравнении математических ожиданий
двух нормально распределённых генеральных совокупностей?
25. Определить статистический критерий, используемый при
сравнении математических ожиданий двух произвольных выборок большого объёма.
26. Какие идеи дежат в основе проверки гипотез о виде закона
распределения генеральной совокупности?
27. Каким образом строится критерий согласия Пирсона?
28. Гипотезы о каких законах распределения генеральной совокупности можно проверять с помощью критерия Пирсона?
76
ПРИЛОЖЕНИЕ
Распределение Стьюдента
Пусть 0 , 1 , 2 , ...,  – независимые случайные велчины, имеющие стандартное нормальное распределение  (0, 1) . Распределение случайной величины
 = √
0
(12
+ ... + 2 )

(Π1)
называют распределением Стьюдента с  степенями свободы.
Впервые распределение Стьюдента применял английский математик Госсет (W.S.Gosset), пользовавшийся псевдонимом Student
– Стьюдент.
1. Распределение Стьюдента – однопараметрическое распределение. Плотность распределения с  степенями свободы (рис.
Π1) равна (−∞ <  < +∞)
)
(
+1
(
)−  + 1
Γ
2
2
2
() 1 +
(Π2)
 (, ) = √

 Γ
2
где Γ() – гамма-функция:
∫ ∞
Γ() =
−1 exp(−);
Γ( + 1) = 1 ⋅ 2 ⋅ 3 ⋅ ⋅ ⋅  = !
0
( )
√
1
Γ
= ;
2
(
)
( )
1
1 ⋅ 3 ⋅ 5 ⋅ ⋅ ⋅ (2 − 1)
1
Γ +
=
Γ
.

2
2
2
77
 (, )
6
 (, 1 )
 (, 2 )
@
R
@
1 > 2
- 
0
Рис. П1
2. Плотность распределени  (, ) – чётная функция:
 (, ) =  (−, ).
Случайная величина  имеет моменты только при  < , причём
⎧
0,
если  нечётно;






⎨ (
) (
) ( )

 [ ] = Γ  + 1 Γ  − 



2
2


()
 2 , если  чётно.

√

⎩
Γ
2
В частности,  [ ] = 0 и [ ] =
78

, если  > 2.
−2
3. При  → ∞ распределение Стьюдента приближается к нормальному распределению  (0, 1) и
( 2)
1

.
lim  (, ) = √ exp −
→∞
2
2
4. Если  () – функция распределения Стьюдента c  степенями свободы и  ∈ [0, 1]. Тогда -квантилью этого распределения
называется такое число , , что
 (, ) =  .
(Π3)
Квантиль , удовлетворяет соотношению  ( < , ) =  или
(
)
+1
)−  + 1
(
∫ , Γ
∫ ,
2
2
2
() 1 +
 (, ) =
 =  .
√

−∞
−∞
 Γ
2
Так как распределение Стьюдента симметрично, то 1−, =
−, .
При больших ( ≥ 30) выполняется приближённое равенство , ≈  , где  – квантиль порядка  нормального распределения  (0, 1)
( 2)
∫ 

1
√ exp −
 =  .
2
2
−∞
Более точное выражение для , при больших  можно
найти по формуле

, = √(
.
)
1 2 2
1−
−
4
2
(Π4)
Например, если  = 30 и  = 0.95, то , = 1.70;  = 1.65
и оценка , , полученная по формуле (П4), равна 1.70 .
79
Распределение хи-квадрат
Пусть случайная величина  равна сумме квадратов  независимых нормально распределённых случайных величин  ∼
 (0, 1):
=

∑
2 .
(Π5)
=1
Закон распределения величины  называют распределением
"хи-квадрат" с  степенями свободы и обозначают символом 2 ,
т.е.  ∼ 2 . Обычно и для самой случайной величины  используется тот же символ, т.е. вместо  пишут 2 .
1. Распределение хи-квадрат – однопараметрическое распределение. Плотность распределения с  степенями свободы равна
(рис. П2) :
(
2
 ( ) =
2
)
2
2
()
Γ
2
2 −1
( )
(
)
2
exp −
,
2
(Π6)
где Γ() – гамма-функция:
∫
Γ() =
∞
−1 exp(−);
Γ( + 1) = 1 ⋅ 2 ⋅ 3 ⋅ ⋅ ⋅  = !
0
( )
√
1
Γ
= ;
2
80
(
)
( )
1
1 ⋅ 3 ⋅ 5 ⋅ ⋅ ⋅ (2 − 1)
1
Γ +
=
Γ
.

2
2
2
 (2 )
6
2 (2 )
4 (2 )
- 2
Рис. П2
2. Распределение хи-квадрат устойчиво относительно суммирования. Если 1 , 2 независимы и имеют распределение хиквадрат 1 ∼ 21 , 2 ∼ 22 , то и 1 + 2 также имеет распределение хи-квадрат:
1 + 2 ∼ 21 +2 .
3. Основные числовые характеристики:
 [2 ] =  ;
(Π7)
[2 ] = 2 .
(Π8)
4. В силу центральной предельной теоремы при большом числе степеней свободы распределение случайной величины  ∼ 2
можно рассматривать как нормальное  ∼  (, 2) .
Более точно
 −
√
→  (0, 1)
2
по распределению при  → ∞ .
5. Квантили порядка  распределения хи-квадрат, то есть числа 2, , удовлетворяющие неравенству
 (2 < 2, ) =  ,
81
содержатся в специальных справочниках и другой литературе
(см., например, [4]).
Для приближённого вычисления квантилей при больших
 ( ⩾ 30) используют асимптотическую нормальность распределения 2 . Действительно, так как при  → ∞ распределение
2 − 
√
стремится к нормальному, то
2
(
)
( 2
)
2, − 
2 − 
 − 
2
2
√
√
 ( < , ) = 
< √
≈
<  = 
2
2
2
и
2, − 
√
=  ,
2
где  – квантиль порядка  нормального распределения  (0, 1) .
Таким образом, при больших  справедливо приближённое
выражение для 2, :
√
2, ≈  +  2 .
(Π9)
Можно получить и другие приближённые формулы, точность
которых возрастает с увеличением :
√
1
2, ≈ ( + 2 − 1)2 ,
2
(
√ )3
2
2
2, ≈  1 −
+ 
.
9
9
(Π10)
(Π11)
Например, если  = 50 и  = 0.9, то 20.9 , 50 = 63.167 .
C учётом того, что  = 1.282, по формуле (П9) получаем
√
20.9 , 50 ≈ 50 + 1.282 2 ⋅ 50 = 50 + 12.82 = 62.82 .
82
Согласно формуле (П10)
√
1
1
20.9 , 50 ≈ (1.282 + 2 ⋅ 50 − 1)2 = (11.232)2 = 63.077 .
2
2
Наконец, по формуле (П11) имеем
(
20.9 , 50
2
≈ 50 1 −
+ 1.282
9 ⋅ 50
√
2
9 ⋅ 50
)3
= 50(1.081)3 = 63.163 .
Распределение Фишера–Снедекора
 (1 , 2 ) – распределение Фишера–Снедекора – непрерывное
двухпараметрическое распределение вероятностей с плотностью:
 (1 ,2 ) () =
−1

2 )
2 2
(
1
,
(
) 1 (
)− 1 + 2
1 2
1
2

1+
,
2
2
где  > 0 ; 1 > 0 ; 2 > 0
и (1 , 2 ) =
(Π12)
Γ(1 )Γ(2 )
) – бетаΓ(1 + 2 )
функция.
1. Основные числовые характеристики:
2
при 2 > 2 и
2 + 1
222 (1 + 2 − 2)
при 2 > 4 .
[ (1 , 2 )] =
1 (2 − 2)2 (2 − 4)
 [ (1 , 2 )] =
2. Если 1 = 1 и 2 = 2 целые, то распределение Фишера–
2 2
21
Снедекора есть распределение отношения 1 2 , где
и
1 2
1
22
– независимые случайные величины, имеющие хи-квадрат
2
распределения с 1 и 2 степенями свободы соответственно.
83
3. Квантили  (1 , 2 ) распределения  (1 , 2 ) содержатся в
справочниках и другой литературе (см., например, [4]).
При 1 , 2 >> 1 для вычисления квантилей  (1 , 2 ) можно
использовать приближённую формулу:
√
2
2(1 + 2 − 2)
2
 (1 , 2 ) ≈
 +
,
(Π13)
2 − 2
1 (2 − 4)
2 − 2
где  – квантиль нормального распределения  (0, 1).
4. Для квантилей  (1 , 2 ) выполняется следующее соотношение:
1
 (1 , 2 ) =
,
(Π14)
1− (2 , 1 )
что позволяет в таблицах приводить значения только для  ⩾ 0.5.
Примеры
1. Сосчитать 0.01 (6, 9).
По таблицам находим, что 0.99 (9, 6) = 7.98. Тогда, согласно
(П14),
1
1
0.01 (6, 9) =
=
= 0.125 .
0.99 (9, 6)
7.98
2. Найти 0.90 (40, 60).
Найдём, что 0.90 = 1.282 , затем воспользуемся формулой
(П13):
√
60
2(40 + 60 − 2)
60
0.90 (40, 60) =
⋅ 1.282 +
=
60 − 2
40(60 − 4)
60 − 2
√
60 2 ⋅ 98
60
=
⋅ 1.282 +
= 1.427 .
58 4 ⋅ 56
58
Для сравнения, найденное по таблицам точное значение
0.90 (40, 60) равно 1.44 .
84
Квантили и критические точки
Таблица 1. Значения
x
0.00
0.01
0.0 0.000 0.004
0.1 0.040 0.044
0.2 0.079 0.083
0.3 0.118 0.122
0.4 0.155 0.159
0.5 0.192 0.195
0.6 0.226 0.229
0.7 0.258 0.261
0.8 0.288 0.291
0.9 0.316 0.319
1.0 0.341 0.344
1.1 0.364 0.367
1.2 0.385 0.387
1.3 0.403 0.405
1.4 0.419 0.421
1.5 0.433 0.435
1.6 0.445 0.446
1.7 0.455 0.456
1.8 0.464 0.465
1.9 0.471 0.472
2.0 0.477 0.478
2.1 0.482 0.483
2.2 0.486 0.486
2.3 0.489 0.490
2.4 0.492 0.492
2.5 0.494 0.494
2.6 0.495 0.496
2.8 0.497 0.498
3.0 0.499 0.499
функции Φ0 ()
0.02
0.04
0.06
0.008 0.016 0.024
0.048 0.056 0.064
0.087 0.095 0.103
0.126 0.133 0.141
0.163 0.170 0.177
0.199 0.205 0.212
0.232 0.239 0.245
0.264 0.270 0.276
0.294 0.300 0.305
0.321 0.326 0.332
0.346 0.351 0.355
0.369 0.373 0.377
0.389 0.393 0.396
0.407 0.410 0.413
0.422 0.425 0.428
0.436 0.438 0.441
0.447 0.450 0.452
0.457 0.459 0.461
0.466 0.467 0.469
0.473 0.474 0.475
0.478 0.479 0.480
0.483 0.484 0.485
0.487 0.488 0.488
0.490 0.490 0.491
0.492 0.493 0.493
0.494 0.495 0.495
0.496 0.496 0.496
0.498 0.498 0.498
0.499 0.499 0.499
0.07
0.028
0.068
0.106
0.144
0.181
0.216
0.249
0.279
0.308
0.334
0.358
0.379
0.398
0.415
0.429
0.442
0.453
0.462
0.469
0.476
0.481
0.485
0.488
0.491
0.493
0.495
0.496
0.498
0.499
0.08
0.032
0.071
0.110
0.148
0.184
0.219
0.252
0.282
0.311
0.337
0.360
0.381
0.400
0.416
0.431
0.443
0.454
0.463
0.470
0.476
0.481
0.485
0.489
0.491
0.493
0.495
0.496
0.498
0.499
0.09
0.036
0.075
0.114
0.152
0.188
0.222
0.255
0.285
0.313
0.339
0.362
0.383
0.402
0.418
0.432
0.444
0.455
0.463
0.471
0.477
0.482
0.486
0.489
0.492
0.494
0.495
0.496
0.498
0.499
85
Таблица 2. Квантили распределения Стьюдента ,
 ∖  0.7500 0.9000 0.9500 0.9750 0.9900 0.9950
1
1.0000 3.0777 6.3138 12.706 31.821 63.657
2
0.8165 1.8856 2.9110 4.3027 6.9646 9.9248
3
0.7649 1.6377 2.3534 3.1825 4.5407 5.8409
4
0.7407 1.5332 2.1319 2.7765 3.7470 4.6041
5
0.7267 1.4759 2.0150 2.5706 3.3649 4.0321
6
0.7176 1.4398 1.9432 2.4469 3.1427 3.7074
7
0.7111 1.4149 1.8946 2.3646 2.9980 3.4995
8
0.7064 1.3968 1.8595 2.3060 2.8965 3.3554
9
0.7027 1.3830 1.8331 2.2622 2.8214 3.2498
10
0.6998 1.3722 1.8125 2.2281 2.7638 3.1693
11
0.6974 1.3634 1.7959 2.2010 2.7181 3.1058
12
0.6955 1.3562 1.7823 2.1788 2.6810 3.0545
13
0.6938 1.3502 1.7709 2.1604 2.6503 3.0123
14
0.6924 1.3450 1.7613 2.1448 2.6245 2.9768
15
0.6912 1.3406 1.7531 2.1315 2.6025 2.9467
16
0.6901 1.3368 1.7459 2.1199 2.5835 2.9208
17
0.6892 1.3334 1.7396 2.1098 2.5669 2.8982
18
0.6884 1.3304 1.7341 2.1009 2.5524 2.8784
19
0.6876 1.3277 1.7291 2.0930 2.5395 2.8609
20
0.6870 1.3253 1.7247 2.0860 2.5280 2.8453
21
0.6864 1.3232 1.7207 2.0796 2.5177 2.8314
22
0.6858 1.3212 1.7171 2.0739 2.5083 2.8188
23
0.6853 1.3195 1.7139 2.0687 2.4999 2.8073
24
0.6849 1.3179 1.7109 2.0639 2.4922 2.7969
25
0.6844 1.3163 1.7081 2.0595 2.4851 2.7874
26
0.6840 1.3150 1.7056 2.0555 2.4786 2.7787
27
0.6837 1.3137 1.7033 2.0518 2.4727 2.7707
28
0.6834 1.3125 1.7011 2.0484 2.4671 2.7633
29
0.6830 1.3114 1.6991 2.0452 2.4620 2.7564
30
0.6828 1.3104 1.6973 2.0423 2.4573 2.7500
inf
0.6745 1.2816 1.6449 1.9600 2.3264 2.5758
86
0.9995
636.62
31.599
12.924
8.6103
6.8688
5.9588
5.4079
5.0413
4.7809
4.5869
4.4370
4.3178
4.2208
4.1405
4.0728
4.0150
3.9651
3.9216
3.8834
3.8495
3.8193
3.7921
3.7676
3.7454
3.7251
3.7066
3.6896
3.6739
3.6594
3.6460
3.2905
Таблица 3. Значения 2,
 ∖  0.010
0.025
0.050
1
0.0002 0.0010 0.0039
2
0.0201 0.0506 0.1026
3
0.1148 0.2158 0.3519
4
0.2971 0.4844 0.7107
5
0.5543 0.8312 1.1455
6
0.8721 1.2373 1.6354
7
1.2390 1.6899 2.1674
8
1.6465 2.1797 2.7326
9
2.0879 2.7004 3.3251
10
2.5582 3.2470 3.9403
11
3.0535 3.8158 4.5748
12
3.5706 4.4038 5.2260
13
4.1069 5.0088 5.8919
14
4.6604 5.6287 6.5706
15
5.2294 6.2621 7.2609
16
5.8122 6.9077 7.9617
17
6.4078 7.5642 8.6718
18
7.0149 8.2308 9.3905
19
7.6327 8.9065 10.117
20
8.2604 9.5908 10.851
21
8.8972 10.283 11.591
22
9.5425 10.982 12.338
23
10.196 11.689 13.091
24
10.856 12.401 13.848
25
11.524 13.120 14.611
26
12.198 13.844 15.379
27
12.879 14.573 16.151
28
13.565 15.308 16.928
29
14.256 16.047 17.708
30
14.953 16.791 18.493
0.900
2.7055
4.6052
6.2514
7.7794
9.2364
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.203
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
0.950
3.8415
5.9915
7.8147
9.4877
11.071
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
0.975
5.0239
7.3778
9.3484
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
0.990
6.6349
9.2103
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
87
Таблица 4. Критические точки распределения
Фишера–Снедекора
 = 0.05
1
2
5
6
7
8
9
12
15
5
5.05 4.95 4.88 4.82 4.77 4.68 4.62
6
4.39 4.28 4.21 4.15 4.10 4.00 3.94
7
3.97 3.87 3.79 3.73 3.68 3.57 3.51
8
3.69 3.58 3.50 3.44 3.39 3.28 3.22
9
3.48 3.37 3.29 3.23 3.18 3.07 3.01
10
3.33 3.22 3.14 3.07 3.02 2.91 2.85
11
3.20 3.09 3.01 2.95 2.90 2.79 2.72
12
3.12 3.00 2.91 2.85 2.80 2.69 2.62
13
3.03 2.92 2.83 2.77 2.71 2.60 2.53
14
2.96 2.85 2.76 2.70 2.65 2.53 2.46
15
2.90 2.79 2.71 2.64 2.59 2.48 2.40
16
2.85 2.74 2.66 2.59 2.54 2.42 2.35
17
2.81 2.70 2.61 2.55 2.49 2.38 2.31
18
2.77 2.66 2.58 2.51 2.46 2.34 2.27
19
2.74 2.63 2.54 2.48 2.42 2.31 2.23
20
2.71 2.60 2.51 2.45 2.39 2.28 2.20
21
2.68 2.57 2.49 2.42 2.37 2.25 2.18
22
2.66 2.55 2.46 2.40 2.34 2.23 2.15
23
2.64 2.53 2.44 2.37 2.32 2.20 2.13
24
2.62 2.51 2.42 2.36 2.30 2.18 2.11
25
2.60 2.49 2.40 2.34 2.28 2.16 2.09
26
2.59 2.47 2.39 2.32 2.27 2.15 2.07
27
2.57 2.46 2.37 2.31 2.25 2.13 2.06
28
2.56 2.45 2.36 2.29 2.24 2.12 2.04
29
2.55 2.43 2.35 2.28 2.22 2.10 2.03
30
2.53 2.42 2.33 2.27 2.21 2.09 2.01
40
2.45 2.34 2.25 2.18 2.12 2.00 1.92
60
2.37 2.25 2.17 2.10 2.04 1.92 1.84
88
20
4.56
3.87
3.44
3.15
2.94
2.77
2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12
2.10
2.07
2.05
2.03
2.01
1.99
1.97
1.96
1.94
1.93
1.84
1.75
40
4.46
3.77
3.34
3.04
2.83
2.66
2.53
2.43
2.34
2.27
2.20
2.15
2.10
2.06
2.03
1.99
1.96
1.94
1.91
1.89
1.87
1.85
1.84
1.82
1.81
1.79
1.69
1.59
Таблица 4 (Продолжение). Критические точки распределения
Фишера–Снедекора.
 = 0.10
1
2
5
6
7
8
9
12
15
20
40
5
3.45 3.40 3.37 3.34 3.32 3.27 3.24 3.21 3.16
6
3.11 3.05 3.01 2.98 2.96 2.90 2.87 2.84 2.78
7
2.88 2.83 2.78 2.75 2.72 2.67 2.63 2.59 2.54
8
2.73 2.67 2.62 2.59 2.56 2.50 2.46 2.42 2.36
9
2.61 2.55 2.51 2.47 2.44 2.38 2.34 2.30 2.23
10
2.52 2.46 2.41 2.38 2.35 2.28 2.24 2.20 2.13
11
2.45 2.39 2.34 2.30 2.27 2.21 2.17 2.12 2.05
12
2.39 2.33 2.28 2.24 2.21 2.15 2.10 2.06 1.99
13
2.35 2.28 2.23 2.20 2.16 2.10 2.05 2.01 1.93
14
2.31 2.24 2.19 2.15 2.12 2.05 2.01 1.96 1.89
15
2.27 2.21 2.16 2.12 2.09 2.02 1.97 1.92 1.85
16
2.24 2.18 2.13 2.09 2.06 1.99 1.94 1.89 1.81
17
2.22 2.15 2.10 2.06 2.03 1.96 1.91 1.86 1.78
18
2.20 2.13 2.08 2.04 2.00 1.93 1.89 1.84 1.75
19
2.18 2.11 2.06 2.02 1.98 1.91 1.86 1.81 1.73
20
2.16 2.09 2.04 2.00 1.96 1.89 1.84 1.79 1.71
21
2.14 2.08 2.02 1.98 1.95 1.87 1.83 1.78 1.69
22
2.13 2.06 2.01 1.97 1.93 1.86 1.81 1.76 1.67
23
2.11 2.05 2.00 1.95 1.92 1.84 1.80 1.74 1.66
24
2.10 2.04 1.98 1.94 1.91 1.83 1.78 1.73 1.64
25
2.09 2.02 1.97 1.93 1.89 1.82 1.77 1.72 1.63
26
2.08 2.01 1.96 1.92 1.88 1.81 1.76 1.71 1.61
27
2.07 2.00 1.95 1.91 1.87 1.80 1.75 1.70 1.60
28
2.06 2.00 1.94 1.90 1.87 1.79 1.74 1.69 1.59
29
2.06 1.99 1.93 1.89 1.86 1.78 1.73 1.68 1.58
30
2.05 1.98 1.93 1.88 1.85 1.77 1.72 1.67 1.57
40
2.00 1.93 1.87 1.83 1.79 1.71 1.66 1.61 1.51
60
1.95 1.87 1.82 1.77 1.74 1.66 1.60 1.54 1.44
89
Замечания
Таблица 1. Если функция распределения случайной величины  непрерывна, то квантиль ( ) порядка  определяется как
такое число, для которого выполняется условие:
 ( <  ) =  .
(Π15)
Квантиль  1 есть медиана случайной величины . Квантили  1
2
4
и  3 называются квартилями, a 0.1 , 0.2 , ..., 0.9 — децилями.
4
Для нормального распределения неравенство (П15) приводит к
соотношению, из которого рассчитывается  :
( 2)
∫ 
1

1
= √
exp −
 = + Φ0 ( ) ,
2
2
2 −∞
где Φ0 () – функция Лапласа:
( 2)
∫ 
1

Φ0 () = √
 .
exp −
2
2 0
Функция Лапласа не выражается через элементарные функции,
её значения табулируются. Причём, с учётом того, что Φ0 (−) =
Φ0 () и Φ0 () ≃ 0.5 при  > 3 , таблицы обычно составляются
для 0 ≤  ≤ 3 .
Таблица 2. Для распределения Стьюдента с  степенями свободы -квантили (, ) определяются условием (П3) или неравенством
 ( < , ) =  .
(Π16)
Критическая точка с уровнем значимости  для односторонней
критической области равна квантили 1−, ; для двусторонней
критической области – квантили 1−/2, .
Таблица 3. Квантили 2, порядка  распределения хиквадрат ищутся из соотношения
 (2 < 2, ) = .
90
(Π17)
Таблица 4. Приведены
 (, 1 , 2 ) распределения
 =
таблицы
критических
точек
2

1
2 ,

2
где  – уровень значимости, 1 – число степеней свободы большей
2
дисперсии 
и 2 – число степеней свободы меньшей диспер1
2
сии 2 . Критическая точка  (, 1 , 2 ) связана с квантилью
 (1 , 2 ) соотношением:
 (, 1 , 2 ) = 1− (1 , 2 ) .
Пример статистической обработки выборки
Пусть имеется вариационный ряд, построенный по выборке,
извлечённый из генеральной совокупности  .
0.1
2.9
4.8
6.6
9.1
0.7
3.1
4.9
6.7
9.4
1.1
3.2
5.1
6.8
9.9
1.4
3.4
5.2
7.1
10.3
1.6
3.6
5.3
7.3
10.5
1.8
3.9
5.5
7.7
11.4
2.2
4.2
5.7
7.9
11.6
2.5
4.5
5.8
8.1
12.5
2.7
4.6
5.9
8.3
12.8
2.8
4.7
6.2
8.8
13.5
Задание 1. Найти выборочное среднее 
¯ , выборочную
дисперсию ( ∗ )2 и исправленную (несмещённую) выборочную
дисперсию 2 .
50
1∑
1
295.7

¯=
 = (0.1 + 0.7 + ... + 13.5) =
= 5.914 .

50
50
(Π18)
=1
Сосчитаем
50
1∑ 2
1
2307.05
¯2 =
 = {(0.1)2 +(0.7)2 +...+(13.5)2 } =
= 46.141,

50
50
=1
91
тогда
∗ = ( ∗ )2 = ¯2 − (¯
)2 = 46.141 − (5.914)2 = 11.1656 ,
2 =

50
( ∗ )2 = 11.1656 = 11.3935 .
−1
49
√
 = 11.3935 = 3.375 .
(Π19)
(Π20)
Задание 2. Построить с надёжностью  = 0.90 доверительные интервал для математического ожидания  [] генеральной
совокупности  .
Будем считать, что рассматриваемая выборка достаточна велика ( >> 1) и применима формула (79):
⎧ (
)




¯ − √ <  [] < 
¯+ √
= 2Φ0 ( ) ,

⎨ 





⎩2Φ ( ) =  ,
0 
в которой
2Φ0 ( ) = 0.9 ⇒  = 1.65 , 
¯ = 5.914 ,  =
√
11.3935 = 3.375 .
Тогда доверительный интервал для математического ожидания генеральной совокупности с надёжностью (доверительной вероятностью)  = 0.9 равен:
(
)
3.375 × 1.65
3.375 × 1.65
√
√
 5.914 −
<  [] < 5.914 +
=
50
50
=  (5.13 <  [] < 6.70) = 0.9 .
(Π21)
Задание 3. Построить с надёжностью  = 0.90 доверительный интервал для дисперсии [] генеральной совокупности 
в предположении, что она имеет нормальное распределение.
92
В нашем случае можно воспользоваться формулой (77):
(
)
2
( − 1)2
(
−
1)

=,
< 2 <
22,−1
21,−1
где квантили 21,−1 и 22,−1 определяются из условий:
 (2−1 < 21,−1 ) =
1−
= 0.05 ,
2
1+
= 0.95 .
2
Так как объём выборки более 30, то для вычисления 21,−1 и
22,−1 можно воспользоваться асимптотической формулой (П11):
 (2−1 < 22,−1 ) =
(
2,
2
≈ 1−
+ 
9
√
2
9
)3
.
Квантили нормального распределения равны: 0.05 =
−1.65, 0.95 = 1.65 , тогда
(
)3
√
2
2
− 1.65
= 33.89
21,−1 = 20,05 ; 49 ≈ 49 1 −
9 × 49
9 × 49
(
22,−1
=
20.95 ; 49
2
≈ 49 1 −
+ 1.65
9 × 49
√
2
9 × 49
)3
= 66.40 .
Таким образом, доверительный интервал для дисперсии нормально распределённой генеральной совокупности с надёжностью (доверительной вероятностью)  = 0.9 равен:
(
)
49 × 11.3935
49 × 11.3935

< [] <
=
66.40
33.89
=  (8.41 < [] < 16.47) = 0.90.
(Π22)
93
Задание 4. Используя критерий согласия Пирсона, проверить гипотезу о нормальном распределении генеральной
совокупности с уровнем значимости  = 0.1.
Построим сгруппированную выборку, разбив интервал, в
который попали все наши варианты, на 8 подинтервалов [−1 ;  ]:
[−1 ;  ]


[−1 ;  ]


[0 ; 2]
1.0
6
[5 ; 6]
5.5
7
[2 ; 3]
2.5
5
[6 ; 8]
7.0
8
[3 ; 4]
3.5
5
[8 ; 10]
9.0
6
[4 ; 5]
4.5
6
[10 ; 14]
12.0
7
Соответствующие гистограмма и полигон изображены на
рис. П3 .
8 6
A
A
6
A
A
A
4
AH
HH
H
aa
a
2
aa
a
a
@
@
@
@ -
0
2
4
6
8
10
12
14
Рис. П3
Теоретические частоты рассчитаем по формуле ′ =  , где
94
вероятности  найдём из формулы (94):
)
))
( (
(
 − 
¯
−1 − 
¯
′
 =  =  Φ0
− Φ0
.
∗
∗
Тогда
)
))
( (
(
2 − 5.914
− ∞ − 5.914
√
− Φ0
=
=  Φ0 √
11.1656
11.1656
( (
)
(
))
2 − 5.914
− ∞ − 5.914
= 50 Φ0
− Φ0
= 50(Φ0 (−1.17)−
3.34
3.34
′1
−Φ0 (−∞)) = 50(−0.3790 + 0.5000) = 50 ⋅ 0.121 = 6.05
( (
)
))
(
3 − 5.914
2 − 5.914
′
2 = 50 Φ0
− Φ0
= 50(Φ0 (−0.87)−
3.34
3.34
−Φ0 (−1.17)) = 50(−0.3078 + 0.3790) = 50 ⋅ 0.0712 = 3.56
( (
)
))
(
4 − 5.914
3 − 5.914
′
3 = 50 Φ0
− Φ0
= 50(Φ0 (−0.57)−
3.34
3.34
−Φ0 (−0.87)) = 50(−0.2157 + 0.3078) = 50 ⋅ 0.0921 = 4.61
( (
)
(
))
4 − 5.914
5 − 5.914
′
− Φ0
= 50(Φ0 (−0.27)−
4 = 50 Φ0
3.34
3.34
−Φ0 (−0.57)) = 50(−0.1064 + 0.2157) = 50 ⋅ 0.1093 = 5.47
( (
)
(
))
6 − 5.914
5 − 5.914
′
5 = 50 Φ0
− Φ0
= 50(Φ0 (0.086)−
3.34
3.34
−Φ0 (−0.27)) = 50(0.0359 + 0.1064) = 50 ⋅ 0.1423 = 7.12
( (
)
(
))
8 − 5.914
6 − 5.914
′
6 = 50 Φ0
− Φ0
= 50(Φ0 (0.62)−
3.34
3.34
−Φ0 (0.086)) = 50(0.2324 − 0.0359) = 50 ⋅ 0.1965 = 9.83
( (
)
(
))
10 − 5.914
8 − 5.914
′
− Φ0
= 50(Φ0 (1.22)−
7 = 50 Φ0
3.34
3.34
95
−Φ0 (0.62)) = 50(0.3883 − 0.2324) = 50 ⋅ 0.1559 = 7.80
)
))
( (
(
∞ − 5.914
10 − 5.914
′8 = 50 Φ0
− Φ0
= 50(Φ0 (∞)−
3.34
3.34
−Φ0 (1.22)) = 50(0.5000 − 0.3883) = 50 ⋅ 0.1117 = 5.59 .
Результаты вычислений можно проверить, просуммировав
теоретические частоты. Очевидно, что сумма всех ′ должна
равнятся числу вариант, то есть 50.
[−1 ;  ]

′
( − ′ )2 / ′
[−1 ;  ]

′
( − ′ )2 / ′
[0 ; 2]
6
6.05
0.001
[5 ; 6]
7
7.12
0.002
[2 ; 3]
5
3.56
0.583
[6 ; 8]
8
9.83
0.341
[3 ; 4]
5
4.61
0.033
[8 ; 10]
6
7.80
0.415
[4 ; 5]
6
5.47
0.052
[10 ; 14]
7
5.59
0.356
В нашем случае сумма теоретических частот равна 50.03 , что
связано с ошибками округления при выполнении расчётов.
Наблюдаемое значение критерия (95) равно:
(2 )∗ =
8
∑
( − ′ )2
= 1.783 ≈ 1.8 .
′
=1
Строим правостороннюю критическую область, удовлетворяющую неравенству
 (2 > 2 ()) =  ,
где  – уровень значимости.
Критическую точку 2 () находим по таблицам распределения хи-квадрат, используя известные значения  = 0.1 и  =
−3=8−3=5:
25 (0.1) = 9.24 .
96
В силу того, что наблюдаемое значение критерия не попадает
в критическую область ((2 )∗ < 25 (0.1)), у нас нет оснований
отвергать гипотезу о нормальном распределении генеральной
совокупности. Мы её принимаем.
Задание 5. Используя критерий согласия Пирсона, проверить гипотезу о равномерном распределении генеральной
совокупности с уровнем значимости  = 0.1.
Теоретические частоты будем рассчитывать по формуле
△
 =  =  ∑8
=1 △
,
(Π23)
где △ =  − −1 – величина -го подинтервала.
[−1 ,  ]

′
( − ′ )2 / ′
[−1 ,  ]

′
( − ′ )2 / ′
[0 , 2]
6
7.14
0.18
[5 , 6]
7
3.57
3.30
[2 , 3]
5
3.57
0.57
[6 , 8]
8
7.14
0.10
[3 , 4]
5
3.57
0.57
[8 , 10]
6
7.14
0.19
[4 , 5]
6
3.57
1.65
[10 , 14]
7
14.29
3.72
Равномерное распределение, как и нормальное, зависит от
двух параметров, при этом критическая точка 25 (0.1) = 9.24 .
Наблюдаемое (эмпирическое) значение критерия (2 )∗ = 10.28
и попадает в критическую область: (2 )∗ > 25 (0.1) .
Гипотеза о равномерном распределении генеральной совокупоности при уровне значимости  = 0.1 должна быть отвергнута.
97
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Фарафонов В. Г., Фарафонов, Вяч. Г., Устимов В. И. Теория вероятностей и математическая статистика. Ч.1. СПб, 2009.
71 с.
2. Лексаченко В. А. Логика. Множества. Вероятность. СПб,
2005. 135 с.
3. Лексаченко В. А. Логика. Множества. Вероятность. СПб,
2001. 127 с.
4. Гмурман В. Е. Теория вероятностей и математическая
статистика. М., 2008. 480 с.
5. Гмурман В. Е. Теория вероятностей и математическая
статистика. М., 2005. 479 с.
6. Гмурман В. Е. Руководство к решению задач по теории
вероятностей и математической статистике. М., 2005. 404 с.
7. Гмурман В. Е. Теория вероятностей и математическая
статистика. М., 2003. 479 с.
8. Худсон Д. Статистика для физиков. М., 1967. 243 с.
9. Колемаев В.А., Калинина В.М. Теория вероятности и математическая статистика. М., 1997. 301 с.
10. Чистяков В.П. Курс теории вероятностей. М., 1982.
320 с.
98
СОДЕРЖАНИЕ
1. Закон больших чисел. Предельные теоремы
1.1. Неравенство Чебышева . . . . . . . . . . . . . .
1.2. Закон больших чисел в форме Чебышева . . . .
1.3. Теорема Бернулли . . . . . . . . . . . . . . . . .
1.4. Центральная предельная теорема . . . . . . . .
1.5. Теорема Муавра–Лапласа . . . . . . . . . . . . .
1.6. Характеристические функции . . . . . . . . . .
1.7. Вопросы для самоконтроля . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
4
5
6
10
13
19
2. Математическая статистика
2.1. Основные понятия математической статистики
2.2. Числовые характеристики выборки . . . . . . .
2.3. Оценивание параметров распределения . . . . .
2.4. Интервальное оценивание параметров . . . . . .
2.5. Проверка статистических гипотез . . . . . . . .
2.6. Вопросы для самоконтроля . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
22
28
37
45
57
74
Приложение
Распределение Стьюдента . . . . . . . . . .
Распределение хи-квадрат . . . . . . . . . .
Распределение Фишера–Снедекора . . . . .
Квантили и критические точки . . . . . . .
Пример статистической обработки выборки
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
80
83
85
91
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Библиографический список
98
Содержание
99
99
Учебное издание
Фарафонов Виктор Георгиевич
Фарафонов Вячеслав Георгиевич
Устимов Владимир Иванович
Бутенина Дина Викторовна
Теория вероятностей и
математическая статистика
Учебное пособие
Часть 2
Редактор А. В. Подчепаева
Сдано в набор 03.11.09. Подписано к печати 24.12.09. Формат 60×84 1/16.
Бумага офсетная. Печ. л. 6,5. Уч.-изд. л. 6,3.
Тираж 100 экз. Заказ № 836.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
2
Размер файла
1 529 Кб
Теги
farafonov
1/--страниц
Пожаловаться на содержимое документа