close

Вход

Забыли?

вход по аккаунту

?

Shaporev 0710F7A17D

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное
образовательное учреждение высшего образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
С. Д. Шапорев
МАТЕМАТИЧЕСКИЕ МЕТОДЫ
ПРИКЛАДНОЙ СТАТИСТИКИ
Учебное пособие
Санкт-Петербург
2016
УДК 519.23(075)
ББК 22.172я73
Ш24
Рецензенты:
доктор технических наук, профессор О. С. Ипатов;
кандидат физико-математических наук, профессор Б. П. Родин
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Шапорев, С. Д.
Ш24 Математические методы прикладной статистики: учеб. пособие / С. Д. Шапорев. – СПб.: ГУАП, 2016. – 407 с.
ISBN 978-5-8088-1107-2
Рассмотрены основные статистические методы, приемы вычислений и программы, часто используемые в практике инженерных
расчетов по специальностям выпускающих кафедр ГУАП. Приведены наиболее важные разделы математической статистики: методы
описательной статистики, метод статистических испытаний, метод
главных компонент, оценивание числовых характеристик и законов распределения случайной величины, проверка гипотез, дисперсионный и корреляционно-регрессионный анализ. Подробно изучаются вопросы статистического моделирования случайных величин
на ЭВМ. Даны примеры, их разбор и решения, графические иллюстрации. Использованы популярные пакеты «STATGRAPHICS»,
«MATHCAD», «MATLAB» и «SCILAB».
Большое внимание уделяется практической работе с описанными алгоритмами, предлагаются лабораторные работы по всем изучаемым темам. Каждая лабораторная работа включает серию индивидуальных заданий.
Предназначено для студентов дневного, вечернего и заочного отделений ГУАП.
УДК 519.23(075)
ББК 22.172я73
ISBN 978-5-8088-1107-2
©
©
Шапорев С. Д., 2016
Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2016
1. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ
И ИХ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ
§ 1.1. Законы распределения дискретных случайных величин
Случайной величиной X называется числовая функция X = X(ω)
от элементарного события, определенная на множестве элементарных исходов W, и такая, что при любом x множество тех ω, для которых X(ω) < x, принадлежит алгебре событий.
Дискретной случайной величиной называется случайная величина с конечным или счетным множеством возможных значений.
Законом распределения случайной величины называется любое
правило, позволяющее находить вероятности всевозможных событий, связанных с этой случайной величиной. Для дискретных
случайных величин простейшей формой закона распределения
является ряд распределения. Это таблица, в одной строке которой
перечислены все значения случайной величины, а во второй строке – соответствующие им вероятности. Например,
X
x1
x2
x3
...
xn
P
p1
p2
p3
...
pn
Итак, дискретная случайная величина X в результате опыта
примет одно из своих возможных значений, т. е. произойдет одно
из полной группы событий ω1 = (X = x1), ω2 = (X = x2), …, ωn =
= (X = xn), W = {ω1, ω2, …, ωn}. Вероятности, соответствующие этим
событиям, таковы p1 = P(X = x1), p2 = P(X = x2), …, pn = P(X = xn).
Очевидно,
n
å pi = 1, т. к. xi = 1, 2, …, n образуют полную группу соi=1
бытий.
Графическое изображение ряда распределения называется многоугольником распределения дискретной случайной величины.
Наиболее общей формой закона распределения является функция распределения. Функцией распределения случайной величины X называется вероятность неравенства X < x, рассматриваемая
как функция параметра x,
F (x) = P ( X < x). (1.1.1)
Чаще всего определенную таким образом функцию распределения называют интегральной функцией распределения или интегральным законом распределения. Функция распределения –
самая универсальная характеристика, она полностью определяет
3
случайную величину. Функция распределения любой случайной
величины обладает следующими свойствами:
1) 0 ≤ F(x) ≤ 1 для всех x;
2) F(x1) ≤ F(x2), если x1 < x2;
3) F(–∞) = 0, F(∞) = 1;
4) во всех точках области определения функция непрерывна слева, т. е. F(x–0) = F(x) или lim F (x) = F (x0 ).
x® x0 -0
Можно показать, что любая функция F(x), обладающая этими
свойствами, может быть функцией распределения некоторой случайной величины. График F(x) в общем случае представляет собой
график неубывающей функции, значения которой начинаются от
нуля и достигают единицы, причем в отдельных точках функция
может иметь разрывы первого рода. Если известен ряд распределения дискретной случайной величины, то можно легко построить
функцию распределения
F (x) = P( X < x) =
å P(X = xi ), (1.1.2)
xi <x
где суммирование распространяется на все те значения xi, которые
меньше x.
Пример. На пути движения автомобиля шесть светофоров, каждый из них либо разрешает, либо запрещает дальнейшее движение
автомобиля с вероятностью 0,5. Составить ряд распределения и построить функцию распределения числа светофоров, пройденных
автомобилем до первой остановки.
Движение автомобиля либо заканчивается на k-м светофоре,
если до этого он проходит k–1 светофор без задержки, а на k-м будет
остановлен, либо автомобиль пройдет все светофоры и остановлен
не будет.
Пусть случайная величина X – число светофоров, пройденных
автомобилем. Очевидно, что X может принимать значения 0, 1, 2,
3, 4, 5, 6. X подчинена геометрическому закону распределения с дополнительным условием, что опыт будет закончен, если X примет
значение шесть. Следовательно,
5
P ( X = k) = qpk , k = 0, 1, 2, 3, 4, 5, P ( X = 6) = 1 - å P ( X = i), (1.1.3)
i=0
причем, очевидно, что p = 1 2, q = 1 - p = 1 2. Тогда ряд распределения случайной величины X имеет следующий вид.
4
X
0
1
2
3
4
5
6
P
1
2
1
4
1
8
1
16
1
32
1
64
1
64
Действительно, например, p1 = P ( X = 0) = qp0 = q = 1 , p2 = P ( X = 1) =
2
q = 1 2, p2 = P ( X = 1) = qp = 1 4 и т. д. Зная ряд распределения, легко построить многоугольник распределения и функцию распределения,
пользуясь формулой F (x) = P ( X < x) = å P ( X = xi ).
xi <x
1
Аналогично, F (0) = P ( X < 0) = 0, F (1) = P ( X < 1) = å P ( X = xi ) = p1 =
2
xi <1
1
P ( X = xi ) = p1 = и т. д.
2
1
Тогда функция распределения может быть выражена в следующем виде:
0, x £ 0,
ïìï
ïï 1
ïï
= 0,5; 0 < x £ 1,
ïï 2
ïï 1
ïï = 0,75; 1 < x £ 2,
ïï 4
ïï 7
ïï = 0,875; 2 < x £ 3,
(1.1.4)
F (x) = ïí 8
ïï15
x
,
0,938;
3
4
=
<
£
ïï
ïï16
ïï 31
ïï 32 = 0,967; 4 < x £ 5,
ïï
ïï 63 = 0,984; 5 < x £ 6,
ïï 64
ïï
1, x > 6.
ïî
p
0,5
F(x)
1,0
0,75
0,5
0,2
0,25
0
1
2
3
4
5
6
0
1
2
3
4
5
6 x
Рис. 1.1. Многоугольник распределения и функция распределения
дискретной случайной величины
5
§ 1.2. Числовые характеристики
дискретных случайных величин, их свойства
Ряд распределения или функция распределения дискретной
случайной величины являются ее исчерпывающими характеристиками, однако они достаточно громоздки, поэтому возникает
необходимость в менее «объемных» характеристиках. Таковыми
являются характеристики положения и рассеивания. Характеристики положения дают некоторое среднее положение случайной
величины, вокруг которого она группируется, а характеристики
рассеивания указывают степень рассеивания случайной величины
вокруг ее среднего положения.
Наиболее употребительная характеристика положения – математическое ожидание – среднее взвешенное из значений xi, причем
каждое xi при осреднении должно учитываться с весом pi. Таким
образом, математическое ожидание дискретной случайной величины равно
n
å xi pi
x p + x2 p2 + ... + xn pn i=1
= n
mX = M ( X ) = 1 1
p1 + p2 + ... + pn
å pi
n
= å xi pi . (1.2.1)
i=1
i=1
¥
Если в правой части формулы (1.2.1) стоит ряд, то M ( X ) = å xi pi =
¥
M ( X ) = å xi pi = lim
i=1
n
å xi pi ,
n®¥ i=1
i=1
причем ряд должен сходиться абсолютно.
Математическое ожидание у данного конкретного распределения
может и не существовать.
Математическое ожидание случайной величины X связано своеобразной зависимостью со средним арифметическим наблюденных
значений случайной величины X при большом числе опытов. Эта зависимость того же типа, что между частотой и вероятностью, а именно, при большом числе опытов среднее арифметическое значений X
сходится по вероятности к своему математическому ожиданию.
Свойства математического ожидания:
1. M(C) = C, C = const. Постоянную величину можно рассматривать как случайную, принимающую только одно значение с вероят1
ностью равной единице, т. е. M (C) = å C ×1 = C.
i=1
6
n
2. Константу можно выносить за знак математического ожиn
n
n
i=1
i=1
дания, т. е. M(C·X) = C·M(X) Действительно, M (CX ) = å Cxi pi = C å xi pi =
n
= å Cxi pi = C å xi pi = CM ( X ).
i=1
i=1
3. Свойство аддитивности: M(X + Y) = M(X) + M(Y), т. к.
n
n
n
i=1
i=1
i=1
M ( X + Y ) = å(xi + yi ) pi = å xi pi + å yi pi = M ( X ) + M (Y ).
Совокупность второго и третьего свойств называется свойством
линейности и выражается следующим равенством M(C1X1 + C2X2
+ … + CnXn) = C1M(X1) + + C2M(X2) + … + CnM(Xn). В частности,
если Y = kX + b, то M(Y) = M(kX + b) = kM(X) + b.
4. Свойство монотонности: если X ≥ Y, то M(X) ≥ M(Y).
5. Мультипликативное свойство: для независимых случайных
величин X и Y справедливо M(X·Y) = M(X)·M(Y).
Кроме математического ожидания в качестве характеристик положения случайной величины часто используются мода и медиана.
Модой дискретной случайной величины X называется такое
значение xk, k = 1, 2, …, n, для которого
P ( X = dX ) = max P ( X = xk ), k
(1.2.2)
е. мода есть наиболее вероятное значение дискретной случайт. ной величины, если это значение единственно. Мода может быть и
не единственной, т. е. распределение может иметь несколько мод
(мультимодальное распределение).
Медианой дискретной случайной величины X называется число
hx, удовлетворяющее условию
1
(1.2.3)
P ( X < hX ) = P ( X ³ hX ) = . 2
Так как данное уравнение в общем случае может иметь несколько корней, то значение медианы может быть не единственным.
Перейдем теперь к определению характеристик рассеивания
случайной величины около своего математического ожидания.
Начальным моментом k-го порядка дискретной случайной величины X называется математическое ожидание k-й степени случайной величины
( )
n
α k = M X k = å xik pi . (1.2.4)
i=1
7
Это определение совпадает с определением начального момента
в механике, если вероятности pi интерпретировать как массы точек
xi. В частности, из формулы (1.2.4) следует, что первый начальный
момент есть математическое ожидание, т. е. α1 = mX.
Центральным моментом k-го порядка дискретной случайной величины X называется математическое ожидание k-й степени соответствующей центрированной случайной величины
n
k
k
µk = M éê( X - mX ) ùú = å(xi - mX ) pi . ë
û i=1
(1.2.5)
Дисперсией случайной величины X называется математическое
ожидания квадрата соответствующей центрированной величины,
т. е. ее второй центральный момент
n
2
2
D ( X ) = DX = µ2 = M éê( X - mX ) ùú = å(xi - mX ) pi . (1.2.6)
ë
û i=1
Средним квадратическим отклонением или стандартным отклонением (стандартом) случайной величины X называется величина
σ X = DX . (1.2.7)
Для дисперсии из формулы (1.2.6) легко выводится следующая
часто употребляемая формула:
n
2
DX = å xi2 pi - mX
.
(1.2.8)
i=1
Свойства дисперсии:
1. Дисперсия любой случайной величины X неотрицательна,
причем Dx = 0 тогда и только тогда, когда X – постоянная, т. е.
D(X) ≥ 0, D(C) = 0.
2. Если Y = X + C, где C = const, то D(Y) = D(X + C) = D(X).
3. Если C = const, то D(C·X) = C2D(X).
4. Если случайные величины X и Y независимы, то D(X + Y) =
= D(X) + D(Y).
Коэффициентом асимметрии называется число A, определяемое
формулой
n
8
A=
µ3
σ3X
3
å(xi - mX )
=
i=1
σ3X
pi
.
(1.2.9)
Коэффициент асимметрии служит для характеристики асимметрии многоугольника распределения. В случае отрицательного
коэффициента асимметрии более пологий склон многоугольника
распределения наблюдается слева, в противном случае – справа.
В первом случае асимметрию называют левосторонней, во втором –
правосторонней.
Эксцессом или коэффициентом крутости называется число
µ
E = 44 - 3. (1.2.10)
σ
X
Эта характеристика служит для сравнения на «крутость» данного и нормального распределения. Эксцесс для случайной величины, распределенной нормально, равен нулю. Если распределению
соответствует отрицательный эксцесс, то соответствующий многоугольник распределения имеет более пологую вершину по сравнению с нормальной кривой. В случае положительного эксцесса многоугольник более крутой по сравнению с нормальной кривой.
§ 1.3. Законы распределения непрерывных
случайных величин
Непрерывной случайной величиной называется такая случайная величина, вероятность попадания которой в любую бесконечно
малую область бесконечно мала и для которой при каждом x существует конечный или бесконечный предел
f (x) = lim
Δx®0
P (x £ X < x + Δx)
Δx
.
(1.3.1)
Все основные определения относительно закона распределения
здесь остаются в силе. Для непрерывной случайной величины невозможно задать ряд распределения. Функция же распределения
для нее существует и представляет собой непрерывную кривую.
Функцией распределения непрерывной случайной величины X
называется вероятность следующего неравенства:
F (x) = P( X < x) =
x
ò f (t)dt (1.3.2)
-¥
при условии, что существует такая неотрицательная функция f(x),
интегрируемая в бесконечных пределах. Эта функция называется
9
0,4
0,3
f(x)
0,2
0,1
0
−4
−2
0
x
2
4
Рис. 1.2. Функция плотности вероятности непрерывной
случайной величины
плотностью распределения вероятностей. Справедливы следующие
соотношения:
x
ìï
ïï
ïïF (x) = ò f (t)dt,
ïí
-¥
(1.3.3)
ïï
dF (x)
ïï
ïï f (x) = dx .
î
Функции плотности вероятностей соответствует кривая плотности распределения, или кривая плотности вероятности. Она является одной из форм закона распределения, но не универсальной,
ибо существует только для непрерывной случайной величины. Ее
некоторой аналогией для дискретных случайных величин является многоугольник распределения.
Свойства функции плотности распределения:
1. f(x) ≥ 0,
¥
2. 
ò f (x)dx = 1.
-¥
§ 1.4. Числовые характеристики непрерывных
случайных величин
Математическим ожидание непрерывной случайной величины
X с плотностью вероятности f(x) называется
10
¥
M ( X ) = mX =
ò
xf (x)dx. (1.4.1)
-¥
Все свойства математического ожидания, приведенные в предыдущих параграфах, остаются справедливыми и для этого определения. Еще две характеристики положения, а именно, мода и медиана остаются в силе для непрерывной случайной величины и даже
определяются в этом случае наиболее естественным образом, если
пользоваться понятием функции плотности распределения.
Модой непрерывной случайной величины X называется число
dX, определяемое как точка максимума функции плотности вероятности f(x). Итак,
f ¢(dX ) = 0, f ¢( x < dX ) > 0 è f ¢(x > dX ) < 0. (1.4.2)
Медианой непрерывной случайной величины X называется число hX, удовлетворяющее условию
hX
¥
-¥
hX
1
ò f (x)dx = ò f (x)dx = 2 . (1.4.3)
Все определения для начальных и центральных моментов остаются в силе, только суммы заменяются интегралами.
Дисперсией непрерывной случайной величины называется ее
второй центральный момент, т. е.
DX = D ( X ) =
¥
2
ò (x - mX ) f (x)dx. (1.4.4)
-¥
Квантилью, или квантилем, порядка p распределения непрерывной случайной величины X называется число tp, удовлетворяющее условию
P ( X < t p ) = p èëè
tp
ò
f (x)dx = p. (1.4.5)
-¥
Очевидно что, например, hX = t0,5.
Критической точкой порядка p распределения непрерывной
случайной величины X называется число κp, удовлетворяющее
уравнению
P ( X ³ κ p ) = p èëè
¥
ò f (x)dx = p. (1.4.6)
κp
11
Квантили и критические точки одного и того же распределения
связаны между собой простым соотношением κp = t1–p.
Асимметрия и эксцесс для непрерывных случайных величин
определяются аналогично формулам (1.2.9) и (1.2.10).
Пример. Случайная величина X подчинена закону арксинуса с
ìï
0, x ³ a,
ïï
ï
1
плотностью распределения вероятностей f (x) = í
, x < a.
ïï
2
ïïî p a - x2
Найти функцию распределения F(x) и вычислить mX, DX, dX, hX, κ0,75.
Найдем сначала F(x). По определению
F (x) =
x
ò
x
-¥
dt
f (t)dt = ò
-a p
a2 - t 2
=
x
ö 1 1
1 æç
t ö÷÷ 1 æç
x
x
= ççarcsin
÷÷ = çarcsin + arcsin1÷÷÷ = + arcsin .
ç
ç
ø 2 p
p çè
a -a ÷ø p è
a
a
Графики функции плотности вероятности и функции распределения приведены ниже.
Определим теперь все числовые характеристики, необходимые
по условию задачи.
a
a
mX = α1 = ò xf (x)dx = ò x
-a
-a
=-
dx
p a2 - x 2
1
2 a2 - x 2
2p
a
-a
f(x)
=-
(
)
a d a2 - x 2
1
=
2p ò a2 - x2
-a
= 0.
F(x)
0.5
1
πà
–а
а
–а
Рис. 1.3. Графики функций плотности вероятности
и распределения закона арксинуса
12
а
Этот результат очевиден и из рисунка функции плотности вероx
= 0, x = 0, но x = 0 – это
ятности. Найдем моду. f ¢(x) =
3
(
p a2 - x 2
)2
точка минимума, а не максимума. Следовательно, моды данное
распределение не имеет. Медиану также найдем по определению
hX
ò
f (x)dx =
-a
hX
h
h
1
x X 1
=
= . Отсюда arcsin X = 0, hX = 0.
arcsin
ò
2
2
a
p
a -a 2
-a p a - x
dx
h
in X = 0, hX = 0. В силу симметричности кривой функции плотности вероa
ятности этот результат тоже очевиден из рисунка f(x).
a
a
2
DX = µ2 = ò (x - 0) f (x)dx = ò
x2dx
2
2
-a p a - x
-a
=
x = a sin t, dx = a cos tdt,
=
1
=
p
p
2
x2 = a2 sin2 t,
a2 - x2 = a cos t,
p
x = ±a, t = ±
2
p
2 2
a
ò a sin tdt = p
p
-
2
=
2
2
é p
p ù
ú a2
a2 êê t 2
1 - cos 2t
1
ò 2 dt = p ê 2 - p - 4 sin 2t -2 p úú = 2 .
ê
p
2 úûú
2
ëê
2
Наконец, найдем требуемую критическую точку.
a
ò
κ0,75 p
1
=
p
Отсюда
p
2
ò
arcsin
dx
a2 - x 2
= 0,75 =
p
a cos t
κö
1
1æp
= çç - arcsin ÷÷÷ = 0,75.
dt = t 2
κ
ç
è
a cos t
aø
p arcsin
p 2
κ
a
a
æ pö
1
2
2a
κ
κ
arcsin = -0,25; = sin çç- ÷÷÷ = - ; κ0,75 = .
ç
è 4ø
2
2
p
a
a
13
§ 1.5. Выборочные аналоги интегральной
и дифференциальной функций распределения
Предметом математической статистики является изучение случайных величин по результатам наблюдений. В ней развиваются методы обработки результатов опытов, анализа полученной из
опытов статистической информации, получения числовых оценок
параметров распределений. Центральное понятие математической
статистики – понятие выборки. Выборка понимается следующим
образом. Пусть проводится некоторый эксперимент, связанный со
случайной величиной X с функцией распределения F(x).
Выборкой объема n из генеральной совокупности с функцией
распределения F(x) называется последовательность x1, x2, …, xn наблюдаемых значений случайной величины X, соответствующих n
независимым повторениям данного эксперимента. Таким образом,
выборка или выборочная совокупность – это множество случайно
отобранных объектов или наблюдений над некоторой случайной
величиной, а генеральная совокупность – это совокупность всех
объектов или всех возможных мыслимых значений случайной величины, из которых производится выборка. Каждый элемент выборки представляет собой конкретную реализацию одной и той же
случайной величины с функцией распределения F(x). Можно, поэтому уточнить понятие выборки следующим образом.
Выборкой объема n называется n независимых случайных величин X1, X2, …, Xn, каждая из которых распределена так же,
как некоторая случайная величина X с функцией распределения
P(X ≤ x) = F(x). Выборка называется репрезентативной или представительной, если она достаточно хорошо представляет количественные соотношения генеральной совокупности. Репрезентативность выборки обеспечивается случайностью отбора. Это означает,
что любой объект выборки отобран случайно, при этом все объекты
имеют одинаковую вероятность попасть в выборку.
Как известно, существуют четыре схемы выбора элементов множеств (выборки): схемы с возвращением элемента или без возвращения и с последующим упорядочиванием или без упорядочивания выбранных элементов. Все эти схемы реализуются в конкретных инженерных задачах.
Выборка, упорядоченная по возрастанию наблюдаемых значений случайной величины, называется вариационным рядом.
Пусть теперь имеется выборка x1, x2, …, xk объема n. Среди элементов xi могут быть и одинаковые. Пусть в выборке элемент xi
14
встречается ni раз. Число ni называется частотой. Очевидно, что
k
å ni = n.
i=1
Отношение частоты ni к объему выборки n называет-
n
ся относительной частотой значения xi и обозначается wi = i n ,
k
k
n
1
å wi = å ni = n n = 1.
i=1
i=1
Совокупность пар (xi, ni) называется статистическим рядом или
статистическим распределением и обычно записывается в виде таблицы:
X
x1
x2
…
xk
ni
n1
n2
…
nk
Если X – дискретная случайная величина, то статистический
ряд, записанный в виде,
X
x1
x2
…
xk
wi
w1
w2
…
wk
является аналогом ряда распределения. Если же X – непрерывная
случайная величина, то статистический ряд записывается в виде,
X
[x0, x1]
[x1, x2]
…
[xk–1, xk]
wi
w1
w2
…
wk
где wi – относительные частоты попадания случайной величины X
в интервал [xi–1, xi], i = 1, 2, …, k.
При большом объеме выборки n ее элементы объединяются
в группы и получается группированный статистический ряд. Для
этого все интервалы выборки разделяются на l разрядов (от 6 до 20).
ni
(x i , ni )
(w)
wi
f ( x)
wi
(x 1 , n1 )
(x k , nk )
wi
w1
1-й разряд
i-й разряд
l-й разряд xi
Рис. 1.4. Полигон частот и гистограмма выборки
15
Следует помнить, что группировка всегда вносит некоторую погрешность в вычисления. Эта погрешность растет с уменьшением
числа разрядов. Графическим представлением выборки являются
полигон частот и гистограмма. Полигон частот строится для дискретной случайной величины. Это график, точки которого имеют
координаты (xi, ni) или (xi, wi). Таким образом, полигон частот для
выборки является аналогом многоугольника распределения дискретной случайной величины. Для иллюстрации распределения
непрерывной случайной величины строят гистограмму. Гистограммой частот группированной выборки называется ступенчатая фигура, составленная из прямоугольников, построенных на интервалах
группировки (разрядах) так, что площадь каждого прямоугольника равна или пропорциональна частоте ni или относительной частоте wi. Очевидно, что при увеличении числа опытов длину разряда
можно неограниченно уменьшать, и тогда гистограмма будет все
более и более приближаться к некоторой кривой, ограничивающей
единичную площадь. Ясно, что эта кривая – график функции плотности вероятности непрерывной случайной величины X. Таким образом, гистограмма – аналог кривой плотности вероятности.
Введем, наконец, понятие выборочной функции распределения.
Пусть имеется выборка объема n, x – некоторое действительное
число, а nx – число выборочных значений случайной величины X,
меньших x. Тогда число nx/n является относительной частотой наблюдаемых в выборке значений X, меньших x, т. е. относительной
частотой появления события X < x. Ясно, что при изменении x будет меняться и величина nx/n. Это означает, что относительная частота nx/n – функция аргумента x. А т. к. эта функция находится
по выборочным опытным данным, то ее называют выборочной, статистической или эмпирической.
Статистической или эмпирической функцией распределения
называют функцию F*(x), определяющую для каждого значения x
относительную частоту события X < x, т. е.
ì
0, x £ x1,
ï
ï
ï
ï
k
ï
F* (x) = ï
(1.5.1)
íå wi , xk < x £ xk+1, k = 1, 2, ..., n -1, ï
ï
=
1
i
ï
ï
ï
1, x > xn .
ï
î
Формально эмпирическая функция распределения обладает всеми свойствами интегральной функции распределения (см. § 1.1).
Имея статистический ряд, очень легко получить статистическую
16
функцию распределения. Действительно, F*(x1) = 0, F*(x2) = w1,
k-1
n
i=1
i=1
F*(x3) = w1 + w2, …, F * (xk ) = å wi , F * (xn+1 ) = å wi = 1. На графике этой функции (рис. 1.5) видны все основные особенности эмпирической функции распределения. Она не убывает, а ее значения
находятся в интервале [0, 1]. Резкие скачки графика функции
F*(x), придающие ей ступенчатый вид, имеют место в тех точках,
которым соответствуют концы разрядов, а величина скачка равна
относительной частоте разряда. Часто график F*(x) строят в виде
непрерывной кривой, соединяя точки графика, соответствующие
концам или серединам разрядов, отрезками прямой (рис. 1.6).
Отметим, что подобный график эмпирической функции распределения, дающий приближенное представление о графике теоретической функции F(x), часто называют кумулятивной кривой (от
англ. accumulation – накопление).
Так как по теореме Бернулли* относительные частоты wi при
n→∞ сходятся по вероятности к соответствующим вероятностям
событий, то при n→∞ F*(x) приближается к интегральной функции
распределения. О сходимости F*(x) к F(x) доказана теорема, носящая имя авторов.
Теорема 1.1 (Гливенко – Кантелли**). Эмпирическая функция
распределения F*(x) равномерно по x с вероятностью 1 сходится
при n→∞ к теоретическому распределению F(x), т. е.
1
F * ( x)
1
F * ( x)
w1 + w2
w1 + w2
w1
w1
x0
x1 x2
xn-1
xn
Рис. 1.5. График эмпирической
функции распределения
x0 x1 x2
xn-1 xn
Рис. 1.6. Кумулятивная кривая
* Яков
Бернулли (1654–1705) – швейцарский математик.
Иванович Гливенко (1896–1940) – советский математик, Франческо
Паоло Кантелли (1875–1966) – итальянский математик.
** Валерий
17
ì
ü
ï
ï
Pï
sup
F * (x) - F (x) = 0ï
í lim
ý = 1. ï
ï
ïn®¥ -¥<x<+¥
ï
î
þ
(1.5.2)
Смысл этой теоремы в том, что при увеличении объема выборки
n у эмпирической функции распределения исчезают свойства случайности, и она приближается к теоретической функции распределения. Аналогично, если n велико, то значение гистограммы wn(x)
в точке x приближенно равно éê F (xi+1 ) - F (xi )ùú / Δ i , ãäå Δ i = xi+1 - xi ,
ë
û
а xi, xi + 1 – концы интервала, в котором находится x. Если Δi – мало,
то гистограмма wn(x) достаточно хорошо воспроизводит функцию
плотности f(x).
§ 1.6. Нормальное распределение
и его числовые характеристики
В теории вероятностей нормальный закон занимает особое место, т. к. является предельным законом для многих других при выполнении некоторых весьма нежестких ограничений. Именно, распределение суммы случайных величин следует приближенно нормальному закону, если среди этих случайных величин нет резко
выделяющихся, сами же случайные величины в отдельности могут
быть подчинены любому закону.
Случайная величина X имеет нормальное распределение, если
ее функция плотности вероятности имеет вид
1
f (x) =
(x-m)2
-
2pσ
e
2σ2
.
(1.6.1)
Закон имеет два параметра m и σ, т. е. относится к классу двухпараметрических законов.
Найдем как всегда сначала функцию распределения.
F (x) =
x
ò
-¥
=
18
f (t)dt =
x
ò
-¥
(t-m)2
-
1
2pσ
t -m
= u,
1
=
σ
2pσ
dt = σdu.
e
2σ2
dt =
x-m
u2
σ
e 2 σdu =
ò
-¥
1
2pσ
1
2p
(t-m)2
x
ò
-
e
2σ2
dt =
-¥
x-m
t2
σ
e 2 dt.
ò
-¥
Последний интеграл не выражается через элементарные функции. Он называется функцией Лапласа* и обозначается
x-m
2
t
σ
æ x - m ö÷
1
=
e
Φ çç
÷
ò 2 dt. çè σ ÷ø
2p
(1.6.2)
-¥
Исторически различают несколько разновидностей функции
Лапласа. Формула (1.6.2) дает обычную функцию Лапласа, называемую функцией Лапласа; функция
æ x - m ö÷
1
=
Φ* çç
çè σ ÷÷ø
2p
x-m
t2
σ
e 2 dt ò
(1.6.3)
0
называется нормированной функцией Лапласа; наконец, в артиллерии широко применяется формула
 æ x - m ö÷
2
=
Φ çç
çè σ ÷ø÷
p
x-m
σ
ò
2
e-t dt, (1.6.4)
0
которая называется приведенной функцией Лапласа. Связь между
всеми этими функциями легко устанавливается по общему правилу замены переменных в определенном интеграле. Например,
1
ˆ (x) = 2Φ 2x -1.
Φ (x) = + Φ* (x), Φ
2
Ниже приведены графики функций плотности вероятности и
функции распределения.
(
)
0,4
0,8
0,3
f(x)
0,6
F(x)
0,2
0,1
0–4
0,4
0,2
–2
0
x
2
4
0 –4
–2
0
x
2
4
Рис. 1.7. Графики функции плотности вероятности
и функции распределения стандартного нормального закона
* Пьер Симон Лаплас (1749–1827) – французский математик, механик и астроном.
19
Определим параметры нормального закона. Ограничимся двумя
точечными характеристиками: математическим ожиданием и дисперсией.
(x-m)2
x -m
¥
= t,
1
2
2
σ
2
σ
mX =
xe
dx
=
=
ò
2pσ
-¥
dx = 2σ dt
¥
1
ò(
2pσ
=
2
)
2σ t + m e-t
2σ dt =
σ 2
p
-¥
+
m
p
¥
ò
¥
m
σ 2 æç -t ÷
+
ççè-e ÷ø÷
2 p
p
-¥
2ö
2
e-t dt =
-¥
¥
¥
ò
2
te-t dt +
-¥
2
m
ò
e-t dt =
–
Пуассона**
-¥
p = m.
p
¥
¥
ò
-¥
Эйлера*
Здесь использован интеграл
¥
DX =
1
¥
2
(x-mX )2
-
(x - mX ) e
ò
2pσ
2σ2
x - mX
é
2
ê 1
= ê- te-t
ê 2
ë
= t,
¥
0
=
ò
t = u, dt = du,
2
t2e-t dt =
-¥
¥
+
-¥
1
2
2
te-t dt = dv,
1 2
v = - e-t .
2
=
ù
2
2σ 2 1
-t2 ú 2σ
p = σ2 .
e
dt
=
ú
ò
2
p
ú p
-¥
û
¥
Итак, DX = σ2, σX = σ. Ясен и смысл параметров m и σ нормального распределения. m – центр рассеивания – является и центром
симметрии распределения. Это хорошо видно из графика функции
плотности вероятности. Размерность центра рассеивания m равна
размерности случайной величины X. Несколько сложнее обстоит
дело с параметром σ. Этот параметр характеризует форму кривой
* Леонард
** Симон
20
Эйлер (1707–1783) – швейцарский математик.
Дениз Пуассон (1781–1840) – французский математик.
¥
2
dt = 2ò e-t dt =
dx = 2σ dt.
2σ 2
p
2σ
dx =
-¥
=
e
-¥
2
2
e-t dt = 2ò e-t dt = p. Аналогично
0
ò
-t2
распределения. При увеличении σ график все более «размазывается» по оси OX, т. е. случайная величина X имеет большее рассеивание около центра симметрии. Чем меньше σ, тем более «островершинен» график функции плотности вероятности. Размерность
DX совпадает с размерностью X2, а σ равна единице масштаба рассеивания случайной величины X относительно центра симметрии.
Легко показать, что для нормального распределения dX = hX = mX.
Полезна формула, выражающая любой центральный момент нормального распределения через дисперсию µk = (k–1)!!DX.
21
2. РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ
С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ
Данные распределения играют в статистической методологии
исключительно важную роль. Они широко используются наряду
с нормальным, когда рассматривается распределение выбранных
статистик.
§ 2.1. χ2-распределение
Пусть X1, X2, …, Xn – независимые случайные величины, каждая из которых имеет нормальное распределение N(0,1). Обознаn
чим сумму их квадратов через χ2n = X12 + X22 + ... + Xn2 = å Xi2 . Очеi=1
видно, χ2 ≥ 0 и P(χ2 < 0) = 0. Эта сумма квадратов имеет плотность
распределения
n
x
ìï
-1 ïï 1
x 2 e 2 , x ³ 0,
ïï n
kn (x) = ïí 2 2 Γ æç n ö÷
(2.1.1)
ïï
çèç ÷ø÷
2
ïï
ïï
0, x < 0
î
æn ö
Здесь Γ ççç ÷÷÷ – гамма-функция (Эйлеров интеграл второго рода);
è2ø
¥
n
-1
æn ö
Γ ççç ÷÷÷ = ò e-x x 2 dx. Интегральная функция распределения имеет
è2ø
0
вид
x
ìï
ïï
2
(
)
(
)
K
x
P
χ
x
=
<
=
ïï n
ò kn (t)dt èëè
ïï
0
í
¥
ïï
ïï1 - K (x) = P (χ2 ³ x) = k (t)dt.
n
ò n
ïï
ïî
x
(2.1.2)
Число n называется числом степеней свободы данного распределения. Формула (2.1.1) выводится разными методами, например,
методом математической индукции. Пропустим эти выводы, они
приведены в книге [1].
22
Число степеней свободы n распределения можно связать с числом независимых величин, остающихся после оценки параметров
или подбора распределения. Этот термин имеет разный смысл в
различных задачах. На рисунках представлены χ2 – кривые с числами степеней свободы n, равными 2, 4, 8 и 16. При n = 0 тангенс
угла наклона кривой обращается в бесконечность для n = 3, он остается конечным и ненулевым при n = 4 и обращается в нуль при n>4.
С ростом n кривая приближается к симметричной кривой. Справа
изображен график функции распределения для n = 4.
Числовые характеристики распределения: 1) математическое
ожидание mx = n; 2) дисперсия Dx = 2n, σx = 2n ; 3) мода dx =
= n–2, n ≥ 2; 4) медиана hx≈n–0,67; 5) коэффициент асимметрии
A=
µ3
σ3x
=
23
n
; 6) коэффициент эксцесса E =
µ4
σ4x
-3 = 3+
12
.
n
Когда число степеней свободы стремится к бесконечности, A и E
стремятся к нулю и трем соответственно, т. е. к значениям этих моментов для нормального распределения. Можно показать, что распределение данных случайных величин стремится при n→∞ к нормированному нормальному распределению. Приведем несколько
наиболее употребительных формул приближения к нормальному
распределению:
χ2 - n 2
, χn Î N (n, 2n), X1 Î N (0,1);
1)  X1 = n
2n
f2(x)
0,4
1
0,3
0,8
f4(x)
0,6
f8(x) 0,2
f16(x)
F4(x)
0,4
0,1
0
0,2
0
10
x
20
30
0
0
5
10
x
15
20
Рис. 2.1. Различные функции плотности
и функции распределения χ2-распределения
23
2)  X2 = 2χ2n - 2n -1 (аппроксимация Фишера*);
2χ2n Î N ( 2n -1,1), X2 Î N (0,1);
1
1
é
ù
é
ù
êæ 2 ö3
ú
ê 2 ö3
ú
æ
ö
2 ú 9n êæç χn
2
2
÷
êçç χn ÷÷
ú
3)  X3 = êç ÷÷ -1 + ú
, êçç ÷÷÷ Î N ççç -1, ÷÷÷, X3 Î N (0,1)ú .
è
ø
ç
ç
n
9
n
2
÷
9
9
n
n
n
êè ø
ú
êè ø÷
ú
ê
ú
ê
ú
ë
û
ë
û
(аппроксимация Вильсона** – Хилферти).
Распределение χ2 обладает одним замечательным свойством:
две независимые величины χ21 и χ22, распределенные по закону χ2
с n1 и n2 степенями свободы, при сложении дают в сумме величину
χ21 + χ22, распределенную по закону χ2 с n1 + n2 степенями свободы.
§ 2.2. t-распределение Стьюдента***
Вторым из числа распределений, широко используемых в статистических проверках, является t-распределение Стьюдента или
просто t-распределение, впервые предложенное Госсетом и затем
более строго обосновано Фишером. Оно лежит в основе множества
процедур статистического анализа в науке и технике. На простом
t-критерии основаны очень многие более сложные статистические
критерии. Распределению Стьюдента подчиняется статистика
t=z n
,
(2.2.1)
v
где z и v независимы, z распределена нормально, z∈N(0, 1), а v
подчиняется закону χ2 с n степенями свободы. При этих условиях
плотность вероятности величины t имеет вид
æ
x2 ö÷÷
çç
sn (x) = Bn ç1 + ÷÷
çè
n ø÷
* Роналд
n+1
2
æ n + 1÷ö
Γ çç
çè 2 ÷÷ø
, Bn =
æ n ÷ö
ç
Γ ç ÷÷ p n
çè 2 ø
(2.2.2)
Эйлмер Фишер (1890–1962) – английский математик.
Бидвел Вильсон (1879–1964) – английский математик.
*** Уильям Сили Госсет (псевдоним Стьюдент) (1876–1937) – английский математик.
** Эдвин
24
X
Функция распределения обозначается через Sn (x) =
x
ò
sn (t)dt.
-¥
Ее график сильно напоминает график нормального распределения, с ростом n распределение t стремится к нормированному нормальному распределению N(0, 1). График функции распределения
также очень похож на нормальный. На рис. 2.2. представлены
графики трех функций плотности вероятности: f(x) – плотность
стандартного нормального распределения, f1(x) – плотность распределения Стьюдента с одной степенью свободы, f4(x) – плотность
распределения Стьюдента с четырьмя степенями свободы и график
функции распределения Стьюдента F(x).
Числовые характеристики распределения: mX = 0, DX = n n - 2, n > 2;
=n
, n > 2; мода dX = 0; медиана hX = 0, коэффициент асимметрии
n -2
A = 0, n>3; коэффициент эксцесса E = 6 n - 4, n > 4. Нормаль-
(
)
ная аппроксимация N 0, n n - 2 очень хороша при n ≥ 30, т. е.
t
X1 =
Î N (0, 1).
n
n -2
При больших n для квантилей распределения Стьюдента спраup
, где up –
ведлива приближенная формула t p »
2 u2p
1 - 14
n - 2n
квантиль порядка p стандартного нормального распределения.
(
)
1
0,4
f(x)
f1(x)
0,3
F(x) 0,4
f4(x) 0,2
0,1
0
–5
0
x
5
0
–10
–5
0
5
10
Рис. 2.2. Кривые плотности и распределения закона Стьюдента
25
§ 2.3. F-распределение (распределение Фишера)
или распределение дисперсионного отношения
Третье распределение, часто применяемое при анализе выборочных данных из нормальной совокупности, – это F-распределение.
Прежде всего, оно используется в задачах, связанных с дисперсиями.
Если величины U и V независимы и каждая распределена как χ2
U n1
с n1 и n2 степенями свободы, то F =
имеет плотность распреV n2
деления вероятностей
æ n + n2 ö÷
n1-2
n1
Γçç 1
çè 2 ÷ø÷ æç n1 ÷ö 2
x 2
, x > 0. fF (x) =
ç ÷
(2.3.1)
n1 +n2
æ n ö æ n öçç n ÷÷
Γ çç 1 ÷÷÷Γ çç 2 ÷÷÷ è 2 ø æ
ö
nx 2
èç 2 ø èç 2 ø
çç1 + 1 ÷÷÷
çè
n2 ÷ø
Это двухпараметрическое семейство распределений с параметрами n1 и n2, называемыми степенями свободы. Константа
æn ö æn ö
Γ çç 1 ÷÷÷Γ çç 2 ÷÷÷
æn n ö
èç 2 ø èç 2 ø
обозначается как Bçç 1 , 2 ÷÷÷. Это бета-функция, опреçè 2 2 ø
æ n + n2 ÷ö
Γ çç 1
÷
÷
çè 2 ø
деляемая формулой
1
n-1
B(m,n) = ò ym-1 (1 - y)
dy. (2.3.2)
0
Графики трех функций плотностей вероятностей распределения
Фишера: с двумя и пятью степенями свободы, с пятью и десятью
степенями свободы и, наконец, с десятью и тридцатью степенями
свободы, а также функция распределения приведены на рис. 2.3.
Функция плотности вероятности также как у χ2-распределения
сильно асимметрична. Числовые характеристики распределения:
n2
1) математическое ожидание mx =
, n2 > 2;
n2 - 2
2n22 (n1 + n2 - 2)
2) дисперсия Dx =
, n2 > 4;
2
n1 (n2 - 2) (n2 - 4)
3) мода dX =
26
n2 (n1 - 2)
n1 (n2 + 2)
, n1 > 1;
n2 - 4)
1 + n2 - 2)
f25(x)
f510(x)
f1030(x)
1
1
0,8
0,8
0,6
F(x)
0,6
0,4
0,4
0,2
0,2
0
0
0
2
4
x
6
8
10
0
2
x
4
Рис. 2.3. Кривые плотности и распределения F-распределения
4) коэффициент асимметрии A =
, n2 > 6;
5) коэффициент эксцесса
2(2n1 + n2 - 2)
(n2 - 6)
2(n2 - 4)
n1 (n1 + n2 - 2)
, n2 > 6;
2
12 êé(n2 - 2) (n2 - 4) + n1 (5n2 - 22)(n1 + n2 - 2)úù
ë
û , n > 8.
E=
2
n1 (n1 + n2 - 2)(n2 - 6)(n2 - 8)
§ 2.4. Распределение Колмогорова*
Важную роль в математической статистике играет распределение статистики, введенной А. Н. Колмогоровым:
Dn =
sup
-¥<x<+¥
Fn (x) - F (x) , (2.4.1)
где F(x) – функция распределения случайной величины X, а Fn(x) –
эмпирическая функция распределения.
Теорема 2.1 (Колмогорова). Если функция распределения F(x)
непрерывна, то
ìï
üï
Fn (x) - F (x) < zïý =
lim P ïí n
sup
ïþï
n®¥ ï
îï -¥<x<+¥
= K ( z) =
¥
2 2
k
å (-1) e-2k z
, z > 0.
(2.4.2)
k=-¥
* Андрей
Николаевич Колмогоров (1903–1987) – советский математик.
27
График функции распределения Колмогорова изображен на
рис. 2.4 справа. Он имеет ряд особенностей. Функция K(z) очень
медленно возрастает в проме-жутке z∈[0, 0,5], затем очень быстро
возрастает почти до единицы на отрезке z∈[0,5; 1], потом следует
опять медленный рост при z→∞. Найдем функцию плотности распределения Колмогорова
¢
é ¥
2 2ù
k
f (z) = k(z) = KZ¢ (z) = êê å (-1) e-2k z úú =
ëê k=-¥
ûú z
¢
¥
¥
é
2 2ù
2 2
k
k
= êê1 + 2 å (-1) e-2k z úú = 2 å (-1) e-2k z -2k2 2z =
êë
úû z
k=1
k=1
(
¥
k
2 2
= -8z å (-1) k2e-2k
z
)
= k(z).
(2.4.3)
k=1
График функции плотности вероятности распределения изображен на рис. 2.4 слева. Найдем теперь основные числовые харак-
¥ æ
¥
¥
ç
теристики: mZ = ò zk(z)dz, т. к. z>0 по определению, тогда mZ = ò zçç-8z å
ç
k=1
0 è
0
¥
¥
¥
¥
æ
ö
k 2 -2k2z2 ÷÷
k 2
çç
2 -2k2z2
mZ = ò zç-8z å (-1) k e
dz.
÷÷dz =- 8 å (-1) k ò z e
çè
ø÷
k=1
k=1
0
0
Вычислим отдельно
2
1
1,5
k(z)
1
K(z)
0,5
0,5
0
0
0
1
z
2
3
0
1
z
Рис. 2.4. Графики функций плотности вероятности
и функции распределения статистики Колмогорова
28
2
3
¥
ò
2 2
z2e-2k
z
z = u, dz = du,
1 -2k2z2 2
e
dz = dv,
2
2 2
1
v=
e-2k z
2
2 -2k
dz =
0
(
+
1
2
4k
¥
ò
2 2
e-2k
z
dz =
0
=
z
2 2
e-2k
-4k2
+
0
2kz = y,
¥
2 dy
1
1
e-y
=
=
dy
ò
2
dz =
.
k
2
4k 0
4 2k3
2k
¥
ò
-¥
¥
p
k
mZ = -8 å (-1) k2
k
å (-1)
k=1
4 2k3 × 2
=-
p
.
2
¥
2
2
e-t dt = 2ò e-t dt = p.
0
Тогда
=
¥
)
Здесь использован интеграл Пуассона
k=1
¥
z
p ¥
k1
å (-1) k =
2 k=1
1
p
ln 2 = 0,8687.
= -ln 2 =
2
k
Аналогично
2
¥
¥æ
¥
2 2
p ö÷
2
k
DZ = ò (z - mZ ) k(z)dz =ò çççz - ln 2 ÷÷ (-8z) å (-1) e-2k z k2dz =
÷
çè
2ø
k=1
0
0
2
p ö÷÷ -2k2z2
ç
= -8 å (-1) k ò ççz - ln 2 ÷ ze
dz.
çè
2 ÷ø
k=1
0
¥
k 2
¥æ
Подсчитаем этот интеграл отдельно, раскрывая скобки и интегрируя по частям:
¥
2 2
1)  ò z3e-2k
z
dz =
0
=-
z2
2
4k
-2k2z2
z2 = u, du = 2zdz,
1 -2k2z2 2
e
dz = dv,
2
2 2
1
v = - 2 e-2k z .
4k
¥
+
e
0
2
2
4k
¥
ò
0
2 2
ze-2k
z
dz =
=
1
2 2
4
-8 k
e-2k
z
¥
=
0
1
8k4
; 29
=-
z2
2
4k
¥
-2k2z2
+
e
0
¥
2
2
4k
ò
2 2
ze-2k
z
dz =
0
1
2 2
4
-8 k
e-2k
z
¥
1
=
8k4
0
;
¥
2 2
p
p
p
p ln 2
=- 3 ;
2)  -2 ln 2 ò z2e-2k z dz =- 2 ln 2
3
2
2 4 2k 2
8k
0
¥
¥
2 2
2 2
p
p ln2 2
3)  ln2 2ò ze-2k z dz =
e-2k z dz2 =
ò
2
4
0
=
0
2
2 2
p ln 2 1
e-2k z
2
4
-2k
¥
=
p ln2 2
8k2
0
,
тогда
¥
é 1
p ln 2 p ln2 2 ùú
k
DZ = -8 å (-1) k2 êê 4 +
ú=
8k3
8k2 ûú
k=1
ëê 8k
¥
k=1
8k4
¥
k
= - å (-1)
k=1
¥
k
å (-1)
Хотя
k=1
¥
k2
k
= -8 å (-1)
1
2
k
k
+ 8 å (-1)
1
k2
k=1
¥
2
2
p ln 2
k k p ln 2
- 8 å (-1)
=
8k
8k2
k=1
¥
k
+ p ln 2 å (-1)
=-
k=1
p2
,
12
¥
k
å (-1)
k=1
¥
1
k
- p ln2 2 å (-1) .
k
k=1
1
= -ln 2, но ряд
k
¥
k
å (-1)
k=1
расходится. Следовательно, Dz не существует.
¥
Оценим медиану. По определению
1
ò k(z)dz = 2 . В нашем случае
hZ
¥
¥
k
2 2
-8 ò z å (-1) k2e-2k
hZ k=1
¥
=30
z
¥
k
k=1
¥
-2k2z2
8
1
e
(-1)k k2
å
2 k=1
-2k2
¥
2 2
dz = -8 å (-1) k2 ò ze-2k
hZ
z
dz =
2 2
hZ
1
= .
2
hZ
¥
k
= -2 å (-1) e-2k
k=1
¥
k
2 2
hZ
Отсюда 2 å (-1) e-2k
k=1
k
2 2
hZ
1) e-2k
¥
k
2 2
hZ
= å (-1) e-2k
-¥
¥
¥
2 2
1
k
k
+ 1 = - + 1, но 1 + 2 å (-1) e-2k hZ = å (-1) e2
k=1
-¥
æ1 ö
1
= K (hZ ) = . Тогда hZ = K-1 çç ÷÷÷ = 0,8276. Итак,
çè 2 ø
2
медиана распределения равна hz = 0,8276.
§ 2.5. Гамма-распределение
Гамма-распределение полезно при представлении распределения величин (вес, длина), которые не могут быть отрицательными
или значения которых ограничены снизу известным числом. Как
и семейство распределений Вейбулла, семейство гамма-распределений включает экспоненциальное распределение как частный
случай.
Гамма-распределение определяется формулой
fX (x) =
1
Γ (α + 1)βα+1
α
-
x e
x
β
, x > 0. (2.5.1)
Распределение двухпараметрическое. Параметр масштаба β>0,
часто используется другой параметр λ, λ = 1/β. При α = 0 уравнение
(2.5.1) дает функцию плотности вероятности экспоненциального
распределения.
x
1
1
f (x) =
e β = λe-λx , λ = . Γ (1)β
β
(2.5.2)
α в распределении должно быть больше –1.
Функция распределения F (x) =
1
Γ (α + 1)β
x
α+1
òt
α
-
e
t
β
dt. (2.5.3)
0
Вид функции плотности вероятности и функции распределения
сильно зависят от параметра α. На рис. 2.5 приведены графики
функций плотностей (слева) и функций распределения (справа) для
значений параметра α, равного нулю (для f1 и F1), двум (для f2 и
F2) и семи (для f3 и F3).
31
f1(x)
f2(x)
f3(x)
0,8
F(x)
0,6
F2(x)
0,4
F3(x)
0,6
0,4
0,2
0,2
0
0
0,8
5
x
10
15
0
0
5
x
10
15
Рис. 2.5. Кривые плотности и распределения гамма-распределения
Числовые характеристики распределения:
1) математическое ожидание mX = β(α + 1);
2) дисперсия DX = β2(α + 1);
3) мода dX = βα, α ≥ –1;
4) коэффициент асимметрии A = 2
;
α +1
5) коэффициент эксцесса E = 6
α + 1.
При α + 1 = n/2 и β = 2 гамма-распределение совпадает с χ2распределением с n степенями свободы. Сумма двух независимых
случайных величин, имеющих гамма–распределение с параметрами α1 + 1 и α2 + 1 соответственно, имеет гамма–распределение с параметром α1 + α2 + 2.
§ 2.6. Распределение Вейбулла (Вейбулла – Гнеденко*)
Это распределение весьма широко применяется в последние два
десятилетия. Особенно оно полезно в задачах долговечности и надежности. Его можно рассматривать как обобщение экспоненциального распределения, поскольку в нем три параметра, и оно сводится к экспоненциальному при подходящем выборе одного из них.
Плотность распределения вероятностей смещенного (трехпараметрического) распределения Вейбулла определяется как
æ
öc
c-1 -çç x-a ÷÷
çè b ø÷
c æ x - a ö÷
fX (x) = çç
÷
b çè b ø÷
*
32
e
, x ³ a, b > 0, c > 0. Борис Владимирович Гнеденко (1912– 1995) – советский математик.
(2.6.1)
Параметр масштаба b иногда называют характерным временем
жизни. Обычно распределение делают двухпараметрическим, полагая a = 0. Тогда получают так называемое классическое распределение Вейбулла с плотностью вероятности
ìï
α-1 -λxα
ï
e
, x > 0, fX (x) = ïíαλ x
ïï
0, x £ 0.
ïî
(2.6.2)
Здесь α, λ>0 и α = c, λ = 1/bc, а параметр α называется параметром
формы. При α = 0 и α = 1 уравнение (2.6.2) превращается в функцию
плотности экспоненциального распределения. Обычно проще работать с функцией распределения Вейбулла, которая имеет вид
α
F (x) = 1 - e-λx . (2.6.3)
Графики функции распределения и функции плотности вероятности зависят от значения параметра формы α (или c в формуле
(2.6.1)). Далее на рис. 2.6 приведены графики функций плотности
вероятностей и функций распределения для ряда значений параметра формы: f1 и F1 для α = 1, f2 и F2 для α = 3, наконец, f3 и F3
для α = 8.
Числовые характеристики двухпараметрического распределения выражаются через гамму-функцию и равны:
æ c + 1ö÷
=λ
1) математическое ожидание mX = bΓ çç
çè c ÷÷ø
-
1
æ
ö
α Γ ç α + 1÷÷;
çç
è α ÷ø
2
- é æ α + 2ö
ù
æ c + 2 ö÷ 2 æ c +1ö÷ù
÷- Γ2 æçç α +1ö÷÷ú ;
α
ç
ç
ú
ê Γ çç
-Γ ç
=λ
2) дисперсия DX = b Γ çç
çè c ø÷÷ú
çè α ø÷ú
ê è c ø÷÷
ê èç α ø÷÷
ë
û
ë
û
2 êé
3
f1(x)
1
F1(x)
2
f2(x)
F2(x)
f3(x) 1
F3(x)
0,8
0,6
0,4
0,2
0
0
1
2
x
3
4
5
0
0
1
2
x
3
4
5
Рис. 2.6. Кривые плотности и распределения закона Вейбулла
33
1
ìï
ïìï
ï æ
ö
ïï
ïïbçç1 - 1 ÷÷c , c ³ 1,
=
d
3) мода dX = í çè
или
íλ
÷
X
cø
ïï
ïï
ïï
ïï
0,
1
,
c
<
ïî
ïî
-
1
1
æ
ö
α ç1 - 1 ÷÷α ,
çç
è
α ÷ø
0, α < 1;
α ³ 1,
1
4) медиана hX = b(ln 2)c ;
5) коэффициент асимметрии
A=
æ c + 3÷ö
æ c + 2÷ö æ c +1÷ö
æ c +1÷ö
- 3Γ çç
+ 2Γ3 çç
Γ çç
Γç
çè c ÷÷ø
çè c ÷÷ø ççè c ÷÷ø
çè c ÷÷ø
3
;
é æ
ö
æ
öù 2
êΓ çç c + 2÷÷- Γ2 çç c +1÷÷ú
÷
ç
ç
êë è c ø
è c ø÷úû
6) коэффициент эксцесса
E=
æ c + 4 ö÷
æ c + 3 ö÷ æ c + 1ö÷
æ c + 2 ö÷ 2 æ c + 1ö÷
æ c + 1ö÷
Γ çç
Γç
Γ ç
- 4Γ çç
+ 6Γ çç
- 3Γ4 çç
÷
çè c ø÷÷
çè c ø÷÷ èçç c ø÷÷
çè c ø÷÷ èçç c ø÷÷
èç c ø÷
é æ c + 2ö
ù2
÷÷ - Γ2 æçç c + 1ö÷÷ú
êΓ çç
êë çè c ÷ø
èç c ÷øúû
- 3.
Распределение Вейбулла часто используется в теории надежности для описания времени безотказной работы приборов.
§ 2.7. Распределение Рэлея
Это однопараметрическое распределение описывает изменение
длины двумерного случайного вектора, прямоугольные координаты которого независимы и подчиняются нормальному закону с параметрами mx = 0, σx = a, т. е. если x1 и x2 Î N (0, a), то y = x12 + x22
имеет распределение Рэлея с σ = a.
Плотность вероятности распределения равна
f (x) =
x
a
2
-
e
x2
2a2 , x > 0, a > 0, (2.7.1)
где a – мода распределения и параметр масштаба. Функция распределения имеет вид
34
0,3
f1(x)
F1(x)
f2(x) 0,2
F2(x)
f3(x)
F3(x)
0,1
0
0
0,8
0,6
0,4
0,2
5
10
x
15
0
0
20
5
10
x
15
20
Рис. 2.7. Кривые плотности и распределения закона Рэлея
-
F (x) = 1 - e
x2
2a2 . (2.7.2)
Графики этих двух функций в зависимости от величины параметра a приведены на рис. 2.7 (для f1 и F1 a = 2, для f2 и F2 a = 5 и
для f3 и F3 a = 13).
Числовые характеристики распределения:
1) математическое ожидание mX = a
p
» 1,2533a;
2
æ
pö
2) дисперсия DX = a2 çç2 - ÷÷÷ » 0,4292a2 ;
çè
2ø
3) мода dX = a;
4) коэффициент асимметрии A =
2 p (p - 3)
3
» 0,6311;
(4 - p)2
5) коэффициент эксцесса E =
6p(4 - p) -16
(4 - p)2
» 0,2451.
Если x(a, 2) – случайная величина, имеющая распределение Рэлея, то x (a,2) ~ a χ22 , где χ22 – случайная величина хи-квадрат распределения с двумя степенями свободы.
35
3. СТАТИСТИЧЕСКИЕ ВЫЧИСЛЕНИЯ В СРЕДАХ
STATGRAPHICS, MATHCAD, MATLAB И SCILAB
§ 3.1. Вычисления в среде Statgraphics
Существуют разнообразнейшие методы обработки данных, имеющие различную сложность и нередко требующие больших вычислительных ресурсов. Это огромный мир, созданный многолетними
трудами профессиональных математиков и прикладных научных
специалистов.
Вместе с тем, следует отметить, что значительная часть методов и статистических пакетов быстро устаревает. Это связано со
стремительными темпами развития отрасли. В таких условиях
выигрывает программное обеспечение, обладающее очень высокими потребительскими качествами. Пакет STATGRAPHICS
(STATistical GRAPHICs System) выгодно отличается от других статистических пакетов удобством пользовательского интерфейса и
объемом используемых методов обработки, принадлежит к классу
универсальных пакетов. Этот пакет, созданный американской корпорацией Manugistics, является одним из наиболее эффективных
систем статистического анализа данных.
Статистическая программа Statgraphics существует с 1982 года и
продолжает развиваться. С момента выхода первой версии Statgraphics
эволюцию претерпели почти все основные составляющие пакета. Сейчас Statgraphics Plus for Windows включает более 250 статистических
и системных процедур, применяющихся в бизнесе, экономике, маркетинге, биологии, социологии, на производстве и в других областях.
В числе таких процедур как простейшие инструменты оценки выборки, так и весьма мощные по своим возможностям методы. Простота
работы с программой достигается за счёт интуитивно понятного интерфейса, возможностям изменения параметров процедур по ходу решения конкретной задачи и превосходным графическим представлениям. Каждая статистическая процедура в Statgraphics сопровождается интегрированной в систему отличной графикой. Все элементы
графических отображений могут быть подвергнуты коррекции и преобразованию. Для этого нужно выбрать требуемый элемент, щелкнув
на нем левой кнопкой мыши, затем щелкнуть правой кнопкой. Тогда
на экране появиться диалоговое окно, в котором можно выполнить необходимые изменения. Например, можно идентифицировать точку на
графике и выяснить её местонахождение в файле данных, можно вращать и рассматривать с разных сторон все графические изображения.
36
Здесь описывается версия пакета Statgraphics Centurion XVI.II. Весь
пакет в целом имеет модульную структуру. После запуска Stangraphics
на экране монитора появляется следующая заставка (рис. 3.1). Многие
пункты головного меню выполняют те же действия, что и в большинстве прочих Windows – приложений. Большинство статистических
процедур сгруппированы в пунктах Describe, Compare и Relate.
В этой модульной системе особенно часто используются следующие процедуры:
– меню Plot (рис. 3.1) содержит процедуры построения различных графиков, сплайнов, распределения вероятностей (46 различных распределений);
– меню Describe включает статистические методы анализа по одному и множеству переменных, процедуры подбора распределений,
средства табуляции данных, процедуры метода главных компонент;
– меню Compare включает методы сравнения двух и более выборок данных, процедуры одно- и многофакторного дисперсионного
анализа;
– меню Relate содержит процедуры простого, полиномиального,
дискриминантного и множественного регрессионного анализа;
– меню Forecast содержит программы методов селекционного
анализа;
– меню Tools включает процедуры метода статистических испытаний.
Незаменимую помощь начинающим и опытным исследователям
окажут StatVizard и StatAdvisor, сделав работу легкой и эффективной. Первый покажет какую процедуру необходимо использовать
для достижения желаемого результата, а второй расскажет, как
правильно интерпретировать полученные данные.
Собственный вариант программы расчета можно сохранить
в виде файла StatFolio. Если возникнет потребность в обработке
другого множества данных по составленной схеме анализа, нужно
в этот вариант просто загрузить новый файл данных. Результаты
расчетов, таблицы и графики будут выданы автоматически.
В пакете реализовано средство помощи пользователю – статконсультант (StatAdvisor), которое представляет интерпретацию
результатов. Для вызова статконсультанта нужно щелкнуть левой
кнопкой мыши на графическом или табличном окне пакета, а затем
на пиктограмме StatAdvisor. Появится консультационное окно, содержащее исчерпывающие советы, разъяснения и рекомендации.
Чтобы ввести исходные данные необходимо раскрыть пиктограмму
untitled (см. рис. 3.2), расположенную внизу рабочего поля.
37
38
Головное меню
Меню
текущих операций
Рис. 3.1. Окно Statgraphics
Меню электронных таблиц, комментариев, статконсультанта и составления статистических отчетов
Рабочее поле
Рис. 3.2. Электронная таблица пакета Statgraphics
Необходимо наименовать переменную, которую мы будем вводить в первый столбец. Щелкнем правой кнопкой мыши по заголовку Col_1, появится контексное меню, в котором следует выбрать
команду Modify Column (Определить столбец). Появится новое окно
диалога (см. рис. 3.3), в котором нужно выбрать соответствующий
тип вводимых данных (Numeric) и ввести имя переменной.
Рис. 3.3. Панель модификации колонки
39
Следует иметь в виду, что разделителем целой и дробной части
чисел в пакете Statgraphics является запятая, а все имена вводятся латинскими буквами. После ввода данных в первую колонку
их можно преобразовывать, вызвав из контексного меню пункт
Generate Date (Генерировать данные). Допускается более сотни манипуляций с переменными с помощью предоставляемых операторов. Наконец, надо сохранить файл данных командой FileSave Data
File As, ввести имя файла и нажать ОК. В заголовке таблицы вместо < untitled> появится указанное имя.
В лабораторных работах будет подробно разобрано содержимое
всех необходимых пунктов меню.
§ 3.2. Вычисления в среде Mathcad
Блок статистических функций в пакете Mathcad весьма ограничен, он содержит только самые употребительные методы и процедуры, их осуществляющие, и генерирует лишь семнадцать статистических распределений.
В пакете Mathcad статистические функции условно разделяются
на четыре раздела: статистики совокупностей, распределения вероятностей, гистограммы и случайные числа. Пакет Mathcad имеет
более широкую область применения, статистические функции составляют лишь одну из его более чем двадцати глав. В связи с этим
статистические процедуры не сопровождаются непосредственно
связанной с ними графикой. Результаты каждой процедуры требуют поэтому индивидуального графического отображения.
Приведем перечень и дадим описание основным встроенным
статистическим функциям пакета Mathcad.
В этом пакете можно работать лишь с семнадцатью статистическими распределениями: биномиальным, геометрическим, гипергеометрическим, отрицательным биномиальным, Пуассона, бетараспределением, распределением χ2-квадрат, экспоненциальным,
F-распределением, гамма-распределением, логистическим, логнормальным, нормальным, распределением Стьюдента, равномерным, распределениями Вейбулла и Коши.
Функции плотности вероятности, функции распределения,
обращения функций распределения и функции, моделирующие
случайные числа, имеют похожие названия, отличающиеся лишь
первой буквой в имени. Эти функции и их параметры приведены
в табл. 3.1.
40
Таблица 3.1
Номер
по порядку
и название
распределения
Функции
плотности
вероятности
1. Биномиаль- dbinom(k,
ное
n, p)
2. Геометрическое
3. Гипергеометрическое
4. Отрицательное биномиальное
5. Пуассона
6. Бета-распределение
7. χ2-квадрат
распределение
8. Экспоненциальное
9. F-распределение
10. Гамма-распределение
11. Логистическое
12. Логнормальное
13. Нормальное
17. Коши
Обратные
Функции,
функции
генерирующие
распределения случайные числа
(значения
процентилей)
pbinom(k,
n, p)
qbinom(a,
n, p), где
P(X≤x) = α
dgeom(k, p) pgeom(k, p)
qgeom(a, p)
rbinom(m, n,
p), где m – число случайных
чисел
rgeom(m, p)
dhypergeom
(k, a, b, n)
dnbinom(k,
n, p)
phypergeom
(k, a, b, n)
pnbinom(k,
n, p)
qhypergeom
(α, a, b, n)
qnbinom(a,
n, p)
rhypergeom(m,
a, b, n)
rnbinom(m,
n, p)
dpois(k, l)
dbeta(x, n1,
n2)
dchisq(x, n)
ppois(k, l)
pbeta(x, n1,
n2)
pchisq(x, n)
qpois(a,l)
qbeta(a, n1,
n2)
qchisq(a, n)
rpois(m, l)
rbeta(m, n1, n2)
dexp(x, l)
pexp(x, l)
qexp(a, l)
rexp(m, l)
dF(x, n1,
n2)
dgamma(x,
n)
dlogis(x,
l, n)
dlnorm(x,
m, s)
dnorm(x,
m, s)
pF(x, n1, n2)
qF(a, n1, n2) rF(m, n1, n2)
14. Стьюдента dt(x, n)
15. Равномер- dunif(x,
ное
a, b)
16. Вейбулла
Функции
распределения
dweibull(x,
n)
dcauchy(x,
l, n)
rchisq(m, n)
pgamma(x, n) qgamma(a, n) rgamma(m, n)
plogis(x, l, n) qlogis(a, l, n) rlogis(m, l, n)
plnorm(x, m,
s)
pnorm(x, m,
s), cnorm(x) =
pnorm(x, 0, 1)
pt(x, n)
punif(x, a, b)
qlnorm(a,
m, s)
qnorm(a, m,
s)
pcauchy(x,
l, n)
qcauchy(a,
l, n)
rlnorm(m, m, s)
rnorm(m, m, s)
qt(a, n)
rt(m, n)
qunif(a, a, b) runif(m, a, b),
rnd(x) =
runif(1, 0, x)
pweibull(x, n) qweibull(a, n) rweibull(m, n)
rcauchy(m, l, n)
41
Таблица 3.2
Название
Назначение
1. cvar(A, B) Ковариация между
элементами А и В
2. corr(A, B) Оценка
коэффициента
корреляции между
АиВ
3. mean(A, B, Оценка среднего
C, …)
значения переменных
А, В, С, …
4. median(A, Аналогичная оценка
B, C, …)
медианы
5. gmean(A,
B, C, …)
Название
Назначение
6. kurt(A, B,
C, …)
7. skew(A, B,
C, …)
Оценка коэффициента
эксцесса
Оценка коэффициента
асимметрии
8. var(A, B,
C, …)
Оценка дисперсии
9. stdev(A, B, Оценка среднего
C, …)
квадратического
отклонения
Оценка среднего
геометрического
Функции, вырабатывающие случайные числа, генерируют
псевдослучайные последовательности (подробнее см. §§ 4.2–4.5).
Эти последовательности зависят от некоторого целого числа, называемого стартовым значением. Для изменения стартового значения
в пункте меню пакета Mathcad Математика надо выбрать Генератор
случайных чисел и ввести необходимое целое число.
Функции, вычисляющие точечные характеристики распределений, их название и назначение, приведены в табл. 3.2.
Формулы, по которым вычисляются характеристики величин
назначения в табл. 3.2, можно найти в справочной службе пакета
Mathcad.
Для вычисления частотного распределения и построения гистограмм в пакете MATHCAD имеется функция hist(int,A). Она возвращает вектор, представляющий частоты, с которыми величины,
содержащиеся в векторе A, попадают в интервалы, представляемые
вектором int. Элементы массива int должны быть упорядочены по возрастанию. Возвращаемый результат – вектор, содержащий на один
элемент меньше, чем int. Его элементы – частоты fi есть числа n(A)
значений в массиве A, удовлетворяющих условию inti < n(A) < inti + 1.
Примеры.
1) ORIGIN:=1
a:=50
b:=15
n:=35
f(x):=dhypergeom(x,a,b,n)
F(x):=phypergeom(x,a,b,n)
42
1,1 1
f(x)
F(x) 0,5
0
0
20
20
25
30
35
35
x
t:=qhypergeom(0.1,a,b,n)
r:=rhypergeom(10,a,b,n)
r1:=rhypergeom(1000,a,b,n)
t=25
3
1
1
26
2
28
3
28
4
28
5
28
6
28
7
28
int i
8
28
mx:=mean(r1)
mx=26.865
Dx:=var(r1)
Dx=2.929
R:=max(r1)-min(r1)
R=11
M:=10
L:=R/m
i:=1..10
R
inti := min(r1)+ ×(5× i-1)
5
h: = hist(int,r1)
i:=1..9
h
hi := i
20
9
31
10
26
2
hi
1
0
20
r=
40
60
80
100
120
43
§ 3.3. Статистическая обработка данных в пакете Matlab
блоком программ Statistics Toolbox
Пакет Statistics Toolbox системы Matlab явно уступает по доступности и удобству пользования статистическому пакету Statgraphics
и ориентирован на следующий спектр задач: вычисление распределений вероятностей, генерация случайных чисел, вычисление точечных и интервальных характеристик (дескриптивная статистика), кластерный и регрессионный анализ, проверка гипотез и некоторые вопросы планирования эксперимента.
Характеристики распределений вероятностей и случайные числа вычисляются для примерно 20-ти различных типов распределений. Имена функций этой группы образованы путём слияния первых букв названия закона и соответствующего окончания, определяющего тип функции. По аналогии с табл. 3.1 (см. § 3.2) имена
наиболее употребительных функций приведены в табл. 3.3.
Таблица 3.3
Функции распределения вероятностей
и генерирования случайных чисел
Номер
по порядку
и название
распределения
Функции
Функции
Обратные
Функции,
плотности распределения
функции
генерирующие
вероятности
распределения случайные числа
1. Биномиаль- binopdf(x,
ное
n, p)
binocdf(x,
n, p)
binoinv(α, n, binornd(n, p),
p), где P(X < r = binornd(n,
x) = α
p),
r1 = binornd(n,
p, k, k1)
2. Геометрическое
geopdf(x, p) geocdf(x, p)
geoinv(α, p)
geornd(p),
r = geornd(p),
r1 = geornd(p,
k, k1)
3. Отрицательное биномиальное
nbinpdf(x,
n, p)
nbincdf(x,
n, p)
nbininv(α,
n, p)
nbinrnd(n, p),
r = nbinrnd(n,
p),
r1 = nbinrnd(n,
p, k, k1),
4. Пуассона
poisspdf(x,
λ)
poisscdf(x, λ) poissinv(α, λ) poissrnd(λ),
r = poissrnd(λ),
r1 = poissrnd(λ,
k, k1),
44
Продолжение табл. 3.3
Номер
по порядку
и название
распределения
Функции
Функции
Обратные
Функции,
плотности распределения
функции
генерирующие
вероятности
распределения случайные числа
5. Бетаbetapdf(x,
распределение n1, n2)
betacdf(x, n1, betainv(α, n1, betarnd(n1, n2),
n2)
n2)
r = betarnd(n1,
n2),
r1 = betarnd(n1,
n2, k, k1)
6. χ2-распреде- chi2pdf(x, n) chi2cdf(x, n) chi2inv(α, n) chi2rnd(n),
ление
r = chi2rnd(n),
r1 = chi2rnd(n,
k, k1)
7. Экспоненexppdf(x, λ) expcdf(x, λ) expinv(α, λ) exprnd(λ),
циальное
r = exprnd(λ),
r1 = exprnd(λ,
k, k1)
8. F-распреде- fpdf(x, n1, fcdf(x, n1, n2) finv(α, n1, n2) frnd(n1, n2),
ление
n2)
r = frnd(n1, n2),
r1 = frnd(n1,
n2, k, k1)
9. Гаммаgampdf(x, gamcdf(x,
gaminv(α,
gamrnd(a, b),
распредеa.b), a>0,
a, b)
a, b)
r = gamrnd(a, b),
ление
b>0
r1 = gamrnd(a,
b, k, k1)
10. Логнорlognpdf(x, logncdf(x,
logninv(α,
lognrnd(m, σ),
мальное
m, σ)
m, σ)
m, σ)
r = lognrnd(m,
σ),
r1 = logrnd(m,
σ, k, k1)
11. Нормаль- normpdf(x, normcdf(x,
norminv(α,
normrnd(m, σ),
ное
m, σ)
m, σ)
m, σ)
r = normrnd(m,
σ),
r1 = nomrnd(m,
σ, k, k1)
12. Стьюдента tpdf(x, n)
tcdf(x, n)
tinv(α, n)
trnd(n),
r = trnd(n),
r1 = trnd(n, k,
k1)
13. Равномер- unifpdf(x, unifcdf(x,
unifinv(α,
unifrnd(a, b),
ное (прямоa, b)
a, b)
a, b)
r = unifrnd(a, b),
угольное)
r1 = unifrnd(a,
b, k, k1)
45
Окончание табл. 3.3
Номер
по порядку
и название
распределения
Функции
Функции
Обратные
Функции,
плотности распределения
функции
генерирующие
вероятности
распределения случайные числа
14. Дискретное unidpdf(x,
равномерное
n),
n>0
15. Вейбулла
(классическое
двухпараметрическое)
16. Гипергеометрическое
17. Рэлея
18. Парето
wblpdf(x, a,
b),
a>0, b>0
hygepdf(x,
k, m),
m ≤ n, k ≤ n,
n – число
наблюдений
raylpdf(x,
a), a>0
gppdf(x, m,
s, x0) s>0,
x0>0
unidcdf(x, n) unidinv(α, n) unidrnd(x, n),
r = unidrnd(n),
r < n,
r1 = unidrnd(n,
k, k1)
wblcdf(x, a, b) wblinv(α, a, b) wblrnd(a, b),
r = wblrnd(a, b),
r1 = wblrnd(a,
b, k, k1)
hygecdf(x,
hygeinv(α, m, hypernd(n, k, m),
k, m)
k, n)
r = hypernd(n,
k, m),
r1 = hypernd(n,
k, m, k1, k2)
raylcdf(x, a) raylinv(α, a) raylrnd(a),
r = raylrnd(a),
r1 = raylrnd(a,
k, k1)
gpcdf(x, m, σ, gpinv(α, m, σ, gprnd(m, σ, x0),
x0) σ>0, x0>0 x0)
r = gprnd(m, σ,
x0),
r1 = gprnd(m,
σ, x0, k, k1)
Точечные характеристики распределений можно определять,
как встроенными функциями Matlabа, так и функциями подгруппы, названия которых образовано путём слияния названия закона
и окончания stat. Примеры использования функций данного типа
приведены ниже. Функции описательной статистики определяют
набор точечных характеристик исходной выборки. Наиболее употребительные из этих функций приведены в табл. 3.4.
Примеры.
Примеры.
1) >> clear
>> r=binornd(30,0.25,1,10)
r =
11
6
5
10
10
11
4
4
7
9
2) >> t=nbininv(0.7,30,0.25)
t =
99
46
Таблица 3.4
Название
Назначение
Название
1. corrcoef(x) Оценка коэффициента 7. moment(x, k)
корреляции массива
наблюдений х
2. cov(x)
Матрица ковариаций 8. prctile(x, p1)
вектора х
Назначение
Оценка центрального момента k-го
порядка
Оценка процентной точки (р1 =
р*100), где р –
вероятность
Размах выборки
3. geomean(x) Оценка среднего
9. range(x)
геометрического
4. kurtosis(x) Оценка коэффициента 10. skewness(x) Оценка коэффиэксцесса
циента асимметрии
5. mean(x)
Оценка среднего
11. std(x)
Оценка среднего
значения
квадратического
отклонения
6. median(x) Оценка медианы
12. var(x)
Оценка дисперсии
вектора наблюдений
3) >> x=0:0.1:30;
>> y=chi2pdf(x,10);
>> plot(x,y,’-*r’),grid
4)
>>
>>
>>
>> x=1:0.1:30;
x0=1;
y=gpcdf(x,3,25,x0);
plot(x,y,’-*r’),grid
47
5) >> [m,v]=betastat(2,3)
m =
0.4000
v =
0.0400
6) >> x=binornd(30,0.4,100,1);
>> crf=corrcoef(x)
crf =
1
>> cv=cov(x)
cv =
5.7531
>> x1=binornd(30,0.4,100,2);
>> cv1=cov(x1)
cv1 =
9.3070
-0.0595
-0.0595
7.4686
7) >> x=chi2rnd(10,100,1);
>> gm=geomean(x)
gm =
9.6742
>> krt=kurtosis(x)
krt =
5.6684
>> mx=mean(x)
mx =
10.5296
>> md=median(x)
md =
10.0994
>> v=var(x)
v =
18.6652
>> m2=moment(x,2)
m2 =
18.4785
>> m1=moment(x,1)
48
m1 = 0
>> m3=moment(x,3)
m3 =
86.9462
>> prct=prctile(x,0.75)
prct =
2.3737
>> prct1=prctile(x,75)
prct1 =
12.4949
>> R=range(x)
R =
27.4483
>> skw=skewness(x)
skw =
1.0946
>> sigma=std(x)
sigma =
4.3203
Проверка статистических гипотез в пакете Matlab представлена
всего лишь несколькими функциями, проверяющими параметры
нормальных выборок, знаковые и ранговые критерии для парных
и одномерных выборок. Список этих функций, используемых в лабораторных работах, даётся в табл. 3.5. Далее следуют примеры их
применения.
Примеры применения программ табл. 3.5.
Таблица 3.5
Название
1. ranksum(x, y, α)
2. signrank(x),
signrank(x, y)
3. signtest(x),
signtest(x, y)
Назначение
Ранговый критерий Вилькоксона проверки
однородности двух генеральных совокупностей
Знаковый критерий Вилькоксона проверки равенства
медиан двух выборок или критерий знаков для
одномерной выборки
Проверка гипотезы о равенстве медиан двух выборок
Проверка гипотезы о равенстве mx и Dx заданным
4. ztest(x, mx, σx) значениям:
H0:mx = m0, Dx = D0, xi∈N(mx, Dx)
Проверка гипотезы о числовом значении
матожидания определённому значению при условии,
5. ttest(x)
что дисперсия неизвестна.
H0:mx = m0, Dx – неизвестна, xi∈N(mx, Dx)
Проверка гипотезы о равенстве матожиданий двух
нормальных выборок при условии, что дисперсии
6. ttest2(x, y)
неизвестны, но равны.
H0:mx = my, Dx, Dy – неизвестны, но Dx = Dy,
xi∈N(mx, Dx), yi∈N(my, Dy)
49
>> x=poissrnd(5,10,1);
>> y=poissrnd(2,20,1);
>> [p,h]=ranksum(x,y,0.05)
p =
6.4969e-05
h = 1 – Н0 – отвергается, если h=0, Н0 – принимается.
>> p=signrank(x)
p =
0.0020
>> y1=poissrnd(2,10,1);
>> p=signrank(x,y1)
p =
0.0020
>> p=signtest(x)
p =
0.0020
>> p=signtest(x,y1)
p =
0.0020
>> x=normrnd(5,10,100,1);
>> h=ztest(x,2,4)
h =
1
>> h1=ztest(x,4.9,9.5)
h1 =
0
>> h=ttest(x)
h =
1
>> y=normrnd(-5,11,100,1);
>> h=ttest2(x,y)
h =
1
>> z=normrnd(4.5,11,100,1);
>> h1=ttest2(x,z)
h1 =
0
Таблица 3.6
Статистические графики
Название
1. gline
2. lsline
Назначение
Рисование линии в текущей графической фигуре
Построение линии, наиболее близкой в смысле МНК
к точкам графика
3. gname
Нанесение меток на график
4. normplot(x) Нормальный вероятностный график
5. hist(y),
Гистограмма выборки у для 10 или n интервалов с учётом
hist(y, n),
диапазона изменения аргумента х
hist(y, x)
6. histfin(x) Гистограмма выборки х с наложенной на неё кривой
плотности вероятности нормального закона
50
Графический интерфейс, используемый в статистических вычислениях, также представлен семейством очень ограниченного
числа функций. Функции, которые могут быть использованы при
выводе результатов лабораторных работ, приведены в табл. 3.6.
Далее приведены примеры их использования.
>> x=exprnd(2.5,1000,1);
>> hist(x)
>> y=chi2rnd(10,1000,1);
>> histfit(y)
>>
>>
>>
>>
x=[1 2 3 4 5]’;
y=x.*log(x);
plot(x,y,’+’)
lsline
51
>> gline
>> plot(x,y,’-’)
>> gname
52
>> h = normplot(y)
h =
176.0050
175.0050
174.0055
§ 3.4. Вычисления в системе Scilab
Язык программирования Scilab очень похож на язык широко
известной и применяемой системы Matlab, но пакет является свободно распространяемым некоммерческим продуктом. Командное
окно пакета изображено на рис. 3.4.
В командное окно можно вводить и присваивать значение переменным. Например, a = 3,5. Имя переменной может содержать до
24 символов. Для очистки значения переменной применяется команда clear a. Системные переменные в Scilab (кроме ans) начинаются с символа %.
• %i – мнимая единица,
• %е – е = 2,182818,
• %pi – p = 3,1415927,
• %inf – машинный символ бесконечности (∞),
0 ¥
• %NAN – неопределённый результат ( ,
и т. п.),
0 ¥
• %eps – условный нуль 2.220D-16,
• %t – логическая единица Т,
• %f – логический нуль F.
Вещественные числа могут записываться с порядком или без
него, целые и вещественные числа не различаются. Комплексные
53
54
Рис. 3.4. Командное окно пакета Scilab
записываются с помощью системной переменной %i. Примеры:
–3,5; 0,5е4; 8D-10; 3,6 + 2*%i (3,6 + 2i).
В системе Scilab используются следующие типы данных: вещественные, логические и символьные переменные, массивы и списки. Например, b = 7,3; false = %f, st = ’это строка’, x = [1 2 3],
x1 = [1; 2; 3]. В последнем случае х – матрица – строка, а х1 – матрица – столбец, т. е. числа и массивы задаются и обрабатываются
так же, как и в пакете Matlab. Кроме того, матрицы и векторы можно формировать с помощью операции конкатенации, составляя их
из заданных матриц и векторов.
-->x1=[1 2 3]; x2=[3 4 5]; x3=[5 6 7];
-->x=[x1 x2 x3]
x =
1.
2.
3.
3.
4.
5.
5.
6.
7.
-->x=[x1;x2;x3]
x =
1.
2.
3.
3.
4.
5.
5.
6.
7.
Прочие специальные операции с матрицами и векторами можно
найти в одном из 74 модулей пакета по соответствующей тематике.
При использовании таких операций и осуществляющих их функций в лабораторных работах будут даваться пояснения прямо в тексте соответствующей работы.
В пакете Scilab используются такие объекты как списки. Список – это упорядоченная последовательность элементов, каждый из
которых может быть атомарным неделимым элементом, либо списком, т. е. элементы списка могут быть различных типов. Список
задаётся оператором list. Например,
-->y=[1 2;3 4];
-->st=’это строка’;
-->sp=list(st,(-1:3),y)
sp =
это строка
- 1.
0.
1.
2.
3.
1.
2.
3.
4.
§ 3.5. Программирование в системе Scilab
Процесс программирования в пакете Scilab имеет много общих
признаков с аналогичным процессом в пакете Matlab. Так же как
55
в системе Matlab можно создавать программные модули, называемые скрипт-файлами, являющимися аналогами М-сценариев в пакете Matlab и программы-функции пользователя. Скрипт-файл не
имеет заголовка и представляет собой последовательность команд,
выполняемых в отдельном модуле. Он создаётся встроенным редактором Scipad в текстовом формате и запускается на исполнение
функцией exec, например, exec(‘file1.txt’). Если скрипт файл не
находится в рабочей области, то в обращении к exec следует указать
полный путь к скрипт-файлу.
Все функции в Scilab делятся на два класса: встроенные и определённые пользователем. Для пользовательских функций имеется
два способа их создания.
Первый способ – применение функции deff, обращение к которой имеет вид:
deff(‘[y1, y2, …, yn] = имя_функции(x1, x2, …, xm)’,’y1 = выражение 1, …, yn = выражение n’), где y1, y2, …, yn – список выходных параметров, имя_функции – имя, с которым эта функция
будет вызываться, x1, x2, …, xm – входные параметры. Пример использования функции deff:
-->deff(‘S=mean1(x1,x2,x3)’,’S=(x1+x2+x3)/3’);
-->x1=6.1;
-->x2=-3.5;
-->x3=1.5;
-->S=mean1(x1,x2,x3)
S = 1.3666667
Структура пользовательской функции в Scilab следующая:
function [y1, y2, …, yn] = funИМЯ(x1, x2, …, xm)
операторы
endfunction,
где у1, у2, …, yn – список выходных параметров, х1, х2, …, xm –
список входных параметров, funИМЯ – имя функции.
Если вызываемая функция находится не в текущем файле, то
перед её вызовом следует загрузить файл, в котором она находится с помощью функции exec: exec(‘file’) или exec(‘путь к файлу’).
Составим ту же функцию, вычисляющую среднее арифметическое
значений х1, х2, …, xn.
-->function S=mean1(x)
-->n=length(x);
-->S=0;
-->for i=1:n
-->S=S+x(i);
56
-->end;
-->S=S/n;
-->endfunction
-->x=[1;2;3;4;5;6;7;8;9;10];
-->S=mean1(x)
S = 5.5
§ 3.6. Статистическая обработка данных в пакете Scilab
Модуль Statistics системы Scilab содержит 55 подпрограммфункций, осуществляющих вычисление распределений случайных величин, расчёт их точечных характеристик, частот, случайных чисел для стандартных равномерного и нормального распределений и некоторых других статистик [2]. На самом деле, программ,
обслуживающих статистические вычисления больше, только многих из них находятся в других модулях пакета.
Характеристики распределений вероятностей и случайные числа вычисляются для чуть более десяти различных распределений.
Функции, осуществляющие эти действия, приведены в табл. 3.7.
Таблица 3.7
Функции распределения, обратные функции распределения
и генерация случайных чисел в пакете Scilab
Номер по порядку
и название
распределения
1. Бета-распределение
Функция распределения
и обратная к ней
cdfbet. Обращения:
[p, q] = cdfbet(“PQ”, x, y,
A, B),
[x, y] = cdfbet(“XY”, A, B,
p, q),
[A] = cdfbet(“A”, B, p, q,
X, Y),
[B] = cdfbet(“B”, p, q, X,
Функция, генерирующая
случайные числа
y = grand(m, 1, “bet”,
A, B) – генерирует
вектор-столбец
с m значениями
распределения,
параметры А и В
x
Y, A), где p = ò f (x)dx –
0
значение функции
распределения при
заданном аргументе x, y =
1–x, x = F-1(p) – значение
57
Окончание табл. 3.7
Номер по порядку
и название
распределения
Функция распределения
и обратная к ней
Функция, генерирующая
случайные числа
обратной функции
распределения, q = 1–p;
А и В – параметры бетараспределения
2. Биномиальное
3. Хи-квадрат распределение
4. F-распределение
5. Гаммараспределение
6. Отрицательное
биномиальное
7. Нормальное
8. Пуассона
9. Стьюдента
10. Экспоненциальное
11. Геометрическое
12. Равномерное
(стандартное)
58
cdfbin. Аналогично преды- y = grand(m, 1, “bin”,
дущему пункту. Смотрите n, p)
справочную систему Scilab
cdfchi
y = grand(m, 1, “chi”,
k), k – число степеней
свободы
cdff
y = grand(m, 1, “f”,
k1, k2), k1, k2 – числа степеней свободы
F-распределения
cdfgam
y = grand(m, 1, “gam”,
a, b), a, b>0 – параметры распределения
cdfnbn
y = grand(m, 1, “nbn”,
n, p)
cdfnor
y = grand(m, 1, “nor”,
mx, σx) или y = rand(m,
1, “normal”)
cdfpoi
y = grand(m, 1, “poi”, λ)
cdft
нет
cdfexp
y = grand(m, 1, “exp”,
m), где m – среднее
cdfgeom
y = grand(m, 1, “geom”,
p)
cdfdef
y = grand(m, 1, “def”)
или y = rand(m, 1) или
y = grand(m, 1, “unf”,
Low, High)
Таблица 3.8
Наиболее употребительные функции
описательной статистики пакета Scilab
Название
Назначение
1. geomean gm = geomean(x) – геометрическое среднее
массива х
2. harmean hm = harmmean(x) – гармоническое среднее
3. mean
mx = mean(x) – среднее
арифметическое
4. correl
ρ = correl(x, y, free)
– коэффициент
корреляции для
значений матрицы
free(length(x), length(y))
Название
5. median
Назначение
y = median(x) – медиана
массива х
6. mad
y = mad(x) – среднее
абсолютное отклонение
7. variance y = variance(x) – дисперсия массива х
8. wcenter y = wcenter(x) – центр
тяжести
Имена функций распределения образованы путём слияния букв,
определяющих тип функции, и букв, определяющих название закона. Обращение ко всем аналогичным функциям задаётся по той
же схеме; количество параметров функций типа cdf зависит от числа параметров используемого распределения.
Точечные характеристики распределений вычисляются функциями подмодулей Central Tendency и Descriptive Statistics.
Примеры.
1) -->y=grand(10,1,"exp",2.5);
-->y1=y’
y1 = 1.5736185 3.675276 0.2200514 0.3830228 2.3145385
6.6002199 0.236103 2.0178501 4.7333754
0.2344076
2) -->x=-5:0.5:5.5;
-->sigma=2*ones(x);
-->mx=0.5*ones(x);
-->[p,q]=cdfnor("PQ",x,mx,sigma);
-->plot(x,p)
3) -->p=0.001:0.05:1;
-->q=1-p;
-->mx=0.5*ones(p);
-->sigma=2*ones(p);
-->x=cdfnor("X",mx,sigma,p,q);
-->plot(x,p)
59
4) -->y=grand(5,1,"f",3,5);
-->y1=y’
y1 = 1.104472 1.9509124 0.8574192 2.5243474 0.9410180
-->gm=geomean(y)
gm =
1.3442082
-->hm=harmean(y)
hm =
1.2366741
-->mx=mean(y)
mx =
1.4756338
-->md=median(y)
60
md =
1.104472
-->Dx=variance(y)
Dx =
0.5328636
-->std=mad(y)
std =
0.6095969
Раздел проверки статистических гипотез в пакете Scilab представлен всего двумя подпрограммами-функциями: ftest и ftuneq.
Эти функции реализуют статистические тесты, использующие
F-статистику при сопоставлении статистических моделей. Например, проверка равенства дисперсий, сравнение моделей в регрессионном анализе по данным выборки и т. д.
Напротив, для работы с графикой система Scilab содержит несколько десятков функций, осуществляющих печать двумерных и
трёхмерных изображений. Список таких функций, используемых
в лабораторных работах, даётся в табл. 3.9.
Таблица 3.9
Графические функции пакета Scilab, используемые
при построении статистических графиков
Название и обращение
1) plot:
plot(f(x)); plot(x, y); plot(x1,
y1, x2, y2, …);
plot(x, [f1(x), f2(x), …])
2) xtitle:
xtitle(title, [x_label, …])
3) xgrid:
xgrid( ); xgrid(n), n – целое
4) subplot:
subplot(m, n, p)
5) xsetech:
xsetech([a, b, c, d])
Назначение
Печать плоских графиков функций y = f(x)
Заголовок плоского графика и название
осей графика. title – матрица или строка
Нанесение сетки на плоский график
Используется для выведения нескольких
графиков (каждый отдельно) в одном
графическом окне. р – номер ячейки
графического окна, состоящего из m строк
и n столбцов
Также используется для выведения
нескольких графиков в одном
графическом окне. В качестве аргументов
передаётся четырёхмерный вектор,
компоненты которого являются
координатами крайних точек отдельных
графиков в графическом окне
61
Окончание табл. 3.9
Название и обращение
Назначение
6) plot2d или plot2d2:
plot2d2([x], y); plot2d2(x,
[f1(x) f2(x)…])
7) meshgrid:
[X, Y] = meshgrid(x);
[X, Y] = meshgrid(x, y);
[X, Y, Z] = meshgrid(x, y, z)
8) histplot:
histplot(n, data);
histplot(n, data, < opt_args>)
Печать плоского графика. [x] – область задания аргумента [a, b]
Создаёт двумерные или трёхмерные
массивы с заданным интервалом
Построение гистограммы распределения,
n – число разрядов, data – вектор выборки,
< opt_args> – дополнительный параметр,
задающий надписи, цвет и расположение
графика
Примеры:
-->lambda=1.5;
-->y=grand(100,1,"poi",lambda);
-->meshgrid(0:1:8);
-->subplot(2,1,1);
-->xtitle(‘Нормализированная гистограмма распределения Пуассона’,’x’,’p(x)’);
-->histplot(15,y,style=2);
-->subplot(2,1,2);
-->xtitle(‘Ненормализированная гистограмма распределения Пуассана’,’x’,’p(x)’);
-->histplot(15,y,normalization=%f,style=2);
62
§ 3.7. Лабораторная работа № 1.
Методы описательной статистики в пакете Statgraphics
Решим простейшую задачу описательной статистики. Найдем
размах выборки, число и длину интервалов, составим таблицу частот, постоим гистограмму частот, а также вычислим все числовые
характеристики следующей выборки.
Числа выборки представляют собой продолжительность работы
электронных ламп одного типа в часах:
13,4
16,6
11,6
8,4
17,7
13,5
15,2
14,7
14,2
13,9
14,7
14,7
14,0
16,7
15,2
16,3
18,0
15,4
16,2
15,7
17,3
15,1
14,6
12,4
11,3
17,1
21,9
12,1
13,0
11,7
17,2
10,7
10,1
14,3
19,2
8,8
16,4
14,5
16,9
15,8
17,7
14,0
15,1
16,3
15,8
18,3
15,4
17,9
17,6
13,7
16,1
17,5
10,9
15,1
14,1
15,5
12,3
12,7
18,2
16,5
18,8
16,2
14,0
20,7
17,3
Воспользуемся пунктом меню Describe (описание данных). Нам
необходимо выполнить анализ одной переменной. Этот анализ в пакете Statgraphics содержит процедуры вычисления следующих характеристик.
1. Суммарные статистики: среднее, медиана, мода, среднее геометрическое, дисперсия, стандартное отклонение, минимум, максимум, размах, нижний и верхний квартиль, межквартильный
размах, коэффициенты асимметрии и эксцесса.
2. Процентили и табуляции частот.
3. Гистограммы и график плотности.
4. Доверительные интервалы.
5. Проверка гипотез о среднем и медиане, знаковый и ранговый тест.
6. Графики «дерево с листьями», «ящик с усами», квантильный
график, график нормального распределения, симметричный график и диаграмма рассеивания.
Введём исходные данные в новую электронную таблицу т. к. это описано в § 3.1 и назовём полученную выборку наблюдений именем Lamp.
Проанализируем теперь статистические данные. Выберем
Describe→Numeric Data→One Variable Analysis (Анализ одной переменной). Появится окно для задания анализируемой переменной.
В нашем случае это Lamp. После нажатия на кнопку ОК появится
окно задания табличных и графических опций (см. рис. 3.5). Опять
после нажатия кнопки ОК возникает поле анализа одной переменной с первоначальной сводкой о введенных данных. В этой сводке
63
Рис. 3.5. Окно задания необходимых таблиц и графиков
указано имя Lamp, число наблюдений 65 и их пределы от 8,4 до
21,9. В верхней части рабочего поля расположены кнопки меню
текущих операций, с помощью которых можно изменять входные
данные, выбирать табличные и графические опции и сохранять результаты анализа в файле данных. Окна, в которых отображаются
табличные и графические результаты, раскрываются на все рабочее поле двумя щелчками левой кнопки мыши. Щелчок правой
кнопки мыши открывает доступ к специальному меню, задающему
параметры графических изображений или изменения в текущем
анализе данных. Например, при щелчке правой кнопки мыши на
окне общих статистик на экране возникнет следующее диалоговое
окно (рис. 3.6).
Для вычисления нужных статистик следует поставить галочку
напротив соответствующих названий. Зададим вычисление всех
суммарных статистик, а также гистограмму и график плотности,
Рис. 3.6. Диалоговое окно задания общих статистик
64
диаграмму рассеивания и квантильный график. В результате на
рабочее поле будут выданы следующие табличные и графические
изображения (см. рис. 3.7–3.9). На
приведенных графиках и таблицах
по порядку первой расположена
таблица со значениями всех вычисленных статистик выборки.
Ниже таблицы изображена диаграмма рассеивания элементов выборки. Далее идет таблица частот,
включающая в себя значения верхней (Lower Limit) и нижней (Upper
Limit) границ интервала группировки, его середину (Midpoint),
число (Frequency) и относительную
частоту (Relative Frequency) попаданий в интервал группировки, а
также их накопленные показатели. Ниже расположена сама гистограмма, построенная по данным
предыдущей таблицы (рис. 3.8).
Рис. 3.7. Точечные характеристики выборки
и диаграмма рассеивания переменной Lamp
65
Рис. 3.8. Результаты анализа и гистограмма переменной Lamp
66
Наконец, последними приведены таблица первоначальных сведений об элементах выборки и таблица процентилей. Процентили уровней 0,5; 0,25
и 0,75 соответствуют медиане, нижней и верхней
квартили выборки. Ниже таблицы приведен процентильный график.
Меню Describe позволяет анализировать множества переменных, подбирать распределения и
производить табуляцию данных. Эти возможности, не использованные в данном задании, частично будут задействованы в следующих лабораторных работах.
Рис. 3.9. Квантильный график переменной Lamp
Задание № 1. По данным выборкам по своему варианту с помощью пакета, указанного преподавателем, вычислить все суммарные статистики, построить гистограмму, квантильный график и
диаграмму рассеивания.
1. Урожайность зерновых культур в СССР с 1945 по 1989 гг.
в центнерах с гектара:
5,6; 4,6; 7,3; 6,7; 6,9; 7,9; 7,4; 8,6; 7,8; 7,7; 8,4; 9,9; 8,4; 11,1;
10,4; 10,9; 10,7; 10,9; 8,3; 11,4; 9,5; 13,7; 12,1; 14,0; 13,2; 15,6;
15,4; 14,0; 17,6; 15,4; 10,9; 17,5; 15,0; 18,5; 14,2; 14,9; 12,6; 15,2;
15,9; 14,4; 16,2; 18,0; 18,3; 17,0; 18,8.
2. Время решения контрольной задачи учениками четвертого
класса в секундах:
38, 60, 41, 51, 33, 42, 45, 21, 53, 60, 68, 52, 47, 46, 49, 49, 14, 57,
54, 59, 77, 47, 28, 48, 58, 32, 42, 58, 61, 30, 61, 35, 47, 72, 41, 45, 44,
55, 30, 40, 67, 65, 39, 48, 43, 60, 54, 42, 59, 50.
67
3. Измерения емкости затвор-сток у 80 полевых транзисторов
дали следующие результаты:
1,9; 3,1; 1,3; 0,7; 3,2; 1,1; 2,9; 2,7; 2,7; 4,0; 1,7; 3,2; 0,9; 0,8; 3,1;
1,2; 2,6; 1,9; 2,3; 3,2; 4,1; 1,3; 2,4; 4,5; 2,5; 0,9; 1,4; 1,6; 2,2; 3,1;
1,5; 1,1; 2,3; 4,3; 2,1; 0,7; 1,2; 1,5; 1,8; 2,9; 0,8; 0,9; 1,7; 4,1; 4,3;
2,6; 0,9; 0,8; 1,2; 2,1; 3,2; 2,9; 1,1; 3,2; 4,5; 2,1; 3,1; 5,1; 1,1; 1,9;
0,9; 3,1; 0,9; 3,1; 3,3; 2,8; 2,5; 4,0; 4,3; 1,1; 2,1; 3,8; 4,6; 3,8; 2,3;
3,9; 2,4; 4,1; 4,2; 0,9.
4. Положительные отклонения от номинального размера у партии деталей в миллиметрах:
17, 21, 8, 20, 23, 18, 22, 20, 17, 12, 20, 11, 9, 19, 20, 9, 19, 17, 21, 13,
17, 22, 22, 10, 20, 20, 15, 19, 20, 20, 13, 21, 21, 9, 14, 11, 19, 18, 23, 19.
5. Время восстановления диодов из одной партии в наносекундах:
69, 73, 70, 68, 61, 73, 70, 72, 67, 70, 66, 70, 76, 68, 71, 71, 68, 70,
64, 65, 72, 70, 70, 69, 66, 70, 77, 69, 71, 74, 72, 72, 72, 68, 70, 67, 71,
67, 72, 69, 66, 75, 76, 69, 71, 67, 70, 73, 71, 74.
6. Время реакции в секундах:
8,5; 7,1; 6,7; 6,2; 2,9; 4,4; 6,0; 5,8; 5,4; 8,2; 6,9; 6,5; 6,1; 3,8; 6,0;
6,0; 5,6; 5,3; 7,7; 6,8; 6,5; 6,1; 4,2; 4,7; 5,6; 5,4; 5,3; 7,4; 6,7; 6,4;
6,1; 4,5; 6,0; 5,8; 5,6; 5,1.
7. Диаметры головок заклепок в миллиметрах:
13,39; 13,42; 13,38; 13,53; 13,51; 13,20; 13,40; 13,40; 13,28; 13,43;
13,46; 13,53; 13,55; 13,29; 13,24; 13,34; 13,54; 13,66; 13,43; 13,42;
13,38; 13,34; 13,57; 13,26; 13,33; 13,43; 13,50; 13,44; 13,53; 13,48;
13,48; 13,34; 13,36; 13,59; 13,36; 13,44; 13,34; 13,33; 13,25; 13,28;
13,49; 13,33; 13,26; 13,26; 13,55; 13,54; 13,37; 13,31; 13,37; 13,33.
8. Максимальная емкость двадцати подстроечных конденсаторов в пикофарадах:
4,45; 4,40; 4,42; 4,45; 4,38; 4,42; 4,36; 4,35; 4,40; 4,45; 4,42;
4,44; 4,36; 4,42; 4,44; 4,38; 4,39; 4,40; 4,42; 4,45.
9. Максимальные расходы воды реки Сыр-Дарьи у горы Беговат
за 1910–1953 гг. в кубометрах в секунду.
2,46; 1,69; 1,34; 2,22; 2,18; 1,22; 1,22; 0,75; 1,26; 1,73; 1,74;
3,09; 1,57; 1,97; 2,23; 2,03; 1,58; 0,90; 2,40; 1,65; 1,96; 2,30; 1,79;
1,48; 3,44; 1,91; 3,06; 2,08; 1,06; 1,56; 1,88; 2,10; 2,02; 1,74; 1,18;
2,12; 1,38; 0,90; 1,45; 1,78; 1,97; 2,27; 2,34; 2,44.
10. Отклонения длины валиков от номинального размера в миллиметрах, отобранных из текущей продукции прецизионного токарного автомата:
1,0; 1,5; –2,5; 0,0; –1,5; 1,0; 1,0; 15,0; –1,0; 2,0; 2,0; 3,0; 11,0;
–1,0; 5,0; 4,5; 0,5; 3,5; 8,0; 5,0; 4,5; 3,5; 9,5; 12,5; 7,5; 7,5; 10,0;
68
8,5; 10,0; –3,0; 5,0; 3,5; –3,0; –14,0; 17,0; –9,0; –13,0; –12,5; 8,5;
12,5; 6,0; 8,5; 0,0; 7,0; –1,0; –3,0; 0,5; 0,0; –2,0; –4,5; 2,0; –10,0;
–8,5; –3,5; –11,5; –11,5; –7,5; –11,5; –6,5; 2,0.
11. Пробы железа имели следующие точки плавления (в градусах Цельсия):
1493, 1519, 1518, 1512, 1512, 1514, 1489, 1508, 1508, 1494,
1509, 1506, 1512, 1483, 1507, 1491, 1490, 1501, 1516, 1492, 1503,
1511, 1515, 1499, 1505.
12. Приведены данные по содержанию хрома (в весовых процентах) в образцах нержавеющей стали:
17,4; 17,9; 17,6; 18,1; 18,0; 17,6; 18,9; 18,2; 16,9; 17,5; 18,4;
17,8; 17,4; 18,5; 24,6; 20,8; 18,1; 26,0; 21,8; 17,7; 16,7; 18,8; 21,4;
19,5; 18,8.
13. Дано содержание железистой сыворотки (в микрограммах
на 100 мл) в 40 образцах:
111, 107, 100, 99, 102, 106, 109, 108, 104, 99, 107, 108, 106, 98,
105, 103, 110, 105, 104, 100, 101, 96, 97, 102, 107, 113, 116, 113,
110, 98, 96, 108, 103, 104, 114, 114, 113, 108, 106, 99.
14. На телефонной станции проводились наблюдения над числом неправильных соединений в минуту. Наблюдения в течение
часа дали следующие результаты:
3, 1, 3, 1, 4, 2, 2, 4, 0, 3, 0, 2, 2, 0, 2, 1, 4, 3, 3, 1, 4, 2, 2, 1, 1, 2,
1, 0, 3, 4, 1, 3, 2, 7, 2, 0, 0, 1, 3, 3, 1, 2, 4, 2, 0, 2, 3, 1, 2, 5, 1, 1, 0, 1,
1, 2, 2, 1, 1, 5.
15. При измерении диаметров валиков после шлифовки получены следующие результаты (в миллиметрах):
6,75; 6,77; 6,77; 6,73; 6,76; 6,74; 6,70; 6,75; 6,71; 6,77; 6,79;
6,73; 6,70; 6,74; 6,75; 6,71; 6,70; 6,78; 6,81; 6,69; 6,80; 6,68; 6,74;
6,83; 6,76; 6,82; 6,71; 6,77; 6,75; 6,82; 6,80; 6,72; 6,69; 6,81; 6,74;
6,80; 6,76; 6,77; 6,81; 6,82; 6,73; 6,72; 6,77; 6,78; 6,75; 6,68; 6,72;
6,69; 6,76; 6,70.
16. Октановые числа бензина:
84,0; 83,5; 84,0; 85,0; 83,1; 83,5; 81,7; 85,4; 84,1; 83,0; 85,8;
82,4; 82,4; 83,4; 83,3; 83,1; 83,3; 82,4; 83,3; 82,6; 82,0; 83,2; 84,0;
84,2; 82,2; 83,6; 84,9; 83,2; 82,8; 83,4; 80,2; 82,7; 83,0; 85,0; 83,0;
85,0; 83,7; 83,6; 83,1; 82,5.
17. Замеры количества осадков (в сантиметрах), выпавших во
время нескольких ураганов:
1,05; 1,40; 0,69; 1,41; 0,51; 1,49; 1,38; 2,00; 0,96; 1,31; 2,07;
1,02; 0,89; 1,51; 0,66; 1,16; 0,64; 1,07; 0,33; 1,59; 1,11; 1,33; 0,96;
1,40; 1,71; 0,75; 0,75; 0,92; 1,03; 0,78.
69
18. Результаты измерений некоторой физической характеристики пластикового материала, полученного из нескольких партий:
55, 42, 45, 41, 43, 53, 41, 43, 34, 50, 42, 41, 43, 46, 42, 44, 43, 45,
34, 48, 47, 46, 48, 41, 38, 49, 41, 44, 40, 48, 52, 50, 45, 30, 35, 52,
35, 46, 40, 48.
19. Время приготовления кофе, выраженное с точностью до сотых
долей минуты, для нескольких типов электрических кофеварок:
1,38; 9,69; 0,39; 1,42; 0,54; 5,94; 0,59; 1,42; 0,39; 1,46; 0,55;
6,15; 0,61; 2,63; 2,44; 0,56; 0,69; 0,71; 0,95; 0,50; 2,69; 2,68; 0,53;
0,72; 0,74; 0,93; 0,53; 5,37; 2,18; 0,97.
20. Потери металла в сотнях тонн за период от установки оборудования до момента разрушения некоторой его части:
84, 60, 40, 47, 34, 46, 67, 92, 95, 40, 98, 60, 59, 108, 86, 117, 46,
93, 100, 92, 93, 79, 66, 82, 68.
21. Результаты измерения роста (в сантиметрах) случайно отобранных 50 студентов:
155,0; 159,1; 167,5; 181,7; 175,0; 164,8; 165,2; 171,6; 180,3; 170,0;
173,9; 168,3; 169,5; 169,0; 162,8; 165,1; 159,0; 161,5; 155,5; 160,8;
161,2; 175,0; 176,1; 167,2; 170,8; 165,2; 168,4; 157,3; 178,0; 182,0;
181,5; 175,0; 177,3; 171,6; 169,0; 165,3; 163,4; 166,0; 172,8; 159,3;
161,2; 157,1; 165,7; 160,4; 174,7; 165,4; 169,3; 173,8; 177,2; 179,6.
22. По данным 40 опытов получены следующие экспериментальные значения случайной величины X:
8, 14, 42, 22, –40, 18, –16, 38, –4, 2, –16, 34, 6, –11, 54, 8, 20, 74,
–26, 0, 4, –28, 16, –22, 36, 44, 10, –13, 16, 24, –19, 46, 5, –7, 17, 23,
47, –21, 6, 14.
23. Годовое количество осадков (в дюймах) в Лондоне с 1863 по
1912 год:
21,59; 16,93; 29,48; 31,60; 26,25; 23,40; 25,42; 21,32; 25,02; 33,86;
22,67; 18,82; 28,44; 26,16; 28,17; 34,08; 33,82; 30,28; 27,92; 27,14;
24,40; 20,35; 26,64; 27,01; 19,21; 27,74; 23,85; 21,23; 28,15; 22,61;
19,80; 27,94; 21,47; 23,52; 22,86; 17,69; 22,54; 23,28; 22,17; 20,84;
38,10; 20,65; 22,97; 24,26; 23,01; 23,67; 26,75; 25,36; 24,79; 27,88.
24. Годовая урожайность ячменя (в центнерах на 1 акр) в Англии и Уэльсе с 1890 по 1939 год:
16,7; 16,3; 16,5; 13,3; 16,5; 15,0; 15,9; 15,5; 16,9; 16,4; 14,9; 14,5;
16,6; 15,1; 14,6; 16,0; 16,8; 16,8; 15,5; 17,3; 15,5; 15,5; 14,2; 15,8; 15,7;
14,1; 14,8; 14,4; 15,6; 13,9; 14,7; 14,3; 14,0; 14,5; 15,4; 15,3; 16,0; 16,4;
17,2; 17,8; 14,4; 15,0; 16,0; 16,8; 16,9; 16,6; 16,2; 14,0; 18,1; 17,5.
25. Ряд из 60 равномерных случайных чисел, принимающих целые значения от 0 до 19:
70
3, 15, 15, 8, 19, 1, 3, 12, 19, 13, 16, 4, 17, 8, 6, 15, 3, 3, 7, 4, 5, 14,
15, 10, 3, 10, 13, 14, 15, 8, 10, 1, 18, 17, 4, 10, 16, 2, 13, 3, 14, 7, 16,
3, 10, 12, 0, 3, 2, 3, 10, 5, 10, 3, 2, 11, 14, 18, 8, 14.
26. Поквартальные индексы розничной цены на овощи в Англии в 1951–1958 годах:
295,0; 317,5; 314,9; 321,4; 324,7; 323,7; 322,5; 332,9; 372,9;
380,9; 353,0; 348,9; 354,0; 345,7; 319,5; 317,6; 333,7; 323,9; 312,8;
310,2; 323,2; 342,9; 300,3; 309,8; 304,3; 285,9; 292,3; 298,7; 312,5;
336,1; 295,5; 318,4.
27. В результате измерения контролируемого размера отобранных изделий получены следующие наблюдения:
1,08; 1,10; 1,12; 1,38; 1,18; 1,12; 1,36; 1,25; 1,15; 1,14; 1,40;
1,42; 1,11; 1,22; 1,36; 1,33; 1,35; 1,35; 1,41; 1,21; 1,37; 1,13; 1,15;
1,29; 1,31; 1,17; 1,45; 1,34; 1,17; 1,23; 1,39; 1,06; 1,26; 1,31; 1,37.
28. В результате взвешивания 30 проб химического вещества
получены следующие данные (в миллиграммах):
25, 28, 30, 31, 28, 26, 50, 52, 20, 24, 26, 23, 40, 36, 28, 31, 32, 33,
36, 35, 29, 42, 42, 45, 38, 40, 41, 29, 25, 37.
29. Получены следующие результаты анализов на содержание
углерода в процентах в пробах нелегированной стали:
0,18; 0,12; 0,12; 0,08; 0,08; 0,12; 0,19; 0,32; 0,27; 0,11; 0,14;
0,23; 0,16; 0,09; 0,08; 0,05; 0,13; 0,17; 0,10; 0,14; 0,30; 0,27; 0,31;
0,24; 0,22; 0,34; 0,14; 0,46; 0,39; 0,24; 0,28; 0,11; 0,42; 0,29; 0,11.
30. Результаты лабораторных анализов 60 образцов сланцевых
пород на содержание кремния (SiO2) в процентах:
57,8; 54,6; 54,8; 51,7; 61,1; 62,3; 52,2; 49,2; 53,9; 60,0; 56,2; 55,2;
53,3; 57,9; 54,0; 52,6; 53,8; 53,6; 51,5; 54,0; 50,4; 53,0; 53,3; 51,6; 50,9;
49,6; 52,2; 50,5; 51,1; 52,2; 49,2; 49,3; 48,8; 53,5; 52,8; 52,9; 52,1; 47,3;
49,8; 49,3; 50,1; 54,4; 49,0; 48,9; 51,3; 51,6; 46,2; 50,4; 50,7; 53,1; 52,9;
51,3; 52,7; 46,6; 46,5; 51,3; 51,0; 47,5; 47,7; 44,9.
§ 3.8. Лабораторная работа № 2.
Семейства вероятностных распределений
в статистическом пакете Statgraphics
Пакет Statgraphics теперь предоставляет возможность работать
с 46 наиболее распространенными распределениями вероятностей:
Бернулли, биномиальным, дискретным равномерным, геометрическим, гипергеометрическим, отрицательным биномиальным, Пуассона, бета-распределением (2-х видов), Бирнбаума-Сандерса, Коши,
71
распределением хи-квадрат (2-х видов), Эрланга*, экспоненциальным
(3-х видов), распределением экстремального значения (2-х видов),
F-распределением или распределением дисперсионного отношения
(2-х видов), гамма–распределением (3-х видов), распределением Лапласа, логистическим распределением (2-х видов), логлогистическим
распределением (2-х видов), распределениями Гаусса, Лапласа, логнормальным (2-х видов), нормальным (2-х видов), распределениями
Максвелла, Парето**, Рэлея, Стьюдента (2-х видов), треугольным, распределением арксинуса, равномерным и распределением Вейбулла.
Для доступа к процедурам, работающими с распределениями,
в головном меню пакета необходимо выбрать пункт Plot→Probability
Distribution (Графики→Распределение вероятностей). Появится
дополнительное меню, содержащее все 46 перечисленных распределения. По умолчанию выделено распределение № 36 – нормальное. Рассмотрим, например, геометрическое распределение. Для
этого отметим его в меню распределений и щелкнем по кнопке ОК.
Появится новая закладка следующего вида (рис. 3.10):
Введем в поля ввода следующие вероятности: 0,05; 0,25; 0,5;
0,75 и 0,95. После щелчка левой кнопкой мыши по кнопке ОК эти
данные заносятся в поле заставки геометрического распределения.
Формы представления выбранного распределения можно задать
с помощью пункта меню заставки геометрического распределения
вероятностей Tables and Graphs. Это меню имеет следующий вид
(см. рис. 3.11). Его процедуры при задании пунктов выставлением
галочки в соответствующем поле выполняет такие действия.
Рис. 3.10. Меню для задания параметров
геометрического распределения
* Агнер
Краруп Эрланг (1878–1929) – датский математик.
** Вильфридо Парето (1848–1923) – итальянский экономист и социолог. Сформу-
лировал закон распределения доходов, так называемый закон Парето.
72
Рис. 3.11. Панель табличных параметров
в анализе распределения вероятностей
Analysis Summary (Сводка анализа) указывает номер распределения и его параметры.
Cumulative Distribution (Функция распределения) вычисляет
функцию распределения. Первоначально таблица этой функции
для всех пяти разновидностей рассматриваемого распределения
строится следующим образом. Для одного значения переменной
(по умолчанию) вычисляются вероятности левого (Lower Tail Area)
и правого (Upper Tail Area) хвостов распределения, т. е. вероятности P(X<x0) и P(X>x0), и вероятность (для дискретных распределений) или значение функции плотности (для непрерывных) при
x = x0. Переменную x0 можно изменить или задать до пяти ее различных значений, щелкнув правой кнопкой мыши в поле заставки
Cumulative Distribution и выбрав пункт меню Pane Options.
Появится дополнительное подменю следующего вида (рис. 3.12).
Введем в поля ввода этого меню такие значения: 0,1; 1,0; 5,0; 10,0
и 30,0.
Inverse CDF (Обратная функция распределения, значения процентилей) вычисляет для заданных на заставке геометрического распределения вероятностей
0,05; 0,25; 0,5; 0,75 и 0,95 процент
наблюдений, лежащих левее указанного числа. Можно задать и
иные значения. Для этого необходимо щелчком правой кнопки
мыши вызвать пункт меню Pane
Options и в появившейся заставке задать набор из пяти нужных
числовых значений.
Random Numbers (Случайные
Рис. 3.12. Меню задания
числа) порождает последователь- квантилей или процентных точек
73
ность независимых одинаково распределенных случайных чисел,
подчиняющихся выбранному распределению – одному из упомянутых сорока шести.
Density/Mass Function – функция плотности вероятности для
непрерывных распределений или графическое изображение ряда
распределения для дискретных распределений. Графики функций выдаются с соответствующими заголовками и автоматически
оцифровываются. Если на график выводится несколько кривых,
то они обозначаются различными типами линий – непрерывной,
пунктирной, точечной и другими. Справа от графика указывается
легенда – связь между типами линий и параметрами кривых, выводимых на график.
CDF (Cumulative Distribution Function – функция распределения). Первые две формы представления распределений из этого
меню являются наиболее употребительными. Последние три еще
не использовались нами на практике.
Survivor Function (Функция выживаемости) равна единице минус функция распределения. Это хорошо видно при сравнении графиков обеих функций.
Log Survivor Function (Логарифм функции выживаемости).
Имеется в виду натуральный логарифм этой функции.
Hazard Function (Функция риска). Функцией риска называется
частное от деления плотности распределения на функцию выживаемости.
После нажатия кнопки ОК меню Tables and Graphs на правой половине экрана монитора выводятся графики всех заданных функций. Двойной щелчок левой кнопки мыши на любом графике или
заставке разворачивает и сворачивает их на весь экран. Заполним
теперь лист StatGallery и оформим отчет о проделанной лабораторной работе. В любом месте открытого поля StatGallery щелкнем
правой кнопкой мыши. Появится дополнительное меню.
Выберем в этом меню строку Arrange Panes. Появляется заставка (см. рис. 3.13) с выбором задания порядка и формы расположения текстовой и графической информации на листе отчёта в
StatGallery. Расположение информации таково: Two by Two – по
два, Top and Bottom – вверху и внизу, Left and Right – слева и
справа, Two Left One Right – два слева, одно справа, One Left Two
Right – одно слева, два справа, Three by Three – по три, One Position
Only – без определённых позиций, By Columns – по колонкам, причём столбцов всегда три, а количество строк в каждом столбце можно задавать в некоторых пределах. При этом в отчёте может быть
74
Рис. 3.13. Меню StatGallery, распределяющее рисунки
и текст на листе отчета
несколько страниц, расположение информации на каждой из них
можно задавать разными способами.
Вызовем пункт StatGallery и зададим расположение четырёх
элементов отчета способом «по два». В отчет включим заставки
Probability Distributions, Cumulative Distributions и графики двух
функций Probability, Cumulative Probability. В результате получим
лист отчета, похожий на рис. 3.14.
Воспользуемся, наконец, пунктом дополнительного меню заставки распределения вероятностей Save Results и сохраним полученные результаты. Появится дополнительное подменю следующего вида (рис. 3.15). В полях Save везде поставим галочки, а в полях
Target Variables (Плановые переменные) наберем имена случайных
выборок Geom1, …, Geom5.
После нажатия клавиш File→Save Data File As и набора имени
Geom сгенерированные выборки будут помещены в базу данных пакета Statgraphics.
В пакете реализовано уникальное средство для сохранения результатов работы и создания собственных статистических проектов. Все, что пользователь считает ценным в своем варианте анализа (методы, параметры статистических процедур, графика, табличные схемы и так далее) можно сохранить в виде нового файла
StatFolio. Затем этот файл по мере надобности можно изменять и
дополнять, используя многократно. Сохраним и мы результаты нашей работы, выбрав File→Save StatFolio As→Geometric.
Задание № 1. По номеру вашей фамилии в журнале преподавателя выбрать распределение в пункте Probability Distributions,
задать пять однотипных распределений, варьируя параметры вы75
76
Рис. 3.14. Некоторые табличные и графические характеристики геометрического распределения
Рис. 3.15. Меню пункта Save Results
бранного распределения, вычислить и вывести на экран дисплея
все пункты меню Tabular Options и Graphical Options. Объем выборок задать равным 50. Полученные результаты записать на лист
отчета в StatGallery и сохранить в личном статистическом проекте
под оригинальным именем (имя: LAB2№группыФИО).
§ 3.9. Лабораторная работа № 2.
Семейства вероятностных распределений
в математическом пакете Mathcad
В качестве примера в пакете MATHCAD рассмотрим моделирование распределения Коши. Это распределение имеет плотность вероятности
λ
f (x) =
, -¥ < x < ¥, (3.9.1)
2
é
p ëê λ + (x - µ)2 ùûú
где μ – параметр положения (медиана), λ>0 – параметр рассеивания (срединное отклонение). Математического ожидания и моментов распределение не имеет.
Наберем в пакете Mathcad следующую программу.
ORIGIN: = 1 m: = 2.5 l: = 0.8
x1: = rcauchy(50,m,l) x1: = sort(x1)
f(x): = dcauchy(x,m,l) F(x): = pcauchy(x,m,l)
i:=0.1,0.2...1 qi*10 := qcauchy(i,,)
m: = mean(x1)
m = 2.506
med: = median(x1)
med = 2.654
77
1
0,8
0,6
i
0,4
0,2
0
–1
0
D: = var(x1)
D = 1.723
σ: = stdev(x1)
σ = 1.313
xmin: = min(x1)
xmax: = max(x1)
78
1
2
qi·10
3
4
5
6
0,1
0,08
0,06
hi
0,04
0,02
0
–1
0
2
inti
4
6
xmin = -0.643
xmax = 6.159
E:=0.477 2s
E = 0.885
R: = xmax-xmin
R
R = 6.802 m: = 20 L:=
m
L
i:=1...20 inti := xmin + (2i-1)
2
h: = hist(int,x1)
h
i:= 1...20 hi := i
50
Значение E, равное срединному отклонению, – это параметр
рассеивания распределения Коши. В нашем случае он должен быть
близок к заданному значению λ. Следует отметить, что функции
mean и var по формуле (2.7.1) и формуле, аналогичной (2.7.2), формально находят числовые значения смоделированной выборки,
которые, однако, вовсе не являются математическим ожиданием и
дисперсией распределения Коши.
Итак, на примере данного распределения выполнен примерно
такой же объем работ и построены те же графики, которые в пакете
STATGRAPHICS получаются автоматически заданием лишь соответствующего пункта меню.
Задание № 2. По номеру вашей фамилии в журнале преподавателя выбрать распределение из табл. 3.1, стр. 41 (если номер больше 17, выбирать номер минус 16), самостоятельно задать все необ79
ходимые параметры распределения; построить графики функции
плотности вероятности, функции распределения, функции значений процентилей, смоделировать случайную выборку данного распределения длиной в 100 единиц, вычислить числовые характеристики выборки и построить ее гистограмму.
§ 3.10. Лабораторная работа № 2.
Семейства вероятностных распределений
в математическом пакете Matlab
Все статистические процедуры пакета Statistics Toolbox и реализующие их подпрограммы-функции описаны в § 3.3. Рассмотрим моделирование и расчёт параметров распределения Рэлея,
для которого f (x) =
mx = a
>>
>>
>>
>>
>>
>>
>>
80
x
a
2
-
e
x2
2a2 ,
-
x2
2
x > 0, a > 0, a – мода; F (x) = 1 - e 2a ,
æ
p
pö
, Dx = a2 çç2 - ÷÷÷.
çè
2
2ø
clear
%Моделирование распределения Рэлея.
a = 1.5;
x = 0:0.1:10;
f = raylpdf(x,a);
F = raylcdf(x,a);
plot(x,f,’-*r’,x,F,’- + g’)
>> alfa = 0:0.1:1;
>> QF = raylinv(alfa,a);
>> %График квантилей (функции F^(-1)(x)).
>> plot(alfa,QF,’-*b’)
>> %Моделирование вектор-столбца выборки распределения
>> %Рэлея объёмом 100 единиц.
>> x1 = raylrnd(a,100,1);
>> %Вычисление точечных характеристик выборки
>> %распределения Рэлея.
>> m = mean(x1)
m =
2.0285
>> med = median(x1)
81
med =
1.8856
>> D = var(x1)
D =
1.2029
>> sigma = std(x1)
sigma =
1.0968
>> R = range(x1)
R =
5.8303
>> %Построение гистограммы.
>> hist(x1,20)
Задание № 3. По номеру вашей фамилии в журнале преподавателя выбрать распределение из табл. 3.3, стр. 44–46 (если номер
больше 18, выбирать номер минус 17), самостоятельно задать все
необходимые параметры распределения; построить графики функции плотности вероятности, функции распределения, функции
значений процентилей, смоделировать случайную выборку данного распределения длиной в 100 единиц, вычислить числовые характеристики выборки и построить ее гистограмму.
§ 3.11. Лабораторная работа № 2.
Семейства вероятностных распределений
в математическом пакете Scilab
Необходимые статистические процедуры описаны в § 3.6.
Рассмотрим моделирование гамма-распределения. Для него
f (x) =
1
Γ (α + 1)βα+1
α
-
x e
x
β
, x > 0, α > -1, β > 0, где β – параметр мас-
штаба, α – параметр формы.
-->clear
-->//моделирование функций плотности и распределения.
-->alf = 0.5;
-->bet = 2.5;
-->x = 0:1:15;
-->a = alf + 1;
-->b = 1/(gamma(a)*bet^(a));
-->y = b*(x^alf).*%e^(-x/bet);
-->S = bet*ones(x);
-->R = alf*ones(x);
-->[p,q] = cdfgam("PQ",x,S,R);
82
-->subplot(1,2,1);
-->xtitle(‘Функция плотности гамма-распределения’,
’x’,’f(x)’);
-->plot(x,y);
-->p = 0.001:0.05:1;
-->q = 1-p;
-->S = bet*ones(p);
-->R = alf*ones(p);
-->x = cdfgam("X",S,R,p,q);
-->subplot(1,2,2);
-->xtitle(‘Функция распределения гамма-распределения’, ’p’,’F^(-1)(p)’);
-->//теоретические значения параметров гамма-распределения таковы:
-->//mx = bet*(alf + 1), Dx = bet^2*(alf + 1), mod
= bet*alf.
-->mxteor = bet*a
mxteor
=
3.75
-->Dxteor = bet^2*a
Dxteor
=
9.375
-->modteor = bet*alf
modteor
=
1.25
-->//найдём теперь их оценки по выборке.
-->y1 = grand(100,1,"gam",bet,alf);
-->mx = mean(y1)
83
mx
=
4.2976807
-->Dx = variance(y1)
Dx
=
7.3012379
-->mod = geomean(y1)
mod
=
3.4844199
-->//построим гистограмму смоделированной выборки у1.
-->meshgrid(0:1:15);
-->xgrid();
-->xtitle(‘Гистограмма гамма-распределения’,’x’,’p(x)’);
-->histplot(15,y1,style = 5)
Задание № 4. По номеру вашей фамилии в журнале преподавателя выбрать распределение из табл. 3.7, стр. 57–58 (если номер
больше 12, выбирать номер минус 11), самостоятельно задать все
необходимые параметры распределения; построить графики функции плотности вероятности, функции распределения, функции
значений процентилей, смоделировать случайную выборку данного распределения длиной в 100 единиц, вычислить числовые характеристики выборки и построить ее гистограмму.
84
4. МЕТОД СТАТИСТИЧЕСКИХ ИСПЫТАНИЙ
(МЕТОД МОНТЕ-КАРЛО)
§ 4.1. Общие принципы метода статистических испытаний
Различают физическое и математическое моделирование. При
физическом моделировании модель воспроизводит изучаемую систему с сохранением ее физической природы. Классическим примером физического моделирования является продувка масштабных моделей летательных аппаратов в аэродинамических трубах.
Более широкие возможности предоставляет математическое моделирование. При изучении любой системы этим методом необходимо построить ее математическую модель. Как правило, реальная
система находится под воздействием случайных факторов или сам
механизм функционирования содержит элементы случайности.
Математическая модель, содержащая случайные элементы, называется вероятностной моделью.
Существуют различные пути исследования вероятностной модели: 1) аналитическое исследование; 2) аналитическое исследование
с применением численных методов; 3) аппаратурное моделирование; 4) статистическое моделирование.
Непосредственное экспериментальное изучение сложных случайных явлений часто требует чрезмерно больших затрат средств
и времени. Тогда прибегают к статистическому моделированию
изучаемых явлений. Современная вычислительная техника дает
возможность имитировать практически без ограничений сложнейшие явления и процессы. Это привело к созданию метода статистического моделирования как научного метода исследования, позволяющего сочетать теоретические расчеты с имитацией различных
экспериментов.
Свою историю статистическое моделирование начинает от метода Монте-Карло, предложенного фон Нейманом* и Уламом**
в 1940 году для решения детерминированных задач с помощью случайных величин, имитируемых на ЭВМ. Метод Монте-Карло, или
метод статистических испытаний, относится к классу статистических и служит для получения некоторых сведений о распределении случайной величины X после получения ряда ее реализаций,
т. е. решает типичную задачу математической статистики, которая
* Джон
фон Нейман (1903–1957) – американский математик.
Марцин Улам (1909–1984) – американский математик.
** Станислав
85
изучает методы оценки параметров распределений случайной величины на основе ее реализаций.
Метод статистических испытаний применяют для решения не
только тех задач, в которых в явном виде имеются случайные явления, но также и для решения многих математических задач, не
содержащих таких явлений. В этом случае искусственно подбирают такое случайное явление, характеристики которого связаны с
результатом решения исходной задачи. Для определения числовых
значений этих характеристик используется метод статистических
испытаний.
В задаче оценки математического ожидания, например, по методу Монте-Карло традиционной оценкой является среднее арифметическое.
Идея метода статистических испытаний основана на законе
больших чисел. Наиболее простая вычислительная схема при этом
заключается в следующем. Если решается задача оценки среднего
значения некоторой случайной величины, то вычисляются N независимых реализаций случайной величины и ее математическое
ожидание (среднее значение) оценивается с помощью среднего
арифметического этих реализаций. Оценка погрешности может
быть получена, например, по неравенству Чебышева*
æS
ö
σ2
P ççç n - a £ ε÷÷÷ ³ 1 - 2 è N
ø
Nε
(4.1.1)
2
и имеет вероятностный характер. Если положить γ = σ
, то поnε2
лучим
æ
ö÷
çç
σ ÷÷÷
1 N
ç
> 1 - γ, P çç å Xi - MX £
1 ÷÷÷
çç N i=1
÷
çè
( N γ )2 ø÷
(4.1.2)
где γ – малая величина. С вероятностью 1–γ среднее арифметическое отличается от MX не более чем на σ
убывает как 1
, т. е. погрешность
Nγ
. Также может быть оценено и N, гарантирую-
N
щее необходимую точность с заданной вероятностью.
* Пафнутий
86
Львович Чебышев (1821–1894) – русский математик и механик.
Моделирование на ЭВМ случайных элементов подчиняется двум
основным принципам:
1) сходство между случайным элементом – оригиналом и его моделью на ЭВМ состоит в совпадении или близости вероятностных
законов распределения или числовых характеристик;
2) всякий случайный элемент конструируется как некоторая борелевская функция от простейших, так называемых базовых случайных величин.
§ 4.2. Датчики базовой случайной величины (БСВ)
Датчик БСВ – устройство, позволяющее по запросу получить реализацию x или несколько независимых реализаций x1, x2, …, xn
базовой случайной величины X. Существуют три типа датчиков:
табличные, физические и программные.
Табличный датчик БСВ – это таблица случайных чисел, представляющая собой экспериментально полученную выборку реализаций равномерно распределенной на промежутке [0,1] случайной
величины. Можно заранее составить таблицы этих значений, используя, например, физические генераторы. Существуют и готовые таблицы случайных чисел. Однако при расчетах на ЭВМ такие
таблицы, как правило, не используются. Их хранение во внутренней памяти ЭВМ обычно невозможно вследствие ее загруженности
информацией, относящейся непосредственно к задаче.
Физический датчик БСВ – специальное радиоэлектронное
устройство, служащее приставкой к ЭВМ. Оно состоит из источника флуктуационного шума (например, флуктуационно шумящей
радиолампы), значение которого в произвольный момент времени
является случайной величиной X≥0 с плотностью вероятности fX(x)
В качестве физического датчика БСВ может быть использован и источник радиактивного распада. Счетчик подсчитывает количество
радиактивных частиц за некоторое время ∆t. Если число частиц
четное, то в разряд посылается единица, если нечетное, то нуль.
При параллельной работе k генераторов будет получено значение k –
разрядной двоичной дроби. Время ∆t выбирается таким, чтобы вероятность получения в разряде единицы, так же, как и вероятность
получения нуля, была равна 0,5. Недостатки физического датчика
БСВ: невозможность повторения некоторой ранее полученной реализации x; схемная нестабильность, приводящая к необходимости
контроля работы датчика при очередном его использовании.
87
Программный датчик БСВ (псевдослучайные последовательности чисел). Возможен и следующий подход к моделированию случайной величины X, имеющей равномерное распределение на [0, 1].
Эту величину получают с помощью некоторой рекуррентной формулы, причем X обладает статистическими свойствами, близкими
к свойствам равномерного распределения на отрезке [0, 1]. Полеченную последовательность чисел называют псевдослучайной.
Один из первых методов получения псевдослучайной последовательности чисел был предложен Джоном фон Нейманом. Он называется методом середины квадратов.
Возьмем некоторое число r0. Пусть r0 = 0,9876. Возведем его
в квадрат r02 = 0,97535376. Выберем четыре средние цифры этого числа и положим r1 = 0,5353. Затем возводим r1 в квадрат:
r12 = 0,28654609 и снова выбираем четыре средние цифры. Получаем r2 = 0,6546 и т. д.
Метод псевдослучайных последовательностей прост и экономичен; на получение каждого числа затрачивается всего несколько
простых операций. Однако он имеет ряд существенных недостатков, главный из которых – трудность теоретической оценки статистических свойств псевдослучайной последовательности. Помимо
этого, числа, входящие в вырабатываемую программным способом
псевдослучайную последовательность, зависимы между собой, а
сама последовательность является периодической, так как в ЭВМ
может быть представлено только конечное число различных чисел
и повторное появление какого-либо числа и всех последующих за
ним чисел неизбежно.
§ 4.3. Моделирование на ЭВМ стандартной
равномерно распределенной случайной величины
(базовой случайной величины)
Рассмотрим случайную величину
n-1
β
β
å 2ii + 2nn , (4.3.1)
i=1
где βi = 1, 2, …, n независимы в совокупности, βi, i = 1, 2, …, n–1 –
дискретные случайные величины, принимающие значения 0, 1 с
равными вероятностями, т. е. P (βi = 0) = P (βi = 1) = 1 , à βn рав2
88
номерно распределена на [0, 1]. Путем довольно несложных преобразований методом математической индукции доказывается, что
n-1
β
P
å 2ii ® R[0, 1]. n®¥
lim
(4.3.2)
i=1
Таким образом, идея подобного моделирования сводится к тому,
что реализация дискретной случайной величины – индикатора с
P ( X = 0) = P ( X = 1) = 1 2 являются двоичными цифрами случай-
ной величины α∈R[0, 1], т. е. α представима в виде α = 0.β1β2β3…
Если речь идет о равномерном распределении на [0, 1], то имеется в виду реализация α с бесконечным числом значащих цифр. Это
предполагает либо сколь угодно большую точность отсчета, либо
бесконечное число реализаций n. Эта задача решается приближенно, решение в любом случае не тривиально.
Подавляющее большинство алгоритмов работает на основе рекуррентных соображений следующим путем. Пусть xi + k = f(xi + k–1,
xi + k–2, …, xi), где k фиксировано, i = 1, 2, …, f – целочисленная
функция целочисленных аргументов; x0, x1, …, xk–1 – целые (пусковые) константы – задаются. Например, f может быть задана в виде
æk-1
ö÷
ç
xi+k = çç å bj xi+ j + θ÷÷÷mod P, çç
÷÷
è j=0
ø
(4.3.3)
где bj и θ – целые числа, xi + k – остаток от деления целочисленной
линейной функции
k-1
å bj xi+j + θ
на число P. Это так называемый
j=1
метод Леметра* или метод сравнений. Если k = 1 и θ = 0 то xi + 1 =
= b0xi Это мультипликативный метод. Имеется обширная литература, в которой обсуждаются свойства последовательностей, полученных таким методом. Опишем более подробно суть мультипликативного конгруэнтного метода (метода вычетов).
Псевдослучайная последовательность вычисляется по рекуррентным формулам
xi =
* Жорж
xi*
, xi* = β xi*-1 mod P, i = 1, 2, ..., P
(
)
(4.3.4)
Леметр (1894–1966) – бельгийский математик, физик и астроном.
89
где β, P, x0* – параметры программного датчика; β – множитель;
P – модуль, x0* – стартовое значение. Операция y = (z)modP ознаézù
чает y = z - P ê ú , [...] – операция деления нацело. Тогда неотрицаêë P úû
тельные числа x0*, x1*,…∈{0, 1, 2, … P – 1} Отсюда следует, что 1) последовательность {xi*}, а значит и {xi} всегда «зацикливается», т. е.
начиная с некоторого номера i≥i0 образуется цикл, повторяющийся
бесконечное число раз; 2) период последовательности T≤P–1.
Параметры β, P и x0* определяются таким образом, чтобы величина T была максимальной. Наиболее распространены три варианта выбора P:
1) P = 2q, где q – число двоичных разрядов, используемых для
задания целой константы в ЭВМ. Например, P = 231 = 2147483648.
Так как T≤P–1, то целесообразно модуль P выбирать максимально
возможным;
2) P = 10q;
3) P – простое число.
§ 4.4. Моделирование дискретной случайной величины
при помощи случайных событий
Если случайная величина дискретна, то ее моделирование можно свести к моделированию независимых испытаний. Пусть имеется следующий ряд распределения (см. табл. 4.1).
Обозначим событие Ai = (X = xi). Тогда нахождение значения,
принятого случайной величиной X, сводится к определению того,
какое из событий A1, A2, …, An появится. События Ai несовместны и
образуют полную группу событий, и для их моделирования можно
использовать следующую процедуру.
Пусть в результате k независимых испытаний может произойти одно из двух противоположных событий A и B = A. Известно,
что P(A) = p, P(B) = 1–p. Построим последовательность значений r1,
r2, …, rk случайной величины R∈[0, 1]. Если ri<p, i = 1, 2, …, k, то
считаем, что в i-м испытании наступило событие A. Если же ri>p,
Таблица 4.1
X
P
90
x1
p1
x2
p2
...
...
xn
pn
0
∆1
∆2
p1
p2
∆n
∆3
p3
1
pn
Рис. 4.1. Длины вероятностных промежутков
то считаем, что произошло событие B. Это действительно так, ибо
P(R<p) = P(0<R<p) = P(A) и P(p<R<1) = P(R>p) = P(B).
Разделим теперь отрезок [0, 1] на n участков ∆1, ∆2, …, ∆n, длины
которых соответственно равны p1, p2, …, pn (см. рис. 4.1). Получаем
как и прежде последовательность значений r1, r2, …, rk случайной
величины R. Если ri∈∆m, то считаем, что в i-м испытании наступило
событие Am, так как P(R∈∆m) равно длине отрезка ∆m = pm = P(Am).
Помимо описанного общего алгоритма моделирования дискретной случайной величины для многих законов существуют специальные алгоритмы. Рассмотрим два примера: моделирование биномиального и пуассоновского распределений.
Моделирование случайной величины с биномиальным распределением.
n-m
,
Если Y∈B(n, p), то Pn (m) = Cnm pm (1 - p)
(4.4.1)
где p – вероятность появления события в каждом отдельно взятом
испытании, n – число испытаний. Тогда функция распределения
биномиального закона имеет вид:
m
n-i
F (m) = P ( X < m) = å Cni pi (1 - p)
(4.4.2)
i=0
Введем индикатор – случайную величину Xi, показывающую,
появилось или нет интересующее нас событие в i-м испытании. Величина Xi, очевидно, может принимать только два значения: либо
1 с вероятностью p, либо 0 с вероятностью 1–p. Итак, ряд распределения индикатора (см. табл. 4.2). Тогда в n испытаниях интересующее нас событие появится m раз m = X1 + X2 + … + Xn, где m будет
очередным значением случайной величины X, распределенной биномиально с параметрами n, p.
Таблица 4.2
Xi
1
0
P
p
1–p
91
Итак, определение значения случайной величины Y = m сводится к следующей процедуре:
1) получают последовательность значений r1, r2, …, rn случайной
величины R∈[0, 1];
2) для каждого числа ri, i = 1, 2, …, n проверяют выполняется
ли неравенство ri<p. Если неравенство выполняется, то полагают
Xi = 1, в противном случае считают Xi = 0;
3) находят сумму значений n случайных величин Xi, т. е.
n
Y = m = å Xi ;
i=1
4) процедуру повторяют необходимое число раз (п. 1–3), получают последовательность значений m1, m2, m3… случайной величины
X∈B(n, p). Описанный метод называется методом браковки. В вычислительной практике часто используется метод, базирующийся
на геометрическом распределении.
Моделирование случайной величины, распределенной по закону Пуассона. Распределение Пуассона P(λ) – предельная форма
биномиального распределения B(n, p) при n→∞, p→0, np→λ, т. е.
n-m
lim Cnm pm (1 - p)
n®¥,
np®λ
=
λ
m -λ
e
m!
.
(4.4.3)
Алгоритм моделирования случайной величины, распределенной
по закону Пуассона, учитывая (4.4.3), может быть, например, таков:
1) задать λ и выбрать n такое, чтобы вероятность p = λ была
n
достаточно малой (p<0,01);
2) получить последовательность значений r1, r2, …, rn случайной
величины R∈[0, 1];
3) для каждого числа ri, i = 1, 2, …, n проверить выполнение неравенства ri<p Если оно выполняется, то Xi = 1, в противном случае
считают Xi = 0;
n
4) вычислить Y = å Xi . Это и есть значение случайной величиi=1
ны Y∈P(λ);
5) п. 1–4 повторить требуемое число раз.
§ 4.5. Моделирование непрерывных случайных величин
Для моделирования непрерывных случайных величин разработано несколько общих методов. Рассмотрим некоторые из них.
92
Метод обратной функции основан на теореме Смирнова*
Теорема 4.1. (Смирнова). Если X удовлетворяет уравнению
X
ò
dFX (t) = α, т. е.
-¥
-1
X = FX
(α), (4.5.1)
где α – величина, распределенная равномерно на [0, 1], то X распределено по закону FX(t).
Действительно, введем случайную величину α = FX(t), обратим
внимание на то, что так как 0≤FX≤1, то и 0≤α≤1. Найдем функцию
распределения случайной величины α:
Fα (z) = P (α < z) =
ìï
0, z £ 0,
ïï
ï
-1
= íP {FX (t) < z} = P t < FX
(z) = FX FX-1 (z) = α , 0 £ α £ 1,
ïï
ïï
1, z ³ 1.
ïî
{
}
{
}
Таким образом, α – случайная величина, имеющая равномерное
распределение на отрезке [0, 1].
Порядок действия при моделировании конкретного распределения методом обратной функции следующий:
1) разыгрывается реализация α равномерной случайной величины α∈R[0, 1];
2) решается уравнение F(x) = α. Его решение X = F–1(α) дает случайную величину X с заданным законом распределения F(x). Здесь
F–1 функция обратная к F(x). Во многих случаях удается найти явное выражение для F–1(α). Тогда моделирование происходит наиболее просто.
Недостатком описанного метода являются аналитические трудности при вычислении F–1. В «чистом виде» метод обратной функции используется редко на практике, так как для многих распределений, например, нормального, даже F(x) не выражается через
элементарные функции, а табулирование F–1(α) существенно усложняет моделирование. На практике метод обратной функции дополняют аппроксимацией F(x) или сочетают с другими методами.
Метод суммирования основан на центральной предельной теореме (ЦПТ). Например, для нормального распределения ЦПТ может быть сформулирована так.
* Николай Васильевич Смирнов (1900–1966) – советский математик.
93
Теорема 4.2. Если случайные величины X1, X2, …, Xn независимы, одинаково распределены и их математические ожидания и
дисперсии конечны, то при увеличении n закон распределения суммы X1 + X2 + … + Xn неограниченно приближается к нормальному.
Практически оказывается, что для получения хорошего приближения к нормальному распределению достаточно сравнительно
небольшого числа слагаемых. Пусть r1, r2, …, rn – независимые случайные величины ri∈R[0, 1]. Обозначим через Y сумму этих величин: Y = r1 + r2 + … + rn; тогда Mri = 0,5 и Dri = 1 , i = 1, 2, ..., n.
12
Отсюда MY = 0,5n, DY = n . При достаточно большом n по ЦПТ
12
можно считать, что Y имеет нормальный закон распределения с математическим ожиданием MY = 0.5n и дисперсией DY = n , т. е.
12
(
Y Î N 0,5n,
n
)
12 .
(4.5.2)
Перейдем к стандартной нормально распределенной случайной
величине U =
Y - MY
DY
= (Y - 0,5n)
12
6
= (Y - 0,5n)
, U Î N (0, 1).
n
3n
Например, при n = 12
æn
÷ö 6
ç
X = MX + σ X U = MX + σ X ççå ri - 0,5n÷÷÷
=
çè
÷ø 3n
i=1
æ 12
ö÷
ç
= MX + σ X ççå ri - 6÷÷÷.
÷ø
çèi=1
(4.5.3)
Тогда X∈N(MX, σX), а ri = R[0, 1]. Таким образом, имея двенадцать значений случайной величины R, получаем значение нормальной случайной величины X, имея следующие двенадцать значений
R, получаем следующее значение X и т. д.
Для других распределений основной принцип метода суммирования и его опора на ЦПТ остаются без изменения. Моделирующие
формулы типа (4.5.3) для каждого конкретного распределения
разные.
Рассмотрим еще один пример моделирования гамма-распределения. Его плотность f (x) =
94
1
Γ (α + 1)β
α +1
α
-
x e
x
β
, x > 0.
1
Положим λ = , тогда
β
f (x) =
λ α +1 α -λx
, x > 0. x e
Γ (α + 1)
(4.5.4)
Предлагаемый способ моделирования гамма-распределения основывается на следующей теореме.
Теорема 4.3. Если y1, y2, …, yn – независимые стандартные эксn
поненциально распределенные случайные величины, то x = å yn
i=1
имеет гамма – распределение с параметром α = n–1.
Если y – экспоненциально распределенная случайная величина,
то f(y) = λe–λy, y≥0, λ – параметр экспоненциального распределения. Для моделирования экспоненциального распределения применим метод обратной функции.
y
F ( y) = λ
-λt
òe
dt = 1 - e-λy , F (y) = γ Þ 1 - e-λy = γ, ãäå γ Î R [0, 1].
0
1–γ = e–λy, –λy = ln(1–γ) = lnγ, так как если γ∈R[0, 1], то и (1–γ)
∈R[0, 1].
1
Итак, y = - ln γ (4.5.5)
λ
формула, моделирующая показательное распределение. По теореме 4.3
x=
α+1
å yi =
i=1
1 ö÷
1 α+1
1 æçα+1 ö÷÷
ç
ln
ln
=
=γ
γ
÷
ç
å çè λ ø÷ i λ å i λ lnççç Õ γ i ÷÷÷. (4.5.6)
è i=1 ø
i=1
i=1
α+1æ
Формула (4.5.6) справедлива, если α – целое. В случае дробного
α формулу (4.5.6) модернизируют следующим образом:
ïìï
1 æN ö
ïïx = - ln ççç Õ γ i ÷÷÷ + x* , α + 1 = N + 0,5;
λ èçi=1 ÷ø÷
ïïí
ïï
1
ïï
x* = - ln γ N +1 cos2 (2pγ N +1 ).
ïïî
λ
(4.5.7)
При 0<α + 1<1 существуют модификации рассмотренного метода. Для значений параметра α + 1>1, можно в комбинации с указанной техникой использовать свойство аддитивности гамма-распределения.
95
§ 4.6. Лабораторная работа № 3.
Моделирование некоторых распределений
с помощью базовых случайных величин в пакете Mathcad
В качестве базового распределения для моделирования многих
случайных величин используется стандартное равномерное распределение R[0,1]. Само равномерное распределение может быть
получено несколькими способами с помощью линейных, нелинейных и смешанных формул метода сравнений (см. §. 4.3).
Рассмотрим формулу xn+1=(bxn+θ)modP –
(4.6.1)
частный случай формулы (4.3.3), вырабатывающую последовательность целых чисел, равномерно распределенных на конечном
множестве {0,1,2,…,P–1}. Эта формула используется в программе
URAND (Universal RANDom number generator) [4]. Как уже упоминалось ранее, пусковые константы b, θ и P должны выбираться
практически таким образом, чтобы вырабатываемая случайная последовательность наиболее полно отвечала требуемым вероятностным законам распределения и числовым характеристикам этих
законов.
Для формулы (4.6.1) в [3] следующим образом подытожены теоретико-числовые ограничения на выбор b, θ и P:
ì
ï
ï
ï
1) (b)mod 8 = 5,
ï
ï
ï
P
ï
ï
2)
< b < P - P,
í
ï
100
ï
ï
ï
θ 1 1
ï
3)
3 » 0.21132, θ- íå÷åòíîå ÷èñëî. » ï
ï
P 2 6
ï
î
(4.6.2)
Следует заметить, что формула (4.6.1) использует целые числа, которые в разных ЭВМ имеют разную длину и хранятся поразному. При выполнении арифметических операций с целыми
числами большое значение имеют особенности машинной арифметики [4]. В пакете MATHCAD реально приходится оперировать
с вещественными числами, поэтому приведенная ниже программа
Urand, взятая из [4] и адаптированная в пакете MATHCAD, нуждается в подробном тестировании, которое автором не проводилось.
Программа реализует формулу (4.6.1) для P=231 и предназначена для вычисления псевдослучайного числа, имитирующего реализацию случайной величины со стандартным равномерным распределением R[0,1].
96
ORIGIN:=1
iy:=-1023 t:=runif(100,0,1)
MassUrand ( iy , k) :=
for i ∈ 1 ..
ui ← Urand ( iy)
u
Urand ( iy) :=
k
iy ← ui ⋅ 2147483648
m2 ← 1073741824
halfm ← m2
mic ← halfm ⋅ atan ( 1.0 )
ib ← mod ( mic , 8)
ib ← mic − ib + 5


mic ← halfm ⋅  1 −
iθ ← mod ( mic , 2)
1 

3
iθ ← mic − iθ + 1
s←
0.5
halfm
iy ← iy ⋅ ib + iθ
iy ← mod ( iy , 2147483648 )
iy ← ( iy + m2) + m2
if iy < 0
iy ← ( iy − m2) − m2
if
while
iy > 2147483648
iy
> m2
2
iy ← iy − 2147483648
u ← iy ⋅ s
u
k:=Urand(iy) k=0.48016216
k1:=Urand(k) k1=0.399884106
d:=MassUrand(iy,100)
Приведем в заключение еще одну программу, вычисляющую
псевдослучайные числа со стандартным равномерным распределением, входящую в типовое математическое обеспечение ЭВМ фирмы IBM и называемую Randu.
97
Randu ( ix , k) :=
for i ∈ 1 ..
k
iy ← ix ⋅ 65539
iy ← iy + 2147483647 + 1
while
iy > 2147483648
if iy < 0
iy ← iy − 2147483648
rand i ←
rand
ix ← iy
iy
2147483648
ix:=19510
u:=Randu(ix,1) u=0.595425204
u1:=Randu(ix,100)
Программа Randu реализует ту же формулу (4.6.1), где b=65539,
θ=0 и P=231. Анализ свойств получаемых ею псевдослучайных чисел приведен в работе [5]. Там показано, что в последовательности, вырабатываемой программой Randu,
наблюдается крайне высокая корреляция между тремя подряд идущими случайными числами.
Итак, при моделировании стандартного равномерного распределения в пакете MATHCAD при проведении студенческих лабораторных
работ можно пользоваться двумя
встроенными функциями пакета
runif(m,a,b) и rnd(x), а также двумя
приведенными подпрограммами.
Другие распределения из списка
лабораторной работы № 2 моделируются чаще всего двумя самыми распространенными способами: методом обратной функции и методом суммирования. Далее приведен
список распределений и моделирующий каждое конкретное распределение алгоритм.
1. Биномиальное распределение. Метод браковки, описанный
в § 4.4 – стандартный способ имитационного моделирования дискретной случайной величины. По блок-схеме этого метода, имею98
щей очень простой вид, последовательно выполняются следующие
действия:
n,p-задано
i:=0,
x:=0
да
r:=rnd
r<p
нет
i:=
i+1
x:=
x+1
нет
i<n
X:=x
да
1) задают n и p по схеме Бернулли;
2) получают очередное стандартное равномерно распределенное
число r;
3) количество чисел r, которые меньше p, есть случайное число
B(n,p), распределенное биномиально.
Использование геометрического распределения. Если p мало,
то метод, который работает быстрее чем метод браковки, состоит
в суммировании геометрически распределенных случайных чисел
до тех пор, пока их сумма не превзойдет n. Количество слагаемых
минус единица и есть биномиальное случайное число B(n,p)=k-1,
где k – минимальное число, такое, что
k
å yi > n. yi – геометрически
i=1
распределенное случайное число. Блок-схема этого метода такова:
n,p-задано
c:=
1/ln(1-p)
s:=0
x:=0
r:=rnd
s:=
s+y
y:=
[c*lnr]+1
x:=x+1
да
X:=x
s>n
нет
2. Геометрическое распределение. Случайные числа G(p) получаются из случайных чисел, распределенных равномерно на [0,1],
с помощью соотношения
é ln r ù
i
ú, xi = êê
ú
êë ln (1 - p)úû
(4.6.3)
где […] – целая часть числа. Алгоритм основан на следующей теореме.
Теорема 4.4. Если r∈R[0,1] – базовая случайная величина, то
é ln r ù
ú , где [x] – целая часть x, имеет
случайная величина x = êê
ú
êë ln (1 - p)úû
распределение P(X=x)=p(1–p)x, x=0,1,2,…
99
Доказательство
Так как для r∈R[0,1] по определению
ìï 0, x £ 0,
ïï
= P (r < x) = íïx, 0 < x < 1, то
ïï
ïïî 1, x ³ 1,
ïìï 0, x £ 0
ï
Fr (x) = P (r < x) = ïíx, 0 < x <
ïï
ïïî 1, x ³ 1
ïì
ïü
ln r
P ( X = x) = P ïíx £
< x + 1ïý =
ïï
ïï
ln (1 - p)
î
þ
= P {x ln (1 - p) ³ ln r > (x + 1)ln (1 - p)} =
{
x+1
= P ln (1 - p)
{
x+1
= P (1 - p)
x
< ln r £ ln (1 - p)
x
< r £ (1 - p)
}=
} = (1- p)x -(1- p)x+1 =
x
x
= (1 - p) (1 -1 + p) = p(1 - p) = pq x .
3. Распределение Пуассона. Первый способ моделирования описан в § 4.4 и употребляется когда p мало. Его блок-схема такова.
да
n,p-задано
x:=0
r:=r-p
r:=rnd
p: =
pλ
x
x:=x+1
r<0
X:=x
нет
1. Задают n, p, и λ=np так, чтобы n→∞, p→0 (p<001).
2. Получают очередное стандартное равномерно распределенное
число r.
3. Количество чисел r, меньших p, есть случайное число P(λ),
распределенное по закону Пуассона.
Второй способ основан на связи пуассоновского с показательным и эрланговским распределениями и базируется на теореме 4.5.
Теорема 4.5. Случайная величина x, определенная соотношениN +1
ìï
üï
ем x = min ïíN : Õ rk < e-λ , N = 0,1,2,...ïý распределена по закону
ï
ï
k=1
îï
þï
Пуассона.
Блок-схема алгоритма выглядит следующим образом.
100
да
x:=0,
a:=1
λ-задано
r:=rnd
a:=a*r
p: = e −λ
X:=x
a<p
x:=x+1
нет
4. Экспоненциальное распределение. Самый распространенный
метод моделирования экспоненциального распределения – метод
обратной функции, описанный в § 3.5. Моделирующая формула
имеет вид
1
xi = - ln ri , ri Î R [0,1]. λ
(4.6.4)
5. Классическое распределение Вейбулла. Распределение Вейбулла с параметром α=1 совпадает с экспоненциальным распределением
1
( )
со средним b = 1 c , поэтому моделируется также методом обратλ
α
ной функции. Действительно, если F (x) = 1 - e-λx = r , r Î R [0,1], то
α
α
1 - r = e-λx , r = e-λx , - λxα = ln r ,
(
α
)
1
x = - 1 ln r , x = - 1 ln r α .
λ
λ
Таким образом, моделирующая формула имеет следующий вид:
1
æ 1
öα
xi = çç- ln ri ÷÷÷ ,ri Î R [0,1].
çè λ
ø
(4.6.5)
6. Распределение Парето. Функция плотности вероятности
α+1
α æx ö
, x > x0 , где x0 – паэтого распределения равна f (x) = çç 0 ÷÷÷
x0 çè x ø
раметр положения, левая граница области возможных значений (x0>0), α – параметр формы (α>0). Функция распределения
æ x öα
F (x) = 1 - çç 0 ÷÷÷ , x > x0 легко обращается, в результате получается
çè x ø
моделирующая формула
1
æ1ö
xi = x0 ççç ÷÷÷
çè r ø÷
i
α
,ri Î R [0,1]. (4.6.6)
101
7. Распределение Эрланга. Распределение Эрланга α+1-го порядка – это гамма-распределение с целым параметром α (см. формулу (2.5.1)). Графики и формулы оценивания параметров для
гамма-распределения применимы также и для распределения Эрланга. Распределение моделируется методом суммирования по теореме 4.3. Основная моделирующая формула имеет вид
æα+1 ö÷
ç
xi = -β ln çç Õ ri ÷÷÷,ri Î R [0,1]. çè i=1 ÷ø
(4.6.7)
8. Гамма-распределение. I. В том случае, когда α – целое число,
моделирование происходит по формуле (4.6.7).
II. Если α – не целое, может быть использован следующий алгоритм. Сначала, для –1<α<0 выберем r1, r2 и r3 – три независимые случайные величины, равномерно распределенные на отрезке
1
α
S1 = r1 +1 , S2
1
α
= r2 .
[0,1]. Положим
Если S1+S2>1, возьмем вместо
r1, r2 другую пару таких же случайных величин. Так будем поступать до тех пор, пока не получим S1+S2≤1. В этом случае случайная
величина x =
βS1 ln r
будет иметь гамма-распределение с парамеS1 + S2
трами α и β. Блок-схема этого алгоритма имеет вид
α,βзаданы
r1:= rnd
r2:= rnd
r3:= rnd
Вычисление
S 1,S 2
да
S1 + S 2 ≤ 1
X: =
β S 1ln r3
S 1+ S 2
нет
Наконец, для параметра формы α>0 псевдослучайные числа, под-
æ m ö÷
ç
чиненные гамма-распределению, дает формула y = x - β ln çç Õ ri ÷÷÷,
çèi=1 ÷ø
где случайные числа x имеют гамма-распределение с параметрами
β и α1=α–[α], m=[α+1]. Здесь […] – целая часть числа.
Итак, в случае нецелого α моделирующие формулы для гаммараспределения выглядят следующим образом.
102
1
ì
1
ï
ï
ï
α+1 , S = r α ,
ï
Äëÿ
1
α
0
S
r
<
<
=
1
2
1
2
ï
ï
ï
βS1 ln r3
ï
ï
åñëè S1 + S2 £ 1, xi =
,
ï
ï
S1 + S2
í
ï
m ö
æ
ï
ï
÷
ç
ï
äëÿ α1 > 0 yi = xi - β ln çç Õ ri ÷÷÷,
ï
ï
ç
èi=1 ÷ø
ï
ï
ï
ï
ï
î α1 = α -[α ], m = [α + 1], ri Î R [0,1].
(4.6.8)
9. Распределение Коши. Функция плотности вероятности этого
распределения приведена в лабораторной работе № 2 (см. формулу
1
2
1
p
(3.9.1)). Функция распределения имеет вид F (x) = + arctg
x -µ
.
λ
Методом обращения из нее легко получается моделирующая формула
é æ
1 öù
xi = λtg ê pççri - ÷÷÷ú + µ, ri Î R [0,1]. (4.6.9)
ê çè
2 øúû
ë
10. Нормальное распределение. Наиболее употребительный
метод моделирования нормального распределения – метод суммиæ 12
ö÷
ç
рования. Моделирующая формула (3.5.3) xi = mx + σx ççå ri - 6÷÷÷,ri Î R [0,1],
çè
ø÷
i=1
æ 12
ö÷
çç
÷
ççå ri - 6÷÷,ri Î R [0,1], дает случайную величину, распределенную нормально
÷ø с математическим ожиданием M[X]=m и дисперсией D[X]=σ2.
èi=1
x
Для моделирования стандартной нормальной случайной величины
применяется формула
12
xi = å ri - 6. (4.6.10)
i=1
11. Логарифмически нормальное (логнормальное) распределение. Логнормальное распределение имеет плотность вероятности
равную f (x) =
1
xσ 2p
-
e
æxö
ln2 çç ÷÷÷
çè m ø
2σ2
где m – параметр масштаба (меди-
ана), s – параметр формы. Если случайная величина X распределена по логнормальному закону с параметрами m, s, то случайная
величина Y=lnX подчиняется нормальному закону распределения
103
с математическим ожиданием μ=lnm и средним квадратическим
отклонением s.
Так как X=eY, то моделирующая формула, очевидно, имеет вид
é æ 12
ö÷ù
ç
xi = m exp êê σççå ri - 6÷÷÷úú ,ri Î R [0,1]. ÷øú
êë çèi=1
û
(4.6.11)
12. χ2-распределение подробно описано в § 2.1. Для генерирования случайных чисел используются несколько алгоритмов.
Самый распространенный алгоритм опирается на определение χ2распределения и реализуется формулой
n
xi = å u2j , uj Î N (0,1). (4.6.12)
j=1
Величины xi, полученные по формуле (4.6.12), имеют χ2распределение с n степенями свободы.
13. t-распределение Стьюдента. Распределение Стьюдента связано с многими распределениями и может быть аппроксимировано ими при соответствующих значениях числа степеней свободы. Например, при n = 1 оно совпадает с распределением Коши
с параметром положения μ = 0 и параметром масштаба λ = 1. При
n→∞ распределение Стьюдента сходится к стандартному нормальному распределению. При произвольном n для генерирования случайных чисел используется статистика (2.2.1). Тогда
tn =
u
χ2n
12
n
i=1
i=1
, u Î N (0,1), u = å ri - 6, χ2n = å ui2 , ri Î R [0,1].
n
Модели-
рующие формулы выглядят следующим образом:
ìï
ui
ïï
ti =
,
ïï
n
1
2
ïï
å uj
ï
n j=1
í
ïï
12
ïï
ïïui = å rk - 6, rk Î R [0,1]. ïï
k=1
ïî
(4.6.13)
14. F-распределение. Как и в двух предыдущих случаях моделирование псевдослучайных чисел основано на определении основной
104
статистики F-распределения. Случайная величина, имеющая распределение Фишера, связана с независимыми случайными величиχ2n
1
χ2n × n2
χ2n
2
. Тогда
следующим соотношением xn1,n2 = 21
χn × n1
2
моделирующие формулы имеют вид
нами
и
n1
ìï
ïï
n
ui2
×
å
2
ïï
ïï
i=1
xn1,n2 =
ïï
n2
ï
n1 × å ui2
í
ïï
i
=
1
ïï
12
ïï
ïïui = å rj - 6, rj Î R [0,1].
ïï
j=1
ïî
(4.6.14)
15. Логистическое распределение. Функция плотности вероятности этого распределения равна f (x) =
e
x-µ
λ
2
x-µ ö
æ
÷÷
çç
λ çç1 + e λ ÷÷
÷
ç
èç
ø÷
, где μ – пара-
метр положения (–∞<μ<∞), а λ – параметр масштаба (λ>0). Функция распределения F (x) =
1
-
1+ e
x-µ
λ
. После несложных преобразо-
ваний методом обращения получается следующая моделирующая
формула
1 - ri
xi = µ - λ ln
, ri Î R [0,1]. (4.6.15)
ri
В качестве примера практического применения приведённых
формул и методов смоделируем выборку объёмом 100 единиц классического распределения арксинуса методом обратной функции.
Для этого распределения f (x) =
1
2
p λ2 - ( x - µ )
, μ–λ<x<μ+λ, где μ –
параметр положения – математическое ожидание, а λ>0 – параметр
105
æ x - µ ö÷
1 1
масштаба. Функция распределения равна F (x) = + arcsin çç
çè λ ÷÷ø
2 p
(см. § 1.4).
Выведем моделирующую формулу. Она легко находится из
уравнения F(x) = α, α∈R[0,1], x = F–1(α), т. е.
x = µ + λ sin éë p(r - 0.5)ùû , r Î R [0,1]. (4.6.16)
Тогда программа в пакете Mathcad будет такой.
ORIGIN:=1
Задание параметров распределения и объёма выборки.
n:=100
m:=-1.5
λ:=3.5
π:=3.14159
Задание функции плотности вероятности и функции распределения.
1
f(x):=
2
p × λ -(x- µ)2
é(x- µ)ù
1 1
ú
F(x):= + × asin ê
2 p
ëê λ ûú
1
f(x)
F(x) 0,5
0
−4
−2
x
0
2
Получение стандартного равномерного распределения.
r:=runif(n,0,1)
Получение распределения арксинуса методом обратной функции.
i:=1..n
Yi:= µ + λ × sin[ p ×(ri -0.5)]
106
2
0
yi − 2
−4
−6
0
20
40
i
60
80
100
Задание № 1. По номеру фамилии студента в журнале преподавателя (если номер больше 15, считать номер минус 15) выбрать
одно из рассмотренных пятнадцати распределений и смоделировать по соответствующим формулам выборку псевдослучайных
чисел объемом 100 единиц. Построить график этой выборки. Для
выборок, получаемых методом суммирования, определить эффект
влияния количества слагаемых в теореме 4.2.
Стандартные равномерно распределенные случайные числа получать с помощью подпрограмм urand или randu.
Смоделировать выборку такого же объема с помощью программ
пакета Mathcad (см. табл. 3.1, стр. 41–42), построить график этой
выборки и сравнить оба полученных графика.
§ 4.7. Лабораторная работа № 3.
Моделирование некоторых распределений
с помощью базовых случайных величин в системе Matlab
>> clear
>> % а). Моделирование F-распределения методом
>> %суммирования, m-объём моделируемого массива.
>> m=100;
>> % Задание параметров F-распределения.
>> n1=7;
>> n2=13;
>> %Моделирование образца F-распределения по алгоритмам
>> %пакета Matlab с n1 и n2 степенями свободы.
>> rf=frnd(n1,n2,m,1);
>> a=0;
>> b=1;
107
>> %Моделирование стандартного равномерного распределения
>> %нужной длины.
>>
>>
>>
>>
k1=n1*m;
k2=n2*m;
k3=k1+k2;
rstand=unifrnd(a,b,k3*12,1);
>> %Вычисление k3 значений стандартно нормальных
>> %случайных величин.
>> for i=1:k3
u(i)=0;
i1=(i-1)*12;
for j=i1+1:i1+12
u(i)=u(i)+rstand(j);
end;
end;
>> for i=1:k3
u(i)=u(i)-6;
end;
>> %Моделирование m значений случайной величины, распределён>> %ной по закону хи-квадрат с n1 степенью свободы.
>> for i=1:m
chi2n1(i)=0;
i1=(i-1)*n1;
for j=i1+1:i1+n1
chi2n1(i)=chi2n1(i)+u(j).^2;
end;
end;
>> %Моделирование m значений случайной величины, распределён>> %ной по закону хи-квадрат с n2 степенью свободы.
>> for i=1:m
chi2n2(i)=0;
i1=(i-1)*n2+k1;
for j=i1+1:i1+n2
chi2n2(i)=chi2n2(i)+u(j).^2;
end;
end;
>> %Моделирование m значений фишеровской случайной величины
>> %F(n1,n2) с n1 и n2 степенями свободы.
>> for i=1:m
fn1n2(i)=(n2*chi2n1(i))./(n1*chi2n2(i));
end;
108
>> plot(rf,’-*r’),grid
>> plot(fn1n2,’-+g’),grid
>> %б). Моделирование распределения Коши методом
>> %обратной функции.
>> %Моделирование стандартного равномерного распре>> %деления нужной длины.
>> rst=unifrnd(a,b,m,1);
>> %Задание параметров распределения Коши.
>>
>>
>>
>>
mu=1.5;
lambda=3;
pi=3.14159;
for i=1:m
109
cauchy(i)=lambda*tan(pi*(rst(i)-0.5))+mu;
end;
>> plot(cauchy,’-*r’),grid
Задание № 2. По номеру фамилии студента в журнале преподавателя (если номер больше 18, считать номер минус 18) выбрать
одно из восемнадцати распределений из табл. 3.3 (стр. 44–46) и смоделировать выборку псевдослучайных чисел объемом 100 единиц с
помощью программ пакета Matlab. Построить график этой выборки. Затем для выбранного распределения подобрать схему моделирования либо методом обратной функции, либо методом суммирования и смоделировать выборку псевдослучайных чисел объемом
100 единиц. Стандартные равномерно распределенные случайные
числа получать с помощью подпрограмм unifrnd(0,1,m,1).
Построить графики обеих выборок и сравнить оба полученных
графика.
§ 4.8. Лабораторная работа № 3.
Моделирование некоторых распределений
с помощью базовых случайных величин в системе Scilab
Рассмотрим моделирование t-распределения методом суммирования. tn =
z× n
v
моделирующие формулы имеют вид:
110
12
, где z Î N (0,1), v Î χ2n , z = å ri - 6, ri Î R [0,1]. Тогда
i=1
ìï
zi
ïï
ti =
,
ïï
n
1
ïï
å z2j
ï
n
í
j=1
ïï
12
ïï
ïïzi = å rk - 6, rk Î R [0,1]. ïï
k=1
ïî
(4.8.1)
-->clear
-->//задание параметров t-распределения.
-->m=100;
-->n1=9;
-->//моделирование выборки t-распределения (образца в
-->//пакете Scilab нет).
-->n2=12;
-->k=m*n1*n2;
-->k1=m*n1;
-->r=rand(k,1);
-->//смоделировано необходимое количество стандартных
-->//равномерных случайных величин.
-->for i=1:k1
-->z(i)=0;
-->i1=(i-1)*n2;
-->for j=i1+1:i1+n2
-->z(i)=z(i)+r(j);
-->end;
-->z(i)=z(i)-6;
-->end;
-->//получено нужное количество стандартной нормальной величины.
-->//далее идёт моделирование стьюдентовской случайной величины
-->//с n1 степенью свободы
-->for i=1:m
-->t(i)=0;
-->i1=(i-1)*n1;
-->for j=i1+1:i1+n1
-->t(i)=t(i)+z(j)^2;
-->end;
-->t(i)=t(i)/n1;
-->end;
-->for i=1:m
-->i1=(i-1)*n1;
111
-->t(i)=z(i1+1)/sqrt(t(i));
-->end;
-->//график случайных величин, промоделированных по формулам
(4.6.13)
-->xtitle(‘Случайные величины t-распределения’,’n’,’t(n)’);
-->plot(t)
-->//моделирование логистического распределения методом обратной
-->//функции по формуле (4.6.15)
-->//задание параметров распределения
-->mu=-0.9;
-->lambda=3.6;
-->r=rand(m,1);
-->//получено необходимое количество стандартной нормальной величины
112
-->for i=1:m
-->t(i)=mu-lambda*log((1-r(i))/r(i));
-->end;
-->xtitle(‘Случайные величины логистического распределения’,’n’,’t(n)’);
-->plot(t)
Задание № 3. По номеру фамилии студента в журнале преподавателя (если номер больше 11, считать номер минус 11) выбрать
одно из двенадцати распределений из табл. 3.7 (стр. 57–58) и смоделировать выборку псевдослучайных чисел объемом 100 единиц
с помощью программ пакета Scilab. Построить график этой выборки. Затем для выбранного распределения подобрать схему моделирования либо методом обратной функции, либо методом суммирования и смоделировать выборку псевдослучайных чисел объемом
100 единиц. Стандартные равномерно распределенные случайные
числа получать с помощью подпрограмм rand(m,1).
Построить графики обеих выборок и сравнить оба полученных
графика.
113
5. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ И ИХ СВОЙСТВА
§ 5.1. Статистические характеристики
вариационных рядов и показатели их качества
Построив вариационный ряд и изобразив его графически, можно получить первоначальное представление о закономерностях в
ряду наблюдений. Однако часто этого не достаточно. Поэтому для
дальнейшего изучения изменения значений случайной величины используют числовые характеристики вариационных рядов.
Поскольку эти характеристики вычисляются по статистическим
данным, их обычно называют статистическими характеристиками
или оценками.
Пусть по значениям измерений некоторой случайной величины
требуется найти число, близкое к неизвестному значению измеряемого параметра. Например, пусть по значениям выборки объема
n необходимо оценить неизвестный параметр θ закона распределения случайной величины
 X P(X≤x)=F(θ,x).
Точечной оценкой θ неизвестного параметра
θ называется про
извольная функция элементов выборки θ = fθ (x1, x2 ,..., xn ). Значения этой функции при полученных в результате измерений X=xi,
i=1, 2,…, n будут считаться приближенным значением параметра θ.
Любая функция результатов опытов, которая не зависит от неизвестных статистических характеристик, называется статистикой.
Точечной оценкой статистической характеристики θ (параметра) называется статистика, реализация которой, полученная в результате опытов, принимается за неизвестное истинное значение
параметра θ.
Ясно, что статистика – случайная величина. Но не всякая статистика может быть оценкой θ. Чтобы статистика могла служить
оценкой неизвестного параметра, необходимо, чтобы ее распределение было сосредоточено в достаточной близости от неизвестного
значения θ. Оценка должна быть «хорошей», т. е. обладать рядом
положительных качеств.
Показатель качества – это некоторая характеристика, определяющая соответствие оценки ее назначению, т. е. ее пригодность
для получения решения поставленной задачи. Показатели качества могут измеряться в разных шкалах: количественных (шкала интервалов, отношений, абсолютных разностей), порядковых
(шкала порядка, рангов, баллов), номинальных (шкала наимено114
ваний). Показатели качества могут быть проблемно-ориентированными, наиболее удобными, физически понятными при решении задач определенного класса, или универсальными, пригодными для
различных классов задач. Количественные показатели могут быть
представлены в абсолютных или относительных единицах. Для
функциональных характеристик, представляющих собой функции
f(θ) некоторого аргумента θ, показатели могут быть локальными
или глобальными. Локальные показатели характеризуют качество
оценки f(θ) при фиксированных значениях аргумента θ, а глобальные – вдоль всего диапазона изменения θ. Локальным показателем
является, например, дисперсия D(f(θ)), глобальным max D (f (θ)).
Вся совокупность показателей качества может бытьθ сгруппирована в четыре класса: функциональные, метрологические, технические и экономические (эффективности и эксплуатации).
§ 5.2. Типовые принципы, используемые
при построении оценок [6]
1. Принцип несмещенности π1. Согласно этому принципу оператор f, применяемый
к выборке x, должен выбираться так, чтобы

оценка θ была несмещенной или асимптотически несмещенной, т. е.


M (θ) = θ èëè lim M (θ) = θ, "θ Î F, (5.2.1)
n®¥
где F – класс возможных оценок. Показателем
качества в этом слу
чае является значение смещения εθ = M (θ) - θ. Чем меньше εθ , тем
качественнее оценка и ее алгоритм. εθ = 0 соответствует оптимальному по этому показателю алгоритму.
2. Принцип состоятельности π2. В качестве оценки следует выбирать состоятельную оценку, которая при неограниченном объеме выборки n сходится по вероятности к оцениваемой характеристике θ, т. е.
P

Pδ = P θ - θ £ δ ®1, δ > 0, n ® ¥. (
)
(5.2.2)
Не всякая состоятельная оценка несмещенная, но всякая состоятельная оценка, имеющая асимптотически конечное среднее, будет асимптотически несмещенной. Показателем качества здесь может быть, например, значение объема выборки n1, начиная с которого Pδ меньше заданного δ. Меньший объем выборки соответствует
более качественной оценке.
115
3. Принцип минимума среднего квадрата отклонения (эффективности) π3. Лучшей (более эффективной) считается та оценка,
которая имеет меньшее значение среднего квадрата уклонения
(ошибки, квадратичного риска)
2ù
é 
σ2 = M ê(θ - θ) ú = ε2 + σ2 , σ2 ® min. θ
θ
θ
θ
ëê
ûú
(5.2.3)
Для каждой оцениваемой характеристики или параметра θ можно попытаться найти нижнюю грань inf σ2 вдоль всех возможных
θ
f

операторов f. Оценка θ, для которой достигается inf σ2 называется
f
θ
эффективной.
4. Принцип минимума дисперсии или объема эллипсоида рассеивания π4. В тех случаях, когда смещение εθ известно, его можно учесть в результатах измерений. В других случаях оно может не
влиять на результат. Тогда необходимо выбирать такой оператор f,
который обеспечивает минимум дисперсии σ2 Для несмещенных
θ
оценок это эквивалентно минимуму σ2 = σ2 . Для векторных параθ
θ
метров рассматривается минимум объема эллипсоида рассеяния.
Можно попытаться найти нижнюю грань дисперсии inf σ2 и соf
θ

ответствующий ей оператор f. Показателем качества оценки θ яв
ляются дисперсия оценки D (θ) или дисперсия объема эллипсоида
рассеяния или значение n1, при котором обеспечивается требование к дисперсии оценки или к объему эллипсоида.
5. Принцип минимума ширины доверительных интервалов π5.
Показатель качества таких оценок – значение ширины доверительного интервала. По этому принципу обычно конструируются
интервальные оценки.
6. Принцип минимума меры близости π6. Показатель каче
ства – значение меры близости, например, d (θ, θ), 0 £ d £ 1, при
чем d (θ, θ) ® min. Условие предпочтительности оценки имеет вид


d (θ1 ) £ d (θ2 ).
7. Принцип извлечения максимума информации, содержащейся в выборке π7. Выбираются такие алгоритмы и оценки, которые
содержат в себе максимум информации, имеющейся в выборке об
измеряемой характеристике θ. Показателем качества оценки является значение разности информации, содержащихся в оценке и в
116

I (θ, θ) 

, i(θ) ® max. Условие предпочтивыборке, например, i(θ) =
I (x, θ)


тельности i(θ1 ) ³ i (θ2 ).
8. Принцип минимума потерь от использования оценки и проблемной ориентации π8. Выбирается оценка, дающая меньшие
по
тери, если вместо истинного значения θ принимается θ. Показателем качества могут быть абсолютные или отнесенные к наилучшей
оценке значения средних потерь байесовского типа, различные по
R ( θ)


казатели качества решения r (θ) =
 , r (θ) ® min.
inf R (θ)
f
9. Принцип асимптотической определенности π9. Согласно этому принципу асимптотические (при n→∞) свойства оценок должны быть четко определенными, что обеспечивает метрологическую
определенность измерения характеристик. Асимптотическая определенность может сводиться, например, к асимптотической нормальности оценок, их несмещенности, эффективности и тому подобное.
10. Принцип инвариантности по наблюдениям
π10 или по изме
ряемой характеристике π11. Оценка θ называется инвариантной
по наблюдениям, если для любого взаимно однозначного отображе


ния f(X) имеет место равенство θ x = θ f x . Оценка θ называется инвариантной по измеряемой характеристике θ, если для произвольной однозначной функции f выражение f (θ) есть оценка для
f(θ) той же структуры, того же типа, что и оценка θ.

11. Принцип устойчивости и корректности π12. Оценка θ должна быть мало критичной к отклонениям условий ее нахождения от
номинальных (вида вероятностной модели, наличия помех и тому
подобное). Небольшие отклонения условий не должны приводить
к большим отклонениям значений оценок, ее точностных показателей. Показателем качества может быть абсолютное или относительное значение меры разброса смещений и дисперсий оценок при
переходе от одной модели к другой в заданном классе.
12. Принцип минимума необходимой
априорной информации

π13. Лучшей считается та оценка θ, которая при прочих равных условиях требует меньше априорных данных.
Из других принципов можно отметить принцип простоты реализации π14, принцип адаптируемости к априорным и исходным
данным π15, принцип транзитивности π16, заключающийся в неза-
( ) ( ( ))
117
висимости результатов оценивания от способа разбиения алгоритма на части, принцип самообучения и самоорганизации π17, принцип
универсальности π18, состоящий в том, что алгоритм оценки

θ оказывается пригодным для оценки различных характеристик
случайных элементов одного типа или одинаковых характеристик
разнотипных случайных элементов.
Все приведенные принципы взаимосвязаны, а иногда и противоречивы, стремление выполнить один принцип противоречит возможности выполнить другой. Кроме того, для выбранного алгоритма f выполнение некоторых свойств может оказаться принципиально невозможным.
§ 5.3. Точечные оценки вероятности по частоте,
математического ожидания и дисперсии
1. Оценка вероятности по частоте. Пусть неизвестный пара
метр θ есть p – неизвестная вероятность события A, а ее оценка θ –
- p* = n A
n

θ - p* = n A n – частота этого события по классической схеме случаев.
Пусть также n Ai – индикатор события A в этой схеме случаев. Распределение n Ai очевидно, таково (см. табл. 5.1)
n
Здесь p Ai = p A . Тогда p* =
(
)
å n Ai
n A i=1
=
n
n
2
=
n A1 + n A2 + ... + n An
n
(
)
=
sn
.
n
2
По определению M n Ai = å xi pi = 0 × q + 1× p = p, D n Ai = å xi2 pi - mn2
2
i=1
i=1
Ai
= 02 ×
) = å xi2 pi - mn2Ai = 02 × q + 12 × p - p2 = p - p3 = pq.
)
i=1
Отсюда
=
æ n n A ö÷ 1 n
æn ö
1 n
1
ç
M p* = M çç A ÷÷ = M ççå i ÷÷÷ = å M n Ai = på1 = pn = p.
èç n ÷ø
n i=1
n
çèi=1 n ÷ø n i=1
( )
(
)
æ n n A ö÷ 1 n
æn ö
1
p
1 n
1
ç
*
på1 = pn = p. Аналогично, D p = D ççç A ÷÷÷ = D ççå i ÷÷÷ = 2 å D n Ai = 2 npq =
è n ø
n
çèi=1 n ÷ø n i=1
n i=1
n
n
( )
(
118
Таблица 5.1
n Ai
0
pi
1 - p Ai
1
p Ai
)
n
1
pq
. Таким образом, M(p*)=p, то есть оценка вероятноn
сти по частоте не смещена.
D p*
pq
По неравенству Чебышева P p* - p ³ ε £
= 2 . Перейдя
2
ε
nε
pq
к противоположному событию, получим P p* - p < ε > 1 ,
nε2
å D(n Ai ) = n2 npq =
i=1
(
( )
)
(
(
)
)
P
т. е. P p* - p < ε ®1. Следовательно, оценка вероятности по чаpq
= 0,
стоте – состоятельная оценка. К тому же lim D p* = lim
n®¥
n®¥ n
таким образом, это асимптотически эффективная оценка.
Для доказательства эффективности оценки необходимо выяснить, имеет ли она по сравнению с другими оценками, которых
может быть достаточно много, наименьшую дисперсию или нет.
В некоторых случаях этот минимум хорошо известен; тогда, сравнив с ним дисперсию рассматриваемой оценки, можно ответить на
поставленный вопрос.
Так для случайной величины X, распределенной по нормальному закону с дисперсией D(X), нижняя граница для дисперсий разpq
. Так как D(p*) совпадает
личных несмещенных оценок равна
n
с минимальной оценкой, то частота p*, будучи несмещенной оценкой, является также и эффективной оценкой вероятности p.
2. Оценка математического ожидания. Пусть результаты наблюдений x1, x2,…, xn случайной величины X независимы и
M(x1) = M(x2) = … = M(xn) = M(X) = mX. Дисперсии всех наблюде-
( )
ний должны быть конечны и D (xi ) = DX , i = 1,n. В этих условиях в
качестве точечной оценки θ=M(X) используется среднее арифмети
1 n
*
= å xi . Найдем математическое результатов наблюдений θ = mX
n i=1
æ 1 n ö÷ 1 n
ç
*
= M çç å xi ÷÷÷ = å M (xi
ческое ожидание и дисперсию этой оценки: M mX
çè n
n i=1
i=1 ø÷
æ 1 n ö÷ 1 n
1
çç
M ç å xi ÷÷÷ = å M (xi ) = × mX × n = mX . Таким образом, легко доказывается,
çè n
n i=1
n
i=1 ÷ø
( )
что mx* – несмещенная оценка mX. Дисперсия оценки также пракDD
1 1n n
11
* *
. .
тически очевидна: D D
mX
mX= =2 å
D (Dx(x
Dn =
n =X X
) =) =2 D
2å i i
2X X
nn
n ni=1i=1
nn
(( ))
119
Воспользуемся
(
)
*
³ε £
P mX - mX
опять
D
неравенством
( ) = DX
*
mX
2
ε
2
nε
(
или
)
Чебышева,
(
получим
)
D
*
< ε > 1- X .
P mX - mX
nε2
*
Очевидно, что lim P mX - mX
< ε = 1, т. е. оценка mX средним
n®¥
арифметическим – состоятельная оценка.
Эффективность или неэффективность оценки зависит от вида
распределения случайной величины X. Если X – нормальная случайная величина, то эта оценка будет эффективной. Для других
распределений этого может и не быть. Асимптотическую эффективD
*
= lim X = 0.
ность, однако, можно легко установить: lim D mX
n®¥
n®¥ n
3. Оценка дисперсии. Естественной оценкой дисперсии случайной величины X служит ее выборочная дисперсия, т. е. если θ=D(X),

1 n
*
* 2
, так как mX*=mX. Представим формулу
то θ = DX
= å xi - mX
n i=1
( )
(
)
для DX* в несколько ином виде через центрированные величины:
*
DX
=
-
2
1 n
1 n é
*
x
m
m
+
m
=
å i X X X n å êë(xi - mX )- mX* - mX
n i=1
i=1
2
2
æ
n æ 
n
n 
ö
æ
ö2 ÷ö
1
1ç æ  ö
= åçççxi - m* ÷÷÷ = çççåçççxi ÷÷÷ - 2m* å xi + nççm* ÷÷÷ ÷÷÷,
n i=1èç
n ççi=1èç ÷ø
èç X ø÷ ÷÷ø
X ÷ø
X i=1
è
(
2m*
X
n
n
å
i=1
)

xi
=-
2m*
X
n
(
)ùúû
2
=
но
æ n
ö÷
1 n
* çç 1
2
x
m
m
x
=
(
)
 ç å i
å i X
å mX ÷÷÷ =
n
i=1
X èç n i=1
n i=1
ø÷
æ
ö÷
çç
÷÷
çç
÷÷
ç
æ * ö÷2
nmX ÷÷÷
* çç *
ççm  ÷ .
2
= -2m  çmX =
÷
n ÷÷÷
èç X ø÷÷
X çç 


çç
÷
÷÷
çç
m*
÷÷
çè
ø
X
*
Тогда DX
=
2
2
1 n æç  ö÷ æç * ö÷
÷
x
m
÷
ç
å i ÷ ç  . Математическое ожидание этого
n i=1ççè ÷ø èç X ÷ø÷
выражения легко находится
120
M
( )
*
DX
éæ  ö2 ù
éæ
ö2 ùú 1 n
1 n
ê
ú
ê
*
= å M êçççxi ÷÷÷ ú - M êççm* ÷÷÷ ú = å D (xi ) - D mX
=
çè X ÷ø ú n
n i=1 êèç ÷ø ú
ê
i=1
êë
úû
ë
û
D
1
n -1
= DX n - X =
DX .
n
n
n
( )
Таким образом, оценка DX* – смещенная оценка. Смещение
D
здесь равно - X и при n→∞ стремится к нулю. Чтобы получить
n
n
. В резульнесмещенную оценку достаточно DX* умножить на
n -1
n
1
n
* 2
*
xi - mX
DX
тате получим D X =
=
– несмещенную
å
n -1 i=1
n -1
(
)
оценку дисперсии.
Для оценки состоятельности надо найти D(DX*). Это сделать до-
æ1ö
*
= O çç ÷÷÷ и выражается
вольно трудно. Можно показать, что D DX
çè n ø
( )
через центральные моменты вплоть до четвертого порядка. Приведем без доказательства формулы дисперсий смещенной и несмещенной оценок:
D
( )
*
DX
(
)
2
µ4 - µ22 2 µ4 - 2µ2
µ4 - 3µ22
=
+
,
n
n2
n3
2
n(µ4 - µ2 )
D ( D X ) =
(n -1)2
(
2 µ4 - 2µ22
(n -1)2
) + µ4 - 3µ22 .
2
n(n -1)
Тогда, опять используя неравенство Чебышева, будем иметь
(
)
*
- DX ³ ε £
P DX
( ) = Oæç 1 ö÷
*
D DX
2
ε
çç ÷÷ и
èn ø
(
)
*
lim P DX
- DX < ε = 1, т. е.
n®¥
оценка DX* – состоятельная оценка, так же как и D X .
( )
*
=
Если распределение нормально, то μ4=3μ22 и тогда D DX
D
2
2µ2 (n -1) 2DX
(n -1)
*
DX
= 2 2
=
,
2
( )
2
2DX
=
. Следовательно, обе
а D ( D X )
n -1
n
n
оценки смещенная и несмещенная асимптотически эффективны.
121
2µ22 (n -1)
n2
Имея оценку дисперсии, можно получить еще один интересный результат для нормального распределения. Видно, что
2(n -1) 2n 2
2
*
D DX
< D ( D X ), так как
< 2= <
. Таким образом,
2
n n -1
n
n
смещенная оценка дисперсии точнее несмещенной.
( )
§ 5.4. Методы получения точечных оценок
1. Метод моментов. Пусть имеется выборка x1, x2,…, xn из
генеральной совокупности с теоретической функцией распределения F(x), принадлежащей k-параметрическому семейству
F (x, θ1,θ2 ,...,θk ) с неизвестными параметрами θ1, θ2,…, θk, которые
нужно оценить. Так как вид F(x) известен, можно вычислить первые k теоретических моментов распределения, ибо формулы для
этих моментов тоже известны. Эти моменты будут зависеть и от k
неизвестных параметров θ1, θ2,…, θk:
ì
ï
n1 = M ( X ) = n1 (θ1,θ2 ,...,θk ),
ï
ï
ï
ï
n2 = M X2 = n2 (θ1,θ2 ,...,θk ),
ï
ï
í
ï
................................................
ï
ï
ï
ï
n k = M X k = n k (θ1,θ2 ,...,θk ). ï
ï
ï
î
( )
( )
(5.4.1)
Суть метода моментов заключается в том, что так как выборочные моменты являются состоятельными оценками теоретических
моментов, можно в системе (5.4.1) теоретические моменты n1, n2,…,
nk заменить выборочными n1*,n2*,…, nk*, а затем решить систему
(5.4.1) относительно
 
 неизвестных параметров θ1, θ2,…, θk, т. е. найти оценки θ1, θ2 ,..., θk . Вместо системы (5.4.1) реально приходиться
решать систему
 

ì
ï
n1* = n1 (θ1,θ2 ,...,θk ),
ï
ï
ï
 

ï
ï
n*2 = n2 (θ1,θ2 ,...,θk ),
ï
í
ï
................................................
ï
ï
ï
 

ï
ï
n*k = n k (θ1,θ2 ,...,θk ).
(5.4.2)
ï
ï
î
 

Часто получается, что найденные оценки θ1,θ2 ,...,θk будут состоятельными оценками θ1, θ2,…, θk. Справедлива следующая тео122
рема об асимптотической нормальности оценок, полученных методом моментов.
Теорема 5.1. При некоторых условиях, наложенных на семейство F (x, θ1,θ2 ,...,θk ) совместное распределение случайных вели


чин n (θ1 - θ1 ), n (θ2 - θ2 ) ,…, n (θk - θk ), при n→∞ сходится к
k-мерному нормальному закону с нулевыми средними и ковариационной матрицей, зависящей от теоретических моментов n1, n2,…,
nk и матрицы
¶n i
.
¶θ j
Практически моментами выше четвертого пользоваться нежелательно, так как точность их вычисления резко падает с увеличением порядка моментов. В методе моментов не обязательно использовать первые k моментов. Иногда в этом методе привлекают более
или менее произвольные функции от элементов выборки.
Оценки, полученные методом моментов, имеют эффективность
по Крамеру* – Рао, существенно меньшую единицы, и могут быть
смещенными. Но они часто используются из-за простоты получения, иногда в качестве начального приближения.
2. Метод максимального правдоподобия. Один из важнейших
методов для отыскания оценок параметров по данным выборки
был предложен Р. Фишером и носит название метода наибольшего (или максимального) правдоподобия. Пусть имеется выборка
объема n: x1, x2,…, xn из генеральной совокупности с теоретической функцией распределения F(x). Если случайная величина X,
представленная этой выборкой, дискретна, то ее ряд распределения P ( X = xi ), i = 1,n. Пусть распределение имеет k неизвестных
параметров θ1, θ2,…, θk, которые нужно оценить. Тогда функция
L=L(x1, x2,…xn, θ1, θ2,…, θk)=P(x1, θ1, θ2,…, θk)· P(x2, θ1, θ2,…, θk)·…
P(xn, θ1, θ2,…, θk) называется функцией правдоподобия. Ее значение – это вероятность произведения событий, X=x1,…, X=xn, или,
иначе, совместная вероятность появления чисел x1, x2,…, xn, т. е.
вероятность появления данной конкретной выборки. Чем больше
значение L, тем правдоподобнее или более вероятно появление в результате наблюдений чисел x1, x2,…, xn. Отсюда и название функции – функция правдоподобия результатов наблюдений. Если наблюдаемая случайная величина X непрерывна, то функция прав* Карл
Харальд Крамер (1893-1985) – шведский математик.
123
доподобия имеет аналогичный вид, с той лишь разницей, что вместо вероятностей P(xi, θ1, θ2,…, θk) фигурируют значения функции
плотности f(xi, θ1, θ2,…, θk).
Метод нахождения оценок неизвестных параметров, основанный на требовании максимизации функции правдоподобия, называется методом максимального правдоподобия, а найденные этим
методом оценки – оценками максимального правдоподобия.
Функции L или lnL, рассматриваемые как функции параметров
T
θ = (θ1, θ2 ,..., θk ) , достигают максимума при одном и том же значении параметра θ, так как lnL – монотонно возрастающая функция.
Поэтому вместо отыскания максимума функции L находят (что
удобнее) максимум функции lnL. Функция lnL называется логарифмической функцией правдоподобия.


По этому методу за оценку
параметров θ1 = θ1 (x1, x2 ,..., xn ),



θ2 = θ2 (x1, x2 ,..., xn ) ,…, θk = θk (x1, x2 ,..., xn ) принимаются значения аргументов функции L или lnL, при которых вероятность получения данных значений выборки максимальна. Очевидно, что для
¶L
¶ ln L
этого необходимо
= 0 или
= 0. Решая эту в общем случае
¶θ
¶θ
систему
 
нелинейных уравнений, находят значения параметров
θ1,θ2 ,...,θk (см. рис. 5.1).
Пример 1. Найдем оценку максимального правдоподобия для
вероятности успеха в схеме Бернулли. Можно вероятность p рассматривать как параметр, входящий в распределение дискретной двузначной случайной величины X, принимающей только
два значения 1 и 0 в зависимости от того, появится ли рассматриваемое событие в текущем испытании или не появится. Тогда
P(X=m)=pm(1–p)n–m, где n – количество испытаний, а m – число успехов в схеме Бернулли. Если m не фиксировать заранее, то
L


Рис. 5.1. Оценка параметра θ на графике функции правдоподобия
124
n
1-zk
L = Õ pzk (1 - p)
i=1
, где z =0, 1 – индикатор появления рассмаk
триваемого события, zk=1, если это событие появится в k-м испытании и zk=0, если не появится. Очевидно, что z1+z2+…+zn=m.
n
n æ
z
1 - zk ö÷ 1 n
¶ ln L
Тогда ln L = å éë zk ln p + (1 - zk )ln (1 - p)ùû и
= å ççç k  ÷ =  å zk p 1 - p ø÷÷ p k=1
1
¶p
k=1è
k=1
zk 1 - zk ö÷ 1 n
zk × n
n × zk
1 n
n
  ÷÷÷ =  å zk  å zk =  +
 = 0. Здесь
p 1 - p ø p k=1
1 - p k=1
p
1- p 1- p
zk =
1 n
å zk .
n k=1
1 n
m

Отсюда p = zk = å zk = .
n k=1
n
Пример 2. Рассмотрим случайную величину X, подчиненную закону Пуассона с неизвестным параметром λ. Произведя выборку, получим наблюденные значения x1, x2,…, xn. Величина X может принять любое из значений 0, 1, 2,… Так как
λ x e-λ
P( X = x) =
, x = 0,1,..., то функция правдоподобия имеет вид
x!
n
λ xk -λ λ x1 -λ λ x2 -λ
λ xn -λ
L(x1, x2 ,..., xn , λ ) = Õ
e =
e ×
e × ...×
e =
x1 !
x2 !
xn !
k=1 xk !
n
å xk
= e-nλ
λ k=1
x1 !× x2 !× ...× xn !
Найдем производную функции lnL по λ:
n
n
ln L(x1, x2 ,..., x n , λ ) = å xk ln λ - nλ - ln Õ xk !
k=1
k=1
n
n
 1
¶ ln L 1
=  å x k - n = 0, λ = å xk .
¶λ
n k=1
λ k=1
В заключение необходимо убедиться, что найденный стандартным методом математического анализа экстремум – максимум.
Представляем читателям сделать это самостоятельно.
Пример 3. Пусть величины xi , i = 1,n имеют нормальное распределение. А неизвестных параметров два – матожидание и дисперсия. В этом случае
125
é x -m 2 ù
ê (
X) ú
exp ê- k
ú=
2DX
ê
ú
k=1 2pDX
ë
û
n
é n x -m 2 ù
ö
( k
1
÷÷
ê
X) ú
÷÷ exp ê- å
ú,
2DX
ê k=1
ú
2pDX ÷ø
ë
û
n
L(x1, x2 ,..., xn ,mX , DX ) = Õ
æ
ç
= çç
çè
1
n
1 n
(ln 2p + ln DX ) (xk - mX )2 .
å
2
2DX k=1


Для оценок mX и DX получим систему двух уравнений.
ïìï
¶ ln L
1 n

ïï
=  å (xk - mX ) = 0,
¶mX DX k=1
ïï
í
ïï ¶ ln L
n
1 n
 2
= -  +  2 å (xk - mX ) = 0.
ïïï
2DX 2DX k=1
ïî ¶DX
1 n

Эта система решается аналитически. Из неё получаем mX = å xk ,
n k=1

1 n
1 n

2
mX = å xk , а DX = å (xk - mX ) .
n k=1
n k=1
а ln L = -
Метод максимального правдоподобия обладает важными достоинствами: он всегда приводит к состоятельным (хотя иногда и смещенным) оценкам, распределенным асимптотически нормально,
имеющим наименьшую возможную дисперсию по сравнению с другими, также асимптотически нормальными оценками.
Однако далеко не для всех практических задач метод максимального правдоподобия дает удовлетворительные результаты.
Дело в том, что предположение о принадлежности неизвестной
плотности распределения определенному параметрическому семейству (нормальному, показательному или какому-то другому) на
практике выполняется лишь приближенно. Метод, который принимает это предложение безоговорочно, может привести к результатам, не имеющим даже приблизительно правильного характера.
Так может происходить и при определенных, хоть и небольших, отклонениях от начальных предположений.
§ 5.5. Сущность интервального оценивания
Поскольку все точечные оценки основаны на данных выборки,
следовательно, они являются случайными величинами. В преды126
Iβ
m*X - ε
mX m*X
m*X + ε
Рис. 5.2. Доверительный интервал для параметра mX
дущих параграфах были оценены их математические ожидания и
дисперсии. Интервальные оценки учитывают факт случайности точечных оценок и дают представление об их точности и надежности.
Рассмотрим интервальную оценку на примере математического
ожидания.
Найдем ε из равенства P(|mX*–mX|<ε)=β, где β=0,9; 0,95; 0,99; т. е.
событие |mX*–mX|<ε практически достоверное. Снимем модуль под
знаком вероятности, получим P(mX*–ε<mX<mX*+ε)=β. Это означает, что mX с вероятностью β попадает в интервал Iβ=(mX*–ε, mX*+ε).
В данном случае, поскольку mX не случайно, а mX* случайно, то Iβ
тоже случайная величина. Поэтому правильнее говорить, что с вероятностью β случайный интервал Iβ длиной 2ε накрывает точку mX.
Вероятность β называется доверительной вероятностью, а Iβ –
доверительным интервалом. Границы доверительного интервала
могут быть вычислены точно и приближенно.
§ 5.6. Приближенные и точные доверительные интервалы
для параметров распределений
1. Приближенное оценивание – это оценивание длин доверительных интервалов – базируется на центральной предельной теореме. Пусть произведено n независимых опытов над случайной величиной X, характеристики которой – математическое ожидание
и дисперсия – неизвестны. Для этих параметров получены оценки
*
mX
=
1 n
1 n
2
*
,
x
D
=
å k X n å (xk - mX ) . Вид распределения случайn k=1
k=1
ной величины X может быть произвольным. Требуется построить
доверительный интервал Iβ, соответствующий доверительной вероятности β, для математического ожидания mX.
Оценка математического ожидания – величина mX* представляет собой сумму n независимых одинаково распределенных случай127
ных величин xi, и, согласно центральной предельной теореме, при
n→∞ ее закон распределения превратится в нормальный.
Итак, если Y =
æ y - mY ö÷
1 n
÷÷, где Ф –
xi , то P (Y < y) = F (y) ® Ôççç
å
n i=1
èç σY ø÷
функция Лапласа. Если использовать стандартизированное среднее
æ1 n
ö÷
çç
xi - mX
÷÷÷
å
ç
çn
æ Y - mY
ö
÷
ç
÷
÷
=
1
i
ç
арифметическое, то P çç
< y÷÷ = P çç
< x÷÷ » Ô(x), по÷ø
÷÷
DX
èç σY
ççç
÷÷÷
n
ç
÷ø
çè
скольку, как было показано в предыдущих параграфах, mY=mX и
D
DY = X .
n
D
Пусть DX нам известно, тогда известно и DY = X . Найдем εβ из
n
n
1
*
равенства P(|mX*–mX|<εβ)=β. Так как mX
= å xi , то M(mX*)=mX
n i=1
D
*
= X . Распишем исходное равенство для определения
и D mX
n
( )
длины доверительного интервала подробнее:
æ
ö÷
çç m
*
÷
+
ε
m
/
/
X
β
X ÷÷
*
*
P mX
- εβ < mX < mX
+ εβ = β » Φ ççç
÷÷ çç
÷÷
DX
÷ø
çè
n
æ
ö÷
æ
æ
ö
÷÷ö
çç m
çç ε
çç -ε ÷÷
*
- εβ - m
/X
/ X ÷÷÷
÷÷
β
β ÷÷
ç
ç
ç
-Φ çç
÷÷ » Φ çç
÷ - Φ çç
÷=
çç
çç DX ÷÷÷
çç DX ÷÷÷
÷
DX
÷
÷
÷
çè
ç
ç
ø
è
è
n
nø
n ÷ø
æ
ö÷ é
æ
ö÷ù
æ
ö÷
çç ε
çç ε
çç ε
÷÷ êê
÷÷úú
÷
β
β
β
ç
ç
ç
÷÷ - ê1 - Φ ç
÷÷ú = 2Φ ç
÷÷÷ -1.
= Φ çç
ç
ç
çç DX ÷÷÷ ê
çç DX ÷÷÷ú
çç DX ÷÷÷
çè
çè
çè
øû
n ÷ø êë
n ÷÷ú
n ÷ø
(
)
Здесь, чтобы привести выражение в правой части к одной функции Лапласа, были сокращены mX и mX*. Так как mX≠mX*, этим допущена еще одна неточность, помимо использования центральной
предельной теоремы.
128
(
*
Итак, окончательно P mX
- mX < εβ
)
æ
çç
ç εβ
» 2Ôççç
çç DX
çç
è n
ö÷
÷÷
÷÷
÷÷ -1. Прирав÷÷
÷÷
ø
нивая правую часть найденного равенства β, найдем приближен-
æ
çç
ç εβ
ные границы доверительного интервала 2Ôççç
çç DX
çç
è n
DX -1 æç1 + β ö÷
1
εβ =
Ô ç
÷÷, Ô(x) =
ç
è 2 ø
n
2p
x
ò
-
e
t2
2 dt.
ö÷
÷÷
÷÷
÷÷ -1 = β. Тогда
÷÷
÷
ø÷
Отсюда
Iβ=(mX*–εβ,
-¥
mX*+εβ).
На практике, конечно, очень часто DX не известна, поэтому ее
приходиться заменять смещенной или несмещенной оценкой дисперсии. Это еще более «размывает» границы приближенного доверительного интервала для математического ожидания.
Построим теперь приближенный доверительный интервал для
дисперсии. Все ранее приведенные предположения о распределении случайной величины X остаются в силе. Построим интервал для

1 n
* 2
несмещенной оценки дисперсии, т. е. для DX =
xi - mX
.
å
n -1 i=1
(
)
Величины, стоящие под знаком суммы, уже не могут считаться независимыми, так как в каждое слагаемое входит mX*, зависящее от
всех xi. Поэтому непосредственно центральную предельную теорему применить нельзя. Однако можно показать, что при n→∞ распределение
n
2
å(xi - mX* )
тоже стремится к нормальному. Тогда
i=1


2
2
имеем M ( DX ) = DX , D(DX ) =
DX
(см. § 5.3). Далее поступим
n -1
как в случае с математическим ожиданием:
æ
ö
æ
ö


ççç DX + εβ - DX ÷÷÷
ççç DX - εβ - DX ÷÷÷
P ( DX - εβ < DX < DX + εβ ) = β » Ôç
÷÷÷ - Ôçç
÷÷÷.
çç 2
2
ç
÷
÷
D
D
÷
èç
èç
n -1 X ø
n -1 X ø÷
129
æ
ö÷
çç
÷÷
çç
εβ

÷÷
Тогда P DX - DX < εβ » 2Ô çç
÷÷ -1 = β.
÷
çç
2
DX ÷÷÷
çç
è n -1
ø
æ1 + β ö÷
2
ç
εβ =
.
DX Ôç
çè 2 ÷÷ø
n -1
(
)
Отсюда
εβ =
Естественно, в тех случаях когда DX не известна вместо нее употребляется ее оценка. Это еще более снижает точность доверительно

го интервала. Наконец, если ε β найдено, то Iβ = ( DX - εβ , DX + εβ ).
2. Точное оценивание. Точный доверительный интервал для математического ожидания строится на основе распределения Стьюдента, а для дисперсии – на основе χ2-распределения. Для точного
нахождения длин доверительных интервалов совершенно необходимо заранее знать вид закона распределения случайной величины
X, тогда как для применения приближенных методов это не обязательно. Длина любого доверительного интервала находится из распределения каких-то статистик, а распределения этих статистик
выводятся на основе известных вероятностных законов.
Пусть выборка x1, x2,…, xn взята из нормальной генеральной совокупности с определенными математическим ожиданием и дисперсией, т. е. xi Î N (mX , DX ), i = 1,n. Рассмотрим две
вспомогательные статистики. По определению (см. § 2.1) χn2распределение с n степенями свободы есть сумма квадратов независимых случайных величин, каждая из которых имеет стандартное нормальное распределение, т. е. χn2=x12+x22+…+xn2,
xi Î N (0,1), i = 1,n. Рассмотрим формулу для смещенной оценки
*
дисперсии DX
=
да
xi - mX
DX
1 n
* 2
. Здесь xi Î N (mX , DX ), i = 1,n, тогxi - mX
å
n i=1
(
)
Î N (0,1) , но так как M(mX*)=mX, то и
Следовательно,
*
x1 - mX
DX
Î N (0,1).
æ x - m* ö÷2 æ x - m* ö÷2
æ x - m* ö÷2
çç 1
çç 2
ç
2
X÷
X÷
X÷
÷÷ + ç
÷÷ + ... + çç n
÷÷ = χn ,
çç
÷
÷
÷
ç
ç
D
D
D
è
è
è
X ø
X ø
X ø
*
æ x - m* ö÷2 D* n
DX
n
ç
X÷
но å çç i
имеет χ2÷÷ = X . Тогда статистика
çè DX ø÷
D
D
X
X
i=1
распределение с n–1 степенью свободы, так как на xi наложено одно
n
130
2
DX Ô
n -1
ограничение (связь) при вычислении mX*. Аналогично доказыва
DX (n -1)
ется, что статистика
имеет χ2-распределение с n–1 стеDX
пенью свободы.
z n
Таким же образом рассмотрим дробь Стьюдента t =
(см.
v
m* - mX
Î N (0,1),
§ 2.2). Здесь z∈N(0,1), а n∈χn2. Пусть z = X
DX
n
*
DX
n
. Тогда
а роль статистики n будет играть дробь n =
DX
*
m - mX
n× X
DX
*
n mX
- mX
z n
n
t=
=
=
, причем эта статистика
v
nD*
D*
(
)
X
X
DX
имеет распределение Стьюдента с n–1 степенью свободы. Анало-
(
*
n mX
- mX
гичным образом полученная статистика t =

DX
)
будет
распределена по закону Стьюдента с n–1 степенью свободы. Напишем вновь исходное равенство для длины доверительного интервала P(|mX*–mX|<εβ)=β и преобразуем его следующим образом:
æ *
ççç mX - mX
Pç

çç
DX
çè
æ *
çç mX - mX
P ççç

çç
DX
è
(
)
n
n
ö
εβ n ÷÷÷
<  ÷÷ = β или
DX ÷÷÷
ø
ö
æ
ö÷
εβ n ÷÷÷
εβ n
ç
<  ÷÷ = P çç t <  = tβ ÷÷÷ = P ( t < tβ ) = β,
çç
÷÷
DX ÷÷÷
DX
è
ø
ø
где случайная величина t имеет распределение Стьюдента с n–1
степенью свободы. Но
tβ
P ( t < tβ ) =
tβ
tβ
ò
sn-1 (t)dt = 2ò sn-1 (t)dt = β.
-tβ
0
Итак, 2ò sn-1 (t)dt = β.
0
131
α
2
α
β
2
χ2
χ2
1
2
Рис. 5.3. Доверительный интервал для дисперсии,
построенный на основе c2-распределения
Величину tβ можно найти обратным интерполированием по

DX
таблице распределения Стьюдента. Тогда εβ = tβ
, а сам интерn


æ
DX
DX ö÷÷
çç *
*
вал будет иметь вид Iβ = çmX - tβ
, mX + tβ
÷.
ç
n
n ø÷÷
èç
Построим, наконец, точный доверительный интервал для
дисперсии при тех же предположениях относительно выборки, что и в предыдущем случае. Так как χ2-распределение несимметрично, то условимся интервал, в которой попадает случайная величина с χ2-распределением, с заданной вероятностью β, выбирать так, чтобы с левого и правого конца кривой
плотности вероятности выхода случайной величины за точки
α 1- β
=
χ12 и χ22 были одинаковы и равны
(см. рис. 5.3). Тогда
2
2

æ
ö÷
(n -1) DX
< χ22 ÷÷ = 1 - P χ2 < χ12 - P χ2 < χ22 = β. ПереворачиP çççχ12 <
çè
D
ø÷÷
X
(
) (
)
вая неравенство внутри вероятности, окончательно будем иметь


æ(n -1) D
(n -1) DX ö÷÷
çç
X
Pç
< DX <
÷÷ = β. Величины χ21 и χ22 находят по
÷ø
çè
χ22
χ12
α 1+β
,
таблицам χ2-распределения из равенств P χ2 > χ12 = 1 - =
2
2
α 1- β
P χ2 > χ22 = =
.
2
2
(
(
132
)
)
§ 5.7. Лабораторная работа № 4.
Оценивание параметров вероятностных распределений
в пакете Statgraphics
При построении оценок параметров распределений к ним предъявляются различные требования, такие как: несмещенность, эффективность, устойчивость к отклонениям от модели и тому подобное. Постоянно предлагаются новые концепции и подходы к оцениванию, а также конкретные алгоритмы их реализации. Свой вклад
в разнообразие оценок вносят и различные способы параметризации распределений. Все это порождает множество различных оценок одних и тех же параметров. Поэтому трудно ожидать, что в том
или ином статистическом пакете обязательно найдется процедура,
в точности реализующая требуемый алгоритм. Однако почти все
пакеты выводят значения наиболее распространенных оценок параметров стандартных вероятностных распределений.
В пакете Statgraphics большинство точечных оценок получается
по методу максимального правдоподобия, а интервальные оценки
для матожидания и дисперсии строятся точные. При этом в комментариях в StatAdvisor подчеркивается, что выборка должна
быть взята из нормальной генеральной совокупности, иначе доверительные интервалы не точны и должны быть скорректированы.
Получим точечные и интервальные оценки для распределения
Парето, описанного в § 4.6. Для этого в начале смоделируем выборку этого распределения объемом в 100 единиц. Моделирование выборок псевдослучайных чисел в пакете Statgraphics описано в лабораторной работе № 2 (см. § 2.7). Для этого необходимо в головном
меню пакета выбрать пункт Plot→Probability Distribution и в появившемся дополнительном меню отметить распределение № 37 –
Парето. После щелчка по кнопке ОК появится заставка распределения Парето. Функция плотности вероятности этого распределения
равна f (x) =
α+1
α æç x0 ö÷
, x > x0 . В пакете автоматически задается
çç ÷÷
x0 è x ø
x0=1, таким образом, для полного определения распределения необходимо выбрать параметр формы α.
Зададим не пять, как позволяет пакет, а одно распределение
с параметром формы (Shape), равным четырем. Откроется дополнительное меню Tables and Graphs. В нём выберем один пункт Random
Numbers. После щелчка по кнопке ОК будет автоматически смоделирована выборка псевдослучайных чисел, подчиненных распре133
делению Парето, объемом 100 единиц. Сохраним эту выборку с помощью пункта меню Save Results под именем Pareto.
Для получения точечных и интервальных оценок параметров
распределений в пакете Statgraphics выберем в головном меню
пункт Describe (Описание данных)→Numeric Data (Числовые
данные)→One-Variable Analysis (Анализ одной переменной). Появится заставка дополнительного меню анализа одной переменной,
в котором в окне Data необходимо указать имя выборки Pareto и
нажать кнопку ОК.
Опять появится меню Tables and Graphs (см. рис. 5.4), в котором
выберем пункты Analysis Summary (Сводка анализа), Summary
Statistics (Описание данных), Confidence Intervals (Доверительные
интервалы), Frequency Histogram (Гистограмма частот), Quantile Plot
(Функция квантилей) и Density Trace (График функции плотности).
После щелчка по кнопке ОК на экран будет выведена информация, представленная на рис. 5.6.
Следует заметить, что по умолчанию пакет выводит значения лишь
восьми общих статистик из девятнадцати. Если необходимы значе-
Рис. 5.4. Меню задания выводимых характеристик
распределения Парето
Рис. 5.5. Меню задания величины
доверительного интервала
134
135
Рис. 5.6. Характеристики распределения Парето
ния других точечных характеристик распределения, то их вывод на
экран можно задать, щелкнув правой кнопкой мыши в поле Summary
Statistics и выбрав пункт Pane Options дополнительного меню.
Аналогичный щелчок в поле Confidence Intervals и выбор пункта
Pane Options вызывает дополнительное меню (см. рис. 5.5), которое
задает величину доверительной вероятности β (Confidence Level).
По умолчанию задается значение 95%. Выберем β=99 и щелкнем
по кнопке ОК. В поле Confidence Intervals немедленно изменятся
границы точных доверительных интервалов для математического
ожидания и стандартного отклонения.
Оценка параметра формы распределения Парето по методу максимального правдоподобия в пакете не находится, по элементам
выборки этот параметр рассчитывается следующим образом:

α=
1
n
1
å ln xi - ln x0
n i=1
.
(5.7.1)
Косвенно его можно оценить по оценке математического ожи*
mX
α
1,28435

*
дания mX
=
x0 , α > 1, тогда, так как x0=1, то α =
=
*
α -1
1
,
28435 -1
mX -1
*
mX
1,28435

α=
=
» 4,52.
*
mX -1 1,28435 -1
Задание 1. См. задание 2 на стр. 140.
§ 5.8. Лабораторная работа № 4.
Оценивание параметров вероятностных распределений
в пакете Mathcad
В пакете Mathcad нет встроенных процедур оценок максимального правдоподобия и построения доверительных интервалов, поэтому их придется программировать самостоятельно. Кроме того,
в табл. 3.1 (см. § 3.2) нет распределения Парето, следовательно,
будем моделировать его по формуле (4.6.6) с использованием стандартных равномерных случайных чисел, получаемых по программам Urand или Runif (см. лабораторную работу №3, § 4.6).
Сначала, так же как в пакете Statgraphics, смоделируем выборку из генеральной совокупности с функцией распределения Парето
объемом 100 единиц. Это можно сделать следующим образом.
136
ORIGIN:=1
n:=100
x0:=1
1
c:=
alfa
alfa:=4
t:=runif(n,0,1)
i:=1..100
æ 1 öc
di := x0× çç ÷÷÷
èç t ø÷
i
Mx:=mean(d)
Mx=1.375
Dx:=var(d)
Dx=0.433
σx:= DX
σx =0.658
Получены точечные оценки матожидания и дисперсии. Оценка
матожидания практически совпадает с аналогичной оценкой в пакете Statgraphics, там Average=1.331. Дисперсия же значительно
больше. Это связано с моделирующей формулой (4.6.6); если элементы выборки, полученной в пакете Statgraphics, изменялись
примерно от единицы до трех, то в пакете Mathcad разброс элементов аналогичной выборки составляет от единицы до пяти, т. е. масштаб рассеивания значительно больше.
Оценим теперь параметр формы α распределения Парето по методу максимального правдоподобия. Для этого составим функцию
правдоподобия с учетом того, что x0=1:
n æ öα+1
n æ öα+1
1
1
.
= αn Õ ççç ÷÷÷
Получим L(x, α ) = Õ α ççç ÷÷÷
(5.8.1)
çè xi ÷ø
çè xi ÷ø
i=1
i=1
Логарифм функции правдоподобия
α+1
æ1ö
ln L(x, α ) = n ln α + å ln ççç ÷÷÷
çè x ÷ø
n
i
i=1
Тогда
¶ ln L(x, α )
¶α
=
n
= n ln α - (α + 1)å ln xi .
n n

- å ln xi = 0 и α =
α i=1
i=1
n
n
, т. е. получена
å ln xi
i=1
формула (5.7.1) с учетом x0=1. Вычислим в пакете Mathcad логарифм функции правдоподобия и построим ее график:
n
LnL(α):= n × ln(α)-(α +1)× å ln(di)
i=1
137
i:=1..100
α(k):=
k
k
åln(di)
i=1
α(10)=2.262 α(50)=3.697 α(100)=3.865
100
5
0
4
–100
(k) 3
LnL()
–200
2
–300
–400
1
–500
0
0
2
4

6
8
10
0
20
40
k
60
80
100
Построим, наконец, 99% доверительные интервалы для математического ожидания и дисперсии, точечные оценки которых
дают программы mean и var. Поскольку в пакете Mathcad имеются
встроенные функции для вычисления процентилей нормального
распределения, распределения Стьюдента и χ2-распределения, то
легко строятся по формулам § 5.6 любые доверительные интервалы. Построим сначала приближенные интервалы.
β:=0.99
æ1+ β
ö
t1:= qnorm ççç
, 0, 1÷÷÷
è 2
ø
t1=2.576
ε:=
Dx
× t1
n
Mxl:=Mx-ε Mxr:=Mx+ε
Mxl=1.205 Mxr=1.544
ε1:=
138
2
× Dx × t1
n -1
ε1=0.158
Dxl:=Dx-ε1 Dxr:=Dx+ε1
Dxl=0.274 Dxr=0.591
Итак, доверительные интервалы, базирующиеся на предположениях ЦПТ, вычислены. Допуская, что выборка взята из нормальной генеральной совокупности (а наша выборка имеет распределение Парето!), построим «точные» интервалы.
æ1+ β
t1:= qtççç
,
è 2
ö
n÷÷÷
ø
t1:=2.626
ε:=
Dx
× t1
n
ε=0.173
Mxl1:=Mx-ε Mxr1:=Mx+ε
Mxl1=1.202 Mxr1=1.548
æ1- β
ö
t1:= qchisq ççç
, n -1÷÷÷
è 2
ø
t1=66.510
æ1+ β
ö
t2:= qchisq ççç
, n -1÷÷÷
è 2
ø
t2=138.987
æ n -1ö÷
Dx11:= Dx × ççç
÷
è t2 ÷ø
æ n -1ö÷
Dxr1:= Dx × ççç
÷
è t1 ø÷
Dxl1=0.308 Dxr1=0.644
В заключение исследуем изменение длины точного доверительного интервала, например, для дисперсии в зависимости от объема
выборки.
1- β
1+ β
β2:=
2
2
k:=5..100
β1:=
tright ( k) := Dx ⋅
k−1
qchisq ( β2 , k − 1)
139
tleft ( k) := Dx ⋅
k−1
qchisq ( β1 , k − 1)
5
4
tletf(k)
tright(k) 3
Dx
2
1
0
0
20
30
k 40
50
60
Задание 2. Для лабораторной работы № 4 в пакете Statgraphics
или Mathcad по номеру фамилии студента в журнале преподавателя выбрать распределение из табл. 3.1 (если номер больше 16
выбирать номер минус 16) и получить точечные и интервальные
оценки (β=0.95) математического ожидания и дисперсии. В пакете
Mathcad кроме того по методу максимального правдоподобия оценить параметры выбранного распределения.
§ 5.9. Лабораторная работа № 4.
Оценивание параметров вероятностных распределений методами
моментов и максимального правдоподобия в пакете Matlab
Рассмотрим в качестве примера классическое двухпараметричеc-1
æ x öc
c æxö
ское распределение Вейбулла, для которого f (x) = çç ÷÷÷ expçç- ÷÷÷ , c > 0, a > 0
èç a ø
a çè a ø
æ x ö÷c
expçç- ÷÷ , c > 0, a > 0, a – параметр масштаба, c – параметр формы. Тогда
èç a ø
é æ2
æ1
ö
ö
æ1
öù
mx = aΓ çç + 1÷÷, Dx = a2 ê Γ çç + 1÷÷ - Γ2 çç + 1÷÷ú .
÷ø
÷
÷
çè c
ç
ç
ê èc
ø
èc
øúû
ë
æ xi öc
æ xi öc
1
÷
n
c-1 -çç ÷÷
- xi
æ c ön n æ x öc-1 -ççç ÷÷ æ c ö n
c æx ö
ç ÷
c
.
L(c, a) = Õ çç i ÷÷ e è a ø = çç ÷÷÷ Õ çç i ÷÷ e è a ø = çç c ÷÷÷ Õ xic-1e a
÷
÷
ç
ç
ç
ç
÷
è
ø
è
ø
è
ø
a
a
a
a
è
ø
a
i=1
i=1
i=1
n
140
c
Логарифм функции правдоподобия будет равен
n é
ù
1
ln L(c, a) = n[ln c - c ln a ] + å ê(c -1)ln xi - xic ú =
c
êë
úû
a
i=1
n
= n[ln c - c ln a ] + (c -1)å ln xi i=1
1
a
c
n
å xic .
i=1
В результате для определения параметров закона a и c получим
систему двух нелинейных уравнений следующего вида
ìï
n
æ 1
ö÷
é1
ù n
1 n c
ïï ¶ ln L
çç
c
ê
ú
n
ln
a
ln
x
ln
c
x
xi ln xi ÷÷÷ =
=
+
+
å
å
å
i ç
i
ïï
c
c
êë c
úû
÷ø
çè a
a i=1
ïï ¶c
i=1
i=1
ïï
n
ï n
1 n
í= - n ln a + å ln xi + c å xic (ln c - ln xi ) = 0,
ïï c
a i=1
i=1
ïï
ïï
nc
c n
¶ ln L
ïï
= - + c+1 å xic - 0.
(5.9.1)
ïï
a a
¶a
i=1
ïî
В пакете Matlab в тексте основной программы можно применять
встроенные подпрограммы-функции, вычисляющие отдельные части общего алгоритма. Эти функции набираются в текстовом редакторе пакета, вызываемым в основном меню: New/Function. Затем эти
функции сохраняются и при обращении к ним автоматически вызываются средствами пакета Matlab в текст основной программы.
Далее следует текст нескольких подпрограмм-функций, применяемых в данной лабораторной работе по оценке параметров распределения Вейбулла.
function funpar=Lpar(c,a)
%подпрограмма вычисляет функцию правдоподобия для оценки
%с помощью fsolve двух параметров распределения Вейбулла
global OBS
n=length(OBS);
d=1/(a^c);
f=(c/d)^n;
b=1;
for i=1:n;
s1=log(OBS(i))*c;
b1=exp(s1);
b2=b1/OBS(i);
141
b1=exp(-d*b1);
b=b*b1*b2;
end;
funpar=f*b;
end
function fun=DlnLwbl(x)
%функция составляет систему двух нелинейных алгебраических
%уравнений для оценки параметров распределения Вейбулла
%методом максимального правдоподобия
global OBS
n=length(OBS);
s1=0;
s2=0;
a=log(x(1));
s6=0;
for i=1:n;
s3=log(OBS(i));
s4=a-s3;
s5=exp(x(1)*s3);
s4=s4*s5;
s2=s2+s4;
s1=s1+s3;
s6=s6+s5;
end;
fun=[n/x(1)-n*log(x(2))+s1+(1/(x(2)^x(1)))*s2;...
-n*x(1)/x(2)+x(1)/(x(2)^(x(1)+1))*s6];
end
Далее следует текст основной программы.
>> clear
>> %Оценка параметров классического (двухпараметрического)
>> %распределения Вейбулла. Задание параметров распределения.
>>
>>
>>
>>
global OBS
a=6;
c=1.5;
m=100;
>> %Моделирование образца распределения Вейбулла по
>> %встроенным функциям пакета Matlab.
>> OBS=wblrnd(c,a,m,1);
>> mx=mean(OBS)
mx =
1.3672
142
>> Dx=var(OBS)
Dx =
0.0721
>> %Вычисление теоретических значений mx и Dx.
>> %Здесь mx=aГ(1/c+1), Dx=a^2[Г(2/c+1)-Г^2(1/c+1)].
>> mxt=a*gamma(1/c+1)
mxt =
5.4165
>> Dxt=(a^2)*(gamma(2/c+1)-(gamma(1/c+1))^2);
Dxt = 13.5249
>> for i=1:m
r(i)=Lpar(0.05*0.05*i);
end;
>> [x,y]=meshgrid(0.1:0.05:5.05);
>> plot3(x,y,r)
>> %Построена поверхность функции правдоподобия. Далее
>> %следует блок оценки параметров c и a методом макси>> %мального правдоподобия с помощью функции fsolve.
>> %Функция DlnLwbl вызывается функцией fsolve и должна
>> %иметь только один параметр х – вектор исправляемых
>> %значений. Используемые наблюдения массива OBS не могут
>> %меняться в DlnLwbl и поэтому описаны как global.
>> x0=[1;5];
>> [x,exiflag]=fsolve(@DlnLwbl,x0)
x =
0.2085
71.7802
exiflag =
0.0135
143
-0.1636
>> %Построение приближённых доверительных интервалов
>> %для mx и Dx по формулам нормальной теории.
>> bet=0.99;
>> b1=(1+bet)/2;
>> b2=(1-bet)/2;
>> t1=norminv(b1,0,1)
t1 = 2.5758
>> eps=sqrt(Dx/m)*t1
eps = 0.0692
>> mxl=mx-eps
mxl = 1.2980
>> mxr=mx+eps
mxr = 1.4364
>> %mxl – левый конец приближённого доверительного
>> %интервала, mxr – правый.
>> eps1=sqrt(2/(m-1))*Dx*t1
eps1 = 0.0264
>> Dxl=Dx-eps1
Dxl = 0.0457
>> Dxr=Dx+eps1
Dxr = 0.0985
>> %[Dxl, Dxr] – приближённый доверительный интервал
>> %для дисперсии.
>> t1=chi2inv(b1,m)
t1 = 140.1695
>> eps=sqrt(Dx/m)*t1
eps = 3.7635
>> mxl1=mx-eps
mxl1 = -2.3963
>> mxr1=mx+eps
mxr1 = 5.1307
>> %[mxl1, mxr1] – формально точные доверительные
>> %границы для математического ожидания.
>> t1=chi2inv(b2,m-1)
t1 = 66.5101
>> t2=chi2inv(b1,m-1)
t2 = 138.9868
>> Dxl1=Dx*(m-1)/t2
Dxl1 = 0.0513
>> Dxr1=Dx*(m-1)/t1
144
Dxr1 = 0.1073
>> %[Dxl1, Dxr1] – формально точные доверительные
>> %границы для дисперсии.
>> for i=5:m
j=i-4;
x(j)=i;
tr(j)=Dx*(i-1)/chi2inv(b1,i-1);
tl(j)=Dx*(i-1)/chi2inv(b2,i-1);
Disp(j)=Dx;
end;
>> plot(x’,[tl’ tr’ Disp’])
>> %Конец основного блока.
§ 5.10. Лабораторная работа № 4.
Оценивание параметров вероятностных распределений
методами моментов и максимального правдоподобия
в пакете Scilab
Рассмотрим геометрическое однопараметрическое распредеx
ление. У него P ( X = x) = p(1 - p) i , xi = 0,1,2,..., 0 < p < 1, q = 1 - p.
n
xi
Функция правдоподобия равна L( p) = Õ p(1 - p)
n
i=1
n
x
= pn Õ (1 - p) i ,
i=1
n
а её логарифм ln L( p) = n ln p + å xi ln (1 - p) = n ln p + ln (1 - p)å xi .
i=1
i=1
145
1+
Тогда
¶ ln L( p)
¶p
=
n
1 n

xi . Отсюда p =
å
p 1 - p i=1
n
n
n + å xi
i=1
1
n
1
å xi
n i=1
=
1
=
1+
n
1
å xi
n i=1
=
1
¶ ln L(p)
. В этом случае уравнение
= 0 решается аналити1 + mX
¶p
чески. Рассмотрим в программе кроме этой ещё возможность оценки p численно.
Далее следует текст основной программы и текст используемой
подпрограммы-функции.
-->clear
-->global OBS
-->exec(‘C:\Users\Сергей\Documents\labrabS\
DLgeom.sci’)
-->function fgeom=DLgeom(x)
146
--> //Функция составляет линейное уравнение для параметра р
--> //по методу максимального правдоподобия.
-->
global OBS
-->
n=length(OBS)
-->
a=0;
-->
for i=1:n
-->
a=a+OBS(i);
-->
end;
-->
fgeom=[n/x(1)-a/(1-x(1))];
-->endfunction
-->m=100;
-->p=0.65;
-->//получение выборки геометрического распределения
-->//с параметрами p и m.
-->OBS=grand(m,1,"geom",p);
-->mx=mean(OBS)
mx =
1.8
-->Dx=variance(OBS)
Dx =
1.2323232
-->//вычисление теоретических значений mx и Dx.
-->q=1-p;
-->mxteor=q/p
mxteor =
0.5384615
-->Dxteor=q/p^2
1
.
1 + mX
Dxteor =
0.8284024
-->sum1=0;
-->for i=1:m
-->sum1=sum1+OBS(i);
-->end;
-->p1=(0.001:0.05:1)’;
-->LnL=m*log(p1)+sum1*log(1-p1);
-->for i=1:m
-->a(i)=0;
-->for j=1:i
-->a(i)=a(i)+OBS(j);
-->end;
-->graf(i)=1/(1+a(i)/i);
-->end;
-->subplot(1,2,1);
-->xtitle(‘График функции
правдоподобия’,’p’,’LnL(p)’);
-->plot(p1,LnL)
-->subplot(1,2,2);
-->xtitle(‘График зависимости оценки р от длины
выборки’,’n’,’p(n)’);
-->plot(graf)
-->//оценки параметра р по ММП: теоретическая и с помощью
-->//функции fsolve.
147
pfs
148
-->pmmp=1/(1+sum1/m)
pmmp =
0.3571429
-->x0(1)=0.6;
-->pfs=fsolve(x0,DLgeom)
=
0.3571429
6. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ.
КРИТЕРИИ СОГЛАСИЯ
§ 6.1. Понятие статистической гипотезы.
Основные этапы проверки гипотез
Во многих случаях результаты наблюдений используются для
проверки предположений относительно тех или иных свойств распределений. Такие задачи очень часты, например, они возникают
при сравнении различных технологических процессов и методов.
Рассмотрение подобных задач в строгой математической постановке приводит к понятию статистической гипотезы.
Под статистической гипотезой понимают всякое предположение о генеральной совокупности (о распределении вероятностей),
проверяемое по результатам наблюдений. Для проверки естественнонаучных гипотез часто применяется такой принцип: гипотезу
отвергают, если происходит то, что при ее справедливости происходить не должно. Проверка статистических гипотез происходит
также, только место невозможных событий занимают события
практически невозможные. Причина этого проста: пригодных для
проверки невозможных событий, как правило, просто нет.
Статистическая гипотеза называется простой, если она полностью
задает распределение вероятностей. Сложная гипотеза указывает не
одно распределение, а некоторое множество распределений. Например, простая гипотеза о том, что случайная величина X распределена по стандартному нормальному закону, т. е. X∈N(0,1), немедленно
становится сложной, если mX≠0 или DX≠1. В задачах практики часто
бывает известен вид закона распределения X и надо проверить лишь
предположения о значениях параметров данного распределения.
Если в гипотезе речь идет о соответствии числовых параметров
данного распределения какому-то конкретному значению, то такая
гипотеза называется параметрической.
Проверяемая гипотеза называется нулевой гипотезой и обозначается чаще всего H0. Вместе с ней рассматривается одна из альтернативных или конкурирующих гипотез, обозначаемых H1. Правило, по которому принимается решение о нулевой гипотезе, называется критерием. Все решения принимаются на основе выборки,
следовательно, на основе какой-нибудь статистики. Эта статистика
называется статистикой z критерия.
Выберем уровень вероятности α, α>0. Условимся считать событие практически невозможным, если его вероятность меньше α.
149
Когда речь идет о проверке гипотезы, число α называют уровнем
значимости. Принцип проверки гипотез очень прост. В соответствии с этим принципом маловероятные события считаются невозможными, а имеющие большую вероятность – достоверными.
Пусть W – множество значений статистики z, а ω – такое множество ω⊂W, что при верной гипотезе H0
(
P zÎ ωH
0
) = α. (6.1.1)
Пусть, наконец, zв – выборочное значение статистики z. Тогда
критерий формулируется следующим образом: гипотеза H0 отклоняется при zв∈ω и принимается, если zв∈W\ω. Множество ω всех
значений статистики z, при которых гипотеза H0 отклоняется,
называется критической областью; область W\ω называется областью принятия решения. Границей между областями ω и W\ω является критическая точка zα (см. рис. 6.1). Уровень значимости α,
таким образом, задает размеры критической области. Кроме того,
эти размеры зависят еще и от формулировки альтернативной гипотезы. Критерий, основанный на использовании заранее заданного
уровня значимости, называется критерием значимости.
Возможны три вида расположения критической области ω в зависимости от нулевой и альтернативной гипотез, вида распределения статистики z критерия:
1. Правосторонняя критическая область (рис. 6.2), состоящая
из интервала (zпр,α, +∞), где точка zпр,α определяется из условия
P(z> zпр,α )=α и называется правосторонней критической точкой,
отвечающей уровню значимости α;
2. Левосторонняя критическая область (рис. 6.3), состоящая из
интервала (–∞, zлев,α), где точка zлев,α определяется из уравнения
P(z Î w \ ω H0 ) = 1 - α
P(z Î ω H0 ) = α
ω
W\ω
zα
Область принятия
верной гипотезы
Область отклонения
верной гипотезы
Рис. 6.1. Область принятия решения
и критическая область статистики z
150
f (z H0 )
f (z H0 )
α
W\ω
α
W\ω
ω
ω
zлев,α
zпр,α
Рис. 6.3. Левосторонняя
критическая область
Рис. 6.2. Правосторонняя
критическая область
P(z<zлев,α)=α и называется левосторонней критической точкой
с уровнем значимости α;
3. Двусторонняя критическая область (рис. 6.4), состоящая из
двух интервалов (–∞, zлев,α/2) и (zпр,α/2, +∞), где точки zлев,α/2 и zпр,α/2
æ
ö
æ
ö
определяются из условий P ççz < zëåâ,α ÷÷÷ = α 2 и P ççz > zïð,α ÷÷÷ = α 2 и
çè
ç
ø
è
2
2ø
называются двусторонними критическими точками. Все сказанное
иллюстрируют вышеприведенные рисунки.
f (z H0 )
α
2
α
2
W\ω
ω
z
ïð,
α
2
ω
z
ëåâ,
α
2
Рис. 6.4. Двусторонняя критическая область
151
Как правило, статистику z критерия выбирают таким образом,
чтобы ее распределения при нулевой гипотезе H0 и при альтернативной H1 как можно более различались. При таком выборе статистики z обычно некоторые значения z (например, слишком большие или слишком маленькие) нетипичны при гипотезе H0 и типичны при альтернативе H1.
Проверка параметрической статистической гипотезы при помощи критерия значимости включает в себя следующие этапы.
1. Формулируется проверяемая нулевая гипотеза H0 и альтернативная H1.
2. Назначается уровень значимости α.
3. Выбирается статистика z критерия значимости для проверки
гипотезы H0.
4. Определяется выборочное распределение статистики z при условии, что верна гипотеза H0, т. е. находится функция плотности
(
)
вероятности f z H .
0
5. В зависимости от формулировки альтернативной гипотезы H1
определяется критическая область ω, область принятия решения
W\ω и вид решения z>zпр,α, z<zлев,α или z<zлев,α/2 и z>zпр,α/2.
6. По имеющейся выборке наблюдений вычисляется выборочное значение статистики zв.
7. Принимается решение о гипотезе H0.
Этапы 1–7 обычно используют статистику, квантили которой
табулированы. Это либо нормальное, либо χ2-распределение, либо
распределение Стьюдента.
Однако принимаемое на основе критерия значимости решение
тоже может быть ошибочным. Пусть гипотеза H0 верна, но zв∈ω,
т. е. значение статистики критерия попало в критическую область
и, следовательно, H0 отвергается.
Ошибка, совершаемая при отклонении правильной гипотезы
H0, называется ошибкой первого рода. Вероятность ошибки перво-
(
го равна уровню значимости, т. е. P z Î ω
H
0
) = α. Может случится
и другая ситуация. Пусть гипотеза H0 не верна, но z∈W\ω, т. е. значение статистики критерия попало в область принятия решения.
Тогда будет принята неверная гипотеза. Ошибка, совершаемая
при принятии неверной гипотезы H0, когда верна H1, называется
(
)
ошибкой второго рода. Ее вероятность P z Î W \ ω
ВероятH = β.
152
1
Таблица 6.1
Решение, принимаемое
о гипотезе H0 по выборке
Нулевая гипотеза H0 –
верна
(
H0 отвергается,
H1 принимается
P zÎωH
0
H0 принимается, H1
отвергается
) = α – отвер- P(z Î W \ ω H ) = 1- α –
0
гается верная гипотеза. принимается верная
гипотеза
Ошибка первого рода
Гипотеза H0 неверна,
т. е. верна гипотеза H1
(
)
(
)
P z Î ω H = 1- β –
P zÎW \ωH =β –
отвергается неверная
гипотеза. Мощность
критерия
принимается неверная
гипотеза. Ошибка второго рода
1
1
ность 1–β=P1(ω) называется мощностью критерия. Чем выше мощность критерия, тем чаще отвергается неверная гипотеза. Все сказанное иллюстрирует табл. 6.1 и следующий рис. 6.5.
Обратим внимание на то, что в результате проверки нулевой гипотезы H0 возможно правильное решение двух видов:
1) принять гипотезу H0, когда в действительности она имеет ме-
(
zÎW \ω
сто; вероятность этого решения P
H
0
) = 1- α;
2) не принять гипотезу H0, когда и на самом деле гипотеза H0 не-
(
)
верна; вероятность этого решения P z Î ω
H = 1 - β.
1
f (z H0 )
1−β
1−α
β
W\ω
f (z H1 )
α
zпр,α
ω
z
Рис. 6.5. Геометрическая интерпретация уровня значимости
и мощности критерия при различных гипотезах
153
Пример. Из продукции автомата, обрабатывающего болты с номинальным значением контролируемого размера m0=40 мм, была
взята выборка болтов объемом n=36. Выборочное среднее контролируемого размера m*=40,2 мм. Результаты предыдущих измерений дают основание полагать, что действительные размеры болтов
образуют нормально распределенную совокупность с дисперсией
D=1 мм2. Можно ли по результатам проведенного выборочного исследования утверждать, что контролируемый размер в продукции
автомата не имеет положительного смещения по отношению к номинальному размеру? Принять α=0,01. Какова критическая область в данном случае?
Решаем задачу по приведенному выше плану из семи пунктов.
Сформулируем сначала основную и конкурирующую гипотезы:
H0: m0=40, H1: m0>40, так как речь идет о положительном смещении контролируемого размера. Уровень значимости задан в условии: α=0,01. В качестве статистики критерия используем оценку
математического ожидания z=m*. Так как исходная выборка нормальна, то m* Î N m0 , D n . Альтернативная гипотеза H1: m0>40
предполагает правосторонний критерий значимости, критическая
область определяется неравенством z>zпр,α, где P(z>zпр,α)=α (см.
рис. 6.2). Для того чтобы выбранная статистика критерия была
распределена стандартно нормально, ее необходимо центрировать
m* - m0 m* - m0
и нормировать. Тогда z =
=
Î N (0,1). КритичеD
1
n
36
скую точку порядка 1–α для нормального распределения u0,99, где
P(z>u0,99)=0,99, очень легко найти по таблицам: zпр,α=u0,99=2,326.
Найдем,
наконец,
выборочное
значение
статистики
40,2 - 40
0,2
=
= 1,2. Теперь можно принять решение о гиzâ =
0,1667
1
36
потезе H0: так как zв<zпр,α, т. е. zв=1,2<u0,99=2,326, гипотеза H0
должна быть принята. Это значит, что по результатам проведенной
выборки нельзя утверждать, что автомат при выпуске продукции
дает положительный сдвиг.
Найдем в заключение границу критической области, т. е. гра*
mêðèò
- 40
ницу m*крит. Так как
= 2,326; то m*крит=40,39 мм. Таким
1
36
образом, ω={m*>40,39}, а W\ω={m*≤40,39}.
(
154
)
§ 6.2. Критерий Неймана – Пирсона
Если имеется некоторая выборка x1, x2,…, xn, то с помощью заданных ошибок первого и второго рода α и β можно решать задачу о наилучшем критерии. Именно по заданному значению уровня значимости α ищется такой критерий, чтобы его мощность 1–β
была максимальна. Введем предварительно несколько обозначений и определений.
Размером α0 критерия называется максимальное значение вероятности ошибки первого рода при использовании данного критерия, т. е.
α0 = sup α ( F (x)).
F(x)ÎF
(6.2.1)
Равномерно наиболее мощным критерием заданного размера
α0 называется критерий, имеющий среди всех критериев размера
α0 наибольшую мощность 1–β=1–β(F(x)) при любом распределении
F(x)∈F. Равномерно наиболее мощные критерии существуют в крайне редких случаях, например, в случае простых гипотез H0 и H1.
Рассмотрим две простые гипотезы на выборке x1, x2,…, xn H0:
F(x)=F0(x) и H1: F(x)=F1(x), где F0(x) и F1(x) – известные функции
распределения. В этом случае равномерно наиболее мощный критерий называется критерием отношения правдоподобия и описывается следующим образом. Введем статистику
L (x , x ,..., xn )
Λ (x1, x2 ,..., xn ) = 1 1 2
,
L0 (x1, x2 ,..., xn )
(6.2.2)
где L0(x1, x2,…, xn)=f(x1)·f(x2)·…·f(xn) для непрерывной случайной величины X и L0(x1, x2,…, xn)=P(x1)·P(x2)·…·P(xn) для дискретной. Статистика Λ(x1, x2,…, xn) носит название отношения правдоподобия
и является отношением вероятностей (или плотностей распределения) получить выборку x1, x2,…, xn при условии справедливости гипотез H0 и H1. Естественно предположить, что чем больше отношение правдоподобия, тем большее предпочтение мы должны оказать
гипотезе H1. Об этом говориться в лемме Неймана – Пирсона.
Лемма 6.1 (Неймана – Пирсона). Среди всех критериев заданного
уровня значимости α, проверяющих две простые гипотезы H0 и H1,
критерий отношения правдоподобия является наиболее мощным.
При практической реализации критерия отношения правдоподобия обычно удобно пользоваться не отношением правдоподобия,
155
а его логарифмом. В этом случае мы должны принять гипотезу H0,
если Λ=Λ(x1, x2,…,xn)≤C=lnC1, и отвергнуть ее, т. е. принять H1,
если Λ>C. В соответствии с общим правилом уровень значимости
α и мощность 1–β критерия отношения правдоподобия в зависимости от критического значения C определяются по формулам:
ìï
α = α (Ñ) = P (Λ (x1, x2 ,..., xn ) > C H0 ) =
ïï
ïï
ï=
...ò f0 (x1 )× f0 ( x2 )× ...× f0 ( xn )dx1dx2 ...dxn ,
ò
ïï
ïï Λ(x1,x2 ,...,xn )>C
í
ïï
β = β(C) = P (Λ (x1, x2 ,..., xn > C) H1 ) =
ïï
ïï
...ò f1 (x1 )× f1 (x2 )× ...× f1 (xn )dx 1 dx2 ...dxn . (6.2.3)
ïï=
ò
ïï Λ(x1,x2 ,...,xn )>C
ïî
Пример. Пусть x1, x2,…, xn∈N(m, D) и H0: m=a0, H1: m=a1>a0.
Воспользуемся критерием Неймана – Пирсона. Критическая область ω для гипотезы H0 определена тогда, когда Λ(x1, x2,…, xn)>C.
2
В нашем случае f0 (xi ) =
1
2pD
(x -a )
- i 0
2D
e
2
, f1 (xi ) =
1 n
Тогда Λ (x1, x2 ,..., xn ) =
æ1
ö÷
çç
÷ e
çè
2pD ÷ø
следнее выражение: e
2
-a1 ) ùúû > 2D ln C,
n
å éêë(xi - a0 )
2
i=1
n
1 n
2
å (xi -a0 )
2 D i=1
ù
1 éê n
2
2
å (xi -a0 ) -(xi -a1 ) úú
2 D êëê i=1
ûú
2pD
(
n
> C,
å éêë(xi - a0 ) 2-(xi - a1 )
2ù
i=1
n
)
1 n
1 2D ln C *
xi = mX
=
å
n i=1
n
2(a0
2
2
1 2D ln C - n a0 - a1
=
= ϕ(C, D, a0 , a1 ) = C1. Итак, m*X>C1, а так как
2(a0 - a1 )
n
156
ú > 2D
û
2
- (xi - a1 ) ùú = å (xi2 - 2xi a0 + a02 - xi2 +
û i=1
(
)
.
> C. Упростим по-
+2xi a1 - a12 ) = 2å xi (a0 - a1 ) + n a02 - a12 > 2D ln C,
i=1
(x -a )
- i 1
2D
e
2
(xi -a1 )
æ1
ö÷n -2D iå
=1
çç
e
÷
çè
2pD ÷ø
n -
1
(
)
*
Î N ai , D , то можно по этому неравенству найти C1, зная α,
mX
n
например,
æ *
ö
æ
ö
t2
¥
ççç mX - a0 C1 - a0 ÷÷÷
ççç C1 - a0 ÷÷÷
1
2
÷÷ =
α = Pç
>
ò e dt = 1 - Ôççç D ÷÷÷÷.
çç
2p C -a
D
D ÷÷÷
çè
çè
1 0
n
n ø
n ø÷
D
n
Таким образом, по α находится C1 из решения уравнения
æ
ö
çç C - a0 ÷÷÷
÷÷ = α.
1 - Ôçç 1
çç D ÷÷
èç
n ø÷
Кроме того, можно найти и β из аналогичного равенства
æ
ö
æ
ö
çç m*
çç C - a ÷÷
C1 - a1 ÷÷÷
÷
X
1
1
ç
ç
÷
÷
β = Pç
£
÷ = Ôçç
÷.
çç D
D ÷÷÷
çç D ÷÷÷
èç
ø
è
n
n
n ø
§ 6.3. Проверка гипотез о числовых значениях параметров
нормального распределения
Обозначим через X случайную величину, имеющую нормальный закон распределения с параметрами mX и DX, т. е. X∈N(mX,
DX), причем числовые значения либо одного, либо обоих параметров неизвестны. Узнать, каково численное значение неизвестного
параметра, можно, обследовав всю генеральную совокупность, что
сделать, как правило, нельзя.
Обычно вместо этого проводят выборочные наблюдения, предполагая при этом, что они независимы и проводятся в одинаковых условиях. Тогда несмещенными оценками mX и DX являются
*
mX
=
2

1 n
1 n
*
xi и DX =
xi - mX
. Затем приступают к проå
å
n i=1
n -1 i=1
(
)
верке гипотез.
1. Проверка гипотезы о числовом значении математического
ожидания нормального распределения при известной дисперсии.
Нулевая гипотеза здесь H0: mX=a0, а альтернативная гипотеза
может быть сформулирована в трех видах 1) H1: mX=a1>a0, 2) H1:
mX=a1<a0, 3) H1: mX=a1≠a0.
157
Зададим уровень значимости критерия α, а так как DX известна,
то в качестве статистики критерия можно взять случайную величиæ
D ö
m - a0
ну z = X
. Так как mX Î N çça0 , X ÷÷÷, что было уже несколько
ç
è
n ø
DX
n
раз показано ранее, ибо xi∈N(a0, DX), то z∈N(0,1).
Выделим критическую область ω статистики z, при которой H0
отвергается. Размер и расположение критической области зависят
от формулировки альтернативной гипотезы. Рассмотрим 3-й случай H1: mX=a1≠a0, здесь целесообразно выбрать двусторонний критерий (см. рис. 6.6). Критическую область образуют два интервала
æ
ö÷ æ
ö÷
ç
÷ çç
÷
ççç-¥,z
α ÷÷ и ççz α ,+¥÷÷.
÷÷
ëåâ, ÷÷
ïð,
çè
ç
è
ø
2ø
2
æ
ö÷
ç
÷ α
Критические точки определяются из условий P ççz < z
α ÷÷ =
çç
ëåâ, ÷÷ 2
è
2ø
æ
÷÷ö α
çç
÷
и P çz > z α ÷ =
Так как z∈N(0,1), то критические точки – это
çç
ïð, ÷÷ 2
è
2ø
квантили нормального распределения (см. формулу (1.4.5)), то
(
( )
)
есть zëåâ,α = tα = Ô-1 α 2 , а zïð,α = t1-α = Ô-1 1 - α 2 . Далее
2
2
2
2
по выборке находим выборочное значение статистики критерия
zâ =
1 n
å xi . Если zв∈ω, гипотеза H0 отвергается с уровнем значиn i=1
f (z H0 )
α
2
ω
α
2
tα /2
W\ω
t1-α
ω
2
Рис. 6.6. Двусторонняя критическая область
для математического ожидания
158
мости α и принимается гипотеза H1. Если же zв∈W\ω, то гипотеза
H0 принимается.
2. Проверка гипотезы о числовом значении математического
ожидания нормального распределения при неизвестной дисперсии.
В этом случае отличие от предыдущих формул и предположений
будет касаться лишь статистики критерия z и ее распределения.
m - a0
Выберем в качестве статистики величину z = X
. Как было
DX
n
уже показано ранее (см. § 5.6, пункт. 2), эта статистика имеет распределение Стьюдента с n–1-й степенью свободы, т. е. z∈Sn–1(t). Все
остальные пункты проверки остаются без изменений. Например,
если выбрана альтернативная гипотеза 2-го вида H1: mX=a1<a0 (см.
рис. 6.7), критическая область будет левосторонней, ее образует
один интервал (–∞, zлев,α), где точка zлев,α есть квантиль распределения Стьюдента. Он определяется из условия P(z<zлев,α=tα,n–1)=α
tα,n-1
или
ò
s(t)dt = α, т. е. tα,n–1=S–1(α).
-¥
3. Проверка гипотезы о числовом значении дисперсии нормального распределения.
Итак, в этом случае известно, что X∈N(mX, D), но числовое значение дисперсии неизвестно. По выборке наблюдений x1, x2,…, xn
*
=
вычислим точечные оценки mX

1 n
1 n
*
xi и DX =
xi - mX
å
å
n i=1
n -1 i=1
(
2
)
и проверим гипотезу H0: DX=D0, где D0 – заранее заданное число.
В качестве статистики такой гипотезы следует взять случайную ве
DX (n -1)
. Ранее (см. § 5.6) было показано, что эта слуличину z =
D0
s n-1 (t)
α
ω
tα,n-1
W\ω
Рис. 6.7. Левосторонняя критическая область
для математического ожидания
159
kn-1 (z)
α
W\ω
zïð,1-α
ω z
Рис. 6.8. Правосторонняя критическая область
для дисперсии
чайная величина имеет χ2-распределение с n–1 степенью свободы,
т. е. z∈χn–12.
После выбора статистики z и определения ее распределения
все остальные вопросы проверки гипотезы носят технический
характер. Зададимся уровнем значимости α, сформулируем альтернативную гипотезу и перейдем к построению критической области и проверке H0. Рассмотрим правосторонний критерий, т. е.
альтернативная гипотеза должна быть сформулирована в виде
H1: DX>D0 (см. рис. 6.8). Критическую область образует один интервал (zпр,1–α, +∞), где точка zпр,1–α есть 1–α – процентный квантиль χ2-распределения определяется из условия P(z>zпр,1–α)=α или
¥
ò
kn-1 (t)dt = α, т. е. zпр,1–α=K–1(1–α). Далее можно вычислить
zïð,1-α
выборочное значение статистики zâ =

DX (n -1)
и сравнить ее с критиD0
ческой точкой zпр,1–α. Если zв≥zпр,1–α, гипотезу H0 следует отклонить,
если же zв<zпр,1–α, гипотеза H0 принимается с уровнем значимости α.
§ 6.4. Проверка гипотез
о параметрах двух нормальных распределений
1. Проверка гипотезы о равенстве математических ожиданий
двух нормальных распределений с известными дисперсиями.
Проверка гипотезы о равенстве математических ожиданий двух
нормальных совокупностей имеет важное практическое значение.
160
Часто возникает вопрос, можно ли отличие двух средних, полученных по двум разным выборкам, объяснить случайной ошибкой
экспериментов или оно не случайно? Подобная задача возникает,
например, при сравнении качества изделий, изготовленных на разных установках.
Пусть x1, x2 ,..., xn1 – первая выборка, y1, y2 ,..., yn2 – вторая выборка и xi∈N(mX, DX), yj∈N(mY, DY), причем DX и DY должны быть
известны. Основная проверяемая гипотеза в этих условиях имеет
вид H0: mX=mY.
n
1 1
*
= å xi и
Вычислим оценки математических ожиданий mX
n1 i=1
*
mY
=
n
(
)
(
)
1 2
D
D
*
*
Î N mX , X n а mY
Î N mY , Y n .
yi Очевидно,что mX
å
1
2
n2 i=1
Тогда из свойств матожидания и дисперсии независимых случайных величин следует, что M(mX*–mY*)=M(mX*)–M(mY*) = mX–mY,
а D(mX*–mY*)=D(mX*)+D(mY*)=DX/n1+DY/n2.
Таким образом, в силу теоремы о суммировании нормально рас-
(
D
*
*
- mY
Î N mX - mY , X n
пределенных случайных величин будем иметь mX
1
D
D
*
X
Y
Y Î N mX - mY ,
n1 +
n2 . Тогда нормированная и центрированная слу-
(
)
чайная величина будет подчинена стандартному нормальному рас*
*
mX
- mY
(
)-(mX - mY ) Î N 0,1 . Эту статипределению, то есть z =
DX
f (z H0 )
n1
+ DY
(
)
n2
sn1 +n2 -2 (t)
α
ω
α
tα
W\ω
Рис. 6.9. Левосторонняя
критическая область
статистики z при H0 :mx = my
W\ω
ω
t1-α,n1 +n2 -2
Рис. 6.10. Правосторонняя
критическая область
статистики z при H0 :mx = my
161
стику и выбирают за рабочую при проверке нулевой гипотезы H0:
mX=mY. Если H0 выполняется, то mX–mY=0 и рабочая статистика
(mX* - mY* )
упрощается z =
DX
n1
+ DY
Î N (0,1).
n2
Дальнейшие действия стандартны и практически совпадают с
аналогичными действиями при проверке гипотезы о равенстве матожидания выборки определенному значению при известной дисперсии (см. § 6.3, п.1). Задаем α и строим левостороннюю критическую область (–∞, zлев,α)=(–∞, tα), где tα – α – процентный квантиль
стандартного нормального распределения. Затем находим выборочную статистику zâ =
(mX* - mY* )
DX
n1
+ DY
. Если zв<tα, гипотеза H0
n2
должна быть отвергнута (см. рис. 6.9). В случае правостороннего и
двустороннего критериев выполнятся комплекс аналогичных действий.
2. Проверка гипотезы о равенстве математических ожиданий
двух нормальных распределений с неизвестными, но равными
дисперсиями.
Пусть имеются две случайные величины X∈N(mX, D) и
Y∈N(mY, D) с одинаковыми дисперсиями D, однако числовое значение D неизвестно, неизвестны также и числовые значения матожиданий mX и mY. Пусть имеются две выборки этих случай-
(
)
*
Î N mX , D
,
ных величин x1, x2 ,..., xn1 и y1, y2 ,..., yn2 Тогда mX
n1


DX (n1 -1)
D (n -1)
*
Î χ2n -1 и Y 2
Î N mY , D
,
mY
Î χn2 -1.
n2 кроме того
1
2
D
D
(
)
Наблюдения организованы так, что результаты x1, x2 ,..., xn1 и
Из этого условия следует, что mX и mY
y1, y2 ,..., yn2 независимы.


независимы, DX и DY также независимы. Требуется проверить
гипотезу H0: mX=mY.
Подберем подходящую статистику для этого критерия. По пре*
*
mX
- mY
(
)-(mX - mY ) Î N 0,1 . Кродыдущему пункту, очевидно,
DX
162
n1
+ DY
(
n2
)
ме того, по свойству χ2-распределения имеем: если
и

DY (n2 -1)
D
Î χ2n -1 то
2

DX (n1 -1)
D
+

DY (n2 -1)
D

DX (n1 -1)
D
Î χ2n -1
1
Î χ2n +n -2 .
1
2
Вспомним способ получения статистики распределения Стьюдента (см. § 2.2): t =
z n
n
, где z∈N(0,1), а n∈χ2n. В нашем случае
*
*
mX
- mY
(
)-(mX - mY ),
z=
DX
n1
+ DY
а
nn1 +n2 -2 =

DX (n1 -1)
D
n2
+

DY (n2 -1)
D
.
Тогда
(mX* - mY* )-(mX - mY ) ×
D
tn1 +n2 -2 =
=
D
n1 + n1
n1 + n2 - 2


DX (n1 -1) + DY (n2 -1)
D
=
(mX* - mY* )-(mX - mY )
.


æ
ö
çç 1 + 1 ÷÷ DX (n1 -1) + DY (n2 -1)
çèç n
n2 ø÷÷
n1 + n2 - 2
1
Если гипотеза H0: mX=mY выполняется, то mX–mY=0 и вид статистики упрощается tn1 +n2 -2 =
(mX* - mY* )
.


æ1
ö÷ DX (n1 -1) + DY (n2 -1)
1
çç + ÷
çèç n
n2 ø÷÷
n1 + n2 - 2
1
Итак, рабочая статистика получена. Зададим уровень значимости α и перейдем к построению критической области. Выберем правосторонний критерий, т. е. альтернативная гипотеза будет иметь
вид H1: mX>mY. Правосторонняя критическая область состоит из
(
)
интервала (zïð,1-α ,+¥) = t1-α,n1 +n2 -1,+¥ , где t1-α,n1 +n2 -2 – (1–α) –
процентный квантиль распределения Стьюдента (см. рис. 6.10).
(
)
Он определяется из условия P z > zïð,1-α = t1-α,n1 +n2 -2 = α или
163
¥
-1
s(t)dt = α, т. е. t1-α,n1 +n2 -2 = S (1 - α ). Если выбо-
ò
t1-α,n1 +n2 -2
*
mX
=
zâ =
n
n1
1
* 2
xi - mX
,
å
n1 -1 i=1

DX =
1 1
å xi ,
n1 i=1
n

DY =
(mX* - mY* )
статистика
рочная
,


æ1
ö÷ DX (n1 -1) + DY (n2 -1)
1
çç + ÷
ççè n
n2 ø÷÷
n1 + n2 - 2
1
(
)
*
mY
=
n
1 2
å yi ,
n2 i=1
где

DY =
n
2
1
y
å
n2 -1 i=1
(
2
1
* 2
yi - mY
не превысит t1-α,n1 +n2 -2 , то гипотезу H0 слеå
n2 -1 i=1
дует принять с уровнем значимости α.
3. Проверка гипотезы о равенстве дисперсий двух нормальных
распределений.
Задача проверки гипотезы о равенстве дисперсий часто возникает на практике. Дисперсия характеризует точность работы приборов. Убедившись в равенстве двух дисперсий, можно быть уверенным, например, что два прибора, два технологических процесса
обеспечивают одинаковую точность.
Пусть x1, x2 ,..., xn1 – результаты независимых наблюдений случайной величины X, а y1, y2 ,..., yn2 – случайной величины Y. Все
наблюдения проводятся в одинаковых условиях и организованы
так, что результаты обеих выборок независимы. При этих условиях требуется проверить нулевую гипотезу H0: DX=DY.
Построим критерий для проверки этой гипотезы. Пусть
n
n
n1
n2


1 1
1 2
1
1
*
*
* 2
mX
= å xi , mY
=
yi , DX =
xi - mX
y
, DY =
å
å
å
n1 i=1
n2 i=1
n1 -1 i=1
n2 -1 i=1
(
)
(

DY =
)
n2
1
* 2
yi - mY
– несмещенные оценки матожиданий и дисå
n2 -1 i=1
(
)
персий случайных величин X и Y по используемым выборкам.

D (n -1)
Î χ2n-1.
В § 6.3 пункт 3 уже использовалась статистика v =
D
В соответствии с определением F – распределения (см. § 2.3)
χ2l
отношение
164
χ2k
l
k
имеет F-распределение с l и k степенями сво-
(

DX (n1 -1)
DX

DX
n1 -1 DX
боды. В нашем случае дробь 
будет иметь
= 
DY (n2 -1)
DY
DY
DY
n2 -1
F – распределение с n1–1 и n2–1 степенями свободы. Если гипотеза H0 верна, то DX=DY и для статистики z справедливо соот
DX
ношение z =  Î Fn1-1,n2 -1. Рассмотрим при заданном α двуDY
сторонний критерий, т. е. H1: DX≠DY (см. рис. 6.11). В этом слуæ
ö÷
ç
÷÷
чае критическая область состоит из двух интервалов çç0,z
α
çç ëåâ, ÷÷÷
è
2ø
æ
ö÷
ç
и ççz α ,+¥÷÷÷ где критические точки находятся по следующим
çç ïð,
÷÷
è
ø
2
fF (n1 -1,n2 -1)
α
2
W\ω
ω
z
ëåâ,
α
2
α
2
ω
z
α
ïð,
2
Рис. 6.11. Двусторонняя критическая область для проверки гипотезы
о равенстве дисперсий двух нормальных распределений
165
z
ëåâ,
α
æ
ö÷
æ
ö÷
2
ç
çç
α
÷÷ = α ,
÷ α
=
f
x
dx
,
схемам: P çç0 < z < z
>
P
z
z
(
)
ç
α÷
α ÷÷ = ,
ò F
çç
çç
ëåâ, ÷÷ 2
ïð, ÷÷ 2
2
è
è
2ø
2ø
0

¥
DX
α
ò fF (x)dx = 2 . Если zâ = D Y < zëåâ,α или zâ > zïð,α , гипотеза H0
z
ïð,
α
2
2
2
должна быть отвергнута. Критические точки находятся по таблице
F-распределения.
§ 6.5. Лабораторная работа № 5.
Проверка статистических гипотез о числовых значениях
нормальных распределений в пакете Statgraphics
Для исследования подчиняющихся нормальному распределению данных математической статистикой выработаны эффективные методы. Строго говоря, эти методы непригодны для данных
другой природы. Поэтому перед применением этих методов к имеющимся наблюдениям полезно выяснить, похоже ли их распределение на нормальное. С полной уверенностью сказать этого все равно
невозможно, но от грубых ошибок такие проверки могут уберечь.
Так как конкретное нормальное распределение полностью задается значением параметров mX и DX, рассмотрим задачу проверки
гипотезы о значениях параметров нормального распределения, тесно связанную с построением доверительных интервалов для этих
параметров.
В пакете Statgraphics часть процедур для анализа нормальных
выборок собрана в разделе Describe (Описание данных), часть в разделе Compare (Сравнение данных). Проверим все основные гипотезы, описанные в § 6.3 и § 6.4. Сначала займемся одной выборкой.
Смоделируем нормальную выборку объемом 50 единиц с параметрами, например, mX=6, DX=10, т. е. σX=3,162. Моделирование
выборок с произвольными распределениями в пакете Statgraphics
мы занимались в лабораторных работах № 2 и № 4. Опишем кратко
последовательность необходимых действий.
В головном меню пакета выбираем пункт Plot→Probability
Distribution и помечаем распределение № 36 – нормальное (оно помечено по умолчанию). После щелчка по кнопке ОК открывается
дополнительное меню, в котором задаем лишь одно распределение
166
из возможных пяти, введя значение средней (Mean), равное 6.0,
и стандартного отклонения (Std. Deviation), равного 3.162. После
щелчка по кнопке ОК открывается дополнительное меню Tables and
Graphs, которым мы уже пользовались в предыдущих лабораторных работах. В этом меню выберем лишь пункт Random Numbers.
После щелчка по кнопке ОК будет смоделирована нормальная выборка с заданными параметрами объемом 100 единиц. Уменьшим
ее объем в два раза. Для этого щелкнем правой кнопкой мыши в
поле заставки Random Numbers и выберем в дополнительном меню
пункт Pane Options. В поле Size (Объем) введем число 50.
Сохраним эту выборку под именем NORM. Для этого воспользуемся пунктом дополнительного меню Save Results. В поле Save поставим галочку, а в поле Target Variables (Плановые переменные)
наберем имя выборки.
Все описанные действия проделаем еще раз и смоделируем равномерную выборку на интервале (0; 0,5). Для этого в меню Probability
Distribution надо пометить распределение № 44 – Uniform. В качестве параметров распределения в поле Lower Limit (Нижний
предел) введем ноль, а в поле Upper Limit (Верхний предел) число
0,5. Сохраним равномерное распределение под именем UNIF. Сохраненные данные можно просмотреть. Для этого в нижней части
экрана в меню электронных таблиц, комментариев, статконсультанта и составления статистических отчетов нужно развернуть на
полный экран пиктограмму untitled.
Для проверки гипотез о числовых значениях математического
ожидания и дисперсии засорим нормальную выборку; для этого
сложим два полученных распределения NORM и UNIF. Наблюдения выборки UNIF играют здесь роль случайных ошибок наблюдений выборки NORM. Сложение выборок можно провести следующим образом.
В головном меню пакета выберем пункты Describe→Numeric
Data→One-Variable Analysis (Анализ одной переменной). В дополнительном меню анализа одной переменной нажмем кнопку
Transform (Преобразования). Появится следующая заставка (см.
рис. 6.12). В строке Expression (Выражение) необходимо набрать
NORM+UNIF. Появится заставка новой выборки, члены которой
представляют собой сумму соответствующих по номеру членов обеих исходных выборок. Заметим, что в появившемся окне диалога
можно проводить арифметические, логические и другие манипуляции с переменными посредством более ста предоставляемых операторов.
167
Рис. 6.12. Панель для генерации новых данных
Рис. 6.13. Информация о числовых характеристиках
нормального распределения и проверке гипотезы о матожидании
168
После нажатия кнопки ОК в дополнительном меню One-Variable
Analysis опять появится меню Tables and Graphs, в котором надо
задать поля Analysis Summary, Summary Statistics и Hypothesis
Test. Если теперь вновь нажать кнопку ОК на экран будет выведена
следующая информация (см. рис. 6.13). В пункте головного меню
Describe, где мы сейчас находимся, проверяется только гипотеза
о числовом значении математического ожидания при неизвестной
дисперсии, причем по умолчанию задается α=0,05; H0: mX=0, двусторонний критерий.
Чтобы изменить установки гипотезы щелкнем правой кнопкой
мыши в поле заставки Hypothesis Tests for NORM+UNIF. Появится
дополнительное меню следующего вида (рис. 6.14).
В поле Mean введем проверяемое значение среднего 6.0. Можно
при желании изменить вид альтернативной гипотезы (Not Equal –
двусторонний критерий, т. е. H1: mX≠6,0; Less Than – левосторонний критерий, H1: mX<6,0; Greater Than – правосторонний критерий, H1: mX>6,0). Выберем двусторонний критерий и оставим
значение α=0,05. В поле Standart Deviation введём значение среднеквадратического отклонения – 3.162. После щелчка по кнопке
ОК информация в поле заставки Hypothesis Tests for NORM+UNIF
изменится на следую (см. рис. 6.15). Далее идут данные по непараметрическому критерию знаков для медианы.
Рис. 6.14. Окно диалога для задания
вида критерия значимости
169
Рис. 6.15. Исправленная информация
о проверке гипотезы о матожидании
В результате проверки процедура выдает значение t-статистики
Стьюдента, ее минимальный уровень и заключение о принятии нулевой гипотезы. При желании часть информации можно сохранить
с помощью инструмента составления статистических отчетов –
StatGallery. Как это делается, показано в лабораторной работе № 2.
При этом следует помнить, что каждая следующая страница статистического анализа, бывшая когда-то на экране дисплея, открывается нажатием клавиш Ctrl+F6 или щелчком по пиктограмме
.
Рис. 6.16. Дополнительное меню проверки гипотез
170
Основная часть процедур проверки гипотез пакета Statgraaphics
сосредоточена в разделе Describe→Numerical Data→Hypothesis
Tests. При таком выборе появляется следующее дополнительное
меню (рис. 6.16). При выборе в качестве параметра Normal Mean
проверяются гипотезы о числовом значении математического ожидания нормальной выборки, Normal Sigma о числовом значении
дисперсии, Binomial Proportion – проверяются гипотезы о биномиальных долях в схеме Бернулли, Poisson Rate – об интенсивностях
пуассоновских потоков.
Эта процедура не имеет отношения к анализу нормальных выборок.
При задании параметра Normal Mean на экран выводится совершенно аналогичная полученной ранее информация с единственным
отличием; дополнительно выдаются границы 95% доверительного
интервала для математического ожидания.
При выборе параметра Normal Sigma проверяются гипотезы о
числовом значении дисперсии. Зададим следующие параметры:
в поле Null Hypothesis значение 3,0 (H0: σX=3,0), в поле Sample
Sigma значение выборочного стандартного отклонения выборки
NORM+UNIF равного 3,3280, в поле Sample Size объем выборки,
равный 50. Кроме того, выберем левосторонний критерий значимости при α=0,05. На экране появится следующая информация (см.
рис. 6.17).
Рассмотрим теперь вопросы, связанные с двумя нормальными
выборками. В пакете Statgraphics процедуры проверки гипотез о
числовых значения параметров двух нормальных выборок находятся в разделе Compare→Two Samples→Hypothesis Tests. При проверке гипотезы о равенстве средних двух выборок нулевая гипотеза формулируется относительно разности этих средних, т. е. в виде
Рис. 6.17. Информация о проверке гипотезы
о значении среднеквадратического отклонения
171
H0: mX–mY=0. Дополнительное меню Hypothesis Tests очень похоже на описанное выше.
Для проверки оставшихся (см. § 6.4) гипотез смоделируем еще
одну нормальную выборку объемом 100 единиц с параметрами
mX=7,0; DX=10,5; т. е. σX=3,240 и сохраним ее под именем NORM1.
Затем воспользуемся пунктом головного меню Describe→Numeric
Data →Multiple-Variable Analysis (Анализ многих переменных) и в
дополнительном меню в пункте Data отметим две имеющиеся нормальные выборки NORM и NORM1. После щелчка по кнопке ОК
в открывшемся подменю Multiple-Variable Analysis Options нужно
выбрать пункт All Data (Все данные) (рис. 6.18). В результате будут
вычислены некоторые точечные характеристики обеих выборок и
информация об этом выведена на экран.
Для того, чтобы выборочные статистики посчитались по обеим выборкам NORM и NORM1, в меню Tables and Graphs, появившемся после меню Multiple-Variable Analysis Option выбрать пункты Analysis
Summary и Summary Statistics (см. рис. 6.19, верхняя часть).
Теперь можно проверить гипотезу о равенстве средних этих
двух выборок. Выберем Compare→Two Samples→Hypothesis Tests,
в открывшемся подменю пометим пункт Normal Mean, в поле Null
Hypothesis for Difference Normal Mean введем ноль, в поля значений
средних и средних квадратических отклонений введем числовые
значения соответствующих оценок из таблицы Summary Statistics.
Наконец, в поле Sample 1 Size введем число 50. После щелчка по
кнопке ОК и выбора двустороннего критерия получим информацию, помещенную чуть ниже под заголовком Hypothesis tests. Последняя запись напоминает, что гипотеза проводилась в предположении равенства дисперсий (см. рис. 6.19, нижняя часть). Щелкнув
правой кнопкой мыши в поле заставки Hypothesis Tests можно в появившемся подменю сменить вид критерия значимости, установить
новое значение α, а также сбросить флажок в поле Assume Equal
Sigmas (В предположении равенства
дисперсий), т. е. проверить гипотезу
о равенстве математических ожиданий двух нормальных выборок с известными дисперсиями. Заметим, что
если задать в этом случае α=0,1, нулевая гипотеза будет отвергнута.
Проверим, наконец, последнюю
Рис. 6.18. Окно диалога
гипотезу
о равенстве дисперсий
для настройки проводимого
двух
нормальных
выборок. Выбеанализа
172
Рис. 6.19. Числовые характеристики двух выборок
и результаты проверки гипотезы о равенстве средних
рем Compare→Two Samples→Hypothesis Tests и заполним поля появившегося дополнительного меню. Пометим точкой поле Normal
Sigmas, в поле Null Hypothesis for Ratio of Variance введем 1,0.
D
Здесь нулевая гипотеза формулируется в виде H0 : X = 1. ОчеDY
видно, что если дисперсии выборки равны, то их отношение равно
единице. В поля Sample 1 Sigma и Sample 2 Sigma введем соответствующие выборочные значения 3.32801 и 3.50524, а в поле Sample
1 Size число 50. Результаты проверки этой гипотезы таковы (см.
рис. 6.20).
Задание 1. Смоделировать две нормальные выборки со следующими параметрами: mX равно порядковому номеру месяца вашего дня рождения, mY=mX+1,5; DX; равна номеру вашей фамилии в журнале преподавателя, DY=DX+3, объем первой выборки
nX=50, объем второй выборки nY=100. Не засоряя первую выборку,
173
Рис. 6.20. Результаты проверки гипотезы
о равенстве дисперсий
проверить в пакете Statgraphics все шесть описанных в § 6.3 и § 6.4
гипотез, приняв уровень значимости α=0,1.
§ 6.6. Лабораторная работа № 5.
Проверка статистических гипотез о числовых значениях
нормальных распределений в пакете Mathcad
Проверим теперь все уже рассмотренные шесть видов гипотез в
пакете Mathcad. В этом математическом (а не статистическом!) пакете все вспомогательные действия, выполняемые в Statgraphics
простым нажатием соответствующей кнопки, придется программировать и выполнять самостоятельно.
Смоделируем сначала три выборки: две нормальные и одну равномерную, аналогично тому, как делали в пакете Statgraphics.
ORIGIN:=1
mx1:=6
σx1:=3.162
Dx1:=10
mx2:=7
σx2:=3.240
Dx2:=10.5
n:=50
n1:=100
a:=0
b:=0.5
NORM:=rnorm(n,mx1,σx1)
NORM1:=rnorm(n1,mx2,σx2)
UNIF:=runif(n,a,b)
i:=1..50
NORM i := NORM i + UNIF i
Итак, все три выборки смоделированы, первая нормальная выборка засорена равномерным распределением. Приступим к проверке первой гипотезы о числовом значении матожидания при из174
вестной дисперсии, используя двусторонний критерий. Для этого
запрограммируем формулы § 6.3 п. 1.
α:=0.05
xmean:=mean(NORM)
xmean=6.165
α := 0.05


xright := qnorm  1 −
xleft:=-xright
zb :=
xmean − mx1
α
2


, 0 , 1
xleft=-1.960
xright=1.960
Dx1
n
zb=0.368
Функция qnorm вычисляет квантили нормального распределения. Гипотеза Н0:M(NORM)=6 принимается, так как
xleft<zb<xright, т. е. выборочная статистика критерия находится
в области принятия решения.
Для проверки гипотезы о числовом значении матожидания при
неизвестной дисперсии вычислим квантили распределения Стьюдента. Зададим правосторонний критерий:
n
Dx :=
⋅ var ( NORM )
n−1
Dx=8.135
xright:=qt(1-α,n-1)
xright=1.677
zb :=
xmean − mx1
Dx
n
zb=0.408
Так же как в предыдущем случае гипотеза H0: M(NORM)=6
принимается, так как zb=0,408<xright=1,677.
Последняя гипотеза о параметрах одной нормальной выборки –
это гипотеза о числовом значении дисперсии. Выберем для нее левосторонний критерий:
xleft:=qchisq(α,n-1)
xleft=33.930
Dx
zb := ( n − 1) ⋅
Dx1
zb=39.862
Гипотеза H0: DX=10 при левостороннем критерии принимается
с уровнем значимости α=0,05 против альтернативы H1: DX<10, поскольку zb=39,862>xleft=33,930.
175
Проверим теперь три описанные в § 5.4 гипотезы о параметрах
двух нормальных распределений. Первая из них о равенстве матожиданий, если обе дисперсии выборок известны. В нашем случае
Dx1=10, Dx2=10,5; mx1=6, mx2=7, H0: mX=mY, т. е. H0: mx1=mx2.
Зададим опять левосторонний критерий:
xleft:=qnorm(α,0,1)
xleft=-1.645
ymean:=mean(NORM1)
ymean=6.537
zb :=
xmean − ymean
Dx1 Dx2
+
n
n1
zb=-0.675
Гипотеза H0 принимается с уровнем значимости 0,05, т. к.
zb=–0,675>xleft=–1,645.
Следующая гипотеза о равенстве матожиданий двух нормальных
выборок с неизвестными, но равными дисперсиями. В нашем случае
Dx1=10≠Dx2=10,5, но значения очень близки друг к другу. Вычислим несмещенную оценку дисперсии второй нормальной выборки.
Примем H1: mX>mY, т. е. выберем правосторонний критерий:
n1
Dy :=
⋅ var ( NORM1 )
n1 − 1
Dy=10.917
xright:=qt(1-α,n+n1-2)
xright=1.655
xmean − ymean
zb :=
 1 + 1  ⋅ ( n − 1) ⋅ Dx + ( n1 − 1) ⋅ Dy
 n n1 
n + n1 − 2


zb=-0.681
Итак, мы имеем zb=–0,681<xright=1,655, т. е. основная гипотеза должна быть принята.
Наконец, последняя гипотеза о равенстве дисперсий двух нормальных выборок. Ее рабочая статистика имеет распределение Фишера. Выберем двусторонний критерий, т. е. проверим H0: DX=DY,
H1: DX≠DY:
 α , n − 1 , n1 − 1 

2

α


, n − 1 , n1 − 1 
xright := qF  1 −
2


xleft := qF 
176
xleft=0.601
xright=1.577
Dx
zb :=
Dy
zb=0.745
Так как xleft<zb<xright, то гипотезу H0 следует принять с уровнем значимости α=0,05.
Задание 2. Смоделировать две нормальные выборки со следующими параметрами: mX равно порядковому номеру месяца вашего дня рождения, mY=mX+1,5; DX равна номеру вашей фамилии в журнале преподавателя, DY=DX+3, объем первой выборки
nX=50, объем второй выборки nY=100. Засорив первую выборку,
проверить в пакете Mathcad по вашему выбору все шесть описанных в § 6.3 и § 6.4 гипотез, приняв уровень значимости α=0,05.
§ 6.7. Лабораторная работа № 5.
Проверка статистических гипотез о числовых значениях
нормальных распределений в пакете Matlab
Рассматриваются 6 видов гипотез:
1) x1, x2,…, xn – выборка, xi∈N(mx, Dx).
• H0: mx=m0, Dx – известна;
• H0: mx=m0, Dx – неизвестна;
• H0: Dx=D0.
2) x1, x2,…, xn – выборка, xi∈N(mx, Dx),
y1, y2,…, ym – выборка, yj∈N(my, Dy).
• H0: mx=my, Dx и Dy – известны;
• H0: mx=my, Dx и Dy – неизвестны, но равны, т. е. Dx=Dy;
• H0: Dx=Dy.
>> clear
>> %Моделирование трёх выборок, двух нормальных и одной
>> %равномерной, используемую как ошибки наблюдений.
>> mx1=6;
>> Dx1=10;
>> sigma1=3.162;
>> mx2=7;
>> Dx2=10.5;
>> sigma2=3.240;
177
>> n=100;
>> m=150;
>> NORM1=normrnd(mx1,sigma1,n,1);
>> NORM2=normrnd(mx2,sigma2,m,1);
>> UNIF=unifrnd(0,0.5,n,1);
>> for i=1:n
NORM1(i)=NORM1(i)+UNIF(i);
end;
>> %NORM1 – выборка х(i), NORM2 – выборка у(j).
>> %H0: mx=m0, Dx – известна, критерий двусторонний.
>> alfa=0.05;
>> xmean=mean(NORM1)
xmean =
6.6437
>> xr=norminv(1-alfa/2,0,1)
xr =
1.9600
>> xl=-xr;
>> z=(xmean-mx1)/sqrt(Dx1/n)
z =
2.0357
>> %Если xl<z<xr, то гипотеза H0: mx=m0 принимается, с
>> %уровнем значимости alfa, иначе Н0 – отвергается.
>> %Далее проверка гипотезы H0: mx=m0, Dx – неизвестна,
>> %критерий правосторонний.
>> Dx1n=n/(n-1)*var(NORM1)
Dx1n =
13.7085
>> xr=tinv(1-alfa,n-1)
xr =
1.6604
>> z=(xmean-mx1)/sqrt(Dx1n/n)
z =
1.7387
>> %Если z>xr, то Н0 отвергается.
>> %Далее проверка гипотезы H0: Dx=D0, левосторонний критерий.
>> xl=chi2inv(alfa,n-1)
xl =
77.0463
>> z=(n-1)*Dx1n/Dx1
z = 135.7137
>> %Если x>xl, H0:Dx=D0 принимается.
>> %Далее конструируются и проверяются гипотезы о параметрах
>> %двух нормальных распределений. H0: mx=my, Dx и Dy известны,
>> %критерий левосторонний.
>> xl=norminv(alfa,0,1)
xl =
-1.6449
>> ymean=mean(NORM2)
178
ymean =
6.7036
>> z=(xmean-ymean)/sqrt(Dx1/n+Dx2/m)
z =
-0.1451
>> %Если z>xl, H0 принимается.
>> %Далее проверяется гипотеза H0: mx=my, Dx, Dy неизвестны,
>> %но равны, критерий правосторонний.
>> Dx2n=m/(m-1)*var(NORM2)
Dx2n =
9.9964
>> xr=tinv(1-alfa,n+m-2)
xr =
1.6510
>>
z=(xmean-ymean)/sqrt((1/n+1/m)*((n-1)*Dx1n+(m1)*Dx2n)/(n+m-2))
z =
-0.1367
>> %Если z<xr, H0 принимается.
>> %Далее следует проверка гипотезы о равенстве дисперсий
>> %двух выборок, т. е. H0: Dx=Dy, двусторонний критерий.
>> xl=finv(alfa/2,n-1,m-1)
xl =
0.6922
>> xr=finv(1-alfa/2,n-1,m-1)
xr =
1.4255
>> z=Dx1n/Dx2n
z =
1.3713
>> %Если xl<z<xr, H0 принимается.
Используем теперь немногочисленные программы раздела проверки статистических гипотез пакета Matlab, описанные
в табл. 3.5. Подобных программ в пакете Mathcad нет.
Проверим с помощью функции ztest гипотезу H0: mx=m0,
Dx=D0 при условии нормальности исходной выборки, т. е. xi∈N(mx, Dx).
>> [h,p]=ztest(NORM1,mx1,sigma1)
h =
1
p =
0.0418
>> [h,p]=ztest(NORM1,10,5)
h =
1
p =
1.9132e-11
В первом случае основная гипотеза имела вид: H0: mx=6,
σx=3,162. Эти значения были заданы при моделировании массива NORM1. Засорение выборки равномерным распределением на
[0; 0,5] существенно повлияло на значения числовых характеристик. Гипотеза Н0 не принята (h=1) с уровнем значимости p. Во
179
втором случае, когда H0: mx=10, σx=5, основная гипотеза также
отвергается.
Применим теперь критерий Стьюдента (t-тест) для проверки основной гипотезы H0: mx=m0, Dx – неизвестна.
>> [h,p]=ttest(NORM2,mx2)
h =
0
p =
0.2511
>> [h,p]=ttest(NORM2,10)
h =
1
p =
8.3358e-26
Аналогично проверяется гипотеза H0: mx=my, Dx, Dy неизвестны, но равны с помощью функции ttest2.
>> [h,p]=ttest2(NORM1,NORM2)
h =
0
p =
0.8909
Наконец, используем функцию signtest о равенстве медиан
двух выборок, т. е. H0: hx=hy. Однако сначала смоделируем массив NORM3 с mx=6 и σх=3.162 объёмом 100 единиц, т. к. функция
signtest использует массивы одинаковой длины.
>> NORM3=normrnd(mx1,sigma1,n,1);
>> hx=median(NORM1)
hx =
6.5043
>> hy=median(NORM3)
hy =
5.8477
>> [p,h]=signtest(NORM1,NORM3)
p =
0.2713
h =
0
Как видно, медианы этих выборок отличаются незначимо.
§ 6.8. Лабораторная работа № 5.
Проверка статистических гипотез о числовых значениях
нормальных распределений в пакете Scilab
-->clear
-->m=100;
-->m1=150;
-->mx1=1.5;
-->Dx1=6.76;
180
-->sigma1=2.6;
-->mx2=2.0;
-->Dx2=7.56;
-->sigma2=2.75;
-->NORM1=grand(m,1,"nor",mx1,sigma1);
-->NORM2=grand(m,1,"nor",mx2,sigma2);
-->UNIF=grand(m,1,"unf",0,0.5);
-->//получены две нормальные выборки и одна равномерная,
-->//которая будет использоваться для засорения одной из
-->//нормальных выборок ошибками.
-->for i=1:m
-->NORM1(i)=NORM1(i)+UNIF(i);
-->end;
-->alfa=0.1;
-->//проверка гипотезы Н0:mx=m0, Dx – известна, критерий
-->//правосторонний, уровень значимости alfa.
-->xmean=mean(NORM1)
xmean =
1.5498215
-->p=1-alfa;
-->q=1-p;
-->xr=cdfnor("X",0,1,p,q)
xr =
1.2815516
-->z=(xmean-mx1)/sqrt(Dx1/m)
z =
0.1916212
-->//если z<xr, гипотеза Н0 принимается.
-->//прверка гипотезы Н0:mx=m0, Dx – неизвестна,
-->//критерий левосторонний.
-->Dx1n=m/(m-1)*variance(NORM1)
Dx1n =
8.2267045
-->p=alfa;
-->q=1-p;
-->xl=cdft("T",m-1,p,q)
xl = – 1.2901614
-->z=(xmean-mx1)/sqrt(Dx1n/m)
z =
0.1737017
-->//если z>xl, H0 принимается.
-->//проверка гипотезы Н0:Dx=D0, двусторонний критерий.
-->p=1-alfa/2;
-->q=1-p;
-->xr=cdfchi("X",m-1,p,q)
xr =
123.22522
181
-->p=alfa/2;
-->q=1-p;
-->xl=cdfchi("X",m-1,p,q)
xl =
77.046332
-->z=(m-1)*Dx1n/Dx1
z =
120.47984
-->//если xl<z<xr, гипотеза Н0 принимается.
-->//далее проверяются гипотезы о параметрах двух нормальных
-->//распределений. Основная гипотеза Н0:mx=my, Dx и Dy из-->//вестны, критерий двусторонний.
-->p=alfa/2;
-->q=1-p;
-->xl=cdfnor("X",0,1,p,q)
xl = – 1.6448536
-->p=1-p;
-->q=1-p;
-->xr=cdfnor("X",0,1,p,q)
xr =
1.6448536
-->ymean=mean(NORM2)
ymean =
2.4690385
-->z=(xmean-ymean)/sqrt(Dx1/m+Dx2/m1)
z = – 2.6759442
-->//если xl<z<xr, гипотеза Н0 принимается.
-->//проверка гипотезы Н0:mx=my, Dx и Dy неизвестны,но
-->//равны, критерий левосторонний.
-->Dx2n=m1/(m1-1)*variance(NORM2)
Dx2n =
8.2494508
-->p=alfa;
-->q=1-p;
-->xl=cdft("T",m1-1,p,q)
xl = – 1.2872591
-->z=(xmean-ymean)/sqrt((1/m+1/m1)*((m-1)*Dx1n+(m11)*Dx2n)/(m+m1-2))
z = – 2.4803919
-->//если z>xl, гипотеза Н0 принимается.
-->//проверка гипотезы о равенстве дисперсий выборок,
-->//H0:Dx=Dy, правосторонний критерий.
-->p=1-alfa;
-->q=1-p;
-->xr=cdff("F",m-1,m1-1,p,q)
xr =
1.2606833
182
-->z=Dx1n/Dx2n
z =
0.9972427
-->//если z<xr гипотеза Н0 принимается.
§ 6.9. Критерии согласия
1. Критерий χ2-Пирсона*
Во многих практических задачах модель закона распределения
заранее не известна и возникает задача выбора модели, согласующейся с результатами наблюдений над случайной величиной.
Предположим, что выборка x1, x2,…, xn произведена из генеральной
совокупности с неизвестной теоретической функцией распределения, относительно которой имеются две непараметрические гипотезы H0: F(x)=F0(x) и H1: F(x)≠F0(x), где F0(x) – известная функция
распределения. Таким образом, проверяется, согласуются ли эмпирические данные с гипотетическим предположением относительно
теоретической функции распределения или нет. Поэтому критерии
для проверки H0 и H1 носят название критериев согласия.
Критерий χ2-Пирсона предполагает, что результаты наблюдений сгруппированы в вариационный ряд. Поскольку при формулировке H0 почти всегда необходимо оценивать несколько параметров закона, то последовательность действий такова.
1. Формулируют гипотезу о модели закона распределения случайной величины, по результатам наблюдений находят оценки неизвестных параметров этой модели.
2. Подставляют в модель закона оценки неизвестных параметров. В результате предполагаемая модель оказывается полностью
определенной.
Пусть наблюдаемая случайная величина X принимает только
значения b1, b2,…, bk с неизвестными вероятностями p1, p2,…, pk.
Основная гипотеза H0 выделяет среди всех распределений случайных величин, принимающих значения b1, b2,…, bk, одно фиксированное распределение, для которого значения вероятностей известны и равны pi. Обозначим через mi, i=1, 2,…, k число тех элементов
выборки x1, x2,…, xn, которые приняли значение bi. В силу закона
больших чисел наблюденная частота pi* =
* Карл
mi
с ростом объёма n выn
(Чарльз) Пирсон (1857–1936) – английский математик.
183
борки стремится к вероятности pi, гипотезу H0 надо признать справедливой, если все pi* мало отличаются от pi.
2
(m - npi )
.
Введем статистику χ2 = χ2 (x1, x2 ,..., xn ) = å i
npi
i=1
k
(6.9.1)
Эта статистика является мерой равномерной близости pi* к pi.
Кроме того, она соответствует мультиномиальной схеме, в результате которой появляется χ2-распределение. Именно пусть ξ1,
ξ2,…, ξn – независимые случайные величины, распределенные по
нормальному закону с одинаковыми параметрами m и σ2. Если
1
1
2
2
2
η = (ξ1 + ξ2 + ... + ξn ),
тогда
χ2 = 2 éê(ξ1 - η) + (ξ2 - η) + ... + (ξn - η) ùú
ë
û
n
σ
2
2ù
2
2 - η) + ... + (ξn - η) ú имеет χ -распределение с n–1 степенью свободы. Это
û
стандартная схема получения χ2-распределения. Она же реализуется в мультиномиальной схеме.
Действительно, если mi – наблюдаемые частоты, то npi – теоретические значения соответствующих частот. Дисперсия же в
мультиномиальной схеме, как известно, равна npi. Можно еще
m - npi
добавить, что случайная величина i
имеет распределение,
npi
близкое к нормальному (использованы операции центрирования и
нормирования). Чтобы это утверждение было достаточно точным,
необходимо, чтобы для всех i выполнялось условие npi>5.
Пусть производится n независимых одинаковых испытаний, в
каждом из которых с вероятностью pi может произойти одно из событий Ai , i = 1, k. mi – число появлений события Ai. Тогда из многомерного аналога теоремы Муавра* – Лапласа следует, что случайная величина χ2 =
(m1 - np1 )2
+
(m2 - np2 )2
+ ... +
(mk - npk )2
при
np1
np2
npk
n→∞ асимптотически распределена по закону χ2 с k–l–1 степенью
свободы. Здесь l – число предварительно оцениваемых параметров закона, на их количество понижается число степеней свободы статистики критерия. Таким образом, введенная статистика
2
k
(mi - npi )2
i=1
npi
χ =å
* Абрахам
184
при n→∞ независимо от гипотетических веро-
Муавр (1667–1754) – французский математик.
ятностей pi имеет χ2-распределение с k–l–1 степенью свободы. Следовательно, критерий χ2 предписывает принять гипотезу H0, если
χ2<C (правосторонний критерий), и отвергнуть, если χ2≥C, где C –
критическое значение критерия.
При практической реализации критерия χ2 нужно следить за
тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация χ2 – распределением распределения статистики критерия.
Обычно считается, что достаточным условием этого является выполнение неравенств mi≥5 при всех k, в противном случае маловероятные значения bi объединяются в одно или присоединяются к
другим значениям, причем объединенному значению приписывается суммарная вероятность.
В общем случае (непрерывные случайные величины) поступают следующим образом. Всю числовую прямую разбивают на k непересекающихся интервалов (–∞, d1), [d1, d2),[d2, d3),…,[dk–1,∞).
Затем определяют гипотетические вероятности pi=F0(di)–F0(di–1)
попадания в интервал [di–1, di) и числа mi элементов выборки, попавших в эти интервалы. Затем вычисляют значение статистики
k (m - np )2
i
χ2 = å i
и сравнивают его с критическим значением C,
np
i
i=1
являющимся (1–α) – процентным квантилем χ2-распределения.
Как и в дискретном случае, маловероятные интервалы объединяются.
Разумеется, для того, чтобы увеличить качество критерия χ2
(увеличить его мощность), необходимо уменьшить интервалы разбиения, однако этому препятствует ограничение на число попавших в каждый интервал наблюдений.
Пример. В следующей таблице (см. табл. 6.2) приведен рост (см)
1004 девушек в возрасте 16 лет Приняв 10%-й уровень значимости,
проверить гипотезу H0, что они получены из нормально распределенной генеральной совокупности.
Решение.
Применим критерий χ2-Пирсона для проверки нулевой гипотезы H0: F(x)=Ф(x). Поскольку распределение генеральной совокупности будет сравниваться со стандартным нормальным, выбранная
статистика критерия будет центрирована и нормирована. Для этого необходимо знать математическое ожидание и дисперсию предполагаемого нормального закона, которые мы заменим их оценками, определенными по выборке. Сведем все данные в таблицу (см.
следующую страницу).
185
Таблица 6.2
Границы
134–137 137–140 140–143 143–146 146–149 149–152 152–155
интервалов
Частоты
1
4
16
53
121
197
229
Границы
155–158 158–161 161–164 164–167 167–170 170–173
интервалов
Частоты
186
121
53
17
5
1
В этой таблице первые четыре столбца – исходные данные задачи. Оценкой математического ожидания является выборочное
1 n
å xi . Приведенная формула справедлива для
n i=1
обычной выборки. Для группированной выборки, такой, какая
приведена в задаче, эта формула принимает вид
*
=
среднее mX
*
mX
=
1 k
å mi xi , n i=1
(6.9.2)
где k – число первоначальных интервалов группировки (k=13),
mi – наблюдаемые частоты, xi – середины интервалов группировки.
Аналогичная формула для несмещённой оценки дисперсии приобретает вид (см. таблицу)

1 k
* 2
DX =
mi xi - mX
.
å
n -1 i=1
(
)
(6.9.3)
Рассчитанные с помощью этих формул по первым шести столбцам таблицы оценки математического ожидания и дисперсии
предполагаемого нормального распределения выборки равны
m*X=153,49 см, DX = 28,09 кв. см, σ*=5,30 см.
В седьмом столбце приведены нормированные и центрированные значения xi, в восьмом ординаты плотности f (zi ) =
1
z2
- i
e 2
2p
стандартного нормального распределения N(0,1), в девятом вычисnd
ляются значения npi =
f (zi ), где d=3 – ширина интервала групσ*
пировки, в десятом столбце значения npi после объединения двух
первых и двух последних интервалов. Наконец, два последних
столбца служат для расчета выборочного значения критерия χ2186
187
134–137
137–140
140–143
143–146
146–149
149–152
152–155
155–158
158–161
161–164
164–167
167–170
170–173
1
2
3
4
5
6
7
8
9
10
11
12
13
171,5
135,5
138,5
141,5
144,5
147,5
150,5
153,5
156,5
159,5
162,5
165,5
168,5
18,01
–17,99
–14,99
–11,99
–8,99
–5,99
–2,99
0,01
3,01
6,01
9,01
12,01
15,01
324,36
323,64
224,70
143,76
80,82
35,88
8,94
0,0
9,06
36,12
81,18
144,24
225,30

mX*=153,49; DX = 28,09;
1
1
4
16
53
121
197
229
186
121
53
17
5
f(zi)
0,0012
0,0013
0,0073
0,0309
0,0947
0,2107
0,3403
0,3989
0,3395
0,2097
0,0940
0,0306
0,0072
σX=5,30
3,398
3,394
2,828
2,262
1,696
1,130
0,564
0,002
0,568
1,134
1,700
2,266
2,832
*
Середина
xi - mX
Номер
Границы
Частоты
интервала
xi–mi* (xi–mX*)2 zi =
интервала интервала
mi
σ*
xi
f (zi ) = npi
0,682
0,739
4,149
17,561
53,818
119,741
193,393
226,696
192,938
119,173
53,420
17,390
4,092
σ*
nd
4,89
17,56
53,82
119,74
193,39
226,70
192,94
119,17
53,42
17,39
4,77
npi
0,003
0,139
0,012
0,013
0,067
0,023
0,250
0,028
0,003
0,009
0,317
npi
(mi - npi )2
χ2выб=0,864
0,11
–1,56
–0,82
1,26
3,61
2,30
–6,94
1,83
–0,42
–0,39
1,23
mi–npi
k1
(mi - npi )2
i=1
npi
Пирсона χ2âûá = å
, k1 – число новых интервалов груп-
пировки. Так как по выборке определены оценки двух параметров,
то l=2 и число степеней свободы равно k1–l–1=11–2–1=8. По таблице распределения χ2 находим, что χ20,98=13,4. Так как χ2выб=0,864<
χ20,98, то гипотеза H0 о нормальном распределении группированных
данных не противоречит результатам наблюдений и должна быть
принята с уровнем значимости 0,1.
2. Критерий Колмогорова. В силу теоремы Гливенко – Кантелли эмпирическая функция распределения F*(x) представляет собой состоятельную оценку теоретической функции распределения
F(x). Поэтому можно сравнивать F*(x) с гипотетической F0(x), и,
если мера расхождения между ними мала, считать справедливой
гипотезу H0. Наиболее естественная и простая мера – это равномерное расстояние между F*(x) и F0(x) (см. рис. 6.21), т. е.
D=
sup
-¥<x<+¥
F * (x) - F0 (x) . (6.9.4)
Очевидно, что D – случайная величина, поскольку ее значение
зависит от случайного объекта F*(x). Если гипотеза H0 справедлива и n→∞, то F*(x)→F(x) при всяком x. Как всегда, при проверке
1.0
F0 (x)
D
F* (x)
x
Рис. 6.21. Графики теоретической F0 (x)
*
и эмпирической F (x) функций распределения
188
гипотезы, следует рассуждать так, как если бы гипотеза была верна. Ясно, что H0 должна быть отвергнута, если полученное в эксперименте значение статистики D окажется неоправданно большим.
Замечательное свойство статистики D состоит в том, что если гипотетическое распределение указано правильно, то закон распределения статистики D оказывается одним и тем же для всех непрерывных истинных функций распределения.
При малых n для статистики D при гипотезе H0 составлены таблицы процентных точек. При больших n распределение D (при
гипотезе H0) указывает найденная в 1933 г. А. Н. Колмогоровым
предельная теорема (см. § 2.4). Она говорит о статистике Dn = nD
(поскольку сама величина D→0 при H0, приходится умножать ее
на неограниченно растущую величину, чтобы распределение стабилизировалось).
Рассмотрим статистику Dn = Dn (x1, x2 ,..., xn ) = n
sup
F * (x)-¥<x<+¥
-F0 (x) . Критерий Колмогорова предписывает принять гипотезу
H0, если Dn<C и отвергнуть ее в противном случае, где C – критическое значение критерия. При n→∞ критическое значение C совпадает с (1–α)% квантилью распределения Колмогорова.
При практической реализации критерия сначала по выборке x1,
x2,…, xn составляют вариационный ряд x*1, x*2,…, x*n. Затем находят
значение статистики Dn. Для этого можно использовать несколько
формул. Например,
éi
i -1 ù
ú. Dn = n max ê - F0 xi* , F0 xi* n úû
1£i£n êë n
( ) ( )
(6.9.5)
Другая употребительная формула имеет вид
é
2i -1
1ù
Dn = n ê max F0 xi* + ú. ê1£i£n
2n
2n úû
ë
( )
(6.9.6)
После этого сравнивают полученное значение Dn с критическим
значением C для заданного уровня значимости α и принимают или
отвергают гипотезу H0.
Пример. Дано следующее распределение успеваемости 100 студентов-заочников, сдавших четыре экзамена:
Таблица 6.3
Число сданных экзаменов
Число студентов
0
1
1
1
2
3
3
35
4
60
189
Проверить по критериям χ2-Пирсона и Колмогорова гипотезу
о том, что число сданных экзаменов распределено биномиально.
Принять α=0,1.
Решение.
Здесь случайной величиной является число сданных экзаменов
среди четырех. Обозначим ее X и установим сначала закон распределения этой величины. Для установления закона необходимо сделать некоторые допущения.
1. Процесс сдачи четырех экзаменов представим как четыре испытания. Будем считать эти испытания независимыми, т. е. пусть
вероятность сдачи любым студентом любого экзамена не зависит от
того, будет сдано или нет любое количество других экзаменов.
2. Вероятность сдачи студентом любого отдельно взятого экзамена одна и та же и равна p, а вероятность не сдачи равна q=1–p.
Если принять эти допущения, то перед нами схема Бернулли и
число сданных экзаменов среди четырех сдаваемых будет иметь биномиальный закон распределения, т. е.
P ( X = x) = C4x p x q 4-x , x = 0,1,2,3,4.
(6.9.7)
Для оценки вероятности p* воспользуемся методом максимального правдоподобия. Получим
L(x1, x2 ,..., xk ) = P (X = x1 )× P (X = x2 )×...× P (X = xk ) =
x
x
x
= Ck 1 p x1 q k-x1 × Ck 2 p x2 q k-x2 ×...× Ck k p xk q k-xk =
(
x
x
x
)
= Ck 1 + Ck 2 + ... + Ck k p x1 +x2 +...+xk q
k2 -(x1 +x2 +...+xk )
k
(
x
x
x
)
å xi
= Ck 1 + Ck 2 + ... + Ck k pi=1 q
k
k2 - å xi
Найдем логарифм функции правдоподобия
=
i=1
.
k
k
æ
ö
çç
å xi k2 - å xi ÷÷÷
çç k i=1
ln L = ln ç2 p
q× i=1 ÷÷÷ =
çç
÷÷
çè
ø÷
k
k
æ
ö
òàê êàê
2
k
k
æ
ççç k å xi k - å xi ÷÷÷
÷ö
ç
÷
n
i=1 ÷ =
= ln çç2 pi=1× q
= k ln 2 + å xi ln p + ççk2 - å xi ln q ÷÷÷. Тогда
i
n
÷
çç
çè
å Cn = 2
ø÷
÷÷
i=1
i=1
çè
ø÷
i=1
k
å xi
¶ ln L 1 k
1 çæ 2 k ÷ö÷

*
ç
= å xi - çk - å xi ÷÷ = 0. Отсюда p = p = i=1 .
p i=1
q çè
¶p
k2
i=1 ÷ø
190
В рассматриваемой схеме практической случайной величиной
является число экзаменов, сданных всеми 100 студентами, и xi
наблюдается m раз, т. е. в задаче задана сгруппированная выборk
l
å xi å ximi
ка. Тогда p* = i=1 = i=1
, где k2=sn – число экзаменов, сдаsn
k2
ваемых всеми 100 студентами, s=4 – число сдаваемых экзаменов,
n=100 – число студентов, l=5 – число разрядов сгруппированной
l
å ximi
0 ×1 + 1×1 + 2 × 3 + 3 × 35 + 4 × 40
выборки. Тогда p = i=1
=
= 0,88.
4 ×100
sn
Вычислим теперь теоретические вероятности по формуле P(X= x) =
m
= Cx4·0,88x·0,124–x, x=0, 1, 2, 3, 4 и относительные частоты pi* = i
n
и поместим их в табл. 6.4.
Проверим теперь сначала с помощью критерия χ2-Пирсона гипотезу о соответствии теоретического биномиального распределения фактическим данным исходной таблицы. Итак, H0: F(x)=B(p),
p=0,88. Составим таблицу (см. табл. 6.5) такой же структуры, как
в предыдущем примере.
Здесь χ2выб=0,895. Число степеней свободы статистики критерия
2
χ -Пирсона равно 3–1–1=1. Тогда критическое значение критерия
*
Таблица 6.4
X
p
p*
0
0,00021
0,01
1
0,00608
0,01
2
0,06691
0,03
3
0,32711
0,35
4
0,59969
0,60
Таблица 6.5
Число
Число
ОтносиТеоретиНомер
сданных студентов
тельные
ческие
интервала
экз., xi mi (частоты) частоты, p*i частоты, pi
1
2
3
4
5
0
1
2
3
4
1
1
3
35
60
0,01
1
0,03
0,35
0,60
0,00021
0,00608
0,06691
0,32711
0,59969
npi
(mi–npi)2
0,021
0,608 5,382
6,691
32,711 5,239
59,969 0,001
(mi - npi )2
npi
0,735
0,160
0,000
191
C=χ20,9;1=2,71. Так как χ2выб=0,895<χ20,9;1=2,71, то гипотеза H0 принимается с уровнем значимости α=0,1.
Проделаем то же самое с помощью критерия Колмогорова.
Для этого построим по табл. 6.6 функцию распределения F0(x)
(рис. 6.22).
Так как F0 (x) = å pi , то гипотетическая функция распределеxi <x
0, x £ 2,
ïìï
ïï
ï0,0732; 2 < x £ 3,
ния будет равна F0 (x) = í
Рассчитаем теперь знаïï0,4003; 3 < x £ 4,
ïï
1, x > 4.
ïïî
чение статистики Dn сначала по формуле (6.9.5)
éi
i -1 ù
ú.
Dn = n max ê - F0 xi* , F0 xi* n ûú
1£i£n ëê n
( ) ( )
é1
1 -1 ù
ú = 0,3333;
i = 1 : max ê - 0, 0 êë 3
3 úû
é2
1ù
i = 2 : max ê - 0,0732; 0,0732 - ú = 0,5935;
êë 3
3 úû
é
2ù
i = 3 : max ê1 - 0,4003; 0,4003 - ú = 0,5997.
êë
3 úû
Отсюда Dn = 3max(0,3333; 0,5935; 0,5997) = 1,0387.
Таблица 6.6
X
p
1.0
0–2
0,0732
3
0,3271
4
0,5997
F0 (x)
2
3
4
Рис. 6.22. График функции F0(x)
192
x
При вычислении значения статистики по формуле (6.9.6) получим те же значения. Действительно,
é
2 -1 1
2i -1
1ù
+ = 0,3333;
Dn = n ê max F0 xi* + ú, i = 1: 0 ê1£i£n
ú
6
6
2n
2n û
ë
( )
i = 2 : 0,0732 -
3 1
5 1
+ = 0,5935; i = 3 : 0,4003 - + = 0,5997.
6 6
6 6
Dn = 3max(0,3333; 0,5935; 0,5997) = 1,0387.
Найдем критическое значение C критерия Колмогорова. Это
90% квантиль этого распределения, т. е. C=K–1(0,9) =1,23. Так
как Dn<C, следовательно, D∈W\ω и гипотеза H0 должна быть принята с уровнем значимости α=0,1.
§ 6.10. Лабораторная работа № 6.
Критерии согласия в cтатистическом пакете Statgraphics
Критериями согласия называют статистические критерии,
предназначенные для проверки согласия опытных данных и теоретической модели. К сожалению, все изложенные в § 6.9 методы без
ограничения могут быть применены только к простым гипотезам.
Более трудной, но и более важной для приложений является
проверка гипотезы о том, что данная выборка подчиняется определенному параметрическому закону распределения. Параметры этого закона остаются неопределенными, так что гипотеза сложная.
Существуют статистики для проверки таких гипотез, являющиеся функциями неизвестных параметров распределений. Используются и модификации известных нам статистик, например,
статистики χ2-Пирсона и Dn Колмогорова, их свойства во многом
повторяют отмеченные ранее свойства аналогичных статистик для
простых гипотез, однако, распределения все же иные. В целом, при
справедливости исходной гипотезы модифицированные статистики для сложных гипотез принимают существенно меньшие значения, чем соответствующие статистики для простых. Это приводит
к тому, что уровень значимости статистик для сложной гипотезы
всегда меньше уровня значимости этих статистик для простой гипотезы. Таким образом, если полученный уровень значимости для
простой гипотезы мал, то уровень значимости для сложной гипотезы еще меньше и эту гипотезу следует отвергать.
193
В пакете Statgraphics процедуры тестов согласия χ2 и Колмогорова находятся в разделе Describe→ Distribution Fitting (Подбор
распределений)→Probability Distribution, причем данные по обоим
тестам выводятся одновременно. Число распределений, которые
могут быть использованы равно 46.
Опишем этапы и последовательность действий при использовании тестов согласия в пакете Statgraphics. Итак, после выбора
пункта основного меню Describe →Distribution Fitting→Probability
Distribution появляется подменю подбора распределений, в котором надо выбрать нужное распределение, причём нормальное –
№36 помечено по умолчанию. Рассмотрим в качестве исходной
нормальную выборку объемом 100 единиц с параметрами mX=6,
DX=10 (σX=3,162) под именем NORM из предыдущей лабораторной
работы. Щёлкнем по кнопке ОК и в подменю Normal Options зададим эти параметры, далее в подменю Tables and Graphs выберем все
табличные и графические опции. Сохраним полученную нормальную выборку под именем NORM.
Далее приступим к использованию тестов согласия. Вызовем
Describe→Distribution Fitting→Fitting Uncensored Data. После выбора в графе Data подменю Distribution Fitting (Uncensored Data)
пометим нормальное распределение в подменю Distribution Fitting
Optios и щёлкнем по кнопке ОК. В подменю Tables and Graphs пометим следующие пункты: Analysis Summary (Сводка анализа), Test
for Normality (Тест на нормальность), Goodness of-Fit-Tests (Критерии согласия), Tail Areas (Площади хвостов), Critical Values (Критические значения), Density Trace (График функции плотности вероятности), Frequency Histogram (Гистограмма частот) и Quantile
Plot (График квантилей). Информация о результатах работы этих
процедур по выборке NORM приведена на рис. 6.25 и 6.26, графики
приведены в конце лабораторной работы (см. рис. 6.30).
Analysis Summary (Сводка анализа) указывает объем выборки,
ее экстремальные значения и оценки математического ожидания
и дисперсии.
Test for Normality (Тест на нормальность) содержит вычисленную по критерию согласия χ2-Пирсона статистику проверки нуле-
æ x - mX ö÷
÷ и ее уровень значимости. Для
вой гипотезы H0 : F (x) = Φ ççç
çè σ X ÷÷ø
этого нужно щёлкнуть правой кнопкой мышки и, вызвав пункт
Pane Options, в дополнительном меню Test for Normality задать
соответствующий метод (см. рис. 6.23). Далее следует статистика
194
теста Шапиро – Уилкса и данные по
асимметрии и эксцессу. Эти данные
не имеют отношения к рассмотренной
нами теории.
Goodness-of-Fit-Tests
(Критерии
согласия) приводят данные по критериям χ2-Пирсона и Колмогорова.
В этом разделе также нужно, вызвав Рис. 6.23. Задание процедур
пункт Pane Options, в дополнительпроверки теста
ном меню Goodness of-Fit-Tests зана нормальность
дать нужный метод, как показано
на рис. 6.24. Результаты теста (критерия согласия) приведены
на рис. 6.25. В двух первых столбцах таблицы результатов Lower
Limit и Upper Limit указаны нижние и верхние границы интервалов группировки. В столбце Observed Frequency представлены
наблюдаемые частоты, а в столбце Expected Frequency – частоты
подобранного гипотетического распределения. Столбец Chisquare
содержит значения слагаемых формулы (6.9.1) для каждого интервала группировки. Нижняя строка включает значение статистики
χ2, число степеней свободы d.f. (Degree of Freedom) и уровень значимости p-Value. Результаты критерия Колмогорова даны в маленькой таблице внизу рисунка.
Число интервалов в данной версии пакета Statgraphics рассчитывается и задаётся автоматически. Оно корректируется с учетом
обеспечения условий применимости аппроксимации распределения статистики с помощью распределения χ2. Кроме того, для
Рис. 6.24. Задание процедур критерия согласия
195
Рис. 6.25. Результаты проверки теста на нормальность выборки
и критериев согласия c2 – Пирсона и Колмогорова
196
вычисления частот гипотетического распределения используются оценки матожидания и дисперсии по выборке. Это приводит к
тому, что истинный уровень значимости для сложной гипотезы несколько больше, чем вычисленное значение p-Value. Приближенный уровень значимости вычисленной статистики лежит между
квантилями χ2-распределения с k–3 и k–1 степенями свободы, где
k – число интервалов группировки.
Далее представлены результаты расчетов по критерию Колмогорова. Они включают значения статистик Колмогорова D+ (Estimated
Kolmogorov Statistic DPLUS) и D– (Estimated Kolmogorov Statistic
DMINUS), а также Dn (Estimated Kolmogorov Statistic DN) и минимальный уровень значимости последней статистики в случае простой гипотезы (Approximate p-Value).
Следует правильно интерпретировать большие численные значения уровней значимости в этих тестах. В критериях согласия используется правосторонний критерий значимости.
При этом заданному уровню значимости αзад соответствует критическая точка c2зад, являющаяся границей критической области ω
и области принятия решений W\ω. В пакете Statgraphics в тестах
согласия решается «обратная» задача: по вычисленному значению
статистики критерия χ2выч как критической точке находится соответствующая вероятность (p-Value) события P(χ2>χ2выч). Ясно, что
если статистика критерия попадает в область принятия решения
χ2выч∈W\ω и гипотезу H0 надо принять, значение p-Value всегда
больше изначально заданного уровня αзад, которое обычно мало
(0,1; 0,05; 0,01 и т. п.) (см. рис. 5.27).
Tail Areas (Площади хвостов) содержат значения функции распределения в пяти точках (см. рис. 6.26). Эти значения заполнены
по умолчанию, но их можно изменить, вызвав щелчком правой
кнопки мыши в поле заставки Tail Areas дополнительное меню и
выбрав в нем пункт Pane Options. Появится еще одно подменю Tail
Areas Options (рис. 6.28). Введем в соответствующие поля этого
подменю значения 3, 6, 9, 11 и 13.5. После щелчка по кнопке ОК
информация на заставке Tail Areas for NORM сменится на следующую (рис. 6.28).
Critical Values (Критические значения). В этой заставке вычисляются по заданному значению функции распределения (вероятности) p квантили tp этого распределения. Эта операция является
обратной по отношению к предыдущей процедуре Tail Areas. Необходимые значения вероятностей можно задать вызвав совершенно аналогичным образом подменю Critical Values Options (см.
197
Рис. 6.26. Значения F(x) и пяти критических точек
рис. 6.29). Зададим значения 0,01; 0,1; 0,5; 0,9 и 0,99. Этим вероятностям будут соответствовать квантили, показанные на рис. 6.26.
Наряду с чисто числовой информацией можно вывести на экран
дисплея несколько графиков. Мы в подменю Tables and Graphs
при использовании тестов согласия задавали три графика: Density
Trace, Frequency Histogram и Quantile Plot.
Density Trace (График эмпирической функции плотности) строит этот график по данным исходной нормальной выборки NORM
α выч
α зад
W\ω
2
χ выч
ω
χ2
зад
Рис. 6.27. Границы критических областей, определяемые
по заданному и вычисленному значению
198
Рис. 6.29. Окно диалога
для задания уровней
квантилей
Рис. 6.28. Окно диалога для задания
значений квантилей и их величины
(рис. 6.30). Даже на глаз видно, что график имеет отрицательную
асимметрию, т. е. более тяжелый левый «хвост» распределения.
Действительно, выборочный коэффициент асимметрии этой выборки равен –0,109.
Рис. 6.30. График эмпирической функции плотности
199
Рис. 6.31. График квантилей
Frequency Histogram (Гистограмма частот) в графическом виде
представляет таблицу частот выборки после группирования данных на заданном числе интервалов (рис. 6.32).
Quantile Plot (График квантилей) показывает график вычисленных по используемой выборке квантилей (см. рис. 6.31) вместе с наложенной на них функцией распределения нормального закона.
Задание 1. Выберите из табл. 6.7 вид гипотетического распределения и его параметры, смоделируйте соответствующую выборку
в пакете Statgraphics и проверьте с помощью критериев согласия
пакета соответствие статистического и гипотетического распределений с уровнем значимости α=0,1.
Рис. 6.32. Гистограмма частот
200
Таблица 6.7
Номер фамилии
в журнале
преподавателя
Вид
распределения
1–3
Рэлея
4–6
χ2-распределение
7–9
Коши
10–12
t-распределение
Стьюдента
13–15
16–18
Вейбулла
(классическое)
F-распределение
19–21
Нормальное
22–24
Гамма-распределение
Логнормальное
25–27
28–30
Параметры
распределения
Объем
выборки
a=(0,5·N)mod3+1,5, где é ù
x
y = (x)mod P ® y = x - P × ê ú ,
ê
P
[…] – операция деления ë úû
нацело, а N – порядковый
номер дня в месяце вашего
рождения
n – номер фамилии в журнале преподавателя, если n<5,
то n=n+5
μ=(N)mod5–4, λ=μ–3, если
λ<0, то λ=2,5
n – порядковый номер
месяца вашего рождения,
если n<6, то n=n+6
α=(N)mod5, λ=3
100
k1 – порядковый номер
месяца вашего рождения,
k2 – номер фамилии
в журнале преподавателя,
если k2>15, то k2=k2–10
m – порядковый номер
месяца рождения,
σ – номер фамилии
в журнале преподавателя
α=(N)mod5, β=2,8
100
m – порядковый номер
месяца рождения,
σ – номер фамилии
в журнале преподавателя
Экспоненциальное λ=(0,5·N)mod3+1
100
50
50
100
50
100
50
100
§ 6.11. Лабораторная работа № 6.
Критерии согласия в математическом пакете Mathcad
Как и в лабораторной работе №5 в пакете Mathcad вычисление
всех статистик тестов χ2-Пирсона и Колмогорова придется программировать. Исходная выборка может быть задана всеми наблюдени201
ями или в виде сгруппированных данных. Для получения конечного результата при использовании этих двух тестов, очевидно, необходимо составить следующие подпрограммы: получения вариационного ряда по исходной выборке, вычисления сгруппированной
выборки, исправления разрядов сгруппированной выборки по условию mi>5, вычисления статистик χ2-Пирсона и Dn Колмогорова, наконец, принятия решения о нулевой гипотезе H0. Ниже приводятся
тексты этих подпрограмм с необходимыми комментариями.
str ( x) :=
n ← rows ( x)
l ← cols ( x)
if l
2
for j ∈ i + 1 ..
n
return
x
for i ∈ 1 ..
n−1
a ← xi
if xj < xi
xi ← xj
x
xj ← a
Подпрограмма str упорядочивает исходную несгруппированную
выборку по возрастанию ее элементов. Используются две встроенные функции пакета Mathcad rows и cols, которые подсчитывают
количество строк и столбцов в матрице-аргументе.
Подпрограмма grupvib получает сгруппированную выборку по
исходной. Ее параметры: x – вектор исходной выборки, l – первоначальное число разрядов группировки. Выходные параметры: x1 –
вектор вариационного ряда, первый столбец матрицы x2 содержит
значения левых концов интервалов группировки, второй столбец –
значения правых концов, вектор m содержит частоты попадания
элементов выборки в образованные интервалы.
Подпрограмма interval исправляет сгруппированную выборку,
объединяя крайние интервалы, у которых mi≤5, в один. Ее параметры: матрица xi,j, содержащая первоначальную сгруппированную
выборку и вектор частот m. В результате работы подпрограммы
в матрице x1 находятся исправленные границы интервалов, вектор m1 содержит исправленные частоты, а переменная nnow равна
новой размерности вектора m. В подпрограмме использована встро202
203
grupvib ( x , l) :=
l
(x1n − x11)
 x1
 x2

 m
l
mj ← k




n
if i
1
k ← if(x1j > x2i , 2 , k , if(x1j < x2i , 1 , k , k + 1))
for j ∈ 1 ..
k←0
−5
x21 , 2 ← a + 10
a ← x2i , 2 + 10 − 5
x2i , 2 ← x2i , 1 + d − 10 − 5
x2i , 1 ← a
for i ∈ 1 ..
a ← x1l − 10 − 5
d←
x1 ← str ( x)
n ← rows ( x)
interval ( x , m) :=
n ← rows ( x)
nnow ← n
k←
n
2
k ← floor ( k)
for i ∈ 1 ..
k
j←n−i+1
if mi ≤ 5
xi + 1 , 1 ← xi , 1
mi + 1 ← mi + 1 + mi
mi ← 0
break
if mj ≤ 5
if i
j
xj −1 , 2 ← xj , 2
mj −1 ← mj −1 + mj
mj ← 0
k←0
for i ∈ 1 ..
if
n
mi > 10 − 3
k←k+1
x1k , 1 ← xi , 1
x1k , 2 ← xi , 2
m1k ← mi
nnow ← k
 x1
 m1

 nnow
204




χ2
( x , m , l) :=
k ← cols ( x)
if k
1
x2 ← grupvib ( x , l) 2
m ← grupvib ( x , l) 3
if k
x2 ← x
2
x1 ← interval ( x2 , m) 1
m1 ← interval ( x2 , m) 2
nnow ← interval ( x2 , m) 3
k←0
for i ∈ 1 .. nnow
k ← k + m1i
x2i , 1 ←
mx ←
1
⋅
k
Dx ←
1
⋅
k
σx
←
(x1i , 2 + x1i , 1)
nnow
∑
i = 1
nnow
∑
i = 1
2
(x2i , 1 ⋅ m1i)
(x2i , 1 − mx)2 ⋅ m1i
Dx
for i ∈ 1 .. nnow
pi ← pnorm(x1i , 2 , mx , σx ) − pnorm(x1i , 1 , mx , σx )
pi ← k ⋅ pi
χχ2
←
nnow
∑
i = 1
(m1i − pi)2
pi
 χχ2 


 nnow 
205
Dn ( x , m) :=
n ← rows ( x)
k ← cols ( x)
if k
1
x1 ← str ( x)
mx ← mean ( x)
Dx ← var ( x)
if k
σx
Dx
←
2
l←0
for i ∈ 1 ..
n
l ← l + mi
x1i ←
mx ←
1
⋅
l
Dx ←
1
⋅
l
σx
←
for i ∈ 1 ..
(xi , 2 + xi , 1)
2
n
∑
i = 1
n
∑
i = 1
(x1i ⋅ mi)
(x1i − mx)2 ⋅ mi
Dx
n
pi ← pnorm(x1i , mx , σx )
x1i ←
i
− pi
n
pi ← pi −
i−1
n
x2 ← stack ( x1 , p)
Dn ← max ( x2) ⋅
Dn
206
n
енная функция пакета Mathcad floor, вычисляющая наибольшее
целое, не превосходящее аргумент.
Подпрограмма χ2 вычисляет статистику критерия согласия
2
χ -Пирсона. Теоретические вероятности считаются по формуле
P(α≤X<β)=F(β)–F(α), где F – функция распределения генеральной
совокупности, откуда получена выборка. В приведенной программе F≡pnorm – функции распределения нормального закона. Кроме
того, в теле программы оцениваются два параметра нормального
закона mX и Dx. При необходимости исследовать выборку, подчиняющуюся другому закону распределения, эти операторы необходимо заменить на операторы, вычисляющие нужную функцию
распределения и требуемые ею неизвестные параметры этого распределения. Подпрограмма χ2 требует задания исходной выборки в
сгруппированной или не сгруппированной форме, вектора частот и
первоначального числа интервалов группировки.
Выходными параметрами подпрограммы являются числовое
значение статистики χ2-Пирсона и число интервалов исправленной
сгруппированной выборки.
Подпрограмма Pirson принимает решение о нулевой гипотезе.
Она очень проста, все ее операторы совершенно понятны и не требуют
комментариев. Встроенная функция qchisq вычисляет (1–α) % квантили χ2-распределения. Ее входные параметры аналогичны параметрам подпрограммы χ2, а α – уровень значимости нулевой гипотезы.
Подпрограмма Dn вычисляет статистику критерия согласия
Колмогорова. Здесь, также как и в подпрограмме χ2 для вычисления значений гипотетической функции распределения, использована функция распределения нормального закона pnorm. При
необходимости ее следует поменять вместе с операторами, оценивающими параметры нормального закона. Кроме того, в теле подпрограммы использованы следующие встроенные функции: mean
и var вычисляют оценки математического ожидания и дисперсии,
функция stack формирует одну матрицу из двух, располагая первую матрицу над второй, наконец, функция max находит наибольший элемент в матрице-аргументе.
Подпрограмма Kolm также как подпрограмма Pirson принимает
решение о принятии или отвержении нулевой гипотезы H0 с уровнем значимости α. (1–α) % квантили распределения Колмогорова
вычисляются линейным интерполированием с помощью встроенной функции linterp.
Сама программа использования тестов согласия χ2-Пирсона и
Колмогорова в пакете Mathcad может быть, например, такой.
207
208
ORIGIN:=1
α:=0.05
α=0.05
l:=10
l=10
n:=40
æ20÷ö
æ17ö÷
çç ÷
çç ÷
÷
çç11÷÷
çç21÷
çç ÷÷÷
çç ÷÷÷
çç 9 ÷÷
çç 8 ÷÷
çç ÷÷
çç ÷÷
çç19÷÷
çç20÷÷
çç ÷÷÷
÷
çç ÷÷
çç20÷÷
23
ç ÷
x1:= çç ÷÷÷ x2:= çç 9 ÷÷÷
çç18÷
çç ÷
çç19÷÷÷
çç ÷÷÷
çç ÷÷
çç22÷÷
çç17÷÷
çç ÷÷
çç ÷÷÷
çç20÷÷
çç21÷÷
çç ÷÷÷
çç ÷÷
çç17÷÷
çè13÷÷ø
çç ÷÷÷
è12ø
æ17ö÷
çç ÷
çç22÷÷
çç ÷÷÷
çç22÷÷
çç ÷÷
çç10÷÷
çç ÷÷÷
ç20÷
x3:= çç ÷÷÷
çç20÷
çç ÷÷÷
ççç15÷÷÷
çç19÷÷
çç ÷÷÷
çç20÷÷
çç ÷÷
çè20÷÷ø
æ13ö÷
çç ÷
çç21÷÷
çç ÷÷÷
çç21÷÷
çç ÷÷
çç 9 ÷÷
çç ÷÷÷
ç14÷
x4:= çç ÷÷÷
çç11÷
çç ÷÷÷
ççç19÷÷÷
çç18÷÷
çç ÷÷÷
çç23÷÷
çç ÷÷
çè19÷÷ø
æ1ö÷
çç ÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
ç1÷
m2:= çç ÷÷÷
çç1÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷÷
è1ø
æ1ö÷
çç ÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
ç1÷
m3:= çç ÷÷÷
çç1÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷÷
è1ø
æ1ö÷
çç ÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
ç1÷
m4:= çç ÷÷÷
çç1÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷÷
è1ø
æ1ö÷
çç ÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
ç1÷
m1:= çç ÷÷÷
çç1÷
çç ÷÷÷
çç1÷÷
çç ÷÷
çç1÷÷
çç ÷÷÷
çç1÷÷
çç ÷÷÷
è1ø
n=40
x:=stack(x1,x2)
x:=stack(x,x3)
x:=stack(x,x4)
m:=stack(m1,m2)
m:=stack(m,m3)
m:=stack(m,m4)
Подпрограмма stack здесь использована лишь для того, чтобы
сократить общую длину матрицы-столбца наблюдений x и матрицы-столбца частот m, длина которых 40 единиц. Далее должны следовать тексты всех семи приведенных подпрограмм.
a:=Pirson(x,m,l,α)
a="Н0 отвергается с заданным α"
b:=Kolm(x,m,α)
b="Н0 принимается с заданным α"
209
210
Вид
распределения
χ2-распределение
Экспоненциальное
Стьюдента
F-распределение
Гаммараспреде-ление
Нормальное
Номер фамилии
в журнале
препод.
1–5
6–10
11–15
16–20
21–25
26–30
1
ççè 2 ÷ø
n
æn ö
2 2 Γ ç ÷÷
x
,x > 0
f (x) =
n1 +n2
,
pF(x,n1,n2)
pt(x,n)
pexp(x,λ)
pchisq(x,n)
Функция
распределения
в пакете Mathcad
2pσ
1
e
2σ
2
(x-m)2
-
pnorm(x,m,σ)
pgamma(x,α+1)
1
xα e-x ,
Γ (α + 1)
æ
ö
çç1 + n1x ÷÷ 2
çè
2 ÷ø
β = 1, x > 0
f (x) =
x>0
f (x) = C
n1-2
x 2
æ
x2 ö÷ 2
ç
sn (x) = Bn çç1 + ÷÷÷
n ø÷
èç
n+1
e 2,
-1 -
f(x)=λe–λx, x>0
C=
kn (x) = C × x 2
n
Функция плотности
и параметры закона
m – порядковый номер дня рожд.,
σ2 – номер фамилии в журнале
α – порядковый номер месяца
рождения
n1 – ваш номер в журнале
преподавателя, n2 – поряд. номер дня
рождения
λ=(0.5·n), где
n – порядковый номер дня рождения
n – порядковый номер дня вашего
рождения
n – порядковый номер дня вашего
рождения
Числовые значения параметров
Таблица 6.8
Нулевая гипотеза в этой лабораторной работе должна быть сфорæ x - mX ö÷
÷÷. Таким обмулирована следующим образом: H0 : F (x) = Ô ççç
÷ø
çè σ
X
разом, с уровнем значимости α=0,05 исследуемая выборка не удовлетворяет нормальному закону по критерию хи-квадрат Пирсона.
Задание 2. Выбрать из табл. 6.8 вид гипотетического распределения и его параметры, смоделировать в пакете Mathcad выборку
объемом 100 единиц и проверить с уровнем значимости α=0,1 нулевую гипотезу H0: F=Fгипотет, исправив, если это необходимо, соответствующие операторы в подпрограммах χ2 и Dn.
§ 6.12. Лабораторная работа № 6.
Критерии согласия в математическом пакете Matlab
1) Подпрограммы, используемые в лабораторной работе
а) y=sort(x). Встроенная функция sort упорядочивает исходный массив по возрастанию, т. е. получает вариационный ряд. Используется вместо подпрограммы str в пакете Mathcad.
б) function [x1,x2,m]=grupvib(x,l)
%Функция получает сгруппированную выборку по исходной. Здесь
%х-вектор исходной выборки, l-первоначальное число разрядов груп%пировки. Выходные параметры: х1 – выриационный ряд, полученный
%по выборке, x2 – в первом столбце содержит значения левых концов
%интервалов группировки, во втором столбце значения правых концов,
%вектор m содержит частоты попадания элементов выборки в образо%ванные интервалы
b=10^-5;
n=length(x);
x1=sort(x);
d=(x1(n)-x1(1))/l;
a=x1(1)-b;
for i=1:l;
x2(i,1)=a;
x2(i,2)=x2(i,1)+d-b;
a=x2(i,2)+b;
if i==l
x2(i,2)=a+b;
end;
k=0;
211
10*b)
for j=1:n;
if (x1(j)<=x2(i,2)+10*b)&(x1(j)>=x2(i,1)k=k+1;
end;
end;
m(i)=k;
end;
end
в)
function [x1,m1,nnow]=interval(x,m)
%Подпрограмма исправляет сгруппированную выборку. Входные пара%метры: х-двухстолбцовая матрица, содержащая значения левых и
%правых концов интервалов, m-исходный вектор частот. Выходные па%раметры: х1-двухстолбцовая матрица исправленных интервалов, m1%вектор исправленных частот, nnow-число исправленных интервалов,
%nnow<=l (l-входной параметр функции grupvib).
n=length(x);
nnow=n;
k=n/2;
k=floor(k);
for i=1:k
j=n-i+1;
if m(i)<=5
x(i+1,1)=x(i,1);
m(i+1)=m(i+1)+m(i);
m(i)=0;
end;
if i==j
break;
end;
if m(j)<=5
x(j-1,2)=x(j,2);
m(j-1)=m(j-1)+m(j);
m(j)=0;
end;
end;
k=0;
for i=1:n
if abs(m(i)>10^-3)
k=k+1;
212
x1(k,1)=x(i,1);
x1(k,2)=x(i,2);
m1(k)=m(i);
end;
end;
nnow=k;
end
г)
function [chi2,nnow]=chi2Pirson(x,m,l)
%Подпрограмма chi2Pirson вычисляет статистику критерия хи-квадрат
%Пирсона. Входные параметры: х-вектор исходной выборки, m%количество отдельных наблюдений (обычно m(i)=1),
% l-первоначальное число разрядов группировки (задаётся).
%Выходные параметры: chi2 – значение статистики хи-квадрат Пирсона
%nnow-истинная размерность вектора частот наблюдений.
[k,k1]=size(x);
%Определены размерности массива х.
[x1,x2,m1]=grupvib(x,l);
if k1==2
x2=x;
end;
[xx1,mm1,nnow]=interval(x2,m1);
k=0;
for i=1:nnow
k=k+mm1(i);
x2(i,1)=(xx1(i,2)+xx1(i,1))/2;
end;
%Определено число наблюдений и середины разрядов группировки.
mx=0;
for i=1:nnow
mx=mx+x2(i,1)*mm1(i);
end;
mx=mx/k;
%Найдено матожидание по сгруппированной выборке.
Dx=0;
for i=1:nnow
Dx=Dx+(x2(i,1)-mx)^2*mm1(i);
end;
Dx=Dx/k;
%Найдена дисперсия по сгруппированной выборке.
sigmax=sqrt(Dx);
213
for i=1:nnow
p(i)=normcdf(xx1(i,2),mx,sigmax)normcdf(xx1(i,1),mx,sigmax);
p(i)=k*p(i);
end;
%Определены теоретические вероятности попадания наблюдений в
%i-ый интервал группировки. Здесь использована нормальная выборка,
%если закон распределения другой, необходимо поменять название
%интегральной функции распределения.
chi2=0;
for i=1:nnow
chi2=chi2+(mm1(i)-p(i))^2/p(i);
end;
end
д)
function Dn=DnKolm(x,m)
%Подпрограмма DnKolm вычисляет статистику критерия согласия
%Колмогорова. Входные параметры: х-вектор исходной выборки, m%вектор количества отдельных наблюдений. Выходной параметр: Dn%численное значение статистики Колмогорова.
[n,k]=size(x);
if k==1
x1=sort(x);
mx=mean(x1);
Dx=var(x1);
sigmax=sqrt(Dx);
end;
%Найдены mx и Dx по исходной одномерной выборке.
if k==2
mx=0;
l=0;
for i=1:n
l=l+m(i);
x1(i)=(x(i,2)+x(i,1))/2;
mx=mx+x1(i)*m(i);
end;
mx=mx/l;
%Определено матожидание по сгруппированной выборке.
Dx=0;
for i=1:n
Dx=Dx+(x1(i)-mx)^2*m(i);
end;
214
Dx=Dx/l;
%Определена дисперсия по сгруппированной выборке.
sigmax=sqrt(Dx);
end;
for i=1:n
p(i)=normcdf(x1(i),mx,sigmax);
%Для вычисления вероятностей наблюдений используется
%функция распределения нормального закона. Если закон
%другой, название функции распределения необходимо поменять.
x1(i)=i/n-p(i);
p(i)=p(i)-(i-1)/n;
end;
for i=1:n
x2(i)=x1(i);
x2(i+n)=p(i);
end;
Dn=max(x2)*sqrt(n);
end
е)
function [ckrit,cobs]=Pirson(x,m,l,alfa)
%Функция Pirson реализует критерий согласия хи-квадрат Пирсона,
%т. е. принимает решение о принятии или отвержении нулевой гипоте%зы H0:F(x)=F0(x). Входные параметры: х-вектор исходной выборки,
%m-вектор частот исходной выборки, l-первоначальное число разря%дов группировки, alfa-уровень значимости гипотезы H0. Выходные
%параметры: ckrit-статистика критерия хи-квадрат Пирсона, cobs-
%критическое значение критерия.
[cobs,nnow]=chi2Pirson(x,m,l);
k=nnow-3;
if k<1
disp(‘не хватает данных для критерия хи-квадрат
Пирсона’)
return;
end;
ckrit=chi2inv(1-alfa,k);
if cobs<ckrit
disp(‘гипотеза Н0 принимается с заданным уровнем
значимости’)
else
disp(‹гипотеза Н0 отвергается с заданным уровнем
значимости’)
215
end;
end
ж)
function [Dkrit,Dn]=Kolm(x,m,alfa)
%Функция Kolm реализует критерий согласия Колмогорова. Входные
%параметры: х-вектор исходной выборки, m-вектор частот исход%ной выборки, alfa-уровень значимости гипотезы Н0:F(x)=F0(x).
%Параметр l не задаётся, т. к. принято 20 интервалов для подсчё%та обратной функции распределения Колмогорова. Выходные пара%метры: Dn –статистика распределения Колмогорова, Dkrit-крити%ческое значение критерия.
Dn=DnKolm(x,m);
for i=1:20
arg(i)=0.1*i;
s=0;
for j=1:100
s=s+(-1)^j*exp(-2*j*j*(arg(i))^2);
end;
x1(i)=1+2*s;
end;
Dkrit=interp1(arg,x1,1-alfa);
if Dn<Dkrit
disp(‘гипотеза Н0 принимается с заданным уровнем
значимости’)
else
disp(‹гипотеза Н0 отвергается с заданным уровнем
значимости’)
end;
end
Далее следует текст основной программы.
>> clear
>> %Задание параметров нужного распределения и
>> %моделирование выборки наблюдений.
>> a=3.5;
>> n=100;
>> x=raylrnd(a,n,1);
>> %Выборка распределения Рэлея, мода а=3.5.
>> alfa=0.05;
>> l=10;
>> for i=1:n
m(i)=1;
end;
216
>> %Уровень значимости 0.05, первоначальное число
>> %разрядов сгруппированной выборки l=10.
>> [ckrit,cobs]=Pirson(x,m,l,alfa)
гипотеза Н0 отвергается с заданным уровнем значимости
ckrit =
7.8147
cobs =
13.8048
>> [Dkrit,Dn]=Kolm(x,m,alfa)
гипотеза Н0 отвергается с заданным уровнем значимости
Dkrit =
0.6686
Dn =
1.3435
Задание 3. Выберите из табл. 6.7 вид гипотетического распределения и его параметры, смоделируйте соответствующую выборку
в пакете Matlab и проверьте с помощью критериев согласия пакета соответствие статистического и гипотетического распределений
с уровнем значимости α=0,05.
§ 6.13. Лабораторная работа № 6.
Критерии согласия в математическом пакете Scilab
Здесь также как в системах Mathcad и Matlab необходимо использовать несколько функций, которые перегруппировывают выборку, посчитывают частоты наблюдений, строят статистики критериев и проверяют нулевые гипотезы.
Эти подпрограммы-функции необходимо набрать в текстовом
редакторе SciNotes и сохранить в соответствующем подготовленном каталоге. Вызов конкретной подпрограммы-функции в тело
основной программы происходит по команде exec(‘путь к файлу’).
Вместо функции sort, используемой в пакете Matlab, здесь применяется её аналог в Scilab: gsort(x,“g”,“i”).
function [x1,x2,m]=grupvibS(x,l)
//Подпрограмма grupvibS получает сгруппированную выборку, явля//ясь прямым аналогом подобной же программы в пакете Matlab.
//Входные и выходные параметры выполняют аналогичные функции.
n=length(x);
x1=gsort(x,"g","i");
d=(x1(n)-x1(1))/l;
b=1e-5;
a=x1(1)-b;
for i=1:l
x2(i,1)=a;
217
10*b) then
x2(i,2)=x2(i,1)+d-b;
a=x2(i,2)+b;
if i==l then
x2(l,2)=a+b;
end;
k=0;
for j=1:n
if (x1(j)<=x2(i,2)+10*b)&(x1(j)>=x2(i,1)k=k+1;
end;
end;
m(i)=k;
end;
endfunction
function [x1,m1,nnow]=intervS(x,m)
//Функция intervS вычисляет исправленные (окончательные) интер//валы сгруппированной выборки. Аналог функции interval пакета
//Matlab. Входные и выходные параметры имеют тот же смысл (см.
//функцию interval).
[n,n1]=size(x);
nnow=n;
k=n/2;
k=floor(k);
for i=1:k
j=n-i+1;
if m(i)<=5 then
x(i+1,1)=x(i,1);
m(i+1)=m(i+1)+m(i);
m(i)=0;
end;
if i==j then
break;
end;
if m(j)<=5 then
x(j-1,2)=x(j,2);
m(j-1)=m(j-1)+m(j);
m(j)=0;
end;
//Частоты исправлены.
end;
218
k=0;
for i=1:n
if abs(m(i))>10e-3 then
k=k+1;
x1(k,1)=x(i,1);
x1(k,2)=x(i,2);
m1(k)=m(i);
end;
end;
//Интервалы исправлены.
nnow=k;
endfunction
function Dn=DnKS(x,m)
//Функция DnKS вычисляет статистику критерия согласия Колмого//рова. Это аналог подпрограммы DnKolm в системе Matlab (см.
//функцию DnKolm).
[n,k]=size(x);
if k==1 then
x1=gsort(x,"g","i");
mx=mean(x1);
Dx=variance(x1);
sigmax=sqrt(Dx);
end;
//Найдены mx и Dx по исходной одномерной выборке.
if k==2 then
mx=0;
l=0;
for i=1:n
l=l+m(i);
x1(i)=(x(i,2)+x(i,1))/2;
mx=mx+x1(i)*m(i);
end;
mx=mx/l;
//Определено матожидание по сгруппированной выборке.
Dx=0;
for i=1:n
Dx=Dx+(x1(i)-mx)^2*m(i);
end;
Dx=Dx/l;
//Найдена дисперсия по сгруппированной выборке.
sigmax=sqrt(Dx);
end;
219
for i=1:n
xpr=x1(i);
[p1,q1]=cdfnor("PQ",xpr,mx,sigmax);
x1(i)=i/n-p1;
p(i)=p1-(i-1)/n;
end;
//Для вычисления вероятностей наблюдений используется функция
//распределения нормального закона. Если закон другой, нужно
//взять нужную функцию распределения.
for i=1:n
x2(i)=x1(i);
x2(i+n)=p(i);
end;
Dn=max(x2)*sqrt(n);
endfunction
function [chikrit,chiobs]=PirsS(x,m,l,alfa)
//Данная функция вычисляет статистику критерия хи-квадрат Пирсо//на и реализует сам критерий согласия. Аналог подпрограммы
//Pirson в системе Matlab (см. функцию Pirson).
[chiobs,nnow]=chi2PS(x,m,l);
k=nnow-3;
if k<1 then
disp(‘Не хватает данных для критерия хиквадрат Пирсона’)
return;
end;
q=alfa;
p=1-alfa;
chikrit=cdfchi("X",k,p,q);
if chiobs<chikrit then
disp(‘Гипотеза Н0 принимается с заданным
уровнем значимости alfa’)
else
disp(‘Гипотеза Н0 отвергается с заданным
уровнем значимости alfa’)
end;
endfunction
function [Dkrit,Dn]=KolmS(x,m,alfa)
//Функция KolmS обслуживает критерий согласия Колмогорова,
//являясь аналогом подпрограммы Kolm в системе Matlab (см. под//программу Kolm).
220
Dn=DnKS(x,m);
for i=1:20
arg(i)=0.1*i;
S=0;
for j=1:100
S=S+(-1)^j*%e^(-2*j*j*(arg(i)^2));
end;
x1(i)=1+2*S;
end;
p=1-alfa;
Dkrit=interp1(arg,x1,p,’linear’);
if Dn<Dkrit then
disp(‘Гипотеза Н0 принимается с заданным
уровнем значимости alfa’)
else
disp(‘Гипотеза Н0 отвергается с заданным
уровнем значимости alfa’)
end;
endfunction
function [chi2,nnow]=chi2PS(x,m,l)
//Функция chi2PS вычисляет статистику критерия хи-квадрат
//Пирсона. Это аналог подпрограммы chi2Pirson в системе Matlab
//(см. эту подпрограмму).
[k,k1]=size(x);
[x1,x2,m1]=grupvibS(x,l);
if k1==2 then
x2=x;
end;
[xx1,mm1,nnow]=intervS(x2,m1);
k=0;
for i=1:nnow
k=k+mm1(i);
x2(i,1)=(xx1(i,2)+xx1(i,1))/2;
end;
//k-число наблюдений в i-ом разряде, x2(i,1)-середина i-го разряда.
mx=0;
for i=1:nnow
mx=mx+x2(i,1)*mm1(i);
end;
mx=mx/k;
//Определено матожидание сгруппированной выборки.
221
Dx=0;
for i=1:nnow
Dx=Dx+(x2(i,1)-mx)^2*mm1(i);
end;
Dx=Dx/k;
//Найдена дисперсия по сгруппированной выборке.
sigmax=sqrt(Dx);
for i=1:nnow
xpr=xx1(i,2);
[p1,q1]=cdfnor("PQ",xpr,mx,sigmax);
xl=xx1(i,1);
[p2,q2]=cdfnor("PQ",xl,mx,sigmax);
p(i)=(p1-p2)*k;
end;
//Использован нормальный закон для вычисления вероятности вида
//P=F(beta)-F(alfa). Если это не так, то в данном цикле нужно
//вычислять вероятность попадания в интервал по нужному зако//ну распределения.
chi2=0;
for i=1:nnow
chi2=chi2+(mm1(i)-p(i))^2/p(i);
end;
endfunction
//Далее следует текст основной программы.
-->clear
-->exec(‘C:\Users\Сергей\Documents\labrabS\
grupvibS.sci›)
//Текст подпрограммы-функции grupvibS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
intervS.sci›)
//Текст подпрограммы-функции intervS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
chi2PS.sci’)
//Текст подпрограммы-функции chi2PS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
PirsS.sci’)
//Текст подпрограммы-функции PirsS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
KolmS.sci’)
//Текст подпрограммы-функции KolmS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
222
DnKS.sci’)
//Текст подпрограммы-функции DnKS.
-->n=100;
-->lambda=3.1;
-->x=grand(n,1,"exp"lambda);
-->//Выборка экспоненциального распределения, среднее 3.1.
-->alfa=0.1;
-->l=10;
-->for i=1:n
-->m(i)=1;
-->end;
-->//Частоты наблюдений равны 1, начальное число разрядов
-->//сгруппированной выборки 10, уровень значимости 0.1.
-->[crit,cobs]=PirsS(x,m,l,alfa)
Гипотеза Н0 отвергается с заданным уровнем значимости alfa.
cobs =
78.809134
crit =
2.7055435
-->[Dkrit,Dn]=KolmS(x,m,alfa)
Гипотеза Н0 отвергается с заданным уровнем значимости alfa.
Dn =
1.9094961
Dkrit =
0.6072693
Задание 4. Выберите из табл. 6.7 вид гипотетического распределения и его параметры, смоделируйте соответствующую выборку
в пакете Scilab и проверьте с помощью критериев согласия пакета
соответствие статистического и гипотетического распределений
с уровнем значимости α=0,1.
223
7. МЕТОД ГЛАВНЫХ КОМПОНЕНТ МГК
(PRINCIPAL COMPONENT ANALYSIS PCA)
§ 7.1. Математические основы метода главных компонент
Метод главных компонент был предложен К. Пирсоном в 1901 г.
Это наиболее распространённый подход к снижению размерности
исходных данных и выделению значимой информации из них, визуализации данных, выделению шумов, диагностирования и т. п.
Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных.
Вычисление главных компонент связано с вычислением собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда в литературе метод называют
преобразованием Кархунена-Лоэва [2, 7, 8, 9].
В практике статистических расчётов встречаются ситуации,
когда исходные наблюдения представимы в виде
æ x(1) ö÷
çç i ÷
çç (2) ÷÷
ç x ÷÷
xi = ççç i ÷÷÷, i = 1,n, çç ... ÷÷
÷÷
çç
çèxi( p) ÷÷ø
(7.1.1)
причём i и p велики. Здесь p – число признаков, присущих наблюдаемым объектам. В таких случаях число признаков стараются
снизить без существенной потери информативности наблюдений.
Таким образом, наблюдения представляются в виде
æ z(1) ö÷
çç i ÷
çç (2) ÷÷
ç z ÷÷
zi = ççç i ÷÷÷, i = 1,n, p/ << p. çç ... ÷÷
çç / ÷÷
ççz( p ) ÷÷÷
è i ø
(7.1.2)
Желание снизить количество признаков, от которых зависят наблюдения, обусловлено следующими основными причинами:
а) возможностью наглядного представления данных (их визуализацией) путём проецирования наблюдений в пространство меньшей размерности (k=1, 2, 3);
224
б) необходимостью сжатия объёма исходной информации без существенных потерь в её информативности;
в) желанием упростить исследуемую модель наблюдений и стремлением к упрощению интерпретации статистических выводов.
¢
Новые признаки z(1) , z(2) ,..., z( p ) могут выбираться из числа исходных признаков или определяться по какому-то правилу, чаще
всего как линейные комбинации исходных. Имеется несколько
объективных причин, делающих возможным такое преобразование признаков, а именно:
а) дублирование информации, т. е. её представление сильно зависимыми (взаимосвязанными) признаками;
б) малая информативность, доставляемая зависимыми признаками и ведущая к избыточности наблюдений;
в) суммирование однотипной информации по разным признакам (агрегирование информации).
Итак, метод главных компонент осуществляет линейное преобразование исходной системы признаков, которое уменьшает их
число и приводит к главным компонентам.
æx(1) x(2) ... x( p) ö÷
çç 1
1
1 ÷÷
çç (1)
÷
(2)
ççx2
x2
... x2( P) ÷÷÷
Пусть имеется исходная матрица Xi×p: X = çç
÷,
... ... ... ÷÷÷
çç ...
÷÷
çç
çèx(1) x(2) ... x( p) ø÷÷
i
i
i
где p – число независимых переменных (признаков), а i – число наблюдений (образцов). В методе главных компонент используются
новые переменные z, которые являются линейными комбинациями старых:
p
z p¢ = l(p1¢) × x1 + ... + l(pp¢ ) × x p = å lkp¢ × xk (7.1.3)
k=1
или в матричной форме Z=L·X. Строки матрицы L удовлетворяют
условиям ортогональности. Полученные таким образом переменные z p¢ называются главными компонентами вектора наблюдений
x, причём p ¢ << p.
Таким образом, первой главной компонентой z p¢ (x) исходных
признаков x называется такая нормированная и центрированная
линейная комбинация этих признаков, которая среди всех прочих
подобных линейных комбинаций обладает наибольшей дисперсией.
Аналогично, k-й главной компонентой вектора x называется такая нормированная и центрированная линейная комбинация этих
225
признаков, некоррелированная с k–1 предыдущими главными
компонентами, которая среди всех прочих линейных комбинаций
обладает наибольшей дисперсией.
По переменным z матрица X разлагается в произведение двух
матриц Z и L
p¢
X = Z × LT + E = å zi × li( p) + ei( p) . (7.1.4)
i=1
В формуле (7.1.4) матрица Z называется матрицей счетов, а
матрица L – матрицей нагрузок, E – матрицей остатков. При данном разложении существенно понижаются размерности матриц
в правой части формулы (7.1.4). Исходная матрица X заменяется
матрицами Z и L, размерность которых меньше, чем у X. Матрица Z несёт в себе информацию об исходной выборке на основе главных компонент, при этом она меньше и проще, чем X. Поскольку
главные компоненты независимы (ортогональны), то матрица Z не
перестраивается при увеличении числа компонент, к ней прибавляются ещё столбцы, соответствующие новым компонентам.
Разложение (7.1.4) можно представить графически следующим
образом:
Lp¢
L1
X = Z1
+...+ Zp
+ E
Для вычисления главных компонент воспользуемся итеративным рекуррентным алгоритмом, который на основании формулы
(7.1.4) выделяет на каждом шаге одну компоненту. Прежде всего,
перед применением метода данные обычно центрируются и нормируются, т. к. исходные p признаков чаще всего неоднородны,
поэтому данные иногда измеряются даже в разных шкалах: количественных, порядковых, номинальных и могут быть представлены в абсолютных или относительных единицах. Предварительная
подготовка данных не нужна, если есть уверенность, что матрица
исходных данных X однородна и гомоскедастична, но это бывает
крайне редко.
Центрирование происходит по каждому признаку, т. е. по каждому столбцу матрицы X: xi,j = xi,j - mj , mj =
226
1 n
× å xk,j , j = 1, p.
n k=1
Ситуация с нормированием аналогична. Каждый j-ый столбец
матрицы X делится на своё среднеквадратическое отклонение.
2
1 n
× å (xk,j - mj ) , j = 1, p,
n k=1
σ j = Dj =
x i,j =
(xi,j - mj )
σj
, i = 1,n, j = 1, p.
Сама вычислительная часть алгоритма NIPALS (Nonlinear
Interactive Partial Least Squares) такова [10]. Пусть X(0) – центрированная и нормированная исходная матрица наблюдений X, p –
общее количество главных компонент, k – номер искомой главной
компоненты. Положим в начале k=0.
1. k=k+1. В качестве начального приближения Z(0) выбирается
такой столбец матрицы X(0), который имеет наибольшую сумму
квадратов элементов.
2. Уточняется приближение вектора нагрузок L(k) для данной
главной компоненты путём проекции матрицы X(k–1) на Z(k) т. е.
n
(k)
æ (k)T
å ççèzj
(k-1)
Z ×X
k
j=1
(k)
L( )T =
или li T =
(k)T (k)
Z
×Z
(
)
n
å(
j=1
(k)
li
p
æ (k) ö÷2
÷ø
å ççèlj
j=1
(k-1) ö
× xj,i ÷÷
ø
(k )
zj
2
)
, i = 1, p.
3. Нормировка вектора L(k) для того, чтобы избежать вычисли(k)
k
li
L( )
(k)
k
тельных погрешностей L( ) =
или li =
, i = 1, p.
1
p
2
æ
ö
k
( )
k
k
L( )T × L( ) 2
å ççèlj ÷÷ø
(
)
j=1
, i = 1, p.
4. Уточнение вектора счетов Z(k) для данной главной компоненты путём проекции матрицы X(k-1) на L(k)
p
(k)
å (xj,i × li )
(k-1) (k)
X
×L
(k) j=1
k
Z( ) =
, i = 1,n.
или zi = p
(k)T (k)
æ (k) ö÷2
L
×L
å ççèlj ÷ø
(
)
j=1
227
5. Вычисление приближения очередного собственного значения
n
æ (k) ö2
k
k
k
(k)
λ( ) = Z( )T × Z( ) или λ = å ççzj ÷÷ .
è
ø
j=1
6. Проверка сходимости процесса NIPALS |λ(k)–λ(k–1)|<ε·|λ(k)–
(k+1)
λ
|, где ε=const, например ε=0,001. Если это неравенство выполняется, то для данной главной компоненты итерация на очередном
шаге сошлась, тогда Z(k)= Z(k) на данной итерации, если нет, то
нужно перейти на пункт 2.
k
k-1
7. Вычитание вклада текущей главной компоненты X( ) = X( ) - Z(
(k)
(k)
(k) (k )
k
k-1
k
k
X( ) = X( ) - Z( ) × L( )T или xi,j = xi,j - zi × lj , i = 1,n, j = 1, p. Если
k<p, то переход на пункт 1 для определения следующей главной
компоненты, если же k≥p, то конец алгоритма.
Разложение матрицы X по методу главных компонент связано
сингулярным разложение исходной матрицы наблюдений. Поэтому для матрицы счетов Z имеет место соотношение
ZT × Z = Λ = diag {λ1, λ2 ,...λ p }, (7.1.5)
n
æ (k) ö2
k
где λi – собственные значения, причём λ1≥λ2≥…≥λp и λ( ) = åççzi ÷÷ , k
è
ø
i=1
n
2
æ (k) ö
k
λ( ) = åççzi ÷÷ , k = 1, p.
è
ø
i=1
Метод главных компонент можно интерпретировать как проектирование исходных данных на подпространство меньшей размерности, когда наблюдения xi,j проектируются на подпространство
размерности p. Исходная матрица X(n×p) заменяется матрицей счетов Z(n´p¢). Возникающие при этом остатки E(n×p) рассматриваются
как случайный шум.
Матрица счетов Z даёт проекции исходных наблюдений
(n-мерных векторов x1, x2,…, xp) на p-мерное подпространство главных компонент. Базис в подпространстве главных компонент образуют векторы z1, z2,…, zp. Столбцы матрицы Z ортогональны.
Матрица нагрузок L – это матрица перехода из исходного
n-мерного пространства наблюдений x1, x2,…, xn в p – мерное пространство главных компонент. Каждая строка матрицы L содержит коэффициенты, связывающие переменные z и x (см. формулу
7.1.3), например j-ая строка lj,1, lj,2,…, lj,p – проекция всех переменных x(1), x(2),…, x(p) на j-ю ось главных компонент.
228
Вектор нагрузок L(k) k-й главной компоненты определяет направление новой оси, вдоль которой происходит изменение данных. k+1-я главная компонента ортогональна k-й и её направление
соответствует наибольшему изменению в остатках.
На каждом шаге декомпозиции исходной матрицы наблюдений
X образуется матрица остатков E=X–Z·LT. Рассмотрим их геометрическую интерпретацию в подпространстве признаков (переменных) разной размерности. Каждое наблюдение xi , i = 1,n (i-я строка в матрице X) можно представить вектором в p-мерном пространстве признаков. Пусть p=3 и p ¢ = 2, тогда вектор x(p) в трёхмерном
пространстве признаков проектируется на двумерное пространство
признаков, т. е. в пространство двух главных компонент в виде векT
( p ¢)
( p)
( p ¢)
тора x . Разница ei = xi - xi = (x1, x2 ,..., x p ) – вектор остатков, который занимает i-ю строку в матрице E. По матрице E можно рассчитать характеристики точности приближения исходных
наблюдений главными компонентами (см. рис. 7.1).
p
Величина di = å ei2,j равна квадрату расстояния между вектоj=1
p
1
( p ¢)
рами x(p) и x , т. е. di=|ei|2, а величина Di = × å ei2,j – это оценка
p
X(3)
j=1
X (p)
Z (2)
e
X (2)
X
( p ¢)
Z (1)
X(1)
Рис. 7.1. Проектируемые вектора в МГК
229
λ
D1
1,0
0,5
P¢
0
1
2
3
4
P¢
5
0
Рис. 7.2. График изменения
объяснённой дисперсии
1
2
4
3
5
Рис. 7.3. График собственных
чисел
дисперсии i-го отрезка (т. е. i-й строки матрицы X). Оценка общей
дисперсии равна D =
1 n
× å di .
n i=1
Выбор правильного числа главных компонент часто проводят
эмпирически по изменению относительной доли суммарной дисперсии исследуемых признаков, обусловленной первыми p ¢ главными компонентами, в зависимости от числа p ¢. В этом случае
используется так называемая объяснённая дисперсия остатков
n
p¢
åå ei2,j
D1 = 1 -
i=1 j=1
n p
åå
i=1 j=1
. Подобного же результата можно добиться, оце-
xi2,j
нивая относительную долю собственных чисел в зависимости от чисn
ла учтённых главных компонент, т. е. величины λ i = å zi2,j , j = 1, p.
i=1
Нулевое собственное значение λ0 определяется как сумма всех собp
n
p
ственных значений λ0 = å λ j = åå xi2,j . В результате получаютj=1
i=1 j=1
ся следующие графики (см. рис. 7.2 и 7.3).
230
§ 7.2. Лабораторная работа № 7.
Метод главных компонент в статистическом пакете
Statgraphics
Рассмотрим применение метода главных компонент (МГК) в пакете Statgraphics на примере сравнительной оценки автомобилей.
Исходные данные в сокращённом варианте взяты из книги [11].
Итак, исходное пространство признаков пятимерное p=5, количество наблюдений n=16. Для запуска программы МГК в меню
Statgraphics выбираем Describe/Multivariate Methods/Principal
Components или другие пункты в разных версиях пакета, но последняя ссылка должна быть Principal Components.
В появившемся окне задания переменных переносим в графу
дата все данные об исходных признаках: Ves, Yskorenie, Ob_em,
Motshnost, Kolchil и нажимаем кнопку ОК. Появляется дополнительное меню МГК Principal Component Options, в котором следует
оставить галочку в позиции Standardize и поставить точку в позиции Number of Components (см. рис. 7.4).
Таблица 7.1
Характеристики марок автомобилей
№
Модель
Вес
Ускорение
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Volkswagen
Ford
Mazda
Honda
Chevrolet
Toyota
Audi
Peugeot
Volkswagen
Ford
Mazda
Honda
Chevrolet
Toyota
Audi
Peugeot
1985
1800
1985
1800
3155
2560
2830
3410
1990
2890
1975
1760
2595
1968
2188
3230
21,5
14,4
19,4
16,4
18,2
14,2
15,9
15,8
14,9
17,2
15,2
16,1
11,3
18,8
15,8
20,4
Объём
Количество
Мощность
цилиндров
цилиндров
90
98
78
91
200
134
131
163
89
140
86
81
173
89
97
141
48
66
52
60
95
95
103
133
71
88
65
65
115
60
78
116
4
4
4
4
6
4
5
6
4
4
4
4
6
4
4
4
231
Рис. 7.4. Меню задания начальных опций МГК
В появившемся дополнительном меню Tables and Graphs следует задать все таблицы и следующие графики: Scree Plot, 2D Biplot,
3D Biplot.
В левой половине экрана выводятся три таблицы: Principal
Components Analysis, Table of Component Weights и Table of
Principal Components. В первой таблице перечисляются первичные признаки, которые и подергаются анализу по МГК и указывается количество наблюдений. Затем следуют собственные значения главных компонент, упорядоченные по величине (столбец
Eigenvalue), процент дисперсии, приходящейся на каждую выделенную главную компоненту (столбец Percent of Variance) и накопленный процент дисперсии (столбец Cumulative Percentage). По
данным этой таблицы уже две первые главные компоненты описывают почти 90% дисперсии исходных данных.
Principal Components Analysis
Data variables:
ves
Yskorenie
Ob_em
Motshnost
Kolchil
Data input: observations
Number of complete cases: 16
Missing value treatment: listwise
Standardized: yes
Number of components extracted: 5
232
Principal Components Analysis
Component
Percent of
Cumulative
Number
Eigenvalue
Variance
Percentage
1
2
3
4
5
3,44369
1,0561
0,36884
0,111501
0,0198657
68,874
21,122
7,377
2,230
0,397
68,874
89,996
97,373
99,603
100,000
Вторая таблица – это матрица компонентных весов, т. е. массив
LT (см. формулу (7.1.2)) или матрица нагрузок. Эта матрица показывает, какие переменные и как связаны друг с другом и как влияют друг на друга.
Table of Component Weights
ves
Yskorenie
Ob_em
Motshnost
Kolchil
Component
Component
Component
Component
Component
1
2
3
4
5
0,487849 0,351033 –0,328172 –0,00667277 –0,728724
–0,153135 0,923638
0,199953
0,142951
0,251052
0,514912 0,0826061 0,172056
–0,77445
0,314111
0,505475 –0,0256159 –0,498049
0,444261
0,546277
0,466813 –0,127239 0,758067
0,427059
–0,0940782
В первой главной компоненте примерно одинаковое влияние
имеют вес, объём двигателя, мощность и количество цилиндров, во
второй решающее значение имеет ускорение и заметное значение
вес, в третьей компоненте главное значение имеет количество цилиндров, этому признаку противопоставляется примерно одинаковое влияние веса и мощности.
Первая главная компонента – это линейная комбинация признаков, обладающая наибольшей дисперсией. Геометрически эта
компонента выглядит как новая ось РС1, ориентированная вдоль
направления наибольшей вытянутости эллипсоида рассеивания
наблюдений в p ¢ -мерном пространстве (см. рис. 7.1). Все последующие компоненты имеют наибольшую дисперсию среди остатков,
некоррелированные с предыдущими компонентами и перпендикулярны им.
Третья таблица – это матрица счетов (массив Z). Она даёт нам
проекции исходных наблюдений (p-мерных векторов x1, x2,…, xn)
на подпространство главных компонент ( p ¢ -мерное), строки z1,
233
z2,…, zn матрицы Z – это координаты исходных наблюдений в новой системе координат, столбцы z1, z2 ,..., z p¢ матрицы Z представляют собой проекции всех наблюдений на координатные оси, соответствующие главным компонентам.
Table of Principal Components
Component
Component
Component
Component
Component
Row
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
–1,93616
–1,20578
–1,89599
–1,53985
2,85568
0,530755
1,35411
3,46845
–1,09544
0,573428
–1,28676
–1,5937
2,81226
–1,56509
–0,729494
1,25359
1,55059
–1,10725
0,768164
–0,400322
0,974937
–0,658344
–0,0532824
0,153819
–0,835301
0,676475
–0,737686
–0,559537
–1,92243
0,558835
–0,379851
1,97117
0,741584
–0,0184852
0,445386
0,222341
1,25127
–0,87877
–0,142737
0,00240161
–0,229055
–0,664694
–0,0930468
0,078371
0,524567
0,301972
–0,374774
–1,16633
0,0208479
–0,219968
0,221476
–0,0701048
–0,567491
–0,473151
0,344401
0,723397
0,078295
–0,551278
0,0517836
0,207107
–0,0374233
0,102103
0,0837638
0,0862417
0,0793135
0,0804415
–0,139149
0,0874991
–0,0473827
0,00859508
–0,141506
–0,099596
–0,082689
–0,214638
–0,188428
0,133911
0,206322
0,0883829
–0,0321962
0,261118
Обратимся теперь к графикам. Первый из них Scree Plot показывает значение собственных чисел корреляционной матрицы наблюдений. Этот график используется для определения количества
главных компонент.
Наконец, два последних, рекомендуемых к просмотру графиков, несут в себе информацию, полезную для понимания того, как
устроены данные. Каждое исходное наблюдение изображается в координатах PC1, PC2,…, PCp ¢, причём близость двух точек означает
их положительную корреляцию, диаметрально противоположное
положение – отрицательную корреляцию.
На рисунке в осях РС1-РС2 выделяется группа из девяти наблюдений в левой части графика. Для этой группы характерны сравнительно небольшие вес, объём двигателя, мощность и количество
цилиндров. В то же время автомобили этой группы обладают хо234
рошим ускорением. Центральная группа содержит четыре наблюдения. Автомобили этой группы также сильно меняются по шкале
ускорение, остальные параметры изменяются не столь выражено.
Наконец, третья группа из трёх наблюдений имеет большое количество цилиндров и вес (см. рис. 7.5).
Аналогичные выводы можно сделать и из трёхмерного графика
в осях РС1-РС2-РС3.
Задание 1. Выписать из табл. 7.2 данные о характеристиках
автомобилей длиной 20 строк, причём адрес начальной строки
табл. 7.2, т. е. адрес начальной строки вашего варианта рассчитать
éNù
по формуле nom = n + ê ú , где n – порядковый номер дня в месяце
êë 2 úû
вашего рождения, а N – номер вашей фамилии в журнале преподавателя. По полученным данным провести выделение и анализ главных компонент в статистическом пакете Statgraphics.
Scree Plot
Eigenvalue
4
3
2
1
1
2
3
Component
Component 2
4 Yskorenie
3
4
Biplot
Biplot
2
ves
1
Ob_em
0
Motshnost
Kolchil
-1
-2
5
-2
-1
0
1
2
Component 1
3
4
Component 3
0
2,7
1,7
Yskorenie Kolchil
Ob_em
0,7
-0,3
-1,3
ves
4
Motshnost
23
0 1Component 2
-2 -1 0 1
-1
2 3 4 -2
Component 1
Рис. 7.5. Графики счетов
235
Таблица 7.2
Данные о характеристиках автомобилей
№
Модель
Вес
Ускорение
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
Volkswagen
Ford
Mazda
Datsun
Honda
Oldsmobile
Dodge
Mercury
Pontiac
Chevrolet
Ford
Ford
Plymouth
Buick
Mercury
Dodge
Chevrolet
Buick
Ford
Dodge
Chevrolet
Toyota
Datsun
Dodge
Toyota
Plymouth
Oldsmobile
Datsun
Audi
Volvo
Peugeot
Volkswagen
Honda
Pontiac
Mercury
Ford
Dodge
1985
1800
1985
2070
1800
3365
3735
3570
3535
3155
2965
2720
3430
3380
3070
3620
3425
3445
3205
4080
2155
2560
2300
2230
2515
2745
2855
2405
2830
3140
3410
1990
2135
3245
2990
2890
3360
21,5
14,4
19,4
18,6
16,4
15,5
13,2
12,8
19,2
18,2
15,8
15,4
17,2
15,8
16,7
18,7
13,2
13,4
11,2
13,7
16,5
14,2
14,7
14,5
14,8
16,7
17,6
14,9
15,9
13,6
15,8
14,9
16,6
15,4
18,2
17,2
16,6
236
Объём
Количество
Мощность
цилиндров
цилиндров
90
98
78
85
91
260
318
302
231
200
200
140
225
231
200
225
305
231
302
318
98
134
119
105
134
156
151
119
131
163
163
89
98
231
200
140
225
48
66
52
70
60
110
140
139
105
95
85
88
100
105
85
110
145
165
139
140
68
95
97
75
95
105
85
97
103
125
133
71
68
115
85
88
110
4
4
4
4
4
8
8
8
6
6
6
4
6
6
6
6
8
6
8
8
4
4
4
4
4
4
4
4
5
6
6
4
4
6
6
4
6
Окончание табл. 7.2
№
Модель
Вес
Ускорение
38
39
40
41
42
43
44
45
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
Chevrolet
Ford
Mercury
Dodge
Buick
Mazda
Ford
Chevrolet
Honda
Chevrolet
Toyota
Audi
Peugeot
Volkswagen
Dodge
Peugeot
Oldsmobile
Plymouth
Plymouth
Datsun
Buick
Chevrolet
Oldsmobile
Pontiac
Volkswagen
Toyota
Chevrolet
Datsun
Ford
3840
3725
3955
3830
4360
1975
4054
3605
1760
2595
1968
2188
3230
1925
1915
3190
3420
2200
2150
2020
2670
2595
2700
2556
2144
1968
2120
2019
2870
15,4
13,4
13,2
15,2
14,9
15,2
14,3
15,0
16,1
11,3
18,8
15,8
20,4
14,0
14,4
24,8
22,2
13,2
14,9
19,2
16,0
11,3
12,9
13,2
14,7
18,8
15,5
16,4
18,1
Объём
Количество
Мощность
цилиндров
цилиндров
305
302
351
318
350
86
351
267
81
173
89
97
141
89
98
141
260
105
105
85
151
173
173
151
98
89
98
86
140
130
129
138
135
155
65
142
125
65
115
60
78
116
71
80
71
90
70
70
65
90
115
115
90
76
60
70
65
88
8
8
8
8
8
4
8
8
4
6
4
4
4
4
4
4
8
4
4
4
4
6
6
4
4
4
4
4
4
§ 7.3. Лабораторная работа № 7.
Метод главных компонент в математическом пакете Mathcad
Хотя Mathcad является весьма удобным и широко распространённым пакетом, его часть, ответственная за статистические вычисления, оставляет желать лучшего. Поэтому все вычисления по
МГК придётся программировать отдельно.
237
В данной лабораторной работе используются следующие подпрограммы-функции. Подпрограмма Auto(x) нормирует и центрирует
исходный массив наблюдений х. Эти преобразования проводятся
по столбцам – исходным признакам наблюдений. Нормировать и
центрировать данные не нужно только тогда, когда заранее известно, что исходные наблюдения однородны и гомоскедастичны. Алгоритм этой программы очень прост и не нуждается в пояснении.
Подпрограмма nommax(skop) определяет в матрице исходных
наблюдений столбец, т. е. признак с наибольшей дисперсией. По
алгоритму NIPALS именно с этого столбца надо начинать выделение главных компонент.
Подпрограмма osnblok(x,Z.bl) реализует формулы пунктов 2, 3
и 4 основного вычислительного блока (см. стр. 227–228), а также
аналогичные формулы блока проверки сходимости процесса выделения главных компонент (пункт 6).
Подпрограмма pcanpls(x,skop) реализует сам алгоритм NIPALS
по формулам §7.1 в цикле по всем р признакам исходной матрицы
наблюдений.
Далее следует текст основной программы с примечаниями.
ORIGIN:=1
p:=5
n:=16
æ
çç1985
çç1800
çç
çç1985
çç
ççç1800
çç3155
çç
çç2560
çç
çç2830
çç
ç3410
x:= ççç
çç1990
çç
çç2890
çç1975
çç
çç1760
çç
çç2595
çç
çç1968
çç
çç2188
çç
è3230
238
21.5
14.4
19.4
16.4
18.2
14.2
15.9
15.8
14.9
17.2
15.2
16.1
11.3
18.8
15.8
20.4
90
98
78
91
200
134
131
163
89
140
86
81
173
89
97
141
48
66
52
60
95
95
103
133
71
88
65
65
115
60
78
116
4÷ö
÷
4÷÷÷
÷÷
4÷÷
÷÷
4÷÷÷
÷
6÷÷÷
÷
4÷÷÷
÷
5÷÷÷
÷÷
6÷÷
÷÷
4÷÷÷
÷
4÷÷÷
÷
4÷÷÷
÷
4÷÷÷
÷÷
6÷÷
÷÷
4÷÷÷
÷
4÷÷÷
÷
4÷÷ø
Auto ( x) :=
n ← rows ( x)
p ← cols ( x)
k←1
for i ∈ 1 ..
p
for j ∈ 1 ..
xst j ← xj , i
rows ( x)
sred k ← mean ( xst )
cols ( x)
1
i ∈ 1 ..
x
sko k ← stdev ( xst )
for j ∈ 1 ..
p
for j ∈ 1 ..
xj , i ←
n
xst j ← xj , i
 sred
 sko

 x
sko k ← stdev ( xst )
for j ∈ 1 ..
n
(xj , i − sred k)
xj , i ← meanp := Auto ( x)
sko k
1
k ← k + 1 skop := Auto ( x) 2


n
(xj , i − sred k)
sko k
k←k+1
sred k ← mean ( xst )
ed 
ko 
n




y := Auto ( x) 3
 2.383 × 10 3
 16.594
meanp =  117.563

 81.875
 4.438

1
2
1
-0.725
2
1.966







3
-0.757
-1.062
-0.879
4
-1.062
-0.078
-0.729
6
0.323
-0.959
0.451
3
5
-0.725
1.408
1.124
0.644
-0.537
 548.699
 2.496

skop =  36.433
 24.566

 0.788
4
-1.379
-0.646
-1.086
-1.216
2.263
0.534
5







1
-0.555
1
-0.725
-0.555
3
-0.725
239
-1.062
-0.555
-0.89
-0.555
0.534
-0.555
1.983
2
4
5
6
-1.062
1.408
0.323
1
2
-0.725
2
1.966
-0.757
-0.879
4
-1.062
-0.078
-0.729
6
0.323
-0.959
0.451
5
7
8
-0.725
1.408
0.815
1.872
1.124
0.644
-0.278
-0.318
-0.537
4
-1.379
-0.646
-1.086
-1.216
2.263
0.534
0.369
0.86
1.247
2.081
-0.443
11
-0.743
-0.558
-0.866
-0.687
12
-1.135
14
-0.756
13
15
16
2
3
4
-0.46
5
-0.864
7
0.311
6
8
0.181
0.472
1.525
0.643
1.099k ←-1.807
1
0.608
-0.548
d ← skop 1
1.039
1.389
-2.189
-0.43
-1.721
0.637
0.876
k := nommax ( skop ) 1
13
-1.537
-1.366
1.165
k ← i1.348
0.579
0.856
d ← skop i
1.953
1.782
-0.379
1.235
-1.317
-0.657
2.962
0.548
-0.978
-1.467
-1.122
-0.743
1.036
2.449
0.183
d1=548.699
16
2.02
〈 〉
z := y k
0.34
-0.742
-0.555
5
1.079
k=1
14
0.058
0.868
d1 := nommax ( skop ) 2
15
-0.555
-1.484
skop i-0.049
>d
-1.403 if3.084
-0.694
1.983
1.542
-0.722
0.194
0.623
0.814
-1.147
-0.573
-1.002
-0.072
-0.758
0.146
0.424
-0.41
0.818
0.063
-0.277
4
-0.015
0.225
5
-0.081
-0.084
-1.401
240
1
2
1
-1.998
-1.247
2
1.612
-1.141
3
0.758
-0.014
6
z=
7
8
-1.062
-1.062
1.408
0.323
0.815
1.872
9
-0.715
11
-0.743
12
-1.767
i ∈ 1 ..-1.122
n
0.826for-1.109
-1.452
-0.224
-0.158
3
4 )
n ← rows
( skop
-0.288
11
12
-0.564
5
10
-0.555
1.348
4
-0.555
-0.555
-0.89
1.522
0.698
-0.171
1.983
-0.555
-0.784
k
0.539 -1.057
 
 d  0.91
-0.474
9
10
0.714
0.884
-0.318
0.164
0.249
2
1.983
-0.555
-0.355
0.151
-0.725
-0.687
-2.121
-0.693
3
-1.004
1
nommax ( skop
) := 2
1
-0.555
-0.198
0.387
1.544
0.616
-0.725
-0.555
-0.784
0.243
1
0.534
-0.679
1
-0.555
-0.555
-0.555
-0.715
0.925
5
-0.89
9
10
E=
3
-1.062
3
y=
1
13
0.925
-1.135
0.387
14
-0.756
16
1.544
15
-0.355
T
osnblok1 ( x , Z , 2b1) := 3 d1 ← Z4 ⋅ Z
1
-0.757
(
-1.379
T
Z ⋅x
-0.537
-0.646
L←
d1
-1.086
-1.216
T
-0.729
-0.89
-0.879
4
-1.062
-0.078
6
0.323
-0.959
0.451
2.263
0.534
8
1.872
-0.318
1.247
L2.081
3
5
7
-0.725
1.408
0.815
1.124
0.644
-0.278
d1 ← L ⋅ L
d1 ←
d1
0.534
T
0.369
L ← L 0.86
9
-0.715
-0.679
L ← -0.443
-0.784
d1
11
-0.743
-0.558
-0.866
10
0.925
12
-1.135
14
-0.756
13
15
16
1
0.387
-0.355
1.544
1
0.243
0.616
0.884
-0.784
-0.318
1.525
2
1.522
-0.564
0.643
Z
 
L
3
-0.555
3
-0.725
-0.555
-0.555
1.983
0.714
1.983
-0.555
-0.89
-0.555
1.389
-0.555
Z
Z-0.158
←
d1 -0.555
4
1.542
0.164
1.039
-2.189
-1.484
1.079
5
-0.864
-1.403
7
0.311
-0.694
9
-0.171
0.539
-1.057
-0.379
11
-0.224
0.637
-1.317
-0.657
13
-1.537
-1.366
0.183
0.34
4
-0.46
6
8
10
12
14
15
16
0.181
0.472
0.826
-0.43
-1.721
0.698
-0.474
-0.288
0.876
0.058
2.02
-1.109
3.084
1.165
0.579
1.953
0.91
-1.452
2.962
-0.722
-1.122
-0.049
z=
7
8
-1.002
-0.978
0.548
-1.467
-1.122
-0.743
1.036
2.449
0.063
0.323
0.815
1.872
9
-0.715
11
-0.743
13
0.387
0.925
-1.135
14
-0.756
16
1.544
15
-0.355
0.814
1.782
1.235
1.408
0.623
-1.147
0.856
-1.062
0.194
1.348
0.868
-0.742
6
-1.062
5
-1.767
-0.548
5
12
-0.555
-1.807
0.608
4
-0.555
1.099
-0.693
2
-0.555
T 1.983
1.348
d1 ← L ⋅ L
if b1 1
-0.687
-1.004
-0.725
10
-0.687
1
1
-0.555
Z ← x⋅L
-0.198
-2.121
0.249
)
5
-0.555
0.151
2
3
E=
1.966
-1.062
2
y=
-0.725
-0.573
-0.072
-0.758
0.146
0.424
-0.41
0.818
-0.277
-1.401
241
y=
7
0.815
-0.278
0.369
9
-0.715
-0.679
-0.784
8
10
11
0.925
-0.743
12
-1.135
14
-0.756
-0.318
0.243
-0.558
1.247
0.616
-0.866
0.714
-0.443
-0.555
2.081
0.249
-0.687
1.983
-0.687
-0.555
0.884
-0.784
-0.89
-0.555
-2.121
15
-0.355
-0.318
1
0.151
1.099
-1.807
-1.767
1.542
0.164
1.039
-2.189
-1.484
1.079
5
-0.864
-1.403
7
0.311
-0.694
16
2
3
4
6
8
1.544
1
-0.693
-0.46
0.181
0.472
9
-0.171
11
-0.224
13
10
12
14
15
16
1.525
2
0.608
0.826
-0.43
-1.721
-0.564
0.643
3
-0.548
-1.109
3.084
1.165
0.579
1.953
-0.158
1.389
4
-0.722
-1.122
-0.049
0.637
-1.317
-0.657
-1.537
-1.366
2.962
0.548
0.183
0.34
-0.288
0.876
0.058
2.02
-1.452
1.235
-0.978
0.868
-1.467
-1.122
-0.743
1.036
2.449
-0.742
5
0.194
0.623
0.814
-1.002
-0.379
0.91
-0.555
1.782
-1.057
-0.474
-0.555
-1.147
0.539
0.698
1.983
1.348
0.856
-0.573
-0.072
-0.758
0.146
0.424
-0.41
0.818
0.063
-0.277
4
-0.015
0.225
-0.224
0.073
0.595
0.481
-0.357
-0.747
-0.083
0.571
-0.055
-0.214
5
-0.081
-0.084
0.145
-0.091
0.049
-0.012
0.146
0.104
0.085
0.229
0.194
-0.138
-1.401
Z := pcanpls ( y , skop ) 1
1
2
3
4
5
6
7
Z= 8
242
9
10
11
12
1
-1.998
-1.247
-1.958
-1.591
2.95
0.547
1.398
3.582
-1.133
0.599
-1.33
-1.647
2
3
1.612
0.758
-1.141
-0.014
0.802
0.457
-0.408
0.232
1.012
1.284
-0.684
-0.907
-0.055
-0.144
0.157 7.793·10-3
-0.861
-0.231
0.659
-0.702
-0.759
-0.092
-0.573
0.086
0.815
9
-0.715
11
-0.743
8
12
-0.555
-1.004
1.348
7
10
-0.198
1.522
z=
-0.555
0.387
13
E=
1.872
0.86
13
1.872
0.925
-1.135
0.387
14
-0.756
16
1.544
15
-0.355
3
4
5
6
7
Z= 8
9
10
11
12
13
14
15
16
-1.958
-1.591
2.95
0.547
1.398
3.582
-1.133
0.599
-1.33
-1.647
2.902
-1.616
-0.754
1.297
0.802
0.457
-0.408
0.232
1.012
1.284
-0.684
-0.907
-0.055
-0.144
0.157 7.793·10-3
-0.861
-0.231
0.659
-0.702
-0.759
-0.092
-0.573
0.086
-1.985
0.553
0.584
0.31
-0.391
-0.384
2.031
-1.213
-0.224
0.073
0.595
0.481
-0.357
-0.747
-0.083
0.571
-0.055
-0.214
0.039
-0.103
-0.09
-0.096
0.145
-0.091
0.049
-0.012
0.146
0.104
0.085
0.229
0.194
-0.138
-0.214
-0.091
0.032
-0.272
L := pcanpls ( y , skop ) 2
0.488

0.348

−0.331
L=

 6.565 × 10 − 3

0.728

−0.152
0.515
0.196
0.167
0.925
−0.141
−0.25
0.082
−0.028
0.466 

−0.123 
0.775
−0.449
−0.422 
−0.316
0.505
−0.494
−0.546
0.762 

0.096 
lambda := pcanpls ( y , skop ) 3
 3.444
 1.054

lambda =  0.37
 0.112

 0.02







Построим теперь плоский график счетов первых двух компонент. Этот график повторяет подобный же, полученный ранее в
пакете Statgraphics (см. стр. 235). Поскольку столбцы матрицы
счетов Z являются координатами исходных наблюдений на осях
главных компонент, то все 16 наблюдений можно пронумеровать
на графике и по табл. 7.1 какие модели автомобилей составляют
выделенные три группы (см. рис. 7.6).
〈 〉
〈 〉
PCA1 := Z 1
PCA2 := Z 2
К сожалению, в пакете Mathcad графика, особенно трёхмерная,
оставляет желать лучшего и не позволяет сделать такие пометки
автоматически.
243
3
2
1
PCA2
−2
0
2
4
−1
−2
PCA1
1
0.5
PC2
− 0.5
0
− 0.5
0.5
1
PC1
Рис. 7.6. Графики счетов
Рассмотрим теперь график старших нагрузок. Здесь точки также пронумерованы по пяти признакам. Видно, что только одна
точка №2 (ускорение) близка ко второй компоненте, все остальные
группируются вдоль оси РС1.
〈 〉
〈 〉
PC1 := L 1
PC2 := L 2
Далее программа продолжается вычислением матрицы остатков. Каждое исходное наблюдение xi , i = 1,n (строка в матрице
X) представляется как вектор в p-мерном пространстве. МГК проецирует его в вектор, лежащий в пространстве главных компонент
( p ¢-мерное). Каждая строка матрицы E является координатами
вектора остатков (см. рис. 7.1).
T
E := y − Z ⋅ L
Вычислим теперь некоторые числовые характеристики, которые содержатся в матрице остатков. Сначала построим график собственных значений.
244
11
-0.743
12
-1.135
14
E := y − Z ⋅ Lλ0:=0
-0.756
p
-0.355
T
13
15
-0.558
∑
0.151
1.099
1
0.608
4
-0.46
0.164
-0.687
-0.687
1.522
1.348
-0.89
-0.564
lambda
j
1.525
0.643
2
-0.693
-0.158
1.389
3
4
-1.807
-0.548
-1.484
3.084
-0.049
-0.171
0.539
-1.057
-0.379
11
-0.224
0.637
-1.317
-0.657
13
-1.537
-1.366
2.962
0.548
10
12
14
15
16
0.698
-0.474
-0.288
0.876
0.058
0.183
-1.247
-1.958
5
-1.591
3.444
2.95
0.547
1.054
1.398
3.582
0.37
-1.133
0.112
0.599
-1.33
0.02
-1.647
2.902
-1.616
-0.754
1.297









0.91
1.235
-1.452
-0.978
-1.467
-1.122
-0.743
1.036
2.449
λ0=5
λ1 1 := λ0
i:=1..p 1
2
lambda i1.612
λ1 i+11 :=-1.998
2
3

4
5
6
λZ 1= =7 
8
9
10 
11 
12 
13
14
15
16
0.856
1.953
0.868
0.34
2.02
0.579
-1.141
0.802
-0.408
1.012
-0.684
-0.055
0.157
-0.861
0.659
-0.759
-0.573
-1.985
0.584
-0.391
2.031
-0.742
0.063
12
-1.135
14
-0.756
16
1.544
15
-0.355
5
0.194
-1.002
9
-1.721
-0.555
1.782
-0.694
0.472
-0.555
-0.555
-1.147
0.311
8
0.387
1.348
7
1.165
13
0.623
-1.403
-0.43
1.983
-1.122
-0.864
0.181
-0.743
1.079
-0.722
-2.189
-1.109
11
1.542
1.039
0.826
-0.555
-0.555
-1.767
5
6
E=
-0.784
-0.318
2
3
0.884
-2.121
j = 1
1
-1.004
0.387
λ0 :=16λ0 +1.544
-0.866
-0.198
0.814
-0.573
-0.072
-0.758
0.146
0.424
-0.41
0.818
-0.277
-1.401
5
3
4
5
0.758
-0.015
-0.081
-0.014 4 0.225
-0.084
0.457
-0.224
0.145
0.232 3 0.073
-0.091
1.284
0.595
0.049
λ1i
-0.907 2 0.481
-0.012
-0.144
-0.357
0.146
7.793·10-3 -0.747
0.104
-0.231 1 -0.083
0.085
-0.702
0.571
0.229
-0.092 0 -0.055
0.194
0
1
2
0.086
-0.214
-0.138i−1
0.553
0.039
-0.214
0.31 1 -0.103
-0.091
-0.384
-0.09
0.032
-1.2130.8 -0.096
-0.272
0.6
3
4
245
Видно, что в районе второго собственного числа происходит видимый излом графика. Это показывает, что исходный массив наблюдений вполне удовлетворительно описывается лишь двумя первыми главными компонентами.
Далее следует текст подпрограммы, вычисляющей полную дисперсию остатков и объяснённую дисперсию по приведённым ранее
формулам.
TRV ( λ , p) :=
sum ← 0
for i ∈ 1 ..
5p
sum ← sum + λ i+ 1
4
Di + 1 ←
D1 ← 1
(λ 1 − sum)
3
λ1i
p
2
D
1
0
TRVE := TRV ( λ1 , p)
0
1
2
i−1
3
4
1
2
3
i
4
5
1
2
3
4
5
1
1


 0.311
0.1

TRVE = 
0.026

 4.03 × 10 − 3

0










0.8
0.6
TRVEi
0.4
0.2
0
ERV 1 := 0
i:=1..p
ERV i+ 1 := 1 −
i:=1..p
TRVE i+ 1
TRVE 1
Protsh i := TRVE i − TRVEERV
i+i1
246
1
0.8
0.6
0.4
0.2
0
0 0
1 1
2 2
3 3
i i
4 4
5 5
2 2
3 3
i i
4 4
5 5
2 2
3 3
i i
4 4
5 5
1 1
 0

 0.689
 0.9
ERV = 
 0.974
 0.996
 1










0.80.8
0.60.6
ERVERV
i i
0.40.4
0.20.2
0 0
1 1
0.80.8
 0.689
 0.211
0.074
Protsh = 

 0.022
 4.03 × 10 − 3


0.60.6

Protsh
Protsh
i 0.4
i 0.4


0.20.2


0 0
1 1
Задание 2. Выписать из табл. 7.2 данные о характеристиках
автомобилей длиной 25 строк, причём адрес начальной строки
табл. 7.2, т. е. адрес начальной строки вашего варианта рассчитать
éNù
по формуле nom = n + ê ú , где n –порядковый номер дня в месяце
êë 3 úû
вашего рождения, а N –номер вашей фамилии в журнале преподавателя. По полученным данным провести выделение и анализ главных компонент в математическом пакете Mathcad.
§ 7.4. Лабораторная работа № 7.
Метод главных компонент в математическом пакете Matlab
Подпрограммы, используемые в лабораторной работе.
function x= Auto(x)
247
%Функция Auto центрирует и нормирует исходный массив
%наблюдений х.
[n,p]=size(x);
x1=std(x);
m1=mean(x);
for i=1:p
for j=1:n
x(j,i)=(x(j,i)-m1(i))/x1(i);
end
end
end
function [k,d] = nommax(disp)
%Функция nommax определяет в матрице исходных наблюдений
%х столбец с наибольшей дисперсией. С него начинается вы%деление главных компонент.
n=length(disp);
k=1;
d=disp(1);
for i=2:n
if disp(i)>d
k=i;
d=disp(i);
end;
end;
end
function [Z,L,lam]=pcanipals(x,disp)
%Функция pcanipals реализует алгоритм NIPALS по всем р приз%накам исходной матрицы х, содержащей n наблюдений.
Z=[];
L=[];
[n,p]=size(x);
[k,d]=nommax(disp);
for i=1:n
Z1(i)=x(i,k);
end;
Z1=Z1’;
for i=1:p
d0=Z1’*Z1;
L1=Z1’*x;
L1=L1/d0;
d1=L1*L1’;
248
d1=sqrt(d1);
L1=L1’;
L1=L1/d1;
Z1=x*L1;
d1=L1’*L1;
Z1=Z1/d1;
lam(i)=Z1’*Z1;
nom=0;
while abs(d0-lam(i))>0.005
d0=lam(i);
L1=(Z1’*x)/(Z1’*Z1);
d1=L1*L1’;
d1=sqrt(d1);
L1=L1’;
L1=L1/d1;
Z1=x*L1;
lam(i)=Z1’*Z1;
nom=nom+1;
if nom>25
disp(‹процесс плохо сходится›)
disp(i)
end;
end;
x=x-Z1*L1’;
Z=[Z,Z1];
L=cat(1,L,L1’);
disp=std(x);
[k,d]=nommax(disp);
for j=1:n
Z1(j)=x(j,k);
end;
end;
for i=1:p
lam(i)=lam(i)/n;
end;
end
Далее идёт текст основной программы метода главных компонент. Данные для примера в этом пакете взяты из книги [12] (Дрейпер Н., 1987)
>> clear
249
>> x=[7 26 6 60 78.5;1 29 15 52 74.3;11 56 8 20
104.3;...
11 31 8 47 87.6;7 52 6 33 95.9;11 55 9 22 109.2;...
3 71 17 6 102.7;1 31 22 44 72.5;2 54 18 22 93.1;...
21 47 4 26 115.9;1 40 23 34 83.8;11 66 9 12 113.3;...
10 68 8 12 109.4]
x =
7.0000
26.0000
6.0000
60.0000
78.5000
1.0000
29.0000
15.0000
52.0000
74.3000
11.0000
56.0000
8.0000
20.0000 104.3000
11.0000
31.0000
8.0000
47.0000
87.6000
7.0000
52.0000
6.0000
33.0000
95.9000
11.0000
55.0000
9.0000
22.0000 109.2000
3.0000
71.0000
17.0000
6.0000 102.7000
1.0000
31.0000
22.0000
44.0000
72.5000
2.0000
54.0000
18.0000
22.0000
93.1000
21.0000
47.0000
4.0000
26.0000 115.9000
1.0000
40.0000
23.0000
34.0000
83.8000
11.0000
66.0000
9.0000
12.0000 113.3000
10.0000
68.0000
8.0000
12.0000 109.4000
>> [n,p]=size(x);
>> disper=std(x)
disper =
5.8824
15.5609
6.4051
16.7382
15.0437
x=Auto(x)
x =
-0.0785
-1.4237
-0.9007
1.7923
-1.1249
-1.0985
-1.2309
0.5044
1.3144
-1.4041
0.6015
0.5042
-0.5885
-0.5974
0.5901
0.6015
-1.1024
-0.5885
1.0156
-0.5200
-0.0785
0.2472
-0.9007
0.1792
0.0317
0.6015
0.4400
-0.4323
-0.4779
0.9158
-0.7585
1.4682
0.8167
-1.4338
0.4837
-1.0985
-1.1024
1.5973
0.8364
-1.5238
-0.9285
0.3757
0.9728
-0.4779
-0.1544
2.3015
-0.0742
-1.2130
-0.2390
1.3612
-1.0985
-0.5240
1.7534
0.2390
-0.7726
0.6015
1.1469
-0.4323
-1.0754
1.1883
0.4315
1.2754
-0.5885
-1.0754
0.9291
Массив исходных наблюдений центрирован и нормирован.
>> [Z,L,lambda]=pcanipals(x,disper);
250
>> disp(‘
Матрица счетов’)
Матрица счетов
>> disp(Z)
1.8710
-1.8835
-0.5214
0.0271
0.0378
2.5614
-0.2100
-0.2509
0.0808
-0.0334
-1.2653
-0.1989
-0.0575
-0.1262
-0.0877
0.8530
-1.5678
0.1673
-0.1054
-0.0280
-0.3033
-0.4885
-0.7614
0.0316
0.0182
-1.3108
-0.1828
0.1294
0.2015
-0.0224
-1.0646
2.1222
-0.2115
-0.0743
0.0120
2.6897
0.7215
0.4604
-0.1631
0.0307
0.3626
1.4368
-0.0128
0.0589
-0.0479
-2.1263
-1.8498
0.8603
0.0036
0.0188
1.7740
1.3169
0.5608
0.1141
0.0256
-2.0713
0.3697
-0.0268
0.0611
0.0340
-1.9699
0.4142
-0.3358
-0.1097
0.0423
Строки матрицы счетов Z являются координатами исходных наблюдений в системе координат РС1, РС2, …, РС5. Например, в системе РС1-РС2 координаты первого наблюдения равны 1,8710 и
–1,8835, что видно на графике счетов.
>> disp(‹
Матрица нагрузок›)
Матрица нагрузок
>> disp(‹
Комп1
Комп2
Комп3
Комп4
Комп5›)
Комп1
Комп2
Комп3
Комп4
Комп5
>> disp(L)
-0.3977
-0.4710
0.3148
0.4633
-0.5534
-0.5150
0.4064
0.6103
-0.4440
-0.0002
0.5809
-0.3900
0.6745
-0.1036
0.2114
-0.4133
-0.1889
0.0527
0.3785
0.8046
0.2613
0.6521
0.2657
0.6590
-0.0400
Прокомментируем матрицу нагрузок. В первой главной компоненте почти одинаковое влияние имеют первый, второй и четвёртый признак с отрицательным весом. Им противостоят третий и
пятый признаки. Похожая ситуация и во второй компоненте, т. е.
признаки чётко разбиваются на две противоположные группы по
влиянию. В третьей компоненте решающее значение имеют второй
и третий признак, влияние всех остальных признаков незначительное. Это видно и на графике старших нагрузок
>> disp(‹
Собственные числа›)
Собственные числа
251
>> disp(lambda)
2.9645
1.4549
0.1837
0.0108
0.0015
>> for i=1:n
PCA1(i)=Z(i,1);
PCA2(i)=Z(i,2);
end;
>> plot(PCA1,PCA2,’Or’),grid
>> title(‘График счетов РСА1-РСА2’)
>> gname
После выполнения команды gname на графике появится перекрестие. Нужно подвести это перекрестие к очередной точке графика и щёлкнуть левой кнопкой мыши. На графике появится номер
точки из соответствующего столбца матрицы Z.
>> for i=1:p
PCA1(i)=L(i,1);
PCA2(i)=L(i,2);
end;
>> plot(PCA1,PCA2,’Or’),grid
>> title(‘График старших нагрузок’)
>> gname
Аналогичные действия с нумерацией точек массива L проводятся с помощью функции gname.
L=L’;
for i=1:n
for j=1:p
E(i,j)=0;
for k=1:p
252
E(i,j)=E(i,j)+Z(i,k)*L(k,j);
end;
E(i,j)=x(i,j)-E(i,j);
end;
end;
Этим тройным циклом реализована формула E=x-Z·L, где
p
E(i, j ) = å Z (i, k) * L(k, j ) – умножения двух матриц по правилу
k=1
скалярного произведения.
disp(E)
-0.0489
0.6355
-0.1556
0.3625
0.0327
-0.0875
0.1831
-0.1749
-0.1941
0.7682
-0.1524
-0.1503
-0.0747
0.1536
0.2587
-0.3638
-0.1573
0.0126
0.3225
-0.9409
0.0121
-0.4372
-0.0492
-0.0265
0.0231
0.2488
>> sum=0;
>> for i=1:p
sum=sum+lambda(i);
lmb(i+1)=lambda(i);
-2.3756
-0.8808
0.1132
-1.8132
-0.4020
0.1962
2.3952
-0.0178
1.3474
-1.2831
0.8646
0.9323
0.9236
2.1966
2.3429
-1.0367
1.1256
-0.0249
-1.1193
-1.4434
2.0973
-0.0397
-1.5291
1.1277
-1.9108
-1.7862
-0.2634
-1.9245
1.1454
0.3033
0.6117
1.2095
-0.5163
-2.7108
-1.2234
2.8929
-2.3183
1.4568
1.3370
253
end;
>> lmb(1)=sum;
>> disp(lmb)
4.6154
2.9645
1.4549
0.1837
0.0108
0.0015
>> plot(lmb,’-*r’),grid
>> title(‘График собственных значений’)
Этот график показывает, что данный числовой массив исчерпывающе описывается лишь тремя первыми главными компонентами. Влияние двух оставшихся компонент очень мало. Следовательно, в исходном массиве наблюдений можно без большого ущерба
опустить два последних столбца.
Этот вывод подтверждают и три следующие графика: графики
полной и объяснённой дисперсии остатков и график процента дисперсии, приходящейся на каждую выделенную главную компоненту.
Построим, наконец, графики полной и процента накопленной
дисперсии (объяснённой дисперсии). Для этого вычислим их значения.
>> sum=0;
>> for i=1:p
sum=sum+lmb(i+1);
TRVE(i+1)=(lmb(1)-sum)/p;
end;
>> TRVE(1)=1;
>> plot(TRVE,’-+r’),grid
>> title(‘Полная дисперсия остатков’)
>> ERV(1)=0;
254
255
>> for i=1:p
ERV(i+1)=1-TRVE(i+1)/TRVE(1);
end;
>> plot(ERV,’-+r’),grid
>> title(‘Объяснённая дисперсия остатков’)
>> for i=1:p
Protsh(i)=TRVE(i)-TRVE(i+1);
end;
>> bar(Protsh)
>> title(‘Процент дисперсии, приходящейся на каждую
выделенную ГК’)
Задание 3. Выписать из табл. 7.2 данные о характеристиках
автомобилей длиной 25 строк, причём адрес начальной строки
табл. 7.2, т. е. адрес начальной строки вашего варианта рассчитать
éNù
по формуле nom = n + ê ú , где n –порядковый номер дня в месяце
êë 5 úû
вашего рождения, а N – номер вашей фамилии в журнале преподавателя. По полученным данным провести выделение и анализ главных компонент в математическом пакете Matlab.
§ 7.5. Лабораторная работа № 7. Метод главных компонент
в математическом пакете Scilab
В этом пакете содержание всех подпрограмм и текст основной
программы аналогичны подобным в пакете Matlab. Интерпретацию результатов вычислений и графиков следует проводить
самостоятельно по данному массиву наблюдений, принимая во
внимание информацию по интерпретации результатов в пакетах
Statgraphics, Mathcad и Matlab.
>function x=AutoS(x)
-->//Функция AutoS центрирует и нормирует исходный
-->//массив наблюдений х.
-->[n,p]=size(x);
-->for i=1:p
-->
for j=1:n
-->
x1(j)=x(j,i);
-->
end;
-->
m1(i)=mean(x1);
-->
x2(i)=variance(x1);
-->end;
256
-->for i=1:p
-->
for j=1:n
-->
x(j,i)=(x(j,i)-m1(i))/sqrt(x2(i));
-->
end;
-->end;
-->endfunction
В пакете Scilab имеются две встроенные функции: pca – реализация метода главных компонент по центрированному и нормированному исходному массиву наблюдений и show_pca – визуализация результатов метода главных компонент. Последняя программа
строит три графика: график старших нагрузок, график объяснённой дисперсии и график процента дисперсии, приходящейся на
каждую выделенную главную компоненту.
Следует отметить, что разложение по методу главных компонент x = Z * L ¢ + E не единственно. Можно найти другие матрицы
Z1 и L1, которые дадут аналогичное разложение исходной матрицы
x. Например, можно одновременно изменить знаки у компонент
векторов Z и L. Алгоритм NIPALS даёт результат МГК с точностью
до знака, поэтому в разных программах направления осей главных
компонент будут разными. Именно это происходит во встроенной
функции pca пакета Scilab.
Для того, чтобы это было отчётливо видно, используется тот же
исходный числовой массив, что и в пакетах Statgraphics и Mathcad.
Если сравнить, например, графики старших нагрузок в пакетах
Mathcad и Scilab, то видно, что они практически одинаковы, только второй развёрнут на 90о относительно первого из-за ориентации
осей главных компонент.
Далее идёт текст основной программы.
-->clear
-->x=[1985 21.5 90 48 4;1800 14.4 98 66 4;1985 19.4
78 52 4;...
-->1800 16.4 91 60 4;3155 18.2 200 95 6;2560 14.2
134 95 4;...
-->2830 15.9 131 103 5;3410 15.8 163 133 6;1990 14.9
89 71 4;...
-->2890 17.2 140 88 4;1975 15.2 86 65 4;1760 16.1 81
65 4;...
-->2595 11.3 173 115 6;1968 18.8 89 60 4;2188 15.8
97 78 4;...
-->3230 20.4 141 116 4];
-->[n,p]=size(x);
257
Далее идёт вызов ранее скомпилированной функции AutoS. Эта
команда вызывает текст функции и встраивает его в текст основной
программы.
-->exec(‹C:\Users\Сергей\Documents\labrabS\
AutoS.sci›)
-->y=AutoS(x)
y =
column 1 to 2
– 0.7015473
1.9035225
– 1.0280022 – 0.8511292
– 0.7015473
1.0887664
– 1.0280022 – 0.0751710
1.3630597
0.6231914
0.3131100 – 0.9287250
0.7895578 – 0.2691605
1.8130382 – 0.3079584
– 0.6927242 – 0.6571396
0.8954351
0.2352123
– 0.7191935 – 0.5407459
– 1.0985871 – 0.1915647
0.3748718 – 2.0538644
– 0.7315459
0.8559789
– 0.3433291 – 0.3079584
1.4954063
1.4767455
column 3 to 4
– 0.7325007 – 1.3351557
– 0.5198928 – 0.6257003
– 1.0514126 – 1.177499
– 0.7059247 – 0.8621854
2.1908582
0.5173113
0.4368428
0.5173113
0.3571149
0.8326248
1.2075466
2.0150505
– 0.7590767 – 0.4286293
0.5962988
0.2414119
– 0.8388047 – 0.6651145
– 0.9716847 – 0.6651145
1.4733065
1.3055951
– 0.7590767 – 0.8621854
– 0.5464688 – 0.1527300
0.6228748
1.3450093
258
column 5
0.5375082
0.5375082
0.5375082
0.5375082
1.9196722
– 0.5375082
0.6910820
1.9196722
– 0.5375082
– 0.5375082
– 0.5375082
– 0.5375082
1.9196722
– 0.5375082
– 0.5375082
– 0.5375082
-->[lambda,L,Z]=pca(y);
-->disp(Z)
column 1 to 2
– 1.9378874 – 1.5543302
– 1.2053308
1.1065876
– 1.8970703 – 0.7710149
– 1.5400108
0.3987174
2.854451
– 0.9812711
0.5311486
0.6587477
1.3537969
0.0502379
3.4679224 – 0.1589850
– 1.0951644
0.8345606
0.5788145 – 0.6412576
– 1.2865616
0.7367739
– 1.5937656
0.5579774
2.8131896
1.9185188
– 1.566002
– 0.5613662
– 0.7295206
0.3789501
1.2519908 – 1.9728465
column 3 to 4
– 0.7388380
0.0179694
0.0163836 – 0.2180619
– 0.4442502
0.2190746
– 0.2233221 – 0.0695350
–
–
–
–
259
– 1.2491118 – 0.5707522
0.8778983 – 0.4700899
0.1414020
0.3445982
– 0.0045996
0.7235288
0.2271078
0.0795484
0.6746777 – 0.5568257
0.0915542
0.0521021
– 0.0803150
0.2083807
– 0.5296311 – 0.0345697
– 0.3014263
0.1013899
0.3735636
0.0850839
1.168907
0.0881585
column 5
0.0782628
0.0820734
– 0.1406291
0.0879267
– 0.0457149
0.0129751
– 0.1421476
– 0.1020180
– 0.0821743
– 0.2200306
– 0.1880361
0.1332419
0.2068462
0.0877690
– 0.0314713
0.2631268
-->disp(L)
column 1 to 2
0.4878094 – 0.3504685
– 0.1538294 – 0.9241959
0.5148848 – 0.0824035
0.5054429
0.0256361
0.46669
0.1248452
column 3 to 4
0.3299855 – 0.0098605
– 0.1986925
0.1425601
– 0.1708674 – 0.7733170
0.4960793
0.4480428
260
– 0.7591710
0.4252269
column 5
– 0.7281663
0.2497928
0.3176294
0.5450076
– 0.0972401
-->for i=1:p
-->lam(i)=lambda(i,1);
-->Protsh(i)=lambda(i,2);
-->end;
-->disp(lam)
3.4442547
1.054134
0.3695496
0.1119129
0.0201488
-->disp(Protsh)
0.6888509
0.2108268
0.0739099
0.0223826
0.0040298
-->show_pca(lambda,L)
Задание 4. Выписать из табл. 7.2 данные о характеристиках
автомобилей длиной 25 строк, причём адрес начальной строки
261
табл. 7.2, т. е. адрес начальной строки вашего варианта рассчитать
éNù
по формуле nom = n + ê ú , где n –порядковый номер дня в месяце
êë 6 úû
вашего рождения, а N – номер вашей фамилии в журнале преподавателя. По полученным данным провести выделение и анализ главных компонент в математическом пакете Scilab.
262
8. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
§ 8.1. Постановка задачи
Изучение рассеяния наблюдаемых величин в эксперименте –
один из главных предметов прикладной статистики. Дисперсионный анализ представляет собой метод разложения общей дисперсии совокупности наблюдений на составляющие. Учитывая, что
рассеяние наблюдаемой случайной переменной X причинно обусловлено влиянием множества факторов, дисперсионный анализ
можно интерпретировать как метод разделения эффектов влияния
на наблюдаемые значения X различных подмножеств в общем множестве факторов. Термин «дисперсионный анализ» впервые ввел
Фишер и определил его как отделение дисперсии, приписываемой
одной группе причин, от дисперсии, приписываемой другим группам. Используемая при этом модель обобщенно может быть представлена в следующем виде.
Íàáëþäàåìûå
çíà÷åíèÿ
Þ
Ñóììà ïàðàìåòðîâ,
îïèñûâàþùèõ
îïðåäåëÿåìûå
ýôôåêòû
+
Ñóììà ïàðàìåòðîâ,
îïèñûâàþùèõ
îñòàòî÷íûå
ýôôåêòû
(8.1.1)
Чем больше параметров рассматривается в модели, тем меньше будет неопределяемая (остаточная) изменчивость, остающаяся
неучтенной, однако некоторая остаточная изменчивость остается
всегда.
При исследовании зависимостей одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, и этот фактор может принимать лишь
конечное число значений (уровней). Такие задачи, называемые
задачами однофакторного анализа, весьма часто встречаются на
практике. Типичный пример задач однофакторного анализа – сравнение по достигаемым результатам нескольких различных способов действия, направленных на достижение одной цели.
Для применения дисперсионного анализа необходимо вначале
построить соответствующую статистическую модель и выяснить
структуру экспериментальных данных. Опыт показывает, что при
изменении способа обработки наибольшей изменчивости в первую
очередь, как правило, подвержено положение случайной величины, которое можно охарактеризовать медианой или средним зна263
Таблица 8.1
Обработки (соответствуют
уровням факторов)
Результаты наблюдений
1
2
…
k
x11
x21
…
xn11
x12
x22
…
xn2 2
…
…
…
…
x1k
x2k
…
xnkk
чением. Следуя этому эмпирическому правилу, в однофакторных
задачах также обычно предполагают, что все наблюдения принадлежат некоторому сдвиговому семейству распределений. Часто
в качестве такого семейства рассматривается семейство нормальных распределений и для обработки данных применяются методы
дисперсионного анализа. В других случаях предположение о нормальности не является правомерным, и тогда используют различные непараметрические методы анализа, из которых наиболее разработаны ранговые методы.
Введем некоторые общепринятые термины, позволяющие получить в сжатом виде описание структуры эксперимента. Основным
является понятие фактора – это качество или свойство, в соответствии с которым классифицируются данные и которое должно
оказывать влияние на конечный результат. Каждый фактор имеет
несколько различных уровней. Уровень – конкретная реализация
фактора – используется для описания рассматриваемого свойства,
определяющего каждую категорию применяемой классификации.
Структура или схема эксперимента, обычно называемая планом
эксперимента, описывается входящими в него факторами и способом комбинирования разных уровней различных факторов. Наконец, величину результата часто называют откликом.
Для сравнения влияния факторов на результат необходим определенный статистический материал. Обычно его получают следующим образом: каждый из k способов обработки применяется несколько раз (не обязательно одно и то же число раз) к исследуемому
объекту, затем результаты регистрируются. Данные таких испытаний могут быть сведены в следующую табл. 8.1.
§ 8.2. Дисперсионный анализ
Для описания данных табл. 8.1 в большинстве случаев оказывается приемлемой аддитивная модель. Она предполагает, что
264
значение отклика xij можно представить в виде суммы вклада (воздействия) фактора и независимой от вклада фактора случайной величины. Обычно модель однофакторного дисперсионного анализа
записывается в виде
(8.2.1)
xij = µ + Tj + εij , i = 1,2,...,nj , j = 1,2,..., k. Здесь μ – математическое ожидание X в генеральной совокупности, Tj=μj – μ – эффект влияния j-го уровня фактора, т. е. отклонение от общего среднего уровня при j-й обработке, μj – матожидание
X в j-й группе, εij – случайная ошибка наблюдений.
Обычно предполагается только непрерывность закона распределения величин εij и их независимость. Однако во многих случаях
о распределении εij можно сказать больше, например, предполагают, что величины εij∈N(0,1), т. е. имеют нормальное распределение
с нулевым средним и общей дисперсией, которая неизвестна. Дополнительная информация о законе распределения случайных величин εij позволяет использовать более сильные методы в модели
однофакторного анализа как для проверки гипотез, так и для оценки параметров. Совокупность этих методов носит название однофакторного дисперсионного анализа.
Чаще всего дисперсионный анализ основан на следующих правдоподобных допущениях о случайных величинах εij.
1. Математическое ожидание каждой остаточной случайной величины равно нулю. Это означает, что вся изменчивость в математических ожиданиях охватывается параметрами. Это очень правдоподобное предположение, ибо влияние второго члена в модели
(8.1.1) всегда много меньше первого.
2. Остаточные случайные величины взаимно независимы. Это
допущение не столь очевидно, как первое. Смысл его состоит в том,
что между различными наблюдениями не существует какой-либо
связи, которую нельзя было бы объяснить с помощью членов, описывающих определяемые эффекты.
3. Все остаточные случайные величины имеют одинаковое среднеквадратическое отклонение. Это предположение об однородности дисперсий. Во многих случаях это допущение не выполняется,
поэтому прежде чем проводить дисперсионный анализ какого-либо
набора данных, важно рассмотреть возможные колебания D.
4. Каждая остаточная случайная величина распределена по нормальному закону. В общем случае справедливость этого допущения
наименее вероятна, чем трех остальных. Значительная часть дисперсионного анализа может проводиться без принятия этого до265
пущения, необходимого лишь для обоснования использования некоторых формально точных критериев для проверки значимости и
формул оценивания.
Допущения, описанные выше, имеют форму:
1) M(εij)=0;
2) εij взаимно независимы;
3) D(εij)=D=const
(8.2.2)
4) εij∈N(0,1).
Если уровни исследуемого фактора фиксированы, то эффекты
Tj=μj–μ являются фиксированными и постоянными, и их сумма
равна нулю, так как в эксперименте выбраны все возможные значения уровней.
Обратимся теперь к табл. 8.1. Изменчивость или вариация наблюдаемых значений xij может быть вызвана изменчивостью уровней фактора и изменчивостью значения случайных величин, описывающих неопределяемые эффекты.
Вычислим среднее значение для каждой группы и общее среднее
всех наблюдений:
n
xj =
1 j
1
å xij = n x·j , j = 1,2,...,k,
nj i=1
j
n
n
x=
k
1 j
1 k
1 k j
nj x j = åå xij , n = å nj , ε j = å εij ,
å
nj i=1
n j=1
n j=1 i=1
j=1
n
1 k
1 k j
ε = å nj ε j = åå εij .
n j=1
n j=1 i=1
С учетом этих формул первое уравнение модели однофакторного дисперсионного анализа (8.2.1) можно упростить. Просуммируем формулу (8.2.1) по i в пределах от единицы до nj. Получим
nj
nj
nj
nj
i=1
i=1
i=1
å xij = å µ + å Tj +å εij или nj x j = nj µ + njTj + nj ε j .
i=1
Окончательно x j = µ + Tj + ε j . (8.2.3)
Продолжим суммирование по j в пределах от единицы до k.
Тогда
k
k
k nj
k nj
k nj
k nj
k
k
k
j=1 i=1
k
j=1 i=1
j=1 i=1
j=1 i=1
j=1
j=1
j=
åå xij =åå µ + åå Tj + åå εij , т. е. nx = µ å nj + å Tjnj + å
nx = µ å nj + å Tj nj + å nj ε j . Так как μj=μ+Tj – отклонение значений μj от
j=1
j=1
266
j=1
1 k
среднего значения μ, то µ = å nj µ j , т. е. средневзвешенное знаn j=1
чений μj.
k
k
k
k
k
j=1
j=1
j=1
j=1
j=1
Тогда µn = å nj µ j = å nj (µ + Tj ) = å nj µ + å njTj = µn +å njTj .
k
å njTj = 0.
Отсюда
Окончательно второе уравнение модели имеет
j=1
вид nx = nµ + nε или
x = µ + ε. (8.2.4)
Вычтем из уравнения (8.2.3) уравнение (8.2.4), получим x j - x = Tj + ε j - ε.
(
)
(
)
x j - x = Tj + ε j - ε. Тогда M x j - x = M Tj + ε j - ε = Tj , так как M(εij)=0
(
)
по допущениям (8.2.2). Аналогично D x j - x = D.
Выведем теперь основное тождество дисперсионного анализа.
Рассмотрим
k nj
k nj
k nj
j=1 i=1
j=1 i=1
j=1 i=1
2
2
2
åå(xij - x) = åå éêë(xij - x j )-(x - x j )ùúû = åå(xij - x j ) +
k nj
k nj
2
k nj
2
+åå(x - x j ) -2åå(xij - x j )(x - x j ) = åå(xij - x j ) +
j=1 i=1
j=1 i=1
k nj
j=1 i=1
k
nj
j=1
i=1
2
+åå(x - x j ) - 2å (x - x j )å(xij - x j ).
j=1 i=1
Но
nj
nj
nj
i=1
i=1
i=1
nj
å(xij - x j ) = å xij - å x j = nj x j - x j å1 = nj x j - x jnj = 0,
i=1
тогда последнее выражение примет вид
k nj
2
k nj
j=1 i=1
k nj
2
j=1 i=1
k nj
2
2
åå(xij - x)
k nj
2
j=1 i=1
j=1 i=
= åå(x - x j ) + åå(xij - x j ) или
j=1 i=1
åå(xij - x)
j=1 i=1
k
2
k nj
2
= å nj (x j - x) + åå(xij - x j ) . j=1
k n
= åå(x - x j ) + åå
(8.2.5)
j=1 i=1
Таким образом, общая сумма квадратов отклонений наблюдений от общего среднего x разбивается на сумму квадратов откло267
=
нений выборочных средних x j от общего среднего x и сумму квадратов отклонений наблюдений xij от выборочных средних групп
x j (внутри групп), т. е. Q=Q1+Q2, где
k nj
k
2
k nj
2
2
Q = åå(xij - x) , Q1 = å nj (x j - x) , Q2 = åå(xij - x j ) .
j=1 i=1
j=1 i=1
j=1
В формулу (8.2.5) входят три члена. Рассмотрим их подроб2
Q1 1 k
равен дисперсии групповых сред= å nj x j - x
n
n j=1
них, в него входят k слагаемых, «свобода» изменения которых
(
нее. Член
)
n
ограничена
одним
соотношением
x=
n
n
n x1 + n x
1 k j
1 j
x
=
åå ij n å nj xj = 1 n +2n
n j=1 i=1
1
2
i=1
n x1 + n2 x2 + ... + nk xk
1 j
. Из этой формулы вытекает единственnj x j = 1
å
n i=1
n1 + n2 + ... + nk
(
)
(
)
(
)
ное уравнение связи x1 - x n1 + x2 - x n2 + ... + xk - x nk = 0. Поэтому говорят, что величина Q1 имеет (k–1) степень свободы.
Q
Величина 2 равна средней из групповых дисперсий. В формуn
лу расчета Q2 входят n1+n2+…+nk=n слагаемых. Свобода первых
n1 слагаемых ограничена одним соотношением x1 =
(x11 - x1 ) + (x21 - x1 ) + ... + (xn11 - x1 ) = 0.
n
1 1
å xi,1 или
n1 i=1
Таким образом, «свобо-
да» изменения k слагаемых ограничена k условиями. Это означает,
что величина Q2 имеет (n–k) степеней свободы.
Q
Наконец, в формулу
входят n1+n2+…+nk=n слагаемых. На
n
них наложено одно ограничение вида
x=
(
) (
(
+... + xk1 + xk2 + ... + xknj
или
268
)
n
x11 + x12 + ... + x1n1 + x21 + x22 + ... + x2n2 +
1 k j
xij =
åå
n j=1 i=1
n
).
(x11 - x) + (x12 - x) + ... + (x1n1 - x) + (x21 - x) + (x22 - x) + ... +
+(x2n2 - x) + (xk1 - x) + (xk2 - x) + ... + (xknj - x) = 0.
Поэтому Q имеет (n–1) степень свободы.
По третьему условию (8.2.2) все генеральные групповые дисперсии должны быть равными, т. е. D1=D2=…=Dk=D. Найдем несмещенные оценки D.
Во-первых, убедимся в том, что несмещенная оценка дисперсии
æ Q ö
Q2
, т. е. M çç 2 ÷÷÷ = D. Действительно,
D равна
çè n - k ø
n-k
é k nj
æ Q ö
1
ê
M çç 2 ÷÷÷ =
M ê åå xij - x j
çè n - k ø n - k ê
ë j=1 i=1
(
=
ù
é nj
1 k
ê
=
M
ú
å êå xij - x j
ú n - k j=1 ê i=1
û
ë
2ú
)
(
ù
ú=
ú
û
2ú
)
1 k
å M nj Dj* ,
n - k j=1
(
)
где
Dj* =
nj
2
1
å xij - x j
nj i=1
(
2
)
=
2
(x1j - x j ) + (x2j - x j )
(
+ ... + xnj j - x j
2
)
nj
– выборочная групповая дисперсия, вычисленная по результатам
наблюдений при j-м уровне фактора, j=1, 2,…, k.
k
æ Q ö
1 k
1 k
*
é(n -1) D ù = 1 × (n -1) M
Далее M çç 2 ÷÷÷ =
M
n
D
=
M
å êë j
å j
j j
j úû
çè n - k ø n - k å
n-k
n-k
k
j=1
k
(
)
j=1
j=1
k
1
1
1
1
-1) D j ùú = × å (nj -1) M ( D j ) =
nj -1) Dj =
Dj å (nj -1) =
Dj ( n×- k) = Dj =
(
å
û n-k
n - k j=1
n - k j=1
n-k
j=1
-1) =
nj
1
Dj* – несмещенные оценки
×
Dj (n - k) = Dj = D, так как D j =
n-k
nj -1
групповых дисперсий, т. е. M ( D j ) = Dj . Последнее равенство верно
только в том случае, когда наблюдения в j-й группе независимы и
проводятся в одинаковых условиях. Это справедливо по 2-му услоæ Q ö
вию (8.2.2). Итак, M çç 2 ÷÷÷ = D.
çè n - k ø
269
Рассмотрим теперь вопрос о различии обработок (факторов)
в табл. 8.1. Он сводится к выяснению различия между T1, T2,…, Tk.
Гипотеза об однородности данных означает равенства μ1=μ2=…=μk,
т. е. T1=T2=…=Tk=0. Альтернатива об упорядоченности эффектов
обработки (о влиянии фактора) превращается в T1≤T2≤…≤Tk, а различие между i-м и j-м уровнем фактора, естественно, характеризуется величиной μi–μj=Ti–Tj. Итак, пусть H0: μ1=μ2=…=μk и выполняются условия (8.2.2).
Тогда при каждом уровне фактора величина X будет иметь нормальное распределение с одним и тем же математическим ожиданием и одной и той же дисперсией, равной D, т. е. переход от
одного уровня фактора к другому не вносит никаких изменений:
имеется одна генеральная совокупность, и результаты наблюдений, приведенные в табл. 8.1 – это выборка объема n из этой
генеральной совокупности. А так как наблюдения независимы
и проведены в одинаковых условиях, то несмещенная оценка обn
2
1 k j
xij - x . Таким образом,
щей дисперсии D и есть D =
åå
n -1 j=1 i=1
é
k nj
ê 1
Mê
åå xij - x
ê n -1 j=1 i=1
ë
(
(
)
ù
æ 1
ö
Q÷÷÷ = D.
ú = M ççç
è n -1 ø
ú
û
2ú
)
Убедимся теперь в том, что при выполнении условий гипотезы
1
Q1 также является несмещенH0 и условий (8.2.2) величина
k -1
ной оценкой общей дисперсии.
æ Q ö
1
1
1 é
M çç 1 ÷÷÷ =
M Q =
M Q - Q2 ) =
M (Q ) - M (Q2 )ùû =
çè k -1ø k -1 ( 1 ) k -1 (
k -1 ë
1 é
=
(n -1) D - (n - k) Dùû = D.
k -1 ë
Итак, имеются три несмещенные оценки одной и той же дисQ2
персии D, причем оценка
является несмещенной оценкой в
n-k
Q1
Q
любом случае, а оценки
и
– только при выполнении гиn -1
k -1
потезы H0, т. е. только тогда, когда исследуемый фактор не влияет
на результат.
270
Проверка гипотезы H0 о равенстве групповых математичеQ
ских ожиданий основывается на сравнении дисперсий s12 = 1
k -1
Q2
2
. Вспомним сначала механизм создания случайной веи s2 =
n-k
личины с χ2-распределением (см. § 5.6, п. 2). Поскольку верны допущения (8.2.2), а s21 и s22 являются несмещенными оценками дисперсии D, то
(k -1)s12
D
Î χ2k-1 и
(n - k)s22
D
2
Î χn
-k . (8.2.6)
Величины χ2k–1 и χ2n–k независимы в силу независимости s21 и s22.
χ2k-1
Q1
2
s
Тогда (см. § 2.3) отношение k2-1 = 12 = k -1 имеет F-распределение
Q2
χn-k s2
n-k
n-k
Q1
k
с числом степеней свободы k–1 и n–k, -1 Î Fk-1,n-k . (8.2.7)
Q2
n-k
Итак,
H0 : T1 = T2 = ... = Tk = 0,
Гипотеза H0 приниH1 : Ti ¹ Tj , i ¹ j, 1 £ i £ k, 1 £ j £ k.
мается на уровне значимости α, если выборочное значение статистики Fk–1,n–k меньше F α (k -1,n - k) или больше Fα (k -1,n - k).
1-
2
2
Q
В этом случае x и s22 = 2 являются несмещенными оценками
n-k
математического ожидания и дисперсии выборки (наблюдений xij).
Оценка s22 не зависит от вида нулевой гипотезы H0. Оценка s21 существенно использует основное предположение гипотезы H0. Она дает
близкий к D результат только в том случае, когда гипотеза H0 верна. При нарушении H0 оценка s21 имеет тенденцию к возрастанию,
тем большему, чем больше отклонение от H0. Сопоставляя друг с
другом две эти оценки, мы можем заключить, что H0 следует отвергнуть, если они оказываются значимо различны.
Практически вычисление Q, Q1 и Q2 удобно проводить по формулам: Q=A–C, Q1=B–C,Q2=A–B, где
271
k nj
A = åå
j=1 i=1
2
,
xij
æn
ö÷2
1 çç j
B = å ççå xij ÷÷÷ =
÷÷
n
j=1 j çèi=1
ø
k
n
æ
ö÷2
1 2
1 çç k j
1 2
= å x· j , C = çç åå xij ÷÷÷ = x . n
n çè j=1 i=1 ÷÷ø
n
j=1 j
k
(8.2.8)
Для контроля правильности расчетов используют тождество
Q=Q1+Q2.
Если гипотеза о равенстве средних отклоняется, то требуется
определить, какие именно группы средних имеют значимое различие. Для этого часто используются не сами оценки величин Tj, а
некоторые линейные комбинации этих величин. Для их определения вводится понятие контраста. Контрастом параметров T в модели аддитивного влияния фактора на отклик называется величина
k
Lk = å cjTj , где cj, j=1, 2,…, k – константы, однозначно определяеj=1
мые из формулировок основной и альтернативной гипотез, причем
k
å cj = 0. Ясно, что разность Ti-Tj является простейшим примером
j=1
контраста, когда ci=1, cj=-1, cl=0 при всех l≠i и l≠j. Оценки контрастов таковы:
k
k c2


Q
j
M (Lk ) = Lk = å cj x j , D (Lk ) = Dk = 2 å . n
k
n
j=1
j=1 j
Граница доверительного интервала для Lk имеет вид


Lk ± Dk × (k -1) F1-á (k -1,n - k). (8.2.9)
(8.2.10)
Пример. Предполагается, что выборки получены из нормально
распределенных генеральных совокупностей с равными дисперсиями. Проверить гипотезу о равенстве средних. Если H0 принимается, найти несмещенные оценки среднего и дисперсии. В случае
отклонения H0 провести попарное сравнение средних, используя
метод линейных контрастов. Принять α=0,05.
Решение
Быстрее всего задача решается по формулам (8.2.8). Для этого
продолжим исходную таблицу еще несколькими столбцами.
272
Таблица 8.2
Номер выборки
Наблюдения
1
2
3
6
14
12
5
11
4
12
5
7
9
6
–
10
–
–
Таблица 8.3
nj
Номер
выборки
1
2
3
(1)
Fòåîð.
Наблюдения
6
14
12
5
11
4
12
5
7
9
6
–
10
–
–
nj
nj
å xij
å xij2
5
4
3
42
36
23
386
378
209
i=1
i=1
æn
ö÷2
1 çç j
÷
ççå xij ÷÷
nj èçi=1 ø÷÷
352.8
324
176.3
Тогда n=12, k=3, A=973, B=851,133, C=850,083. Отсюда Q=A–
C=122,917, Q1=B–C=1,05, Q2=A–B=121,867. Проверим справедливость расчетов: Q1+Q2=1,05+121,867=122,917=Q.
(1)
Итак, H0: T1=T2=T3=0, H1: Ti≠Tj, i≠j, 1≤i≤3, 1≤j≤3. Fòåîð. = Fα (k -1,n
2
2
= F k -1,n - k = F
3 -1, 12 - 3 = F
2,9 , F( ) = F
k -1,n k =F
α(
2
)
0,025 (
α (k - 1,n - k) = F0,975 (2,9).
12
F
Fâûá. =
)
Q1
Q2
0,025 (
)
òåîð.
1-
α(
2
)
2 = 0,525 = 0,039.
13,541
9
ω
(1)
Fтеор.
W \ω
(2)
Fтеор.
Рис. 8.1. Критическая область статистики
для гипотезы о равенстве средних
273
0,
Таблицы F-распределения с квантилями для малых вероят(2)
ностей очень редки, поэтому квантили F(1)
теор.и F теор.были вычис(1)
(2)
лены в пакете Mathcad. F теор.=0,025, F теор.=5,715. Поскольку
(2)
F(1)
теор.<Fвыб.< F теор., т. е. Fвыб.∈W\w, то гипотеза H0 о равенстве
средних в исходной общей выборке, состоящей из трех разных подвыборок, принимается (см. рис. 8.1). Несмещенными оценками
n
1 3 j
среднего и дисперсии здесь будут величины x = åå xij =8,417
n j=1 i=1
Q
2
2
и s2 =
n - k = 3,541.
§ 8.3. Ранговый однофакторный анализ
В последние годы очень сильно были развиты методы математической статистики, для которых не требуются никакие предположения о распределении, за исключением предположения о том,
что это распределение непрерывно. Эти методы называются непараметрическими или свободными от распределения.
Если мы ничего не знаем о распределении наблюдений, то непосредственно использовать для проверки нулевой гипотезы количественные значения наблюдений xij становится затруднительно.
В этом случае проще всего опираться в своих выводах только на
отношение «больше – меньше» между наблюдениями, так как они
не зависят от распределения наблюдений (на отношения порядка в
общем вариационном ряду членов выборки).
В этом случае вся полезная информация содержится в рангах.
Получим из исходной выборки вариационный ряд, т. е. расположим выборочные значения в порядке возрастания. Каждой величине из этого ряда сопоставим ее ранг, равный порядковому номеру
величины в общем вариационном ряду. Заметим, что если наблюдения однородны, т. е. вся выборка взята из одной и той же генеральной совокупности, то любое распределение рангов равновероятно, а общее число способов группировки рангов, например, при
двух подвыборках объемов n и m равно числу способов, которыми
можно извлечь m предметов из N=n+m, т. е. Cnm+m .
Соответствующие критерии для проверки нулевой гипотезы называются ранговыми, они пригодны для любых непрерывных распределений наблюдений. Более того, они годятся и тогда, когда
измерения xij сделаны в порядковой шкале, например, являются
тестовыми баллами или экспертными оценками.
274
Таблица 8.4
Обработки (соответствуют
уровням факторов)
Ранги результатов
наблюдений
1
3
r11
r21
…
r12
r22
…
rn11
rn2 2
…
…
…
…
…
k
r1k
r2k
…
rnkk
Основные формулы рангового однофакторного анализа выведены в предположении, что среди чисел xij нет совпадений. При наличие совпадений используются средние ранги, при этом теоретическая схема действует как приближенная, и надежность ее выводов
снижается. Для учета совпадений вводятся специальные поправки.
Припишем каждому наблюдению xij в общем вариационном
ряду его ранг rij. Тогда табл. 8.1 преобразуется в табл. 8.4.
Общая методика проверки статистических гипотез рекомендует
сконструировать некоторую статистику, т. е. функцию от рангов
rij, которая легла бы в основу критерия проверки гипотезы. Основное требование к этой статистике следующее: ее распределение при
гипотезе H0 должно заметно отличаться от ее распределения при
альтернативах. Например, часто в качестве статистики берут сумму рангов одной подвыборки. Рациональность такой процедуры состоит в том, что если одно распределение (одной подвыборки) смещено относительно другого, то это должно проявиться в том, что
маленькие ранги должны в основном соответствовать одной подвыборке, а большие – другой, вследствие чего соответствующие суммы рангов должны быть маленькими или большими в зависимости
от того, какая альтернатива имеет место.
§ 8.4. Критерий Краскела – Уоллиса (Н-критерий)
Если нельзя сказать что-то определенное об альтернативах к H0,
можно воспользоваться для ее проверки свободным от распределения Н-критерием. Он был предложен Краскелом и Уоллисом и является обобщением двухвыборочного критерия Вилкоксона*.
Построим общий вариационный ряд, содержащий n1+n2+…+nk=n
элементов, где nj – число наблюдений в j-й подвыборке (на j-м уровне
* Фрэнк
Вилкоксон (Уилкоксон) (1892-1965) – американский математик.
275
фактора). Используем обозначения § 8.2. Тогда R•j – сумма рангов
каждой обработки, т. е. каждого столбца табл. 8.4, а R j – среднее
арифметическое этих рангов. Формулы для их нахождения таковы:
nj
R· j = å rij , R j =
i=1
n
1 j
1
å rij = n R·j .
nj i=1
j
æ
1 n(n + 1) n + 1
÷ö 1 n
ç1
как среднее ариф=
M R j = M çç R· j ÷÷÷ = å k = ×
n
2
2
÷ø n k=1
çè nj
n(n + 1)
метическое всех рангов от единицы до n, а 1 + 2 + ... + n =
.
2
nj (n + 1)
Отсюда M (R· j ) =
.
2
Если между столбцами нет систематических различий, средние ранги R j не должны значительно отличаться от среднего ранга, рассчитанного по всей совокупности чисел rij. Математическое
n +1
.
ожидание среднего ранга, очевидно, равно M R =
2
Более сложным образом рассчитывается дисперсия. Для R j она
( )
( )
( )
равна D R j =
(n + 1)(n - nj )
12nj
. Если n→∞, то дробь
R j - M (R j )
D (R j )
име-
ет в пределе стандартное нормальное распределение, что и использовали Краскел и Уоллис для построения статистики критерия, которую они обозначили буквой H и которая имеет вид
2
é
n + 1ù
ê
ú
R
j
k
ê
2 ûú æç nj ö÷÷
H=å ë
ç1 - ÷. n ÷ø
n + 1 n - n èçç
j=1 (
)(
j
)
(8.4.1)
12nj
Краскел и Уоллис показали, что асимптотически статистика H
имеет χ2-распределение с (k–1) степенью свободы, где k – число подвыборок (уровней фактора). Часто статистика H записывается в одном из следующих двух видов:
или
276
H=
2
k
æ
12
n + 1ö÷ nj ççR j ,
÷
å
n(n + 1) j=1 çè
2 ÷ø
(8.4.2)
2
H=
k R
12
·j
- 3(n + 1). å
n(n + 1) j=1 nj
(8.4.3)
Если два или более наблюдений совпадают, то наилучшая процедура состоит в том, что совпавшим наблюдениям нужно приписать один и тот же ранг, равный среднему арифметическому рангов, которые эти наблюдения должны были получить, если бы они
не совпали. Эта операция оставляет без изменения сумму рангов
и математическое ожидание суммы рангов. Но формула для вычисления дисперсии меняется, так как дисперсия статистики R j
зависит от суммы квадратов рангов, которая от такой замены изменится. Изменится и вид статистики H, поэтому ее исправляют
соответствующей поправкой.
Если совпадений много, рекомендуется использовать модифицированную форму статистики H ¢ :
H¢ =
H
p
Tj
,
(8.4.4)
1- å 3
j=1 n - n
где p – число групп совпадающих наблюдений, Tj=(tj3–tj), tj – число
совпадающих наблюдений в группе с номером j.
Пример. Кислота непрерывным образом концентрируется на
некотором типе оборудования, в результате чего часть оборудования ржавеет и со временем разрушается. Потери металла (в сотнях
тонн) за период от установки оборудования до момента разрушения
некоторой его части зафиксированы в таблице для трех литейных
мастерских А, В и С. Проверить нулевую гипотезу, по которой средняя продолжительность службы металла одна и та же для всех трех
мастерских (см. табл. 8.5).
Решение.
Никаких правдоподобных предположений о вероятностном распределении потерь металла в этой задаче сделать нельзя. Воспользуемся ранговым методом Краскела – Уоллиса. Надо заметить, что
Таблица 8.5
Мастерская
А
В
С
Потери металла
84
67
46
60
92
93
40
95
100
47
40
92
34
98
92
46
60
59
108
86
117
277
величины, приведенные в исходной таблице, имеют смысл сами
по себе, а не только в сравнении с другими величинами. Хотя при
переходе от величин потерь металла к их рангам происходит определенная потеря информации, но такая информация, во-первых,
не столь значительна, во-вторых, компенсируется тем, что от неизвестного закона распределения величин xij мы переходим к величинам rij, распределение которых при гипотезе H0 известно.
Основная гипотеза H0 постулирует постоянный срок службы
металла во всех трех мастерских, т. е. постоянный уровень потерь,
следовательно, однородность исходных выборок. Обозначим потери металла в j-й группе через μj. Тогда
H0 : µ1 = µ2 = µ3 ,
H1 : µi ¹ µ j , i ¹ j, 1 £ i £ 3, 1 £ j £ 3.
Сначала получим вариационный ряд и припишем каждому наблюдению его ранг. В связи с наличием в таблице совпадений будем
пользоваться средними рангами (см. табл. 8.6).
Общее количество наблюдений n = 21. Составим теперь из
табл. 8.6 таблицу рангов и дополним ее двумя столбцами, содержащими R•j и R j .
Для вычисления статистики Краскела – Уоллиса удобнее исполь12 æç 33,52 1302 67,52 ö÷÷
ç
зовать формулу (8.4.3). Тогда H =
+
+
÷ - 3 × 22 = 6,42
21× 22 ççè 6
10
5 ÷÷ø
Таблица 8.6
Наблюдения
Номер наблюдений
в вариационном ряду
Ранг
Наблюдения
Номер наблюдений
в вариационном ряду
Ранг
34
40
40
46
46
47
59
60
60
67
84
1
2
3
4
5
6
7
8
9
10
11
1
86
2,5 2,5 4,5 4,5
92 92 92 93
6
95
7 8,5 8,5 10 11
98 100 108 117
12
13
14
15
16
17
18
19
20
21
12
14
14
14
16
17
18
19
20
21
Таблица 8.7
Мастерская
А
В
С
278
Ранги потерь металла
11
10
4,5
8,5
14
16
2,5
17
19
6
2,5
14
1
18
14
R•j
Rj
4,5
33,5 5,583
8,5 7 20 12 21 130 13,00
67,5 13,50
2
+
67,52 ÷÷ö
÷ - 3 × 22 = 6,423. Так как имеются совпадения, скорректируем стати5 ÷÷ø стику H.
В нашем случае имеются четыре группы совпадающих наблюдений: 40, 40; 46, 46; 60, 60; 92, 92, 92. Вычислим поправки по формуле (8.4.4.):
T1=(23–2)=6, T2=6, T3=6, T4=(33–3)=24. Знаменатель дроби в вы4
ражении для H ¢ равен: 1 - å
(
Tj
3
)
= 1-
6 + 6 + 6 + 24
= 0,995.
9240
j=1 21 - 21
H
Тогда H ¢ =
= 6,455.
0,995
Как было указано, величина H асимптотически распределена
по закону χ2 с числом степеней свободы k–1, то есть в данном случае равным двум. Найдем квантиль χ2-распределения: χ20,95;2=5,99.
Таким образом, при использовании правостороннего критерия
H ¢ > χ20,95;2 ; т. е. H ¢ Î ω, и гипотеза H0 должна быть отвергнута
с уровнем значимости α=0,05.
§ 8.5. Лабораторная работа № 8.
Однофакторный ранговый и дисперсионный анализ
в статистическом пакете Statgraphics
Дисперсионный анализ применяется для обнаружения влияния
выделенного набора факторов на результативный признак. Общая
идея дисперсионного анализа состоит в разложении общей дисперсии результативного признака на части, обусловленные влиянием
контролируемых факторов, и остаточную дисперсию, вызываемую
случайными обстоятельствами.
Известно много моделей дисперсионного анализа. Они классифицируются, с одной стороны, по математической природе факторов (детерминированные, случайные и смешанные), с другой
стороны – по числу контролируемых факторов (однофакторные и
многофакторные модели). По способу организации исходных данных среди моделей дисперсионного анализа выделяют полные и
неполные k-факторные планы, полные и неполные блочные планы
и рандомизированные блочные планы. В Statgraphics реализованы
все перечисленные модели дисперсионного анализа.
Решим в пакете Statgraphics следующую задачу однофакторного дисперсионного анализа.
279
Таблица 8.8
Содержание
катализат,%
5
10
15
Номер эксперимента
Сумма
1
2
3
4
5
6
7
8
9 10 11 12
5,9 6,0 7,0 6,5 5,5 7,0 8,1 7,5 6,2 6,4 7,1 6,9 80,1
4,0 5,1 6,2 5,3 4,5 4,4 5,3 5,4 5,6 5,2 –
– 51,0
8,2 6,8 8,0 7,5 7,0 7,2 7,9 8,1 8,5 7,8 8,1 – 85,1
Время химической реакции при различном содержании катализатора распределилось следующим образом (в секундах) (табл. 8.8).
Предполагая, что выборки получены из нормально распределенных генеральных совокупностей с равными дисперсиями, проверить нулевую гипотезу H0 о равенстве средних. Принять α = 0,1.
Раскроем электронную таблицу Statgraphics и введем в нее значения наблюдений (величины xij – значения результативного признака) и значения градаций фактора (можно вводить закодированные значения, например, 1, 2, 3), так как это показано на рис. 8.2.
Рис. 8.2. Электронная таблица Statgraphics
280
Доступ к процедурам анализа осуществляется из пункта меню
Compare→Analysis of Variance→One-Way ANOVA (однофакторный
дисперсионный анализ). Сокращение ANOVA происходит от выражения «Analysis of variance». В отечественной литературе вместо
термина «анализ вариаций» используется термин «дисперсионный
анализ».
Сразу же появляется окно однофакторного дисперсионного анализа (см. рис. 8.3). В окно Dependent Variable (Зависимая переменная) введем Observ, а в окно Factor (Фактор) имя Factor. Нажмем ОК.
Появляется уже знакомое нам подменю Tables and Graphs. Зададим в нём следующие табличные опции: Analysis Summary,
Summary Statistics, ANOVA Table, Table of Means, Multiple Range
Test, Variance Check, Kruskal-Wallis Test. Аналогично зададим вывод следующих графиков: Scatterplot, Means Plot, Residual Plots и
Quantile Plot. На экране появится сводка однофакторного дисперсионного анализа, в которой подтверждается, что введено 33 наблюдения, для которых зафиксировано три уровня фактора. Внизу
под этими включено сообщение StatAdvisor с рекомендациями по
проведению дальнейшего анализа. Укажем назначение всех выведенных процедур.
Analysis Summary (Сводка анализа). Заставка этого окна уже открыта. На ней указаны самые общие сведения о выборке.
Summary Statistics (Описание данных). Содержание числовой
информации, помещенной на этой заставке, понятно из контекста.
Сначала анализируется информация о факторе. Приводятся значения уровней фактора, количество наблюдений на каждом уровне,
Рис. 8.3. Окно для задания переменных
281
средние, дисперсии и стандартные отклонения на каждом уровне
и по всей выборке. Затем приводятся наименьшие и наибольшие
значения членов выборки, их стандартные асимметрии и эксцессы,
наконец, в последней таблице помещены суммарные значения наблюдений по факторам и в целом по выборке.
ANOVA Table (Таблица дисперсионного анализа). Назначение
этой таблицы – дать ответ на вопрос о наличии значимого влияния уровней фактора на исследуемый отклик, т. е. на присутствие
эффектов обработки. В первой колонке Source (Источник вариации) указаны две части, на которые разлагается общая дисперсия
по формуле (8.2.5) Between groups (Между группами) и Within
groups (Внутри групп). Далее приводится общая дисперсия Total
(corr.) (Итого (скорректированное значение)). Второй столбец содержит сумму квадратов между группами, внутри групп и общую, т. е. величины Q1, Q2 и Q, третий – соответствующее число
степеней свободы. В четвертом столбце находятся значения дисперсий: между группами величина s21, внутри групп величина s22.
В столбце F-ratio выводится значение F-статистики, наконец, столбец p-Value содержит уровень значимости этой статистики (см.
рис. 8.4).
Means table (Таблица средних). Некоторые данные из этой таблицы были уже приведены в Summery Statistics. Колонка Stnd.
error (pooled s) (Объединенная стандартная ошибка) содержит s2.
В двух последних столбцах указанной таблицы находятся границы
доверительных интервалов для средних из третьего столбца. Обратим внимание на то, что в таблице средних приведены доверительные 95% интервалы, построенные по методике LSD (рис. 8.5).
Щелчок правой кнопки мыши в поле заставки Table of Means открывает следующее дополнительное меню (рис. 8.6), в котором задаются различные способы построения доверительных интервалов.
В § 5.6 рассмотрены формулы для построения стандартных доверительных интервалов (Confidence Interval). Сведения о других
методах можно найти в книге [13].
Multiple Range Tests (Множественные сравнения) выдает результаты анализа множественных сравнений средних (рис. 8.7).
В столбце Homogeneous Groups (Однородные группы) вертикальными столбцами звездочек выделены возможные однородные группы наблюдений. В нашем случае таких групп три и каждая из них
соответствует одному из трех различных уровней фактора. Таким
образом, все группы неоднородны, и объединить их в одну общую
группу нельзя.
282
283
Рис. 8.4. Результаты однофакторного дисперсионного анализа
Рис. 8.5. Таблица средних
Рис. 8.6. Окно для задания различных способов построения
доверительных интервалов
Рис. 8.7. Однородные группы наблюдений и контрасты
284
Далее в таблице приводятся значения линейных контрастов, выk
численных по формуле Lk = å cjTj . В нашем случае H0: m1= m2 =
j=1
= m3, где mi – средняя i -й подвыборки (уровня обработки). Тогда
Lk1 = m1 - m2 , c1 = 1, c2 = -1, c3 = 0,
Lk2 = m1 - m3 , c1 = 1, c2 = 0, c3 = -1,
Lk3 = m2 - m3 , c1 = 0, c2 = 1, c3 = -1,
x1 = 6,675; x2 = 5,1; x3 = 7,73636.
Оценки и дисперсии линейных контрастов вычисляются по формуле (8.2.9):

Lk1 = c1 x1 + c2 x2 = 6,675 - 5,1 = 1,575;

Lk2 = c1 x1 + c3 x3 = 6,675 - 7,73636 = -1,06136;

Lk3 = c2 x2 + c3 x3 = 5,1 - 7,73636 = -2,63636 и т. д.
Наконец, в столбце под заголовком +/-Limits приведены границы доверительного LSD интервала, для линейных контрастов, вычисленные по формуле, аналогичной формуле (8.2.10).
После щелчка правой кнопкой мыши в поле заставки Multiple
Range Test появляется дополнительное меню, подобное меню в
пункте Table of Means, в котором можно задать различные способы
построения доверительных интервалов.
Variance Check (Тесты дисперсий). Эта процедура включает в себя
результаты трех статистических критериев Кокрена*, Бартлетта
и Хартли для сравнения разбросов наблюдений на разных уровнях фактора (см. рис. 8.8). Критерии Кокрена и Бартлетта проверяют на однородность ряд дисперсий, т. е. нулевую гипотезу вида H0:
D1=D2=…=Dk. В данном случае Di – дисперсия соответствующей подвыборки на i – м уровне фактора. По этим двум критериям, кроме значений статистик критериев приводятся также значения минимальных уровней значимости. Следует заметить, что критерии Кокрена и
Бартлетта весьма чувствительны к отклонению модели наблюдений
от нормальности, поэтому в интерпретации результатов этих критериев нужна определенная осторожность. Информацию о критериях
Кокрена, Бартлетта и Хартли можно найти в [1, 14, 15, 16].
* Уильям
Геммел Кокрен (1909–1990) – английский математик.
285
Рис. 8.8. Результаты различных статистических тестов
Kruskal – Wallis Tests (Ранговый однофакторный анализ Краскела – Уоллиса) исследует эффект действия одного фактора классификации для сбалансированного или несбалансированного плана.
В колонке factor стоят метки соответствующих способов обработки (факторов), в колонке Sample Size (Размер выборки) – число
наблюдений на каждом уровне фактора. В колонке Average Rank
(Средний ранг) – соответствующая величина ранга для каждой
группы. Под таблицей приведены значения для асимптотической
аппроксимации, скорректированной для случая совпадающих наблюдений по формуле (8.4.4), и минимальный уровень значимости
этой статистики (p-Value).
Перечисленные выше процедуры довольно слабо затрагивают вопрос о правомерности применения дисперсионного анализа к анализируемым данным. Этот вопрос является определяющим и от него
зависит достоверность выводов, полученных в результате анализа. Для более детального рассмотрения исходной выборки в пакете
Statgraphics могут быть применены критерии χ2 и Колмогорова для
проверки согласия с нормальным распределением, глазомерный метод проверки нормальности, критерии асимметрии и эксцесса.
Рассмотрим теперь процедуры окна Graphics Options дополнительного меню. Мы задали следующие графики: Scatterplot, Means
Plot, Residual Plots и Quantile Plot.
Scatterplot – это диаграмма рассеивания исходной выборки. Мы
имели с ней дело постоянно, начиная с лабораторной работы № 1
(см. рис. 8.9).
286
Рис. 8.9. Диаграмма рассеивания выборки
и доверительные интервалы для средних по факторам
287
Means Plot – реализует графическое представление данных таблицы, выдаваемой процедурой Table of Means.
Процедура Residual Plot for observ даёт графики остатков в зависимости от номера наблюдения в векторе ввода данных (рис. 8.10).
Каждая из этих форм (сравните рис. 8.9 и 8.10) подчеркивает свой
Рис. 8.10. Графики остатков в зависимости от номера наблюдения
Рис.8.11. Графики квантилей выборки в зависимости
от номера фактора
288
аспект в возможных причинах нарушения однородности распределения остатков.
Quantile Plot даёт графики квантилей выборки в зависимости от
фактора (см. рис. 8.11). На этих графиках видна явная негомогенность групп наблюдений.
Задание 1. С помощью рассмотренных процедур пакета Statgraphics решить одну задачу однофакторного дисперсионного анализа. Везде уровень значимости принять равным 0,05. В каждой
задаче проверить гипотезу о равенстве средних. Если гипотеза принимается, то найти несмещенные оценки среднего и дисперсии.
Если же отклоняется, провести попарное сравнение средних, используя метод линейных контрастов. Номер вашего варианта – это
номер вашей фамилии в журнале преподавателя.
1. В трех магазинах, продающих товары одного вида, данные товарооборота за восемь месяцев работы (в тыс. руб.) составили следующую сводку:
Месяц
Магазин
I
II
III
1
2
3
4
5
6
7
8
19
20
16
23
20
15
26
32
18
18
27
26
20
40
19
20
23
17
18
22
19
35
18
18
2. В следующей таблице приведены результаты обследования
60 работников производства, у которых фиксировалась средняя часовая выработка в натуральных единицах продукции. Принять за
фактор – стаж работы.
Стаж
От 1 до 4 лет
От 4 до 7 лет
От 7 до 10 лет
Свыше 10 лет
Возраст
от 35 до 45 лет
от 25 до 35 лет
19, 20, 20, 20, 22,
30, 31, 32, 32, 34,
35, 35, 39, 40, 41,
40, 40, 41, 41, 42,
19, 20, 20, 23, 25,
20, 29, 30, 31, 31,
36, 40, 41, 42, 45,
28, 31, 35, 36, 40,
от 45 до 55 лет
18, 19, 20, 21, 23,
19, 25, 25, 26, 26,
24, 24, 24, 25, 25,
20, 24, 25, 31, 32.
3. Решить задачу № 2 с теми же данными, приняв за фактор,
влияющий на среднюю часовую выработку, возраст работника.
4.
Номер выборки
1
2
3
1
2
3
4
12
14
6
4
11
5
7
5
12
8
6
9
Наблюдения
5
6
5
3
10
9
–
7
7
8
9
6
–
11
–
–
4
–
–
5
289
5.
Номер выборки
1
2
3
1
2
4
6
8
2
5
9
Наблюдения
3
4
3
4
10
4
7
7
5
6
5
6
8
3
8
6
6.
Номер выборки
1
2
3
4
Наблюдения
4
5
1
2
3
9
8
9
16
8
11
10
9
8
8
7
12
7
9
11
14
9
10
8
15
6
7
8
–
12
10
17
–
–
12
19
–
–
13
–
7. Приведены данные о содержании иммуноглобулина IgA в сыворотке крови (в мг %) у больных пяти возрастных групп:
Возрастная
группа
1
2
3
4
5
Содержание IgA (мг %)
83
84
86
89
90
85
85
87
90
92
–
85
87
90
–
–
86
87
91
–
–
86
88
–
–
–
87
88
–
–
–
–
88
–
–
–
88
–
–
–
–
88
–
–
–
–
89
–
–
–
–
90
–
–
8. На химическом заводе разработаны два новых варианта технологического процесса. Чтобы оценить, как изменится дневная
производительность при переходе на работу по новым вариантам
технологического процесса, завод в течение десяти дней работает
по каждому варианту, включая существующий. Дневная производительность завода (в условных единицах) приводится в таблице:
Технологический
процесс
Существующая
схема
Вариант I
Вариант II
Суточная производительность
3
4
5
6
7
8
1
2
46
48
73
52
72
44
66
74
52
82
63
64
72
72
64
84
48
68
70
76
78
9
10
46
60
48
88
68
70
79
60
54
9. Из большой группы полевых транзисторов с недельным интервалом были получены три выборки. Ниже приводятся результаты измерения емкости затвора-стока у этих транзисторов (в пикофарадах):
290
Номер выборки
Емкость (пФ)
1
2
3
2,8 3,2 2,9 3,5 3,3 3,7 3,9 3,1 3,2 3,1 3,4 3,0 3,6 3,1 3,2 3,2
3,1 3,2 3,3 3,4 3,7 3,4 3,0 3,1 2,9 3,5 3,2 3,2 – – – –
3,6 2,8 3,0 3,2 3,0 3,7 3,2 3,2 3,6 3,4 3,1 3,2 – – – –
10. Выяснить зависит ли объем работ, выполненных на стройке за смену, от работающей бригады. Данные по четырем бригадам
приведены в следующей таблице:
Номер бригады
1
2
3
4
Объем выполненной работы
140
150
150
150
144
149
149
155
142
152
146
154
145
150
147
152
146
–
148
157
140
–
150
–
11. Приведены два последних десятичных знака константы
в эксперименте по определению гравитационной постоянной G. Например, табличное значение 83 соответствует наблюденному значению 6.683. Эксперимент ставился с шарами, сделанными из золота, платины и стекла.
Материал
Золото
Платина
Стекло
Значение константы
83
61
78
81
61
71
76
67
75
78
67
72
79
64
74
72
–
–
12.
Номер выборки
1
2
3
Наблюдения
92
83
66
78
96
97
60
98
100
67
60
96
53
99
96
66
78
–
–
77
–
–
103
–
–
93
–
–
107
–
13. Представлены пробы долговечности электрических ламп,
взятых из четырех партий.
Номер партии
1
2
3
4
Продолжительность горения в часах
1600
1580
1460
1510
1610
1640
1550
1520
1650
1640
1600
1530
1680
1700
1620
1570
1700
1750
1640
1600
1700
–
1660
1680
1800
–
1740
–
–
–
1820
–
14. Приведены изменения критерия чистоты поверхности металла для трех приборов.
291
Номер прибора
Отклонения от общей медианы в сотых долях микрона
1
2
3
–4
7
19
–2
11
2
–21
30
–13
–4
28
–9
–4
27
2
–35
103
1
15. Результаты 22 испытаний не четырех уровнях фактора следующие:
Уровень
фактора
F1
F2
F3
F4
Наблюдения
1,38
1,41
1,32
1,31
1,45
1,42
1,33
1,33
1,38
1,44
1,34
1,32
1,42
1,45
1,31
1,33
1,42
1,46
1,35
–
1,44
1,43
–
–
1,39
–
–
–
16. Проведено 22 испытания, результаты которых представлены в таблице.
Уровень
фактора
Наблюдения
F1
F2
F3
30,56 32,66 34,78 35,50 36,63 40,20 42,28 41,76 35,17
43,44 47,51 53,80 50,11 46,23 51,19
–
–
–
31,36 36,20 36,38 42,20 35,13 39,93 34,72
–
–
17. Результаты испытаний на трех уровнях фактора следующие:
Уровень
фактора
F1
F2
F3
Наблюдения
37 47 40 60– 52 48 42 –
–
60 86 67 92 90 95 98 103 89
69 100 98 75 85 101 94 73 89
–
91
96
–
95
–
–
97
–
18. В следующей таблице приведены уровни поставок сырья (в
условных единицах) в серии из пяти партий.
Партии
1
2
3
4
5
Уровень поставок сырья
62
63
66
62
65
65
66
61
65
64
64
64
64
56
65
62
63
67
64
64
66
62
62
62
63
65
67
65
65
65
62 64 64 66 64 66 63 65 63 63
66
64
63
62
69
65
64
64
70 68 69 63 65 64 65 64
62 62 63 64 – – – –
63 – – – – – – –
64 64 65 – – – – –
19. Таблица данных содержит результаты по определению октанового числа бензина, полученные в четырех округах на северовостоке США летом 1953 года.
292
Округ
Октановое число бензина
84,0
82,2
82,4
83,2
85,1
80,2
82,4
А
В
С
D
83,5
83,6
82,4
82,8
83,1
82,9
83,4
84,0
84,9
83,4
83,4
84,2
84,6
82,7
85,0
–
83,3
80,2
80,6
84,2
82,9
83,1
–
83,1
82,7
82,3
82,8
83,7
83,5
–
83,3
83,0
–
83,0
81,5
81,7
–
82,4
85,0
–
82,9
81,9
85,4
–
83,3
83,0
–
83,4
81,7
84,1
–
82,6
85,0
–
83,1
82,5
83,0
–
82,0
83,7
–
83,5
–
85,8
–
83,2
83,6
–
83,6
–
84,0
–
83,1
83,3
–
86,7
–
84,2
–
82,5
83,8
–
82,6
–
20. Приведены две последние цифры чисел, выражающих скорость света, полученные Майкельсоном* в его опыте с шестью круговыми зеркалами.
Номер зеркала
1
2
Наблюдения
47
42
3
15
6
18
30
30
3
4
5
6
47
18
39
30
21
9
21
38
36
27
27
27
12
33
62
45
67
42
33
30
18
29
33
48
60
9
30
12
59 92 44 41 47 44 41 – – –
30 0 27 18 27 57 66 48 24 15
15 3 7 27 27 42 37 69 24 63
24 6 39 42 18 12 63 – – –
27 30 39 18 27 48 24 18 – –
33 24 23 57 39 44 33 30 24 24
21. Фруктовый сок хранился в течение нескольких месяцев в цистернах четырех типов, после чего определялось его качество выставлением численной оценки. Ниже приведены результаты испытаний.
Цистерна
A
B
C
D
Наблюдения
6,14
6,55
5,54
4,81
5,72
6,29
5,61
5,09
6,90
7,40
6,60
6,61
5,80
6,40
5,70
5,03
6,23
6,28
5,31
5,15
6,06
6,26
5,58
5,05
5,42
6,22
5,57
5,77
6,04
6,76
5,84
6,17
22. Лечащий врач рекомендовал своим пациентам, жалующимся на лишний вес, лекарства А, В и С. При этом он каждый раз фиксировал вес пациента после лечения в фунтах (1 фунт = 453,6 г),
в результате чего получены следующие результаты.
Лекарство
А
В
С
* А.А.
Вес пациента
147 183,5 150
203
180 161,5 157
216 172 140
167
180 216,5 127,5 222
132
167
221
155
154
146 131,5 163,3 160
161
–
–
–
162
–
225
–
159
–
Майкельсон (1852–1931) – американский физик.
293
23. Следующая таблица содержит специальные оценки в баллах,
соответствующие одному из четырех экспериментальных условий.
Условие
1
2
3
4
Оценки
0
0
0
1
1
6
5
5
3
7
8
12
3
9
9
13
5
11
11
19
10
13
13
22
13
20
16
25
17
20
17
27
26
24
20
29
24. Приведено содержание влаги (в %) в образцах некоторого
продукта в зависимости от условий хранения.
Условия
хранения
1
2
3
4
5
Содержание влаги (в %)
7,8
8,3
5,4
8,1
7,9
7,1
7,7
8,5
5,3
8,0
8,0
6,9
7,4
8,3
5,2
7,9
7,8
7,0
7,9
8,2
5,5
8,2
8,1
7,3
8,3
8,2
8,0
7,6
7,4
7,7
8,4
5,6
8,3
7,9
7,2
7,4
6,4
9,5
–
7,3
6,3
9,6
–
7,5 7,1 7,0
6,5
–
–
9,4 10,1 10
–
–
–
6,9
–
9,9
–
25. В таблице дано среднее число ошибок при выполнении 12
различных заданий животными трех видов.
Животное
Среднее число ошибок
Крысы
Кролики
Кошки
1,5 1,1 1,8 1,9 4,3 2,0 8,4 6,6 2,4 6,5 2,6 6,5
1,7 1,5 8,1 1,3 4,0 4,6 4,0 5,1 2,5 6,9 2,5 6,8
0,3 1,0 3,6 0,0 0,6 5,5 1,0 3,1 0,1 1,6 4,3 1,0
26. Приведены результаты исследования дрожания мышц рук
(тремор) у шести пациентов в зависимости от веса браслета. Каждое
табличное значение – среднее из пяти экспериментальных измерений частоты тремора (в Гц).
Пациент
1
2
3
4
5
6
Частота тремора (в Гц)
2,58
2,96
2,70
2,78
3,35
2,36
2,67
2,43
2,63
2,78
2,83
2,71
2,62
2,59
2,85
3,01
3,15
3,02
3,43
2,89
3,47
3,14
–
3,01
2,49
2,96
2,50
2,58
3,02
2,85
2,86
3,08
3,06
2,93
3,32
3,07
3,10
3,41
–
27. В следующей таблице приведено количество решенных задач в шести однородных группах из пяти человек. Задачи пред294
лагались каждому испытуемому независимо от всех остальных.
Группы отличаются между собой величиной денежного вознаграждения за решаемую задачу.
Группа
Число решенных задач
1
2
3
4
5
6
10
8
12
12
24
19
11
10
17
15
16
18
9
16
14
16
22
27
13
13
9
16
18
25
7
12
16
19
20
24
28. Приведено количество металлических заготовок определенных формы и размера, изготовленных рабочими трех разных
групп, отличающихся различными представлениями о цели работы (I – отсутствие информации, II – общие представления, III – точная информация).
Информация
о цели работы
Число обработанных заготовок
I
II
III
40
38
48
35
40
40
38
47
45
43
44
43
44
40
46
41
42
44
29. Данные таблицы представляют разрывную прочность волокон хлопка (в условных единицах) в зависимости от уровня калийных удобрений, вносимых в почву.
Уровень
удобрений
I
II
III
Прочность волокон
7, 46
7,76
7,62
7,68
7,73
8,00
7,21
7,74
7,93
7,17
8,14
7,54
7,57
8,15
8,11
7,80
7,87
–
7,87
–
–
7,34
–
–
30. Исследовалось влияние метронома на плавность (количество
ошибок) речи за определенный отрезок времени при следующих условиях: N – испытуемый говорил без помощи метронома, R – испытуемый говорил при ритмичной работе метронома, А – испытуемый
говорил под неритмичный метроном. Полученные данные приведены в таблице.
Условия
N
R
A
Количество ошибок в речи
5
3
15
3
3
11
3
1
18
4
5
21
2
2
6
2
0
17
2
0
10
3
0
8
2
0
13
0
1
4
4
2
11
1
2
17
295
§ 8.6. Лабораторная работа № 8.
Однофакторный ранговый и дисперсионный анализ
в математическом пакете Mathcad
1. Подборка формул.
Фактор один, уровней фактора k; наблюдения приведены
в табл. 8.9.
Проверяется сдвиговая модель, т. е. модель об однородности
данных во всех столбцах таблицы наблюдений. Это значит, что
H0: μ1=μ2=…=μk или T1=T2=…=Tk=0, где μj – матожидание в j-ом
столбце, Tj – эффект влияния j-го уровня фактора (j-го столбца).
Основное тождество однофакторного дисперсионного анализа
имеет вид
k nj
2
åå(xi,j - x)
j=1 i=1
k
2
= å nj (x j - x) + åå(xi,j - x j ) , (8.6.1)
j=1
j=1 i=1
n
x=
k nj
2
n
k
1 k
1 k j
1 j
nj x j = åå xi,j , x j = å xi,j , n = å nj или
å
n j=1
n j=1 i=1
n i=1
j=1
Îáùàÿ äèñïåðñèÿ
Q
n-1
=
Äèñïåðñèÿ ìåæäó
ãðóïïàìè (ìåæäó ñòîëáöàìè)
Q1
k-1
+
Äèñïåðñèÿ âíóòðè
ãðóïï (âíóòðè ñòîëáöîâ)
.
Q2
n-k
æ Q ö÷
æ Q ö÷
æ Q ö÷
2 ÷ = D всегда, а
÷÷ = D
При этом M ççç
M ççç 1 ÷÷ = D и M ççç
÷÷
çè(n - k)÷ø
çè(k -1)ø÷÷
çè(n -1)÷÷ø
только при выполнении гипотезы H0. Тогда, если S12 =
Q1
(k -1)
, и
Таблица 8.9
Уровни фактора
Наблюдения
1
2
3
…
n
296
1
2
…
k
x11
x21
x31
…
xn 1,1
x12
x22
x22
…
xn 2 ,2
…
…
…
…
x1k
x2k
x3k
…
xn,k
…
÷2k-1
k -1)
÷2n-k
n - k)
S22 =
S12
Q2
, то
(n - k)
(k -1)S12
D
Î χ2k-1 и
(n - k)S22
D
Î χ2n-k а
Q1
= 2=
S2
(k -1)
χ2k-1
(k -1)
χn2-k
(n - k)
=
S12
S22
Q1
(k -1)
=
Î Fk
Q2
(n - k)
Î Fk-1,n-k .
Q2
(n - k)
Итак,
H0 : T1 = T2 = ... = Tk = 0,
При двустороннем критерии,
H1 : Ti ¹ Tj , i ¹ j, i, j=1, k.
если Fα (k -1,n - k) < Fk-1,n-k < F
1-
2
α (k - 1,n - k),
2
то гипотезу H0
принимают, иначе отвергают.
2. Текст основной программы в пакете Mathcad.
ORIGIN:=1
Зададим 3 уровня фактора с наблюдениями разной длины. Выберем бета-распределение.
nsr 1 := 30
nsr 2 := 50
nsr 3 := 70
alfa:=0.05
Параметры бета-распределения:
u:=4 v:=2
f(x):=dbeta(x,u,v)
F(x):=pbeta(x,u,v)
x1 := rbeta(nsr 1 , u , v)
x2 := rbeta(nsr 2 , u , v)
x3 := rbeta(nsr 3 , u , v)
k
Определим общее среднее наблюдений
и средние по столбцам.
n :=
nsr i
eta ( nsr 3 , u k:=3
, v) k=3
k
i = 1
n :=
nsr i
∑
∑
i = 1
n=150
297
2
f(x)
F(x)
1
0
mj1 :=
nsr 1
∑
i = 1
-1
x1i
mj1 = 20.674
mj2 :=
mj3 :=
nsr 2
∑
i = 1
nsr 3
∑
i = 1
x2i
x3i
mj3 = 44.829
msr 1 :=
msr 2 :=
mj1
nsr 1
mj2
nsr 2
mj
mj3
3
msr
:=
msr3
3 := nsr
nsr3
3
k
k
1
1
mx
mj
mx :=
:= n ⋅⋅
mji
i
n
i
=
1
i = 1
mx=0.666
∑
∑
298
0
x
1
2
Найдём теперь величины Q1 и Q2.
Q1 :=
k
∑
j = 1
nsrj ⋅(msrj − mx)2
Q1 = 0.086
mj1 :=
nsr 1
∑
i = 1
(x1i − msr1)2
mj1 = 0.639
mj2 :=
nsr 2
∑
i = 1
(x2i − msr2)2
mj2 := 1.54
mj2 = 1.54
mj3 :=
nsr 3
∑
i = 1
(x3i − msr3)2
mj3 = 2.182
Q2 :=
k
∑
j = 1
mjj
Q2 = 4.361
zF :=
Q1 ⋅ ( n − k)
Q2 ⋅ ( k − 1)
zF=1.456
 alfa , k − 1 , n − k 

 2

f1 := qF 
f1=0.025


f2 := qF  1 −
alfa

, k − 1 , n − k
2

f2=3.783
299
Так как f1<zF<f2, то гипотеза H0 об однородности исходных
данных принимается с уровнем значимости 0,05.
3. Подборка формул рангового дисперсионного анализа.
Таблица рангов наблюдений имеет вид (см. табл. 8.10).
Теперь для работы рангового критерия Краскела – Уоллиса со статистикой Н (см. § 8.4) необходимо выполнить следующие действия.
− По таблице наблюдений составить вариационный ряд.
− Каждому наблюдению в вариационном ряду приписать ранг.
− Построить таблицу рангов, аналогичную таблице наблюдений.
− Исправить таблицу рангов и ввести в неё поправки за совпадение рангов.
− Вычислить статистику Н и принять решение об основной гипотезе.
Для построения вариационного ряда можно воспользоваться
подпрограммой str(x) из лабораторной работы № 6 (см. § 6.11).
str ( x) :=
n ← rows ( x)
l ← cols ( x)
if l
2
for j ∈ i + 1 ..
n
return
x
for i ∈ 1 ..
n−1
a ← xi
if xj < xi
xi ← xj
xj ← a
x
Таблица 8.10
Уровни фактора
Ранги
наблюдений
1
2
3
…
n
300
1
2
…
k
r11
r21
r31
…
rn1,1
r12
r22
r32
…
…
…
…
…
r1k
r2k
r3k
…
rn2 ,2
…
rnk ,k
Таблицу рангов можно построить, применив подпрограмму
rank1(x,y). В ней х – исходный массив наблюдений, у – вариационный ряд. Подпрограмма строит массив рангов наблюдений, причём
расположение рангов в этом массиве соответствует расположению
наблюдений в массиве х.
Для внесения поправки в статистику Н Краскела – Уоллиса
необходимо вычислить знаменатель формулы (8.4.4), т. е. найти
в массиве рангов число совпадающих рангов и групп, в которых эти
ранги совпадают. Это можно сделать подпрограммой popravka.
rank1 ( x , y , r , n) :=
for i ∈ 1 ..
n
for i ∈ 1 ..
n
ri ← 0
for j ∈ 1 ..
r
popravka ( r , n) :=
rj ← i
n
(
) ( rj
if  yi − xj < 10 − 5 ∧
p←1
for i ∈ 1 ..
n−1
ri − ri+ 1 < 10 − 5
if
continue
if
tp ← 2
nom p ← i
for j ∈ i + 1 ..
tp ← tp + 1
p←p+1
p←p−1
if
)
< 10 − 5 
(p
< 10
−5
t←(0)
ri − ri−1 < 10 − 5
n−1
if
ri+ 1 − rj+ 1 < 10
−5
)∨p< 0
nom ← ( 0 )
 p
 t

 nom




301
Исправление рангов за совпадающие наблюдения и, следовательно, и за совпадающие ранги будем делать следующим образом. Все ранги в группе совпадающих рангов заменим одним рангом, равным среднему арифметическому совпадающих рангов. Это
можно сделать следующей подпрограммой risp.
Наконец, вычисление поправки за совпадение рангов можно
осуществить с помощью подпрограммы Н1.
Теперь можно заняться статистикой рангового критерия. Вычислим её по формуле (8.4.2). Эта статистика распределена по закону хи-квадрат с k–1 степенью свободы.
risp ( r , p , t , nom ) :=
return
r
for i ∈ 1 ..
a←0
if p < 1
p
k←0
for j ∈ 1 ..
ti
a ← a + r nom + j−1 + k
( i
)
k←k+1
a←
a
ti
for j ∈ 1 ..
r
ti
( nom i+ j−1) ← a
r
H1 ( H , n , p , t) :=
return
a←0
H
if p < 1
n1 ← n ⋅ ( n ⋅ n − 1)
for i ∈ 1 ..
a←a+
a←1−a
H←
H
302
H
a
p
ti ⋅ ( ti ⋅ ti − 1)
n1
Далее следует текст продолжения основной программы.
x := stack ( x1 , x2)
x := stack ( x , x3)
y := str ( x)
i:=1..n
ri := 0
p:=1 r:=rank(x,y,r,n)
p := popravka ( r , n) 1
t := popravka ( r , n) 2
nom := popravka ( r , n) 3
1
1
1
0.836
1
0.233
1
123
1
123
3
0.676
3
0.274
3
71
3
71
0.732
2
0.436
4
0.373
5
0.912
6
0.719
7
x =
1
1
0.657 y =
8
9
10
11
12
13
14
15
16
0.802
2
4
5
6
7
8
9
0.646
10
0.702
12
0.502
0.759
0.893
0.905
...
11
13
0.245
0.325
0.328
0.347
0.351
0.373 r =
0.374
4
5
6
7
8
0.423
16
...
0.424
87
64
7
8
139
...
8
141
87
64
11
30
12
15
17
114
82
136
94
9
10
103
16
r1 =
61
13
14
6
141
30
12
0.41
5
8
11
0.398
4
17
114
10
0.388
2
94
9
0.375
14
15
2
61
82
13
103
15
139
14
16
136
...
r1 := risp ( r , p , t , nom )
p:=0 t:=(0) nom:=(0)
Вычисление статистики Н.
Rj1 :=
nsr 1
∑
j = 1
rj
303
Rj1 :=
Rj1
nsr 1
k1 := nsr 1 + 1
k2 := nsr 1 + nsr 2
Rj2 :=
Rj2 :=
k2
∑
j = k1
rj
Rj2
nsr 2
k1 := k1 + nsr 2
k2 := k2 + nsr 3
Rj3 :=
Rj3 :=
k2
∑
j = k1
rj
Rj3
nsr 3
Rj1 = 81.033
Rj2 = 80.22
Rj2
= 69.743
3=
Rj
H :=
12
⋅
n ⋅ ( n + 1)
Rj3 =
k
∑
j = 1

n + 1  2
nsrj ⋅  Rjj −
 
2  


H=2.306
Вычисление поправки за совпадение рангов.
H:=H1(H,n,p,t)
H=2.306
Проверим теперь гипотезу H0, воспользовавшись двусторонним
критерием.
 alfa , k − 1 
f1 := qchisq 

 2

f1=0.051
304


f2 := qchisq  1 −
alfa

, k − 1
2

f2=7.378
Так как f1<H<f2, то гипотеза H0 должна быть принята с уровнем значимости 0,05.
Задание 2. С помощью рассмотренных процедур-функций пакета Mathcad решить одну задачу однофакторного дисперсионного
анализа. Везде уровень значимости принять равным 0,10. В каждой задаче проверить гипотезу о равенстве средних. Если гипотеза
принимается, то найти несмещенные оценки среднего и дисперсии. Числовые данные вариантов находятся на стр. 289–295. Номер вашего варианта – это номер вашей фамилии в журнале преподавателя.
§ 8.7. Лабораторная работа № 8.
Однофакторный ранговый и дисперсионный анализ
в математическом пакете Matlab
1. Подпрограммы-функции, применяемые в основной программе.
а)
function r=rank1(x,y,r,n)
%Функция rank1 строит по исходной таблице наблюдений вектор со%ответствующих им рангов. В группах совпадающих наблюдений ран%ги одинаковы. Входные параметры: х-вектор исходных наблюдений,
%у-вектор вариационного ряда, r-вектор начальных рангов,
%n-число наблюдений. Выходной параметр: r-вектор полученных
% рангов (ненулевой).
for i=1:n
r(i)=0;
end;
r=r’;
for i=1:n
for j=1:n
if(abs((y(i)-x(j)))<10^-5)&(abs(r(j))<10^-5)
r(j)=i;
end;
end;
end;
end
305
б)
function [p,t,nom]=popravka(r,n)
%Функция popravka подсчитывает в исходном массиве рангов
%число групп совпадающих (по рангу) наблюдений, число
%наблюдений в этих группах и их местоположение в массиве r.
%Входные параметры: r-массив рангов наблюдений, n-число
%наблюдений. Выходные параметры: p-число групп совпадающих
%рангов, t-массив, содержащий количества рангов, входящих в
%p-ю группу, nom – массив начальных адресов p-ых групп в
%общем массиве r.
p=1;
for i=1:n-1
if abs(r(i)-r(i+1))<10^-5
if abs(r(i)-r(i-1))<10^-5
continue;
end;
t(p)=2;
nom(p)=i;
for j=i+1:n-1
if abs(r(i+1)-r(j+1))<10^-5
t(p)=t(p)+1;
end;
end;
p=p+1;
end;
end;
p=p-1;
if p<1
t=[0];
nom=[0];
end;
end
в)
function r=risp(r,p,t,nom)
%Функция risp заменяет в массиве рангов r все совпадающие ранги их
%средним арифметическим. Входные параметры: r-исходный массив
%рангов, p-число групп совпадающих рангов, t-количества наблюде%ний в p-ой группе, nom-индексы первых элементов в совпадающей
%p-ой группе. Выходной параметр: r-массив исправленных рангов.
if p<1
return
end;
306
for i=1:p
a=0;
k=0;
for j=1:t(i)
a=a+r(nom(i)+j-1)+k;
k=k+1;
end;
a=a/t(i);
for j=1:t(i)
r(nom(i)+j-1)=a;
end;
end;
end
г)
function H=H1(H,n,p,t)
%Функция Н1 исправляет статистику Н Краскеда-Уоллиса за совпаде%ние рангов по формуле (8.4.4).Входные параметры: Н-неисправлен%ная статистика, n-число наблюдений, p-число совпадающих групп
%наблюдений, t-количества наблюдений в p-ой группе. Выходной па%раметр: Н-исправленная статистика.
if p<1
return;
end;
a=0;
n1=n*(n*n-1);
for i=1:p
a=a+t(i)*(t(i)*t(i)-1)/n1;
end;
a=1-a;
H=H/a;
end
Далее следует текст основной программы.
>> clear
>> nsr(1)=30;
>> nsr(2)=50;
>> nsr(3)=70;
>> alfa=0.05;
>> %Уровней фактора 3, выбрано бета-распределение.
>> u=4;
>> v=2;
>> k=3;
307
>>
>>
>>
>>
x=-0.2:0.1:2.2;
f=betapdf(x,u,v);
F=betacdf(x,u,v);
plot(x,f,’-*r’,x,F,’-+g’)
>> %Графики функций плотности и распределения.
>> x1=betarnd(u,v,nsr(1),1);
>> x2=betarnd(u,v,nsr(2),1);
>> x3=betarnd(u,v,nsr(3),1);
>> %Определение общей средней наблюдений и
>> %средних по уровням фактора.
>> n=0;
>> for i=1:k
n=n+nsr(i);
end;
>> mj(1)=0;
>> for i=1:nsr(1)
mj(1)=mj(1)+x1(i);
end;
>> mj(2)=0;
>> for i=1:nsr(2)
mj(2)=mj(2)+x2(i);
end;
>> mj(3)=0;
>> for i=1:nsr(3)
mj(3)=mj(3)+x3(i);
end;
>> mx=0;
308
>> for i=1:k
msr(i)=mj(i)/nsr(i);
mx=mx+mj(i);
end;
>> mx=mx/n;
>> %Определение величин Q1 и Q2 из основного уравнения
>> %однофакторного дисперсионного анализа.
>> Q1=0;
>> for i=1:k
Q1=Q1+nsr(i)*(msr(i)-mx)^2;
end;
>> mj(1)=0;
>> for i=1:nsr(1)
mj(1)=mj(1)+(x1(i)-msr(1))^2;
end;
>> mj(2)=0;
>> for i=1:nsr(2)
mj(2)=mj(2)+(x2(i)-msr(2))^2;
end;
>> mj(3)=0;
>> for i=1:nsr(3)
mj(3)=mj(3)+(x3(i)-msr(3))^2;
end;
>> Q2=0;
>> for i=1:k
Q2=Q2+mj(i);
end;
>> zF=(Q1*(n-k))/(Q2*(k-1))
zF = 3.1975
>> f1=finv(alfa/2,k-1,n-k)
f1 = 0.0253
>> f2=finv(1-alfa/2,k-1,n-k)
f2 = 3.7830
>> %Так как f1<zF<f2, то гипотеза H0 об однородности
>> %исходных данных принимается с alfa=0.05.
>> for i=1:nsr(1)
x(i)=x1(i);
end;
>> for i=1:nsr(2)
x(i+nsr(1))=x2(i);
end;
309
>> k2=nsr(1)+nsr(2);
>> for i=1:nsr(3)
x(i+k2)=x3(i);
end;
>> y=sort(x);
>> for i=1:n
r(i)=0;
end;
>> p=1;
>> r=rank1(x,y,r,n);
>> [p,t,nom]=popravka(r,n);
>> r1=risp(r,p,t,nom);
>> %Вычисление статистики Н.
>> Rj(1)=0;
>> for i=1:nsr(1)
Rj(1)=Rj(1)+r1(i);
end;
>> Rj(1)=Rj(1)/nsr(1);
>> k1=nsr(1)+1;
>> Rj(2)=0;
>> for i=k1:k2
Rj(2)=Rj(2)+r1(i);
end;
>> Rj(2)=Rj(2)/nsr(2);
>> k1=k1+nsr(2);
>> k2=k2+nsr(3);
>> Rj(3)=0;
>> for i=k1:k2
Rj(3)=Rj(3)+r1(i);
end;
>> Rj(3)=Rj(3)/nsr(3);
>> H=0;
>> for i=1:k
H=H+nsr(i)*(Rj(i)-(n+1)/2)^2;
end;
>> H=H*12/(n*(n+1));
>> %Вычисление поправки за совпадение рангов.
>> H=H1(H,n,p,t)
H = 7.3530
>> %Проверка основной гипотезы.
>> f1=chi2inv(alfa/2,k-1)
310
f1 =
0.0506
>> f2=chi2inv(1-alfa/2,k-1)
f2 =
7.3778
>> %Так как f1<H<f2, то гипотеза H0 принимается.
Задание 3. С помощью рассмотренных процедур-функций пакета Matlab решить одну задачу однофакторного дисперсионного анализа. Везде уровень значимости принять равным 0,05. В каждой задаче проверить гипотезу о равенстве средних. Если гипотеза принимается, то найти несмещенные оценки среднего и дисперсии. Числовые данные вариантов находятся на стр. 289–295. Номер вашего
варианта – это номер вашей фамилии в журнале преподавателя.
§ 8.8. Лабораторная работа № 8.
Однофакторный ранговый и дисперсионный анализ
в математическом пакете Scilab
Все необходимые формулы приведены в лабораторной работе
№ 8 для пакета Mathcad (см. стр. 296–305). Приведём сначала тексты всех необходимых функций. Они очень похожи на функции
пакета Matlab, выполняющие эту же лабораторную работу (см.
стр. 305–310).
function r=rank1S(x,y)
then
//Функция строит по исходной таблице наблюдений вектор соот//ветствующих им рангов. Является аналогом подпрограммы rank1
//в пакете Matlab (см. подпрограмму rank1).
n=length(x);
for i=1:n
r(i)=0;
end;
for i=1:n
for j=1:n
if (abs((y(i)-x(j)))<10e-5)&(abs(r(j))<10e-5)
r(j)=i;
end;
end;
end;
r=r’;
endfunction
function [p,t,nom]=poprvkS(r,n)
311
//Функция poprvkS, являясь аналогом подпрограммы popravka в
//пакете Matlab, выполняет аналогичные функции. Её параметры
//идентичны параметрам функции popravka (см. подпрограмму
//popravka).
p=1;
for i=1:n-1
if abs(r(i)-r(i+1))<10e-5 then
if abs(r(i)-r(i-1))<10e-5 then
continue;
end;
t(p)=2;
nom(p)=i;
for j=i+1:n-1
if abs(r(i+1)-r(j+1))<10e-5 then
t(p)=t(p)+1;
end;
end;
p=p+1;
end;
end;
p=p-1;
if p<1 then
t=[0];
nom=[0];
end;
endfunction
function r=rispS(r,p,t,nom)
//Функция rispS исправляет совпадающие ранги в массиве рангов r.
//Аналог подпрограммы risp в системе Matlab (см. подпрог//рамму risp).
if p<1 then
return;
end;
for i=1:p
a=0;
k=0;
for j=1:t(i)
a=a+r(nom(i)+j-1)+k;
k=k+1;
end;
a=a/t(i);
312
for j=1:t(i)
r(nom(i)+j-1)=a;
end;
end;
endfunction
function H=H1S(H,n,p,t)
//Функция H1S исправляет статистику рангов за их совпадение. Ана//логична подпрограмме Н1 в пакете Manlab (см. подпрограмму Н1).
if p<1 then
return;
end;
a=0;
n1=n*(n*n-1);
for i=1:p
a=a+t(i)*(t(i)*t(i)-1)/n1;
end;
a=1-a;
H=H/a;
endfunction
//Далее следует текст основной программы.
-->clear
-->exec(‘C:\Users\Сергей\Documents\labrabS\
rank1S.sci’)
//Текст подпрограммы-функции rank1S.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
poprvkS.sci’)
//Текст подпрограммы-функции poprvkS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
rispS.sci’)
//Текст подпрограммы-функции rispS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
H1S.sci’)
//Текст подпрограммы-функции H1S.
-->//Выберем F-распределение.
-->n1=9;
-->n2=16;
-->nsr(1)=30;
-->nsr(2)=50;
-->nsr(3)=70;
-->alfa=0.1;
-->x1=grand(nsr(1),1,"f",n1,n2);
313
-->x2=grand(nsr(2),1,"f",n1,n2);
-->x3=grand(nsr(3),1,"f",n1,n2);
-->k=3;
-->//Смоделированы три выборки F-распределения, соответствующие
-->//трём уровням фактора.
-->//Функция плотности F-распределения равна
æ n + n2 ö÷
n1-2
n1
Γ çç 1
çè 2 ÷÷ø çæ n1 ÷ö 2
x 2
--> f (x) =
, x > 0.
çç ÷÷
n1 +n2
æ n1 ö÷ æ n2 öç
n2 ÷ø
è
÷
ç
ç
Γ ç ÷÷Γ ç ÷÷
æ
ö
çè 2 ø çè 2 ø
çç1 + n1 x÷÷ 2
çè
n2 ø÷÷
-->t=n1/n2;
-->m=(n1+n2)/2;
-->a=gamma(m)/(gamma(n1/2)*gamma(n2/2));
-->a=a*t^(n1/2);
-->x=0:1:15;
-->y=a*(x^(n1-2)/2)./(1+t*x)^m;
-->subplot(1,2,1);
-->xtitle(‘Функция плотности F-распределения’,’x’,’f(x)’);
-->plot(x,y);
-->p=0.001:0.05:1;
-->q=1-p;
-->Dfn=n1*ones(p);
-->Dfd=n2*ones(p);
-->x=cdff("F",Dfn,Dfd,p,q);
-->subplot(1,2,2);
-->xtitle(‘Функция распределения Фишера’,’x’,’F(x)’);
-->plot(x,p);
-->//Построены графики функций плотности и распределения.
-->//Далее находятся среднее всех наблюдений и средние по
-->//уровням фактора.
-->n=0;
-->for i=1:k
-->n=n+nsr(i);
-->end;
-->mj(1)=0;
-->for i=1:nsr(1)
-->mj(1)=mj(1)+x1(i);
-->end;
314
-->mj(2)=0;
-->for i=1:nsr(2)
-->mj(2)=mj(2)+x2(i);
-->end;
-->mj(3)=0;
-->for i=1:nsr(3)
-->mj(3)=mj(3)+x3(i);
-->end;
-->mx=0;
-->for i=1:k
-->msr(i)=mj(i)/nsr(i);
-->mx=mx+mj(i);
-->end;
-->mx=mx/n;
-->//Определение Q1 и Q2 из основного уравнения.
-->Q1=0;
-->for i=1:k
-->Q1=Q1+nsr(i)*(msr(i)-mx)^2;
-->end;
-->mj(1)=0;
-->for i=1:nsr(1)
-->mj(1)=mj(1)+(x1(i)-msr(1))^2;
-->end;
-->mj(2)=0;
-->for i=1:nsr(2)
-->mj(2)=mj(2)+(x2(i)-msr(2))^2;
315
-->end;
-->mj(3)=0;
-->for i=1:nsr(3)
-->mj(3)=mj(3)+(x3(i)-msr(3))^2;
-->end;
-->Q2=0;
-->for i=1:k
-->Q2=Q2+mj(i);
-->end;
-->//Вычисляется рабочая статистика критерия.
-->zF=(Q1*(n-k))/(Q2*(k-1))
zF =
0.20243369
-->p1=alfa/2;
-->q1=1-p1;
-->p2=q1;
-->q2=1-p2;
-->f1=cdff("F",k-1,n-k,p1,q1)
f1 =
0.0513112
-->f2=cdff("F",k-1,n-k,p2,q2)
f2 =
3.0576207
-->//Так как f1<zF<f2, то гипотеза Н0 принимается с уровнем значимости alfa.
-->//Далее рассчитываются характеристики рангового дисперсионного
анализа.
-->for i=1:nsr(1)
-->x(i)=x1(i);
-->end;
-->for i=1:nsr(2)
-->x(i+nsr(1))=x2(i);
-->end;
-->k2=nsr(1)+nsr(2);
-->for i=1:nsr(3)
-->x(i+k2)=x3(i);
-->end;
-->y=gsort(x,"g","i");
-->p=1;
-->r=rank1S(x,y);
-->[p,t,nom]=poprvkS(r,n);
-->r1=rispS(r,p,t,nom);
-->//Вычисление статистики H
-->Rj(1)=0;
-->for i=1:nsr(1)
316
-->Rj(1)=Rj(1)+r1(i);
-->end;
-->Rj(1)=Rj(1)/nsr(1);
-->k1=nsr(1)+1;
-->Rj(2)=0;
-->for i=k1:k2
-->Rj(2)=Rj(2)+r1(i);
-->end;
-->Rj(2)=Rj(2)/nsr(2);
-->k1=k1+nsr(2);
-->k2=k2+nsr(3);
-->Rj(3)=0;
-->for i=k1:k2
-->Rj(3)=Rj(3)+r1(i);
-->end;
-->Rj(3)=Rj(3)/nsr(3);
-->H=0;
-->for i=1:k
-->H=H+nsr(i)*(Rj(i)-(n+1)/2)^2;
-->end;
-->H=H*12/(n*(n+1));
-->//Вычисление поправки за совпадение рангов.
-->H=H1S(H,n,p,t)
H =
1.4064817
-->//Проверка основной гипотезы.
-->p=alfa/2;
-->q=1-p;
-->f1=cdfchi("X",k-1,p,q)
f1 =
0.1025866
-->p=1-p;
-->q=1-p;
-->f2=cdfchi("X",k-1,p,q)
f2 =
5.9914645
-->//Так как f1<H<f2, H0 принимается.
Задание 4. С помощью рассмотренных процедур-функций пакета Matlab решить одну задачу однофакторного дисперсионного анализа. Везде уровень значимости принять равным 0,10. В каждой задаче проверить гипотезу о равенстве средних. Если гипотеза принимается, то найти несмещенные оценки среднего и дисперсии. Числовые данные вариантов находятся на стр. 289–295. Номер вашего
варианта – это номер вашей фамилии в журнале преподавателя.
317
9. РЕГРЕССИОННЫЙ АНАЛИЗ
§ 9.1. Модели регрессии
Одной из важнейших задач математической статистики является задача о нахождении связи между двумя случайными величинами X и Y. Во многих случаях одна из двух величин может быть
и неслучайной. Предположим, что функциональная зависимость
между переменными, называемая моделью, известна из предварительных сведений с точностью до параметров θ1, θ2,…, θk и имеет вид
yi = f (xi , θ1, θ2 ,..., θk ), i = 1,n. (9.1.1)
Требуется по результатам наблюдений (xi, yi), i=1, 2,…, n, найти
оценки неизвестных параметров θ1, θ2,…, θk. Очень часто задача ставится еще проще. Модель в этом случае имеет линейный вид, т. е.
yi = θ0 + θ1x1,i + θ2 x2,i + ... + θk xk,i , (9.1.2)
где xi – неслучайные аргументы, а y – случайная величина. Таким
образом, здесь аргуметы xi определяют y лишь в среднем, оставляя
просторы для случайных колебаний.
Ситуация, в которой экспериментатор может выбирать значения аргументов xi по своему желанию и таким образом планировать
будущие эксперименты, называется активным экспериментом.
В этом случае значения аргументов xi обычно рассматриваются как
неслучайные. В отличие от этой ситуации в пассивном эксперименте значения переменных xi складываются вне воли экспериментатора, под действием других обстоятельств. Поэтому значения xi
приходится толковать как случайные величины, что накладывает
особые черты на интерпретацию результатов.
Итак, в регрессионном анализе предполагается, что можно прямо или косвенно контролировать одну или несколько независимых
переменных x1, x2,…, xn, и их значения вместе с множеством параметров θ1, θ2,…, θk определяют математическое ожидание зависимой переменной Y. Задача состоит в вычислении оценок параметров с помощью выборочных данных.
Возникает вопрос, почему представляет интерес регрессия? Очень
часто применение регрессии связано с необходимостью оценить (или
предсказать) среднее значение y при конкретных значениях переменных x. Иногда требуется установить определенную функциональную связь между xi и математическим ожиданием Y. В общем
318
случае какая-нибудь форма функциональной связи является полезным источником информации о зависимости переменной Y от xi.
При попытках аппроксимировать данные кривой или поверхностью сначала предполагается существование функциональной зависимости определенного вида. С помощью данных и соответствующих математических вычислений находят оценки параметров,
дающие наилучшее приближение согласно какому-либо критерию.
Можно выяснить, насколько хороша данная зависимость, но не исключено, что удастся получить лучшую, выбрав другую функцию
и другой критерий.
Здесь стоит подчеркнуть одно существенное обстоятельство.
Имея в своем распоряжении мощный компьютер, сравнительно
легко перебрать большое количество разных функций, аппроксимирующих данные. Это сильное искушение, так как можно без
конца перебирать комбинации и преобразования данных, надеясь
получить идеальный вариант. Совершенно неправильно считать,
что найденное уравнение будет наилучшим только потому, что оно
дает хорошее приближение, если оно нисколько не соответствует
реальным физическим или техническим связям. В любой регрессионной задаче в первую очередь следует рассматривать физически
обоснованную конкретную функциональную форму независимо
от того, была ли она получена с помощью аналитических выводов
или благодаря какому-нибудь иному предварительному знанию
свойств переменных. Вполне возможно, что для аппроксимации
этой функции понадобятся другие функциональные связи.
В последнее время регрессионный анализ – очень бурно развивающаяся отрасль вычислительной математики. Благодаря ему
возникло целое направление, связанное с решением плохо обусловленных задач. Появилось огромное число подходов, алгоритмов и
программ, позволяющих в этих нелегких условиях более или менее
рационально организовывать вычислительные процедуры.
При оценивании параметров регрессий приходится прибегать
к поисковым методам, имеющим итеративный характер. Для их
реализации написаны многочисленные программы, развитие которых вылилось в метод всех возможных регрессий, а затем в шаговый регрессионный анализ. При этом необходимо отметить несколько тенденций, определяющих методы и темпы развития регрессионного анализа.
Первая тенденция заключается в пересмотре довольно жестких
базовых предпосылок классического регрессионного анализа. Это
касается таких предположений, как нормальность распределения
319
ошибок, однородность, независимость и т. п. Отказ хотя бы от одного из перечисленных предположений фактически приводит к созданию новой модели.
Вторая тенденция состоит в вовлечении в регрессионный анализ
более тонких математических методов, таких как функциональный анализ, теория групп, обобщение регрессионной задачи на бесконечномерные пространства.
Третья тенденция – обращение ко все более сложным объектам
исследования. Речь может идти о моделях в форме обыкновенных
дифференциальных уравнений, интегро-дифференциальных уравнений, уравнений математической физики.
Наконец, четвертая тенденция – одновременный выбор модели
и метода оценивания, итеративная обработка результатов и адаптация модели и метода оценивания друг к другу.
Рассмотрим сначала простейшую регрессионную задачу: построим уравнение линейной регрессии в рамках гауссовской модели наблюдений.
Пусть имеется n парных наблюдений (x1, y1), (x2, y2),…, (xn, yn),
причем примем, что переменная x – регрессор – неслучайна и измеряется без ошибок. Если при этом есть признаки связи между
наблюдениями, то обычно исследователь спешит построить некоторую кривую, чаще всего прямую линию, связывающую все эти
наблюдения. Для нахождения параметров уравнения регрессии
обычно используется метод наименьших квадратов или метод максимального правдоподобия. Метод наименьших квадратов при
оценке параметров регрессии не требует никаких предположений о
нормальности распределения ошибок, но они становятся необходимыми при построении доверительных интервалов и для проверки
гипотез о значениях параметров уравнения регрессии.
Рассмотрим одномерную линейную модель вида
yi = α + βxi + εi , i = 1,n, (9.1.3)
где εi – ошибки измерений переменной y предполагаются независимыми случайными величинами, распределенными нормально:
εi∈N(0, Dε). Наша задача состоит в том, чтобы по наблюдениям найти



оценки a = α, b = β и s2 = D для параметров α, β и D соответственно.
Перечислим еще раз все явные и неявные предположения, принимаемые в рамках модели наблюдений. От их выполнения зависит качество получаемых оценок и возможность применения к ним
процедур статистического анализа.
320
1. Значения x задаются или измеряются без ошибок.
( )
2. Регрессия Y на X линейна, т. е. M Y x = α + βx.
( )
3. Отклонения M Y = α + βx взаимно независимы.
x
4. Эти отклонения имеют одну и ту же дисперсию D, точное значение которой неизвестно, при всех x. Это свойство называется гомоскедастичностью, а сами дисперсии – гомоскедастичными.
5. Отклонения распределены по нормальному закону.
6. Данные действительно были взяты из совокупности, относительно которой должны быть сделаны выводы.
7. Не было посторонних переменных, существенно уменьшающих значения связи между X и Y.
Полезно отметить последствия невыполнения некоторых предположений. Невыполнение третьего предположения может существенно повлиять на характеристики применяемых статистических методов из-за не учета зависимости между переменными,
представляющими измерения над разными объектами. Хотя отклонения от нормальности встречаются довольно часто, они имеют
значение, только если очень значительны. Отсутствие гомоскедастичности приводит к тому, что метод наименьших квадратов не
гарантирует минимальных дисперсий оценок. Невыполнение последних двух предположений также имеет принципиальное значение. Если они нарушены, полезность проведенного исследования
незначительна.
§ 9.2. Оценка параметров линейной регрессии
методом наименьших квадратов
Перепишем уравнение регрессии в несколько ином виде
(
)
y = α +β x-x , (9.2.1)
1 n
å xi . Эта прямая называется теоретической линией реn i=1

грессии или прямой отклика. Уравнение y = a + b x - x (9.2.2)
где x =
(
)
определяет кривую, которая является оценкой для прямой регрессии.
321
Суть метода наименьших квадратов состоит в выборе таких
оценок a и b, которые бы минимизировали сумму квадратов отклонений наблюденных значений yi от прогнозируемых величин

yi , полученных подстановкой значений xi в уравнение (9.2.2), т. е.
n
n
2
 2
R = å (yi - yi ) = å éê yi - a - b xi - x ùú Þ min. Чтобы найти значеë
û
i=1
)
ния a и b, минимизирующие R, продифференцируем это уравнение
по a и b и приравняем производные нулю:
n
ì
ï
¶R
ï
ï
=
2
å éêë yi - a - b xi - x ùúû = 0,
ï
¶
a
ï
i=1
ï
í
n
ï
¶R
ï
ï
= -2å éê yi - a - b xi - x ùú xi - x = 0.
ï
ë
û
ï
b
¶
ï
i=1
î
(
)
(
)(
)
n
(
)
i=1
n
n
n
i=1
i=1
i=1
n
n
n
i=1
i=1
i=1
å(xi - x) = å xi - å x = nx - nx = 0. Тогда
2
)
n
(
2
å yi (xi - x)- aå(xi - x)- bå(xi - x)
n
n
i=1
i=1
å yi - an - bå(xi - x) = 0,
Раскроем здесь члены под знаком суммы:
n - bå xi - x = 0,
x
(
i=1
= 0. Но
n
n
i=1
i=1
(
n
n
n
i=1
i=1
i=1
å(xi - x) = å xi - å x
na = å yi , bå xi - x
2
)
n
(
)
= å xi - x yi .
i=1
)
= å xi - x yi . Отсюда легко получить оценки параметров a и b:
i=1
n
å(xi - x)yi
n

 1
a = α = å yi = y, b = β = i=n1
n i=1
2
å(xi - x)
.
(9.2.3)
i=1
Вторую оценку часто видоизменяют и переписывают в следующем виде
n
n
n
n
n
i=1
i=1
i=1
i=1
i=1
å(xi - x)yi = å(xi - x)yi + yå(xi - x) =å(xi - x)yi + å(xi - x)y
n
n
n
=1
i=1
i=1
å(xi - x)yi + å(xi - x)y =å(xi - x)(yi - y). Тогда
322
n
b = i=1
n
2
å(xi - x)
.
(9.2.4)
i=1
Рассмотрим теперь свойства полученных оценок. Они являются
несмещенными, состоятельными и эффективными в классе линейных (относительно наблюдений) оценок. Действительно,
æ 1 n ö÷ 1 n
1 n
ç
M (a) = M çç å yi ÷÷÷ = å M (yi ) = å éêα + β xi - x + εi ùú =
û
çè n
n i=1
n i=1 ë
i=1 ø÷
(
n
1é
= êêαn + βå
nê
i=1
ë
(
n
=
)
æ n
÷ö n
çç
xi - x yi ÷÷÷ å xi - x M (yi )
å
ç
ù
ç
÷÷ i=1
xi - x úú = α, M (b) = M ççç i=1
=
÷÷÷ =
n
n
ç
2 ÷
2
úû
çç
÷
å xi - x
çç å xi - x ÷÷÷
è i=1
ø
i=1
)
)(
))
å éêë xi - x α + β xi - x ùúû
i=1
(
n
(
2
å(xi - x)
(
)
(
(
)
=α
å(xi - x)
i=1
n
2
å(xi - x)
)
(
n
i=1
)
n
2
å(xi - x)
+ β i=1
n
= β.
2
å(xi - x)
i=1
i=1
Здесь учтено, что переменные xi – неслучайные, а yi – случайные
величины. Кроме того, математическое ожидание yi есть теоретическая линия регрессии (9.2.1).
Найдем теперь дисперсии оценок a и b в предположении, что
наблюдения yi независимы и нормально распределены, причем
D(yi)=D=σ2 (предположения 3, 4 и 5 предыдущего параграфа). Имеем:
æ n
ö÷
çç
xi - x yi ÷÷÷
å
ç
æ1
ö÷ 1
ç
÷÷
D
D
1
ç
÷÷ =
D (a) = D çç å yi ÷÷÷ =
D (yi ) =
n = , D (b) = D ççç i=1
å
2
2
n
çç
n
çè n i=1 ÷ø n i=1
2 ÷÷ é n
n
çç å xi - x ÷÷ ê
x -x
÷
èç i=1
ø÷ êê å i
ë i=1
n
ö
(xi - x)yi ÷÷÷÷÷
2
å(xi - x)
1
å éêë(xi - x)(yi - y)ùúû
n
n
1
÷
÷÷÷ =
÷÷ é n
÷÷ ê å x - x
i
÷ø ê
êë i=1
(
n
2ù
ú
ú
úû
)
2
2
å(xi - x)
i=1
D (yi ) =
2
å(xi - x)
D
i=1
én
ê
ê å xi - x
êë i=1
(
2ù
ú
ú
úû
)
2
=
(
)
(
)
D
n
2
å(xi - x)
(
.
i=1
323
Состоятельность оценок a и b немедленно следует после применения к ним неравенства Чебышева. Например, для оценки a полуD (a )
D
чим P ( a - α ³ ε) £
=
. Отсюда lim P ( a - α ³ ε) = 0.
n®¥
ε2
nε2
В общем случае доказательство того, что метод наименьших
квадратов дает оценки с наименьшей дисперсией в классе всех несмещенных оценок, довольно сложно. Приведем его для оценки
b параметра β. Предположим, что существует еще одна линейная
оценка b ¢ параметра β, отличная от оценки b и пусть, например,
n
n
n
n
n
i=1
i=1
i=1
i=
b ¢ = å ci yi . Очевидно, что M (b ¢) = å ci M (yi ) = å ci éê α + β(xi - x)ùú = α å ci + βå
ë
û
i=1
n
n
+ β(xi - x)úù = α å ci + βå(xi - x)ci . Оценка b ¢ будет несмещенной, если M (b ¢) = β,
û
i=1
i=1
ì
ï
ï
ï
ï
ï
т. е. ï
ín
ï
ï
ï
å
ï
ï
ï
îi=1
n
å ci = 0,
i=1
(9.2.5)
(xi - x)ci = 1.
В этих условиях
é
ù2
ê
ú
ú
n
n
n ê
xi - x
xi - x ú
ê
2
2
¢
D (b ) = å ci D (yi ) = D å ci = D å êci - n
+ n
ú =
2
2ú
i=1
i=1
i=1 êê
å xi - x å xi - x úú
ê
i=1
i=1
ë
û
é
ê
ê
2
2
n
n
n
ên
xi - x
xi - x
xi - x
2
ê
= D êå ci + å
- 2å ci n
+å
+
2
2 i=1 é n
ù2
êi=1
i=1 é n
i=1
2ù
2
ê
ú
ê
ú
ê
å xi - x
êå xi - x ú
êå xi - x ú
ê
=
i
1
êëi=1
úû
êëi=1
úû
êë
ù
é
ù2
ú
ê
ú
ú
2
ú
n
n
ú n ê
xi - x
xi - x
x
x
ê
ú
i
ú=
c -2å
+2å ci n
ú +
n
2 ú å êê i
2
2ú
n
é
ù
ú
i=1
i
i
=
1
=
1
2
ê
ê
ú ú
å xi - x
å xi - x úú
ê
êå xi - x ú ú
i=1
i=1
ë
û
ëêi=1
ûú ûú
é
ù
324 ê
ú
ú
n ê
n
x - x ú xi - x
x -x
ê
.
+å êci - n i
+
ú n
å ci n i
2
2
2
ê
ú
i=1 ê
i
=
1
å xi - x ú å xi - x
å xi - x
(
(
)
(
(
)
(
(
)
(
)
(
)
(
)
(
)
)
(
)
)
(
(
)
)
(
)
)
+2å ci
n
xi - x
i=1 é n
ê
êå xi - x
ëêi=1
2
å(xi - x)
i=1
(
i=1
é
ê
n ê
xi - x
ê
+å êci n
i=1 êê
å xi - x
ê
i=1
ë
(
Но
n
2
å(xi - x)
(xi - x)
-2å
ù
ú
ú
ú xi - x
ú
2ú n
ú å xi - x
ú
û i=1
)
(
2ù
ú
ú
ûú
)
x -x
ê
ú=
å êêci - n i
ú i=1 ê
ú
å xi - x
ê
ú
i=1
ë
úû
2ú
(
n
2
)
+ å ci
i=1
n
xi - x
2
å(xi - x)
ú
ú +
ú
ú
û
2ú
)
.
i=1
– это константа, т. е. выражение под этой сум-
i=1
мой уже не зависит от индекса внешнего суммирования. Тогда
n
n
xi - x
1
1
c
=
с учетом
åi n
å ci xi - x = n
n
i=1
2
(
2 i=1
å(xi - x)
å(xi - x)
i=1
)
i=1
2
å(xi - x)
i=1
условий (9.2.5). Аналогично
é
ù
ê
ú
ú
n ê
x
x
xi - x
ê
ú
i
c
=
ê
ú n
åê i n
2ú
2
i=1 ê
å xi - x úú å xi - x
ê
i=1
ë
û i=1
n é
n
2
2ù
1
êc x - x
ú=
=
x
x
x
x
å
å
i
i
i
i
ê
ú
2
én
ù
i=1
2 i=1 ëê
ûú
ê
ú
ê å xi - x ú
êë i=1
úû
n
én
2 n
2ù
1
ê
ú=
=
x
x
c
x
x
x
x
å
å
å
i
i
i
i
ú
2ê
én
ù
ê
úû
i=1
i=1
2 ë i=1
ê
ú
x
x
å
i
ê
ú
êë i=1
úû
n
én
2
2ù
1
ê
ú = 0.
=
x
x
x
x
å
å
i
i
ê
ú
2
én
ù
ê
úû
i=1
2 ë i=1
ê
ú
ê å xi - x ú
êë i=1
úû
é
ù2
ê
ú
ú
n ê
x
x
D
ê
ú
. ПоследПоэтому D (b ¢) = D å ê ci - n i
ú + n
2ú
2
i=1 êê
å xi - x úú å xi - x
ê
i=1
i=1
ë
û
(
)
(
)
(
(
(
(
) (
) (
)
)
(
)
(
)
(
)
(
)
(
)
)
)
(
)
(
)
ний член в полученном выражении является константой. Следова325
тельно, минимизировать D (b ¢) можно только за счет уменьшения
xi - x
первого члена. Полагая ci =
, мы обратим первый член в
2
n
å(xi - x)
i=1
нуль (меньше он не может быть) и тем самым минимизируем D (b ¢).
n
Но если в формулу b ¢ = å ci yi подставить значения ci, при котоi=1
рых D (b ¢) минимальна, то альтернативная оценка b ¢ примет вид
n
å(xi - x)yi
n
b ¢ = å ci yi = i=n1
2
å(xi - x)
i=1
, что совпадает с оценкой наименьших
i=1
квадратов. Поэтому b – линейная несмещенная оценка параметра
β с минимальной дисперсией.
§ 9.3. Интервальные оценки параметров
линейной регрессии и кривой регрессии
Построим теперь доверительные границы для параме
тров α и β и кривой регрессии. Так как y = a + b x - x и
D
D

D (a ) = , D (b) =
, то M (y) = M éëa + b(x - x)ùû = M (a) + x - x M (b) = α
n
n
2
å xi - x
(
(
i=1
)
(
)
)
(
x-x
2
D

= M (a) + (x - x ) M (b) = α + β(x - x) = y, D (y) = D éêa + b x - x ùú = D (a) + x - x D (b) = +
n
ë
û
n
xi
é
ù
å
ê
2
2 ú
=
1
i
ê
ú
x-x D
x-x
2
D
ê1
ú
=Dê +
x - x D (b) = + n
ú – выражение для дисперсии
n
n
n
2
2
ê
ú
ê
ú
x
x
x
x
å i
å i
ê
ú
1
=
i=1
i
ë
û


D (y ) в текущей точке x. Очевидно, что y – кроме того линейная
функция от оценок a и b, которые в свою очередь являются линейными оценками от нормально распределенных наблюдений yi. Следова
тельно, y – нормально распределенная случайная величина, и для
(
)
)
(
326
(
(
)
)
(
)
)
(
)
(
нее может быть построен доверительный интервал стандартным образом. То же можно сказать и об оценках коэффициентов регрессии.
Заметим, что a и b независимы друг от друга, так же как независима от них оценка D дисперсии D. Это можно доказать, рассмотрев,
например, M(a,b). После непродолжительных вычислений будет видно, что M(a·b)=K(a,b)=0. Следовательно a и b – некоррелированы, а поскольку мы остаемся в рамках гауссовской модели, то и независимы.


nD
В предыдущих параграфах было показано, что дробь
Î χ2n-1, D =
D



1 n
nD
 2 1 n
*
2
*
Î χn-1, D = D . В нашем случае D = D = å (yi - yi ) = å(yi D
n i=1
n i=1
(
-a - b x - x
2
))
.Так как на случайные величины y, входящие в эту
¶R
¶R
=0 и
= 0 то
¶a
¶b

nD
число степеней свободы уменьшается на число связей и
Î χ2n-2 .
D
Составим дроби Стьюдента для a и b. В нашем случае
формулу, наложены два условия связи вида
æ Dö
a Î N ççα, ÷÷÷,
çè n ø
æ
ö÷
çç
÷÷
çç
÷÷
z n
D
ççβ
÷÷, а по теории t =
, где z∈
b Î Nç ,
÷
÷
çç n
2
n
çç å xi - x ÷÷÷
÷÷
çè i=1
ø
(
)
∈N(0,1), n∈χn2, причем в этой дроби под корнем в числителе стоит число степеней свободы случайной величины n. Выберем в качестве стандартной нормальной случайной велиa - α (a - α ) n
чины z сначала выражение
=
Î N (0,1), затем
σ
D
n
b -β n
x
x
Î
N
0
,
1
.
Подставляя
эти результаты в дробь Стью(
)
å i
σ
i=1
(a - α ) n n - 2 (a - α ) n - 2
=
Î tn-2 . Аналодента, будем иметь ta =


nD
D
D
D
(
)
( b - β)
гично tb =
n
2
å(xi - x)
i=1

D nD D
n
2
(b - β) (n - 2)å(xi - x)
n -2
=
i=1

nD
Î tn-2 .
327
Наконец, получим в явном виде доверительные интервалы для коэффициентов линейной регрессии: P ( a - α < ε) = β ¢ по определению,
æ a - α n - 2 ε n - 2 ö÷
ç
<
где β ¢ – доверительная вероятность. P çç

 ÷÷÷ =
çè
D
D ø÷
æ (a - α ) n - 2
ö÷
ç
= P çç
< tβ¢ ÷÷÷ = P t < tβ¢ = β ¢, величина tβ¢ может быть

ç
D
èç
ø÷÷
tβ¢

D
найдена из уравнения 2ò sn-2 (t)dt = β ¢. Тогда ε = tβ¢,n-2
и
n -2
(
)
0


æ
D
D ö÷÷
çç
Iα = ça - tβ¢,n-2
, a + tβ¢,n-2
÷.
ççè
n -2
n - 2 ø÷÷
Точно такие же преобразования дают интервал для второго коæ
n
çç
2
çç (b - β) (n - 2)å xi - x
ç
i=1
эффициента: P ( b - β < ε) = β ¢, тогда P ççç
<

çç
nD
çç
çç
è
ö÷
n
2
ε (n - 2)å xi - x ÷÷÷

÷÷
n
D
i=1
÷÷ = P t < t = βОтсюда
¢
<
.
ε
=
t

β¢,n-2
β¢
÷÷
n -2 n
2
ø
nD
å(xi - x)
(
(
)
(
)
)
i=1
æ
ö÷
çç
÷÷


çç
÷÷
n
D
n
D
çç
÷÷÷.
и Iβ = çε - tβ¢,n-2
tβ¢,n-2
,
ε
+
n -2 n
n -2 n
2
2 ÷÷
ççç
çç
å xi - x
å xi - x ÷÷÷÷
çè
ø
i=1
i=1
(
)
(
)
На практике часто возникает вопрос об оценке отклонения ис
тинной прямой y = α + β(x - x) от ее оценки y = a + b x - x при не-
(
)
котором заданном значении x. Особенно важен этот вопрос при построении прогноза. Оценкой точности здесь также может служить
интервальная оценка yi.
328
Используя обычные рассуждения, приводящие к t-статистикам,
é
ù
ê
2 ú
ê
(x - x) úú


ê1
получаем:
M (y ) = α + β(x - x) = y, D (y ) = D ê +
ú,
n
2ú
ên
ê
å(xi - x) úú
ê
i=1
ë
û

y-y
z n -2



Î tn-2 .
y Î N ( M (y ), D (y )). Тогда z =

 Î N (0,1), а t =
D(y)
nD
D
В нашем случае дробь Стьюдента равна

( y - y)
t=
n -2 =
æ
ö÷
çç
2 ÷÷

çç
÷÷ nD
x-x
1
ç
÷÷
D çç + n
÷
çç n
2 ÷÷ D
çç
x
x
÷÷÷
å i
çè
÷ø
i=1


= (y - y)d Î tn-2 . P ( y - y
(
)
(
)

( y - y) n - 2
æ
÷ö
çç
2 ÷÷
çç
÷
çç1 + n x - x ÷÷÷ D
÷
çç
n
2 ÷÷
çç
x
x
÷÷÷
å i
çç
÷ø
è
i=1
(
=
)
(
)
< ε) = β ¢


и P ( (y - y)d < εd ) = P (y - y)d < tβ¢ = P t < tβ¢ = β ¢.
(

tβ¢
D
= tβ¢,n-2
Тогда ε =
d
n -2
)
(
)
æ
ö÷
çç
2 ÷÷
çç
÷
çç1 + n(x - x) ÷÷÷,
÷
çç
n
2 ÷÷
çç
å(xi - x) ÷÷÷÷
ç
èç
ø
i=1


Iy = (y - ε, y + ε)
для любого конкретного x, так как ε=ε(x). Очевидно, что длина доверительного интервала минимальна в точке x = x. По мере удаления от x точность оценки будет заметно снижаться. Наименее
надежная оценка по МНК будет получаться для ординат, отвечающим точкам, наиболее удаленным от x (см. рис. 9.1). Вертикальные отрезки на рисунке представляют собой доверительные интервалы в соответствующих точках.
Пример. Дан отрезок временного ряда из средних котировок
Лондонской биржи металлов на свинец: (долл./т., см. табл. 9.1).
Подобрать для этих данных параметры линейной регрессионной
зависимости и построить доверительные интервалы для кривой регрессии.
329
y = α + β (x - x )
I (x0 , β¢)

y = a + b (x - x )
x
Рис. 9.1. Доверительные границы для линии регрессии
Таблица 9.1
1971,
январь
265
1971, июль
264
февраль
март
апрель
май
июнь
268
август
259
270
сентябрь
139
270
октябрь
229
267
ноябрь
221
268
декабрь
231
Решение.
Составим вспомогательную табл. 9.2 (см. следующую страницу).
12
Тогда
å éêë(xi - x)(yi - y)ùúû -634,75


=
= -4,439.
α = a = y = 254,25; β = b = i=1 12
143
2
å(xi - x)
i=1
-634,75
= -4,439. Таким образом, уравнение регрессии может быть запи143 сано в виде y = 254,25 - 4,439(x - 6,5) или y = 283,104 - 4,439x.
Перейдем к построению доверительных интервалов, задав
β ¢ = 0,9; α ¢ = 1 - β ¢ = 0,1. Для получения оценок
дисперсий параме
тров a и b вычислим D, заменив ее оценкой D. Рассчитаем по полу
ченной линии регрессии значения yi (см. табл. 9.3).


D 81,671
1 12
 2 980,05

=
=6
D = å (yi - yi ) =
= 81,671; σ = 9,04. Тогда D (a) =
12
12
12 i=1
12


D
81,671
D 81,671
=
= 0,571;
D (a ) =
=
= 6,81; D (b) = 12
143
12
12
2
å xi - x
=
(
i=1
330
)
Таблица 9.2
xi
yi
1
2
3
4
5
6
7
8
9
10
11
12
265
268
270
270
267
268
264
259
239
229
221
231
2
xi - x yi - y
–5,5
–4,5
–3,5
–2,5
–1,5
–0,5
0,5
1,5
2,5
3,5
4,5
5,5
10,75
13,75
15,75
15,75
12,75
13,75
9,75
4,75
–15,25
–25,25
–33,25
–23,25
12
(xi - x)
(xi - x)(yi - y)
30,25
20,25
12,25
6,25
2,25
0,25
0,25
2,25
6,25
12,25
20,25
30,25
–59,125
–61,875
–55,125
–39,375
–19,125
–6,875
4,875
7,125
–39,375
–88,375
–149,625
–127,875
2
å(xi - x)
x = 6,5 y = 254,25
= 143
i=1
12
å(xi - x)(yi - y) = -634,75
i=1
Таблица 9.3
xi
1
2
3
4
5
6
278,67
274,23
269,79
265,35
260,91
256,47
–13,67
–6,23
0,21
4,65
6,09
11,53
(yi - yi )2

186,87
38,81
0,04
21,62
37,09
132,94
xi

yi
7
8
9
10
11
12
252,03
247,59
243,15
238,71
234,28
229,84
11,97
11,41
–4,15
–9,71
–13,28
1,16
143,28
130,19
17,22
94,28
176,36
1,35

yi

yi - yi

yi - yi

(yi - yi )2
æ
ç
(x - 6,5)2 ö÷÷
÷÷ = 6,81 + 0,571(x - 6,5)2 , n–2=10,
D (y) = 81,671ççç0,083 +
143 ø÷÷
çè
β ¢ = 0,9. По таблице распределения Стьюдента находим t0,9;10 =

D
81,671
= 2,228
= 6,37; Iα =
= 2,228. Отсюда εa = t0,9;10
10
10
= (247,88; 260,62). Для параметра b все вычисления аналогичны
331
12
×
10
εb = t0,9;10

D
12
2
å(xi - x)
12 81,671
×
= 1,84,
10 143
= 2,228
Iβ = (–6,28;
i=1
–2,60).
Наконец, получим εy и посчитаем доверительные интервалы
в нескольких точках (см. табл. 9.4).
ε y = t0,9;10
2ö
æ
çç 12(x - x) ÷÷
12
÷ 2,228 × 9,04
1+
(x - 6,5)2 =
ççç1 +
÷÷÷ =
143
143
10 çç
10
÷
÷ø
è

σ
2
= 6,54 1 + 0,084(x - 6,5) .
На приведенном ниже рис. 9.2 приведена линия регрессии:

y = 254,25 - 4,439(x - 6,5) и ее 90% доверительные интервалы.
Точки, соединенные прямыми – это исходная выборка. Из графика
видно, что линейная модель неудовлетворительно аппроксимирует
исходные данные.
Таблица 9.4
xi
1
3
5
x = x = 6,5
7
9
11
12
εy
12,31
9,32
7,13
6,54
6,61
8,08
10,75
12,31
280
y
260
y1(x1)
Llim(x1)
Ulim(x1)
240
220
0
2
4
6
8
10
12
14
Рис. 9.2. Исходная выборка y, теоретическая линия регрессии y1
и её 90% доверительные границы
332
§ 9.4. Проверка адекватности линейной регрессии
Основой такой проверки служат взаимные отклонения от уста
новленной закономерности, т. е. величины yi - yi , i = 1,2,...,n, где

yi = a + b xi - x . Поскольку аргумент x – одномерная переменная,

точки (xi , yi - yi ) можно изобразить на чертеже. Такое наглядное
представление наблюдений позволяет иногда обнаружить в поведении остатков какую-либо зависимость от x. Однако глазомерный
анализ остатков возможен не всегда и не является правилом с контролируемыми свойствами. Нужны более точные методы.
Один из таких методов основывается на рассмотрении регрессионного анализа с точки зрения дисперсионного анализа. В этом случае общая вариация отклика относительно его среднего распадается на вариацию, обусловленную моделью, и остаточную вариацию,
приписываемую случайным ошибкам.


Рассмотрим тождество yi - y = (yi - yi ) + yi - y . Возведем его
в квадрат и просуммируем по i от единицы до n. Получим
(
)
(
n
2
å(yi - y)
i=1
n
n
 2

= å (yi - yi ) + å yi - y
(
i=1
i=1
2
)
)
n
 
+ 2å(yi - yi ) yi - y .
(
i=1

Но y = a, тогда yi - y = éê a + b(xi - x)ùú - a = b(xi - x) и
ë
û
n

n


å(yi - yi×)(yi - y) = bå(yi - yi )(xi - x) = 0 в силу условия
i=1
i=1
(
)
n


i=1
i=
n
¶R

= -2å (yi - yi )´
×
¶a
i=1
)
´ xi - x = 0.
Тогда для простой линейной модели будем иметь следующий
вид разложения:
n
2
å(yi - y)
i=1
n
n
2
2
= å éê a + b xi - x - yùú + å éê a + b xi - x - yi ùú , (9.4.1)
ë
û
ë
û
i=1
(
)
i=1
(
n
å(yi - yi )(×yi - y) = bå
)
где величина в левой части называется общей вариацией или суммой квадратов относительно среднего (Total (Corr.) Sum of Squares),
первое слагаемое в правой части – суммой квадратов, обусловленной регрессией или моделью (Model Sum of Squares), второе слагаемое – сумма квадратов относительно модели регрессии или сумма
квадратов ошибок (Error Sum of Squares).
333
При отсутствии повторных наблюдений проверяется гипотеза
о равенстве коэффициента b нулю (в общем случае – об адекватности предлагаемой модели) с помощью F – критерия. Разность между наблюдениями yi и теоретическими значениями yTi, определяемыми уравнением регрессии (9.2.1), можно записать в виде



yi - yiÒ = (yi - yi ) + yi - yiÒ = (yi - yi ) + éêa + b(xi - x) - α - β(xi - x)ùú =
ë
û

= (yi - yi ) + (a - α ) + (b - β)(xi - x).
(
)
Геометрическую интерпретацию последнего соотношения дает
рис. 9.3. Возведем это соотношение в квадрат и просуммируем по всем i.
2
2
 2

2
2
Ò
Получим yi - yi = (yi - yi ) + (a - α) + (b - β) (xi - x) + 2(yi - yi )(×a - α ) + 2(yi
n
n
2
2
) + 2(yi - y×i )(a - α) + 2(yi - yi )(b - β)(xi - x) + 2(a - α)(b - β)(xi - x), å yi - yiÒ = å(yi - yi )2
å(
=1
(
)
(
yi - yiÒ
2
)
n
n
 2 n
2
2
= å(yi - yi ) +å(a - α ) + å(b - β) xi - x
i=1
i=1
n
i=1
(
n
2
)
n
(
n
)
(
i=1
n
å(a - α)(b - β)(xi - x) = (a - α)(b - β)å(xi - x) = 0,
=1
i=1
(
)
- β) xi - x = -
b - β ¶R
= 0,
2 ¶b
n

å(yi - yi )(a - α) = i=1
i=1
)
n
i=1
n
å(a - α)(b - β)(xi - x) =
i=1

å(yi - yi )(b - β)(xi - x) = i=1
a - α ¶R
= 0.
2 ¶a
Тогда
n
2
å(yi - yiÒ )
i=1
n
n
2
 2
2
2
= å(yi - yi ) + n(a - α ) + (b - β) å xi - x . (9.4.2)
1 n
å yi - yiÒ
n i=1
(
Дробь
сумма
n
D
2
å(yi - yiÒ )
i=1
(
i=1
i=1
2
)
)
×n
имеет вид χn2-статистики (см. § 5.6), т. е.
Î χ2n × D. Эта сумма разбита на три компоненты.
Вторая и третья из них зависят лишь от a и b соответственно, и,
следовательно, каждая имеет одну степень свободы. Первый член

в правой части включает n разностей yi - yi , на которые наложены
334
i=1
n


+2å(yi - yi )(a - α ) + 2å (yi - yi )


- yi )(a - α ) + 2å (yi - yi )(b - β) xi - x + 2å (a - α )(b - β) xi - x . Но
i=1
)
i=1
b - β ¶R
=
2 ¶b
(xi , yi )

yi - yi

yi = a + b (xi - x)
yi - yiÒ

(xi , y i )
(x, a)
(xi, yiÒ )
β (xi - x )
(x, α)
yiÒ = α + β (xi - x )
x
x
xi
Рис. 9.3. Наблюдаемая и теоретическая линии регрессии
¶R
¶R
=0 и
= 0 в силу чего он имеет n–2 степе¶a
¶b
ни свободы. Поскольку сумма трех сумм квадратов в правой части
(9.4.2) равна сумме квадратов левой части и это же имеет место для
степеней свободы, каждый член в правой части распределен как
χ2D с соответствующим числом степеней свободы и эти члены независимы между собой.
n
n
2

(b -β)å(xi - x)
(yi - yi )2
å
2
n(a - α)
i=1
n
Таким образом,
Î χ12 ,
Î χ12 , i=1
Î χn2-2 .
 2
D
D
D
y
y
å( i i )
два ограничения
=1
D
Î χ2n-2 . Теперь можно построить критерий для проверки нулевой
гипотезы H0: β=0, составив отношение
n
2
(b - β)2 å(xi - x)
n
i=1
D
n
1
 2
å(yi - yi )
i=1
где
2
(b - β)2 å(xi - x)
=
i=1
D
Î F1,n-2
D
n -2
1
 2
D =
å(yi - yi ) –
n - 2 i=1
n
несмещенная
оценка
дисперсии
ошибок наблюдений. Если гипотеза H0 справедлива, то β=0 и
335
n
2
b2 å (xi - x)
i=1
D
Î F1,n-2 . Практически при вычислении этого отно-
шения величину
n

2
å(yi - yi ) , входящую в D , получают с помощью
i=1
соотношения (9.4.1).
Пример. Проверим гипотезу H0: β=0 с α ¢ = 0,1 по данным предыдущего примера.
12
12
 2
2
Из таблиц § 9.3 имеем å(xi - x ) = 143; å(yi - yi ) =980,05; b = -4,43
i=1
i=1
12
2
b2 å (xi - x )
980,05
=980,05; b = -4,439. Тогда D =
= 98,01; z = i=1
= 28,75.
10
D
По таблицам F-распределения находим F0,9;1;10=3,29. Таким образом, z∈w и H0 должна быть отвергнута, т. е. зависимость между x и
y значима и значение b отлично от нуля.
Надо заметить, что сформулированный критерий может сигнализировать скорее о наличии зависимости между x и y. О качестве
аппроксимации исходных данных данной моделью лучше судить
по ошибке D . Ясно, что для данного примера можно попытаться
сгладить исходные данные параболой, в пользу чего говорит и глазомерный анализ построенных зависимостей (см. § 9.3).
§ 9.5. Выбор наилучшей регрессии
Одна из основных задач регрессионного анализа состоит в решении вопроса о том, какие именно регрессоры (независимые переменные) следует включать в модель. Пусть x1, x2,…, xk – полный
набор всех возможных регрессоров, содержащий такие функции,
как квадраты, смешанные произведения и прочие функции, которые кажутся подходящими. Для выбора некоторого подмножества
из этой полной совокупности регрессоров есть два противоположных подхода.
С одной стороны, в модель для полноты учета следует включать
по возможности наибольшее число регрессоров. С другой – при
увеличении числа регрессоров возрастают затраты на построение
и использование модели, а также возрастает дисперсия прогноза.
336
Подходящим компромиссом между этими двумя крайностями является процедура, называемая обычно «выбором наилучшего уравнения регрессии». Термин «наилучшее», конечно, субъективен.
Нет никакой единой статистической процедуры для выбора соответствующего подмножества, и все статистические методы предполагают необходимость субъективного решения.
Подбор конкретного вида функциональной зависимости – наиболее трудная и творческая часть задачи регрессии.
В пакете Statgraphics реализована процедура пошаговой множественной регрессии, включающая последовательное увеличение и
последовательное уменьшение группы независимых переменных.
Другой подход построения всех возможных регрессий состоит в
подборе всех возможных уравнений регрессии, которые можно получить, выбирая по 1, 2,…, k регрессоров из совокупности x1, x2,…,
xk. Поскольку для каждого регрессора имеются только две возможности: либо он включается в уравнение, либо не включается в него,
то всего имеются 2k возможных уравнений регрессии. Метод применяется, если k не слишком велико.
§ 9.6. Лабораторная работа № 9.
Регрессионный анализ в пакете Statgraphics
Процедура простой регрессии заключается в нахождении аналитического выражения для связи двух переменных x и y. В последних версиях пакета Statgraphics предусмотрено определение
27 моделей простой регрессии в том числе часто используемых следующих:
1. Линейная: y=a+bx;
2. Экспоненциальная: y=ea+bx=a1ebx;
1
3. Обратная по y : y =
;
(a + bx)
b
4. Обратная по x : y = a + ;
x
5. Дважды обратная: y =
(
1
a+b
x)
;
6. Логарифмическая: y=a+blnx;
7. Мультипликативная: y=axb;
337
ìï y = a + b x ,
ï
8. Полиномиальная: ïí
ïïy = (a + bx)2 ;
ïî
a+
b
9. S – кривая: y = e x ;
10. Логистическая.
Кроме того, в пакете реализована процедура пошаговой множественной регрессии, в которой количество и вид регрессоров
задаются исследователем. Процедура устроена так, что путем последовательного перебора удается подбирать модели, содержащие
гораздо меньше переменных по сравнению с исходным множеством
и имеющие лучшие статистические характеристики.
Вычислим в пакете Statgraphics параметры линейной модели
для следующих данных (см. табл. 9.5).
Это данные химического производства представляют собой зависимость объема продукта y (кг) от температуры реакции x (°С).
В электронную таблицу Statgraphics занесем сначала значения
аргумента – Temp, затем функции – Prod и вызовем процедуру
построения простой регрессии: Relate (Отношения данных)→One
Factor (Один фактор)→Simple Regression (Простая регрессия). В появившемся окне диалога (рис. 9.4) выделяем сначала переменную
Prod и вводим ее в поле анализа y нажатием кнопки со стрелкой, а
затем переменную Temp в поле анализа x. Нажимаем ОК.
На экран выводится подменю Simple Regression Options, в котором необходимо выбрать вид используемой модели. По умолчанию
помечена линейная модель (см. рис. 9.5). Опять нажимаем ОК, попадаем в подменю Tables and Graphs, в котором задаём все табличные и графические опции. После нажатия кнопки ОК на экран выдается заставка процедуры простой регрессии со статистической
сводкой применительно к линейной модели (см. рис. 9.6).
В первой таблице приведены оценки параметров простой линейной модели y=a+bx и их статистические характеристики. Строка Intercept (Свободный член) относится к параметру a, а строка
Slope (Наклон) – к параметру b. Столбец Estimate (Оценки) содерТаблица 9.5
x
y
x
y
338
51
52,7
28
5,3
32
15,2
35
20,7
80
89,5
40
21,7
73
94,8
29
9,2
64
76
53
55,4
45
39,3
58
64,3
83
114,8
65
79,1
44
36,5
75
101
93
137,4
Рис. 9.4. Окно диалога для ввода данных
в процедуру построения моделей простой регрессии
Рис. 9.5. Список реализуемых моделей регрессии
жит оценки этих параметров, столбец Standard Error (Стандартная
ошибка) дает значения стандартных ошибок указанных коэффициентов. Два последних столбца T Statistic и p-Value содержат значения стьюдентовских отношений ta и tb (см. § 9.3) и их минимальные
уровни значимости для проверки гипотезы о равенстве значений
коэффициентов нулю. Так как p-Value очень малы, то ненулевые
значения коэффициентов a и b значимы.
Таблица Analysis of Variance является базовой таблицей дисперсионного анализа и служит для оценки адекватности предлагаемой
модели данных.
339
Рис. 9.6. Результаты расчёта модели простой линейной регрессии
Описание этой таблицы дано в лабораторной работе № 8 (§ 8.5,
рис. 8.4). Общая дисперсия разлагается здесь на две части по формуле (9.4.1) на дисперсию, обусловленную моделью, и дисперсию
ошибок наблюдений.
F-Ratio (F-отношение) служит для проверки гипотезы о равенстве коэффициента b нулю (см. § 9.4)
Еще одним показателем качества подобранной модели является выборочный коэффициент корреляции Пирсона (Correlation
Coefficient)
n
rxy =
Kxy
σx σy
=
å(xi - x)éêë(yi - y)- b(xi - x)ùúû
i=1
n
n
å(xi - x) × å éêë(yi - y)- b(xi - x)ùúû
i=1
340
2
i=1
2
. (9.6.1)
Как известно, если переменные x и y связаны линейной зависимостью, то rxy=1, поэтому близость коэффициента корреляции
к единице служит мерой линейной связи между x и y.
Значения R2 (R-Squared) является отношением суммы квадратов, обусловленных регрессией, к общей сумме квадратов откли24618,6
ков: R 2 =
×100%= 98,3218. Этот показатель дает долю
25038,8
общего разброса функции y относительно y, объясняемую регрессией. Величину R2 также часто именуют коэффициентом детерминации и измеряют не в долях единицы, а в процентах. Чем ближе
значение R2 к ста процентам, тем лучше подобранная модель описывает данные эксперимента.
Последняя характеристика таблицы Standard Error of Est.
(Стандартная ошибка оценки) равна D , где D – несмещенная
оценка дисперсии ошибок,
D =
1 n

(yi - yi )2 . å
n - 2 i=1
(9.6.2)
Рассмотрим теперь назначение всех процедур дополнительного
меню Tables and Graphs.
Analysis Summary (Сводка анализа). Информация, выводимая
этой процедурой, уже описана, так как она выводится пакетом сразу после задания вида рассматриваемой модели по умолчанию.
Lack-of-Fit Test (Тест на адекватность) предназначен для проверки адекватности линейной модели при наличии повторных наблюдений. В этом случае появляется возможность получить еще
одну оценку изменчивости случайной составляющей ε в моделе
(9.1.3) и сравнить ее с оценкой дисперсии (9.6.2). Поскольку в нашем примере повторных наблюдений нет, тест работать не может
(Pure Error (Полная ошибка) равна нулю, рис. 9.7).
Рис. 9.7. Результаты анализа адекватности линейной модели
341
Forecasts (Предсказания). Эта процедура вычисляет предсказанные по рассмотренной модели величины yi для ряда значений
аргумента xi. Кроме того, выводятся (1–a)% доверительные интервалы для текущего yi и для прогнозируемых значений новых наблюдений. По умолчанию задается наименьший и наибольший аргумент x (см. рис. 9.8).
Значения аргумента для предсказываемых yi и уровень доверительной вероятности (1–α) можно задать в дополнительном меню
(см. рис. 9.9), которое вызывается щелчком правой кнопки мыши
в поле заставки Forecasts Options и выборе пункта Pane Options. Зададим, например, лишь два значения аргумента x=10,0 и x=110,0.
На экран будет выведена следующая информация (см. рис. 9.10).
Comparison of Alternative Models (Сравнение альтернативных
моделей) выводит таблицу (рис. 9.11), в которой представлены
результаты анализа для всех типов зависимостей y от x, упорядо-
Рис. 9.8. Предсказанные по умолчанию наблюдения
и их доверительные границы
Рис. 9.9. Меню задания аргументов
для предсказываемых значений регрессии
342
Рис. 9.10. Результаты предсказания заданных наблюдений
Рис. 9.11. Сравнение альтернативных моделей
343
Рис. 9.12. Результаты анализа
резко выделяющихся наблюдений
ченные по убыванию модуля коэффициента корреляции. Оказывается, линейная модель – вторая по качеству аппроксимации экспериментальных наблюдений. Последние три модели по данным
выборки вычислены быть не могут.
Unusual Residuals (Необычные остатки). Эта процедура выводит
значения резко выделяющихся наблюдений. Для данной выборки
это наблюдение номер три (рис. 9.12).
Influential Points (Точки влияния). Процедура дает таблицу наблюдений больших некоторого значения по отношению к среднему
значению всех элементов выборки, влияние которых на определение коэффициентов регрессии выше определенного уровня. В нашей выборке таких точек нет, поэтому таблица пуста.
При анализе каждой регрессионной модели большое значение
имеет графическая информация. В пакете Statgraphics можно построить графики пяти видов, которые задаются в меню Tables and
Graphs. Опишем коротко особенности всех выводимых графиков.
Plot of Fitted Model (График подобранной модели) выводит на
экран график линии регрессии, доверительные границы для среднего отклика в виде двух пунктирных линий, ближайших к линии
регрессии. Область между этими линиями обычно называется доверительной трубкой. Пунктирные линии, более удаленные от линии
регрессии, очерчивают доверительную границу для прогноза значений новых наблюдений (рис. 9.13). Убрать или задать доверительные
границы или доверительную вероятность можно в дополнительном
меню, которое открывается щелчком правой кнопки мыши на графике подобранной модели и выборе пункта Pane Options.
Observed versus Predicted (График предсказанных наблюдений)
строит график предсказанных значений в зависимости от наблюдаемых. Эта процедура полезна для выявления случаев, в которых дисперсия зависимых переменных не постоянна. Предсказанные значе
ния вычисляются по формуле yi = a + bxi для значений аргументов,
не входящих в область определения исходной выборки (см. рис. 9.13).
Следующие три графика Residual versus x (График остатков),
Residual versus Predicted (График остатков в зависимости от пред344
Рис. 9.13. Графики линии регрессии и предсказанных наблюдений
сказаний) и Residual versus Row Number (График остатков в зависимости от номера наблюдения) полезны для представления о том,
насколько подобранная модель соответствует исходным данным и
насколько выполняются условия применения метода наименьших
квадратов (см. рис. 9.14, 9.15). Подробное описание процедур анализа остатков имеется, например, в [17].
345
Рис. 9.14. График простых остатков модели линейной регрессии
Заметим, что на график можно выводить простые остатки (раз
ности yi - yi ) или стьюдентизированные. Для этого нужно открыть
дополнительное меню Residual Plot Options щелчком правой кнопки мыши в любом месте графика и выбором пункта Pane Options.
Совершенно аналогично осуществляется процедура полиномиальной и множественной регрессии. Например, полиномиальная
регрессия находит аналитическое выражение связи двух переменных x и y в виде степенного многочлена y=a0+a1x+a2x2+…+anxn.
Пакет Statgraphics предоставляет возможность строить такие многочлены вплоть до восьмой степени, причем степень можно выбирать по желанию пользователя.
Процедура множественной регрессии позволяет осуществлять
пошаговой отбор переменных. Для этого в разделе Fit (Аппроксимация) окна диалога Multiple Regression Options, открывающегося
щелчком правой кнопки мыши, необходимо установить переключатель в положение Forward Selection (Алгоритм последовательного
увеличения группы переменных) или Backward Selection (Уменьшение группы переменных). Кроме того, можно снять флажок Constant
in Model, отказавшись от свободного члена в подбираемой модели.
Построение этих моделей и учет их особенностей можно легко
освоить самостоятельно. Строение и содержание всех таблиц и графиков, выводимых процедурами этих моделей, аналогично данным, получаемым в моделях простой регрессии.
346
Рис. 9.15. Графики стьюдентизированных остатков
модели линейной регрессии
Задание 1. Найти в пакете Statgraphics оценки параметров линейной регрессии y на x, доверительные интервалы для параметров
и линии регрессии и проверить согласие линейной регрессии с результатами наблюдений. Принять уровень доверительной вероятности равным 0,90. Номер вашего варианта – номер вашей фамилии в журнале преподавателя.
347
1.
x
2
y
5
8
10
14
15
4
12
3
7
6
14,39 9,45 7,05 5,32 16,94 1,97 8,75 3,41 13,37 8,22 9,39
2.
x
2,7
4,6
6,3
7,8
9,2
10,6
12,0
13,4
14,7
y
17,0
16,2
13,3
13,0
9,7
9,9
6,2
5,8
5,7
7,9
13,0
11,6
22,8
12,8
24,8
14,9
28,6
16,3
31,6
18,6
38,7
20,3
40,0
21,9
44,9
23,6
43,0
1
0,21
10
8,32
2
3
4
5
6
7
8
0,32 0,58 1,02 1,76 2,68 3,75 5,07
11
12
13
14
15
16
17
10,21 12,33 14,58 17,07 19,53 22,72 29,05
9
6,62
3.
x
y
4.
x
y
x
y
5.
x
y
2,97
2,94
3,56
3,54
6,45
6,48
1,12
1,08
6,66
6,73
1,37
1,33
6,80
6,86
2,19
2,34
5,11
4,96
7,36
7,21
6.
x
y
19,65
3,44
20,01
3,93
31,15
4,98
32,50
5,45
35,95
6,40
50,15
8,88
59,65
11,22
7.
x
y
0,36
17
0,56
64
0,76
62
0,21
9
0,44
32
0,60
71
0,82
93
1,12
118
1,56
163
8.
x
0,1
y
6,00 5,82 5,75 5,83 5,63 5,60 5,69 5,47 5,41 5,23 5,34 5,30
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
9.
x
y
1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0
2,1
–0,02 –0,28 –0,06 –0,0 –0,24 –0,11 –0,28 –0,35 –0,47 –0,47 –0,52
–0,68
10.
x
y
2,1 2,3 2,5 2,7 2,9 3,1 3,3 3,5 3,7 3,9 4,1 4,3
0,30 0,50 0,82 1,43 1,49 1,85 2,01 2,56 2,72 2,85 3,12 3,75
11.
x
y
348
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55
2,43 2,67 2,71 3,15 3,47 3,76 3,91 4,46 4,76 5,15 5,54 5,61
12.
x
y
1
2
3
4
5
6
7
8
9
10
11
6,32 6,52 6,65 7,26 7,49 7,83 8,13 8,40 8,58 9,01 9,05
13.
x
y
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1
1,2
–0,01 –0,20 –0,31 –0,63 –0,73 –0,87 –1,05 –1,39 –1,05 –1,40 –1,74
–1,88
14.
x
y
2,5
3,90
2,75
3,83
3,0
3,37
3,25
3,42
3,5
3,25
3,75
2,90
4,0
2,90
4,25
2,76
4,5
2,82
4,75
2,35
15.
x
y
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9 11,0
–2,96 –2,68 –2,41 –2,37 –1,98 –1,73 –1,39 –1,29 –0,85 –0,69
16.
x
y
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1
24,3 27,1 34,7 39,1 47,6 55,4 59,3 65,4 72,8 77,9 82,4
17.
x
y
5,3 5,1 4,9 4,7 4,5 4,3 4,1 3,9 3,7 3,5 3,3 3,1 2,9
2,7
4,27 4,45 4,84 5,14 5,55 5,85 6,18 6,38 6,72 7,04 7,26 7,70 7,78
8,33
18.
x
y
1
2
3
4
5
6
7
8
9
10
11
124,9 127,1 134,0 139,1 147,3 155,0 159,8 165,4 172,5 177,4 182,1
19.
x
y
1
2
3
4
5
6
7
8
9
10
11
12
0,00 0,23 0,32 0,24 0,35 0,77 0,68 0,92 0,97 1,08 1,15 1,37
20.
x
6,5
y
5,65 5,43 5,25 5,00 4,79 4,57 4,30 4,07 3,84 3,52 3,28 2,93 2,80
6,7
6,9
7,1
7,3
7,5
7,7
7,9
8,1
8,3
8,5
8,7
8,9
21.
x
y
0,5
0,9
1,3
1,7
2,1
2,5
2,9
3,3
3,7
4,1
4,5
4,9
3,80 3,65 4,52 8,91 9,17 11,10 14,97 17,23 18,32 19,85 23,56
28,29
349
22.
0,5
x
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
0,54 –0,68 –0,60 –0,12 –0,01 0,18 0,48 0,85 1,15 1,18 1,32
y
1,88
23.
x
1
2
3
4
5
6
7
8
6,39
y
7,92
8,03
7,64
7,61
7,24
7,08
6,81
x
9
10
11
12
13
14
15
y
6,65
6,16
5,89
5,67
5,87
5,36
5,27
24.
7,5
x
7,25
7,0
6,75
6,5
6,25
6,0
5,75
5,5
5,25
5,0
4,75
38,81 38,62 38,40 39,17 37,12 34,95 35,16 36,83 37,49 34,71 36,08
y
35,10
25.
x
0,1
0,2
1,2
1,3
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
0,93 0,96 1,00 1,14 1,35 1,38 1,22 1,30 1,37 1,23 1,44
y
1,47 1,66
26.
x
3,14 2,91 2,68 2,45 2,22 1,99 1,76 1,53 1,30 1,07 0,84 0,61
y
2,14 2,19 2,32 2,59 2,56 2,64 2,66 2,84 3,04 2,94 3,23 3,27
27.
x
1,27
y
35,52 34,89 36,41 38,67 40,62 43,95 46,74 49,36 49,51 50,68
1,61
1,95
2,29
2,63
2,97
3,31
3,65
3,99
4,33
28.
x
1
y
2
3
4
5
6
7
8
9
10
11
5,89 6,16 6,65 6,39 6,81 7,08 7,24 7,61 7,64 8,03 7,92
29.
x
y
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
63,10 63,08 65,46 68,55 70,73 77,70 72,25 77,39 79,95 89,63
30.
x
3,71
3,45
3,19
2,93
2,68
2,42
2,16
1,90
1,64
1,39
y –16,30 –19,50 –22,31 –25,54 –26,42 –28,57 –33,24 –36,45 –37,80 –38,44
350
§ 9.7. Лабораторная работа № 9.
Регрессионный анализ в пакете Mathcad
В пакете Mathcad две встроенные функции intercept (to intercept
по-английски – отложить отрезок на линии) и slope (наклон) решают задачу линейного сглаживания экспериментальных данных
методом наименьших квадратов. Доверительные интервалы для
параметров модели α и β (см. формулу (9.2.1)), а также для линии
регрессии необходимо вычислять отдельно. Запрограммируем необходимые формулы § 9.3 и построим нужные графики.
Процедура csort(A, j) производит сортировку матрицы A по
столбцу j, т. е. переставляет строки матрицы по возрастанию значений элементов в столбце j. Результат – матрица такого же размера,
как A.
ORIGIN:=1
æ51ö÷
æ 52.7 ö÷
çç ÷
çç
÷
çç32÷÷
çç 15.2 ÷÷
æ
ö
æ 5.3 ö÷
28
÷÷
çç ÷÷
çç
çç ÷÷÷
ç
÷
çç
÷÷
çç35÷÷
çç20.7÷÷
çç80÷÷
89.5 ÷
÷
÷÷
ç
çç ÷÷
çç
÷÷
çç ÷÷
çç
çç40÷÷
çç21.7÷÷÷
çç73÷÷
çç 94.8 ÷÷
÷÷
÷÷
çç ÷÷
çç
ç ÷÷
ç
çç29÷÷ y1:= çç 76 ÷÷÷
çç 9.2 ÷÷
x1:= ççç64÷÷÷
÷
÷÷
çç
÷÷ y2:= çç
çç ÷÷ x2:= çç ÷÷
÷÷
ç
53
55.4
÷
÷
45
39.3
÷
ç
ç
çç ÷
çç
÷÷
÷÷
çç ÷÷
çç
÷
çç83÷÷
çç114.8÷÷
çç58÷÷
çç64.3÷÷
÷
÷
çç ÷
çç
çç ÷÷÷
çç
÷÷
çç44÷÷
çç 36.5 ÷÷÷
çç65÷÷
çç79.1÷÷÷
÷
÷
çç ÷÷
çç
÷÷
÷
çç ÷÷
çç
çè75÷ø
çè 101 ÷÷ø
ççè93÷ø
ççè137.4÷ø
x:=stack(x1,x2) y:=stack(y1,y2) n:=rows(x) n=17
a:=intercept(x,y) a=-48.471
b:=slope(x,y) b=1.938
〈 〉
〈 〉
M 1 := x
M 2 := y
M:=csort(M,1)
〈 〉
x := M 1
i:=1..n
〈 〉
y := M 2
yri := a + b ⋅ xi
xmean:=mean(x) xmean=55.765
ymean:=mean(y) ymean=59.582
351
β1:=0.95 α1:=1-β1 α1=0.05
α1

, n − 2
2



t := qt  1 −
t:=2.131
Построим исходную выборку и график полученной линейной
модели. Определим доверительные интервалы для параметров линейной регрессии. Зададим уровень доверительной вероятности β ¢
равным 0,95.
150
100
a+b+xi
yi
50
0
20
D1 :=
1
⋅
n−2
n
∑
k = 1
aleft := a − t ⋅
40
60
xi
80
(yk − yrk)2
D1
n−2
aright := a + t ⋅
aleft=-51.383 aright=-45.558
εb :=
n
⋅
n−2
n
∑
k = 1
D1
(xk − xmean )2
εb=0.070 bleft:=b-t*εb bright:=b+t*εb
bleft=1.789 bright=2.086
352
100
D1
n−2
Итак, точные доверительные интервалы для параметров линейной регрессии построены. α∈(–51,383; –45,558), β∈(1,789; 2,986)
с вероятностью 95 процентов. Найдем теперь доверительный интервал для линии регрессии, построим этот интервал и один график
для остатков.
i:=1..n
εi := yi − yri
yleft i := yri − t ⋅
yright i := yri + t ⋅
D1
n−2
D1
n−2
10
0
n ⋅(xi − xmean )2
n
∑
k = 1

⋅ 1+






(xk − xmean )2 


n ⋅(xi − xmean )2
n
∑
k = 1


2
x
−
xmean
( k
)


150
20
i

⋅ 1+




100
yri
ylefti
yrighti
50
0
–10
–20
20
0
40
60
xi
80
100
20
40
60
xi
80
100
Задание 2. Найти в пакете Mathcad оценки параметров линейной регрессии y на x, доверительные интервалы для параметров
и линии регрессии и проверить согласие линейной регрессии с результатами наблюдений. Принять уровень доверительной вероятности равным 0,95. Числовой материал для вариантов расположен
на страницах 348–350. Номер вашего варианта – номер вашей фамилии в журнале преподавателя.
353
§ 9.8. Лабораторная работа № 9.
Регрессионный анализ в пакете Matlab

Строится только линейная модель вида y = a + b x - x . Теоре-
(
(
)
тическая модель y = α + β x - x , x =
)

1 n

xi . Здесь a = α, b = β, по
å
n i=1
n
å(xi - x)yi
методу наименьших квадратов a =
1 n
å yi , b = i=n1
n i=1
2
å(xi - x)
.
i=1
1. Вспомогательные подпрограммы-функции, используемые в
основной программе.
function y1=ypory(x,x1,y)
%Функция ypory упорядочивает массив значений функции у по порядку
%возрастания элементов массива аргументов х1. Входные параметры:
%x и у-исходные массивы аргументов х и функции у, x1-вариационный
%ряд аргументов. Выходной параметр у1 содержит значения функции
%y, соответствующие значениям вариационного ряда х1.
[k,k1]=size(x);
if k1>1
for i=1:k
y1(i)=0;
end;
return;
end;
for i=1:k
for j=1:k
if abs(x1(i)-x(j))<10^-5
y1(i)=y(j);
end;
end;
end;
y1=y1’;
end
Далее следует текст основной программы.
>> clear
>> x=[3.71;3.45;3.19;2.93;2.68;2.42;2.16;1.90;1.64;
1.39];
354
>> y=[-16.30;-19.50;-22.31;-25.54;-26.42;-28.57;
-33.24;-36.45;-37.80;-38.44];
>> n=10;
>> x1=sort(x);
>> y1=ypory(x,x1,y);
>> a=0;
>> for i=1:n
a=a+y1(i);
end;
>> a=a/n
a = -28.4570
>> %Вычислена предварительная оценка параметра а.
>> xmean=mean(x1)
xmean =
2.5470
>> ymean=mean(y1)
ymean = -28.4570
>> b=0;
>> c=0;
>> for i=1:n
b=b+(x1(i)-xmean)*y1(i);
c=c+(x1(i)-xmean)^2;
end;
>> b=b/c
b =
9.9477
>> %Найдена оценка параметра b.
>> a=a-b*xmean
a = -53.7937
>> %Исправлена оценка параметра а.
>> for i=1:n
yr(i)=a+b*x1(i);
end;
>> plot(x1,yr,’-*r’,x1,y1,’-+g’),grid
>> bet=0.95;
>> alf=1-bet;
>> t=tinv(1-alf/2,n-2)
t =
2.3060
>> D1=0;
>> for i=1:n
D1=D1+(y1(i)-yr(i))^2;
end;
>> D1=D1/(n-2)
355
D1 =
1.0958
>> aleft=a-t*sqrt(D1/(n-2))
aleft = -54.6472
>> aright=a+t*sqrt(D1/(n-2))
aright = -52.9402
>> sum=0;
>> for i=1:n
sum=sum+(x1(i)-xmean)^2;
end;
>> epsb=sqrt(n/(n-2)*D1/sum)
epsb =
0.4994
>> bleft=b-t*epsb
bleft =
8.7960
>> bright=b+t*epsb
356
bright =
11.0993
>> for i=1:n
eps(i)=y1(i)-yr(i);
yleft(i)=yr(i)-t*sqrt(D1/(n-2)*(1+n*(x1(i)xmean)^2/sum));
yright(i)=yr(i)+t*sqrt(D1/(n-2)*(1+n*(x1(i)xmean)^2/sum));
end;
>> plot(x1,eps,’-*r’),grid
>>
plot(x1,yr,’-*r’,x1,yleft,’-+g’,x1,yright,’+b’),grid
Задание 3. Найти в пакете Matlab оценки параметров линейной
регрессии y на x, доверительные интервалы для параметров и линии регрессии и проверить согласие линейной регрессии с результатами наблюдений. Принять уровень доверительной вероятности
равным 0,90. Числовой материал для вариантов расположен на
страницах 348–350. Номер вашего варианта – номер вашей фамилии в журнале преподавателя.
§ 9.9. Лабораторная работа № 9.
Регрессионный анализ в пакете Scilab
В системе Scilab рассмотрим построение полиномиальной моде
2
ли регрессии вида y = (x + a) - b. Аналогично линейной модели,
рассмотренной ранее, по методу наименьших квадратов получаем:
357
ïìï ¶R
= 0,
n
ïï
2
 2
2
a
¶
R =å (y - yi ) = å yi - (xi + a) + b Þ í
ïï ¶R
i=1
i=1
= 0.
ïï
ïî ¶b
n
(
)
Эта
система
двух уравнений допускает аналитическое решение, которое даёт:
n
ì
ï
ï
ï
yi - xi2 - 2axi - a2 + b (xi + a) = 0,
å
ï
ï
ïi=1
í
n
ï
ï
ï
yi - xi2 - 2axi - a2 + b = 0,
å
ï
ï
ï
i=1
î
(
)
(
)
ìn
n
n
n
n
æn
ö÷
ï
ï
çç
3
2
2
3
÷÷ = 0,
ï
x
y
x
3
a
x
3
a
x
a
y
a
n
b
x
an
+
+
+
å
å
å
å
å
å
i i
i
i
i
i
i
ï
ç
÷
ï
ç
è
ø÷
ï
i=1
i=1
i=1
i=1
i=1
i=1
ï
í
ï
n
n
n
ö÷
ï
1 æç
ï
b = çça2n + 2aå xi + å xi2 - å yi ÷÷÷.
ï
ï
n çè
ï
i=1
i=1
i=1 ø÷
ï
î
Подставляя второе уравнение в первое, получим
n
n
n
n
ì
ï
1 n
1 n
ï
ï
xi yi - å xi3 + å xi2 å xi - å xi å yi
å
ï
n i=1 i=1
n i=1 i=1
ï
i=1
i=1
ï
=
=
a
ï
ï
n
n
æn
ö÷
ï
1
ç
ï
2ççå xi2 - å xi å xi ÷÷÷
ï
ï
n i=1 i=1 ø÷
ï
èçi=1
ï
ï
ï
n
n
n
ï
ï
*
3
ï
+
x
y
x
m
í
å i i å i x å xi2 - n × mx* my*
ï
ï
i=1
i=1
= i=1
,
ï
ï
æn
ö÷
ï
çç
* *
2 ÷
ï
ï
2çå xi -÷÷n × mxmx
ï
ï
çèi=1
ø÷
ï
ï
ï
n
n
æ n
ö
ï
ï
ï b = 1 ççç å (xi + a)2 - å yi ÷÷÷ = 1 å (xi + a)2 - my* .
ï
÷ n
ï
n çèi=1
ïï
i=1
i=1 ÷ø
î
Текст основной программы.
-->clear
-->x=[-2;-1;0;1;2;3;4;5;6;7];
-->y=[12.68;6.15;0.95;-2.10;-3.05;1.90;1.05;5.95;13.10;21.80];
358
-->n=10;
-->mx=0;
-->my=0;
-->x2=0;
-->x3=0;
-->xy=0;
-->for i=1:n
-->mx=mx+x(i);
-->my=my+y(i);
-->m1=x(i)*x(i);
-->x2=x2+m1;
-->x3=x3+m1*x(i);
-->xy=xy+x(i)*y(i);
-->end;
-->mx=mx/n
mx =
2.5
-->my=my/n
my =
5.463
-->a=(xy-x3+x2*mx-n*mx*my)/(2*(x2-n*mx*mx))
a = – 1.9959697
-->b=0;
-->for i=1:n
-->b=b+(x(i)+a)^2;
-->end;
-->b=b/n-my
b =
3.0410465
359
-->//Вычислены оценки параметров полиномиальной регрессии.
-->for i=1:n
-->yteor(i)=(x(i)+a)^2-b;
-->end;
-->xtitle(‘Графики фактической и теоретической линии
регрессии’,’x’,’y и yteor’);
-->plot(x,y,’-*r’,x,yteor,’-+g’)
Изучим теперь свойства полученных оценок a и b. Мы рассматриваем пассивный эксперимент, поэтому все наблюдения xi – неслучайные, а yi – случайные, причём yi∈N(my, Dy) и yi взаимно независимы. Найдём теперь матожидания и дисперсии оценок a и b.
n
n
1
n
n
i=1
i=1
1
n
n
i=1
i=1
å(xi × M (yi ))- å xi3 + n å xi2 å xi - n å xi å M (yi )
M (a) = i=1
i=1
n
æn
ö÷
1 n
ç
2ççå xi2 - å xi å xi ÷÷÷
çè
n i=1 i=1 ÷ø
i=1
=
n
n
n
1 n 2 n
1
*
2
x
x
×
n
×
m
x
m
x
å xi3
å iå i n
yå i
xå i
n
i=1
i=1
i=1
i=1
i=1
i=1
.
=
n
n
n
æ
ö
æn
ö
÷÷
çç
çç
* 2 ÷÷
2
2 1
2çå xi - n × mx ÷÷
2çå xi - å xi å xi ÷÷
n i=1 i=1 ø÷
÷ø
çèi=1
çèi=1
n
n
my å xi - å xi3 +
i=1
=
D (a ) =
2
æn
ö÷
÷÷
1 çæ n ÷÷ö n
ççç
2
ç
x
D
y
x
D
y
çå i ÷÷ å ( i )÷÷÷ =
ççå i ( i )
2
2
ç
÷
n èi=1 ø i=1
æn
ö÷ çèi=1
ø÷
ç
4ççå xi2 - n × mx* 2 ÷÷÷
çè
÷ø
i=1
1
n
Dy å xi2 - n × mx* 2 Dy
=
i=1
2
æn
ö÷
ç
4ççå xi2 - n × mx* 2 ÷÷÷
÷ø
çèi=1
=
Dy
æ
÷ö
ç
4ççå xi2 - n × mx* 2 ÷÷÷
÷ø
çè
n
.
i=1
Аналогично
n
n
ù 1 n
1 éê n
2
2 1
ú=
x
a
y
M
x
a
+
+
(
)
(
)
å i
å iú nå i
å yi =
n êê i=1
n i=1
i=1 ûú
i=1
ë
n
n
n
1é n
= êê å xi2 + 2å xi M (a) + å M (a × a) - å M (yi )ûù =
n ê i=1
i=1
i=1
i=1
ë
M (b ) =
360
=
n
1 n 2
2
xi + 2å xi M (a) + M (a) - my* =
å
n
n
n
ù 1 n
1 éê n
2
2 1
ú=
x
a
y
M
x
a
+
+
(
)
(
)
å i
å iú nå i
å yi =
n êê i=1
n i=1
i=1 ûú
i=1
ë
n
n
n
1é n
= êê å xi2 + 2å xi M (a) + å M (a × a) - å M (yi )ûù =
n ê i=1
i=1
i=1
i=1
ë
M (b ) =
=
n
1 n 2
2
xi + 2å xi M (a) + M (a) - my* =
å
n i=1
i=1
=
1 n 2
å xi + M (a) 2mX* + M (a) - my* .
n i=1
(
)
é æn
ö÷
æ n
æn
æ n ÷öù
1
÷ö
÷ö
ç
ç
ç
ç
D (b) = 2 êê D ççå xi2 ÷÷÷ + D çç2å xi a÷÷÷ + D ççå a2 ÷÷÷ - D ççå yi ÷÷÷úú =
çè
çè
÷ø
n êë çèi=1 ÷ø
èç i=1
i=1 ÷ø
i=1 ÷øúû
n
1 é
= 2 êê D 2a × n × mx* + D na2 - å D (yi )ùû =
n êë
i=1
1 é 2 *2
2
2
= 2 ê4n mx D (a) + n D a - nDy ùú =
û
n ë
æ
1 é
ù
2
= 2 ê4n2mx* 2 D (a) + n2 ççç D2 (a) + 2M (a) D (a) - nDy ú =
ê
úû
è
n ë
1
é
2 ù
= 2 D (a) ê4n2mx* 2 + n2 D (a) + 2M (a) ú - nDy .
ê
ë
ûú
n
(
)
( )
( )
)
{
(
)
}
Далее следует продолжение текста основной программы.
-->c=n*mx*mx;
-->ma=(x2*mx-x3)/(2*(x2-c))
ma = – 2.5
-->Dy=variance(y)
Dy =
66.860134
-->Da=Dy/(4*(x2-c))
Da =
0.2026065
-->mb=x2/n+ma*(2*mx+ma)-my
mb =
2.787
-->Db=(Da*(4*(n*mx)^2+n*n*(Da+2*ma*ma))-n*Dy)/(n*n)
Db =
0.9527785
Найдём интервальные оценки параметров полиномиальной регрессии и самой кривой регрессии по аналогии с формулами § 9.3.


2
2
y = (x + a) - b, M (y ) = M éê(x + a) - bùú = M x2 + 2ax + a2 - b =
ë
û
(
( )
)
2
= M x2 + 2xM (a) + M (a) - M (b).
361
(
)
( )
2
D éê(x + a) - bùú = D x2 + 2ax + a2 - b = D x2 + 4x2 D (a) +
ë
û
2
2
é
+D (a) ê D (a) + 2M (a) ùú - D (b) = D (a) éê4x2 + D (a) + 2M (a) ùú - D (b).
ë
û
ë
û
Так как
получим
nD*
z n
Î χ2n-2 , t =
Î tn , z Î N (0,1), то для параметра a
D
v
a - M (a )
D (a )
nDy*
Î N (0,1),
Dy
æ
ta =
Î χ2n-2
n
ö
èçi=1
ø÷
(a - M (a))× 2 × (n - 2)ççççå xi2 - n × mx* 2 ÷÷÷÷
nDy*
Аналогично для параметра b будем иметь
tb »
(b - M (b))
и
n -2
nD (b)
Î tn-2 .
b - M (b)
D (b )
Î N (0,1),
n
*2
Î tn-2 . Пусть c = å xi2 - n × mX
, тогда для
i=1
доверительных интервалов a и b получим следующие формулы
æ
ö
çç a - M (a) 2 c(n - 2)
c(n - 2) ÷÷÷
ç
÷ = β или
P(|a–M(a)|<εa)=β и P ç
< εa × 2
* ÷÷
çç
*
nD
nD
y ÷ø÷
çè
y
tβ
P(|t|<tβ)=β, где 2ò sn-2 (t)dt =β.
0
t
Тогда εa = b
2
nDy*
c(n - 2)
и IM(a)=(a–εa, a+εa). Аналогично для па-
раметра b получим
æ b - M (b) c(n - 2)
nD (b)
ç
(n - 2) ö÷÷÷
,
P ççç
< εb ×
÷÷ = β, εb = tb
n -2
nD (b) ÷ø
nD (b)
çè
IM(b) = (b - εb , b + εb ).
362
Для самой кривой регрессии интервальная оценка для полиномиальной модели выглядит следующим образом.
(y - M (y ))
 × n -2


D(y)
y - M (y)
z n -2
z=
Î tn-2 , ty =
=
 Î N (0,1), t =
D(y)
nDy*
nDy*
Dy
=
(y - M (y )) (n - 2) Dy

D (y )× nDy*
Dy


= (y - M (y ))d Î tn-2 ,
где
d=
(n - 2) Dy

D (y )× nDy*
»
=
(n - 2) Dy
{
}
2
nDy* D (a) éê4x2 + D (a) + 2M (a) ùú - D (b)
ë
û
»
n -2
,
2
é
nD (a) ê4x2 + D (a) + 2M (a) ùú - nD (b)
ë
û
причём Dy≈Dy* так же и в формулах для D(a) и D(b). Тогда
ty




P y - M (y ) × d < ε y × d = β, ε y =
и Iy = (y - ε y , y + ε y ).
d
Далее следует продолжение текста основной программы.
-->c=x2-c;
-->alfa=0.1;
-->p=1-alfa/2;
-->q=1-p;
-->n1=n-2;
-->t=cdft("T",n1,p,q)
t =
1.859548
-->epsa=t/2*sqrt(n*Dy/(c*n1))
epsa =
0.9358130
-->aleft=a-epsa
aleft = – 2.9317827
-->aright=a+epsa
aright = – 1.0601567
-->epsb=t*sqrt(n*Db/n1)
(
)
363
epsb =
2.0293567
-->bleft=b-epsb
bleft =
1.0116899
-->bright=b+epsb
bright =
5.0704032
-->for i=1:n
-->eps(i)=y(i)-yteor(i);
-->epsy(i)=t/sqrt(n1/(n*Da*(4*x(i)+Da*ma^2)-n*Db));
-->yleft(i)=yteor(i)-epsy(i);
-->yright(i)=yteor(i)+epsy(i);
-->end;
-->subplot(1,2,1);
-->xtitle(‘График остатков’,’x’,’eps’);
-->plot(x,eps);
-->subplot(1,2,2);
-->xtitle(‘Доверительные границы линии регрессии’,
’x’,’yteor, yleft, yright’);
-->plot(x,yteor,’-*r’,x,yleft,’-+g’,x,yright,’-*b’)
364
10. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ
§ 10.1. Основные понятия и область применимости
непараметрических методов
При рассмотрении статистических гипотез стандартными средствами приходится предполагать вид распределения статистик
критерия. Для более тонких и глубоких выводов вводится предположение, что наблюденные случайные величины имеют нормальное распределение. На этой основе за многие годы выросла обширная и развитая система статистической обработки регрессионных
и факторных экспериментов, в частности дисперсионный анализ.
Она позволяла решать основные статистические задачи: получать
оценки неизвестных параметров (как точечные, так и интервальные), проверять статистические гипотезы, проводить сравнения и
тому подобное. На практике все эти методы приходиться применять
и в тех случаях, когда наблюдения, возможно, распределены иначе, что превращает точные методы в приближенные. Иногда при
этом нарушения, кажущиеся незначительными и поэтому трудно
обнаружимые, могут существенно исказить конечные результаты:
привести к смещению оценок и доверительных границ.
Один из способов ослабить эти неприятные явления – разработать
и применять такие статистические правила, результаты которых
были бы устойчивы или малочувствительны к тем или иным отступлениям от предпосылок модели. К сожалению, такие устойчивые
(робастные) правила приводят к тому, что если модель полностью
справедлива, они имеют меньшую точность, чем традиционные оптимальные процедуры и правила. Такой подход и методы, им реализованные, называются непараметрическими. Точнее эти методы, не
предназначенные специально для какого-нибудь параметрического
семейства распределений (например, гауссовского) и не использующие его свойства. Благодаря этому, непараметрические методы имеют более широкую область применения, но более низкую точность.
Непараметрические методы используют не сами численные значения элементов выборки, а структурные свойства выборки: отношения порядка между ее элементами. В связи с этим, конечно,
теряется часть информации, содержащаяся в выборке, поэтому
мощность непараметрических критериев меньше, чем мощность
их параметрических аналогов. Однако непараметрические методы
могут применяться при более общих предположениях и более просты с точки зрения выполнения вычислений.
365
Большая группа непараметрических критериев используется для проверки гипотезы о принадлежности двух выборок
x1, x2 ,..., xn1 и y1, y2 ,..., yn2 к одной и той же генеральной совокупности, т. е. о том, что функции распределения двух генеральных
совокупностей FX(x) и FY(y) эквивалентны: H0: FX(x) ≡ FY(y)|x=y.
Такие генеральные совокупности называются однородными. Необходимое условие однородности состоит в равенстве характеристик
положения и (или) рассеивания таких, как средние, медианы, дисперсии и тому подобное. Непараметрические критерии в качестве
основного предположения используют только непрерывность распределения генеральной совокупности.
Все выводы статистических методов непараметрического типа
основаны на исследовании знаков и рангов. Особенно значимые
результаты получены за последние десятилетия. Рассмотрим несколько примеров.
§ 10.2. Критерий знаков
Простейший критерий такого рода, критерий знаков, применяется для проверки гипотезы H0 об однородности генеральных совокупностей попарно связанным выборкам. Статистикой критерия
знаков является число знаков «+» или «–» в последовательности
знаков разностей парных выборок (xi, yi), i=1, 2,…,n. Если сравниваемые выборки получены из однородных генеральных совокупностей, то значения xi и yi взаимозаменяемы и, следовательно, вероятности появления положительных и отрицательных разностей
xi – yi равны, т. е. можно предположить, что p(x,y)=p(y,x). Если же
совокупность x в среднем больше или меньше, то p(x,y)≠p(y,x).
Пусть, к примеру, каждый y будет на θ больше, чем соответствующий x. Тогда p(x, y–θ)=p(y–θ, x), т. е. θ является медианой разности y – x. Покажем это. Подставим w=y – θ, получим
p(x,w)=p(w,x), т. е. совместная плотность симметрична относительно прямой w=y–θ (см. рис. 10.1). Тогда
ò p(x,w)dW = p(w < x).
ò p(x,w)dW = p(x < w)
W1
Из свойств симметричности следует, что
W2
интегралы численно равны, тогда p(x<w)=p(w<x) или, подставляя
y–θ вместо w, имеем p(x<y–θ)=p(y–θ<x). Далее, очевидно, что p(y–
θ<x)=p(y–x<θ) и p(x<y–θ)=p(θ<y–x)=p(y–x>θ). Так как левые ча366
W
Ω1
X=W
X<W
X>W
Ω2
X
Рис. 10.1. Области интегрирования вероятностей
сти равны, то равны и правые, следовательно, p(x–y<θ)=p(y–x>θ).
Наконец, вычисляя вероятности противоположных событий, получим p(y–x>θ)=p(θ>y–x), а это и есть определение θ как медианы для
совокупности случайных величин zi=yi–xi.
Таким образом, проверка нулевой гипотезы H0:θ=0 равносильна проверке гипотезы, согласно которой медиана случайной величины z равна нулю, и, аналогично, при альтернативной гипотезе
H1:θ>0 медиана случайной величины z будет больше нуля. Предполагалась непрерывность вероятности p(x,y), поэтому распределение случайной величины z непрерывно, т. е. вероятность совпадения xi=yi равна нулю. Реально наблюдается всегда дискретная
последовательность случайных величин, и могут быть случайные
совпадения. Как поступать в этом случае – вопрос, наименее теоретически обоснованный. Простейший выход – отбрасывать совпадающие наблюдения, сокращая при этом выборку.
Обозначим zi=yi – xi и примем модель
zi = θ + εi , i = 1,n, (10.2.1)
где εi– ненаблюдаемая случайная величина, θ – интересующий нас
неизвестный параметр. При этом предполагается, что все εi – взаимно независимы и извлечены из непрерывной совокупности, имеющей медиану, равную нулю, т. е. P (εi < 0) = P (εi > 0) = 1 2, i = 1,n.
367
Проверим гипотезу H0: θ=0, определив для этого переменную –
n
ì1, zi > 0,
ï
счетчик ψ i = ïí
Положим B = å ψ i . Статистика B есть
ï
ï
î0, zi < 0.
i=1
число положительных величин среди zi , i = 1,n. Случайные величины ψi независимы и, в силу симметричности распределения
относительно медианы, с ними можно связать схему последовательных независимых испытаний, в которой вероятность успеха
P(ψi=1)=0,5 для каждого испытания. Следовательно, при нулевой
гипотезе H0 их сумма B распределена по биномиальному закону
(
)
с параметрами B(n, p) = B n, 1 .
2
Пусть b – верхняя α – процентная точка биномиального распределения при объеме выборки n и вероятности p в схеме Бернулли. Введем обозначение b=b(α,n,p). Оно указывает на зависимость b от вероятности ошибки первого рода α. b=b(α,n,p) есть корень уравнения
(
n
)
n-i
= α. P B > b n, p = å Cni pi (1 - p)
(10.2.2)
i =b
Тогда процедура проверки гипотезы H0 при уровне значимости
α выглядит следующим образом.
1. Односторонний критерий для H0 против альтернативы H1: θ>0:
(
)
отклонить H0, если B ³ b α,n, 1 ,
2
(
)
принять H0, если B < b α,n, 1 .
2
Рисунок 10.2 показывает критическую область правостороннего
критерия для биномиального распределения. На этом рисунке P(x)
функция (10.2.3), а f(x) – ее аппроксимация по формуле (10.2.5).
2. Односторонний критерий для H0 против альтернативы H1: θ<0:
(
)
отклонить H0, если B £ éên - b α,n, 1 ùú ,
2û
ë
принять H0, если B > éên - b α,n, 1 ùú .
2û
ë
3. Двусторонний критерий для H0 против альтернативы H1: θ≠0:
(
)
ïïìB £ én - b α ,n, 1 ù , èëè
1
êë
ï
2 úû
отклонить H0, если ïí
ïï
B ³ b α2 ,n, 1 2 ,
ïïî
(
)
(
368
)
0,3
p=0,5 n=20
Область принятия гипотезы H0
P(x) 0,2
Критическое множество
f(x)
0,1
0
0
5
10
15
b(alfa,n,p)
20
Рис. 10.2. Критическая область и область принятия решения
для биномиального распределения
(
)
(
)
ìïn - b α ,n, 1 < B < b α ,n, 1 ,
ï
1
2
2
2
принять H0, если ïí
ïï
α = α1 + α2 ,
ïî
т. е. левый и правый хвосты распределения могут учитываться несимметрично.
Рассмотрим теперь приближения для большой выборки. Интегральная функция распределения для биномиального закона имеет вид
m
n-i
F (m,n, p) = å Cni pi (1 - p)
, 0 < p < 1, m = 0,1,...,n. (10.2.3)
i=0
В большинстве статистических приложений желательно иметь
достаточно точную аппроксимацию для тех значений функции
F(m,n,p), которые принадлежат отрезкам [0,005; 0,05] и [0,93; 0,995].
В этом случае условимся говорить, что аппроксимация осуществляется на хвостах распределения. Если же истинные значения аппроксимируемой функции F(m,n,p) принадлежат отрезку [0,05; 0,93], то
будем использовать термин аппроксимация между хвостами распределения. При небольших значениях m и n значения функции (10.2.3)
легко подсчитать непосредственным образом, но при больших m и n
необходимо использовать нормальную аппроксимацию.
Для быстрых прикидочных расчетов рекомендуется следующая
простая аппроксимация:
ìï
ïï
F (m,n, p) » ïí
ïïΦ
ïïî
(
)
(4n - 4m -1) p ) ìåæäó õâîñòàìè. (10.2.4)
Φ 2 (m +1)(1- p) - 2 (n - m) p íà õâîñòàõ,
(
(4m + 3)(1- p) -
369
Здесь Ф – функция Лапласа. Более точная аппроксимация:
ìï
ïï
F (m,n, p) » ïí
ïïΦ
ïïî
Φ
( (4m + 3)(1- p) -
( (4m + 2,5)(1- p) -
(4n - 4m -1) p ) íà õâîñòàõ,
(4n - 4m -1,5) p ) ìåæäó õâîñòàìè.(10.2.5)
Наконец, для очень большой выборки применима интегральB - M ( B) B - n 2
=
ÎN
ная теорема Муавра – Лапласа. Статистика B* =
n
D ( B)
4
B - M ( B) B - n 2
=
Î N (0,1) ïðè n ® ¥.
n
D ( B)
4
Приближение нормальной теории для одностороннего критерия
для H0 против альтернативы H1: θ>0 таково:
отклонить H0, если B*≥z(α);
¥
принять H0, если B*<z(α), где
ò
-
e
t2
2 dt = α.
z(α)
§ 10.3. Критерий знаков для одномерной выборки
Описанная в предыдущем параграфе процедура легко может
быть приспособлена для одномерной выборки. Пусть имеется n наблюдений z1, z2,…, zn, причем все zi взаимно независимы и все извлечены из одной и той же непрерывной генеральной совокупности
с медианой θ, так что P (zi < 0) = P (zi > 0) = 1 2, i = 1,n. Для проверки H0: θ=θ0, где θ0 – некоторое заданное число, надо модифицировать наблюдения zi¢ = zi - θ0 , i = 1,n. Затем к наблюдениям zi¢ применяется вышеописанная процедура критерия знаков.
Очевидно, что метод построения двустороннего критерия знаков
легко применяется для получения доверительного интервала для
медианы θ с коэффициентом доверия не менее 1–α. Действительно,
с вероятностью 1–α истинное значение медианы накрывается случайным интервалом θ Î êén - b α1,n, 1 , b α2 ,n, 1 ùú , α = α1 + α2 .
2
2û
ë
Ввиду дискретности биномиального распределения построить доверительный интервал, коэффициент доверия которого в точности
равен 1–α, в общем случае не удается. Поэтому границы округляют, а за уровень ошибки первого рода α берут ближайшую к задан-
(
370
) (
)
ному значению вероятность из таблицы биномиального распределения с той или иной стороны, смотря по смыслу решаемой задачи.
Пример. Исследовалась геоморфология большой песчаной отмели пролива Виньярд в штате Массачусетс. Из различных мест
отмели отобрали семь проб. Измерялась скорость сегментации (отложения осадка) песка при температуре 22°С. Обычно на пересечении гребней песчаных волн скорость сегментации равна 14 см/с.
В табл. 10.1 даны скорости сегментации песка для семи проб.
Относятся ли эти семь наблюдений к тому месту отмели, где пересекаются гребни песчаных волн?
Решение
Необходимо проверить H0: θ=14 см/с против альтернативы H1:
θ≠14 см/с. Для этого модифицируем наблюдения (см. табл. 10.2).
7
ì
ï1, zi¢ > 0,
B = å ψ i = 0 + 0 + 1 + 0 + 0 + 0 + 0 = 1. Критерий
ψi = ï
í
ï
ï
î0, zi¢ < 0,
i=1
здесь двусторонний.
Таблица 10.1
Образец
1
2
3
4
5
6
7
zi (см/с)
12,9
13,7
14,5
13,3
12,8
13,8
13,4
Таблица 10.2
Образец
1
2
3
4
5
6
7
zi¢ = zi -14,0 (см/с)
–1,1
–0,3
0,5
–0,7
–1,2
–0,2
–0,6
0,3
0,2
P(x)
0,1
0
0
2
4
x 6
8
10
Рис. 10.3. Многоугольник
биномиального распределения
371
(
)
При α1=α2=0,0078 b 0,0078;7; 1 = 7, т. е. процентная точка
2
вычисляется совершенно точно. Покажем это подробнее. Построим
многоугольник распределения и F(m,n,p) для биномиального рас7
( )
пределения с n=7 и p=0,5. P (m = 0) = C70 1 2
7
( )
P (m = 1) = C71 1 2
7
( )
P (m = 2) = C72 1 2
= 0,0078;
= 0,0055;
= 0,1641;
7
( )
P (m = 3) = P (m = 4) = C73 1 2
7
( )
P (m = 5) = P (m = 2) = C75 1 2
7
( )
P (m = 6) = P (m = 1) = C76 1 2
= 0,2734;
= 0,1641;
= 0,0055;
7
( )
P (m = 7) = P (m = 0) = C77 1 2 = 0,0078. Вычислим функцию распределения F (m) = å pi . Тогда, например, F(0)=0, F(1)=P(m=
pi , mi <m
= 0) = 0,0078. Аналогично F(2)=P(m=0)+P(m=1)=0,0625 и т. д.
ì
0, m £ 0,
ï
ï
ï
ï
0,0078; 0 < m £ 1,
ï
ï
ï
0,0625; 1 < m £ 2,
ï
ï
ï
ï
0,2266;
2 < m £ 3,
ï
ï
ï
F (m) = í 0,5; 3 < m £ 4,
ï
ï
0,7734; 4 < m £ 5,
ï
ï
ï
ï
0,9375; 5 < m £ 6,
ï
ï
ï
ï
0,9922; 6 < m £ 7,
ï
ï
ï
1, m > 7.
ï
ï
î
P(B≥b)=α1, P(B<b)=1–P(B≥b)=1–α1. Итак, критическая точка b выбирается из уравнения P(B<b)=1–α1=F(b). Мы не можем
здесь выбрать, например, α=0,05 и α1=α2=0,025, так как таких
процентных точек нет. Выберем α=0,0156 и α1=α2=0,0078. Тогда
P(B<b)=1–0,0078=0,9922=F(7), т. е. b=7.
Для двустороннего критерия значимости принять или отвергнуть нулевую гипотезу можно, проверив неравенство n–b(α,n,0,5) <
372
< B<b(α,n,0,5). В нашем случае это равносильно неравенству
7–7=0<B<7. Так как B=1, то гипотеза H0 принимается на уровне
значимости α=0,0156. Видно, что b(0,0625; 7; 0,5)=6. Следовательно, наименьший уровень значимости, на котором мы могли бы отвергнуть гипотезу H0 в пользу H1: θ≠14 см/с равен 0,1250.
Построим теперь соответствующий доверительный интервал.
Для этого надо определить медиану выборки. Построим вариационный ряд z(1)≤z(2)≤…≤z(7). Для данного примера вариационный
ряд таков: 12,8; 12,9; 13,3; 13,4; 13,7; 13,8; 14,5. Медиана выбор-
énù
ìï
ê ú+1
ïï
ê ú
ïï
z ë 2 û , n - íå÷åòíîå,

 ïï
énù
4
énù ö
ки равна θ = í æç éê n ùú
В нашем случае ê ú = 3, θ = z( ) = 1
÷
ê
ú+
1
ê
ú
ïï1 ç ê 2 ú
÷
2
ë û
ëê 2 ûú ÷÷, n - ÷åòíîå.
ç ë û
ïï 2 ççz + z
÷÷
ï
ç
÷
ïï çè
÷ø
î

énù
ê ú = 3, θ = z(4) = 13,4. Доверительный интервал для медианы определяетêë 2 úû

Ñ
n+1-Ñα )
ся как θíèæí. < θ < θâåðõí., θíèæí. = z( α ), θâåðõí. = z(
, P(Cα ≤
≤ B≤n–Cα)=1–α. Действительно, последнее равенство P(Cα≤B≤n–
Cα)=1–α определяет нахождение с заданной вероятностью случайной величины, распределенной биномиально в доверительном
интервале, включая границы. Вспоминая формулу, определяющую границы двустороннего критерия для B, видим что n–b(α1;
n; 0,5)<B<b(α2; n; 0,5), α=α1+α2. Прибавляя единицу в правую и
левую части неравенства для превращения его в равенство, имеем
n–b(α1; n; 0,5)+1=Cα, т. е. n–Cα+1=b(α1; n; 0,5). В нашем случае
Cα=7–7+1=1; α=0,0156; n+1–Cα=7+1–1=7.
Ñ
7
1
(n+1-Ñα )
=z
= z( ) = 14,5
Итак, θ
= z( α ) = z( ) = 12,8; θ
íèæí.
âåðõí.
с уровнем значимости α=0,0156. Если взять, например, α=0,1250,


2
6
то Cα=7–6+1=2 и z( ) < θ < z( ), т. е. 12,9 < θ < 13,8.
Несколько замечаний о свойствах критерия знаков. Асимптотическая эффективность одновыборочных непараметрических методов, основанных на статистике знаков B, по отношению к их соперникам из нормальной теории, основанным на средней z =
1 n
å zi ,
n i=1
выражается величиной Iα(F). Она никогда не бывает меньше 1/3 и
может быть бесконечно большой. Например (см. табл. 10.3):
373
Таблица 10.3
Распределение F
Iα(F)
Нормальное
0,637
Равномерное
0,333
Двустороннее экспоненциальное
2,000
§ 10.4. Ранговый критерий
(одновыборочный критерий Вилкоксона)
Рассмотрим анализ повторных парных наблюдений с помощью
знаковых рангов. В этом случае, как и в предыдущем, проверяется
гипотеза о сдвиге. Предположения аналогичны, сделанным в § 10.2.
Пусть мы имеем 2n наблюдений, по два наблюдения на каждый
из n объектов. Обозначим zi=yi–xi и примем модель zi=θ+εi, i=1,
2,…, n, где все εi взаимно независимы и извлечены из непрерывной
совокупности (не обязательно одной и той же), которая симметрична относительно нуля.
Основная гипотеза H0: θ=0, которая может быть сформулирована и в терминах функции распределения. Ведь, если сдвига нет,
то F1(x)≡F2(y), иначе либо F1(x)>F2(y), либо F1(x)<F2(y). Итак, H0:
F1(x)≡F2(y) – аналогичная по смыслу формулировка основной гипотезы. Последовательность действий при проверке этой гипотезы
такова.
1. Составим из данных двух выборок общий вариационный ряд
из абсолютных значений наблюдений. Каждому члену вариационного ряда припишем ранг Ri, равный порядковому номеру члена в
общем вариационном ряду |z1|, |z2|,…, |z2n|.
ì
ï1, zi > 0,
2. Определим переменную – счетчик ψ i , i = 1,2n, ψ i = ï
í
ï
ï
î0, zi < 0,
ri=ψiRi.
3. Выпишем статистику рангового критерия
2n
2n
i=1
i=1
T + = å ψ i Ri = å ri . (10.4.1)
Статистика T+ равна сумме положительных знаковых рангов.
Рациональность предложенной процедуры состоит в том, что если
одно распределение смещено относительно другого, то это должно
проявиться в том, что маленькие ранги должны в основном соот374
ветствовать одной выборке, а большие – другой, вследствие чего
соответствующие суммы рангов должны быть маленькими или
большими в зависимости от того, какая альтернатива имеет место.
Естественно ожидать, что при нулевой гипотезе о симметричности
распределения относительно нуля любой ранг может с одинаковым
успехом получить как знак «+», так и знак «–», в силу чего существует 2n разных последовательностей рангов. Кроме того, если нулевая
гипотеза справедлива, то в полученной последовательности рангов
со знаками количество рангов со знаком «+» не должно значимо отличаться от количества рангов со знаком «–». Напротив, если гипотеза H1 имеет место, то должно наблюдаться значимое превышение
количества рангов со знаком «+» над количеством рангов со знаком
«–», что подсказывает выбрать в качестве статистики критерия величину T+, равную сумме рангов со знаком «+». p-значение критерия, построенного на статистике T+, равно вероятности того, что
сумма рангов T+ примет значение, не меньшее наблюденной суммы.
Рассмотрим простейший пример при n=3. Обозначим через
n
B число положительных наблюдений, т. е. B = å ψ i , а ri=ψiRi.
i=1
Вероятность элементарного исхода в этой схеме 1 n . Непосред2
ственный подсчет вероятностей типа P(T+=m) в этой схеме, похожей
на схему случаев, затруднителен. Поэтому пользуются специальными таблицами или нормальной аппроксимацией. Из приведенной
1 1 1
таблицы, например, P T + ³ 5 = P T + = 5 + P T + = 6 = + = .
8 8 4
(
)
(
) (
)
Таблица 10.4
B
r1, r2,…, rB
P(r1, r2,…, rB)
n
T + = å ri
i=1
0
нет
1/8
0
1
r1=1
1/8
1
1
r1=2
1/8
2
1
r1=3
1/8
3
2
r1=1, r2=2
1/8
3
2
r1=1, r2=3
1/8
4
2
r1=2, r3=3
1/8
5
3
r1=1, r2=2, r3=3
1/8
6
375
Путем довольно несложных вычислений можно получить
( )
M T+ =
n(n + 1)
4
( )
, D T+ =
T+ -
поэтому статистика T* =
n(n + 1)(2n + 1)
24
n(n + 1)
4
1
,
(10.4.2)
Î N (0,1) при n→∞ и если
é n(n + 1)(2n + 1)ù 2
ê
ú
ê
ú
24
ë
û
среди случайных величин |z1|, |z2|,…, |zn| не было совпадений. При
наличии t совпадений ранги Rj+1, Rj+2,…, Rj+t совпавших наблюдений следует заменить их средним арифметическим. При такой
замене сумма рангов остается без изменений, а следовательно, и
первая формула (10.4.2). Сумма же квадратов рангов уменьшится
при этом на величину 112(t -1)t(t + 1). Учитывая это, получаем,
что в случае наличия t совпадений
( )
D T+ =
n(n + 1)(2n + 1)
24
-
(t -1)t(t + 1)
48
.
(10.4.3)
Сформулируем теперь три вида критериев.
1. Для одностороннего критерия H0: θ=0 против альтернативы
H1: θ>0 при уровне значимости α:
отклонить H0, если T+≥t(α, n),
принять H0, если T+<t(α, n), где P(T+≥t(α, n))=α, т. е. t(α,n) –
a%-ная критическая точка T+ – распределения (вероятность верхнего хвоста распределения статистики знаковых рангов Вилкоксона).
2. Для H0: θ=0 против H1: θ<0:
отклонить H0, если T + £
принять H0, если T + >
n(n + 1)
2
n(n + 1)
2
- t(α,n),
- t(α,n), где
n(n + 1)
2
= max T + .
3. Для двустороннего критерия H0: θ=0 против альтернативы
H1: θ≠0 при уровне значимости α:
ìï
T + ³ t(α2 ,n),
ïï
ï
отклонить H0, если í
ïïT + £ n(n + 1) - t(α ,n),
1
ïïî
2
376
принять H0, если
n(n + 1)
- t(α1,n) < T + < t (α2 ,n), α = α1 + α2 .
2
Если пользоваться нормальной аппроксимацией, то, например,
правосторонний критерий выглядит так:
отклонить H0, если T+≥zα,
принять H0, если T+<zα, где zα–a%-ная точка стандартного нормального распределения.
Для проверки гипотезы H0: θ=θ0, где θ0 – заданное число, неравное нулю, получаем модифицированные наблюдения zi¢ = zi - θ0 и
далее вычисляем T+, используя zi¢ вместо zi. Таким образом, описанная процедура может быть применена к данным одной выборки.
Пример. Семь наблюдений (см. табл. 10.5) представляют собой
семь усредненных значений – измерений θ – отношения массы
Земли к массе Луны, полученные семью различными космическими кораблями. На основании данных, ранее полученных с космического корабля «Рейнджер», специалисты считали θ равным
81,3035. Проверить гипотезу H0: θ=81,3035 против альтернативы
H1: θ≠81,3035.
Решение
Модифицируем наблюдения zi (см. табл. 10.6).
n
Поэтому T + = å Ri ψ i = 0, так как все ψi=0. Следовательно, ранi=1
ги можно не считать. Приведем выписку из табл. 10.7 распределения T+ – статистики. Видно, что если выбрать α=α1+α2=0,078;
то t(0,039; 7)=25, α1+α2=0,039. В табл. даны значения P(T+≥x)=α
(табл. 10.7 взята из книги [18]).
Таблица 10. 5
Космический
корабль
θ
Маринер-4
(Венера)
Маринер-4
(Марс)
Маринер-5
(Венера)
Маринер-6
(Марс)
Маринер-7
(Марс)
Пионер-6 Пионер-7
81,3001 81,3015 81,3006 81,3011 81,2997 81,3005 81,3021
Таблица 10.6
i
zi
1
2
3
4
5
6
7
81,3001 81,3015 81,3006 81,3011 81,2997 81,3005 81,3021
zi¢ = zi - 81,3035 –0,0034 –0,0020 –0,0029 –0,0024 –0,0038 –0,0030 –0,0014
ψi
0
0
0
0
0
0
0
377
Таблица 10.7
x
α
x
α
15
0,469
22
0,109
16
0,406
23
0,078
17
0,344
24
0,055
18
0,289
25
0,039
19
0,234
26
0,023
20
0,188
27
0,016
21
0,148
28
0,008
Поскольку критерий двусторонний, то процедура проверки нулевой гипотезы изложена в п. 3.
ìï
T + ³ t(α2 ,n),
ïï
отклонить H0, если ï
í + n(n + 1)
ïïT £
- t(α1,n).
ïïî
2
n(n + 1)
56
- 25 = 3, T + = 0 < 3, т. е. ги2
2
потеза H0: θ=81,3035 отклоняется на уровне значимости α=0,078. 0 - (7 × 8)
4
Воспользуемся теперь нормальной аппроксимацией T* =
7 × 8 ×15)
(
(7 × 8)
2
04 = -2,366. При уровне значимости α = 0,0091 z = -2,36;
T* =
1
α1
(7 × 8 ×15)
24
В нашем случае
- t(α,n) =
,0091 zα1 = -2,36; т. е. наименьший уровень значимости, при котором отвергается H0, равен α=α1+α2=0,018. Если же взять α1=0,039; то
z0,039=–1,76. Так как T*<z0,039; т. е. T* попадает в критическую область на левом хвосте нормального распределения, то гипотеза H0
отклоняется.
Доверительный интервал, основанный на статистике рангов,
строится несколько сложнее. Для этого вводятся дополнительные
статистики Wi =
стик M =
n(n + 1)
(zi + zj )
2
для всех i, j = 1,n. Число этих стати-
2 . Далее строится вариационный ряд из этих статистик, и именно по нему находится оценка медианы стандартным
способом. Проделаем эту процедуру. M =
(7 × 8) = 28. Каждая вто2
рая строка следующей таблицы (табл. 10.8) содержит статистику
Wi =
378
(zi + zj )
2 для соответствующих значений индексов i и j.
Таблица 10.8
i=1, j=1
81,3001
i=1, j=2 i=1, j=3 i=1, j=4 i=1, j=5
81,3008 81,3035 81,3006 81,2999
i=2, j=2 i=2, j=3 i=2, j=4 i=2, j=5
81,3015 81,30105 81,3013 81,3006
i=3, j=3 i=3, j=4 i=3, j=5
81,3006 81,30085 81,30015
i=4, j=4 i=4, j=5
81,3011 81,3004
i=5, j=5
81,2997
i=1, j=6
81,3003
i=2, j=6
81,3010
i=3, j=6
81,30055
i=4, j=6
81,3008
i=5, j=6
81,3001
i=6, j=6
81,3005
i=1, j=7
81,3011
i=2, j=7
81,3018
i=3, j=7
81,30135
i=4, j=7
81,3016
i=5, j=7
81,3009
i=6, j=7
81,3013
i=7, j=7
81,3021
Составим из полученных статистик Wi вариационный ряд (см.
табл. 10.9).
 1 é 14
énù
15 ù 1
Здесь n = 28, ê ú = 14, так как n – четное, то θ = êW ( ) + W ( ) ú = (81,3008
êë 2 úû
2ë
û 2
4)
(15) ù 1
+W
ú = (81,3008 + 81,3008) = 81,3008. Далее идут стандартные дейû 2
ствия, т. е. действия, аналогичные тем, какие производились при
построении доверительного интервала по критерию знаков.
æ
é n(n + 1)
ù ö÷
ç
– доверительный интер- Cα ú÷
Pθ ççCα £ θ £ êê
ú÷÷÷ = 1 - α
çè
2
êë
úû ø
C
M +1-Cα )
вал для медианы и θíèæí. = W ( α ), θâåðõí. = W (
, причем
æα ö
M + 1 - Cα = tçç ,n÷÷÷. Если оставить то же α=0,078; то t(0,039;7)=25
çè 2 ø
æα ö
Cα = M + 1 - tçç ,n÷÷÷ = 28 + 1 - 25 = 4, M + 1 - Cα = 28 + 1 - 4 = 25,
и
çè 2 ø
т. е. W(4)≤θ≤W(5) или 81,3001≤θ≤81,3015. Это (1–0,078)∙100% – доверительный интервал.
Таблица 10.9
81,2997
81,3004
81,3008
81,3013
81,2999 81,3001
81,3005 81,30055
81,30085 81,3009
81,3013 81,30135
81,3001
81,3006
81,3010
81,3015
81,30015
81,3006
81,30105
81,3016
81,3003
81,3006
81,3011
81,3018
81,30035
81,3008
81,3011
81,3021
379
§ 10.5. Двухвыборочный ранговый критерий Вилкоксона
Этот критерий предназначен для проверки нулевой гипотезы
H0, согласно которой двум независимым выборкам объемов n и m
отвечают одинаковые функции распределения F1(x)≡F2(y), против
односторонней альтернативы H1, по которой либо F1(x)<F2(y), либо
F1(x)>F2(y), или против двусторонней альтернативы F1(x)≠F2(y).
Нулевая гипотеза может быть сформулирована в терминах сдвига одной выборки относительно другой, так же как в предыдущем
параграфе. При проверке нулевой гипотезы следует выполнить
следующие действия.
1. Расположить выборочные значения обеих выборок в порядке
возрастания, т. е. образовать общий вариационный ряд, и каждой
величине из этого ряда сопоставить ее ранг Ri, равный порядковому
номеру величины в общем вариационном ряду. Заметим, что если H0
справедлива, то любое распределение по этим двум выборкам равновероятно, а общее число способов группирования рангов равно Cnm+m .
2. В качестве статистики критерия берут сумму рангов W одной
m
(например, второй) выборки, т. е. W = å Rj . (10.5.1)
j=1
3. Подсчитываются все различные способы группирования
рангов, при которых статистика W принимает значения, равные
или меньшие наблюденного, после чего вычисляется отношение
этого числа к общему числу возможных распределений рангов по
двум выборкам Cnm+m . Полученное отношение дает одностороннее
p-значение критерия.
При малых значениях n и m относительно легко вычислить
p-значение, но для выборок большого объема строят приближенный
критерий, основанный на асимптотическом распределении стаm(n + m + 1)
nm(n + m + 1)
тистики W. Именно M (W ) =
, D (W ) =
.
2
12
m(n + m + 1)
WW
M
W
(
)
2
Тогда статистика W * =
=
Î N (0,1) при
1
D (W )
é nm(n + m + 1)ù 2
ê
ú
ê
ú
12
ë
û
n, m→∞.
Это приближение не дает хорошей точности при n, m≤50. По
этой причине следует пользоваться аппроксимацией Имана [19]:
380
é
ê æ
ê
ç
*
W ê çç
n + m -2
J=
1
+
ê ç
2 ê ççç
*
ê çè n + m -1 - W
ê
êë
1ù
ö÷2 ú
÷÷ úú
÷÷ ú ,
2 ÷÷ ú ÷ ú
÷ø
ú
úû
( )
(10.5.2)
1
1
a%-ные точки для которой равны Jα,n+m-2 = zα + tα,n+m-2 .
2
2
Здесь zα – a%-ная точка стандартного нормального распределения,
tα,n+m–2 – a%-ная точка распределения Стьюдента с n+m–2 степенями свободы.
Если среди наблюдений есть одинаковые, то надо работать со
средними рангами. В этом случае при использовании нормальной
аппроксимации в формулу (10.5.2) должна быть введена поправка.
Эта поправка, как показано в § 10.4, изменит только оценку дисперсии статистик W или J.
При наличии t совпадений формула для D(W) имеет следующий
вид:
g
é
ù
2
ê
ú
t
t
1
å
j
j
ê
ú
ú
nm ê
j=1
D (W ) =
ên + m + 1 ú, 12 ê
n + m)(n + m -1)ú
(
ê
ú
ê
ú
êë
úû
(
)
(10.5.3)
где g – число групп совпадений, tj – объем j-й группы. В формуле
(10.5.3), если наблюдение не совпадает ни с каким другим, оно
рассматривается как отдельная группа. Поэтому если в ранжировке нет совпадений, то g=n+m, tj=1, j=1, 2,…, n+m, и правая часть
nm(n + m + 1)
(10.5.3) сводится к
.
12
Три основных вида критериев значимости для данного критерия
можно сформулировать в следующей форме.
1. Для одностороннего критерия H0: F1(x)≡F2(y) против альтернативы H1: F1(x)<F2(y) на уровне значимости α:
отклонить H0, если W≥w(α, m, n);
принять H0, если W<w(α, m, n), где константа w(α, m, n) удовлетворяет условию P[W≥w(α, m, n)]=α. Значения w(α, m, n) табулированы. Обширные таблицы критических точек распределения
статистики W опубликованы в [20].
381
2. Для одностороннего критерия H0: F1(x)≡F2(y) против альтернативы H1: F1(x)>F2(y):
отклонить H0, если W≤m∙(n+m+1)–w(α, m, n);
принять H0, если W>m∙(n+m+1)–w(α, m, n).
3. Для двустороннего критерия H0: F1(x)≡F2(y) против альтернативы H1: F1(x)≠F2(y):
ì
ï
W ³ w(α2 ,m,n) èëè
отклонить H0, если ïí
ï
ï
îW £ m(n + m + 1) - w(α1,m,n),
принять H0 если m∙(n+m+1)–w(α1, m, n)<W< w(α2, m, n),
α=α1+α2.
Пример. В биохимическом исследовании, проведенном методом
меченых атомов, по результатам изучения 8 препаратов опытной
серии и 5 препаратов контрольной серии получены следующие показания счетчика импульсов (в импульсах в минуту, табл. 10.10):
Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять α=0,1.
Решение
Составим вариационный ряд, отмечая принадлежность элемента к контрольной серии чертой снизу (см. табл. 10.11).
5
W = å Rj = 1 + 3 + 5,5 + 5,5 + 8 = 23. Имеется одна группа совпаj=1
дений, т. е. g=1, t1=2. Тогда
M (W ) =
D (W ) =
5(5 + 8 + 1)
2
= 35,
ù
2(4 -1)
5 × 8 éê
ú = 46,538.
5 + 8 +1ê
12 ëê
(5 + 8)(5 + 8 -1)úûú
Таблица 10.10
Опыт
Контроль
340
318
343
321
322
318
349
301
332
312
320
–
313
–
304
–
Таблица 10.11
Элемент 301 304 312 313 318 318 320 321 322 332 340 343 349
Ранг
1
2
3
4 5.5 5.5 7
8
9
10 11 12 13
382
Воспользуемся аппроксимацией Имана, так как n и m малы. При
1ù
é
ê æ
ö÷2 ú
-1,759 ê çç
23 - 35
5 + 8 -2
÷ ú
этом W * =
ê1 + ç
=-1,759; J =
÷÷÷ úú =
ç
2
ê
2
46,538
ê çè 5 + 8 -1-(-1,759) ÷ø ú
êë
úû
=-1,857. По таблицам нормального распределения и распределения Стьюдента находим: z0,1=1,280; t0,1;11=1,363. Тогда
1
(zα + tα,n+m-2 ) = 1,322.
2
Так как при упорядочении двух выборок, все наблюдения второй
оказались сильно сдвинуты в начало общего вариационного ряда,
проверим:
H0: F1(x)≡F2(y) против альтернативы;
H1: F1(x)>F2(y).
Таким образом, выбран левосторонний критерий значимости.
Учитывая симметричность нормального распределения и распределения Стьюдента, получим J0,1;11=–1,322. Тогда J=–1,857<J0,1;11
и, следовательно, J∈w. Таким образом, нулевая гипотеза H0 должна быть отвергнута с уровнем значимости α=0,1; т. е. полученные
значения показаний счетчиков в опытной и контрольной партиях
различны.
§ 10.6. Лабораторная работа № 10.
Критерии знаков и рангов в пакете Mathcad
Одно из главных достоинств критерия знаков – его простота и
очень скромные требования к первоначальному статистическому
материалу. Критерий знаков чаще всего используется для проверки гипотезы об однородности наблюдений внутри каждой пары
в парных выборках, однако его можно применять и к одномерной
выборке для проверки гипотезы о положении медианы H0: θ=θ0.
Запрограммируем критерии знаков и рангов в пакете Mathcad.
Пусть нам дана парная выборка объёмом n=9. Все формулы § 10.2
запрограммированы в подпрограмме-функции znakB, формулы
§ 10.4 реализованы в подпрограмме-функции rangT. Текст этих
программ следует ниже.
ORIGIN:=1
alf:=0.05
n:=9
383
 76

 71
 57
 49

x :=  70
 69

 26
 65

 59













 81

 85
 52
 52

y :=  70
 63

 33
 83

 62













Подпрограмма str(x) уже использовалась в предыдущих лабораторных работах. Она упорядочивает исходный массив х по возрастанию элементов, т. е. получает вариационный ряд.
n
Подпрограмма znakB подсчитывает статистику B = å ψ i по
i=1
формулам §10.2. Аналогично подпрограмма rangT вычисляет ста2n
тистику T + = å ψ i Ri и её простейшую нормальную аппроксимаi=1
цию по формулам § 10.4.
str ( x) :=
n ← rows ( x)
l ← cols ( x)
if l
2
for j ∈ i + 1 ..
n
return
x
for i ∈ 1 ..
n−1
a ← xi
if xj < xi
xi ← xj
x
384
xj ← a
385
Далее следует текст основной программы.
a:=znakB(x,y,alf)
a="Гипотеза Н0 принимается"
b:=rangT(x,y,alf)
b="Гипотеза Н0 отвергается"
Задание 1. Решить следующие задачи с помощью критерия
знаков и одновыборочного рангового критерия Вилкоксона. Везде
принять α=0,05. Номер вашего варианта совпадает с номером вашей фамилии в журнале преподавателя.
386
1. Предполагается, что один из двух приборов, определяющих
скорость автомобиля, имеет систематическую ошибку. Для проверки этого предположения определили скорость 10 автомобилей,
причем скорость каждого фиксировалась одновременно двумя приборами. В результате получены следующие данные:
V1 км/ч
70
85
63
54
65
80
75
95
52
55
V2 км/ч
72
86
62
55
63
80
78
90
53
57
Позволяют ли эти результаты утверждать, что второй прибор
действительно дает завышенные значения скорости?
2. Приводится время (в секундах) решения контрольных задач
одиннадцатью учащимися до и после специальных упражнений по
устному счету. Можно ли считать, что эти упражнения улучшили
способности учащихся в решении задач?
До упражнений
87
После упражнений 50
61
45
98
79
90
90
93
88
74
65
83
52
72
79
81
84
75 83
61 52
3. Для 10 человек была предложена специальная диета. После
двухнедельного питания по этой диете масса их тела изменилась
следующим образом:
Масса до диеты (кг)
Масса после диеты (кг)
68
60
80
84
92
87
81
79
70
74
79
71
78
72
66
67
57
57
76
60
Можно ли рекомендовать эту диету для людей, желающих похудеть?
4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из половин листа натиралась соответствующим препаратом. Число мест приводится в таблице.
Экстракт А
Экстракт В
20
31
39
22
43
45
13
6
28
21
26
13
17
17
49
46
36
31
Можно ли считать, что действие этих экстрактов различно?
5. Изучалось влияние чёрного и апрельского пара на урожай
ржи. Опыт длился шесть лет. Учитывалась масса 1000 зерен в граммах. Результаты опыта следующие:
Год посева
1
2
3
По черному пару
31,1
24,0
24,6
По апрельскому пару
31,6
24,2
24,8
4
5
6
28,6
29,1
30,1
19,1
29,9
31,0
Можно ли считать, что урожай ржи по апрельскому пару значимо выше, чем по чёрному?
387
6. Проверить предположение о том, что предлагаемый лечебный
препарат не меняет состав крови, если препарат испытывался на
десяти особях, а текущий анализ крови дал следующие результаты: 0,97; 1,05; 1,09; 0,88; 1,01; 1,14; 1,03; 1,07; 0,94; 1,02. Числа
выражают отношение числа лейкоцитов в опыте к числу лейкоцитов в норме.
7. Изменение урожайности при применении одного из видов
предпосевной обработки семян характеризуется следующими данными (в центнерах с гектара):
Год
1972 1973 1974 1975 1976 1977 1978 1979 1980
Необработанные
20,0 17,9 20,6 22,0 21,4 23,8 21,4 19,8 18,4
семена
Обработанные
22,1 18,5 19,4 22,1 21,7 24,9 21,6 20,3 18,3
семена
Можно ли считать, что предпосевная обработка увеличивает
урожайность?
8. Измерялось напряжение пробоя у диодов, отобранных случайным образом из двух партий. Результаты измерения (в вольтах)
следующие:
1-я партия
2-я партия
39
60
50
53
61
42
67
41
40
40
40
54
54
63
Можно ли считать, что у диодов из второй партии напряжение
пробоя выше, чем у диодов из первой партии?
9. Двум группам испытуемых предлагалось провести опознание
трех начертаний цифры 5. Результаты эксперимента (в секундах)
следующие:
1-я группа
2-я группа
25
18
28
19
27
31
29
32
26
17
24
15
28
41
23
35
30
38
25
13
26
14
Можно ли считать, что время опознания для первой и второй
групп различны?
10. В течение некоторого времени суточная производительность
двух автоматов характеризуется следующими данными:
1-й автомат 105
2-й автомат 172
60
45
83
51
111
155
138
117
71
103
87
82
130
93
93
31
105
51
Можно ли считать, что суточная производительность этих двух
автоматов различна?
11. Контролируемый размер нескольких деталей был проверен
до и после наладки станка. В результате получены следующие данные (в мм):
388
До наладки
36,4
После наладки 36,8
37,5
39,2
36,9
37,6
37,6
39,9
38,1
39,6
35,5
34,2
37,8
36,5
38,3
36,3
36,6
39,8
Изменилась ли измеряемая величина контролируемого размера
после наладки станка?
12. Для контроля настройки двух станков-автоматов, производящих детали по одному чертежу, определили отклонения от номинальных размеров у нескольких деталей, изготовленных на обоих
станках. В результате получили следующие данные (в мкм):
Станок А
Станок В
44
52
–14
–49
32
61
8 –50
–35 –48
20
18
–35
–45
15
35
10
28
–8
21
–20 5
–59 –19
Различно ли отклонение от номинальных размеров у этих двух
станков-автоматов?
13. Изучалось влияние пищевой добавки на увеличение массы
тела кроликов. Опыт длился 7 недель. Исходная масса особей находилась в пределах от 500 до 600 грамм. За время опыта у животных
наблюдались следующие прибавки в весе (за одну неделю):
Контрольные
Опытные
560
692
580
700
600
621
420
640
530
561
490
680
580
630
Можно ли утверждать, что пищевая добавка дает прибавку массы тела?
14. По выборкам из двух партий микросхем после операции легирования поликремния измерялось удельное сопротивление. Результаты замеров следующие:
52,2 33
76 32,5 49,5 32,5 191,5 112,5 52,9 114,8
33,7 69,1
119 17,5 43,5 43,5 90,5 40
50
108 62,4 16,5
2-я партия
97,5 96
1-я партия
Одинаково ли удельное сопротивление в обеих партиях?
15. У двух партий приборов измерялась глубина слоя диффузии
(в мкм) после напыления рабочей поверхности. Можно ли считать,
что глубина слоя диффузии у приборов из обеих партий различна?
1-я партия 9,8 9,8 8,6 8,6 9,2 9,2 9,8
2-я партия 8,6 9,2 10,4 9 9,8 9,2 9,6
9
10
10 9,4 9 11,2 10,8
9,8 9 9,8 8,7 8,6
16. Длина тела личинок щелкуна, обитающих в посевах ржи и
проса (в мм), варьируется следующим образом:
В посевах ржи
В посевах проса
7
11
10
12
14
16
15
13
12
18
16
15
12
13
389
На основании этих проб создается впечатление о более крупных
размерах личинок щелкунов, обитающих в просе. Проверить это
предположение.
17. У полевых транзисторов измерялась характеристика: емкость затвор-сток. Увеличилась ли величина емкости затвор-сток
у транзисторов, изготовленных по технологии В, если измерения
дали следующие результаты (в пикофарадах):
Технология А
Технология В
2,8
3,8
3,0
3,4
3,1
3,6
3,2
2,9
3,3
2,8
3,4
3,0
3,7
3,4
2,9
3,0
18. У приборов двух партий, изготовленных с применением различной технологии, измерялось дифференциальное сопротивление
канала Ri. Результаты измерений (в микроомах) следующие:
Технология А
Технология В
0,01
0,15
0,02
0,07
0,12
0,25
0,30
0,15
0,29
0,22
0,15
0,18
0,21
0,18
Влияет ли технология изготовления на величину дифференциального сопротивления канала Ri?
19. В следующей табл. приведено время работы (в сотнях часов)
электронных ламп А и В до выхода из строя.
А
В
32
39
34
48
35
54
37
65
42
70
43
76
47
87
58
90
59
62
69
71
111 118 126 127
Проверить гипотезу о различии среднего времени работы ламп
этих двух типов.
20. Приведены результаты двух серий измерений, полученных
при производстве азотной кислоты путем окисления аммиака кислородом воздуха:
Метод А
Метод В
95,6
93,3
94,9
92,1
96,2
94,7
95,1
90,1
95,8
95,6
96,3
90,0
92,1
94,7
95,3
95,2
94,0
93,7
Проверить гипотезу о принадлежности наблюдений к общей генеральной совокупности.
21. Данные следующей таблицы основаны на наблюдениях девяти пациентов, принимавших транквилизатор, и представляют
степень депрессии, измеренной по специальной шкале. Значения
x относятся к первому визиту пациента к врачу, значения y к моменту окончания лечения. Приводит ли прием транквилизатора к
улучшению состояния пациентов?
xi
1,83
0,50
1,62
2,48
1,68
1,88
1,55
3,06
1,30
yi
0,88
0,65
0,60
2,05
1,06
1,29
1,06
3,14
1,29
390
22. Приведено содержание хрома (в весовых процентах) в образцах нержавеющей стали: 17,4; 17,9; 17,6; 18,1; 17,6; 18,9; 16,9;
17,5; 17,8; 17,4; 24,6; 26,0. Проверить гипотезу о том, что медиана
процента хрома в стали равна 18% против альтернативы, что она
не равна 18%.
23. Приведено содержание окислителя (zi) в воде для орошения,
измеряемое в миллионных долях озона: 0,32; 0,21; 0,28; 0,15; 0,08;
0,22; 0,17; 0,35; 0,20; 0,31; 0,17; 0,11. Проверить гипотезу о том,
что медиана содержания окислителя равна 0,25; против альтернативы, что она меньше 0,25.
24. В следующей табл. представлены данные, относящиеся к
методу прямого определения железистой сыворотки, полученные
двумя способами (микрограмм/100 мл):
1-й способ
2-й способ
1-й способ
2-й способ
111
107
101
96
107
108
96
108
100
106
97
103
99
98
102
104
102
105
107
114
106
103
113
114
109
110
116
113
108
105
113
108
104
104
110
106
99
100
98
99
Проверить нулевую гипотезу о том, что обе выборки извлечены
из одной генеральной совокупности.
25. На двух аналитических весах, в одном и том же порядке,
взвешены десять проб химического вещества и получены следующие результаты взвешивания (в мг):
1-е весы
2-е весы
25
28
30
31
28
26
50
52
20
24
40
36
32
33
36
35
42
45
38
40
Проверить значимо или незначимо различаются результаты
взвешиваний на аналитических весах.
26. Две лаборатории одним и тем же методом, в одном и том же порядке, определяли содержание углерода в тринадцати пробах нелегированной стали. Получены следующие результаты анализа (в %):
0,18
0,14
0,16
2-я лаборатория
0,11
1-я лаборатория
0,12 0,12 0,08 0,08 0,12 0,19 0,32 0,27 0,22 0,34
0,46
0,09 0,08 0,05 0,13 0,10 0,14 0,30 0,31 0,24 0,28
0,42
Различаются ли средние результаты анализа у обеих лабораторий?
27. Химическая лаборатория произвела анализ восьми проб двумя
методами. Получены следующие результаты (в условных единицах):
1-й метод
2-й метод
15
15
20
22
16
14
22
25
24
29
14
16
18
20
20
24
391
Установить, значимо или незначимо различаются средние результаты анализа этими двумя методами.
28. Физическая подготовка девяти спортсменов была проверена
при поступлении в спортивную школу, а затем после недели тренировки. Итоги проверки в баллах оказались следующими:
При поступлении
76
После недельной тренировки 81
71
85
57
52
49
52
70
70
69
63
26
33
65
83
59
62
Улучшилась или нет физическая подготовка спортсменов после
недельной тренировки?
29. Измерительным прибором, практически не имеющим систематической ошибки, было сделано восемь независимых измерений
некоторой величины. Результаты измерений таковы: 2504, 2486,
2525, 2495, 2515, 2528, 2492, 2494. Проверить гипотезу о том, что
медиана результатов измерений равна 2500, против альтернативы,
что она больше 2500.
30. При измерении угла теодолитом получены следующие результаты: 2040 ¢20 ¢¢, 2040 ¢34 ¢¢, 2040 ¢42¢¢, 2040 ¢28 ¢¢, 2040 ¢34 ¢¢,
2040 ¢27 ¢¢, 2040 ¢25¢¢, 2040 ¢¢32¢¢, 2040 ¢46 ¢¢. Проверить гипотезу,
что медиана измерений равна 2040 ¢30 ¢¢, против альтернативы, что
она не равна этому значению.
§ 10.7. Лабораторная работа № 10.
Критерии знаков и рангов в пакете Matlab
Функции, используемые в основной программе:
а)
function B=znakB(x,y,alf)
%Функция znakB реализует критерий знаков по парной выборке
%x, y. Здесь alf-задаваемый уроверь значимости основной гипо%тезы вида Н0:F(x)=F0(x).
[k,k1]=size(x);
for i=1:k
z(i)=x(i)-y(i);
end;
B=0;
k2=0;
for i=1:k
if z(i)>0
392
B=B+1;
end;
if abs(z(i))<10^-5
k2=k2+1;
end;
end;
p=0.5;
alf1=alf/2;
bet=1-alf1;
n=k-k2;
b=binoinv(bet,n,p);
b1=binoinv(alf1,n,p);
if ((B>b1)&(B<b))
disp(‘гипотеза Н0 принимается с уровнем значимости alf’)
else
disp(‘гипотеза Н0 отвергается с уровнем значимости alf’)
end;
end
б)
function T=rangT(x,y,alf)
%Функция rangT реализует ранговый критерий (одновыборочный
%критерий Вилькоксона) по исходным выборкам парных наблюде%ний х и у. alf-задаваемый уровень значимости основной гипо%тезы об однородности исходных данных Н0:F(x)=F0(x).
[n,n1]=size(x);
n1=n*2;
for i=1:n
z(i)=abs(x(i));
psi(i)=x(i);
z(i+n)=abs(y(i));
psi(i+n)=y(i);
end;
z=sort(z);
%Получен вариационный ряд из модулей наблюдений двух выбо%рок х и у.
for i=1:n1
for j=1:n1
a=psi(i);
if abs(z(i)-abs(psi(i)))<10^-5
393
psi(i)=psi(j);
psi(j)=a;
continue;
end;
end;
end;
T=0;
for i=1:n1
z(i)=i;
if psi(i)<0
psi(i)=0;
else
psi(i)=1;
end;
T=T+psi(i)*z(i);
end;
%Вычислена рабочая статистика критерия.
mT=n1*(n1+1)/4;
DT=mT*(2*n1+1)/6;
T1=(T-mT)/sqrt(DT);
%Вычислена простейшая нормальная аппроксимация
%рабочей статистики критерия.
alf1=alf/2;
bet=1-alf1;
T1left=norminv(alf1,0,1);
T1right=norminv(bet,0,1);
if ((T1>T1left)&(T1<T1right))
disp(‘гипотеза Н0 принимается с уровнем значимости alf’)
else
disp(‘гипотеза Н0 отвергается с уровнем значимости alf’)
end;
end
Далее следует текст основной программы.
>> clear
>> x=[76;71;57;49;70;69;26;65;59];
>> y=[81;85;52;52;70;63;33;83;62];
>> %Расчёт статистики критерия знаков.
>> n=9;
>> alf=0.05;
394
>> B=znakB(x,y,alf)
гипотеза Н0 принимается с уровнем значимости alf
B =
2
%Расчёт статистики рангов.
>> T=rangT(x,y,alf)
гипотеза Н0 отвергается с уровнем значимости alf
T =
171
Задание 2. Решить следующие задачи с помощью критерия знаков и одновыборочного рангового критерия Вилкоксона. Везде принять α=0,10. Варианты заданий приведены на стр. 387–392. Номер
вашего варианта совпадает с номером вашей фамилии в журнале
преподавателя.
§ 10.8. Лабораторная работа № 10.
Критерии знаков и рангов в пакете Scilab
Функции, используемые в основной программе:
function B=znBS(x,y,alf)
//Функция znBS реализует критерий знаков для парной выборки.
//Аналог функции znakB в системе Matlab (см. подпрогр. znakB).
[k,k1]=size(x);
for i=1:k
z(i)=x(i)-y(i);
end;
B=0;
k2=0;
for i=1:k
if z(i)>0 then
B=B+1;
end;
if abs(z(i))<10e-5 then
k2=k2+1;
end;
end;
p=0.5;
q=1-p;
alf1=alf/2;
alf2=1-alf1;
n=k-k2;
b=cdfbin("S",n,p,q,alf1,alf2);
395
bet=alf2;
bet1=1-bet;
b1=cdfbin("S",n,p,q,bet,bet1);
if ((B>b)&(B<b1)) then
disp(‘Гипотеза Н0 принимается с уровнем значимости alf’)
else
disp(‘Гипотеза Н0 отвергается с уровнем значимости alf’)
end;
endfunction
function T=rngTS(x,y,alf)
//Функция rngTS реализует ранговый одновыборочный критерий
//Вилькоксона, являясь аналогом подпрограммы rangT в системе
// Matlab (см. подпрограмму rangT).
[n,n1]=size(x);
for i=1:n
z(i)=abs(x(i));
psi(i)=x(i);
z(i+n)=abs(y(i));
psi(i)=y(i);
end;
//Получен обобщённый ряд из двух выборок и такой
же ряд из
//модулей наблюдений.
z=gsort(z,"g","i");
//Получен вариационный ряд из модулей наблюдений.
for i=1:n1
for j=1:n1
a=psi(i);
if abs(z(i)-abs(psi(j)))<10e-5 then
psi(i)=psi(j);
psi(j)=a;
continue;
end;
end;
end;
//Массив psi упорядочен по элементам массива z.
T=0;
for i=1:n1
z(i)=i;
396
if psi(i)<0 then
psi(i)=0;
else
psi(i)=1;
end;
T=T+psi(i)*z(i);
end;
//Вычислена рабочая статистика критерия.
mT=n1*(n1+1)/4;
DT=mT*(2*n1+1)/6;
T1=(T-mT)/sqrt(DT);
//Вычислена простейшая нормальная аппроксимация
рабочей ста//тистики критерия.
alf1=alf/2;
alf2=1-alf1;
T1left=cdfnor("X",0,1,alf1,alf2);
T1right=cdfnor("X",0,1,alf2,alf1);
if ((T1>T1left)&(T1<T1right)) then
disp(‘Гипотеза Н0 принимается с уровнем значимости alf’)
else
disp(‘Гипотеза Н0 отвергается с уровнем значимости alf’)
end;
endfunction
Далее идёт текст основной программы.
-->clear
-->x=[76;71;57;49;70;69;26;65;59];
-->y=[81;85;52;52;70;63;33;83;62];
-->n=9;
-->alf=0.1;
-->exec(‘C:\Users\Сергей\Documents\labrabS\
znBS.sci’)
//Текст подпрограммы-функции znBS.
-->exec(‘C:\Users\Сергей\Documents\labrabS\
rngTS.sci’)
//Текст подпрограммы-функции rngTS.
-->B=znBS(x,y,alf)
Гипотеза Н0 принимается с уровнем значимости alf
B =
2
397
-->T=rngTS(x,y,alf)
Гипотеза Н0 принимается с уровнем·значимости alf
T =
1
Задание 3. Решить следующие задачи с помощью критерия знаков и одновыборочного рангового критерия Вилкоксона. Везде принять α=0,05. Варианты заданий приведены на стр. 387–392. Номер
вашего варианта совпадает с номером вашей фамилии в журнале
преподавателя.
398
СЛОВАРЬ ИСПОЛЬЗУЕМЫХ ТЕРМИНОВ В ПАКЕТЕ
STATGRAPHICS
Alternative hypothesis – альтернативная гипотеза.
Analysis of variance (ANOVA) – дисперсионный анализ.
Analysis options – процедуры анализа.
Analysis summary – сводка анализа.
Asymptotically confidence interval – асимптотический доверительный интервал.
Asymptotic distribution – асимптотическое распределение.
Asymptotic efficiency – асимптотическая эффективность.
Average – среднее значение.
Average rank – средний ранг.
Backward selection – уменьшение группы переменных в процедуре множественной регрессии.
Box-and-whisker plot – «ящик с усами». График в виде прямоугольника, построенный от сгиба до сгиба и имеющий поперечную
черту на медиане с «усами» до указанных значений.
Central confidence interval – симметричный относительно центра доверительный интервал.
Chi-squared distribution – распределение χ2.
Compare – сравнение данных.
Comparison of alternative models – сравнение альтернативных
моделей.
Confidence interval – доверительный интервал.
Consistent estimator – состоятельная оценка.
Continuous random variable – непрерывная случайная величина.
Contrast – контраст.
Correlation coefficient – коэффициент корреляции.
Count – число наблюдений на данном уровне фактора.
Covariance – ковариация, второй смешанный момент.
Critical region – критическая область.
Cumulative distribution function – интегральная функция распределения.
Degree of freedom – степени свободы.
Density function – функция плотности вероятности.
Density trace – график функции плотности.
Describe – описание данных.
Discrete random variable – дискретная случайная величина.
Dispersion – дисперсия, рассеяние.
Distribution fitting – подбор распределений.
399
Distribution-free test – свободный от распределения критерий.
Empirical distribution function – эмпирическая функция распределения.
Estimator – оценка; статистика, используемая в качестве оценки.
Expectation (of a continuous random variable) – математическое
ожидание (непрерывной случайной величины).
Factor – фактор, обстоятельство.
F-distribution – F-распределение (распределение Фишера).
Fit – аппроксимация.
Fit the model – подбор модели.
Forecasts – предсказания.
Forward selection – увеличение группы переменных в процедуре
множественной регрессии.
Frequency – частота.
Frequency histogram – гистограмма частот.
Greather than (больше чем) – выбор правостороннего критерия
значимости.
Goodness-of-fit-test – критерий согласия.
Gross error – грубая ошибка.
Hazard function – функция риска.
Homogeneous groups – однородные группы.
Hypothesis test – критерий для проверки гипотезы.
Independent variable – независимая случайная величина.
Intercept – свободный член (уравнения регрессии).
Inverse CDF – обратная функция распределения.
Kruskal-Wallis tests – ранговый однофакторный критерий Краскела-Уоллиса.
Kurtosis – коэффициент эксцесса.
Lack-of-fit – неадекватность, рассогласованность.
Less then (меньше чем) – выбор левостороннего критерия значимости.
Level – уровень.
Level of factor – уровень фактора.
Linear regression – линейная регрессия.
Lower – нижний.
Mean (of a sample) – выборочное среднее.
Median – медиана.
Midpoint – середина интервала группировки.
Modify arrangement – задание классификации.
Multiple range test – множественные сравнения.
Multiple regression – множественная регрессия.
400
Multiple variable analysis – анализ многих переменных.
Nonparametric statistical procedure – непараметрический статистический метод.
Normal population – (генеральная) совокупность с нормальным
распределением.
Normal probability plot – график на нормальной вероятностной
бумаге.
Normal probability plot of residuals – нормальный вероятностный график остатков.
Not equal (не равно) – выбор двустороннего критерия значимости.
Null hypothesis – нулевая гипотеза.
Numeric data – числовые данные.
Observed versus predicted – график предсказанных значений.
One-sided test – односторонний критерий.
One-variable analysis – анализ одной переменной.
One-way ANOVA – однофакторный дисперсионный анализ.
Pane options – панель процедур.
Percentile – процентиль.
Plot of fitted model – график подобранной модели.
Point estimator – точечная оценка.
Probability distribution – распределение вероятностей.
Pure error – полная (чистая) ошибка.
Quantile – квантиль.
Random numbers – случайные числа.
Ratio – отношение.
Rejection region – область отклонения ( гипотезы).
Relate – отношения данных.
Relative frequency – относительная частота.
Residual – остаток.
Response – отклик.
Ridge regression – ридж-регрессия или гребневая регрессия.
Sample standard deviation – выборочное среднее квадратическое отклонение.
Sample variance – выборочная дисперсия.
Scatterplot – диаграмма рассеивания.
Signed rank – знаковый ранг.
Significance level – уровень значимости.
Significance test – критерий значимости.
Simple regression – простая регрессия.
Size – объем, размер.
Skewness – коэффициент асимметрии.
401
Slope – угловой коэффициент (наклон).
Source – источник.
Summary statistics – описание данных.
Survivor function – функция выживаемости.
Tail areas – площади хвостов (распределений).
Tail areas probabilities – вероятности хвостов (распределений.
t-distribution – распределение Стьюдента.
Test for normality – критерий на принадлежность выборки к
нормальному распределению.
Test statistic – статистика, лежащая в основе критерия.
Type I error – ошибка I рода.
Type II error – ошибка II рода.
Upper – верхний.
Unusual residuals – необычные остатки.
Variance check – тесты дисперсий.
402
Библиографический список
1. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики.
М.: Наука, 1983.
2. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.
3. Кнут Д. Е. Искусство программирования. Т. 2. Получисленные алгоритмы. М.: Мир, 1977.
4. Форсайт Дж., Малькольм М., Моулер К., Машинные методы математических вычислений. М.: Мир, 1980.
5. Смирнов Н. В., Дунин-Барковский И. В. Краткий курс математической статистики для технических приложений. М.: Физматгиз, 1959.
6. Губарев В. В. Алгоритмы статистических измерений. М.: Энергоатомиздат, 1985.
7. Плескунин В. И., Воронина Е. Д. Теоретические основы организации
и анализа выборочных данных в эксперименте. Л.: Из-во Лен. гос. ун-та,
1979.
8. Пугачев В. С. Теория вероятностей и математическая статистика. М.:
Наука, 1979.
9. Шапорев С. Д. Прикладная статистика. СПб.: СМИО Пресс, 2003.
10. Brereton R. G. Introduction to multivariate calibration in analytical
chemistry. Analyst 2000, 125, p. 2125–2154.
11. Дюк В. Обработка данных на ПК в примерах. СПб., Питер, 1997.
12. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М., Финансы и статистика, 1987.
13. Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ.
М.: Мир, 1981.
14. Браунли К. А. Статистическая теория и методология в науке и технике. М.: Наука, 1977.
15. Гаек Я., Шидак З. Теория ранговых критериев. М.: Наука, 1971.
16. Дэйвид Г. Порядковые статистики. М.: Наука, 1979.
17. Калинина В. Н., Панкин В. Ф. Математическая статистика. М.:
Высшая школа, 1998.
18. Холлендер М., Вульф Д. Непараметрические методы статистики.
М.: Финансы и статистика, 1983.
19. Iman R. L. An approximation to the exact distribution of the WilcoxonMann-Whithey rank sum test statistic. Communication in Statistic, A5(Theory
and Method), 1976. P. 587–598.
20. Wilcoxon F., Katti S. K., Wilcox Roberta A. Critical values an probability
levels for the Wilcoxon rank test. – In: Selected Tables in Mathematical
Statistics, vol. 1/2-d ed. H. L. Harter, D. B. Owen, eds. – Providence, R. I.
Am. Math. Soc., 1973, p. 171–235.
403
СОДЕРЖАНИЕ
1. Случайные величины и их законы распределения...................... § 1.1. Законы распределения дискретных случайных величин..... § 1.2. Числовые характеристики дискретных случайных
величин, их свойства............................................................. § 1.3. Законы распределения непрерывных случайных величин... § 1.4. Числовые характеристики непрерывных случайных
величин............................................................................... § 1.5. Выборочные аналоги интегральной и дифференциальной
функций распределения......................................................... § 1.6. Нормальное распределение и его числовые характеристики.
2. Распределения, связанные с нормальным распределением.......... § 2.1. χ2-распределение.......................................................... § 2.2. t-распределение Стьюдента............................................. § 2.3. F-распределение (распределение Фишера)
или распределение дисперсионного отношения.......................... § 2.4. Распределение Колмогорова........................................... § 2.5. Гамма-распределение.................................................... § 2.6. Распределение Вейбулла (Вейбулла – Гнеденко)....................
§ 2.7. Распределение Рэлея..................................................... 3. Статистические вычисления в средах Statgraphics, Mathcad,
Matlab и Scilab.......................................................................... § 3.1. Вычисления в среде Statgraphics..................................... § 3.2. Вычисления в среде Mathcad........................................... § 3.3. Статистическая обработка данных в пакете Matlab
блоком программ Statistics Toolbox.......................................... § 3.4. Вычисления в системе Scilab........................................... § 3.5. Программирование в системе Scilab................................. § 3.6. Статистическая обработка данных в пакете Scilab.............. § 3.7. Лабораторная работа № 1. Методы описательной
статистики в пакете Statgraphics............................................. § 3.8. Лабораторная работа № 2. Семейства вероятностных
распределений в статистическом пакете Statgraphics................. § 3.9. Лабораторная работа № 2. Семейства вероятностных
распределений в математическом пакете Mathcad...................... § 3.10. Лабораторная работа № 2. Семейства вероятностных
распределений в математическом пакете Matlab........................ § 3.11. Лабораторная работа № 2. Семейства вероятностных
распределений в математическом пакете Scilab.......................... 4. Метод статистических испытаний (метод Монте-Карло).............. § 4.1. Общие принципы метода статистических испытаний......... § 4.2. Датчики базовой случайной величины (БСВ)..................... § 4.3. Моделирование на ЭВМ стандартной равномерно
распределенной случайной величины (базовой случайной
величины)............................................................................ 404
3
3
6
9
10
14
18
22
22
24
26
27
31
32
34
36
36
40
44
53
55
57
63
71
77
80
82
85
85
87
88
§ 4.4. Моделирование дискретной случайной величины
при помощи случайных событий............................................. § 4.5. Моделирование непрерывных случайных величин............. § 4.6. Лабораторная работа № 3. Моделирование некоторых
распределений с помощью базовых случайных величин в пакете
Mathcad............................................................................... § 4.7. Лабораторная работа № 3. Моделирование некоторых
распределений с помощью базовых случайных величин в системе
Matlab................................................................................. § 4.8. Лабораторная работа № 3. Моделирование некоторых
распределений с помощью базовых случайных величин
в системе Scilab..................................................................... 5. Точечные и интервальные оценки параметров распределений
и их свойства............................................................................ § 5.1. Статистические характеристики вариационных рядов
и показатели их качества........................................................ § 5.2. Типовые принципы, используемые при построении
оценок [6]............................................................................. § 5.3. Точечные оценки вероятности по частоте,
математического ожидания и дисперсии................................... § 5.4. Методы получения точечных оценок................................ § 5.5. Сущность интервального оценивания............................... § 5.6. Приближенные и точные доверительные интервалы
для параметров распределений................................................ § 5.7. Лабораторная работа № 4. Оценивание параметров
вероятностных распределений в пакете Statgraphics.................. § 5.8. Лабораторная работа № 4. Оценивание параметров
вероятностных распределений в пакете Mathcad........................ § 5.9. Лабораторная работа № 4. Оценивание параметров
вероятностных распределений методами моментов
и максимального правдоподобия в пакете Matlab....................... § 5.10. Лабораторная работа № 4. Оценивание параметров
вероятностных распределений методами моментов
и максимального правдоподобия в пакете Scilab........................ 6. Проверка сатистических гипотез. критерии согласия................. § 6.1. Понятие статистической гипотезы. Основные этапы
проверки гипотез.................................................................. § 6.2. Критерий Неймана – Пирсона......................................... § 6.3. Проверка гипотез о числовых значениях параметров
нормального распределения.................................................... § 6.4. Проверка гипотез о параметрах двух нормальных
распределений...................................................................... § 6.5. Лабораторная работа № 5. Проверка статистических
гипотез о числовых значениях нормальных распределений
в пакете Statgraphics.............................................................. 90
92
96
107
110
114
114
115
118
122
126
127
133
136
140
145
149
149
155
157
160
166
405
§ 6.6. Лабораторная работа № 5. Проверка статистических
гипотез о числовых значениях нормальных распределений
в пакете Mathcad................................................................... § 6.7. Лабораторная работа № 5. Проверка статистических
гипотез о числовых значениях нормальных распределений
в пакете Matlab..................................................................... § 6.8. Лабораторная работа № 5. Проверка статистических
гипотез о числовых значениях нормальных распределений
в пакете Scilab....................................................................... § 6.9. Критерии согласия........................................................ § 6.10. Лабораторная работа № 6. Критерии согласия
в cтатистическом пакете Statgraphics....................................... § 6.11. Лабораторная работа № 6. Критерии согласия
в математическом пакете Mathcad........................................... § 6.12. Лабораторная работа № 6. Критерии согласия
в математическом пакете Matlab.............................................. § 6.13. Лабораторная работа № 6. Критерии согласия
в математическом пакете Scilab............................................... 7. Метод главных компонент МГК (Principal Component
Analysis pca)............................................................................. § 7.1. Математические основы метода главных компонент.......... § 7.2. Лабораторная работа № 7. Метод главных компонент
в статистическом пакете Statgraphics....................................... § 7.3. Лабораторная работа № 7. Метод главных компонент
в математическом пакете Mathcad........................................... § 7.4. Лабораторная работа № 7. Метод главных компонент
в математическом пакете Matlab.............................................. § 7.5. Лабораторная работа № 7. Метод главных компонент
в математическом пакете Scilab............................................... 8. Однофакторный дисперсионный анализ.................................... § 8.1. Постановка задачи........................................................ § 8.2. Дисперсионный анализ.................................................. § 8.3. Ранговый однофакторный анализ.................................... § 8.4. Критерий Краскела – Уоллиса (Н-критерий)..................... § 8.5. Лабораторная работа № 8. Однофакторный ранговый
и дисперсионный анализ в статистическом пакете Statgraphics.... § 8.6. Лабораторная работа № 8. Однофакторный ранговый
и дисперсионный анализ в математическом пакете Mathcad........ § 8.7. Лабораторная работа № 8. Однофакторный ранговый
и дисперсионный анализ в математическом пакете Matlab.......... § 8.8. Лабораторная работа № 8. Однофакторный ранговый
и дисперсионный анализ в математическом пакете Scilab............ 9. Регрессионный анализ........................................................... § 9.1. Модели регрессии.......................................................... § 9.2. Оценка параметров линейной регрессии методом
наименьших квадратов.......................................................... 406
174
177
180
183
193
201
211
217
224
224
231
237
247
256
263
263
264
274
275
279
296
305
311
318
318
321
§ 9.3. Интервальные оценки параметров линейной регрессии
и кривой регрессии................................................................ § 9.4. Проверка адекватности линейной регрессии..................... § 9.5. Выбор наилучшей регрессии........................................... § 9.6. Лабораторная работа № 9. Регрессионный анализ
в пакете Statgraphics.............................................................. § 9.7. Лабораторная работа № 9. Регрессионный анализ в пакете
Mathcad............................................................................... § 9.8. Лабораторная работа № 9. Регрессионный анализ в пакете
Matlab................................................................................. § 9.9. Лабораторная работа № 9. Регрессионный анализ в пакете
Scilab................................................................................... 10. Непараметрические методы статистики.................................. § 10.1. Основные понятия и область применимости
непараметрических методов................................................... § 10.2. Критерий знаков......................................................... § 10.3. Критерий знаков для одномерной выборки...................... § 10.4. Ранговый критерий (одновыборочный критерий
Вилкоксона)......................................................................... § 10.5. Двухвыборочный ранговый критерий Вилкоксона........... § 10.6. Лабораторная работа № 10. Критерии знаков и рангов
в пакете Mathcad................................................................... § 10.7. Лабораторная работа № 10. Критерии знаков и рангов
в пакете Matlab..................................................................... § 10.8. Лабораторная работа № 10. Критерии знаков и рангов
в пакете Scilab....................................................................... Словарь используемых терминов в пакете Statgraphics................... Библиографический список........................................................ 326
333
336
337
351
354
357
365
365
366
370
374
380
383
392
395
399
403
407
Учебное издание
Шапорев Сергей Дмитриевич
МАТЕМАТИЧЕСКИЕ МЕТОДЫ
ПРИКЛАДНОЙ СТАТИСТИКИ
Учебное пособие
Публикуется в авторской редакции.
Компьютерная верстка С. Б. Мацапуры
Сдано в набор 18.02.16. Подписано к печати 06.06.16.
Формат 60×84 1/16. Бумага офсетная. Усл. печ. л. 23,7.
Уч.-изд. л. 25,5. Тираж 50 экз. Заказ № 254.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
22
Размер файла
10 026 Кб
Теги
0710f7a17d, shaporev
1/--страниц
Пожаловаться на содержимое документа