close

Вход

Забыли?

вход по аккаунту

?

О нулевом и альтернативном распределении статистики критерия наибольшего по абсолютной величине нормированного отклонения.

код для вставкиСкачать
Известия вузов. Математика
2014, № 10, c. 62–78
http://old.kpfu.ru/journals/izv_vuz/
e-mail: izvuz.matem@kpfu.ru
Л.К. ШИРЯЕВА
О НУЛЕВОМ И АЛЬТЕРНАТИВНОМ РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
КРИТЕРИЯ НАИБОЛЬШЕГО ПО АБСОЛЮТНОЙ ВЕЛИЧИНЕ
НОРМИРОВАННОГО ОТКЛОНЕНИЯ
Аннотация. Рассмотрены односторонние статистики Граббса, т. е. стандартизированные максимум и минимум, вычисленные по нормально распределенной выборке. Найдена совместная
функция распределения этих статистик и исследованы ее свойства. Эта функция использовалась для описания нулевого распределения статистики критерия наибольшего по абсолютной
величине нормированного отклонения. Определена область критических значений, в которой
уровень значимости исследуемого критерия равен удвоенному уровню значимости критерия
Граббса. Совместная функция распределения статистик Граббса использовалась и для описания мощности критерия в случае, когда в нормальной выборке имеется один выброс.
Ключевые слова: выброс, критерий наибольшего по абсолютной величине нормированного
отклонения, односторонние статистики Граббса, совместная функция распределения односторонних статистик Граббса, мощность критерия, нормальный закон распределения.
УДК: 519.243
1. Введение
При обработке статистических данных важную роль играют методы, связанные с выявлением резко выделяющихся результатов измерений (выбросов). Если не проверять значимость отличий “подозрительных” наблюдений в выборке от остальных, то оценки параметров распределения, получаемые по такой выборке, могут содержать грубые ошибки.
Наиболее часто для проверки на аномальность одного резко выделяющегося наблюдения
применяют статистические критерии типа Граббса.
Пусть X1 , X2 , . . . , Xn−1 , Xn — случайная выборка из n значений нормально распределенной случайной величины X; X(1) ≤ X(2) ≤ · · · ≤ X(n−1) ≤ X(n) — построенный по ней
упорядоченный вариационный ряд; X(j) — j-я порядковая статистика (j = 1, n).
Проверяемая нулевая гипотеза H0 состоит в том, что наблюдения X1 , X2 , . . . , Xn−1 , Xn
являются независимыми случайными величинами с нормальным распределением N (a, σ 2 ),
где параметры a и σ 2 предполагаются неизвестными. В качестве конкурирующей гипотезы H1 рассмотрим случай, когда какие-либо (n − 1) из n наблюдений имеют одинаковое
нормальное N (a, σ 2 ) распределение, а одно из них — выброс Xout — имеет нормальное распределение N (a + λσ, νσ 2 ). Таким образом, выброс отличается от остальных наблюдений
параметром сдвига λ и параметром масштаба ν. Гипотеза H1 является правдоподобным
приближением к действительности в случае, когда вероятность “засорения” выборки аномальными наблюдениями весьма мала ([1], с. 218). Нулевую и альтернативную гипотезы
можно формализовать следующим образом: H0 : λ = 0, ν = 1 и H1 : λ = 0.
Поступила 22.03.2013
62
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
63
Если есть основания предполагать, что аномальное наблюдение может иметь сдвиг математического ожидания вправо, то для проверки на один верхний выброс используется одноn
n
(1)
1 Xi и S 2 = n−1
(Xi −X)2 .
сторонняя статистика Граббса Tn = (X(n) −X)/S, где X = n1
i=1
i=1
(1)
Известно ([2], с. 168), что Tn является статистикой, на которой основан критерий от : λ > 0,
ношения максимальных правдоподобий для проверки H0 против альтернативы H
ν = 1.
Если аномальное наблюдение может иметь сдвиг математического ожидания влево, то
для проверки на один нижний выброс используется статистика Tn,(1) = (X − X(1) )/S. На
статистике Граббса Tn,(1) основан критерий отношения максимальных правдоподобий для
: λ < 0, ν = 1 ([2], с. 168).
проверки H0 против альтернативы H
Легко проверить справедливость равенства
P (Tn(1) < t | H0 ) = P (Tn,(1) < t | H0 ) ∀t ∈ R.
(1)
(1)
Следовательно, распределения статистик Tn и Tn,(1) при справедливости нулевой гипотезы
совпадают.
(1)
Таблица критических точек распределения статистики Tn впервые была построена
(1)
(1)
Ф. Граббсом [3], однако ее интегральная функция распределения Fn (t) = P (Tn < t | H0 )
была найдена позже в работах ([2], с. 167; [4]):
⎧
√
0,
t ≤ 1/ n, n ≥ 2;
⎪
⎪
⎪
⎨ t
(1)
1
n−1
(1)
(2)
Fn (t) = n √ Fn−1 (gn (x))fTn (x)dx, √n < t ≤ √n , n ≥ 3;
⎪
1/ n
⎪
⎪
⎩
√ , n ≥ 2,
1,
t > n−1
n
где
⎧
⎨
fTn (x) =
1
n−1
⎩0,
n n−1 n−2 /Γ 2
1−
πΓ
2
n
x2
(n−1)2
n−4
2
, |x| <
|x| ≥
+∞
Γ(x) =
n−1
√ ;
n
n−1
√ ,
n
(3)
ξ x−1 e−ξ dξ,
0
n − 1
n
n
n−1
2
x
1−
x , |x| < √ , n ≥ 3.
gn (x) =
2
n−1
n−2
(n − 1)
n
(4)
Если аномальное наблюдение может иметь сдвиг математического ожидания в разных
направлениях, то для тестирования выборки на одно резко выделяющееся наблюдение применяют критерий наибольшего по абсолютной величине нормированного выборочного отклонения. Он основан на двусторонней статистике Граббса
|Xi − X|
.
1≤i≤n
S
Tn(1,ts) = max
(1,ts)
является статистикой критерия отношения максимальных
Известно ([2], с. 169), что Tn
1 : λ = 0,
правдоподобий, применяемого для проверки гипотезы H0 против альтернативы H
ν = 1.
Критическая область критерия описывается неравенством
(1,ts)
(n; α).
Tn(1,ts) > Tcr
64
Л.К. ШИРЯЕВА
(1,ts)
(1,ts)
Здесь Tcr (n; α) — критическое значение статистики Tn
, отвечающее уровню значимо(1,ts)
(1,ts)
> Tcr (n; α) | H0 ) = α.
сти α и определяемое из условия P (Tn
Если гипотеза H0 отвергается, то выбросом объявляется то наблюдение из X(1) и X(n) ,
(1,ts)
.
для которого получена значимая величина статистики Tn
(1,ts)
, как правило, находили либо по
Критические точки распределения статистики Tn
приближенным формулам ([5], с. 60; [6]), либо методом Монте-Карло [7], так как ее распределение при справедливости нулевой гипотезы неизвестно. В данной работе найдены
(1,ts)
как при справедливости гипотезы H0 , так и при
законы распределения статистики Tn
справедливости H1 . Для этого предлагается использовать совместную функцию распреде(1)
ления случайных величин Tn,(1) и Tn .
2. Совместная функция распределения односторонних статистик Граббса
Предположим, что гипотеза H0 верна. Обозначим Ti = (Xi − X)/S (i = 1, 2, . . . , n).
Очевидно, случайные величины T1 , T2 , . . . , Tn распределены одинаково. Для плотности
распределения вероятностей fi;n (x) любой из них справедливо равенство [4]
(5)
fi;n (x) = fTn (x) (i = 1, 2, . . . , n),
где fTn (x) вычисляется по формуле (3).
Каждая из случайных величин Ti представляет собой стьюдентизированное отклонение
(1,ts)
(1)
, Tn и Tn,(1) спранаблюдения Xi от среднего по выборке (i = 1, n). Для статистик Tn
ведливы следующие равенства:
Tn(1,ts) = max {|Ti |} = max{Tn,(1) ; Tn(1) },
(6)
1≤i≤n
Tn,(1) = − min {Ti },
(7)
Tn(1) = max {Ti }.
(8)
1≤i≤n
1≤i≤n
Кроме того, из соотношений (1) и (2) вытекает, что области возможных значений стати(1)
стик Tn и Tn,(1) можно описать неравенствами
n−1
1
√ ≤ Tn,(1) ≤ √ ,
n
n
n
−
1
1
√ ≤ Tn(1) ≤ √ .
n
n
(9)
(10)
(1)
Найдем совместную функцию распределения статистик Tn,(1) и Tn
для случая n ≥ 2.
Теорема 1. Пусть X1 , X2 , . . . , Xn — независимые случайные величины, имеющие одинаковое нормальное N (a, σ 2 ) распределение. Тогда совместная функция распределения
Λn (t1 , t2 ) = P (Tn,(1) < t1 , Tn(1) < t2 )
в случае n > 2 имеет вид
⎧
(1)
⎪
Fn (t2 ),
⎪
⎪
⎪
⎪
(1)
⎪
⎪
⎨Fn (t1 ),
t2
Λn (t1 , t2 ) =
⎪
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx,
n
⎪
⎪
√
⎪
1/
n
⎪
⎪
⎪
⎩0,
t1 ≥
t2 ≥
n−1
√ ;
n
n−1
√ ;
n
(11)
(t1 , t2 ) ∈ ∆n ;
/ ∆ n , t1 , t2 <
(t1 , t2 ) ∈
n−1
√ ,
n
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
65
(1)
где функция распределения Fn (t) вычисляется по формуле (2);
n−1
n
v
n−1
2 , |v| < √
1−
;
v
ρn (u, v) = u +
n−1
n−2
(n − 1)2
n
(12)
функции
gn (x) и fTn (x) вычисляются
√
√
√ по формулам (4)
√ и (3) соответственно;
∆n = 1/ n < t1 < (n − 1)/ n; 1/ n < t2 < (n − 1)/ n .
Доказательство. Пусть n > 2. Для t1 ≥
Λn (t1 , t2 ) = P {(Tn,(1)
Поэтому
n−1
√
n
с учетом (9) можно записать
√
< (n − 1)/ n) ∩ (Tn(1) < t2 )} = P (Tn(1) < t2 ).
n−1
Λn (t1 , t2 ) = Fn(1) (t2 ), если t1 ≥ √ ;
n
(13)
(1)
здесь функция Fn (t2 ) вычисляется по формуле√(2).
Рассуждая аналогично, в случае t2 ≥ (n − 1)/ n легко получить равенство
Λn (t1 , t2 ) = P (Tn,(1) < t1 ).
Тогда с учетом (1) можно записать
√
Λn (t1 , t2 ) = Fn(1) (t1 ), если t2 ≥ (n − 1)/ n.
(14)
Далее заметим, что из условий (9) и (10) следует
√
√
(15)
Λn (t1 , t2 ) = 0, если t1 ≤ 1/ n или t2 ≤ 1/ n.
√
√
√
√
Пусть ∆n = [1/ n < t1 < (n − 1)/ n; 1/ n < t2 < (n − 1)/ n]. С учетом (7) и (8)
получим
min {Tj } > −t1 ∩ max {Tj } < t2 .
Λn (t1 , t2 ) = P
1≤j≤n
1≤j≤n
(1)
Следовательно, совместная функция распределения статистик Tn,(1) и Tn
n
Λn (t1 , t2 ) = P ∩ (−t1 < Ti < t2 ) .
равна
i=1
(16)
Далее, используя формулы (16), (8) и условие (10), для (t1 , t2 ) ∈ ∆n можно записать
n 1
.
Λn (t1 , t2 ) = P ∩ − t1 < Ti ≤ max {Tj } ∩ √ < max {Tj } < t2
1≤j≤n
i=1
n 1≤j≤n
Тогда
n−1
1
.
(17)
Λn (t1 , t2 ) = nP ∩ (−t1 < Ti < Tn ) ∩ √ < Tn < t2
i=1
n
Обозначим
Ti∗ = (Xi − X ∗ )/S ∗ (i = 1, n − 1),
1
1 Xk , S ∗2 = n−2
(Xk − X ∗ )2 .
где X ∗ = n−1
k=n
k=n
Справедливо соотношение [4]
n
n−1
1
2 −
1−
Tn , i = 1, n − 1.
T
Ti = Ti∗
n
2
n−2
(n − 1)
n−1
Поэтому неравенство −t1 < Ti < Tn , i = 1, n − 1, равносильно следующему:
ρn (−t1 , Tn ) < Ti∗ < gn (Tn ) (i = 1, n − 1),
(18)
66
Л.К. ШИРЯЕВА
где функция gn (x) вычисляется по формуле (4), а ρn (u, v) — по формуле (12).
Тогда соотношение (17) примет вид
n−1
√
Λn (t1 , t2 ) = nP ∩ (ρn (−t1 , Tn ) < Ti∗ < gn (Tn )) ∩ (1/ n < Tn < t2 ) .
i=1
(19)
Легко убедиться, что
Tn =
Xn − X ∗
n−1
,
n
(Xn −X ∗ )2
n−2 ∗2
+
n−1 S
n
т. е. случайная величина Tn является функцией случайных величин X ∗ , S ∗ и Xn .
∗ } распределены независимо от
Известно [4], что случайные величины {T1∗ , T2∗ , . . . , Tn−1
случайных величин X ∗ и S ∗ . Следовательно, случайная величина Tn распределена незави∗ }. Поэтому соотношение (19) можно предстасимо от случайных величин {T1∗ , T2∗ , . . . , Tn−1
вить в виде
t2
n−1
Λn (t1 , t2 ) = n √ P ∩ {ρn (−t1 , x) < Ti∗ < gn (x)} fTn (x)dx.
i=1
1/ n
Отсюда с учетом формулы (16) получим
t2
Λn (t1 , t2 ) = n √ Λn−1 {ρn (t1 , −x), gn (x)}fTn (x)dx, если (t1 , t2 ) ∈ ∆n .
(20)
1/ n
Объединяя соотношения (13)–(15) и (20), получим (11).
(1)
Замечание. Легко проверить, что при n = 2 случайные величины T2,(1) и T2 становятся
√
(1)
детерминированными, так что T2,(1) = T2 = 1/ 2. Следовательно,
√
√
1, (t1 , t2 ) ∈ ∆2 , ∆2 =
2/2 < t1 < ∞;
2/2 < t2 < ∞ ;
(21)
Λ2 (t1 , t2 ) =
/ ∆2 .
0, (t1 , t2 ) ∈
Отметим следующие свойства совместной функции распределения статистик Граббса.
1. Функция Λn (t1 , t2 ) обладает свойством симметричности, а именно,
Λn (t1 , t2 ) = Λn (t2 , t1 ).
Действительно, если положить Yi = −Xi , i = 1, n, то имеют место равенства
X = −Y ,
n
n
(Xi − X)2 =
(Yi − Y )2 .
i=1
Поскольку Xi ∼
Обозначим
N (a, σ 2 ),
то и Yi ∼
i=1
N (−a, σ 2 ),
Ui = (Yi − Y ) i = 1, n.
1 (Yj − Y )2 , i = 1, n.
n−1
n
j=1
Поскольку Ui = −Ti , i = 1, n, то с учетом (16) получим
n
n
Λn (t1 , t2 ) = P ∩ (−t1 < Ti < t2 ) = P ∩ (−t2 < Ui < t1 ) = Λn (t2 , t1 ).
i=1
i=1
(22)
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
67
2. Для (t1 , t2 ) ∈ ∆n и n > 2 имеют место равенства
n−1
√
n
(1)
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx,
Λn (t1 , t2 ) = Fn (t1 ) − n
(23)
t2
Λn (t1 , t2 ) =
Fn(1) (t2 )
−n
n−1
√
n
Λn−1 (ρn (t2 , −x), gn (x))fTn (x)dx.
(24)
t1
Действительно, используя соотношение (11), для (t1 , t2 ) ∈ ∆n можно записать
n−1
n−1
√
√
n
n
Λn (t1 , t2 ) = n
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx−n
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx.
√1
n
t2
Отсюда с учетом (11) получим
n−1
√
n
n−1
−n
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx,
Λn (t1 , t2 ) = Λn t1 , √
n
t2
n−1
√
n
Λn−1 (ρn (t1 , −x), gn (x))fTn (x)dx.
Λn (t1 , t2 ) = Fn(1) (t1 ) − n
t2
Легко видеть, что соотношение (24) является прямым
следствием соотношений (22) и (23).
√ ; τ ∗ ≤ t2 < n−1
√
.
Тогда
для (t1 , t2 ) ∈ Dn и n > 2 имеет
3. Пусть Dn = √1n < t1 < n−1
n
n
n
место равенство
n−1
√
n
(1)
(1)
Fn−1 (ρn (t1 , −x))fTn (x)dx.
(25)
Λn (t1 , t2 ) = Fn (t1 ) − n
Пусть Dn = τn∗ ≤ t1 <
t2
n−1
√ ; √1
n
n
< t2 <
n−1
√
n
Λn (t1 , t2 ) =
Fn(1) (t2 )
−n
. Тогда для (t1 , t2 ) ∈ Dn и n > 2
n−1
√
n
t1
(1)
Fn−1 (ρn (t2 , −x))fTn (x)dx,
(26)
.
где τn∗ = (n−1)(n−2)
2n
√ <
Действительно, в силу того, что функция gn (x) (см. формулу (4)) возрастает для − n−1
n
n−1
√ , имеем gn (x) ≥ gn (τ ∗ ),
n
n
n−2
∗
√
gn (τn ) = n−1 . Поэтому
x<
если τn∗ ≤ x <
n−1
√ .
n
С другой стороны, легко убедиться, что
n−2
n−1
, если τn∗ ≤ x < √ .
gn (x) ≥ √
n
n−1
(27)
Тогда согласно (14)
n−1
(1)
Λn−1 (ρn (t1 , −x), gn (x)) = Fn−1 (ρn (t1 , −x)), если τn∗ ≤ x < √ .
n
Отсюда с учетом (23), для (t1 , t2 ) ∈ Dn получим (25). Формула (26) может быть получена
аналогично.
4. Для (t1 , t2 ) ∈ Ξn и n > 2 имеет место равенство
Λn (t1 , t2 ) = Fn(1) (t1 ) + Fn(1) (t2 ) − 1,
где Ξn = t∗n ≤ t1 <
n−1
√ ; t∗
n
n
≤ t2 <
(28)
∗ n−1 (1)
fTn (x)dx, если t ≥ t∗n .
, tn =
2 , Fn (t) = 1 − n
n−1
√
n
n−1
√
n
t
68
Л.К. ШИРЯЕВА
t∗n
∗
∗
√n−2 . Кроме
Действительно, легко проверить, что для
= n−1
2 имеем ρn (tn , −tn ) =
n−1
(n−1)(n−2)
n−1
∗
∗
того,
= tn > τ n =
. Поэтому Ξn ⊂ Dn , и для вычисления значений
2
2n
функции Λn (t1 , t2 ) можно воспользоваться равенством (25).
Нетрудно также убедиться,
из аргументов
t1 и x функция ρn (t1 , −x)
что по каждому
√ ; t∗ ≤ x < n−1
√
.
Поэтому
справедлива цепочка
возрастает в области W = t∗n ≤ t1 < n−1
n
n
n
неравенств
n−2
,
ρn (t1 , −x) ≥ ρn (t1 , −t∗n ) ≥ ρn (t∗n , −t∗n ) ≡ √
n−1
что приводит к условию
n−2
, если (t1 , x) ∈ W.
ρn (t1 , −x) ≥ √
n−1
Тогда в силу равенства (2) получим
(1)
Fn−1 (ρn (t1 , −x)) = 1, если (t1 , x) ∈ W.
Следовательно, соотношение (25) для (t1 , t2 ) ∈ Ξn примет вид
n−1
√
n
(1)
fTn (x)dx.
Λn (t1 , t2 ) = Fn (t1 ) − n
(29)
t2
(1)
Теперь заметим, что вовсе не обязательно вычислять значения функции Fn (t) в точках
√ по рекурсивной формуле. Действительно, применяя формулу (2) для τ ∗ ≤ t <
τn∗ ≤ t < n−1
n
n
n−1
√ ,
n
можно записать
Fn(1) (t) = n
n−1
√
n
√1
n
(1)
Fn−1 (gn (x))fTn (x)dx − n
Fn(1) (t) = 1 − n
t
здесь учтено, что n
√
(n−1)/
n
√
1/ n
n−1
√
n
t
n−1
√
n
(1)
Fn−1 (gn (x))fTn (x)dx,
(1)
Fn−1 (gn (x))fTn (x)dx
(1) n−1 √
n
(1)
Fn−1 (gn (x))fTn (x)dx = Fn
!
=1 .
Далее, используя условие (27), получим
n−1
√
n
(1)
fTn (x)dx, если t ≥ τn∗ .
Fn (t) = 1 − n
(30)
t
Следовательно, для (t1 , t2 ) ∈ Ξn соотношение (29) с учетом (30) примет вид (28), что и
требовалось доказать.
5. Для n = 3 совместная функция распределения равна
⎧
√
(1)
⎪
t1 ≥ 2/ 3;
⎪F3 (t2 ),
⎪
⎪
√
⎨ (1)
t2 ≥ 2/ 3;
F3 (t1 ),
(31)
Λ3 (t1 , t2 ) =
(1)
(1)
3;
⎪
(t
)
−
F
(θ
(t
)),
(t
,
t
)
∈
∆
F
⎪
2
3
1
1
2
3
3
⎪
√
⎪
⎩0,
3 , t1 , t2 < 2/ 3,
/∆
(t1 , t2 ) ∈
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
⎧
⎪
⎨0,
69
√
t ≤ 1/ 3;
√
√
(1)
где F3 (t) = π3 arcsin 23 t − 12 , 1/ 3 < t ≤ 2/ 3;
√
⎪
⎩
1,
t > 2/ 3,
√
√ √
3 = 1/ 3 < t1 < 2/ 3; θ3 (t1 ) < t2 < 2/ 3 ; θ3 (t1 ) = t1 + 1 − 3 t2 .
∆
2
4 1
Действительно, в случае n = 3 соотношение (11) примет вид
⎧ (1)
√
⎪
F3 (t2 ),
t1 ≥ 2/ 3;
⎪
⎪
√
⎪
(1)
⎪
⎪
t2 ≥ 2/ 3;
⎨F3 (t1 ),
t2
(32)
Λ3 (t1 , t2 ) =
Λ2 (ρ3 (t1 , −x), g3 (x))fT3 (x)dx, (t1 , t2 ) ∈ ∆3 ;
3
⎪
⎪
√
⎪
⎪
1/ 3
⎪
⎪
√
⎩
/ ∆3 , t1 , t2 < 1/ 3,
0,
(t1 , t2 ) ∈
√
√
√
√ √
где fT3 (x) = 2π3 (1 − 34 x2 )−1/2 , ∆3 = 1/ 3 < t1 < 2/ 3; 1/ 3 < t2 < 2/ 3 .
Выражение для вычисления значений функции Λ3 (t1 , t2 ) в точках (t1 , t2 ) ∈ ∆3 можно
упростить. Для этого заметим, что
√
ρ3 (t1 , −θ3 (t1 )) = 1/ 2.
√
Обозначим
√
√ √
√
√
√
L1 = 1/ 3 < t1 < 2/ 3; θ3 (t1 ) < x ≤ 2/ 3 , L2 = 1/ 3 < t1 < 2/ 3; 1/ 3 ≤ x ≤ θ3 (t1 ) .
Легко убедиться в справедливости следующих утверждений:
√
ρ3 (t1 , −x) > 1/ 2,
если (t1 , x) ∈ L1 ,
√
g3 (x) > 1/ 2,
√
ρ3 (t1 , −x) ≤ 1/ 2,
если (t1 , x) ∈ L2 .
√
g3 (x) > 1/ 2,
Тогда в силу (21) получим
Λ2 (ρ3 (t1 , −x), g3 (x)) = 1,
если (t1 , x) ∈ L1 ;
Λ2 (ρ3 (t1 , −x), g3 (x)) = 0,
если (t1 , x) ∈ L2 .
Следовательно, для (t1 , t2 ) ∈ ∆3 можно записать
⎧
t2
⎪
⎨3 fT (x)dx, (t1 , t2 ) ∈ ∆
3;
3
(33)
Λ3 (t1 , t2 ) =
θ3 (t1 )
⎪
⎩
0,
(t1 , t2 ) ∈ ∆3 \ ∆3 ,
√
√
√
3 = 1/ 3 < t1 < 2/ 3; θ3 (t1 ) < t2 < 2/ 3 .
где ∆
√
Так как в случае n = 3 имеет место равенство τ3∗ = 1/ 3, то в силу (27) соотношение (2)
можно переписать в виде
√
⎧
0,
t
≤
1/
3;
⎪
⎪
⎪
⎨ t
√
√
(1)
F3 (t) = 3 √ fT3 (x)dx, 1/ 3 < t ≤ 2/ 3;
⎪
⎪
1/ 3
⎪
√
⎩
1,
t > 2/ 3,
70
Л.К. ШИРЯЕВА
где
t
√
1/ 3
fT3 (x)dx =
1
π
arcsin
√
√
√3 1
2 t − 6 , если 1/ 3 < t ≤ 2/ 3.
Тогда соотношение (33) примет вид
(1)
(1)
3;
F3 (t2 ) − F3 (θ3 (t1 )), (t1 , t2 ) ∈ ∆
Λ3 (t1 , t2 ) =
3.
0,
(t1 , t2 ) ∈ ∆3 \ ∆
С учетом последнего выражения соотношение (32) примет вид (31), что и требовалось
доказать.
(1,ts)
3. Распределение статистики Tn
(1,ts)
Найдем функцию распределения Fn
верна.
при справедливости нулевой гипотезы
(1,ts)
(t) = P (Tn
< t) в случае, когда гипотеза H0
Теорема 2. Пусть X1 , X2 , . . . , Xn — независимые случайные величины, имеющие одинако(1,ts)
(1,ts)
(t)=P (Tn
<t)
вое нормальное N (a, σ 2 ) распределение. Тогда функция распределения Fn
в случае n = 3 равна
⎧
⎪
t ≤ 1;
⎨0,
√
√3
√3 (1,ts)
3
(34)
(t) = π arcsin 2 t − arcsin 2 θ3 (t) , 1 < t ≤ 2/ 3;
F3
√
⎪
⎩
1,
t > 2/ 3,
а в случае n > 3 имеет вид
⎧
⎪
0,
⎪
⎪
⎪
n−1
√
⎪
⎪
⎪
n
(1)
⎪
⎪
(t)
−
n
Λn−1 (ρn (t, −x), gn (x))fTn (x)dx,
F
⎪
n
⎪
⎪
t
⎪
⎪
(1)
⎨ (1)
Fn (t) + Fn (θn (t)) − 1−
Fn(1,ts) (t) =
θn(t)
⎪
⎪
(1)
⎪
Fn−1 (ρn (t, −x))fTn (x)dx,
−n
⎪
⎪
⎪
t
⎪
⎪
⎪
(1)
⎪
(t)
−
1,
2F
⎪
n
⎪
⎪
⎪
⎩1,
√
t ≤ 1/ n;
√
1/ n < t ≤ τn∗ ;
(35)
τn∗
<t≤
t∗n < t ≤
t>
t∗n ;
n−1
√ ;
n
n−1
√ ,
n
где Fn (t) вычисляется по формуле (2) в случае t < τn∗ и по формуле (30) в случае t ≥ τn∗ ;
"
√
t
n
+ n−2 1−
t2 .
(36)
θn (t) =
n−1
(n − 1)2
(1)
Доказательство. С учетом соотношения (6) имеем
Fn(1,ts) (t) = P (Tn(1,ts) < t) = P ({Tn(1) < t} ∩ {Tn,(1) < t}) = Λn (t, t).
(1,ts)
(t) = Λ3 (t, t) будем использовать нерекурсивную
В случае n = 3 для вычисления F3
формулу (31). В результате получим
⎧
⎪
t ≤ 1;
⎨0,
√
√
√ (1,ts)
(t) = π3 arcsin 23 t − arcsin 23 θ3 (t) , 1 < t ≤ 2/ 3;
F3
√
⎪
⎩
1,
t > 2/ 3.
√
3 , если t1 ∈ [1, 2/ 3).)
(Здесь учтено, что прямая t1 = t2 принадлежит области ∆
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
71
Применим формулу (11) в случае n > 3. В результате получим
⎧
√
0,
t ≤ 1/ n;
⎪
⎪
⎪
⎨ t
1
n−1
(37)
Fn(1,ts) (t) = n √ Λn−1 (ρn (t, −x), gn (x))fTn (x)dx, √n < t ≤ √n ;
⎪
1/
n
⎪
⎪
√
⎩
1,
t > (n − 1)/ n.
√
Пусть 1/ n < t ≤ τn∗ , тогда, используя свойство 2 (см. формулы (23) или (24)), для случая
t1 = t2 = t можно записать
n−1
√
√
n
(1,ts)
(1)
(t) = Fn (t) − n
Λn−1 (ρn (t, −x), gn (x))fTn (x)dx, если 1/ n < t ≤ τn∗ . (38)
Fn
t
τn∗
<t≤
Пусть
получим
t∗n .
Применяя свойство 3 (см. формулы (25) или (26)), в случае t1 = t2 = t
Fn(1,ts) (t)
=
Fn(1) (t)
−n
t
n−1
√
n
Fn−1 (ρn (t, −x))fTn (x)dx, если τn∗ < t ≤ t∗n .
(1)
(39)
, где θn (t)
Теперь заметим, что в точке x = θn (t) имеет место равенство ρn (t, −θn (t)) = √n−2
n−1
√
∗
вычисляется по формуле (36). Легко проверить, что θn (t) > t для 1/ n < t < tn . Тогда (39)
можно представить в виде
θn (t)
(1)
(1,ts)
(1)
(t) = Fn (t) − n
Fn−1 (ρn (t, −x))fTn (x)dx−
Fn
t
−n
n−1
√
n
θn (t)
Fn−1 (ρn (t, −x))fTn (x)dx, если τn∗ < t ≤ t∗n .
(1)
Нетрудно также убедиться, что функция ρn (t, −x) является
√ возрастающей по аргументу
n−1
n−1
n−1
√
x, если nt ≤ x < n . Кроме того, θn (t) > nt , если t > 1/ n. Поэтому можно записать
n−2
, если x > θn (t).
ρn (t, −x) > ρn (t, −θn (t)) ≡ √
n−1
Тогда в силу равенства (2) получим
(1)
Fn−1 (ρn (t, −x)) = 1, если x > θn (t).
(1,ts)
(t) примет вид
Поэтому выражение для Fn
θn (t)
(1)
(1,ts)
(1)
(t) = Fn (t) − n
Fn−1 (ρn (t, −x))fTn (x)dx − n
Fn
t
n−1
√
n
fTn (x)dx, если τn∗ < t ≤ t∗n .
θn (t)
Теперь, используя формулу (30), получим
θn (t)
(1)
(1,ts)
(1)
(1)
(t) = Fn (t)+Fn (θn (t))−1−n
Fn−1 (ρn (t, −x))fTn (x)dx, если τn∗ < t ≤ t∗n . (40)
Fn
t
При
t∗n
≤t<
n−1
√ ,
n
применяя свойство 4 (см. (28)) в случае t1 = t2 = t, имеем
n−1
Fn(1,ts) (t) = 2Fn(1) (t) − 1, если t∗n < t < √ .
n
(41)
С учетом формул (38), (40) и (41) соотношение (37) примет вид (35), что и требовалось
доказать.
72
Л.К. ШИРЯЕВА
Замечание. В случае n = 2, используя формулу (21) для t1 = t2 = t, получим
√
0, t ≤ 2/2;
(1,ts)
√
(t) =
F2
1, t > 2/2.
(42)
Применение критерия максимального по абсолютной величине нормированного отклонения для тестирования выборки на наличие выброса требует знания правого хвоста распре(1,ts)
(1,ts)
, т. е. вероятности P (Tn
> t | H0 ).
деления случайной величины Tn
(1,ts)
(1,ts)
(1)
(1)
> t | H0 ) = 1 − Fn
(t) и P (Tn > t|H0 ) = 1 − Fn (t). Тогда с
Заметим, что P (Tn
учетом (41) получим, что равенство
P (Tn(1,ts) > t | H0 ) = 2P (Tn(1) > t | H0 )
(43)
справедливо для критических значений t, удовлетворяющих условию
"
n−1
n−1
= t∗n ≤ t < √ .
(44)
2
n
Поэтому для построения той части таблицы критических значений распределения дву(1,ts)
, в которой выполняется условие (44), можно воспользоваться
сторонней статистики Tn
(1)
таблицей критических значений распределения односторонней статистики Tn . Существование такой области было предсказано в работе ([5], с. 60). В работе ([2], с. 168) область
(1,ts)
, в которой имеет место равенство (43), описана
критических значений статистики Tn
как
"
(n − 1)(n − 2)
∗
.
t > τn =
2n
Однако легко убедиться, что для τn∗ < t < t∗n имеет место строгое неравенство, т. е.
P (Tn(1,ts) > t | H0 ) < 2P (Tn(1) > t | H0 ).
Действительно, из соотношения (35) следует, что для τn∗ < t < t∗n имеем
θn (t)
(1)
Fn−1 (ρn (t, −x))fTn (x)dx.
P (Tn(1,ts) > t | H0 )−2P (Tn(1) > t | H0 ) = Fn(1) (t)−Fn(1) (θn (t))+n
t
Используя формулу (30), можно записать
Fn(1) (t)
−
Fn(1) (θn (t))
= −n
θn (t)
fTn (x)dx
t
(здесь также учтено, что θn (t) > t, если τn∗ < t < t∗n ).
Тогда
θn (t)
(1)
(1,ts)
(1)
> t | H0 ) − 2P (Tn > t | H0 ) = n
(Fn−1 (ρn (t, −x)) − 1)fTn (x)dx.
P (Tn
t
n−1
√ .
Теперь заметим, что функция ρn (t, −x) является возрастающей по x, если n−1
nt < x <
n
n−1 n−1 ∗
∗
Легко также проверить, что (t, θn (t)) ⊆ nt , √n , если τn < t < tn и n > 3. Поэтому
ρn (t, −x) < ρn (t, −θn (t)) ≡
√n−2 , если
n−1
τn∗ < t < t∗n и
(1)
t < x < θn (t). Но тогда в силу равенства (2) имеем
t < x < θn (t). Следовательно,
Fn−1 (ρn (t, −x)) < 1, если
θn (t)
(1)
(Fn−1 (ρn (t, −x)) − 1)fTn (x)dx < 0 для τn∗ < t < t∗n .
n
t
Поэтому
(1,ts)
P (Tn
(1)
> t | H0 ) < 2P (Tn
> t | H0 ), если τn∗ < t < t∗n .
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
73
√ .
Таким образом, P (Tn
> t|H0 ) = 2P (Tn > t|H0 ), только если t∗n ≤ t < n−1
n
∗
Уровни значимости α(n; tn ) критерия наибольшего по модулю нормированного отклонения, соответствующие критическим значениям t∗n , можно найти из условия
(1,ts)
(1)
α(n; t∗n ) = 2P (Tn(1) > t∗n | H0 ) = 2(1 − Fn(1) (t∗n )),
где значение Fn (t∗n ) может быть найдено по формуле (30).
Очевидно, как только выбранный уровень значимости критерия α будет меньше, чем
(1,ts)
будут принадлежать
α(n; t∗n ), то отвечающие ему
√ критические значения статистики Tn
∗
промежутку (tn , (n − 1)/ n).
(1)
Таблица 1. Уровни значимости α(n; t∗n ) для критических значений t∗n рас(1,ts)
при справедливости нулевой гипотезы
пределения статистики Tn
n
4
5
6
7
8
9
t∗n α(n; t∗n )
1.22 0.734
1.41 0.557
1.58 0.423
1.73 0.320
1.87 0.240
2.00 0.179
n
10
11
12
13
14
15
t∗n α(n; t∗n )
2.12 0.133
2.24 0.099
2.35 0.073
2.45 0.054
2.55 0.039
2.65 0.029
n
16
17
18
19
20
21
t∗n α(n; t∗n )
2.74 0.021
2.83 0.015
2.92 0.011
3.00 0.008
3.08 0.006
3.16 0.004
n
22
23
24
25
t∗n α(n; t∗n )
3.24 0.003
3.32 0.002
3.39 0.002
3.46 0.001
Для вычисления уровней значимости α(n; t∗n ) применялась формула (30). Результаты численных расчетов α(n; t∗n ) по квадратурной формуле Симпсона для выборок объемов n от 4
до 25 приведены в табл. 1. Из таблицы видно, для каких уровней значимости критерия не
(1,ts)
, а достаобязательно строить таблицу критических точек распределения статистики Tn
(1)
точно воспользоваться распределением статистики Tn . В частности, для выборок объемом
(1,ts)
(1)
4 ≤ n ≤ 16 имеем Tcr (n; α = 0.02) = Tcr (n; α = 0.01), т. е. для 4 ≤ n ≤ 16 критические
(1,ts)
для уровня значимости α = 0.02 совпадают с
значения двусторонней статистики Tn
(1)
критическими значениями односторонней статистики Tn , полученными для α = 0.01.
(1,ts)
4. Распределение статистики Tn
при справедливости альтернативной
гипотезы
Найдем распределение статистики исследуемого критерия в случае, когда верна гипотеза H1 . Заметим, что в литературе отсутствуют аналитические формулы для вычисления
мощности исследуемого критерия по отношению к гипотезе H1 . Имеются лишь примеры
приближенных вычислений мощности этого критерия для некоторых альтернатив. Так,
в работе [8] приведены найденные методом Монте-Карло оценки мощности критерия для
случая одного или двух выбросов в нормальной выборке из двадцати наблюдений и уровня
значимости α = 0.01.
Обозначим
(1,ts)
(n; α) | H1 ).
(45)
P1 = P (Tn(1,ts) > Tcr
Ясно, что при фиксированном уровне значимости α мощность P1 критерия по отношению к H1 зависит от объема выборки n, параметров распределения выброса λ и ν, но не
зависит от того, какое именно наблюдение в выборке оказалось выбросом. Примем для
удобства, что выброс поступил в выборку последним, т. е. Xout = Xn . Случайная величина
74
Л.К. ШИРЯЕВА
Tn = (Xout − X)/S является стьюдентизированным отклонением выброса Xout от среднего,
найденным по выборке объема n. В случае, когда верна гипотеза H1 , плотность распределения вероятностей случайной величины Tn имеет вид [9], [10]
⎧
n−4
nt2
⎨Dn q − n−1
2
√ ;
2 (t) 1 −
H−n+1 − √ tµ , |t| < n−1
(n−1)2
n
2q(t)
(46)
fTn (t) =
n−1
⎩0,
|t| ≥ √ ,
где Dn =
η=
2Γ(n−1)
Γ( n−2
)
2
1+ν(n−1)
,
n
2
e−µ /2
√
Hk (z) =
n
η
π
1
Γ(−k)
n−2
(n−1)2
n−1
2, µ = λ
(n
−
1)
,
q(t)
=
η
+
(1
−
η)t
n
n
1+ν(n−1) ,
∞ −ξ 2 −2zξ −k−1
e
ξ
dξ — функция Эрмита с отрицательным целым
0
значком.
(1,ts)
, отвечающее некоторому уровню
Пусть t ≥ 0 — критическое значение статистики Tn
значимости α (0 ≤ α ≤ 1). Применяя определение (45), запишем
n−1
#
P1 (t) = P max{|T1 |, |T2 |, . . . , |Tn−1 |, |Tn |} > t = P ∪ (|Ti | > t) (|Tn | > t) .
i=1
Следовательно,
P1 (t) = 1 − P
Пусть t ≥
n−1
$
∩ (|Ti | < t) (|Tn | < t) .
i=1
(47)
n−1
√ .
n
Из соотношений (3), (5) и (46) вытекает, что областью значений любой из
√ , n−1
√
. Поэтому
случайных величин {T1 , T2 , . . . , Tn−1 , Tn } является интервал − n−1
n
n
n−1
$
n−1
.
P ∩ (|Ti | < t) (|Tn | < t) = 1 t ≥ √
i=1
n
Следовательно, P1 (t) = 0, если t ≥
Найдем функцию P1 (t) для 0 ≤
(i = 1, 2, . . . , n − 1) равносильно
n−1
√ .
n
√ .
t < n−1
n
С учетом соотношения (18) неравенство |Ti | < t
ρn (−t, Tn ) < Ti∗ < ρn (t, Tn ) (i = 1, 2, . . . , n − 1),
где ρn (u, v) вычисляется по формуле (12).
Далее (47) с учетом (48) примет вид
n−1
$
P1 (t) = 1 − P ∩ (ρn (−t, Tn ) < Ti∗ < ρn (t, Tn )) (−t < Tn < t) .
j=1
(48)
(49)
∗ } являются независимыми. Поэтому, испольСлучайные величины Tn и {T1∗ , T2∗ , . . . , Tn−1
√ представим в виде
зуя формулу (16), соотношение (49) для n ≥ 3 и 0 < t < n−1
n
t
Λn−1 (ρn (t, −x), ρn (t, x))fTn (x)dx,
(50)
P1 (t) = 1 −
−t
где плотность fTn (x) вычисляется по формуле (46), а функция распределения Λn (t1 , t2 ) —
по формуле (11).
√
Легко убедиться, что ρn (t, x)√— возрастающая функция аргумента x, если |t| ≤ 1/ n.
Тогда в области Q = [0 ≤ t ≤ 1/ n; −t < x < t] имеем
ρn (t, x) ≤ ρn (t, t) ≡ gn (t);
√
√
gn (t) ≤ gn (1/ n) ≡ 1/ n − 1.
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
75
Поэтому
√
ρn (t, x) < 1/ n − 1, если (t, x) ∈ Q.
Тогда, используя (51) и (11), получим
(51)
Λn−1 (ρn (t, −x), ρn (t, x)) = 0, если (t, x) ∈ Q.
Следовательно, соотношение (50) в случае n ≥ 3 примет вид
⎧
√
⎪
1,
если 0 ≤ t ≤ 1/ n;
⎪
⎪
⎨
t
√
√
P1 (t) = 1 − Λn−1 (ρn (t, −x), ρn (t, x))fTn (x)dx, если 1/ n < t < (n − 1)/ n;
⎪
−t
⎪
⎪
√
⎩
0,
если t ≥ (n − 1)/ n.
Для вычисления мощности критерия по формуле (50) разработан рекурсивный алгоритм,
реализованный на языке Object Pascal. Для численного интегрирования применялась квадратурная формула Гаусса, при этом значения функции Λm (x, y) вычислялись по формуле
(11), а плотности fTn (t) — по формуле (46).
На рис. 1 представлены результаты численных расчетов функции мощности P1 для значений параметра λ от −7 до 7 в случае, когда ν = 1 и объем выборки n = 14. Расчеты были
проведены на уровне значимости критерия α = 0.01. Как и следовало ожидать, кривая
мощности является симметричной. Вероятность не совершить ошибку второго рода близка
к уровню значимости критерия для |λ| ≤ 1 и становится близка к единице для |λ| > 6.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
l
0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
Рис. 1. График зависимости мощности P1 от параметра λ (случай α = 0.01,
n = 14, ν = 1).
(1,ts)
5. Пример использования статистики Tn
Пусть случайная величина X — степень износа основных фондов в области обрабатывающих производств на конец 2011 г. Величина X вычисляется как отношение накопленного к
определенной дате износа имеющихся основных фондов к полной учетной стоимости этих
основных фондов (на ту же дату) в процентах ([11], c. 425). Значения показателя X для
76
Л.К. ШИРЯЕВА
четырнадцати субъектов Приволжского федерального округа (ПФО) приведены во втором
столбце табл. 2 ([11], c. 422).
В качестве рабочей гипотезы примем, что случайная величина X распределена по нормальному закону. Регионы, входящие в состав ПФО, можно считать достаточно схожими по
многим показателям: географическим условиям, уровням цен, структуре расселения, промышленному и сельскохозяйственному потенциалам, валовому региональному продукту на
душу населения. Поэтому в данном случае естественно предположить, что вероятность
“засорения” исследуемой выборки весьма мала. С другой стороны, аномальная величина
показателя X в определенном регионе может быть порождена наличием в этом регионе
каких-то условий и механизмов, отличных от действующих в остальных регионах ПФО.
Поэтому выброс может возникнуть как наблюдение, аномально отклонившееся от среднего
как влево, так и вправо. Следовательно, для тестирования выборки на одно экстремальное
наблюдение можно использовать критерий наибольшего по абсолютной величине нормированного отклонения.
Таблица 2. Наблюдаемые значения показателя X в ПФО и рассчитанные
по ним стьюдентизированные отклонения
Наименование субъекта ПФО Xi , % Ti = (Xi − X)/S; Ti∗ = (Xi − X ∗ )/S ∗ ;
X = 43.4571%;
X ∗ = 42.05385%;
S = 6.5586%
S ∗ = 4.0906%
Республика Татарстан
35.3
−1.2437
−1.6511
Ульяновская область
36.9
−0.9998
−1.2599
Республика Мордовия
37.5
−0.9083
−1.1133
Оренбургская область
38.8
−0.7101
−0.7955
Саратовская область
41.4
−0.3137
−0.1598
Республика Марий Эл
41.6
−0.2832
−0.1109
Пензенская область
42.4
−0.1612
0.0846
Кировская область
43.3
−0.0240
0.3046
Удмуртская Республика
43.6
0.0218
0.3780
Нижегородская область
43.6
0.0218
0.3780
Республика Башкортостан
46.1
0.4030
0.9891
Пермский край
47.5
0.6164
1.3314
Чувашская Республика
48.7
0.7994
1.6248
Самарская область
61.7
2.7815
Выдвигаем гипотезу H0 : λ = 0, ν = 1 против альтернативы H1 : λ = 0. В третьем столбце табл. 2 приведены величины стьюдентизированных отклонений наблюдений
от среднего, найденные по исходной выборке из n = 14 наблюдений. Видно, что наблюдение для Самарской области является экстремальным, так как оно наиболее удалено от
(1,ts)
среднего. Поэтому наблюдаемое значение статистики t14 = 2.7815. Теперь заметим, что
(1,ts)
2.7815 = t14 > t∗14 = 2.5495. Тогда, используя табл. 1, получаем, что достигнутый уровень
значимости критерия удовлетворяет неравенству
(1,ts)
(1,ts)
> t14 | H0 < α(14, t∗14 ) = 0.039
P T14
или более точно
(1,ts)
P (T14
(1,ts)
> t14
| H0 ) ≈ 0.0082
О РАСПРЕДЕЛЕНИИ СТАТИСТИКИ
77
(здесь в численных расчетах использовалась формула (30)).
Таким образом, значение показателя X = 61, 7% для Самарской области следует признать аномальным и убрать из выборки.
Протестируем теперь “урезанную” выборку из тринадцати наблюдений на наличие выброса. В четвертом столбце табл. 2 приведены значения стьюдентизированных отклонений,
вычисленные по такой выборке. Видно, что наиболее удаленное от среднего значение показателя X присутствует на левом краю этой выборки; оно наблюдается для Республики
(1,ts)
(1,ts)
= 1.6511. Поскольку t13
= 1.6511 < t∗13 = 2.4495, то достигнутый уроТатарстан: t13
вень значимости для этого значения вычислим по формуле (35), используя рекурсивный
алгоритм вычисления значений функции Λm (x, y). В результате получим
(1,ts)
(1,ts)
> t13 | H0 ≈ 0.8514.
P T13
Следовательно, значение показателя X для Республики Татарстан нельзя считать аномальным. Таким образом, можно принять, что аномальная величина исследуемого показателя
наблюдается только в Самарской области.
Теперь предположим, что выброс отличается от остальной выборки только параметром
сдвига λ. В этом случае можно оценить мощность критерия проверки. Действительно, в
случае ν = 1 оценка параметра λ, полученная методом максимального правдоподобия,
имеет вид [12]
(1,ts)
Tn
%= √ n
.
λ
n − 1 (n−1)2 − T (1,ts) 2
n
n
% ≈ 5.2. Но тогда, как следует из рис. 1, для
= 2.7815 получаем λ
Следовательно, для
λ ≈ 5.2 на уровне значимости α = 0.01 мощность P1 ≈ 0.65.
(1,ts)
t14
Замечание. Применяя критерий Шапиро–Уилка к выборке, очищенной от выброса, легко
убедиться, что нулевая гипотеза нормальности распределения не отклоняется на уровне
значимости α = 0.05, в то время как для исходной выборки на таком уровне значимости
критерия нулевую гипотезу нормальности следует отклонить. Это может быть связано с
тем, что наличие выброса в выборке привело к грубым искажениям в оценках параметров
распределения a и σ. Действительно, из табл. 2 видно, что удаление из выборки аномального
наблюдения существенно изменило оценку параметра σ.
Автор выражает искреннюю благодарность рецензенту за конструктивную критику, позволившую улучшить содержание данной статьи.
Литература
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
Дэйвид Г. Порядковые статистики (Наука, М., 1979).
Barnett V., Lewis T. Outliers in statistical data (John Wiley & Sons, Chichester, 1984).
Grubbs F. Sample criteria for testing outlying observations, Ann. Math. Statist. 21 (1), 27–58 (1950).
Zhang J., Keming Y. The null distribution of the likelihood-ratio test for one or two outliers in a normal
sample, An Official Journal of the Spanish Society of Statistics and Operations Research 15 (1), 141–150
(2006).
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики (Наука, М., 1983).
Казакавичюс К.А. Приближенные формулы для статистической обработки результатов механических испытаний, Заводская лаборатория 54 (12), 82–85 (1988).
Verma S.P., Quiroz-Ruiz A. Critical values for 22 discordancy test variants for outliers in normal samples
up to size 100, and application in science and engineering, Revista Mexicana de Ciencias Geologicas 23 (3),
302–319 (2006).
Livesey J.H. Curtosis provides a good omnibus test for outliers in small samples, Clinical Biochemistry 40,
1032–1036 (2007).
78
Л.К. ШИРЯЕВА
[9] Ширяева Л.К. Вычисление мер мощности критерия Граббса проверки на один выброс, Сиб. журн.
индустр. матем. 13 (4), 141–154 (2010).
[10] Ширяева Л.К. Использование специальных функций Эрмита для исследования мощностных свойств
критерия Граббса, Вестн. Самарск. гос. техн. ун-та. Сер. физ.-матем. науки 29 (4), 131–145 (2012).
[11] Регионы России. Социально-экономические показатели. 2012: Стат. сб. (Росстат, М., 2012).
[12] Zhang J., Wang X. Unmasking test for multiple upper or lower outliers in normal samples, J. Appl. Statistics
25 (2), 257–261 (1998).
Л.К.Ширяева
доцент, кафедра математической статистики и эконометрики,
Самарский государственный экономический университет,
ул. Советской Армии, д. 141, г. Самара, 443090, Россия,
e-mail: Shiryeva_LK@mail.ru
L.K. Shiryaeva
On null and alternative distribution of statistics of two-side discordancy test for an
extreme outlier
Abstract. We find the joint distribution of Grubbs statistics for a normal sample. Those statistics
are standardized maximum and standardized minimum. We note some properties of the joint
distribution function. We apply the joint distribution function and find the exact distribution of the
test statistics which uses in two-side discordancy test for an extreme outlier. We obtain recursive
relationships for the distribution function of the statistics, which uses in two-side discordancy test.
We obtain the region of critical values of the statistics, where the significance level of criteria
equals the double significance level of the Grubbs criteria. We apply the joint distribution of
Grubbs statistics and find the power function for the criteria in the case of a normal sample with
a single outlier.
Keywords: outlier, two-side discordancy test for an extreme outlier, the joint distribution of Grubbs
statistics, the power function for the criteria, normal sample.
L.K. Shiryaeva
Associate Professor, Chair of Mathematical Statistics and Econometrics,
Samara State Economic University,
141 Sovetskoi Armii str., Samara, 443090 Russia,
e-mail: Shiryeva_LK@mail.ru
1/--страниц
Пожаловаться на содержимое документа