close

Вход

Забыли?

вход по аккаунту

?

Функции регрессии наблюдений и их рангов.

код для вставкиСкачать
УДК: 519.234.7
Ф.П. Тарасенко, В.П. Шуленин
ФУНКЦИИ РЕГРЕССИИ НАБЛЮДЕНИЙ И ИХ РАНГОВ
Рассматриваются характеристики связи между исходными наблюдениями и их рангами. Приведены формулы для вычисления функций регрессии и коэффициента корреляции между исходными наблюдениями и их рангами. Получены приближенные формулы вычисления математических ожиданий порядковых статистик для широких классов распределений.
Пусть X случайная величина (с.в.) с функцией
распределения (ф.р.) вероятностей FX . На практике
обычно ф.р. частично либо полностью неизвестна, в
связи с чем возникают статистические задачи, связанные с уточнением статистической модели ( Χ, ℑ) , где
Χ – выборочное пространство и ℑ = {FX } – множество допустимых ф.р. в условиях данного статистического эксперимента. Основой для решения статистических задач служит информация, содержащаяся в
выборке X1 ,..., X n , полученной в результате n повторных и независимых наблюдений над с.в. X . Отметим, что эта информация может быть разделена на
две части. Одна из них содержится в упорядоченной
статистике X (⋅) = ( X (1) ,..., X ( n ) ) , а другая – в рангах
R1 ,..., Rn наблюдений X1 ,..., X n . Статистические процедуры, построенные в рамках параметрических моделей, обычно основаны на исходных наблюдениях
X1 ,..., X n , а статистические процедуры непараметрической и робастной статистики (см. например [1] и
[2]), основаны либо на порядковых статистиках, либо
на рангах наблюдений. Для описания свойств таких
процедур в литературе (см. например [3] и [4]) подробно описаны статистические характеристики порядковых статистик и рангов наблюдений. В частности, в работе [3] показано, что если совместная плотность f X1 ,..., X n ( x1 ,..., xn ) случайных величин X1 ,..., X n
является симметричной функцией своих аргументов,
то упорядоченная статистика X (⋅) = ( X (1) ,..., X ( n ) ) и
ранговый вектор R = ( R1 ,..., Rn ) независимы. В продолжение работы авторов [5] в настоящей работе изучаются вопросы статистической связи между исходными наблюдениями и их рангами. Получены выражения для функций регрессии наблюдений и их рангов, а также предложены приближенные формулы
вычисления этих функций и коэффициента корреляции для достаточно широкого класса распределений
ℑλ , квантильные функции которых записываются с
помощью λ -аппроксимации Тьюки [6].
Пусть X = ( X 1 ,..., X n ) выборка из распределения
FX ( x) с плотностью f X ( x) , x ∈ R1 , то есть предполагаем, что X1 ,..., X n – н.о.р. случайные величины с ф. р.
FX . Пусть далее, X (⋅) = ( X (1) ,..., X ( n ) ) – упорядочен-
ная статистика и R = ( R1 ,..., Rn ) – ранговый вектор для
выборки X = ( X 1 ,..., X n ) . Отметим, что по выборке
однозначно определяются упорядоченная статистика и
ранговый вектор и обратно – знание порядковых статистик и рангов наблюдений позволяет однозначно восстановить исходные наблюдения. Таким образом, меж-
ду исходной выборкой X и парой { X (⋅) , R} существует взаимно однозначное соответствие, то есть
( X 1 ,..., X n ) ⇔ {( X (1) ,..., X ( n ) ) , ( R1 ,..., Rn )} .
(1)
Теорема 1. Пусть X1 ,..., X n – н.о.р. случайные величины с ф.р. FX и плотностью f X ( x) , x ∈ R1 . Пусть
далее Ri ранг наблюдения X i , i = 1,..., n и пусть
FX i Ri ( x, y ) – совместная функция распределения, а
FX i ( x) и FRi ( y ) – маргинальные ф.р. случайных ве-
личин
Xi
и
Ri ,
i = 1,..., n . Тогда
FX i Ri ( x, y ) ≠
FX i ( x) ⋅FRi ( y ) , то есть случайные величины X i и Ri ,
i = 1,..., n – являются зависимыми случайными величинами.
Доказательство. Поскольку X1 ,..., X n – н.о.р.
случайные величины, то реализация r1 ,..., rn рангов
R1 ,..., Rn наблюдений X1 ,..., X n является перестановкой чисел 1, 2,..., n и следовательно, ранг Ri наблюдения X i , i = 1,..., n , является дискретной случайной
величиной с возможными значениями 1, 2,..., n и их
вероятностями
P{Ri = j} = 1/ n , 1 ≤ i, j ≤ n .
(2)
Функция распределения вероятностей случайной
величины Ri для ∀i ∈ (1,..., n) записывается в виде
n
FRi ( y ) = n −1 ∑ C ( y − j ) ,
y ∈ R1 ,
(3)
j =1
где C ( x − x0 ) – единичная функция Хевисайда, определяемая в виде
⎧1, x ≥ x0 ,
C ( x − x0 ) = ⎨
⎩0, x < x0 .
(4)
Далее, согласно определению ранга наблюдения,
выполняются равенства X i = d X ( Ri ) , i = 1,..., n , из которых следует, что условная плотность наблюдения
X i , при условии, что ранг этого наблюдения Ri = j ,
1 ≤ i, j ≤ n , совпадает с плотностью j-й порядковой
статистики, то есть для x ∈ R1
f X i Ri = j ( x j ) = f X ( j ) ( x) =
= nCnj−−11 FXj −1 ( x)(1 − FX ( x)) n − j f X ( x) , 1 ≤ i, j ≤ n . (5)
Учитывая теперь, что ( X i , Ri ) , i = 1,..., n , являются двумерными случайными величинами смешанного
типа (см. [4] ), где первая компонента X i является
непрерывной с.в. с ф.р. FX , а вторая компонента Ri
является дискретной с.в. с ф.р. FRi ( y ) , определенной
213
в (3), запишем выражение для совместной ф.р. случайных величин X i и Ri , i = 1,..., n . Используя (3) и
(5), получим
x
FX i Ri ( x, y ) = FRi ( y ) ⋅
∫
−∞
f X i Ri = j ( x j )dx =
n
= n −1 ∑ C ( y − j ) FX ( j ) ( x) .
(6)
j =1
Отметим, что из (6) следуют выражения для маргинальных ф.р. случайных величин X i и Ri ,
i = 1,..., n . В самом деле, FX i Ri (+ ∞, y ) = FRi ( y ) и
n
FX i ( x) = FX i Ri ( x, + ∞) = n −1 ∑ FX ( j ) ( x) =
j =1
n
n −1 ∑ nCnj−−11
FX ( x )
∫
j =1
=
FX ( x )
⎛
0
⎝
u j −1 (1 − u ) n −i du =
(7)
0
n
⎞
FX ( x )
⎠
0
Cnj−−11u j −1 (1 − u ) n − j ⎟ du = ∫
∫ ⎜⎜ ∑
⎟
j =1
du = FX ( x) ,
на
Ri
гда и только тогда, когда выполняется равенство
FX ( j ) ( x) = FX ( x) , ∀x ∈ R1 . Однако, это равенство не
x ∈ R . Справедлива сле-
M ( Ri X i = x) = 1 + (n − 1) FX ( x) , x ∈ R1 ,
(10)
а функция регрессии наблюдения X i на его ранг Ri ,
∀i ∈ (1,..., n) определена лишь в дискретном наборе
точек с координатами ( j , M ( X ( j ) )) и равна
M ( X i Ri = j ) = M ( X ( j ) ) , 1 ≤ i, j ≤ n .
(11)
Доказательство. Используя (9), получаем функцию регрессии ранга Ri на наблюдение X i ,
∀i ∈ (1,..., n) , в виде
n
f X i Ri ( x, y ) = n −1 ∑ f X ( j ) ( x) δ( y − j ) .
(8)
j =1
Отсюда, в частности, следует формальное выражение для условной плотности дискретной случайной
величины Ri , i = 1,..., n , в виде
⎡ n j −1 j −1
⎤
y
Cn −1 FX ( x)(1 − FX ( x)) n − j ⎥ δ( y − j )dy =
⎢
∫ ⎢∑
⎥⎦
−∞ ⎣ j =1
n
+∞
j =1
−∞
= ∑ Cnj−−11 FXj −1 ( x)(1 − FX ( x)) n − j
y δ( y − j )dy =
n
j =1
n −1
= ∑ (k + 1)Cnk−1 FXk ( x)(1 − FX ( x)) n −1− k =
k =0
= 1 + (n − 1) FX ( x) , x ∈ R1 .
Отметим, что эта функция не зависит от индекса
i , что является следствием независимости и одинаковой распределенности случайных величин X1 ,..., X n .
Далее, согласно определению, функция регрессии
наблюдения X i на его ранг Ri , с учетом (5),
∀i ∈ (1,..., n) , запишется в виде
+∞
M ( X i Ri = j ) =
f Ri X i = x ( y x) = n −1 ∑ [ f X ( j ) ( x) / f X ( x)] δ( y − j ) ,
∫x
−∞
j =1
M ( X i Ri = j ) , 1 ≤ i, j ≤ n , и функций регрессии ранга
∫
= ∑ jCnj−−11 FXj −1 ( x)(1 − FX ( x)) n − j =
n
1≤ i ≤ n.
(9)
Приведенная теорема 1 устанавливает факт статистической связи между случайными величинами X i и
Ri , i = 1,..., n . Обсудим теперь характер статистической связи между этими случайными величинами, который определяется распределениями (2), (5) и (6).
Используя эти распределения, с учетом замечания 1,
получим выражения для функций регрессии наблюдения X i на его ранг Ri , обозначим их через
y f Ri X i = x ( y x)dy =
+∞
=
FX i Ri ( x, y ) ≠
ны X i и Ri , i = 1,..., n , зависимы. Доказательство завершено.
Замечание 1. Использование понятия δ -функции
Дирака, позволяет определить формальное выражение
для совместной плотности двумерных случайных величин ( X i , Ri ) , i = 1,..., n смешанного типа в виде
∫
−∞
FX i ( x) ⋅FRi ( y ) и это означает, что случайные величи-
214
через
+∞
произведения маргинальных ф.р. FX i ( x) и FRi ( y ) то-
следовательно,
их
1
личины с ф. р. FX и плотностью f X ( x) , x ∈ R1 .
Пусть далее Ri – ранг наблюдения X i , i = 1,..., n . Тогда функция регрессии ранга Ri на наблюдение X i ,
∀i ∈ (1,..., n) , имеет вид
M [ Ri X i = x] =
Окончательно из формулы (6) следует, что совместная ф.р. FX i Ri ( x, y ) может быть представлена в виде
и,
обозначим
дующая теорема.
Теорема 2. Пусть X1 ,..., X n н.о.р. случайные ве-
i = 1,..., n , x ∈ R .
места
Xi ,
M ( Ri X i = x) , 1 ≤ i ≤ n ,
1
имеет
наблюдение
f X i Ri = j ( x j )dx =
+∞
=
∫x
−∞
f X ( j ) ( x)dx = M ( X ( j ) ) , 1 ≤ i, j ≤ n .
Отметим, что эта функция также не зависит от индекса i и определена лишь для j = 1,..., n . Доказательство завершено.
Замечание 2. Вычисление математических ожиданий порядковых статистик в общем случае для произвольной ф.р. FX вызывает аналитические трудности. В связи с этим составлены таблицы математических ожиданий порядковых статистик для различных
объемов выборки n ( обычно для n ≤ 20 ) и для раз-
личных, наиболее употребительных на практике, распределений вероятностей. Наиболее полные таблицы
приведены в [7]. В тех случаях, когда таблицы недоступны, или ими нельзя воспользоваться из-за их ограниченности, используют различные аппроксимационные формулы. В частности, для этой цели может быть
использована λ -аппроксимация Тьюки для обратной
функции
FX−1
ф.р. FX , которая записывается в виде
ℑλ = { FX :
FX−1 (u )
≈
λ1 + λ −21[u λ3
λ4
− (1 − u ) ]} , (12)
где λ1 ,..., λ 4 заданные постоянные. Методы вычисления этих постоянных, обеспечивающие нужную для
практики точность при аппроксимации обратной
функции FX−1 (u ) , 0 ≤ u ≤ 1 , приведены в [6]. Использование (12) позволяет записать приближенную формулу для вычисления M ( X i Ri = j ) , 1 ≤ i, j ≤ n в виде
M ( X i Ri = j ) = M ( X ( j ) ) =
1
= nCnj−−11 ∫ FX−1 (u )u j −1 (1 − u ) n − j du ≈
0
⎡ λ B ( j , n) + λ −21 B (λ 3 + j , n − j + 1) − ⎤
≈ nCnj−−11 ⎢ 1 −1
⎥ ,
⎣ −λ 2 B ( j , λ 4 + n − j + 1)
⎦
1 ≤ i, j ≤ n ,
(13)
где B (m, n) – бета функция.
Пример. Приведем вычисление функций регрессии для гауссовского случая, то есть для
FX ( x) = Φ( x) , где Φ ( x) – стандартная нормальная
функция распределения вероятностей. В этом случае
λ -аппроксимация Тьюки для обратной функции Φ −1
ф.р. Φ ( x) запишется в виде
Φ λ−1 (u ) ≈ [u 0,135 − (1 − u )0,135 ]/ 0,1975 ,
что соответствует следующему набору параметров:
λ1 = 0, λ3 = λ 4 = 0,135, λ 2 = 0,1975 . При таких значениях параметров качество аппроксимации вида (12)
очень высокое и оно характеризуется неравенством
Φ λ−1 (u ) − Φ −1 (u ) < 0, 001 , ∀u ∈ [0 ; 1] . Численные зна-
чения функции регрессии, вычисленные по формуле
(13), приведены в табл. 1.
Таблица 1
Значения функции регрессии M ( X i Ri = j ) = M ( X ( j ) )
для нормального распределения
j
n =19
j
n =19
1
–1,844
6
–0,548
2
–1,378
7
–0,402
3
–1,099
8
–0,264
4
–0,886
9
–0,131
5
–0,707
10
0
Отметим, что в табл.1. значения M ( X ( j ) ) при n = 19
для j = 11,...,19 не приведены, так как стандартное
нормальное распределение симметрично относительно нуля и, следовательно, M ( X ( n − r +1) ) = − M ( X ( r ) ) ,
r = 1,..., n . Отметим также, что данные табл.1 c точностью до трех знаков после запятой совпадают с дан-
ными в таблице 13.1. работы [7], которая содержит
математические ожидания порядковых статистик для
нормального распределения. Численные значения
функции регрессии, вычисленные по формуле (10),
приведены в табл. 2.
Таблица 2
Значения функции регрессии M ( Ri X i = x ) = 1 + ( n −1)Φ( x )
для нормального распределения
x
n=19
–3
1,018
–2
1,414
–1
3,862
0
10
1
2
3
16,138 18,586 18,982
Качественный анализ поведения функций регрессий M ( Ri X i = x) , x ∈ R1 и M ( X i Ri = j ) , j = 1,..., n ,
для нормального распределения при различных объемах выборки n показывает, что эти функции пересекаются и их угол пересечения при увеличении объема
выборки n неограниченно убывает, что говорит об
усилении связи между случайными величинами X i и
Ri , i = 1,..., n . Этот вывод сохраняется и для других
распределений.
Для количественной оценки зависимости между
случайными величинами X i и Ri , i = 1,..., n получим
выражение для коэффициента корреляции ρ X i Ri ,
i = 1,..., n . Справедлива следующая теорема.
Теорема 3. Пусть X1 ,..., X n – н.о.р. случайные ве-
личины с ф. р. FX и плотностью f X ( x) , x ∈ R1 и
пусть R = ( R1 ,..., Rn ) – ранговый вектор для выборки
X = ( X 1 ,..., X n ) . Тогда коэффициент корреляции
ρ X i Ri случайных величин X i и Ri , i = 1,..., n , зависит
от ф.р. FX через отношение двух функционалов, характеризующих масштабный параметр с.в. X , и вычисляется ∀i ∈ (1,..., n) по формуле
1/ 2
ρ X i Ri ( F ) =
3 ⎛ n −1 ⎞
⎜
⎟
2 ⎝ n +1⎠
Δ( F )
,
S (F )
(14)
где Δ( F ) – средняя разность Джини, определяемая в
виде
+∞ +∞
Δ( F ) =
∫ ∫
x − y dFX ( x)dFX ( y ) ,
(15)
−∞ −∞
и S ( F ) – стандартное отклонение, определяемое в
виде
1/ 2
⎛ 1 +∞ +∞
⎞
S ( F ) = ⎜ ∫ ∫ ( x − y ) 2 dFX ( x)dFX ( y ) ⎟ .
(16)
⎜2
⎟
⎝ −∞ −∞
⎠
Доказательство. Согласно определению, коэффициент корреляции ρ X i Ri случайных величин X i и
Ri , i = 1,..., n , записывается в виде
ρ X i Ri =
M ( X i , Ri ) − M ( X i ) M ( Ri )
D( X i ) D( Ri )
.
(17)
Нетрудно убедиться, что ∀i ∈ (1,..., n)
M ( Ri ) = (n + 1) / 2 , D( Ri ) = (n 2 − 1) /12 .
(18)
215
Далее, используя (8), получаем
непрерывной ф.р. FX с ограниченной сверху плотностью f X . В самом деле, используя равенство
+∞ +∞
M ( X i Ri ) =
∫ ∫ xy f X R ( x, y)dxdy =
i i
−∞ −∞
+∞ +∞
n
fX
∫ ∫ xy n ∑
j =1
−1
−∞ −∞
n +∞
= n −1 ∑
∫
j =1
−∞
+∞
Δ( F ) = 2
( j)
( x)δ( y − j )dxdy =
получаем следующее неравенство
+∞
FX ( x)(1 − FX ( x))
dFX ( x) ≥ 2[Sup{ f X ( x)}]−1 ×
f
(
x
)
x
X
−∞
Δ( F ) = 2 ∫
xj f X ( j ) ( x)dx =
+∞
⎡n
⎤
= ∫ x f X ( x) ⎢ ∑ jCnj−−11 FXj −1 ( x)(1 − FX ( x)) n − j ⎥ dx =
⎢⎣ j =1
⎥⎦
−∞
+∞
=
∫ FX ( x)(1 − FX ( x))dx ,
−∞
× ∫ ( FX ( x) − FX2 ( x))dFX ( x) =
−∞
+∞
= 2[Sup{ f X ( x)}]−1[1/ 2 − 1/ 3] = (1/ 3)Sup f X ( x) .
−∞
Отсюда, с использованием (14), при больших объемах
выборки n , получаем для любой непрерывной ф.р.
FX с ограниченной сверху плотностью f X следующее неравенство
∫ x f X ( x) [(n − 1) FX ( x) + 1] dx =
+∞
+∞
−∞
−∞
= (n − 1) ∫ xFX ( x)dFX ( x) +
x
∫ xdFX ( x) .
Подставив найденные выражения в (17), и учитывая,
ρ XR ( F ) ≥ [2 3 ⋅ S ( F ) ⋅ Sup{ f ( x)}]−1 ,
+∞
что Δ ( F ) = 4
∫ ( xFX ( x) − x / 2)dFX ( x) , получаем фор-
−∞
мулу (14). Доказательство завершено.
Замечание 3. Вычисление ρ X i Ri ( F ) ∀i ∈ (1,..., n)
для каждой конкретной ф.р. FX может быть проведено непосредственно. Например, в гауссовском случае,
то есть при FX ( x) = Φ( x) , имеем: Δ(Φ ) = 2 / π ,
S (Φ) = 1 и, следовательно, согласно (14) при больших
объемах выборки n , получаем ρ XR (Φ ) = 3 / π = 0,98 .
Также нетрудно убедиться, что для логистического
распределения коэффициент корреляции между наблюдением и его рангом равен 0,95, а для распределения Лапласа он равен 0,92. Более того, можно указать
нижнюю границу, которая справедлива для любой
x
x
которое в гауссовском случае приобретает вид
ρ XR (Φ ) ≥ 0, 72 . Отметим еще одно полезное неравенство. Поскольку Δ ( F ) > 0 и S ( F ) > 0 , то правая часть
в (14) также положительная величина. Кроме того,
ρ XR ( F ) ≤ 1 и, следовательно, 0 ≤ ρ XR ( F ) ≤ 1 , то есть
наблюдение и его ранг положительно коррелированные случайные величины. Далее, из неравенства
3Δ ( F ) ≤ 2S ( F ) ,
следует неравенство
Δ( F ) ≤ 2S ( F ) / 3 ,
которое справедливо для любых абсолютно непрерывных функций распределения FX .
ЛИТЕРАТУРА
1.
2.
3.
4.
5.
Тарасенко Ф.П. Непараметрическая статистика. Томск: Изд-во Том. ун-та, 1976.
Шуленин В.П. Введение в робастную статистику. Томск: Изд-во Том. ун-та, 1993.
Гаек Я. , Шидак З. Теория ранговых критериев / Пер. с англ. под ред. Л.Н. Большева. М.: Наука, 1971.
Уилкс С. Математическая статистика. М. : Наука, 1967.
Тарасенко Ф.П., Шуленин В.П. О статистической связи между наблюдением и его рангом // Труды СФТИ при Том. ун-те. 1971. Вып. 62.
С. 220–228.
6. Ramberg J.S. , Schmeiser B.W. An approximative method for generating symmetric random variables // Commun. ACM. 1972. V. 15. P. 987–
990.
7. Введение в теорию порядковых статистик / Пер. с англ. под ред. А.Я. Боярского. М.: Статистика, 1970.
Статья представлена кафедрой теоретической кибернетики факультета прикладной математики и кибернетики Томского государственного
университета, поступила в научную редакцию 30 апреля 2003 г.
216
Документ
Категория
Без категории
Просмотров
7
Размер файла
394 Кб
Теги
регрессии, функции, наблюдения, рангов
1/--страниц
Пожаловаться на содержимое документа