close

Вход

Забыли?

вход по аккаунту

?

Постовалов С.Н., Ишалина М.А. Исследование распределений

код для вставкиСкачать
«АКТУАЛЬНЫЕ ПРОБЛЕМЫ ЭЛЕКТРОННОГО ПРИБОРОСТРОЕНИЯ» АПЭП – 2010
Исследование распределений
статистик критериев однородности
по многократно цензурированным
выборкам фиксированного объема
Ишалина М.А., Постовалов С.Н.
Факультет прикладной математики и информатики
Новосибирский государственный технический университет
ishalina@ngs.ru, postovalov@ngs.ru
Сравнение двух кривых жизни
Сравнение двух кривых жизни на сегодняшний день не
является какой-то новой проблемой, так как уже на
протяжении
многих
лет
встречается
в
анализе
выживаемости и теории надежности.
К примеру, в анализе выживаемости - это сравнение
действенности лекарственного препарата на двух группах
больных, причем это может быть сравнение двух разных
препаратов.
Также, может быть сравнение разных доз одного
препарата, а возможны и такие опыты, когда одной группе
заболевших совсем не дают никаких лекарств.
В теории надежности - это сравнение двух групп деталей
на надежность, когда необходимо определить является ли
новая модель или модификация какой-либо детали
надежней своей предшественницы.
2
Критерии сравнения двух кривых жизней
Основная проблема анализа данных выживаемости в
том, что часто нет возможно наблюдать каждый объект
на протяжении всего времени, до конца. Таким
образом, мы имеем цензурирование или неполные
данные.
Для
таких
случаев
требуются
специальные
статистические методы.
Рассматриваемые критерии:
Критерий Гехана (1965)
Логарифмический ранговый критерий (1972)
Критерий Кокса-Мантела (1966)
3
Проверяемая гипотеза
1 1
1
2 2
2
Пусть имеется две выборки T1 ( t1 , t 2 ,..., t n ) и T2 ( t1 , t 2 ,..., t n )
объемами n1 и n 2 соответственно.
1
2
Где t i j это полное или цензурированное наблюдение.
S1 (t )
- функция выживаемость для T1
S 2 (t )
- функция выживаемость для T 2
Основная гипотеза имеет вид
H
(1)
: S (t ) S (t )
0 1
2
и альтернативы к ней
H : S (t ) S (t )
1 1
2
4
H
: S (t ) S (t )
2 1
2
H
: S (t ) S (t )
3 1
2
Вычисление статистик критериев
Объединим выборки T1 и Т2 и отсортируем полученную
выборку по возрастанию.
где n=n1+n2
T ( t1 , t 2 , ..., t n )
Пусть
0, if t i T1
vi 1, if t i T 2 ,
(2)
и
1, если t i цензурированное наблю дение
ci 0, если t i полное наблю дение
5
5
(3)
Критерий Гехана
Каждого больного из первой группы сравнивают с каждым
больным из второй группы.
1, if t i t j & c j 0 & i 0 & j 1
hij 1, if t i t j & c i 0 & i 0 & j 1
0, иначе
n
hi j
hij .
(4)
j 1
Затем вычислим величины:
n
UG i 1
(1 i ) hi
IG n1 n 2
n
n ( n 1)
,
(1 i ) h .
2
i
i 1
Окончательная статистика критерия имеет вид: S G
6
(5)
UG
IG
(6)
Логарифмический ранговый критерий
Статистика критерия имеет вид:
SL UL
(7)
,
IL
где:
i
n
UL w
i
,
w i (1 c i ) i 1
n i 1 n1 n 2
n
I L (1 c i )
n i n ( n 1)
i 1
7
j 1
1
n j
,
(8)
(9)
Критерий Кокса-Мантела
Статистика критерия имеет вид:
S CM U CM
(10)
I CM
где:
n
U C M r2 (11)
(1 c i ) A( i ) ,
i 1
n
I CM (1 c
i
) A( i ) 1 A( i ) (12)
i 1
n
r2 i 1
8
i
(1 c i )
A( i ) 1
n
ni
ji
j
Распределение статистик критериев
Предельный закон распределения статистик
рассмотренных критериев - стандартное нормальное
распределение с функцией распределения:
1
Ф t 2
t
e
x
2
2
dx
(13)
0
Таким образом, основная гипотеза отвергается, если:
S Ф 1 2
1
где 9
- ошибка первого рода.
(14)
Основная задача
При каком размере выборки расстояние между
распределением статистики и предельным законом
не превышает заданного?
D n sup Fn ( x ) F ( x ) x
n ?
где
Fn ( x ) - функция распределения статистики
при фиксированном n
F ( x)
10
- функция распределения статистики
при n (15)
Выбор
Для большинства задач проверки статистических
гипотез, погрешность в определении достигнутого
уровня значимости может быть равна 1%.
Итак, пусть
0 .0 1
11
(16)
Компьютерное моделирование
В работе мы получаем распределение статистик
критериев с помощью компьютерного
моделирования.
Алгоритм:
моделируем две полные или цензурированные
выборки объема n = n1 =n2 по заданному
распределению,
затем вычисляем значение статистики критерия и
повторяем этот процесс N раз.
12
Рассмотренная модель
В работе выборки моделировались по закону
распределения Вейбулла с функцией распределения:
x F ( x , ) 1 exp , x 0
где α=2 и λ=1.
13
(17)
Выбор N - объема выборки статистик
Какое количество выборок нужно смоделировать, чтобы
погрешность моделирования была не больше заданной?
Согласно ЦПТ можем построить доверительный интервал
P Fn , N ( x ) Fn ( x ) 2Ф ( ) 1 , N (18)
где Fn , N ( x ) - эмпирическая функция распределения
Следовательно
N t
2
Fn ( x )(1 Fn ( x ))
2
2
N t
4
2
, t 1 1
2
(19)
Пусть 0.99, 0.001
Тогда
14
N 1 658 944
(20)
Исследования
Поскольку Fn ( x ) неизвестно, будем наблюдать расстояние
D n , N sup Fn , N ( x ) F ( x )
x
15
(21)
Распределение статистики критерия Гехана при
малых объемах выборок и без цензурирования
16
11
Распределение статистики критерия Гехана при
малых объемах выборок с цензурирования
17
Статистика критерия Гехана при различных
процентах цензурирования, n1 = n2 = 20
18
Dn,N для статистики Гехана (различных объем
и степень цензурирования)
Степень цензурирования
Объем
выборки
0
5
10
15
20
25
30
35
40
45
50
9
0,020
0,020
0,020
0,012
0,012
0,011
0,011
0,014
0,014
0,016
0,016
10
0,017
0,017
0,009
0,009
0,010
0,010
0,011
0,011
0,012
0,012
0,014
11
0,015
0,015
0,008
0,008
0,008
0,008
0,009
0,009
0,011
0,011
0,011
12
0,014
0,014
0,007
0,007
0,008
0,008
0,008
0,009
0,009
0,010
0,010
13
0,012
0,012
0,007
0,007
0,006
0,007
0,007
0,008
0,009
0,009
0,010
14
0,011
0,011
0,005
0,006
0,006
0,006
0,007
0,007
0,008
0,009
0,010
15
0,010
0,010
0,006
0,005
0,006
0,006
0,006
0,007
0,009
0,009
0,009
16
0,009
0,009
0,004
0,005
0,005
0,006
0,006
0,007
0,008
0,009
0,010
17
0,009
0,009
0,004
0,004
0,004
0,005
0,006
0,006
0,007
0,009
0,009
18
0,008
0,008
0,003
0,004
0,004
0,005
0,006
0,007
0,008
0,009
0,009
19
0,007
0,007
0,003
0,003
0,004
0,005
0,006
0,007
0,007
0,008
0,009
20
0,007
0,003
0,003
0,003
0,005
0,006
0,006
0,007
0,008
0,008
0,009
21
0,006
0,003
0,003
0,004
0,004
0,005
0,006
0,007
0,007
0,008
0,009
22
0,006
0,002
0,003
0,004
0,004
0,005
0,006
0,006
0,007
0,008
0,009
23
0,006
0,003
0,003
0,003
0,004
0,004
0,005
0,007
0,008
0,008
0,008
24
0,006
0,002
0,003
0,003
0,003
0,005
0,006
0,006
0,007
0,008
0,009
25
0,005
0,002
0,002
0,002
0,004
0,005
0,006
0,006
0,007
0,008
0,008
19
Зависимость Dn,N от n статистики критерия
Гехана
0,02
y = 0,372x-1,33
R² = 0,997
0,018
0,016
Distance (Dn)
0,014
0,012
50%
0,01
0,008
0,006
0,004
0%
0,002
0
10
100
Sample size (n)
20
1000
Dn,N для статистики логрангового критерия
Уровинь цензурирования
Объем
выборки
0
5
10
15
20
25
30
35
40
45
50
10
0,014
0,014
0,009
0,009
0,009
0,009
0,011
0,011
0,013
0,013
0,015
11
0,012
0,012
0,008
0,008
0,008
0,008
0,011
0,011
0,012
0,012
0,014
12
0,012
0,012
0,008
0,008
0,008
0,010
0,010
0,012
0,012
0,014
0,015
13
0,011
0,011
0,007
0,007
0,007
0,009
0,009
0,011
0,013
0,013
0,014
14
0,010
0,010
0,007
0,007
0,007
0,008
0,010
0,010
0,012
0,014
0,015
15
0,010
0,010
0,007
0,006
0,008
0,008
0,010
0,011
0,013
0,013
0,015
16
0,009
0,009
0,006
0,006
0,007
0,009
0,009
0,011
0,012
0,014
0,016
17
0,009
0,009
0,006
0,005
0,007
0,009
0,010
0,010
0,012
0,014
0,015
18
0,008
0,008
0,005
0,005
0,006
0,008
0,010
0,011
0,013
0,015
0,016
19
0,008
0,008
0,005
0,005
0,006
0,008
0,009
0,011
0,012
0,014
0,015
20
0,008
0,005
0,004
0,006
0,007
0,009
0,010
0,012
0,013
0,015
0,016
21
0,007
0,005
0,004
0,005
0,007
0,008
0,009
0,011
0,013
0,014
0,016
25
0,006
0,005
0,003
0,004
0,007
0,008
0,009
0,011
0,013
0,015
0,016
100
0,002
0,001
0,002
0,004
0,005
0,007
0,008
0,009
0,011
0,012
0,013
200
0,002
0,001
0,002
0,003
0,005
0,006
0,007
0,008
0,009
0,009
0,010
300
0,001
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,008
0,009
400
0,001
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,007
0,007
0,008
21
Зависимость Dn от n для статистики
логарифмического рангового критерия
0,020
0,018
50%
0,016
Distance (Dn)
0,014
0,012
Dn(n) = 0,0947n-0,8423
R2 = 0,9863
0,010
0,008
0,006
0,004
0%
0,002
0,000
10
100
Sample size (n)
22
1000
Dn,N для статистики Кокса-Мантела
Объем
выборки
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
50
100
150
200
500
23
Уровень цензурироваия
0
0,029
0,023
0,018
0,015
0,013
0,013
0,011
0,010
0,010
0,009
0,009
0,008
0,008
0,008
0,007
0,007
0,007
0,006
0,004
0,002
0,002
0,001
0,001
5
0,029
0,023
0,018
0,015
0,013
0,013
0,011
0,010
0,010
0,009
0,009
0,008
0,008
0,008
0,007
0,004
0,004
0,004
0,003
0,001
0,001
0,001
0,001
10
0,029
0,023
0,018
0,015
0,013
0,006
0,006
0,005
0,005
0,005
0,005
0,005
0,005
0,004
0,004
0,002
0,002
0,002
0,002
0,002
0,003
0,002
0,002
15
0,029
0,023
0,009
0,008
0,006
0,006
0,006
0,005
0,005
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
0,002
20
0,020
0,011
0,009
0,008
0,006
0,001
0,001
0,001
0,002
0,002
0,003
0,003
0,003
0,003
0,003
0,005
0,004
0,004
0,004
0,004
0,004
0,004
0,004
25
0,020
0,011
0,009
0,001
0,001
0,001
0,001
0,004
0,004
0,004
0,003
0,006
0,006
0,005
0,005
0,007
0,006
0,006
0,005
0,005
0,005
0,005
0,005
30
0,020
0,011
0,002
0,001
0,001
0,006
0,005
0,004
0,004
0,007
0,007
0,006
0,009
0,008
0,007
0,009
0,009
0,009
0,009
0,008
0,007
0,007
0,005
35
0,020
0,007
0,002
0,001
0,006
0,006
0,005
0,008
0,008
0,007
0,010
0,009
0,009
0,011
0,010
0,012
0,011
0,010
0,011
0,009
0,009
0,008
0,007
40
0,017
0,007
0,002
0,006
0,006
0,009
0,009
0,008
0,011
0,010
0,012
0,012
0,011
0,013
0,012
0,013
0,013
0,012
0,011
0,011
0,010
0,009
0,008
45
0,017
0,007
0,005
0,006
0,009
0,009
0,009
0,012
0,011
0,014
0,012
0,014
0,014
0,015
0,014
0,015
0,015
0,014
0,013
0,012
0,010
0,010
0,008
50
0,017
0,008
0,005
0,009
0,009
0,013
0,012
0,015
0,014
0,016
0,015
0,017
0,016
0,017
0,017
0,017
0,016
0,017
0,016
0,013
0,011
0,011
0,008
Зависимость Dn,N от n для ститисики критерия
Кокса-Мантела
0.020
50%
Distance (Dn)
0.015
Dn = 0,083n-0,81
R² = 0,969
0.010
0.005
0%
0.000
1
10
100
Sample size (n)
24
1000
Функция распределения статистики КоксаМантела при малом объеме выборок и
проценте цензурирования 50%
25
Рекомендуемый объем выборки
Для того, чтобы использовать предельное
распределение в критериях однородности (с заданной
погрешностью 0.01) мы должны взять выборку
соответствующего объема
Степень цензур.
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
26
Гехан
16
16
10
10
11
11
12
12
12
13
19
Объем выборки
Логранговый
20
19
12
12
15
21
90
180
300
300
400
Кокс-Мантел
16
16
10
8
8
8
100
200
Более 500
Более 500
Более 500
Выводы
Мы исследовали распространение статистик трех
критериев проверки гипотезы однородности и
показали, что имеется сходимость к предельному
распределению.
Эта сходимость быстрая при малом проценте
цензурирования и медленная при большом проценте
цензурирования.
Если объем выборки превышает полученные
значения, то расстояние до предельного закона не
превышает 0.01.
В противном случае мы рекомендуем определять
достигаемый уровень значимости с помощью метода
Монте-Карло, вместо предельного закона.
27
Спасибо за внимание!
28
Документ
Категория
Презентации
Просмотров
15
Размер файла
3 146 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа