close

Вход

Забыли?

вход по аккаунту

?

Обнаружение полыней.

код для вставкиСкачать
УДК 519.24+621.391
ОБНАРУЖЕНИЕ ПОЛЫНЕЙ
Валерий Павлович Пяткин
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, заведующий лабораторией обработки
изображений, тел. (383)333-73-32, e-mail: pvp@ooi.sscc.ru
Геннадий Иосифович Салов
Институт вычислительной математики и математической геофизики СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Лаврентьева, 6, старший научный сотрудник,
тел. (383)333-73-32, e-mail: sgi@ooi.sscc.ru
Предлагается новая непараметрическая статистика и тест, основанный на проверке гипотезы об однородности трех выборок. Тест Уитни эквивалентен специальному (линейному)
случаю этого теста. Некоторые сравнения сделаны для случая с экспоненциальными выборками. Тест может быть использован при космическом мониторинге Арктики в задаче обнаружения полыней.
Ключевые слова: непараметрические статистические критерии, обнаружение полыней, космический мониторинг Арктики.
DETECTION OF POLYNYAS
Valeriy P. Pyatkin
Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia, Novosibirsk, 6 Acad. Lavrent’ev av., lab of the images processing senior researcher,
tel. (383)333-73-32, e-mail: pvp@ooi.sscc.ru
Gennadiy I. Salov
Institute of the Computational mathematics and mathematical geophysics SB RAS, 630090, Russia,
Novosibirsk, 6 Acad. Lavrent’ev av., lab of the images processing head, tel. (383)333-73-32,
e-mail: sgi@ooi.sscc.ru
New nonparametric statistics and test based on then are proposed to check the hypothesis of
homogeneity of three samples. The Whitney test is equivalent to special (linear) case of this test.
Some comparisons are made for the case with samples from exponential distribution. The test can
be used at space monitoring of the Arctic in a problem of polynyas detection.
Key words: nonparametric statistical tests, detection of polynyas, Arctic space monitoring.
Одной из актуальных задач анализа изображений районов Арктического
бассейна является задача обнаружения плохо видимых (скрытых) свободных от
льда узких областей поверхности ледяного покрова - полыней. Для обнаружения упомянутых объектов предлагается с помощью последовательного (или параллельного) сканирования изображения подходящим окном просматривать
(анализировать) один за другим все (или почти все) фрагменты изображения
с возможным или ожидаемым местоположением полыньи. Для понимания
предлагаемого подхода достаточно рассмотреть анализ одного из таких фраг77
ментов изображения. Пусть X 1 ,..., X m - совокупность результатов независимых
измерений «яркости», полученных в m точках области проверяемого (возможного) положения полыньи на фрагменте, и пусть с целью обнаружения полыньи
в случае ее присутствия по обе стороны от этой области (симметрично относительно наибольшей средней линии ее) берутся еще две совокупности измерений Y1 ,..., Yn и Z1 ,...Z n . Будем считать, что если в течение наблюдений ни полыньи, ни другого («мешающего») объекта в поле зрения не было, то (при достаточно больших расстояниях между точками измерений) X 1 ,..., X m , Y1 ,..., Yn
и Z1 ,...Z n можно рассматривать как стохастически независимые случайные величины с одним и тем же непрерывным вероятностным законом распределения возможных значений яркости, скажем F (x ) , неизвестным наблюдателю.
При наличии же полыньи на проверяемой области величины X 1 ,..., X m будут
стохастически больше или меньше как величин Y1 ,..., Yn , так и Z1 ,...Z n . Без потери
общности для определенности будем считать, что именно больше. По этим
трем независимым совокупностям (на языке математической статистике – трем
выборкам) X 1 ,..., X m , Y1 ,..., Yn , Z1 ,...Z n нужно принимать решение: либо объявить,
что обнаружена полынья, либо перейти к другому возможному положению или
фрагменту изображения. Чтобы свести к минимуму риск принять ошибочное
решение, необходимо проверить статистическую гипотезу H 0 : величины
X 1 ,..., X m , Y1 ,..., Yn , Z1 ,...Z n стохастически равны (имеет место локальная однородность, означающая, что на проверяемом положении полынья отсутствует) против альтернативной гипотезы H1 : величины X 1 ,..., X m стохастически больше как
величин Y1 ,..., Yn , так и Z1 ,...Z n (присутствует полынья). Требуется указать тест
(критерий) для проверки этой гипотезы, который приводил бы к правильному
решению с максимальной вероятностью. Еще в 1951г. Уитни (Whitney) предложил широко применимый непараметрический статистический критерий для
проверки подобной гипотезы однородности. Критерий Уитни (для краткости
обозначим его через Wh) основан на статистиках U1 и U 2 двух критериев Манна--Уитни. Он отклоняет гипотезу H 0 в пользу H 1 , когда одновременно
m
n
U1
I{X i
Y j} C и U2
i 1 j 1
m
n
I{X i
Z j} C ,
(1)
i 1 j 1
здесь и далее I {A} обозначает индикаторную функцию события A , равную
1, если событие A произошло, и 0 в противном случае.
Насколько нам известно, возможность получения более подходящего непараметрического критерия, чем критерий Уитни до сих пор не была замечена
в литературе. Разработанный в лаборатории новый критерий оказался более
эффективным, отклоняющим гипотезу H 0 в пользу H 1 , когда присутствует полынья, с большей вероятностью, чем критерий Уитни [1-2].
Он устроен следующим образом [2]. Возьмем n 2 четное и введем
в рассмотрение следующие события ( i 1,..., m , j 1,..., ):
78
E1ij
E2ij
{X i
{X i
min( Y j , Y
min( Z j , Z
j
j
)} ,
)} ,
E1ij
max( Y j , Y
j
)} , E10ij
max( Z j , Z
j
)} ,
{X i
E 2 ij
{X i
E1ij
E20ij
E2 ij
E1ij ,
E2 ij ,
а также считающие их количества статистики
m
m
I {E qij } ,
S Eq
m
I {E qij } ,
S Eq
i 1 j 1
0
S Eq
0
I {E qij
},
i 1 j 1
q
1, 2.
i 1 j 1
0
принимающие значения от 0 до m с суммой S Eq S Eq S Eq
m . В соответствии
с предположениями новый непараметрический статистический критерий отклоняет гипотезу H 0 в пользу H 1 , если
0
(2)
S Eq h( S Eq
) при q 1, 2.
При необходимости проверки введенной гипотезы однородности H 0 против
так называемой двусторонней альтернативной гипотезы H 1 , состоящей в том,
что величины X 1 ,..., X m стохастически меньше или больше как величин Y1 ,..., Yn ,
так и Z1 ,...Z n , можно воспользоваться двусторонним вариантом нового критерия, а именно
0
0
при q 1, 2.
| S Eq S Eq | 2h( S Eq
) S Eq
m
При этом уровень значимости критерия, т. е. вероятность отклонения гипотезы
H 0 , когда она на самом деле верна, удваивается.
Критерий Уитни (1) эквивалентен частному случаю критерия (2), когда
h(u ) - линейная функция вида 2h (u ) C u , u 1,..., m , а также критерию, отклоняющему гипотезу H 0 в пользу H 1 , когда S Eq S Eq C m при q 1,2 , где C число, входящее в определение критерия (1) [2]. Ясно, что при редукции статистик S Eq и S Eq , q 1,2 , к простой разности и критерию
при q =1, 2
S Eq S Eq C m
возможна некоторая потеря информации о выборках и, следовательно, возможны дополнительные ошибочные решения при выполнении обнаружения.
Для простоты изложения далее будем рассматривать новый критерий вида
(2). Подсчитать уровень значимости этого критерия
0
P{S Eq h( S Eq
), q 1,2 | H 0 } ,
можно с помощью следующего утверждения. Введем сначала необходимые
обозначения. Пусть D обозначает множество тех упорядоченных разбиений d
числа на (m 1) 2 неотрицательных целых слагаемых st 0 вида
d:
00
,
01
,...,
0m
,
10
,
11
,...,
1m
,...,
m ( m 1)
,
mm
(разбиения различаются либо порядком следования чисел, либо самими числами), для которых выполняется неравенство u h( m u t ) , где
m 1m 1
u
m
(m
max( h, k ))
hk
h 0 k 0
m
, t
min( h, k )
hk
h 1 k 1
Возьмем два подобных разбиения числа :
d ' : ' 00 , ' 01 ,..., ' 0 m , '10 , '11 ,..., '1m ,..., ' m ( m
1)
, ' mm ,
d " : "00 , "01 ,..., "0 m , "10 , "11 ,..., "1m ,..., "m ( m
79
1)
, "mm .
.
Тогда уровень значимости нового критерия (2) можно записать в следующем
виде:
P{S Eq
m! ( ! ) 2
( m 2n )! d '
0
h( S Eq
), q 1,2 | H 0 }
m
(
m
' hk ! "hk ! ) 1 ,
sk ! )(
Dd" D k 0
h ,k 0
где
m
sk
' kh h" hk h" kh ) .
( ' hk
h 0
Отсутствие полной априорной информации делает затруднительным отыскание
оптимальной функции h критических значений. Вполне подходящей может
быть функция h , полученная с помощью известной в математической статистике концепции близких гипотез. К сожалению, точные выражения для мощности
(вероятности отклонения гипотезы H 0 , когда справедлива альтернативная гипотеза) критериев (1) и (2) установить нелегко. Исключение составляют лишь
несколько частных случаев в которых возникающие интегралы удается получить в явном виде. Одним из них является случай, когда в качестве близкого
альтернативного распределение для величин X i выбирается распределение
(гипотеза H 1* ( a ) )
G( x ) (1 a ) F ( x ) aF 2 ( x ) ,
(3)
где 0 a 1 (при a 0 имеет место нулевая гипотеза H 0 ). Распределение (3)
примечательно еще и тем, что в случае с этим распределением при достаточно
малых a 0 критерий Вилкоксона-Манна-Уитни является наиболее мощным
среди всех так называемых ранговых критериев.
При гипотезе H 1* ( a ) вероятность P{S E1 u, S E1 t | H1* (a )} для m , 2 2 допускает представление
m
m! !
(
d D
m
sk ! )(
i 0
m
hq
1
!)
h ,q 0
i 0
( 2a ) i (1 a ) m i
Am ,i ,
( m n i )!
здесь
m
si
(
hi
ih
),
i
0,..., m;
h 0
Am ,0
1 , Ai ,1
s0
1 , а остальные числа Am ,i могут быть получены с помощью ре-
куррентных соотношений ( j 2,3,..., m ) :
A j ,1 A j 1,1 S j 1 , A j ,i A j 1,i A j 1,i 1 ( S j 1 i 1) , i 2,3,..., j 1 ;
A j , j A j 1, j 1 ( S j 1 j 1) ,
где S j 1 s0 s ... s j 1 j .
Перейдем к непосредственному отысканию подходящей функции h (z ) .
Обозначим через H 1* (a*) альтернативную гипотезу с распределением (3) при
фиксированном значении параметра a a * . Введем в рассмотрение совместное распределение статистик S E1 и S E01 при этой «простой» гипотезе
p1* (u, z )
P{S E1
u, S E01
z | H1* (a*)}
P{ S E1
80
u, S E 1
m
u
z | H E* 1 (a*)}
и обратимся к единичному критерию Манна-Уитни S E1 h( S E01 ) . Если основная
(проверяемая) гипотеза отклоняется, когда пара статистик S E1 и S E01 попадает в
некоторую область W1 , то в математической статистике такую область принято
называть критической (критерием). Оптимальная критическая область (ОКО)
W1* с уровнем значимости, не превышающим заданный уровень значимости 1 ,
совпадающий с уровнем значимости критерия Манна – Уитни, в соответствии
с фундаментальной леммой Неймана-Пирсона может быть построена следующим образом. Обозначим через eij событие {S E1 ui , S E01 z j } . Все эти возможные
события удобно пронумеровать (расположить в памяти ЭВМ) в порядке убывания (не возрастания) величин L* (en ) p1* ( en ) / p0 (en ) , т. е. так, чтобы
L* ( e1 )
L* ( e2 )
...
L* ( ek )
L* ( ek 1 )
...
Именно в этом порядке следует включать события ei в ОКО W1* . Процедура
включения продолжается до первого нарушения неравенства
k 1
p0 ( ei )
1
.
(4)
i 1
Тогда для фиксированного z в качестве h (z ) следует взять наименьшее из тех
значений u , при которых пара (u, z ) содержится в полученном множестве W1* .
Уровень значимости полного нового критерия (2) с полученными выше критическими значениями будет значительно меньше 1 . Если он оказался слишком
малым, то следует заменить 1 в (4) на большее значение.
В связи с поставленной задачей и с тем, что критерий Уитни и предлагаемый новый критерий наиболее чувствительны к сдвигам распределений, интересно сравнить мощности этих критериев для распределений отличающихся
сдвигами. Наиболее просто это сделать для случая с экспоненциальными распределениями:
H0 :
(5)
F ( x ) 1 e x при x 0 ,
,
(6)
G( x ) 1 e ( x ) при x
0.
H1 :
Заметим, что экспоненциальное распределение весьма часто встречается при
анализе изображений.
Пример: m 5 , n 4 , C 15 в (1), 1 0,095238 в (4). С помощью концепции
близких гипотез при a a* 0,7 в (3) были получены критические значения,
приведенные в табл. 1.
Таблица 1
Значения h(z ) , z 1,...,10
z
h
0
8
1
7
2
7
3
6
4
5
5
4
6
4
7
3
8
2
9
1
10
0
Чтобы уровень значимости нового критерия (2) оказался несколько меньше уровня значимости критерия Уитни (1) , была сделана замена h(0) 9 . Результаты вычисления мощности критериев (в задаче обнаружения – вероятно81
сти обнаружения) для разных значений
в (5)-(6) даны в табл. 2. Столбец
с
0.0 содержит уровни значимости критериев.
Таблица 2
Мощности критериев Уитни и нового критерия (2)
0.0
0.01
0.1
Уитни
0.0257 0.0270 0.0404
новый
0.0250 0.0263 0.0410
критерий
0.2
0.061
0.065
0.5
0.166
0.199
1.0
0.41
0.52
2.0
0.79
0.90
2.5
0.87
0.96
3.0
0.92
0.98
4.0
0.974
0.997
Нижний ряд принадлежит новому критерию (2). Из сравнений в таблице
достаточно хорошо видно преимущество нового критерия в мощности (вероятности обнаружения).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Салов Г.И. О мощности одного нового статистического критерия и двухвыборочного критерия Вилкоксона // Автометрия. - 2014. – Т. 50, № 1. -- С. 44-59.
2. Салов Г.И. Новый непараметрический статистический критерий для задач с тремя
выборками, частный случай которого эквивалентен критерию Уитни // Сибирский журнал
вычислительной математики. – 2014. – Т. 17, № 4. – С. 389-397.
© В. П. Пяткин, Г. И. Салов, 2015
82
Документ
Категория
Без категории
Просмотров
3
Размер файла
413 Кб
Теги
обнаружения, полыней
1/--страниц
Пожаловаться на содержимое документа