close

Вход

Забыли?

вход по аккаунту

?

Исследование свойств моментных инвариантов в задачах анализа изображений.

код для вставкиСкачать
УДК 519.688
Вестник СПбГУ. Сер. 1. 2012. Вып. 1
ИССЛЕДОВАНИЕ СВОЙСТВ МОМЕНТНЫХ ИНВАРИАНТОВ
В ЗАДАЧАХ АНАЛИЗА ИЗОБРАЖЕНИЙ
М. Ю. Пахнушева
С.-Петербургский государственный университет,
аспирант, marina.pakhnusheva@gmail.com
Введение
Анализ изображений является важной проблемой, возникающей при решении задач обработки текста, автоматизации бытовых устройств, контроля качества и многих
других приложений задач идентификации образов. При решении таких задач прибегают к технике выделения признаков объекта, способных описать его особенности и
свойства независимо от масштаба, смещения и поворота.
Идея нахождения инвариантных признаков воплощена в подходах, использующих различные формализмы: от эллиптических Фурье дескрипторов до ортогональных полиномов Лежандра и Церника [1–14]. Авторы показывают, что анализ моментных инвариантов оцифрованных образов некоторых геометрических форм может обеспечить уверенную индикацию соответствия образа и прообраза по малости
евклидовых расстояний между их точками в пространстве инвариантов.
В 1962 году были предложены 7 признаков, инвариантных относительно переноса, поворота, отражения и масштабирования, основанных на моментах [4]. В дальнейшем эти идеи были развиты в [5], где авторы рассмотрели аффинные моментные
инварианты. Обзор методов выделения инвариантов, основанных на моментах, предложен в [3]. Интересные результаты получены, например, в [6–10].
Применение метода моментных инвариантов на практике обнаружило зависимость результата идентификации от уровня детализации, заданного при оцифровке
или создании изображения, выявило необходимость проведения исследования, позволяющего обозначить подробность пикселизации образа, при которой погрешность
вычисления инвариантов не будет искажать результаты решения задачи идентификации. В данной работе проводится анализ зависимости идентификационных свойств
инвариантов от качества изображений и типа исходных объектов, что позволяет выработать рекомендации для решения определенного круга задач.
Общая теория
Определение 1.1. Двумерным моментом порядка (p + q) непрерывной функции
f (x, y): R2 → R является
mpq =
Z∞ Z∞
xp y q f (x, y) dx dy.
−∞ −∞
Применяя это определение к монохромному изображению с яркостями пикселей
S(x, y), можем определить растровые моменты изображения.
c
48
М. Ю. Пахнушева, 2012
Определение 1.2. Растровым двумерным моментом порядка (p + q) изображения S с яркостями пикселей S(x, y) является
XX
m̃pq =
x
xp y q S(x, y).
y
Определение 1.3. Под растром будем понимать прямоугольную матрицу, соответствующую изображению S, элементы которой определяются как значения яркости
S(x, y).
Определение 1.4. Расстоянием между растрами S и S1 размера L*K является
ρ(S1 , S2 ) =
L X
K
X
i=1 j=1
(S1 (i, j) − S2 (i, j))2 .
Значения S(x, y) зависят от того, каким образом происходила оцифровка. В данной работе рассматривались черно-белые изображения фигур. Если для каждого пикселя обозначить через qxy площадь накрытия его фигурой, то S(x, y) определялись
следующим образом: 1, если qxy > 50%; 0, если qxy < 50% (рис. 1).
Рис. 1.
Определение 1.5. Центральным двумерным моментом порядка (p + q) непрерывной функции f (x, y): R2 → R является
Z ∞Z ∞
µpq =
(x − x̄)p (y − ȳ)q f (x, y)dxdy,
−∞
−∞
где x̄ = m10 /m00 , ȳ = m01 /m00 .
Аналогично дискретному представлению обычных моментов можно определить
двумерный центральный момент изображения.
Определение 1.6. Растровым центральным двумерным моментом порядка
(p + q) изображения S с яркостями пикселей S(x, y) является
µ̃pq =
XX
x
y
(x − x̃)p (y − ỹ)q S(x, y),
где x̃ = m̃10 /m̃00 , ỹ = m̃01 /m̃00 .
Рассмотрим µpq ; они, очевидно, не зависят от сдвигов. Если рассматривать изменение масштаба c коэффициентом α, то изменение значений центральных моментов
происходит следующим образом:
µ′pq = αγ µpq ,
49
где γ = p + q + 2. Если определить ηpq как
ηpq =
µpq
γ/2
µ00
,
то они будут инвариантны относительно переноса и масштаба.
В [4] были предложены 7 независимых признаков, инвариантных относительно
переноса, поворота, отражения и масштабирования, основанных на двумерных моментах
M1
M2
M3
M4
M5
=
=
=
=
=
M6
=
M7
=
(η20 + η02 ),
2
(η20 − η02 )2 + 4η11
,
2
(η30 − 3η12 ) + (3η21 − η03 )2 ,
(η30 + η12 )2 + (η21 + η03 )2 ,
(η30 − 3η12 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ]+
+(3η21 − η03 )(η21 + η03 )[3(η30 + η12 )2 − (η21 + η03 )2 ],
(η20 − η02 )[(η30 + η12 )2 − (η21 + η03 )2 ]+
+4η11 (η30 + η12 )(η21 + η03 ),
(3η21 − η03 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ]−
−(η30 + 3η12 )(η21 + η03 )[3(η30 + η12 )2 − (η21 + η03 )2 ].
(1)
Затем идеи выделения моментных признаков были развиты в [5], где были предложены инварианты относительно обобщенных аффинных преобразований вида
u = a0 + a1 x + a2 y,
v = b0 + b1 x + b2 y.
Авторы рассмотрели способ получения аффинных моментных инвариантов, с
помощью которого можно получить, например,
µ20 µ02 − µ211
,
µ400
µ2 µ2 − 6µ30 µ21 µ12 µ30 + 4µ30 µ312 + 4µ321 µ03 − 3µ221 µ212
I2 = 30 03
,
µ10
00
µ20 (µ21 µ03 − µ212 ) − µ11 (µ30 µ03 − µ21 µ12 ) + µ02 (µ30 µ12 − µ221 )
I3 =
.
µ700
I1 =
(2)
Определение 1.7. Подробностью растра будем называть количество ячеек растра, приходящихся на единицу линейного размера изображения.
Например, при подробности растра, равной 1, квадрат размером 20 на 20, размещенный на растре 100 на 100, будет иметь координаты (0; 20), (20; 0). При увеличении
подробности в 5 раз этот же квадрат будет располагаться на растре 500 на 500 и иметь
координаты (0; 100), (100; 0).
После того, как для некоторого изображения S вычислены инварианты p1 , . . . , pn
(n = 7 для (1), n = 3 для (2)), можно рассмотреть вектор (p1 , . . . , pn ). Множество
изображений S1 , S2 , S3 , . . . порождает множество векторов P = {P1 , P2 , P3 , . . . }, Pi =
(pi1 , . . . , pin ), i = 1, 2, 3, . . .
Расширим теперь понятие изображения: под изображением будем понимать вектор инвариантов, вычисленный как по (1), так и по (2).
50
Для двух изображений Pj1 и Pj2 можно вычислить расстояние ρ(Pj1 , Pj2 ) как
евклидово расстояние между соответствующими им векторами Pj1 и Pj2 . Последнее
позволяет проводить простейшую идентификацию на основании евклидовой близости
изображений.
О влиянии подробности растра
Методы идентификации, основанные на вычислении расстояний непосредственно между растрами, не эффективны по ряду причин: они трудоемки и имеют порядок сложности O(n2 ), что затрудняет вычисления для больших изображений; такой
подход требует точного совпадения образов — результат будет зависеть от сдвигов
и поворотов, т. е. аффинных преобразований исходного объекта, что является нежелательным эффектом для идентификации. Поэтому исследования стараются проводить в пространстве векторов-инвариантов, что решает проблемы и зависимости от
аффинных преобразований, и трудоемкости одновременно.
Действительно, следуя [5], для ряда фигур (которые часто используют для сопоставимости результатов) можно получить матрицу взаимных расстояний (табл. 1).
Таблица 1. Матрица взаимных расстояний
0.00000
0.00061
0.00799
0.00292
0.00061
0.00000
0.00738
0.00231
0.00802
0.00740
0.00003
0.00509
0.00292
0.00230
0.00507
0.00001
Однако применение данной теории на практике имеет некоторые особенности. Результаты теории алгебраических инвариантов получены для случая функций, определенных в R2 . Инварианты в теории выражены интегралами по фигурам, имеющим
непрерывные контуры. Фактически, для их расчета используется сеточный метод,
что влечет за собой появление погрешности дискретизации, и аффинные инварианты
(1) и (2) для объектов, подверженных преобразованиям с погрешностью (т. е. слабо
неаффинным), перестают быть инвариантами.
Повторение опытов этих авторов [5] для тех же форм в разнообразных условиях
расчета или включение в рассмотрение других форм приводит иногда к ухудшению
соответствия. Например, разброс значений первого инварианта M1 (наиболее значимого) для одной и той же цифры, размещаемой на весьма подробных растрах от 72
до 300 (пикселей на характерный размер), может достигать 100%. В то же время,
можно указать частные случаи, в которых M1 (0) и M1 (9) отличаются на 4%.
Эти наблюдения указали на необходимость проведения отдельного исследования,
направленного на изучение зависимости погрешности вычисления инвариантов от
подробности растра.
Элементы такого анализа рассмотрены в задачах о покрытиях [11], существуют
также работы последних лет, направленные на анализ ошибок, связанных с растеризацией: [12] — обзорная работа, [13] — построение теоретических оценок погрешностей
для моментов, [14] — анализ погрешностей инвариантов, представленных в [4] и [5]
применительно к прямоугольнику с центром в начале координат.
Примечательно, что в [14] анализ проводился алгебраическими методами, рассмотренная фигура — прямоугольник, поэтому использованная прямоугольная сетка
51
не позволяет получить статистическую полноту описания динамики погрешностей в
общем случае.
В данной работе для более развернутого анализа используются два подхода, сочетающие в себе элементы всех перечисленных работ: вычислительные опыты и статистическое моделирование.
В процессе работы с инвариантами была отмечена одна их особенность — малость
абсолютных величин. Поэтому в дальнейшем в таблицах значений будем дополнительно указывать порядок приведенных значений.
Перейдем к подробному изложению.
Вычислительные опыты
Вычислительные опыты состояли из серий экспериментов, в которых использовались разные типы изображений. Для более строгой классификации фигур введем
понятие коэффициента латичности фигуры.
Определение 1.8. Под коэффициентом латичности фигуры F будем понимать величину периметра нормализованной по площади фигуры F ∗ (т. е. такой, что
площадь равна единице) kl (F ) = P (F ∗ ).
Данное понятие позволяет проводить первичную классификацию изображений
как плотные и неплотные фигуры. Для инвариантов, являющихся интегральными
признаками, коэффициент латичности является существенным параметром: для низколатичных фигур он помогает уменьшить влияние низкой подробности растра на
результаты вычислений. Высоколатичные фигуры являются, как правило, штриховыми, и в этом случае коэффициент латичности выступает в качестве меры штриха.
В вычислительных опытах были проведены две серии экспериментов и рассмотрены изображения двух типов: плотные фигуры и штриховые. В качестве плотных
фигур были выбраны геометрические фигуры произвольных форм, а в качестве
штриховых — рукописные арабские цифры, взятые из естественного документа.
Геометрические фигуры
Для исследования были выбраны следующие геометрические фигуры:
circle
ellipse
spot
square
T
trapez
triangle
Случай растра подробности 65. В данной серии экспериментов фигуры рассматривались на растре низкой подробности. Цель экспериментов — выяснить степень
погрешности инвариантов (1) и (2), а также возможности идентификации при данной подробности. Обозначим набор исходных фигур для растра низкой подробности
через γ, а набор фигур, полученный из γ путем поворотов и сдвигов, через γ1 .
Приведем матрицы евклидовых расстояний между фигурами γ и γ1 в пространствах инвариантов (табл. 2 и 3).
В таблицах выделены минимальные значения в каждом столбце. Минимальное
расстояние между изображениями может быть истолковано как идентификация соответствия фигур из γ1 и γ. Из полученных результатов следует, что для данных
52
Таблица 2. Расстояния между γ и γ1 , вычисленные по (1)
circle
ellipse
spot
square
T
trapeze
triangle
circle1
0.02043
0.05759
0.04842
0.00957
0.07879
0.02358
0.06401
ellipse1
0.09262
0.01466
0.02887
0.08168
0.03834
0.04932
0.01663
spot1
0.14415
0.06628
0.07744
0.13311
0.06341
0.10051
0.06140
square1
0.03800
0.04025
0.03106
0.02684
0.06269
0.00606
0.04662
T1
0.09381
0.03407
0.02863
0.08256
0.00542
0.05232
0.02151
trapeze1
0.05267
0.02609
0.01685
0.04146
0.04986
0.00877
0.03219
triangle1
0.18739
0.10985
0.12140
0.17652
0.10461
0.14415
0.10483
Таблица 3. Расстояния между γ и γ1 , вычисленные по (2)
circle
ellipse
spot
square
T
trapeze
triangle
circle1
0.00002
0.00003
0.00336
0.00058
0.00997
0.00101
0.00288
ellipse1
0.00011
0.00006
0.00326
0.00049
0.00988
0.00092
0.00278
spot1
0.00292
0.00287
0.00046
0.00232
0.00707
0.00189
0.00004
square1
0.00056
0.00051
0.00282
0.00004
0.00943
0.00047
0.00234
T1
0.00875
0.00870
0.00537
0.00815
0.00124
0.00772
0.00585
trapez1
0.00115
0.00110
0.00222
0.00055
0.00884
0.00012
0.00175
triangle1
0.00298
0.00293
0.00040
0.00238
0.00701
0.00195
0.00008
множеств изображений при подробности растра 65 мы можем успешно идентифицировать 57.14% объектов с помощью инвариантов (1) и 85.7% объектов с помощью
инвариантов (2). На примере данных множеств показан еще один аспект, связанный
с вопросом идентификации, а именно разделимость исходного множества. Ошибка
идентификации во втором случае является следствием того, что точки, соответствующие пятну и треугольнику, в исходном множестве были слишком близки. Отметим,
что (2) обладают свойством инвариантности относительно аффинных преобразований. Это означает, что круг и эллипс должны являться одним и тем же объектом с
точки зрения (2). Поэтому разделимость круга и эллипса во втором случае является
скорее ошибкой, чем верным результатом.
Случай растра подробности 300. В данной серии экспериментов рассматривались изображения на растре высокой подробности. Обозначим набор исходных
фигур для растра высокой подробности через Γ, а набор фигур, полученный из Γ
путем поворотов и сдвигов, через Γ1 .
Полученные результаты показывают, что как с помощью (1), так и с помощью
(2) мы можем идентифицировать 100% изображений Γ и Γ1 . Здесь отмечено, что
круг и эллипс, являющиеся одним и тем же объектом с точки зрения аффинных
преобразований, перестали различаться в пространстве (2).
Цифры
Для следующей серии опытов были рассмотрены рукописные арабские цифры.
Набор исходных изображений (обозначим ∆) представлен на рис. 2.
Исходные чережи были оцифрованы с различной степенью подробности, в первом случае 72, а во втором — 300. В данных экспериментах были рассмотрены по
16 образцов каждой цифры, затем вычислялись значения инвариантов (1) и (2) для
каждого изображения. Цель работы — проследить, как влияет подробность исходных
данных на получаемые значения инвариантов. Для данного множества изображений
были подсчитаны инварианты (1) и (2). Разброс значений первого (наиболее значимого) инварианта M1 для цифр подробности 72 и 300 представлен в табл. 4.
53
Рис. 2.
Таблица 4. Разброс значений M1 , %
подробность
72
300
0
61
60
1
136
47
2
67
60
3
95
34
4
60
48
5
60
41
6
66
42
7
54
33
8
91
63
9
54
41
Непосредственно из результатов следует, что для некоторых цифр разброс инварианта изменился в несколько раз. Это связано как с видом самой цифры, так и с
особенностями ее написания разными людьми. Кроме этого отмечено, что значения
инвариантов испытывают выраженное смещение с увеличением подробности растра.
На примере рассмотренных изображений отмечено также, что для высоколатичных фигур инварианты имеют больший разброс, и это отражается на результатах
идентификации.
Статистическое моделирование
Для более систематического анализа динамики погрешностей инвариантов была
поставлена задача статистического анализа. Рассмотрены фигуры общей формы —
многоугольники. В роли фигур выступали прямоугольник и треугольник (как простейший многоугольник, растеризация которого проходит по пути, существенно отличающемуся от растеризации прямоугольника). Рассмотрение треугольника позволяет
определенно ввести в опыты со статистическим моделированием частичные ячейки,
что расширяет класс допустимых образов. Этим преодолеваем известные из литературы рамки подходов к анализу погрешностей растеризации и получаем возможность
наблюдать более полную картину динамики погрешностей. Исследование динамики
погрешностей проводилось методом Монте-Карло.
Величины, которые изменялись при моделировании: подробность растра (рассмотрены три варианта: 10, 50 и 100), угол поворота фигуры (угол являлся случайной
величиной, равномерно распределенной на интервале (0; 2π)), положение на растре
(X0 + xǫ ; Y0 + yǫ ), где (X0 ; Y0 ) — заданная для растра некоторая центральная координата, а xǫ и yǫ — случайные величины, равномерно распределенные на (0; 1).
54
Для каждого растра проведено s = 300 моделирований положения фигуры, вычислены соответствующие значения инвариантов и растровая площадь фигуры.
По полученным данным вычислялись следующие
выборочное среднее
q значения:
Ps
H1 +H2 +···+Hs
1
mean =
, стандартное отклонение σ = s−1 i=1 (Hi − mean)2 , средняя
s
Ps
квадратичная ошибка M SE = 1s i=1 (Hi − H)2 , где H — точное значение характеристики, вычисленное по формулам.
Для краткости приведем значения, полученные для M1 (табл. 5).
Таблица 5
Квадрат
Инвариант
M1 [10−4 ]
expected
mean
√ σ
M SE
N = 10
400
1663.8074
0.000310
0.000422
N = 50
10000
1666.5537
0.000038
0.000040
Треугольник
N = 100
40000
1666.6328
0.000009
0.000010
N = 10
200
1925.6297
0.001595
0.002465
N = 50
5000
1943.6906
0.000174
0.000189
N = 100
20000
1944.1923
0.000054
0.000059
Регуляризация пространства инвариантов
В каждом из типов инвариантов (1) и (2) можно уверенно выделять подклассы
инвариантов, сопоставимых по величине. Например, в (1) это будут M1 –M2 . Другие
имеют существенно меньшие значения. «В себе» они заметно различны для различных фигур, но мало влияют на значение евклидова расстояния между точками и
бесполезны для идентификации. Семимерное пространство (1) в евклидовой метрике
является тонким, фактически трехмерным слоем, что затрудняет идентификацию по
близости точек.
Определение 1.9. Будем считать непаритетными те инварианты, вклад которых в евклидову метрику меньше или сопоставим с ошибкой (дисперсией) каждого
из паритетных.
Таким образом, классификация сводится к парным сравнениям. И в общем виде
алгоритм выделения паритетных инвариантов будет иметь вид:
1) первый рассматриваемый инвариант предполагается паритетным;
2) для нового инварианта вычисляется его математическое ожидание и сравнивается с дисперсией паритетных;
3) на основании определения новый инвариант добавляется в класс либо паритетных, либо непаритетных;
4) пересматриваются инварианты в классе паритетных, в результате некоторые могут быть переведены в класс непаритетных;
5) переход к 2).
На указанном примере непаритетные среди (2) будут I2 и I3 , а среди (1) будут M3 –M7 . Лишь паритетные инварианты служат основой для идентификации по
евклидовой метрике.
Близость «в себе» порядков величин значений конкретного непаритетного инварианта приводит к идее введения порядковых функций, специфичных для инвариантов. Их можно было бы применить для растяжения слоя в соответствующем
направлении и эффективного увеличения размерности пространства паритетных инвариантов. Было показано [15], что в некоторых случаях такое преобразование позволяет перевести часть непаритетных инвариантов в класс паритетных и улучшить
результаты идентификации.
55
Выводы
Основываясь на проведенном анализе влияния подробности растра исходных
изображений на получаемые значения инвариантов, можно сформулировать следующие утверждения.
1. Порядки значений инвариантов зависят от типа рассматриваемых изображений и величины их латичности.
2. Существенно смещение оценок инвариантов, хорошо видимое при статистическом моделировании. Оно зависит от подробности растра, уменьшаясь при ее увеличении (строки 1 и 2 в таблице).
3. Понимая идентификацию как достижение минимума евклидовой метрикой,
получаем, что основное значение для идентификации имеют первые инварианты из
(1) и из (2).
4. В некоторых случаях регуляризация пространства инвариантов позволяет
улучшить результаты идентификации.
Литература
1. Gurevich I. B., Koryabkina I. V. Comparative Analysis and Classification of features for
image Models // Pattern Recognition and Image Analisys. 2006. Vol. 16. N 3. P. 265–297.
2. Гуревич Г. Б. Основы теории алгебраических инвариантов. М.; Л., 1948.
3. Ruberto C., Morgera A. Moment-based techniques for Image retrieval // 19th International
Conference on Database and Expert Systems Application. DEXA, 2008.
4. Hu M. Visual Pattern Recognition by Moment Invariant // IRE Trans. Inf. Theory. 1962.
Vol. 8. P. 179–187.
5. Flusser J., Suk T. Pattern recognition by affine moment invariants // Pattern Recognition.
1993. Vol. 26. N 1. P. 167–174.
6. Hatem M. R., Abou-zeid, Akrem S. El-ghazal, Ammer A. Al-khatib. Computer Recognition
of Unconstrained Handwritten Numerals // Circuits and Systems. 2003. MWSCAS’03.
Proceedings of the 46th IEEE International Midwest Symposium.
7. Muharrem Mercimek, Kayhan Gulez nad Tarik Veli Mumcu Real object recognition using
moment invariant // Sadhana. 2005. Vol. 30. Part 6.
8. Li Y. Applications of moment invariants to neurocomputing for pattern recognition //
Electronics Letters. 1991. Vol. 27. Issue 7. P. 587–588.
9. Rahtu E., Salo M., Heikkil J., Flusser J. Generalized affine moment invariants for object
recogn // Pattern Recognition. 2006. ICPR 2006. 18th International Conference on Vol. 2. P. 634–
637.
10. Flusser J., Suk T. Character Recognition by Affine Moment Invariants // Comuter
Analysis of Images and Patterns (Lecture Notes in Computer Science. Vol. 719). Berlin: Springer,
1993. P. 572–577.
11. Кендалл М., Моран П. Геометрические вероятности. М.: Наука, 1972.
12. Teh C.-H., Chin R. On Image Analysis by the Methods of Moments // IEEE transactions
on pattern analysis and machine intelligence. 1988. Vol. 10. N 4.
13. Liao S. X., Pawlak M. On Image Analysis by moments // IEEE transactions on paLtern
analysis and machine intelligence. 1996. Vol. 18. N 3.
14. Gouda I. Salama, A. Lynn Abbott. Moment Invariants and Quantization Effects // IEEE
Computer Society Conf. on Computer Vision and Pattern Recognition. 1998. P. 157–163.
15. Жигалко Е. Ф., Пахнушева М. Ю. О регуляризации пространства инвариантов //
Обозрение прикл. и промышл. матем. 2009. Т. 16. Вып. 6. С. 1062–1064.
Статья поступила в редакцию 26 октября 2011 г.
56
Документ
Категория
Без категории
Просмотров
4
Размер файла
400 Кб
Теги
анализа, свойства, изображение, инвариантов, исследование, моментных, задача
1/--страниц
Пожаловаться на содержимое документа