close

Вход

Забыли?

вход по аккаунту

?

AstratovAfanasenko2

код для вставкиСкачать
Министерство образования и науки российской федерации
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
О. С. Астратов, А. С. Афанасенко, Л. Д. Вилесов,
С. А. Кузьмин, А. А. Мотыко, Н. А. Обухова,
В. М. Смирнов, Б. С. Тимофеев, В. Н. Филатов
ОБРАБОТКА ИЗОБРАЖЕНИЙ
В ПРИКЛАДНЫХ ТЕЛЕВИЗИОННЫХ
СИСТЕМАХ
Монография
Санкт-Петербург
2012
УДК 621.397.6
ББК 32.973.202
А91
Рецензенты:
Астратов, О. С.
А91 Обработка изображений в прикладных телевизионных системах: монография / О. С. Астратов, А. С. Афанасенко, Л. Д. Вилесов, С. А. Кузьмин, А. А. Мотыко, Н. А. Обухова, В. М. Смирнов, Б. С. Тимофеев, В. Н. Филатов. Под ред. проф. Тимофеева
Б. С.; – СПб.: ГУАП, 2012. – 272 с.: ил.
ISBN 978-5-8088-0701-3
В монографию вошли результаты исследований и разработок
коллектива авторов в области цифровой обработки видеоинформации для телевизионных систем различного прикладного назначения. Рассмотрены пути улучшения и реставрации изображений,
способы препарирования изображений, алгоритмы выделения, сопровождения и измерения параметров объектов, представляющих
интерес. Описаны структуры и принципы функционирования конкретных видеосистем наблюдения и контроля. Приведены примеры
практического решения задач управления движением автомобильного и железнодорожного транспорта, формирования панорамных
изображений.
Монография предназначена для научных работников и специалистов, деятельность которых связана с проблемами технического
зрения, с созданием и использованием видеосистем различного назначения. Кроме того, она будет полезна студентам, изучающим дисциплины указанного направления.
УДК 621.397.6
ББК 32.973.202
ISBN 978-5-8088-0701-3 © О. С. Астратов, А. С. Афанасенко,
Л. Д. Вилесов, С. А. Кузьмин,
А. А. Мотыко, Н. А. Обухова,
В. М. Смирнов, Б. С. Тимофеев,
В. Н. Филатов, 2012
© Санкт-Петербургский государственный
университет аэрокосмического
приборостроения (ГУАП), 2012
Предисловие
Перечень решаемых прикладными телевизионными системами
задач значителен и разнообразен:
– видеонаблюдение за объектами в труднодоступных местах;
– обустройство границ;
– охрана объектов, контроль доступа;
– транспортный мониторинг и управление дорожным движением;
– экологический мониторинг, в том числе газопроводов и нефтепроводов;
– медицинская диагностика, криминалистика и др.
В соответствии с характером решаемых задач выделяют: системы видеомониторинга, охранные видеосистемы, системы обнаружения и сопровождения, системы классификации и распознавания,
измерительные системы. На предыдущих этапах развития прикладные телевизионные системы имели так называемую распределенную структуру. Каждая функция системы выполнялась отдельным аппаратным блоком: формирование сигнала – видеокамерой,
обработка сигнала (в случае применения нескольких камер) – коммутатором, квадратором или мультиплексором, отображение – видеоконтрольным устройством, хранение и запись – видеорегистратором. В случае необходимости анализа видеосигнала использовали специализированный вычислитель.
Стремительный прогресс аппаратной базы и вычислительной
техники обусловил появление видеокомпьютерных систем. Такие
системы включают в себя одну или несколько видеокамер, объединенных с компьютером с помощью стандартных интерфейсов IEEE
1394 (Fire Wire) или USB-2, 3. Компьютер позволяет обрабатывать,
отображать и сохранять видеоданные, заменяя используемые ранее
специализированные устройства. Для создания замкнутого контура управления в систему вводят периферийные устройства.
Дальнейшей ступенью развития прикладных телевизионных систем является появление «систем на кристалле», где в рамках одного модуля интегрированы получение и обработка видеосигнала.
В этих системах выполняется обработка видеосигнала по мере его
формирования, что обеспечивает существенное повышение быстродействия.
Прогресс в области вычислительной техники, современные технологии и новая аппаратная база снимают ограничения на емкость
алгоритмов обработки изображений. Рост числа прикладных теле3
визионных систем, существенное расширение круга решаемых задач и повышение их сложности определяют необходимость разработки эффективных методов анализа и представления видеоданных. Найденные решения должны обеспечивать реализацию автоматических или автоматизированных систем всех видов целевого
назначения.
Предлагаемая читателям книга является обобщением многолетнего опыта кафедры электронных и телевизионных систем (заведующий кафедрой доктор технических наук, профессор П. Н. Петров)
Санкт-Петербургского государственного университета аэрокосмического приборостроения по одному из основных направлений научных исследований, а именно разработке прикладных телевизионных
систем. Издание книги в год 65-летнего юбилея кафедры подводит
определенный итог научной деятельности коллектива за ряд предшествующих лет. Книга основана на результатах научно-исследовательских работ, выполненных под руководством профессора Б. С. Тимофеева по заказам и в интересах ФГУП НИИПТ «РАСТР» (Великий
Новгород), филиала ФГУП ЦНИИ «Комета» (Санкт-Петербург), ПК
НПК «Автоматизация» (Санкт-Петербург). Дополнительно, использован материал читаемых кафедрой курсов лекций по дисциплинам
«Автоматизированные телевизионные системы», «Прикладные телевизионные системы» и «Цифровая обработка аудиовидеосигналов».
Книга призвана обобщить и систематизировать информацию о современных методах обработки, анализа и представления видеоданных в
прикладных телевизионных системах.
Монография состоит из четырех глав. Первая глава представляемого издания посвящена предварительной обработке изображений
с целью повышения качества и реставрации исходных видеоданных, а также препарированию изображений для выделения особенностей, значимых в рамках решаемых задач.
Во второй главе рассмотрены методы и алгоритмы выделения
областей интереса на сложном фоне при анализе как одного кадра,
так и видеопоследовательности.
Третья глава посвящена вопросам формирования моделей объектов, оценке их параметров, а также сопровождению динамично
меняющихся объектов в сложных условиях наблюдения.
В четвертой главе рассмотрены методы формирования панорамных изображений для систем видеонаблюдения за протяженными
объектами.
Научная редакция осуществлена доктором технических наук,
профессором Б. С. Тимофеевым.
4
Книга предназначена для широкого круга читателей, желающих
ознакомиться с принципами построения прикладных телевизионных систем различного назначения. Она может быть полезна разработчикам аппаратуры и программного обеспечения, а также студентам и аспирантам радиотехнических специальностей.
5
1. Улучшение и реставрация изображений
1.1. Оптимизация режима видеокамеры
Получение качественных исходных изображений объектов является основой для дальнейшей обработки изображений и решения
оперативных задач. Системы автоматической регулировки чувствительности (АРЧ) призваны сохранять размах видеосигнала на выходе видеокамеры с помощью:
– стабилизации освещенности на белом – система автоматического регулирования диафрагмы D объектива (АРД);
– управления выдержкой t при съемке (автоматический электронный затвор);
–автоматического регулирования усиления (АРУ).
Одно и то же значение экспозиции получают при различных сочетаниях
экспозиционных
параметров D и t, что может
породить конфликт между
параллельно работающими
системами АРД и электронным затвором. Для разрешения этого конфликта используют программное управление экспозицией, учитывающее дополнительные факторы. Оптимальные значения
D и t должны соответствовать
характеру снимаемой сцены.
Так увеличение диафрагмы D
(уменьшение диафрагменного
числа) приводит к уменьшению глубины резкости изображаемого
пространства.
Снижение времени экспозиции t дает возможность получать четкие изображения движущихся объектов.
Важным резервом улучшеРис. 1.1. Изображения контрастных
ния качества исходных изообъектов, полученные видеокамерой
бражений является расширес различной выдержкой
6
ние допустимого динамического диапазона освещенностей сцены, что позволит «не
терять объекты» в условиях
резко контрастного освещения. Примерами могут служить следующие условия видеосъемки:
– объекты на темном фоне
воды и ярком фоне неба, разделенные линией горизонта;
– попадание в кадр солнца,
Рис. 1.2. Синтезированное
ярких бликов, прожекторов;
изображение
– съемка против рассеянного солнечного света (в контражуре) [1].
Расширение динамического диапазона видеокамеры достигают
путем синтеза S-образной градационной характеристики. Делают
два цифровых снимка с различной экспозицией (рис 1.1). Экспозиция первого снимка соответствует освещенности светлых участков сцены Eср1; второго – темных Eср2. Результирующий снимок
(рис. 1.2) является композицией двух снимков. Алгоритм цифровой
обработки заключается в поэлементном суммировании двух изображений, полученных в двух соседних кадрах, делении полученной суммы на два и растягивании гистограммы уровней яркости до
стандартных для цифрового телевидения значений (11–220). В синтезированном изображении отчетливо видны как темные участки,
так и раскаленная нить лампы.
1.2. Предварительная обработка изображений
1.2.1. Линейная фильтрация изображений
Исходные изображения во многих случаях имеют недостаточный
контраст, содержат фоновые изображения и структурные помехи, а
также поражены шумом (рис. 1.3). Для оценки качества изображения в телевидении используют пиковое отношение сигнал-шум
æ 255 ö÷
ψ = 20lg çç
,
çè σ ÷÷ø
где σ – среднеквадратическое отклонение шума.
Первой операцией по обработке изображения является нормализация гистограммы яркости, чтобы эффективно использовать вы7
деленный динамический диапазон. Гистограммы на рис. 1.3
иллюстрируют достигнутые изменения распределения уровней яркости в изображениях.
Для сглаживания изображения, повышения соотношения сигнал-шум и, следовательно, снижения вероятности ложного обнаружения, применяют
линейную фильтрацию с пространственным фильтром Гаусса. Размеры маски фильтра (в
литературе встречаются другие
названия – «апертура», «окно»,
«структурный элемент») должны быть согласованы с размерами обнаруживаемых объектов[2–4]. Например, в литературе [2] рекомендуют использовать размеры маски фильтра
Рис. 1.3. Гистограммы изображений
5 × 5 пикселей для обнаружения
исходного (сверху) и обработанного
объекта площадью порядка 20
(снизу)
пикселей. Для реализации пространственной фильтрации нужно выполнить операцию цифровой
свертки исходного сигнала Llk с маской фильтра Hmn. Тогда выходной
сигнал может быть представлен в виде следующего выражения:
Glk »
N
N
å å
m=-N n=-N
Ll-m,k-n Hm,n ,
где размер маски фильтра (2N + 1). Маска такого двумерного сглаживающего фильтра
é0.002 0.01 0.027 0.01 0.002ù
ê
ú
ê 0.01 0.041 0.121 0.041 0.01 ú
ê
ú
H = êê0.027 0.121 0.199 0.121 0.027úú ,
ê 0.01 0.041 0.121 0.041 0.01 ú
ê
ú
ê0.002 0.01 0.027 0.01 0.002ú
ëê
ûú
где сумма коэффициентов в маске равна единице.
8
а)
б)
Рис. 1.4. Исходное изображение (а)
и результат линейной фильтрации (б)
В результате фильтрации среднеквадратическое отклонение шума уменьшилось в 1,5 раза, а пиковое отношение сигнал-шум y увеличилось с 2,9 дБ до 24,5 дБ (рис. 1.4). Одновременно несколько снизилась четкость изображения.
9
1.2.2. Медианная фильтрация
Использование методов линейной фильтрации не позволяет получить приемлемое решение в ряде практически важных приложений. Например, известно, что задача оптимальной фильтрации допускает решение в классе линейных фильтров только в том случае,
когда сигнал и аддитивная помеха независимы и имеют нормальное
распределение. На практике помеха может зависеть от полезного
сигнала, иметь мультипликативный характер или закон распределения отличный от нормального, например представлять собой импульсный шум. Спектры сигнала и помехи обычно перекрываются,
и применение линейных фильтров приводит к нежелательному искажению полезного сигнала. В частности, при использовании сглаживающего фильтра нижних частот этот эффект будет проявляться
в виде ухудшения четкости границ деталей изображения.
С целью расширения спектра задач, решаемых средствами цифровой обработки сигналов изображений, и преодоления ограничений, присущих методам линейной фильтрации, в настоящее время
активно внедряют методы нелинейной фильтрации [5].
Фильтрация – мощное средство обработки изображений. Однако
качество фильтрации, в конечном счете, определяется поставленной задачей и конкретным применением. Это означает – используемые методы обработки в большинстве своем проблемно ориентированы. Так, например, метод, являющийся весьма полезным для
улучшения рентгеновских изображений, необязательно окажется
наилучшим для обработки изображений, полученных в видимой
части спектра.
С позиции визуального анализа изображений чрезвычайно важным является проблема улучшения их качества. Но в некоторых
конкретных случаях ставится задача не просто улучшения качества, а задача восстановления изображения. Несмотря на кажущееся подобие этих задач, они имеют существенное различие. Улучшение изображений базируется на субъективной оценке выходного
изображения, в то время как процесс восстановления имеет в основном объективные критерии. При восстановлении делается попытка
реконструировать, или воссоздать изображение, не подвергшееся
искажениям, используя априорную информацию о причинах этих
искажений. То есть методы восстановления основаны на моделировании процессов искажения и применения обратных процедур
для воссоздания исходного изображения. Подобный подход обычно включает разработку критериев качества, которые дают возможность объективно оценить полученный результат.
10
В качестве объективного критерия качества восстановления изображения наиболее часто используют среднеквадратическое отклонение (СКО) ошибки восстановления [6, 7]
2
1 N
ÑÊÎ =
å Li - L*i ,
N i=1
(
)
(1.1)
где Li и Li* – яркости пикселей исходного и восстановленного изображений соответственно; N – число пикселей изображения.
Низкое значение СКО означает определенную схожесть восстановленного и исходного изображений, но оно не дает гарантию того,
что с точки зрения визуального восприятия восстановленное изображение будет удовлетворительным. При восстановлении изображения разные алгоритмы могут давать одинаковое значение СКО,
но при этом оказывать различное влияние на другие характеристики изображения, в частности, на передачу резких границ яркости
или цвета. Таким образом, критерий СКО характеризует «среднее»
качество изображения в целом, а на различных его фрагментах
ошибки могут различаться.
Основные источники шума на цифровом изображении – это сам
процесс его получения (оцифровки), а также процесс передачи. К
примеру, в процессе получения изображения с помощью фотокамеры с ПЗС матрицей основными факторами, влияющими на величину шума, являются уровень освещенности и температура сенсоров,
использование высоких настроек ISO (высокой чувствительности).
Модели шумов на изображениях и их основные характеристики
достаточно подробно описаны в литературе [7, 8, 9]. С практической
точки зрения наибольший интерес представляют аддитивный шум
и импульсный.
Воздействие аддитивного шума на сигнал можно описать соотношением
g (x, y) = f (x, y) + η(x, y),
где g(x, y) – результирующее изображение; f(x, y) – исходное изображение, η(x, y) – не зависящий от сигнала шум с гауссовым (или другим) распределением плотности вероятности.
На практике часто встречаются изображения, искаженные импульсным шумом. Такие помехи возникают из-за работающих рядом электрических устройств, плохих метеорологических условий
съемки (дождь, снег), шумов видеодатчика. Воздействие импульсного шума на сигнал описывается соотношением
11
g (x, y) = (1 - p)f (x, y) + p × i(x, y),
где i(x,y) – модель импульсного шума; p – бинарный параметр, принимающий значения 0 или 1. На изображении такие помехи выглядят изолированными контрастными точками.
Плотность вероятности значений амплитуды z биполярного импульсного шума с фиксированными значениями амплитуд импульсов задается выражением [10, 11]
ì
Pa , z = a
ï
ï
ï
ï
p(z) = í Pb , z = b ,
ï
ï
ï
ï
î0, z ¹ a, z ¹ b
где a, b – фиксированные значения амплитуды (b > a); Pa – вероятность появления импульса с амплитудой a; Pb – вероятность появления импульса с амплитудой b. Если хотя бы одно из значений Pa
или Pb равно нулю, то импульсный шум является униполярным. В
общем виде данный тип шума представляет собой множество светлых и темных точек на изображении. Поэтому в видеотехнике его
часто называют шумом «соль и перец». Частным случаем импульсного биполярного шума является такой, при котором параметр а соответствует минимальному значению яркости, a b – максимальному (при восьмибитовом кодировании изображения это означает, что
а = 0, b = 255).
Импульсный шум со случайной амплитудой импульсов отличается от выше описанного тем, что искаженные точки (пиксели) приобретают случайные, а не фиксированные значения а и b. Предполагается, что они являются независимыми случайными величинами
с равномерным или гауссовым распределением амплитуд в интервале [0, 255]. Удаление такого шума представляет значительно более
сложную, но актуальную для современных исследователей задачу.
Итак, при воздействии импульсного шума на изображении наблюдаются белые или/и черные точки, хаотически разбросанные
по кадру. Применение линейной фильтрации в этом случае малоэффективно, так как в этом случае каждый из шумовых импульсов
дает отклик в виде импульсной характеристики фильтра, а следовательно, совокупность всех откликов приводит к искажению всего
изображения.
В настоящее время для обработки изображений широко применяют нелинейную медианную фильтрацию. Медианные (ранговопорядковые) фильтры относят к отдельному классу сглаживающих
12
фильтров, которые позволяют эффективно подавлять импульсные
помехи на изображении, причем имеющие ограниченный набор пиковых значений на фоне нулей. Вместе с тем медианной фильтрации присущи следующие недостатки:
– подавление гауссова шума менее эффективно, чем у линейных
фильтров;
– двумерная медианная фильтрация приводит к ослаблению сигнала от мелких деталей, если их размеры меньше маски фильтра.
Двумерную медианную фильтрацию выполняют посредством перемещения некоторой маски вдоль последовательности дискретных
отсчетов изображения и замены значения центрального пикселя
(фокуса) маски медианой исходных отсчетов внутри маски фильтра.
Медианой последовательности x1, x2, ..., xn, где n – нечетное число,
является значение среднего элемента после упорядочивания последовательности отсчетов по возрастанию (или убыванию) их значений. В случае четного числа отсчетов в маске медиана равна среднему значению двух отсчетов в середине упорядоченного списка.
Цифровые изображения представляются набором чисел на прямоугольной решетке L(i, j), где (i, j) принимают значения из ансамбля {i = 1…b; j = 1…z}, где z – число активных строк в кадре, b – число элементов по строке. Для фильтрации изображения маска осуществляет его попиксельное сканирование.
Используют различные формы масок фильтра [5]: линейные сегменты, квадраты, круги, кресты, квадратные рамки, кольца (рис. 1.5).
В результате применения медианного фильтра импульсный шум
подавляется, а перепады яркости на изображениях не претерпевают существенных изменений. Это очень полезное свойство при обработке таких изображений, где контуры несут важную информацию.
При медианной фильтрации зашумленных изображений степень сглаживания контуров объектов напрямую зависит от размеров и формы маски фильтра. При малых размерах маски лучше со-
Рис. 1.5. Маски фильтра «квадрат» и «крест» размером 3 × 3 элемента
13
храняются контрастные детали изображения, но в меньшей степени подавляются импульсные шумы. При больших размерах маски
наблюдается обратная картина. Оптимальный выбор формы сглаживающей маски зависит от специфики решаемой задачи и формы
объектов.
Приведенные определения медианных фильтров (МФ) не объясняют способа формирования выходного сигнала в районе пограничных точек изображения. Один из простых приемов состоит в том,
что медиану находят только для элементов изображения, которые
попадают в пределы маски. То есть для элементов, расположенных
рядом с границами, медианы определяют исходя из меньшего числа точек.
Существует несколько разновидностей медианных фильтров.
Рассмотрим кратко их характеристики и особенности.
Взвешенный медианный фильтр
В классических медианных фильтрах все величины в пределах
маски влияют на результат фильтрации одинаково. Иногда, в зависимости от характера изображения, желательно придать больший
вес некоторым элементам маски. Эта возможность реализована в алгоритме взвешенной (центрально-взвешенной) медианной фильтрации (ВМФ). Взвешенный медианный фильтр отличается тем, что при
построении массива упорядоченных отсчетов каждый отсчет берется столько раз, сколько указывает соответствующий весовой коэффициент в маске. Например, для маски 3 × 3 элемента можно задать
весовые коэффициенты следующим образом [5]:
é1 1 1ù
é3 1 3ù
ê
ú
ê
ú
ê1 3 1ú или ê1 5 1ú ,
ê
ú
ê
ú
ê1 1 1ú
ê3 1 3ú
ë
û
ë
û
тогда соответствующие массивы будут составлены из 11 или 21 числа.
Целочисленные весовые коэффициенты в маске должны удовлетворять двум условиям: 1) их сумма должна быть нечетной (для
возможности выбора медианы); 2) каждый вес должен быть меньше
половины суммы целочисленных весов в маске (иначе применение
фильтра бессмысленно).
Адаптивный медианный фильтр
Противоречие между степенью подавления шумов и искажениями полезного сигнала в некоторой степени смягчается использо14
ванием фильтров с адаптацией размера маски под характер изображения. В адаптивных фильтрах большие маски применяются на
монотонных областях изображения, что обеспечивает лучшее подавление шумов [12], а малые – вблизи яркостных неоднородностей.
Адаптивный медианный фильтр (АМФ) имеет квадратную маску
размером S × S элементов. Однако площадь маски в процессе обработки изменяется (увеличивается) в зависимости от локальной статистики изображения.
Медианные фильтры с детектором импульсов
Медианный фильтр с простым детектором (МФД) был разработан для подавления импульсного шума с фиксированными значениями импульсов [11]. Алгоритм работы фильтра заключается в
следующем. Если значение яркости пикселя не равно 0 или 255, то
этот пиксель не обрабатывается. Если значение пикселя равно 0 или
255, то значение пикселя заменяется медианой, но не по всем пикселям маски, а только по тем, значения которых не равны 0 или 255.
Если все пиксели внутри маски имеют яркость 0 или 255, пиксель
заменяется ближайшим пикселем, находящимся в той же строке
или столбце, который уже обрабатывался фильтром ранее.
Развитием медианного фильтра с простым детектором является
его усовершенствованный вариант – МФУД. Изменение алгоритма
заключается в том, что, начиная с маски 3 × 3, фильтр увеличивает
ее, пока отношение числа зашумленных пикселей к общему числе
пикселей маски превышает заданный порог или пока маска не достигнет заданного максимального размера.
Прогрессивный переключающийся медианный фильтр
Дальнейшим развитием медианного фильтра с детектором импульсов является прогрессивный переключающийся медианный
фильтр (ППМФ). Такой фильтр доказывает свою эффективность
при значительной степени повреждения изображений импульсным
шумом. Обработка зашумленного изображения с помощью ППМФ
включает два этапа: предварительное обнаружение импульсов шума и процедура непосредственной фильтрации [10, 12].
Процедура обнаружения импульсов использует две последовательности изображений, генерируемых в ходе ее выполнения. Первая – последовательность полутоновых изображений {{xi(0)}, {xi(1)},…,
{xi(n)},…}, где {xi(0)} – начальное поврежденное импульсное изображение; xi(n) – значение пикселя в позиции i = (i1, i2) (нестандартное обозначение «i = (i1, i2)» взято исходя из требований программ15
ной реализации) на зашумленном импульсном изображении после
n-ой итерации. Вторая – последовательность бинарных изображений {{fi(0)}, {fi(1)},…,{fi(n)},…}, где fi(n) – значение пикселя после n-ой
итерации (n = 1,2,...), причем fi(n) = 0, если i-й пиксель «чистый»,
и fi(n) = 1, если на i-ой позиции обнаружен импульс шума. Перед
первой итерацией бинарное изображение состоит из нулей, т.е. все
fi(0) = 0.
На n-й итерации для каждого пикселя изображения сначала вычисляется медиана mi в пределах маски SD × SD элементов (SD – нечетное целое, не меньшее трех). Пусть Ωi отображает множество
значений в пределах маски SD × SD, центрированной вокруг i-го элемента. Тогда
(n-1)
mi
{(
= med xi
n-1)
}
i = Ωi .
Разница между mi(n-1) и xi(n-1) является признаком наличия импульсов помехи. Если в i-м пикселе обнаружен импульс шума, то
пиксели изображения последовательно модифицируются по следующему правилу:
ìï (n-1)
æ (n-1)
ö
(n-1)
- mi
< TD ÷÷÷
, åñëè çç xi
ïïïfi
è
ø
(n) ï
fi = í
,
ïï
æ (n-1)
ö
(n-1)
- mi
> TD ÷÷÷
ïï1 , åñëè çç xi
è
ø
ïî
где TD – предопределенное пороговое значение.
Предположим, что выполнение алгоритма прерывается на N-й
итерации, тогда получаются два изображения {xi(N)} и {fi(N)}. Бинарное изображение {fi(N)} является результатом процедуры предварительного обнаружения импульсов шума.
В дальнейшем на n-й итерации для каждого пикселя xi(n–1) сначала вычисляются медианные значения mi(n–1) в маске SF × SF элементов (SF – нечетное, не меньшее трех) с центром вокруг i-го пикселя. При вычислении медиан используются только «чистые» пиксели (fi(n) = 0) в пределах маски фильтра. Пусть М означает число
всех пикселей c fi(n-1) = 0 в маске SF × SF. Если М – четное, то медиана вычисляется как среднее арифметическое между двумя средними элементами отсортированных данных. Если М > 0, то
(n-1)
mi
16
{(
n-1) (n-1)
fj
, j = Ωi
= med xj
}.
Значение сигнала изменяется только тогда, когда i-й пиксель является шумовым импульсом и М > 0, т.е.
(n)
xi
ì
(n-1)
(n)
ï
, åñëè fi = 1; M > 0
ïmi
.
=ï
í
(n-1)
ï
ï
x
,
èíà÷å
ï i
î
Если в i-й позиции сигнал был изменен, то дальше он рассматривается как неискаженный
(n)
fi
ì
(n-1)
(n)
(n-1)
ï
fi
, åñëè xi = xi
ï
ï
=í
.
(n)
(n-1)
ï
ï
x
m
0
,
åñëè
=
ï
i
i
î
Процедура останавливается на N-й итерации, когда все пиксели
модифицированы, и выполняется равенство
(N )
å fi
= 0.
i
Полученное в результате изображение xi(N) и есть восстановленное изображение.
Анализ работ по использованию ППМФ в задачах удаления импульсного шума из изображений показывает убедительное превосходство предложенного подхода по сравнению с простым медианным фильтром при незначительном увеличении вычислительной
сложности алгоритма. Открытым остается вопрос о выборе величины порога.
Сравнение фильтров
Сравнительный анализ алгоритмов удаления импульсного шума проводился для следующих моделей аддитивного импульсного
шума:
– импульсный шум с фиксированными значениями амплитуд
импульсов (шум типа «соль и перец»);
– импульсный шум с равномерным распределением амплитуд;
– импульсный шум с гауссовым распределением амплитуд.
Восстановление зашумленных изображений осуществлялось в
пакете программ математического моделирования MATLAB [13] с
участием следующих фильтров:
– медианный фильтр (МФ) с маской 3 × 3 элемента;
– адаптивный медианный фильтр (АМФ) с максимальным размером маски 11 × 11;
– медианный фильтр с простым детектором (МФД);
17
– прогрессивный переключающийся медианный фильтр
(ППМФ);
– адаптивный прогрессивный переключающийся медианный
фильтр (АППМФ) с максимальным размером маски 5 × 5 элементов.
Сравнение эффективности фильтров осуществлялось как по СКО
погрешности восстановления (1.1), так и по визуальной оценке качества восстановленных изображений в соответствии с рекомендациями Международного Союза Электросвязи (ITU-R Recommendation
ВТ.500-11) [14]. В качестве исходного, эталонного изображения было взято изображение автомагистрали (рис. 1.6). Для отображения
влияния фильтрации на контуры изображения в исходное изображение введено изображение клина (правый нижний угол), которое
не подвергается воздействию шумов. По гистограмме, расположенной в левом верхнем углу, можно судить о степени влияния шума на
изображение и соответствие распределения переходов яркости в исходном, зашумленном и обработанном изображениях.
Зависимости СКО ошибки восстановления от плотности шума
«соль и перец» для различных фильтров представлены на рис. 1.7.
На рис. 1.8 показаны зашумленное изображение и восстановленные
различными алгоритмами медианной фильтрации.
Анализ зависимостей (см. рис. 1.7) и результатов обработки (см.
рис. 1.8) позволяет сделать следующие выводы:
– наиболее эффективно с импульсным шумом с фиксированными значениями импульсов справляются МФД и АППМФ (значения
120
100
Исх. с шумом
СКО
80
МФ
60
АМФ
40
МФД
ППМФ
20
АППМФ
0
1
2
3
4
5
6
Плотность шума, %
7
Рис. 1.7. График зависимости СКО восстановленных изображений
от плотности импульсного шума
18
Зашумленное изображение
Адаптивный медианный фильтр
Прогрессивный переключающий
медианный фильтр
Медианная фильтрация
Медианная фильтрация с детектором
Адаптивный прогрессивный
переключающий медианный фильтр
Рис. 1.8. Результаты восстановления изображения, искаженного
30-процентным импульсным шумом с фиксированными значениями
импульсов
19
СКО практически совпали), но при этом, как видно из анализа изображения клина, четкость изображения падает;
– при небольшой плотности (10–20%) зашумления изображения
импульсным шумом с фиксированным значением импульсов хороший результат показывает МФ, но его эффективность падает при
увеличении степени зашумленности изображения, четкость изображения также ухудшается;
– наиболее часто используемый на практике алгоритм ППМФ
справляется с задачей удаления импульсного шума с фиксированными значениями импульсов, но при этом наблюдается размывание контуров изображения. Это видно и на основном изображении
и особенно на изображении клина. Этот недостаток особенно критичен в ситуациях, когда фильтрация выступает в качестве элемента
предварительной обработки изображения.
На рис. 1.9 приведены зависимости СКО от плотности импульсного шума с равномерным распределением амплитуд на интервале
[0, 255] для различных фильтров, а на рис. 1.10 показаны изображения после соответствующей процедуры восстановления.
Анализируя результаты, приведенные на рис. 1.9 и 1.10, можно
сделать следующие выводы:
– по величине СКО наиболее эффективно с задачей фильтрации
справляются МФ и ППМФ, но обработка с помощью ППМФ приводит к сильному размытию контуров изображения;
– АМФ дает удовлетворительные результаты лишь при низкой
зашумленности изображений (до 30%);
80
70
СКО
60
Исх. с шумом
50
МФ
40
АМФ
30
МФД
20
ППМФ
10
АППМФ
0
10
20
30 40 50 60
Плотность шума, %
70
Рис. 1.9. Зависимости СКО от плотности импульсного шума с
равномерным распределением амплитуд
20
Зашумленное изображение
Адаптивный медианный фильтр
Прогрессивный переключающий
медианный фильтр
Медианная фильтрация
Медианная фильтрация с детектором
Адаптивный прогрессивный
переключающий медианный фильтр
Рис. 1.10. Результаты восстановления изображения, искаженного
30-процентным импульсным шумом со случайными значениями
импульсов (равномерное распределение)
21
СКО
50
45
40
35
30
25
20
15
10
5
0
Исх. с шумом
МФ
АМФ
МФД
ППМФ
АППМФ
10
20
30 40 50 60
Плотность шума, %
70
Рис. 1.11. Зависимости СКО от плотности импульсного шума
с гауcсовым распределением амплитуд
– МФД не решает поставленной задачи (его СКО совпадает с СКО
без фильтрации;
– АППМФ тоже обладает очень низким показателем подавления
заданного шума.
Результаты восстановления изображения различными фильтрами после воздействия импульсного шума с гауссовым распределением амплитуд приведены на рис. 1.11 и 1.12.
Анализ значений СКО (см. рис. 1.11) позволяет сделать вывод,
что МФ несколько лучше других удаляет импульсный шум с гауссовым распределением амплитуд. Однако из вида полученных изображений (см. рис. 1.12) ясно, что ни один из рассмотренных фильтров не выполняет поставленную задачу.
Низкие показатели ППМФ и МППМФ в этом случае можно объяснить неправильно выбранным порогом. Для определения влияния порога на качество фильтрации были взяты тестовые изображения типа «портрет» (рис. 1.13).
На рис. 1.14 изображен график, показывающий усредненную зависимость СКО от выставляемого порога для тестовых изображений, зашумленных 30-процентным импульсным шумом с фиксированными значениями амплитуд импульсов.
Из графика видно, что значение порога заметно влияет на СКО,
т.е. на качество фильтрации изображения. На графике явно заметен минимум СКО для порога на уровне 16–20 градаций. Данный
вид кривой можно объяснить с помощью зависимости вероятности яркостных перепадов от их величины (рис. 1.15) [15–17]. Име22
Зашумленное изображение
Медианная фильтрация
Адаптивный медианный фильтр
Медианная фильтрация с детектором
Прогрессивный переключающий
медианный фильтр
Адаптивный прогрессивный
переключающий медианный фильтр
Рис. 1.12. Результаты восстановления изображения, искаженного
30-процентным импульсным шумом со случайными значениями
импульсов (гауссово распределение)
23
Рис. 1.13. Тестовые изображения типа «портрет»
14,2
14
13,8
СКО
13,6
13,4
экспериментальные
точки
13,2
13
полиномиальная
аппроксимация
12,8
12,6
12,4
12,2
0
8
16
24
32
40
48
56
величина порога, градации
Рис. 1.14. Зависимость СКО от порога для изображения, зашумленного
30-процентным шумом с фиксированными значениями импульсов
0,14
Вероятность
0,12
0,1
0,08
шум 30%
исходная
0,06
0,04
0,02
0
1
5
9 13 17 21 25 29 33 37 41
Величина перепада, градации
Рис. 1.15. Зависимости вероятности от величины перепадов яркости
24
а)
б)
Рис. 1.16. Исходное изображение с гистограммой шума (а)
и обработанное медианным фильтром (б)
ет смысл рассматривать только начальный участок характеристики
до перепадов в 60–70 градаций исходного и зашумленного изображений (плотность шума 30%), поскольку вероятность появления
более значительных перепадов ничтожно мала.
Итак, зависимости, представленные на рис. 1.15, имеют два
участка: быстро спадающий участок и участок, где значения вероятности малы и практически неизменны. В области плоских участков кривых есть точка, в которой они пересекаются и после которой
25
вероятность перепадов зашумленного изображения превышает вероятность перепадов исходного изображения. Эта точка может быть
хорошим указателем величины порога. То есть для наилучшего достижения результата порог должен быть выбран приблизительно на
уровне 16–20 градации.
Еще один пример применения медианной фильтрации дан на
рис. 1.16.
1.2.3. Морфологическая фильтрация
При выборе способа фильтрации необходимо исходить из соображений его минимального воздействия на параметры объекта интереса (объекта, за которым ведется наблюдение). В частности, он
не должен искажать и разрушать контуры выделенных изображений объектов. Этим полезными свойством обладает так называемая
морфологическая фильтрация, основанная на логических операциях над сигналами. Алгоритм обработки изображения, на входе и
выходе которого находятся бинарные изображения, называют двумерным системным SP-фильтром. Алгоритм, который преобразует
входное полутоновое изображение в выходное полутоновое изображение, называют функциональным двумерным FP-фильтром. Логические операции выполняются между маской S и областью цифрового изображения L, выделенной этой маской. Результат операции помещается в новую битовую матрицу на место, где находится
фокус маски. Используются маски различной формы и размерности
[18].
Рассмотрим наиболее распространенные операции морфологической фильтрации применительно к обработке бинарно-квантованных изображений.
Эрозия (erosion) обозначается символами LS и осуществляется
путем операции логического «И» между состоящей из единиц маской S размером n × n и накрываемым маской фрагментом бинарно-квантованного изображения L. По результатам логического умножения формируется новый массив изображения. Если накрываемый маской фрагмент содержит хотя бы один ноль, в фокусе маски
вновь формируемого изображения устанавливается ноль. В результате этой операции все фрагменты исходного изображения, которые
меньше маски, исчезают, а которые больше – «сжимаются» на величину маски.
Наращивание (dilation) обозначается символами L Å S и выполняет операцию логического «ИЛИ» следующим образом: в фокусе
26
маски устанавливается единица, если в накрываемом маской фрагменте находится хотя бы один единичный элемент. В результате
изображение восстанавливается до исходных размеров.
Открытие (opening) представляет собой комбинацию эрозии и наращивания, которые выполняются последовательно –
LS = (LS) Å S. В результате этой операции фрагменты, которые
по площади меньше маски, исчезают из изображения, а те, которые
больше – восстанавливаются до своих исходных размеров.
Закрытие (closing) – порядок выполнения действий обратный открытию, т.е. LS = (L Å S)  S.
Применительно к полутоновым изображениям операция эрозии
трактуется как нахождение минимума в пределах области исходного цифрового изображения, накрытого маской, и установка этого значения в результирующей матрице на место, где расположен
фокус маски. В операции наращивания ищется максимум сигнала.
Для улучшения соотношения сигнал-шум в изображении (см.
рис. 1.16) была применена комбинация операций открытия и закрытия с маской размером 3 × 3 элемента (рис. 1.17). Морфологическая фильтрация несколько проигрывает по эффективности медианной фильтрации (сравните рис. 1.16 и 1.17), однако не нарушает
резкости границ объектов. Кроме того, операции открытия-закрытия в вычислительном отношении менее сложные, чем медианная
фильтрация. Порядок выполнения операций эрозии и наращива-
Рис. 1.17. Результат морфологической обработки
27
ния для бинарно-квантованных изображений может быть прямым
и обратным: для белых объектов на черном фоне – эрозия, затем наращивание, а для черных объектов на белом фоне – наоборот. Кроме
того, эти операции обратимы для объектов, превышающих по размеру маску – утончение объекта с помощью операции эрозия полностью компенсируется операцией наращивания. Однако объекты,
которые меньше маски, бесследно исчезают. Поэтому операция открытия удаляет выбросы шума в виде белых точек («соль») на черном фоне, а операция закрытия – черные точки («перец») на белом
фоне. Последовательное применение обеих операций устраняет оба
вида выбросов, в то время как относительно крупные объекты полностью сохраняются.
1.2.4. Фильтры на основе порядковой статистики
Рассмотрим процесс фильтрации изображения фильтром на основе порядковой статистики (ФПС). Фильтрация осуществляется
движением маски фильтра по площади изображения для каждого
пикселя и включает следующие этапы: считывание интенсивностей пикселей под маской, сортировка по возрастанию, выбор из отсортированной последовательности элемента, занимающего в ней
заданное положение. Пусть маска фильтра представляет собой квадрат со сторонами 3 × 3 элемента, количество считываемых элементов изображения N = 9.
Вариант общей формулы для ФПС, описывающий операцию
формирования выходного значения ФПС O(U[n],r) путем выбора из
вариационного ряда значения яркости, соответствующего заданному рангу:
"x Î {0..w -1}, "y Î {0..h -1} : frN [x, y] = O(U [n],r ),
где
U [n] = K(sort(R (concat(I [x, y]), concat(C[x, y]))), E[n]). (1.2)
Элементы формулы:
1) L – матрица значений яркости под маской площадью 3 × 3 элемента:
é122 120 255ù
ê
ú
L = êê123 121 0 úú ;
ê 0 119 255ú
ë
û
28
2) concat(L) – операция создания ряда из матрицы путем последовательного соединения строк:
concat(L) = {122, 120, 255, 123, 121, 0, 0, 119, 255};
3) C – матрица, определяющая число считываний значения элемента с координатами [x,y] в ряд R. Эта матрица описывает форму
маски. Назначение весов, отличных от 0 или 1, может использоваться для удлинения промежуточного вариационного ряда путем многократного считывания элементов матрицы L. В данном примере
вариационный ряд удлинен на 2 элемента:
é1 1 1ù
ê
ú
C = êê1 3 1úú ; concat(C) = {1, 1, 1, 1, 3, 1, 1, 1, 1}.
ê1 1 1ú
ë
û
Если concat(C)≠{1, 1, 1, 1, 1, 1, 1, 1, 1}, то в название ФПС добавляется слово взвешенный [7, 9];
4) R(concat(L), concat(C)) – операция создания ряда R на основе
двух рядов, из которых первый ряд является значениями, количество считываний которых определяется элементами второго ряда:
R (concat(L), concat(C) =
= {122, 120, 255, 123, 121, 121, 121, 0, 0, 119, 255};
5) sort(R[n]) – операция сортировки ряда по возрастанию – формирование вариационного ряда R’[n]:
sort(R [n]) = {0, 0, 119, 120, 121, 121, 121, 122, 123, 255, 255};
6) K(R′[n]), E[n]) – операция создания ряда на основе двух рядов.
Значения E[n] определяют количество считываний элементов вариационного ряда R. Эта операция используется для устранения подверженных шуму крайних элементов вариационного ряда. В этом
случае для вариационного ряда длиной 11 элементов может иметь
вид E[n] = [0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0], а итоговый вариационный
ряд T[n] = [119, 120, 121, 121, 121, 122, 123] будет иметь длину 7
элементов. В случае если E[n]≠{1, 1, 1, 1, 1, 1, 1, 1, 1}, то в название
ФПС добавляют слово усеченный [8].
7) U[n] – итоговый вариационный ряд;
8) r – ранг (номер элемента) вариационного ряда, который выбирается в качестве выходного значения ФПС. Если ранг равен
медиане r = N/2, то результирующий фильтр называют взвешенным усеченным медианным фильтром. Часто пишут для медианы
29
r = (N + 1)/2, но при округлении в большую сторону получается тот
же самый результат r = N/2, поэтому в дальнейшем будем использовать вариант r = N/2.
Обычно concat(C) = {1, 1, 1, 1, 1, 1, 1, 1, 1} и E[n] = {1, 1, 1, 1, 1, 1,
1, 1, 1}, т.е. выражение (1.2) приобретает более простой вид
U [n] = sort(concat(L[x, y])).
Кроме операций K(R′[n]), E[n]) и R(concat(L), concat(C)) могут использоваться и другие, что естественно приводит к усложнению
формулы ФПС. Среди упоминаемых в литературе вариантов – возведение яркостей в некую степень [4] (аналог гамма-коррекции) и
морфологическая операция hit-and-miss, срабатывающая при совпадении заданной маски с фрагментом изображения и неработающая на несовпадающих участках.
Существует также направление, использующее процедуру обнаружения шума с последующим применением медианного фильтра.
В этом случае
ìL(x, y), eñëè d(x, y) = 0
ï
frN [x, y] = ï
,
í
ï
ï
îO([T [n],r ), eñëè d(x, y) = 1
где d(x,y) – элемент матрицы D, в которой записаны результаты работы детектора шума.
При этом детекторы не всегда дают правильную оценку типа
пикселя. ФПС с детекторами шума получают в названии дополнение «переключающийся» [1] или «условный» [2]. Если детектор шума анализирует не всех соседей центрального пикселя под маской,
то в название фильтра может добавляться слово «направленный»
[6]. Порог в детекторе шума может быть адаптивным [2].
Детектор шума может применяться для изменения размера маски фильтра на основании расчета некоторого критерия, например,
сравнения максимального значения относительной разницы центрального элемента и яркостей соседних элементов c заданным порогом [10]:
Sn, p =
L(x + n, y + p) - L(x, y)
.
L(x, y)
Увеличение маски происходит в случае max[Sn,p] < Sthreshold. Эта
итеративная процедура включения в рассмотрение новых пикселей
продолжается до тех пор, пока под маску не попадет дефектный элемент или размер окна не достиг максимума.
30
Размер маски фильтра может быть изменен в пределах разрешенных значений в зависимости от числа обнаруженных поврежденных пикселей (больше поврежденных пикселей – больше размер
маски, и наоборот) [2]. В этом случае в название фильтра, как правило, добавляют слово «адаптивный» [5].
Если переключающийся ФПС применяется к одному и тому же
участку изображения несколько раз, то такие ФПС называются прогрессивными [1]. Итеративное повторение детектирования и подавления шума заканчивается, когда все дефектные пиксели исправлены.
Применяют ФПС с разными площадями и формами масок, а также разными рангами. Рассмотрим классификацию ФПС по выбранному значению (рангу) вариационного ряда:
fNr = 1 – эрозия (наименьшее значение яркости в окрестности при
отсутствии усечения вариационного ряда);
fN1 < r < N/2 – псевдоэрозия (промежуточные ранги между наименьшим и средним по порядку значением в вариационном ряду);
fNr = N/2 – медианный фильтр (среднее по порядку значение в вариационном ряду);
fNN/2 < r < N – псевдонаращивание (промежуточные ранги между средним и наибольшим по порядку значением в вариационном
ряду);
fNr = N – наращивание (наибольшее значение яркости в окрестности при отсутствии усечения вариационного ряда).
Приставка «псевдо» означает, что: 1) в отличие от операции наращивания при псевдонаращивании центральный белый пиксель может стать черным, если большинство пикселей под маской черные;
2) при псевдоэрозии в отличие от эрозии центральный черный пиксель может стать белым, если большинство пикселей под маской
белые (рис. 1.18). На этом рисунке верхний ряд – исходное изображение и изображение с добавлением шума типа «инверсия» (вероятность повреждения изображения 0,04). Второй ряд – зашумленное изображение после применения псевдоэрозии (ранг 8 из 25) и
зашумленное изображение после применения эрозии. Третий ряд –
зашумленное изображение после применения псевдонаращивания
(ранг 18 из 25) и зашумленное изображение после применения наращивания. Видно, что операции псевдонаращивания и псевдоэрозии
гораздо эффективнее классических операций наращивания и эрозии, так как способны подавлять биполярный шум.
Шум типа «инверсия» для бинарного изображения получают в
результате «идеальной» смеси импульсных помех «соль» и «перец».
31
Идеальным этот способ является потому, что при аддитивной смеси помех «соль» и «перец» импульс «соль» может попасть на белый
пиксель и таким образом не исказить исходное изображение (аналогично импульс «перец» может попасть на черный пиксель). Назовем
отсутствие искажения яркости пикселя исходного изображения
при воздействии шума событием типа «холостой выстрел». Например, если в исходном изображении пикселей черного цвета гораздо больше, чем пикселей белого цвета, то шум типа «перец» окажет
намного меньший эффект на изображение, чем шум типа «соль». В
случае инверсии яркостей пикселей бинарного изображения с некоторой заданной вероятностью зашумления не будут происходить
события типа «холостой выстрел».
Алгоритм генератора шума типа «инверсия» записывается следующим образом:
ïìL(x, y), åñëè p(x, y) ³ PT
L ¢[x, y] = ïí
,
ïîï255 - L(x, y), åñëè p(x, y) < PT
где L′(x,y) – яркость пикселя выходного изображения; L(x,y) – яркость входного изображения; p(x,y) – значение датчика случайных
чисел для текущего пикселя; PT – численное значение вероятности
повреждения изображения.
Фильтры псевдоморфологии принимают решение по значениям яркости нескольких пикселей и в силу этого нечувствительны
к отдельным шумовым выбросам в отличие от обычных морфологических фильтров. Если взять псевдоэрозию fr25
=6 , то она нечувствительна к 5 черным пикселям из 25, если соответствующий r = 6
пиксель – белый и к 19 белым пикселям, если соответствующий
r = 6 пиксель – черный.
На рис. 1.19 показано изменение результата фильтрации зашумленного изображения шумом инверсия с вероятностью повреждения 0,05 (наиболее близкая к оригиналу версия в центре рисунка)
в зависимости от изменения выбранного ранга от наименьшего до
наибольшего.
Из рис. 1.18 и 1.19 видно, что наращивание (взятие максимальной яркости в маске в качестве выходного значения рангового фильтра) усиливает не только полезный сигнал (пиксели объектов), но
и шумовые, отдельно стоящие пиксели. Аналогично эрозия (взятие
минимальной яркости в маске в качестве выходного значения ФПС)
подавляет не только шумовые, отдельно стоящие пиксели, но и полезный сигнал.
32
Рис. 1.18. Результаты работы фильтров псевдонаращивания и
псевдоэрозии по сравнению с операциями наращивания и эрозии
Медианный фильтр является эффективным в подавлении отдельно стоящих поврежденных пикселей, но вместе с тем он не приводит к удалению больших скоплений шумовых пикселей или заполнению больших дыр в объектах. Для этой задачи следуют применять каскады из нескольких повторений операций псевдонаращивания и псевдоэрозии.
33
Рис. 1.19. Результаты фильтрации зашумленного изображения
Исследование [11] позволило построить табл. 1.1 с помехоустойчивыми аналогами наращивания и эрозии – ФПС «псевдонаращивание» и «псевдоэрозия». В табл. 1.1 знак «–» означает, что оба оператора выродились в медиану, т.е. наилучший результат фильтрации получается при ранге, равном медиане. Из таблицы следует,
что при повреждении 10% площади изображения и размере маски
фильтра 3 × 3 псевдоэрозия записывается формулой fr9=4 , а псевдонаращивание записывается формулой fr9=6 .
На основании экспериментальных данных были выведены формулы расчета требуемого ранга операций псевдонаращивания rPD
и псевдоэрозии rPE в зависимости от количества элементов в маске
рангового фильтра и вероятности повреждения изображения (задаваемой в процентах):
P
P
rPD = med + ( N - T ) + k, rPE = med - ( N - T ) - k,
5
5
где med – медиана вариационного ряда; PT – вероятность повреждения изображения (т.е. предполагаемое расхождение изображений
результата сегментации и эталонного выделения объектов, задаваемое в процентах от площади изображения); k – поправка на содержание изображения (от 0 до 2, причем чем больше размеры областей
с объектами, тем больше поправка).
34
Таблица 1.1
Помехоустойчивые ФПС «псевдонаращивание» и «псевдоэрозия»
PТ
3 × 3
Размеры маски рангового фильтра
5 × 5
Псевдоэрозия n = 3 Псевдоэрозия n = 8
Псевдонаращивание Псевдонаращивание
n = 7
n = 18
0,1 Псевдоэрозия n = 4 Псевдоэрозия n = 9
Псевдонаращивание Псевдонаращивание
n = 6
n = 17
0,15
–
Псевдоэрозия n = 10
Псевдонаращивание
n = 16
0,20
–
Псевдоэрозия n = 11
Псевдонаращивание
n = 15
0,25
–
Псевдоэрозия n = 12
Псевдонаращивание
n = 14
0,30
–
–
0,05
0,35
–
–
0,40
–
–
7 × 7
Псевдоэрозия n = 18
Псевдонаращивание
n = 32
Псевдоэрозия n = 19
Псевдонаращивание
n = 31
Псевдоэрозия n = 20
Псевдонаращивание
n = 30
Псевдоэрозия n = 21
Псевдонаращивание
n = 29
Псевдоэрозия n = 22
Псевдонаращивание
n = 28
Псевдоэрозия n = 23
Псевдонаращивание
n = 27
Псевдоэрозия n = 24
Псевдонаращивание
n = 26
–
При пороговом значении вероятности зашумления изображения
ФПС «псевдонаращивание» и «псевдоэрозия» вырождаются в медианный фильтр:
PTcrit = 5( N + k).
То есть рассчитанная по формуле критическая вероятность зашумления для маски 3 × 3 – 15%; для маски 5 × 5 – 25%; для маски
7 × 7 – 35%, что незначительно отличается от экспериментальных
данных.
1.3. Препарирование изображений
Для успешного решения сложных задач визуального и автоматического анализа изображений (например, обнаружение, выделение, распознавание и сопровождение объектов на сложном
фоне, измерение их параметров) целесообразно в предъявляемой
35
видеоинформации акцентировать внимание лишь на существенных фрагментах, особенностях и признаках. Подобное акцентирование может быть достигнуто с помощью специального целевого преобразования изображений реальных сюжетов, называемого
препарированием. В этом случае изображение-препарат приобретает новые свойства, а иногда и другую форму представления видеоданных. К препарированию могут быть отнесены такие виды обработки изображений, как бинаризация, контрастирование, сегментация, выделение контуров, формирование поля векторов движения, скелетизация и т.д.
1.3.1. Сегментация изображений
Сегментация – это процесс разделения изображения на участки
(сегменты), обладающие различными характеристиками. Такими
дискриминаторными характеристиками могут быть яркость, цвет,
текстура, форма, некие специфические признаки. Сегментация в
основном используется для выделения интересующих объектов или
для определения границ разнородных участков изображения. И если перечисленные признаки позволяют осуществить сегментацию
при обработке одного кадра видеоряда, то в последовательности кадров можно дополнительно использовать признак движения.
Чтобы выполнить сегментацию видеокадра на однородные области по яркости вычисляется вектор-градиент, составленный из первых частных производных изображения L(x, y) по направлениям x
и y для каждой точки изображения:
æ dL(x, y) dL(x, y) ö÷Ò
÷ .
gradL(x, y) = çç
,
çè dx
dy ÷÷ø
Вектор-градиент характеризуют нормой  grad(L(x, y)  и направлением
æ dL / dy ö÷
÷.
ϕ = arctg çç
çè dL / dx ÷÷ø
Вычисление вектора-градиента и расчет его нормы для каждой
точки кадра представляет достаточно трудоемкую задачу, поэтому
используют приближение к норме вектора-градиента – так называемый многомасштабный морфологический градиент. Пусть L(x, y)
обозначает фильтрованное изображение, а Si – группу квадратных
масок. Размер Si равен (2i + 1)(2i + 1) пикселей, где 1 ≤ i ≤ 3. Мно36
б)
а)
Рис. 1. 20. Видеокадр самолета (а)
и карта морфологического градиента (б)
гомасштабный морфологический градиент (размеры масок – 3 × 3,
5 × 5 и 7 × 7 пикселей) вычисляется следующим образом:
3
MG (L) = 13 å éëê((L Å Si ) - (L!Si )) ! Si-1 ùûú, (1.3)
i=1
где символы Å и ! обозначают наращивание и эрозию соответственно.
В соответствии с выражением (1.3) значения градиентов рассчитывают трижды с использованием масок различной величины, а результаты суммируют. Обработка, использующая многомасштабный
морфологический градиент, была применена к видеокадру самолета, идущего на посадку (рис. 1.20). Обращает на себя внимание тот
факт, что как корпус самолета (он темнее фона), так и включенные
фары, после обработки отображаются в виде темных участков, соответствующих минимальным значениям сигналов. На первом этапе этой обработки на изображении выделяются области, в которых
наиболее вероятно присутствие объектов интереса. Предварительная сегментация существенно уменьшает число вычислительных
операций без потери объектов интереса или их частей.
Отличительной особенностью объектов интереса является большое число перепадов яркости как на границах объект/фон, так и на
внутренних элементах объекта. С одной стороны, оценка детальности для всего изображения позволяет судить о его качестве. С другой стороны, понятие детальности неприменимо для одного пикселя изображения. Поэтому оценку производят для фрагментов изображения (капель – blob), размеры которых согласованы с мини37
мальными по площади объектами интереса, например 8 × 8 пикселей. Уровень детальности фрагмента изображения с номером (k, l)
M N
Rkl = åå gradL(xj , yi ) ,
i=1 j=1
где M – число строк; N – число столбцов в битовой матрице.
Хорошими приближением к карте норм векторов-градиентов является контурный препарат, который получают с помощью операторов:
Превитта
é1 0 -1ù é 1
1
1ù
ê
ú ê
ú
ê1 0 -1ú ; ê 0
ú
0
0
ê
ú ê
ú
ê1 0 -1ú ê-1 -1 -1ú
ë
û ë
û
и Робертса
é1 0 ù
ê
ú;
ê0 -1ú
ë
û
é0 -1ù
ê
ú,
ê1 0 ú
ë
û
позволяющих вычислить горизонтальные, вертикальные и наклонные производные в точках на растре и выделить, соответственно,
вертикальные, горизонтальные и наклонные контуры.
Операторы Собела
é-1 0 1ù
é-1 2 -1ù
é-2 -1 0ù
ê
ú
ê
ú
ê
ú
ê-2 0 2ú ;
ê 0 0 0 ú;
ê-1 0 1ú
ê
ú
ê
ú
ê
ú
ê-1 0 1ú
ê1 2 1ú
ê0
1 2úû
ë
û
ë
û
ë
очень похожи на операторы Превитта, а различие заключается в удвоении некоторых коэффициентов [13].
Несколько иным способом выделения контуров на изображении
является «нерезкое маскирование», в котором из исходного изображения вычитают его сглаженную копию (рис. 1.21).
Наиболее эффективный алгоритм выделения контуров изображения разработал Кэнни (Canny). Целью Кэнни было создание оптимального алгоритма обнаружения контуров по совокупности
критериев:
а) «хорошее обнаружение» – алгоритм должен выделить все имеющиеся контуры в изображении;
б) «хорошая локализация» – отмеченные края должны быть наиболее близкими к краям в исходном изображении;
38
Рис. 1.21. Исходное изображение и результат выделения контура
нерезким маскированием
в) «минимальный отклик» – данный край в изображении должен быть отмечен только один раз, а шум изображения, по возможности, не должен создавать ложные края.
Детектор Кэнни действительно находит контуры наиболее эффективно из всех предложенных алгоритмов, но требует большого
объема вычислений, что затрудняет его использование в аппаратуре, работающей в реальном времени.
Контуры могут быть получены методами морфологического анализа, что дает возможность легко изменять их толщину.
К начальной маске S n раз применяют операцию наращивания
nS = S Å S Å S... Å S. Если S – выпуклый элемент, то в результате получают новую маску nS той же формы, но большего размера.
Если S – двумерная симметричная маска, то системная разность
L - (L ! nS) дает границу бинарного изображения L, а алгебраическая разность L - (L ! nS) усиливает контуры полутонового изображения. Величина n в nS управляет толщиной контуров (рис. 1.22).
Контуры различной ориентации получаются с использованием одномерной маски S, сориентированной соответствующим образом. Более симметричной обработкой между изображением объекта и задним
планом является оценщик контуров (L Å nS) - (L ! nS), который аппроксимирует градиент
функции L.
Рис. 1.22. Контурный препарат
39
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1 4 7
13
19
25
31
37
43
49
55
Ряд37
Ряд25
Ряд13
Ряд1
Рис. 1.23. Разбитое на блоки исходное изображение, поверхность,
описывающая детальность в блоках, и блоки, оставленные
для дальнейшей обработки
Использование контурного препарата дает возможность описать
распределение уровней детальности во фрагментах (блоках) изображения двумерной поверхностью (рис. 1.23):
N N
D (k, l) = åå Λ(k + i, l + j),
j=1 i=1
где ∆(x, y) – яркость пикселя в контурном препарате, полученном из
исходного изображения L(x, y); k, l – номер блока по горизонтали и
вертикали; N – число пикселей по горизонтали и вертикали в квадратном блоке.
40
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
экспериментальная гистограмма
теоретическая гистограмма
Рис. 1.24. Гистограмма детальности в блоках
и распределение Релея при s = 3
Для дальнейшей обработки целесообразно оставить фрагменты
(блоки) с высоким уровнем детальности (см. рис. 1.23), которые получаются путем пороговой обработки поверхности D(k, l). Совокупность оценок детальности, полученных для всех блоков кадра, является выборкой случайной величины r. Анализ и исследование
ее гистограмм (рис. 1.24) позволяют утверждать, что r имеет закон
распределения Релея
æ -ρ2 ÷ö
ρ
ω(ρ) = 2 expççç 2 ÷÷÷.
çè 2σ ÷ø
σ
Известный закон распределения и бинарный характер классификации дает возможность реализовать пороговое ограничение,
как превышение текущей оценкой детальности уровня 3σ, т.е.
DM (k, l) ³ 3σ.
Известно, что максимальная плотность при распределении Релея достигается при ρ = σ. Эта особенность обеспечивает быстрый и
удобный для практической реализации способ оценки параметра s по экспериментальной гистограмме:
σˆ = min+ num _ max´ int+ int/ 2,
где min – минимальное значение оценки детальности; num_max –
номер интервала гистограммы с максимальной частотой попадания
случайной величины; int – значение интервала (см. рис. 1.24).
41
Для большинства исследованных сюжетов предложенная процедура исключает из последующей обработки до 80% блоков кадра. В
результате удается заметно снизить объем вычислений.
1.3.2. Скелетизация
При решении задач векторизации изображений и распознавания
образов перспективным является использование срединных линий
изображений объектов, называемых еще остовами или скелетами
[29, 30]. Распознавание в этом случае осуществляется путем сравнения аналитической аппроксимации функции остова, полученной
из анализируемого изображения объекта, с аналитической аппроксимацией функции остова, полученной из объектов-моделей, хранимых в базе данных [6].
Скелет является структурной характеристикой изображения
объекта, оператором описания формы, удобным средством для анализа топологических и метрических свойств изображений объектов. Использование этого средства позволяет значительно уменьшить вычислительную сложность, увеличить точность и помехоустойчивость алгоритмов распознавания. Саму процедуру выделения срединных линий изображения объекта, имеющего толщину,
называют утончением или скелетизацией.
Скелетизация растрового изображения объектов широко используется в телевизионных системах распознавания образов. Причем известные алгоритмы скелетизации часто основаны на морфологической обработке, хотя встречаются и оригинальные эвристические способы. Они работают с дискретными изображениями, зачастую с бинарными, формируя линии скелетов, не совпадающие
с теоретически определенными [30]. Вид получаемых остовов зависит от выбранной процедуры обработки и от ориентации объекта,
неоднозначен, может содержать лишние элементы. Однако во многих прикладных системах дискретные скелеты нашли применение
и с успехом используются при распознавании изображений объектов, главным образом символов (букв и цифр).
Морфологический способ формирования
Морфологический остов изображения объекта может быть получен последовательным применением морфологических операторов.
Утончение представляет собой необратимую операцию, цель которой состоит в том, чтобы попытаться свести связные области элементов изображения с заданным набором свойств к областям мень42
L
R
L
R
L
R
L
R
L
R
L
R
L
R
Рис. 1. 25. Утончение объекта прямоугольной формы
ших размеров. С помощью утончения область приводится к минимальной ширине поперечного сечения.
Работа алгоритма утончения объекта прямоугольной формы иллюстрируется на рис. 1.25. На первом шаге алгоритма граничные
элементы с левой стороны объекта, обозначенные буквой L, удаляются, если они не являются точками дуги и их удаление не ведет
к нарушению восьмисвязности. На втором шаге удаляются граничные элементы с правой стороны объекта, обозначенные буквой R,
если соблюдаются такие же условия, как и для левых граничных
точек. Затем процесс удаления повторяется для верхних (Т) и нижних (В) граничных точек, которые удаляются, если они не являются точками дуги и их удаление не ведет к нарушению восьмисвязности. После четырех шагов первого этапа работа алгоритма повторяется до тех пор, пока нельзя будет удалить ни один элемент без
нарушения связности. На рис. 1.26 приведены примеры, иллюстрирующие работу этого алгоритма применительно к объектам одинаковой формы, но разной ориентации.
Таким образом, одним из подходов к получению скелета может
быть процедура утончения объекта до тех пор, пока не будет получена цепочка элементов с минимальной связностью. Однако недостатки этого алгоритма уже видны из предыдущих примеров: остов
определяется неоднозначно, его форма сильно зависит от ориентации объекта и от вариаций процедур утончения.
Пример остова бинарного изображения легкового автомобиля,
полученного морфологическим способом, приведен на рис. 1.27.
Однако подход, основанный на морфологическом анализе формы
остовов, более применим к задаче автоматического распознавания
различных символов. Ниже приводятся результаты формирования
остовов бинарных изображений ряда цифр и букв с помощью мор43
L
L
L
L
L
R
L T
R
L
T R
L B B
R
L
B R
L
L
B
L
L
R
L
T R
L T T T
T T T T R
L
B B
R
L
L
R
R
Рис. 1.26. Утончение объектов произвольной формы
Рис. 1.27. Бинарное изображение легкового автомобиля
и его морфологический остов
44
578 АНОТ
Рис. 1.28. Остовы символов, полученные морфологическим способом
фологической обработки (рис. 1.28). Полученные остовы изображений символов являются четырехсвязными, а толщина остовов составляет один пиксель. На рис. 1.28 отчетливо видны погрешности
морфологической обработки в виде искажения узловых фрагментов и появления «отростков» («усов») в некоторых точках скелетов.
Эти искажения возникают из-за дискретной структуры знаков. Для
увеличения точности распознавания символов паразитные элементы должны быть устранены с помощью специальных алгоритмов.
Волновой способ формирования
Частично исправить погрешности предыдущего способа позволяет волновой алгоритм скелетизации растрового бинарного изображения символа [31]. Принцип волновой обработки бинарных изображений заключается в анализе пути прохождения искусственно
сформированной концентрической волны, полем распространения
которой является изображение выделенного объекта. Скелетом же
символа является совокупность центральных точек сегментов волны, ограниченных областью символа. В алгоритме используется
свойство концентрической волны, заключающееся в том, что при
изменении направления распространения фронт волны стремится
двигаться перпендикулярно краям зоны распространения. Определяя координаты точек (пикселей), составляющих сегмент волны,
можно вычислить координаты центральной точки, относящейся к
остову символа на каждом шаге генерации волны. Результатом прохождения волны по всему изображению символа является массив
центральных точек, при последовательном соединении которых отрезками прямых образуется искомый остов.
При распространении концентрической волны по прямолинейному отрезку не более чем через 2N шагов (N – ширина символа в
45
Рис. 1.29. Распространение круговой волны на прямолинейных участках
Рис. 1.30. Распространение круговой волны на криволинейных участках
пикселях), распространение волны приобретает устойчивый характер вне зависимости от начальной точки распространения волны
(рис. 1.29). При другой, отличной от прямой, форме отрезка символа распространение волны также предсказуемо (рис. 1.30).
Формирование остова включает три процедуры [32]: пошаговое
формирование искусственной концентрической волны; поиск на
каждом шаге центральных точек сегментов волны; аппроксимация
кривой, соединяющей полученные центральные точки.
Для формирования точек фронта концентрической волны, расходящейся из точки начала распространения, задается набор (таблица) расстояний до точек первого положения фронта. На рис. 1.31
белым квадратом показана точка-излучатель, серым цветом помечены пиксели первого фронта, а черные квадраты обозначают промежуточные пиксели, расстояние до которых меньше заданного.
Процесс формирования искусственной концентрической волны
начинается с построчного поиска первого пикселя, принадлежащего
46
изображению символа. Координаты найденной точки принимаются за координаты начальной точки
распространения концентрической
волны. Далее вычисляются координаты положения пикселей первого фронта в соответствии с таблицей расстояний. Если полученные
точки принадлежат изображению
символа, то их координаты запомиРис. 1.31. Условное
наются. На рис. 1.32 приведен фрагизображение первой генерации
мент символа шириной 3–4 пиксеконцентрической волны вокруг
ля (серые и черные квадраты). Исизлучающей точки
ходная точка имеет № 0, точки первого фронта – порядковые номера с 1.1 по 1.4, где первая цифра означает номер фронта волны, а вторая – номер пикселя по фронту. Причем
серым цветом помечены начальный пиксель и пиксели фронта.
На следующем шаге каждый элемент с 1.1 по 1.4 принимается
за начальную точку генерации волны, т.е. считается вторичным излучателем. На рис. 1.33 показаны окружности, соответствующие
фронтам волн от четырех пикселей-излучателей. Элементы изображения, по которым проходят данные окружности, являются кандидатами в пиксели следующего фронта волны и им присваиваются
номера, полученные из номера порождающего пикселя.
Те пиксели-кандидаты, которые расположены ближе заданных расстояний от излучателей, удаляются. Элементы же с номе-
Рис. 1.32. Процесс формирования
первого фронта волны
Рис. 1.33. Процесс формирования
предварительно определенных
пикселей новой генерации волны
47
рами 1.2.3, 1.3.1 и 1.3.2 являются
вторым волновым фронтом. Полученные элементы заносятся в
предварительно обнуленный массив координат волнового фронта и
им присваиваются очередные порядковые номера (рис. 1.34).
Процедура определения центральных точек сегментов волн
основана на упорядочении элементов массива координат волнового фронта по признаку связноРис. 1.34. Результат формирости. Элемент массива с номером,
вания двух сегментов волны
равным округленному значению
половины длины упорядоченного
массива, и будет являться средней точкой волнового фронта. Для
этого в массиве координат волнового фронта ищется элемент, имеющий лишь один пиксель, соседствующий по свойству 8-связности.
Координаты этого пикселя записываются первым элементом упорядоченного массива. Вторым элементом записываются координаты
соседнего элемента, принадлежащего фронту волны. Заполнение
массива продолжается до момента нахождения второго крайнего
пикселя. По длине упорядоченного массива можно определить номер элемента, являющегося средней точкой фронта волны. Координаты средней точки заносятся в массив центральных точек.
Применение вышеописанных процедур повторяется до тех пор,
пока сформированные сегменты волны не заполнят всю фигуру.
Рис. 1.35. Распространение волны по изображению символа
и выделенный скелет
48
Рис. 1.36. Распространение волны по изображению цифр и букв
с выделением срединных линий
Результаты работы волнового алгоритма скелетизации для произвольного символа представлены на рис. 1.35, а для ряда цифр и
букв – на рис. 1.36.
Анализ и сравнение морфологического и волнового алгоритмов
приводит к следующим выводам:
– толщина остовов изображений символов в обоих случаях составляет один пиксель;
– оба алгоритма не исключают появления паразитных «отростков» у формируемых скелетов;
– конфигурация скелетов, полученных волновым алгоритмом, в
гораздо меньшей степени зависит от ориентации символов.
49
2. Методы автоматического выделения объектов
2.1. Обнаружение точечных объектов
Рассматривается обнаружение точечных объектов при наличии
мешающего фона устройствами, в которых чувствительным элементом является ТВ-датчик с накоплением. Под точечным объектом здесь понимается объект, площадь которого на изображении составляет от одного до нескольких пикселей.
Предполагается, что уровень излучения достаточен, чтобы пренебречь квантовыми флюктуациями фотоотсчетов. Подобные задачи возникают при обнаружении частиц в экспериментальной физике, в астрономических исследованиях, а также при обнаружении
тепловых объектов при наличии мешающего фона.
В зависимости от вида фона используются различные подходы к
задаче обнаружения объекта интереса. При статистическом описании фона в виде однородного случайного поля для решения задачи
используется метод выбеливания изображения. В реальной ситуации изображение фона неизвестно. Кроме того, фон обладает свойством перемещения, т.е. может быть движущимся. Если все точки
изображения перемещаются одинаково, то такой фон будем называть фоном с замороженными неоднородностями. При известных от
кадра к кадру перемещениях фона для обработки используется совокупность реализаций (кадров) изображения, и для решения задачи применимы методы адаптации или инвариантности.
В реальных условиях подвижки фона неизвестны, что значительно усложняет задачу. Обычно смещения фона ограничены. При
неизвестных, но ограниченных перемещениях для принятия решения о наличии или отсутствии объекта, расположенного в какомлибо элементе изображения, используется информация о крайних
значениях предыдущей реализации изображения, заданного в области допустимых перемещений фона относительно этого элемента.
В частности для положительного полезного сигнала достаточно использовать информацию о его максимальном значении.
Известно, что исчерпывающее статистическое описание изображения дается его функцией или функционалом правдоподобия в зависимости от дискретного или непрерывного представления изображения. Так как далее будет использоваться непрерывное представление изображения, то статистическое его описание дается в виде
функционала правдоподобия.
50
2.1.1. Обнаружение в случае детерминированного фона
Рассмотрим задачу обнаружения сигнала от объекта интереса
при наличии известного (детерминированного) фона. Объект и фон
рассматриваются как непрерывные изображения. Реализацию изображения одного кадра запишем в виде
x(r) = S(r,s ) + nô (r) + n0 (r) ; r Î R Ì R 2 ,
(2.1)
где S(r, s) – сигнал от объекта с вектором параметров s; nф(r) –
изображение фона; n0(r) – поле белого шума, обусловленное шумами датчика и видеоусилителя; r = (r1, r2) – координаты изображения; R – область наблюдения на плоскости R2. Изображение x(r)
представлено в виде двумерного поля интенсивности оптического
излучения в плоскости изображения с учетом пространственной
фильтрации, осуществляемой объективом оптического тракта. Таким же образом можно представить и электронное изображение на
выходе телевизионного датчика (детектора интенсивности), но без
учета пространственной дискретизации, вносимой апертурой.
В соотношении (2.1)
nô (r) = n(r) + m(r),
где n(r) – переменная составляющая фона; m(r) – сумма постоянного
фона и собственного фона датчика.
Предполагается, что объект является точечным и его сигнал в
плоскости изображения можно записать как
S(r,s ) =as fs (r - r0 ) ; s = (as , r0 ), (2.2)
где as – амплитудный коэффициент; fs(r–r0) – функция рассеяния
точки (ФРТ), учитывающая эффект оптической фильтрации изображения.
Размерность этой функции 1/м2, для нее выполняется условие
нормировки
ò fs (r - r0 )dr = 1. (2.3)
R
Примером аппроксимации ФРТ, удовлетворяющей условию
(2.3), является гауссоида.
Запишем выражение для функционала правдоподобия одной реализации (одного кадра) изображения, которое в случае помехи в
виде белого гауссова шума имеет вид
51
é
ù
ê 2
2 ú
[
(
)
(
)
(
)]
p(xR / Θs ) = k exp êx
r
a
f
r
r
n
r
d
r
(2.4)
ú,
s s
0
ô
ò
ê N0 R
ú
ë
û где k – постоянная; N0 – пространственная спектральная плотность
поля белого гауссова шума.
Как было отмечено, изображение фона nф(r) и положение объекта r0 известны, но неизвестна интенсивность излучения, т. е. амплитуда as . При этом задачу обнаружения можно сформулировать как
проверку простой гипотезы H0: as = 0 относительно сложной альтернативы H1 : as > 0.
Функционал правдоподобия (2.4) принадлежит экспоненциальному семейству [33] и допускает редукцию с помощью достаточных
статистик. Получим выражение для статистики, достаточной относительно параметра as:
b(r0 ) = ò x(u)fs (u - r0 )du R
ò nô (u)fs (u - r0 )du.
R
(2.5)
При этом решающее правило имеет вид
b(r0 ) ³ c(α), (2.6)
где c(a) – порог, выбираемый по заданной вероятности ложной тревоги
¥
α = ò p(b / as = 0)db,
(2.7)
c
где p(b/as = 0) – плотность вероятности достаточной статистики (ДС)
при отсутствии сигнала.
Полученное решающее правило является равномерно наиболее
мощным (РНМ), т.е. оптимальным при проверке сложной гипотезы
относительно простой альтернативы. Это правило максимизирует
вероятность правильного обнаружения
¥
D = ò p(b / as > 0)db,
c
(2.8)
при заданной вероятности ложной тревоги α и неизвестном as > 0 в
силу принадлежности p(xR/s) экспоненциальному семейству распределений и достаточности b(r0) относительно параметра as [34].
52
Отметим, что для произвольного r статистика
y(r) = ò x(u)fs (u - r)du, (2.9)
R
есть изображение на выходе пространственного фильтра, согласованного (настроенного) с сигналом в точке r. Его сигнальную и фоновую составляющие можно вычислить, используя (2.1) и (2.2):
θs (r) = as ò fs (u - ro )fs (u - r)du,
R
θn (r) = ò nô (r)fs (u - r)du .
R
При r = r0 сигнальная составляющая максимальна. Распределение y(r) гауссово c параметром сдвига
θ(r) = θs (r) + θô (r).
(2.10)
Пусть наблюдается совокупность из K реализаций (кадров) изображения
где
T
x(r) = éê x(1) (r), x(2) (r),..., x(k) (r),..., x( K) (r) ùú , ë
û
(2.11)
(k)
x(k) (r) = S(r, Θ(sk) ) + nô
(r) + n0(k) (r), k = 1..K, (2.12)
S(r, Θ(sk) ) = as(k) fs (r - r0(k) ) ; Θ(sk) = (as(k) , r0(k) ).
(2.13)
В силу статистической независимости компонентов x(k)(r) в (2.11)
функционал правдоподобия с учетом (2.13) запишется как произведение
p(xR / Θs ) =
Õ
kÎJk
(k)
p(xR
/ Θ(sk) ) =
é
ù (2.14)
2
ê
(k)
(k)
(k)
(k)
2 ú
[
x
(
)
a
f
(
)
n
(
)]
d
= k K exp ê- å
r
r
r
r
r
ú.
s s
ô
ò
0
ê kÎJ N0
ú
R
k
ë
û
В (2.14) совокупность индексов JK = 1, 2,…, K. Пусть положения
объекта r0(1) , r0(2) ,..., r0( K) в соответствующих реализациях изображе53
ния известны и интенсивность сигнала от реализации к реализации
постоянна: {as(k) = as : k Î JK } . При этом задачу обнаружения можно сформулировать как проверку простой гипотезы относительно
сложной альтернативы:
(k)
H0 : {as(k) = 0 : k Î JK } , H1 : {as(k) > 0 : k Î JK
}.
(2.15)
В силу принадлежности p(xR/s) экспоненциальному семейству
из (2.14) можно получить, что ДС относительно параметра as равна сумме ДС, соответствующих отдельным реализациям изображения:
b(r0(1) , r0(2) ,..., r0( K) ) =
=
å ò x(k) (u)fs (u - r0(k) )du - ò nÔ(k) (u)fs (u - r0(k) )du ,
kÎJK R
R
а решающее правило является РНМ и имеет вид
(2.16)
b(r0(1) , r0(2) ,..., r0( K) ) ³ c(α).
(2.17)
Таким образом, для принятия решения о наличии объекта нужно в каждом кадре выполнить пространственную фильтрацию, согласованную с сигналом, и из результата фильтрации входного изображения вычесть известное и также профильтрованное с весовой
функцией fs (u - r0(k) ) изображение фона. Результаты обработки
всех кадров изображений суммируются и сравниваются с порогом.
Очевидно, что решающие правила (2.5) и (2.17) нереализуемы, если
фон неизвестен и неизвестны координаты объекта r0. Поэтому рассмотрим различные подходы к решению задачи обнаружения при
ограничении априорных данных относительно фона. Один из них
основан на использовании статистической информации относительно фона.
2.1.2. Обнаружение в случае коррелированного фона
Статистическая модель изображения удовлетворительно описывает фон в виде облачного покрова, морской поверхности, земной
поверхности, занятой лесными массивами, и т.д. Характерной особенностью такого фона является наличие ярко выраженной пространственной корреляции. Так как телевизионный датчик является детектором интенсивности, то статистическое распределение
54
фона негауссово. Изображение по-прежнему описывается соотношением (2.1), в котором фон
nô (r) = n(r) + m(r).
(2.18)
В отличие от детерминированного подхода, который используется в п. 2.1.1, здесь предполагается, что фон задан статистически.
При этом в соотношении (2.18) n(r) – коррелированная составляющая фона с нулевым средним; m(r) – среднее значение фона.
Пусть изображение коррелированного фона есть однородное случайное негауссово поле. По реализации изображения или совокупности реализаций (в зависимости от постановки задачи) необходимо
принять решение о наличии сигнала от объекта с известным положением r0 на R. Подход к решению задачи обнаружения в такой постановке связан с применением инновационного метода [3], в основе
которого лежит выбеливание изображения. В результате выбеливания имеем преобразованное изображение
xw (r) =as fsw (r - r0 ) + w0 (r) ,
где w0(r) – поле белого гауссова шума, стохастически эквивалентное n0(r) (в смысле равенства их спектральных плотностей); индекс
w над переменной обозначает примененную к ней операцию выбеливания.
Если оператор выбеливания обратим, то в результате преобразования не происходит потери информации относительно полезного
сигнала. При этом если распределение исходного изображения фона является негауссовым, то результат выбеливания x(w)(r) имеет гауссово распределение и является полем нормального белого шума.
Поэтому основной проблемой при таком подходе к решению задачи обнаружения является нахождение оператора выбеливания, так
как дальнейшее решение может быть выполнено известными методами статистической теории решений и не представляет затруднений.
Согласно методу [35] в выбеливающем фильтре осуществляется
оценка nˆ(r) коррелированной составляющей фона n(r), а результат
выбеливания есть разность
xw (r)=x(r) - nˆ(r). (2.19)
Так как в результате выбеливания коррелированный фон приводится к изображению белого гауссова шума, достаточную статистику для преобразованного изображения можно записать в виде
55
b(r0 ) = ò fsw (r - r0 )xw (r)dr.
R
При этом решающее правило в случае неизвестной интенсивности сигнала as > 0 является РНМ и определяется формулой (2.5).
Для гауссова фона с разделимой по ортогональным направлениям r1 и r2 пространственной корреляционной функцией
k(r1, r2 ) = σ2k(r1¢,r1¢¢ )k(r2¢,r2¢¢ ); (r1¢, r1¢¢ ) = r1, (r2¢,r2¢¢ ) = r2 , (2.20)
где s 2 – дисперсия фона; k(r1¢, r1¢¢) и k(r2¢, r2¢¢) – нормированные функции корреляции вдоль осей r1 и r2 соответственно, можно показать,
что операция выбеливания изображения предполагает его независимую обработку по строке и столбцу.
При цифровой обработке изображение подвергается пространственной дискретизации. При этом для гауссова распределения
пространственных отсчетов оптимальным оператором выбеливания является дискретное преобразование Карунена–Лоева.
Известно, что для выбеливания изображений можно также использовать другие виды дискретных ортогональных преобразований. Среди них можно выделить дискретное косинусное преобразование (ДКП) [6]. Его преимущество перед преобразованием Карунена–Лоева заключается в том, что оно требует меньше вычислительных затрат. Вместе с тем по эффективности обработки изображения
(декорреляции отсчетов) ДКП лишь незначительно уступает преобразованию Карунена–Лоева при обработке уже более 16 отсчетов
[36].
Практическая реализация ортогональных преобразований всего изображения связана с большими вычислительными затратами.
Для их уменьшения все изображение разбивается на блоки из ограниченного числа элементов: 8 × 8, 16 × 16 и т.д., а выбеливание изображения (декорреляция) осуществляется для каждого блока отдельно [6]. Разбиение на блоки позволяет выбеливать статистически
неоднородные изображения, но которые имеют локальную неоднородность (в пределах ограниченного окна). Обычно такими являются реальные изображения фона.
По мере увеличения числа элементов в блоке функция правдоподобия отсчетов преобразованного изображения стремится к произведению гауссовых функций правдоподобия, что отмечено в литературе [37]. При непрерывном представлении изображения имеем
бесконечное число отсчетов, и функция правдоподобия стремится к
56
Рис. 2.1. Исходное изображение
Рис. 2.2. Оценка фона
функции правдоподобия белого гауссового шума, что согласуется с
результатами метода [35].
Если изображение регистрируется датчиком в виде сканирующей линейки фотодиодов, то блочную обработку (в пределах окна)
можно реализовать, если выполнять построчное выбеливание для
каждого элемента линейки и независимое выбеливание по второму
ортогональному направлению, т.е. вдоль линейки фотодиодов.
Для локально однородного (в пределах окна) фона и разделимой
пространственной корреляционной функции изображения фона эта
обработка будет близка к оптимальной.
На рис. 2.1–2.7 представлены этапы обработки реального изображения при обнаружении-оценке параметров шести объектов. На
рис. 2.1 исходное изображение – незашумленное, на рис. 2.2 – оценка коррелированной составляющей фона, полученная с помощью
фильтрации скользящим окном 5 × 5 элементов.
Рис. 2.3. Инновационное
изображение
Рис. 2.4. Результат обнаруженияизмерения шести объектов
57
Рис. 2.5. Исходное, но
зашумленное изображение
Рис. 2.6. Инновационное
изображение, полученное из
зашумленного
Рис. 2.7. Шесть обнаруженных
объектов и одна ложная тревога
на линии горизонта
58
На рис. 2.3 дано инновационное изображение, полученное из исходного после вычитания из него коррелированного
фона. Для отображения на рис.
2.3 и 2.6 значения всех пикселей инновационного изображения подняты на уровень + 140.
Сравнение с порогом инновационного
изображения,
величина которого равна 25
квантованной шкалы 0…255,
позволяет выделить все шесть
обнаруживаемых объектов. Результат обнаружения показан
на рис. 2.4 в виде зачерненных
объектов, которые наложены
на исходное изображение (см.
рис. 2.1).
Координаты каждого объекта (положение его левого
верхнего угла) и его площадь
(число пикселей) являются измеряемыми параметрами. На
рис. 2.4 число пикселей каждой отметки увеличено с целью
наглядности их отображения.
Один пиксель отображается
как девять матрицей с размерами 3 × 3 элемента.
На рис. 2.7 показан результат обработки изображения
(рис. 2.5) с наложенным на него
гауссовым шумом со стандартным отклонением s = 6. Величина порога обнаружения – 33.
Из шести объектов обнаружено
пять, но из-за наличия шума
имеется одна ложная тревога
на линии горизонта. В реальной системе порог обнаруже-
ния устанавливается автоматически – по вероятности ложной тревоги, оцениваемой в процессе обработки всего изображения.
2.1.3. Адаптивное обнаружение в случае фона
с замороженными неоднородностями
Под фоном с замороженными неоднородностями понимается
двумерное поле (изображение), реализации которого ограничены на
R, а временные изменения обусловлены пространственными перемещениями. Две соседние реализации фона с замороженными неоднородностями (два кадра) связаны зависимостью
(k)
(k-1)
nô
(r) = nô
(r - ∆r), (2.21)
где ∆r – сдвиг фона за время наблюдения одной реализации.
Информация относительно фона отсутствует, но известен его
сдвиг ∆r за время одного кадра. В качестве входных данных при обнаружении будем использовать совокупность из K реализаций изображения, заданных в виде (2.11) и (2.12). Сигнал от объекта определяется соотношением (2.13), его положение r0(k) для каждой реализации изображения предполагается известным.
Для преодоления априорной неопределенности относительно
фона в задаче обнаружения полезного сигнала используем адаптивный метод [38]. Согласно этому методу, если существует априорная неопределенность относительно какого-либо параметра (или
совокупности параметров), то сначала находится оптимальное решающее правило для случая известного параметра, а затем в полученном решающем правиле неизвестный параметр заменяется его
оценкой.
Адаптивный алгоритм обнаружения реализуем, если одновременно с обнаружением по имеющимся входным данным можно
осуществлять оценку неизвестного параметра. Часто для оценки
используется дополнительная обучающая выборка. Такой метод
адаптации называется адаптацией с обучением.
Рассмотрим два примера адаптивного обнаружения сигнала от
объекта при наличии фона с замороженными неоднородностями.
Пример 1. Обнаружение движущегося объекта с известным расположением на R. Сдвиг фона известен.
Закон перемещения объекта за время кадра отличается от закона перемещения фона. Фон согласован с перемещением изображения, так как сдвиг фона ∆r по условию задачи известен, а сигнал
рассогласован. Поэтому фон подавляется в результате задержки на
59
r1
r
r − ∆r
∆r
(k−1)
r2
nф
( k)
n ф (r )
(r − ∆r)
Рис. 2.8. Два отсчета фона в соседних реализациях
изображения при сдвиге изображения фона на ∆r
кадр и последующего вычитания, а сигнал от объекта, если он есть,
выделяется на некомпенсированных остатках фона.
Перемещение сигнала от объекта для двух соседних кадров изображения удовлетворяет условию ортогональности
(S(r, Θ(sk) ), S(r - ∆r, Θ(sk) )) = 0, (2.22)
где скобками обозначено скалярное произведение сигналов на R,
а ∆r – известное перемещение фона за время одной реализации
(рис. 2.8).
Задача обнаружения формулируется как проверка сложных гипотез
Ho : {as(k) = 0 : k Î JK } , H1 : {0 < as(k) : k Î JK };
k
{nô
(r) Î LR : k Î JK }, JK = {1, K},
где LR – пространство монотонных и ограниченных неотрицательных функций на R.
Для случая известного фона решающее правило определяется
соотношениями (2.16), (2.17). Если принять во внимание условие
(2.22), то для оценки фона в k-й реализации изображения можно использовать все реализации изображения за исключением самой k-й
реализации. На основании соотношений (2.21) и (2.22) оценку фона
(k)
nô
(r), взятого в точке r, можно осуществить по сдвинутым отсчетам предыдущих реализаций изображения, предшествующих k-й и
следующих за k-й (кроме самой k-й):
x(i) (r - (k - i)∆r) ; i Î JK / k ; JK Î {1, K}.
60
Здесь i∈JK/k – совокупность индексов (номеров реализаций) за
исключением номера k. Так как случайные отсчеты
{x(i) (r - (k - i)∆r) ; i Î JK / k}
независимы и имеют нормальное распределение со средним
(k)
x(i) (r - (k - i) ∆r) = nô
(r),
то несложно показать, что
(k)
(r) =
nˆô
1
K -1
å
x(i) (r - (k - i)∆r) (2.23)
iÎJk /k
есть оценка максимального правдоподобия изображения фона.
Имея оценку фона, можно записать адаптивное решающее правило, заменяя в оптимальном для случая известного фона алгорит(k)
ме (2.16), (2.17) изображение фона nô
(r) его оценкой (2.23):
å ò fs (r - r0(k) ) [x(k) (r) - nˆô(k) (r)] dr
³ c (α) .
kÎJK R
Реализация оценки фона в соответствии с (2.23) наталкивается
на серьезные технические затруднения, так как требует память на
(K–1) кадров изображения. Также следует учитывать и нестационарность cреды распространения, которая ограничивает выполнение условия замороженности неоднородностей фона (2.20) малым
числом кадров (минимум – двумя соседними реализациями). На
практике, если отношение изображения фона к собственным шумам телевизионного датчика на элемент изображения достаточно
велико, то за оценку фона можно принять предыдущую реализацию изображения, используя ее как обучающую:
nˆô(k) (r) = x(k-1) (r - ∆r). (2.24)
В соответствии с (2.23) эта оценка является оценкой максимального правдоподобия для отсчета изображения в одном единственном
кадре. В этом случае с учетом (2.24) решающее правило запишется
как
å ò fs (r - r0(k) ) [x(k) (r) - x(k-1) (r - ∆r)] dr
³ c (α) ,
(2.25)
kÎJK R
где JK = 1, 2,…, K . При k = 1 требуется дополнительная реализация
изображения, необходимая для начала процесса адаптации.
61
Обозначив
(k)
ò fs (r - r0
) x(k) (r) dr = y(k) (r0(k) )
R
и пренебрегая краевыми эффектами на R, адаптивное решающее
правило можно записать в виде:
å
kÎJK
y(k) (r0(k) ) - y(k-1) (r0(k) - ∆r) ³ c(α).
Пример 2. Обнаружение появляющегося объекта с неизвестной
интенсивностью и известным положением в K реализациях изображения.
Сигнал от объекта в реализации изображения до номера k отсутствует, а начиная с k-й, возможно его появление в точке r0(k) . Движение объекта относительно фона отсутствует, т.е. объект принадлежит фону и рассматривается как новая информация.
Задачу обнаружения сформулируем как проверку сложных гипотез
H0 : {as(i) = 0 : i = 1,2,..., K -1} , H1 : {as(i) > 0 : i = k, k + 1,..., K}; ;
(k)
{nô
(r) Î LR : k Î JK } , JK = {1, K}.
Так как условие ортогональности (2.22) для реализаций изображения, начиная с номера k, не выполняется, то для адаптации можно использовать только (k–1) предыдущих реализаций изображения. Оценку фона для реализации с номером m ≥ k можно получить,
используя предыдущие (k–1) реализации в формуле (2.23):
(m)
(r) =
nˆô
1
k -1
k-1
å x(i) (r - (m - i)∆r) ;
m Î {k, K}.
i=1
(2.26)
При этом решающее правило запишется в виде
K
å ò fs (r - rô(m) ) [x(m) (r) - nˆô(m) (r)] dr
³ c (α) .
m=k R
Используя соображения, связанные с нестационарностью среды распространения, сложностью запоминания нескольких кадров
изображения, а также выполнением условия высокого отношения
фон/собственный шум телевизионного датчика, ограничим вход62
ные данные двумя соседними реализациями изображения. Первую
реализацию используем для адаптации, а вторую для принятия решения относительно появляющегося объекта (новой информации).
При этом правило решения можно записать в виде
(k)
ò fs (r - r0
) [x(k) (r) - x(k-1) (r - ∆r)] dr ³ c (α)
R
или
(k) (k)
y (r0 ) - y(k-1) (r0(k) - ∆r)] dr ³ c (α),
(2.27)
где y(k) (r0(k) ) – отклик согласованного с сигналом пространственного фильтра, определяемый соотношением (2.9).
2.1.4. Инвариантное обнаружение появляющегося объекта
в случае фона с замороженными неоднородностями
В задаче обнаружения принцип инвариантности обычно применим в тех случаях, когда априорная неопределенность заключена в
параметрах смещения или масштаба функции вероятностного распределения входных данных. В рассматриваемом случае фон неизвестен, но известен его параметр пространственного сдвига ∆r. Сначала покажем, что если сдвиг фона ∆r известен, т.е. выполняется
условие (2.21), то принцип инвариантности приводит к тому же результату в решении задачи обнаружения появляющегося объекта,
что и адаптивный метод, согласно которому за оценку фона принимается предыдущая реализация изображения.
В качестве входных данных будем использовать две соседние реализации изображения с номерами k и k–1, cовмещенные с помощью пространственного сдвига в плоскости изображения:
(
)
x(r) = x(k-1) (r - ∆r), x(k) (r) . (2.28)
Их плотность вероятности (функционал правдоподобия) можно
записать в виде
é
æ
ê 2 çç
(k)
(k)
(k)
(k)
2
p(x R / Θ) = k2 exp êç [x (r) - as fs (r - r0 ) - nô (r)] dr +
ê N0 ççè ò
R
ëê
ö÷ù
ú
(k-1)
+ò [x(k-1) (r - ∆r) - as(k-1) fs (r - r0(k-1) - ∆r) - nô
(r - ∆r)]2 dr÷÷÷ú , (2.29)
÷÷ú
øúû
R
63
где Q – вектор неизвестных параметров; k2 – постоянный коэффициент.
Так как объект – появляющийся, то as(k-1) = 0, и вектор Q включает в себя неизвестную интенсивность сигнала as(k) и неизвестный
(k-1)
(k)
фон – nô
(r - ∆r) и nô
(r). Таким образом,
(k-1)
(k)
 = {as(k) , nô
(r - ∆r), nô
(r)}.
Семейство распределений векторного изображения обозначим
как
(2.30)
{ p(x R /) : Î W}. Параметрическое пространство W состоит из пространства монотонных и ограниченных на R функций LR и положительной полуоси
(k)
(k-1)
W = {as(k) > 0 ; nô
, nô
Î LR }.
(2.31)
Задачу обнаружения сформулируем как проверку сложных гипотез
(k-1)
(k)
H0 : Î {as(k) = 0 ; nô
, nô
Î LR } = W0 ;
(k-1)
(k)
H1 : Î {as(k) > 0; nô
, nô
Î LR } = W1. (2.32)
Принцип инвариантности основан на представлении априорной неопределенности в виде некоторого преобразования g из группы G над входными данными. Группа есть совокупность элементов
G = {g}, для которой должны быть выполнены условия [34]:
1) определена операция группового умножения, которая любым двум элементам g1, g2 ∈ G ставит в соответствие элемент
g3 = g2g1 ∈ G;
2) групповое умножение ассоциативно: g1(g2 g3) = (g1 g2) g3;
3) существует единичный элемент e ∈ G такой, что для всех g ∈ G
выполняется ge = eg = g;
4) каждому элементу g ∈ G ставится в соответствие обратный
элемент g–1 ∈ G такой, что g g–1 = g–1g = e.
Группа G называется группой преобразований, если элементы g
являются преобразованиями пространства входных реализаций на
себя, и групповое умножение g2 g1 определяется как последовательные преобразования g1 и g2.
Под воздействием преобразований g происходит изменение параметров исходного семейства распределений, т.е. преобразование
64
g индуцирует в параметрическое пространство W некоторое преобразование g*. Если совокупность g составляет группу {g} = G, то
{g∗} = G* есть также группа [34].
Для применения принципа инвариантности к задаче обнаружения необходимо выполнение следующих условий [2]:
1) семейство распределений {p(xR/Q): ∈ W} обладает свойством
симметрии относительно группы G, т.е. каждому элементу g ∈ G в
G* найдется такой элемент g* , что g∗Q ∈ W и
p(gx R / g*) ´
¶gx R
= p(x R / ),
¶x R
(2.33)
¶gx R
– матрица Якоби;
¶x R
2) индуцированная группа G* преобразований g* пространства
W сохраняет гипотезы H0 и H1: g* Î Wi ; i = 0,1 для всех Θ Î Ωi и
g* Î G* ;
Переходя к решению поставленной задачи, отметим, что преобразования смещения в области функционального пространства изображений можно записать как
где
é1ù
gx(r) = x(r) + M(r) ; M(r) = µ(r) ê ú ; µ(r) Î LR ; r Î R, ê1ú
ë û
(2.34)
где x(r) – два кадра изображений, определяемые соотношением
(2.28); М(r) – вектор-функция, состоящая из двух одинаковых скалярных изображений m(r). Скалярное изображение m(r) монотонно и
ограничено на R и аддитивнo смещает каждый из двух компонентов
x(r) на m(r). Таким образом, соотношение (2.34) описывает исходную
априорную неопределенность относительно фона.
Совокупность преобразований сдвига удовлетворяет условиям
группы. Групповое умножение можно записать помощью аддитивных операций
g2 g1x(r) = x(r) + M1 (r) + M2 (r).
Свойство ассоциативности группового умножения очевидно.
Единичному элементу соответствует смещение m(r) = 0. Обратный
элемент выполняет преобразование
g-1x(r) = x(r) - M(r).
65
Так как элементы g являются преобразованиями пространства
реализаций изображения на себя, а их групповое умножение определяется как результат последовательного выполнения преобразований, то в рассматриваемом примере совокупность элементов {g}
является группой преобразований. Эта группа индуцирует в параметрическое пространство W группу G* преобразований
é
ù
as
é 0ù
ê
ú
ê ú
ê (k-1)
ú
(r - ∆r)ú + µ(r) êê1úú .
g* (r) = ênô
ê
ú
ê1 ú
ê
ú
(k)
ë û
ê
ú
(r)
nô
ë
û
(2.35)
¶g x R éê1 0ùú
=
. При этом нетрудно проверить
ê0 1ú
¶x R
ë
û
выполнение условия симметрии (2.33) семейства распределений
(2.30) и (2.31) относительно группы G, а индуцированная группа сохраняет гипотезы H0 и H1, определяемые из (2.32) для всех ∈Ωi и
g* ∈ G* . Таким образом, выполнены необходимые условия, которые
позволяют к данной задаче применить принцип инвариантности.
Следующим шагом решения задачи является определение максимальных инвариантов (МИ) групп G и G*. Статистика называется
инвариантной относительно группы G, если она постоянна на траекториях группы G [34]. Под траекторией понимается совокупность
{x(r), gx(r) : g Î G; r Î R }.
Матрица Якоби –
Статистика z[x(r)] называется МИ группы G, если она:
– постоянна на каждой траектории группы G
z[gx(r)] = z[x(r)] ; x(r) Î LR ; g Î G;
– на разных траекториях принимает различные значения.
Из z[x(r)] = z[x1(r)] следует x(r) = gx1(r); g ∈ G.
В рассматриваемом примере статистика
z[x(r)] = x(k) (r) - x(k-1) (r - ∆r) (2.36)
является МИ группы G преобразований (2.34). Выполнение 1-го условия для МИ очевидно. Покажем, что выполняется и второе условие. Обозначим пару изображений
é x(k-1) (r - ∆r)ù
ú.
x1 (r) = êê 1
ú
(k)
ê
ú
x
(
r
)
1
ë
û
66
Используя (2.36), можно записать
x(k) (r) - x(k-1) (r - ∆r) = x1(k) (r) - x1(k-1) (r - ∆r)
или, что то же самое
x(k) (r) - x1(k) (r) = µ(r),
x(k-1) (r - ∆r) - x1(k-1) (r - ∆r) = µ(r),
(2.37)
где m(r) ∈ LR ; LR – пространство монотонных и ограниченных функций на R. Из (2.37) имеем
é x(k-1) (r - ∆r)ù é x(k-1) (r - ∆r)ù
ú + µ(r) éê1ùú
ú=ê 1
x1 (r) = êê
ú
ú ê
(
k
)
ê1ú
(
k
)
ú
êë
úû êë
x1 (r)
x (r)
ë û
û
или x(r) = gx1 (r) ; g Î G, что и требовалось доказать.
МИ индуцированной группы G*
é
ù é (k) ù
as(k)
ê
ú ê as ú
z = ê (k)
ú=ê
ú,
(k-1)
ênô (r) - nô
(r - ∆r)ú ëê 0 ûú
ë
û
так как для фона выполняется условие
(k)
(k-1)
nô
(r) - nô
(r - ∆r) = 0.
Нетрудно показать, что первое и второе условия для МИ группы G также выполняются. МИ z редуцирует параметрическое пространство до подпространства параметра as : Ωz = {as(k) > 0} .
Затем, следуя инвариантному методу, задачу обнаружения сформулируем как проверку гипотез относительно МИ группы G
H0 : {as(k) = 0 = Ωz ; } , H1 : {as(k) > 0 = Ω1z }.
Используя соотношения (2.36), (2.12), а также условие (2.21) и
фактор появляемости объекта (as(k-1) = 0) , статистику z[x(r)] можно записать как
z[x(r)] = z(r) = as(k) fs (r - r0(k) ) + n0(k) - n0(k-1) (r - ∆r).
(2.38)
Ее функционал правдоподобия
67
é
ê 2
p(zR / as(k) ) = k exp êê N0
ë
ò
R
ù
ú
[z(r) - as(k) fs (r - r0(k) )]2 dr ú .
ú
û
Так как p(zR / as(k) ) принадлежит экспоненциальному семейству
распределений, то несложно получить ДС относительно проверяемого параметра аs, а следовательно, и РНМ решающее правило [47].
Принимается решение о наличии сигнала в точке r0(k), если
ò
z(r)fs (r - r0(k) )dr ³ c(α),
R
где z(r) определяется соотношением (2.36).
Полученное решающее правило является РНМ и инвариантным,
т.е. оптимальным в классе инвариантных решающих правил. Сравнение его с (2.27) и (2.28) показывает, что оно совпадает с адаптивным решающим правилом, полученным в п. 2.1.3, если адаптация
осуществляется по предыдущей реализации изображения. В этом
случае адаптивный и инвариантный подходы приводят к одному и
тому же результату.
2.1.5. Обнаружение в случае фона
с замороженными неоднородностями и неизвестными,
но ограниченными перемещениями
В предыдущих разделах рассматривалось адаптивное и инвариантное обнаружение объекта на движущемся фоне с известными
или полученными в результате оценки перемещениями изображения. Входные данные представлены в виде нескольких реализаций
изображения. Алгоритмы, полученные на основе методов адаптации и инвариантности, предполагают запоминание изображений.
Их практическая реализация представляет серьезные технические
затруднения, если учесть большой объем информации, заключенной в изображении (произведении числа элементов дискретизации
изображения на число бит при цифровом кодировании элемента).
Часто информация о перемещении фона отсутствует или выдается с ошибкой, при которой сохраняется неопределенность перемещений. При этом адаптивный и инвариантный методы применить
не удается. Такая ситуация имеет место, если телевизионный датчик установлен на подвижном объекте и жестко с ним связан, а сам
объект осуществляет быстрые эволюции. Или, например, когда число элементов изображения настолько велико, что приходится огра68
ничиваться приемлемым объемом памяти запоминающего устройства, так что информация о тонкой структуре изображения частично теряется.
По-прежнему считаем, что реализация изображения описывается соотношением
x(r) = S(r, s ) + nô (r) + n0 (r) ; r Î R Ì R 2 , (2.39)
где S(r, s) – сигнал от объекта с вектором параметров s; nф(r) –
изображение фона; n0(r) – поле белого шума, обусловленное шумами датчика и видеоусилителя; R – область наблюдения на плоскости R2.
С учетом оптики сигнал от точечного объекта представим как
S(r, s ) =as fs (r - r0 ) ; s = (as , r0 ), (2.40)
где as – неизвестная амплитуда, пропорциональная интенсивности
излучения; fs(r–r0) – функция рассеяния точки (ФРТ), известная
функция, описывающая форму сигнала, отличную от нуля в ограниченной области Rs(r0 ) ; r0 – точка привязки (положение объекта
на R).
Для известного фона выражение функционала правдоподобия
одной реализации изображения представим в виде
p(xR /s ) = k exp{-
2
[ x2 (r)dr - 2as ò fs (r - r0 )x(r)dr N0 ò
R
R
-2ò nô (r)x(r)dr +ò (nô (r) + as fs (r - r0 ))2 dr]},
R
R
(2.41)
где k – постоянный коэффициент; N0 – пространственная спектральная плотность поля белого шума n0(r). Неизвестными являются полезный параметр as > 0 и мешающее изображение фона
nф(r) ∈ LR, где LR – пространство монотонных неотрицательных
функций, ограниченных на R. Статистика
ò
fs (r - r0 )x(r)dr
R
редуцирует входные данные относительно as и в силу принадлежности (2.41) экспоненциальному семейству достаточна для параметра
as (при фиксированном, т.е. известном изображении фона). Информация о фоне заключена в статистике
69
ò
nô (r)x(r)dr,
R
которую можно рассматривать как результат согласованной фильтрации фона из белого шума n0(r). Предполагается, что изображение фона имеет сложную структуру и редукция входных данных
относительно него невозможна, так как число отсчетов изображения фона или размерность вектора неизвестных мешающих параметров равно числу отсчетов изображения при его дискретизации.
Последнее исключает возможность решения задачи обнаружения сигнала по одной реализации изображения с помощью принципов инвариантности или подобия [34]. Использование нескольких
реализаций изображения, как уже было отмечено выше, при неизвестных перемещениях фона также не приводит к успеху. Ниже
вводится ограничение относительно неизвестного характера фона,
связанное с его перемещениями.
Предположим, что фон имеет замороженные неоднородности и
ограниченные перемещения. Условие замороженности неоднородностей фона, как и прежде, запишем в виде операции сдвига (см.
рис. 2.8)
(k-1)
k
nô
(r) = nô
(r - ∆r),
(2.42)
где ∆r – вектор сдвига координат фоновой точки за время одного кадра изображения; (k−1) и k – номера предыдущего и последующего
кадров соответственно. Под ограниченностью сдвигов будем понимать принадлежность вектора сдвига ∆r соседних реализаций изображения фона некоторому кругу R∆R c радиусом ∆R:
∆r Î R∆R . (2.43)
При этом, пренебрегая краевыми эффектами на краях области
наблюдения изображения R, можно утверждать, что если для предыдущей (k−1)-й реализации изображения точке (r–∆r) соответство(k-1)
вало значение фона nô
(r - ∆r), то в последующей k-й реализации
это значение не выходит из области
R∆(rR-∆r) = {r - ∆r; ∆r Î R∆R },
(2.44)
которая построена с центром в точке (r–∆r), и размеры ее ограничены радиусом ∆R. Последнее утверждение следует из условия замороженности неоднородностей фона (2.42) и условия (2.43). Таким
образом, каждой точке на изображении фона предыдущего кадра
70
с координатами (r–∆r) соответствует область R∆(rR-∆r) возможных ее
положений в последующей реализации изображения (в последующем кадре).
Это ограничение используется ниже для решения задачи обнаружения сигнала от объекта с неизвестной интенсивностью при наличии неизвестного фона с ограниченными перемещениями. Объект
обладает свойством появляемости, которое включает в себя две возможных ситуации:
1) объект отсутствовал в предыдущем кадре и внезапно появляется в последующем;
2) объект перемещается со скоростью большей, чем сдвиг фона.
При этом сначала в текущем изображении должно быть заполнено
фоновое окно R∆(rR-∆r) . Затем в последующем кадре для сигнальной
области ∆Rs(r) , которая расположена внутри (в центре) фонового окна (рис. 2.9), необходимо принять решение о наличии сигнала. Это
происходит, когда изображение сигнала совмещается с центром
сигнального окна ∆Rs(r) .
Ниже рассматривается только случай большого отношения фон/
собственный шум. При постановке задачи обнаружения принимаем, что входные данные наблюдаются на выходе пространственного
фильтра, согласованного с формой сигнала от объекта:
y(r) = ò fs (u - r)x(u)du . (2.45)
R
Фильтр максимизирует отношение сигнал/шум. При этом отношение фон/собственный шум nф(r)/σ0 >> 1, где σ0 – среднеквадратическое значение шума в полосе фильтрации.
j
r1
i -1, j -1
i -1, j
i -1, j + 1
i, j -1
i, j
i, j + 1
i + 1, j -1 i + 1, j
i
i + 1, j + 1
r2
Рис. 2.9. Расположение области перемещений фона
относительно i, j-го блока
71
Практическая реализация пространственного фильтра проблематична, так как требуется информация о размерах объекта, а точнее сигнальной функции fs(u–r), а обработка сигнала должна осуществляться по двум координатам r = (r1, r2). На практике операция (2.45) обычно реализуется лишь по одной координате (вдоль
строки изображения) с помощью выбора частотной характеристики
видеоусилителя, соответствующей форме сигнала от объекта. Подставляя (2.39), (2.40) в (2.45), получим
y(r) = Θs (r) + Θô (r) + n0¢ (r),
где Qs(r), Qф(r) и n0¢ (r) – сигнальная, фоновая и шумовая составляющие на выходе фильтра. Пренебрегая эффектами на краях R, можно
записать
Θs (r) = as ò fs [u - (r - r0 )]fs (u)du ,
R
Θô (r) = ò fs (u - r)nô (u)du ,
(2.46)
R
n0¢ (r) = ò fs (u - r)n0 (u)du .
R
При r = r0 фильтр согласован с сигналом от точечного объекта и
операция (2.45) максимизирует отношение сигнал/шум. Сигнальная составляющая Qs(r) максимальна и равна
Θs (r0 ) = as ò fs2 (u)du = as κs ,
(2.47)
R
где κs = ò fs2 (u)du – постоянная величина; as – амплитуда сигнала
R
положительная: (as > 0) или отрицательная: (as < 0) относительно
окружающего фона.
Пространственная фильтрация (2.45) редуцирует изображение
x(u), заданное на R, в число y(r), что значительно упрощает решение задачи обнаружения. В силу линейности операции (2.45) распределение статистики y(r) – гауссово, его плотность вероятности
p(y(r)/Q(r)) зависит от параметра смещения (среднего значения)
Θ(r) = Θs (r) + Θô (r) + n ¢(r).
Так как фон неизвестен, то неизвестен и редуцированный параметр Qф(r), а следовательно и Q(r).
72
После принятой редукции данных задачу обнаружения будем
рассматривать как проверку гипотез относительно параметра Q(r).
Результатом фильтрации белого шума n ¢(r) пока будем пренебрегать. Проверяется сложная гипотеза H0:
Θ(k) (r) = Θ(ôk) (r) Î (Θ ô(k-1)min , Θ(ôk-1)max ) = Ω0
относительно сложной альтернативы H1:
(Θ(k) (r) = (Θ(ôk) (r) - asκ s ) < Θ(ôk-1)min )
èëè (Θ(ôk) (r) + asκ s ) > Θ(ôk-1)max )) = Ω1.
Поскольку параметрические пространства Ω0 и Ω1 при гипотезах
H0 и H1 перекрываются, то оптимального РНМ решающего правила
не существует.
Проведем усечение класса альтернатив, рассматривая только те
сигналы, которые удовлетворяют следующим условиям:
as κs > (Θ(ôk-1)max - Θ(ôk) ) = ∆+
ô,
если сигнал положительный (as > 0) и
(2.48)
as κs < (Θ(ôk) - Θ(ôk-1)min ) = ∆(2.49)
ô,
если сигнал отрицательный (as < 0). То есть для любой анализируемой точки r из параметрического пространства альтернативы H1
исключается интервал
(Θ(ôk-1)min , Θ(ôk-1)max ).
Обозначим «видимые» амплитуды сигналов на выходе согласованного фильтра:
+
∆+
s = as κs - ∆ ô , ∆ s = as κs - ∆ ô .
(2.50)
¢
При этом усеченному классу альтернатив H1 соответствуют сигналы, которые удовлетворяют ограничениям: ∆+
s >0, ∆ s < 0.
Обозначения (2.48)–(2.50) представлены на рис. 2.10. В качестве
примера показано сечение k-й реализации изображения вдоль строки в точке глобального максимума фона для области перемещения
фона по строке: ∆R = ∆R1. Максимум сигнала от объекта, расположенного в точке r0, также совпадает с плоскостью сечения.
Плоскость сечения проходит через глобальный максимум фона
Θ(ôk-1)max , которому соответствует область ∆R1. Положение объекта
73
( k-1)
Θф
max
( k-1)
Θф
∆+
s
∆+
ф
asκ s
r01
min
r1
∆R 1
Рис. 2.10. Сечение k-й реализации изображения вдоль строки
r0 = (r01, r02) для упрощения построений также совпадает с плоскостью сечения. Для k-ой реализации изображения точка r0 находится в фоновой области
∆Rn(r0 ) = ∆R1
Максимальное значение сигнала равно asκs. ∆+
s – уровень сигнала, соответствующий части параметрического пространства усеченной альтернативы H1¢ :
[Θ(ôk-1)max , ¥).
Так как распределение статистики y(r) гауссово, то при наличии
положительного сигнала ее плотность вероятности можно записать
как
é 1
1
2ù
p(y(k) / Θ(k) ) =
exp ê[(y(k) - Θ(ôk-1)max ) - ∆+
s ] úú ,
2
ê
σ 2π
ë 2σ
û
а соответствующая плотность вероятности при наличии отрицательного сигнала
é 1
ù
1
p(y(k) / Θ(k) ) =
exp ê[(y(k) - Θ(ôk-1)min ) - ∆]2 ú .
s
êë 2σ2
úû
σ 2π
В
силу
экспоненциальности
семейства
распределений
p(y(k) / Θ(k) ) статистика y(k) - Θ(ôk-1)max достаточна относительно
(k)
- Θ(ôk-1)min достаточна относительпараметра ∆+
s , а статистика y
но ∆ s [34].
Соответствующее РНМ несмещенное правило решения для усеченного класса альтернатив можно записать в виде [34]
74
y(k) (r) - Θ(ôk-1)max ³ c1 или y(k) (r) - Θ(ôk-1)min £ c2 , (2.51)
где пороги c1 и c2 и выбираются по заданной вероятности ложной
тревоги α0 .
Для усеченного класса альтернатив решающее правило (2.51) является несмещенным и РНМ, обеспечивая максимум вероятности
правильного обнаружения. При этом вероятность ложной тревоги
не превышает заданной: a ≤ α0 на всем параметрическом пространстве Ω0.
Для всего класса альтернатив правило решения (2.51) является
смещенным (вероятность правильного обнаружения может быть
меньше вероятности ложной тревоги). Если принять ∆ +
ô и ∆ ô за
уровни смещения, то они соответствуют сигналам положительной
полярности с asκ s < ∆ +
ô и сигналам отрицательной полярности с
asκ s > ∆.
ô
Вернемся к исходной задаче обнаружения сигнала с неизвестными границами фона в области возможных его перемещений. Неизвестные параметры, являющиеся верхней и нижней границами фона в решающем правиле (2.51), заменим их оценками, за которые
примем максимальное и минимальное значения предыдущей реализации изображения для области возможных перемещений фона
R∆(rR) . Здесь r – исследуемая точка, в которой ожидается появление
объекта.
Таким образом, оценки верхней и нижней границ фона :
ˆ (k-1)
Θ
ô
ˆ (k-1)
Θ
ô
max
= sup [y(k-1) (r - ∆r) : ∆r Î R∆R ] = y(k-1)max ,
min
= inf [y(k-1) (r - ∆r) : ∆r Î R∆R ] = y(k-1)min .
(2.52)
Решающее правило в случае неизвестных границ фона запишется как
z1 (r) = y(k) (r) - y(k-1)max ³ c1 или z2 (r) = y(k) (r) - y(k-1)min £ c2 . (2.53)
Оценка границ фона по максимальному или минимальному значениям изображения вполне приемлема для большого отношения
фон/собственный шум.
Для определения порогов в решающем правиле (2.53), а также
для оценки качественных показателей обнаружителя необходимо
получить распределение оценок верхней и нижней границ фона.
При этом может представиться три случая:
75
1) фон в области R∆(rR-∆r) изменяется незначительно или постоянен, т.е. Θ(ôk-1) @ Θ(ôk) ;
2) фон изменяется существенно в интервале значений
ˆ (k-1)
[Θ
ô
min ,
ˆ (k-1)
Θ
ô
max ];
3) максимальное или минимальное значения фона соответствуют выбросу, который подобен сигналу, полученному в результате
фильтрации яркой точки, присутствующей на изображении фона.
Во всех случаях предполагается большое отношение фон/собственный шум:
nф(r)/σ0 >> 1.
Оценки фона имеют распределение максимальных (минимальных) значений. Для независимых выборок (дискретных отсчетов)
оценки экстремумов исследовались в литературе [39].
Рассмотрим первый случай (постоянный фон в области R∆(rR-∆r) ).
Из (2.39) и (2.45) следует, что фон на выходе согласованного фильтра есть результат фильтрации белого шума и представлен в виде
выбросов сигналоподобного характера. Пусть для заданной области R∆(rR-∆r) число независимых отсчетов изображения фона равно
m. Последнее определяется как число зон корреляции, равное отношению площади области R∆(rR-∆r) к площади изображения объекта.
Функция распределения «максимальных значений»
m
P(y(k-1)max < c) = Õ Pi (yi(k-1) < c), (2.54)
i=1
где Pi – функция распределения i-го отсчета.
Для конечного m плотность вероятности распределения «максимальных значений» можно записать лишь для наиболее простых
распределений, например экспоненциального [8]. Для исходных
распределений экспоненциального типа распределение «максимальных значений» сходится к двойному экспоненциальному. Его
плотность вероятности может быть записана как
p(ymax ) = αm exp[-αm (ymax - βm ) - exp[(-αm (ymax - βm )]],
(2.55)
где αm и βm – постоянные, определяемые числом независимых выборок m и исходной плотностью вероятности f:
76
æ
1ö
βm = F-1 çç1 - ÷÷÷; αm = m f (βm ), è mø
(2.56)
где F–1(…) – функция обратная исходной функции распределения F.
Для гауссова распределения, которое является исходным в соотношении (2.54), плотность вероятности «максимальных значений» записать в явном виде не представляется возможным. Но при
большом числе независимых выборок m, (m > 10) распределение
«максимальных значений» (2.55) и (2.56) обладает устойчивостью
в смысле сходимости к нему различных исходных распределений, в
том числе и гауссово.
Формула (2.55) предполагает нормировку выборочных данных в
исходном распределении:
y -áyi ñ
; i = 1, 2, ..., m,
σyi
в соответствии с которой гауссово распределение имеет параметры
(0,1), что необходимо учитывать при вычислении коэффициентов
αm и βm в (2.56), представляя соответствующим образом гауссовы
плотность вероятности f и функцию распределения F.
При увеличении числа независимых отсчетов плотность вероятности максимальных значений сдвигается вправо с одновременным
уменьшением ее рассеяния относительно среднего значения, а оценˆ (k-1) max = y(k-1)max и Θ
ˆ (k-1) min = y(k-1)min получают смеки Θ
ô
ô
щение относительно истинного значения, которое увеличивается с
ростом m за счет собственных шумов.
Рассмотрим возможность распространения полученных статистических характеристик для случая постоянного фона на другие
случаи (переменный фон, сигналоподобный выброс).
Если сравнить величину смещения распределения оценки максимального (минимального) значения фона, вызванного шумами, при
большом отношении фон/собственный шум для трех рассмотренных случаев, то можно заключить, что в первом случае (постоянный фон) смещение распределения «максимальных (минимальных)
значений», а следовательно, и их оценки будет наибольшим, так как
на формирование y(k-1)max и y(k-1)min оказывают влияние все m
независимых отсчетов. Во втором случае (переменный фон) число
отсчетов эффективно влияющих на y(k-1)max и y(k-1)min уменьшается, а следовательно, уменьшается и смещение оценки. Для третьего случая (сигналоподобный выброс фона) смещение оценки близко
к нулю, так как здесь эффективное влияние оказывает только один
отсчет фона, распределение которого является гауссовым с парамеˆ (k-1) max , σ) или (Θ
ˆ (k-1) min , σ).
трами (Θ
ô
ô
77
Таким образом, распределение решающей статистики
z1 (r) = y(k) (r) - y(k-1)max , z2 (r) = y(k) (r) - y(k-1)min (2.57)
зависит от конкретных условий, при которых она получена. Обозначим эти распределения соответственно для первого случая (ровный
фон) через P1, для второго случая (переменный фон) – через P2 и для
третьего случая (сигналоподобный выброс) – через P3. Затем предположим, что для исследуемой точки изображения смещение статистик z1(r), z2(r) за счет переменного фона отсутствует, т.е. ∆+
ô =0
±
или ∆ô = 0, где ∆ ô определяются из соотношений (2.48) и (2.49).
Это справедливо для отсчета изображения y(k) (r), соответствующего постоянному фону, а также максимальному или минимальному
ˆ (k-1) max или Θ
ˆ (k-1) min .
значению фона на R∆(rR-∆r) , равному Θ
ô
ô
Если сравнить распределения статистик z1(r), z2(r) для трех рассматриваемых случаев, то из проведенного анализа распределений
«максимальных (минимальных) значений» и соотношения (2.57)
следует, что распределения P1, P2 и P3 статистики z1(r) стохастически возрастают в порядке увеличения индексов – P1 < P2 < P3. И
эти же распределения статистики z2(r) стохастически убывают. Таким образом, за счет вычитания в (2.57) статистика z1(r) стремится
принимать большие значения, а статистика z2(r) – меньшие в третьем случае, чем в первом.
Третий случай (сигналоподобный выброс) соответствует крайнему правому расположению функции распределения решающей статистики z1(r) или крайнему левому расположению статистики z2(r)
по отношению к другим случаям (переменный фон или постоянный фон). Распределение статистик z1(r), z2(r) является гауссовым и
вследствие вычитания в (2.57) имеет параметры (0, 2σ), что позволяет выбрать пороги обнаружителя c1 и c2 исходя из заданной вероятности ложной тревоги α0:
¥
ò
c2
p[z1 (r) / as = 0] dz1 (r) + ò p[z2 (r) / as = 0] dz2 (r) = α0 , (2.58)
-¥
c1
где p(z) – плотность вероятности гауссова распределения.
Для любых других ситуаций распределение статистики z1(r) стохастически меньше, чем P3, а распределение z2(r) стохастически
больше, чем P3, и вероятность ложной тревоги a не может превышать α0: a ≤ α0. Для оценки эффективности решающего правила
(2.53) его необходимо сравнить с решающим правилом (2.6), опти78
мальным для случая известного фона. Эффективность решающего
правила (2.53) можно оценить потерями, которые оно имеет по отношению к (2.6). Величина потерь зависит от положения объекта.
При гауссовой аппроксимации распределения статистик z1(r) и z2(r)
потери в отношении сигнал/шум можно оценить как
2+
∆+
ô
2+
∆ô
, (2.59)
∆+
∆s
s
где ∆+
ô и ∆ ô – смещение статистики за счет переменного фона, зависящее от положения объекта в области R∆(rR-∆r) и характера фона
+
в этой области; ∆ +
s = as κ s - ∆ ô , ∆ s = as κ s - ∆ ô – видимый сигнал в
отрицательной и положительной области альтернативы H1; ask s –
амплитуда сигнала на выходе фильтра, согласованного с сигналом.
Рассмотрим некоторые особенности реализации алгоритма (2.53)
[40–43].
1. Так как положение объекта неизвестно, то алгоритм обнаружения должен быть многоканальным. Для этого все изображение
разбивается на отдельные элементы и анализируются все каналы,
т.е. элементы изображения путем построчного считывания изображения с телевизионного датчика.
2. Уменьшения объема памяти (сжатия данных) при формировании граничных оценок фона можно достигнуть, если использовать
статистическую избыточность в изображении фона. Для этого все
изображение разбивается на блоки, состоящие из определенного
числа элементов, например, 16 × 16, и значениям изображения каждого блока ставится в соответствие максимальное и минимальное
значения фона. Эту операцию можно назвать кодированием максимальными (минимальными) значениями, записывая их в ОЗУ в
процессе сканирования.
3. Формируемые пороговые функции соответствуют правилу
(2.52), которое трансформируется на совокупность дискретных отсчетов, полученных в результате кодирования максимальными
(минимальными) значениями. Число их равно удвоенному числу
блоков. Например, максимальное и минимальное значения для блока с номером i,j находятся как наибольшее и наименьшее из окружающей окрестности (матрица 3 × 3 на рис. 2.9).
4. Предыдущий и последующий кадры изображения следует
трактовать условно. Реально временной интервал между ними должен быть равен целому числу кадров и выбран исходя из предполагаемой скорости перемещения объекта так, чтобы информация об
или
79
объекте стала «новой» в текущем кадре относительно двумерной пороговой функции, полученной в результате обработки изображения
предыдущего кадра.
2.2. Выделение протяженных объектов на сложном фоне
2.2.1. Общая характеристика задачи выделения объектов
Сцена в поле зрения видеокамеры (телевизионный кадр) в большинстве важных для практики случаев включает в себя протяженные объекты, которые расположены на сложном фоне. При выделении объектов производят классификацию всех пикселей сцены на
две группы. К первой группе относят пиксели, принадлежащие объектам интереса, ко второй – пиксели, составляющие в совокупности
фон. Далее пиксели объединяют в объекты по принципу связности.
Объекты первой группы сопровождают, опознают, классифицируют, у них измеряют динамические и геометрические параметры. На
основании полученной информации принимают оперативные решения: подают сигнал тревоги в охранных системах, выписывают
штраф за превышение разрешенной скорости движения, формируют статистические данные. Объекты второй группы (объекты фона)
не представляют тактической ценности, но взаимодействуют с объектами первой группы – может возникнуть ситуация перекрытия
объектов (окклюзия – occlusion), что влечет за собой временное исчезновение объектов интереса и срыв сопровождения. Обычно объектов много, они могут перемещаться в различных направлениях с
разными скоростями, включая нулевую скорость, исчезать и появляться вновь. В результате возникает задача идентификации объектов интереса: каждому объекту присваивают уникальную метку,
которую сохраняют за объектом в течение его времени жизни, в том
числе при его временном исчезновении. В случае стационарной камеры – фон неподвижный, а если камера размещена на поворотном
столе или другом подвижном основании, то фон динамический. В
изображении присутствуют шумы и ложные сигналы (блики в объективе, дефекты матрицы).
Сделаем следующие допущения об условиях функционирования
системы:
– освещенность в поле зрения камеры является квазистатической (за время нескольких кадров освещенность существенно не изменяется);
– в пределах кадра движется: а – один объект, б – несколько объектов;
80
– выделение объекта происходит: а – на неподвижном фоне, б –
на движущемся фоне (например, камера следит за объектом);
– объект может исчезать на некоторое время и появляться вновь,
например, из-за облачности или перекрытия другими объектами
(проблема окклюзии).
Отличительной особенностью протяженных объектов интереса
является возможность использования расширенной совокупности
признаков, отличающих их от фона. Объекты отличаются от фона
и друг от друга:
– яркостью или гистограммами распределения яркостей (признак яркости);
– уровнем детальности, текстурой (признак детальности);
– скоростью и направлением движения (признак движения);
– формой и размерами, которые могут видоизменяться в ходе
слежения за объектом (признак формы);
– гистограммами распределения цветностей (в системе Lab гистограммами распределения координат a и b) (признак цвета).
Выделение объектов интереса производят на основании анализа
совокупности присущих им признаков. Результатом выделения является бинарная маска, в которой областям с объектами присвоено
значение единица, а фону – ноль (рис. 2.11). Возможны ошибки двух
видов: 1) пиксели N1 вне объекта, ошибочно включенные в состав
объекта; 2) пиксели N2 внутри объекта, не причисленные к объекту.
Относительную разницу между фактическим и эталонным выделением считают критерием качества выделения
K=
N - N0
N1 + N2
= ý
,
Ný
Ný
где NЭ , N0 – число пикселей эталонного и фактического выделения.
а)
б)
в)
Рис. 2.11. Сцена (а) и маски выделения объектов интереса: эталонное
выделение (б); фактическое выделение (в)
81
В свете введенного показателя наилучшее выделение соответствует контуру объекта. После выделения протяженного объекта
интереса на сложном фоне (статическом или переменном) вводят
модель объекта – заменяют реальное изображение объекта его сокращенным описанием. Модель объекта модернизируют по мере поступления новой информации.
2.2.2. Адаптивное стробирование объектов
Будем понимать под стробированием выделение некоторой зоны
в анализируемой сцене, в пределах которой расположен объект интереса. Чем точнее размеры и форма строба приближаются к контуру изображения объекта, тем меньше погрешность при решении задач распознавания, классификации, позиционирования и других.
Стробирование позволяет локализовать объекты, исключить большую часть фона и резко снизить объем вычислений. В каждом кадре нужно лишь совмещать центр строба с центром тяжести сегментированного объекта, что позволяет сопровождать объект.
В ряде систем конфигурацию, размеры и начальное положение
строба устанавливает оператор вручную с помощью соответствующих органов управления. Двумерный строб, обычно имеющий
форму прямоугольника, сначала «набрасывают» на обнаруженный
объект, а затем по команде оператора переводят в контур автоматического управления.
В автоматических системах обнаружение объекта на видеоизображении и формирование строба с требуемыми параметрами (размер, форма, координаты) осуществляют без участия оператора. Затем в автоматическом режиме выполняют последующее согласование строба с изображением объекта. Подобная операция возможна
при различии характеристик изображения объекта и окружающего
его фона. Выделенный двумерный сигнальный массив может включать, кроме сигнала объекта, сигнал части фона и сигналы от других объектов. Алгоритмы обработки сигнала внутри строба строят
в зависимости от типа объекта, его динамики, условий наблюдения
и вида помех.
Алгоритмы формирования прямоугольного адаптивного строба
Известно несколько методов адаптации размеров строба к размерам изображения объекта, формирования так называемого адаптивного строба. Выбор того или иного из них зависит от условий работы видеосистемы и от требований, предъявляемых к степени приближения.
82
Самым простым методом является формирование границ прямоугольного строба по крайним точкам y2
изображения объекта. Вертикальy1
ные и горизонтальные стороны,
ограничивающие прямоугольную
область строба, должны быть касательными к границам выделенноx1 x2
го объекта (рис. 2.12). Как правило,
в этом случае формирование строРис. 2.12. Круглый объект,
ба осуществляют после пороговой и
вписанный в прямоугольный
морфологической обработок видеостроб
сигналов, т.е. по бинарному изображению. Если не предпринимать специальных мер, то метод в своем
примитивном виде обладает чрезвычайно низкой помехоустойчивостью, так как любая помеха в поле растра влияет на положение сигналов начала и конца строба как по кадру, так и по строке. Например, для стабилизации размеров прямоугольного строба, описывающего объект, может быть применена фильтрация координат крайних точек изображения объекта [44].
Более устойчивый к помехам алгоритм автоматического формирования строба вокруг объекта по методу крайних точек, иногда называемый методом проекций, описан в литературе [44]. Идея его заключается в определении вертикальных и горизонтальных границ
прямоугольного строба по результатам анализа сигнальных проекций объекта на ось x (перпендикулярно строкам развертки) и на ось
y (вдоль строк). Проекция непрерывного (аналогового) изображения
L(x, y) вдоль направления w
Pw (z) = ò L(x, y)dw,
где каждое значение Pw(z) является интегралом от L(x, y) вдоль линий, параллельных w.
Для цифрового бинарно квантованного изображения Lц(i, j) проекция определена числом элементов изображения объекта со значением «единица» вдоль параллельных линий для заданного угла
зрения. Используют три проекции: вертикальную, горизонтальную
и на ось z, проходящую под углом 45° к оси x. Существенного увеличения помехозащищенности алгоритма удалось достичь при учете размерных и структурных признаков объектов, отличающих их
от фоновых помех. Эти признаки содержатся в проекциях объекта
83
Pz(z)
Lo
z
c1
c2
c3
c4
c6
c5
c8 c10
c7 c9 c11
ck
Рис. 2.13. Разбиение проекции объекта на прямоугольники равной
площади (но неравной ширины)
на координатные оси. Структурный анализ проекций позволяет даже при невысоких отношениях сигнал/шум сформировать устойчивый адаптивный строб [44]. В автоматических системах слежения
за объектами нет необходимости восстанавливать собственно изображения. Целесообразно преобразовать проекции в набор легко
вычисляемых параметров, однозначно описывающих характерные
особенности формы объектов. Форму объекта характеризуют векторами параметров с размером (k–1) × 1 (по одному вектору на проекцию). Для вычисления этих параметров каждую проекцию заменяют последовательностью таких прямоугольников равной площади
(рис. 2.13), что,
ò
1
Pw (z)dz =
k
zk+1
ò
Pw (z)dz,
z1
где z1 и zk + 1 – граничные точки объекта; k – число частей, на которые разбивают проекции объекта.
Важным свойством такого разбиения является инвариантность
по отношению к масштабу и положению объекта следующих (k–1)
соотношений:
czi = (zi+1 - zi ) / L0 ,
где L0 = zk + 1 – z1, i = 1,…, k + 1.
84
Считают [44], что для k ≥ 8 и трех проекций можно однозначно
идентифицировать треугольники, квадраты, кресты и круги. Объекты более сложной формы могут быть аппроксимированы этими
простыми фигурами. Кроме параметров формы, в структурные признаки объекта включают координаты центра x0, y0, ориентацию
j0, площадь П0 и плотность D0. Для определения (x0, y0) и j0 маску
объекта разбивают на две части – верхнюю и нижнюю – и вычисляют координаты центров тяжести этих частей. Центр объекта и его
ориентацию вычисляют по формулам
x0 = (x0Â + x0Í ) / 2; x0 = (x0Â + x0Í ) / 2;
ϕ0 = arctg
y0Â - y0Í
x0Â - x0Í
.
Площадь объекта Sо равна суммарному числу единиц в его бинарной маске, а плотность
Dî = lî × hî / Sî ,
где lо и hо – длина и ширина объекта, определенные по x- и
y-проекциям.
Выделение объектов на основе алгоритма водораздела
Известны алгоритмы, позволяющие сформировать стробы, границы которых совпадают с контурами объектов на изображении.
Это – алгоритм «водораздела» (watershed) [45] и алгоритм «геодезических» контуров [46], основанные на построении карты линий равных яркостей и вычислении градиента яркости в каждой точке изображения. Они позволяют сформировать согласованные стробы для
нескольких объектов при условии равномерного фона, но требуют
больших вычислительных затрат.
Чтобы выполнить начальную сегментацию и разделить первый
кадр видеопоследовательности на однородные области по яркости,
используют алгоритм «водораздела». Вычисляют вектор-градиент ∇L(x, y) в предельном случае для каждой точки изображения.
Каждый локальный минимум вектора-градиента является причиной возникновения области сегментации. Стандартные операции градиента обычно дают много локальных минимумов, которые вызваны шумом или ошибкой квантования. Это приводит к
появлению излишне большого числа областей сегментации. Предложены эффективные алгоритмы предварительной фильтрации и
экономичные методы получения вектора-градиента (так называ85
Карта линий равного уровня градиента
Карта линий равного уровня яркостей
20
20
10
10
0
«Затопленные» области минимумов
градиента
Рис. 2.14. Карты линий равного уровня яркости и градиента
емый многомасштабный морфологический градиент), решающие
эти проблемы.
Алгоритм «водораздела» включает пять следующих шагов.
1. Предварительная фильтрация. Чтобы уменьшить помехи, исходное изображение, которое должно быть сегментировано, предварительно фильтруют с использованием операции морфологической
фильтрации открытия-закрытия с маской S размером 3 × 3 пикселя.
2. Вычисление многомасштабного морфологического градиента
с использованием структурных элементов различной размерности
(рис. 2.14).
3. Устранение малых локальных минимумов. К малым локальным минимумам относят те, которые содержат менее чем 2 × 2 пикселей или имеют контраст, меньший, чем константа e. Этот вид локальных минимумов в изображении градиента MG(L) обычно вызывается шумом или ошибками квантования. Их удаляют с помощью эрозии MG(L) с квадратным структурным элементом S размером 2 × 2 пикселей. Затем к изображению градиента прибавляют
константу e. Окончательное изображение градиента получают путем реконструкции с помощью наращивания ((MG (L)) Å S) + ε. Константу e используют для регулирования полученного числа (множества) областей сегментации. Если e увеличить, то число создаваемых областей будет меньшим.
86
4. Watershed-преобразование
Водораздел
производят над изображением
градиента после устранения малых локальных минимумов. Водоразделом называют области,
где вектор-градиент равен нулю
(рис. 2.15)
5. Слияние областей. После
преобразования водораздела некоторые области, вероятно, нужРис. 2.15. К понятию
«водораздела»
но будет соединить из-за возможной излишней сегментации. Алгоритм многомасштабного градиента способен обеспечить информацию о высоте краев для слияния областей. Учитывая ориентацию
контуров, направленные градиенты используют с целью слияния
областей. Направленный (например, горизонтальный) градиент вычисляют с использованием группы линейных сегментов (отрезков)
соответствующей (горизонтальной) ориентации в качестве структурного элемента. Если два смежных по горизонтали пикселя принадлежат двум соседним областям, т.е. вертикальный контур проходит между пикселей, то значения горизонтального градиента, соответствующие этим пикселям, выдают в качестве высоты краев.
В противном случае вовлекают значения вертикального градиента.
Если высота края в пикселе контура меньше, чем предопределенный порог Т1, то этот пиксель рассматривают в качестве пикселя
слабого края. Две области сливаются, если b/I больше, чем 1/3, где
I – длина общего контура между двумя областями, а b – это число
пикселей слабого края на контуре. После этого некоторая малая область, которая не больше 0,02% от общей площади изображения,
сливается со смежной областью, которая имеет самое большое отношение b/I среди всех смежных областей этой малой области.
В алгоритме «водораздела» рассматривают область минимума
в изображении поверхности значений нормы вектора-градиента в
качестве маркера объекта. Пиксели в изображении сортируют по
возрастанию значений нормы вектора-градиента, что эффективно
ускоряет алгоритм. Затем совершают постепенное «затопление» областей локальных минимумов, начиная с области глобального минимума, которую, естественно, «затопляют» первой (см. рис. 2.14).
Положим, что «затопление» было осуществлено вплоть до некоторого заданного уровня h. Каждая область, в которой уровень значения градиента меньше или равен e, получает персональную (unique)
87
метку. Далее рассматривают пиксели со значением градиента e + 1.
Если у пикселя соседний пиксель – помеченный, то ему присваивается та же самая метка, что и у соседа. Если у пикселя нет среди
соседей помеченных пикселей, то он соответствует локальному минимуму на уровне e + 1. Этому пикселю присваивают новую метку
и считают, что он принадлежит новому объекту. Поэтому на каждом уровне процедуры «затопления» расширяются помеченные области и обнаруживаются новые объекты (области). Эту процедуру
повторяют до тех пор, пока каждый пиксель в изображении не будет иметь метку. Описанная пространственная сегментация однородных по яркости областей изображения является лишь предварительной, так как для слежения за объектами нужно дополнительно
оценивать движение этих областей.
Алгоритм определения «геодезических» контуров позволяет разделить несколько объектов, повторяя их контуры [46]. Слежение
выполняют при использовании геометрических или основанных на
форме свойств объекта. «Геодезическим» контуром называют замкнутую плоскую кривую C(x, y, t), полученную в результате сечения поверхности L(x, y, t) плоскостью на заданном уровне D (см. рис.
2.16). Видно, что на некотором уровне объекты, ранее передаваемые
слитно, разделяются – происходит разрешение объектов. Разработаны эффективные в вычислительном смысле алгоритмы построения «геодезических» контуров, которые обеспечивают разделение и
плотное окружение объектов стробами [46]. Общая идея построения
стробов, повторяющих границы движущихся объектов, заключается в том, что на шаге начальной инициализации назначают строб,
который охватывает все области, где сосредоточены объекты интереса. Затем видоизменяют начальный строб под влиянием некоторых внешних воздействий, тогда как внутренние силы этому противодействуют.
Развивающийся строб иногда описывают параметрической кривой («змея» – snake) с использованием B-сплайнов, и поэтому пространство решения вынуждено имеет предопределенную форму. В
случае моделей «геодезических» активных контуров такого ограничения нет, так как они относительно свободны от шага инициализации. Кроме того, эти модели могут использоваться для слежения
за объектами, которые подвергаются нежесткому движению (меняют свою форму). Причем отдельные части объекта могут двигаться
в разных направлениях (например, когда человек идет вперед, одна
рука движется назад) [47].
88
Линии равного уровня
L(x, y)= const
Объект 1
Секущая площадь
Объект 2
Геодезический
контур
Рис. 2.16. Линии равного уровня и сечение поверхности L(x, y) плоскостью
Если справедливо предположение о гладкости фона, используют «геодезически» активную контурную модель, которая позволяет начальной кривой двигаться к кривой минимальной длины, которая охватывает выделяющиеся над фоном участки изображения
(рис. 2.16) под влиянием внутренних и внешних сил. Силой, которая
стремится приблизить начальный контур (строб) к границам объекта, полагают кривизну K кривой C(x, y, t) (рис. 2.17). Силой противодействующей этому стремлению – некоторую функцию g(||∇L(C(x,
y))||) от нормы вектора-градиента, взятого в точках, принадлежащих кривой C(x, y, t). Эта функция является монотонно убывающей
функцией, причем g(r) → 0 при r → ∞ и g(r) = 1 при r = 0 (например, функция Гаусса). Направление перемещения точек кривой заy
Кривизна - это приращения угла
касательных в точках M и N δα,
отнесенное к длине дуги MN
Кривизна K = δα/MN
(Длина дуги MN)
N
y
M
α
α + δα
x
Касательная
Вектор нормали
n
x
Рис. 2.17. К понятиям крутизна кривой и вектора нормали
89
дает внутренний евклидов нормальный вектор n к кривой C(p, t) (см.
рис. 2.17), где p = (x, y)Т. Начальную кривую C(p, 0) = C0(p) деформируют путем сведения к минимуму следующей целевой функции:
1
E[C(p) ] = ò g( ÑI(C(p) )
0
dC(p)
dp = min,
dp
(2.60)
dC(p)
где
– есть частная производная кривой по отношению к паdp
раметру p, которая является вектором, поэтому речь идет о норме
этого вектора.
Найти вектор нормали n и кривизну K можно, если известны
значения вектора-градиента ∇L:
é
æ ÑL ö÷ù
çç
ê n = - ÑL ,
ú
K
div
=
÷÷ .
ê
ççè ÑL ÷øúú
ÑL
êë
û
Такой подход вынуждает вычислять в каждом кадре значения
вектора-градиента для всех точек изображения, что приводит к
большому числу бесполезных вычислений. Чтобы преодолеть этот
недостаток были предложены алгоритмы, получившие названия
«узкая лента» и «быстрый марш». Эти алгоритмы были усовершенствованы и в результате преложен новый алгоритм, названный HERMES, который существенно выигрывает по сравнению с
ними [46].
Основная идея алгоритма «узкой ленты» – обрабатывать только
те пиксели, которые примыкают изнутри или извне к последнему
положению контура. Определяют узкую ленту пикселей вокруг последнего положения контура и производят расчеты только внутри
этой ленты. Проблема состоит в том, что положение контура постоянно меняется. Как следствие узкая лента тоже должна изменяться
от итерации к итерации. Набор линий равного уровня обновляют
только внутри узкой полосы вокруг самого последнего положения
контура. Использование такого подхода значительно уменьшает
объемы вычислений, но их число все равно остается существенным.
Таким образом, алгоритм «узкая лента» обновляет конфигурацию линии равного уровня в пределах узкой полосы, которая может содержать пиксели с нулевыми скоростями распространения
(под пикселями, имеющими нулевую скорость, понимают пиксели
границы фон/объект, которые уже найдены и более не двигаются).
В этих пикселях фронт остается неизменным, что приводит к существенному количеству избыточных вычислений. На каждом шаге
90
предлагаемого алгоритма выбирают пиксель контура (фронта), имеющий максимальную скорость распространения (по абсолютной величине) и проводят изменения линии контура внутри круглого окна
с центром в этом пикселе.
Алгоритм «быстрый марш» обеспечивает высокое быстродействие для решения задач, изложенных выше, за счет объединения
алгоритма узкой ленты с алгоритмами сортировки. Распространение фронта происходит, с одной стороны, с учетом только пикселей,
принадлежащих узкой ленте вокруг существующего фронта, а с
другой стороны, перемещением узкой ленты вперед путем исключения текущих пикселей и включения в состав ленты новых пикселей. Главный недостаток этого алгоритма – требование постоянного
знака у скорости распространения фронта, в связи с чем он не может
быть применен в случаях, когда скорость распространения фронта
определена кривизной функции.
Алгоритм HERMES объединяет идеи подходов «быстрый марш»
и «узкая лента». Ускорение трансформации кривой строба достигают за счет реализации следующего принципа: в первую очередь рассматривают те точки фронта, которые на каждом шаге перемещаются быстрее, тогда как те точки кривой строба, которые на предыдущем шаге не перемещались (или перемещались медленно) не принимают во внимание. Рассмотрим составляющие процедуры этого
алгоритма.
Процедура инициализации. Задают начальное положение строба, окружающего все движущиеся объекты. Это – «базовая линия»,
соответствующая, например, нулевому уровню функции L(x, y, t)
(см. рис. 2.16). В предельном случае – это весь кадр. Затем, принадлежащие начальному стробу пиксели, включают в «таблицу (список) активных пикселей» [SETACTIVEPIXELSOI].
Процедура движения (распространения фронта). Из «таблицы
активных пикселей» выбирают пиксель «с», имеющий максимальную (по модулю) скорость распространения. Поскольку скорость
движения точки строба является функцией от кривизны кривой
v(x, y) = F(K), то первой передвигают ту точку строба, где эта кривизна максимальна (рис. 2.18). Если существует несколько пикселей с одинаковой скоростью распространения, то выбор осуществляют согласно правилу «первый пришел, первый вышел», т.е. сначала выбирают пиксель, занесенный в список первым (по времени).
Далее вокруг пикселя «с» формируют окно в форме окружности
с центром в этом пикселе (см. рис. 2.18). Радиус этого окна обычно
равен двум пикселям. Затем линию равного уровня модифицируют
91
Активное
Точка окно
линии
с максимальной
кривизной
Новое положение
точки строба
Начальный контур
строба
(базовая линия)
Рис. 2.18. Модификация начального строба
локально в пределах этого окна (перемещают пиксель «с» в новое
положение). Величина перемещения зависит от оцененной кривизны кривой и противодействующей силы в виде функции g(||∇L(C(x,
y))||) (см. (2.60)).
Измененный (текущий) фронт сравнивается с фронтом до модификации (предыдущим). Для пикселей внутри локального окна могут быть следующие варианты:
– если пиксель является новой точкой фронта (он принадлежит
текущему фронту и его нет в предыдущем фронте до модификации),
то этот пиксель заносится в «таблицу активных пикселей»;
– если пиксель является точкой экс-фронта, т.е. никуда не передвинулся (принадлежит только фронту до модификации), то он удаляется из списка;
– наконец, если пиксель принадлежит текущему и предыдущему фронту (передвинулся, как показано на рис. 2.18), тогда производят переоценку его скорости распространения. Длина вектора перемещения точки фронта в отношении к временному шагу δt дает скорость перемещения этой точки (пикселя).
Процедура проверки (управления). Когда выполнено заданное количество итераций или фронт прекратил дальнейшее движение, то
действия прекращают и устанавливают окончательное положение
фронта. В противном случае повторяют вторую процедуру.
Ключевой точкой для эффективной реализации алгоритма
HERMES является нахождение узловых пикселей, имеющих максимальную скорость среди всех пикселей фронта. Это может быть
сделано с помощью различных алгоритмов «древовидной» сортировки. Первоначально все активные пиксели помещают в «список»,
а затем сортируют по скорости перемещения, причем пиксели с
максимальной скоростью перемещения помещают в верхнюю части
«списка».
92
Определенные проблемы возникают при выполнении программы слежения за движущимся объектом. Контур может распространяться только в одном направлении – сжиматься вокруг объекта
или растягиваться. Программа не работает, если объект движется
настолько быстро, что в следующем кадре полностью или частично
выходит за пределы строба. Чтобы устранить этот недостаток, предлагают в следующем кадре расширять строб настолько, чтобы объект оказался полностью в стробе. Затем строб несколько модифицируют, чтобы он снова обжал объект.
Некоторые из перечисленных способов и алгоритмов формируют
стробы только для одиночных объектов, другие – только для топологически устойчивых. Трудности возникают, если необходимо выделить объекты, имеющие разрывы контурной линии, или объекты, отличающиеся от фона не яркостью, а текстурой, или компактные группы родственных объектов. Расширение возможностей процедур сегментации и адаптивного стробирования может предоставить развитие алгоритма активных контуров, рассмотренное ниже.
Алгоритм активных контуров
Активный контур (snake) представляет собой замкнутую линию,
эволюционирующую в таком направлении, чтобы наилучшим образом повторить контур выделенного объекта. Алгоритм стягивания
контура внутрь по нормалям описан в литературе [46, 50]. В классическом подходе критерием остановки активного контура и прекращения процесса его дальнейшего изменения является достижение
заданного значения градиента яркости между объектом и фоном. То
есть требуется применение некоторого детектора границ объекта.
В литературе [51] предложен иной критерий, в качестве которого
выступает минимум энергетического функционала:
2
F (c1, c2 , C) = µl(C) + νS(C) + λ1 ò u(x, y) - c1 dxdy +
ω
2
+λ2 ò u(x, y) - c2 dxdy,
(2.61)
Ω
где C – замкнутая кривая активного контура; l(C) – длина контура; S(C) – площадь, ограниченная контуром; ω и Ω – области растра
внутри и вне контура, соответственно; u(x, y) – значение видеосигнала в точке растра с координатами x и y; c1 и c2 – средние значения
уровня сигнала в областях ω и Ω, соответственно; коэффициенты
μ ≥ 0, ν ≥ 0, λ1 > 0, λ2 > 0.
93
Два первых слагаемых функционала (2.61), во-первых, не являются энергетическими характеристиками изображения, во-вторых,
не всегда минимизируют функционал в точке наилучшего совпадения контура с границами объекта и, в-третьих, не отражают, на
наш взгляд, идею метода.
Если взять μ = 0, ν = 0, λ1 = 1, λ2 = 1, то функционал (2.61) приобретет более простой и понятный вид:
2
2
F (c1, c2 , C) = ò u(x, y) - c1 dxdy + ò u(x, y) - c2 dxdy.
ω
Ω
Выражение (2.62) состоит из двух слагаемых
2
(2.62)
2
F1 = ò u(x, y) - c1 dxdy и F2 = ò u(x, y) - c2 dxdy.
ω
Ω
Каждая из этих частей означает сумму квадратов разностей
между текущим значением видеосигнала в каждой точке изображения и средним значением внутри и вне активного контура. Возможны четыре характерных ситуации с различными взаимными сочетаниями контура и объекта и соответствующим порядком величин
F(c1,c2,C), F1 и F2 (рис. 2.19). Только в последнем случае (рис. 2.19, г)
совпадения активного контура с границами объекта функционал
(2.62) принимает минимальное значение. Для идеального бинарного изображения без помех и шумов, которое представлено на рисунке, минимум функционала равен нулю. Функционал (2.62) являетF1>0; F2=0
F1=0; F2>0
F1>0; F2>0
F1=0; F2=0
Рис. 2.19. Различные варианты сочетания объекта и строба: F1 > 0 и
F2 = 0 (а); F1 = 0 и F2 > 0 (б); F1 > 0 и F2 > 0 (в); F = 0 (г)
94
ся, по сути, решающей функцией
Ω
алгоритма.
ω
Основное преимущество такого подхода, отказывающегося от
применения градиентного детектора границ, заключается в том,
что он позволяет сегментировать
не только контрастные одиночРис. 2.20 Взаимное расположение
ные объекты, но и области изо- строба и объекта на изображении
бражения с разной текстурой.
с областями ω (внутри строба) и
Ω (вне строба)
Должно лишь удовлетворяться требование разницы средних
значений яркости выделяемых областей. В литературе [51] приведено несколько наглядных примеров подобного сегментирования, доказывающих расширение его возможностей.
Однако в системах с предварительной цифровой обработкой видеоизображений, включающей компенсацию видеосигналов неподвижного фона и выделение нестационарных областей, решающая
функция (2.62) может быть представлена в более простом виде:
F (c1, c2 ) =
å
x,yÎω
u(x, y) - c1 +
å
x,yÎΩ
u(x, y) - c2 ,
(2.63)
где u(x,y) – значение видеосигнала в элементе изображения (пикселе) с координатами (x,y) либо внутри (область ω), либо вне (область
Ω) прямоугольного строба (рис. 2.20).
Теперь в выражении (2.63)
F1 =
å
x,yÎω
u(x, y) - c1 , F2 =
å
x,yÎΩ
u(x, y) - c2 .
Для бинарных изображений выражение (2.63) приобретает еще
более простой вид:
F (c1, c2 ) = F1 + F2 ;
F1 = (1 - c1 )bω + c1 (aω - bω ), F2 = (1 - c2 )bΩ + c2 (aΩ - bΩ ),
где c1 = bω/aω; c2 = bΩ/aΩ ; bω и bΩ – число единичных пикселей внутри и вне строба; aω и aΩ – общее число пикселей внутри и вне строба соответственно. После алгебраических преобразований получим
F (c1, c2 ) = 2bω (1 -
bω
b
) + 2bΩ (1 - Ω ).
aω
aΩ
(2.64)
95
Алгоритм адаптивного стробирования
Алгоритм, использующий для целей формирования оптимального строба поиск минимума решающей функции (2.63) (для многоуровневого изображения) или (2.64) (для бинарного изображения),
предполагает перемещение и изменение размеров исходного прямоугольного строба в некотором диапазоне с одновременным вычислением значений функции. В общем виде структурная схема блока
формирования адаптивного строба показана на рис. 2.21 и состоит
из нескольких взаимосвязанных процедур. Первая процедура осуществляет установку исходного строба с некоторыми начальными
параметрами – размерами и местоположением. Процесс установки
может выполняться как в ручном, так и в автоматическом режиме
по определенному алгоритму. В блоке управления стробом производится пошаговое изменение параметров строба по заданному правилу и на заданную величину. Причем на каждом шаге в блоке вычисления F определяется значение решающей функции. В блоке поиска
минимума F запоминают и сравнивают последовательные отсчеты
решающей функции и вырабатывают такие сигналы управления,
которые изменяют параметры строба в сторону минимизации F. Достижение минимального значения F означает оптимальное сочетание объекта и строба.
Проверка работоспособности алгоритма
На первом этапе проверка алгоритма проводилась на бинарных
моделях изображений. Три различные фазы работы алгоритма проиллюстрированы на рис. 2.22. Исходный прямоугольный строб
формировался по крайним единичным элементам изображения,
ÂÑ
Формирование
исходного
строба
Управление
стробом
Вычисление
F
Поиск
минимума F
Рис. 2.21. Структурная схема блока формирования
адаптивного строба (ВС – видеосигнал)
96
а)
x1
б)
x2
y1
y1
y2
y2
в)
x1 ′
x1
x1 ′
x2
x2 ′
y1 ′
y2 ′
Рис. 2.22. Фазы формирования границ строба: исходный строб,
выставленный по крайним точкам (а) ; смещение левой границы строба
(б) ; окончательное положение всех границ строба (в)
т.е. положение сторон строба определялось координатами левого,
правого, верхнего и нижнего пикселей, имеющих значение единица
(рис. 2.22, а). Затем последовательно каждая из сторон строба поэлементно смещалась к противоположной стороне. При этом на каждом шаге вычислялось значение F по формуле (2.64). Из множества
этих значений находилась минимальная величина, и смещаемая
сторона фиксировалась в положении, соответствующем этой величине (рис. 2.22, б). Окончательный результат приведения строба к
простому однородному по яркости объекту, находящемуся на однородном фоне, показан на рис. 2.22, в. Для объектов, представляющих собой простые геометрические фигуры, результаты работы алгоритма представлены на рис. 2.23.
Структура алгоритма, формирующего адаптивный строб на бинарном изображении, приведена на рис. 2.24. На нем x1,y1,x2,y2 –
координаты сторон исходного строба, а X1,Y1,X2,Y2 – координаты
сторон результирующего строба.
Второй этап проверки предложенного модифицированного алгоритма базировался на реальном изображении (рис. 2.25, а), кото97
б)
а)
Рис. 2.23. Строб, сформированный по крайним точкам (а) и с помощью
модифицированного алгоритма (б) для разных геометрических фигур
x1 +Δ1 , x2 +Δ2 , y1 +Δ3 , y2 +Δ4
Áèíàðíîå
èçîáðàæåíèå Íàõîæäåíèå x1 ,x2
Âû÷èñëåíèå
Ñìåùåíèå ãðàíèö
êðàéíèõ
F
ñòðîáà
òî÷åê îáúåêòà y1 ,y2
Çàíåñåíèå
çíà÷åíèé F
â ìàññèâ
Âûáîð X1 , X2 ,
Y1 , Y2 , ïðè
êîòîðûõ
F = min
Ôîðìèðîâàíèå
ñòðîáîâ
ñ ãðàíèöàìè
x1 ,x2 ,y1 ,y2 è
X1 ,X2 ,Y1 ,Y2
Рис. 2.24. Модифицированный алгоритм обработки
бинарного изображения
а)
б)
Рис. 2.25. Исходное изображение (а) и изображение, прошедшее пороговую
обработку (б)
98
рое после пороговой обработки преобразовывалось в бинарное (рис.
2.25, б).
Эффективность алгоритма оценивалась по следующей методике
[52]. На одном и том же изображении формировались три описывающих объект строба, полученные различными способами: по крайним точкам, оператором вручную и с помощью рассматриваемого
модифицированного алгоритма. В каждом варианте просчитывалась площадь (число единичных пикселей) объекта, оказавшегося
внутри строба. Оценка качества автоматического формирования
строба осуществлялась сравнением разностей ∆S между площадью
объекта в адаптивном стробе и площадью объекта в «хорошем» стробе, выставленном вручную. Такие сравнения производились при нескольких пороговых уровнях m формирования бинарного сигнала,
чтобы сопоставить помехозащищенность алгоритмов. Результаты
моделирования и сравнения вариантов приведены на рис. 2.26–2.28
и в табл. 2.1. Причем рис. 2.26 и 2.27 иллюстрируют положение и
размеры стробов для разных уровней бинарного квантования исходного полутонового изображения. Рис. 2.28 показывает вид решающей функции F вдоль координат x и y для одного из случаев формирования границ строба с помощью модифицированного алгоритма.
Функции имеют одномодовый характер, свидетельствующий об отсутствии аномальных погрешностей при формировании строба. Рисунки и данные, помещенные в таблицу, наглядно показывают близость результатов, полученных от применения предложенного алгоритма стробирования, к образцовому (ручному) варианту.
Кроме того, с помощью компьютерного моделирования был проверен алгоритм для случая стробирования объекта, отличающегося
от фона по текстуре. Вид решающих функций по одной из координат для двух различных сочетаний текстур объекта и фона показан
Таблица 2.1
Результаты сравнения двух алгоритмов
Порог
бинаризации
m
Для строба, полученного
по крайним точкам
17
20
25
30
35
806
876
1122
1195
1235
Разность ΔS
Для строба, полученного с помощью
предложенного алгоритма
228
380
77
23
337
99
а)
в)
б)
г)
Рис. 2.26. Положение стробов при m = 20: исходное изображение (а);
строб, выставленный вручную (б); строб, сформированный
по крайним точкам (в); строб, сформированный
с помощью предложенного алгоритма (г)
а)
б)
в)
г)
Рис. 2.27. Положение стробов при m = 30: исходное изображение (а);
строб, выставленный вручную (б); строб, сформированный
по крайним точкам (в); строб, сформированный
с помощью предложенного алгоритма (г)
100
F
6000
б
5000
20
40
а
60
80
V
Рис. 2.28. Вид функции F для одной вертикальной (кривая а) и одной
горизонтальной (кривая б) границ стробов, смещаемых на V пикселей
относительно начального положения
на рис. 2.29. Функции имеют хорошую крутизну, малую изрезанность и ярко выраженный глобальный минимум, свидетельствующий об однозначном фиксировании границ строба. Моделировались
объекты прямоугольной и произвольной формы, имеющие текстуру
отличную от фона, и программно реализовывался алгоритм формиа)
F
б)
0
50 100 150 200 250
Текстура фона
V
Текстура объекта
F
0
50 100 150 200 250 V
Текстура фона
Текстура объекта
Рис. 2.29. Вид решающей функции F по одной из координат для двух
различных сочетаний текстур объекта и фона
101
а)
б)
Рис. 2.30. Конечное положение строба для объектов прямоугольной (а)
и произвольной (б) формы
рования строба. На рис. 2.30 показаны результаты работы алгоритма в конечной его стадии.
Помехоустойчивость алгоритма проверялась с объектом прямоугольной формы с замешиванием в сигнал аддитивного шума разной
интенсивности. На рис. 2.31 показаны окончательные положения
стробов для трех различных значений плотности шума (4%, 30% и
70%) при одинаковых параметрах заданных текстур. Видно, что даже при 70-процентном шуме строб практически идеально совпал с
объектом.
Таким образом, предложенный алгоритм показал свою работоспособность и приемлемую помехоустойчивость для изображений,
содержащих крупноразмерный объект, находящийся на сравнительно однородном фоне. Необходимым условием надежного формирования адаптивного строба в этом случае является различие
средних значений яркости фона и объекта. Можно сказать, что алгоритм выполняет сегментацию по средним значениям.
Рис. 2.31. Конечное положение строба при наличии шума
102
Быстродействие алгоритма с введенной модифицированной решающей функцией при реализации его в видеосистемах наблюдения зависит от параметров исходного строба и от быстродействия
алгоритма поиска минимума решающей функции. Однако надо
иметь в виду, что предложенный алгоритм принципиально имеет
задержку, равную периоду кадровой развертки, так как требует вычисления средних значений видеосигнала на площади всего изображения. Поэтому точное позиционирование строба относительно
изображения объекта возможно только при скорости движения последнего не более одного пикселя за время кадра. В противном случае (при наблюдении за высокоскоростным объектом) будет иметь
место заметное рассовмещение сформированного строба и видеоизображения объекта (так называемое «отставание» строба).
2.3. Выделение объектов в последовательности видеокадров
2.3.1. Выделение объектов на основе энергии движения
Анализ видеопоследовательности позволяет использовать для
выделения объектов признак движения. Под энергией движения понимают межкадровую разность телевизионных сигналов
z
b
MAD = åå L(xj , yi ,t) - L(xj , yi ,t -1) ,
i=1 j=1
где z – число активных строк в кадре; b – число элементов по строке.
Изменения яркости, не связанные с движением объектов, создают ложную энергию движения. Объект двигается в трехмерном
пространстве (3D-движение). С помощью видеокамеры наблюдают
лишь его проекцию на плоскость изображения, которую называют
2D-движением. Видимое движение порождено изменениями яркости пикселей L(x, y, t) с координатами x и y в кадре t по отношению
к кадру t–1. Видимое движение не эквивалентно 2D-движению, так
как имеет место даже в статической сцене с изменяющейся освещенностью, где на самом деле движение отсутствует. Для оценивания 3D-движения доступно только видимое движение, что затрудняет решение задачи сегментации движущихся объектов.
Использование признака движения позволяет устойчиво сегментировать области, принадлежащие движущимся объектам на неподвижном, в том числе сложном фоне. При слежении подвижной
камерой необходимо компенсировать глобальное движение фона.
Алгоритм выделения движущегося объекта состоит из трех этапов:
– первоначальное определение локального движения;
103
Кадр t-1
Кадр t
Модуль межкадровой разности
Рис. 2.32. Получение модуля межкадровой разности
– компенсация глобального движения;
– сегментация локально движущегося объекта и слежение за ним.
Выделение энергии движения считают простейшим методом для
обнаружения движущихся объектов. Присутствие движущегося
объекта определяют вычислением модуля разности видеосигналов
(энергии движения) двух соседних кадров, а при малых скоростях
движения объектов – через большее число кадров.
В изображении межкадровой разности присутствуют оба объекта, относящиеся к текущему и предыдущему кадрам (рис. 2.32).
Так как заранее неизвестно темнее объект фона или светлее, положение объекта (в смысле центра тяжести его изображения) будет
определено с ошибкой. Изображение межкадровой разности отражает энергию движения, как предыдущего, так и текущего кадров.
Центр области движения не совпадает с центром движения реального объекта. Этот недостаток устраняют следующим образом [100,
103].
Выделяют контур изображения текущего кадра. Операцию получения контура можно выполнить различными способами цифровой обработки изображения (рис. 2.33). Контурное изображение
K(x,y) затем бинарно квантуют так же, как и изображение межка-
Контурный препарат
Межкадровая разность
Результат операции «И»
Рис. 2.33. Логическая обработка бинарно квантованных изображений
104
дровой разности MAD(x, y), что дает возможность выполнить логическую операцию «И»:
G (x, y) = K(x, y) Ù MAD(x, y).
В результате получают изображение (см. рис. 2.33), в котором
выделенные движущиеся объекты занимают положение, соответствующее текущему кадру.
Логически обработанное изображение межкадровой разности,
однако, содержит множество нежелательных фрагментов, вызванных шумами, а также недостаточной компенсацией движения фона
(если камера движется). Для снижения помех целесообразно провести предварительную фильтрацию исходного изображения, а затем
изображения межкадровой разности. Чтобы не исказить выделяемый движущийся объект, выбирают методы фильтрации, в отличие от обычной НЧ фильтрации, не нарушающие фронтов изображения.
Этими полезными свойствами обладает так называемая морфологическая фильтрация, основанная на логических операциях. Морфологическую фильтрацию применяют к цифровым как бинарно
квантованным, так и полутоновым изображениям [18]. Логические
операции совершают между маской S и областью цифрового изображения, выделенной этой маской. Результат операции устанавливают в новую битовую матрицу на место, где находится фокус маски.
Используют маски различной формы и размерности (см. рис. 1.5).
Таким образом, операции эрозии и наращивания функций с помощью малой маски позволяют найти минимумы и максимумы
сигналов. А морфологические операции «открытие» и «закрытие»
могут подавить импульсные шумы, т.е. случайные выбросы шума,
которые имеют большие положительные или отрицательные значения в малом промежутке времени. Крутизна фронта сигнала, а значит и четкость изображения после этих операций остаются неизменными (см. рис. 2.33).
В результате последовательного применения операций эрозии и
затем наращивания (в такой последовательности – это операция открытия) к изображению межкадровой разности (см. рис. 2.33) получают относящиеся к текущему кадру изображения движущихся
объектов, очищенные от шумов и остатков фона (рис. 2.34). На эти
изображения помещают строб, который в простейшем случае накрывает все движущиеся объекты в текущем кадре.
Под влиянием резкой смены освещенности сцены возникает нежелательная «энергия движения», не связанная с действительным
105
Эрозия
Наращивание
Рис. 2.34. Результаты морфологической фильтрации
межкадровой разности
движением. Скомпенсировать эту помеху можно после сравнения
средних интенсивностей текущего и предыдущего кадров.
2.3.2. Выделение объектов после вычитания оценки фона
Оценку статичного фона получают на основании анализа ряда
кадров видеопоследовательности, если видеокамера неподвижна,
а условия съемки в течение некоторого времени остаются неизменными. В общем случае фон лишь квазистатичный, поскольку распределение яркости в нем непрерывно изменяется из-за движения,
появления или исчезновения объектов, смены освещенности и погодных условий (дождь, снег). Наконец, в видеосигнале всегда присутствуют шумы. В силу указанных причин для оценки фона чаще
всего применяют фильтр Калмана, который адаптивно предсказывает текущую оценку фона на основании предыдущих наблюдений
и вновь полученных данных [130]. Это позволяет как устранять изображения движущихся объектов, так и обновлять фон с заданной
постоянной времени. В ряде случаев практического применения яркость пикселей фона с достаточной точностью описывают авторегрессионной (АР) моделью первого порядка
L(t) = a(t)L(t -1) + n(t),
где L(t) – яркость пикселя; t – номер кадра; a(t) – параметр АР модели; n(t) – нормальный случайный процесс с нулевым средним.
В общем случае параметр модели и дисперсия случайного процесса зависят от времени, т.е. изменения яркости пикселя фона могут рассматриваться как нестационарный нормальный процесс.
106
Для оценки параметров данного процесса применяют известные
методы математической статистики. Случайная составляющая n(t)
может быть вызвана не только шумами и помехами (в этом случае
ее дисперсия примерно одинакова для всех пикселей), но и другими
процессами, имеющими локальный характер (например, волнение
на водной поверхности, колебания фрагментов фона и т.п.) [86].
С целью минимизации вычислительных затрат, а также для экономии памяти ЭВМ, оценки среднего значения и дисперсии яркости
пикселей фона производят по формулам
Ù
Ù
Ù
æ
ö
Li,j (t + 1) = Li,j (t) + a1 (t + 1)çççLi,j (t + 1) - Li,j (t)÷÷÷
÷ø
çè
,
2
ææ
ö÷
_
ö
ç
Di,j (t + 1) = Di,j (t) + a2 (t + 1)ççççççLi,j (t + 1) - Li,j (t)÷÷÷ - Di,j (t)÷÷÷,
÷
÷ø
ç
èççè
ø÷
tö
æ
- ÷
ç
a(t + 1) = maxèçça0 , e T ø÷÷,
Ù
где Li,j – усредненное изображение фона (битовая матрица); Di,j –
матрица дисперсий яркости пикселей фона; t – номер кадра;
Li,j(t + 1) – входной сигнал; a – параметр, определяющий скорость
адаптации модели (скорости адаптации для оценок среднего значения и дисперсии яркостей пикселей различны – a1 и a2); i, j – координаты пикселя в кадре.
Использование переменной скорости адаптации позволяет сократить время настройки модели. Важным параметром алгоритма является величина a0, определяющая постоянную времени процесса
адаптации модели. При слишком большом значении a0 происходит
нежелательная адаптация модели фона к появившемуся объекту,
при слишком малом – модель не адаптируется при смене освещенности. В реальных условиях быстрые изменения яркости пикселей
фона могут происходить в результате работы автоматики телевизионных камер (в частности, системы АРД). Известно, что постоянная
времени фильтра τ и коэффициент a связаны соотношением
-1
a = 1- e
τ fä
,
где fд – частота дискретизации наблюдаемого процесса (частота кадров).
Обычно система АРД работает с постоянной времени около 0,5 с.
Тогда значение a ≈ 0,1.
107
Затем вычисляют условную плотность вероятности принадлежности пикселей текущего кадра к фону
æ Ù ö2
-ççL-L÷÷÷ / D
çè
ø÷
p( I ô) = e
.
Классификацию пикселей по принадлежности к фону осуществляют по превышению логарифмом ln p(Iф) заданного порога (использование логарифма позволяет сократить вычислительные затраты). Величина порога определяет вероятности правильного и
ложного выделения пикселей объекта из фона. В ходе оценки фона
движущиеся объекты постепенно как бы растворяются, и через 10–
12 с практически полностью исчезают (рис. 2.35) [129].
После завершения оценивания фона производят классификацию
пикселей сцены по принадлежности к объектам. Пиксели, вероятность принадлежности к фону которых ниже порога, относят к объектам. Результатом бинарной классификации являются маски объектов (рис. 2.36).
Рис. 2.35. Этапы оценивания фона
(результаты работы фильтра с растущей памятью)
108
Рис. 2.36. Результат бинарной классификации
Наложение маски на исходный кадр позволяет выделить движущиеся объекты, суммарная площадь которых существенно меньше площади кадра. Процедура выделения объектов из сцены после
вычитания оценки фона более эффективна, чем в случае вычисления межкадровой разности. Это утверждение подтверждают гистограммы распределений значений яркости в межкадровой разности
и препарате (рис. 2.37, 2.38), полученном после вычитания оценки фона. Среднеквадратические отклонения равны соответственно
12,36 и 16,15.
Рис. 2.37. Распределение вероятностей значений
межкадровой разности соседних кадров
109
Рис. 2.38. Распределение вероятностей значений разности кадра и
оценки фона
ВЧ кадра
КАДР
ФОН
Порог
ВЧ фона
Порог
ИЛИ
Подавление шума
Рис. 2.39. Обнаружение объектов на основе информации
о движущихся областях и движущихся контурах
110
При применении метода вычитания оценки фона из текущего
кадра возникает проблема раздробленности частей объектов. Для
решения этой проблемы модифицируют выделенные области на основе допущений о связности фрагментов внутри изображения объекта («движущихся областей») и непрерывности его границ («движущихся контуров»). Из текущего кадра и оценки фона создают
препараты «движущихся областей» и «движущихся контуров», содержащие высокочастотные составляющие этих изображений. Этапы дальнейшей обработки показаны на рис. 2.39. После объедине-
Рис. 2.40. Демонстрация работы этапов выделения визуальных объектов
(интенсивность высокочастотных компонентов кадра и фона увеличена
в 11 раз в демонстрационных целях)
111
ния препаратов с помощью логической операции «ИЛИ» следует
этап постобработки, на котором повышают связность частей объектов и понижают уровень шума с помощью фильтров на основе порядковой статистики.
Результирующее бинарное изображение (рис. 2.40) представляет
собой динамическую составляющую сцены в текущем кадре – движущиеся объекты и тени [88].
2.3.3. Выделение объектов на основе векторов движения
Объект интереса двигается в трехмерном (3D) пространстве и
его положение в общем случае характеризуется шестью координатами (x, y, z, α, β, γ), где (x, y, z) – координаты центра масс, α,
β, γ – углы азимута, тангажа и крена, соответственно. Если принять, что объект составлен из кубов единичного объема (вокселей),
то представляют интерес координаты центров этих кубов (x, y, z).
Определить значения векторов скорости перемещения v = (vx, vy,
vz) этих кубов можно только при использовании двух и более видеокамер. В последовательности кадров одной видеокамеры видимое
движение порождено изменениями яркости пикселей кадра t + 1
по отношению к кадру t. Видимое движение не является эквивалентом реального 3D движения и представлено лишь его двумерной (2D) проекцией. Перемещение этой проекции обуславливает
изменения яркости пикселей. Дополнительно изменения яркости
будут происходить даже в статичной сцене при изменении освещенности. Таким образом, видимое движение включает в себя 2D
движение объектов интереса и фона, изменения освещенности и
шумы.
Видимое движение разделяют на глобальное и локальное. Если
камера расположена на подвижной платформе или поворотном столе, то будет происходить как движение фона, так и движение объектов интереса. Этот вид движения называется глобальным. При статичной камере имеет место только движение объектов интереса –
локальное движение.
По характеру движения объекта интереса выделяют жесткое
и нежесткое движение. Жесткое движение предполагает отсутствие какого-либо дополнительного движения элементов объекта, не согласующегося с основным. В противном случае движение
называют нежестким. Жесткое движение присуще искусственно
созданным объектам интереса: автомобилям, летательным аппаратам, судам. Нежестким движением обладает, например, идущий человек.
112
Традиционно признак движения оценивается с помощью абсолютной межкадровой разности телевизионных сигналов (энергии
движения):
Eij = L(xj , yi ,t) - L(xj , yi ,t -1) ,
z
b
E = åå L(xj , yi ,t) - L(xj , yi ,t -1) ,
i=1 j=1
где L(xi, yj, t) L(xi, yj, t–1) – яркости элемента (пикселя) с координатами (xi, yj) в кадрах t и t–1, соответственно; z – число активных строк
в кадре, b – число элементов по строке.
Полученная интегральная оценка E несет информацию обо всех
изменениях, которые произошли в кадре. Ее анализ и введение порогового ограничения позволяет реализовать, например, детектор
движения. В случае вычисления абсолютной межкадровой разности для каждого элемента (пикселя), пространственно связанные
области точек, где полученная мера Eij превышает некий порог, являются посылкой для сегментации объектов.
Абсолютная межкадровая разность – это скалярная оценка. C ее
помощью невозможно разделить изображения объектов, находящиеся в непосредственной близости друг к другу, а также разрешить
ситуацию их перекрытия (окклюзию объектов). Существенную
проблему вызывает присутствие в кадре глобального движения, если наблюдение ведется камерой, установленной на поворотном столе или подвижном носителе [53].
Альтернативным способом оценки движения является анализ
векторов движения. После проецирования на плоскость кадра реальное трехмерное движение объектов отображается двумерным
движением, которое может быть оценено дискретными смещениями фрагментов изображения – полем оптического потока или полем
векторов движения [54].
Наличие информации о направлении и величине смещения позволяет решить большое число разнородных прикладных задач:
– сегментировать объекты на сложном фоне, находящиеся в непосредственной близости друг к другу [55, 56];
– разрешить ситуации окклюзии при сопровождении путем выявления объекта, находящегося на переднем плане;
– построить модель движения по совокупности векторов (на основе информации, полученной в одном кадре);
– описать движение маневрирующего объекта с помощью четырех- или шестипараметрической модели; определить скорость движения по изображению (видимую скорость движения) [57].
113
Построение поля векторов движения
Векторы движения (векторы оптического потока) были применены в стандартах видеокомпрессии MPEG. Перенос векторов движения из области видеокомпрессии в область обработки видеосигналов для прикладных телевизионных систем изменяет характер задачи, решаемой при их определении. При компрессии главным является определение значения минимума целевой функции. В этом
случае вектор движения определяет два фрагмента (блока) изображений кадра t и t + 1, обладающих максимальной степенью подобия. В прикладных задачах необходимо найти положение точки
минимума и значения новых координат блока. Вектор движения
показывает смещение фрагмента изображения в кадре t + 1 относительно кадра t. Указанное положение позволяет ввести понятие
«аномальный вектор» – вектор, не отражающий реальное смещение
фрагмента изображения.
Для определения векторов движения основным является уравнение оптического потока, полученное на основе допущения о постоянстве яркости L(x,y,t) точки (пикселя) при движении
d
L(x, y,t) = 0.
dt
Так как x = f(t) и y = f(t), вычисления нужно проводить по формуле сложной производной
d
dL dx dL dy dL
dL
L(x, y,t) =
×
+
×
+
= ÑL, v +
= 0, dt
dx dt dy dt dt
dt
(2.65)
где L(x,y,t) – яркость пикселя с координатами x и y в момент
времени t; 〈…〉 обозначает скалярное произведение векторов, а
æ dL dL öÒ
ÑL = ççç , ÷÷÷ – вектор-градиент; v = [vx, vy]Т – вектор скорости
è dx dy ø÷
(оптического потока).
Вместо производных по времени и пространству, входящих в
уравнение (2.65), используют их целочисленные приближения
dL / dx » ∆L / ∆x; dL / dy » ∆L / ∆y; dL / dt » ∆L / ∆t
и вычисляют приращения яркости в соседних пикселях по вертикали и горизонтали (рис. 2.41), а также в соседнем кадре, т.е.
приравнивают Δx и Δy одному пикселю, а Δt – одному кадру (см.
рис. 2.41).
114
Анализ уравнения оптического
L(x)
δx
потока (1.4) показывает следующее.
∆Lx
1. Уравнение оптического пото∆Lt
ка является недоопределенным и
позволяет найти только сонаправленную с яркостным вектором-гра∆x
диентом компоненту векторов оптического потока. Ортогональная с яркостным вектором-градиентом комx
–6 –4 –2 0 2 4 6
понента может принимать любые
значения, не изменяя скалярного
Рис. 2.41. К расчету вектора
произведения, и поэтому не может
движения
быть определена однозначно.
Для полной оценки векторов оптического потока необходимо
ввести дополнительное требование гладкости – близости скоростей
у группы соседних пикселей. Принятие решения о размере такой
группы называют проблемой апертуры (маски).
2. Однозначное определение векторов оптического потока возможно только в случае, если компоненты яркостного вектора граæ dL dL öÒ
диента ÑL = çç , ÷÷÷ отличны от нуля, т.е. имеют место изменеèç dx dy ø÷
ния яркости по горизонтали и вертикали. В случае гладкой поверхности достоверную оценку векторов найти нельзя.
3. Уравнение (2.65) получено из предположения о постоянной яркости при движении точки вдоль траектории. Подсветки, тени, блики, прозрачные и зеркальные поверхности реальных объектов нарушают это утверждение, что затрудняет вычисления и приводит к
ошибкам при определении векторов оптического потока.
При работе в сложных условиях наблюдения требования существования
пространственных
яркостных
производных
æ dL dL ÷öÒ
ÑL = çç , ÷÷ и постоянства яркости при движении точки (пикèç dx dy ø÷
селя) вдоль траектории часто нарушаются. Изображения объектов
интереса имеют низкую детальность. При видеонаблюдении на открытом воздухе часто возникают солнечные блики, тени и др. Перечисленные факторы обуславливают высокую вероятность появления аномальных векторов.
Тяжесть последствий от аномальных векторов движения в прикладных телевизионных системах значительна: разделение объектов интереса на части, снижение точности моделей движения, поте115
ря объекта при сопровождении и др. В задачах видеокомпрессии это
выражается только в уменьшении коэффициента сжатия.
В соответствии с этим для оценки эффективности методов и алгоритмов определения векторов движения в прикладных телевизионных системах целесообразно использовать критерий в виде уровня достоверности (доверия), под которым понимают отношение числа верно найденных векторов движения Qcor к общему числу найденных Q:
Kä =
Qcor
.
Q (2.66)
Дополнительная характеристика, которую следует учесть при
оценивании эффективности алгоритмов определения векторов движения – это точность локализации движения. Недоопределенность
основного уравнения оптического потока делает необходимым назначение одного вектора движения группе пикселей. Величина этой
группы одновременно определяет точность локализации движения
и минимальный размер объекта интереса (рис. 2.42).
Существует три основные группы методов нахождения векторов
движения: дифференциальные, корреляционные и фазовые.
Дифференциальные методы определяют векторы оптического
потока исходя из предположения, что изображение является непрерывным (дифференцируемым) в пространстве и во времени. Методы
этой группы делятся на глобальные и локальные, а также на методы первого и второго порядка на основании используемых производных [58, 59].
Глобальные методы используют основное уравнение оптического потока и добавляют к нему некую функцию ошибок [60–63]. Например, оптический поток определяют путем минимизации функционала
ò ((áÑL,Vñ+ Lt )
2
S
(
T
))
+ λ2 tr (ÑV ) (ÑV ) dr = min, (2.67)
где первое слагаемое – уравнение оптического потока (2.65), а второе – функция ошибок, учитывающая близость скоростей; λ – заранее заданная константа; tr(…) – след матрицы, равный сумме ее диæ d2 x d2 y ö÷
агональных элементов; ÑV = ççç 2 , 2 ÷÷÷ ; S – область изображения,
èç δt δt ø÷
для которой ищут минимум функции (2.67); r = (x, y)Т – вектор пространственных координат; Lt – производная яркости по времени.
116
Основное уравнение
оптического потока
Точность
локализации
движения
О граничения
Недоопределенное
уравнение
Проблема
апертуры
Требование
существования
пространственных
яркостных
производных
Требование
постоянства
яркости
точки при ее
движении вдоль
траектории
Минимальный
размер объекта
интереса
Проблема
появления
аномальных
векторов
Рассегментация
объекта
интереса
Потеря объекта
при сопровождении
Нарушение геометрического подобия при
синтезе изображения
объекта интереса
Снижение точности
оценки параметров
модели движения
Рис. 2.42. Структура ограничений оптического потока
и обусловленные ими проблемы
Локальные методы [3, 64] используют нормальную составляющую вектора движения, вычисленную для группы соседних пикселей методом наименьших квадратов (МНК). Минимизируют квадратичную функцию ошибки
2
å å(áÑL(x, y,t), vñ+ Lt (x, y,t))
= min.
x,yÎS
Для взвешенного метода наименьших квадратов
åå
2
[W(x, y)]( ÑL(x, y;t), v + Lt (x, y;t)) = min,
x,yÎS
где W(x,y) – диагональная весовая матрица, усиливающая влияние
центральных пикселей маски S при оценке векторов оптического
потока.
117
Элементы на диагонали матрицы w(x, y) = w(x)⊗w(y), где знак ⊗
означает кронекерово произведение (каждый с каждым). Например, при маске S (5 × 5) пикселей, принимают w(–2) = w(2) = 0,0625;
w(–l) = w(l) = 0,25; w(0) = 0,375, т.е. каждому из 25 пикселей изображения в окне присвоен весовой коэффициент.
Оценка векторов движения определяется соотношением
v = [AT WA]-1 AT Wb,
где
é L (x - 2, y - 2,t) Ly (x - 2, y - 2,t) ù
ê x
ú
ê Lx (x - 2, y -1,t) Ly (x - 2, y -1,t) ú
ê
ú
ê
ú
.
.
ê
ú
ú;
.
.
A = êê
ú
ê
ú
.
.
ê
ú
ê
ú
ê Lx (x + 2, y + 1,t) Ly (x + 2, y + 1,t) ú
ê
ú
êë Lx (x + 2, y + 2,t) Ly (x + 2, y + 2,t)úû
éw(-2,-2)
ê
ê
w(-2,-1)
ê
ê
.
ê
ê
W=ê
ê
ê
ê
ê
ê
êë
.
ù
ú
ú
ú
ú
ú
ú;
ú
ú
.
ú
ú
w(2,1)
ú
ú
w(2,2)úû
é Lt (x - 2, y - 2,t) ù
ê
ú
ê Lt (x - 2, y -1,t) ú
ê
ú
ê
ú
ê
ú
ê
ú.
b=ê
ú
ê
ú
ê
ú
ê
ú
ê Lt (x + 2, y + 1,t) ú
ê
ú
ëê Lt (x + 2, y + 2,t)ûú
К достоинствам дифференциальных методов следует отнести возможность получения непрерывной оценки векторов движения. Это
особенно важно при оценке медленного движения, при котором вели118
2 d + N+ 1
чина векторов оптического потока может быть меньше одного пикселя. К недостаткам – существенную зависимость достоверности оценки оптического потока от уровня шумов и степени выраженности эффекта алиайсинга, которые определяют точность вычисления пространственно-временных производных. Для повышения точности
вычисления последних часто используется предварительная фильтрация изображения пространственно-временным фильтром Гаусса.
Корреляционные методы определяют векторы оптического потока на основе смещений, при которых достигается максимальное соответствие фрагментов изображения текущего и предыдущего кадров [65, 66]. Определение наилучшего соответствия выполняется
путем поиска максимума корреляционной функции.
Наиболее часто используют метод сопоставления блоков, принятый в стандартах видеокодирования MPEG 1–2 [67, 68] и H.
261/262/263 [68, 69].
Метод состоит из следующих основных шагов:
– текущий кадр делится на неперекрывающиеся квадратные
блоки размером M × N пикселей;
– для каждого блока формируется область поиска в предыдущем
кадре, которая имеет размер (2d + M + 1) × (2d + N + 1) пикселей,
где d – это максимально возможное смещение в горизонтальном и
вертикальном направлениях (рис. 2.43);
– выполняется совмещение блоков текущего кадра с блоками
предыдущего кадра видеопоследовательности; определяется, какому блоку в области поиска текущий блок лучше всего соответствует,
и оценивается величина смещения
положения блока в текущем кадре
2d+M+1
относительно предыдущего – векОкно поиска
тор движения.
в предыдущем
Вектор кадре
Считается, что все пиксели блодвижения
ка претерпевают одинаковое переM
мещение и им приписывается один
и тот же вектор движения.
d
N
Задача определения векторов
Блок в
движения в этом случае решаеттекущем
ся путем минимизации целевой
кадре
d
функции, характеризующей степень соответствия (совпадения)
двух блоков, на множестве различных положений обрабатываемого
Рис. 2.43. Совмещение блоков
блока в области поиска.
119
Существует несколько вариантов формирования целевой функции, оценивающей степень соответствия между блоком текущего
кадра и блоком предыдущего кадра:
1) средняя абсолютная разность (MAD):
MAD(vx ,vy ) =
N-1 N-1
1
N2
åå
i=0 j=0
Lc (xk + i, yl + j) - L p (xk + vx + i, yl + vy + j) ,
где Lc(…) и Lp(…) – яркости пикселя в текущем и предыдущем кадре
соответственно; (xk, yl) – координаты пикселя левого верхнего угла
текущего блока; N·N – размер блока; (vx, vy) – один из возможных
векторов движения;
2) среднеквадратическая ошибка (MSE):
MSE(vx ,vy ) =
1
N2
2
N-1 N-1
å å (Lc (xk + i, yl + j) - Lp (xk + vx + i,yl + vy + j)) ;
i=0 j=0
3) нормированная функция взаимной корреляции (NCCF):
N-1 N-1
å å Lc (xk + i, yl + j) × Lp (xk + vx + i, yl + vy + j)
NCCF (vx ,vy ) =
i=0 j=0
N-1 N-1
N-1 N-1
i=0 j=0
i=0 j=0
;
å å L2c (xk + i, yl + j) å å L2p (xk + vx + i, yl + vy + j)
4) максимальное число соответствующих пикселей (MPC):
MPC(vx ,vy ) =
N-1 N-1
å å T(xk + i,yl + j,vx ,vy ),
i=0 j=0
T (xk+i , yl+ j ,vx ,vy ) = 1,
åñëè êê Lc (xk+i , yl+ j ) - L p (xk+i + vx , yl+ j + vy )úú < Th,
ë
û
èíà÷å T (xk+i , yl+ j ,vx ,vy ) = 0,
где Th – предопределенный порог.
В отличие от предыдущих критериев блок наилучшего соответствия, найденный с использованием MPC, тот, который дает самое
большое значение целевой функции. Обычно в качестве целевой
функции используется MAD, так как она дает характеристику, близкую к характеристике MSE, но не требует операций умножения.
Самым простым и надежным алгоритмом, позволяющим выполнить совмещение блоков, является полный перебор FS (full search),
120
Алгоритмы поиска векторов движения
в методе совмещения блоков
Алгоритм полного
перебора
Алгоритмы,
уменьшающие
число контрольных точек
в зоне поиска
Алгоритмы, уменьшающие
число вычислений
при подсчете
целевой функции
Алгоритм
остановки
на «полпути»
Алгоритмы,
предполагающие монотонный
характер целевой функции
Алгоритмы,
учитывающие
скорость
оцениваемого
движения движения
Блочный
градиентный
поиск
Новый поиск
тремя
итерациями
Поиск четырьмя
итерациями
Алгоритмы,
предсказывающие
начальное приближение
Алгоритм
остановки
на «полпути»
с нормировкой
Поиск тремя
итерациями
Алгоритм
с предсказанием
Ортогональный
поиск
Иерархический поиск
Поперечный поиск
Логарифмический
поиск
Поиск по квадрантам
Гибридные
алгоритмы
Рис. 2.44. Классификация алгоритмов поиска векторов движения
(метод совмещения блоков)
но из-за большого объема проводимых вычислений он обладает низкой скоростью.
Разработано значительное число алгоритмов, которые направлены на оптимизацию стратегии поиска минимума. Эти алгоритмы
можно разделить на два класса (рис. 2.44):
121
– алгоритмы, уменьшающие число вычислений при определении целевой функции;
– алгоритмы, уменьшающие число контрольных точек в области
поиска.
К первому классу относятся алгоритм неполного определения
целевой функции, алгоритм остановки на полпути (PDS) [70] и алгоритм остановки на полпути c нормировкой (NPDS) [71].
В рамках второго класса можно выделить три группы:
– алгоритмы, формирующие расположение контрольных точек
и базирующиеся на свойстве унимодальности целевой функции: поиск тремя итерациями [72], логарифмический [73], ортогональный
и поперечный поиски [74], поиск по квадрантам [75];
– алгоритмы, одновременно учитывающие унимодальность минимизируемой функции и скорость оцениваемого движения. К этой
группе относятся алгоритмы двух видов, ориентированные на работу с видеопоследовательностями, в которых преобладает медленное движение: блочный градиентный поиск [76], новый трехшаговый алгоритм [77], четырехшаговый алгоритм [78] и гибридные алгоритмы [79], производящие предсказание характера оцениваемого
движения (быстрое/медленное) и далее использующие наиболее эффективный для данного вида движения алгоритм;
– алгоритмы, предсказывающие начальное приближение: алгоритмы с предсказанием и иерархический поиск[80].
Анализ существующих методов и алгоритмов в соответствии с
критерием (2.66) показывает, что даже при использовании корреляционных методов (наиболее робастных по данным литературы)
и применении для поиска лучшего соответствия алгоритмов, основанных на предположении об унимодальности целевой функции,
Таблица 2.2
Средний уровень достоверности различных алгоритмов
Название алгоритма
Алгоритм на основе регрессионной модели
Полный перебор
Поиск тремя итерациями
Ортогональный поиск
Поиск четырьмя итерациями
Новый поиск четырьмя итерациями
Логарифмический поиск
Блочный градиентный поиск
122
Уровень достоверности
0,24
0,58
0,28
0,14
0,23
0,25
0,32
0,12
0,7
Уровень достоверности
0,6
0,5
0,4
0,3
0,2
0,1
0
1
Вид алгоритма
Алгоритм на основе рег. модели
Полный перебор
Поиск тремя итерациями
Ортогональный поиск
Поиск четырьмя итерациями
Новый поиск четырьмя итерациями
Логорифмический поиск
Блочный градиентный поиск
Рис. 2.45. Средний уровень достоверности различных алгоритмов
например, 3SS, 4SS [72–78], уровень достоверности составляет 0,3,
а при использовании алгоритма полного перебора – 0,6 (рис. 2.45
и табл. 2.2). Результаты получены для видеоданных с отношением
сигнал/шум от 35 до 40 дБ и с характерными для систем сегментации и сопровождения сюжетами (см. Приложение).
Это говорит об ограниченной возможности применения в прикладных телевизионных системах существующих методов определения векторов движения и необходимости дополнительных мер по
снижению числа аномальных векторов.
Априорная оценка достоверности векторов движения.
Трехкомпонентные векторы движения
Повышение эффективности применения векторов в прикладных
телевизионных системах может быть достигнуто заменой двухком123
(
T
)
x y
a
понентного вектора движения – трехкомпонентным: vkl
,
,vkl , pkl
где pkl – вероятность корректного определения вектора движения
x y
(оценка достоверности): vkl
,vkl – составляющие по направлениям
x и y вектора движения для блока с номерами k – по горизонтали и
l – по вертикали.
Для видеоданных с отношением сигнал/шум более 30 дБ
pkl = Pca_ v (k, l) , где Pca_ v (k, l) – априорная оценка достоверности
вектора движения. Для видеоданных с отношением сигнал/шум от
ap
30 до 20 дБ pkl = Pcap
_ v (k, l) , где Pc _ v (k, l) – апостериорная оценка
достоверности.
Основой для определения априорной оценки достоверности
Pca_ v (k, l) является функция достоверности – зависимость верного
определения вектора движения от уровня детальности изображения в блоке
M N
D (k, l) = åå Λ(xk + i, yl + j),
j=1 i=1
где Λ(x, y) – яркость пикселя в препарате, полученном из исходного изображения L(x, y) в результате, например, пространственного дифференцирования или многомасштабного морфологического дифференцирования; xk, yl – координаты левого верхнего угла
фрагмента (блока) изображения; k,l – номер блока по горизонтали
и вертикали; N, M – число пикселей по горизонтали и вертикали во
фрагменте.
В корреляционных методах задачу определения векторов движения решают путем нахождения минимума целевой функции, характеризующей степень соответствия (совпадения) двух блоков, на
множестве различных положений обрабатываемого блока в области
поиска. Вид целевой функции существенно зависит от уровня детальности изображения в блоке. При высоких оценках D(k,l) уровня
детальности целевая функция унимодальная с ярко выраженным
глобальным минимумом. При низких оценках уровня детальности
целевая функция существенно мультимодальная и/или имеет характер «оврага» вблизи глобального минимума. Наиболее характерные рельефы, а также соответствующие им оценки детальности
приведены в табл. 2.3. Кадры взятых тестовых видеопоследовательностьей (ТВП) и их характеристики приведены в Приложении.
Полученный вид целевых функций объясняет низкую достоверность различных алгоритмов оценки векторов оптического потока,
приведенную в предыдущем параграфе. У блоков с низким уровнем
124
125
Таблица 2.3
1546
D(k,l)
Унимодальная функция с
ярко выраженным глобальным минимумом
Блок объекта
(ТВП1)
Унимодальная целевая функция
с большим плоским участком в
области минимума («овраг»)
276
Блок фона
(ТВП2)
Существенно мультимодальная
целевая функция с плохо выраженным глобальным минимумом
181
Блок фона
(ТВП1)
Характерные рельефы и соответствующие им описания изображений и оценки детальности
Описание
блока
Рельеф
Характер Линии равного уровня
функции
детальности – функция мультимодальная. Соответственно применение алгоритмов, основанных на предположении об унимодальном характере (3SS, 4SS, BBGDS, ORT, 2DLOG и др.), приведет к
ошибке при определении вектора движения. Использование полного перебора повышает достоверность (корректно решается задача поиска минимума мультимодальной функции), но не устраняет
проблему существенных плоскостных участков. В случае плоскостного участка в качестве оценки вектора движения может быть принято любое значение из области поиска.
Из полученных данных следует важный вывод – оценка уровня
детальности блока однозначно определяет характер рельефа целевой функции и позволяет априорно оценить вероятность корректного нахождения вектора движения
Pc _ v (k, l) = f ( D(k, l)).
Для описания функциональной зависимости между свойствами
изображения в блоке и вероятностью корректного определения вектора движения вводится модифицированная оценка уровня детальности
DM (k, l) = D (k, l) / Dmin ,
где Dmin – минимальный уровень детальности, обусловленной шумами, в блоке.
Dmin = moda {D (k, l)} k = 1...KK, l = 1...LL,
где KK × LL – число блоков в изображении.
Корректность вектора движения будем оценивать по норме L2
Ε (k, l) =
(
2
2
(vx0 - vxb ) + (vy0 - vyb ) ,
)
где vx0 ,vy0 – истинный вектор оптического потока блока (k, l);
(
vxb ,vyb
)
– найденный вектор оптического потока блока (k, l).
Анализ вида функций DM(k, l) и E(k, l), полученных в результате эксперимента для тестовых видеопоследовательностей, показывает, что между ними существует взаимосвязь. Глобальные и значимые по амплитуде локальные максимумы модифицированной
оценки детальности DM(k, l) соответствуют минимальным ошибкам
(нулевые уровни – отсутствию ошибки) определения векторов оптического потока E(k, l) (рис. 2.46). На остальных участках, соответствующих низким уровням детальности, кривые ошибок имеют
126
уровень детальности; ошибка
16
14
12
10
8
6
4
2
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51
номер блока
Уровень детальности
Величина ошибки
Рис. 2.46. Гистограммы модифицированной оценки детальности и
ошибки определения векторов
отличную от кривых детальности форму. Это закономерно, что абсолютная величина ошибки определения вектора не связана с уровнем детальности блока. При низкой детальности высока вероятность возникновения ошибки, но величина этой ошибки от уровня
детальности не зависит.
Для определения аналитического вида зависимости Pc_v(k, l) были построены гистограммы вероятности корректного определения
вектора движения от модифицированной оценки уровня детальности DM(k, l).
Анализ полученных данных позволил предложить для описания Pc_v(k, l) математическую модель вида
Pc _ v (k, l) = 1 - exp éê-ηD2Ì (k, l)ùú ,
ë
û (2.68)
где η – параметр модели.
Проверка адекватности модели была выполнена по критерию
Фишера. Гистограммы, полученные для тестовых последовательностей (см. Приложение), и теоретические кривые приведены в
табл. 2.4.
Полученная функция достоверности дает возможность заменить двухкомпонентные вектора движения на трехкомпонентные:
T
(vklx ,vkly , pkl )
, где pkl рассчитывается согласно выражению (2.68).
Представление изображения в виде поля векторов движения с учетом их достоверности позволяет на дальнейших этапах обработки
реализовать эффективные алгоритмы выделения и оценки параметров движения объектов интереса.
127
Таблица 2.4
Экспериментальные и теоретические зависимости плотности вероятности корректного определения вектора движения
Видеопоследовательность
Экспериментальная (
) и теоретическая (
)
Pc _ v (k, l) = 1 - exp éê-ηD4 Ì (k, l)ùú зависимости плотности вероятности
ë
û
корректного определения вектора движения
ТВП2
Pc_v
1
Pc_v
1
Pc_v
1
0
0
1
Pc_v
0
1 0
ТВП3
Pc_v
0
0
1
Pc_v
1
0
0
0
ТВП4
3
5 DM
4
1
2
3
4
5 DM
1
2
3
4
5 DM
1
2
3
5 DM
4
Pc_v
1
0
0
Pc_v
0
1 0
Pc_v
1
0
0
128
2
0
1
2
3
4
5 DM
1
2
3
4
5 DM
1
2
3
5 DM
4
0
1
2
3
4
5 DM
0
1
2
3
4
5 DM
Кроме того, априорная оценка достоверности обеспечивает исключение из рассмотрения блоков, в которых вероятность верного
нахождения вектора движения низка. Уровень достоверности найденного вектора достигает 0,95, если у блока DM(k, l) ≥ 1,8. Исключение остальных блоков резко снижает вычислительную емкость
задачи. Для типичных в системах сегментации и сопровождения
последовательностей (с умеренно текстурированным фоном и средним по размерам объектом интереса) из рассмотрения исключается
90% блоков.
Метод определения векторов движения
с учетом априорной оценки их достоверности и значимости
Пусть компоненты яркостного вектора-градиента ∇L отличны от
0, а правая часть уравнения оптического потока 〈∇L, v〉 = –Lt равна
dL
нулю: Lt =
= 0.
dt
В этом случае вектор движения v также равен нулю. Существование ненулевого (значимого) вектора движения возможно только
при условии отличия от нуля яркостной производной по времени.
Определение векторов движения для всех блоков кадра или области поиска является избыточным. Если в блоке кадра t нет значимых изменений относительно кадра t–1, то с большой вероятностью
вектор движения равен нулю. Искать векторы движения целесообразно только в тех блоках, где произошли какие-либо изменения.
Модифицированная оценка этих изменений может быть получена на основе модуля межкадровой разности (энергии движения) в
блоке MADM(k,l) = MAD(k,l)/MADmin. В это выражение входит собственно энергия движения в блоке
N M
MAD (k, l) = åå L(xk + j, yl + i,t) - L(xk + j, yl + i,t -1) ,
j=1 i=1
где L(x,y,t) – яркость пикселя в текущем t и предыдущем t–1 кадрах, и оценка межкадровой разности блока, обусловленная присутствием шумов,
MADmin = moda {MAD (k, l)} k = 1...KK, l = 1...LL,
где k,l – координаты блока (k = 1…KK, l = 1…LL); KK,LL – общее
число блоков в кадре (зоне поиска) по горизонтали и вертикали.
Приведенные поверхности оценок модифицированного уровня энергии движения для всех блоков кадра наглядно иллюстрируют одно129
130
а
ок и
бл кал
р
е ти
ом ер
1 3 5 7 9 111315 17 19 2123252729 н по в
Номер блока по горизонтали
1
0,8
0,6
0,4
0,2
0
-0,2
-0,4
1
Исходные кадры
DM
1
0,8
0,6
0,4
0,2
0
1
а
ок л и
бл ка
р
и
ме рт
7 13 19 25 31 37 43 4952 но о ве
Номер блока по горизонтали п
а
ок и
бл кал
0,2
р
и
ме рт
0
но ве
1 5 9 13 17 21 25 29 33 37 4145 49 53 по
Номер блока по горизонтали
0,4
0,8
0,6
DM
1
DM
1
0,8
0,6
а
0,4
ок и
бл кал
0,2
р
и
ме рт
но ве
0
1 3 5 7 9 11 13 15 17 1921 232527 29 по
Номер блока по горизонтали
Модифицированная оценка
уровня детальности в блоке
Рис. 2.47. Уровни детальности и значимости в блоках изображений
Движущийся
объект
Движущийся
объект
Движущийся
объект
Движущийся
объект
ка и
ло кал
б
ер ти
ом ер
7 13 19 25 31 37 43 4952 н о в
Номер блока по горизонтали п
ка
ло али
б
к
р и
ме рт
но е
1 5 9 13 1721 252933 374145 49 53 по в
Номер блока по горизонтали
MAD M
1
0,8
0,6
0,4
0,2
0
-0,2
MADM
1
0,8
0,6
0,4
0,2
0
-0,2
MAD M
Модифицированная оценка
уровня энергии движения
значное соответствие высоких уровней MADM движущимся объектам (рис. 2.47).
Для выявления аналитического вида функциональной зависимости вероятности существования значимого вектора Pz_v(k,l) от
модифицированной оценки уровня энергии движения MADM(k,l)
зависимости Pz_v(k,l) = f(MADM(k,l)) были построены экспериментальные гистограммы плотности вероятности существования значимого вектора движения от MADM(k,l). Примеры полученных гистограмм для заданных ТВП (см. Приложение) приведены в табл.
2.5. В гистограммах, приведенных в табл. 2.5 ось ординат – модифицированная оценка уровня энергии движения MADM, цена деления
0,2 (значение 5 соответствует интервалу, в котором 0,8 < MADM ≤ 1;
Таблица 2.5
Вероятность существования
значимого вектора движения
Зависимость плотности вероятности существования значимого
вектора движения от модифицированной оценки уровня энергии
движения MADM (k, l).
Вероятность существования
значимого вектора движения
ТВП5
ТВП4
ТВП
Экспериментальные зависимости плотности вероятности существования
ненулевого вектора движения
1,20
1,00
0,80
0,60
0,40
0,20
0,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Модифицированная оценка уровня энергии движения
1,20
1,00
0,80
0,60
0,40
0,20
0,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Модифицированная оценка уровня энергии движения
131
значение 10 соответствует интервалу, в котором 1,8 < MADM ≤ 2 и
т.д.).
По результатам экспериментальных исследований аналитически описана функция априорной оценки значимости вектора движения на основе модифицированной оценки межкадровой разности
Pz _ v (k, l) = 1 - exp éê-β × MAD2Ì (k, l)ùú ,
ë
û (2.69)
где β – параметр модели; MADM(k,l) – модифицированная оценка
абсолютной межкадровой разности в блоке (k,l).
Функция значимости (2.69) позволяет выделить блоки изображения, в которых высока вероятность ненулевого вектора. Функция достоверности (2.66) – блоки, у которых высока вероятность
корректного определения вектора движения. Для одновременного
снижения влияния аномальных векторов и уменьшения вычислительной емкости целесообразно искать вектора движения с высоким уровнем и достоверности и значимости.
Сформируем на множестве всех блоков изображения G два нечетких множества. Первое GDH – множество блоков с «высокой детальностью». В качестве функции принадлежности к этому блоку
будем использовать функцию достоверности (2.66) µGDH = Pc _ v .
Второе нечеткое множество GMH – блоки «с высоким уровнем абсолютной межкадровой разности» с функцией значимости (2.69) в качестве функции принадлежности µGMH = Pz _ v . Интересующая нас
совокупность блоков представляет пересечение этих двух множеств
GDH∩GMH – нечеткое множество GDMH.
Пересечение нечетких множеств выполняют в соответствии с
t-нормой: «вероятностное пересечение» – норма задана перемножением функций принадлежности
µDH * µMH
1,0
T (GDH , GMH ) = µGDH × µGMH
0,8
(рис. 2.48) [81, 82]. Векторы движения следует ис0,6
кать для блоков, принадле0,4
жащих a-сечению нечеткого
0,2
DM
множества GDMH. В резуль2,0
тате поиска им присваивает1,0
ся трехкомпонентный век2,0
MADM
тор движения (vxkl,vykl,pkl)T,
где значения pkl определены
Рис. 2.48. Функция принадлежности
функцией принадлежности
к множеству G
DMH
132
Старт
Определение для блоков кадра модифицированной оценки уровня детальности DM(k,l)
и уровня энергии движения
Формирование на универсальном множестве
нечетких множеств GDH и GDMH с функциями
принадлежности µG
= Pc _ v , µGMH = Pc _ v
DH
и их пересечения GDMH с функцией
принадлежности T (GDH , GMH ) = µGDH * µGMH
Нет
Блок принадлежит α-сечению
нечеткого множества GDMH?
Блок принадлежит α - сечению
нечеткого множества GDH
Нет
Да
Да
Определяют трехкомпонентный
вектор движения
(vxkl,vykl,pkl)T,
где значения pkl определены функцией принадлежности блоков
множеству GDH
Блоку присваивают
нулевой вектор движения
Блок исключают
из обработки
Стоп
Рис 2.49. Структурная схема метода определения векторов движения
с учетом априорных оценок их достоверности и значимости
133
Блоки, у которых высокая вероятность
нахождения верного вектора движения
Блоки, у которых высокая вероятность
нахождения верного вектора движения и
высокая вероятность существования ненулевого вектора движения
Рис. 2.50. Результат выделения блоков
по априорной оценке достоверности и значимости
блоков множеству GDH. Для блоков, принадлежащих α-сечению
только одного нечеткого множества GDH ( это блоки с высоким уровнем детальности, но низкой энергией движения) без выполнения
процедуры поиска присваивают нулевые векторы движения. Блоки
с низким уровнем детальности из анализа исключают. Структурная
схема предложенного метода определения векторов движения с учетом априорной оценки их достоверности и значимости приведена на
рис. 2.49.
Проиллюстрируем эффективность предлагаемого подхода. Метод позволяет найти поле векторов движения с заданным уровнем
достоверности, при этом для анализа оставляют в среднем 20% блоков изображения, сама процедура поиска выполняется для 5–7%
блоков (рис. 2.50). Предложенный метод определения векторов движения с учетом априорной оценки их достоверности и значимости
позволяет задавать необходимый уровень достоверности векторов
движения и снижает вычислительные затраты по определению поля векторов.
Метод дает возможность найти трехкомпонентные векторы движения. Третьей компонентой является вероятность правильного
определения вектора движения, имеющая самостоятельную ценность при дальнейшей обработке. Таким образом, существенно повышается эффективность использования векторов движения в системах видеонаблюдения, сегментации и сопровождения.
134
Субпиксельная оценка векторов движения и
апостериорная оценка их достоверности
Под субпиксельной оценкой вектора движения vk0 будем понимать определение его компонент (vx,vy) с точностью до n-го знака после запятой – расчет дробной части компонент вектора движения.
Эта оценка необходима для векторов, соответствующих медленно движущимся объектам, скорость которых не превышает одного
пикселя за кадр, или если скорость объекта в пересчете к плоскости
кадра не кратна целому числу пикселей.
В корреляционных методах смещение блока в зоне поиска при
определении вектора движения является дискретным с минимальным шагом в один пиксель. Значимый (ненулевой) вектор может
быть найден только тогда, когда смещение блока больше одного
пикселя. В противном случае величина вектора будет оценена как
нулевая. Отсутствие значимых векторов движения затрудняет сегментацию объектов по признаку движения, так как ее основой является сонаправленность значимых векторов.
Дискретная оценка не позволяет разделить объекты с близкими
скоростями. Реальные смещения (1,5, 0) и (1,9, 0) будут оценены одним значением 2 и рассмотрены как одинаковые. Погрешность измерения скорости объектов при формировании панорамного изображения приведет к сжатию или растяжению изображения объекта интереса. Необходимо заменить дискретную оценку непрерывной.
Для субпиксельной оценки векторов движения предложен метод,
основанный на многомасштабной межкадровой разности. Метод
предполагает использование для определения векторов движения N
кадров. Оценка вектора движения выполняется для (N–1) пары кадров: k-я пара включает в себя кадр t и кадр t–k, k = 1, .., N. Результатом является (N–1) оценка вектора движения v 0k , k = 1, ..., N -1
(рис. 2.51).
В найденной для каждого блока совокупности приведенных к
длине кадрового интервала векторов движения формируют кластеры по признаку близости векторов. Для дальнейшего анализа выбирают кластер с максимальной мощностью. Окончательную оценку
вектора движения получают как среднее значение векторов, образовавших кластер с максимальной мощностью. Точность субпиксельной оценки: составляет 0,07 пикселя [83]. Наличие совокупности
оценок вектора движения позволят определить его апостериорную
достоверность.
135
....
v1
v2
v4
Рис. 2.51. Субпиксельная оценка на основе многомасштабной
межкадровой разности
Примем за исходное предположение: чем больше мощность кластера, тем более высока достоверность найденного вектора движения. Введенное предположение позволяет получить оценку апостеap
риорной достоверности найденного вектора движения pkl
æ æC
ö2 ö÷
ç
ap
= 1 - expçç-ηçç max ÷÷÷ ÷÷÷,
pkl
ç
èçç è N -1ø ø÷
где Cmax – число векторов, вошедших в кластер с наибольшей мощностью; η – параметр.
Введенная апостериорная оценка имеет особую значимость при
анализе видеоданных с низким соотношением сигнал/шум (менее
30 дБ). Для обеспечения высокого уровня априорной достоверности из рассмотрения должно быть исключено большое число блоков изображения. Это резко снижает степень сегментации объекта
(уменьшается число блоков, соответствующих изображению объекта и разрешенных для дальнейшей обработки). В этом случае следует снизить уровень априорной достоверности и далее исключить
аномальные вектора фильтрацией по апостериорной оценке.
Пространственная фильтрация поля векторов движения
Введенные априорная и апостериорная оценки достоверности
векторов движения в значительной мере снижают, но не исключают полностью, вероятность появления аномальных векторов. Поэтому сначала полученное поле векторов движения целесообразно
обработать – выполнить пространственную или временную фильтрацию.
136
Вид кадра
Исходное поле векторов
Поле векторов
после фильтрации
Рис. 2.52. Медианная фильтрация полей векторов движения
Высокую эффективность обработки поля векторов в пределах одного кадра обеспечивает рекурсивная векторная медианная фильтрация (рис. 2.52).
Под векторной медианой множества векторов понимается такой
вектор из рассматриваемого множества, у которого сумма расстояний до всех других минимальна [84]. Расстояние между двумя векторами, u(xu, yu) и v(xv, yv) вычисляется на основе нормы L2:
u-v
l2
2
2
= (xu - xv ) + (yu - yv ) .
В применении к задаче удаления аномальных векторов под медианной фильтрацией понимается замена каждого вектора движения
векторной медианой множества, составленного из самого вектора
137
и восьми его ближайших соседей. При вычислении расстояний используются только ненулевые векторы, т.е. каждый ненулевой вектор превращается в векторную медиану, вычисленную с помощью
его восьми ненулевых соседей (см. рис. 2.52). Это делается для того, чтобы избежать замены ненулевых векторов на нулевые, когда в
этом соседстве доминируют нулевые векторы.
Полученные в результате экспериментального исследования
данные показали, что описанная выше процедура позволяет уменьшить число аномальных векторов в среднем на 30%.
Пространственная медианная фильтрация поля векторов движения позволяет повысить степень сегментации протяженных объектов интереса за счет устранения аномальных векторов движения и
вызванных ими «дырок» внутри сегментированного объекта. Однако объекты, которые по размерам меньше маски медианного фильтра, могут быть потеряны.
138
3. Сопровождение и измерение
параметров объектов
3.1. Формирование моделей видеообъектов
3.1.1. Модели в виде эталонного массива
Элементы сцены, отличающиеся по ряду признаков от фона, объединяют на основании общности этих признаков в объекты интереса. В результате подобной декомпозиции вводят модели объектов, в
той или иной мере отражающие их структурные и иные особенности. Видеообъекты – это объекты интереса, наблюдаемые и обрабатываемые в последовательности видеокадров.
Наиболее полным описанием объекта, доступным при видеонаблюдении, является эталонный массив, сформированный по стробу,
накинутому вручную оператором. В ряде случаев строб может быть
получен автоматически (см. п. 2.2). Все изображение внутри строба,
включающее как объект, так и элементы фона, рассматривают как
модель объекта. В последующих кадрах видеоряда модель объекта
сравнивают с вновь полученным изображением, находят новое положение объекта и осуществляют его сопровождение корреляционно-экстремальным методом.
Так сформированная модель, с одной стороны, избыточна, что
влечет за собой дополнительные вычислительные затраты; с другой
стороны, может явиться причиной срыва сопровождения, так как
результаты сравнения излишне критичны к условиям наблюдения.
Сопоставление модели с реальным изображением является емкой в
вычислительном смысле задачей. Изображения натурных объектов
изменяются в зависимости от положения источников освещения,
ракурса наблюдения, параметров видеоаппаратуры. Например, в
течение светового дня из-за перемещения солнца один и тот же объект может иметь различную среднюю яркостью, различную картину полутонов и теней. В общем случае неизвестной является также
ориентация объекта по отношению к общей системе координат, поэтому невозможно обойтись единственным эталонным изображением, адаптированным к условиям наблюдения: изображение эталона
нужно менять в зависимости от освещения, ориентации объекта и
расстояния до него.
Для обеспечения устойчивого сопровождения на сложном фоне
используют предварительную обработку изображения в эталонном
массиве. Ее цель максимально снизить влияние фона на формируе139
мый эталон. Основными шагами предварительной обработки являются:
– пространственное дифференцирование для выделения горизонтальных и вертикальных контуров с последующим суммированием
модулей величин горизонтального и вертикального градиентов;
– бинаризация полученного контурного препарата;
– обработка бинарного контурного препарата морфологическим
фильтром «наращивание».
Использование морфологической фильтрации позволяет расширить сформированные контуры объекта и учесть в определенной мере возможные изменения его формы. Исходное изображение также
препарируют – сводят его до уровня сформированной модели.
Для обеспечения сопровождения при низких соотношениях сигнал/шум формирование эталона выполняют по динамически накопленному сигналу изображения [87]. Действительно, при движении
объекта интереса элементы фона в стробе изменяются существенно
быстрее, чем сам объект. При накоплении фон в стробе ослабляется, а объект – подчеркивается. В ходе сопровождения объект видоизменяется: меняет ракурс, увеличивается или уменьшается в размерах. По этой причине ранее сформированная модель нуждается в
периодическом обновлении (рис. 3.1).
100%
120%
Рис. 3.1. Модификация модели в виде эталонного массива
при приближении объекта
140
140%
Пусть задана модель (эталон) Lэ(x, y) в окне Wэ. В качестве средства поиска положения окна W0, содержащего изображение L(x, y),
соответствующее эталону, применяют функцию взаимной корреляции эталонного и текущего массивов. В качестве оценки функции
взаимной корреляции обычно используют сумму модулей разностей отсчетов яркости изображения текущего кадра и эталонного
массива MAD(x, y), которая в точке наилучшего совмещения W0 и
Wэ приобретает минимум.
В каждом кадре производят управление процессом динамического накопления в соответствии с качеством выполненной согласованной фильтрации. Традиционно при корреляционной обработке используют меру качества в виде отношения пикового значения
корреляционной функции к ее боковым значениям (PSR – peak to
side lobe ratio):
PSR = (Rmax - µ) / σ, где Rmax – максимальное значение корреляционной функции; m –
локальное среднее корреляционной функции; s – локальное среднеквадратическое отклонение корреляционной функции.
Значение меры качества PSR существенно зависит от геометрических свойств объекта и характеристик фона. Это затрудняет выработку единого порога для всего периода сопровождения.
Предложено использовать при согласованной фильтрации меру
качества в виде s = min(sx, sy), которая учитывает остроту рельефа в
области минимумов в корреляционных поверхностях текущего кадра {r(x, y)} и кадра эталонного массива rэ(x, y):
(min(r (x0 - ∆x, y0 ),r (x0 + ∆x, y0 )) - rmin )rý max
;
(min(rý (xý0 - ∆x, yý0 ),rý (xý0 + ∆x, yý0 )) - rý min )rmax
(min(r (x0 , y0 - ∆y),r (x0 , y0 + ∆y)) - rmin )rý max
sy =
,
(min(rý (xý0 , yý0 - ∆y),rý (xý0 , yý0 + ∆y)) - rý min )rmax
sx =
где {∆x, ∆y} – смещения по осям координат от центра объекта (x0,
y0) или эталона (xэ0, yэ0); rmax, rэmax, rmin, rэmin – максимальные и
минимальные значения r(x, y) для текущего и эталонного массивов.
Поскольку качество фильтрации зависит как от изменения формы объекта, так и от фона, на котором наблюдают объект, то устанавливают два порога по значениям s. Первый порог – для обновления эталонного массива, а второй (более низкий) – для запрещения
динамического накопления в текущем кадре. Введение меры каче141
ства в виде s = min(sx, sy) позволяет не менять пороги для всей серии наблюдений [158]. Такое управление позволяет найти компромисс между принятием решения об обновлении эталонного массива
и сменой эталона в связи с изменением формы и размеров объекта.
Обновление эталонного массива приводит к разбиению последовательности изображений на группы локально квазистационарных
последовательностей. Тем самым обеспечивают инвариантность к
проективным и аффинным преобразованиям.
В каждом кадре проводят оценку меры качества s и измерение
среднего значения сигнала объекта, на основании которых принимают решение о переходе на сопровождение в режиме предсказания
траектории в случае временной потери объекта.
3.1.2. Модели на основе компьютерной графики
Если алфавит объектов интереса априорно известен, эталоны
изображений объектов могут быть созданы средствами компьютерной графики. Максимальное приближение к оригиналу достигают, если математическая модель сцены и обрабатывающая программа точно передают условия освещения, геометрическую форму
объектов, их взаимное расположение, размер и положение теней, а
также другие особенности реальной сцены. Очевидно, что изображение объекта будет зависеть от расстояния, ориентации, условий
освещения, осадков, дымки, наличия искажающих стандартную
форму объекта факторов, технических характеристик средств наблюдения. Обойтись единственным эталоном невозможно, а хранение множества эталонов во всем многообразии изменений неэффективно. Поэтому целесообразно создать математическую 3D-модель
объекта и управлять ее положением в виртуальном пространстве.
И вместо множества изображений-эталонов формировать проекцию
3D-модели объекта на экранную плоскость. Поставленную задачу
можно решить, используя методы геометрического моделирования
пространственных форм [92].
Эти модели в общем случае представляют упорядоченную совокупность данных, отображающих структуру, свойства, взаимосвязи и отношения между элементами объекта [94]. Синтезированное
изображение по основным физическим характеристикам должно
повторять оригинал. При физически точном подобии геометрические (пространственные) характеристики синтезированного изображения должны полностью соответствовать характеристикам оригинала либо быть пропорциональными им. Соблюдение физического
142
подобия является непременным условием создания банков эталонных изображений для автоматических распознающих систем. Физическое подобие обеспечивают точным формированием очертаний
предмета, характерных линий, передающих его объемность, наложением изображений переднего плана на изображения предметов в
глубине, передачей перспективы. Эти приемы находят в машинной
графике свое математическое выражение. К ним относят алгоритмы формирования сечений объемной фигуры, удаления невидимых
линий изображения, учет перспективной проекции.
Форму моделируемого трехмерного объекта можно воссоздать,
если достаточно часто выполнять поперечное сечение объекта (делать срез), двигаясь в выбранном направлении (например, от его
конца к началу), запоминая пространственное положение каждого
сечения и линию его контура. Соответствующие точки в смежных
сечениях соединяют прямыми линиями, формируя каркас. Боковые поверхности и сечения будут конкурировать между собой на видимость. После получения модели производят ее визуализацию методами машинной графики, т. е. выполняют восстановление трехмерного тела по набору его поперечных сечений как совокупности
связанных полигональных полей, без теней и зеркальных бликов.
В качестве исходного объекта был выбран самолет (рис. 3.2), чертежи которого взяты из открытой литературы для любителей авиамоделизма [95]. На основании конструктивных данных, а также
набора поперечных сечений была построена каркасная модель летательного аппарата (ЛА), отвечающая требованиям по точности и
скорости расчета, т.е. выполнен трехмерный компьютерный синтез объекта (рис. 3.3). Число сечений Nс и точек в одном сечении Nт
выбраны такими, чтобы наиболее полно описать топологию объекта. В процессе моделирования были приняты значения Nс = 26 и
Nт = 43. Все сечения представляют собой симметричные непрерывные многогранники с равным количеством вершин.
Каркасная модель
Модель с удалением
невидимых линий
Двухмерная маска
Рис. 3.2. Стадии компьютерного синтеза изображения объекта
143
Рис. 3.3. Маски объекта для различных углов:
пикирования a, крена b и курсового γ
Требуемая точность моделирования достигнута при соединении
их прямыми линиями. Отказ от использования интерполяционных
2D-сплайнов позволил снизить вычислительные затраты. Координаты i-й вершины xi, yi (i = 1... Nт) получены при оцифровке j-го поперечного сечения (j = 1... Nс), которое выполнено так, чтобы минимизировать число точек, но, по возможности, точно сохранить форму объекта в сечении.
Существуют многочисленные виды проектирования изображений пространственных объектов на картинную плоскость [97]. Для
получения маски ЛА использована ортографическая проекция, не
искажающая поперечные сечения объекта. Проектирование выполнено пучком прямолинейных лучей, параллельных заданному
направлению на объект и перпендикулярных плоскостям сечений.
Матрица проектирования, использованная для подгонки изображения под экранную систему координат, представляет собой произведение трех матриц: перспективного преобразования P, масштабирования D и сдвига T [96].
При расчете матрицы сдвига T необходимо учитывать различную величину смещения центров сечений относительно начала координат, в качестве которого выступает центр экрана. Величина
144
смещения сечения рассчитана исходя из соотношения размеров видимой части экрана и линейных размеров объекта таким образом,
чтобы все изображение модели целиком поместилось на экране.
Из аналитической геометрии следует, что любое изменение координат точек пространства может быть представлено в виде суперпозиции, т.е. последовательного выполнения основных геометрических преобразований: параллельного переноса, поворота, зеркального отражения (сохраняющих длины отрезков и углы между ними) и масштабирования, то есть с помощью так называемого общего
аффинного преобразования [93].
При решении пространственных задач с использованием матричного описания объектов и выполняемых над ними действий
принято описывать простейший объект (точку) упорядоченным набором четырех чисел: x, y, z, 1. Так вводят однородные координаты,
позволяющие единообразно и удобно описывать все виды пространственных геометрических преобразований в матричном виде. С помощью четверок однородных координат и матриц размером 4 × 4
можно описать любое аффинное преобразование пространства как
общее, представляющее собой результат суперпозиции нескольких
преобразований, так и частное – одиночное геометрическое преобразование:
é α1 α2 α3 0ù
ê
ú
ê β1 β2 β3 0ú
ú,
(x ¢, y ¢, z ¢,1) = (x, y,z,1) × êê
(3.1)
ú
ê γ1 γ2 γ 3 0ú
êλ
µ
ν 1úûú
ëê
или
(x ¢, y ¢, z ¢,1) = (x, y, z,1) × A ,
где (x, y, z, 1) и (x′, y′, z′, 1) – координаты точки вершины соответственно до и после аффинного преобразования, задаваемого невырожденной матрицей A четвертого порядка.
Важными частными случаями геометрических преобразований
являются вращения в пространстве. Матрицы Rx и Ry вращений вокруг осей абсцисс на угол j и ординат на угол y определены как
é1
é cos ψ 0 -sin ψ 0ù
0
0
0ù
ê
ú
ê
ú
ê0 cos ϕ sin ϕ 0ú
ê 0
1
0
0ú
ê
ú
ê
ú
Rx = ê
ú ; R y = ê sin ψ 0 cos ψ 0ú .
ϕ
ϕ
sin
cos
0
0
ê
ú
ê
ú
ê0
ê 0
0
0
1úûú
0
0
1úûú
ëê
ëê
145
Матрицы Rz и D вращения вокруг оси аппликат на угол c и масштабирования (растяжения и сжатия):
é cos χ sin χ 0 0ù
é α 0 0 0ù
ê
ú
ê
ú
ê-sin χ cos χ 0 0ú
ê 0 β 0 0ú
ú ; D=ê
ú
Rz = êê
ê 0 0 γ 0ú ,
0
1 0úú
ê 0
ê
ú
ê 0
ú
ê 0 0 0 1ú
0
0
1
ëê
ûú
ëê
ûú
где a > 0 – коэффициент растяжения (сжатия, если a < 0) вдоль
оси абсцисс; b > 0 – коэффициент растяжения (сжатия, если b < 0)
вдоль оси ординат; g > 0 – коэффициент растяжения (сжатия, если
g < 0) вдоль оси аппликат.
Матрицы отражения относительно плоскостей XY – Mz; YZ – Mx;
и ZX – My записывают следующим образом:
é 1 0 0 0ù
é-1 0 0 0ù
é 1 0 0 0ù
ê
ú
ê
ú
ê
ú
ê 0 1 0 0ú
ê 0 1 0 0ú
ê 0 -1 0 0 ú
ê
ú
ê
ú
ê
ú
Mz = ê
ú ; M x = ê 0 0 1 0ú ; M z = ê 0 0 1 0ú .
0
0
1
0
ê
ú
ê
ú
ê
ú
ê0 0 0 1ú
ê 0 0 0 1ú
ê0 0 0 1ú
ëê
ûú
ëê
ûú
ëê
ûú
Матрица переноса на вектор (l, m, n)
é 1 0 0 0ù
ê
ú
ê 0 1 0 0ú
ê
ú .
T=ê
ú
0
0
1
0
ê
ú
ê λ µ ν 1ú
ëê
ûú
При помощи преобразования (3.1) можно трансформировать любые пространственные фигуры, заданные набором своих вершин
(рис. 3.3, 3.4).
Формулы общего аффинного
преобразования можно рассматривать двояко. Либо считать, что
они описывают изменение положения точки (любой другой геометрической фигуры) относительно системы координат, либо считать, что положение точки (любой
другой геометрической фигуры)
Рис. 3.4. Масштабирование
не изменяется, а происходит премодели объекта
образование координатной систе146
мы. Если не указано обратное, полагается, что рассматривается перемещение точки (любой другой геометрической фигуры) относительно заданных осей координат.
Создание на экране каркасного изображения ЛА реализовано с
помощью графического модуля, написанного на языке программирования высокого уровня Borland C++. Последовательное выполнение элементарных геометрических преобразований в пространстве
позволяет перемещать, масштабировать, вращать каркасную модель ЛА, как совокупность связанных сечений.
Удаление скрытых линий и частей поверхностей, а также их закраска позволяет сделать изображение на экране более привычным
для наблюдателя.
Для ускорения работы программы использовано переключение
видимой и активной видеостраниц. При этом пока на видимой странице содержится один кадр, активная и невидимая страница, с которой работает графическая библиотека, очищается и на ней рисуется следующий кадр. Как только кадр готов, активная и видимая
страницы меняются местами, и вместо старого кадра на экране сразу возникает новый.
Разработанные метод и программа построения трехмерной модели объекта с настраиваемым вектором параметров р позволяют эффективно реализовать корреляционное совмещение телевизионного
изображения объекта и его двухмерной маски (рис. 3.5). Это дает
возможность провести точные измерения траектории и параметров
движения условного центра объекта или даже его детали в трехмерном пространстве. Программа универсальна и позволяет построить
Рис. 3.5. Совмещение маски и изображения самолета
147
модель любого другого объекта, заданного набором Nc сечений с Nт
вершинами.
Использование 3D-модели наиболее эффективно в ближней зоне, когда размеры изображения объекта достаточны, чтобы учесть
детальные особенности его формы. Кроме того, для каждого типа
объектов нужна своя модель, а объем требуемых вычислений относительно велик.
3.1.3. Формирование модели на основе совокупности признаков
После выявления фрагментов (блоков) сцены, отличающихся по
ряду признаков от фона, решают задачу автоматического формирования моделей объектов интереса с использованием математического аппарата нечеткой логики [99]. Универсальное множество блоков G (всех возможных блоков, число которых известно) разбивают
на нечеткие подмножества. Функция принадлежности pd к первому подмножеству Gd ⊂ G задана уровнем детальности: чем выше
детальность, тем с большей вероятностью блок может быть включен в это нечеткое подмножество. Блоки подмножества Gd с определенной вероятностью могут быть отнесены к объектам интереса
(рис. 3.6). Функция принадлежности pm ко второму подмножеству
Gm ⊂ G задана уровнем энергии движения (MAD). Блоки подмножества Gm с определенной вероятностью принадлежат движущимся
объектам (рис. 3.7).
Пересечение нечетких подмножеств Gd ∩ Gm определяет подмножество Gdm, в котором найденные векторы движения обладают
уровнем достоверности в соответствии с одной из известных t-норм.
Наиболее часто используемые t-нормы [159]:
1,0
DM(k, l)
0,8
0,6
0,4
0,2
0
10 20 30
40
20
50 k 30
10 1l
Рис. 3.6. Сюжет «корабль и катер» и гистограмма детальности
148
MAD(k, l)
– «вероятностное пересечение» – задана перемноже1,0
нием функций принадлеж0,8
ности T(Gd, Gm) = pd × pm
0,6
l
(рис. 3.8);
0,4
1
– «пересечение по Лукасе0,2
2010
вичу» – T(Gd, Gm) = max(pd +
0
30
1 10 20
30 40
50k
+ pm–1);
– «пересечение по Заде» –
Рис. 3.7. Гистограмма
T(Gd, Gm) = min(pd, pm).
межкадровой
разности
С целью снижения вычислительной нагрузки и повышения достоверности векторы движения следует искать
0,6
для блоков, принадлежащих
0,4
l
подмножеству Gdm. Для теле1
визионного кадра с разреше0,2
10
20
нием 576 × 768 общее число
0
30
k
блоков 8 × 8 элементов равно
1 10 20
30 40 50
6912. Сечение нечеткого подмножества Gdm (рис. 3.9) по
Рис. 3.8. Гистограмма пересечения
подмножеств Gdm = Gd ∩ Gm
уровню α ≥ 0.05 для исследованного сюжета включает в
себя 74 блока, по уровню 0,1 – 16 блоков, что иллюстрирует достижимую экономию в вычислительных затратах.
Результатом выполнения процедур поиска является множество
блоков Gdm с присвоенными им трехкомпонентными векторами двиПересечение Детальность
400 Число блоков
358
Межкадровая разность
300
215
200
31
100
74
149
109 85
76
67 54 45
31
44
10
7 225 12 5 9 5 8 4 7 2 6 2 5 1 5 α
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Рис. 3.9. Сечения множеств Gdm, Gd, Gm
149
жения (νxi, νyi, pi)T, где значения pi = pdi⋅pmi определены функцией
принадлежности блоков множеству Gdm. Блокам с высокой детальностью и низким уровнем энергии движения Gd – Gdm без выполнения
процедуры поиска присваивают нулевые векторы движения с достоверностями pi = 1 – pdi⋅pmi. Блоки, принадлежащие дополнению подмножества G = G – Gd, исключают из дальнейшей обработки.
Формирование кластеров
Затем блоки объединяют в кластеры на основании совокупности
признаков. В рамках математического аппарата нечеткой логики
эта задача может быть классифицирована, как кластеризация при
априорно неизвестном числе кластеров [101]. Исходной информацией для кластеризации является матрица наблюдений
é r11 r12 ... r1n ù
ê
ú
ê ... ... ... ... ú
ú,
R = êê
ú
ê ... ... ... ... ú
êr
ú
êë m1 rm2 ... rmn úû
каждая строка которой представляет собой значения n признаков
одного из m блоков, подлежащих кластеризации.
Признаки приводят к стандартной форме – положительные безразмерные величины. Тогда совокупность признаков для i-го блока
(строку матрицы R) можно представить в виде вектора ri, который
имеет геометрический смысл.
В ходе кластеризации блоки объединяют в кластеры (объекты)
на основе схожести признаков для блоков одного объекта и отличий
от других объектов. В соответствии с положениями нечеткой логики данный блок может принадлежать не обязательно одному объекту – определяют лишь функцию достоверности принадлежности
блока к данному объекту. Предложено формировать функцию принадлежности для блока с номером i с использованием нормы вектора ri, составленного из взвешенных значений признаков для данного блока:
(
di = ri = riT Wri
1/2
)
,
где матрица W переменных весовых коэффициентов учитывает динамику свойств объектов интереса и окружающей обстановки.
Для евклидовой нормы матрица W – единичная; если признаки
взаимонезависимы – диагональная; в случае взаимной зависимо150
сти признаков – заполненная и рассчитанная через матрицу ковариаций (норма Махалонобиса).
Целесообразно нормализовать функцию принадлежности, т.е.
установить пределы ее изменения от нуля до единицы, причем, чем
больше ее значение, тем выше вероятность принадлежности блока
к данному объекту. С этой целью используют, например, экспоненциальную функцию
pik = exp(-di2 / β2 ),
где b – весовой коэффициент.
Основными признаками для выделения блоков объекта являются их векторы движения, пространственная и временная связность. Блоки из вновь полученного в текущем кадре множества Gd
подвергают испытаниям на временную связность с аналогичными
блоками предыдущего кадра. Считают, что смещение блока не может превышать заранее установленного порога, соответствующего
максимально возможной скорости перемещения объекта в кадре.
Блоки, не прошедшие испытаний, исключают из рассмотрения в текущем кадре, но сохраняют для организации испытаний в последующем кадре. При формировании новых объектов в качестве центров кластеров выбирают блоки из множества Gd с минимальными
суммами расстояний до остальных блоков этого множества. Блоки
множества Gd, принадлежащие одному объекту, образуют связанную группу и имеют близкие по направлению и норме векторы движения. Тогда первым признаком r1 принадлежности блока к данному кластеру является минимальное расстояние dmin до одного из
ранее включенных в кластер блоков (рис. 3.10).
В качестве второго критерия r2 используют взвешенную норму
разностного вектора piνi – ν0l2, где ν0 – наиболее вероятный вектор
Элементы подмножеств
Cdm и Cd – Cdm
Результаты сегментации
Рис. 3.10. Результаты сегментации по признаку связности блоков
151
Определение расстояний между всеми
блоками в текущем и предыдущем кадрах;
выбор минимального расстояния
Проверка расстояний
на соответствие порогу
Нет
Да
С охранение блоков для проверки
в следующем кадре
Начало
Инкремент номера объекта
Выбор в качестве “затравки”
одного из не востребованных
ранее блоков
Определение “типичного” вектора
движения блока из совокупности
блоков, ближайших к блоку “затравки”
Формирование кластера по признакам
пространственной связности и близости
векторов движения
Формирование модели объекта и
расчет параметров формы и движения
Остались невостребованные
блоки?
Да
Нет
Конец
Рис. 3.11. Алгоритм программы формирования кластеров
движения для данного кластера, а pi – оценка достоверности вектора движения νi (рис. 3.11). В результате оказывается возможным
152
Рис. 3.12. Результаты основных шагов сегментации
двух объектов интереса
выделять объекты, находящиеся в непосредственной близости, но
различающиеся по скорости движения (рис. 3.12).
Для каждого сегментированного объекта определяют вектор
признаков fr = (frf, frv, frs)T, где frf – признак формы; frv – признак
движения в виде вектора v0; frs – признак местоположения объекта
(frs = {µx, µy} – координаты центра кластера).
Формирование модели формы объекта
После того как выделены элементы изображения, относящиеся
к объекту интереса, вводят его структурное описание, отражающее
индивидуальные свойства. Простейшим вариантом описания формы является использование следующих геометрических характеристик:
– положение центра тяжести
N
N
å xi
å yi
; yö = i=1 ,
N
N
где (xi, yi) (i = 1,...,N) – координаты центров N блоков, принадлежащих объекту;
– угол наклона
xö =
i=1
ϕ = arctg
Nâ
xöâ
å xi
yöâ
å yi
=
i=1
xöâ - xöí
,
Ní
xöí
å xi
i=1
Ní
yöâ
å yi
;
=
,
=
;
= i=1 – центры тяNâ
Nâ
Ní
Ní
жести верхней и нижней частей объекта;
– линейные размеры: W = xmax – xmin; H = ymax – ymin;
где
i=1
Nâ
yöâ - óöí
153
– площадь S – общее число точек, принадлежащих объекту;
WH
– плотность: ρ =
. РациоS
нальным является предположение –
степень принадлежности блока к
объекту тем выше, чем ближе он находится к центру кластера. Введенное предположение приводит к гауссовой модели формы объекта в виде
эллипсоида рассеивания (рис. 3.13)
y
w
x
ϕ
l1
l2
L(p) = exp éê-(p -m)T K-1 (p -m) / 2ùú ,
ë
û
Рис. 3.13. Модель формы
в виде эллипса
где pi = (xi, yi)T – вектор координат
блока с номером i в плоскости изображения; m = (µx, µy)T – вектор координат центра эллипса рассеяния; матрица ковариаций
K = RT (-ϕ)diag éê l12l22 ùú R(-ϕ),
ë
û
где R(j) – матрица поворота на угол j; l1 и l2 длины большой и малой
полуосей эллипса рассеивания, соответственно [55].
Форму объекта можно компактно описать координатами центра
эллипса рассеивания m, длинами полуосей {l1, l2}, углом поворота j
l
и коэффициентом элонгации elong = 1 . Эти параметры определяl2
ют на основе первых трех центральных моментов при условии, что
множество блоков (xi, yi), принадлежащих объекту, рассматриваются как выборка двумерной случайной величины, описываемой распределением Гаусса [100, 101].
Первый центральный момент (математическое ожидание) определяет координаты центра эллипса рассеивания
N
å xi
µ x = i=1 ;
N
N
å yi
µ y = i=1 ,
N
где N – число блоков, отнесенных к цели.
Вторые центральные моменты (дисперсии Dx, Dy и ковариация
Kxy) соответственно
154
N
N
å (xi - µx )2
Dx = i=1
N -1
å (yi - µy )2
;
Dy = i=1
N -1
N
å (xi - µx )(yi - µy )
; Kxy = i=1
N -1
позволяют найти длины полуосей l1, l2 и угол наклона эллипса j
2
(
)
2
(
)
2
l1 = 4 0,5( Dx + Dy ) + 0,25( Dx + Dy ) - Dx Dy - Kxy
;
2
l2 = 4 0,5( Dx + Dy ) - 0,25( Dx + Dy ) - Dx Dy - Kxy
;
æ Kxy ö÷
ç
÷÷.
ϕ = arctg çç
çè Dx - Dy ÷÷ø
Описание формы с помощью эллипсоида рассеивания позволяет
оценить степень принадлежности блока объекту путем подстановки
координат его центра в функцию распределения.
Сопровождение объектов
В прикладных видеокомпьютерных системах актуальной является задача автоматического сопровождения многих объектов интереса. Априорная информация об объектах минимальна – число
объектов неизвестно, даны лишь пределы изменения их размеров и
скоростей перемещения в пересчете к экранной плоскости видеокамеры. Известны многочисленные программы исследований, имеющие дело с задачей слежения, и существующие направления могут
быть представлены тремя подходами:
– основанные на движении реализуют робастные методы для
группировки территориально близких областей или блоков с согласованным движением;
– основанные на модели предполагают, что форма и внешний вид
объектов априорно известны и поэтому более реалистичны по сравнению с методами, оценивающими только движение. Пространство модели может быть или реальным трехмерным 3D-миром, или
2D-пространством двумерной проекции на плоскость кадра;
– основанные на представлении слоев движения реализуют
идею разложения последовательности видеокадров на двумерные
слои когерентного движения [105].
Корреляционные устройства слежения определяют движение
выделенного объекта путем вычисления функции взаимной корре155
ляции шаблона внешнего вида с изображением. Шаблон модифицируют путем линейной интерполяции предыдущего шаблона и его
новой оценки. При вычислениях на стадиях корреляции и модификации шаблона каждый пиксель в окне шаблона, принадлежит ли
он к фону или к объекту, рассматривают в равных условиях. Следовательно, его легко перепутать с фоновой помехой или близлежащими объектами.
Устройства слежения, основанные на энергии движения, используют информацию, содержащуюся в областях значимой межкадровой разности. Объект инициализируют, когда обнаружена новая такая область. Очевидная проблема с таким типом устройств состоит
в том, что сопровождение прекращается, когда объект останавливается. Когда область движения пропадает, устройство слежения не
может определить исчез объект или остановился.
Системы слежения, основанные на слоях движения, успешно
преодолевают означенные выше трудности, так как разнесенные по
слоям объекты обрабатывают с учетом параметра принадлежности
к слою.
В ходе сопровождения объектов в каждом последующем кадре
определяют множество блоков, соответствующих a-сечению нечеткого множества Gd с присвоенными им трехкомпонентными векторами движения. Векторы признаков объектов, сегментированных
в предыдущем кадре t–1 , а также векторы признаков для каждого блока текущего кадра t позволяют определить на универсальном
множестве G несколько нечетких подмножеств. Число нечетких
подмножеств равно числу объектов. Функция принадлежности блока i к подмножеству g
ηi (Og ) = pvig pfig ,
где pfig определяется расстоянием от блока i до предсказанного положения центра объекта Og с учетом размеров эллипса рассеивания:
pfig = exp(-((∆xig / (Lag + z))2 + (∆yig / (Lbg + z))2 ));
pvig – соответствием вектора движения блока i модели движения
объекта Og:
(
pvig = exp- wg v i - v Og
2
l2
),
где wg – вес признака движения, определяемый оценкой достоверности вектора движения, скоростью движения объекта vOg и рас156
стоянием до соседних объектов: вес тем больше, чем ниже скорость
движения объекта и ближе соседние объекты интереса.
Это позволяет уверенно сопровождать медленно движущиеся
объекты и снизить вероятность потери объекта в случае некорректно найденного вектора движения. При сопровождении нескольких
близко расположенных объектов используют функцию принадлежности вида
K
ηi (Og ) = η2i (Og ) / å ηi (Og ),
g=1
где K – число подмножеств (объектов).
Введение функция ηi(Og) допускает принадлежность одного и того же блока разным объектам, что дает возможность не прекращать
сопровождение даже при частичном перекрытии объектов. Переход
от нечетких подмножеств к их сечениям по уровню a позволяет однозначно выделять объекты. Блоки, не отнесенные ни к одному из
подмножеств, анализируют с целью выявления вновь появившихся
объектов (рис. 3.14).
Полученные значения достоверности принадлежности блоков к
подмножеству g используют для уточнения параметров модели формы объекта Оg и его местоположения
N
N
å xi ηi (Og )
µ xg = i=1
N
å yi ηi (Og )
;
N
µ yg = i=1
å (xi - Mx )2 ηi (Og )
Dx =
i=1
N
(N -1)å ηi (Og )
i=1
N
;
æ Kxy ö÷
ç
ϕ g = arctg çç
÷÷;
çè Dx - Dy ÷ø÷
N
å (xi - Mx )(yi - My )ηi (Og )
; Kxy = i=1
N
,
(N -1)å ηi (Og )
i=1
где {(xi,yi)} (i = 1..N) – множество блоков, принадлежащих объекту
Og (рис. 3.15).
Предполагают, что форма объекта мало изменяется при его перекрытии другим объектом. Для всех сопровождаемых объектов
выполняют траекторный анализ на основе регрессии или фильтра
Калмана. Все это позволяет разрешать ситуации временного исчезновения или окклюзии (перекрытия объектов). К особенностям разрешения ситуации окклюзии следует отнести: выявление объекта,
находящегося на переднем плане и накопление информации об объ157
Алгоритм подпограммы сопровождение
Начало
Определение вероятностей
принадлежности блоков объектам
Есть блоки, принадлежащие
захваченным объектам?
Нет
Сопровождение по памяти
Да
Обновление моделей объектов с учетом
вероятностей принадлежности блоков
Уточнение координат центров тяжести
объектов с учетом предсказаний
Определение параметров движения
объектов: векторов скорости и ускорения
Объект в
окне сопровождения?
Нет
Удаление объекта из рассмотрения
Да
Определение расстояний
между объектами
Объекты удовлетворяют
условиям слияния?
Нет
Да
Слияние объектов
Предсказание положений объектов
в следующем кадре
Выход
Рис. 3.14. Алгоритм программы сопровождения объектов
158
Рис. 3.15. Результаты расчета моделей объектов
екте на заднем плане до момента его полного закрытия. На основе
построенных ранее моделей формы и движения сегментированных
и уже сопровождаемых объектов определяют степень соответствия
вектора признаков блока объекту интереса. Таким образом, если
объект находится на переднем плане, то вектор признаков принадлежащих ему блоков соответствует моделям формы и движения
объекта.
К объекту, находящемуся на заднем плане по мере его закрытия
будет отнесено все меньшее число блоков изображения. При полном
закрытии объекта к нему не будет принадлежать ни один блок. Для
контроля степени сегментации объекта и фиксации ситуации окклюзии введен показатель – внешний вид (appearance):
Kapp =
Nb2
,
πl1l2
где N – число блоков, отнесенных к объекту; b – размер блока; l1, l2 –
длины большой и малой полуосей эллипса.
По мере закрытия объекта Kapp→0. Введение этого показателя
позволяет корректно накапливать информацию об объекте по мере
его закрытия.
В соответствии с идеологией фильтра Калмана новое положение объекта предсказывают на основании модели движения и уточняют за счет вновь полученных данных. Введем модель движения
объекта второго порядка, учитывающую его текущее положение m,
скорость v и ускорение a. Рассмотрим пример применения фильтра
Калмана для предсказания положения объекта при его перемещении в горизонтальном направлении. Оценка вектора состояния
159
bk+1 = Fak + kk+1 (zxk+1 - CFbk ),
éxù
é k1 ù
é1 1 0,5ù
ê ú
ê ú
ê
ú
; F = êê0 1 1 úú ; kk+1 = êê k2 úú
; C = [1 0 0 ],
bk+1 = êê vx úú
êa ú
êk ú
ê0 0 1 ú
ë x û k+1
ë 3 û k+1
ë
û
где F – матрица прогноза; kk + 1 – вектор коэффициентов передачи;
C – матрица наблюдения; zx – входные данные, vx, ax– горизонтальные составляющие скорости и ускорения объекта.
Прогноз оценки координаты x на следующий (k + 1)-й кадр
xk+1 = CFbk = xk + vxk + 0,5 × axk .
Оценка вектора состояния с учетом введенных матриц
é xù
é1 1 0.5ù é xù
é k1 ù
ê ú
ê
ú ê ú
ê ú
êv ú
ê0 1 1 ú × ê v ú + ê k2 ú (zx(k+1) - xk+1 ).
=
ê ú
ê
ú ê ú
ê ú
êaú
ê
ú ê ú
ê ú
ë û k+1 ë0 0 1 û ë a û k ë k3 û
Коэффициенты передачи фильтра рассчитаны заранее для параболической траектории по эмпирическим формулам:
k1 =
3(3k2 - 3k + 2)
12(2k -1)
60
; k2 =
; k3 =
,
k(k + 1)(k + 2)
k(k + 1)(k + 2)
k(k + 1)(k + 2)
где k – номер кадра, начиная с момента захвата объекта.
Для первых трех кадров после начала сопровождения коэффициенты устанавливают следующим образом: k1 = 1, 1, 1; k2 = 0, 1,
1; k3 = 0, 0, 1. После 30-го кадра переходный процесс адаптации
фильтра заканчивают и устанавливают фиксированные значения
коэффициентов, полученные при k = 30. Если принято решение о
сопровождении объекта по памяти, коэффициенты передачи фильтра устанавливают равными нулю. Для вертикального направления проводят аналогичные расчеты.
Вновь полученными данными являются положение центра тяжести кластера, составленного из блоков, отнесенных к объекту в
текущем кадре, и типовой вектор движения для этой совокупности
блоков. Под типовым вектором понимают вектор наименее отличный от других в совокупности блоков, отнесенных к объекту. При
закрытии объекта центр тяжести кластера можно рассчитать только по видимой его части, что создает иллюзию замедления движения объекта, вплоть до полной остановки. Показатель Kapp и нали160
чие поля векторов движения позволяет разрешить эту ситуацию.
Новое положение объекта рассчитывают путем взвешенного суммирования предсказания и результатов расчета центра тяжести и типового вектора, причем в роли весового множителя выступает показатель Kapp. Очевидно, что в ситуации окклюзии максимальный
вклад в формируемую оценку имеет предсказание по модели движения объекта.
В случае длительного исчезновения объекта необходимо отождествить потерянный объект с одним из вновь захваченных объектов.
Операцию отождествления выполняют по критерию минимума расстояния между векторами взвешенных признаков потерянного объекта и одного из вновь захваченных объектов
r =á(frj - frg ), W(frj - frg )ñ,
где g = 1…K; W – весовая матрица, в общем случае отличная от диагональной.
Применение нескольких взаимодополняющих признаков с весами, адаптированными к их значениям и окружающей обстановке, а
также теории нечетких множеств позволило обеспечить:
– низкую вероятность потери объекта, а также его неполной сегментации, рассегментации или слияния с другим объектом;
– разрешение ситуации окклюзии: закрытия объекта другим
объектом или фоном;
– разрешение ситуации разделения объекта на несколько объектов интереса;
– сопровождение объектов при условии динамики их свойств;
– отождествление объектов при их повторном обнаружении.
Приведенные выше материалы относятся к выделению и сопровождению изображений объектов в плоскости телевизионного кадра. Для определения координат объектов в трехмерном мировом
пространстве дополнительно используют дальномеры (например,
лазерные) или стереосистемы.
3.2. Измерение скоростей автомобилей
путем анализа видеопоследовательности
3.2.1. Обзор измерителей скорости
Рост интенсивности дорожного движения, связанный с непрерывным увеличением парка автомобилей, приводит к повышению
числа дорожно-транспортных происшествий, которые представляют угрозу человеческим жизням и наносят существенный ущерб
161
Измерители скорости транспортных средств
Датчики
скорости
Локационные
радары
Лазерные
измерители
Телевизионные
измерители
Рис. 3.16. Основные методы измерения скорости
экономике. Проблемы безопасности дорожного движения и осуществления эффективного управления транспортными потоками
относятся к наиболее приоритетным направлениям развития страны. Для контроля и управления транспортным потоком используются технические средства автоматики, радиоэлектроники, связи и
обработки данных с помощью ЭВМ. В настоящее время активно развиваются и внедряются телевизионные системы транспортного мониторинга, которые служат для видеонаблюдения и контроля магистралей путем сбора параметров автомобильного потока (средняя
скорость, плотность потока и т.п.) и фиксирования фактов нарушения правил дорожного движения [110, 111].
Для телевизионных систем транспортного мониторинга важнейшей задачей при получении информации о потоке наряду с селекцией автомобиля является определение его скорости. Классифицировать измерители скорости можно по принципу действия (рис. 3.16).
Датчики скорости (пневмотубы, индуктивные шлейфы, пьезоэлектрические датчики) на сегодняшний день утратили популярность и мало используются вследствие основного недостатка: необходимости интеграции в дорожное полотно. Установка и ремонт датчиков скорости предполагает разрушение дорожного полотна, что
связано со значительными трудозатратами и снижает эксплуатационные характеристики измерителей скорости такого рода [108].
Локационные радары и лазерные измерители в настоящее время являются самыми распространенными устройствами для измерения скоростей автомобилей. Преимуществами данных устройств
принято считать высокую точность определения скорости (ошибка не более 2 км/ч) и дальность действия (300–500 м). Однако нужно иметь в виду, что радары и лазерные измерители обеспечивают
декларируемую точность результатов, если транспортное средство
движется точно по направлению на них. При установке прибора над
магистралью или сбоку от нее, для точного измерения скорости необходимо учитывать его угловое положение.
162
Видеокамеры +
радары+
вычислители
Видеокамера+
вычислитель
Диаграммы
направленности
50–60 м
Рис. 3.17. Радарный и телевизионный рубежи контроля
многополосной магистрали
Видеокамеры являются неотъемлемой частью приборов мониторинга транспортных потоков, так как без фото регистрации результаты измерения скорости, каким бы методом они не были получены,
не являются легитимными. Недостатком радарных измерителей скорости является отсутствие жесткой связи между результатами измерения и транспортным средством, которое фиксируют видеокамерой.
Излучение СВЧ энергии легко обнаруживается антирадарами. Для
повышения достоверности измерений формируют плоскую диаграмму направленности радара шириной 3,6° [110]. Это обеспечивает приемлемые результаты для одной полосы движения при установке прибора над магистралью и на расстоянии порядка 50–60 м.
Узкие диаграммы направленности радаров вынуждают устанавливать приборы индивидуально для каждой полосы движения и проводить измерения в локальных зонах на магистрали (рис. 3.17). Это приводит к повышению сложности и общей стоимости стационарного поста. Сказанное справедливо и для лазерных измерителей скорости.
Необходимость использования комбинированных приборов (фоторегистратор и радиолокационный или лазерный измеритель скорости) подвергает сомнению другие важные преимущества радаров:
независимость от погодных условий и высокую дальность действия,
так как качественную фотографию транспортного средства, пригодную для его идентификации и определения номерного знака, можно получить в условиях достаточной освещенности на расстоянии
(50–100) м.
Измерение скорости телевизионными методами на основе анализа видеоряда позволяет исключить дополнительную аппаратуру,
одновременно сопровождать все автомобили в поле зрения камеры и
163
обеспечить однозначную связь между результатом измерения и конкретным объектом (см. рис. 3.17).
3.2.2. Телевизионные измерители скорости
Автомобили двигаются в мировой координатной системе, ориентированной так, что ось Zм расположена вдоль дорожной полосы, ось Xм ей ортогональна, а координата Yм отображает высоту (рис. 3.18). Скорость транспортного средства – это вектор
æ ¶X ¶Y ¶Z öT
¶Xì
¶Yì
и вертикальная
соv = çç ì , ì , ì ÷÷÷ . Поперечная
çè ¶t
¶t ¶t ø
¶t
¶t
ставляющие скорости обычно малы и не представляют особого ин¶Z
тереса. Необходимо измерить скорость v = ì . В объектной систе¶t
ме координат камеры {X, Y, Z} с центром в точке фокуса (см. рис.
3.18) поступательное движение автомобиля вдоль дорожной полосы
приводит к изменению всех трех координат [116]. За время сопровождения ∆t объект перемещается в пространстве из точки A в точку B
(см. рис. 3.18). Тогда скорость может быть рассчитана как евклидово
расстояние между векторами (XA, YA, ZA) и (XB, YB, ZB), деленное на
время ∆t
X A - XB
( X A - XB )2 + (YA - YB )2 + ( Z A - ZB )2
=
v = YA - YB / ∆t =
∆t
Z A - ZB
2
2
2
= vX
+ vY
+ vZ
.
y
Yм
Y
f
b a
x
Z
X
Zм
A
B
Xм
Рис. 3.18. Мировая, объектная и экранная системы координат
164
(3.1)
Современные видеокамеры преобразуют 3D-пространство в 2D и
дают изображение в экранной системе координат на плоскости {x, y}
(см. рис. 3.18). Если известны координаты объекта (X, Y, Z), то при
центральной проекции и расположении центра проекции (точки
фокуса) между объектом и плоскостью матрицы ПЗС, экранные координаты
fX
fY
x=
; y=
.
f -Z
f -Z
По известным координатам в экранной плоскости (x, y) и координате Z, которая отражает расстояние до объекта L , можно рассчитать координаты:
x( Z - f )
y(Z - f )
X=
; Y=
.
f
f
Измерители скорости с помощью видеокамер можно классифицировать по принципу определения недостающей координаты Z:
– стереосистемы;
– монокамерные измерители.
Стереосистема состоит минимум из двух камер, разнесенных на
некоторое расстояние (базу). Объект находится на пересечении прямых линий, проведенных через точки фокусов f1, f2, и отметок цели на фотомишенях обеих камер. Чтобы задать уравнения этих линий требуется знать координаты (X01, Y01, Z01), (X02, Y02, Z02) и углы
наклона (α1, ψ1), (α2, ψ2) обеих камер в мировой системе координат.
Для корректной работы необходимо определить внутренние и внешние параметры калибровки камер, осуществить сведение и поддерживать его в процессе эксплуатации. Такие системы обеспечивают
измерение координат объекта в 3D-пространстве и его скорости, но
требуют точной юстировки камер и дополнительные линии связи.
В ходе эксплуатация таких систем нужно контролировать сведение
камер и их параметры [113].
Выполнить измерение скорости объекта в 3D-пространстве одной
камерой можно только при определенных условиях. Например, решают задачу пересечения линии, проведенной из точки отметки цели в экранной плоскости через точку фокуса, с плоскостью (Xм, Zм)
(поверхностью земли). Из аналитической геометрии известно, что
для решения такой задачи нужно создать вертикальную плоскость,
содержащую исходную линию, найти линию пересечения этих плоскостей, а затем – точку пересечения двух линий. По-прежнему,
должны быть известны местоположение и углы наклона камеры.
165
Для исключения относительно сложных расчетов используются
следующие методы. С помощью краски на дороге отмечают контрольную зону с фиксированными линейными размерами [114]. Этот участок
автоматически определяют на видеокадре, формируют зону в плоскости
растра с установленными размерами
и осуществляют привязку координат растра камеры к реальным коРис. 3.19. Контрольная зона
ординатам на дороге. Скорость опрев кадре
деляют с помощью измерения времени (в кадрах), за которое автомобиль пересек размеченную зону
(рис. 3.19).
Вариант данного подхода [115] – нанесение серии линий разметки в плоскости телевизионного кадра (рис. 3.20.). Определяют расстояние, пройденное автомобилем за фиксированное время с момента начала сопровождения. Необходимость нанесения маркеров на
дорожное полотно и привязки камеры к местности усложняет процесс установки системы. На момент фиксации пересечения автомобилем границы контрольной зоны влияет высота транспортного
средства. Высокий грузовик покинет зону контроля раньше, чем это
Рис. 3.20. Разметка растра
166
зафиксирует камера в связи с тем, что некоторое время оптическая
ось камеры будет пересекать верхнюю часть автомобиля, который
уже выехал за пределы контрольного участка. Динамические тени
также негативно влияют на точность измерений.
Другими причинами погрешностей являются ошибки дискретизации во времени и в пространстве. Современные видеокамеры обычно работают с частотой кадров 25 Гц. При фиксации момента пересечения линии разметки возможна ошибка до 40 мс. За это время
автомобиль, двигающийся со скоростью 100 км/ч, пройдет расстояние более метра. При протяженности контрольной зоны 30–40 м,
ошибка в измерении скорости составит 3–4%.
Вследствие пространственной дискретизации телевизионного
изображения момент пересечения линии разметки толщиной 2–3
пикселя можно зафиксировать с точностью около 1–3 пикселей.
При угле зрения камеры 45° , угле визирование 30° и расстоянии до
объекта 100 м погрешность определения местоположения составит
порядка около 1,8 м, что эквивалентно погрешности в измерении
скорости 5–6%. Ошибку в определение момента пересечения линии
разметки вносят также тени и блики от фар автомобилей.
При установке камеры над магистралью из последовательности
видеокадров, помимо информации о пройденном расстоянии, можно извлечь данные об увеличении размера транспортного средства
(рис. 3.21). Для вычисления составляющей скорости vz транспортного средства в направлении на камеру необходимо зафиксировать
начало дистанции сопровождения L1 и получить данные об относительном увеличении размера изображения автомобиля k за время
∆t. Автомобиль, имеющий горизонтальный размер d0 , приближается к камере (на рис. 3.22 приведена проекция на плоскость ZX).
На расстоянии до камеры L1 горизонтальный размер его проекции
Рис. 3.21. Увеличение размера объекта и пройденное расстояние
167
Положения объекта
Матрица ПЗС
d2
Z
d0
d0
d1
f
A
B
L2
L1
Рис. 3.22. Графическое пояснение измерения размера и дистанции L1
на матрице ПЗС – d1, на расстоянии L2 – d2. Очевидны следующие
соотношения (см. рис. 3.22):
d
L
L1
L +f
d
f
k= 2 = 1 =
; 1
= ; L1 » 0 × f,
d1 L2 L1 - ∆L
d1
d0
d1
(3.2)
где f – фокусное расстояние объектива; k – коэффициент увеличения размера проекции автомобиля; DL – преодоленное автомобилем
со скоростью vz расстояние за некоторое время ∆t: DL = vZ∆t.
Тогда
k=
1
(k -1)L1
; vZ =
. vZ ∆t
∆tk
1L1
(3.3)
Сбор данных об увеличении размера проекции и траектории
движения транспортного средства начинается с момента пересечения им линии визирования, установленной в экранной плоскости.
Началу дистанции сопровождения L1 соответствует расстоянию от
камеры до проекции линии визирования на местности в объектных
координатах. Значение L1 находят по выражению (3.2), зная фокусное расстояние объектива f, фактические d0 и экранные d1 размеры
автомобиля. Экранные размеры изображения автомобиля оценивают в пикселях. Для расчетов требуется знать геометрические размеры пикселя h («цену пикселя») [89].
При размещении камеры над многополосной магистралью автомобили, движущиеся по соседним полосам, имеют различные траектории с характерными для каждой полосы горизонтальными и
вертикальными составляющими скорости в плоскости растра. На
рис. 3.23 представлены усредненные траектории сопровожденных
168
Рис. 3.23. Траектории транспортных средств
транспортных средств, следовавших по разным полосам движения.
Для учета многополосного движения рассчитывают горизонтальные vX и вертикальные vY составляющие скорости перемещения
изображений автомобилей (рис. 3.24). Телевизионные изображения
содержат всю необходимую для этого информацию [116].
Составляющие скорости
vX =
vY =
∆x p (L2 - f )h
f ∆t
=
∆x p (L1 / k - f )h
∆y p (L1 / k - f )h
f ∆t
f ∆t
; vZ =
;
(k -1)L1
,
∆t × k (3.4)
Рис. 3.24. Составляющие скорости перемещения изображений
169
k
1.6
1.48
k0
2
1.36
1.24
1
1.12
1.0
∆t0 t, кадры
∆ t1
0
5
10 15
20
25
30
Рис. 3.25 . Зависимости коэффициента увеличения размера k
от времени t при различных скоростях объекта:
1 – 60 км/ч (опорная кривая); 2 – 80 км/ч
где ∆xp, ∆yp – смещения экранных координат объекта в пикселях
за время сопровождения ∆t; k – коэффициент увеличения размера
объекта в конце сопровождения; L1 – дистанция начала сопровождения; h – цена пикселя; L2 – дистанция окончания сопровождения (см. рис. 3.24).
Скорость автомобиля вычисляют по выражению (3.2) в соответствии с найденными составляющими скорости vx, vy и vz.
Дистанцию начала сопровождения L1 можно найти другим способом. В ходе эксперимента оценивают изменения размера проекции автомобиля, двигающегося с известной скоростью v0, в каждом
кадре телевизионной развертки (∆t0⋅Nк) раз, где NK – число кадров в
секунду. По экспериментальным точкам, подверженным ошибкам
измерения, методом наименьших квадратов строят усредненную
функциональную зависимость k(t) (рис. 3.25). Далее находят сглаженное значение k0 при фиксированном ∆t0 (или наоборот).
Тогда из выражений (3.4) следует
L1 =
(v0 × ∆t0 )2
æ ∆y p h ÷ö2 æ ∆x p h ö÷2
÷ + çç
÷
(1 -1 / k0 ) + ççç
çè f ÷÷ø ççè f ÷÷ø
,
(3.5)
2
так как L1/k >> f.
Второй способ предпочтительнее, так как дает более точные результаты за счет использования накопления за время сопровождения ∆t0. В ходе эксплуатации системы значение L1 вновь рассчитывать не нужно, важно лишь поддерживать положение линии визи-
170
рования и начинать сопровождение транспортных средств с одной и
той же позиции.
3.2.3. Анализ точности измерения скорости
транспортных средств
На точность измерения скорости влияют несколько факторов.
1. Даже при весьма тщательной настройке системы в ходе эксплуатации сопровождение может быть начато с ошибкой DL относительно установленного значения L1, которая приводит к пропорциональной ошибке в оценке скорости. Например, при DL = ±2 м ошибка в дистанции начала сопровождения приводит к ошибке в оценке
скорости в ∆v1 = ±1,44 км/ч.
2. В силу дискретности телевизионного изображения значения
d1 и d2 могут быть измерены с точностью ±1 пиксель. В результате
значения k могут быть измерены неточно (например, 1,75–1,911 вместо 1,82 для легкового автомобиля), что приведет к ошибке в оценке
скорости ∆v2 = ±3 км/ч.
3. В силу дискретности телевизионной развертки по времени,
значения ∆t могут быть измерены с точностью ±1 кадр или ±0,0333
с, что дает ошибку в оценке скорости порядка ∆v3 = ±0,85 км/ч для
скорости в 60 км/ч и ∆v3 = ±1,7 км/ч для скорости 120 км/ч.
Если
считать,
что
приведенные
ошибки
независимы, то ожидаемая точность системы в указанных условиях
∆v = ± ∆v12 + ∆v22 + ∆v32 = ±3,74 км/ч.
Возможности повышения точности измерения скорости следующие.
1. Увеличение размера изображения объекта происходит при
приближении к камере, причем зависимость k = f(Z) всегда одинакова для конкретной дистанции сопровождения. Необходимо начинать сопровождение с одного и того же расстояния L1, которое было
использовано при определении опорной кривой k = f(t) в ходе контрольного прохождения автомобилем дистанции сопровождения
при настройке системы.
Если сопровождение начато с большего расстояния (или меньшего) зависимость относительного увеличения размера k от времени t
будет отличаться от опорной (рис. 3.26). В ходе сопровождения одновременно измеряют экранную координату y = f(t). Графики k = f(y)
аппроксимируют прямыми линиями. В случае если сопровождение автомобиля начато позже или раньше угол наклона прямой будет отличаться от аналогичной величины для опорной зависимости
(рис. 3.27).
171
k
1.8
1.64
1
1.48
2
1.32
1.16
t , кадры
12
24
36
48
60
Рис. 3.26. Кривые k = f(t) для различных L1:
1 – опорная кривая для скорости 60 км/ч;
2 – сопровождение начато с дистанции, большей на 6 м
k
1.8
1.64
2
1.48
1
1.32
1.16
1.0
0
30
60
90
120
150
y,
пиксель
Рис. 3.27. Зависимости k = f(y) для различных L1:
1 – опорная кривая для скорости 60 км/ч;
2 – сопровождение начато с дистанции, большей на 6 м
При определении скорости угол наклона линии сопровождаемого объекта сравнивают с углом наклона опорной линии. Результат
сравнения учитывают в качестве поправки при определении скорости
v¢ = v
tgγ
,
tgγ 0
где v′ – скорость транспортного средства, с учетом коррекции ошибки дистанции начала сопровождения; g – угол наклона зависимости
172
относительного увеличения размеры проекции от экранной координаты y; γ0 – угол наклона опорной прямой.
Принцип измерения скорости транспортных средств монокамерой основан на его сопровождении на дистанции порядка 20–30 м.
Повышение точности измерения скорости достигается за счет использования накопления по времени и пространству. За время сопровождения получают данные о размерах изображения в пределе
в каждом кадре телевизионной развертки. Объект проходит дистанцию сопровождения за время порядка 1–2 с, что позволяет произвести измерения в 25–50 кадрах [91]. На основании результатов измерения, подверженным ошибкам за счет дискретности растра и шумов, методом наименьших квадратов МНК строят регрессионные
кривые на основе полиномов второй или третьей степени (см. рис.
3.25, 3.26). Анализ полученных кривых позволяет получить оценки
размеров изображения объектов с точностью, лучшей одного пикселя (субпиксельная оценка), и измерять временные промежутки с
точностью, лучшей времени одного кадра телевизионной развертки. Тем самым ошибки ∆v2 и ∆v3 могут быть снижены приблизительно в N раз, где N – число обработанных кадров, т.е. в 5–7 раз.
Если проводить сбор данных об объектах вплоть до увеличения
коэффициента k, например в 1,5 раза (см. рис. 3.26), то значения ∆t0
и ∆t1, подставленные в выражение (3.4), дадут оценки скоростей vZ0
и vZ1.
Можно использовать другой подход. Коэффициент увеличения
размера объекта зависит только от его расстояния до камеры. Это
означает, что кривые 1 и 2 на рис. 3.25 могут быть совмещены путем
варьирования одного параметра: масштаба времени. Совмещение
кривых контролируют по всей их длине, а не в одной точке, как это
было в предыдущем случае. Это позволяет дополнительно сгладить
ошибки измерений.
Для сбора необходимой для расчетов информации проводят сегментацию [53, 99] и сопровождение изображений движущихся объектов с помощью корреляционно-экстремального алгоритма [117,
118]. Относительное увеличение размера проекции объекта k находят с помощью маски масштабирования, которую создают в начале сопровождения объекта. Алгоритм состоит из следующих шагов:
представление текущей маски масштабирования объекта в нескольких масштабах с заданным шагом; корреляционное сравнение текущего бинарного изображения объекта и сформированного набора масок масштабирования и определение лучшего соответствия;
173
модификация маски масштабирования. Набор масок в разном масштабе получают с помощью аффинных преобразований текущей
маски объекта. Вектор однородных координат пикселя увеличенной маски объекта
é S 0 0ù
ê
ú
x ¢ = êê 0 S 0úú × x,
ê 0 0 1ú
ë
û
где S – коэффициент масштабирования; x – вектор однородных координат пикселя исходной маски. Каждую маску из полученного набора сравнивают с изображением объекта и по минимуму меры различия R подбирают наиболее
подходящую:
m
R= å
n
å Lð (x, y) - Fi (x, y) ,
x=1 y=1
где Lр (x, y) – пиксели бинарного изображения объекта; Fi(x, y) –
пиксели маски; m, n – размеры маски в пикселях.
Маска с наименьшей R становится новой текущей маской масштабирования объекта, а соответствующий коэффициент S считают увеличением объекта в данном кадре видеопоследовательности.
Модификацию маски масштабирования проводят для соответствия
текущему изображению объекта. В ходе модификации из маски исключают лишние пиксели, полученные в результате масштабирования, которых нет в реальном изображении (рис. 3.28).
Для оценки точности измерителя скорости использовали четыре
видеофрагмента дорожного наблюдения, длительностью около 3500
кадров каждый, полученные в различных условиях и местах съемки. Для всех автомашин, попавших в поле зрения видеокамеры, в
ручном режиме были тщательно измерены скорости посредством
определения числа кадров, которое потребовалось автомобилю для
преодоления известного расстояния L (рис. 3.29).
Видеофрагменты подобраны таким образом, чтобы присутствовали разнообразные типы транспортных средств (легковые, грузовые, автобусы и т.д.), а интенсивность дорожного движения была примерно одинаковой для всех полос наблюдаемой магистрали.
Для дополнительной проверки достоверности измерений, в каждый
видеофрагмент включены несколько автомобилей с известной скоростью движения. Суммарное число транспортных средств, для которых была проведена оценка скорости – 104. По результатам моде174
175
Рис. 3.28. Модификация маски объекта при его приближении к камере
Рис. 3.29. Измерение скорости в ручном режиме
лирования для всего массива данных рассчитаны следующие статистические характеристики:
– среднеквадратическое отклонение (СКО) – 1,91 км/ч;
– среднее значение ошибки – 1,49 км/ч;
– абсолютное значение максимальной ошибки – 6 км/ч (для 97%
транспортных средств максимальная ошибка не превышает 3 км/ч);
– смещение оценки – + 0,48 км/ч.
На основании полученного массива данных рассчитаны статистические характеристики для отдельных полос движения
(табл. 3.1).
На основании проведенного моделирования можно сделать вывод о достаточно высокой точности телевизионной системы измерения скорости. Результаты исследований по полосам движения подтверждают возможность измерения скорости телевизионным методом на многополосной магистрали. Статистические оценки точности измерения мало отличаются по полосам движения и практически не смещены.
Таблица 3.1
Статистические характеристики для отдельных полос движения
Полоса
СКО,
км/ч
Максимальная
ошибка, км/ч
Среднее значение абсолютной ошибки, км/ч
Смещение
оценки, км/ч
1
2
3
1,637
2,18
1,34
3,0
6,0
3,0
1,28
1,7
0,89
0,4
0
0
176
На основании изложенного можно сделать следующие выводы.
1. Видеокамеры являются неотъемлемой частью приборов мониторинга транспортных потоков, так как без фоторегистрации результаты измерения не являются легитимными.
2. Тактика использования комбинированных приборов (фоторегистратор + радиолокационный или лазерный измеритель скорости) подвергает сомнению основные преимущества радаров: всепогодность и высокую дальность действия, так как качественную
фотографию транспортного средства, пригодную для его идентификации и определения номерного знака, можно получить на расстоянии порядка 50–100 м в условиях достаточной освещенности.
3. Достигнутая ширина плоской диаграммы направленности радара обеспечивает приемлемые результаты для одной полосы движения при установке прибора на расстоянии не более 50–60 м.
4. Узкие диаграммы направленности радаров вынуждают устанавливать приборы индивидуально для каждой полосы движения
и проводить измерения в локальных зонах на магистрали. В результате растут сложность и общая стоимость стационарного поста.
5. Задачу измерения скоростей всех транспортных средств, попадающих в поле зрения видеокамеры, решают путем анализа видеопоследовательности, причем дополнительные радарные измерители
оказываются излишними. Это приводит к существенному упрощению аппаратуры и позволяет устанавливать один измеритель для
обслуживания многополосной магистрали.
6. Основной недостаток телевизионных измерителей – зависимость от погодных условий – компенсируют введением подсветки
вблизи стационарного поста в видимом или инфракрасном диапазонах излучения. В развитых странах запрещено использование
вспышки для фоторегистрации из-за вредного воздействия на зрение водителей.
7. Точность измерения скорости с помощью одной видеокамеры
±3 км/ч уступает радарам, где достигнута точность ±(1–2) км/ч.
Вполне возможно, что эта точность несколько завышена в рекламных целях, так как неизвестно каким образом учитываются угловые
положения приборов, и учитываются ли вообще. В условиях, когда
водители не могут измерить скорость точнее, чем одно деление шкалы спидометра (10 км/ч), достигнутой точности телевизионным измерителем вполне достаточно для практического применения.
Характерными особенностями предложенного метода измерения скорости транспортных средств на основе анализа видеопоследовательности являются:
177
– использование накопления данных по времени и пространству
путем учета модификации всей площади изображения автомобиля
на интервале сопровождения, что позволило повысить точность измерения по сравнению с известными телевизионными методами;
– при реализации алгоритма измерения нет нужды в трудоемкой
калибровке камеры и привязки ее местоположения к мировым координатам;
– при установке и первоначальной настройке системы достаточно в автоматическом режиме получить опорную зависимость коэффициента увеличения размера изображения контрольного автомобиля при известной скорости его движения и траекторию его движения.
Другим вариантом настройки является анализ в ручном режиме фрагмента видеопоследовательности, отображающей движение
объекта с известными размерами на дистанции сопровождения.
Располагая данными о скоростях и траекториях движения сопровождаемых автомобилей, получают все основные параметры транспортного потока: интенсивность, средняя скорость. Дополнительно
можно судить о нарушениях: выезд на встречную полосу, нарушения
рядности движения, остановка в неположенном месте и т.п.
3.3. Анализ изображений
с использованием преобразования Хафа
3.3.1. Особенности решения задачи измерения
объема и ассортимента лесоматериалов
Деревообрабатывающая отрасль народного хозяйства в последние годы переживает бурный подъем. Вопрос точного учета сырья
и производимой продукции является одним из важнейших в условиях рыночных отношений и постоянной борьбы за минимизацию
издержек производства.
Существует большое количество разнообразных методов измерения объема леса. Все они отличаются друг от друга как по физическим принципам, заложенным в их основу, так и по способам вычисления объема. Высокий уровень погрешности измерения объема
круглых лесоматериалов приводит к недостачам или излишкам при
ревизиях остатков лесоматериалов на складах, колебаниям расхода
древесины на единицу продукции при переработке.
Большинство методов измерения объема круглого леса были
разработаны более 20 лет назад. Для них характерна низкая точность измерений: погрешность до 20%. Например, систематическая
178
погрешность измерения объема круглого леса по ГОСТ 2708-75 достигает 11%, хотя установленные стандартом нормы допускают погрешность в 5% [119, 120]. Проблема точного измерения объема в
сфере лесной промышленности актуальна, поэтому нужны новые
технологии и инструментальные средства.
В настоящее время исследования привели к появлению целого
класса методов, процесс измерения в которых состоит в регистрации отраженного излучения (различной природы) от объекта измерения и многоэтапной компьютерной обработки результатов регистрации. Реализация этих методов обеспечивает следующие преимущества:
– отсутствие непосредственного контакта с объектом измерения;
– объективность измерения (отсутствие человеческого фактора);
– высокая точность и повторяемость;
– высокая производительность.
Для автоматизации процесса и повышения точности расчета
числа и площади торцов пачки бревен разработан фотометрический
метод измерений: создан макет и экспериментальное программное
обеспечение, в основе которого лежит модификация преобразования Хафа (ПХ) [121]. Аппаратная часть измерительной системы
включает фотоаппарат высокого разрешения и персональный компьютер, оснащенный платой захвата и оцифровки изображений.
Расчет заданных параметров может производиться как в полностью автоматическом режиме, так и в полуавтоматическом режиме
с участием оператора.
При автоматизированном анализе цифровых изображений очень
часто возникает проблема идентификации простых фигур, таких
как прямые, круги или эллипсы. В качестве предобработки во многих случаях используют алгоритм детектирования границ для получения точек, находящихся на контурах изображения. Однако
либо из-за зашумленности изображения, либо из-за несовершенства алгоритма детектирования границ могут появиться разрывы
кривой, так же как и отклонения от идеальной формы прямой, круга или эллипса. По этим причинам часто довольно сложно сгруппировать выделенные границы в соответствующий набор прямых,
кругов и эллипсов. Назначение ПХ в том, чтобы разрешить проблему группировки граничных точек путем применения определенной
процедуры голосования к набору параметризованных объектов изображения.
С учетом особенностей конкретных прикладных задач используют различные модификации ПХ, более эффективные, чем клас179
сическое преобразование. Поэтому актуальным является создание
целевых алгоритмов с использованием ПХ, разработанных специально для определенной системы анализа изображений или распознавания объектов.
3.3.2. Выделение прямых линий и окружностей
Рассмотрена одна из модификаций ПХ, введенного Полем Хафом (Hough) в 1962 году [6]. По своей сути преобразование Хафа —
это метод извлечения объектов интереса из сцены, который применяют при анализе изображений и в компьютерном зрении. Данный
метод предназначен для поиска объектов, принадлежащих определенному классу фигур, с использованием процедуры голосования.
Процедуру голосования применяют к пространству параметров,
из которого выделяют объекты определенного класса фигур по локальным максимумам количества отсчетов в так называемом накопительном пространстве (accumulator space), которое строят при реализации ПХ.
ПХ позволяет выделять на монохромном изображении аналитически заданные кривые. В простейшем случае ПХ является линейным преобразованием для обнаружения прямых линий. Прямая
линия может быть задана уравнением
(3.6)
y = mx + d, где m – коэффициента наклона; d – точка пересечения с осью абсцисс.
Основная идея ПХ – описать характеристики прямой не в виде
точек изображения, а в терминах ее параметров m и d. Тогда прямая, заданная уравнением (3.6), может быть представлена в виде точки
y
с координатами (d, m) в пространстве
параметров. Для удобства вычислений лучше представить прямую линию с помощью других параметров,
известных как ρ и q. Параметр ρ
ρ
представляет собой евклидову норму
θ
вектора, проведенного от начала координат до ближайшей точки на пряx
мой, а q – это угол между этим вектором и осью абсцисс (рис. 3.30).
Рис. 3.30. Параметрическое
Тогда уравнение прямой линии
задание прямой линии
можно записать:
180
æ cos θ ö÷
æ ρ ö÷
y = çç÷ x + ççç
÷,
èç sin θ ÷ø
è sin θ ø÷
или иначе
(3.7)
ρ = x cos θ + y sin θ.
Выражение (3.7) позволяет связать с каждой прямой на изображении пару параметров ρ и q, которая является уникальной. Плоскость (ρ, q) иногда называется пространством Хафа для набора прямых линий в 2D-случае.
Бесконечное число прямых линий может проходить через одну точку плоскости (x,y). Если эта точка имеет координаты (x0,y0) в
изображении, то все прямые, проходящие через нее, соответствуют
следующему уравнению:
ρ(θ) = x0 cos θ + y0 sin θ.
(3.8)
Таким образом, функция, задающая семейство прямых линий,
имеет вид
F (ρ, θ, x, y) = x cos θ + y sin θ - ρ,
что соответствует синусоидальным кривым в (ρ, q)-пространстве, и
каждая кривая при этом уникальна для данной точки.
Если задать несколько точек, принадлежащих одной прямой линии, и построить в пространстве (ρ, q) по уравнению (3.8) соответствующие им кривые, то точка, где они пересекаются, определяет
эту прямую линию (рис. 3.31). Таким образом, проблема обнаружения коллинеарных точек может быть сведена к проблеме обнаружеρ
y
x
θ
Рис. 3.31. Три точки, принадлежащие одной прямой линии,
в двух системах координат: (x,y), (ρ, q)
181
ρ
y
x
θ
Рис. 3.32. Прямые линии в двух системах координат: (x, y) и (r, q)
ния пересекающихся синусоидальных кривых и проблеме подсчета
числа общих для кривых точек.
Рассмотрим пример, показывающий на растровом изображении
результаты ПХ для двух прямых линий. В пространстве Хафа имеют место две яркие точки, где пересекаются кривые, характерные
для каждой из этих линий (рис. 3.32) [6]. Координаты этих точек и
определяют параметры ρ и q заданных прямых.
Такой переход в новое пространство параметров делает возможным практическое применение ПХ. При реализации ПХ пространство параметров дискретизируется, что позволяет создать множество ячеек накопления, образующих аккумулятор для используемых параметров в диапазоне их возможных значений. Так, для прямых линий это будут ячейки с координатами (ρ, q), в которых накапливаются значения из пространства параметров ПХ [6].
Возможно применение ПХ к любой аналитически заданной
функции, например к окружности, хорошо описывающей изображения торцов бревен.
Геометрическое место точек окружности определяется уравнением
(x - a) 2 +(y - b)2 = r 2 ,
где (a, b) – координаты центра окружности; r – ее радиус. Отсюда
функция, задающая семейство окружностей:
2
2
F (a, b,r , x, y) = (x - a) + (y - b) - r 2 .
Если ставится задача найти окружность заранее известного радиуса, то параметрическим пространством будет плоскость параметров центра окружности (a, b). В этом случае алгоритмы выделения
182
прямых линий и окружностей аналогичны. Если радиус окружности заранее неизвестен, то пространство параметров будет трехмерным – (a, b, r), что существенно увеличивает вычислительную
сложность решения задачи. Основное отличие от ранее описанного
случая состоит в увеличении числа параметров до трех (a, b, r), что
приводит к трехмерному пространству параметров с кубическими
ячейками в аккумуляторе.
Алгоритм выделения окружностей на основании ПХ таким образом можно описать так [121]:
1) вычисляется модуль градиента исходного изображения в каждой точке (пикселе), который подвергается пороговому преобразованию, в результате чего формируется двоичное изображение;
2) выполняется разбиение (дискретизация) пространства параметров на ячейки накопления;
3) для всех ненулевых пикселей двоичного изображения, полученного в п.1, находятся образы в пространстве параметров, и осуществляется процедура накопления в указанных ячейках;
4) анализируются накопленные значения и отыскиваются ячейки с наибольшей концентрацией точек;
5) исследуются отношения между пикселями изображения, соответствующими выбранным ячейкам накопления (в основном, на
предмет связности).
Необходимость полного перебора точек в исходном пространстве
измерений приводит к большим временным затратам на реализацию алгоритма ПХ, что является главным его недостатком. Снизить размерность задачи можно путем сведения преобразования к
последовательному применению двумерного преобразования для
оценки положения центра окружности, а затем одномерного – для
оценки радиуса окружности.
Преобразование Хафа эффективно только при значительном
числе «попаданий» в соответствующий дискретный элемент пространства Хафа (ячейку накопления), когда можно с уверенностью
определить фигуру, пренебрегая фоновым шумом. Это значит, что
размер элемента не должен быть очень маленьким, иначе некоторые
значения попадут в соседние элементы, уменьшая значимость нужного элемента [122].
Эффективность алгоритма в большой степени обусловлена качеством входных данных: границы должны быть четко определены.
Использование ПХ на зашумленных изображениях затруднено.
Для зашумленных изображений необходим этап предобработки с
целью подавления шума.
183
На первом шаге обработки бинарного изображения выбирают
сетку дискретизации. В связи с этим выбором возможны следующие проблемы.
1. Мелкие ячейки сетки. Форма реальной анализируемой кривой
не идеальна, а значит, потенциальный максимум аккумулятора,
соответствующий этой кривой, будет «размыт» и его сложнее или
вообще невозможно найти.
2. Крупные ячейки сетки. В одну ячейку аккумулятора могут попасть точки, принадлежащие разным кривым.
3. Из-за влияния шума анализируемая кривая деформируется,
что приводит к размытию пика в аккумуляторе.
Заполнение аккумулятора является самой трудоемкой частью
алгоритма из-за высокой размерности пространства параметров и
частой сетки дискретизации.
3.3.3. Организация процесса измерения
Задачей рассматриваемой системы является подсчет числа бревен и измерение их диаметров по цифровой фотографии лесовоза
(рис. 3.33). Для этого необходимо выполнить ряд алгоритмов обработки изображений торцов бревен (см. рис. 3.34). Автомобиль устанавливают в специально отведенной для измерения предварительно
подготовленной зоне. В качестве исходной информации для определения параметров лесоматериалов используют цифровую фотогра-
Рис. 3.33. Исходное изображение лесовоза
184
а)
б)
Рис. 3.34. Кадрированное изображение (а) и результат выделения
контуров фильтром Собела (б)
фию с разрешением не менее 1500 × 2000 пикселей. Чтобы обеспечить постоянство освещения при съемке используют искусственные источники света. Для правильного измерения размеров торцов
бревен по цифровому изображению необходима жесткая фиксация
взаимного расположения лесовоза и камеры, установленной по нормали к плоскости среза бревен на расстоянии около 6 м от лесовоза.
Целесообразно использовать лазерный дальномер, позволяющий
измерять расстояние с точностью до 3 мм. Для перевода растрового
размера в реальный, его умножают на коэффициент пересчета (цена
пикселя), который находят аналитически с учетом фокусного расстояния объектива. Для сокращения объема вычислений выделяют
информативную часть исходного изображения (рис. 3.34, а) [123].
Предварительная обработка
Исходное изображение подвергают предварительной обработке. Обычно реализуют следующие этапы: перевод изображения из
цветного в черно-белое, выделение контуров объектов, пороговая
обработка для получения бинарного изображения и доработка его с
целью шумоподавления (рис. 3.35).
Контура выделяют фильтром Собела ввиду простоты его реализации и быстродействия (рис. 3.34, б) [124]. Для бинаризации изображения используют простой и хорошо адаптированный к данной
ситуации алгоритм k-средних:
1) выбрать порог Td равным середине диапазона яркостей;
185
2) вычислить среднюю яркость
m1 всех пикселей с яркостью < Td,
аналогично – m2 для пикселей с яркостью > Td;
Выделение контуров
3) пересчитать порог Tп = (m1 +
+ m2) / 2;
4) если Td ≠ Tп, то повторять шаги
Бинаризация
2 и 3 до тех пор, пока Tп не перестанет изменяться.
Результат бинаризации предМорфологоческая обработка
ставлен на рис. 3.36, а. В полученном бинарном изображении наряду
с элементами контуров, принадлеПрореживание
жащих торцам бревен, присутствует значительное число разрозненных отметок (см. рис. 3.36, а). Перед
Преобразование Хафа
тем как применить ПХ, необходимо
провести дополнительную обработку по их удалению. Эксперименты
Выделение окружностей
показали, что наиболее эффективно
работает морфологический фильтр
с маской 3 × 3. Этот фильтр эффекРис. 3.35. Последовательность
алгоритмов обработки
тивно удаляет шумы, но и некотоизображения
рые части нужных контуров, поэтому его параметр выбирают экспериментально. В результате провеРегистрация изображения
а)
б)
в)
Рис. 3.36. Результаты обработки изображения:
бинаризация алгоритмом k-средних (а); после морфологической
фильтрации (б); после прореживания (в)
186
денных исследований наиболее приемлемые результаты дал фильтр
с пороговым значением 4 (рис. 3.36, б)[125].
На этапе перехода к ПХ целесообразно уменьшить разрешение
снимка, чтобы сократить объем вычислений и частично устранить
лишние элементы изображения. При компьютерной обработке радиусы бревен измеряют в растровых элементах (пикселях). Для обеспечения необходимой точности измерения диаметра торца бревен достаточно обеспечить отображение одного сантиметра исходного изображения торца двумя пикселями фотоизображения. Если учесть,
что плоскость бревен на лесовозе занимает участок 2,5 × 2,5 м,
то с учетом запаса по точности отображения достаточным будет разрешение изображения 500 × 500 пикселей (рис. 3.36, в).
К полученному после предобработки изображению применяют
преобразование Хафа.
Преобразования Хафа
Создают трехмерный аккумулятор, включающий совокупность
двумерных подматриц накопительных ячеек с координатами (a, b)
для каждого радиуса rn из возможного диапазона значений диаметров торцов бревен. Устанавливают значение радиуса rn из заданного диапазона.
Попиксельно сканируют изображение (рис. 3.37, а). При попадании на значимый (белый) пиксель (ax, by) вычисляют координаты точек, принадлежащих окружности радиуса rn из условия
а)
б)
Рис. 3.37. Пример визуализации аккумулятора с r = 16
187
(x – ax)2 + (y – by)2 = rn2 и инкрементируют соответствующие им
ячейки. Таким образом, в каждой подматрице аккумулятора фиксируют окружности определенного радиуса. В силу дискретности изображения задают допуск e для учета близлежащих точек:
rn2–e ≤ x2 + y2 ≤ rn2 + e. Если взять допуск e слишком малым, то
можно выделить из изображения лишь идеальные окружности.
При слишком большом допуске возникает опасность равномерного заполнения всех ячеек, что не дает возможности идентифицировать окружности этого радиуса. Эту процедуру применяют ко всем
белым пикселям изображения для всех значений радиусов из заданного диапазона. На рис. 3.37, б приведен пример визуализации
данных аккумулятора обрабатываемого изображения. После выполнения ПХ получается множество таких подматриц, каждая из
которых характеризует наличие соответствующих окружностей в
изображении. Чем большее значение имеет элемент ячейки накопления подматрицы, тем выше вероятность нахождения там центра окружности соответствующего радиуса. К сожалению, полученные данные не дают возможности в прямую получить интересующую нас информацию, поэтому их необходимо подвергнуть дополнительной обработке.
На рис. 3.38 приведены изображения, визуализирующие данные
подматриц аккумулятора для различных радиусов, нормированные по отношению к максимальным значениям подматриц. Рельеф
данных подматриц характеризуется многими локальными максимумами, только некоторые из которых являются центрами иско-
Рис. 3.38. Варианты визуализации аккумулятора
для различных радиусов
188
мых окружностей заданного радиуса.
С целью сравнения на рис. 3.39 представлен рельеф подматрицы аккумулятора для изображения с идеальными окружностями, расположенным
на удалении друг от друга.
Для надежного выделения окружностей, соответствующих подлинным
торцам бревен, необходимо провести
дополнительную обработку полученных данных. Предложено использовать две вспомогательные гистограммы – максимумов и совпадений, аргуРис. 3.39. Иллюстрация
ментом в которых выступает радиус
аккумулятора
окружностей. Гистограмма максиму- с идеальными окружностями
мов отображает максимальные накопленные значения в подматрицах аккумулятора для окружности с координатами центра (ax, by) заданного радиуса (рис. 3.40). Гистограмма совпадений – процентное отношение отсчетов значений гистограммы максимумов к числу пикселей, принадлежащих идеальной окружности соответствующего
радиуса (рис. 3.41). Выделяют окружности с координатами центров
250
Уровень совпадения, %
200
150
100
50
0
10
15
20
25
Растровый размер радиуса
30
Рис. 3.40. Гистограмма максимумов
189
90
80
Уровень с овпадения, %
70
60
50
40
30
20
10
0
10
15
20
25
Растровый размер радиуса
30
Рис. 3.41. Гистограмма совпадений
(ax, by) и радиусами, для которых значения гистограммы совпадений превышают найденный экспериментально порог в 70%. Формируют соответствующие им маски в виде кругов, которые накладывают на исходное цветное изображение. Экспериментально найдено, что значения цветовых составляющих для торцов бревен лежат в диапазоне R = 150±50, G = 130±50; B = 110±50. В пределах
наложенных масок подсчитывают число пикселей, цвет которых
входит в указанный цветовой диапазон. Если полученное значение
превышает 90% от площади круга (выраженной в числе пикселей),
то принимают решение, что найденный фрагмент принадлежит
торцу бревна. Эти фрагменты удаляют из бинарного изображения
(рис. 3.42). Модифицированное изображение снова подвергают обработке с помощью ПХ с целью выделения оставшихся окружностей. Вид гистограммы совпадений, полученной после удаления некоторого числа фрагментов, показан на рис. 3.43.
Последующий анализ полученных данных с помощью вспомогательных гистограмм и цветовой обработки позволяет выделить еще
ряд окружностей, принадлежащих торцам бревен.
В каждом цикле ПХ рассчитывают значение порога выделения окружности по гистограмме совпадений. Экспериментальные
результаты показывают, что этот порог составляет 90% от максимального значения в матрице совпадений. Цикл прекращают, когда максимальное значение в гистограмме совпадений становится
190
Рис. 3.42. Результирующее изображение после удаления фрагментов
60
Уровень совпадения, %
50
40
30
20
10
0
10
15
20
25
Растровый размер радиуса
30
Рис. 3.43. Гистограмма совпадений после удаления фрагментов
меньшим заданного порога. Оставшиеся пустые места в модифицированном бинарном изображении заполняют окружностями с максимально возможными радиусами с проверкой на цвет по исходному изображению (рис. 3.44). Алгоритм заполнения состоит из следующих операций:
191
Рис. 3. 44. Результат заполнения площади изображения
– определение границ поперечного сечения погрузочного объема
лесовоза;
– заполнение пустых мест на изображении.
Для определения границ поперечного сечения погрузочного объема лесовоза используют метод наименьших квадратов. Нижняя и
боковые границы обычно являются прямыми. Верхнюю границу
аппроксимируют полиномом второй степени (см. рис 3.42, 3.44).
3.3.4. Точность измерений
Из-за того, что срезы бревен представляют собой деформированные окружности, аппроксимация их идеальными окружностями с
помощью ПХ вносит ошибку при определении площади торца бревна. При подсчете ручным методом в приведенном примере площадь,
занимаемая торцами бревен, составила 201391 пиксель. Выделенные программой окружности покрывают 199243 пикселя, при этом
653 пикселя выделены внутри окружностей, но не принадлежат им,
и 825 пикселей пропущены из-за неидеальной формы спилов. Таким образом, интегральная ошибка измерения площади, занимаемой торцами бревен, составляет около одного процента.
Взаимное расположение фотокамеры и лесовоза определяют по
лазерному дальномеру с пренебрежимо малой погрешностью, однако срезы бревен на лесовозе не лежат в одной плоскости. Отклонения срезов бревен от средней плоскости проекции обычно не превышают 10 см (рис. 3.45), что дает погрешность в определении расстояния не более 2%.
192
При цене пикселя 0,5 см сред10 10
няя ошибка при расчете площади
из-за дискретизации составляет
0,25 см2.
Разработанный алгоритм и написанная на его основе программа, как показали многочисленные
эксперименты, позволяют производить измерение площади торцов
делового леса в загрузочном отсеке лесовоза с погрешностью менее Рис. 3.45. Проекции концов бревен
3,5%. Данная система может применяться на лесопромышленных комплексах для учета количества
древесины. Система не уступает существующим контактным и бесконтактным методам измерения параметров лесоматериала. Возможна модификация алгоритма обработки для применения его в
различных областях деятельности (в медицине, в электронике, в области идентификации человека по радужке глаза и т.п.).
193
4. Системы видеонаблюдения
окружающего пространства
4.1. Монокамерные системы видеонаблюдения
Система видеонаблюдения включает в себя совокупность видеокамер, линий связи и мониторов. В последнее время в качестве оконечных устройств предпочитают использовать компьютеры. Прогресс в области вычислительной техники, разработка новых типов преобразователей свет-сигнал, в том числе высокой четкости и
управляемым окном, способствует построению видеосистем нового
поколения, обладающих интеллектом. На предыдущих этапах развития прикладные телевизионные системы имели распределенную
структуру, в которой каждая функция системы выполнялась отдельным аппаратным блоком. Развитие аппаратной базы и вычислительной техники обусловило появление видеокомпьютерных систем. Дальнейшей ступенью развития прикладных телевизионных
систем явилось появление «систем на кристалле», где в рамках одного модуля интегрированы получение и обработка видеосигнала.
Возможности современной вычислительной техники и новая
аппаратная база позволяют выполнять эффективную обработку и
анализ видеоданных. Для систем видеонаблюдения это предполагает построение систем, обеспечивающих максимальный уровень
эргономичности и предоставляющих оператору всю необходимую
информацию об объекте интереса. Целесообразно предъявлять оператору не исходный видеоматериал, а синтезированное на его основе изображение, обладающее качественно новыми свойствами. Возможно изменение временного масштаба: изображение может быть
остановлено, замедлено, ускорено. Качество созданного изображения может быть лучшим, чем у исходного, в частности по таким
важнейшим показателям как разрешающая способность и геометрические искажения. При синтезе удаляют избыточную информацию, в результате чего реализуют семантическое сжатие в десятки
раз без потери информации об объектах интереса. Это позволяет запоминать значительный объем видеоданных на носителе, обеспечить передачу высококачественных изображений в реальном времени по каналам связи с низкой пропускной способностью.
Основной проблемой при создании современных систем видеонаблюдения является обеспечение глобального отображения окружающего пространства, позволяющего оператору принимать оп194
Рис. 4.1. Пульты видеонаблюдения с применением мультиэкранов
и квадраторов
тимальные решения. Традиционно для наблюдения за протяженными объектами используют многокамерные системы, где каждая
из камер следит за определенной зоной на объекте. Для развертывания таких систем с целью покрытия всех важных зон требуется
большое число видеокамер, дополнительное оборудование и обслуживающий персонал. Необходима одновременная работа нескольких операторов, которые должны вдобавок обладать хорошим пространственным воображением. При этом наглядность восприятия в
целом всей ситуации на контролируемом объекте оставляет желать
лучшего. Все это влечет за собой ограничение оперативных возможностей и увеличение стоимости системы видеонаблюдения пропорционально размеру объекта.
Дальнейшее развитие многокамерных систем с применением
мультиэкранного отображения картинки с видеокамер также не
смогло кардинально решить проблему удобства восприятия информации (рис. 4.1). Использование последовательных видеокоммутаторов (устройств для последовательного вывода изображения от камер
на один монитор) или квадраторов (устройств для одновременного
вывода изображения от нескольких камер на один монитор) нельзя
признать эффективным. Полезным решением явилось бы наблюдение лишь одной камерой с геостационарного спутника земли. К сожалению, из-за влияния погодных условий такая система наблюдения не представляется реальной. Подъем видеокамер на привязных
аэростатах или мини-вертолетах сопряжен с существенными эксплуатационными расходами и требует создания стабилизированных
платформ для точной ориентации камер в пространстве.
195
В случае, когда объект наблюдения превосходит по своим размерам поле зрения телевизионной камеры, для его осмотра применяют панорамирование. Телевизионные системы, использующие такой подход, весьма разнообразны. Ниже приводятся типичные примеры.
В охранном телевидении используют камеры с поворотными устройствами. Это позволяет обеспечить наблюдение обширных территорий с помощью небольшого числа камер. Поворотные
устройства могут управляться как вручную, так и автоматически,
сканируя пространство.
При наблюдении с воздуха летательный аппарат с установленной телевизионной аппаратурой пролетает по заданному маршруту,
при этом видеоинформация накапливается, что позволяет сформировать единое изображение местности.
Размещение видеокамер на крышах зданий вдоль транспортных магистралей применяют во многих странах. На основе анализа
видеоданных получают сведения об оперативной обстановке. Применительно к дорожному движению – это плотность транспортного потока, параметры движения как усредненные (например, средняя скорость потока машин), так и индивидуальные для отдельных
транспортных средств (ТС). Реализуют телевизионное сопровождение указанных оператором транспортных единиц и их классификацию. На основе найденных характеристик транспортного потока и
окружающей обстановки по существующей методике может быть
оценена степень загрязнения воздуха и решены другие задачи.
На железнодорожном транспорте используют системы дистанционного осмотра подвижного состава, включающие набор неподвижных камер. На основе телевизионного изображения от камеры, расположенной в непосредственной близости от проходящего состава,
может быть сформировано статическое панорамное изображение
состава, позволяющее оператору осмотреть вагоны и выявить нештатные ситуации [128, 135].
Системы видеонаблюдения реализуют функцию информирования в рамках нескольких направлений: 1) извлечение информации
из видеоданных и ее использование для принятия оперативных решений; 2) получение видеоданных в сложных условиях (высокая
температура, сильная радиация и т.п.) или из невидимого человеком диапазона волн; 3) объединение и визуализация данных от различных датчиков.
Минимальный набор компонентов системы прикладного телевидения: сенсор, устройство обработки, блок управления и индика196
ции. Часто вместе с телевизионными камерами применяют второй
сенсор, который может быть камерой ИК-диапазона или устройством, использующим другие принципы работы (радар, лазерный
дальномер, микрофон и т.п.). Устройство обработки решает ряд задач:
– обработка (улучшение качества изображения, сжатие);
– принятие решений о необходимости изменить условия наблюдения (обратная связь с камерой);
– принятие решений о необходимости повлиять на наблюдаемую
сцену (обратная связь с объектами наблюдения) – передать сигнал
тревоги по каналу связи, передать управляющий сигнал на исполнительное устройство (звуковая, знаковая или световая сигнализация, шлагбаум, конвейер, средства пожаротушения);
– формирование и сохранение в устройстве хранения информационных кадров);
– отправка информации по каналу связи;
– обработка принятой по каналу связи информации.
Если полученные видеокадры требуют внимания человека, то
их передают по каналу связи к наблюдателям. Наблюдатели могут
иметь разные права: одни могут связаться по каналу связи с передающей стороной (активные участники в работе системы – операторы
наблюдения), а другие – только наблюдать (пассивные участники –
наблюдатели «во втором ряду»). В некоторых случаях операторы
наблюдения являются промежуточными звеньями между передающей стороной и наблюдателями (рис. 4.2).
Одно из наиболее актуальных направлений внедрения систем
видеонаблюдения – решение задач автоматизированного управления дорожным движением (АСУДД). Системы АСУДД имеют следующие цели: обеспечение максимальной пропускной способности
существующей дорожно-уличной сети (ДУС) города, формирование оперативной информации в заданных участках ДУС, выявление оптимальной скорости движения в заданных участках ДУС,
оперативное выявление дислокации и причин возникновения пробок, визуальная поддержка принятия решений при диспетчерском
управлении техническими средствами регулирования движения,
приоритетный пропуск городского пассажирского транспорта, снижение экологической нагрузки на город, поддержка специальных
мероприятий, анализ изменений интенсивности транспортных
потоков (ТП) в течение определенного времени, анализ дорожнотранспортных происшествий (ДТП) и принятие решения о выезде
групп оказания помощи, выявление нарушений правил дорожного
197
ИУ
О
УО
ОС
ТВК
БО
К
К
ОН
ЗУ
КС
ВС
БО
БУиИ
ОС
Н
УО
КМ
ЗУ
Н
Рис. 4.2. Обобщенная структурная схема системы видеонаблюдения:
БО – блок обработки, ВС – второй сенсор, ЗУ – запоминающее
устройство (ОЗУ и ПЗУ), К – кодек, КС – канал связи, Н – наблюдатель,
О – оператор наблюдения, ОН – объект наблюдения, ОС – обратная связь,
КМ – клавиатура/манипулятор, БУиИ – блок управления и индикации,
УО – устройство отображения, ТВК – ТВ камера, ИУ – исполнительное
устройство
движения (ПДД), распознавание автомобильных номерных знаков,
прогнозирование заполнения транспортом прилегающих к участку
перекрестков и пешеходных переходов [132, 133].
Совокупность средств получения, передачи и обработки информации образует единую систему мониторинга транспортных потоков города. Ее главной задачей является достоверное измерение
параметров ТП (состав, плотность, неравномерность, средняя скорость потока, скорость и ускорение отдельного транспортного средства) для эффективного управления дорожным движением. Одним
из основных звеньев системы мониторинга являются детекторы
транспорта (ДТ), включающие аппаратуру обнаружения, распознавания и измерения [136].
К достоинствам телевизионных систем относятся: пассивный
съем информации, сравнительная простота установки, высокая информативность. Основной проблемой методов обработки видеопоследовательностей является качество исходного видеоматериала (меняющийся контраст, неравномерная освещенность кадра, погодные
условия, наличие помех).
198
В ряде современных разработок применяют две камеры. Результат анализа видеоинформации от первой камеры используют для
управления второй камерой, которая записывает номерные знаки
проезжающего автомобиля, если он превышает скоростной режим.
Есть несколько вариантов установки камер:
1) камеры расположены рядом: камера с нормальным объективом формирует изображение наблюдаемого участка дороги; камера
с телеобъективом фиксирует номерные знаки;
2) камеры расположены друг от друга на расстоянии в сотни метров (вторая камера фиксирует передние номерные знаки автомобиля);
3) камеры установлены недалеко друг от друга, но направлены в
противоположных направлениях (вторая камера фиксирует задние
номерные знаки).
Система телевизионного наблюдения обеспечивает:
– наблюдение за условиями движения транспортного потока и в
том числе визуальное обнаружение оператором инцидентов;
– автоматическое обнаружение инцидентов при анализе видеоизображений от телекамер;
– автоматическое обнаружение транспорта с негабаритным грузом (по длине транспортного средства);
– наблюдение за работой технических средств системы (светофоров, шлагбаумов и др.) с помощью поворотных телекамер, а также
автоматическая фокусировка видеокамер на установленные объекты в случае вандализма;
– вывод на мониторы, полиэкран и видеостену изображения с
любой видеокамеры;
– подача сигнала тревоги при пропадании видеосигнала (video
loss) из-за технической неисправности или вандализма;
– видеозапись.
С помощью видеосистем решают следующие задачи:
– координированное управление работой светофорных постов;
– автоматическое управление транспортными потоками с помощью регулирования работы локальных светофорных постов из диспетчерского центра;
– телемониторинг транспортной ситуации в заданных точках;
– операторное выявление дислокации и причин возникновения
пробок;
– визуальная поддержка принятия решений при диспетчерском
управлении техническими средствами регулирования движения;
– поддержка спецмероприятий;
199
– анализ ДТП и других чрезвычайных ситуаций;
– анализ изменения транспортной ситуации в целом;
– изменение интенсивности транспортных потоков в течение времени;
– выявление наиболее оптимальной скорости движения на заданных участках;
– приоритетный пропуск городского пассажирского транспорта.
В организации видеомониторинга транспортных потоков важную роль играет выбор типа видеокамеры, параметры ее установки,
фокусное расстояние объектива, освещение наблюдаемого участка
дороги, отражательная способность дорожного покрытия. Целесообразно использовать видеокамеры с «нормальным» объективом со
стандартным фокусным расстоянием, который передает перспективу пространства так же, как ее видит человек невооруженным глазом. Обычно принимают стандартное фокусное расстояние равным
длине диагонали активной зоны фотодатчика. Например, для матрицы 1/3 дюйма стандартное фокусное расстояние составляет 6
мм. В табл. 4.1 даны углы обзора по вертикали (vert) и горизонтали
(hor) и размеры наблюдаемой зоны в зависимости от выбранного фокусного расстояния f и дистанции до камеры. Размеры зоны в метрах указаны в виде произведения ширины на высоту.
Получаемые видеокамерой изображения подвержены перспективным искажениям, и разрешающая способность по пространству
Таблица4.1
Углы обзора камеры и линейные размеры видимого пространства
в зависимости от фокусного расстояния и дистанции
Дистанция и размеры
зоны, м
f, мм
hor, °
vert, °
3
5
10
20
30
40
50
80
100
150
200
2,8
93°
70°
5,1×3,8
8,2×6,2
13×9,7
34×25,5
51×38
69×52
3,6
78°
55°
4×3
6,6×4,5
13×10
26×20
40×30
53×40
6
50°
38°
2,4×1,8
4×3
8×6
16×12
24×18
32×24
40×30
64×48
8
38°
29°
1,8×1,35
3×2,2
6×4,5
12×9
18×13,5
24×18
30×22,5
48×36
60×45
12
25°
19°
1,2×0,9
2×1,5
4×3
8×6
12×9
16×12
20×15
32×24
40×30
60×45
16
17°
13°
0,9×0,7
1,5×1,1
3×2,2
6×4,5
9×6,7
12×9
15×11
24×18
30×22
45×34
будет неравномерна по полю изображения. Малые фокусные расстояния приводят к сильным искажениям типа «рыбий глаз».
Определим размеры контрольной зоны и число контролируемых
полос движения. Существуют два распространенных подхода к расположению камеры относительно дороги [136]. Первый подход заключается в установке камеры на мосту по центру магистрали. В
этом случае высота установки должна быть порядка 6 м и выше в
зависимости от длины наблюдаемого участка. Этот вариант предусматривает долговременное стационарное размещение видеодетектора транспорта. Второй подход состоит в том, чтобы крепить камеру на мачту, установленную на специальном автомобиле. При этом
угол между осевым положением камеры и полотном дороги должен
составлять не более 30 градусов. Для того чтобы не было заслона одних ТС другими, требуется установка камеры на высоте не менее 15
м. Этот вариант позволяет оперативно перемещаться от одной магистрали к другой. В настоящее время предпочтение отдают стационарному варианту [131].
Для правильного опознавания транспортных средств необходимо, чтобы наличие ТС в контрольной зоне подтверждалось на протяжении нескольких кадров. Пусть для надежного определения класса автомобиля и его средней скорости движения требуется, чтобы
автомобиль, едущий на максимальной скорости Vmax = 120 км/ч,
проезжал от начала контрольной зоны (КЗ) до ее конца не менее чем
за 10 кадров. Тогда минимальная длина КЗ составляет 14 м, а ширина – 18 м в соответствии с форматом кадра. От длины и ширины КЗ
зависит высота установки видеокамеры.
Выбор высоты установки видеокамеры производят исходя из
длины обозреваемого участка A1B1 (рис. 4.3) и максимальной высоС
О1
A
γ
M
ТС
A1
О
B
H
θ
M1
B1
H1
Рис. 4.3. Определение высоты установки видеокамеры
с учетом высоты ТС в дальнем конце контрольной зоны
201
ты подлежащего опознаванию транспортного средства (не более 4 м
на автомобильных дорогах общего пользования [13]). Для исключения ситуации, когда грузовики или другие высокие и длинные ТС в
дальней части КЗ перекрывают движущиеся за ними легковые автомобили, надо обеспечить длину контрольной зоны AB в 14 м на
указанной высоте (см. рис. 4.3).
На основании геометрических построений (см. рис. 4.3) высота
γ
γ
AB × sin(θ + ) × sin(θ - )
2
2
CH =
=
sin γ
16,02 × sin 58°× sin 20° 16,02 × 0,848 × 0,342
=
=
= 7,53 ì,
sin 38°
0,616
где угол γ взят из табл. 4.1 для фокусного расстояния f = 6 мм и равен 38°, а q = arctg(1/1,25) = 39°.
С учетом предельной высоты транспортного средства HH1 = 4 м
высота подвеса видеокамеры СН1 = СН + НН1 = 11,53 м.
Оптимальная длина контрольной зоны
A1 B1 =
AB(CH + HH1 ) 16,02(7,53 + 4)
=
= 24,53 ì.
CH
7,53
Транспортное средство, двигающееся со скоростью 120 км/ч, будет наблюдаться на протяжении более 18 кадров.
Стандартная ширина для городских полос дорожного движения
первой и второй категории дорожного движения равна 3,75 м [13].
Ширина дальнего контрольного сечения КЗ будет равна примерно
28 м при удалении от камеры на 35 м (табл. 4.1), что соответствует
наблюдению одной камерой 6–7 полос движения, тогда как ширина
ближнего контрольного сечения (около 12 м) соответствует наблюдению лишь трех полос. К сожалению, обычно ширина ближнего
сечения определяет количество контролируемых полос движения,
так как в этой зоне наименьшие перспективные искажения и можно наиболее точно определять параметры ТС и считывать номерной
знак.
Итак, оптимальные параметры установки системы: высота установки камеры – h = 11,53 м; расстояние от стойки камеры до начала КЗ – r = 10,38 м, длина КЗ – l = 24,53 м; ширина КЗ на ближнем
контрольном сечении – w = 12 м; угол обзора камеры по вертикали – γ = 38°; угол обзора камеры по горизонтали – ω = 50°; угол тангажа камеры – q = 39°.
202
4.2. Панорамные системы видеонаблюдения
Важной проблемой при создании современных систем видеонаблюдения является обеспечение глобального отображения окружающего пространства, позволяющего оперативно принимать оптимальные решения. Когда объект наблюдения превосходит по своим
размерам поле зрения телевизионной камеры, для его осмотра целесообразно предъявлять оператору синтезированное панорамное
изображение, составленное из совокупности частных изображений.
Эти изображения получают либо при движении камеры относительно объекта (или, наоборот, объекта относительно камеры), либо
от ряда камер, разнесенных в пространстве.
Технология панорамного видео получила распространения в системах обеспечения безопасности на промышленных, административных и военных объектах, для контроля пассажиропотоков, наземного, морского и воздушного транспорта и т.д. Системы транспортного мониторинга – востребованный и широко применяемый
класс прикладных телевизионных систем. Они необходимы для организации эффективного транспортного сообщения, профилактики
ДТП, контроля скоростного режима [136]. Существенным недостатком современных систем является недостаточная эргономичность
формируемых изображений.
При наблюдении за магистралями или транспортными развязками для расширения угла обзора используют несколько камер.
Предоставление оператору информации только от одной камеры
или одновременная трансляция изображений от всех камер с помощью мультиплексора затрудняет восприятие и анализ происходящего на наблюдаемом участке.
Под панорамой понимают проекцию на плоскость бóльшей части визуально наблюдаемого пространства, которую неподвижный датчик изображения (например, видеокамера) не в состоянии
охватить. Панорамирование позволяет в системах телевизионного
наблюдения осуществить обзор широкого сектора пространства.
Широкий угол зрения системы видеонаблюдения получают при
помощи «сшивки» частных изображений в панораму. При получении же частных изображений лучшие результаты получают при
использовании «нормальных» объективов, которые не искажают
перспективу.
Формирование видеопанорамы предполагает определение параметров уравнений трансформации исходных изображений, учитывающих перспективные искажения, а также возможные рассогла203
сования первичных изображений по масштабу и углу поворота. В
соответствии с указанными уравнениями производится преобразование исходных кадров и синтез видеопанорамы.
Задача совмещения изображения определена следующим образом. Дается пара двумерных изображений P и Q (в градациях уровня серого или цветных) одной и той же сцены, искаженных (смещенных) друг относительно друга и имеющих определенную зону
перекрытия. Задача совмещения состоит в том, чтобы найти такое
преобразование T, чтобы для всех пикселей изображения Q обеспечить наилучшее соответствие в изображении P.
Примем (Xi, Yi, Zi) – трехмерные мировые координаты натурного объекта, (x , y) и (u, v) – координаты изображений, которые были
определены относительно позиции датчика в моменты времени ti,
при i = {1,2}. Тогда уравнения центральной проекции в декартовых
координатах
é xù
éX ù
éuù
éX ù
ê ú = f ê 1 ú,
ê ú = f ê 2 ú,
ê y ú Z1 ê Y1 ú
ê v ú Z2 ê Y2 ú
ë û
ë û
ë û
ë û
где f – фокусное расстояние датчика.
Взаимосвязь между двумя изображениями со смещенными
границами может быть аппроксимирована преобразованием с
n-степенями свободы. Вид функции преобразования зависит от типов искажений, присутствующих в изображениях со смещенными границами. В большинстве случаев функция представляет собой 2D многочлен первого порядка c n неизвестными параметрами
[137]. У преобразования подобия есть четыре неизвестных параметра, которые могут быть найдены с использованием, по крайней мере, двух пар соответствующих точек. Форма представления вышеописанного алгоритма выглядит так:
éuù
é cos α sin α ù é xù é ∆xù
ê ú =mê
ú ê ú + ê ú, ê ú
ê
úê ú ê ú
ëv û
ë-sin α cos αû ë y û ë ∆y û
(4.1)
где m – масштаб, α – угол поворота и Δx, Δy – смещения, измеренные
в системе координат изображения.
Преобразование подобия используют, когда объекты в изображениях сохраняют свою первоначальную форму и размер (углы и длины сохраняются после совмещения). Для пространственных искажений, таких как сдвиг (перекашивание) фрагмента изображения,
применяют аффинное преобразование, у которого есть шесть неизвестных параметров. Следовательно, должна быть решена задача
204
поиска минимума невязок, по крайней мере трех соответствующих
пар точек. Преобразование имеет вид:
éuù é a1
ê ú=ê
ê v ú ê a3
ë û ë
a2 ù é xù é ∆xù
ú ê ú + ê ú. a4 úû êë y úû êë ∆y úû
(4.2)
Параметры a1, …, a4 описывают вращение, масштаб и разности
(расхождения) фрагментов изображения. Аффинное преобразование используют для совмещения изображений, предполагая, что
расстояние от камеры до сцены больше размеров рассматриваемой
области.
Существует два метода «сшивки» изображений – прямой (растровый) и основанный на векторах смещения. В первом случае «сшивку» осуществляют путем наложения одного из изображений на другое и поиска такого положения этих изображений, чтобы большинство фрагментов изображений совпало. Во втором – в изображениях
находят одинаковые характерные точки и вычисляют их векторы
смещения, по которым затем производят преобразование накладываемого (сшиваемого) изображения. В обоих методах все операции
проводят только со сшиваемым изображением. Основной недостаток прямого метода состоит в том, что он имеет ограниченный диапазон расхождения между сшиваемыми изображениями. Кроме того, предполагается, что яркости сшиваемых изображений одинаковы. Метод, основанный на векторах смещения, позволяет сшивать
изображения, имеющие большие расхождения – повороты, разные
масштаб и яркость и т.д. Рассмотрим метод «сшивки» изображений,
основанный на векторах смещения, так как он наиболее универсальный и его можно использовать в автоматическом режиме.
Для «сшивки» панорамы в области перекрытия изображений
выбирают характерные (узловые) точки, число которых должно
быть больше, чем неизвестных в уравнении (4.1). Под характерной
точкой понимают некоторый малый фрагмент изображения, в котором как значение яркостного градиента, так и производная (скорость изменения) градиента по направлению высоки. Во многих
программах выбор характерных точек производят вручную. В более
совершенных программах уточняют положения точек в сшиваемом
кадре путем поиска максимума взаимной корреляции фрагментов
изображений, окружающих назначенные точки. Алгоритм автоматического поиска характерных точек реализуют на основе использования яркостного градиента изображения
T
grad L(x, y) = (dL / dx,dL / dy) .
205
Определению характерных точек соответствуют углы в изображении, где градиент меняет свое направление в предельном случае
на 90°. Угловые точки находят с использованием алгоритма детектора Харриса [138, 139].Чтобы отличить угловую точку от наклонной линии, которая тоже имеет производные по обоим направлениям, в автоматическом экстракторе углов оценивают автокорреляцию интенсивности изображения в каждом пикселе, вычисляя собственные значения λ1 и λ2 матрицы
é
é(dL / dx)× (dL / dy)ù ùú
(dL / dx)2
å
å
ê
ë
û, H=ê
(4.3)
ú
2
ê å é(dL / dx)× (dL / dy)ù
ú
dL
/
dy
(
)
å
ê
ú
ë
û
ë
û
где суммы берут по заранее заданному размеру окна (например, блоку 5 × 5 пикселей).
Затем вычисляют коэффициент обусловленности cond(H) = λmax/
/λmin. Когда коэффициент обусловленности матрицы H близок к
единице, причем оба собственных значения большие, фрагмент
считают угловым. Если фон однородный – оба собственных значения близки к нулю. Для изображения наклонной линии одно из собственных значений будет нулевым.
Реализация этого алгоритма сопряжена с существенными вычислительными затратами. Чтобы сократить объем вычислений,
используют двухшаговый алгоритм извлечения угловых точек.
На первом шаге применяют «функцию углового отклика» CR =
= min|dL/dx, dL/dy|, представляющую собой абсолютное значение
меньшей составляющей вектора градиента. Матрицу H вычисляют
только для потенциальных характерных точек, где CR превышает заранее заданный порог. Все предполагаемые угловые фрагменты, найденные на первом шаге, далее оценивают через вычисление
собственных значений. Первый шаг играет главную роль в сокращении объема вычислений, требуемых на втором шаге. Степень сокращения зависит от содержания изображений и значения порога,
заданного на первом шаге. Как правило, второй шаг применяют менее чем к пяти процентам площади изображения. В результате реализации этих процедур автоматически находят некоторое число характерных точек в области перекрытия сшиваемых изображений,
достаточное для вычисления параметров преобразования.
Программа поиска характерных точек включает следующие шаги.
1. Исходное изображение дважды обрабатывают фильтром Гаусса с параметром размытия σ = 2  (рис. 4.4).
206
а)
б)
в)
Рис. 4.4. Предварительная обработка изображений:
исходное изображение (а); – результат однократной фильтрации (б);
результат двукратной фильтрации (в)
2. Определяют разностный препарат (рис. 4.5)
Lðàçí (x, y) = L1 (x, y) - L2 (x, y) ,
где Lразн(x, y) – значение яркости точки (x, y) в разностном препарате; L1(x, y) и L2(x, y) – значения яркостей в однократно и двукратно
фильтрованных изображениях соответственно.
3. В разностном препарате в скользящем окне с размерами 16 × 16
пикселей определяют пиксели с максимальной яркостью, соответствующие локальным максимумам нормы вектора градиента
||grad L(x, y)||. Пиксели, яркость разностного изображения в которых превышает адаптивный порог, обрабатывают с помощью детектора Харриса для выделения характерных точек (см. рис. 4.5).
4. Адаптивный порог устанавливают по моде распределения локальных максимумов нормы вектора-градиента (рис. 4.6).
5. Для фрагментов, ассоциированных с обрабатываемыми детектором пикселями, рассчитывают коэффициенты обусловленности
Рис. 4.5. Контурный препарат (слева) и
выделенные характерные точки (справа)
207
P
P
Порог
0,075
Порог
0,044
0,05
0,022
0,025
0
1
12
25
R
0
1
14
27
Cond(H)
Рис. 4.6. Гистограммы распределения модуля вектора-градиента
R (слева) и коэффициента обусловленности cond(H) (справа)
cond(H) матрицы (4.3). Второй адаптивный порог устанавливается
равным моде распределения значений коэффициента cond(H) (см.
рис. 4.6). Характерными считают точки, для которых cond(H) не
превосходит порога.
Рассмотренный метод обеспечивает построение видеопанорамы
в реальном времени. При этом параметры уравнений трансформации определяются в автоматическом режиме. Для каждой пары
изображений от соседних камер выполняют процедуру, состоящую
из следующих шагов:
– выделение на изображениях в зоне перекрытия характерных
точек – центров фрагментов с размерами 5 × 5 элементов (пикселей)
с высоким уровнем детальности. Данный шаг особенно важен, поскольку количество и качество характерных точек определяют точность построения панорамы1;
– согласование характерных точек (селекция пар), т.е. нахождение соответствия между точками изображений соседних камер в зоне перекрытия;
– определение параметров уравнения трансформации;
– синтез панорамного изображения с частотой 25 кадров в секунду по полученным уравнениям.
В результате применения указанной процедуры для двух соседних изображений формируют множества характерных точек первого P = {p1, p2,…, pn,…, pN} и второго изображения Q = {q1, q2,…, qm,…,
qM}, где N, M – объемы множеств P и Q, соответственно) (рис. 4.7).
Для оценивания угла поворота и масштабного коэффициента в
преобразовании подобия (4.1) минимально достаточны две пары ха1 Высокое качество характерной точки предполагает ярко выраженное отличие
связанного с ней фрагмента изображения от остальных фрагментов.
208
Рис. 4.7. Характерные точки сшиваемых изображений
(зона перекрытия показана рамкой)
рактерных точек в сшиваемых изображениях. Однако использование только минимального числа пар характерных точек не обеспечивает точную оценку параметров преобразования из-за влияния
ошибок, допущенных при согласовании блоков, а также неучтенных геометрических искажений в изображениях. Дополнительные
пары характерных точек позволяют сгладить ошибки, например,
методом наименьших квадратов (МНК). Лучшим решением является двумерная пространственная кластеризация, которая нечувствительна к выбросам (аномальным ошибкам).
Угол поворота изображения Q относительно P
æ yq2 - yq1 ö÷
æ y p2 - y p1 ö÷
ç
ç
ϕ = arctg çç
÷÷÷ - arctg çç
÷÷
çè xq2 - xq1 ø÷
çè x p2 - x p1 ø÷÷
соответствует разности угловых положений согласованных линий
(рис. 4.8) на изображениях. Отношение длин этих линий дает коэффициент масштабирования
xp1
yp 1
xq1
y
q1
P
x
ypp2
2
Q
xq 2
y
q2
Рис. 4.8. Согласованные линии на изображениях
209
2
1
2
P
5
Q
5
3
6
1
3
4
4
6
Рис. 4.9. Все возможные соединения характерных точек
в изображениях P и Q
2
s=
2
(x p2 - x p1 ) + (y p2 - y p1 )
2
2
(xq2 - xq1 ) + (yq2 - yq1 )
.
Трудность в решении задач подобного рода заключается в том,
что выявить согласованные линии со 100-процентной вероятностью
не всегда возможно. Сравнение линий, ошибочно признанных согласованными, дает аномальные выбросы, которые смещают оценки j и s. Предлагают использовать все возможные линии, соединяющие характерные точки на обоих изображениях (рис. 4.9). Если
выявлено N характерных точек, то общее число линий
N
k = å (i -1).
i=1
Пронумеруем все характерные точки в изображениях. Порядок
нумерации может быть произвольным. Алгоритм работает, в том
числе, и при различном числе характерных точек на изображениях
и состоит из следующих шагов.
1. Создают двумерный аккумулятор размером (M⋅N), где M строк
позволяет отобразить максимально допустимую разность масштаба, которая округлена до ближайшего целого числа и представлена в аккумуляторе номером строки m = 100s. В N столбцах отображают разность углов поворота сшиваемых изображений в градусах
в диапазоне [–ran, + ran]. Диапазон ±ran градусов выбирают, ос210
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
93
94
95
96
97
98
99
1
100 1
101 1
1 1
3 2
2
1 2
3 4
2
4 4 5
4 5 2
3
2
2
3 21
102
103
104
105
106
107
Рис. 4.10. Состояние аккумулятора
(точкой показано местоположение s = 1 и j = 0)
новываясь на предполагаемой максимальной ошибке в начальном
угле поворота 2ran (рис. 4.10).
2. Параметры обновляют в массиве аккумулятора
acc[m,n ] := acc[m,n ] + 2,
где строке с номером m соответствует 100s, а столбцу с номером n –
j + 20, округленные до ближайшего целого значения (см. рис. 4.10).
Восемь соседних к каждой обновленной позиции в аккумуляторе
элементов увеличивают на единицу, что облегчает обнаружение позиции острого пика в аккумуляторе с точностью менее одного элемента.
3. Координата (y, x) положения пика в аккумуляторе является
усовершенствованными оценками масштаба s = x/100 и угла поворота j = y–20. Позиция подпикселя пика аккумулятора может
быть вычислена подстановкой полинома второго порядка в окрестность 3 × 3, центрированную в пике. Оценка положения пика с точностью до подпикселя
u(x, y) = b0 + b1x + b2 y + b3 xy + b4 x2 + b5 y2 ,
где параметры многочлена bi идентифицируют методом наименьших квадратов.
211
Оценка угла поворота должна сходиться к нулю, а оценка масштаба – к единице. Итеративный процесс останавливают при выполнении следующих двух условий:
– j ≤ εj и s = 1±εs, где εj и εs – малые величины, управляющие
точностью оценки;
– выполнено заранее заданное максимальное число итераций.
Вышеупомянутый итеративный процесс включает в себя быстрые алгоритмы. Сокращение угла поворота и разностей масштаба
до минимальных значений увеличивает эффективность последующих этапов расчетов.
Рассчитанные параметры используют, чтобы преобразовать изображение Q и упростить задачу «сшивки» панорамы до задачи смещения (translation). Новые характерные точки определяют из Q после компенсации, которая увеличивает возможности обнаружения
удачных соответствий. Это происходит из-за того, что согласование
масштабов и минимизация угла поворота Q относительно P увеличивают стабильность и точность экстрактора характерных точек.
Совпадение характерных точек определяют в три этапа: угловое
согласование, подавление выбросов и согласование с точностью до
подпикселя.
Селекция пар характерных точек
После выделения характерных точек на двух соседних изображениях выполняют селекцию их пар: выявляют согласованные характерные точки, представляющие на изображениях одни и те же
области. Для этого производят корреляционное сопоставление блоков с центрами в найденных характерных точках. Каждый блок
первого изображения сравнивают со всеми блоками второго изображения в зоне перекрытия. Мера подобия двух блоков с центрами в
характерных точках pn и qm
Dx ( pn ,qm ) + Dy ( pn ,qm )
SM ( pn ,qm ) =
,
2
где m, n – число пикселей в сравниваемых блоках по вертикали и
горизонтали, соответственно,
m n
åå
Dx ( p,q) = 1 -
i=1 j=1
m n dL
åå
i=1 j=1
212
dL p (x p,j , y p,i )
dx
p (x p,j , y p,i )
dx
-
dLq (xq,j , yq,i )
m n
+ åå
i=1 j=1
dx
dLq (xq,j , yq,i )
dx
,
m n
åå
Dy ( p,q) = 1 -
i=1 j=1
m n dL
åå
dL p (x p,j , y p,i )
dy
p (x p,j , y p,i )
i=1 j=1
dy
-
dLq (xq,j , yq,i )
m n
+ åå
i=1 j=1
dy
dLq (xq,j , yq,i )
.
dy
Значение SM(p, q) изменяется в диапазоне от нуля до единицы,
причем SM(p, q) = 1 для идентичных блоков. В результате каждой
точке из множества P сопоставляют точку из множества Q с мерой
подобия SM(pn, qm) и формируют множество согласованных пар PQ.
Шумы в сигнале и различие конфигураций блоков из-за недостаточного перекрытия изображений приводит к образованию ложно
согласованных пар во множестве PQ. Для исправления ситуации
используют тот факт, что в области перекрытия расстояния между
характерными точками всех корректно выделенных пар примерно
одинаковы. Каждой паре сопоставляют параметр поддержки
ξi =
N
1
å
N -1 j=1
min(
∆xi ∆xj
∆y ∆yj
,
) + min( i ,
)
∆xj ∆xi
∆yj ∆yi
2
,
j ¹i
где Δxi = |xp, i – xq, i|; Δxj = |xp, j – xq, j|; Δyi = |yp, i – yq, i|, Δyj = |yp, j – yq, j|,
а (xpi, ypi) и (xqi, yqi) – координаты i-го элемента (пары точек) множества PQ{1…N}.
Значение xi для каждой пары изменяется в диапазоне от нуля
(нет поддержки) до единицы (максимальная поддержка). Среднее
значение величины xi используют в качестве порога – пары харак-
Рис. 4.11. Пары согласованных точек на сшиваемых изображениях
213
терных точек, у которых значение x ниже порога, исключают из обработки. Процесс повторяют, пока среднее значение x не приблизится к единице1. В результате выделяют пары согласованных точек
для идентификации параметров уравнения трансформации, образующие оптимальное множество PQopt. Пример сшиваемых изображений с выделенными согласованными парами характерных точек
в зоне перекрытия показан на рис. 4.11 (согласованные точки отмечены одинаковыми номерами).
Идентификация параметров уравнения трансформации
При синтезе панорамы из изображений, полученных от камер
с общим оптическим центром, используют модель перспективного
преобразования, которая учитывает все возможные в данном случае искажения растров (масштаб, поворот, смещение, перспективные искажения) [7, 8]. Уравнение трансформации имеет вид
æ ö
çxh¢ ÷÷ êé h11 h12 h13 úù ççæxh ÷ö÷
ççç y ¢ ÷÷ = ê h
ú ç ÷÷
(4.4)
çç h ÷÷÷ ê 21 h22 h23 ú × ççç yh ÷÷, çèç1 ÷ø ê h31 h32 h33 ú çè1 ÷÷ø
ë
û
где (xh, yh, 1) – однородные координаты точки опорного изображения; (x′h, y′h, 1) – однородные координаты соответствующей точки в
трансформируемом изображении; {h11,…, h33} – параметры уравнения, которые необходимо идентифицировать.
Для неоднородных координат (x′, y′)
h x + h12 yh + h13
h x + h22 yh + h23
, y ¢ = 21 h
,
x ¢ = 11 h
h31xh + h32 yh + h33
h31xh + h32 yh + h33
или
x ¢(h31xh + h32 yh + h33 ) = h11xh + h12 yh + h13 ,
y ¢(h31xh + h32 yh + h33 ) = h21xh + h22 yh + h23 .
Перепишем:
é xh yh 1 0
0 0 -x ¢xh -x ¢yh -x ¢ù
ê
ú´
ê0
ú
¢
¢
¢
0
0
x
y
1
y
x
y
y
y
h
h
h
h
ë
û
´(h11, h12 , h13 , h21, h22 , h23 , h31, h32 , h33 ) = 0
1
214
На практике используют x=0,8 [6].
или
A × (h11, h12 , h13 , h21, h22 , h23 , h31, h32 , h33 ) = 0, (4.5)
где
éx
A=ê h
ê0
ë
yh
0
1 0
0 xh
0
yh
0 -x ¢xh
1 -y ¢xh
-x ¢yh
-y ¢yh
-x ¢ù
ú.
-y ¢ úû
Имея набор сопоставленных точек ({(xip, yip), (xiq, yiq)}, i = 1…N) и
учитывая, что
x¢
x¢
y¢
y¢
x ¢ = h = h = xh¢ , y ¢ = h = h = yh¢ ,
zh¢
1
zh¢
1
заполним матрицу A:
é x1, p
ê
ê 0
ê
A = êê ×
êx
ê N, p
ê 0
êë
y1, p 1
0
0
0 x1, p
×
×
×
yN, p 1
0
0
0 xN, p
0
y1, p
×
0
yN, p
0 -x1, p × x1,q
-y1, p × x1,q
-x1,q ù
ú
1 -x1, p × y1,q
-y1, p × y1,q
-y1,q ú
ú
×
×
×
× úú .
0 -xN, p × xN,q -xN, p × xN,q -xN,q úú
1 -xN, p × yN,q -yN, p × yN,q -yN,q úúû
Согласно (4.5) нужно найти вектор из нуль-пространства матрицы
A, результат умножения которого на матрицу A равен нулю. Иначе
говоря, требуется решить систему однородных уравнений.
Согласно сингулярному разложению [140], прямоугольная матрица A=Am×n, может быть представлена в виде произведения трех
матриц:
Sm´n = Um´r ×Sr´r ×VrT´n ,
где r = min(m, n); Sr×r – диагональная матрица. На диагонали расположены в убывающем порядке сингулярные числа матрицы A.
Число σ называют сингулярным числом матрицы A, если существуют векторы единичной длины u и v такие, что
A × v = σ × u и AT × u = σ × v. (4.6)
Причем векторы u и v называют левыми и правыми сингулярными векторами A. Соответственно, в сингулярном разложении столбцы матриц U и VT состоят из левых и правых сингулярных векторов A. Причем
215
V × VT = I, U × UT = I,
где I – единичная матрица.
Перепишем (4.6):
A × AT × v = σ2 × v и AT × A × u = σ2 × u. (4.7)
Следовательно, столбцы U – это собственные векторы AT · A, а
столбцы VT – собственные векторы A · AT по определению.
Собственные числа λ матриц AT · A и A · AT соответственно равны
квадратам сингулярных чисел A:
λ = σ2 .
Пусть vk, uk – столбцы матриц U и VT. Тогда разложение
Am´n = Um´r ×Sr´r ×VrT´n
можно представить в виде:
r
r
k=1
k=1
Am´r = å Ak = å uk × σk × v T
k.
Если сингулярное число σk =0, то согласно (4.6)
Am´n × v k = 0,
и vk – искомый вектор из нуль пространства матрицы A.
Таким образом, если в Sr×r есть единственное нулевое сингулярное значение, то соответствующий правый сингулярный вектор является единственным решением системы. Если нулевых сингулярных значений несколько, то решением будет любая линейная комбинация соответствующих правых сингулярных векторов.
Решаемая задача идентификации параметров уравнения трансформации предполагает, что Sr×r не имеет ни одного нулевого сингулярного значения, так как в определении координат характерных
точек согласованных пар присутствует ошибка. Следовательно, необходимо найти вектор vk, который бы минимизировал норму A∙vk,
при учете, что |vk|=1 по определению. То есть, нужно определить,
какому именно столбцу матрицы VT, соответствует искомый vk, являющийся решением задачи минимизации невязок.
Итак, имеем уравнение
A × v k = 0, v k = 1.
216
Нужно минимизировать
Um´r ×Sr´r ×VrT´n × v k .
Однако
Um´r ×Sr´r ×VrT´n × v k = Sr´r ×VrT´n × v k , VrT´n × v k = v k .
Следовательно
Sr´r ×VrT´n × v k = min при VrT´n × v k = 1.
Обозначим
y = VrT´n × v k .
Таким образом
Sr´r ×y = min при y = 1 .
Учитывая то, что в Sr×r сингулярные значения расположены по
убыванию, а |y|=1, минимизация будет достигнута при y=(0,0,..0,1)T,
если vk – последний столбец матрицы VT, соответствующий наименьшему сингулярному значению Sr×r.
Таким образом, искомый вектор-решение есть правый сингулярный вектор матрицы A, соответствующий последнему (девятому)
столбцу VT, при сингулярном разложении.
Для оценки параметров уравнения (4.4) используют алгоритм
устойчивой оценки RANSAC [140, 141].
1. Случайным образом из множества PQopt выбирают пять пар
согласованных точек. По ним определяют параметры уравнения
(2.4) (создают гипотезу уравнения). Для каждой пары вычисляют
ошибку трансформации
æxh¢ ö é h
çç ÷÷÷ ê 11
ç
E = çç yh¢ ÷÷ - êê h21
çç ÷÷÷ ê
èç1 ø ë h31
h12
h22
h32
h13 ù çæxh ö÷
ú ç ÷
h23 úú × çç yh ÷÷÷.
çç ÷÷
h33 úû èç1 ÷ø
2. Фиксируют пары характерных точек, для которых ошибка
трансформации E не превышает 2–3 пикселя, остальные пары отбрасывают.
3. Шаги 1 и 2 повторяют для других выборок из множества пар
PQopt. Из проведенных проверок сохраняют результаты испытания,
давшего наибольшее число согласованных пар. Обработку прекращают, если в результате заранее установленного числа итераций не
достигнуто улучшения результата.
217
4. По отобранным парам определяют параметры уравнения
трансформации.
5. При наличии явных выбросов параметров давшие их пары исключают из рассмотрения, а параметры уравнения трансформации
пересчитывают. Операции повторяют до ликвидации всех пар, порождающих выбросы.
По найденным параметрам уравнения выполняют трансформации изображений и «сшивку» видеопанорамы.
Экспериментальное исследование
Экспериментальной базой служил набор пар фотографий, предназначенных для формирования панорам. Изображения отличались по уровню детальности и по условиям съемки. На рис. 4.12
приведены примеры исходных изображений и синтезированных с
помощью описанного метода панорамы.
Основные задачи экспериментального исследования:
1) оценка эффективности дополнительной фильтрации (выделения локальных максимумов производной яркости) с точки зрения
качества формируемых панорам;
2) оценка устойчивости метода формирования панорамы к рассогласованиям исходных изображений по углу поворота и по масштабу.
В первой части исследования критериями качества синтезированных панорам являлись среднеквадратическая ошибка RSME и
максимальная ошибка ME:
RSME =
1 N
(∆Xi2 + ∆Yi2 ) ; ME = max ∆Xi2 + ∆Yi2 ,
å
N i=1
i
где ΔXi = (xpi – xqi) и ΔYi = (ypi – yqi), а xpi, ypi и xqi, yqi – координаты
i-й точки из множества P (первого изображения пары), полученного
после трансформации, и множества Q (второго изображения), соответственно.
Полученные для тестовых изображений (рис. 4.12) результаты
сведены в табл. 4.2.
Для изображений 4 и 6 отсутствуют данные об ошибках при использовании алгоритма без фильтрации, так как панорамы были
сформированы некорректно. Из анализа данных таблицы следует,
что среднеквадратические ошибки при отсутствии и при наличии
фильтрации характерных точек близки по значению для всех тестовых изображений. Однако на восприятие изображения в большей
218
219
4
3
Рис. 4.12. Начало
2
1
220
8
7
Рис. 4.12. Примеры синтеза панорамных изображений (окончание)
6
4
5
3
Таблица 4.2
Результаты исследования эффективности фильтрации
характерных точек
Всего харакНомер терных точек
панорамы
с
без
(рис. филь- филь4.12) тром
тра
1
59
315
2
3
4
5
6
7
8
136
27
76
26
49
175
79
256
312
ошибка
134
ошибка
318
150
Удовлетворительных харакRSME
ME
терных точек
с
без
с
без
с
без
филь- фильфиль- фильтра филь- фильтром
тра
тром
тром
тра
58
121
26
62
22
40
154
74
298
244
304
ошибка
132
ошибка
287
143
0,61
0,75
0,73
0,80
0,63
0,57
0,56
1,03
0,51
0,54
0,71
ошибка
0,64
ошибка
0,61
1,05
2,25
0,99
1,25
0,82
1,14
1,85
0,99
1,18
1,93
1,67
1,41
ошибка
1,52
ошибка
1,17
1,24
степени влияет максимальная ошибка, которая в подавляющем
большинстве случаев меньше при использовании фильтрации. В
двух случаях из восьми корректно синтезировать панораму оказалось возможным только при применении фильтрации.
Изображения 4 и 6, для которых не удалось получить панорамы
без дополнительной фильтрации, отличаются особой сложностью.
Объекты, на которых обнаружены характерные точки, расположены на заднем плане, в связи с чем точки сгруппированы в небольших по площади фрагментах изображения и имеют существенные
относительные смещения (рис. 4.13).
В этих случаях использование дополнительной фильтрации позволило успешно синтезировать панораму при наличии сложного сюжета на исходных снимках путем локализации характерной
точки в пространстве. Так, на рис. 4.14 приведен фрагмент дальнего
плана одного из снимков сюжета 4 (рис. 4.12), расположенный на
заднем плане с достаточно плотным расположением характерных
точек. В этом случае при применении яркостной фильтрации удалось достоверно выделить четыре точки (рис. 4.14, а), в то время как
без указанной фильтрации выделялось большее количество близко расположенных точек (рис. 4.14, б), между которыми возникает
конкуренция (и, следовательно, возможно неверное сопоставление)
при определении соответствующих пар.
221
Рис. 4.13. Расположение характерных точек на изображениях
а)
б)
Рис. 4.14. Фрагмент дальнего плана
При исследовании устойчивости метода к рассогласованиям исходных изображений по углу поворота и масштабу качество панорамы определялось экспертами по абсолютной пятибалльной шкале.
Максимальная ошибка использована как дополнительный критерий.
Эксперимент состоял из нескольких серий в соответствии с числом пар тестовых изображений. В каждой серии у одного из снимков перед формированием панорамы изменяли масштаб (в диапазоне от 100 до 95% с шагом 1%) и угол поворота (от 0 до 5° с шагом
1°). Примеры изображений, использованных в серии и соответствующих паре 7 на рис. 4.12, приведены на рис. 4.15. Полученные для
изображений (см. рис. 4.12) результаты сведены в табл. 4.3.
При одновременном изменении масштаба и поворота получены
изображения со средней оценкой экспертной группы 5 баллов (отличное качество), если изменение масштаба не превышает 3% , а
угол поворота – 2°. На рис. 4.16 приведено панорамное изображение, синтезированное при одновременном изменении масштаба на
3% и угла поворота на 3°. При раздельном воздействии этих параметров синтез панорамы отличного качества возможен в случае из222
223
95
97
100
Масштаб,
%
Угол поворота, град
3
5
Рис. 4.15. Изменение масштаба и угла поворота у фрагмента панорамы
0
Таблица4.3
Результаты исследования устойчивости метода построения панорамы
к рассогласованиям исходных изображений по углу поворота
и по масштабу
2,38 5
2,46
5
2,33 5
2,33 4,33
2,42 4,60 2,33 4,33
2,49 4,25 2,43 4,6
2,59 3,25 2,51 3,66
Балл
5
Балл
Максимальная
ошибка
Балл
4
Максимальная
ошибка
2,38 5
2,40 5
2,41 5
2,41 5
2,40 3,66
Максимальная
ошибка
2,33 5
2,35 5
2,38 5
2,38 5
2,39 3,8
Угол, градус
3
Балл
5
5
5
5
5
Максимальная
ошибка
1,07
1,13
1,94
1,94
1,99
Балл
Максимальная
ошибка
2
Балл
100
99
98
97
96
1
Максимальная
ошибка
Масштаб, %
0
2,51
2,48
2,42
2,67
2,67
4,25
3,66
4,33
3,66
2,5
Ðèñ. 12
Рис. 4.16. Пример синтеза панорамы из фрагментов
менения масштаба изображений до 4%, а изменения угла поворота
до 4°.
В системах транспортного мониторинга используют идентичные
камеры, и существует процедура их предварительной настройки.
Возможны лишь небольшие рассогласования, связанные, например, с вибрациями или ветровой нагрузкой, к которым алгоритм
устойчив, поэтому полученные результаты приемлемы с практической точки зрения.
224
Итак, описанный способ автоматического синтеза видеопанорам
обладает следующими характерными особенностями:
– использование при выделении характерных точек дополнительной фильтрации на основе определения максимумов яркостной
производной в локальном фрагменте изображения;
– введение адаптивных порогов при дополнительной фильтрации и в детекторе Харриса;
– построение уравнений трансформации с использованием перспективного преобразования (гомографии);
– идентификация параметров уравнений трансформации на основе алгоритма RANSAC.
Экспериментальное исследование предложенного метода на характерных для систем транспортного мониторинга сюжетах показало:
– метод формирует качественные (со средней ошибкой около одного пикселя) панорамные изображения при наличии сложных сюжетов в исходных данных;
– метод обеспечивает синтез панорам при рассогласовании исходных изображений по масштабу и по углу поворота. При одновременном влиянии этих факторов допустимо изменение масштаба не
более 3% и угла поворота не более 2°. При наличии только одного из
указанных факторов метод устойчив к изменению масштаба до 4%,
а угла поворота до 4°.
4.3. Анализ и синтез изображений протяженных объектов
на примере железнодорожных составов
4.3.1. Наблюдение протяженных объектов
В практике телевизионного наблюдения существует ряд ситуаций, когда наблюдаемый объект существенно превосходит по своим размерам поле зрение телевизионной камеры. Примерами могут
служить: визуальный контроль состояния трубопроводов в нефтегазовой отрасли, наблюдение железнодорожных составов на сортировочных станциях, ангиографическое исследование кровеносных
сосудов на специальном рентгеновском аппарате с подвижным столом. Во всех перечисленных случаях один из элементов системы
объект-приемник изображения движется относительно другого по
некоторой траектории, как правило, известной. Для визуального
анализа таких объектов (именуемых в дальнейшем «протяженными») предпочтительно синтезировать панорамные изображения, позволяющие воссоздать структуру объекта в целом. Аналитическая
225
обработка изображений протяженных объектов сталкивается с рядом трудностей:
1) геометрические параметры протяженного объекта не могут
быть определены по отдельным изображениям, для их оценки требуется обработка серии кадров;
2) за время наблюдения могут существенно изменяться как условия съемки, так и динамические параметры объекта (скорость и
направление движения). Это затрудняет синтез качественного панорамного изображения;
3) различные части протяженного объекта могут сильно отличаться по внешнему виду (например, железнодорожный состав может состоять из вагонов различного типа), что заметно усложняет
выделение объекта из нестационарного фона, если такое выделение
необходимо.
Традиционные методы выделения и оценки параметров объектов, хорошо зарекомендовавшие себя в других областях, оказываются неоптимальными при наблюдении протяженных объектов и
требуют доработки. Рассмотрим анализ и синтез изображений протяженных объектов на примере системы телевизионного наблюдения железнодорожных составов.
4.3.2. Система дистанционного осмотра
железнодорожного состава
Состав и существующие аналоги системы осмотра
Система предназначена для применения на железнодорожных
станциях при решении задач коммерческого осмотра, таможенного
и пограничного контроля проходящих железнодорожных составов.
Ее основной функцией является дистанционный осмотр и определение превышений разрешенных габаритов грузового подвижного состава железной дороги, а также находящихся на нем грузов и контейнеров, с последующим сбором, обработкой и хранением информации. К задачам, решаемым с помощью интеллектуальных транспортных систем на железной дороге, относятся [128]:
– дистанционное оценивание технического состояния вагонов;
– обнаружение негабаритного груза и других нарушений правил
технической эксплуатации и безопасности, а также составление
оперативных донесений о выявленных нештатных ситуациях;
– фиксация времени прохождения локомотива и последнего вагона состава;
– определение скорости и направления движения состава;
226
– отображение порядкового номера вагона в составе и подсчет общего числа вагонов;
– автоматическое различение типа вагона из согласованного списка по совокупности признаков;
– автоматический поиск местоположения, считывание и распознавание бортовых номеров вагонов;
– автоматическая проверка на соответствие распознанных бортовых номеров и номеров из натурного листа;
– синтез цифровых изображений вагонов, формирование информационных кадров и сжатие видеоинформации для последующей
архивации и составления базы данных.
В состав системы входят: набор датчиков, включая телевизионные камеры, система ввода видеосигналов в ЭВМ, блок аппаратной
обработки сигналов, рабочая станция, программное обеспечение.
Сенсорами системы являются три видеокамеры, дающие видеоизображения левого и правого по ходу поезда бортов вагонов, а также
вид сверху, габаритные электронные ворота для выявления негабаритного груза или его смещений во время движения. По практическим соображениям видеокамеры бокового обзора должны быть
установлены в промежутках между путями с тем, чтобы не допустить перекрытие сектора обзора встречным составом.
Данные о проходящих составах (телевизионные изображения и дополнительная информация) должны быть автоматически записаны в
сжатом виде на жесткий диск. Для экономии дискового пространства
запись должна быть начата в момент появления состава в зоне наблюдения и закончена после выхода из нее. В случае остановки состава в
поле зрения камер и повторного начала движения система не должна
регистрировать новый состав, продолжая начатую запись.
На российских железных дорогах в настоящее время используют ряд интеллектуальных транспортных систем, выполняющих обработку и хранение телевизионной информации с целью дистанционного осмотра подвижного состава [142, 143]. Они различаются по
техническим характеристикам и составу аппаратуры и выполняют
большую часть из перечисленных выше функций.
Для обнаружения состава и определения числа вагонов в состав
интегрированной системы транспортного мониторинга, как правило, включаются радиоволновые и оптико-электронные датчики. На
отечественных товарных станциях распространены инфракрасные
и лазерные системы барьерного типа, определяющие момент прохождения стыка между вагонами по сигналу, проходящему с одного борта состава на другой. Используется узкий луч, который дости227
2
1
Передатчик
Приемник
1
2
Рис. 4.17. Варианты расположения датчиков счета вагонов
в системе барьерного типа
гает приемника в моменты прохождения стыка между вагонами и
не достигает его в остальных случаях (рис. 4.17).
При нормальных условиях эксплуатации, правильной настройке и квалифицированном обслуживании такая система обеспечивает высокую вероятность правильного определения числа вагонов
(порядка 99,9%). Тем не менее существует ряд причин возникновения ложных срабатываний. При определенной конфигурации вагона луч может достигать приемника не только в момент прохождения стыка. При горизонтальной ориентации луча (см. рис. 4.17) это
случается в «просвете» между крупнотоннажными контейнерами,
установленными на низкой платформе. При использовании наклонного луча ложное срабатывание может произойти во время прохождения платформ, имеющих сквозные вертикальные проемы. Засветка приемника прямыми солнечными лучами также нарушает работу системы (при использовании инфракрасных датчиков).
Опыт эксплуатации показал, что лазерные датчики имеют небольшой срок службы (около полугода) и, так же, как и инфракрасные,
нуждаются в регулярном техническом обслуживании.
При небольших (5–7 км/ч) скоростях движения состава электронная система определения числа вагонов имеет высокий процент ложных срабатываний (до трех срабатываний на один стык).
Это связано с тем, что минимальное время между срабатываниями счетчика фиксировано (оно задается при программировании
устройства) и не адаптируется к скорости движения состава.
По перечисленным выше причинам задача повышения достоверности счета вагонов является актуальной при построении эффективных интеллектуальных систем железнодорожного мониторинга.
Система телевизионного наблюдения на крупных товарных станциях насчитывает, как правило, несколько десятков камер, распо228
ложенных в разных точках станции. Помимо дистанционного осмотра подвижного состава во время въезда/выезда со станции и маневрирования, телевизионное наблюдение используют для контроля
железнодорожных переездов и прилегающих к железнодорожному
полотну территорий. Операторы такой системы для эффективной
работы должны запоминать взаимное расположение камер. С целью улучшения условий их труда и повышения оперативности при
реагировании на нештатные ситуации целесообразно формировать
меньшее число изображений, но с увеличенным полем зрения.
Способы расширения поля зрения телевизионных систем
Существует несколько возможных конфигураций телевизионного оборудования, позволяющих увеличить поле зрения телевизионной системы по сравнению с простейшим ее вариантом, включающим одну неподвижную камеру со стандартным фокусным расстоянием объектива (f = 6÷8 мм).
1. Камера с широкоугольным объективом. Угол обзора достигает
180 градусов, как по горизонтали, так и по вертикали. Изображение имеет ряд недостатков (существенные геометрические искажения на краях растра, неравномерная глубина резкости).
2. Камера с зеркалом, установленным перед объективом. Как
правило, используют зеркала параболической формы [144]. В такой
системе неподвижная камера имеет полный круговой обзор по горизонтали. Возможна более эффективная коррекция геометрических
искажений, чем при использовании широкоугольного объектива.
Недостатками являются повышенные требование к точности установки элементов конструкции, а также невозможность получить
высококачественное изображение при использовании телевизионных камер стандартной четкости.
3. Камера с поворотным устройством. В этом случае геометрические искажения могут быть сведены к минимуму. Расширение поля
зрения камеры происходит без потери пространственной разрешающей способности, но сопровождается потерей разрешения по времени (отдельный участок пространства сканируется с пониженной
частотой).
4. Взаимосвязанная группа камер, снимающих различные секторы пространства (кластер). При использовании высококачественных объективов геометрические искажения сведены к минимуму.
Временное разрешение телевизионного изображения не снижается. Для построения мозаичного изображения требуется совмещение изображений, снятых разными камерами. Точность такого со229
а)
б)
R
1
R2
Рис. 4.18. Варианты расположения камер
при осмотре подвижного состава
вмещения во многом зависит от согласованности параметров камер,
синхронности их работы и т.д.
Для формирования высококачественного изображения движущегося состава достаточно использовать одну или несколько неподвижных камер (рис. 4.18). Поворотное устройство не требуется, так
как «телевизионное сканирование» поверхности состава достигается за счет его собственного перемещения.
Из-за близкого расположения соседних железнодорожных путей
в большинстве пунктов установки телевизионных камер (это, как
правило, въезды и выезды со станций) поле зрения одной камеры с
нормальным фокусным расстоянием объектива оказывается недостаточным. Это приводит к необходимости установки нескольких
камер по обеим сторонам железнодорожного полотна (см. рис. 4.18,
а). При использовании одной камеры (см. рис. 4.18, б) она должна
иметь сверхширокоугольный объектив. В результате появляются
геометрические искажения, а также в поле наблюдения могут не попасть некоторые элементы вагона.
Обработка видеоданных
Обработка данных в системе дистанционного осмотра грузового
подвижного состава (рис. 4.19) выполняется в соответствии с назначением системы.
Для определения наличия состава в зоне наблюдения производят выделение объектов на телевизионном изображении. После того, как состав обнаружен, непрерывно измеряют его скорость с целью сопровождения. Информацию о скорости также используют
при построении панорамного изображения. Сопровождение заключается в определении моментов появления и выхода состава из зоны наблюдения, фиксации его скорости и направления движения, а
230
телевизионный сигнал
Сопровождение
наличие состава
скорость,
направление движения
Измерение
скорости
Построение
панорамы
оператор
Обнаружение
состава
изображения вагонов
данные о вагоне
(порядковый номер, длина)
Извлечение
дополнительной
информации
Оптикоэлектронное
устройство
бортовой номер вагона
тип вагона
сигнал о
негабаритном грузе
хранилище
Счет
вагонов
Рис. 4.19. Схема обработки данных
также факта остановки состава, которая может произойти во время
его нахождения в зоне наблюдения.
Построение панорамного изображения имеет цель преобразовать видеосигнал в набор статических изображений каждого вагона. При этом происходит устранение геометрических искажений
на изображении (если съемка ведется объективами «рыбий глаз»),
повышается эффективность работы операторов (просмотр статических изображений снижает утомляемость по сравнению с подвижными изображениями) и создаются благоприятные условия для извлечения дополнительной информации (распознавание бортовых
номеров, автоматическое определение типа вагона и т.п.). Разделение панорамного изображения состава на отдельные вагоны позволяет определить тип вагона по его очертаниям. В случае, когда
бортовые номера распознаются с достаточно высокой вероятностью,
определение типа не требуется, так как эта информация содержится в уникальном 8-значном номере вагона [145].
Важным этапом обработки является определение моментов прохождения стыков между вагонами. Это позволяет:
– сегментировать панорамное изображение всего состава на
фрагменты, соответствующие каждому вагону;
231
– облегчить поиск бортовых номеров на изображении с целью их
распознавания;
– создать условия для выборочного просмотра материалов из архива;
– провести верификацию общего числа вагонов в составе.
Дополнительным источником информации в системе может являться электронное устройство контроля габаритов погрузки и счета вагонов, некоторые разновидности которого также измеряют скорость движения состава.
4.3.3. Формирование панорамной проекции состава
Геометрическая модель проекции
Рассмотрим вариант с установкой двух телевизионных камер,
имеющих широкие углы обзора, с каждой стороны железнодорожного полотна в пункте прохождения составов. Помимо осмотра бортов проезжающих вагонов, камеры позволяют контролировать прилегающую к железнодорожному полотну территорию, а также наблюдать торцевые поверхности вагонов. Для решения этих задач с
использованием обычных камер требуется увеличивать их число.
Кроме того, при такой конфигурации отпадает необходимость синхронизации и сведения камер. Несмотря на то, что на формируемом
панорамном изображении информация, не относящаяся к подвижному объекту, теряется, изображение окружающего пространства
может быть зафиксировано отдельно. Пример изображения, полученного камерой бокового обзора при фокусном расстоянии f = 2,3
мм, приведен на рис. 4.20. Заметны сильные геометрические искажения, белым прямоугольником обозначена контрольная область.
Для построения панорамы движущегося объекта необходимо измерить смещение изображения в каждом кадре и затем объединить
полученные фрагменты. В этом случае формируется цилиндрическая эквидистантная проекция состава на плоскость датчика телевизионного изображения.
Необходимо рассчитать зависимость смещения проекции точки
на телевизионный растр от ее координат и вектора смещения в пространстве. Пространственные координаты точки преобразуются в
сферические по формулам
æ
÷÷ö
æ x ö÷
çç
z
ç
÷÷,
÷
λ = arctg ç ÷, ϕ = arctg çç
÷
çè y ÷ø
ççè x2 + y2 ÷ø
232
r = x2 + y2 + z2 ,
Рис. 4.20. Изображение состава, полученное
в боковой проекции с близкого расстояния
где λ – азимут; j – угол места; r – расстояние до начала координат
(за начало координат принят оптический центр объектива). При
этом ось y совпадает с оптической осью объектива, ось x – это направление перемещение состава (см. рис. 4.20). В камере со сверхширокоугольным объективом и точечной диафрагмой происходит
преобразование сферических координат в координаты растрового
элемента на плоскости датчика, описываемое, без поправки на индивидуальные свойства объектива, выражениями:
x2
R2
x2
λ
2
+
y2
R
2
+
y2
ϕ2
= 1, ϕ =
= 1,
2Rϕ
2Rλ
, λ=
,
π
π где x , y – координаты в плоскости растра; R – радиус полного изображения; λ, ϕ – приведенные угловые координаты точки.
Для расчетов удобнее выразить x и y в явном виде относительно λ , ϕ :
233
а)
б)
1
Y
B
λ= π/2
1 A
z
A
0,5
ϕ = π/2
B
0
1
y
10
x
0 0
0
X
0,5
0
1
Рис. 4.21. Горизонтальное перемещение точки в пространстве (а)
и перемещение проекции точки на плоскость растра при съемке
объективом «рыбий глаз» (б)
x2 =
(
R 2λ2 ϕ2 - R 2
ϕ2λ2 - R 4
æ
x 2 ö÷
y 2 = ççç1 - 2 ÷÷÷ϕ2 .
çè
R ø÷
),
(4.6)
Горизонтальное перемещение точки в пространстве вызывает перемещение ее проекции на растр по обеим координатам (рис. 4.21).
При построении панорамной проекции из текущего кадра берут
вертикальный фрагмент, находящийся на оси объектива. В этом
случае для упрощения можно учитывать только горизонтальную
составляющую этого перемещения
¶x ¶x ¶λ ¶x ¶ϕ
=
+
.
¶x ¶λ ¶x ¶ϕ ¶x Решение уравнений для частных производных относительно
пространственных координат точки имеет вид
¶x
= R5
¶λ
ϕ2 - R 2
(
¶x
= R 3 λ2
¶ϕ
234
ϕ2 λ2 - R 4
3
)
,
λ2 - R 2
(ϕ
2
-R
2
)(ϕ λ
2 2
-R
4 3
)
,
Y 1
0,8
0,6
0,4
0,2
0
0,4
0,5 0,6 0,7 0,8 0,9
u/umax
1
Рис. 4.22. Профиль горизонтальной скорости точки
при проекции на ТВ растр
¶λ
y
2R
=,
¶x
π x2 + y2
¶ϕ 2R
z
=
.
¶x
π x2 + y2 x2 + y2 + z2
(
)
При x = 0 (вертикаль, проходящая через центр объектива) зависимость горизонтальной скорости проекции точки от ее вертикального положения имеет характерный вид (рис. 4.22). Для наглядности на рисунке показана связь между вертикальной координатой
точки на растре и относительным уменьшением горизонтальной
скорости проекции (при постоянной скорости перемещения точки
в пространстве).
В центре кадра вертикальная координата точки на растре пропорциональна углу места (4.6). В рассматриваемой телевизионной
системе применяются камеры с углом обзора по вертикали порядка
90°. Из рисунка следует, что в этом случае скорость на краях растра
отличается от скорости в середине растра в 1,2 раза при неизменном
расстоянии между точкой и камерой по оси y.
Расчет векторного поля смещений объекта
в различных частях растра
Из геометрических построений (см. рис. 4.18) видно, что расстояние от камеры наблюдения до различных частей объекта может существенно отличаться при съемке с близкого расстояния. Для корректного построения панорамы необходимо измерить карту смеще235
полувагон
0
100
100
200
200
№ строки
№ ст роки
0
300
400
500
цистерна
300
400
500
–40 –20
0
20
40
смещение, пикс./кадр
–20
0
20
смещение, пикс./кадр
Рис. 4.23. Горизонтальные смещения в ТВ кадре, измеренные построчно
ний в строках телевизионного растра. Зависимость смещения от номера строки имеет сложный характер, который определяется типом
вагона и направлением оптической оси камеры (рис. 4.23).
При построении проводилось измерение смещения в каждой
строке корреляционным методом. Достоверному измерению смещений в каждой строке препятствует проблема апертуры, т.е. в данном случае отсутствие движущихся вертикальных деталей в той
или иной строке. Поэтому результат измерения карты смещений с
высокой вероятностью может содержать аномальные выбросы, как
это видно на рисунке.
Сокращение числа аномальных результатов измерения может
быть достигнуто объединением соседних строк в блоки (вертикальное сечение кадра разбивается на 7–9 равных частей) [146]. Такое
улучшение помехоустойчивости сопровождается снижением точности измерения смещений, что сказывается на итоговом качестве панорамного изображения.
В действительности объединение строк в блоки целесообразно
только в том случае, когда изображение на данном участке недостаточно информативно для оценки смещений. В противном случае даже одной строки достаточно для того, чтобы достоверно измерить смещение (см. рис. 4.23). Предлагается компромиссный способ
определения поля смещений, основанный на адаптивном выборе
236
высоты блока. С этой целью вычисляется двумерная функция рассогласования, аргументами которой являются горизонтальное смещение и номер строки.
SAD(v, y) =
å
xÎ[ xmin ,xmax ]
Lref (x, y) - L(x - v, y) , (4.7)
где v – величина смещения в пикселях; y – номер строки; xmin и
xmax – границы блока; Lref(x,y) – распределение яркости в опорном
кадре; L(x,y) – распределение яркости в предшествующем кадре.
Выбор суммы абсолютных отклонений в качестве меры рассогласования обусловлен исключительно требованием обработки в реальном времени. Компромисс между вычислительными затратами, вероятностью появления аномальных результатов и устойчивостью
к шумам обеспечивается при ширине 48 пикселей (или 7% от ширины кадра). Более точная оценка размера окна корреляции может быть получена в результате анализа спектра пространственных
частот изображения. Функция рассогласования (4.7) вычисляется
один раз для каждого кадра и используется вначале для грубого совмещения и оценки скорости, а затем для точного расчета карты
смещений. На рис. 4.24, а приведен пример функции рассогласования (светлые участки соответствуют большим значениям, темные –
малым).
Смещение между кадрами оценивается по положению минимума функции рассогласования. В общем случае минимизации может
а)
б)
0
Рассогласование
№ строки
100
200
300
400
800
600
строка 112
строка 132
строки 100–150
(усредненно)
400
200
500
0
–20
0
20
v, пикс./кадр
–30 –20 –10
0
10
20
30
v, пикс./кадр
Рис. 4.24. Функция рассогласования (а)
и ее сечения в различных строках (б)
237
подвергаться функция, усредненная по некоторому числу соседних
строк:
ïìï
ïüï
ïý
(
,
)
vˆ = arg min ïí
SAD
v
y
å
ïï
ïï
îïyÎ[ ymin ,ymax ]
þï где v̂ – оценка смещения; ymin и ymax – начальная и конечная строки. Усреднение целевой функции эквивалентно изменению размера блока (так как мера расхождения (4.7) имеет свойство аддитивности) и способствует более устойчивой оценки смещения (см. рис.
4.24, б).
Для аппроксимации карты смещений может быть применена полиномиальная модель, параметры которой определяются одним из
методов робастной регрессии [147]. Однако гладкость полиномиальной модели делает невозможным описание карты смещений, содержащей разрывы (резкое изменение межкадрового смещения на границах деталей объекта, по-разному удаленных от камеры).
На практике более высокую точность оценки смещений при достаточном сглаживании обеспечивает кусочно-линейная аппроксимации сечения скоростей.
Устранение аномальной погрешности
при измерении карты смещений
Для достижения требуемой точности измерения карты смещений требуется применять ряд мер, препятствующих возникновению аномальных погрешностей (рис. 4.25).
Телевизионный сигнал подается на блок выделения из фона, а
также на блок вычисления функции рассогласования (4.7). По результатам выделения определяются строки, в которых присутствует изображение объекта (только в центральной части кадра). Фрагмент центральной части кадра, содержащий изображение объекта,
делится на блоки фиксированной высоты (64 пикселя) для последующей кусочно-линейной аппроксимации карты смещений. Функция рассогласования используется для оценки скорости объекта, а
также непосредственно для расчета карты смещений. Далее производится расчет межкадровых смещений в блоках. Для повышения
устойчивости алгоритма к аномальным погрешностям диапазон поиска минимумов функции рассогласования в блоке сужен относительно исходного (±64 пикселя). Эксперименты показали, что модуль смещения в строке с высокой вероятностью находится в диапазоне от 0,5 до 1,5 модулей оценки смещения по кадру (результат
238
Телевизионный сигнал
Выделение
объекта из фона
Грубое совмещение,
оценка скорости
Выбор строк,
содержащих объект
Ограничение
диапазона поиска
Разбиение на блоки
Вычисление
смещения в блоках
Расчет функции
рассогласования
Интерполяция
в строках
Карта смещений
Рис. 4.25. Схема измерения карты смещений
«грубого» совмещения центральных фрагментов соседних кадров).
Кроме этого, в диапазон поиска включается нулевое смещение
v Î {sign (V ){ 0,5V ... 1,5V },0}, (4.8)
где sign – функция определения знака; V – оценка скорости по кадру.
Для вычисления смещения в границах блока используется соотношение (4.8) с ограничением на диапазон поиска минимума. При
этом строки, в которых функция рассогласования не имеет локальных минимумов, игнорируются. После расчета смещений в блоках
выполняется кусочно-линейная интерполяция (рис. 4.26), в результате которой формируется непрерывная карта смещений в строках
телевизионного кадра, используемая для построения панорамного
изображения.
Стыковка фрагментов панорамы
и восстановление построчной структуры растра
Для стыковки фрагментов панорамы из каждой строки текущего кадра извлекается фрагмент, равный смещению в данной строке.
Так как формируемое изображение является прямоугольным, необходимо привести все смещения к одной величине (рис. 4.27).
239
0
0
100
100
200
200
300
300
400
400
500
500
–20
0
–20
20
0
20
v, пикс./кадр
v, пикс./кадр
Рис. 4.26. Кусочно-линейная аппроксимация карты смещений
W=const
y
w(y)
Рис. 4.27. Выравнивание ширины фрагментов панорамы
240
Грани цы о б ъет а
б) Границы диапазона поиска
Гран ицы б ло ко в
№ строки
а)
Сигнал в строке ТВ кадра
L(u)
u
u0
u0+d/2
Сигнал в строке панорамного изображения
L(x)
x0
x0+W x
Рис. 4.28. Интерполяция сигналов в строках
В случае, когда поверхность объекта не является плоской, становится заметным горизонтальное растяжение деталей объекта,
удаленных по вертикали от центра кадра. Это является одним из
свойств эквидистантной панорамной проекции [148].
Для построения панорамы из каждой строки каждого кадра необходима выборка длиной d отсчетов, причем с целью минимизации пространственных искажений центр выборки должен совпадать с вертикальной беспараллаксной осью изображения. Имеется
в виду семейство точек на растре, в которых отсутствует видимое горизонтальное смещение деталей объекта при удалении от камеры.
Для стыковки фрагментов панорамы выполняется совмещение выборок из соседних кадров и их интерполяция в узлах равномерной
сетки дискретизации панорамного изображения (рис. 4.28).
Связь между координатами точки на панорамном изображении
и на исходном телевизионном растре выражается как
d
u = u0 + (x - x0 ), x Î x0 ...x0 + W,
W
где x0 – начало текущего фрагмента панорамы; W – ширина фрагмента панорамы; u0 – беспараллаксная точка в строке ТВ кадра; d –
межкадровое смещение в строке. Для вычисления отсчетов сигнала на панорамной проекции используется линейная интерполяция,
обеспечивающая приемлемое качество изображения при низких
вычислительных затратах:
F (x) = (u - a)S(a) + (b - u)S(b), a = êëuúû , b = éêuùú ,
где … – округление вниз; … – округление вверх.
241
Важную роль играет выбор величины W, от которой зависит соблюдение пропорций объектов на панорамной проекции. При наличии в системе (см. рис. 4.19) электронно-оптического устройства измерения скорости состава значение W выбирается пропорционально измеренной скорости с учетом масштабного коэффициента. При
отсутствии данной аппаратуры используется устойчивая оценка
скорости, полученная на основе кластерного анализа векторов смещения в последовательности кадров.
Для наблюдения на железнодорожных станциях широко используются камеры с чересстрочной разверткой, имеющие низкую
цену и совместимые с широкой номенклатурой аналогового телевизионного оборудования. При наблюдении такого изображения на
мониторе с электронно-лучевой трубкой и чересстрочной разверткой поля воспроизводятся по очереди, а время свечения люминофора мало, поэтому смещение объекта за время одного поля не вызывает видимых искажений. При компьютерном наблюдении движущихся объектов, снятых чересстрочной камерой, появляются артефакты изображения в виде смаза и «гребенки» (рис. 4.29), что часто
вынуждает разработчиков видеокомпьютерных систем намеренно
снижать вертикальную четкость при отображении подвижных объектов, воспроизводя только одно поле либо выполняя усреднение
полей. При построении панорамного изображения описываемым
методом становится возможным восстановить полную вертикальную четкость изображения. Для этого выборки из строк четного поля (или нечетного, в зависимости от очередности полей при оцифНаправление движения
кадр t–1
d/2
d
Панорама
после восстановления
построчной развертки
кадр t
Рис. 4.29. Восстановление прогрессивной развертки
при формировании панорамы
242
Рис. 4.30. Панорамное изображение вагона первого типа
Рис. 4.31. Панорамное изображение вагона второго типа
Рис. 4.32. Панорамное изображение платформы
с установленными цистернами
ровке телевизионного сигнала) смещаются в направлении, обратном направлению движения объекта, на половину кадрового смещения. Погрешность оценки межкадровых смещений достаточно
мала для того, чтобы скомпенсировать эффект «гребенки».
Примеры панорамных изображений, построенных по описанному алгоритму, приведены на рис. 4.30–4.32.
Коррекция геометрических искажений
при построении панорамы
За счет объединения большого числа фрагментов, взятых из середины каждого кадра, при синтезе панорамной проекции предложенным методом происходит коррекция геометрических искажений по горизонтали. На исходном телевизионном изображении наиболее существенно сказываются нелинейные искажения. Коэффи243
циент нелинейных искажений по горизонтали рассчитывается по
формуле
B
- Bmin
k = 0,5 max
100%,
Bmax + Bmin
где Bmax и Bmin – горизонтальные размеры самого широкого и самого узкого элементов тестового изображения (например, «шахматное
поле»). Предыдущее соотношение позволяет рассчитать коэффициент нелинейных искажений на основе производной горизонтальной
координаты точки на растре относительно ее горизонтальной координаты в пространстве:
k(W ) = 0,5
F0 - F1
¶x
100%, F0 =
F0 + F1
¶x
x=0, z=0
, F1 =
¶x
¶x
x=W , z=0
,
k, %
где W – ширина выбранного фраг100
мента. Результаты расчетов (рис.
4.33) показывают, что при угле
10
обзора камеры 120° по горизонтали коэффициент нелинейных ис1
кажений составляет более 110%.
Фрагменты шириной до 48 пикселей, извлекаемые из середины
0,1
кадра при построении панорамы,
0
200
400
600
800
ширина фрагмента изображения
имеют искажения не более 0,5%.
(в пикселях)
Известная модель проекции поРис. 4.33. Зависимость
зволяет также выполнить корреккоэффициента нелинейных
цию геометрических искажений
искажений от ширины
по вертикали (коэффициент нелифрагмента телевизионного
нейных искажений составляет покадра при съемке объективом
рядка 75%). Однако при построес углом обзора 120°
нии панорамной проекции железнодорожного вагона, боковая поверхность которого не является
плоской, такая коррекция нецелесообразна, так как нарушает взаимное расположение деталей объекта.
Влияние встречной засветки и неподвижных теней
В ряде случаев построение панорамного изображения затруднено или невозможно. При встречной засветке телевизионная камера
теряет чувствительность, что приводит к невозможности различать
детали изображения. В некоторых случаях скомпенсировать смену
освещенности удается за счет автоматического управления платами
ввода телевизионных сигналов в ЭВМ [149].
244
Попадание неподвижных теней в центральную часть кадра приводит к их «размножению» на панорамной проекции, а также ухудшает условия определения межкадровых смещений. Для устранения влияния теней необходимо, чтобы изображение было цветным.
В этом случае возможно преобразование сигнала к форме, инвариантной к освещенности сцены. Существует ряд методов формирования таких сигналов [150].
4.3.4. Обнаружение стыков между вагонами
грузового состава
Формулировка задачи
Важным элементом системы дистанционного осмотра железнодорожных составов является блок определения моментов прохождения стыков между вагонами. Эта задача может быть решена путем
аналитической обработки телевизионных изображений. Основным
преимуществом такого подхода является сокращение затрат на установку, ремонт и обслуживание аппаратуры. В случае, когда товарная
станция оснащена и телевизионными камерами, и электронно-оптическими датчиками, совместная обработка информации от этих источников позволяет повысить вероятность правильного определения
числа вагонов, проходящих через контрольный пункт.
В силу многообразия типов железнодорожных вагонов, которые
рознятся по конфигурациям, габаритам, характеру перевозимого груза и другим характеристикам, задача счета вагонов на основе видеоданных не является тривиальной. При этом требования к
точности работы системы весьма высоки (требуется обеспечить вероятность ошибки порядка 10–3) и существует ряд обстоятельств,
затрудняющих извлечение полезной информации из телевизионного сигнала:
– широкая номенклатура железнодорожных вагонов (более 300
существенно отличающихся друг от друга типов);
– различные условия съемки (день, ночь, съемка против света,
атмосферные осадки);
– наличие на изображении мешающих факторов различного характера, таких как солнечные блики, подвижные и неподвижные
тени, посторонние движущиеся объекты;
– шумы и помехи, возникающие при формировании и передаче
телевизионного сигнала.
Ближайшим аналогом разрабатываемой системы, в которой
определение стыков между вагонами производится на основе обработки телевизионного изображения, является описанная в литера245
туре [151] система технического зрения, предназначенная для распознавания бортовых номеров вагонов. В ее составе присутствует
модуль обнаружения состава и разбиения видеоматериала на вагоны, однако предложенный подход требует установки по бокам проезжающего состава специальных контрастных щитов, которые видны при прохождении стыка между вагонами и не видны в остальных случаях. Очевидно, что в этом случае, помимо дополнительных
затрат на установку щитов, возникают проблемы при прохождении
низких платформ, а также вагонов со сложной конфигурацией.
Решение задачи определения стыков между вагонами требует:
– выбора информативных признаков, позволяющих предположить наличие или отсутствие стыка между вагонами в текущем кадре;
– построения классификатора для принятия решения.
При выборе признаков для определения стыков между вагонами
требуется учитывать разнообразие типов вагонов, условий наблюдения и способов установки телевизионных камер относительно железнодорожных путей. Длина вагонов может отличаться более чем
в два раза (от 10 до 26 м), что исключает возможность определения
количества вагонов в составе по известным скорости и времени движения. Опознавание колесных тележек (определение числа колесных пар) также малоэффективно, так как различные вагоны могут
иметь 4, 6 или 8 колесных пар. Кроме того, при небольшом расстоянии от камеры до состава колесные пары могут быть закрыты от
наблюдателя при прохождении некоторых типов вагонов. Проведенные исследования [152] позволили выявить ряд универсальных
признаков, позволяющих с высокой вероятностью опознавать стык
между вагонами.
Анализ видимого движения в центре кадра
Изменение сигнала изображения во времени описывается векторным полем, для которого используется термин «оптический поток». Это поле является отображением перемещений реальных объектов в пространстве на плоскость фоточувствительного элемента
камеры. Оценка оптического потока используется в рассматриваемой системе для определения скорости движения состава. Видимое движение в центральной части кадра при прохождении стыков
между вагонами и бортов вагонов существенно отличается. В случае, когда за составом нет других подвижных объектов, движение
полностью отсутствует (за исключением небольшой области, соответствующей сцепному устройству). Таким образом, анализ мгно246
v, пикс./кадр
20
15
10
5
устойчивая оценка
мгновенная оценка
0
28
32
36
40
44
t, с
48
52
56
60
Рис. 4.34. Видимая скорость движения в центральной части кадра
венной скорости видимого движения позволяет идентифицировать
моменты прохождения стыков между вагонами (рис. 4.34).
Неоднородность видимого движения может быть оценена по формуле
∆v =
vìãí - vñð
vñð
,
(4.8)
Вероятность ошибки первого рода
где vмгн – мгновенная скорость; vср – устойчивая оценка скорости
движения состава в плоскости растра, рассчитанная на основе кластерного анализа [153].
Для оценки эффективности
разрабатываемого алгоритма
опознавания стыков исполь100
зованы записи железнодорожных составов, сделанные на
–1
10
станциях «Московская сортировочная» и «Ивангород» в раз–2
10
личное время года при различных условиях наблюдения. Об–3
10
щее число вагонов на тестовых
записях составляет более 4000.
–4
10
–2
–1
0
10
10
10
При использовании (4.8) в
качестве достаточной статиВероятность ошибки второго рода
стики для опознавания стыка
Рис. 4.35. РХП при
между вагонами построена раопределении
стыка на основе
бочая характеристика алгоритнеоднородности видимого движения
ма (рис. 4.35).
247
Высокая вероятность ошибок второго рода (до 10% ложных срабатываний при вероятности правильного обнаружения 99%) вызвана, в первую очередь, тем, что мгновенная оценка скорости, входящая в (4.8), подвержена аномальной погрешности.
Опознавание стыка по выбросам ошибки
предсказания изображения
В момент прохождения стыка между вагонами в кадр попадают
торцевые поверхности вагонов, а также открывается часть фона, находящегося за движущимся составом. Элементы конструкции вагона, расположенные на его бортах, находятся в кадре достаточно
долго, в зависимости от угла обзора камеры по горизонтали и скорости движения состава. В момент прохождения стыка между вагонами в кадре, напротив, появляются детали, время присутствия
которых на изображении достаточно невелико. Другими словами,
во время прохождения борта вагона можно с достаточной точностью
предсказать изображение в центре кадра на основе предыдущих
кадров, если имеется информация о скорости движения. Предсказание выполняется для прямоугольной области в центре кадра R,
имеющей проекции на координатные оси Rx и Ry. При условии постоянной яркости (наблюдаемые объекты не изменяют своей яркости с течением времени) изображение в текущем кадре может быть
предсказано на основе предыдущего по формуле
Lˆt (Rx , Ry ) = Lt-1 (Rx - vx , Ry - vy ),
(4.9)
где Lˆt (Rx , Ry ) – предсказанные значения яркости в кадре t; Rx, Ry –
проекции прямоугольной области, для которой производится предсказание, на оси x и y соответственно; Lt–1(Rx, Ry) – значения яркости в кадре t–1; vx, vy – координаты вектора видимого смещения
объекта за один кадр.
При небольших скоростях движения объекта изменения изображения в двух соседних кадрах достаточно невелики, что может
затруднить использование (4.9) для идентификации стыков между вагонами. Поэтому предложено выполнять предсказание изображения в кадре с номером t на основе кадра с номером t–N, где N
есть функция скорости движения объекта. С учетом того, что вертикальная составляющая вектора смещения пренебрежимо мала,
формула для предсказания отсчетов сигнала изображения упрощается следующим образом:
248
Lˆt (Rx , Ry ) = Lt-N (Rx - Nvx , Ry ), (4.10)
3
×10 5
2
δ
1
0
80
88
96
104
t, с
112
120
128
136
Рис. 4.36. Ошибка предсказания на основе компенсации смещения
Ошибка предсказания d может быть количественно оценена по
сумме модулей разности предсказанного и реального сигналов:
δ=
å å
xÎRx yÎRy
Lt (x, y) - Lt-1 (Rx - vx , Ry - vy ) . (4.11)
Эксперимент подтвердил, что предсказание (4.10) является наименее точным в момент прохождения стыка между вагонами. Поэтому локальный максимум ошибки предсказания изображения может использоваться в качестве признака для опознавания стыков
(рис. 4.36).
График функции (4.11) имеет хорошо выраженные пики, несущие информацию о прохождении стыков между вагонами, но для
установки порога обнаружения требуется произвести дополнительную обработку измеренной величины.
Абсолютная величина ошибки предсказания определяется многими факторами, в числе которых отношение сигнал-шум, освещенность изображения, наличие мелких деталей и т.д. Размах сигнала
(4.11) может существенно меняться с течением времени. Для определения стыков существенной является не значение ошибки предсказания, а ее изменение по сравнению с теми кадрами, в которых
присутствуют борта вагонов. Поэтому перед пороговой обработкой
проводится нормировка сигнала ошибки. Верхняя и нижняя огибающие сигнала могут быть получены при помощи пиковых детекторов, реализованных как фильтры первого порядка:
ìïaâ (n) + k1 (e(n) - aâ (n -1)), e(n) ³ aâ (n -1)
ï
aâ (n) = í
,
ïïaâ (n) + k2 (e(n) - aâ (n -1)), e(n) < aâ (n -1)
ïî
(4.12)
249
×10 5
2
δ
1
0
40
80
120
160
200
t, с
Рис. 4.37. Пиковое детектирование ошибки предсказания
ì
ï
ïaí (n) + k2 (e(n) - aí (n -1)), e(n) ³ aí (n -1)
aí (n) = í
,
(4.13)
ï
ï
ï
îaí (n) + k1 (e(n) - aí (n -1)), e(n) < aí (n -1)
где aв(n), aн(n) – верхняя и нижняя огибающие; e(n) – сигнал ошибки предсказания; k1, k2 – коэффициенты детектора (k1 > > k2).
Результатом детектирования являются сигналы, отслеживающие максимумы и минимумы ошибки предсказания (рис. 4.37).
Нормированный сигнал вычисляется из соотношения
a (n) =
e(n) - aí (n)
,
aâ (n) - aí (n)
и имеет основной диапазон значений от 0 до 1.
Коэффициент k1 выбирается из диапазона 0,9…1 для быстрой
адаптации к выбросам сигнала ошибки. Постоянная времени пиковых детекторов (4.12), (4.13) по заднему фронту определяется коэффициентом k2
1
N=
,
ln (1 - k 2 )
где N имеет размерность числа кадров.
При слишком малом значении N детектор оказывается не в состоянии «запоминать» пики сигнала, соответствующие стыкам,
при слишком большом – не отслеживает изменений размаха. Поскольку временные характеристики сигнала ошибки предсказания
связаны со скоростью движения состава, предложено динамически
определять постоянную времени как число кадров, за которое мимо
камеры проходит самый короткий вагон (при известной скорости).
Число кадров N, за которое состав проходит расстояние A0, соответ250
A
N= 0,
kv
(4.14)
Вероятность ошибки первого рода
ствующее минимальной длине
вагона (10 м), определяется формулой
10
10
10
0
–1
–2
где v – скорость движения объ–3
екта в кадре, имеющая размер10
ность [пиксель/кадр]; k – коэф–4
фициент пропорциональности,
10
–3
–2
–1
0
связывающий геометрические
10
10
10
10
Вероятность ошибки второго рода
размеры объектов в кадре с их
реальными размерами в проРис. 4.38. РХП при определении
странстве и измеряющийся в
стыка на основе ошибки
[м/пиксель].
предсказания центральной
Величина k рассчитывается
части изображения
при известном фокусном расстоянии объектива и расстоянии от
камеры до объекта наблюдения либо задается при калибровке камеры. Следует ввести разумное ограничение величины N, так как
правая часть (4.14) бесконечно возрастает при ν→0.
На основе экспериментальных данных построена рабочая характеристика обнаружения стыков по величине относительной ошибки
предсказания (рис. 4.38).
Опознавание стыка по совокупности признаков
Были изучены и другие признаки для опознавания стыков, например, выделение определенных пространственных частот, соответствующих изображению автоматического сцепного устройства.
Однако для работы в различных условий наблюдения наилучшие
результаты были получены с использованием комбинации рассмотренных признаков неоднородности видимого движения и величины ошибки предсказания центральной части кадра. По построенным рабочим характеристикам для каждого из них выбран порог,
и в качестве критерия опознавания стыка принято логическое произведение полученных бинарных сигналов. Для повышения надежности блока счета вагонов предложена схема логической обработки
(рис. 4.39).
В моменты превышения признаками выбранных порогов формируются импульсы a и b. Так как при прохождении стыка моменты
срабатывания признаков могут не совпадать, импульсы a и b рас251
a
A
tс
b
B
A&B
запрет
Tмин
импульсы счета
Tмакс
t1
t2
t2
Рис. 4.39. Диаграмма счета вагонов по двум признакам
ширяются (используется фиксированная ширина импульса tc = 3
кадра). Логическое произведение полученных сигналов A и B формирует предварительный импульс счета вагонов. Важную роль для
снижения вероятности ложного срабатывания играет учет минимальной и максимальной длины вагона. Эти величины рассчитываются динамически на основании текущей скорости состава. После
срабатывания счетчика формируется импульс запрета длительностью Tмин, в течение которого срабатывание признаков игнорируется. Если в течение времени Tмакс, соответствующего вагону максимальной длины, одновременного срабатывания признаков не произошло, формируется принудительный импульс счета (t2). Более эффективным является поиск такого момента, в который произошло
срабатывание наиболее достоверного признака (ошибка предсказания) – t2’. Для этого требуется хранение в памяти значений всех используемых сигналов.
В действительности для отслеживания времени прохождения
самого короткого и самого длинного вагона используется расчет
длины фрагмента состава, прошедшего мимо камеры с момента последнего срабатывания счетчика вагонов:
t
L(t) = k å vi ,
(4.15)
где k – масштаб изображения (м/пиксель); vi – оценка скорости состава в кадре i, отсчет ведется с момента последнего стыка между
вагонами. Значение (4.15) сравнивается с минимальной и максимальной длиной вагона (10 и 28 м соответственно).
Использование предложенной логической обработки позволило снизить вероятность ложного срабатывания до величины 0,5%
i=0
252
при вероятности правильного обнаружения 99%. Данные получены
на записях 55 железнодорожных составов, содержащих более 2000
вагонов широкой номенклатуры. Для 27 составов все стыки были
определены безошибочно при отсутствии ложных срабатываний.
Рекомендации для дальнейшего повышения надежности системы счета вагонов по телевизионному изображению включают:
– использование дополнительных признаков для счета вагонов, в
частности, высоты объекта, измеренной на этапе выделения из фона;
– использование более эффективных схем объединение признаков, например, дискриминантного анализа и нейронных классификаторов;
– использование телевизионных сигналов от нескольких камер,
снимающих состав с разных сторон;
– использование камер с повышенной чувствительностью либо
дополнительной подсветки в ночное время.
Итак, алгоритм построения панорамной проекции движущегося
состава при неподвижной камере позволяет:
– формировать изображение с прогрессивной разверткой, имеющее разрешение до 1,5 мегапикселей, с использованием одной чересстрочной камеры стандартной четкости;
– осуществлять коррекцию горизонтальных геометрических
искажений (коэффициент нелинейных искажений на панорамной
проекции составляет менее 0,5%);
– выполнять эффективное сжатие информации за счет передачи
серии неподвижных изображений высокого разрешения вместо последовательности телевизионных кадров.
Отличительной особенностью алгоритма является инвариантность к типу вагона и условиям съемки (нет необходимости в использовании дополнительных конструкций, например контрастных щитов). Вся система обработки реальных изображений реализована программно [154]. Быстродействие используемых алгоритмов позволяет обрабатывать четыре телевизионных сигнала стандартной четкости в реальном масштабе времени.
На основе описанной методики была разработана система дистанционного осмотра грузового подвижного состава железных дорог, в которой оператору предоставляется дополнительная по сравнению с существующими аналогами информация:
– статические изображения вагонов с повышенным разрешением и частично исправленными геометрическими искажениями вместо сильно искаженных, быстро меняющихся первичных видеоизображений;
253
– параметры движения состава при въезде на станцию (скорость,
направление, случаи остановок);
– порядковые номера вагонов и общее число вагонов в составе
(даже при отсутствии габаритных ворот, предоставляющих эту информацию в аналогичных системах).
254
Приложение
Характеристика тестовых видеопоследовательностей
1. Один из кадров ТВП1
Параметры:
– правый самолет – близкий к точечному медленно двигающийся
объект;
– левый самолет – близкий к точечному быстро двигающийся
объект;
– средний уровень детальности фона;
– средняя яркость по фону – 205;
– средняя яркость объекта – 98;
– соотношение сигнал/шум – 30 дБ.
255
2. Один из кадров ТВП2
Параметры:
– крупное судно – медленно двигающийся, маневрирующий
объект;
– катер – быстро двигающийся объект;
– средний уровень детальности фона;
– средняя яркость по фону – 163;
– средняя яркость объектов – 103;
– соотношение сигнал/шум – 27 дБ.
256
3. Один из кадров ТВП3
Параметры:
– катер – быстро двигающийся объект;
– высокий уровень детальности фона;
– средняя яркость по фону – 126;
– средняя яркость объекта – 151;
– соотношение сигнал/шум – 26 дБ.
257
4. Один из кадров ТВП4
Параметры:
– катер – быстро двигающийся объект;
– высокий уровень детальности фона;
– средняя яркость по фону – 99;
– средняя яркость объекта – 101;
– соотношение сигнал/шум – 30 дБ.
258
5. Один из кадров ТВП5
Параметры:
– судно на переднем плане – протяженный, медленно
двигающийся объект;
– судно на горизонте – близкий к точечному неподвижный
объект;
– средний уровень детальности фона;
– средняя яркость по фону – 165;
– средняя яркость объекта – 120;
– соотношение сигнал/шум – 30 дБ.
259
Библиографический список
1. Куликов А. Н. Телевизионное наблюдение при ярком солнечном
свете // Специальная техника. 2001. № 1. С. 11–20.
2. Методы компьютерной обработки изображений / под ред.
В. А. Сойфера. М.: Физматлит, 2003. 784 с.
3. McCandless J. W. Detection of aircraft in video sequences using
a predictive optical flow algorithm // Optical Engineering. 1999. № 3. P.
523–530.
4. Обухова Н. А., Тимофеев Б. С. Основы теории и практика цифровой обработки изображений: учеб. пособие / СПб.: СПб ГУАП. 2010. 94 с.
5. Красильников Н. Н. Цифровая обработка изображений. М.: Вузовская книга, 2001. 250 с.
6. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. 1072 c.
7.Цифровое преобразование изображений: учеб. пособие для вузов / Р. Е. Быков, Р. Фрайер, К. В. Иванов, А. А. Манцветов. М.: Горячая линия – Телеком, 2012. 228 с.
8. Ярославский Л. П. Введение в цифровую обработку изображений. М.: Сов. радио, 1979. 312 с.
9. Антонью А. Цифровые фильтры: анализ и проектирование. М.:
Радио и связь, 1983. 178 с.
10. Приоров А. Л., Ганин А. Н., Хрящев В. В. Цифровая обработка
изображений: учеб. пособие. Ярославль. Яросл. гос. университет, 2001.
208 с.
11. Переключающийся медианный фильтр с блоком предварительного детектирования /А. Л. Приоров, И. В. Апальков, С. С. Бухтояров,
В. В. Хрящев // Цифровая обработка сигналов. 2006. № 4. С. 2–7.
12. Применение переключающихся медианных фильтров для восстановления зашумленных изображений / А. Л. Приоров, И. В. Апальков, С. С. Бухтояров, В. В. Хрящев // Вопросы радиоэлектроники, Сер.
Общетехническая. 2006. Вып. 2. С. 137–147.
13. Гонсалес Р., Вудс Р., Эддинс С. Цифровая обработка изображений в среде MATLAB. М.: Техносфера, 2006. 587 с.
14. Рекомендации Международного союза электросвязи: ITU-R
ВТ. 500-11. 2002.
15. Цуккерман И. И., Кац Б. М., Лебедев Д. С. Цифровое кодирование телевизионных изображений. М.: Радио и связь, 1981. 240 с.
16. Лебедев Д. С., Ярославский Л. П. Нелинейная фильтрация импульсных помех на изображениях // Иконика. М.: Наука, 1970. С. 24–35.
17. Игнатьев Ю. Г., Смирнов В. М., Сорин В. Я. Распределение переходов по яркости в телевизионных сигналах // Вопросы теории и
проектирования телевизионных систем передачи, приема, обработки
260
и отображения информации: межвузовский сборник. Л.: ЛЭТИ, 1977.
С. 7–11.
18. Maragos S. Tutorial on advances in morphological image processing
and analysis // Optical Engineering. 1987. № 26(7). P. 623–632.
19. Знак В. И., Грачев О. В. Некоторые вопросы повышения качества зашумленных периодических сигналов и численной оценки их параметров и характеристик; кластерный подход – постановка задачи //
Сиб. журн. вычисл. матем. 2009. Т. 12. № 1. C. 41–55.
20. Быстрые алгоритмы в цифровой обработке изображений / под
ред. Т. С. Хуанга. М.: Радио и связь, 1984. 224 c.
21. Russ J. C. The image processing handbook. CRC Press, 2011. 885 p.
22. Мироновский Л. А., Слаев В. А. Алгоритмы оценивания результата трех измерений. СПб.: Профессионал, 2010. 192 с.
23. Wang Z., Zhang D. Progressive switching median filter for the
removal of impulse noise from highly corrupted images // IEEE Trans.
Circuits Syst. 1999. V. 46. № 1. P. 78–80.
24. Kasparis T., Tzannes N. S., Chen Q. Detail-preserving adaptive
conditional median filters // J. Electron. Imag., 1992. V. 1. № 14.
P. 358–364.
25. Куйкин Д. К., Павлов Е. А., Студенова А. А. Удаление импульсного шума со случайными значениями импульсов из изображений //
Материалы 10-й Международной конференции «Цифровая обработка
сигналов и её применение», М., 2008. Т. 2. C. 511–514.
26. http://www.controlstyle.ru/articles/text/amf
27. Juneja M., Sandhu P. S. Design and development of an improved
adaptive median filtering method for impulse noise detection //
International Journal of Computer and Electrical Engineering, 2009. V. 1.
№ 5. P. 627–630.
28. Кузьмин С. А. Исследование помехоустойчивости ранговых операторов // Материалы 10-й Международной конференции «Цифровая
обработка сигналов и её применение». М., 2008. Т. 2. С. 501–504.
29. Шикин Е. В., Боресков А. В. Компьютерная графика. М.: Диалог-МИФИ, 1997. 288 с.
30. Местецкий Л. М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры. М.: Физматлит, 2009. 288 с.
31. http://ocrai.narod.ru/vectory.html
32. Лейбов Д. В., Филатов В. Н. Волновой алгоритм скелетизации
бинарных изображений символов // Материалы 63-й студенческой научно-технической конференции ГУАП. Ч. 1. СПб.: ГУАП, 2010. С. 76–79.
33. Кокс Д., Хинкли Д. Теоретическая статистика. М.: Мир, 1978.
560 с.
34. Леман Э. Проверка статистических гипотез. М.: Наука, 1979.
408 с.
261
35. Кайлатц Т. Метод порождающего процесса в применении к теории обнаружения и оценки // ТИИЭР. 1970. Т. 58, № 6. С. 82.
36. Виттих В. А., Сергеев В. В., Сойфер В. А. Обработка изображений в автоматизированных системах научных исследований. М.: Наука, 1982. 214 с.
37. Претт У. Цифровая обработка изображений. Книга 1. М.:
Мир, 1982. 312 с.
38. Стратонович Р. Л. Принципы адаптивного приема. М.: Сов.
радио, 1973. 144 с.
39. Гумбель Э. Статистика экстремальных значений. М.: Мир,
1965. 450 с.
40. Вилесов Л. Д. Обнаружение объекта на изображении при наличии фона с замороженными неоднородностями. Рукопись деп. в ВИНИТИ, 1996. № 63.
41. Вилесов Л. Д. Измерение положения движущегося объекта на
изображении при наличии априорной неопределенности. Рукопись
деп. в ВИНИТИ. 1996. № 64.
42. Вилесов Л. Д. Обнаружение-измерение параметров объектов на
изображении // Информационно-управляющие системы. 2004. № 1. С.
22–30.
43. Вилесов Л. Д. Обнаружение-измерение неизвестного числа объектов с неизвестными параметрами на телевизионном изображении //
Материалы 2-й международной конференции «Телевидение: передача
и обработка изображений». СПб., 2002. С. 57–59.
44. Вороновицкий И. Э., Лабунец В. Г., Мальцев А. П. Телевизионная система слежения за целями с плазменным факелом // Зарубежная
радиоэлектроника. 1987. № 10. С. 69–80.
45. Wang D. Unsupervised video segmentation based on watersheds
and temporal tracking // IEEE Transactions on circuits and system for
video technology. 1998. V. 8. № 5. P. 592–599.
46. Paragios N., Deriche R. Geodesic active contours and level sets
for the detection and tracking of moving objects // IEEE Transactions on
pattern analysis and machine intelligence. 2000. V. 22. № 3. P. 266–280.
47. Bremond F., Thonnat M. Tracking multiple nonrigid objects in
video sequences // IEEE Transactions on circuits and systems for video
technology. 1998. V. 8, № 5. P. 585–591.
48. Gilbert A. I., Giles M. K. A real-time video tracking system //
Optical Ingineering. 1979.V. 18. № 1. P. 25–32.
49. Обухова Н. А. Обнаружение и сопровождение движущихся объектов методом сопоставления блоков // Информационно-управляющие
системы. 2004. № 1. С. 30–37.
50. Kass M., Wilkin A., Terzopoulos D. Snakes: active contour models
// Int. J. Computer Vision. 1988. V. 1. P. 321–331.
262
51. Chan T. F., Vese L. A. Active contour without edges // IEEE
Transactions on image processing. 2001. V. 10. № 2. P. 266–277.
52. Филатов В. Н., Смирнов В. М. Формирование адаптивного
строба в видеосистемах наблюдения // Информационно-управляющие
системы. 2006. № 3. С. 29–36.
53. Обухова Н. А. Сегментация объектов интереса на основе признака движения в видеокомпьютерных системах // Инфокоммуникационные технологии. 2007. № 1. С. 77–84.
54. Beauchemin S. S., Barron J. L. The computation of optical flow //
ACM Computing Surveys. 1995.V. 27. № 3. P. 433–467.
55. Hai Tao, Harpreet S. S., Rakesh K. Object tracking with bayesian
estimation of dynamic layer representations // IEEE Transaction on
pattern analysis and machine intelligence. 2002. V. 24. № 1. P. 75–83.
56. Обухова Н. А. Метод автоматической сегментации и сопровождения объектов интереса на основе математического аппарата нечеткой логики // Известия вузов. Сер. Радиоэлектроника. 2007. № 3.
C. 53–63.
57. Обухова Н. А. Тимофеев Б. С. Анализ параметров движения в
системе видеонаблюдения железнодорожных составов // Известия вузов. Сер. Радиоэлектроника. 2005. № 3. С. 32–44.
58. Reichardt W., Shlogl W., Egelhoaf M. Movement detectors of the
correlation type provide sufficient information for local computation of 2d
velocity fields // Naturwissenschaften. 1988. № 75. P. 313–315.
59. Nagel H. H. On the estimation optical flow: realations between
different approaches and some new results // Artificial Intelligence. 1987.
№ 33. P. 299–324.
60. Aisbett J. Optical flow with intensity-weighted smoothing // IEEE
PAMI. 1989. № 11. P. 512–555.
61. Bergen J. R., Burt P. J., Hingorany, Peleg S. Three-frame algorithm
for estimating two-component image motion // IEEE PAMI. 1992. № 14.
P. 886–896.
62. Horn B. K. P., Schunck B. G. Determing optical flow // Artificial
Intelligence. 1981. № 17. P. 185–204.
63. Schnorr C. Computation of discontinuous optical flow by domain
decomposition // IEEE PAMI. 1992. № 8. P. 153–165.
64. Lucas D. Generalized image matching by the method of differences
// PhD thesis. Carnegie-Mellon Univ., 1984. 35 p.
65. Jenkin M. R. M., Jepson A. D., Tsotsos J. K. Techniques for disparity
measurement // CVGIP. 1991. № 53. P. 14–30.
66. Kories R., Zimmeman G. A versatile method for the estimation of
displacement vectors fields from image sequences // IEEE Proceedings of
workshop on motion: representation and analysis. 1986. P. 101–106.
263
67. Рекомендации – Information technology – coding of moving
pictures and associated audio for digital storage media at up to about 1,5
Mbit/s – Part 2: Video, ISO/IEC 11172-2 (MPEG1 Video), 1993.
68. Рекомендации – Information technology – coding of moving
pictures and associated audio information: Video, ISO/IEC 13818-2
(MPEG2 Video) / ITU-T H.262, 1996.
69. Рекомендации – Video codec for audiovisual services at p64
kbit/s – ITU-T H.261. Version 3, 1993.
70. Bei C. D., Gray R. M. An improvement of the minimum distorsion
encording algorithm for vector quantization // IEEE Trans. Commun.,
1985. V. 33. P. 1132–1133.
71. Chock-Kwan Cheung, Lai-Man Po. Normalized Partial Distorsion
Search Algorithm for Block motion estimation // IEEE Transaction circuit
and systems for video technology. 2000. V. 10. № 3. P. 417–422.
72. Koga T., Linuma K., Hirano A., Lijima Y., Ishiguro T. Motion
compensated interframe coding for video conferencing” // NTC81. 1981.
№ 10. P. G5.3.1–G5.3.5.
73. Jain J. R, Jain K. A. Displlacement measurement and its application
in interframe image coding // IEEE Trans. Commun., 1981. V. 29. P. 1799–
1806.
74. Puri A., Hang H. M., Shilling D. L. An efficient block matching
algorithm for motion – compensated coding // IEEE Int. Conf. Acoustic,
Speach and Signal Processing. 1987. V. 19. P. 1063–1066.
75. Jianhua Lu, Ming I. Liou. A simple and efficient search algorithm
for block –matching motion estimation // IEEE Transaction on circuits
and systems for video technology. 1997. V. 7. № 2. P. 788–797.
76. Lurng-Kuo Liu, Ephraim Feig. A block–based gradient descent
search algorithm for block motion estimation in video coding // IEEE
Trans. Circuit Syst. Videotech., 1996. V. 6. № 4. P. 614–622.
77. Li R., Zeng B., Liou M. L. A new three-step search algorithm for
block motion estimation // IEEE Trans. Circuit Syst. Videotech., 1994.
V.4. № 1. P. 402–413.
78. Po L. M., Ma W. C. A Novel four-step search algorithm for fast
block estimation // IEEE Trans. Circuit Syst. Videotech., 1996. V. 6. № 3.
P. 651–660.
79. Xu J. B., Po L. M., Cheung C. K. Adaptive motion tracking block
matching algorithms for video coding // IEEE Transactions on circuits
and system for video technology. 2000. V. 10(3). P. 417–422.
80. Shi Y. Q., Xia X. A thresholding multiresolution block matching
algorithm // IEEE Transactions on circuits and systems for video
technology. 1997. V. 7(2). P. 437–440.
81. Babuska R. Fuzzy modeling for control. Boston: Kluwer Academic
Publishers, 1998. 225 p.
264
82. Орловский С. А. Проблемы принятия решений при нечеткой исходной информации. М.: Радио и связь, 1981. 286 с.
83. Обухова Н. А. Субпиксельная оценка векторов движения // Известия вузов. Сер. Радиоэлектроника. 2007. № 1. С. 18–23.
84. Astola J., Haavisto P., Neuvo Y. Vector median filters // IEEE.
1990. V. 78 (4). P. 237–260.
85. Кузьмин С. А. Анализ активности и построение моделей движения объектов на основе обработки видеоинформации // Материалы 5-й
международной конференции «Телевидение: передача и обработка изображений». СПб. 2007. С. 41–43.
86. Астратов О. С., Филатов В. Н., Чернышова Н. В. Особенности
выделения движущихся объектов в видеоизображениях // Оборонная
техника. 2003. № 11. С. 19–28.
87. Телевизионные методы сопровождения объектов в сложных условиях наблюдения / В. И. Можейко, Н. А. Обухова, Б. С. Тимофеев, В.
Т. Фисенко, Т. Ю. Фисенко // Известия вузов. Сер. Приборостроение.
2009. № 8. С. 20–29.
88. Кузьмин С. А. Алгоритмы и программное обеспечение системы обнаружения и сопровождения транспортных средств в видеопоследовательности // Научно-технический сборник «Радиоэлектроника
интеллектуальных транспортных систем. Вып. 2. СПБ.: Изд-во СЗТУ,
2010. С. 23–29.
89. Астратов О. С., Кузьмин С. А. Обнаружение транспортных
средств и оценка параметров транспортных потоков по видеопоследовательности // Информационно-управляющие системы. 2006. № 3.
С. 19–28.
90. Кузьмин С. А. Обновление оценки фона с учетом глобального
движения // Материалы 6-й международной конференции «Телевидение: передача и обработка изображений». СПб., 2008. С. 20–23.
91. Мотыко А. А., Тимофеев Б. С. Измерение скоростей автомобилей путем анализа видеопоследовательности // Информационно-управляющие системы. 2012. № 1. С. 2–7.
92. Рапаков Г. Г., Тимофеев Б. С. Компьютерное моделирование летательных аппаратов в задаче траекторных измерений. Рукопись деп. в
ВИНИТИ. 1998. № 370-В98.
93. Рапаков Г. Г., Тимофеев Б. С. Машинный синтез трехмерной модели летательных аппаратов // Сб. научн. трудов Вологодского политехнического института. Вологда: ВПИ, 1998. Т. 1. С. 72–75.
94. Батраков А. С., Иванов В. П. Трехмерная компьютерная графика. М.: Радио и связь, 1995. 224 с.
95. Никифоров А. Су с «усами» // Аэроплан. 1993. № 3. С. 14–19.
96. Путятин Е. П., Аверин С. И. Обработка изображений в робототехнике. М.: Машиностроение, 1990. 320 с.
265
97. Фокс Ф., Пратт М. Вычислительная геометрия. Применение в
проектировании и на производстве. М.: Мир, 1982. 304 с.
98. Тимофеев Б. С. Телевизионные методы обработки результатов
испытаний летательных аппаратов // Телевидение, видеотехника: сб.
научн. тр. СПб.: СПГААП, 1996. С. 11–17.
99. Обухова Н. А., Тимофеев Б. С. Алгоритм сегментации объектов в
последовательности видеокадров методами нечеткой логики // Информационно-управляющие системы. 2006. № 3. С. 12–19.
100.Тимофеев Б. С. Видеокомпьютерные системы для наблюдения
за движущимися объектами / Известия вузов. Сер. Радиоэлектроника.
2003. № 4. С. 32–44.
101. Обухова Н. А., Тимофеев Б. С. Системы видеообнаружения и сопровождения подвижных объектов // Телекоммуникации. 2003. № 12.
С. 36–44.
102.Chok-Kwan Cheung, Lai-Man Po. Normalized partial distortion
search algorithm for block motion estimation // IEEE transactions on
circuits and systems for video technology. 2000. V. 10. № 1. P. 417–422.
103.Murray D., Basu A. Motion tracking with an active camera // IEEE
Transactions Pattern Analysis And Machine Intelligence. 1994. V. 16. № 5.
P. 231–239.
104.Koller D., Danilidis K., Nagel H.-H. Model-based object tracking in
monocular image sequences of road traffic scenes // International Journal
of Computer Vision. 1993. V. 10. № 3. P. 257–281.
105.Meier T., Ngan K. N. Automatic segmentation of moving objects
for video object plane generation // IEEE Transactions on circuits and
system for video technology. 1998. V. 8. № 5. P. 525–537.
106.Перов А. И. Статистическая теория радиотехнических систем. М.: Радиотехника, 2003. 400 с.
107. Савинов Г. Ф. О некоторых особенностях алгоритма оптимальной фильтрации Калмана-Бьюси // Авиакосмическое приборостроение. 2007. № 6. С. 36–40.
108.http://ftp.jrc.es/EURdoc/JRC
109.Мотыко А. А., Тимофеев Б. С. Измерение скоростей автомобилей путем анализа видеопоследовательности // Информационно-управляющие системы. 2012. № 1. C. 2–7.
110. http://www.radis.biz/police_card.php?prodid=54&cat=4&gr=1
111. http://www.simicon.com/rus/product/gun/radis.html
112.http://www.zenitfoto.ru/index.php?option=com_
content&view=article&id=140:-2&catid=9
113. Тимофеев Б. С. Многокамерные телевизионные охранные системы // Техника кино и телевидения. 1997. № 8. C. 30–34.
114. Lykke O. Method and device for supervising the speed of an object
// US Patent № 4214265. 1980.
266
115. Патент Кореи G08G 1/054 № ROK 10-2008-0818323. 2006.
116. Макарецкий Е. А., Овчинников А. В., Нгуен Лием Хиеу. Телевизионные измерительные системы контроля скоростного режима дорожного движения // Компоненты и технологии. 2007. № 4. С. 34–37.
117. Буймов А. Г. Корреляционно-экстремальная обработка изображений. Томск: ТГУ, 1987. 134 с.
118. Иванов В. А. Моделирование корреляционного сопровождения
объектов в реальном времени // Автометрия. 1991. № 3. C. 24–30.
119. http://en.wikipedia.org/wiki/Hough_Transform#cite_ref-2
120.Справочник по круглым лесоматериалам. М.: Лесэксперт, 1999.
10 с.
121. Астратов О. С., Шуст А. В. Измерение параметров лесоматериалов по изображению на основе преобразования Хафа // Материалы 6-й
международной конференции «Телевидение: передача и обработка изображений». СПб., 2008. 130 с.
122.Шапиро Л., Стокман Дж. Компьютерное зрение. М.: БИНОМ.
Лаборатория знаний, 2006. 752 с.
123.Полосин Л. Л. Цифровые системы вещательного телевидения:
учеб. пособие. СПб.: БГТУ «Военмех», 2004. 120 с.
124.Никулин Е. А. Компьютерная геометрия и алгоритмы машинной графики. СПб.: БХВ-Петербург, 2003. 560 с.
125.Красильников Н. Н. Цифровая обработка 2D- и 3D-изображений.
СПб.: БХВ-Петербург, 2011. 608 с.
126.http://transport.grouptechno.ru/solutions/asudd-city/asuddcity_91.html
127. Астратов О. С. Телевизионные средства в системах управления движением транспорта // Телевидение, видеотехника: сб. науч. тр.
СПб.: СПбГААП, 1996. С. 18–24.
128.Тимофеев Б. С. Системы видеонаблюдения железнодорожных составов//Информационно-управляющие системы. № 1(8), 2004.
С. 2–10.
129. Астратов О. С., Филатов В. Н., Чернышова Н. В. Экологический телевизионный мониторинг транспортных потоков // Материалы
3-й международной конференции «Телевидение: передача и обработка
изображений». СПб.: ЗАО «Инсанта», 2003. С. 84–85.
130.Астратов О. С., Филатов В. Н., Чернышова Н. В. Видеомониторинг транспортных потоков // Информационно-управляющие системы. 2004. № 1. С. 14–21.
131. Астратов О. С., Кузьмин С. А. Обработка изображений в интеллектуальных транспортных системах // Материалы 4-й международной конференции «Телевидение: передача и обработка изображений»,
СПб., 2005. С. 95–96.
267
132.http://www.nmsu.edu/~traffic/Publications/Trafficmonitor
/
vdst.pdf
133.2.05.02-85 Строительные нормы и правила – «Автомобильные
дороги». М., 2004.
134.Обухова Н. А., Тимофеев Б. С. Анализ параметров движения в
системе видеонаблюдения железнодорожных составов // Известия вузов. Сер. Радиоэлектроника. 2005. № 3. С. 38–44.
135.Обухова Н. А., Тимофеев Б. С. Интеллектуальные системы видеонаблюдения железнодорожных составов// Вопросы радиоэлектроники. Сер. Техника телевидения. 2007. Вып. 1, С. 10–23.
136.Печерский М. П., Лившиц Б. Ю. Общегородская АСУ дорожным движением в Москве (система «Старт») и ее дальнейшее развитие
// Проблемы управления. 2006. № 2. С. 20–25.
137. Тимофеев Б. С. Видеопанорамы – новое направление развития систем телевизионного наблюдения // Материалы 7-й международной конференции «Телевидение: передача и обработка изображений». СПб., 2009.
С. 165–172.
138.Harris C., Stephens M. A combined corner and edge detector //
Proc. 4th Alvey vision conf. Manchester, 1998. P. 147–151.
139.Mikolajczyk K., Schmid C. Scale and affine invariant interest
point detectors // Int. J. of computer vision. 2004. № 60(1). P. 63–86.
140. Hartley R., Zisserman A. Multiple view geometry in computer
vision. Cambridge. Cambridge University Press, 2003. 560 p.
141. Alkaabi S., Deravi F. Iterative corner extraction and matching for
mosaic construction // 2nd Canadian conf. of computer and robot vision
(CRV`05), IEEE Computer Society. 2005. ISBN 0-7695-2319-6.
142.Интегрированная система АСТРА-СС / С. Ю. Елисеев, Д. А. Соснов, А. Г. Савицкий, А. А. Москалев // Железнодорожный транспорт.
2002. № 8. С. 36–44.
143.«ПАЛЬМА» – система автоматической идентификации транспортных средств / В. В. Белов, В. А. Буянов, М. Д. Рабинович и др. //
Железнодорожный транспорт. 2002. № 8. С. 54–59.
144.Nayar S. K. Catadioptric omnidirectional camera // Proc. of IEEE
Computer Vision and Pattern Recognition (CVPR). 1997.
145. 8-значная система нумерации грузовых вагонов колеи 1520 мм:
справочник. М.: РЖД-партнер. 2005.
146.Обухова Н. А., Тимофеев Б. С. Методы повышения эффективности систем видеонаблюдения // Материалы 4-й международной конференции «Телевидение: передача и обработка изображений».СПб., 2005.
С. 85–87.
147. Fischler M. A., Bolles R. C. Random sample consensus: A paradigm
for model fitting with application to image analysis and automated
cartography // Communications of the ACM. 1981. № 24(6). P. 381–395.
268
148.Shyder J. P. Map projections – a working manual / U. S. Geological
Survey Professional Paper 1395. Washington, DC: U. S. Government
Printing Office. 1987.
149. Афанасенко А. С. Автоматическое управление платами видеоввода в системе компьютерного видеонаблюдения // Материалы 13-й
международной научно-технической конференции студентов и аспирантов. Т. 1. М.: Издательский дом МЭИ, 2007. С. 428.
150.Gevers T. PickToSeek: Combining Color and Shape Invariant
Features for Image Retrieval // IEEE Transactions on Image Processing.
2000. N 9(1). P. 102–119.
151. Система технического зрения для распознавания номеров железнодорожных цистерн с использованием модифицированного коррелятора в метрике Хаусдорфа / С. Г. Волотовский, Н. Л. Казанский, С.
Б. Попов, Р. В. Хмелев // Компьютерная оптика. ИСОИ РАН. Самара,
2005. Вып. 27. С. 149–154.
152.Афанасенко А. С., Тимофеев Б. С. Исследование признаков для
определения числа вагонов в железнодорожном составе по телевизионному изображению // Вестник ТГТУ. 2007. Т. 13. № 4. С. 862 –873.
153.Афанасенко А. С., Тимофеев Б. С. Многоканальная обработка
данных в системе телевизионного наблюдения железнодорожных составов // Материалы 5-й международной конференции «Телевидение:
передача и обработка изображений». СПб., 2007. С. 39.
154.Дистанционный осмотр железнодорожных составов / Б. С. Тимофеев, Н. А. Обухова, А. С. Афанасенко, М. П. Плетников. М.: ВНТИЦ,
50200702286, 2007.
155.Fissenko V. T., Mojeiko V. I., Zelentsov V. N. Dynamic accumulation
technique increases the underwater viewing distance // Proceedings of
the International Conference «Current Problems in Optical of Natural
Waters». St. Peterburg, Russia. 2001. P. 119 - 121.
156.Ротштейн А. П., Штовба С. Д. Нечеткий многокритериальный
анализ вариантов с применением парных сравнений // Изв. РАН. Теория и системы управления. 2001. № 3. С. 150–154.
269
Содержание
Предисловие............................................................... 3
1. Улучшение и реставрация изображений...................... 6
1.1. Оптимизация режима видеокамеры ..................... 6
1.2. Предварительная обработка изображений ............. 7
1.2.1. Линейная фильтрация изображений............ 7
1.2.2. Медианная фильтрация ............................. 10
1.2.3. Морфологическая фильтрация ................... 26
1.2.4. Фильтры на основе порядковой статистики... 28
1.3. Препарирование изображений............................. 35
1.3.1. Сегментация изображений......................... 36
1.3.2. Скелетизация .......................................... 42
2. Методы автоматического выделения объектов.............. 50
2.1. Обнаружение точечных объектов ......................... 50
2.1.1. Обнаружение в случае детерминированного
фона........................................................ 51
2.1.2. Обнаружение в случае коррелированного
фона........................................................ 54
2.1.3. Адаптивное обнаружение в случае фона
с замороженными неоднородностями........... 59
2.1.4. Инвариантное обнаружение появляющегося
объекта в случае фона с замороженными
неоднородностями..................................... 63
2.1.5. Обнаружение в случае фона с замороженными
неоднородностями и неизвестными,
но ограниченными перемещениями............. 68
2.2. Выделение протяженных объектов на сложном
фоне ................................................................ 80
2.2.1. Общая характеристика задачи выделения
объектов.................................................. 80
2.2.2. Адаптивное стробирование объектов ........... 82
2.3. Выделение объектов в последовательности
видеокадров...................................................... 103
2.3.1. Выделение объектов на основе энергии
движения. ............................................... 103
2.3.2. Выделение объектов после вычитания
оценки фона............................................. 106
2.3.3. Выделение объектов на основе векторов
движения. ............................................... 112
270
3. Сопровождение и измерение
параметров объектов .................................................... 139
3.1. Формирование моделей видеообъектов ................. 139
3.1.1. Модели в виде эталонного массива............... 139
3.1.2. Модели на основе компьютерной графики.... 142
3.1.3. Формирование модели на основе
совокупности признаков............................ 148
3.2. Измерение скоростей автомобилей
путем анализа видеопоследовательности............... 161
3.2.1. Обзор измерителей скорости....................... 161
3.2.2. Телевизионные измерители скорости........... 164
3.2.3. Анализ точности измерения скорости
транспортных средств................................ 171
3.3. Анализ изображений с использованием
преобразования Хафа......................................... 178
3.3.1. Особенности решения задачи измерения
объема и ассортимента лесоматериалов........ 178
3.3.2. Выделение прямых линий и окружностей ... 180
3.3.3. Организация процесса измерения ............... 184
3.3.4. Точность измерений .................................. 192
4. Системы видеонаблюдения
окружающего пространства........................................... 194
4.1. Монокамерные системы видеонаблюдения............. 194
4.2. Панорамные системы видеонаблюдения................ 203
4.3. Анализ и синтез изображений протяженных
объектов на примере железнодорожных составов.... 225
4.3.1. Наблюдение протяженных объектов............ 225
4.3.2. Система дистанционного осмотра
железнодорожного состава ........................ 226
4.3.3. Формирование панорамной проекции
состава.................................................... 232
4.3.4. Обнаружение стыков между вагонами
грузового состава...................................... 245
Приложение................................................................ 255
Библиографический список........................................... 260
271
Научное издание
Астратов Олег Семенович
Афанасенко Арсений Сергеевич
Вилесов Леонид Дмитриевич
Кузьмин Сергей Александрович
Мотыко Александр Александрович
Обухова Наталья Александровна
Смирнов Виктор Михайлович
Тимофеев Борис Семенович
Филатов Владимир Николаевич
ОБРАБОТКА ИЗОБРАЖЕНИЙ
В ПРИКЛАДНЫХ ТЕЛЕВИЗИОННЫХ
СИСТЕМАХ
Монография
Редактор А. В. Подчепаева
Компьютерная верстка А. Н. Колешко
Подписано к печати 15.02.12. Формат 60 × 84 1/16.
Бумага офсетная. Усл. печ. л. 18,3. Уч.-изд. л. 19,0.
Тираж 500 экз. Заказ № 151.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
23
Размер файла
24 443 Кб
Теги
astratovafanasenko2
1/--страниц
Пожаловаться на содержимое документа