close

Вход

Забыли?

вход по аккаунту

?

KrasilnikovKrasilnikova

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное
образовательное учреждение высшего образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
Н. Н. Красильников, О. И. Красильникова
КОМПЬЮТЕРНАЯ ОБРАБОТКА
ИЗОБРАЖЕНИЙ
Курс лекций
УДК 681.3.06
ББК 32.973
К78
Рецензенты:
доктор технических наук, профессор Ф. А. Таубин;
доктор технических наук, профессор А. М. Тюрликов
Утверждено
редакционно-издательским советом университета
в качестве курса лекций
Красильников, Н. Н.
К78 Компьютерная обработка изображений: курс лекций /
Н. Н. Красильников О. И. Красильникова. – СПб.: ГУАП,
2018. – 123 с.: ил.
Изложены теоретические основы компьютерной обработки изображений и рассмотрены актуальные прикладные задачи, относящиеся к данной области. Курс лекций составлен по материалу, излагаемому на лекциях по дисциплине «Компьютерная обработка изображений» студентам направления 09.03.02 – Информационные системы
и технологии, и может быть использован для студентов, аспирантов и
специалистов, изучающих методы компьютерной обработки изображений.
УДК 681.3.06
ББК 32.973
© Красильников Н. Н.,
Красильникова О. И. , 2018
© Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2018
ВВЕДЕНИЕ
Мир, который нас окружает, трехмерен и зрительная система
формирует его объемное представление в коре головного мозга. Когда мы имеем дело с изображениями натурных сцен, то это чаще всего
на сегодняшний день двумерная графика, в тоже время все больше
в нашу жизнь входят и 3D-изображения. Данный лекционный курс
посвящен вопросам компьютерной обработки двумерных изображений. Но для того, чтобы понять переход от трехмерных натурных
сцен к двумерным моделям их представления, в первом разделе рассмотрены вопросы, связанные, в частности, с моделями представления трехмерных изображений, а также с центральной проекцией
трехмерных объектов на плоскость. Остальные разделы посвящены
целому ряду аспектов, связанных с цифровой обработкой изображений. Поскольку зачастую она выполняется программно, с использованием компьютеров, то дисциплина называется «Компьютерная
обработка изображений».
Компьютерная обработка изображений направлена на решение целого ряда задач, возникающих в различных областях человеческой деятельности, поскольку ее целью может быть визуальное улучшение качества изображений, анализ изображений, сжатие изображений, распознавание образов и т. д. Отсюда и широкое
использование методов компьютерной обработки изображений в
промышленности, в медицине, в аэрокосмических исследованиях,
в искусстве, в дизайне, в фотографии. К примеру, с помощью компьютерной обработки можно реставрировать старые фотографии,
устранять имеющиеся на них дефекты, в медицинских исследованиях большую роль играет повышение качества изображений, решение задач, направленных на автоматизацию анализа изображенных
на них объектов. Посредством зрения человеком воспринимается
более 80% информации об окружающем мире. Очень важно поэтому представлять визуальную информацию с тем уровнем качества,
который будет соответствовать сенсорным возможностям зрительной системы человека. Но человек не является единственным получателем визуальной информации. В последние десятилетия интенсивное развитие получили системы технического (компьютерного)
зрения. Их предназначение часто заключается в извлечении информации из изображений, измерении заданных параметров объектов,
представленных на изображениях, с целью построения автоматизированных либо даже автоматических систем, примером которых
могут служить робототехнические системы. Для реализации систем технического зрения высокую актуальность имеет задача сег3
ментации, направленная на то, чтобы автоматически распознавать
реальные объекты на изображениях, определять характеристики и
координаты этих объектов в пространстве. Решение подобных задач имеет чрезвычайную важность и в повсеместно используемых
системах видеонаблюдения. Большие размеры файлов, в которых
хранится графическая информация, подлежащая либо архивации,
либо передаче по каналам связи, обусловили и очень важный класс
задач компьютерной обработки изображений, направленных на эффективное сжатие изображений. Например, важным является сокращение передаваемого потока информации при обеспечении приемлемого качества при загрузке web-страниц.
Таким образом, область компьютерной обработки изображений
имеет широчайший спектр приложений. Достигнутые успехи в
этой области велики, но немало задач ждут своего решения.
4
1. ТРЕХМЕРНАЯ И ДВУМЕРНАЯ ГРАФИКА
1.1. Натурные сцены и их трехмерные изображения
Окружающий нас мир трехмерен и состоит он, как правило, из
множества трехмерных объектов. Каждый объект отделен от пространства, которое его окружает, поверхностью, которая называется оболочкой. Оболочка каждого объекта имеет только ей присущие
отражательные характеристики, характеристики прозрачности и
характеристики излучения, которые, в общем случае не постоянны
по ее поверхности. Для того чтобы мы могли видеть окружающие
нас несамосветящиеся объекты, они должны быть освещены. При
наблюдении свет, отраженный от рассматриваемых объектов, попадает на сетчатки глаз и формирует на них изображения, которые
представляют собой центральные проекции рассматриваемых объектов. Распределение интенсивностей всего спектра видимого излучения по поверхностям сетчаток определяется положением источников освещения относительно рассматриваемых объектов, спектральными характеристиками этих источников, отражательными
характеристиками, характеристиками прозрачности и характеристиками излучения поверхностей объектов, а также их положением
относительно точки наблюдения.
Так как положение наблюдателя, положение источников освещения и их спектральные характеристики могут изменяться в широких пределах, то одному и тому же объекту может соответствовать
бесчисленное количество проекций на сетчатках глаз. Наиболее
устойчивыми признаками на изображениях объектов, формирующихся на сетчатках глаз, являются контуры, поскольку они представляют собой проекции оболочек объектов, которые не зависят от
условий освещения. Поэтому контурный, или силуэтный, рисунок
позволяет легко узнавать изображаемый объект.
При наблюдении натурной сцены зрительная система формирует
ее трехмерное представление в коре головного мозга. Это необходимо для того, чтобы мы имели возможность распознавать составляющие сцену объекты при наблюдении их под различными ракурсами, манипулировать этими объектами и не сталкиваться с ними
при своем перемещении в пространстве [1, 2].
Для формирования в зрительной системе объемного представления объектов, составляющих сцену, наличие бинокулярного
зрения не является обязательным. Объемное представление трех5
мерных объектов способны формировать люди, не имеющие возможности бинокулярно рассматривать наблюдаемую сцену, а также многие животные и птицы, у которых бинокулярное зрение
отсутствует. Так как при формировании объемного представления незнакомого трехмерного объекта в зрительной системе единственным источником информации о нем являются его двумерные
проекции на сетчатки глаз, то для этого необходимо располагать
рядом таких проекций, полученных при различных ракурсах наблюдения. Из этого следует, что при наблюдении сцен, изображенных, например, на фотографиях, на сетчатках глаз создаются проекции подобные тем, что формируются при непосредственном наблюдении самих изображаемых сцен, вследствие чего создаваемое
впечатление близко к тому, которое имеет место при наблюдении
изображаемой натуры. На этом, собственно, и основываются такие виды изобразительного искусства, как живопись, фотография
и кино.
Если зрителю предлагают для наблюдения трехмерное изображение сцены, то впечатление реальности еще больше усиливается.
Трехмерные изображения сцен лежат в основе интенсивно развивающихся в настоящее время технологий виртуальной реальности.
1.2. Модели представления трехмерных изображений
1.2.1. Воксельная модель
При использовании воксельной модели объем отображаемого
трехмерного пространства разбивается на ячейки – вокселы, создавая трехмерный (3D) массив, или
как его часто называют, трехмерный
d
l
растр. Вокселом называется элемент
объема (voxel – volume element). Другими словами, воксельная модель
представляет собой растровую модель
h
для трехмерного изображения. На
рис. 1.1 показан трехмерный растр,
составленный из вокселов [1, 3].
В случае цветного изображения
с использованием моды RGB, каждый воксел характеризуется цветом,
Рис. 1.1. Трехмерный растр,
для представления которого расхосоставленный из вокселов
6
дуется 24 бита, а также прозрачностью, которая может изменяться в пределах от нуля до единицы. Для представления прозрачности обычно расходуется 8 бит. Чем меньше размеры самих вокселов,
тем больше вокселов содержит трехмерный растр, и, следовательно,
тем с большим разрешением представляются объекты в трехмерном
пространстве. При этом мы встречаемся с очень серьезной проблемой. Так как уменьшение размера вокселов влечет за собой возрастание их количества обратно пропорционально третьей степени линейного размера воксела, то это приводит к сильному увеличению
объема памяти, которая необходима для сохранения трехмерного
изображения. В рассматриваемом случае требуемый объем памяти
составит M = 32N бит, где N – количество вокселов в изображении.
Проиллюстрируем сказанное примером. Рассчитаем необходимый
объем памяти для сохранения трехмерного цветного изображения,
разложенного в воксельный растр размером 1000×1000×1000 вокселов. Выполняя вычисления по приведенной выше формуле, находим M = 32×109 бит, т. е. 4 Гб.
Следствием необходимости использовать большое количество
данных при представлении изображений в воксельной модели, является малая скорость их обработки.
Еще одним свойством воксельной модели является то, что кроме описания поверхности она предусматривает хранение внутренних, невидимых частей объекта. Часто это бывает не нужно. Но в
ряде случаев это свойство оказывается весьма полезным. Благодаря этому свойству она удобна для использования в медицине, например, в компьютерной томографии, так как получающиеся при
этом изображения срезов сканируемого объекта объединяются в
трехмерное изображение для дальнейшего анализа. Кроме того,
воксельная модель применяется также в геологии и сейсмологии.
Существенным достоинством модели является также простое
выполнение топологических операций над отдельными объектами и всей сценой. Так, для показа разреза достаточно вокселы, которые заслоняют разрез, сделать прозрачными. Еще одно достоинство модели состоит в простоте описания сложных объектов и
сцен.
Подводя итог, можно сказать, что воксельная модель в большинстве случаев является избыточной. Так, если среда, окружающая
сцену, прозрачна, то нет необходимости сохранять все вокселы сцены, а достаточно ограничиться только теми, которые формируют
поверхности объектов, составляющих сцену. Эта идея реализована
в векторной полигональной модели.
7
1.2.2. Векторная полигональная модель
Векторная полигональная модель в настоящее время используется наиболее часто, она находит широкое применения для представления трехмерных изображений объектов, ее используют в
системах автоматизированного проектирования, компьютерных
играх, тренажерах, системах виртуальной реальности и в других
областях. При использовании этой модели оболочка объекта формируется набором плоских граней – полигонов, как это показано
на рис. 1.2 [1, 3]. Часто грани оболочки делают треугольными, но
они могут быть также многоугольниками. Таким образом, в памяти компьютера сохраняется трехмерное изображение оболочки
объекта, напоминающее скульптуру. Форма каждой грани и ее положение в пространстве однозначно описываются положением ее
границ, которые задаются набором векторов, образующих полигональную сетку (wireframe), показанную на рис. 1.2, б. В свою очередь, положение векторов задается положением вершин (vertex) –
точек, определяющих начало и конец вектора. Часто для описания
оболочек объектов используют два массива: массив вершин и массив
граней. В первый трехмерный массив записывают декартовы координаты всех вершин, принадлежащих объекту. Во второй массив,
а)
б)
Рис. 1.2. Векторная полигональная модель представления трехмерных
изображений: а – оболочка объекта; б – полигональная сетка
8
размерность которого равна числу вершин, формирующих грань,
сохраняют индексы вершин, принадлежащих грани. Рис. 1.3 поясняет изложенное применительно к случаю, когда грани имеют треугольную форму.
Размер граней оболочки определяет разрешение, с которым
представляется трехмерное изображение подобно тому, как размер
пикселя, в случае двумерного изображения, или размер воксела в
трехмерном изображении. Чем меньше размер граней, используемых для аппроксимации оболочки объекта, тем с большим разрешением он будет представлен, и тем более точно будет отображена
форма объекта. Но, следует иметь ввиду, что уменьшение размера
граней приводит к увеличению количества вершин, а это, в свою
очередь, влечет за собой увеличение объема памяти, необходимого
для сохранения изображения оболочки объекта.
Важным преимуществом векторной полигональной модели перед воксельной является то, что она позволяет более экономно описывать трехмерные изображения объектов. Полигональная модель,
описывая не весь объем, занимаемый объектом, а лишь его оболочку, обеспечивает громадную экономию в затрате единиц двоичного
кода по сравнению с воксельной моделью. Это проявляется при увеличении разрешения трехмерного изображения. Если при использовании воксельной модели требуемый объем памяти растет обратно пропорционально третьей степени линейного размера элемента
(воксела), то при использовании векторной полигональной модели
Массив вершин
Индексы вершин
0 1 2 3 4 5 6 7 8 9
... ... ... ... ... ... ... ... ... ...
Координата x
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
Координата y
Координата z
Массив граней
Номера граней
0
1
2
3 4
5
6
7
8
9 10 11 12 13 14 15
Индексы вершин
0
1
2
0
1
1
3
0
2
4
Индексы вершин
2
3
5 6
5
4
8
8 6
7
7
9
9
Индексы вершин
1
0
1
4
3
0
6
3
8
4
6
2
5
3
5
8
6
4
7
9
9
9
5
7
8
Рис. 1.3. Массивы для описания оболочек объектов
при треугольной форме граней
9
это возрастание будет обратно пропорциональным только второй
степени линейного размера разрешаемого элемента.
При использовании векторной полигональной модели, для сокращения требуемого объема памяти, вершины по поверхности
оболочки располагают неравномерно. В местах, где кривизна поверхности оболочки мала, их располагают на большем расстоянии
друг от друга, а в местах, где кривизна велика, вершины помещают более тесно, как это показано на рис. 1.2, б. При таком расположении вершин размеры граней на участках с большой кривизной
будут малыми, что обеспечивает приемлемую точность представления оболочки объекта при умеренной затрате двоичных единиц
кода. Необходимый объем памяти может быть рассчитан следующим образом:
M = NVCV+NfCfP,
где NV – количество вершин, CV – количество единиц двоичного
кода, используемых для записи трех координат каждой вершины,
Nf – количество граней, Cf – количество единиц двоичного кода, используемых для записи индекса одной вершины, P – количество
вершин, образующих грань. Для представления одной координаты
вполне достаточно четырех байт (float), а для представления номера
грани – двух байт (unsigned short). Количество вершин, образующих грань, может составлять 3, 4, 5 или 6.
Кроме рассмотренных моделей представления трехмерных изображений, имеются и другие модели, например, аналитическая модель, в которой описание поверхности выполняется с использованием математических формул.
Поскольку в основе зрительного восприятия окружающего нас
мира лежат центральные проекции наблюдаемых трехмерных объектов на сетчатки глаз, то перед тем, как перейти к рассмотрению
двумерных моделей изображений и составляющих их объектов,
рассмотрим вопрос, связанный со свойствами центральной проекции.
1.3. Центральная проекция трехмерного объекта на плоскость
В связи с тем, что двумерное изображение представляет собой
центральную проекцию сцены на плоскость, рассмотрим свойства
этой проекции, для чего обратимся к рис. 1.4, на котором приведена
модель камеры (это может быть фото- или видеокамера) с передней
плоскостью изображения.
10
y
Передняя плоскость изображения
xnynzn
Центр объектива
1
A′
f
й луч
ющи
иру
роец
A xоyоzо
П
0
z
x
Рис. 1.4. Модель камеры с передней плоскостью изображения
Совместим координатную ось z декартовой системы координат с
осью камеры, а оси x и y с плоскостью проекции. На рисунке приняты следующие обозначения: xо, yо, zо – декартовы координаты точки A, принадлежащей объекту, xп, yп, zп – координаты проекции
этой точки на плоскость, f – фокусное расстояние объектива камеры. Такую проекцию можно представить себе, как изображение на
стекле, которое совмещено с передней плоскостью изображения, через которое наблюдатель рассматривает объект.
Из подобия треугольников, один из которых имеет вершины,
расположенные в точках I, A и в точке с координатами xо, yо = 0, zо,
а другой треугольник – вершины, расположенные в точках I, A′ и в
точке с координатами xп, yп = 0, zп = 0, следует, что
xï =
y f
xî f
, yï = î ,
zî + f
zî + f
при этом zп = 0.
Перечислим основные свойства центральной проекции, которую
также называют перспективной проекцией. При центральной проекции:
− не сохраняется отношение длин отрезков и площадей;
− прямые линии отображаются прямыми линиями;
− параллельные прямые отображаются прямыми, сходящимися
в одной точке, если только они не лежат в плоскости параллельной
координатной плоскости x,y.
В предельном случае, когда фокусное расстояние f объектива камеры стремится к бесконечности, центральная проекция вырожда11
ется в параллельную проекцию, а если, как в рассмотренном случае, передняя плоскость изображения (плоскость проецирования)
перпендикулярна оси z, то центральная проекция вырождается в
аксонометрическую проекцию.
Поскольку при проецировании утрачивается информация о глубине сцены, так как zп = 0, то проекция принципиально содержит
меньше информации, чем ее трехмерное изображение.
1.4. Двумерные модели изображения сцен
и составляющих их объектов
1.4.1. Двумерная растровая модель изображения сцен
и составляющих их объектов
Переходя к рассмотрению двумерной растровой модели отметим,
что в основе растровой модели лежит матрица пикселей, которые
представляют интенсивность соответствующих участков изображения. На рис. 1.5 показан фрагмент растрового изображения с ортогональным расположением пикселей, линейные размеры которых
в обоих направлениях одинаковы. Помимо растра с ортогональным
расположением пикселей возможны растры с другим их расположением, например, растр с шахматным расположением пикселей,
растр с диагональным расположением пикселей, и др. однако они
применяются редко.
Разрешение растрового изображения определяется количеством
пикселей на единицу длины. Чем больше пикселей приходится на
единицу длины, тем выше будет разрешение и тем более мелкие детали могут быть воспроизведены на изображении.
Изображение представляют в цифровой форме для того, чтобы
его можно было бы обрабатывать посредством компьютера. Полутоновое черно-белое изображение обычно представляется в виде
двумерной матрицы, состоящей из 8-разрядных двоичных чисел, при этом яркость каждого пикселя лежит в интервале от 0 до 255 градаций. Для представления цветного изображения
в цифровой форме, используют три матрицы,
каждая из которых, обычно, состоит из 8-разрядных двоичных чисел, реже из 16-разрядных. При этом элементы каждой из трех матриц
представляют интенсивности красного, зеленоРис.1.5. Растровое
го и синего компонентов цвета пикселя, так как
изображение
12
результирующий цвет каждого из пикселей растра синтезируется
путем смешения красного, зеленого и синего цветов, подобно тому,
как это делается в палитре художника.
При выборе разрешения изображения исходят из требования незаметности растровой структуры для зрителя. Поэтому количество пикселей на единицу длины в изображении выбирают исходя из остроты
(разрешающей способности) зрения. Известно, что при наблюдении
двух объектов, угловое расстояние между которыми меньше одной
угловой минуты, они сливаются в один объект. Отсюда следует, что
для отсутствия заметности растровой структуры угловое расстояние
между формирующими ее пикселями β должно быть меньше или, в
крайнем случае, должно равняться одной угловой минуте.
Обратимся к рис. 1.6, на котором показан растр с размерами по
вертикали и горизонтали соответственно h и l.
Примем линейные размеры пикселей ∆ одинаковыми в обоих направлениях. Записывая очевидное соотношение
∆/L = tgβ,
где L – расстояние с которого ведется наблюдение, имеем
∆ = L tgβ.
l
∆
β
O
h
L
Рис. 1.6. К определению выбора разрешения
13
Общее число пикселей N, составляющих растр, будет равно
N = hl/D2,
что после подстановки значения ∆ дает
N = hl/(L tgβ)2.
Так как tg от одной минуты равен 2,909·10–4, получим окончательно
11817146 ⋅ hl
N=
.
L2
При этом число строк zстр в изображении будет равно
zñòð =
3437 h
.
L
Из полученных выражений следует, что минимально необходимое количество пикселей, составляющих растр изображения, а также число строк определяются не только его размером, но также условиями наблюдения, т. е. расстоянием, с которого ведется наблюдение изображения.
Количество растровых элементов в изображении наряду с разрядностью двоичного кода, посредством которого представляется
яркость (в случае цветного изображения интенсивности красного
R, зеленого G и синего B цветов), определяют объем памяти, необходимый для его хранения. В случае черно-белого полутонового изображения (grayscale) необходимый объем памяти равен 8N бит, в
случае цветного изображения с выбором графического режима с реальными цветами (мода RGB, использующая по 8 бит для представления каждой составляющей цвета: R, G и B), необходимый объем
памяти составляет 24N бит. Например, для того чтобы сохранить
цветное изображение размером 1000×1000 пикселей, потребуется 3
Мб памяти.
1.4.2. Векторная модель представления
двумерных изображений
Основой векторных изображений являются контуры, представляемые кривыми, называемыми векторами. Каждый контур векторного изображения представляет собой объект, который можно
редактировать независимо от других контуров. Файлы векторных
изображений содержат наборы инструкций, представленных формулами, по которым строятся контуры. Поскольку форма контуров
14
задается этими инструкциями, то точность воспроизведения векторного изображения, его четкость, определяется исключительно
разрешающей способностью воспроизводящего устройства (принтера, экрана дисплея и т. д.). Вследствие этого векторное изображение
может неограниченно увеличиваться без потери качества, в то время как при увеличении растровых изображений, основой которых
являются пиксели, мы встречаемся с серьезными проблемами.
Важным достоинством векторных изображений является также
компактность их хранения. Действительно, для того, чтобы сохранить изображение отрезка прямой линии в векторном формате, необходимо сохранить только координаты, определяющие его начало
и конец, а также данные о цвете и толщине, но для этого потребуется всего несколько байтов. Для хранения изображения того же отрезка в растровом режиме потребуется значительно больший объем
информации, так как при этом необходимо хранить цвет каждого
из множества пикселей, составляющих отрезок. Поэтому векторный формат, как правило, более компактен, чем растровый, хотя
байтовый размер векторного изображения для сложных рисунков,
может превышать байтовый размер этих же рисунков в растровом
формате.
Обратим внимание на то, что векторное изображение легко экспортируется в растровый формат, но не наоборот. Существенным недостатком векторной графики является то, что она не пригодна для
хранения полутоновых изображений, например, фотографий.
Векторное изображение состоит из объектов, каждый объект состоит из одного или нескольких контуров, при этом контуры могут
быть замкнутыми или открытыми, т. е. незамкнутыми. Примером
замкнутого контура является окружность, а открытого – отрезок
линии. Замкнутые контуры могут быть заполненными заливкой.
Каждый контур, в зависимости от сложности, состоит из одного или
нескольких сегментов, представляющих собой отрезки прямых или
кривых линий, заканчивающихся опорными точками (узлами), которые определяют положение сегмента в контуре. На рис. 1.7 показано векторное изображение и его элементы.
Рассмотрим кратко математические основы векторной графики.
Точке в векторной графике соответствует узел. Для описания отрезка прямой линии в векторной графике используется уравнение
y = ax+b,
где x и y – декартовы координаты, a и b – постоянные коэффициенты, а начало и конец отрезка задаются координатами x1 и x2.
15
Контуры
Узлы
Сегменты
Заливка
Рис. 1.7. Векторная модель представления двумерных изображений
Для описания кривых второго порядка: окружностей, эллипсов,
парабол и гипербол используют кривые второго порядка
x2 + a1y2 + a2 xy + a3 x + a4 y + a5 =
0,
где a1, a2, a3, a4 и a5 – постоянные коэффициенты. В этом случае
также начало и конец отрезка кривой задаются координатами x1
и x2, при этом координаты y1 и y2 определяются по приведенной
формуле. Кривые второго порядка в векторной графике используются для построения базовых примитивов, в частности, эллипсов и
окружностей. Их особенностью является то, что они не имеют точек
перегиба.
В отличие от кривых второго порядка кривые третьего порядка могут иметь точки перегиба, что позволяет использовать их для
представления в векторной форме различных природных объектов.
Уравнение, используемое для описания кривых третьего порядка,
имеет вид
x3 + a1y3 + a2 x2 y + a3 xy2 + a4 x2 + a5 y2 + a6 xy + a7 x + a8 y + a9 =
0,
где a1, a2, a3, a4, a5, a6, a7, a8 и a9 – постоянные коэффициенты. Как
и ранее, положение отрезка кривой на плоскости изображения задается координатами его начала и конца x1, y1 и x2, y2.
В векторной графике широкое применение получили кривые Безье третьего порядка. Их особенностью является то, что они позво16
ляют удобно регулировать не только положение узлов на плоскости
изображения, но также величину первой производной линии (угла
наклона) и величину ее второй производной (кривизну) в этих точках. Благодаря этому оказывается возможным соединять отдельные сегменты без изломов в точках соединения и тем самым аппроксимировать отрезками кривых Безье контуры любой сложности.
1.6. Динамические изображения
Как известно, для создания ощущения движения объекта не
требуется, чтобы его проекция на сетчатку непрерывно смещалась.
Ощущение движения не нарушается и в том случае, если на сетчатку глаза проецировать ряд быстро сменяющих друг друга изображений объекта, на которых представлены последовательные фазы
его движения. Это свойство зрения используется для создания иллюзии движения в кино, телевидении и компьютерном видео. Для
того, чтобы движение изображения объекта воспринималось плавным, необходимо чтобы частота смены изображений с различными
фазами движения была бы достаточно большой, иначе движение будет казаться прерывистым. Чем больше яркость экрана, тем выше
должна быть эта частота (частота кадров). При используемых яркостях экрана компьютерного дисплея она составляет 60–70 Гц, при
яркостях экрана, применяемых в кино, она существенно ниже. Это
накладывает определенные ограничения на допустимое значение
величины угловых перемещений изображений объектов, т. е. перемещений в направлении перпендикулярном линии наблюдения. Если эти ограничения не выполнены, движения воспринимаются как
прерывистые. Эффект прерывистости движения хорошо заметен
при панорамной съемке опушки хвойного леса, когда на изображении имеется много вертикальных стволов, а панорамирование происходит достаточно быстро.
Недостаточно высокая частота кадров приводит также к явлению мелькания наблюдаемого изображения. Критическая частота
мельканий fкр, т. е. частота, ниже которой мелькания становятся
заметными, как показали исследования, зависит от угловых размеров мелькающего поля и от его средней яркости L. Для угловых размеров мелькающего поля, в данном случае угловых размеров экрана, на котором демонстрируется движущееся изображение, эта зависимость описывается эмпирической формулой
=
fêð 10 lg L + 30.
17
Поскольку при используемых яркостях экранов компьютерных
дисплеев fкр≈60 Гц, частота кадров в них выбирается выше этого
значения. При частотах мелькания, превышающих критическую
частоту, мелькания незаметны, а яркость мелькающего поля L(t)
воспринимается такой же, как его средняя яркость. Величина средней яркости при этом может быть рассчитана по формуле, представляющей собой закон Тальбота:
T
Lñð
1
= ∫ L ( t ) dt,
T0
где T = 1/f – период мелькания.
18
2. ОСНОВЫ КОЛОРИМЕТРИИ
2.1. Характеристики цвета
Как известно, спектр видимого светового излучения простирается от 380 нм и до 780 нм. Со стороны более коротких волн к нему
примыкает ультрафиолетовое излучение, а со стороны более длинных волн – инфракрасное излучение. В зависимости от длины волны излучение воспринимается как свет того или иного цветового
тона. На рис. 2.1 показаны значения длин волн, разграничивающие
семь основных цветов спектра.
Спектральная плотность излучения j(l) определяется следующим образом
dF (l)
j(l) =
,
dl
где F(l) – лучистый поток в ваттах, а l – длина световой волны в нанометрах.
В цветовых расчетах часто используют понятие источника излучения типа E, спектральная плотность которого постоянна во всем
диапазоне длин волн видимого излучения.
При отражении света от окрашенных поверхностей и прохождении через окрашенные среды происходит перераспределение спектрального состава излучения
jîòð ( l ) =ρîòð ( l ) j ( l ), jïð ( l ) =τïð ( l ) j ( l ),
где j(l) – спектральная плотность исходного излучения; jотр(l) –
спектральная плотность излучения, отраженного окрашенной поверхностью; jпр(l) – спектральная плотность излучения прошедшего через окрашенную среду; ρотр(l) – коэффициент отражения;
τпр(l) – коэффициент пропускания.
В отличие от спектральной плотности излучения цвет представляет собой понятие субъективное, при этом он характеризуется треУФ
Ф
380
С
430
Г
З
Ж
О
470 500 560 590 605
К
ИК
780
Рис. 2.1. Диапазоны длин волн в нанометрах
для семи основных цветов спектра
19
мя величинами: светлотой, цветовым тоном и насыщенностью.
Из этого следует, что цвет является векторной величиной.
Светлота в восприятии изображений играет главную роль. Одни и те же цвета, но обладающие разной светлотой вызывают различные зрительные ощущения. Так, например, белый цвет в зависимости от светлоты может восприниматься как белый, светлосерый, серый, темно-серый. Цвет, воспринимаемый при большой
светлоте как желтый, при малой светлоте воспринимается как
коричневый и т. д. Более того, в зависимости от яркости соседних
участков изображения нейтральный цвет, имеющий одну и ту же
яркость, может восприниматься и как белый, и как черный. В подтверждение этого парадокса приведем пример, заключающийся
в том, что на самом деле яркость черных букв газетного текста на
солнце выше, чем яркость белой бумаги, на которой они напечатаны, в тени. Из этого следует, что светлота, представляющая собой
зрительное ощущение, является нелинейной и достаточно сложной функцией яркости, которая определяется свойствами зрения.
Яркость же представляет собой физическую величину и от свойств
зрения не зависит.
Цветовой тон излучения характеризует свойство цвета, которое
отличает его от белого и серого. Названия цветов – красный, желтый, синий и т. д. следует рассматривать как приблизительные обозначения цветового тона. Цветовой тон излучения количественно
характеризуется доминирующей длиной волны, т. е. длиной волны
такого спектрально-чистого цвета, который необходимо смешать с
белым цветом в определенной пропорции для того, чтобы получить
описываемый цвет. Между цветовым тоном и доминирующей длиной волны также существует нелинейная зависимость.
Насыщенность цвета характеризует степень разбавленности
спектрально чистого цвета белым цветом. Добавление к спектрально-чистому цвету белого цвета, уменьшает его насыщенность. Доля
спектрально-чистого цвета в его смеси с белым называется чистотой
цвета. Обозначим эту величину p, тогда
p
=
Ll
Ll
=
,
Ll + LE L
где Ll – яркость спектрально-чистого цвета; LE – яркость равноэнергетического белого цвета, т. е. излучения, спектральная интенсивность которого во всем интервале длин волн видимого излучения
постоянна; L – яркость смеси. Из этого выражения следует, что для
спектрально-чистых излучений чистота цвета максимальна (p = 1), а
20
для равноэнергетического белого минимальна (p = 0). Отметим, что
вследствие особенностей нашего зрения связь между насыщенностью
цвета (т. е. зрительным ощущением насыщенности) и чистотой цвета
нелинейная. Более того, при одной и той же чистоте цвета красный
и синий спектрально-чистые цвета воспринимаются как высоконасыщенные, а желтый и голубой, также спектрально-чистые, – как
цвета, имеющие меньшую насыщенность. Таким образом, между характеристиками восприятия цвета: светлотой, цветовым тоном и насыщенностью и характеристиками цвета: яркостью, доминирующей
длиной волны и чистотой цвета, имеют место сложные зависимости.
2.2. Законы смешения цветов и глубина цвета
В настоящее время общепринятой является трехцветная теория
зрения, предложенная М. В. Ломоносовым в 1756 г. и в дальнейшем
развитая Г. Гельмгольцем в 1911 г. Сущность этой теории заключается в том, что свет, попадая на сетчатки глаз, возбуждает светочувствительные клетки сетчаток, так называемые колбочки, которые
по спектральной чувствительности разделяются на три группы. Одна группа колбочек имеет максимум чувствительности в диапазоне
волн, соответствующем красному цвету, другая – в диапазоне волн,
соответствующем зеленому цвету и третья – в диапазоне волн, соответствующем синему цвету. Соотношение уровней возбуждения
колбочек определяет ощущение того или иного цвета, а сумма уровней возбуждения создает ощущение светлоты. На рис. 2.2 приведены графики зависимостей нормированной спектральной чувствительности трех групп колбочек от длины волны излучения l.
Относительная
чувствительность
синий
зеленый красный
1,0
0,5
0
400
500
600
Длина световой волны, нм
700
Рис. 2.2. Зависимости нормированных спектральных
чувствительностей трех групп колбочек от длины волны излучения
21
Кривые спектральной чувствительности, как это видно из графика, взаимно перекрываются, вследствие чего наше зрение не различает спектрального состава излучения. Из трехцветной теории
цвета вытекают три основных закона смешения цветов, которые утверждают следующее.
1) Смешивая три линейно независимых цвета, можно получить
любой другой цвет (4 и более цветов всегда будут в линейной зависимости).
2) При непрерывном изменении характеристик излучения, а
именно, мощности и спектрального состава, цвет также изменяется
непрерывно.
3) Цвет смеси цветов зависит только от цветов смешиваемых
компонентов, но не от их спектрального состава.
Известны два способа образования цвета субтрактивный и аддитивный.
Субтрактивный способ образования цвета заключается в том,
что на пути потока белого света помещают цветофильтр, который
поглощает излучение того или иного цвета, в результате чего световой поток на выходе цветофильтра оказывается окрашенным.
Аддитивный способ образования цвета реализуется путем суммирования двух или более окрашенных световых потоков. Это суммирование может быть осуществлено:
− путем их одновременного сложения;
− путем их последовательного во времени сложения при условии,
что слагаемые потоки будут быстро чередоваться, сменяя друг друга;
− путем пространственного суммирования;
− а также путем бинокулярного суммирования.
Недостатком субтрактивного способа по сравнению с аддитивным является уменьшение яркости окрашенного потока вследствие
поглощения части энергии светофильтрами.
Ниже приводятся примеры образования цвета двумя рассмотренными способами. При этом использованы следующие обозначения цвета: К – красный, З – зеленый, С – синий, Ж – желтый, Г –
голубой, П – пурпурный, Б – белый.
Аддитивный
К + З = Ж
З + С = Г
С + К = П
Субтрактивный
Б – З = П
Б – К = Г
Б – С = Ж
При изучении колориметрии вводится понятие о дополнительных цветах. Под дополнительным цветом к данному цвету понима22
ют цвет, дополняющий данный цвет до белого цвета. Это определение поясняется приводимым ниже примером:
Ж + С = Б
П + З = Б
К + Г = Б.
В компьютерной графике используется понятие «глубина цвета», под которым понимают количество двоичных единиц кода, используемых для представления в цвете одного пикселя.
2.3. Цветовая модель RGB
Из трехцветной теории цвета, как уже было сказано, следует,
что любой световой поток (цвет) C′ может быть описан смешением
трех линейно независимых цветов в соответствующих количествах.
Основываясь на этом законе, Международной комиссией по освещению (МКО), или как ее еще называют CIE, от французского названия Commission Internationale de L’Eclairage, в 1931г. была разработана и рекомендована к применению колориметрическая система
(цветовая модель) RGB. Особенностью этой модели является использование в качестве основных цветов трех монохроматических излучений со следующими длинами волн: для красного (R) – 700 нм, для
зеленого (G) – 546,1 нм и для синего (B) – 435,8 нм.
В этой модели единицы измерения координат цвета r′, g′, b′, называемые цветовыми коэффициентами, были выбраны таким образом, чтобы для опорного белого цвета типа E, они принимали бы
одинаковые значения, т. е. r′ = g′ = b′.
Использование в качестве основных – реальных цветов R, G, B
удобно, так как позволяет при колориметрических измерениях использовать метод уравнивания цветов. При этом измеряемый цвет
C′ может быть записан как
C′ = r ′R + g ′G + b′B,
а его яркость
L=
r ′ + 4,50907g ′ + 0,0601b′,
где R, G и B – единицы красного, зеленого и синего соответственно.
Из этой формулы следует, что наибольший вклад в яркость вносит
зеленый компонент цвета, а наименьший – синий компонент. В этой
23
цветовой модели вводятся понятие цветового модуля m = r ′ + g ′ + b′
и понятие координат единичных цветов
r=
r′
g′
b′
, g= , b= .
m
m
m
Для белого цвета типа E имеет место равенство r = g = b = 1/3. Сумма координат единичных цветов всегда равна единице r+g+b = 1 и
представляет собой уравнение плоскости единичных цветов.
Для цветовой модели RGB вводится понятие удельных координат (кривых смешения), которые обозначают как r ( l ), g( l ) и b( l ).
Под удельными координатами понимаются такие значения цветовых коэффициентов, которые они принимают при условии, что описываемый ими световой поток является монохроматичным, а его
мощность равна 1 Вт. Удельные координаты служат связующим
звеном между спектральной интенсивностью излучения j(l) и координатами цвета r′, g′, b′, которые определяют его цветовое восприятие.
=
r′
l ìàêñ
∫
l ìèí
j ( l ) r ( l ) dl, =
g′
l ìàêñ
∫
j ( l ) g ( l )dl, =
b′
l ìèí
l ìàêñ
∫
j ( l ) b ( l )dl.
l ìèí
Цветовая модель RGB в настоящее время широко применяется
для описания цвета при вводе цветных изображений в память компьютеров посредством сканеров, видеокамер, цифровых фотоаппаратов, а также при их выводе на экран монитора.
Достоинством цветовой модели RGB является использование в
качестве основных реальных цветов, а недостатком – то, что в расчетах могут появляться отрицательные значения цветовых коэффициентов и, кроме того, то, что яркость определяется значениями
всех трех цветовых коэффициентов.
2.4. Цветовая модель XYZ
Одновременно с цветовой моделью RGB международной комиссией по освещению в 1931 г. была разработана и рекомендована цветовая модель XYZ (CIE). Эта цветовая модель дополняет цветовую
модель RGB, являясь расчетной, поскольку свободна от недостатков
присущих цветовой модели RGB.
При выборе основных цветов цветовой модели XYZ было потребовано, чтобы:
− координаты цвета для любого излучения всегда оставались бы
положительными;
24
− яркость излучения определялась бы одной координатой цвета;
− точка, соответствующая опорному белому цвету типа E, находилась бы в центре тяжести цветового треугольника.
В результате удовлетворения этим условиям была разработана
модель, в которой основные цвета X, Y, Z оказались фиктивными,
т. е. не существующими в природе, а представляющими собой некоторые математические символы. Цвет в этой модели определяется в
соответствии с выражением
C′ = x′X + y′Y + z′Z,
где x′, y′, z′ – цветовые коэффициенты. На рис. 2.3 представлен график, на котором показаны координатные оси x′, y′, z′ и вектор C′,
определяющий положение цвета в цветовом пространстве разработанной модели, а также плоскость единичных цветов, выделенная
штриховкой. Яркость цвета в этой модели определяется одной координатой y′.
Переход от цветовой модели RGB к цветовой модели XYZ осуществляется посредством линейных преобразований цветовых коэффициентов
x′ = 0,49000r ′ + 0,31000 g ′ + 0,20000b′,
y′ = 0,17700r ′ + 0,81238 g ′ + 0,01062b′,
z′ = 0,00002r ′ + 0,01002g ′ + 0,98996b′.
y′
y′c
C′
1
0
z′c
1
1
x′c
x′
z′
Рис. 2.3. Представление цвета в колориметрической системе XYZ
25
Для цветовой модели XYZ, как и для цветовой модели RGB, были
определены удельные координаты x ( l ), y ( l ), z ( l ), графики зависимостей которых от длины волны l для поля зрения 2° приведены на
рис. 2.4. Особенностью определения удельных координат в этом случае было то, что они находились путем пересчета удельных координат из цветовой модели RGB в цветовую модель XYZ, поскольку измерить их непосредственно не представлялось возможным, так как
в цветовой модели XYZ основные цвета фиктивные. Обратим внимание на то, что в цветовой модели XYZ, удельные координаты положительны для всех длин волн монохроматического излучения.
Удельные координаты используются для вычисления цветовых
коэффициентов x′, y′, z′ на основании известной спектральной интенсивности излучения j(l)
=
x′
l ìàêñ
∫
y′
j ( l ) x ( l )dl, =
l ìàêñ
l ìàêñ
l ìèí
l ìèí
z′
∫ j ( l )y ( l ) dl, =
l ìèí
∫
j ( l )z ( l )dl.
В ряде случаев при описании светового потока (цвета) Ф′ его яркость не представляет интереса, и тогда от координат цвета переходят к координатам единичных цветов посредством преобразований
x=
x′
y′
z′
, y= , z= ,
m
m
m
где m – цветовой модуль,
m = x′ + y′ + z′.
X(l),Y(l),z(l)
1,6
1,4
z(l)
1,2
1,0
0,8
x( l)
y(l)
0,6
0,4
0,2
0
0,40
0,45 0,50
0,55
0,60
0,65 l, мкм
Рис. 2.4. График удельных координат
колориметрической системы XYZ
26
Координаты единичных цветов полностью определяют цветовой
тон и насыщенность цвета. Соотношение x+y+z = 1 определяет плоскость единичных цветов, показанную на рис. 2.3 штриховкой, а
координаты единичных цветов – точку прокола этой плоскости вектором цвета. Поскольку z = 1–x–y, то для описания цветности можно
ограничиться всего двумя переменными x и y, что удобно при представлении результатов цветовых расчетов на двумерном графике.
Переход к такому графику осуществляется путем проецирования
плоскости единичных цветов на плоскость x′, 0, y′, при этом равносторонний треугольник единичных цветов, показанный на рис.
2.3 штриховкой, преобразуется в прямоугольный треугольник. На
рис. 2.5 приведен график цветности для цветовой модели XYZ. На
этом графике показано местоположение цветов монохроматических
излучений (локус), которое вычисляется по формулам
x(l)
y(l)
x(l) =
, y(l) =
,
x (l ) + y(l ) + z(l )
x (l ) + y (l ) + z(l )
а также для некоторых из них отмечены точки и указаны соответствующие длины волн в микрометрах. Все реально существующие
y
1,0
0,9
0,525
0,8
G
0,7
0,6
0,55
0,5
0,4
0,575
4874
6774 E
0,3
0,2
2856
0,60
0,65
0,70
R
0,1
0,475
0
0,4
B
x
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Рис 2.5. График цветности цветовой модели XYZ
27
цвета, воспринимаемые нашим зрением, расположены на части
графика, которая ограничена локусом и прямой, соединяющей его
крайние точки. В центре тяжести цветового треугольника расположен белый цвет типа E. Область графика, ограниченная воображаемым треугольником, в вершинах которого расположены концы
отрезка прямой, замыкающей локус, и точка белого цвета типа E,
соответствует пурпурным цветам. На этом же графике показан цветовой треугольник модели RGB, в вершинах которого расположены
ее основные цвета R, G, B.
2.5. Цветовые расчеты в цветовой модели XYZ
Цветовая модель XYZ была разработана как модель, в которой
удобно производить цветовые расчеты, поэтому она часто используется как система-посредник между другими цветовыми моделями.
Покажем это на примере решения нескольких конкретных задач.
Определение цвета смеси двух цветов, заданных цветовыми коэффициентами. Координаты цвета CS, получаемого в результате
смешения двух цветов C1 и C2, определяются путем суммирования
соответствующих цветовых коэффициентов смешиваемых компонентов x1′ , y1′ , z1′ и x2′ , y2′ , z2′ , т. е.
′ x1′ + x2′ , y=
′ y1′ + y2′ , zS′= z1′ + z2′ ,
x=
S
S
при этом цветовой модуль результирующего цвета получается в результате суммирования цветовых модулей исходных цветов
m=
S m1 + m2 ,
а координаты единичных цветов смеси определятся по формулам
xS =
m1x1 + x2m2
m y +y m
, yS = 1 1 2 2 ,
m1 + m2
m1 + m2
что после очевидных преобразований дает
x + x2m2 / m1
y + y m / m1
xS = 1
, yS = 1 2 2
.
1 + m2 / m1
1 + m2 / m1
Эти формулы представляют собой уравнение прямой, заданное в
параметрической форме, где параметром является отношение цветовых модулей смешиваемых цветов m2/m1. Отсюда следует, что на
графике цветностей точка, характеризующая цвет полученной смеси, лежит на отрезке прямой, соединяющем точки смешиваемых
28
цветов C1 и C2. При этом положение точки определяется отношением модулей смешиваемых цветов. Чем больше значение m2/m1, тем
ближе цвет смеси будет к цвету C2.
Определение цвета смеси трех цветов, заданных цветовыми коэффициентами. Рассуждая подобным образом, видим, что координаты цвета CS, полученного в результате смешения трех цветов C1,
C2, C3, определятся как
xS′ = x1′ + x2′ + x3′ , yS′ = y1′ + y2′ + y3′ , zS′ = z1′ + z2′ + z3′ ,
при этом координаты единичных цветов будут равны
m1x1 + x2m2 + x3m3
m y +y m +y m
, yS = 1 1 2 2 3 3 ,
m1 + m2 + m3
m1 + m2 + m3
′
′
′
′
′
′
′
′
′
где x1, y1, z1, x2 , y2 , z2 , x3 , y3 , z3 , m1, m2, m3 – цветовые коэффициенты и цветовые модули соответственно первого, второго и
третьего смешиваемых компонентов. Точка, характеризующая цвет
смеси на графике цветности, будет расположена внутри треугольника, в вершинах которого лежат точки, определяющие смешиваемые цвета. Так как локус (кривая спектрально чистых цветов) имеет выпуклую форму, то невозможно выбрать три цвета, смешивая
которые, можно было бы получать любые существующие в природе цвета, поскольку площадь треугольника, вписанного в фигуру,
образуемую локусом и замыкающей его прямой, меньше площади
этой фигуры. Это ограничение носит принципиальный характер
и его следует иметь в виду при выборе основных цветов устройств,
воспроизводящих изображения.
Определение доминирующей длины волны и чистоты цвета. Координаты единичных цветов непосредственно не связаны с субъективными параметрами, характеризующими цветность, т. е. цветовым тоном и насыщенностью. Для характеристики цветового тона и
насыщенности в ряде случаев используют объективные параметры:
доминирующую длину волны и чистоту цвета. В основе определения
этих параметров лежит представление о любом цвете как цвете, полученном в результате смешения в соответствующей пропорции двух
цветов: спектрально чистого цвета и белого цвета типа E. В этом случае цвет, для которого определяются доминирующая длина волны lд
и чистота цвета p, будет находиться на отрезке прямой, соединяющей
на графике цветности точку белого цвета типа E и точку на кривой
спектральных цветов, соответствующую длине волны lд. Другими
словами, для определения lд необходимо на график цветности нанести точку цвета C0, для которого производятся измерения, затем
xS =
29
через эту точку и точку белого типа E провести прямую до ее пересечения с кривой спектрально чистых цветов и в месте пересечения
прочитать lд. Рис. 2.6 поясняет изложенное. В том случае, если цвет
Cп, для которого определяется цветовой тон, относится к пурпурным
цветам, доминирующая длина волны для него не существует. Поэтому для него вместо доминирующей длины волны определяют так
называемую дополнительную длину волны lс, которая находится на
пересечении отрезка прямой, проведенной из точки Cп через точку E
до ее пересечения с линией спектральных цветов.
Чистота цвета p по определению равна отношению яркости спектрально чистого цвета Ll к яркости измеряемого цвета L, который
может рассматриваться как результат смешения спектрально чистого цвета и опорного белого цвета типа E, а, значит, его яркость равна
сумме яркостей образующих его цветов Ll и LE, следовательно,
p=
Ll
.
Ll + LE
Исходя из этого выражения получаем формулы для расчета чистоты цвета
p=
yl yC − yE
y xC − xE
, p= l
,
yC yl − yE
yC xl − xE
y
525
0,8
G
0,6
550
lс
l д 500
0,4
575
C0
600
E
0,2
Cп
475
0
0
650
700 нм
R
B
0,2
0,4
0,6
0,8
x
Рис. 2.6. К определению доминирующей длины волны
30
где xC, yC, xE, yE, xl, yl – координаты единичных цветов измеряемого цвета C, опорного белого цвета типа E и спектрально чистого цвета, соответствующего доминирующей длине волны. Какую из этих
формул использовать для расчета, зависит от конкретных значений
координат единичных цветов. При выборе расчетной формулы следует выбирать ту, у которой при подстановке данных будет меньше
знаменатель. Из этих формул следует, что для спектрально чистых
цветов p = 1, а для опорного белого p = 0.
В заключение подчеркнем, что цветовая модель XYZ часто используется для пересчета данных из одной цветовой модели в другую. Такая необходимость возникает в случае, когда необходимо
согласовать между собой работу ряда устройств, используемых в
настольных издательских системах, например, работу сканера, монитора и печатного станка. Такой пересчет автоматически выполняется графическим редактором каждый раз при переходе от одной
цветовой модели, например, RGB, к другой, например, CMYK.
2.6. Цветоделение и управление цветами
Развитие компьютерных технологий привело к разработке и внедрению настольных издательских систем, в которых большое место
занимает компьютерная графика. Использование графических редакторов при подготовке изображений к печати расширило возможности полиграфии, повысив качество напечатанных репродукций,
особенно цветных, и сократив требующееся для этого время. При
этом в одну технологическую цепочку оказались включенными:
− устройства ввода изображений: сканеры, видеокамеры, цифровые фотоаппараты;
− мониторы, которые используются для контроля при компьютерной обработке изображений;
− устройства вывода изображений на печать, в качестве которых
могут быть использованы струйные и лазерные принтеры, а также
печатные станки самых различных типов.
Вследствие ряда причин все эти устройства работают в различных цветовых моделях. Другими словами, основные цвета этих
устройств, которыми определяются цветовые пространства, не совпадают. Более того, основные цвета используемых жидкокристаллических панелей в различных типах мониторов могут существенно различаться между собой.
Подобным образом обстоит дело и в полиграфии, где цветовые
пространства воспроизводимых цветов могут варьироваться в зави31
симости от используемых полиграфических красок и сортов бумаги,
на которой производится печать. Кроме того, характеристики (цветовые профили) каждого из устройств, составляющих эту цепочку,
с течением времени изменяются, и если всего этого не учитывать, то
нельзя рассчитывать на то, что цвета исходного изображения будут
правильно переданы в отпечатанном изображении. Поэтому возникает необходимость в управлении цветом на всех этапах подготовки
изображения к печати. Существо проблемы управления цветом состоит во взаимном согласовании и поддержании стабильными цветовых профилей каждого из звеньев системы.
Главной составляющей технологии управления цветом является калибровка всех устройств, используемых при подготовке изображений к печати. Под калибровкой понимают процесс настройки
каждого из устройств системы так, чтобы они передавали цвет в соответствии со спецификациями изготовителя.
Рассмотрим кратко особенности ручной калибровки монитора,
в котором использована жидкокристаллическая панель. Начиная
калибровку, необходимо установить уровень яркости в белом, используя для этого тестовую таблицу. При этом следует иметь ввиду,
что, уменьшая уровень яркости в белом путем уменьшения яркости
ламп подсветки, мы одновременно уменьшаем все уровни яркости
во всем динамическом диапазоне. Уменьшение же уровней яркости
во всем динамическом диапазоне приводит к неразличимости деталей в глубоких тенях изображения вследствие того, что их контраст
становиться ниже дифференциального порога зрения, определяющего способность зрения различать малые контрасты. Далее следует установить величину контраста. При регулировке контраста сигнал, соответствующий уровню черного, не изменяется, сигналы же,
соответствующие другим уровням яркости, изменяются, сохраняя
пропорциональность своим цифровым значениям. Уменьшение контраста влечет за собою уменьшение яркости в белом со всеми вытекающими последствиями, а чрезмерное увеличение контраста приводит к ограничению яркости в области белого, так как световая характеристика жидкокристаллической панели имеет S-образную форму.
Следствием ограничения яркости в белом является потеря различимости светлых деталей изображения. И, наконец, необходимо установить цветовую температуру опорного белого цвета путем регулировки интенсивности основных (базовых) цветов RGB. Хотя стандарт
для работы с цветными изображениями предусматривает цветовую
температуру 5000 К, ее часто устанавливают равной 6500 К. Результаты калибровки монитора сохраняют в виде цветового профиля ICC.
32
После того как калибровка монитора завершена, необходимо откалибровать сканер. Барабанные сканеры, планшетные сканеры
высокого класса, а также сканеры, предназначенные для ввода изображений с диапозитивов, калибруются автоматически при каждом их включении. Что касается планшетных сканеров среднего
класса, то их необходимо калибровать вручную, используя для этой
цели специальные калибровочные программы и эталонные изображения, поставляемые вместе со сканерами в виде серых полутоновых или цветных шаблонов.
Завершающим этапом калибровки является калибровка
устройств вывода изображений на печать, которая сводится к учету
свойств полиграфических красок и бумаги, а также к учету увеличения растровой точки, так называемого растискивания, в результате впитывания и растекания краски на бумаге, которые возникают при печати. Все это должно быть учтено при преобразовании
цветов из одной цветовой модели в другую. Поэтому в процессе калибровки делают пробную печать.
Изображение, которое используется для пробной печати, должно содержать в себе все комбинации цветов и быть представлено в
цветовой модели CMYK. Обычно такие изображения в виде файла
поставляются вместе с графическими редакторами (в случае редактора Adobe Photoshop поставляется файл CMYK Colors.tif). Сделав
пробную печать, нужно проанализировать полученный оттиск и
на основе этого анализа внести соответствующие коррективы в настройку.
Поскольку ручная калибровка всех устройств системы с последующим их согласованием занимает много времени, то для ускорения этого процесса и стандартизации были разработаны системы
управления цветом CMS – color management system, которые устанавливают правила обмена цветом между устройствами.
33
3. ИЗОБРАЖЕНИЯ И ПОМЕХИ
3.1. Изображения и их модели
Ахроматическое неподвижное изображение представляет собой
функцию, описывающую распределение яркости Lc на плоскости,
т. е. Lc(x,y), где x и y – декартовы координаты. Для представления
ахроматического движущегося изображения в написанное выражение добавляется еще одна независимая переменная – время t, и запись принимает вид Lc(x,y,t).
Цветные изображения, получаемые в результате оптической проекции натурных сцен на поверхность, например, на светочувствительную поверхность датчика телевизионного сигнала, содержат
в числе независимых переменных длину световой волны l. В этом
случае для цветного неподвижного изображения имеем Lc(x,y,l), а
для движущегося – Lc(x,y,t,l), где Lc представляет интенсивность
излучения на длине волны l, в точке с координатами x и y, в момент
времени t. Однако техника передачи, консервации и демонстрации
изображений основана на их представлении в виде ряда компонентов. Например, цветное изображение, предназначенное для вывода
на экран телевизора или на экран монитора компьютера, представляется в виде трех компонентов: красного, зеленого и синего. В полиграфии количество компонентов может быть большим. Аналогичным образом обстоит дело с движущимися изображениями, которые представляются последовательностью неподвижных, быстро
сменяющих друг друга изображений, на каждом из которых зафиксирована соответствующая фаза движения. Их быстрая смена создает иллюзию движения.
Поскольку между компонентами движущегося цветного изображения и неподвижным ахроматическим изображением много
общего, то в дальнейшем сосредоточимся на рассмотрении свойств
и методов обработки неподвижных ахроматических изображений,
распространяя полученные результаты на цветные изображения, и
лишь в необходимых случаях будем выходить за эти рамки.
Изображения можно разделить на семантические, т. е. смысловые, и текстурные. Примеры таких изображений представлены на
рис. 3.1 и рис. 3.2.
Зрительная система человека в процессе эволюции приспособилась обнаруживать и опознавать не любые произвольные распределения яркости, спроецированные зрачком на сетчатку глаза, а
34
только те, которые создаются
объектами внешнего мира. Особенностью изображений реальных объектов является то, что
они состоят из областей, которые разделены более или менее
резкими световыми границами, внутри которых яркость и
цвет изменяются сравнительно медленно. Эти световые границы (контуры) передают форму объекта и являются основой
для его опознавания. Из опыта
известно, что информации, содержащейся в контурах, обычно
бывает достаточно для безошибочного узнавания объекта. Мы,
например, легко узнаем лицо
знакомого человека по контурному рисунку.
Рис. 3.1. Пример семантического
Что касается текстурных изоизображения
бражений, то человек способен
различать текстурные изображения (поля), только если они
различаются между собой гистограммами распределения яркости или если при одинаковых гистограммах имеется различие в
спектре. Это положение носит название гипотезы Юлеша.
Иначе обстоит дело с компьютерным зрением. Если задача опознавания семантических
изображений посредством компьютера до настоящего времени
представляет очень серьезную
Рис. 3.2. Пример текстурного
проблему, то задача классифиизображения
кации текстурных изображений
на основании их статистических
характеристик решается легко. В последнее время много внимания
уделяется компьютерному анализу изображений, полученных при
35
дистанционном зондировании Земли, где вопрос различения текстур занимает ведущее место.
При цифровой обработке изображений в зависимости от решаемой задачи используют различные модели изображений. Под моделью изображения понимается комплекс характеристик, представляющих распределение яркости на плоскости, которыми описывается рассматриваемый класс изображений. Модель должна
удовлетворять двум противоречивым требованиям: достаточной
близости к реальным изображениям и простоты теоретического
анализа. При выборе модели существенное значение имеет также
степень общности результатов, которые могут быть получены при ее
использовании. В зависимости от того, какое из требований приобретает большее значение, используют ту или иную модель. В качестве примера рассмотрим одну из моделей, применяемую при синтезе алгоритмов нелинейной обработки изображений:
Lñ ( x, y ) = kE ( x, y ) rñ ( x, y ),
где rc(x,y) – коэффициент отражения различных участков сцены, соответствующих ее проекции на светочувствительную поверхность
датчика сигнала изображения с координатами x, y; E(x,y,) – освещенность различных участков сцены, соответствующих ее проекции на светочувствительную поверхность датчика сигнала изображения с координатами x, y; k – коэффициент, согласующий размерности.
Важными свойствами функций rc(x,y) и E(x,y) являются следующие. Коэффициент отражения rc(x,y) характеризуется наличием
резких скачков, возникающих на контурах, в то время как E(x,y)
изменяется в основном медленно. Благодаря этому спектры rc(x,y)
и E(x,y) сильно различаются: первый является широкополосным, а
второй узкополосным, что используется, например, в целях «улучшения» качества изображения при его гомоморфной фильтрации.
Другим важным свойством функций rc(x,y) и E(x,y,) является их положительность, что обеспечивает положительность Lc(x,y). Свойство же положительности Lc(x,y) накладывает сильные ограничения на выбор возможных алгоритмов обработки, так как результат
обработки – обработанное изображение – также должно быть положительной функцией, поскольку отрицательные значения яркости
физически не реализуемы. В дальнейшем мы познакомимся и с другими моделями изображений.
Удачная модель изображения является надежной основой для
синтеза эффективных алгоритмов обработки и, наоборот, неудач36
ные модели часто оказывались причиной неудач при разработке таких алгоритмов.
3.2. Спектры одномерных сигналов и изображений
В технике обработки и передачи сигналов и изображений широко применяются их спектральные представления. Рассмотрение
начнем с одномерных, т. е. зависящих от одного аргумента, например, времени t, сигналов.
Сигналы могут быть периодическими и непериодическими. Периодический сигнал, удовлетворяющий условиям Дирихле, например, электрический сигнал от звучащей струны музыкального инструмента, может быть представлен в виде суммы тригонометрических функций, с соответствующим образом подобранными
значениями амплитуд и начальных фаз
∞
 2pk

e(t=
) C0 + ∑ Ck sin 
t − jk ,
T


1
где t – время; T – период, с которым изменяется сигнал; k – номер
слагаемого, называемого номером гармоники; Ck – амплитуда k-й
гармоники; jk – начальная фаза k-й гармоники. Часто это выражение записывают в следующем виде
∞
e(t=
) C0 + ∑ Ck sin ( 2pkf1t − jk ),
1
где f1 – основная частота (первая гармоника) сигнала, равная f1 = 1/T.
Частота измеряется в герцах и равна количеству периодов сигнала,
приходящихся на одну секунду. Значения Ck и jk определяются следующим образом
=
Ck
Ak2 + Bk2 , tgjk =Ak Bk ,
где
=
Ak
2
T
T2
∫
−T 2
e ( t ) cos 2=
pkf1t dt, Bk
2
T
T2
∫ e ( t ) sin 2pkf1t dt.
−T 2
Таким образом, сложный периодический сигнал e(t) полностью
определяется совокупностью величин, Ck и jk. Совокупность величин Ck называется спектром амплитуд, или амплитудным спектром, а совокупность величин jk называется фазовым спектром.
37
Сk
0
f
2 f1
1
3 f1
4 f1
5f1
f
Рис. 3.3. Графическое изображение амплитудного
спектра периодического сигнала
Графическое изображение амплитудного спектра приведено на
рис. 3.3. Здесь по оси абсцисс отложено значение частоты f, а по оси
ординат значения амплитуд Ck. Аналогичным образом может быть
представлен график фазового спектра.
Особенностью спектра периодического сигнала является его дискретность, проявляющаяся в том, что он состоит из отдельных спектральных линий. Кроме того, спектр периодического сигнала является гармоническим, его спектральные линии отстоят друг от друга
на одинаковом расстоянии.
Для того чтобы получить амплитудный спектр непериодического сигнала, возьмем периодический сигнал e(t) и устремим его период к бесконечности. Предельный переход приведет к неограниченному сокращению интервалов между спектральными линиями, в
результате чего они сольются в сплошной спектр. В рассматриваемом случае непериодический сигнал e(t) и его спектр M(2pf) связаны парой преобразований Фурье
∞
=
M ( 2pf )
∫ e ( t ) exp ( −i2pft ) dt,
−∞
e ( t )=
1
2p
∞
∫ M (2pf ) exp ( i2pft ) dt,
−∞
где i=
−1 .
Обратим внимание на то, что спектр непериодического сигнала
M(2pf) является комплексной функцией частоты f и в отличие от
спектра периодического сигнала определен на интервале значений
f от –∞ до +∞.
38
На рис. 3.4 показан график моM(2pf)
дуля спектра непериодического
сигнала |M(2pf)|, т. е. его амплитудный спектр, для положительных
значений круговой частоты, что достаточно, поскольку для реальных
0
f
сигналов он симметричен
Перейдем теперь к рассмотрению спектров изображений. Рис. 3.4. График модуля спектра
непериодического сигнала
Спектр изображения M(wx,wy) по
определению представляет собой
комплексную функцию, связанную с распределением яркости на изображении Lc(x,y) парой преобразований Фурье:
∞
(
∞
) ∫ ∫
Mc wx , wy
=
Lc ( x, y )
=
−∞ −∞
∞
∞
4p2 −∞
−∞
1
∫ ∫
(
)
(
)
Lc ( x, y ) exp  −i wx x + wy y  dxdy,


(
)
Mc wx , wy exp i wx x + wy y  dwx dwy ,


где i= −1, а wx и wy – круговые пространственные частоты спектра
в направлении осей x и y. Круговые пространственные частоты wx и
wy связаны с пространственными частотами fx и fy соотношениями
wx = 2pfx, wy = 2pfy. Определенные таким образом спектры содержат
полную информацию как об амплитудах, так и о фазах частотных
составляющих. Спектры изображений представляют собой функции двух круговых частот: wx и wy, а не одной частоты f, как в ранее рассмотренном случае, потому что в отличие от сигналов звука, которые являются функциями одного аргумента, в приведенном
примере функциями времени t, изображения являются функциями
двух переменных, координат x и y.
3.3. Спектральные интенсивности изображений
При решении ряда задач, например, задачи о необходимой мощности сигнала при передаче его в условиях помех по каналу связи,
информация о фазовом спектре оказывается излишней, и тогда вместо спектра сигнала используют его спектральную интенсивность.
В отличие от спектра M(wx,wy) спектральная интенсивность, которую обозначим через Sc(wx,wy), содержит информацию только о рас39
пределении энергии (или величины пропорциональной ей) по пространственным частотам wx, wy. Спектральная интенсивность изображения и его спектр связаны соотношением
2
1
, wy
Sc wx=
Mc wx , wy ,
sèç
(
)
(
)
где sиз = x0y0 – площадь прямоугольника, в который вписано изображение (см. рис. 3.5).
Спектральные интенсивности изображений позволяют вычислить соответствующие им значения энергий
=
Ec
H
∞
∞
4p2 −∞
−∞
sèç
∫ ∫
y0
x0
Рис. 3.5. К определению
площади изображения
Sc(wx,0)
0
wx
Рис. 3.6. Зависимость
спектральной
интенсивности изображений
Sc(wx,0) от круговой
пространственной
частоты wx
40
(
)
Sc wx , wy , dwx dwy .
Чем больше значения Ec, тем выше вероятности правильного обнаружения изображений объектов в
присутствии шума.
Экспериментальные исследования показывают, что основная доля
энергии изображений сосредоточена
в области низких пространственных
частот. Несмотря на то, что энергия, приходящаяся на область высоких пространственных частот в
изображении, невелика, эти составляющие спектра играют большую
роль, обеспечивая четкость изображения.
На рис. 3.6 приведена усредненная по большому количеству изображений зависимость спектральной интенсивности изображений от
wx.
Из экспериментальных исследований следует также, что спектральные интенсивности изображений анизотропны, что проявляется в их более медленном убывании
вдоль осей wx и wy, чем в направлениях, расположенных к этим осям
wy
6
4
2
–6
–4
–2
0
2
4
6
wx
–2
–4
–6
Рис.3.7. Семейство линий постоянной
спектральной интенсивности Sc(wx,wy)
под углами 45°. Рис. 3.7, на котором приведено семейство линий постоянной спектральной интенсивности (изолиний), иллюстрирует
сказанное.
Анизотропия спектральных интенсивностей реальных изображений обусловлена их структурой, которая, определяется структурой самой Вселенной, например, формой земной поверхности,
направлением сил тяготения и т. п. Поэтому в «естественных» изображениях вертикальные и горизонтальные контуры встречаются
чаще, чем контуры, ориентированные в других направлениях. В [1]
приведены формулы для аппроксимации спектральных интенсивностей изображений.
3.4. Функции автоковариации изображений
Для описания статистических связей между элементами изображений применяют функцию автоковариации, которую определяют
следующим образом:
=
Rc ( ξ, η)
1
sèç
x0 y0
∫ ∫
0
Lc ( x, y ) Lc ( x + ξ, y + η) dxdy,
0
41
где ξ и η – смещения реализации изображения Lc(x+ξ,y+η) относительно реализации этого же изображения Lc(x,y) по осям x и y соответственно.
Распространение пределов интегрирования до бесконечности не
изменит значения интеграла, так как за пределами прямоугольника с координатами 0,0; x0,0; 0,y0; x0,y0, в которых заключено изображение, яркость равна нулю (см. п 3.3). Приведенное определение функции автоковариации будет тем ближе к строгому определению, используемому в математической статистике, чем меньше
площадь автокорреляции изображения ξкηк, которая определяется
соотношением
ξê ηê
∞ ∞
2

R ( ξ, η) −  Lc   dξdη,
2 ∫ ∫  c


4 Rc ( 0,0 ) −  Lc   −∞ −∞


1
по сравнению с sиз и чем однороднее алфавит изображений. В написанной формуле через Lc обозначено среднее значение яркости изображения. Функция автоковариации обладает следующими свойствами.
1. Свойство четности
Rñ ( ξ,=
η) Rñ ( −ξ,=
η) Rñ ( ξ, −η
=
) Rñ ( −ξ, −η).
2. При ξ = 0, η = 0 функция автоковариации принимает максимальное значение равное
Rc ( 0,0 ) = Ec sèç .
3. С ростом ξ и η функция автоковариации убывает вследствие
ослабления статистических связей. При этом в пределе для неогра2
ниченно больших изображений Rc(ξ,η) стремится к  Lc  .
4. Функция автоковариации изображения Rc(ξ,η) и его спектральная интенсивность Sc(wx,wy) связаны парой преобразований
Фурье
Rc ( ξ, η)
=
(
1
∞ ∞
∫ ∫ Sc ( wx ,wy ) exp i ( wx ξ + wy η)dwx dwy ,
4p2 −∞ −∞
∞ ∞
) ∫ ∫ Rc ( ξ,η) exp −i ( wx ξ + wy η)
Sc w
=
x , wy
42
−∞ −∞
dξ dη.
Часто в рассмотрение вводят коэффициент автокорреляции изображения
2
Rc ( ξ, η) −  Lc ( x, y ) 

 .
ρc ( ξ, η) =
2
Rc ( 0,0 ) −  Lc ( x, y ) 


Одним из первых исследователей, измеривших коэффициент автокорреляции реальных изображений, был Кречмер. При выполнении экспериментов Кречмер использовал прибор, в котором два
диапозитива одного и того же изображения, наложенные друг на
друга со сдвигом ξ и η, просвечивались параллельным пучком световых лучей. Световой поток, прошедший через диапозитивы, был
прямо пропорционален Rc(ξ,η). Он регистрировался фотоэлектронным умножителем. Перемещая один диапозитив относительно другого и измеряя ток фотоэлектронного умножителя, Кречмер получил зависимости коэффициентов автокорреляции от смещений ξ и
η для ряда изображений.
На рис. 3.8 сплошными линиями показаны зависимости коэффициентов автокорреляции, полученные Кречмером от смещения в
направлении оси y, представленного числом растровых элементов
(строк), найденные экспериментальным путем для двух изображений. Из рисунка видно, что в первом случае, когда изображение содержит небольшое количество мелких деталей и, следовательно,
ρс(0,h)
0,8
1
0,6
0,4
2
0,2
–80 –60 –40
–20
0
20
40
60
η
∆д
Рис. 3.8. Зависимость rc(0,h) от смещения вдоль строки y,
выраженного в числе растровых элементов h/Dд; 1 – изображение лица
крупным планом; 2 – изображение общего плана (трибуны стадиона,
заполненные зрителями); Dд – линейный размер растрового элемента
43
статистические связи между элементами изображения сильны, коэффициент автокорреляции убывает медленнее, чем во втором случае, когда изображение содержит много мелких деталей, а, следовательно, статистические связи между элементами более слабые. Аналогичный вид имеют кривые, представляющие зависимость rc(ξ,η)
от смещения ξ в направлении оси x.
Коэффициент автокорреляции реальных изображений хорошо
аппроксимируется экспоненциальной функцией
ρc ( ξ,=
η) exp  −as ( ξ + η )  .
Параметр as в этой формуле представляет собой величину, обратную интервалу автоковариации ξк(ηк), который по определению равен
1
ξê η=0=
2
∞
∫ ρc ( ξ,0 ) dξ.
−∞
На рис. 3.8 штриховыми линиями представлены зависимости rc
от η/∆д, рассчитанные по аппроксимирующей формуле.
Поскольку коэффициенты автокорреляции изображений достаточно точно аппроксимируются экспоненциальными функциями,
в качестве стохастической модели изображений используется случайный двумерный марковский процесс первого порядка.
3.5. Гистограмма распределения яркости в изображении
Гистограммы распределения яркостей в цифровых изображениях применяются при обработке изображений, их фотографировании цифровыми фотоаппаратами и в ряде других случаев. Понятие
гистограммы проще всего пояснить на примере полутонового черно-белого изображения. В этом случае под гистограммой понимается график, представляющий зависимость вероятности p события,
заключающегося в том, что яркость пикселя, выбранного случайным образом на изображении, попадает в интервал значений от L
до L+∆L, где ∆L – заданное приращение яркости. На рис. 3.9 в качестве примера приведена одна из типичных для изображения гистограмм. В случае цветных изображений применяют гистограммы
распределения интенсивностей в каждом из трех компонентов изображения R,G,B (красном, зеленом и синем).
Экспериментально найдено, что гистограммы яркостей аналоговых изображений, не подвергнутых нелинейной обработке, име44
ют максимум в области черного, подобно тому как это показано на
рис. 3.9. Аналогичные результаты, но значительно позже, были получены и опубликованы Стокхемом. Таким образом, наиболее вероятными являются малые уровни яркости в изображении и менее
вероятными – большие. Однако благодаря тому, что характеристика восприятия яркости нашим зрением носит насыщающийся характер все уровни яркости в изображении нам кажутся равновероятными.
Обращаясь к гистограммам цифровых изображений, необходимо отметить, что в этом случае отмеченная выше закономерность,
заключающаяся в наличии максимума в черном, здесь не просматривается. Объясняется это тем, что, как правило, динамический
диапазон интенсивностей цифровых изображений ограничен 256
уровнями квантования и для того, чтобы в этом динамическом диапазоне разместить изображение, имеющее изначально существенно
больший динамический диапазон, его подвергают нелинейной обработке. При этой обработке динамический диапазон изображения
сжимают и изображение буквально втискивают в интервал, ограниченный 256 уровнями квантования, в результате чего гистограмма распределения яркостей сильно изменяется. Вследствие этого
гистограммы распределения яркостей в изображениях, введенных
в компьютер, далеки от вида, приведенного на рис. 3.9. К счастью,
наше зрение этого практически не замечает.
p(L с )
0,5
0,4
0,3
0,2
0,1
0
20
40
60
80
100
Lс
Рис.3.9. Пример гистограммы
распределения яркости в изображении
45
По виду гистограммы можно судить о тоновых характеристиках
изображения. Если основная площадь гистограммы сосредоточена
в области малых значений яркости (интенсивности) это указывает
на то, что изображение темное, что может быть обусловлено двумя
причинами. Первая причина заключается в том, что преобладание
темных тонов обусловлено самим сюжетом, например, на изображении представлен вид вечернего города с отдельными фонарями и огнями рекламы. Однако такой вид гистограммы может говорить и о
недостаточной экспозиции при фотографировании.
Если основная площадь гистограммы сосредоточена в области
больших значений яркости, как на рис. 3.10, это может быть вызвано либо самим сюжетом, например, на изображении показан снежный склон, освещенный ярким солнцем с мелкой фигуркой лыжника, либо чрезмерно большой экспозицией при фотографировании.
Отметим, что представленная на рис. 3.10 гистограмма измерена
при маленьких интервалах яркости ∆L, в связи с чем ступенчатость
гистограммы практически не различима.
Гистограмма может указывать и на другие особенности и дефекты изображения. Например, если малые, большие или те и другие
значения яркости в изображении отсутствуют, как это показано на
гистограмме рис. 3.11, это говорит о плохом использование динамического диапазона, что обычно проявляется в малом контрасте изображения.
В ряде случаев гистограмма принимает вид серии сравнительно далеко отстоящих друг от друга вертикальных линий, что указывает на так называемое разрежение шкалы квантовых уровней,
p
0
L
Рис. 3.10. Гистограмма для изображения
с большим количеством пикселей высокой яркости
46
p
0
L
Рис. 3.11. Гистограмма для изображения,
в котором отсутствуют малые и большие значения яркости
что может привести к появлению на изображении так называемых
ложных контуров.
3.6. Влияние помех на изображение
Помехи, воздействуя на сигнал изображения, вызывают появление на изображении флуктуаций яркости, которые искажают его, а
при высоком уровне помех делают изображение вообще неразличимым. Самым распространенным видом помех являются аддитивные
помехи, при которых сигнал Uс и помеха Uп, суммируясь алгебраически, образуют зашумленную реализацию U = Uс+Uп. Воздействие
помехи на сигнал может также выражаться в их перемножении.
Воздействующая на сигнал таким образом помеха называется мультипликативной. В этом случае зашумленная реализация имеет вид
U = c1UсUп, где c1 – множитель, введенный для согласования размерностей. Возможны и другие варианты взаимодействия сигнала и помехи.
Помеху можно рассматривать как случайную функцию времени
t при воздействии ее на электрический сигнал или как случайную
функцию координат x и y при воздействии на изображение. Если же
помеха является функцией дискретного времени или дискретных
координат, как это имеет место при представлении цифровых изображений, говорят о случайной последовательности. Помехи называются стационарными, если их статистические характеристики
не зависят от времени (от координат в случае воздействия помех на
изображения).
47
Среднее значение помехи Uï и ее средний квадрат Uï2 , которые
называют соответственно первым и вторым начальными моментами распределения, вычисляют по формулам
∞
Uï =
∫
−∞
Uï Wï ( Uï ) dUï , Uï2 =
∞
∫
−∞
Uï2Wï ( Uï ) dUï ,
где Wп(Uп) – одномерная плотность вероятности распределения
помехи по уровням, а чертой над Uп и Uï2 обозначено усреднение
этих величин по ансамблю. В ряде случаев более удобно использовать центральные моменты распределения, т. е. моменты, центрированные относительно среднего значения помехи Uï . Выражение
∞
(Uï − Uï ) = ∫ (Uï − Uï )
2
2
−∞
Wï ( Uï ) dUï
представляет собой второй центральный момент распределения,
или дисперсию, которую в дальнейшем будем обозначать через
2
σ=
(Uï − Uï ) .
2
Среди случайных помех особое положение занимает стационарная флуктуационная помеха (ее часто называют флуктуационным шумом), которая возникает в датчиках сигнала изображения,
например, в ПЗС матрицах (ПЗС – прибор с зарядовой связью), во
входных цепях радиоприемных устройств и т. д., и распределена по
нормальному закону
=
Wï ( Uø )
 U2 
exp  − ø2  .
2pσ2
 2σ 
1
Для описания статистических свойств флуктуационного шума
используют коэффициент автокорреляции ρш(τ), который устанавливает статистическую связь между значениями шума Uш, разнесенными во времени на интервал τ. Коэффициент автокорреляции
шума ρш(τ) связан с его функцией автокорреляции Rш(τ) соотношением
Rø ( τ ) =ρø ( τ ) σ2 .
Функция автокорреляции и коэффициент автокорреляции являются четными функциями времени τ. Функция автокорреляции
48
шума Rш(τ) связана со спектральной интенсивностью шума Sш(ω)
парой преобразований Фурье. Обратим внимание, что
S=
ø ( w)
∞
∫ Rø ( τ ) exp ( −iwτ ) dτ
−∞
также является четной функцией круговой частоты ω, при этом
=
σ2
1
2p
∞
∫ Sø ( w) dw.
−∞
Известно, что спектральные интенсивности дробового и теплового шумов, являющихся первопричиной флуктуаций, не зависят от
частоты в очень широких пределах. На основании этого вводят модель так называемого белого шума, который при нулевом среднем
значении, т. е. при Uø = 0 и нормальном распределении по уровням, имеет спектральную интенсивность, не зависящую от частоты
в пределах от –∞ до ∞.
Наряду с этой моделью часто пользуются моделью квазибелого
шума, которая отличается от модели белого шума тем, что в этой
модели спектральная интенсивность шума принимается постоянной в интервале круговых частот от –wгр до wгр и равной нулю за его
пределами. В отличие от квазибелого шума функция автокорреляции, а, следовательно, и коэффициент автокорреляции белого шума
выражаются через дельта-функцию
R=
ø ( τ)
Sø ( 0 )
2p
∞
) dw
∫ exp ( iwτ=
−∞
Sø ( 0 ) δ ( τ ),
поскольку
1
2p
∞
∫ exp ( iwτ ) dw = δ ( τ ),
−∞
из чего следует, что любые два отсчета, взятые на конечном интервале времени τ, оказываются некоррелированными. Особенностью
модели белого шума является то, что при конечном значении спектральной интенсивности дисперсия помехи стремится к бесконечности. Все изложенное остается справедливым и в случае, когда
квазибелый и белый шумы представляют собой флуктуации яркости на изображении, т. е. являются двумерными. Спектральная
интенсивность двумерного квазибелого шума в этом случае может
быть записана в виде
49


Sø ( 0,0 ) ïðè wx ≤ wxãð

Sø wx , wy 
=
wy ≤ wyãð ,

 0 ïðè íåâûïîëíåíèè

ýòèõ óñëîâèé

(
)
а его функция автокорреляции
Rø ( ξ, η) =L2ø
sin wxãð ξ sin wyãð η
wxãð ξ
wyãð η
.
Этот вид шума проявляется на изображении в виде беспорядочных флуктуаций яркости.
Другой полезной моделью помехи, которая применяется на практике, является модель помехи, описываемой равномерным законом
распределения по уровням на интервале –δкв/2... δкв/2. Помехи такого рода возникают при квантовании изображений по интенсивности с шагом δкв в процессе их оцифровки.
Следующая модель помехи, которую мы рассмотрим, является
аддитивная биполярная импульсная помеха. Возникновение биполярной импульсной помехи часто обусловлено коммутационными
процессами в электрических схемах, наводками, а также электрическими разрядами. Распределение вероятности pп биполярной импульсной помехи описывается выражением
 pà
ïðè Lï = Là

=
pï =
pá
ïðè Lï Lá
,
 0 â îñòàëüíûõ ñëó÷àÿõ

где pа – вероятность возникновения положительного импульса помехи, величина которого равна Lа, pб – вероятность возникновения
отрицательного импульса помехи, величина которого равна – Lб.
В том случае, если одна из вероятностей pа или pб равна нулю, биполярная помеха превращается в униполярную. Положительные
импульсы помехи проявляются на изображении в виде белых точек, а отрицательные в виде черных точек. Биполярную импульсную помеху в переводной литературе, например, в руководствах по
MatLab, обычно называют помехой типа “соль и перец”, поскольку
она напоминает рассыпанные на изображении крупицы соли и пер50
ца. На практике часто приходится встречаться со случаем, когда
величина импульсов помехи оказывается больше размаха сигнала
изображения. При этом возникает ограничение интенсивности тех
пикселей изображения, с которыми совпали импульсы помехи. В
этом случае они становятся либо белыми, либо черными.
В заключение данного подраздела остановимся на так называемой структурной помехе, которая обусловлена тем, что отдельные
участки светочувствительной поверхности датчика сигнала изображения (например, ПЗС) имеют различные чувствительности и
различные значения «сигнала фона». Этот вид помехи может быть
полностью скомпенсирован. Для этого необходимо предварительно
записать в запоминающее устройство данные о локальных значениях помехи и использовать эти значения в процессе соответствующей
обработки сигнала.
51
4. ПРЕОБРАЗОВАНИЕ ИЗОБРАЖЕНИЙ В ЦИФРОВУЮ ФОРМУ
4.1. Пространственная дискретизация изображений
Цифровая обработка изображений начинается с того, что вначале изображения вводят в память компьютера, используя для этой
цели сканеры, цифровые камеры и видеокамеры, а также платы
ввода видеоданных. До ввода изображений в память компьютера
они должны быть преобразованы из аналоговой формы в цифровую,
т. е. оцифрованы. Так, например, в случае неподвижного ахроматического изображения непрерывное распределение яркости Lс(x,y)
должно быть преобразовано в матрицу чисел ||Lс(k,n)|| с конечной
разрядностью. Эта матрица чисел запоминается в компьютере. Индексы k и n являются номерами строк и столбцов соответственно. В
результате оцифровки в изображения неизбежно вносятся искажения, величина которых определяется плотностью и структурой расположения отсчетов на исходных изображениях, а также числом
уровней квантования, определяемым разрядностью представления
значений яркости. Результатом неправильного выбора этих параметров может быть как недопустимо большой уровень искажений
изображений, который сведет на нет все последующие работы, т.к.
искажения, возникшие на этом этапе, в дальнейшем уже не смогут
быть исправлены, так и чрезмерно большой объем файла, в котором
записано изображение, вследствие неоправданного запаса при выборе исходных параметров оцифровки.
При оцифровке исходное изображение вначале подвергается пространственной дискретизации, т. е. представляется в виде набора
отсчетов (пикселей), поэтому вначале обратимся к проблеме выбора плотности расположения отсчетов на исходном изображении. В
основе выбора плотности отсчетов (пикселей) на дискретизируемом
изображении лежит теорема Котельникова. Теорема Котельникова
(отсчетов) утверждает, что непрерывное изображение Lс0(x,y) с ограниченным спектром круговых пространственных частот Mс0(wx,wy)
полностью определяется значениями яркости в точках дискретных
отсчетов, расположенных в узлах прямоугольной решетки, где шаги пространственной дискретизации (расстояния между соседними
пикселями) Dx, Dy и граничные круговые пространственные частоты wxгр, wyгр связаны соотношениями
p
p
∆x ≤
; ∆y ≤
.
wxãð
wyãð
52
y
y
x
0
x
Рис. 4.1. Расположение точек дискретных отсчетов
на прямоугольной решетке
Чем выше значения граничных круговых пространственных частот, тем меньшими должны быть значения интервалов пространственной дискретизации Dx, Dy для того, чтобы обеспечить правильное представление мелких деталей изображения. На рис. 4.1 показана прямоугольная решетка и точки дискретных отсчетов.
Из теоремы Котельникова, в частности, следует, что площадь
изображения sиз, количество отсчетов (пикселей), которое приходится на эту площадь N и расстояния между ними (шаги дискретизации) Dx, Dy, связаны простым соотношением
s
N = èç .
∆x ∆y
Согласно теореме Котельникова исходное непрерывное изображение Lс0(x,y) с ограниченным спектром круговых пространственных частот может быть восстановлено посредством формулы
∞ ∞
Lñ=
0 ( x, y )
SS L
−∞ −∞
ñ0
(n∆x ,k∆y )
(
sin wxãð ( x − n∆ x ) sin wyãð y − k∆ y
wxãð ( x − n∆ x )
(
wyãð y − k∆ y
)
),
где Lс0(nDx,kDy) – его дискретная версия, а n и k – номера пикселей
и строк.
53
Значение теоремы отсчетов состоит в том, что она устанавливает
связь между дискретными и аналоговыми изображениями.
В заключение заметим, что, если при дискретизации изображений условие теоремы отсчетов не выполняется, а это, к сожалению,
как правило, всегда имеет место, возникают своеобразные искажения, называемые помехой пространственной дискретизации.
4.2. Помеха пространственной дискретизации
Обращаясь к изучению помехи пространственной дискретизации изображений, рассмотрим вначале случай, когда дискретизируемое изображение имеет ограниченный спектр пространственных частот и удовлетворяет условию теоремы Котельникова, т. е.
∆ x =p wxãð , ∆ y =p wyãð . Выделим на изображении k-ю строку,
например, строку, соответствующую k = 0, и рассмотрим значения
отсчетов яркости вдоль этой строки Lс0(nDx,0), для чего обратимся
к рис. 4.2, а. Зависимость значений Lс0(nDx,0) от номера отсчета n
а)
Lс0(n∆x , 0)
0
б)
0
в)
∆x
x
∆x
x
L(n∆ x , 0)
Lс0(x, 0)
0
x
Рис. 4.2. Зависимости от координаты x: а – периодической импульсной
последовательности, модулированной функцией Lñ0 ( x,0 ) ,
,
б – немодулированной периодической импульсной последовательности,
в – функции Lс0(x,0)
54
можно рассматривать как результат амплитудной модуляции (перемножения) периодической последовательности бесконечно тонких
импульсов, показанных на рис. 4.2, б, функцией Lс0(x,0), приведенной на рис. 4.2, в.
Поскольку периодическая последовательность бесконечно тонких импульсов имеет периодический дискретный спектр, показанный на рис. 4.3, а в виде отрезков одинаковой высоты, и принимая во внимание, что амплитудная модуляция последовательности бесконечно тонких импульсов функцией Lс0(x,0) приводит к
модуляции каждой из спектральных составляющих, приходим к
заключению, что спектр изображения после его пространственной
дискретизации имеет вид, показанный на рис. 4.3, б. Из рис. 4.3, б
видно, что в результате амплитудной модуляции около каждого из
спектральных компонентов периодической последовательности импульсов (отсчетов) возникли боковые полосы частот, представляющие собой основной спектр исходного изображения (на рис 4.3, б заштрихован), и побочные спектры.
Аналогичная картина будет иметь место и в том случае, если мы
будем рассматривать не одномерный, а двумерный спектр Mсд(wx,wy)
а)
M( wx )
0
б)
2p
∆x
wx
Mсд(wx )
0
wx
Рис. 4.3. Спектры: а – немодулированной
периодической импульсной последовательности;
б – периодической импульсной последовательности, модулированной
функцией Lс0(x,0), при условии, что частота дискретизации
удовлетворяет условиям теоремы Котельникова
55
дискретизированного изображения, который показан на рис. 4.4.
В этом случае спектр дискретизированного изображения Mсд(wx,wy)
также включает в себя кроме компонента спектра исходного не дискретизированного изображения (на рисунке область, занимаемая
этим компонентом спектра, заштрихована), компоненты побочных
спектров (области, которые они занимают, на рисунке показаны без
штриховки). Как это следует из рисунка, побочные спектры представляют собой копии основного спектра, смещенного по осям круговых пространственных частот wx, wy на величины lwxд, rwyд, где
wxä = 2p ∆ x , wyä = 2p ∆ y – частоты пространственной дискретизации, которые обычно берутся одинаковыми, а l и r – целые числа.
Положение частот дискретизации и их гармоник на рис. 4.4 показано кружками.
При этом спектр дискретизированного изображения имеет вид
(
∞ ∞
) ∑∑Mñ ( wx − lwxä ,wy − r wyä ).
Mñä w
=
x , wy
−∞−∞
Из рис. 4.4 следует, что для того, чтобы из дискретизированного
изображения восстановить исходное непрерывное изображение, достаточно посредством фильтрации из спектра дискретизированного
изображения выделить компонент исходного спектра.
Рассмотрим теперь случай, когда дискретизируемое изображение
не удовлетворяет условию теоремы отсчетов, т. е. когда ∆ x > p wxãð ,
wy
wx
Рис. 4.4. Двумерный спектр дискретизированного
изображения для случая, когда выполнены
условия теоремы Котельникова
56
wy
wx
Рис. 4.5. Двумерный спектр дискретизированного изображения
для случая, когда не выполнены условия теоремы Котельникова
∆ y > p wyãð . Повторяя рассуждения, приведенные выше, найдем
области, занимаемые основным и побочными спектрами, которые
показаны на рис. 4.5. Из рисунка видно, что поскольку теперь wxгр
и wyгр больше, чем в предыдущем случае, возникло взаимное перекрытие основного и побочных спектров. Побочные спектры, вторгаясь в область, занимаемую основным спектром, создают помеху, которая называется помехой пространственной дискретизации.
Поскольку спектр большинства реальных изображений не ограничен по круговым пространственным частотам wx и wy, взаимное
наложение спектров в большей или меньшей степени неизбежно, а
значит, неизбежно и возникновение помехи пространственной дискретизации того или иного уровня, которая в дальнейшем не может
быть отфильтрована.
Проявление на изображениях помехи пространственной дискретизации определяется структурой самих изображений. Так, например, на наклонных границах она проявляется в виде зазубрин,
а на участках, где много мелких деталей, но отсутствуют периодические структуры, помеха пространственной дискретизации проявляется в виде хаотически расположенных светлых и темных точек.
Рис. 4.6 демонстрирует изложенное.
В том случае, если изображение содержит периодические структуры, как, например, изображение, показанное на рис. 4.7, а, поме57
а)
б)
в)
г)
Рис.4.6. К пояснению проявления помехи пространственной
дискретизации на изображениях. При переходе от изображения к
изображению слева направо шаг пространственной дискретизации
каждый раз изменяется в два раза
а)
б)
Рис.4.7. Изображение с периодической структурой:
а – до дискретизации, б – после дискретизации
в случае невыполнения условий теоремы Котельникова
ха пространственной дискретизации проявляется в виде муарового
рисунка, что хорошо видно на рис. 4.7, б.
Помеха пространственной дискретизации является мультипликативной помехой, поэтому изменение контраста изображения повлечет за собой увеличение также и ее контраста, отношение же
сигнал/помеха при этом не изменится. Для того, чтобы избежать
возникновения этой помехи, спектр дискретизируемого изображе58
ния перед дискретизацией должен быть ограничен со стороны верхних пространственных частот. Это можно сделать путем оптической
фильтрации изображений. Такую фильтрацию можно осуществить
двумя способами. Первый способ состоит в применении аподизированной оптики, второй в использовании когерентных оптических
систем. Во втором случае диапозитив фильтруемого изображения
помещается в коллимированный поток когерентного света, который затем пропускается через линзу. В задней фокальной плоскости
линзы, где распределение светового потока прямо пропорционально
двумерному спектру Фурье пространственного распределения прозрачности диапозитива, помещается диафрагма, которая отсекает
световой поток в области верхних пространственных частот. Затем
изображение фокусируется на светочувствительной поверхности
датчика сигнала изображения. Профильтрованное изображение
может быть продискретизировано без опасности возникновения помехи пространственной дискретизации. Однако, описанные способы не удобны на практике – первый из-за существенного уменьшения светового потока аподизированной оптикой и, как следствие,
снижения чувствительности преобразователя свет-сигнал, второй –
по причине громоздкости.
Простым, хотя и не лучшим способом ослабления помехи пространственной дискретизации на изображении, которым пользуются на практике, является увеличение числа отсчетов на изображении при его оцифровке. Недостатком этого способа является то,
что увеличение числа отсчетов влечет за собой пропорциональное
увеличение размера файла, в котором изображение будет храниться. Все изложенное, с учетом специфики, можно распространить на
временную дискретизацию движущихся изображений, при которой возникает помеха временной дискретизации. В частности, эта
помеха, проявляется на изображении в виде всем знакомого эффекта обратного вращения спиц колеса при определенных скоростях
его вращения.
4.3. Метод уменьшения помехи пространственной дискретизации
Приступая к рассмотрению метода уменьшения помехи пространственной дискретизации, будем полагать, что интервал пространственной дискретизации изображения одинаков в обоих направлениях, т. е. ∆ = ∆ x = ∆ y , а следовательно, одинакова и частота пространственной дискретизации в обоих направлениях
ωд = ωxд = ωyд.
59
Как уже отмечалось, причиной возникновения помехи пространственной дискретизации на изображении является наложение на основной спектр побочных спектров. Так как спектры реальных изображений не ограничены по пространственным частотам,
то избежать этого полностью невозможно, хотя можно в значительной степени ослабить последствия этих наложений путем увеличения частоты пространственной дискретизации ωд. Рис. 4.8, а и
4.8, б, на которых представлены зависимости спектральной интенсивности дискретизированного изображения Sсд(ωx, ωy) от круговой
пространственной частоты ωx, поясняют сказанное.
Это обстоятельство используется в описываемом методе уменьшения помехи пространственной дискретизации, включающем в
себя три этапа. Вначале, при оцифровке изображения выполняется
его первичная (предварительная) дискретизация с круговой частотой пространственной дискретизации ωдn, в n раз превышающей
основную частоту пространственной дискретизации ωд, т. е. ωдn = nωд. Это достигается за счет того, что интервал пространственной
дискретизации на первом этапе берется в n раз меньше того, с которым изображение в дальнейшем будет записано в память. Благодаря такому выбору частоты пространственной дискретизации основной и побочные спектры дискретизированного изображения оказываются сильно смещенными друг относительно друга, так, как это
показано на рис. 4.9, а и поэтому их взаимное перекрытие оказывается пренебрежимо малым.
а)
Sсд (wx ,0)
0
б)
wд
2w д
wx
wд
wx
Sсд (wx ,0)
0
Рис. 4.8. Основной и побочные спектры изображения при двух различных
частотах пространственной дискретизации
60
На втором этапе предварительно дискретизированное изображение подвергается пространственной фильтрации путем его свертки
с импульсной функцией типа sinx/x, благодаря чему без изменения
остаются только те компоненты пространственного спектра изображения, которые удовлетворяют условию
wx − ln wä < wxãð ∧ wy − rnwä < wyãð ,
где l и r – целые числа, изменяющиеся от –∞ до +∞, все же прочие
компоненты спектра отфильтровываются. На рис. 4.9, б показана
зависимость спектральной интенсивности изображения Sсд(ωx, ωy)
от круговой пространственной частоты ωx после фильтрации.
И, наконец, третьим, заключительным этапом реализации описываемого метода является передискретизация профильтрованного
изображения, в результате которой, частота пространственной дискретизации становится равной ωд. Достигается это путем прореживания (децимации) отсчетов в n раз как по горизонтали, так и по
вертикали. В результате этой операции количество отсчетов на изоа) Sсд (wx ,0)
0
wдn=2wд
wx
wдn=2wд
wx
б) Sсд (wx ,0)
–wxгр
0
wxгр
в) Sсд (wx ,0)
–wxгр
0
wxгр
wд
2wд
wx
Рис. 4.9. Спектральные интенсивности дискретизированного
изображения: а – после первичной дискретизации; б – после фильтрации
с использованием импульсной функции вида sinx/x; в – то же после
прореживания отсчетов
61
Рис. 4.10. Изображение, при оцифровке
которого был применен описанный здесь
метод ослабления помехи пространственной
дискретизации
бражении уменьшается до величины, еще обеспечивающей выполнение теоремы отсчетов, а спектральная интенсивность дискретизированного изображения становится такой, как показано на рис.
4.9, в.
Следует иметь в виду, что при этом линейные размеры воспроизводимого изображения также уменьшаются в n раз.
Проведенные нами исследования показали высокую эффективность этого метода. Для его реализации достаточно предварительную частоту пространственной дискретизации увеличить всего лишь в два или три раза (n = 2…3) по отношению к основной. На
рис. 4.10 показано изображение, которое было оцифровано с использованием описанного метода при n = 2. Число отсчетов на этом изображение то же самое, что и на изображении, показанном на рис.
4.7, б, однако помеха пространственной дискретизации на нем практически отсутствует.
Этот метод легко может быть распространен также на ослабление помехи временной дискретизации движущихся изображений.
Принцип его реализации очевиден и пояснений не требует.
4.4. Интерполяция при воспроизведении изображений
Цифровое изображение представляет собой матрицу чисел, каждое из которых определяет значение яркости в точке взятия отсчета. Если такое изображение, без каких-либо дополнительных опе62
раций над ним, воспроизвести на
а)
б)
плоскости, то получится картинка, похожая на изображение, представленное на рис. 4.11, а.
В действительности при воспроизведении цифрового изображения на дисплее компьютера или на
экране цифрового телевизора этого не происходит благодаря интерРис.4.11. Интерполяция
поляции, которая при этом имеет
при воспроизведении
место. Для примера рассмотрим в
цифровых изображений
простейшем случае монохромный
дисплей, в котором каждый пиксель изображения образован одной жидкокристаллической ячейкой (а не тремя, как в цветном дисплее). Сигнал каждого отсчета яркости, будучи поданным на соответствующую ячейку, засвечивает
сразу весь пиксель, т. е. площадку прямоугольной формы, определяемую размерами жидкокристаллической ячейки, при этом происходит так называемая интерполяция нулевого порядка.
Даже такой простой вид интерполяции, как интерполяция нулевого порядка, исправляет ситуацию и делает изображение легко
читаемым, как, например, на рис. 4.11, б. Обычно при выводе изображения на экран дисплея мы не задумываемся об этом, поскольку
конечные размеры пикселя автоматически обеспечивают необходимую интерполяцию.
Интерполирующие свойства дисплеев могут играть не только положительную роль, но и отрицательную, ограничивая разрешение
всей системы, поэтому количество строк и пикселей в строке выводимого на экран изображения должны согласовываться с разрешением экрана дисплея. При отсутствии такого согласования возможно возникновение таких нежелательных артефактов, как потеря
четкости изображения или же заметность растровой структуры.
4.5. Квантование изображений по яркости
Изображения, обрабатываемые в компьютере, представляются в
виде матрицы целых чисел Lскв, описывающих значения яркости в
точках взятия отсчетов (пикселей)
Lñìàêñ
=
L
an0 2n0 −1 + an0 −1 2n0 −2 + ...a1 20 ,
ñêâ
m −1
(
)
63
где Lсмакс – максимальное значение яркости в изображении, ak принимает значения равные 1 или 0; k = 1, 2, …n0; m – число уровней
квантования, m = 2n0 , n0 – число разрядов двоичного кода на один
отсчет (пиксель) изображения. Преобразование аналоговой величины Lс, представляющей значение яркости в точке отсчета, которая
может принимать любые, в том числе дробные, значения в интервале 0 ÷ Lñìàêñ , в квантованную величину Lcкв, принимающую только дискретные, в данном случае только целые значения, называется квантованием. Отметим, что результат любого измерения, представленный числом с ограниченным количеством разрядов, можно
рассматривать как квантованный.
Главной характеристикой, описывающей работу квантующего
устройства, является его амплитудная характеристика, представляющая зависимость значения выходного сигнала от его входного
значения. На рис. 4.12, а приведена амплитудная характеристика
квантующего устройства с равномерной шкалой квантования. На
практике, хотя и не часто, применяют также и неравномерные шкалы квантования. В отличие от равномерной шкалы квантования,
при неравномерной шкале пороговые уровни и уровни квантования располагаются друг относительно друга на неодинаковом расстоянии. На рис. 4.12, б представлена амплитудная характеристика квантующего устройства с неравномерной шкалой квантования.
Квантующие устройства с неравномерной шкалой квантования
в своей реализации сложнее, но в ряде случаев они обеспечивают
а)
Уровни квантования
Пороговые
уровни
0
квантованное
значение
б)
Lскв
Уровни квантования
Пороговые уровни
Квантуемая величина
Lс
Рис. 4.12. Амплитудные характеристики квантующих устройств: а – с
равномерной шкалой квантования;
б – с неравномерной шкалой квантования
64
лучшие результаты, чем квантующие устройства, у которых шкала
квантования равномерная.
При квантовании в исходный сигнал, определяющий яркость
изображения в точке отсчета Lс, вносится ошибка, называемая шумом квантования. Величина этой ошибки представляет разность
между квантованным сигналом и исходным
Løêâ
= Lñêâ − Lñ .
Важнейшей характеристикой шума квантования является его
средний квадрат (дисперсия)
σ2øêâ =
L2øêâ .
Средний квадрат шума квантования σ2øêâ зависит
− от среднего квадрата квантуемого сигнала L2ñ ;
− от количества уровней, на которое квантуется сигнал, т. е. от
m = 2n0 , где n0 – число двоичных разрядов кода, которым представляется квантованное значение сигнала Lс;
− от взаимного расположения уровней квантования и пороговых
уровней;
− от плотности вероятности квантуемого сигнала W.
Если шкала квантования задана, средний квадрат шума квантования можно определить следующим образом
σ2øêâ =
L2ñ σ20 ( n0 ,W ),
где n0 = log2 m, σ20 ( n0 ,W ) – средний квадрат шума квантования
сигнала на m уровней для случая, когда средний квадрат самого квантуемого сигнала равен единице, а распределение его по яркости описывается плотностью вероятности W. Другими словами,
средний квадрат шума квантования всегда прямо пропорционален
среднему квадрату квантуемого сигнала.
В том случае, если квантуемый сигнал распределен равномерно
в интервале значений 0 ÷ Lñìàêñ , то равномерная шкала обеспечивает минимальный уровень шума квантования. При этом шаг квантования δкв, представляющий собой разность двух соседних уровней квантования Lквk и Lквk–1 с номерами k и k–1, будет постоянным
=
δêâ Lñìàêñ ( m − 1).
δкв = const и равным
При оцифровке изображений всегда используется равномерная
шкала квантования, поскольку при равномерной шкале после кодирования мы получаем код, который представляет номер уровня квантования в виде двоичного числа удобного для дальнейшего использования. Если число уровней квантования изображения
65
m ≥ 8, то, как и при равномерном распределении квантуемого сигнала, можно считать, что средний квадрат шума квантования равен σ2êâ =
δ2êâ 12. Подставляя в эту формулу значение δкв, находим
L2
σ2êâ = ñìàêñ
,
(m − 1)2 12
При этом выражение для отношения сигнал-шум
=
Ψ Lñìàêñ σêâ
может быть записано в виде Ψ
= ( m − 1) 12. Плотность вероятности распределения шума квантования описывается выражением
 1
δ
δ
ïðè − êâ ≤ Lø ≤ êâ

2
2
W ( Lø ) =  δêâ
.

0 ïðè íåâûïîëíåíèè ýòîãî óñëîâèÿ
Ширина спектра шума квантования во много раз превышает ширину спектра квантуемого сигнала.
Для уменьшения уровня шума квантования используют неравномерные шкалы, распределение пороговых уровней и уровней квантования в которых согласовано с плотностью вероятности
квантуемого сигнала. Такие квантующие устройства называются
оптимальными квантователями или квантователями Ллойда-Макса [4, 5].
В результате квантования изображений по яркости, как уже было отмечено, в них вносятся искажения, которые при недостаточном количестве уровней квантования проявляются на изображениях в виде так называемых ложных контуров. Ложные контуры
наиболее заметны на участках изображений с плавным изменением яркости и менее заметны на участках с высокой детальностью.
Так, например, на участках с плавными изменениями яркости они
различимы и при квантовании на 32 уровня, в то время как как на
участках с высокой детальностью, например, на изображении ветвей кустарника на фоне снега, они почти незаметны и при 4 уровнях
квантования. В качестве примера на рис. 4.13 показано исходное
изображение (а) и это же изображение, но проквантованное на 2, 4 и
8 уровней, соответственно. Для того чтобы ложные контуры гарантированно были бы незаметными, в случае полутонового не цветного изображения, оно должно быть проквантовано не менее, чем на
128 уровней. Используемый в настоящее время стандарт предусматривает квантование не цветных полутоновых изображений на 256
уровней, таким образом, для представления яркости каждого пик66
а)
б)
в)
г)
Рис. 4.13. К пояснению заметности ложных контуров:
а – изображение проквантовано на 256 уровней;
б – изображение проквантовано на 8 уровней;
в – изображение проквантовано на 4 уровня;
г – изображение проквантовано на 2 уровня
селя отводится 8 двоичных единиц кода (один байт). При квантовании цветных изображений, включающих в себя три компонента R,
G и B (красный, зеленый и синий), каждый из компонентов квантуется на 256 уровней, при этом на представление одного пикселя
затрачивается 3 байта. Эта мода представления изображений называется RGB.
67
5. ЛИНЕЙНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ
5.1. Области применения линейной фильтрации изображений
Линейная фильтрация изображений представляет собой одну из
наиболее часто применяемых процедур обработки изображений, в
том числе в современных графических редакторах. Например, графический редактор Adobe Photoshop предоставляет пользователю в
меню более 10 вариантов линейной фильтрации, включая как различные варианты сглаживания резких световых границ изображения, так и методы их подчеркивания. Широкое применение линейной фильтрации при обработке изображений объясняется тем, что
она позволяет в значительной мере скорректировать целый ряд искажений, возникающих при получении, передаче и при воспроизведении изображений. К этим искажениям, в первую очередь, относятся апертурные искажения, вызванные несовершенством устройств,
посредством которых формируются изображения (передающих телевизионных камер, цифровых фотоаппаратов, сканеров), а также
ошибками, допущенными при съемке (неточностью фокусировки
объектива, смазом изображения вследствие недостаточно короткой
экспозиции при съемке движущихся объектов и т. д.). Линейная
фильтрация применяется также для ослабления заметности растровой структуры на изображениях, получаемых посредством сканирования типографских репродукций. Кроме того, линейная фильтрация применяется для ослабления помех, обусловленных наложением
побочных спектров, возникающих при пространственной дискретизации изображений путем их предварительной фильтрации в целях
ограничения их пространственных спектров при вводе в компьютер. Применение линейной фильтрации также позволяет уменьшить
ошибки интерполяции, проявляющиеся в заметности растровой
структуры. Посредством линейной фильтрации в известных пределах удается ослабить заметность флуктуационного шума, а также
других дефектов на воспроизводимых изображениях.
Необходимо также назвать такие области применения линейной
фильтрации, как редактирование изображений, при котором достигается их большая выразительность. Сюда, например, относится подчеркивание границ и сглаживание отдельных областей путем применения фильтров с соответствующими характеристиками. По этой
причине данному виду обработки изображений как в отечественной,
так и в зарубежной литературе уделяется большое внимание.
68
Обращаясь к рассмотрению перечисленных выше вопросов, рассмотрим методы реализации линейной фильтрации, которая может
быть выполнена как в пространственной, так и в частотной области.
5.2. Метод фильтрации цифровых изображений
в спектральной области
Фильтрация изображения в спектральной (частотной) области
заключается в том, что вначале массив отсчетов, которым представлено исходное ахроматическое изображение Lс(k,n) преобразуется по какому-либо базису в массив спектральных коэффициентов
Mс(u,v), а затем находится массив спектральных коэффициентов
профильтрованного изображения MсW(u,v) путем скалярного перемножения каждого спектрального коэффициента массива Mс(u,v)
на соответствующий отсчет дискретной частотной передаточной
функции K(u,v)
MñW ( u,v ) = Mñ ( u,v ) K ( u,v ),
где u, v – индексы, определяющие положение спектральных коэффициентов, а также отсчетов частотной передаточной функции в
столбце и строке соответствующих массивов. На заключительном
этапе фильтрации найденный массив спектральных коэффициентов преобразуется в массив отсчетов профильтрованного изображения LсW(k,n).
При фильтрации изображения в спектральной области следует
внимательно подходить к определению дискретной частотной передаточной функции фильтра K(u,v). Часто частотная передаточная функция цифрового фильтра определяется на основе предварительно найденной частотной передаточной функции аналогового
фильтра K(ωx, ωy). Однако, сразу же нужно предостеречь от соблазна получить частотную передаточную функцию K(u,v) путем простой дискретизации функции K(ωx, ωy). Дело в том, что вид K(u,v),
как и вид Mс(u,v), определяется базисом, который был использован
при вычислении спектральных коэффициентов цифрового изображения. На рис. 5.1 приведены дискретные амплитудные спектры
|Mс(u,v)| одного и того же изображения, но полученные путем его
преобразования по двум различным базисам. В одном случае при
определении спектральных коэффициентов |Mс(u,v)| было использовано дискретное преобразование Фурье (ДПФ), а в другом дискретное косинусное преобразование (ДКП).
69
| Mс (u,v) |
2
10,0
5,0
1,0
0,5
0,2
ДПФ
0,1
0,05
0,02
0,01
0
ДКП
2
4
6
8
10
12
14
u
Рис. 5.1. Зависимость амплитуды спектральных
коэффициентов от индекса u для ДПФ и ДКП
Из рассмотрения рисунка видно, что для двух различных базисов дискретные спектры сильно различаются между собой. Поэтому определение K(u,v) необходимо осуществлять следующим образом. Вначале посредством двумерного интегрального преобразования Фурье на основе известной аналоговой частотной передаточной
функции K(ωx, ωy) находится соответствующая ей аналоговая импульсная характеристика h(x,y), которая подвергается пространственной дискретизации с тем же интервалом, что и фильтруемое
изображение. После этого выполняется нормировка полученной таким способом дискретной импульсной характеристики h(k,n) с тем,
чтобы сумма всех ее отсчетов равнялась бы единице. И только после этого вычисляется дискретная частотная передаточная функция K(u,v) путем применения к нормированной h(k,n) двумерного
ортогонального преобразования с использованием тех же базисных
функций, что и при вычислении спектральных коэффициентов.
При фильтрации цветного изображения все перечисленные операции выполняются над тремя его компонентами.
70
5.3. Метод фильтрации цифровых изображений
в пространственной области
Фильтрация изображений в пространственной области является
одним из распространенных методов фильтрации*. Она выполняется методом свертки изображения Lс(x,y) с импульсной характеристикой h(x,y). Для непрерывного ахроматического изображения эта
операция может быть записана следующим образом
∞ ∞
LcW
=
( x, y )
∫ ∫ Lc ( ξ,η) h ( x − ξ, y − η,) dξdη,
−∞ −∞
где LсW(x,y) – распределение яркости в изображении после фильтрации, а ξ, η – переменные интегрирования. При реализации этого метода фильтрации цифровым способом исходное изображение,
импульсная характеристика и изображение после фильтрации
представляются в виде массивов чисел, элементы которых обозначим соответственно через Lс(k,n), LсW(k,n) и h(k,n), а номера строк и
столбцов – через k и n. При этом яркость пикселей в профильтрованном изображении вычисляется следующим образом
=
LcW ( k,n )
K −1
2
∑
N −1
2
∑
Lc ( k − k′,n − n′ )h ( k′,n′ ),
K −1
N −1
k′=
−
n′ =
−
2
2
(5.1)
где K и N – протяженность двумерной импульсной характеристики в обоих направлениях. Для того чтобы избежать смещения профильтрованного изображения относительно исходного, величины
K и N выбираются нечетными.
Процесс фильтрации поясним следующим образом. В процессе
фильтрации изображение сканируется окном (импульсной характеристикой), размеры которого, как уже было сказано, составляют
K×N пикселей. Каждый отсчет окна (импульсной характеристики)
представляет собой весовой коэффициент, на который умножается
яркость пикселя изображения, покрываемого этим отсчетом окна.
При этом яркость пикселя профильтрованного изображения, координаты которого совпадают с координатами центра окна, находят* В настоящее время в разных областях науки и техники используют различную
терминологию для обозначения одной и той же функции. Так в оптике используют
термин «функция рассеяния точки», в телевидении – «распределение прозрачности
в апертуре», в теории электрических цепей – «импульсная функция», «импульсная
характеристика», в теории обработки изображений – «окно » или « маска». В дальнейшем в зависимости от контекста мы будем применять ту или иную терминологию.
71
n
k
h-1-1 h-1 0 h-1 1
h0-1 h0 0 h0 1
Направление сканирования
h 1-1 h1 0 h1 1
Рис.5.2. К пояснению метода свертки
ся путем суммирования всех этих произведений. Рис. 5.2 поясняет
изложенное.
На рис. 5.3 с целью дополнительного пояснения показаны фрагмент исходного изображения, т. е. изображения до фильтрации
(слева), импульсная характеристика (в центре) и фрагмент изображения после фильтрации (справа) без учета краевого эффекта.
При разработке цифрового фильтра импульсная характеристика h(k,n) находится следующим образом. Вначале, исходя из поставленных требований, находится частотная передаточная функция
аналогового фильтра K(ωx, ωy). Затем путем применения двумерного
интегрального преобразования Фурье к найденной частотной передаточной функции отыскивается соответствующая ей импульсная
характеристика h(x,y)
h ( x, y )
=
∞
∞
4p2 −∞
−∞
1
∫ ∫
(
)
(
n
k
100 100100 100100 200200 200200200
100 100100 100100 200200200200
100100 100100100 200200200 200 200
n
k 100 100100100 133167 200200200 200
n
-1
0
1
100100100100100 200200200200200
k -1 1/9 1/9 1/9
h(k,n)= 0 1/9 1/9 1/9
100 100100 100 100 200200200200200
1 1/9 1/9 1/9
100 100100100100 200 200200200200
)
K wx , wy exp i wx x + wy y  dwx dwy .


100 100 100100 133167200200200200
100 100 100100 133167 200 200200 200
100 100100100 133167 200200200200
100100100100 133167 200200 200200
100 100100100 133167 200200 200200
100100 100100 100 200200200200200
100100 100100 133167 200200200 200
100100100 100 100 200200200200 200
100100 100100133167 200200200200
Рис. 5.3. Пример, поясняющий фильтрацию методом свертки
72
После этого найденную импульсную характеристику необходимо преобразовать в дискретную форму посредством ее пространственной дискретизации, при этом шаг пространственной дискретизации должен быть тем же самым, что и шаг пространственной
дискретизации фильтруемого изображения. Следующей операцией,
которую необходимо выполнить над дискретизированной импульсной характеристикой, является ее усечение, по строкам и столбцам
до разумных пределов. Объясняется это тем, что частотным передаточным функциям, ограниченным в пространстве частот граничными частотами wxгр, wyгр, соответствуют импульсные характеристики, не ограниченные в пространстве координат x,y. Последней
и заключительной операцией является нормировка усеченной импульсной характеристики, в результате которой сумма ее отсчетов
должна стать равной единице, т. е.
K −1
2
∑
N −1
2
∑
h ( k,n ) = 1.
K −1
N −1
k=
−
n=
−
2
2
Благодаря нормировке импульсной характеристики после ее усечения обеспечивается правильное воспроизведение средней яркости в профильтрованном изображении, которое в противном случае
было бы нарушено вследствие операции усечения.
Обращаясь к проблеме усечения импульсной характеристики, отметим, что чем больше ее протяженность, тем больший объем вычислений необходимо выполнить при реализации цифровой
фильтрации рассматриваемым методом. Кроме того, при этом на
большей части изображения будет проявляться краевой эффект.
Простое усечение импульсной характеристики посредством ее умножения на функцию окна W(k,n), удовлетворяющую условию
N −1

k, n ≤
1 ïðè
2
W ( k,n ) = 
,
0 ïðè íåâûïîëíåíèè ýòîãî óñëîâèÿ

приводит к появлению нежелательной «волнистости» частотной
передаточной функции, а также к ее расширению в частотной области. Для достижения компромисса между протяженностью импульсной характеристики в пространстве изображения и частотной
передаточной функции в пространстве частот был разработан ряд
окон специальной формы, среди которых наиболее известными яв73
ляются: треугольное окно Бартлетта, окно Блэкмана, окно Ханна,
окно Кайзера, а также окно Хэмминга, удовлетворяющее условию
2pn
N −1

0,54 + 0,46 cos N − 1 ïðè n ≤ 2
W (n ) = 
.
0
ïðè
íåâûïîëíåíèè
ýòîãî
óñëîâèÿ

Важной особенностью этих окон является то, что при приближении к границе усечения величина W ( k,n ) плавно убывает, благодаря чему ослабляются эффекты “волнистости” и расширения частотной передаточной функции.
После нахождения импульсной характеристики h(k,n) рекомендуется ее исследовать на разделимость в отношении переменных k и
n. Если выяснится, что она разделима, т. е. если
h ( k,n ) = h ( k ) h ( n ),
где h(k), h(n) – одномерные импульсные характеристики, то выражение (5.1) следует преобразовать к виду
=
LcW ( k,n )
K −1
2
∑
N −1
2
∑
h ( k′ )
Lñ ( k − k′,n − n′ )
K −1
N −1
k′=
−
n′ =
−
2
2
h ( n ′ ). (5.2)
Вычисление значений LсW(k,n) по формуле (5.2) позволяет существенно сократить количество математических операций по сравнению с количеством необходимых математических операций при использовании формулы (5.1). Отметим, что ряд импульсных характеристик, с которыми часто приходится иметь дело на практике,
являются разделимыми. К ним, например, относятся: импульсная
характеристика, описываемая гауссовым законом, импульсная характеристика, имеющая постоянное значение внутри прямоугольного окна, а также некоторые другие.
Далее необходимо установить ограничители на величину яркости профильтрованного изображения перед тем, как после фильтрации представлять его принятым (обычно восьмиразрядным) кодом, которые предотвращают его выход за пределы динамического
диапазона. Появление недопустимых значений яркости возможно,
если на переходной характеристике фильтра имеются выбросы, обусловленные, например, резким спадом частотной передаточной
функции. Отсутствие ограничителей в этом случае будет вызывать
переполнение разрядной сетки, что приведет к появлению на светлых участках профильтрованного изображения черных точек и пя74
тен, а на темных – соответственно белых точек и пятен. Применение
ограничителей динамического диапазона сигнала со стороны белого и со стороны черного позволяет избежать этих артефактов.
Как правило, для фильтрации изображений применяется метод
их свертки с импульсной характеристикой, поскольку он требует
меньших вычислительных затрат, чем метод фильтрации в спектральной области. И только в редких случаях, когда импульсная
характеристика фильтра имеет большую протяженность и соответственно частотная передаточная функция – малую, метод фильтрации изображения в частотной области с учетом вычислительных
затрат на прямое и обратное ортогональные преобразования может
оказаться предпочтительнее.
75
6. НЕЛИНЕЙНЫЕ МЕТОДЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ
6.1. Гомоморфная фильтрация изображений
Мультипликативные помехи, воздействуя на изображения, искажают их, одновременно увеличивая динамический диапазон
яркостей, необходимый для их представления. Увеличение динамического диапазона создает проблемы при воспроизведении изображений, поскольку динамический диапазон воспроизводящих
устройств, таких, как мониторы, принтеры и др., не превышает
100-255. Возникают также проблемы и при их передаче по каналам
связи. В ряде случаев эффективным методом реставрации изображений, искаженных мультипликативными помехами, может быть
гомоморфная фильтрация.
Рассмотрим алгоритм гомоморфной фильтрации на примере реставрации ахроматического изображения для случая, когда мультипликативная помеха вызвана неравномерностью освещения по
полю, хотя он может быть применен и для фильтрации цветных
изображений.
Согласно модели изображения, приведенной в подразделе 3.1,
распределение яркости в нем можно рассматривать как результат
перемножения функции rс(x,y), представляющей распределение коэффициентов отражения в передаваемой сцене, на функцию E(x,y),
которая представляет распределение освещенности
L ( x, y ) = k E ( x, y ) rñ ( x, y ), (6.1)
где k – коэффициент, согласующий размерности. В том случае, если освещенность по полю постоянна, т. е. если E(x,y,) = E = const, то
распределение яркости в изображении Lс(x,y) с точностью до постоянного множителя повторяет распределение коэффициентов отражения
Lñ ( x, y ) = k E rñ ( x, y ).
Будем считать такое изображение неискаженным.
Динамический диапазон изменения яркости в неискаженных
изображениях определяется динамическим диапазоном изменения
коэффициентов отражения и, как правило, не превышает 100. Однако, в большинстве реальных случаев формирования изображений освещенность отдельных участков снимаемой сцены различа76
ется в очень широких пределах, что приводит к увеличению динамического диапазона яркостей формируемых изображений.
Целью гомоморфной фильтрации является ослабление мультипликативной
∧ помехи путем отыскания так называемой оценки изображения Lñ ( x, y ). При гомоморфной фильтрации искаженное изображение, представленное распределением яркости на плоскости
L(x,y), вначале логарифмируется, при этом мультипликативная помеха, как это видно из написанной ниже формулы, преобразуется в
аддитивную
ln  L ( x, y )  =+
ln ( k ) ln  E ( x, y )  + ln rñ ( x, y )  .
Поскольку изменение освещенности с изменением координат x,
y, как правило, происходит медленно, основная энергия пространственного спектра функции E(x,y) оказывается сосредоточенной в
области низких пространственных частот. Для распределения коэффициентов отражения в передаваемой сцене rс(x,y), напротив, характерно наличие резких изменений на световых границах, что делает ее пространственный спектр широкополосным. Это отличие в
пространственных спектрах функций E(x,y) и rс(x,y), которое также
имеет место и в логарифмах этих функций, используется для ослабления помехи путем линейной фильтрации функции ln[L(x,y)].
Заключительный шаг алгоритма гомоморфной фильтрации состоит в антилогарифмировании, в результате
которого находится
∧
оценка неискаженного изображения Lñ ( x, y ). На рис.6.1 представлена последовательность этапов выполнения гомоморфной фильтрации.
Обычно для иллюстрации результата применения метода гомоморфной фильтрации в литературе приводят изображения, показанные на рис. 6.2 [6, 7].
На этих изображениях хорошо видно, что ранее неразличимые
детали, находящиеся внутри затемненного помещения, становятся
хорошо различимыми в результате гомоморфной фильтрации. Однако этот метод не всегда дает такие эффектные результаты. В тех
случаях, когда изображение содержит небольшие области, яркость
которых сильно отличается от яркости остальной его части, на изо-
L(x,y)
Логарифмирование
Линейная
фильтрация
^
Антилогариф- Lс (x,y)
мирование
Рис. 6.1. Этапы гомоморфной фильтрации
77
а)
б)
Рис. 6.2. Гомоморфная фильтрация изображения:
а – исходное (искаженное) изображение;
б – это же изображение, но после гомоморфной фильтрации
бражении в результате гомоморфной фильтрации возникают ореолы. В этих случаях гораздо лучшие результаты дают методы, в которых применена билатеральная фильтрация [1].
6.2. Коррекция световых характеристик системы
и проблема разрежения шкалы уровней квантования
Динамический диапазон изменения яркости в изображаемых
сценах, как правило, существенно больше динамического диапазона, который может быть воспроизведен в изображениях. В связи с
этим при съемке изображений в них неизбежно вносятся искажения, которые выражаются в ограничении динамического диапазона как в области темных полутонов, так и в области светлых полутонов. Так как динамический диапазон зрительной системы человека,
адаптированной к яркости наблюдаемой сцены, также ограничен,
то при правильном выборе воспроизводимого интервала яркости на
изображении эти искажения в большинстве случаев оказываются
незаметными и не снижают качества изображения.
Кроме отмеченных искажений изображающие системы и их отдельные звенья, такие как: фотографические системы, устройства
отображения и некоторые другие, вследствие нелинейности световых характеристик вносят искажения, которые приводят к перераспределению градаций яркости внутри воспроизводимого на изображении динамического диапазона яркости. Искажения этого типа
проявляются по-разному на черно-белых и на цветных изображени78
ях. Перераспределение градаций яркости внутри воспроизводимого интервала на черно-белых изображениях приводит к сдвигу их
тональности. Если световая характеристика носит насыщающийся
характер этот сдвиг будет в область светлого, при этом изображение
в целом становится более светлым. Если же крутизна световой характеристики возрастает с увеличением яркости, сдвиг будет в область темного, в результате чего в целом изображение становится
более темным. В результате таких сдвигов на изображении происходит потеря малоконтрастных деталей: в первом случае в области
светлой, во втором случае в области темной части динамического
диапазона. Кроме того, в зависимости от характера изменения тональности изображение воспринимается либо как более контрастное, либо как более вялое. Эта особенность восприятия используется на практике. В системах черно-белого телевидения, в черно-белом кино и в черно-белой фотографии в световые характеристики с
этой целью преднамеренно вводится небольшая нелинейность, которая влияет на распределение яркости в изображении.
Иначе проявляется перераспределение градаций интенсивности
в цветных изображениях. Даже небольшая нелинейность световых
характеристик в цветных изображениях приводит к неправильному воспроизведению как насыщенности, так и цветового тона изображаемых объектов. В этом случае желтые цвета могут воспроизводиться как коричневые, а телесные цвета могут превратиться
в бордово-красные. Поэтому световые характеристики изображающих систем, предназначенных для передачи и воспроизведения
цветных изображений, стремятся сделать линейными путем коррекции составляющих их звеньев.
Кратко рассмотрим световые характеристик типичных звеньев
изображающих систем.
Фотоматериалы. В фотографии аналогом световой характеристики, устанавливающей связь между яркостью элемента фотографируемой сцены и яркостью этого элемента на изображении, является сенситометрическая характеристика, которая представляет зависимость оптической плотности данного элемента D от экспозиции Et
D = f ( Et ),
где E – освещенность элемента на поверхности фотоматериала, t –
время экспозиции. Оптическая плотность D и коэффициент пропускания проявленного фотоматериала τ связаны между собой соотношением
D=
− lg τ.
79
В общем случае зависимость коэффициента пропускания элемента позитивного изображения τ и от его экспозиции Et нелинейная и на ограниченном интервале экспозиций она может быть аппроксимирована степенной функцией
γ
τïîç =
β ( Et ) ,
где β и γ – коэффициенты, зависящие от типа фотоматериала и режима фотопроцесса. Для сохранения правильной цветопередачи
при получении цветных изображений γ должно равняться единице.
В черно-белой фотографии и черно-белых кинофильмах для создания иллюзии повышенной контрастности, так называемой сочности изображений значения, γ выбирали равными 1,3…1,4.
Преобразователи изображения в видеосигнал. В современных
преобразователях изображения в видеосигнал обычно используют датчики на основе приборов с зарядовой связью (видеокамеры,
планшетные сканеры) и фотоэлектронные умножители (барабанные сканеры). Световые характеристики этих приборов в пределах
рабочего диапазона линейны.
Воспроизводящие устройства. Наиболее распространенными
воспроизводящими устройствами, преобразующими видеосигнал в
изображение, в настоящее время являются жидкокристаллические
панели. Световые характеристики жидкокристаллических панелей
носят S-образный характер.
В современных телевизионных системах и мониторах источником нелинейных искажений, вызывающих перераспределение градаций яркости в рабочем диапазоне, являются воспроизводящие
устройства. Для коррекции этих искажений используют так называемые гамма-корректоры – устройства, амплитудная характеристика которых имеет вид обратный виду амплитудной (световой)
характеристики воспроизводящего устройства.
Для коррекции световых характеристик системы необходимо
вначале произвести измерения характеристик для каждого из ее
звеньев, а затем найти амплитудную характеристику гамма-корректора. Поясним сказанное на примере коррекции световой характеристики системы, предназначенной для передачи черно-белых
изображений, упрощенная функциональная схема которой приведена на рис. 6.3. Будем считать, что световые характеристики и датчика сигнала изображения, и воспроизводящего устройства могут
быть нелинейными.
Для измерения световых характеристик системы необходимо использовать тестовое изображение, включающее в себя градацион80
Датчик сигнала
изображения
Гаммакорректор
Воспроизводящее
устройство
Рис. 6.3. Функциональная схема системы
ный клин, измеритель величины сигнала изображения (например,
калиброванный осциллограф) и микрофотометр для измерения яркости выбранной ступеньки градационного клина на экране воспроизводящего устройства. Измерения начинают с измерения световой
характеристики датчика сигнала изображения. При ее измерении
для каждой ступеньки градационного клина, яркость которой обозначим через Lнn, где n – номер ступеньки, находят соответствующую ей величину сигнала en и данные записывают в таблицу соответствия (табл. 6.1). После этого измеряют световую характеристику
воспроизводящего устройства. При измерении световой характеристики воспроизводящего устройства устанавливают такие значения
сигнала на его входе eкn, при которых яркость его экрана Lрn будет
равна или прямо пропорциональна значениям яркости соответствующих ступенек градационного клина Lнn.
После заполнения таблицы соответствия амплитудная характеристика гамма-корректора определится путем прочтения ее 2-й и
3-й строк
eên = f ( en ).
В тех случаях, когда не требуется высокая степень точности корректировки сквозной световой характеристики, можно использовать упрощенный метод. В этом методе используется замечательное свойство зрения, заключающееся в том, что разностный порог
определяется яркостью адаптации. Благодаря этому свойству при
наблюдении градационного клина на фоне большого поля, имеющего яркость равную яркости самой яркой его ступеньки, пороговая
Таблица 6.1
Таблица соответствия
1
Lнn
2
en
3
eкn
4
Lрn
81
разность будет одинакова и для светлых, и для темных участков,
если геометрические размеры клина невелики. В этом случае критерием, по которому можно судить о линейности световой характеристики, является одинаковая различимость и светлых, и темных
ступенек градационного клина.
В цифровых изображениях яркость пикселей, на которые они
разлагаются, может принимать не любые, а лишь строго определенные значения, соответствующие уровням квантования. Обычно
число уровней яркости, на которое квантуются изображения, т. е.
число разрешенных градаций яркости, в случае черно-белых изображений составляет 256, а в случае цветных по 256 на каждый из
3-х основных цветов, при этом расстояния между соседними уровнями квантования на выходе аналого-цифрового преобразователя
(АЦП) одинаково. При преобразовании цифровых изображений
аналоговыми устройствами с нелинейной световой характеристикой, например, жидкокристаллической панелью, расстояния между соседними уровнями квантования в изображениях изменяются,
т. е. происходит перераспределение градаций яркости внутри динамического диапазона изображения, число же самих уровней при
этом сохраняется.
Иначе обстоит дело, если цифровые изображения преобразуются
цифровым устройством, например, цифровым гамма-корректором,
разрядность представления яркости у которого одинакова на входе
и на выходе. В этом случае наряду с изменением расстояния между
уровнями квантования на его выходе, часть квантовых уровней теряется. Объясняется это тем, что вследствие сближения градаций
яркости в части динамического диапазона в один и тот же квантовый интервал выходного сигнала попадает несколько градаций яркости, соответствующих различным уровням квантования входного сигнала. Рис. 6.4, на котором приведена амплитудная характеристика цифрового гамма-корректора, поясняет сказанное.
Уменьшение количества используемых уровней квантования в
выходном сигнале приводит к разрежению шкалы воспроизводимых градаций яркости на изображении и может привести к появлению на изображении ложных контуров. Для того чтобы этого избежать, необходимо входной сигнал квантовать на большее число
уровней, т. е. использовать для представления входного сигнала код
большей разрядности. Это обстоятельство учитывается в современных профессиональных цифровых камерах.
Реализация цифрового гамма-корректора при компьютерной обработке изображения проста. С этой целью создается одномерный
82
k вых
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9 10 1112 13 14 15 k вх
Рис. 6.4. Амплитудная характеристика
цифрового гамма-корректора, здесь kвх и kвых – номера квантовых
уровней на входе и выходе гамма-корректора
массив чисел, в который записывается амплитудная характеристика гамма-корректора. При этом номера уровней квантования входного сигнала рассматриваются как номера (индексы) элементов массива, а числа, записанные в массив, – как скорректированные значения сигнала.
6.3. Медианная и ранговая фильтрация изображений
Медианная фильтрация была предложена Дж. Тьюки в 1971 г.
Медианная фильтрация реализуется путем сканирования изображения окном, перекрывающим нечетное число пикселей N, с последующим ранжированием значений последовательности яркости
пикселей, оказавшихся в окне, и записи в массив профильтрованного изображения значения, равного медиане этой последовательности. Медианой последовательности значений яркости L1, L2, …LN
является тот ее элемент, для которого (N-1)/2 элементов меньше или
равны ему по величине и (N-1)/2 элементов больше или равны ему по
83
величине. Поясним сказанное численным примером. Пусть в окно
медианного фильтра попала последовательность пикселей изображения, яркость которых определяется числами: 97, 122, 121, 90, 99,
201, 100, 111, 120. В приведенном примере медианой этой последовательности будет число 111, поскольку после ее ранжирования оно
займет в ней центральное положение: 90, 97, 99, 100, 111, 120, 201,
122, 121.
Медианная фильтрация не гарантирует того, что в результате ее
применения на изображении будут подавлены именно помехи, а полезные изменения яркости сохранятся. Так, в рассмотренном примере значение 201 подавляется, не зависимо от того, обусловлено ли
оно действием помехи или же является значением яркости пикселя
в исходном изображении.
На рис. 6.5 приведены примеры фильтрации трех последовательностей дискретных отсчетов яркости изображения одномерным медианным и одномерным линейным фильтрами. В обоих случаях
были использованы пятиэлементные окна, при этом все отсчеты имИсходная
последовательность
Медианный фильтр
Линейный фильтр
Рис. 6.5. Сравнение результатов фильтрации
медианным и линейным фильтрами
84
пульсной характеристики линейного фильтра были одинаковыми и
равными 1/5.
Рассмотрение диаграмм, представленных на рис. 6.5, показывает,
что медианный фильтр в отличие от линейного фильтра, не искажает
передачу ступенчатой последовательности отсчетов и в то же время эффективно подавляет импульсные последовательности, если число импульсов в последовательности не превышает половину ширины окна.
Благодаря этому свойству медианного фильтра при медианной фильтрации изображений, искаженных импульсными помехами, воспроизведение имеющихся в них контуров и резких световых границ мало
искажается при эффективном подавлении импульсных помех.
Выше были рассмотрены примеры, в которых фильтрация импульсных последовательностей осуществлялась одномерным медианным фильтром, т. е. фильтром, окно которого перекрывало на
изображении последовательность пикселей, расположенных вдоль
строки. Однако лучшие результаты при фильтрации изображений
можно получить, если использовать двумерные фильтры, т. е. фильтры, окна которых имеют протяженность в двух направлениях. На
рис. 6.6 приведены примеры двумерной медианной фильтрации
изображения квадрата фильтрами, окна которых имели прямоугольную и крестообразную формы.
Исходное
изображение
Профильтрованное
изображение
Профильтрованное
изображение
Крестообразное
окно
Квадратное
окно
Рис. 6.6. Примеры двумерной медианной фильтрации
с применением крестообразного и квадратного окон
85
В приведенных примерах размеры окон составляли соответственно 3×3 и 5×5 отсчетов. Рассмотрение рис.6.6 показывает, что
медианный фильтр, имеющий прямоугольное окно, сглаживает
углы квадрата на профильтрованном изображении, в то время как
медианный фильтр, имеющий крестообразное окно, оставляет их
без изменения.
При определении медианы последовательности отсчетов f(i), где
i – номер отсчета, выполняются следующие соотношения
med kf ( i )  = k med f ( i )  ,
med k + f ( i )  =
k + med f ( i )  ,
однако, медиана суммы двух произвольных последовательностей
f(i), и g(i) не равна сумме их медиан, т. е.
med f ( i ) + g ( i )  ≠ med f ( i )  + med  g ( i )  .
Поскольку медианная фильтрация является эвристическим методом обработки изображений, то не представляется возможным
разработать методику синтеза «оптимального медианного фильтра», т. е. определения размеров и формы окна, обеспечивающих
наилучшие результаты в рамках какого-либо критерия качества
при заданных характеристиках изображений и помех. Поэтому параметры медианного фильтра (размеры и форма окна) приходится
определять опытным путем. При решении этой задачи применяют
различные стратегии. Одна из них заключается в том, что сначала
берут окно крестообразной формы наименьших размеров, т. е. 3×3 и
выполняют пробную фильтрацию изображения. Если при этом искажения изображения, обусловленные фильтрацией, оказываются незначительными, а уровень остаточной помехи на изображении
остается большим, размер окна увеличивают до 5×5 и повторяют
фильтрацию. Таким образом, находят приемлемые размеры окна
медианного фильтра.
Другая стратегия состоит в реализации каскадной медианой
фильтрации изображения с применением окон с фиксированными
или изменяемыми размерами. При этом те области изображения,
которые остаются без изменения после однократной обработки медианным фильтром, не изменятся и после его повторной обработки,
а те области, в которых протяженность импульсной последовательности менее половины размеров окна, будут подвергаться изменениям после каждого цикла обработки.
86
В качестве примера на
рис. 6.7, а, б, показаны исходное изображение, искаженное
импульсной помехой, и это же
изображение, но после его медианой фильтрации фильтром
с крестообразным окном размерами 5×5.
Рассмотрение рис. 6.7, б показывает, что применение медианной фильтрации позволило почти полностью устранить
на изображении импульсную
помеху, не исказив практически само изображение. Для
сравнения на рис. 6.7, в показано изображение, полученное
из изображения 6.7, а после
его линейной фильтрации с использованием прямоугольной
импульсной характеристики с
размером окна 5×5 пикселей.
Сравнение рисунков 6.7, б, в
показывает, что в последнем
случае имеет место сильное
размытие границ на изображении, а также неполное удалении помехи.
Распространение
процедуры медианной фильтрации
на случай обработки цветных
изображений очевидно и пояснений не требует.
Отметим, что медианный
фильтр может быть не только
одномерным или двумерным,
но также и трехмерным, используя в качестве третьего
измерения время. На рис. 6.8
в качестве примера показано крестообразное окно трех-
а)
б)
в)
Рис. 6.7. Сравнение результатов
медианной и линейной фильтрации
изображения: а – изображение с
импульсной помехой; б – изображение
после медианной фильтрации;
в – изображение после линейной
фильтрации
87
Рис. 6.8. Крестообразное окно
трехмерного медианного фильтра
мерного медианного фильтра. Применение трехмерной медианной
фильтрации расширяет ее возможности, поскольку позволяет подавлять импульсные помехи, воздействующие на движущееся изображение.
Рассмотрим теперь кратко алгоритм ранговой фильтрации. Алгоритм ранговой фильтрации отличается от алгоритма медианной
фильтрации лишь тем, что в массив профильтрованного изображения записывается значение яркости отсчета, положение которого
в ранжированной последовательности r предварительно задается
пользователем в диалоге. Из этого следует, что медианная фильтрация является частным случаем ранговой фильтрации для случая,
когда r = N/2+1. Дополнительная степень свободы при выборе параметров рангового фильтра в ряде случаев позволяет достичь несколько лучших результатов.
В заключение данного раздела заметим, что сделанный нами обзор методов нелинейной обработки изображений, безусловно, не полон. Более подробно этот вопрос рассмотрен в [1], кроме того, методы нелинейной обработки будут обсуждаться в следующем разделе,
посвященном сегментации изображений.
88
7. СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ
7.1. Понятие сегментации изображений и ее цели
Целью сегментации изображений является выделения из них, в зависимости от решаемой задачи, отдельных деталей, областей или изображаемых объектов. Областями применения этого вида обработки
являются задачи, связанные с анализом и опознаванием изображений
[1]. Важное значение сегментация имеет для реализации систем технического зрения, направленных на то, чтобы автоматически распознавать реальные объекты на получаемых изображениях, определять
характеристики и координаты этих объектов в пространстве. Типичным примером использования методов сегментации изображений на
отдельные области может служить сегментация изображений, полученных с космических аппаратов, осуществляющих дистанционное
зондирование Земли. Применение этих методов позволило прогнозировать урожаи зерновых в районах земного шара, являющихся их основными производителями, контролировать лесное хозяйство, городское землепользование, а также использовать в других областях человеческой деятельности. Другим примером сегментации является
выделение изображений актеров, снимаемых на однородном цветном
фоне, обычно синем, при реализации рир-проекции.
Сегментация может быть необходима, во-первых, для того, чтобы разделить изображение на части, более удобные для дальнейшего анализа, а во-вторых, для изменения формы описания изображения (речь идет о преобразовании пикселей изображения в высокоуровневые структуры, например, обеспечивающие эффективную
организацию операций анализа изображений [8]).
При сегментации изображения должны выполняться следующие условия.
− В результате сегментации изображение разделяется на ряд областей таким образом, чтобы каждый его пиксель входил бы в одну
из областей.
− Области, которые получаются в результате сегментации, не
должны пересекаться, другими словами, каждый пиксель изображения может входить только в одну область.
− Все пиксели, отнесенные к одной области, должны обладать одними и теми же свойствами. Например, яркость или цвет пикселей,
отнесенных к одной области, должны лежать в пределах, определенных для данной области.
89
Алгоритмы сегментации изображений обычно используют следующие базовые свойства изображения:
− однородность выделяемых областей в отношении признака, по
которому выполняется сегментация, например, однородность по яркости, по цвету, или по какому-нибудь другому признаку;
− наличие скачкообразного изменения какого-нибудь признака,
например, скачка яркости, отделяющего одну область изображения
от другой;
− изменение во времени каких-либо характеристик изображения, обусловленных, например, его движением.
В качестве признаков, на основе которых пиксели относятся к
той или иной области сегментации, часто используют:
− яркость пикселя в случае нецветных изображений;
− цвет;
− дисперсию, а также ряд других признаков.
Следует заметить, что решению задачи сегментации уделяется
большое внимание, в течение многих лет она остается весьма актуальной и до конца не решенной. В настоящее время разработан ряд
методов сегментации изображений, некоторые из них будут рассмотрены далее, с остальными методами, такими как, например, метод
сегментации путем связывания пирамиды, метод выращивания областей, метод разделения и слияния областей, метод сегментации
на основе движения, К-метод и др., можно более подробно ознакомиться в специальной литературе, например, в [1, 8, 9, 10, 11, 12].
7.2. Обнаружение на изображении точек
и отрезков прямых линий
Для обнаружения изолированной точки изображение сканируется окном, размеры которого равны
3×3 пикселя, при этом для каждого поL1
L2
L0
ложения окна вычисляется сумма
L7
L8
L3
L6
L5
L4
Рис. 7.1. Сканирующее окно
90
=
LS 8 L8 −
− ( L0 + L1 + L2 + L3 + L4 + L5 + L6 + L7 ),
где L0, L1, L2, L3, L4, L5, L6, L7, L8 –
значения яркостей пикселей, оказавшихся в пределах окна, показанного
на рис. 7.1. Затем абсолютное значение
вычисленной суммы LS сравнивается
с порогом P. Если LS ≥ P, то считается, что на изображении обнаружена изолированная точка, в противном случае считается, что в
данной позиции изолированная точка отсутствует.
Немногим более сложной процедурой является обнаружение линий толщиной в один пиксель. Для решения этой задачи изображение также сканируется окном размером 3×3 пикселя, но при этом
вычисляется уже не одна сумма, а четыре, поскольку обнаруживаемые отрезки линий, оказавшихся в пределах окна, могут иметь четыре ориентации. Этими суммами будут
LS1= 2 ( L3 + L7 + L8 ) − ( L0 + L1 + L2 + L4 + L5 + L6 ),
LS2= 2 ( L0 + L4 + L8 ) − ( L1 + L2 + L3 + L5 + L6 + L7 ),
LS3= 2 ( L1 + L5 + L8 ) − ( L0 + L2 + L3 + L4 + L6 + L7 ),
LS4= 2 ( L2 + L6 + L8 ) − ( L0 + L1 + L3 + L4 + L5 + L7 ).
Затем необходимо выяснить, проходит ли вообще какая-нибудь
линия через центр окна, а если проходит, то какая из четырех возможных: горизонтальная, под углом к направлению строки 45°,
вертикальная или линия под углом к строке135°. С этой целью вначале абсолютные значения вычисленных сумм, сравниваются между собой, и определяется та сумма LSi , для которой выполняется
неравенство
LSi > LSj для j = 1, 2, 3, 4 при условии, что j ≠ i.
Далее абсолютное значение суммы LSi сравнивается с порогом
P. Если LSi ≥ P, принимается решение о принадлежности анализируемого пикселя, расположенного в центре окна, линии, и он каким-либо способом выделяется на изображении, в противном случае считается, что линия не проходит через центр окна. Описанная
методика может быть применена и для обнаружения линий другой
ориентации, однако при этом необходимо использовать окна больших размеров.
7.3. Обнаружение перепадов яркости
и выделение контуров на изображении
Перепады яркости на изображениях могут представлять собой
как границы объектов, так и градиентные изменения яркости, вызванные плавными изменениями освещенности, коэффициентов
91
отражения или углового положения оболочек самих объектов. При
сегментации представляют интерес перепады яркости, обусловленные границами объектов, поскольку целью сегментации, как правило, является выделение объектов на изображениях [5, 13]. Объясняется это тем, что различение семантических изображений происходит по контурам, которые являются наиболее устойчивыми
признаками изображений наблюдаемых объектов. Это обстоятельство послужило причиной широкого распространения контурных
изображений как в изобразительном искусстве, так и в технических приложениях. Изображение реальных предметов в виде контурного рисунка, как правило, не вызывает каких-либо затруднений у рисовальщика, поскольку зрительная система легко справляется с этой задачей. Вместе с тем при автоматизации этого процесса
возникают проблемы. Несмотря на то, что разработано много алгоритмов, направленных на решение этой задачи, она до настоящего
времени так и остается не решенной до конца. Рассмотрим кратко
некоторые из этих алгоритмов.
Процедура выделения контуров состоит из двух этапов. Вначале
на изображениях обнаруживаются яркостные перепады, которые
образуют контуры, а затем величина этих перепадов яркости сравнивается с порогом. Если результат сравнения превышает порог, то
считается, что этот пиксель изображения принадлежит контуру и
ему присваивается значение яркости контура Lк, в противном случае ему присваивается значение яркости фона Lф в формируемом
контурном изображении. В результате такой процедуры получается его контурный препарат. Контуры на полученном таким образом
контурном препарате обычно разорваны во многих местах, кроме
того, на нем имеются точки и штрихи, которые воспринимаются
зрительной системой как помеховый фон. На рис. 7.2 показаны: исходное изображение и его контурный препарат, на котором хорошо
заметны отмеченные дефекты.
Подбирая величину порога, можно несколько уменьшить эти неприятные артефакты, однако совсем избавиться от них не удается.
Чем выше выбран порог, тем меньше на контурном изображении будет отдельных точек и штрихов, не являющихся элементами выделяемых контуров, однако при этом в выделенных контурах увеличится количество и протяженность разрывов. Уменьшение величины порога приводит к обратной картине. Количество возникающих
на контурном изображении элементов, не принадлежащих контурам, может быть частично уменьшено путем применения предварительной фильтрации изображений либо постобработки контурных
92
а)
б)
Рис. 7.2. Изображение (а) и его контурный препарат (б)
препаратов методами логической фильтрации, но добиться их полного устранения не удается. Многочисленные попытки решить эту
задачу привели к разработке целого ряда методов, которые рассматриваются ниже.
Выделение контуров с использованием лапласиана. В рассматриваемом случае изображение сканируется окном, показанным на
рис.7.1, где L0, L1, L2, L3, L4, L5, L6, L7, L8 – значения яркостей пикселей, оказавшихся в пределах окна. На основании этих значений
вычисляется лапласиан по одной из формул, приведенных ниже
∆ ( k,n ) = 4L8 − ( L1 + L3 + L5 + L7 )
или
∆ ( k,n ) = 8L8 − ( L0 + L1 + L2 + L3 + L4 + L5 + L6 + L7 ).
В первом случае результат оказывается инвариантным к повороту на углы кратные 90°, во втором случае инвариантным к повороту на углы 45°. После этого найденное значение лапласиана ∆ ( k,n )
сравнивается с порогом P. Если это значение превышает порог, т. е.
если
∆ ( k,n ) > P,
то считается, что через центральный пиксель окна проходит контур
и ему присваивается значение яркости Lк, в противном случае считается, что пиксель принадлежит фону и ему присваивается значение яркости Lф. Вычисление лапласиана по формулам может также
93
рассматриваться как свертка исходного изображения с одной из импульсных функций
0 −1 0
−1 4 −1
0 −1 0
−1 −1 −1
или −1 8 −1 .
−1 −1 −1
Обратим внимание на то, что в рассматриваемом случае сумма
элементов импульсных функций, равна нулю.
Использование лапласиана для обнаружения перепадов яркости
делает метод выделения контуров чувствительным к шуму на изображении. Поскольку в этом отношении градиентные методы обладают преимуществом по сравнению с методом обнаружения границ
на основе вычисления лапласиана, рассмотрим некоторые из них.
Метод Робертса. При использовании этого метода изображение сканируется окном 2×2 пикселя, показанным
Lс(k, n)
Lс(k, n+ 1 )
на рис. 7.3, и для каждого положения
окна вычисляются значения Gx и Gy по
формулам
Lс (k +1, n )
Gx= Lñ ( k + 1,n + 1) − Lñ ( k,n ),
Lс (k+1, n + 1)
Gy = Lñ ( k + 1,n ) − Lñ ( k,n + 1),
Рис. 7.3. Сканирующее окно
оператора Робертса
а затем по формуле
=
G
Gx2 + Gy2
для пикселя, расположенного в k-й строке и в i-м столбце, вычисляется модуль градиента. Далее модуль градиента сравнивается с
порогом P, который подбирается экспериментально, и если выполняется условие |G|>P, пиксель считается принадлежащим контуру
и ему присваивается значение яркости Lк, в противном случае пиксель считается принадлежащим фону и ему присваивается значение яркости Lф.
Метод Превитта. В этом методе изображение сканируется окном, показанным на рис. 7.1 и для каждого положения окна вычисляются значения Gx и Gy по формулам
Gx =
Gy =
94
( L4 + L5 + L6 ) − ( L0 + L1 + L2 ),
( L2 + L3 + L4 ) − ( L0 + L6 + L7 ),
где L0, L1, L2, L3, L4, L5, L6, L7, L8 – значения яркостей пикселей,
оказавшихся в пределах окна, а затем для центрального пикселя
окна по формуле
=
G
Gx2 + Gy2
вычисляется модуль градиента. После этого модуль градиента сравнивается с порогом P, который подбирается экспериментально, и если выполняется условие |G|>P, пиксель считается принадлежащим
контуру и ему присваивается значение яркости Lк, в противном
случае пиксель считается принадлежащим фону и ему присваивается значение яркости Lф.
Метод Собела. Отличие метода Собела от метода Превитта заключается в том, что для обнаружения перепадов яркости в этом
случае применяется градиентный оператор Собела, и при вычислении модуля градиента используются формулы
Gx = ( L4 + 2L5 + L6 ) − ( L0 + 2L1 + L2 ),
Gy = ( L2 + 2L3 + L4 ) − ( L0 + 2L6 + L7 ).
Увеличение веса отсчетов яркости L1, L3, L5 и L7 при использовании оператора Собела позволило несколько уменьшить влияние
шума на результат вычисления градиента.
Метод пересечения нулевого уровня. В этом методе для обнаружения перепадов яркости применяется оператор Лапласа (лапласиан). При пересечении границы яркости оператор Лапласа проходит
через нулевое значение и меняет свой знак. Номера строки и номера
столбца, где это происходит, в методе пересечения нулевого уровня
принимаются за координаты точки, принадлежащей контуру.
Метод Канни. Метод Канни является одним из лучших методов
выделения контуров. В этом методе использованы морфологические операции. Алгоритм метода включает в себя следующие действия над изображением, из которого выделяются контуры.
− Сглаживание изображения посредством фильтрации с использованием импульсной функции, которая описывается гауссовым
законом
 x2 + y2 
1
−
−
h ( x, y ) =
exp

,

2pσ2
2σ2 

где σ – параметр, который определяет степень сглаживающего действия импульсной функции на присутствующий в изображении
шум. Чем больше σ, тем сильнее сглаживание.
95
− Нахождение градиента изменения яркости в изображении посредством вычисления квадратного корня из суммы квадратов производных яркости изображения Lс(x,y) по координатам x и y
=
G
Gx2 + Gy2 ,
∂Lñ ( x, y ) ∂x , Gy =
где Gx =
∂Lñ ( x, y ) ∂y.
− Пороговая обработка результатов вычисления градиентов в
каждой точке изображения. При этой обработке выполняется так
называемое “не-максимальное” подавление скачков яркости изображения (non-maximal suppression), в результате которого сохраняются только те значения вычисленных градиентов, которые превышают значения градиентов в двух соседних точках на изображении
по направлению градиента изображения. Другими словами, сохраняются только значения градиентов в точках максимальной крутизны изменения яркости на световых границах.
− Морфологическая обработка результатов, которые были получены на предыдущем шаге алгоритма. При этой обработке используются два порога: нижний и верхний. При формировании контуров все точки, превысившие верхний порог, сохраняются. Что же
касается точек, превысивших нижний порог, то сохраняются только те точки, которые непосредственно соседствуют с точками, превысившими верхний порог, все прочие точки исключаются из формируемого контурного изображения.
Метод Канни обеспечивает лучшее выделение контуров, чем другие рассмотренные методы, даже при наличии небольшого уровня
шума. Недостаткам этого метода является его большая сложность,
а также некорректная обработка Y-разветвлений.
Выше приведено описание алгоритма на примере аналогового
изображения. В случае выделения контуров из цифрового изображения методом Канни модуль градиента необходимо вычислять по
одной из формул, которые приведены в начале этого подраздела.
На рис. 7.4 для сравнения приведены исходное изображение (а)
и его контурные препараты (б) – (е), полученные посредством описанных методов. Сравнение представленных на рис. 7.4 контурных
препаратов убеждает, что в отличие от препарата, полученного посредством метода Канни, на всех других имеются множественные
разрывы контуров, а также отдельные точки и штрихи.
В заключение заметим, что нахождение контуров применительно к цветному изображению не представляет каких-либо проблем. В
этом случае контуры могут определяться как для яркостного ком96
а)
б)
в)
г)
д)
е)
Рис. 7.4. Изображение и его контурные препараты: а – исходное
изображение; контурные препараты, полученные методами:
б – Робертса; в – Превитта; г – Собела; д – пересечения нулей; е – Канни
97
понента, так и для компонентов цвета R, G и B, используя описанные выше методы, в зависимости от требований решаемой задачи.
98
8. ФОРМАТЫ ГРАФИЧЕСКИХ ФАЙЛОВ НЕПОДВИЖНЫХ
ИЗОБРАЖЕНИЙ И ГРАФИЧЕСКИЕ РЕДАКТОРЫ
8.1. Моды представления графической информации
в растровом режиме
Наиболее распространенными модами представления изображений являются следующие.
Битовый формат. Эта мода применяется для представления чертежей, контурных рисунков и других двухградационных изображений. При использовании этой моды на представление одного пикселя изображения расходуется 1 бит, что позволяет воспроизводить
только два уровня яркости: черный и белый. Малая затрата двоичных единиц кода на представление изображений является достоинством этой моды.
Полутоновая (градации серого). Эта мода применяется для представления полутоновых черно-белых, т. е. не цветных, изображений, например, фотографий. При использовании этой моды на представление одного пикселя изображения, как правило, затрачивается 8 бит, благодаря чему оказывается возможным воспроизводить
на изображении 256 градаций яркости в интервале от 0 до 255. Нулевой градации соответствует уровень черного, а 255-й – уровень белого. Имеется также вариант этой моды, при котором на представление одного пикселя затрачивается 16 бит.
Палитровая (Индексированные цвета). Эта мода применяется
для представления цветных изображений, цветовая палитра которых ограничена 256 цветами, при этом на представление одного пикселя изображения затрачивается только 8 бит. В настоящее время эта
мода применяется в интернете. Особенностью этой моды является то,
что каждому цвету присвоен свой номер (индекс). При этом каждому пикселю изображения, в зависимости от его цвета, присваивается значение индекса. Файл, в который сохраняется индексированное
изображение, включает в себя также палитру цветов, которая представляет собой массив чисел, где для каждого значения индекса приведены значения R, G и B компонентов цвета. Поскольку реальные
цветные изображения обычно содержат больше чем 256 цветов, то перед представлением в этой моде их цветовое содержание приводится
к палитре из 256 цветов путем специальной обработки.
Полноцветная (RGB). В настоящее время эта мода широко применяется для представления цветных изображений. При исполь99
зовании этой моды на представление одного пикселя изображения
как правило затрачивается 24 единицы двоичного кода, т. е. три
байта. При этом один байт затрачивается на представление R компонента, один на представление G компонента и один на представление B компонента. Не трудно сосчитать, что при этом воспроизводится более 16 миллионов цветов (точнее, цветовых комбинаций),
что обеспечивает хорошее представление цвета в цветном изображении. Предусмотрен также вариант этой моды, при котором на представление одного пикселя затрачивается 48 бит.
Кроме перечисленных мод применяются моды для представления изображения в других цветовых моделях, например, следующие.
CMY. В этой моде на представление одного пикселя расходуется
три байта. Переход в эту моду, которая представляет изображение в
цветах дополнительных к цветам R, G, B, из моды RGB осуществляется по формулам
=
C 255 − R, =
M 255 − G, =
Y 255 − B,
где С, M, Y, R, G, B – интенсивности соответственно голубого, пурпурного, желтого, красного, зеленого и синего компонентов, представленных номерами квантовых уровней при максимальном значении 255. Вследствие ряда технологических проблем, возникающих при печати изображений на бумажный носитель, эта мода
обычно самостоятельно не применяется.
CMYK. Эта мода применяется для печати цветных изображений
на бумажный носитель. При использовании этой моды на представление одного пикселя изображения обычно расходуется 4 байта.
Три байта расходуется на представление цветовых компонентов С,
M, Y и один байт – на представление так называемого компонента
ключевого черного цвета K. Предусмотрен вариант этой моды, при
котором на представление одного пикселя затрачивается 8 байт.
8.2. Форматы графических файлов неподвижных изображений
В настоящее время разработано большое разнообразие форматов
записи графических изображений. Часть из них предназначена для
записи изображений в растровом представлении, другая – в векторном.
Само понятие формата предполагает определенную структуру
построения графических файлов. Типичная структура графического файла включает в себя ряд обязательных элементов. Рассмо100
трим ее на примере формата GIF (Graphics Interchange Format). В
структуру этого формата входят заголовок, блок данных и признак
конца файла. В заголовке приводится информация, которая позволяет правильно прочитать записанное в файл изображение, а именно, формат файла и номер версии, например, GIF 89a, количество
двоичных единиц на пиксель, глобальная таблица цветов, если она
присутствует (это необязательный элемент) и т. д. В блоке данных
определены размеры изображения в пикселях, использование режима чередования строк, использование глобальной либо локальной таблицы цветов, если она используется, а также собственно
данные. Если в одном файле содержатся несколько изображений, а
данный формат допускает такую возможность, что удобно для создания анимированных изображений, то независимые друг от друга
блоки данных размещаются последовательно.
8.2.1. Форматы записи неподвижных изображений
в растровом представлении
Используемые в настоящее время форматы записи растровых
изображений различаются между собой такими важными характеристиками, как количество двоичных единиц, расходуемых на пиксель, наличием или отсутствием сжатия, методом сжатия, а также
рядом особенностей, которые играют существенную роль, когда
речь идет о выборе формата при решении конкретной практической
задачи, например, размещения графики в World Wide Web. К таким
особенностям относятся: доступность прозрачности фона, наличие
режима чередования строк, возможность хранения нескольких изображений в одном файле и т. д. Рассмотрим кратко некоторые характеристики наиболее часто используемых форматов.
Windows BitMap. Файлы данного формата имеют расширение
.bmp. Этот формат поддерживает 256 цветов, а также 16-битные и
24-битные (True Color) цвета при неограниченном размере изображений. В данном формате изображения могут быть сохранены как
без сжатия, так и с использованием метода сжатия без потерь RLE.
При использовании метода сжатия RLE величина сжатия оказывается небольшой, поэтому файлы получаются больших размеров.
Этот формат не рекомендуется использовать в мультимедиа приложениях, но он удобен для обмена данными между различными приложениями Windows. Формат Windows BitMap используется во всех
графических редакторах.
PCX. Это один из старых, но широко применяемых форматов хранения растровых изображений. Файлы этого формата имеют расширение
101
.pcx. Версии этого формата поддерживают 256 цветов, а также 24-битные цвета при максимальном размере изображений 64000×64000 пикселей. В этом формате применен метод сжатия изображений без потерь
RLE. Формат используется практически во всех графических редакторах, предназначенных для работы с растровыми изображениями.
Adobe Photoshop. Этот формат файлов растровых изображений
был специально разработан для редактора Adobe Photoshop. Файлы
этого формата имеют расширение .psd. Формат поддерживается как
приложениями для Macintosh, так и приложениями для Windows.
Его особенностью является то, что он позволяет сохранять изображения с многослойной структурой. Максимально допустимый размер изображения в этом формате составляет 30000×30000 пикселей. Формат поддерживает 24-битные цвета, в нем применяется
метод сжатия без потерь RLE и в настоящее время он широко применяется в коммерческой графике.
Kodak Photo CD. В настоящее время фактически имеется пять
различных типов форматов изображений Photo CD: Master Photo
CD, Pro Photo CD, Print Photo CD, Catalog Photo CD, Portfolio Photo
CD, каждый из которых удобен для различного набора приложений. Файлы записи растровых изображений в этих форматах имеют
расширение .cd и поддерживаются всеми операционными системами. Эти форматы позволяют сохранять изображения, максимальный размер которых составляет 4096×6144 пикселей при 24-битной
глубине цвета. Форматы используются для сохранения фотографических изображений.
Graphics Interchange Format. Этот формат известный как формат GIF, о котором упоминалось выше, используемый для записи
растровых изображений разработан CompuServe Inc. Файлы этого
формата имеют расширение .gif. Данный формат поддерживается
приложениями, работающими в операционных системах MS-DOS,
Macintosh, UNIX, Windows, Amiga и пр. Максимальный размер изображений, который может быть сохранен в этом формате, составляет 64000×64000 пикселей при 256 цветовой палитре. В этом формате
используется метод сжатия без потерь LZW, который обеспечивает
сжатие изображения около двух раз и обеспечивает достаточно высокое быстродействие, приемлемое при просмотре сжатых файлов.
Этот формат поддерживает использование так называемой прозрачности фона (transparency) и режим чередования строк, что удобно
при работе с графикой в интернете.
JPEG. Формат, разработанный организацией Joint Photographic
Experts Group для сохранения фотографических изображений.
102
Файлы этого формата поддерживаются приложениями для всех
операционных систем и имеют расширение .jpg. Максимальный
размер изображений, сохраняемых в этом формате, составляет
64000×64000 пикселей при 24-битовой глубине цвета. В этом формате использован метод сжатия с потерей информации, который обеспечивает высокую степень сжатия ценой некоторой потери качества восстанавливаемых изображений. При сохранении изображений в этом формате предусмотрена возможность выбирать степень
сжатия в зависимости от требований к качеству восстановленного
изображения. Данный формат применяется не только для сохранения, но и для обмена данными, а также в интернете.
Fractal Image Format. Файлы этого формата имеют расширение
.fif и позволяют сохранять изображения в 24-битных цветах. В этом
формате использован фрактальный метод сжатия изображений.
Данный метод обеспечивает очень высокую степень сжатия изображений, однако, как и во всех методах сжатия с потерями, достигается это за счет некоторого снижения их качества при восстановлении. Особенностью этого формата является также очень низкая
скорость сжатия. В настоящее время формат Fractal Image Format
сравнительно мало распространен.
Вейвлет Image Files. Файлы данного формата имеют расширение
.wif и позволяют хранить изображения в 24-битных цветах. В этом
формате использован метод сжатия изображений, при реализации
которого применяется вейвлет-преобразование. В этом формате
обеспечивается более высокая степень сжатия изображения чем в
формате JPEG. Как и во всех методах сжатия с потерями, в методе
сжатия который применен в этом формате высокая степень сжатия
обеспечивается также ценой некоторой потери качества восстанавливаемых изображений. Однако, в данном случае качество восстанавливаемых изображений выше, чем при использовании формата
JPEG при одинаковых степенях сжатия. При сохранении изображений в этом формате также предусмотрена возможность выбирать
степень сжатия в зависимости от требований к качеству восстановленного изображения. Файлы этого формата характеризуются более высокой скоростью просмотра, чем при использовании формата
JPEG. В настоящее время этот формат записи изображения применен в графическом редакторе Corel Photo-Paint.
Portable Network Graphics. Данный формат файлов растровых
изображений был разработан для обмена графическими данными.
Файлы этого формата имеют расширение .png. Формат поддерживает до 48 бит на пиксель, изображения в нем сохраняются с исполь103
зованием метода сжатия без потерь LZW, поэтому величина сжатия
оказывается небольшой, а, следовательно, получаются файлы сравнительно больших размеров. Формат допускает хранение изображений с прозрачным фоном. В настоящее время этот формат поддерживается все большим количеством приложений и используется
для размещения графики в интернете.
Targa. Файлы этого формата имеют расширение .tga. Данный
формат поддерживается приложениями, которые работают в операционных системах MS-DOS, Windows, UNIX, Atari, Amiga и др. Формат поддерживает 256 цветов, а также 16-битные и 24-битные цвета
при практически неограниченном размере изображений. В формате
Targa применен метод сжатия изображений без потерь RLE, а, следовательно, величина сжатия оказывается небольшой, и поэтому
получаются файлы больших размеров. Данный формат используется в приложениях для рисования, графики и создания изображений. Этот формат по-прежнему является популярным при обмене
файлами между различными платформами.
TIFF (Tagged Image File Format). Это универсальный формат,
наиболее важным достоинством которого является переносимость
на разные платформы. Файлы, записанные в данном формате, имеют расширение .tif. Поддерживает формат 24-битные RGB и 32-битные CMYK цвета. В этом формате по выбору можно использовать
либо метод сжатия без потерь RLE, либо метод сжатия, также без
потерь, LZW. Формат позволяет сохранять сопроводительные подписи для идентификации изображений. В настоящее время он широко применяется в издательских системах.
Для работы с растровой графикой наиболее популярными является платное приложение Adobe Photoshop, а также бесплатные
GIMP, Paint.NET, PixBuilder Studio, Photoscape.
8.2.2. Форматы записи неподвижных изображений
в векторном представлении
Как отмечалось в п.1.4.2, файлы векторных изображений содержат наборы инструкций, представленных формулами, по которым
строятся контуры. Поскольку изображения в векторном представлении должны отображаться на мониторе, являющемся растровым
(матричным) устройством, то для создания изображения векторного формата используются преобразователи математического описания графических примитивов (линий, многоугольников, окружностей, эллипсов, кривых Безье и т. д.) в растровое изображение.
При этом объем данных, занимаемых описательной частью графи104
ческого примитива, не зависит от реальной величины объекта. Это
определяет важное достоинство векторной графики, рассмотренное
в п. 1.4.2, – компактность хранения изображений в векторном представлении.
Для работы с векторной графикой наиболее популярными являются платные программы CorelDRAW, Adobe Illustrator, а также бесплатные Inkscape, DrawPlus Starter Edition, OpenOffice.org
Draw. Векторные графические редакторы позволяют изменять размер объектов, перемещать и вращать их, выполнять ряд аффинных
преобразований, булевых операций и т. д., а, кроме того, комбинировать примитивы в более сложные объекты.
К наиболее часто используемым форматам записи неподвижных
изображений в векторном представлении можно отнести следующие:
− AI, создаваемый в приложении Adobe Illustrator;
− CDR, являющийся внутренним форматом векторного редактора CorelDRAW;
− CMX формат графических программ корпорации Corel
(CorelDRAW, Corel Presentations, Corel Paint Shop Pro), предназначенный для передачи рисунков между разными программами; он
поддерживается, начиная с версии CorelDraw 6;
− WMF – формат векторных и растровых изображений, обычно
используемый для обмена данными с Windows-приложениями; расширенной и дополненной версией этого формата является формат
EMF.
− SVG (от англ. Scalable Vector Graphics – масштабируемая векторная графика) – язык разметки масштабируемой векторной графики, предназначенный для описания двумерной векторной и
смешанной векторно-растровой графики в формате XML. Поддерживает как неподвижную, так и анимированную интерактивную
графику. SVG является открытым стандартом. 8.3. Понятие каналов и слоев в графических редакторах
Каналы. Как уже отмечалось, изображения в памяти компьютера записываются в виде массивов чисел. В случае, если изображение является двухградационным, полутоновым черно-белым, или
с индексированными цветами, оно представляется двумерным массивом чисел. Для представления цветного изображения в цветовой
модели RGB требуется три двумерных массива для того, чтобы записать в них информацию об интенсивности красного, зеленого и
105
синего компонентов каждого пикселя. Еще больший объем памяти необходим для записи цветного изображения, представленного
в цветовой модели CMYK, а именно: четыре двумерных массива с
тем, чтобы записать данные о голубом (cyan), пурпурном (magenta),
желтом (yellow) и ключевом черном (black) цветах. При разработке
графических редакторов, в частности редактора Adobe Photoshop,
было введено понятие цветовых каналов обработки изображения,
под которыми понимается не что иное, как возможность независимого доступа к каждому из компонентов цветного изображения (например, красному, синему или зеленому в модели RGB). Цветовые
каналы служат для хранения данных об интенсивностях цветовых
компонентов каждого пикселя. В случае черно-белых изображений
имеется только один канал, который служит для хранения информации о яркости. Таким образом, для представления полутонового
черно-белого изображения необходим всего один канал, в то время
как для представления цветного изображения в цветовой модели
CMYK – четыре.
При создании изображения в любой цветовой модели цветовые
каналы создаются автоматически. Все изменения, вносимые в изображения при их редактировании, фиксируются в цветовых каналах. Помимо цветовых каналов некоторые графические редакторы,
в частности, Adobe Photoshop, позволяют создавать в файле изображения (за исключением случая черно-белого двухградационного
изображения) дополнительные каналы, которые называются альфа-каналами. Альфа-каналы используются для хранения и редактирования масок, которые предназначены для защиты определенной части изображения от воздействия рисующих инструментов и
фильтров. Кроме цветовых и альфа-каналов существуют также так
называемые плашечные каналы, которые определяют дополнительные формы для печати при помощи плашечных красок.
В настоящее время изображение при обработке его в редакторе
Adobe Photoshop может включать более 56 каналов. Чем больше каналов будет содержать файл изображения, тем большим будет его
размер.
Изобразительные слои изображения. Под слоями понимаются
прозрачные изображения, которые, будучи наложенными друг на
друга, подобно изображениям, нарисованным на прозрачных кальках, создают результирующее изображение, вид которого зависит
от прозрачности слоев. При создании исходного изображения, например, путем сканирования фотографии, образуется всего один
слой, который называется задним планом (Background). На этот
106
слой можно наложить ряд дополнительных слоев, что создает большие удобства при редактировании изображений. Со слоями оперируют редакторы и растровой, и векторной графики.
Рассмотрим более подробно принципы работы со слоями изображения, создаваемого в каком-либо редакторе растровой графики,
например, в Adobe Photoshop, где слой представляет собой обыкновенное растровое изображение. Обратим внимание на то, что задний
план и накладываемые на него слои могут быть представлены в разных цветовых моделях (например, задний план может быть представлен в цветовой модели RGB, а слой – в цветовой модели CMYK),
кроме того они могут иметь разные размеры. В отношении работы с
изображением слои ничем не отличаются от заднего плана, на них
можно рисовать, их можно фильтровать и выполнять над каждым
из них другие виды преобразований. Существенным является и то,
что изменения, вносимые в один слой, не влияют на другие слои и
на задний план. После окончании редактирования (обработки) изображения и записи его в файл все слои, а также задний план, обычно склеиваются, что позволяет сократить размер результирующего
файла. Тем не менее, если необходимо временно прервать работу и
при этом сохранить слои в несклеенном виде, то это можно сделать,
используя формат файла Adobe Photoshop, он имеет расширение
*.psd. Кроме изобразительных слоев графический редактор Adobe
Photoshop позволяет использовать также так называемые корректирующие слои. С их помощью удобно выполнять стандартные
операции по коррекции яркости, контрастности, цветового тона и
насыщенности, баланса черного и белого и т. д. Если необходимо,
чтобы коррекции подвергался только выделенный фрагмент изображения, используется слой-маска корректирующего слоя. Корректирующий слой не оказывает непосредственного влияния на
пиксели изображения и потому обеспечивает так называемое «неразрушающее редактирование». Можно создать несколько различных корректирующих слоев и, изменяя режимы их наложения, добиться сложных эффектов.
107
9. ВИДЕОИЗОБРАЖЕНИЯ И ФОРМАТЫ ИХ ЗАПИСИ
9.1. Форматы растров цветных изображений
Телевизионный сигнал представляют, как в компонентной, так и
в композитной форме.
Композитный видеосигнал формируется из компонентного сигнала и передается потребителю в одном из трех форматов: NTSC,
PAL или SECAM. При оцифровке композитный видеосигнал подвергается временной дискретизации и квантованию на 1024 уровня
яркости, а затем представляется десятиразрядным кодом. На представление самого видеосигнала отводится около 70% уровней квантования, а остальная часть квантовых уровней отводится на передачу синхроимпульсов. Согласно принятому стандарту скорость передачи данных для цифрового сигнала в системе NTSC составляет 143
Мбит/с, а в системе PAL – 177 Мбит/с.
Компонентный видеосигнал состоит из трех компонентов, например, компонентов R, G, B или компонентов Y, R-Y (Cr) и B-Y (Cb).
Особенностью оцифровки компонентного видеосигнала является
раздельные дискретизация, квантование и кодирование каждого
из компонентов, например, яркости Y и двух цветоразностных сигналов R-Y (Cr) и B-Y (Cb). Для представления компонентного сигнала
в цифровой форме определены ряд форматов, которые различаются
между собой структурой расположения отсчетов сигнала яркости и
двух цветоразностных сигналов в растре изображения. Далее приводятся краткие сведения об этих форматах.
Формат 4:4:4. В данном формате все три компонента сигнала
имеют одинаковую структуру расположения отсчетов, благодаря
этому обеспечивается одинаковое пространственное разрешение
по горизонтали и по вертикали как яркостное, так и цветовое. При
этом формате частота временной дискретизации каждого из трех
компонентов видеосигнала составляет 13,5 МГц, благодаря чему
все три компонента передаются в полной полосе частот. Каждый
компонент в этом формате представлен 576 строками и 720 пикселями в строке. Скорость цифрового потока при 10-битовом слове
в рассматриваемом случае составляет 405 Мбит/с. Структуры растров для всех трех компонентов при использовании этого формата
приведены на рис. 9.1. Формат 4:4:4 используется на этапе предварительной обработки сигнала, а также в тех случаях, когда в изображении требуется сохранить максимальное количество инфор108
Рис.9.1. Структура дискретизации 4:4:4: – отсчеты сигналов
яркости; – отсчеты цветоразностных сигналов
мации, например, в изображениях, используемых в научных исследованиях.
Формат 4:2:2 отличается от формата 4:4:4 тем, что в нем плотность отсчетов для цветоразностных сигналов в горизонтальном направлении уменьшена в 2 раза по сравнению с форматом 4:4:4, а в
вертикальном направлении оставлена неизменной. Вследствие этого цветовое разрешение в горизонтальном направлении уменьшилось в 2 раза по сравнению с яркостным разрешением, при неизменном разрешении в вертикальном направлении. В результате уменьшения количества отсчетов, которым представляется изображение
в этом формате, в 1,5 раза уменьшился и цифровой поток. Однако
поскольку цветовая острота зрения существенно ниже яркостной
остроты зрения, зритель не замечает снижения качества изображении при переходе от формата 4:4:4 к формату 4:2:2. На рис. 9.2 приведены структуры растров для всех трех компонентов при использовании формата 4:2:2. В этом формате в активной части строки содержится 720 отсчетов яркостного сигнала и по 360 отсчетов - каждого
из цветоразностных. Скорость цифрового потока при 10-битовом
слове в рассматриваемом случае составляет 270 Мбит/с. Формат
4:2:2 используется в качестве базового при оценке других структур
дискретизации.
Формат 4:2:0 отличается от формата 4:4:4 уменьшением плотности отсчетов для цветоразностных сигналов и в горизонтальном,
и в вертикальном направлении в 2 раза по сравнению с форматом
109
Рис. 9.2. Структура дискретизации 4:2:2: – отсчеты сигналов
яркости; – отсчеты цветоразностных сигналов
4:4:4. Благодаря этому цветовое разрешение в обоих направлениях оказывается также уменьшенным в 2 раза по сравнению с яркостным разрешением, которое остается неизменным. В результате уменьшения плотности расположения отсчетов сигналов
цветности в растре в 2 раза в обоих направлениях цифровой поток также уменьшается в 2 раза по сравнению с форматом 4:4:4.
Другими словами, это обеспечивает двукратное сжатие сигнала.
Однако, благодаря тому, что цветовая острота зрения существенно ниже яркостной остроты зрения, зритель не замечает снижения
качества изображения. В формате 4:2:0 компонент яркости Y в активной части кадра содержит 576 строк и в каждой строке по 720
отсчетов, а цветоразностные компоненты Cr и Cb в активной части
кадра содержат только по 288 строк и в каждой строке только по
360 отсчетов.
На рис. 9.3 представлены изображения растровых структур для
всех трех компонентов при использовании рассматриваемого формата. Формат 4:2:0 используется в современных стандартах как для
неподвижных изображений JPEG, так и для движущихся изображений MJPEG, MPEG.
Кроме перечисленных форматов находит применение также формат растра 4:1:1. В формате 4:1:1 компонент яркости Y в активной
части кадра содержит 576 строк и в каждой строке по 720 отсчетов,
а цветоразностные компоненты Cr и Cb в активной части кадра также содержат по 576 строк, однако в каждой строке они содержат
110
Рис. 9.3. Структура дискретизации 4:2:0: – отсчеты сигналов
яркости; – отсчеты цветоразностных сигналов
только по 180 отсчетов. На рис. 9.4 приведена эта структура дискретизации цветного изображения.
Формат 4:1:1 и формат 4:2:0 характеризуются одинаковой скоростью передачи данных, которая составляет 202,5 Мбит/с при длине
кодового слова в 10 бит и 162 Мбит/с при 8 битах на слово. Заметим,
что если передавать только активную часть изображения (без обратного хода), то величина цифрового потока при 8 битах на слово сократится до 124 Мбит/с. Цифровые сигналы этих двух форматов в
Рис.9.4. Структура дискретизации 4:1:1:
– отсчеты сигналов яркости;
– отсчеты цветоразностных сигналов
111
целях сокращения скорости потока получают путем предварительной обработки и прореживания отсчетов сигналов формата 4:2:2.
Формат 4:1:1 применяют в системах со стандартом разложения
525 строк и 60 кадр/сек, в то время как формат 4:2:0 применяют в
системах со стандартом разложения 625 строк и 50 кадр/сек. Это
обусловлено тем, что потеря разрешения в вертикальном направлении более заметна в системах с меньшим числом строк, чем в системах с большим числом строк.
9.2. Видеомонтаж
Монтаж исходного материала, применяющийся в кино и телевидении, состоит в том, что вначале из всего отснятого материала,
включающего в себя дубли и варианты, отбираются сцены (клипы),
которые должны войти в монтируемую программу (фильм), т. е. выполняется так называемый черновой монтаж, целью которого является создание монтажного листа. После окончания чернового
монтажа переходят ко второй и заключительной части – к чистовому монтажу телевизионной программы или фильма. На этом этапе
подбираются длительности отдельных клипов, включаются соединяющие их переходы (шторки, наплывы и т.п.), производится графическое редактирование отснятого материала, включение всевозможных эффектов и, наконец, озвучивание. Как правило, объем
исходного материала, из которого монтируется программа, значительно превышает объем материала, который в конечном итоге оказывается включенным в нее.
Раньше в телевидении применялся так называемый линейный
метод монтажа программы. Особенность этого метода заключалась в
том, что как отснятый материал, так и смонтированный, записывались на магнитную ленту, при этом для поиска и копирования нужной записи затрачивалось много времени, которое расходовалось на
перемотку ленты. Развитие вычислительной техники и появление
мощных компьютеров позволило решить эту проблему путем разработки новой технологии монтажа программ, так называемой технологии нелинейного монтажа. Особенность этой технологии заключается в том, что исходный отснятый материал, состоящий из
ряда клипов, в цифровом виде записывается на жесткий диск, а не
на ленту, в виде отдельных файлов, что обеспечивает практически
мгновенный доступ к каждому из них без необходимости перемотки. Благодаря этому сильно сокращается время, затрачиваемое как
на черновой, так и на чистовой монтаж.
112
Технология нелинейного монтажа включает в себя следующие
этапы:
− запись исходного отснятого материала на жесткий диск;
− выполнение чернового монтажа, при котором из всего отснятого материала отбирается материал, включаемый в монтируемую
телевизионную программу;
− чистовой монтаж, при котором уточняется длительность каждого клипа, вошедшего в создаваемую программу, включаются переходы между отдельными клипами, выполняется редактирование
изображений, составляющих клипы, включаются необходимые эффекты и компьютерная графика, включаются виртуальные сцены,
титры, рир-проекции (технология рир-проекции позволяет совмещать актёров и другие объекты с предварительно отснятым произвольным фоном), мультипликации, выполняется озвучивание и
т. д.;
− запись смонтированной программы на носитель для ее демонстрации.
Нелинейный монтаж выполняется на компьютерах с высокой
производительностью или на специально разработанных для этой
цели станциях нелинейного монтажа. Для всех компьютерных
платформ разработано специальное программное обеспечение, позволяющее осуществлять нелинейный монтаж. В качестве примеров можно привести Movavi Video Editor (многофункциональный
видеоредактор, работающий со всеми популярными мультимедийными форматами в том числе для мобильных устройств), профессиональные видеоредакторы Sony Vegas Pro, Adobe Premiere
Pro и Edius Pro, Avid Media Composer (с его помощью были созданы известные фильмы «Аватар», «Трансформеры» и др), бесплатные программы: VirtualDub (работает на всей линейке OC Windows
и отличается высокой скоростью работы), VSDC Free Video Editor,
Avidemux и т. д. [14, 15].
Ряд фирм в настоящее время выпускает специализированные
станции для нелинейного монтажа, которые могут быть включены в
единую компьютерную сеть. Так как черновой монтаж, как показывает практика, занимает в 3-4 раза больше времени, чем чистовой,
соотношение между числом станций, включенных в сеть и осуществляющих черновой монтаж, и числом станций, осуществляющих
чистовой монтаж, составляет 3-4. Поэтому в одной системе оказывается возможным одновременно выполнять работы, связанные и
с черновым, и с чистовым монтажом без перезаписи видеоматериала, и тем самым осуществлять еще большую экономию времени.
113
В качестве примера можно назвать станции фирмы Avid Technology
Inc., которые являются одними из самых популярных в мире. Эти
станции спроектированы таким образом, что в одну компьютерную
сеть можно включать до 16 монтажных станций. Одна из мощных
монтажных станций Media Composer 8000 позволяет осуществлять
как чистовой, так и черновой монтаж. При этом она обеспечивает
сжатие видеоизображения с коэффициентом от 1:2 в случае чистового монтажа до 1:40 в случае чернового монтажа. Станция имеет
стандартный набор монтажных функций, многокамерный монтаж,
большое количество видеоэффектов в реальном времени, модуль
трехмерных эффектов, рир-проекцию, трехполосный графический
эквалайзер, интерфейс для создания титров, 24 видеослоя и 24 звуковые дорожки.
9.3. Стандарты видеокомпрессии
Несжатое видео имеет очень большие размеры файлов, что требует высокой скорости передачи данных. Например, при размере
кадра 1920x1080, глубине цвета 10 бит, формате растра 4:2:2 и кадровой частоте 25 Гц скорость передачи несжатого видеопотока составляет 1037 Мбит/с. Вопрос обеспечения сжатия видеозаписей,
так называемой видеокомпрессии, является очень важным.
При разработке метода сжатия движущихся изображений к нему был предъявлен ряд весьма жестких и противоречивых требований. Во-первых, этот метод должен обеспечивать высокую степень
сжатия при высоком качестве восстановленных изображений, поскольку цифровые потоки, необходимые для передачи несжатых
изображений, чрезмерно велики. Кроме того, метод сжатия должен
обеспечить произвольный доступ к любому кадру, что необходимо
при монтаже фильма. Необходимо также при передаче обеспечить
синхронизацию видео- и аудиодорожек, а также помехоустойчивость самой передачи.
Рассмотрим ряд стандартов видеокомпрессии, разработанных
MPEG (Moving Picture Experts Group – экспертной группой по движущемуся изображению).
9.3.1. Стандарт MPEG-2
В стандарте MPEG-2 использованы принципы сжатия изображений, основанные на устранении межкадровой (временной), внутрикадровой (пространственной) и психофизической избыточности.
114
Для устранения межкадровой избыточности применяется
временная дифференциальная кодово-импульсная модуляция
(ДКИМ), которая использует то обстоятельство, что последующий
кадр в движущемся изображении обычно мало отличается от предыдущего, что позволяет его достаточно точно предсказать. Передавая ошибку предсказания, а по существу, разность между двумя
соседними кадрами, которая содержит много нулей, можно существенно сократить цифровой поток. Точность предсказания при передаче движущихся изображений также увеличивают за счет оценки вектора движения и компенсации этого движения. Принцип
формирования вектора движения состоит в том, что в передаваемом
кадре выделяется движущаяся область изображения, например,
автомобиль, перемещающийся в направлении перпендикулярном
оси наблюдения. Если оценить смещение этой области от кадра к
кадру по горизонтали Vx и по вертикали Vy, то в качестве предсказания можно использовать эту область изображения из предыдущего
кадра, смещенную по горизонтали и по вертикали на величины Vx и
Vy соответственно. Набор величин Vx и Vy называется вектором движения. Компенсация движения при формировании сигнала ошибки предсказания позволяет уменьшить его значение и, как следствие, увеличить сжатие. Полностью сигнал ошибки предсказания
не может быть сведен к нулю, так как при движении объекта обычно изменяется его ракурс и масштаб, однако он может быть значительно уменьшен.
Одним из наиболее часто применяющихся методов оценки вектора движения является метод согласования блоков. Существо этого
метода заключается в том, что текущий блок, а изображение разбивается на блоки, как в случае стандарта JPEG, проецируется на
предыдущее (базовое) опорное изображение и, перемещаясь по нему в некоторой области поиска, попиксельно сравнивается со всеми
фрагментами опорного изображения, на которые он спроецирован.
Тот фрагмент опорного изображения, который меньше всего отличается от текущего блока по величине среднего квадрата ошибки,
принимается за опорный блок для целей предсказания, а смещение
между опорным и проецируемым блоками определяет вектор движения. Величина среднего квадрата ошибки, как не трудно видеть,
вычисляется следующим образом
2
=
σ
K2
∑
N2
∑
k=
−K 2n=
−N 2
(
)
2
 Lñ.îï k + Vx ,n + Vy − Lñ ( k,n )  ,


115
где K и N – соответственно высота и ширина области поиска в пикселях, Lc.оп(k,n) – яркость пикселя, расположенного в k-й строке и
n-ом столбце опорного изображения, Lc(k,n) – яркость пикселя, расположенного в k-й строке и n-ом столбце текущего изображения, из
которого взят блок.
Для устранения внутрикадровой и психофизической избыточности применяется метод, реализованный в стандарте JPEG.
Сжатие движущихся изображений в рассматриваемом методе
происходит следующим образом. Исходная последовательность кадров движущегося изображения разбивается на макроблоки размером 16×16 отсчетов, как это сделано в стандарте JPEG, а затем
разделяется на три типа кадров: I-кадры (Intrapictures), P-кадры
(Predicted) и B-кадры (Bidirection).
I-кадры обеспечивают возможность произвольного доступа к любому кадру, являясь своеобразными точками входа в поток данных
для декодера и сжимаются независимо в соответствии с методом используемым в стандарте JPEG. При их сжатии выполняются следующие действия:
– в каждом макроблоке изображения делается переход от матриц, представляющих красный, зеленый и синий компоненты изображения, к трем матрицам, представляющим яркостный (Y) и два
цветностных: (Cb) и (Cr) компонента изображения;
– матрица, представляющая яркостный компонент размером
16×16 отсчетов, разделяется на 4 матрицы размером 8×8 отсчетов
каждая;
– две матрицы, содержащие цветоразностные отсчеты (Cb) и (Cr),
путем их прореживания по строкам и столбцам преобразуются в
две цветностных матрицы: (Cb) и (Cr) размером 8×8. При прореживании этих матриц из них исключаются каждая вторая строка и каждый второй столбец. На этом этапе кодирования происходит сжатие
данных в два раза;
– каждая из шести матриц размером 8×8 отсчетов преобразуется
посредством ДКП в матрицы спектральных коэффициентов;
– каждая из матриц спектральных коэффициентов квантуется;
– осуществляется зигзаг-сканирование к каждой из шести матриц спектральных коэффициентов;
– к полученным данным применяется энтропийное кодирование, заключающееся в последовательном применении метода кодирования длин серий и кода Хаффмена.
Кодирование P-кадров отличается от кодирования I-кадров тем,
что они кодируются на основе предсказания путем ссылок на бло116
ки предыдущих I- или P-кадров. В результате этого предсказания
формируется кадр сигнала ошибки предсказания, который представляет собой разность между опорным и предсказанным кадрами
с учетом вектора движения. Этот кадр подвергается сжатию посредством применения той же последовательности операций, которая
применяется для кодирования I-кадров.
При кодировании B-кадров используются ссылки на два кадра,
находящихся впереди и позади них. Эти кадры сами в качестве
ссылки использоваться не могут.
Кадры различных типов объединяются в группы. Каждая группа
начинается с кадра типа I, образующего опорный сигнал для предсказания при кодировании кадров типа P и B. Для того, чтобы получить высокий коэффициент сжатия, группа должна быть достаточно большой. При воспроизведении изображений последовательность
кадров может быть, например, такой: I, B, B, P, B, B, P, B, B, I… Однако, при кодировании и декодировании изображений порядок кадров
различного типа в группе должен быть изменен на следующий: I, P,
B, B, P, B, B, I, поскольку кадры типа B создаются на основании кадров I и P, которые к этому времени уже должны иметься.
Группы могут быть как замкнутыми, когда последним кадром
является кадр типа P, так и разомкнутыми, когда последним кадром является кадр типа I. Достоинством замкнутых групп является то, что они позволяют выполнять прямые монтажные переходы
перед очередным I кадром без декодирования цифрового потока, однако для этого требуется более сложный кодер.
Степень сжатия каждого из трех типов кадров различна: она
меньше всего у кадров типа I, у кадров типа P она примерно в 3 раза
больше, чем у кадров типа I, а у кадров типа B она примерно в 4,5
раза превышает степень сжатия кадров типа I.
9.3.2. Стандарт MPEG-4
В стандарте MPEG-4 были воплощены принципиально новые
идеи [16, 17]. Он использует объектное представление мультимедиаданных. Ключевым для данного стандарта является понятие «медиаобъект», т. е. MPEG-4 имеет дело не просто с потоками и массивами медиаданных, а с медиаобъектами. В качестве них могут фигурировать графические, текстовые, аудио-, видео-, аудиовизуальные
объекты. Примерами объектов могут служить неподвижный фон,
видеоперсонажи на прозрачном фоне, трехмерные модели, синтезированная на основе текста речь, музыкальные фрагменты, анимированный спрайт и т. д.
117
В отличие от предыдущих форматов, которые делили изображение на прямоугольники, кодек MPEG-4 оперирует с объектами произвольной формы. Каждый медиаобъект имеет связанный с ним набор дескрипторов, задающих его свойства, операции, необходимые
для декодирования ассоциированных с ним потоковых данных,
размещения в сцене, а также поведение и допустимые реакции на
воздействие пользователя. Каждый объект имеет свою локальную
систему координат, с помощью которой объект управляется в пространстве и времени. Из объектов строятся сцены. Сцена описывается с помощью иерархической структуры, узлами которой являются объекты. Такая структура динамически перестраивается по мере
того, как узлы-объекты добавляются, удаляются или изменяются.
В MPEG-4 определен двоичный язык описания объектов, классов
объектов и сцен – BIFS, который по существу является расширением языка С++. С помощью команд этого языка можно анимировать
объекты, изменять их координаты, размеры, свойства, реакции на
воздействие пользователя, изменять свойства среды, обновлять сцену и т. д. Многие концепции языка BIFS позаимствованы у VRML.
Среди допустимых пользовательских команд взаимодействия с
контентом – изменение точки наблюдения, удаление, добавление,
перемещение объектов внутри сцены и т.п.
В MPEG-4 предусмотрены инструменты и алгоритмы работы с синтетическими объектами, сгенерированными средствами компьютерной графики. Используются каркасные представления двумерных и
трехмерных моделей, данные для анимирования этих моделей, текстуры, которые могут на эти объекты накладываться. При этом для
анимации объектов достаточно передать лишь небольшой объем данных. В язык BIFS входят необходимые средства управления анимацией. Имеются наборы управляющих параметров для задания лица
(FDP), для его анимации (FAP), контрольные точки в полигональной
сетке, отвечающие за определенные эмоции или движения, и т.п. Имеются средства синтеза речи на базе текстов. Они не только генерируют
необходимые фонемы, но могут также создавать поток данных для соответствующей анимации модели лица говорящего. Кроме того, имеются средства учета точки наблюдения. Если, например, в трехмерном
пространстве сцены имеются объекты переднего плана, то заслоненные ими фрагменты сцены, передаваться не будут.
9.3.3. Стандарт H.264 (MPEG4 Part 10)
H.264 является технологией сжатия видео нового поколения в
рамках стандарта MPEG-4.
118
При использовании стандарта H.264 обеспечивается существенное снижение скорости цифрового потока, при этом выигрыш в эффективности компрессии составляет около двух раз по сравнению
со сжатием, получающимся при использовании стандарта MPEG-2.
Примененные в стандарте H.264 технологии предназначены для
работы с видеопоследовательностями, не разделенными предварительно на видеоплоскости. Для повышения эффективности кодирования используется многокадровое предсказание. Могут быть использованы до 32 ссылок на другие кадры, что позволяет кодеру выбирать для компенсации движения между большим количеством
изображений. В рассматриваемом стандарте реализована компенсация движения не только для блоков 16×16, но и для блоков 16×8,
8×16, 8×8, 8×4, 4×8 и 4×4, что заметно повышает эффективность кодирования особенно при небольших величинах сжатия. Кроме того,
это обеспечивает большую точность представления векторов движения.
По сравнению с MPEG-2 в H.264 улучшены методы устранения
пространственной и временной избыточности. Для энтропийного
кодирования данных (сжатия без потерь) в стандарте предусмотрено использование контекстного адаптивного двоичного арифметического кодера (Context Adaptive Binary Arithmetic Coder, CABAC).
При этом для кодирования коэффициентов ДКП и векторов движения вначале выполняется контекстное моделирование и унарная
бинаризация, посредством которых входные данные разделяются
на множество двоичных последовательностей. После этого каждая
последовательность кодируется двоичным адаптивным арифметическим кодером [18, 19]. Отметим, что нельзя назвать какое-либо
одно, главное, усовершенствование, введенное в стандарт H.264, которое обеспечило его высокую эффективность по сравнению со стандартом MPEG-2. Каждое из описанных усовершенствований внесло
свой сравнительно небольшой вклад, определивший высокие показатели рассмотренного стандарта в целом.
Стандарт H.264 используется в видеокамерах для записи видео
высокой четкости и имеет еще одно обозначение AVC HD (Advanced
Video Coding High Definition).
Кроме рассмотренных имеются и другие стандарты, обеспечивающие эффективное сжатие видеоданных. К ним относится, например, VC-1(WMV9) – формат сжатия видеоданных, созданный корпорацией Microsoft. Так же, как и H.264, он в среднем в 2 раза более
эффективен по сравнению с MPEG-2, в настоящее время используется, например, для Blu-Ray.
119
В заключение обсуждения вопросов о видеокомпрессии следует
уделить внимание еще нескольким вопросам.
При монтаже телевизионных программ, как правило, возникает
необходимость иметь доступ (вход в запись) к любому кадру, что невозможно осуществить при использовании метода сжатия MPEG-2,
за исключением случая, когда используются только так называемые I кадры. Это обстоятельство послужило причиной того, что в
монтажных станциях часто применяют сжатие по методу MJPEG,
в котором ограничиваются только внутрикадровым кодированием
по методу, применяемому в JPEG и не используют для целей сжатия межкадровую избыточность. Отсутствие в MJPEG межкадрового сжатия, как правило, не позволяет получать коэффициенты
сжатия, превосходящие 1:20, в зависимости от допустимости пространственных искажений в декодированных кадрах видеопоследовательности. В то же время современные стандарты с межкадровым сжатием, например, H.264, достигают реальной степени сжатия 1:50 и более [20].
Другой проблемой, возникающей в связи с использованием сжатия при редактировании и монтаже, является накопление ошибок
преобразования. Существо проблемы состоит в том, что применяемые в рассматриваемом случае методы сжатия являются методами
сжатия с потерей информации, поэтому при каждой новой процедуре сжатия после очередного редактирования изображения ими вносятся дополнительные ошибки, что, в конечном счете, может привести к недопустимому уровню искажений. В связи с этим рекомендуется на стадии нелинейного цифрового монтажа каждую очередную
запись осуществлять с малой величиной сжатия.
Для того, чтобы избежать терминологической путаницы, следует также сказать о медиаконтейнерах, представляющих собой формат файла или потоковый формат, спецификации которых определяют только способ сохранения данных в пределах одного файла,
но не алгоритм кодирования. К таким форматам относятся широко
используемые AVI (Audio Video Interleave), файлы которого имеют
расширение .avi, открытый формат Matroska (расширение для видеофайлов .mkv), Windows Media Video, использующий расширение имени файла .wmv, MOV (расширение файлов .mov) и др. Перечисленные медиаконтейнеры поддерживают практически все видео- и аудиокодеки.
120
ЛИТЕРАТУРА
1. Красильников Н. Н. Цифровая обработка 2D- и 3D-изображений:
учеб. пособие. – СПб.: БХВ – Петербург, 2011. – 608 с.
2. Красильников Н. Н. Цифровая обработка изображений. – М.: Вузовская книга, 2001. – 320 с.
3. Красильников Н. Н., Красильникова О. И. Мультимедиатехнологии
в информационных системах. Представление и обработка изображений в
компьютере: учеб. пособие/Н.Н. Красильников, О.И.Красильникова. ГУАП. – СПб., 2007. – 132 с.
4. Красильников Н. Н. Теория передачи и восприятия изображений. –
М.: Радио и связь, 1986. –247 с.
5. Прэтт У. Цифровая обработка изображений / пер. с англ.– М.: Мир,
Т. 1, 1982. 310 с.; Т. 2, 1982. – 790 с.
6. Гонсалес Р., Вудс Р. Цифровая обработка изображений. – М.: Техносфера, 2006. – 1072 с.
7. Stockham T. G. Image Processing in the Context of a Visual Model //
Proceedings of the EEE V.60, No. 7, 1972. P. 828 – 842.
8. Шапиро Л., Стокман Дж. Компьютерное зрение / пер. с англ. – М.:
БИНОМ. Лаборатория знаний. – 2006. – 753 с.
9. Фисенко В. Т., Фисенко Т. Ю. Компьютерная обработка и распознавание изображений: учеб. пособие. – СПб.: СПбГУ ИТМО, 2008. – 192с.
10. Монич Ю. И., Старовойтов В. В., Коноплин Е. Е. Сегментация примерно однородных по яркости областей цифровых изображений // Искусственный интеллект – 2008, № 3. – С. 332–338.
11. Чочиа П. А. Пирамидальный алгоритм сегментации изображений.
Информационные процессы. – 2010. Т. 10. № 1 – C. 23–35.
12. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. –
М.: Вильямс, 2004. – 928 с.
13. Методы компьютерной обработки изображений / под ред.
В.А.Сойфера. – М.:, ФИЗМАТЛИТ, 2003. – 784 с.
14. Топ-18 программ для монтажа видео. http://softobase.com/ru/article/
top-programm-dlya-montazha-video (дата обращения: 25.11.2017).
15. Топ-10 лучших программ для монтажа видео. http://top10a.ru/
top-10-luchshix-programm-dlya-montazha-video.html (дата обращения:
25.11.2017).
16. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия
данных. – М.: Диалог-МИФИ, 2002.– 381 с.
17. Kuhn P. Algorithms, Complexity Analysis and Vlsi Architectures for
Mpeg-4 Motion Estimation //Boston Hardbound: Kluwer Academic Publishers,
June 1999. ISBN 0792385160, 248 p.
18. Marpe D., Schwarz H., Wiegand T. Context-based adaptive binary
arithmetic coding in the H.264/AVC video compression standard // IEEE
Transactions on Circuits and Systems for Video Technology. 2003. V.7. P. 620–
636.
19. Ричардсон Я. Видеокодирование. H/264 и MPEG-4 – стандарты нового поколения. – М.: Техносфера, 2005.- 366 с.
20. MJPEG. https://ru.wikipedia.org/wiki/MJPEG (дата обращения:
25.11.2017).
121
СОДЕРЖАНИЕ
Введение..................................................................... 1. Трехмерная и двумерная графика............................... 1.1. Натурные сцены и их трехмерные изображения..... 1.2. Модели представления трехмерных изображений... 1.3. Центральная проекция трехмерного объекта
на плоскость...................................................... 1.4. Двумерные модели изображения сцен
и составляющих их объектов............................... 1.6. Динамические изображения................................ 2. Основы колориметрии............................................... 2.1. Характеристики цвета........................................ 2.2. Законы смешения цветов и глубина цвета.............. 2.3. Цветовая модель RGB......................................... 2.4. Цветовая модель XYZ......................................... 2.5. Цветовые расчеты в цветовой модели XYZ............. 2.6. Цветоделение и управление цветами..................... 3. Изображения и помехи.............................................. 3.1. Изображения и их модели................................... 3.2. Спектры одномерных сигналов и изображений....... 3.3. Спектральные интенсивности изображений........... 3.4. Функции автоковариации изображений................ 3.5. Гистограмма распределения яркости
в изображении................................................... 3.6. Влияние помех на изображение............................ 4. Преобразование изображений в цифровую форму.......... 4.1. Пространственная дискретизация изображений..... 4.2. Помеха пространственной дискретизации............. 4.3. Метод уменьшения помехи пространственной
дискретизации................................................... 4.4. Интерполяция при воспроизведении
изображений..................................................... 4.5. Квантование изображений по яркости................... 5. Линейная фильтрация изображений........................... 5.1. Области применения линейной фильтрации
изображений..................................................... 5.2. Метод фильтрации цифровых изображений
в спектральной области....................................... 122
3
5
5
6
10
12
17
19
19
21
23
24
28
31
34
34
37
39
41
44
47
52
52
54
59
62
63
68
68
69
5.3. Метод фильтрации цифровых изображений
в пространственной области................................. 71
6. Нелинейные методы обработки изображений............... 76
6.1. Гомоморфная фильтрация изображений................ 76
6.2. Коррекция световых характеристик системы
и проблема разрежения шкалы уровней
квантования...................................................... 78
6.3. Медианная и ранговая фильтрация изображений... 83
7. Сегментация изображений......................................... 89
7.1. Понятие сегментации изображений и ее цели......... 89
7.2. Обнаружение на изображении точек
и отрезков прямых линий.................................... 90
7.3. Обнаружение перепадов яркости
и выделение контуров на изображении.................. 91
8. Форматы графических файлов неподвижных
изображений и графические редакторы........................... 99
8.1. Моды представления графической информации
в растровом режиме............................................ 99
8.2. Форматы графических файлов неподвижных
изображений..................................................... 100
8.3. Понятие каналов и слоев в графических
редакторах........................................................ 105
9. Видеоизображения и форматы их записи..................... 108
9.1. Форматы растров цветных изображений............... 108
9.2. Видеомонтаж..................................................... 112
9.3. Стандарты видеокомпрессии................................ 114
Литература................................................................. 121
123
Учебное издание
Красильников Николай Николаевич,
Красильникова Ольга Ивановна
КОМПЬЮТЕРНАЯ ОБРАБОТКА
ИЗОБРАЖЕНИЙ
Курс лекций
Публикуется в авторской редакции
Компьютерная верстка А. Н. Колешко
Сдано в набор 27.12.17. Подписано к печати 15.02.18. Формат 60×84 1/16.
Усл. печ. л. 7,3. Тираж 50 экз. Заказ № 63.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
14
Размер файла
4 405 Кб
Теги
krasilnikovkrasilnikova
1/--страниц
Пожаловаться на содержимое документа