close

Вход

Забыли?

вход по аккаунту

?

krasilnikov-va

код для вставкиСкачать
Федеральное агенТство по образованию
Государственное образовательное учреждение
высшего профессионального образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
Н. Н. Красильников, О. И. Красильникова
Мультимедиатехнологии
в информационных системах
ОСНОВЫ СЕНСОРНОГО ВОСПРИЯТИЯ
Учебное пособие
Допущено Учебно-методическим объединением вузов
по университетскому политехническому образованию
в качестве учебного пособия для студентов высших
учебных заведений, обучающихся по направлению
подготовки 230200 – Информационные системы
Санкт-Петербург
2009
УДК 004.9
ББК 32.81
К78
Рецензенты:
кафедра видеотехники Санкт-Петербургского
государственного университета кино и телевидения;
доктор технических наук, профессор Р. Е. Быков
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Красильников Н. Н., Красильникова О. И.
К78 Мультимедиатехнологии в информационных системах. Основы сенсорного восприятия: учеб. пособие / Н. Н. Красильников, О. И. Красильникова. – СПб.: ГУАП, 2009. – 68 с.: ил.
ISBN 978-5-8088-0423-4
Изложены вопросы, связанные со строением органов слуха и зрения человека, рассмотрены основные характеристики этих систем, во
многом определяющие выбор параметров проектируемой аппаратуры
в области мультимедийных технологий, а также обуславливающие
особенности методов обработки звуковой, графической и видеоинформации.
Учебное пособие предназначено для студентов старших курсов, изучающих мультимедиатехнологии в рамках технических специальностей.
УДК 004.9
ББК 32.81
Учебное издание
Красильников Николай Николаевич
Красильникова Ольга Ивановна
Мультимедиатехнологии
в информационных системах
Основы сенсорного восприятия
Учебное пособие
Редактор В. А. Черникова
Верстальщик А. Н. Колешко
Сдано в набор 28.12.08. Подписано к печати 24.03.09. Формат 60×84 1/16.
Бумага офсетная. Печать офсетная. Усл. печ. л. 3,7. Уч.-изд. л. 4,0.
Тираж 150 экз. Заказ № 195.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
ISBN 978-5-8088-0423-4
© Н. Н. Красильников,
О. И. Красильникова, 2009
© ГУАП, 2009
Содержание
Предисловие..............................................................
1. Слуховая система....................................................
1.1. Проблема оценки качества передачи
изображения и звука.........................................
1.2. Основы физики и психофизики звука..................
1.3. Строение органов слуха......................................
1.4. Функции органов слуха.....................................
1.5. Восприятие речи и музыки.................................
1.6. Методы оценки качества звука............................
2. Зрительная система.................................................
2.1. Изображения....................................................
2.2. Краткие сведения о строении
зрительной системы..........................................
2.3. Адаптация зрительной системы к освещенности
и контрастная чувствительность.........................
2.4. Разрешающая способность зрительной системы
в пространстве (острота зрения)..........................
2.5. Инерционность зрения.......................................
2.6. Восприятие движения.......................................
2.7. Восприятие цвета..............................................
2.8. Восприятие объема............................................
2.9. Выделение изображений объектов из шума...........
2.10. Модель Ч. Холла и Е. Холла ..............................
2.11. Оценка видности искажений методом Бакуса–
Гильберта........................................................
2.12. Новая функциональная модель зрительной
системы...........................................................
2.13. Методы оценки качества воспроизведения
изображений....................................................
2.14. Представление изображений в виде контурных,
градиентных и фактурных компонент. ................
2.15. Восприятие изображений зрительной системой
человека..........................................................
Заключение...............................................................
Рекомендуемая литература..........................................
4
5
5
7
9
12
19
20
22
22
27
32
37
42
45
46
51
51
53
54
55
61
63
66
68
68
3
Предисловие
В настоящее время мультимедиатехнологии переживают период своего бурного развития. Имеется достаточно много изданий, посвященных принципам работы с многочисленными приложениями, позволяющими создавать мультимедийные проекты. Немало
книг посвящено аппаратной поддержке этих технологий. Однако
нельзя забывать о том, что компоненты мультимедиа (звук, графика, видео) ориентированы на сенсорное восприятие человека. Поэтому все разрабатываемые методы обработки звуковой, графической
и видеоинформации должны базироваться на учете свойств слуховой и зрительной систем, на особенностях восприятия этой информации человеком. Кроме того, эти особенности должны учитываться и учитываются при разработке современных средств звукозаписи, кино и телевидения, мультимедийной аппаратуры, которая используется для представления указанных видов информации (например, выбор числа строк разложения на экране монитора, выбор
частоты кадров и др.), новых типов оборудования, в частности, для
систем виртуальной реальности.
Чрезвычайно важно принимать во внимание особенности сенсорного восприятия при разработке эффективных алгоритмов и методов кодирования и декодирования различных видов информации.
Настоящее пособие поможет читателю понять основные психофизиологические процессы восприятия звука и изображений, осознать связи между особенностями сенсорного восприятия человека
и требованиями к техническим параметрам систем формирования,
передачи и воспроизведения сигналов звука и изображения, познакомиться с методами оценки качества воспроизведения звука и изображений. Несомненно, детальное знакомство с основами сенсорного восприятия будет по-настоящему и полезным, и интересным для
всех, кто занимается созданием мультимедийных проектов, систем
виртуальной реальности, а также исследованиями в области обработки звуковой и графической информации.
4
1. Слуховая система
1.1. Проблема оценки качества передачи изображения и звука
При передаче аудиовизуальных программ в передаваемые сигналы вносятся искажения и добавляются помехи. Искажения могут
быть линейными (частотными) и нелинейными. Частотные искажения подразделяются на амплитудно-частотные и фазово-частотные.
При амплитудно-частотных искажениях изменяются первоначальные амплитудные соотношения между различными частотными
компонентами спектра. При фазово-частотных искажениях изменяются начальные фазы частотных компонент спектра. Нелинейные
искажения сигнала проявляются в том, что нарушаются первоначальные соотношения между мгновенными значениями сигнала.
Линейные и нелинейные искажения по-разному воспринимаются получателем аудиовизуальных программ. Так, например, в
случае передачи звуковых сигналов амплитудно-частотные искажения проявляются в изменении тембра звука, небольшие фазовочастотные искажения могут оставаться незаметными для слушателя. Нелинейные искажения звукового сигнала приводят к возникновению в спектре сигнала новых гармоник и комбинационных частот, что проявляется в виде хрипов. Добавление в сигнал флуктуационной помехи создает шумовой фон. Кроме того, известен еще
один вид помехи, который обусловлен неравномерной скоростью
записи и считывания сигнала в магнитофоне и называется детонациями. Детонации проявляются в виде плавающего звука (эффект
гавайской гитары). В случае изображений амплитудно-частотные
искажения проявляются в виде искажений передаваемых световых
границ и следующих за ними участков изображения. Так, ослабление верхних частот спектра влечет за собой размытие резких световых границ, т. е. потерю четкости, а ослабление нижних частот
спектра приводит к появлению на изображении так называемых
тянучек – тянущихся темных продолжений после светлых деталей изображения с резкими световыми границами, а также к потере средней яркости изображения. Фазово-частотные искажения в
спектре передаваемого сигнала в зависимости от их вида могут приводить к оконтуриванию деталей изображения, появлению повторов и других нежелательных явлений. Следует отметить, что зрительная система человека, в отличие от его слуха, крайне чувствительна к фазово-частотным искажениям. Нелинейные искажения
сигнала изображения приводят к ошибкам в передаче градаций яр5
кости, а также к неправильной передаче цветовой гаммы. При передаче изображений также приходится заботиться об обеспечении малой величины геометрических искажений.
Искажения и помехи снижают качество изображений и звука, и
для их оценки необходимы количественные критерии. Простейшим
критерием, определяющим степень искажения сигналов, а также
поражения их помехами, является величина среднеквадратичной
2
ошибки (eñ. - eñ.èñê ) , нормированной на максимальное значение
сигнала eс.макс, или величина, обратная ей, – отношение сигнала к
шуму
Ψ=
eñ.ìàêñ
2
,
(eñ. - eñ.èñê )
где eс. – текущее значение сигнала.
Недостатком этого критерия является то, что он плохо отражает влияние искажений и помех на качество воспроизведения
изображений и звука. Так, например, значительное ослабление
частотных компонент звука на частоте 15 кГц практически незаметно для слушателя, в то время как такое же ослабление частотных компонент сигнала на частоте 5 кГц приводит к сильным искажениям воспроизводимого звука. Аналогичные примеры можно привести и для заметности искажений на изображениях. Причина этого недостатка заключается в том, что слуховая и
зрительная системы человека различно реагируют на различные
виды искажений и помех. По этой причине величина среднеквадратичной ошибки сравнительно редко используется как критерий для оценок качества воспроизведения звука и изображений.
Вместо нее в настоящее время широко применяется метод экспертных оценок в баллах, о котором речь пойдет ниже. Сейчас
же отметим, что основным недостатком метода экспертных оценок является отсутствие формул, устанавливающих надежную
математическую связь между величиной различных искажений
и помех, с одной стороны, и величиной экспертной оценки (проставленного балла), с другой стороны. Стремление создать критерии качества воспроизведения изображений и звука, свободные
от указанных недостатков, инициировали исследование зрительной и слуховой систем и разработку на их основе функциональных моделей зрительной и слуховой систем, которые позволили
бы создать такие критерии.
6
1.2. Основы физики и психофизики звука
Звук представляет собой колебание давления воздуха в диапазоне частот от 16 Гц до 20 кГц. В воздушной среде звук распространяется со скоростью, примерно равной 340 м/с. Звуковые колебания характеризуются законом изменения давления h(t) во времени
t. Часто для характеристики звукового колебания используют его
спектр Фурье, который определяется посредством интегрального
преобразования Фурье
¥
M (f ) =
ò
h (t)e-i2πft dt,
-¥
где f – частота колебаний, i = -1 – мнимая единица.
На рис. 1.1 в качестве примера приведены несколько типичных
видов колебаний и соответствующие им амплитудные спектры
|M(f)|. Рассмотрим их подробнее. Гармоническое колебание, показанное на рис. 1.1, а воспринимается как чистый тон. Источником
такого колебания может быть вибрация струны или колебание, генерируемое звуковым генератором. В этом случае
h (t) = h0 sin 2πf0t,
где h0 – амплитуда колебания, f0 – частота колебания. На рис. 1.1, б
показан соответствующий ему амплитудный спектр. На рис. 1.1, в
приведено колебание, соответствующее белому шуму, а его амплитудный спектр показан на рис. 1.1, г. Такое звуковое колебание воспринимается как шипение при закрывании дверей троллейбуса.
На рис. 1.1, д приведена диаграмма звукового колебания в виде
беспорядочно следующих друг за другом импульсов, а на рис. 1.1, е –
соответствующий ему спектр. Несмотря на то, что белый шум и колебание, приведенное на рис. 1.1, д, имеют похожие амплитудные спектры, воспринимаются они различно, что обусловлено различием их
фазовых спектров. Колебание, показанное на рис. 1.1, д, на слух воспринимается как щелчки. На рис. 1.1, ж показано негармоническое
периодическое колебание, которое воспринимается как музыкальный тон. Амплитудный спектр этого колебания приведен на рис. 1.1,
з. Частота f0 называется основным тоном (основной частотой), а частоты 2f0, 3f0 – обертонами, или гармониками. Наличие гармоник
придает звуку окраску. Звуки различных музыкальных инструментов – скрипки, виолончели, флейты – при воспроизведении одной и
той же ноты, характеризующейся частотой первой гармоники, раз7
а)
б)
IU
].G
]
U
в)
г)
IU
G
G
].G
]
U
д)
е)
IU
G
].G
]
U
ж) IU
з)
G
].G
]
U
к) ].G
]
и) IU
G
G G G
U
л) IU
м)
].G
]
G
U
G
Рис. 1.1. Примеры звуковых колебаний и соответствующих им
амплитудных спектров
личаются между собой составом гармоник. На рис. 1.1, и приведена
диаграмма звукового колебания, возникающего при произнесении
длительно гласной «а», спектр этого колебания показан на рис. 1.1,
к. Воспринимается это колебание как музыкальный звук. И, наконец, на рис. 1.1, л показано колебание, возникающее при произнесении согласной «ф», которое воспринимается как шум. Амплитудный спектр этого колебания приведен на рис. 1.1, м. Приведенные
примеры призваны продемонстрировать разнообразие окружающих нас звуков.
Интенсивность звуков принято измерять в децибелах:
h
P
S = 20 lg
= 10 lg ,
hï
Pï
8
где h – звуковое давление, P – мощность, hп – пороговое значение
h, Pп – пороговое значение P, при этом на частоте 3 кГц hп=20·10–6
паскаль, а Pп=10–12 Ватт/м2. Любопытно заметить, что для кошки
hп=6,32·10–6 паскаль, а Pп=10–13 Ватт/м2.
В качестве примера приведем интенсивность некоторых источников звука:
реактивный двигатель ............... 140 дБ (болевой порог);
порог дискомфорта..................... 120 дБ;
симфонический оркестр ............. 100 дБ;
нормальная речь ....................... 60 дБ;
шепот....................................... 30 дБ;
в сельской местности ночью......... 20 дБ;
порог слышимости человека........ 0 дБ;
порог слышимости кошки........... –10 дБ.
1.3. Строение органов слуха
Слуховая система условно подразделяется на периферическую,
куда входят наружное, среднее, внутреннее ухо и слуховой нерв, а
также центральную, которую составляют кохлеарные ядра, верхняя олива, задние бугры четыреххолмия, внутреннее коленчатое
тело, слуховая кора, нисходящие слуховые пути [8]. Периферическая слуховая система условно рассматривается как преобразователь звукового давления в нервные сигналы с последующим спектральным анализом. Центральная слуховая система рассматривается как система опознавания звуковых образов. На рис. 1.2 показаны основные отделы периферического звена слуховой системы
человека – наружное, среднее и внутреннее ухо, а на рис. 1.3 – схематическое изображение человеческого уха.
Наружное ухо состоит из ушной раковины и наружного слухового прохода, оно выполняет роль рупора.
Среднее ухо состоит из барабанной перепонки, молоточка, наковальни и стремечка. Его роль заключается в согласовании воздушной и жидкостной среды внутреннего уха.
Внутреннее ухо состоит из:
– овального окна;
– улитки в виде спирального канала в 2,5 завитка, длина которого составляет 35 мм;
– рецепторного аппарата – кортиевого органа, включающего в
себя несколько рядов волосковых клеток.
Внутреннее ухо является сложной колебательной системой с неоднородными параметрами. В зависимости от частоты звуковых коле9
Рис. 1.2. Основные отделы периферического звена слуховой
системы человека
Рис. 1.3. Схематическое изображение человеческого уха
баний резонируют те или иные волосковые клетки, входящие в кортиев орган, которые посылают сигналы в слуховой нерв. На рис. 1.4
приведены зависимости пороговой чувствительности слуха, характеризующие резонансные свойства волосковых клеток.
10
¨ÇÉǼǻ¹ØÐÌ»ÊË»Á˾ÄÕÆÇÊËÕÊÄÌ齚
s
s
s
s
s
°¹ÊËÇ˹À»ÌùÜÏ
Рис. 1.4. Зависимости пороговой чувствительности слуха
от частоты звука
В слуховом нерве имеет место спонтанная импульсация с частотой около 100 имп/с. При возникновении звукового сигнала частота
импульсации возрастает. В качестве примера на рис. 1.5 приведен
график зависимости импульсации от времени, представляющей реакцию на щелчок.
Согласно современным представлениям, в периферийной слуховой системе имеет место частотный анализ звука набором фильтров, добротность которых Q≈10. Однако смысл преобразований может быть в другом – в декомпозиции сложного сигнала путем передачи его по ряду частотных каналов и тем самым в уменьшении
динамического диапазона компонент, которыми он передается. Это
имеет большое значение, поскольку динамический диапазон нервных путей невелик и составляет всего 2 логарифмические единицы,
в то время как динамический диапазон воспринимаемых звуков –
до 10–12 логарифмических единиц.
Особенность частотного анализа, производимого слуховой системой, заключается в том, что ее фильтры имеют конечную полосу пропускаемых частот Df, а следовательно, конечное время анализа Dt, так как DfDt=const. Вследствие этого на выходе фильтров мы
имеем сигналы, представляющие собой так называемые текущие
спектры, т. е. спектры, которые изменяются во времени. Существует распространенное заблуждение относительно того, что наша слуховая система нечувствительна к фазовым искажениям звукового
11
/ÁÅÈ
5ÅÊ
Рис. 1.5. Зависимость импульсации от времени,
представляющая реакцию на щелчок
сигнала. На самом деле, это не так, слуховая система нечувствительна только к небольшим фазовым искажениям, значительные
же фазовые искажения приводят к заметным искажениям воспринимаемых звуков.
1.4. Функции органов слуха
Рассмотрим основные характеристики слуховой системы.
1. Абсолютная чувствительность, определяющаяся интенсивностью звука, при которой человек может отличить звук от постоянно существующего фона собственных шумов тела.
Интенсивность, при которой звук обнаруживается с вероятностью 0,5, называется порогом слышимости, или абсолютным порогом для данного звука. В физиологической акустике слуховую
чувствительность определяют через минимальное воспринимаемое
звуковое давление hп. Поскольку диапазон звуковых давлений, воспринимаемых ухом человека, очень широк, удобно, как уже отмечалось, пользоваться логарифмической шкалой и выражать звуковое давление в децибелах. Абсолютная чувствительность слуховой
системы при восприятии чистых тонов зависит от частоты колебания. Эта зависимость приведена на рис. 1.6.
2. Частотно-избирательные свойства слуха, которые определяются добротностью избирательных элементов внутреннего уха. На
рис. 1.7 показаны частотные характеристики слуховой системы при
различных частотах маскирующего сигнала интенсивностью 15 дБ
12
4½š
GœÏ
Рис. 1.6. Зависимость абсолютной чувствительности
слуховой системы от частоты
над порогом, а в табл. 1.1 приведены величины добротности избирательных элементов анализатора органов слуха на различных частотах. Из данных табл. 1.1 видно, что значения добротности избирательных элементов сильно варьируют (в 2–3 раза).
Таблица 1.1
Добротность избирательных элементов анализатора органов слуха
на различных частотах
F, Гц
Q
400
19,4
800
42,6
1200
22,9
2400
14,4
3500
43,0
3. Громкость. Диапазон колебаний давления воздуха, которые
воспринимаются как звук, заключен в пределах от 16 Гц до 20 кГц.
У человека после двадцатилетнего возраста верхняя граница этого
диапазона снижается примерно на 1 Гц в день. Существенно заметить, что ощущение громкости пропорционально степенной функции от интенсивности звука с показателем степени, близким к
0,25.
За единицу громкости в 1 сон (sone) принята громкость, соответствующая 4 дБ интенсивности на частоте f=1 кГц. Увеличение интенсивности на 10 дБ увеличивает громкость в 2 раза. Громкость при
прослушивании двумя ушами удваивается по сравнению с прослушиванием одним ухом. На рис. 1.8 приведена упрощенная функциональная модель, отображающая суммирование отдельных частотных компонент при определении громкости слуховой системой.
Схема включает в себя предварительный усилитель Ус (среднее
ухо), набор фильтров Фn, центральные частоты которых перекрыва13
¬ÉÇ»¾ÆÕÁÆ˾ÆÊÁ»ÆÇÊËÁ½š
œÏ
œÏ
œÏ
œÏ
œÏ
GœÏ
Рис. 1.7. Частотные характеристики слуховой системы при различных
частотах маскирующего сигнала
¬Ê
­
¨É ­O
¨É O
ªÌÅ
Рис. 1.8. Упрощенная функциональная модель при определении громкости
слуховой системой
ют весь частотный диапазон слуха (механические системы улитки),
связанные с каждым фильтром преобразователи энергии колебаний
в количество нервных импульсов Прn и общий сумматор Сум. Подчеркнем, что громкость определяется средней, а не пиковой мощностью звука. Иллюстрацией к сказанному является хорошо извест14
а)
1
U
б)
1
U
Рис. 1.9. Зависимости мгновенной мощности звука от времени
ный факт, что во время телевизионной рекламы громкость звука
много больше, чем во время основной программы, в которую вставлена эта реклама, хотя динамический диапазон канала, по которому передается звук, в обоих случаях остается неизменным. Объясняется это тем, что при одинаковых пиковых мощностях звука во
время рекламы его средняя мощность выше, чем средняя мощность
при передаче основной программы. Для пояснения изложенного на
рис. 1.9 приведены диаграммы зависимости мгновенной мощности
звука от времени для основной программы (рис. 1.9, а) и для рекламы (рис. 1.9, б).
При воспроизведении чистого тона его громкость зависит от частоты колебаний f, достигая своего максимального значения на частоте около 2000 Гц. Рис. 1.10 иллюстрирует это свойство слуха. На
этом рисунке приведено семейство контуров равной громкости для
ряда уровней громкости. На рисунке по оси ординат отложены значения звукового давления у барабанной перепонки. В том случае,
когда спектр звукового колебания сплошной, эта зависимость носит
более сложный характер. Так, два близких тона, имеющих одинаковые мощности P и возбуждающих один анализатор, создают мень15
I½š
H
GœÏ
Рис. 1.10. Семейство контуров равной громкости для ряда уровней
громкости
шую громкость, чем два сильно разнесенных тона такой же мощности. Это непосредственно следует из модели, приведенной на рис. 1.8.
В первом случае, когда возбуждается один анализатор, громкость
будет равна k(2P)0,3, в то время как во втором случае величина громкости составит k(P0,3+P0,3), а поскольку (2P)0,3 < P0,3+P0,3, то мы
приходим к сделанному утверждению.
Слуховая система обладает свойством накопления сигнала, благодаря чему порог слышимости уменьшается при увеличении длительности тонального сигнала. При малых длительностях эта зависимость описывается законом
h2t = const,
где h – звуковое давление, t – длительность тонального сигнала, а
произведение h2t имеет смысл энергии сигнала.
Рис. 1.11 иллюстрирует это свойство слуховой системы.
4. Слуховая адаптация. Под этим понимается повышение слуховых порогов (понижение чувствительности), возникающее в результате предшествующей звуковой стимуляции. Слуховая адаптация
характеризуется величиной сдвига пороговой слышимости и временем восстановления первоначальной пороговой чувствительности.
16
I½š
UÅÊ
Рис. 1.11. Иллюстрация свойства накопления сигнала слуховой системы
I½š
UÅÁÆ
Рис. 1.12. Иллюстрация свойства слуховой адаптации
Рис. 1.12 иллюстрирует сказанное. На этом рисунке в качестве
примера приведена зависимость пороговой чувствительности от
времени, прошедшего после прекращения звуковой стимуляции
широкополосным шумом интенсивностью 90 дБ в течение 117 мин
и началом тестирования тоном 4000 Гц. По этой зависимости можно определить время, необходимое для полного восстановления чувствительности.
При воздействии непрерывным шумом имеет значение уровень
шума, ширина его спектра и продолжительность стимуляции, при
стимуляции непрерывным тоном – его частота, интенсивность и
продолжительность стимуляции. На рис. 1.13 показано семейство
зависимостей пороговой чувствительности от частоты для стимуляции чистым тоном. Около каждой из кривых приведены частоты
стимуляции для случая, когда длительность стимуляции составляла 5 мин, а интенсивность 100 дБ. Обращает на себя внимание тот
факт, что максимальное понижение чувствительности наблюдается
17
ª½»Á¼ÈÇÉǼǻ½š
GœÏ
Рис. 1.13. Семейство зависимостей пороговой чувствительности
слуховой системы от частоты для стимуляции чистым тоном
на частоте, лежащей примерно на пол-октавы выше частоты стимуляции.
5. Пространственный слух. У большинства животных и у человека локализация источников звука осуществляется при помощи
двух слуховых каналов (бинауральный слух). Однако у некоторых
видов насекомых положение источника звука локализуется при помощи одного приемника, позволяющего определять направление
смещения молекул воздуха в звуковой волне. Возможность определять направление на источник звука при бинауральном слухе базируется на разности во времени t прихода сложного сигнала к двум
приемникам. Для пояснения сказанного обратимся к рис. 1.14.
На этом рисунке в точках 1 и 2 расположены приемники звука.
Из рисунка следует, что поскольку расстояния l1 и l2 различаются
¡ÊËÇÐÆÁÃÀ»Ìù
M
M
A
C
A
M
$M
Рис. 1.14. Пояснение свойства пространственного слуха
18
на величину Dl= l1– l2, то время прихода сложного звукового сигнала к приемникам 1 и 2 будет различаться на величину Dt = Dl/n,
где n – скорость звука. Если l>>b, где b – база, то a0 ≈ a1, и тогда
Dl = bcosa, а значит t= bcosa/n, откуда находим a = arccos(nt/b). Измеряя t, можно определить направление на источник звука a. Однако это справедливо лишь для сложного звукового сигнала. В том
случае, если сигнал является гармоническим, имеет место неопределенность в установлении направления на источник звука. Эта неопределенность возникает потому, что разность фаз гармонических
колебаний, приходящих к приемникам, не изменяется при перемещении источника звука в точку, расположенную симметрично относительно приемников 1 и 2.
6. Эффект Cocktail party. Описывая наиболее важные функции
слуховой системы, нельзя не упомянуть о так называемом эффекте Cocktail party, который заключается в том, что слуховая система
уверенно выделяет речь собеседника на фоне посторонних шумов и,
особенно, на фоне других разговоров, которые звучат одновременно.
Этому выделению способствует различие в тембрах голосов одновременно говорящих людей и частично информация о мимике говорящего, поступающая от зрительной системы.
1.5. Восприятие речи и музыки
В основе восприятия речи лежат так называемые фонемы – единицы речи (кирпичики). В образовании фонем главную роль играют
согласные, в то время как гласные выполняют функцию своего рода разделителей. В этом можно легко убедиться путем следующего
несложного эксперимента. Возьмем какую-нибудь фразу, запишем
ее, заменив при этом все встречающиеся в словах гласные на какуюлибо одну, например, на «и», а затем предложим кому-нибудь ее прочитать. Легко убедиться в том, что «зашифрованные» таким образом
слова легко узнаются. Аналогичный опыт с заменой согласных дает отрицательный результат. Эта особенность речи позволила в письменности семитских народов отказаться от использования гласных –
семитские тексты, например, арабские, состоят из одних согласных.
Для того чтобы фонемы могли быть различимы, необходим компромисс между разрешением во времени Dt и по частоте Df звуковыми анализаторами DtDf ≈1, который достигается при t ≈ 5·10–3с.
Исследования показали, что за восприятие речи у правши отвечает левое полушарие, а за восприятие музыки – правое, у левши –
наоборот. В настоящее время проблема восприятия звуковых образов не решена.
19
1.6. Методы оценки качества звука
При передаче звуковых сигналов, а также при их консервации в них неизбежно вносятся искажения и помехи. К наиболее
часто встречающимся на практике видам искажений относятся
амплитудно-частотные искажения, фазово-частотные искажения,
нелинейные искажения и так называемые детонации.
Амплитудно-частотные искажения обусловлены неравномерностью амплитудно-частотной характеристики системы, вследствие
чего ее передаточная функция на одних частотах оказывается больше, чем на других. Неравномерность амплитудно-частотной характеристики приводит к изменению тембра звука. Так, например, если в спектре сигнала звука ослаблены низкие частоты, то плохо воспроизводятся басы, при ослаблении верхних частот звук становится
глухим. В любом случае амплитудно-частотные искажения приводят к тому, что звук становится «бесцветным», невыразительным, а
при очень большом их уровне может быть даже утрачена разборчивость речи. Аналогичным образом проявляется ограничение полосы пропускаемых частот, поскольку это эквивалентно ослаблению
до нуля той области спектра, которая при этом подавляется.
Фазово-частотные искажения обусловлены тем, что фазовочастотная характеристика системы отличается от прямой линии,
проходящей через начало координат, вследствие чего одни частотные компоненты спектра запаздывают относительно других, что
приводит к искажению формы сигнала. Довольно распространено
мнение, что наш слуховой аппарат нечувствителен к фазовым искажениям звукового сигнала, но это заблуждение. Фазово-частотные
искажения могут быть малозаметными, только если они малы.
Нелинейные искажения, как уже отмечалось, обусловлены нелинейностью амплитудной характеристики системы, что приводит
при большом уровне сигнала к возникновению гармоник и комбинационных частот. Проявляются нелинейные искажения в виде
хрипов, резко ухудшающих качество звучания, а при большом их
уровне – даже к потере разборчивости речи.
Детонации звука – вид искажений, обусловленный неравномерностью скорости при записи сигнала на магнитную ленту и при его
считывании. Проявляются детонации в виде плавающего звука,
создавая так называемый эффект гавайской гитары.
Стремясь повысить качество воспроизводимого звука, к устройствам предъявляют жесткие требования, что ведет к их усложнению и, как следствие, к неизбежному удорожанию. Для того чтобы
20
найти компромисс между стоимостью звуковоспроизводящей аппаратуры и ее качеством, необходимо было выработать методы оценки
качества воспроизведения звука, а затем осуществлять его контроль
как при разработке, так и при производстве аппаратуры. Конечно,
наилучшим способом оценки качества было бы использование для
этой цели функциональной модели слуховой системы, однако в настоящее время подходящие для этой цели функциональные модели отсутствуют. Поэтому сейчас находят применение два подхода к
оценке качества воспроизведения звука. Первый подход заключается в том, что при разработке аппаратуры задаются допустимые
уровни для каждого из вида искажений, например, задается допустимый уровень неравномерности амплитудно-частотной характеристики в децибелах, допустимая величина отклонения фазовочастотной характеристики от прямой линии, проходящей через начало координат, допустимая величина коэффициента нелинейных
искажений при заданной величине сигнала и т. д. Второй подход
основан на использовании метода экспертных оценок. Оба подхода
применяются на практике, поскольку они дополняют друг друга.
21
2. Зрительная система
2.1. Изображения
Простейшим видом изображения является неподвижное ахроматическое изображение, которое представляет собой функцию,
описывающую распределение яркости Lс на плоскости, т. е. Lс(x, y),
где x и y – декартовы координаты. В случае ахроматического движущегося изображения в написанное выражение добавляется еще
одна независимая переменная – время t, а запись принимает вид
Lс(x, y, t). Цветные изображения натурных сцен, получаемые в результате их оптической проекции на какую-либо поверхность, например, на светочувствительную поверхность датчика телевизионного сигнала, будут в качестве независимых переменных содержать
еще и длину волны светового излучения l. В этом случае для цветного неподвижного изображения будем иметь Lс(x, y, l), а для движущегося – Lс(x, y, t, l), где Lс следует рассматривать как интенсивность излучения на длине волны l в точке с координатами x и
y в момент времени t. Аналогичным образом можно перейти к описанию «объемных» изображений, добавив еще одну пространственную координату z.
Однако современная техника передачи, консервации и демонстрации изображений основана на их представлении в виде ряда
компонент. Так, например, цветное изображение, предназначенное
для вывода на экран телевизора или на экран монитора компьютера,
представляется в виде трех цветоделенных изображений: красного,
зеленого и синего. В полиграфии число цветоделенных изображений берется большим. Аналогичным образом обстоит дело с движущимися изображениями, которые, как известно, представляются
последовательностью неподвижных, быстро сменяющих друг друга
изображений, на каждом из которых зафиксирована соответствующая фаза движения. Быстрая смена этих изображений создает иллюзию движения.
В общем случае последовательность неподвижных цветоделенных изображений, которой представляются реальные цветные движущиеся изображения, обладает одной замечательной особенностью – все они описываются очень похожими характеристиками.
Эта особенность позволяет в дальнейшем сосредоточиться на рассмотрении свойств и методов обработки неподвижных ахроматических изображений и лишь в необходимых случаях выходить за эти
рамки.
22
Отметим, что изображения принято разделять на два класса: семантические, т. е. смысловые, и текстурные,
примеры которых приведены на рис.
2.1 и рис. 2.2. В процессе длительной
эволюции зрительная система человека приспособилась обнаруживать, опознавать и классифицировать не любые
произвольные распределения яркости,
спроецированные зрачком на сетчатку глаза, а лишь те, которые создаются
объектами внешнего мира. В этом легко убедиться, если попытаться обнаружить шумовой узор («шумовой объРис. 2.1. Пример
ект»), показанный на рис. 2.2, б, на фоне
семантического
шумового поля, которое приведено на
изображения
рис. 2.2, а. Эта задача решается с трудом, путем поэлементного сравнения обоих изображений, тогда как
на рис. 2.1 любой объект (любая часть цветка) находится легко и быстро. Отмеченная особенность зрения широко используется в природе для целей камуфляжа. Так, например, неправильной формы
полосы на шкуре тигра делают его плохо различимым в зарослях.
Характерной особенностью изображений реальных объектов является то, что они состоят из областей, разделенных более или меа)
б)
Рис. 2.2. Пример текстурного изображения
23
нее резкими световыми границами, внутри которых яркость и цвет
изменяются сравнительно медленно. Эти световые границы (контуры) передают форму объекта и являются основой для его опознавания. Из опыта известно, что информации, содержащейся в контурах, как правило, вполне достаточно для безошибочного узнавания
объекта. Так, например, мы легко узнаем лицо знакомого человека
по контурному рисунку.
Найдем связь между структурой изображений реальных объектов и их пространственными спектрами, полученными в результате интегрального преобразования Фурье. С этой целью рассмотрим
спектры трех различных по резкости световых границ, ориентированных перпендикулярно к оси x. Поскольку в данном случае яркость изображений не зависит от координаты y, задачу можно существенно упростить, сведя ее к одномерной. На рис. 2.3 приведены
три различных зависимости изменения яркости на границе от координаты x, которые описываются выражениями
ïïì 0 ïðè x £ x0
L1 (x)= ïí
,
ïïL ïðè x > x
0
ïî
L L
- exp éë α (x - x0 )ùû ïðè x £ x0
2 2
ìï
ïï
ï
L2 (x) = ïí
,
ïï L L
ïï + exp éë-α (x - x0 )ùû ïðè x > x0
ïïî 2 2
ìï L
ïï
exp éë α (x - x0 )ùû ïðè x £ x0
ïï 2
L3 (x )= í
.
ïï
L
ïïL - exp éë-α (x - x0 )ùû ïðè x > x0
2
ïïî
Определяя спектры функций L(x, y), в результате преобразований получаем
M1 (w x ) = (L w x )exp éëê-i(π 2 + w x x0 )ùûú ,
(
)
M2 (w x ) = Lπδ (w x )+ éê(Lw x ) α2 + w2x ùú exp éêë-i(π 2 + w x x0 )ùúû ,
ë
û
{( ) êëéw (α
M2 (w x ) = Lα2
x
2
)} exp ëêé-i(π 2 + wx x0 )ûúù ,
+ w2x ùú
û
где wx – круговая пространственная частота, i = -1.
24
-
Y
-
Y
Y
Y
Y
Y
-
Рис. 2.3. Примеры распределения яркости на световых границах
Первое, что обращает на себя внимание, – идентичность фазовых
спектров для всех трех границ. Нетрудно видеть, что информация
о наличии и положении световой границы заключена в фазовом
спектре. Амплитудный спектр не содержит информации о наличии
и положении границы, однако в нем заключена информация о резкости изображения [4].
Из опыта работы с изображениями известно, что изображение
может быть подвергнуто значительным линейным и нелинейным
искажениям, но если при этом искажения фазового спектра будут
невелики, так что они не вызовут исчезновения существующих или
появления новых световых границ, изображение будет оставаться легко узнаваемым. К таким искажениям относятся интегрирование, которое приводит к потере четкости изображений, дифференцирование, приводящее к подчеркиванию границ на изображении, поэлементное преобразование вида u=f(n), где f(n) – монотонная функция, и ряд других. Если же в результате преобразования
изображения существенно искажается его фазовый спектр, то может иметь место полная потеря узнаваемости изображаемого объекта. Наглядный пример тому – потеря различения изображения при
воздействии на него флуктуационным шумом, имеющим большую
25
Рис. 2.4. Исходные (а) и (б) и синтезированные (в) и (г) изображения
дисперсию. В результате такого воздействия плотность вероятности
распределения фазы частотных составляющих зашумленной реализации приближается к равномерной на интервале 0…2w, что влечет за собой полное размытие световых границ на изображении.
Наиболее убедительным доказательством приведенных выше
положений служит эксперимент с восстановлением изображений
по «перепутанным» амплитудным и фазовым спектрам [6]. Эксперимент заключался в том, что для изображений а и б, показанных
на рис. 2.4, находились амплитудные и фазовые спектры, по которым составлялись новые спектры следующим образом:
MÂ (w x , w y )= MÁ (w x , w y )exp éê-iϕ À (w x , w y )ùú ,
ë
û
MÃ (w x , w y )= MÀ (w x , w y )exp êé-iϕÁ (w x , w y )úù ,
ë
û
после чего по спектрам MВ(wx,wy) и MГ(wx,wy) синтезировались изображения в и г, показанные на рис. 2.4. Из рисунка видно, что замена («перепутывание») амплитудных спектров привела лишь к некоторому зашумлению изображений без потери их различимости.
На основании изложенного можно сделать вывод, что при передаче и консервации изображений особое внимание следует уделять
26
точности передачи фазового спектра. В телевидении к этому выводу пришли давно, чисто опытным путем, заметив, что амплитудночастотные и амплитудные (нелинейные) искажения менее заметны
на изображении, чем фазово-частотные.
При решении ряда задач прикладного характера приходится
иметь дело с различением текстурных полей на изображении. В последнее время много внимания уделяется анализу изображений,
полученных при дистанционном зондировании Земли, где вопрос
различения текстур занимает ведущее место. В результате экспериментальных исследований было установлено, что человек способен различать текстурные поля, если они различаются между собой
одномерными плотностями вероятностей распределения яркости в
них или если при одинаковых одномерных плотностях распределения вероятностей имеется различие в функциях автокорреляции.
Если же текстурные поля различаются только плотностями распределения вероятностей третьего или более высокого порядка, то они
визуально не различимы. Это положение носит название гипотезы
Юлеша. Впоследствии рядом исследователей были найдены примеры текстур, противоречащих этой гипотезе, хотя, как отмечают сами исследователи, зрительно эти текстуры трудноразличимы.
2.2. Краткие сведения о строении зрительной системы
Рассмотрим оптику глаза. На рис. 2.5 показан разрез глаза. Наружная часть глаза, называемая склерой, представляет собой упругую оболочку белого цвета, которая в передней части переходит в
прозрачную роговую оболочку.
Под роговой оболочкой расположены радужная оболочка,
хрусталик, а на противоположной стороне склеры – сетчатка.
Внутренняя часть глаза наполнена прозрачным стекловидным
веществом. Перевернутое изображение наблюдаемого объекта фокусируется на сетчатке хрустали- Рис. 2.5. Разрез глаза: 1 – склера,
ком, который представляет собой 2 – роговая оболочка, 3 – сосудистая
двояковыпуклую линзу. Фокус- оболочка, 4 – радужная оболочка,
5 – сетчатка, 6 – зрительный нерв,
ное расстояние хрусталика из7 – центральная ямка,
меняется под воздействием глаз- 8 – хрусталик, 9 – слепое пятно
27
ных мышц, которые изменяют кривизну его поверхности таким образом, чтобы сфокусированное на сетчатке изображение было бы
максимально резким. Как и для большинства одиночных линз, фокусное расстояние хрусталика зависит от длины волны света, синие лучи фокусируются на более близком расстоянии, чем зеленые
или красные. Радужная оболочка играет роль диафрагмы. Диаметр ее отверстия (диаметр зрачка) под воздействием другой группы мышц изменяется при смене интенсивности света. При низкой
освещенности диаметр равен 7,5 мм, при высокой освещенности –
1,8 мм. Когда зрачок сужается, увеличивается четкость изображения на сетчатке [7].
Сетчатка состоит из нескольких слоев, причем слои, обращенные к хрусталику, прозрачны и не препятствуют прохождению света к слою, образованному фоторецепторами двух видов – палочками
и колбочками.
Колбочки, в сетчатке их около 6,5 миллиона, представляют собой светочувствительные клетки, которые входят в систему дневного (фотопического) зрения, способную различать цвета. Эта способность обусловлена тем, что сетчатка включает в себя три типа
колбочек, различающихся между собой спектральной чувствительностью. Один тип колбочек имеет максимум спектральной чувствительности в области красных излучений, другой – в области зеленых, а третий – в области синих излучений. Благодаря тому, что в
центральной части сетчатки (в центральной ямке) каждая колбочка передает возбуждение по отдельному волокну зрительного нерва
в последующие отделы зрительной системы, сетчатка дневного зрения имеет высокое пространственное разрешение.
Палочки, в сетчатке их около 130 миллионов, входят в систему
сумеречного (скотопического) зрения, которая не способна различать цвета и имеет низкое пространственное разрешение, но зато
имеет высокую световую чувствительность. Высокая световая чувствительность палочковой сетчатки обусловлена тем, что сигналы
от большой группы палочек (их насчитывается до 400) объединяются.
В сетчатке, схема синаптических связей которой показана на
рис. 2.6, осуществляется преобразование оптического изображения
в так называемое нейронное изображение, которое представляет собой распределение возбуждений фоторецепторов, а также его первичная обработка. В результате воздействия света на фоторецепторы в них протекает процесс разложения светочувствительного вещества (зрительного пигмента), что приводит к возникновению на
28
их выходах (пресинаптических окончаниях) электрических потенциалов. В глазу одновременно с разложением зрительного пигмента идет процесс его регенерации, причем для каждого уровня освещенности сетчатки устанавливается свое динамическое равновесие
между этими процессами. Фоторецепторы соединены с горизонтальными и биполярными клетками сетчатки, образуя так называемые триады (рис. 2.6).
Согласно современным представлениям, сигналы, которые поступают с фоторецепторов, возбуждают систему горизонтальных клеток. Горизонтальные клетки имеют сильную взаимную связь, так
что возбуждение даже одной из них распространяется по всей системе. Система горизонтальных клеток осуществляет регуляцию передачи сигналов от фоторецепторов к биполярным клеткам, т. е. через
систему горизонтальных клеток осуществляется обратная связь [3].
Рис. 2.6. Схема синаптических связей в сетчатке: R – палочка,
C – колбочка, MB – карликовый биполяр, RB – палочковый биполяр,
FB – плоский биполяр, H – горизонтальная клетка, A – амакриновая
клетка, MG – карликовая ганглиозная клетка, DG – диффузная
ганглиозная клетка
29
Благодаря наличию обратной связи происходит перекодировка сигналов, вследствие которой распределение освещенности на сетчатке
преобразуется в распределение возбуждений биполярных клеток,
которые пропорциональны распределениям локальных и временных контрастов. Другими словами, величина возбуждения (выходной сигнал) оказывается пропорциональной дроби, где в числителе –
разница между локальной освещенностью и средней освещенностью
на сетчатке, а в знаменателе – средняя освещенность сетчатки [2, 5].
Результат принимает положительное значение при включении света (или при переводе взора на светлый участок наблюдаемой сцены)
и отрицательное значение при его выключении. Это преобразование
сигнала триадой создает предпосылки для формирования сигналов
в on- и off-системах и, в частности, сигналов, возбуждающих ганглиозные клетки, показанные на рис. 2.6. Описанный процесс обеспечивает адаптацию зрительной системы к уровню освещенности
наблюдаемой сцены или изображения. Благодаря адаптации динамический диапазон сигналов, представленных в виде возбуждений
биполярных клеток, уменьшается до 2 логарифмических единиц,
тогда как динамический диапазон освещенностей, в котором способна работать зрительная система, составляет около 9 логарифмических единиц.
До настоящего времени остается не ясным, объединены ли горизонтальные клетки сетчатки человека в три отдельные системы,
каждая из которых связана только с одним типом колбочек «красных», «зеленых» и «синих», или же таких систем меньше. Первое
предположение представляется более вероятным, поскольку оно
объясняет ряд экспериментально наблюдаемых фактов, в частности, феномен константности цветового восприятия [5]. Однако пока
было найдено только две системы горизонтальных клеток в сетчатке человека.
Биполярные клетки, в свою очередь, соединены с амакриновыми и ганглиозными клетками, образуя триады, подобные рассмотренным выше. Имеющиеся экспериментальные данные позволяют
предполагать, что амакриновые клетки, подобно горизонтальным
клеткам, также образуют системы связанных между собой клеток,
выполняя регуляцию передачи сигналов от биполярных клеток к
ганглиозным.
Таким образом, в зрительной системе действуют два последовательно включенных механизма адаптации к освещенности наблюдаемой сцены. Первый, реализуемый триадами «фоторецептор –
горизонтальные клетки – биполярная клетка», осуществляющий
30
адаптацию к средней освещенности сетчатки, и второй, реализуемый триадами «биполярная клетка – амакриновые клетки – ганглиозная клетка». Первый механизм инерционен. Время, в течение
которого он обеспечивает адаптацию, измеряется минутами, так
как определяется постоянными времени регенерации зрительных
пигментов. Второй механизм малоинерционный. Необходимость во
втором механизме адаптации обусловлена тем, что в наблюдаемой
сцене встречаются как затемненные участки, так и участки с высокой освещенностью. При наблюдении реальных сцен ось зрения
скачками, с интервалом в десятые доли секунды, перемещается в
пространстве, что приводит к мгновенным изменениям сигнала,
иногда довольно большим. Малоинерционный механизм адаптации
уменьшает динамический диапазон сигналов, возбуждающих ганглиозные клетки, до одной логарифмической единицы. Выполняемое им преобразование сводится к локальному центрированию возбуждающих сигналов относительно среднего значения в пределах
поля ясного видения.
При передаче сигналов от биполярных клеток к ганглиозным
клеткам происходит также их преобразование из аналоговой формы в импульсную. Начиная с ганглиозных клеток по зрительному
нерву передаются сигналы в виде импульсных последовательностей, частота следования импульсов в которых определяется интенсивностью передаваемых сигналов.
Место, в котором зрительный нерв, состоящий примерно из миллиона волокон, выходит из глаза, называется слепым пятном, так
как в этом месте сетчатки нет фоторецепторов.
Зрительные нервы, выходя из глаз, идут к задней части головы,
где они разветвляются на два тракта и перекрещиваются, так что
дальше в каждом зрительном тракте содержатся волокна от обоих
глаз. Оба пучка продолжаются до основания мозга, и каждый соединяется с наружным коленчатым телом. В каждом глазу имеется центральная, приблизительно круглая зона, которая соединена
с обоими полушариями мозга. По сторонам от этой зоны левая половина каждого глаза (если разделить его по вертикали) соединена
с одной стороной мозга, а правая – с другой. В то время как объекты
при центральном зрении представлены в обоих полушариях мозга,
периферические объекты представлены в каком-либо одном полушарии. Наружное коленчатое тело сложной системой нервов соединено с 17-м полем зрительной коры, которое связано с 18-м и 19-м
полями. В зрительной коре происходит анализ зрительной информации.
31
Наиболее изученным отделом зрительной системы является сетчатка, свойствами которой определяются основные психофизические законы. Высшие отделы зрительной системы, локализованные
в зрительной коре, изучены в меньшей степени.
2.3. Адаптация зрительной системы к освещенности
и контрастная чувствительность
Как уже нами было отмечено, взаимодействие рецепторов, системы горизонтальных клеток и биполярных клеток обеспечивает
адаптацию зрительной системы к средней освещенности наблюдаемой сцены. При этом величина сигнала на выходе i-й биполярной
клетки оказывается пропорциональной дроби, где в числителе стоит разность между локальной освещенностью Ii (освещенностью i-го
рецептора) и средней освещенностью на сетчатке I , а в знаменателе – средняя освещенность сетчатки [5]. Так, например, величина
сигнала на выходе биполярной клетки, передающей возбуждение от
колбочки, имеющей максимум чувствительности в области красных излучений, будет равна
I -I
Sêi = Cê i
,
(2.1)
I
где Cк – постоянный коэффициент, согласующий размерности, величина которого определяется спектральной чувствительностью
фоторецептора и спектральным составом излучения.
Аналогичным образом находятся значения сигналов на выходах
биполярных клеток, соединенных с фоторецепторами, имеющими
максимумы чувствительности в области зеленых и синих излучений. Формула (2.1) отражает две важные особенности преобразования распределения освещенности на сетчатке Ii в распределение сигналов на выходе биполярных клеток Sкi, осуществляемых триадой
«фоторецептор – горизонтальная клетка – биполярная клетка»:
– увеличение освещенности изображения в n раз не приводит к
изменению сигналов Sкi, так как при этом числитель и знаменатель
в (2.1) возрастают в одно и то же число раз, что, собственно, и обеспечивает адаптацию;
– сигналы Sкi являются линейными функциями освещенностей
Ii, т. е. преобразование квазилинейно (рис. 2.7).
Благодаря квазилинейности преобразования выполняются
основные законы колориметрии. В частности, восприятия цветового тона и насыщенности не зависят от яркости, а воспринимаемая
яркость стимула является взвешенной суммой цветовых компонен32
4ÃJ
$Ã
*J
*
s
Рис. 2.7. Зависимость Sкi /Cк от Ii I
тов. И, наконец, отметим, что поскольку в результате преобразования, описываемого (2.1), возникают как положительные, так и отрицательные значения сигналов Sкi, то это, как уже указывалось,
создает базу для двух систем – on и off, работающих в разные стороны от нулевого уровня.
Формула (2.1) представляет собой математическое описание закона преобразования распределения освещенности на сетчатке в
распределение возбуждений (сигналов).
Рассмотрим классическую задачу определения порогового контраста в условиях полной адаптации, полагая изображение стимула
в виде диска, состоящего из двух половинок, яркостью Ls+DLs /2 и
Ls–DLs /2, размещенного на окружающем его поле, яркость которого La. Так как освещенность на сетчатке I прямо пропорциональна
яркости соответствующего участка тестового изображения L
I = a0 L, (2.2)
то для средней освещенности сетчатки будем иметь
L = a0 (c1La + Ls ),
(2.3)
где a0 – постоянный коэффициент, согласующий размерности, c1 –
коэффициент, определяющий добавку, которую вносит яркость поля, окружающего стимул, в среднюю освещенность сетчатки.
Вычисляя по формулам (2.1)–(2.3) значения сигналов на выходах
биполярных клеток, возбуждаемых, например, фоторецепторами,
имеющими максимум чувствительности в области красных излучений, на которые проецируются правая и левая половинки стимула,
и взяв разность этих значений, получим
∆Sê =
(
Cê
c1 La + Ls
)
∆Ls. (2.4)
33
В (2.4) множитель, стоящий при DLs, можно рассматривать как
коэффициент передачи, устанавливающий связь между яркостями
элементов стимула и разностью сигналов DSк на выходах соответствующих биполярных клеток. Аналогичным образом находятся
значения DSз и DSс для биполярных клеток, связанных с фоторецепторами, имеющих максимумы чувствительности в областях зеленого и синего излучений. Формулы, по которым вычисляются DSз
и DSс, отличаются от формулы (2.4) лишь коэффициентами пропорциональностей Cз и Cс.
При наблюдении ахроматического изображения (в рассматриваемом случае стимула) в зрительной системе формируются сигналы
DS, пропорциональные сумме сигналов DSк, DSз и DSс
∆S = ∆Sê + ∆Sç + ∆Sñ .
Выполняя очевидные преобразования, получим
∆S =
C
(
c1 La + Ls
)
∆Ls ,
(2.5)
где
C = Cê + Cç + Cñ .
Для того чтобы имело место пороговое обнаружение стимула, необходимо, чтобы разность сигналов DS, обусловленная перепадом
яркости между его половинками DLs, равнялась бы порогу, определяемому среднеквадратичным значением шума в зрительной системе s, угловым размером стимула a и временем его предъявления t,
∆S = D( α, τ) σ, (2.6)
где D(a,t) – функция, учитывающая влияние a и t на величину порога вследствие пространственной и временной суммации. Шум в
зрительной системе и, в частности, в ахроматическом канале, как
известно, включает в себя две компоненты. Первая компонента обусловлена квантовыми флуктуациями светового потока от стимула,
а также флуктуациями, которые возникают в фоторецепторе при
усилении сигнала. Средний квадрат этой компоненты шума σ2F
прямо пропорционален средней яркости стимула Ls:
34
σ2F = gLs , (2.7)
где g – постоянный коэффициент.
Вторая компонента шума обусловлена флуктуационными процессами в последующих нейронах, ее средний квадрат σ2n не зависит от яркости стимула. Поэтому средний квадрат шума в зрительной системе, пересчитанный к выходу биполяров, будет равен
σ2 = σ2n +
C2
(c1La + Ls )2
gLs . (2.8)
Делая подстановку в (2.6) значений DS и s из (2.5) и (2.8), а затем
решая получившееся уравнение относительно DLs /Ls, найдем
æ
ö
çç
c1 La ÷÷÷
∆Ls
G
ç
= δ1 (α, τ )ç1 +
,
(2.9)
÷÷ 1 +
2
ç
÷
Ls
çè
Ls ÷ø
1+c1 La Ls Ls
где обозначено d1(a, t)=D(a, t)sn /C. Значения d1(a, t), G и c1 определяются из экспериментальных данных.
В случае, когда яркость поля, окружающего стимул, равна нулю, а средняя яркость стимула достаточно велика, для того, чтобы можно было пренебречь дробью под квадратным корнем вследствие ее малости по сравнению с единицей, (2.9) переходит в закон
Вебера–Фехнера:
(
)
∆Ls Ls = δ1 (α, τ ),
причем d1(a, t) имеет смысл дифференциального порога, который зависит от углового размера a и времени предъявления t стимула.
В случае, когда яркость поля, окружающего стимул, равна нулю, а средняя яркость стимула настолько мала, что под квадратным
корнем можно пренебречь единицей ввиду ее малости по сравнению
со вторым слагаемым, формула (2.9) переходит в флуктуационный
закон
∆Ls Ls = δ1 (α, τ ) G Ls .
На рис. 2.8 для рассмотренного случая приведены экспериментальные точки, взятые из [7], и теоретическая зависимость, рассчитанная по формуле (2.9). При расчете было принято d1(a, t)=0,02,
G=0,286 кд/м2, с1=0.
Обращает на себя внимание хорошее совпадение расчетных и
экспериментальных данных в интервале изменения яркости, составляющем более семи логарифмических единиц.
35
$ -T
-T
-T ý Å Рис. 2.8. Зависимость DLs /Ls от Ls
$ -T ý Å -T ý Å
Рис. 2.9. Зависимость разностного порога DLs от средней яркости
стимула Ls при различных яркостях поля, окружающего стимул La,
α = 1,5 : La = 3426 (1), 343 (2), 34 (3), 3,4 (4), 0 (5) кд/м2, при расчетах
принято: d1(a, t) = 0,0115, G = 0,46 кд/м2, c1=0,057
36
На рис. 2.9 приведены экспериментальные точки, а также семейство теоретических кривых, рассчитанных по формуле (2.9) для
случая, когда яркость фона, окружающего стимул, не равна нулю.
В данном случае расчетные зависимости также находятся в хорошем согласии с экспериментальными точками во всем диапазоне
измерений.
Формула (2.9) представляет один из законов адаптации, описывающий зависимость дифференциального порога от средней яркости стимула и яркости окружающего его поля, частными случаями
которого являются законы Вебера–Фехнера и флуктуационный.
2.4. Разрешающая способность зрительной системы
в пространстве (острота зрения)
Пространственная разрешающая способность зрительной системы определяется плотностью расположения фоторецепторов сетчатки, а она в высшей степени неравномерна. В центральной части
сетчатки глаза, называемой центральной ямкой, фоторецепторы
расположены наиболее плотно, образуя мозаику, напоминающую
пчелиные соты. В этой области сетчатки расположены в основном
колбочки, максимум спектральной чувствительности которых приходится на область красных или зеленых излучений. Поперечный
размер этих колбочек составляет 0,6 угловой минуты. Малые размеры рецептивных полей, зоны возбуждения которых представлены
одной колбочкой, при малых размерах колбочек и их плотной упаковке обеспечивают высокое пространственное разрешение в этой
области сетчатки. По мере удаления от центра сетчатки размеры рецептивных полей возрастают за счет того, что их зона возбуждения
представляется уже не одной, а несколькими колбочками, что влечет за собой уменьшение пространственного разрешения. При еще
большем удалении от центра сетчатка становится смешанной, состоящей из колбочек и палочек, образующих большие рецептивные
поля. Периферия сетчатки представлена исключительно палочками, рецептивные поля которых состоят из нескольких десятков и
даже сотен палочек.
Обычно разрешающую способность зрительной системы определяют в терминах остроты зрения. Под остротой зрения понимают отношение расстояния, с которого наблюдатель различает деталь объекта, например, разрыв в кольце Ландольта, к расстоянию, с которого эта деталь видна под углом в одну угловую минуту. На рис. 2.10
приведена зависимость остроты зрения от положения различаемой
37
§ÊËÉÇ˹ÀɾÆÁØ»ÇËÆÇÊÁ˾ÄÕÆÔξ½ÁÆÁϹÎ
¦ÇÊÇ»¹Ø
ªÄ¾ÈǾ
ÈØËÆÇ
›ÁÊÇÐƹØ
̼ļɹ½
Рис. 2.10. Зависимость остроты зрения от места раздражения
на сетчатке [7]
детали на сетчатке. По оси абсцисс отложено расстояние проекции
изображения от середины центральной ямки сетчатки в градусах,
по оси ординат – острота зрения в относительных единицах.
Из рис. 2.10 видно, что только очень небольшая часть сетчатки
характеризуется высокой остротой зрения (высоким разрешением),
в то время как острота зрения остальных участков в десятки раз ниже. Измерения показывают, что лишь 20 угловых минут зрительного пространства глаза приходятся на область сетчатки с высоким
разрешением (область фовеолы), тогда как остальные 100 градусов
попадают на область сетчатки с малым разрешением. Из этого следует, что при наблюдении сцен мы не способны их видеть одновременно целиком, а вынуждены рассматривать по частям, формируя
их образ в зрительной памяти. Исследования, выполненные Ярбусом, в которых испытуемому предлагали для наблюдения изображения и при этом записывали движения его глаз, полностью подтверждают это. На рис. 2.11 приведены два изображения. Первое
из них было предъявлено участвовавшему в опытах наблюдателю
для рассматривания, а на втором показаны записанные траектории
движения его глаз во время опыта, а также точки фиксации взора,
которые в основном пришлись на области, где градиент изменения
яркости велик. На рис. 2.11, а показаны проекции области сетчатки
38
а)
б)
в)
Рис. 2.11. Траектории движения глаз при восприятии изображений [6]:
а – изображение, предъявленное испытуемому для наблюдения;
б – запись движения глаза при рассматривании изображения;
в – фрагменты контуров в зоне ясного видения. Точками отмечены
фиксации взора на элементах изображения, тонкими линиями –
траектории движения оси зрения при переводе взора в новую точку
фиксации, окружностями – зоны ясного видения
с высоким разрешением (фовеолы) в виде окружностей, центр которых совмещен с точками фиксации взора. Интересно, что области
фиксации взора располагаются на наблюдаемом изображении таким образом, что на область сетчатки с высоким разрешением проецируются наиболее информативные части наблюдаемого изображения – световые границы.
В процессе рассматривания сцены или изображения ось зрения
совершает скачкообразные движения – саккады. Длительность
скачка, независимо от угла, на который перемещается ось зрения,
составляет 50–60 мс, причем во время скачка происходит подавление зрительного восприятия.
В результате проведенных исследований было также показано,
что в зависимости от решаемой зрительной задачи расположение
точек фиксации взора на изображении может варьироваться в широких пределах, неизменным остается одно – точки фиксации всегда располагаются вблизи контуров на изображениях, обеспечивая
тем самым высокое разрешение наиболее информативных частей
наблюдаемых сцен и изображений.
Традиционно используемая в офтальмологии в качестве меры
разрешающей способности зрительной системы острота зрения является достаточно грубой оценкой. Для более точной характеристи39
ки способности зрительной системы различать мелкие объекты применяют частотную передаточную функцию и частотно-контрастную
характеристику. Для измерения и той, и другой характеристик применяют тестовые изображения в виде решеток, яркость в которых
изменяется по синусоидальному закону
L = L0 + L1 sin w ñ x,
где L0 и L1 – средняя яркость и амплитуда изменения яркости в решетке соответственно, wс – круговая пространственная частота решетки, x – координата, измеряемая в направлении, перпендикулярном полосам решетки.
Частотная передаточная функция зрительной системы K(fx, fy)
показывает, как изменяется оцениваемый наблюдателем контраст
синусоидальной решетки в надпороговых условиях наблюдения в
зависимости от ее пространственной частоты. Для измерения частотной передаточной функции зрительной системы применяют
метод согласования контраста тестовой решетки с контрастом эталонной решетки. Характерными особенностями частотной передаточной функции зрительной системы являются наличие максимума в области около 15 пер/град., небольшой спад в области низких
пространственных частот, обусловленный взаимодействием биполярных, амакриновых и ганглиозных клеток, вызывающим латеральное торможение, и спад в области высоких пространственных
частот, вызванный конечными размерами колбочек и несовершенством оптики глаза. Наличие спада в области низких пространственных частот приводит к небольшому подчеркиванию границ на
изображении. Этот эффект в случае рассматривания градационного
клина называется полосками Маха. На рис. 2.12 представлена частотная передаточная функция для центральной ямки. При переходе к другим областям сетчатки обнаруживается сильный спад частотной передаточной функции в области верхних пространственных частот, причем тем больший, чем дальше от центра проецируется изображение тестовой решетки.
Частотно-контрастная характеристика зрительной системы, в
отличие от частотной передаточной функции, измеряется в пороговых условиях наблюдения, когда обнаружение тестовой решетки ограничивается внутренним шумом зрительной системы. Характерной особенностью частотно-контрастной характеристики является наличие максимума в области пространственной частоты 4
периода на градус и резкий спад как в области низких пространственных частот, так и в области верхних пространственных ча40
,G
Y
GY È¾É ¼É¹½
Рис. 2.12. Частотная передаточная функция зрительной системы
стот. Наличие сильного спада частотно-контрастной характеристики в области низких пространственных частот обусловлено тем, что
спектральная интенсивность внутреннего шума зрительной систе-
£ÇÆËɹÊËƹØÐÌ»ÊË»Á˾ÄÕÆÇÊËÕ
¨ÉÇÊËɹÆÊË»¾ÆƹØйÊËÇ˹Ⱦɼɹ½
Рис. 2.13. Частотно-контрастная характеристика зрительной системы
41
мы имеет резкий подъем в данной области пространственных частот, что было обнаружено как в психофизических, так и в электрофизиологических опытах. Сильный спад частотно-контрастной характеристики в области верхних пространственных частот вызван
также ростом спектральной интенсивности внутреннего шума зрительной системы в этой области, обусловленного пространственной
дискретизацией изображения на сетчатке. На рис. 2.13 приведена
частотно-контрастная характеристика для центральной ямки. Так
же, как и частотная передаточная функция, частотно-контрастная
характеристика зависит от того, на какой участок сетчатки проецируется тестовая решетка.
Знание приведенных выше характеристик необходимо для того,
чтобы иметь возможность оценивать видность искажений на изображениях, обусловленных как помехами, так и искажениями сигнала изображения при его передаче или консервации. Этими характеристиками, в конечном итоге, определяется число строк, на которое разлагается изображение при его вводе в компьютер или при
передаче по каналу связи в телевидении.
2.5. Инерционность зрения
Инерционность зрительной системы обусловлена двумя причинами: инерционностью фотохимических процессов, протекающих
в фоторецепторах сетчатки, и инерционностью процессов распространения сигналов по ее нейронным сетям.
Первый вид инерционности проявляется при изменении средней
освещенности наблюдаемой сцены, в результате которого нарушается динамическое равновесие между скоростями распада и регенерации зрительных пигментов в фоторецепторах. Для восстановления этого равновесия требуется от нескольких минут до нескольких
десятков минут в зависимости от начального и конечного уровней
освещенностей, при которых протекает адаптация.
Инерционность же, определяемая процессами распространения
сигналов в нейронных сетях зрительной системы, проявляется на
более коротких временных интервалах, не превышающих одной секунды.
Рассмотрим механизм возникновения этого вида инерционности.
Известно, что рецептивные поля сетчатки зрительной системы человека включают в себя центральную зону возбуждения и периферическую зону торможения. Таким образом, результирующий сигнал
от рецептивного поля сетчатки представляет собой разность между
42
а)
б)
ªÁ¼Æ¹ÄÔ»ÇÀºÌ¿½¾ÆÁØ
ªÁ¼Æ¹ÄžÄÕùÆÁØ ÁËÇÉÅÇ¿¾ÆÁØ
сигналом возбуждения от центральной зоны рецептивного поля и
сигналом торможения от его периферической зоны. При постоянном во времени равномерном уровне освещенности сетчатки сигнал
возбуждения от центра рецептивного поля и сигнал торможения от
периферии уравновешивают друг друга. Если же освещенность сетчатки изменяется во времени относительно своего среднего значения, например, по синусоидальному закону с частотой мельканий f,
то изменения сигналов торможения относительно изменения сигнала возбуждения будут запаздывать. Чем с более дальней периферии
будет приходить сигнал торможения, тем на большее время он будет запаздывать. Это запаздывание проявляется в том, что фаза изменения сигнала торможения отстает от фазы изменения сигнала
возбуждения, в результате чего они уже не будут уравновешивать
друг друга. При этом по нейронной сети зрительной системы будет
распространяться сигнал разности этих двух сигналов, т. е. сигнал
мелькания. Рисунок 2.14 поясняет изложенное. На низких частотах увеличение частоты мелькания f влечет за собой увеличение
амплитуды сигнала мелькания, или, что то же самое, уменьшение
значения пороговой амплитуды мелькания DI.
Однако так будет продолжаться лишь до тех пор, пока не начнет
проявляться затухание сигналов вследствие разброса латентности
распространения сигналов, а также вследствие инерционности ре-
ªÁ¼Æ¹Ä»ÇÀºÌ¿½¾ÆÁØ
ªÁ¼Æ¹ÄËÇÉÅÇ¿¾ÆÁØ
U
U
Рис. 2.14. Зависимость от времени t сигналов возбуждения, торможения
(а) и мелькания (б)
43
цепторов и проводящих нервных путей и рецепторов. В результате
этого, начиная с некоторой частоты, будет иметь место увеличение
пороговой амплитуды мелькания DI с ростом f, и, наконец, при некотором значении частоты мелькания fкр, которое называется критической частотой мелькания, мелькания станут незаметными. На
рис. 2.15 приведены экспериментальные и расчетные зависимости
1/DI от f.
При частотах мелькания, превышающих критическую частоту,
мелькания незаметны и яркость наблюдаемого поля L(t) кажется
неизменной и пропорциональной своему среднему значению:
T
Lñð =
1
ò L(t)dt, T
(2.10)
0
где T = 1/f – период мелькания.
Формула 2.10 представляет собой закон Тальбота. Этот закон
справедлив не только для случая, когда яркость L(t) изменяется
по синусоидальному закону, но и для любого другого закона ее изменения. Так, если яркость наблюдаемого поля изменяется по импульсному закону, что, например, имеет место при наблюдении те-
-H$*
UE
UE
UE
UE
UE
s
UE
s
UE
s
*Í
UE
s
s
Рис. 2.15. Зависимость 1/DI от f
44
-HG
левизионного экрана, то условие, при котором зрителю будет казаться, что яркость экрана неизменна, запишется следующим образом:
LTu = const, (2.11)
где L – яркость свечения экрана во время импульса, Tu – длительность, в течение которой светится экран.
Выражение (2.11) представляет собой известный закон Блоха–
Шарпантье, который выполняется при условии Tu ≤ 60–100 мс. Критическая частота мельканий, как показали исследования, зависит
как от средней освещенности сетчатки I или, что то же самое, от яркости наблюдаемого мелькающего поля, так и от его угловых размеров. При проектировании устройств воспроизведения изображений,
например, дисплеев, знание этой величины очень важно, так как
на ее основании определяется частота смены кадров. Так, при используемых яркостях экранов компьютерных дисплеев fкр ≈ 60 Гц,
поэтому частота кадров в них выбирается выше этого значения.
Следует заметить, что инерционность центральной части сетчатки
и ее периферической части существенно различны. Инерционность
периферической части сетчатки значительно ниже, в чем легко убедиться, наблюдая экран дисплея боковым зрением: в этом случае
хорошо заметны его мелькания, которые совсем не заметны, если
смотреть на него прямо.
2.6. Восприятие движения
Восприятие движения – одна из важнейших задач, решаемых
зрительной системой. В настоящее время в этой области имеется
много неясного. В общем случае движение может быть разложено
на две компоненты: на радиальную составляющую (движение на наблюдателя или от него) и на тангенциальную составляющую. Почти все характеристики восприятия движения получены для тангенциальной составляющей. Установлено, что для фовеального зрения
минимально различимая скорость движения объекта при наличии
в поле зрения неподвижных ориентиров составляет 1–6 угловых минут в секунду, а при отсутствии ориентиров – 10–20 угловых минут
в секунду. Максимальная скорость, при которой еще воспринимается движение объекта, лежит в пределах 12–32 градуса в секунду.
Установлено также, что чувствительность к восприятию движения
уменьшается от центральной ямки к периферии по линейному зако45
ну. Для периферического зрения при отклонении в 90 от центральной ямки минимальные пороги составляют 18 угловых минут в секунду при наличии неподвижных ориентиров в поле зрения, а при
отсутствии неподвижных ориентиров величина минимальных порогов в 10–20 раз больше.
Для создания ощущения движения объекта необязательно, чтобы его проекция на сетчатку непрерывно смещалась. Это ощущение
не нарушается и в том случае, если на сетчатку глаза проецировать
ряд быстро сменяющих друг друга изображений объекта, на которых представлены последовательные фазы его движения. Именно
это свойство зрения используется для создания иллюзии движения
в кино и в телевидении. Для того чтобы движение воспринималось
плавным, частота смены изображений с различными фазами движения должна быть достаточно большой, иначе движения будут казаться прерывистыми. Чем больше яркость экрана, тем выше эта
частота, однако при используемых яркостях экрана она не превышает 60–70 Гц.
Остановимся еще на таком важном явлении, как смаз движущегося изображения. Известно, что резкие световые границы движущегося объекта воспринимаются зрителем размытыми вследствие
инерционности зрения. Однако если мы наблюдаем изображение
движущегося объекта, границы которого уже размыты и если это
размытие превышает 10 угловых минут, то такое изображение воспринимается нами как более четкое. С таким случаем мы встречаемся при просмотре спортивных телевизионных программ, в которых встречаются сцены с быстрыми движениями. Хотя удовлетворительного объяснения этому феномену нашего зрения пока не найдено, сам феномен может быть использован при разработке методов
сжатия движущихся изображений.
2.7. Восприятие цвета
Способность различать цвета обусловлена наличием в сетчатке
трех типов колбочек, различающихся между собой спектральной
чувствительностью. На рис. 2.16 приведены нормированные кривые спектральной чувствительности, заимствованные из [8]. Максимумы этих кривых, по данным Уолда, приходятся на 430, 540 и
575 нм.
Обращает на себя внимание широкополосность и сильное взаимное перекрытие кривых спектральной чувствительности, особенно
для колбочек, имеющих максимумы спектральной чувствительно46
§ËÆÇÊÁ˾ÄÕƹØ
ÐÌ»ÊË»Á˾ÄÕÆÇÊËÕ
ÄÁƹʻ¾ËǻǻÇÄÆÔÆÅ
Рис. 2.16. Нормированные кривые спектральной чувствительности
колбочек
сти в области красных и зеленых излучений. При проецировании
изображений на сетчатку глаза в колбочках под действием света
происходит распад зрительного пигмента, что приводит к появлению на их выходах электрических сигналов eк, eз и eс, величина которых определяется спектром излучения F(l) и спектральными характеристиками колбочек:
λ ìàêñ
eê =
ò
λ ìèí
ε ê (λ )F (λ )dλ, eç =
λ ìàêñ
ò
λ ìèí
εç (λ )F (λ )dλ, ec =
λ ìàêñ
ò
ε c (λ )F (λ )dλ,
λ ìèí
где eк, eз и eс – сигналы на выходах колбочек, имеющих максимумы
спектральной чувствительности в областях красного, синего и зеленого излучений соответственно1; eк(l), eз(l) и eс(l) – спектральные
характеристики этих колбочек; l – длина волны светового излучения; lмакс и lмин – граничные значения длин волн, определяющих
диапазон световых излучений.
Таким образом, первой операцией, которую выполняет зрительная система над изображением, является его цветоделение. Сигналы с выхода колбочек после предварительной обработки в сетчатке
и перекодировки в ахроматические и две группы цветоразностных
сигналов передаются в высшие отделы зрительной системы по зрительному нерву.
1 Строго говоря, e , e и e представляют собой сигналы на выходе изолированк
з
с
ных колбочек.
47
По-видимому, основной задачей, которая решается при обработке
изображения сетчаткой глаза, является формирование передаваемых
в высшие отделы зрительной системы сигналов, которые были бы не
зависимыми не только от интенсивности освещения наблюдаемой сцены, но и, в значительной степени, от спектрального состава этого освещения. Независимость восприятия цвета от спектрального состава
освещения называется константностью восприятия цвета. Исследованию механизма константности восприятия цвета посвящено большое
количество работ, однако эта проблема до конца не решена.
В настоящее время известно, что в сетчатках некоторых животных и, в частности, рыб горизонтальные клетки объединены в системы, связанные с теми или иными группами фоторецепторов,
имеющих одинаковую спектральную чувствительность. Такая организация сетчатки обеспечивает раздельную регуляцию фоторецепторов с различной спектральной чувствительностью при изменении спектрального состава освещения.
В отношении организации горизонтальных клеток в сетчатках
приматов и человека в настоящее время много неясного. Если, однако, допустить, что в сетчатке приматов и человека присутствуют
3 системы горизонтальных клеток, связанных с фоторецепторами,
имеющими различную спектральную чувствительность, то модель
обработки изображений зрительной системой может быть представлена следующим образом.
При проецировании изображения сцены на сетчатку глаза на выходах колбочек возникают электрические сигналы, которыми возбуждаются три системы горизонтальных клеток, каждая из которых связана с колбочками, имеющими одинаковые спектральные
чувствительности. Возбуждение каждой из систем горизонтальных
клеток пропорционально возбуждению колбочек сетчатки с одинаковой спектральной чувствительностью, усредненному по всем колбочкам данного типа. Через эти системы горизонтальных клеток
осуществляется обратная связь, посредством которой регулируется
передача сигналов от колбочек к биполярным клеткам. В результате сигналы на выходах биполярных клеток, связанных с колбочками, имеющими максимумы спектральной чувствительности в областях красного, зеленого и синего излучений, будут:
sê =
eê - eê
e - eç
e - eñ
, sç = ç
, sñ = ñ
,
eê
eç
eñ
(2.12)
где eê , eç , eñ – средние значения сигналов от этих трех групп колбочек.
48
Из формул (2.12) следует, что триады «колбочка – система горизонтальных клеток – биполярная клетка» осуществляют такое преобразование сигналов, при котором распределения «яркостей» красного, зеленого и синего преобразуются в соответствующие распределения контрастов. Благодаря этому преобразованию достигается
инвариантность к интенсивности освещенности наблюдаемой сцены, поскольку распределение контрастов не зависит от ее величины. Кроме того, это преобразование в значительной степени ослабляет влияние спектрального состава освещения сцены на сигналы
sк, sз и sс1. Дальнейшее преобразование сигналов в сетчатке заключается в перекодировании цветовой информации путем образования из сигналов sк, sз, sс ахроматических и двух групп цветоразностных сигналов в соответствии с равенствами
Uà = sê + sç + sñ , Uê-ç = sê - sç , Uñ-æ = sñ - (sê + sç ),
что после подстановки значений sк, sз, sс из формул (2.12) дает
Uà =
eê - eê eç - eç eñ - eñ
+
+
, eê
eç
eñ
Uê-ç =
Uñ-æ =
eê - eê eç - eç
,
eê
eç
(2.13)
(2.14)
eñ - eñ çæ eê - eê eç - eç ÷ö
÷÷.
-çç
+
çè eê
eñ
eç ÷ø
(2.15)
В результате этого перекодирования по зрительному нерву передается информация уже не о распределении контрастов в «красных», «зеленых» и «синих» компонентах изображения сцены на
сетчатке, а о распределении разностей в этих компонентах. Благодаря этому обеспечивается дальнейшее снижение влияния спектрального состава освещения на восприятие цвета. Существенна
при этом и близость спектральных характеристик «красной» и
«зеленой» колбочек, благодаря чему изменение спектра освещения
меньше влияет на разность сигналов. В литературе имеются сведения, что это перекодирование осуществляется вследствие взаимодействия биполярных, амакриновых и ганглиозных клеток, при
1 Влияние спектрального состава освещения в рассматриваемой модели было бы
сведено к нулю, если бы спектральные характеристики колбочек были бы бесконечно узкими, а число типов колбочек, различающихся спектральными характеристиками и соответствующих им систем горизонтальных клеток, бесконечно большим,
так что весь спектр видимых излучений ими был бы перекрыт.
49
Рис. 2.17. Иллюстрация к пояснению феномена окрашенной тени
этом ряд данных свидетельствует о том, что основную роль в передаче информации о цвете играет красно-зеленая компонента изображения и вторичную – сине-желтая.
Рассмотренная модель предсказывает ряд иллюзий, связанных
с восприятием цвета, и в том числе явление так называемого одновременного цветового контраста, который проявляется, например, в феномене окрашенной тени. Этот феномен можно наблюдать, если на белый экран, равномерно подсвеченный белым цветом, направить яркий пучок лучей красного цвета, на пути которого установить небольшой непрозрачный предмет, как показано
на рис. 2.17. Зрителю будет казаться, что тень, отбрасываемая на
экран непрозрачным предметом, окрашена в зеленый цвет. Объяснение этому явлению дает формула (2.14). Из формулы следует,
что зеленому цвету соответствуют отрицательные значения сигнала Uк–з, красному – положительные. Так как локальный контраст,
определяемый значением сигнала, измеряется относительно среднего значения, то недостаток красного в области тени проявляется
в том, что первая дробь формулы (2.14) становится отрицательной,
что для зрительной системы эквивалентно увеличению абсолютного значения второй дроби, которое имеет место при увеличении
зеленого. Аналогичным образом объясняется явление последовательного цветового контраста.
50
2.8. Восприятие объема
Об удаленности наблюдаемого
¨
объекта можно судить по ряду эфA
фектов, сопровождающих процесс
наблюдения.
Первым и, по-видимому, глав- ˜
%
#
ным эффектом является эффект
уменьшения угловых размеров наB
блюдаемого объекта по мере его
¤
удаления. Если нам известны истинные линейные размеры объек- Рис. 2.18. Суть стереоэффекта
та, а также его угловые размеры,
то не составляет труда определить его удаление от точки наблюдения. Примерами, иллюстрирующими это положение, может служить просмотр кинофильмов, телевизионных передач, фотографий
и картин, написанных с соблюдением законов перспективы. При
наблюдении этих изображений у нас не возникает проблем с оценкой расстояния объектов от точки наблюдения.
Вторым эффектом, обеспечивающим восприятие объема, является стереоэффект, суть которого поясняется на рис. 2.18.
На этом рисунке символом А помечен точечный объект, который
наблюдается с расстояния D. Условно в виде окружностей показаны
правый и левый глаза наблюдателя, расстояние между которыми
(база) равно B. Из рисунка следует, что когда наблюдатель смотрит
в направлении объекта, а оси зрения глаз параллельны, проекции
объекта на сетчатки глаз оказываются взаимно смещенными. Обусловлено это тем, что углы между направлением на объект и нормалью к базе для каждого из глаз отличны от нуля и имеют противоположные знаки, т. е. a=–β. Чем ближе к наблюдателю расположен
объект, тем больше абсолютные значения этих углов и, следовательно, тем больше будет взаимное рассовмещение проекций объектов
на сетчатках глаз, так называемая диспарантность. Благодаря наличию диспарантности воспринимается глубина пространства занимаемого объектом.
2.9. Выделение изображений объектов из шума
В пороговых условиях опознавания (обнаружения) известных
объектов лимитирующим фактором является шум. Это может быть
внутренний шум зрительной системы, если наблюдаемое изображение имеет очень малый контраст, шум светового потока, если на51
блюдение ведется при низкой освещенности, шум, наложенный на
изображение при его передаче по каналу связи, и т. д. В процессе обработки изображения зрительной системой имеет место пространственная фильтрация этого шума.
В 1958 г. была выдвинута и опубликована гипотеза [4], согласно
которой пространственная фильтрация зрительной системой опознаваемого зашумленного изображения объекта, все параметры которого априорно известны, является согласованной фильтрацией.
В соответствии с этой гипотезой, опознаваемое изображение L(x, y)
сравнивается с эталонным изображением Lc(x, y, i) и идентифицируется с тем эталоном, для которого
é L(x, y)- Lñ (x, y, i)ù 2 = min,
ë
û
т. е. выполняется правило
¥ ¥
¥ ¥
-¥ -¥
-¥-¥
2
2
ò ò [ L( x, y) - Lñ ( x, y, j)] dxdy < ò ò [ L( x,y) - Lñ ( x,y,i)] dxdy,
описывающее алгоритм Зигерта–Котельникова. Здесь i и j – номера
эталонов. При этом i =1, 2, 3,…, N, но i ¹ j. Дальнейшие эксперименты подтвердили справедливость этой гипотезы [4].
Амплитудно-частотная характеристика эквивалентного согласованного фильтра применительно к задаче обнаружения изображения объекта с априорно известными параметрами имеет вид
K (w x , w y )= kM* (w x , w y ),
где k – коэффициент, согласующий размерности; M*(wx, wy) – функция, комплексно сопряженная спектру изображения объекта.
В том случае, когда часть параметров опознаваемого изображения априорно не известна, они находятся путем перебора. Например, если априорно не известно положение объекта на плоскости
изображения, т. е. не известны его координаты x и y, то правило
принятия решения принимает вид
¥ ¥
2
ò ò [ L( x, y) - Lñ ( x - ξ, y - η, j)]mindxdy <
-¥ -¥
¥ ¥
<
-¥-¥
52
2
ò ò [ L( x, y) - Lñ ( x - ξ, y - η,i)]mindxdy,
где ξ и h – переменные, которые подбираются для каждого из интегралов таким образом, чтобы его значение было бы минимальным.
2.10. Модель Ч. Холла и Е. Холла
При проектировании и оптимизации параметров систем обработки и передачи изображений отсутствие формализованного критерия
качества воспроизведения изображений, функционально связанного с электрооптическими характеристиками разрабатываемых систем, вызывает серьезные трудности.
В настоящее время для оценки качества воспроизведения изображений на экране монитора компьютера или на экране телевизора используется либо метод экспертных оценок, либо набор так называемых частных критериев, к числу которых относятся разрешающая способность, отношение сигнал/шум, число воспроизводимых градаций яркости, погрешности воспроизведения цвета и т. д.
Значения частных критериев определяются параметрами системы и
могут быть вычислены. Недостатком первого метода является отсутствие математических выражений, устанавливающих связь между
оценкой и электрооптическими характеристиками аппаратуры, недостатком второго – невозможность сравнивать системы, которые
различаются между собой по разным частным критериям. Так, например, если система А имеет большую разрешающую способность,
но меньшее отношение сигнала к шуму, чем система В, то, не опираясь на опыт, невозможно решить, какая из двух сравниваемых систем воспроизводит более качественное изображение. Из приведенных рассуждений следует, что метод экспертных оценок не может
быть использован при аналитическом решении оптимизационных
задач, а метод частных критериев – при решении оптимизационных
задач, в которых имеют место обменные операции между отдельными частными критериями качества, как, например, в известной задаче апертурной коррекции при наличии шума.
Попытки создать обобщенный критерий качества воспроизведения изображений путем комбинирования частных критериев, а
также другие эвристические подходы к решению этой задачи, как
известно, не увенчались успехом.
Более обнадеживающие результаты при создании критериев качества воспроизведения изображений были получены путем разработки и применения для этих целей функциональных моделей
зрительной системы человека, позволивших при оценке качества
учитывать свойства зрения. В качестве примера на рис. 2.19 при53
­ÁÄÕËÉÆÁ¿ÆÁÎ
ÈÉÇÊËɹÆÊË»¾ÆÆÔÎ
йÊËÇË
¤Ç¼¹ÉÁÍÅÁоÊÃǾ
ÈɾǺɹÀÇ»¹ÆÁ¾
ØÉÃÇÊËÁ
­ÁÄÕËÉ»¾ÉÎÆÁÎ
ÈÉÇÊËɹÆÊË»¾ÆÆÔÎ
йÊËÇË
Рис. 2.19. Функциональная модель зрения, предложенная Ч. Холлом
и Е. Холлом
ведена одна из первых таких моделей, предложенная Ч. Холлом и
Е. Холлом. Первое звено этой модели, согласно определению, даваемому авторами, представляет собой фильтр нижних пространственных частот и соответствует линейным преобразованиям изображения в оптической части глаз. Второе – поточечное логарифмическое преобразование яркости в величину, пропорциональную
ее ощущению. И, наконец, третье звено модели – фильтр верхних
пространственных частот – учитывает линейные преобразования
при формировании так называемого нейронного изображения. При
этом, как отмечают авторы модели, совместное действие фильтров
нижних и верхних пространственных частот приводит к усилению
в нейронном изображении спектральных составляющих средних
пространственных частот. Несмотря на наивность представлений
о характеристиках зрительной системы, положенных в основу этой
модели, она позволяла получать достаточно надежные оценки видности флуктуационного шума на изображении путем вычисления
среднего квадрата разности между зашумленной и незашумленной
компонентами нейронных изображений на ее выходе.
Серьезным недостатком рассмотренной модели, а также других функциональных моделей зрения является то, что, к сожалению, все они позволяют получать более или менее надежные оценки только видности флуктуационного шума на изображении, но не
позволяют оценивать видность искажений другого типа. Попытки
оценить видность других искажений с помощью этих моделей, например, ухудшения резкости при апертурных искажениях, приводят к результатам, которые расходятся с оценками зрителей.
2.11. Оценка видности искажений методом Бакуса–Гильберта
Для одновременного учета искажений, вносимых гауссовым шумом и частотными искажениями, например, апертурными искажениями, был предложен метод, суть которого в том, что при формировании среднего квадрата суммарной оценки σ2Σ эти искажения
входят в нее с различными весовыми коэффициентами:
54
σ2Σ = λσ2ñ + σ2ø ,
где σ2ñ – средний квадрат компоненты, обусловленной частотными
искажениями; σ2ø – средний квадрат компоненты, обусловленной
флуктуационным шумом; l – весовой коэффициент при компоненте σ2ñ , при шумовой компоненте весовой коэффициент принят равным единице.
Объясняется это тем, что, как показали экспериментальные исследования, частотные искажения изображения для зрителя оказываются более заметными, чем искажения, вызванные флуктуационным шумом. Это следует из того, что, в отличие от флуктуационного шума, компонента, обусловленная частотными искажениями, имеет сильные взаимно корреляционные связи. Измерения
показали, что величина весового коэффициента, в зависимости от
условий наблюдения изображения, лежит в пределах 4<l<6 [5].
2.12. Новая функциональная модель зрительной системы
Проведенный анализ причин несовершенства оценок видности
на изображениях искажений, не связанных с флуктуационным
шумом (речь идет об оценках, полученных путем использования
указанных функциональных моделей зрения), выявил общие для
них недостатки, которые обусловлены тем, что ряд важных свойств
зрения в этих моделях не учитывается. В результате этого анализа
Н. Н. Красильниковым была предложена более совершенная обобщенная функциональная модель зрения человека, свободная от
этих недостатков, которая показана на рис. 2.20. При разработке
обобщенной функциональной модели зрения в целях упрощения
были приняты допущения, согласно которым считается, что сетчатка глаза обладает пространственной непрерывностью и инвариантностью. Принятие этих допущений позволило ввести в рассмотрение частотные характеристики отдельных звеньев зрительной системы. В модель также введены переключатели, которые могут занимать два положения. В первом положении переключателей в модель вводится (запоминается) эталонное неискаженное изображение, при втором положении переключателей в модель вводится оцениваемое изображение, которое в модели сравнивается с эталонным
изображением и измеряется степень их различия.
Согласно рассматриваемой нами обобщенной функциональной
модели зрения, процесс наблюдения изображения и оценка качества его воспроизведения протекают следующим образом. Ось зре55
56
Ýòàëîííîå
èçîáðàæåíèå
1
2
Èñêàæåííîå
èçîáðàæåíèå
Àäàïòàöèÿ
2
2
1
2
1
1
Çðèòåëüíàÿ ïàìÿòü
(Ñ–Æ)
[ ]2
Çðèòåëüíàÿ ïàìÿòü
(à)
2
[]
Çðèòåëüíàÿ ïàìÿòü
(Ê–Ç)
[ ]2
Рис. 2.20. Обобщенная функциональная модель зрения
Ïåðâè÷íàÿ
ôèëüòðàöèÿ
Õðîìàòè÷åñêèé êàíàë
(Ñ–Æ)
Ïåðâè÷íàÿ
ôèëüòðàöèÿ
Àõðîìàòè÷åñêèé êàíàë
(à)
Ïåðâè÷íàÿ
ôèëüòðàöèÿ
Õðîìàòè÷åñêèé êàíàë
(Ê–Ç)
Çâåíî ôîðìèðîâàíèÿ îöåíêè
E3
ния, скачкообразно изменяя свое положение вследствие саккадических движений глаз, фиксируется вблизи контуров так, что в зоне
ясного видения располагаются фрагменты контуров, подобные тем,
что показаны на рис. 2.11. Поскольку одновременно все изображение в деталях зритель рассмотреть не может вследствие ограниченности зоны ясного видения, полное изображение наблюдаемой сцены формируется в его памяти последовательно во времени (на так
называемом инвариантном экране детекторов в терминологии психологов). Так как искажения на наблюдаемом изображении, обусловленные помехами, потерей четкости и другими причинами,
различимы только в зоне ясного видения, т. е. на фрагментах границ, попадающих в зону ясного видения, то и оценка их зрительной
системой производится только на этих фрагментах.
Несовершенство оптики глазных сред при проецировании изображения на сетчатки глаз приводит к уменьшению его контраста,
а также к ослаблению в нем верхних пространственных частот, которое в первом приближении может быть учтено посредством функции рассеяния точки h0(x, y) или связанной с ней через преобразование Фурье частотной передаточной функцией K0(wx, wy), где wx, wy –
круговые пространственные частоты. Сетчатки глаз осуществляют
цветоделение изображения с образованием трех цветоделенных составляющих eк(x, y), eз(x, y), eс(x, y) (красной, зеленой и синей), представленных в сетчатках глаз в виде возбуждений рецепторов:
eê (x, y) =
λ ìàêñ
ò
EΩ (x, y, λ )ε ê (λ )dλ,
λ ìèí
eç (x, y) =
λ ìàêñ
ò
EΩ (x, y, λ )εç (λ )dλ,
λ ìèí
eñ (x, y) =
λ ìàêñ
ò
EΩ (x, y, λ )ε ñ (λ )dλ,
λ ìèí
где EW(x, y, l) – распределение интенсивности света на сетчатке после фильтрации оптикой глаз исходного изображения L(x, y, l); eк(l),
eз(l), eс(l) – характеристики спектральной чувствительности «красных», «зеленых» и «синих» колбочек; l – световая длина волны;
lмин и lмакс – границы светового диапазона длин волн. Далее в сетчатках глаз, как уже было рассмотрено в подразд. 2.7, формируются
57
яркостная (ахроматическая) и две цветоразностные (красно-зеленая
и сине-желтая) компоненты изображений (сигналов):
Uà (x, y) =
eê (x, y)- eê
eê
Uê-ç (x, y) =
Uñ-æ (x, y) =
eç (x, y)- eç
eç
eê (x, y)- eê
eñ (x, y)- eñ
eñ
+
eê
-
+
eñ (x, y)- eñ
eñ
eç (x, y)- eç
eç
,
,
æ e (x, y)- e
e (x, y)- eç ö÷
ê
-ççç ê
+ ç
÷÷÷.
çè
eê
eç
ø
Затем благодаря взаимодействию биполярных, амакриновых и
ганглиозных клеток сетчатки эти компоненты подвергаются пространственной фильтрации. В результате этой фильтрации спектр
пространственных частот цветоразностных компонент становится
приблизительно в три раза уже спектра яркостной компоненты, а
в спектре яркостной компоненты за счет латерального торможения
происходит небольшое ослабление низких пространственных частот, в результате которых возникает эффект полосок Маха. Факт
сужения спектра цветоразностных компонент позволил в совместимых системах цветного телевидения для передачи телевизионных
цветоразностных сигналов использовать более узкие полосы частот,
чем для передачи яркостного сигнала, а в цифровых системах телевидения передавать эти сигналы с более низкой частотой отсчетов.
Свойства указанных фильтров могут быть описаны введением
соответствующих функций рассеяния точки (профилей активности
ганглиозных клеток) ha(x, y), hк–з(x, y), hс–ж(x, y). В результате перечисленных преобразований получаются три нейронных изображения наблюдаемого в данный момент фрагмента контура искаженного изображения:
Bà (x, y) = Uà (x, y)Ä hà (x, y),
Bê-ç (x, y) = Uê-ç (x, y)Ä hê-ç (x, y),
Bñ-æ (x, y) = Uñ-æ (x, y)Ä hñ-æ (x, y),
где Ä – символ свертки.
Оценка качества воспроизведения изображения, как уже отмечалось, заключается в сравнивании оцениваемого изображения с
неискаженным эталонным изображением, нейронные версии ах58
роматической и цветоразностных компонент которого Bэ,а(x, y),
Bэ,к–з(x, y), Bэ,с–ж(x, y) находятся к моменту сравнения в зрительной
памяти. При сравнении вычисляются средние квадраты разностей:
2
ε2à = éëê Bà (x, y)- Bý,à (x, y)ùûú ,
2
ε2ê-ç = éëê Bê-ç (x, y)- Bý,ê-ç (x, y)ùûú ,
2
ε2ñ-æ = éêë Bñ-æ (x, y)- Bý,ñ-æ (x, y)ùúû ,
которые комбинируются в результирующую оценку
ε2Σ = ε2à + ε2ê-ç + ε2ñ-æ .
Обратим внимание, что оценка ε2Σ вычисляется в зоне ясного видения, определяемой размерами центральной части сетчатки (фовеолы), равной примерно 20 угловым минутам. Эта оценка инвариантна к яркости наблюдаемого изображения, но зависит от расстояния,
с которого оно рассматривается, что вполне естественно, поскольку с увеличением расстояния заметность ряда видов искажений
уменьшается.
В качестве примера рассмотрим использование модели для оценки видности искажений, обусловленных аддитивным флуктуационным шумом на ахроматическом телевизионном изображении.
Поскольку изображение ахроматическое, то компоненты Bк–з(x, y)
и Bс–ж(x, y) будут тождественно равны нулю, а следовательно,
2
ε2Σ = éêë Bà (x, y)- Bý,à (x, y)ùúû .
Из структуры модели следует, что нейронные изображения
Bа(x, y) и Bэ,а(x, y) связаны с соответствующими им оптическими
изображениями через частотную передаточную функцию KS(wx, wy),
которая представляет собой произведение частотной передаточной
функции оптической части глаза K0(wx, wy) на частотную передаточную функцию Ka(wx, wy), описывающую фильтрацию ахроматической компоненты, обусловленную взаимодействием биполярных,
амакриновых и ганглиозных клеток сетчатки:
KΣ (w x , w y )= K0 (w x , w y )Kà (w x , w y ),
где
59
Kà (w x , w y )=
¥
ò
-i(w x x+w y y)
hà (x, y)e
dxdy.
-¥
Так как оптическое изображение, искаженное шумом L(x, y), отличается от эталонного Lc(x, y) лишь шумовой компонентой Lш(x, y),
то и нейронные изображения Ba(x, y) и Bэ,а(x, y) будут различаться
тоже только компонентой шума в месте их сравнения. Таким образом, оценка ε2Σ представляет собой не что иное, как средний квадрат флуктуационного шума в месте, где сравниваются искаженное и эталонное изображения. Зная спектральную интенсивность
Sш(wx, wy) шума, наложенного на оптическое изображение, и частотную передаточную функцию, описывающую фильтрацию ахроматического изображения KS(wx, wy) в зрительной системе, не составляет труда вычислить оценку:
ε2Σ =
k1
¥ ¥
ò ò
4π2 -¥-¥
Sø (w x , w y )KΣ (w x , w y )dw x dw y ,
где k1– постоянный коэффициент.
В аналоговой телевизионной системе спектральная интенсивность шума не зависит от пространственной частоты wy, т. е. имеет
вид Sш(wx), поэтому формула для ε2Σ запишется как
ε2Σ
1
=
2π
¥
ò
Sø (w x ) A1 (w x )dw x ,
-¥
где
A1 (w x ) =
k1
2π
¥
ò
KΣ (w x , w y )dw y .
-¥
Выражая пространственную круговую частоту через «временную» частоту f в герцах, а спектральную интенсивность шума Sш(wx)
через энергетический спектр Fш(f), запишем окончательно:
ε2Σ
¥
= ò Fø (f ) A0 (f )df, 0
(2.16)
где A0(f)= A1(wx)b – весовая функция; b – постоянный коэффициент,
согласующий размерности.
Оценка видности шума на телевизионном изображении путем
измерения или расчета его взвешенного значения в соответствии
60
"G
½š
GœÏ
Рис. 2.21. Весовая функция
с (2.16) была предложена Шейдом как чисто эмпирический метод.
Необходимость такой оценки была вызвана тем, что видность шума
на телевизионном изображении сильно зависит от его спектрального состава. Так, например, видность шума с равномерным распределением энергии по спектру частот и шума, энергия которого сосредоточена в области высоких частот, возрастая пропорционально
квадрату частоты (шум с треугольным спектром), в зависимости от
условий наблюдения, может различаться до 3-х раз. На рис. 2.21 показана зависимость A0(f).
2.13. Методы оценки качества воспроизведения изображений
В настоящее время для определения качества воспроизведения
изображения широко применяется метод экспертных оценок. Этот
метод заключается в том, что наблюдателю вначале предъявляется эталонное изображение, качество которого принимается равным
высшей оценке используемой шкалы, а затем изображение, которое
он должен оценить. Метод экспертных оценок широко используется в телевидении. Он стандартизован для субъективных экспертиз в
документах Международного консультативного комитета по радио
(МККР). Несмотря на то, что применяются пятибалльные шкалы
оценок, опыт показывает, что они не достаточно подробны. В связи
с этим высказываются мнения о целесообразности использования
5-балльной шкалы со ступенями 1/2 и даже 1/4 балла.
В ходе экспертиз получают обычно большое число оценок, поэтому вопрос рационального представления результатов имеет важное
значение. Современные методы обработки результатов экспертиз
заключаются в том, что находится средняя оценка функции от искажений, а разброс результатов оценок наблюдателей выражается
61
среднеквадратичным отклонением. Развитие этого метода в значительной степени было определено работами Проссера, Аллнатта и
Левиса, а также других авторов.
При обработке результатов измерений, полученных при использовании пятибалльной шкалы, средняя оценка в баллах определяется следующим образом:
5
1
gñð =
ini ,
å
N
i =1
где N – полное количество оценок; ni – количество оценок в i баллов.
Пятибалльные оценки g удобно преобразовать в нормализованные
оценки p, занимающие интервал в пределах от нуля до единицы:
p = (g -1) 4.
В современной методике оценки качества воспроизведения изображений используют такое понятие, как единица ухудшения качества, выражаемая в импах (от слова «impairment» – ухудшение).
Ухудшение I и оценка качества связаны соотношением
I = 1 p -1.
При изменении качества от нуля до единицы ухудшение изменяется от бесконечности до нуля. Авторы этой методики исходили из
предположения, что ухудшения качества воспроизведения изображения Ii, обусловленные воздействием различных факторов, суммируются, при этом величина результирующего ухудшения Iрез,
выраженная в импах, равна
n
Iðåç = å Ii ,
i=1
где n – число различных видов искажений, приводящих к ухудшениям качества воспроизведения.
В соответствии с этим была разработана методика, устанавливающая аналитическую зависимость между величиной ухудшения Ii
и величиной искажений, обусловленных воздействием какого-либо
одного фактора, например, уровня шума, величины эхо-сигнала и
т. п.:
Ii = e-Qi ,
где Q – некоторая функция искажений.
62
Зависимости ухудшений от величины искажений называются
характеристиками ухудшений. Эти характеристики были измерены и опубликованы.
Дальнейшие исследования показали, что при изменении p в пределах от 0 до 1 между экспериментальными и расчетными данными имеет место расхождение, при этом среднеквадратичная ошибка
расчетных данных составляет 0,083–0,13. В целях увеличения точности расчетов было предложено результирующее значение ухудшений определять путем квадратичного суммирования частных
ухудшений:
n
2
Iðåç
= å Ii2 .
i=1
Переход к квадратичному суммированию ухудшений действительно позволил повысить точность расчетов в области высоких
оценок, среднеквадратичная погрешность при этом уменьшилась
до величины 0,028–0,033, однако в области низких значений p это
привело к ее увеличению до 0,14–0,28, т. е. до четверти шкалы, что
недопустимо.
В настоящее время в области создания оценок качества продолжаются интенсивные исследования. Наиболее перспективным направлением таких исследований, как нам представляется, является определение видности результирующих искажений на основе более глубокого учета свойств зрения, в результате разработки и использования более совершенных функциональных моделей зрения.
С этой целью более подробно рассмотрим структуру изображений.
2.14. Представление изображений в виде контурных,
градиентных и фактурных компонент
При наблюдении сцены свет от рассматриваемых объектов попадает на сетчатки глаз и создает на них изображения. Для дальнейшего рассмотрения эти изображения удобно представить в виде
композиции контурных, градиентных и фактурных компонент.
Под контурными компонентами будем понимать линии, которые определяют положения световых границ на изображении, т. е.
границ, при пересечении которых значения яркости и/или цвета
изменяются скачком. Контурные компоненты представляют собой
проекции на сетчатки глаз оболочек объектов, составляющих сцену, т. е. поверхностей, отделяющих объекты от окружающего их
пространства. Форма контурных компонент определяется форма63
ми самих оболочек объектов, а также ракурсами и расстояниями,
под которыми они рассматриваются. При этом форма контурных
компонент не зависит ни от расположения, ни от интенсивности,
ни от спектрального состава источников света, освещающих наблюдаемую сцену. Константность, а следовательно, и информативность
контурных компонент велика. Этим объясняется тот хорошо известный факт, что зрители легко узнают изображаемые объекты по
контурному рисунку.
Контурные компоненты, как известно, играют основную роль
при опознавании изображений объектов, составляющих сцену, а
также при определении их взаимного положения зрительной системой. Исследования зрительной коры высокоорганизованных животных показали, что в ее 19-м поле имеются так называемые сверхсложные рецептивные поля, посредством которых реализуются механизмы выделения довольно сложных элементов контуров, таких
как углы, дуги и т. д. Эти механизмы иногда называют детекторами.
Важность контуров подтверждается исследованиями Ярбуса, который показал, что зрительная ось при наблюдении изображений
фиксируется преимущественно в районе контуров (рис. 2.11).
Контурные компоненты обладают двумя важными свойствами:
1) поскольку между оболочками реальных объектов, составляющих сцену, и окружающим их пространством за редкими исключениями имеются резкие границы, то их проекции, т. е. изображения
объектов, также имеют четкие световые и цветовые границы (контуры), отделяющие их от фона, на котором они наблюдаются. Размытие световых границ в реальных изображениях, с которым приходится встречаться на практике, обычно обусловлено несовершенством аппаратуры или ее плохой настройкой. Поэтому обработка
изображений практически любых объектов, заключающаяся в замене размытых границ резкими границами, будет восприниматься
зрительной системой как улучшение качества их воспроизведения;
2) как правило, оболочки реальных объектов, за исключением
отдельных изломов, носят гладкий, не зазубренный характер. Из
этого следует, что контуры в изображениях также являются гладкими.
Градиентные компоненты определим как области изображения, ограниченные контурами, каждая точка которых представляет значение сглаженной, плавно изменяющейся яркости. Константность этих компонент ниже, чем константность контурных компонент, так как распределение яркости в них зависит не только от ко64
эффициента отражения поверхности объекта, а также взаимного
расположения наблюдаемого объекта и точки наблюдения (съемки),
но и от условий освещения объекта, которые могут сильно варьироваться. По этой причине при опознавании изображений объектов,
составляющих сцену, а также при определении их взаимного положения зрительной системой градиентные компоненты, как правило, играют меньшую роль.
Фактурные компоненты определим как области, каждая точка
которых представляет величину отклонения яркости от значения,
определяемого соответствующей градиентной компонентой.
Термин «фактура», который мы здесь вводим, отличается от общепринятого термина «текстура». Здесь и далее под фактурой будем понимать текстуру, из которой предварительно удалены и отнесены к контурной компоненте все световые и цветовые границы,
если они имеются. Поясним сказанное примером текстуры, на которой изображена кирпичная кладка. В нашем определении эта текстура разделяется на контурную компоненту, на которой изображены границы кирпичей, и фактурную компоненту, представляющую
неоднородность поверхности кирпичей. Как будет видно далее, такое представление в ряде случаев оказывается более удобным. Разделение изображения на компоненты, подобные описанным выше
компонентам, неоднократно предпринималось ранее, в частности,
при разработке методов сжатия изображений.
Проведенные исследования показали, что фактурные компоненты носят шумовой характер. При наблюдении реальных объектов, как правило, имеющих фактуру, зрительная система человека
лишь частично использует информацию, содержащуюся в фактурной компоненте. Согласно гипотезе Юлеша, зрительная система легко различает два шумовых рисунка только в том случае, если они
отличаются между собой плотностями вероятности первого порядка или спектральными интенсивностями (энергетическими спектрами) при одинаковых плотностях вероятностей первого порядка.
В противном случае, для их различения требуется поэлементное
сравнение рисунков (рис. 2.2). Таким образом, при наблюдении объектов зрительная система человека не использует информацию, заключенную в конкретной реализации их фактур, а использует лишь
информацию, заключенную в спектральных интенсивностях и, в
меньшей степени, заключенную в распределениях плотностей вероятностей первого порядка фактур наблюдаемых объектов. Другими
словами, зритель не замечает замены одной реализации текстуры
другой, если спектральная интенсивность и плотность вероятности
65
первого порядка новой текстуры совпадают со спектральной интенсивностью и плотностью вероятности первого порядка прежней.
По некоторым экспериментальным данным, фактуры обладают
фрактальными свойствами, т. е. при увеличении изображения их
статистические характеристики остаются неизменными.
2.15. Восприятие изображений зрительной системой человека
Зрительная система предназначена для наблюдения и опознавания не любых, произвольных распределений яркости, а таких распределений яркости, которые могут соответствовать реальным объектам, а следовательно, распределений яркости, которые можно
представить композицией контурных, градиентных и фактурных
компонент.
При наблюдении сцен и их изображений зрительная система человека «выделяет» на них контурные, градиентные и фактурные компоненты, представляющие те или иные объекты или их части. При
этом зрительная система «из опыта знает», какими могут и должны
быть контурные, градиентные и фактурные компоненты изображения, представляющие ту или иную часть объекта. Если эти компоненты отличаются от тех, какими они должны быть, это воспринимается как искажение изображения. Примерами таких искажений
являются размытие световых границ, наличие шума, присутствие
посторонних узоров в виде муарового рисунка, обусловленного шумом пространственной дискретизации, наличие ложных контуров,
вызванных недостаточным количеством уровней квантования, и т. д.
Как дефект изображения воспринимается также отсутствие фактуры на объектах, где она ожидается, например, на лице человека.
Лица на таких изображениях выглядят «кукольными».
Не все части изображения для зрительной системы человека являются семантически равноценными. На семантически значимых
участках изображения малейшие искажения легко замечаются, в
то время как значительные искажения других, семантически малозначимых участков остаются незамеченными. Этот факт хорошо
известен и используется при сжатии изображений. Например, в методе сжатия JPEG-2000 предусмотрена поддержка кодирования отдельных областей изображения (глаза и т. д.) с лучшим качеством.
Из изложенного непосредственно следует, что при воспроизведении изображения для того, чтобы оно было оценено зрительной системой как совершенное, необходимо с малой погрешностью воспроизводить положения световых границ, в меньшей степени это отно66
сится к точности воспроизведения градиентных компонент и еще в
меньшей степени – к точности воспроизведения фактурных компонент.
Неправильное воспроизведение градиентных компонент нелокального характера, в том числе изменения яркости и цвета вдоль
контурных компонент, которое обычно обусловлено нелинейностью
световой характеристики, например, при контрастировании изображения, воспринимаются наблюдателем как изменение условий
освещения наблюдаемой сцены, а не как искажение изображения,
если только они не чрезмерно велики. В случае, если ошибки воспроизведения градиентных компонент носят локальный характер,
они хорошо заметны на изображении и воспринимаются как помеха.
При воспроизведении фактурных компонент, как уже отмечалось, их можно заменять реализациями шума, статистические характеристики которых совпадают со статистическими характеристиками соответствующих фактурных компонент.
Рассмотренный подход к структуре изображений подсказывает
естественный путь для разработки методики оценки качества их
воспроизведения. Особенностью этой методики должен быть учет
различной «чувствительности» зрения к искажениям контурных,
градиентных и фактурных компонент, о чем было сказано выше.
67
Заключение
Данное издание является третьим по счету в фактически складывающейся серии учебных пособий, посвященных изучению различных аспектов мультимедиатехнологий. Сейчас мультимедиатехнологии интенсивно развиваются, они очень востребованы, эта
область интересна и привлекательна для освоения и профессиональной работы. Авторы надеются, что данное пособие окажется
полезным для студентов и аспирантов, поскольку рассмотренный в
нем материал является базовым для понимания многих вопросов,
связанных как с аппаратной поддержкой мультимедиатехнологий,
так и с проблемами обработки и передачи звуковой и графической
информации. Знание основ сенсорного восприятия человека позволит будущим специалистам грамотно подходить к разработке новых мультимедийных приложений, глубже вникать в суть актуальных задач в данной области и находить наиболее эффективные пути
их решения, обеспечивая то качество представления информации,
которое необходимо ее получателю – человеку.
Рекомендуемая литература
1. Алябьев С. И. и др. Радиовещание и электроакустика: учеб. для
вузов /под ред. Ю. А. Ковамина. М.: Радио и связь, 2000. 792 с.
2. Бондарко В. М., Данилова М. В., Красильников Н. Н. и др. Пространственное зрение. СПб.: Наука, 1999. 218 с.
3. Глезер В. Д. Зрение и мышление. Л.: Наука, 1985. 246 с.
4. Красильников Н. Н. Теория передачи и восприятия изображений. М.: Радио и связь, 1986. 247 с.
5. Красильников Н. Н. Цифровая обработка изображений. М.: Вузовская книга, 2001. 319 с.
6. Оппенхейм А. В., Лим Дж. С. Важность фазы при обработке сигналов // ТИИЭР. 1981. т. 69. № 5. С. 39–54.
7. Физиология сенсорных систем. Часть первая: Физиология зрения /под ред. Г. В. Гершуни. Л.: Наука, 1971. 416 с.
8. Физиология сенсорных систем. Часть вторая. Л.: Наука, 1971.
702 с.
68
Документ
Категория
Без категории
Просмотров
0
Размер файла
2 611 Кб
Теги
krasilnikov
1/--страниц
Пожаловаться на содержимое документа