close

Вход

Забыли?

вход по аккаунту

?

Аппаратный комплекс и алгоритмы основанные на методах машинного обучения для измерения характеристик облачности над океаном

код для вставкиСкачать
На правах рукописи
Криницкий Михаил Алексеевич
АППАРАТНЫЙ КОМПЛЕКС И АЛГОРИТМЫ,
ОСНОВАННЫЕ НА МЕТОДАХ МАШИННОГО ОБУЧЕНИЯ,
ДЛЯ ИЗМЕРЕНИЯ ХАРАКТЕРИСТИК ОБЛАЧНОСТИ
НАД ОКЕАНОМ
Специальность 25.00.28 – Океанология
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Москва – 2018
Работа выполнена в Федеральном государственном бюджетном учреждении
науки Институте океанологии им. П.П. Ширшова Российской академии наук
Научный руководитель:
доктор физико-математических наук,
профессор,
член-корреспондент РАН,
Гулев Сергей Константинович
Официальные оппоненты:
Местецкий Леонид Моисеевич
доктор технических наук, профессор кафедры
математических методов прогнозирования
факультета вычислительной математики и
кибернетики Федерального государственного
бюджетного образовательного учреждения
высшего образования «Московский
государственный университет имени
М.В. Ломоносова»
Чернокульский Александр Владимирович,
кандидат физико-математических наук,
научный сотрудник Федерального
государственного бюджетного учреждения
науки Института физики атмосферы
им. А.М. Обухова Российской академии наук
Ведущая организация:
Автономная некоммерческая образовательная
организация высшего профессионального
образования «Сколковский институт науки и
технологий»
Защита состоится « 14 » июня 2018 г. в 14 ч. 00 мин. на заседании
диссертационного совета Д 002.239.03 при Федеральном государственном
бюджетном учреждении науки Институте океанологии им. П.П. Ширшова
Российской академии наук по адресу: Нахимовский пр., д. 36, г. Москва, 117997.
С диссертацией можно ознакомиться в библиотеке и на сайте
http://www.disser.ocean.ru
Федерального
государственного
бюджетного
учреждения науки Института океанологии им. П.П. Ширшова Российской
академии наук Института.
Автореферат разослан “_____”
2018 г.
Ученый секретарь диссертационного совета,
кандидат геолого-минералогических наук
Политова Надежда Вячеславовна
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность
исследования.
Облачность
является
ключевой
метеорологической характеристикой, определяющей потоки коротковолновой и
длинноволновой солнечной радиации на поверхности океана и суши. Кроме того,
облачность играет важную роль в гидрологическом цикле атмосферы над океаном,
определяя интенсивность осадков и атмосферных фазовых переходов влаги.
Поэтому исследование характеристик облачного покрова является важнейшей
задачей океанологии и метеорологии. Над океаном на сегодняшний день
производятся систематические наблюдения балла общей облачности (далее БОО),
балла облачности различных ярусов; а также определяются состояние диска Солнца
(далее СДС) и типы облачности. Все характеристики облачного покрова
оцениваются
визуально
согласно
руководящим
документам
[«Наставления...» РД 52.04.316-92]. Несмотря на существенную историческую
продолжительность визуальных наблюдений за облачностью (с начала XVIII века),
они характеризуются неравномерной плотностью распределения данных и низкой
точностью оценок вследствие субъективизма наблюдателя. Более того, количество
попутных судовых наблюдений (Voluntary Observing Ship) за облачностью в
последние 20–30 лет неуклонно снижается [Aleksandrova, Gulev, Belyaev, 2018], что
связано с уменьшением количества наблюдательных судов, а также повсеместным
использованием
средствами
автоматических
наблюдений
за
измерительных
облаками.
Таким
станций,
не
оснащаемых
образом,
решение
задачи
автоматизации измерений пространственных характеристик облачного покрова
необходимо
для
дополнения
существующих
автоматических
средств
метеонаблюдений.
К настоящему моменту разработаны и в некоторых случаях внедрены в
практику стационарные средства автоматических наблюдений за облачностью. В
большинстве своем они представляют собой аппаратные комплексы, основным
функциональным элементом которых является цифровая оптическая фотокамера
видимого диапазона спектра. Характеристики облачности оцениваются по
получаемым широкоугольным снимкам видимой полусферы неба с использованием
специализированных алгоритмов обработки изображений. Однако такие установки,
в силу конструкторских ограничений, по различным параметрам не приспособлены
для долговременных измерений в морских условиях. Кроме того, используемые
4
алгоритмы оценки БОО характеризуются существенными неопределённостями.
Это определяет актуальность настоящей работы, нацеленной на разработку
программно-аппаратного
комплекса,
позволяющего
проводить
автономные
наблюдения за облачным покрытием с поверхности Земли в условиях
долговременных морских экспедиций, а также на разработку алгоритмов оценки
характеристик облачности по данным инструментальных наблюдений.
Цель работы: создать и внедрить в опытную эксплуатацию судовой
программно-аппаратный комплекс для проведения автоматических наблюдений за
облачностью над океаном и разработать алгоритмы, обеспечивающие получение
достоверных оценок пространственных характеристик облачности. В соответствии
с поставленной целью в диссертационной работе решались следующие задачи:
1. Исследование существующих устройств для автоматического наблюдения за
облачностью и оценка их применимости для долговременных измерений в
морских условиях.
2. Разработка, проектирование, изготовление и ввод в эксплуатацию опытного
образца судового программно-аппаратного комплекса для долговременной
автоматической оптической съемки облачности над океаном.
3. Обоснование и разработка алгоритмов оценки пространственных характеристик
облачности,
превосходящих
существующие
аналоги
по
точности
и
универсальности.
4. Разработка
программного
обеспечения,
реализующего
разработанные
алгоритмы оценки характеристик облачности.
5. Апробация созданного программно-аппаратного комплекса в условиях
долговременных
морских
экспедиций
при
различных
характеристиках
облачности.
Научную новизну исследования составляют основные положения,
выносимые на защиту:
 Проведен детальный анализ существующих устройств для автоматических
наблюдений за облачностью и обоснована необходимость создания нового
программно-аппаратного комплекса для автономных наблюдений за облачностью в
океане;
 Выполнен сравнительный анализ существующих алгоритмов оценки
пространственных характеристик облачности над океаном и показано, что
5
существующие методы обладают низкой точностью, не универсальны и, как
правило, нуждаются в регулировке оператором;
 Разработан, изготовлен и апробирован судовой программно-аппаратный
комплекс для автоматических оптических измерений облачности над океаном,
значительно
превосходящий
существующие
аналоги
по
точности
и
обеспечивающий возможность измерений в морских условиях;
 Впервые
разработаны,
протестированы
и
введены
в
практическую
эксплуатацию алгоритмы, основанные на методах машинного обучения, для
определения состояния диска Солнца и оценки балла общей облачности по
цифровым широкоугольным оптическим снимкам видимой полусферы неба.
Показано, что оценка пространственных характеристик облачности с применением
разработанных алгоритмов в 99% случаев совпадает с визуальными наблюдениями,
в то время как аналогичный показатель для существующих методик не
превышает 30%.
Научная и практическая значимость работы заключается в следующем:
 Созданный
программно-аппаратный
комплекс
в
совокупности
с
разработанными алгоритмами, основанными на методах машинного обучения,
позволяет проводить полностью автономные измерения характеристик облачности
над океаном с высоким временным разрешением;
 Разработанные алгоритмы оценки характеристик облачности превосходят по
точности существующие методы, что в сочетании с автономностью разработанной
установки открывает возможность проведения непрерывного мониторинга
характеристик облачности над океаном;
 Подтверждена
гипотеза
компактности
снимков
в
пространстве
действительных признаков изображений, что позволяет проводить автоматические
измерения визуально наблюдаемых характеристик облачности, таких как типы
облаков, высота нижней границы облачности и пр.;
 Разработанный комплекс может быть использован для наблюдений как над
морем, так и над сушей; может применяться для оценки целесообразности
установки солнечных электростанций; а также использоваться как прибор для
оценки высоты нижней границы облачности и других пространственных
характеристик облачности.
6
Достоверность научных результатов обеспечивается: (1) тестированием
всех разработанных алгоритмов по независимым данным; (2) множественной
проверкой результатов работы алгоритмов на различных подвыборках натурных
данных; (3) апробацией всех технических и алгоритмических решений на больших
массивах измерений, выполненных в широком спектре режимов облачности в
разных районах Мирового океана с высоким пространственным и временным
разрешением.
Личный вклад автора заключается в: (1) разработке, проектировании,
изготовлении и испытаниях комплекса автономных измерений характеристик
облачности над океаном; (2) разработке методики проведения наблюдений с
использованием
созданной
установки;
(3) проведении
экспедиционных
исследований в море и получении массива натурных данных; (4) адаптации методов
машинного обучения к задачам оценки характеристик облачности по данным,
получаемым с помощью созданной установки и оптимизации параметров
разработанных алгоритмов; (5) создании пакета программного обеспечения,
автоматизирующего сбор данных с учетом особенностей наблюдений в море, а
также оценку характеристик облачности по полученным данным; (6) подготовке
полученных результатов к публикации в ведущих российских и зарубежных
научных
журналах,
представлении
на
международных
конференциях
и
симпозиумах.
Апробация диссертационной работы. Результаты настоящей работы были
представлены на заседании Ученого совета Физического направления ИО РАН 1
декабря 2017 г., а также на объединенном заседании Ученых советов технического
и геологического секторов ИО РАН 14 декабря 2017 г. Основные результаты
докладывались на ежегодных ассамблеях Европейского союза наук о Земле (EGU,
2014, 2017 и 2018 гг.) в г. Вена, Австрия, на ежегодных собраниях Европейского
метеорологического сообщества (EMS, 2014 и 2016 гг.), на 19-ой Международной
школе-конференции
электричество.
молодых
Климатические
ученых
«Состав
процессы»
атмосферы.
(САТЭП,
Атмосферное
2015 г.,
п. Шепси
Краснодарского края), на Международном симпозиуме "Атмосферная радиация и
динамика"
(МСАРД,
2015 г.,
г. Санкт-Петербург),
на
Международном
радиационном симпозиуме (IRS, 2016 г., г. Оклэнд, Новая Зеландия), 17-ой
7
международной
конференции
по
облачности
и
осадкам
(ICCP,
2016 г.,
г. Манчестер, Англия).
Публикации. Материалы диссертации изложены в работах, опубликованных
соискателем. По теме диссертации опубликовано 3 работы, в том числе 2 статьи в
рецензируемых журналах из списка ВАК, 8 тезисов докладов на конференциях. На
установку, автоматизирующую сбор данных получен патент №2589463 от 8 июня
2016 г.
Благодарности. Автор выражает глубокую признательность своему
научному руководителю, члену-корреспонденту РАН, д.ф.-м.н., проф. С.К. Гулеву.
Автор благодарит сотрудника Лаборатории взаимодействия океана и атмосферы и
мониторинга климатических изменений (ЛВОАМКИ) ИО РАН к.ф.-м.н. А.В.
Синицына за наставления и рекомендации при проведении исследований, а также
за содействие при разработке описываемой в диссертации установки. Автор
благодарит
коллектив
ЛВОАМКИ
ИО
РАН,
в
особенности
к.ф.-м.н.
А.В. Гаврикова, к.ф.-м.н. В.Г. Григорьеву, П.С. Вереземскую и Ю.А. Зюляеву, за
ценные научные консультации, плодотворное сотрудничество и неоценимую
поддержку. Автор выражает признательность к.ф.-м.н. А.И. Гинзбург и к.г.-м.н.
Н.В. Политовой за помощь и рекомендации при подготовке диссертации.
Структура и объем диссертации. Работа состоит из введения, четырех глав,
заключения, списка использованных источников и двух приложений. Полный
объем диссертации составляет 186 страниц, включая 70 рисунков и 18 таблиц.
Библиографический список включает в себя 79 наименований, в том числе 47 на
иностранных языках.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во Введении представлена общая характеристика работы, краткий обзор
состояния проблемы; обоснована актуальность темы диссертации; сформулирована
основная цель исследования, изложены поставленные задачи. Представлены
основные положения, выносимые на защиту, научная и практическая значимость
работы, обозначен личный вклад автора.
В
Главе 1
программно-аппаратные
подробно
комплексы
исследованы
для
наиболее
автоматизации
известные
наблюдений
за
облачностью и детально проанализированы современные алгоритмы оценки балла
общей облачности по данным, получаемым с помощью таких установок.
8
В задаче автоматической оценки характеристик облачности с поверхности
Земли наиболее распространен способ с использованием оптических снимков
видимой полусферы неба, получаемых специализированными устройствами –
облачными (cloud-) камерами или скай-камерами (от англ. cloud camera, sky camera)
с широкоугольными объективами. В зависимости от исполнения камера
направляется либо в зенит, либо на полусферическое зеркало в надир. Сегодня
существует несколько конструкций клауд-камер, отличающихся друг от друга
разрешением светочувствительного элемента, углом обзора, рекомендуемыми
условиями эксплуатации, возможностями управления. В конструкцию некоторых
установок вносится солнцезащитный элемент, который отслеживает положение
Солнца и закрывает от него камеру, что позволяет исключить засветку снимка.
Аппаратные наблюдения за облачностью в морских условиях имеют свои
особенности.
Оборудование
эксплуатируется
в
условиях,
существенно
отличающихся от условий наблюдений на суше, в частности, постоянным
брызгообразованием морской соленой воды. Клауд-камеры жестко крепятся на
платформе (корпусе судна), поэтому качка вносит значительные краевые искажения
в регистрируемое изображение видимой полусферы неба. Кроме того, установки,
применяющие солнцезащитный элемент, не могут быть использованы в условиях
подвижной платформы, поскольку устройства, отслеживающие положение Солнца,
рассчитаны на статическую ориентацию всего комплекса в пространстве.
Современные клауд-камеры не приспособлены к перечисленным особенностям
эксплуатации, поэтому создание нового устройства, позволяющего проводить
автономные долговременные наблюдения за облачностью над океаном, является
актуальной задачей.
Основной характеристикой пространственного распределения облачности
над точкой наблюдения является балл общей облачности. Для оценки БОО по
снимкам видимой полусферы неба разработаны специализированные алгоритмы
[Long et al., 1998; Yamashita et al., 2004; Yamashita, Yoshimura, 2012; Kazantzidis et
al., 2012]. Наиболее распространенные из них были воспроизведены автором и
протестированы на натурных данных, собранных в научных экспедициях на судах
ИОРАН, с целью последующего детального и объективного сравнения.
Базовым подходом всех существующих алгоритмов является так называемая
семантическая сегментация – присвоение метки класса («ОБЛАКО» или
9
«ЧИСТОЕ НЕБО»)
каждой
точке
изображения.
Для
этого
производится
преобразование цветного цифрового снимка размерности  ×  в матрицу
значений контрольного индекса такого же размера. Наиболее часто используемыми
являются клауд-индекс (Cloud Index) [Long et al., 1998] и скай-индекс (Sky Index)
[Yamashita et al., 2004]. Классификация пикселей изображения производится по
величине
контрольного
индекса
с
использованием
граничных
значений,
минимизирующих среднюю абсолютную ошибку оценки БОО на большой выборке
снимков. Отдельно маской выделяются пиксели класса «НЕ ИСПОЛЬЗУЕТСЯ»,
представляющие изображения зданий, посторонних предметов и др., а также
незначимые угловые области изображения. На рис. 1 приведен пример описанной
сегментации. В работе также воспроизведены и проанализированы более сложные
схемы определения принадлежности точек снимка к соответствующим классам.
Среди них встречаются как параметрические, так и определяемые функционально,
например, расширение алгоритма «Sky Index» c динамически определяемым
пороговым значением BIth классификации пикселей для т.н. индекса яркости
(Brightness Index) [Yamashita, Yoshimura, 2012].
Показатель количества наблюдаемой облачности во всех схемах, основанных
на подходе семантической сегментации, оценивается как доля пикселей,
классифицированных как «ОБЛАКО», в числе всех точек изображения за вычетом
маски. При оценке БОО указанная доля рассчитывается округлением, исходя из 8балльной или 10-балльной шкалы облачности.
(а)
(б)
Рис. 1. (а) Исходный широкоугольный снимок видимой полусферы неба и (б) визуализация
совокупности решений о классификации пикселей на классы «ОБЛАКО» (отображаются
белым цветом), «ОТКРЫТОЕ НЕБО» (отображаются синим цветом) и «НЕ
ИСПОЛЬЗУЕТСЯ» (отображается черным цветом)
В настоящей работе используется 8-балльная шкала, рекомендованная
Всемирной Метеорологической Организацией [WMO-No.8, 2014]:
10
̂8 = 8 ∗  (


),

(1)
̂8 – оценка БОО, в т.н. октах;  – количество точек изображения,
где 
классифицированных как «ОБЛАКО», 
– общее количество точек
изображения, принимаемых в расчет за вычетом маски.
Рассмотренные в диссертации схемы оценки БОО отличаются друг от друга
только способом вычисления контрольного индекса, граничного значения для
классификации,
количеством
таких
индексов
уточняющих разделение пикселей на классы.
и
модификацией
условий,
Анализ наиболее широко
используемых алгоритмов оценки БОО выявил общие для них особенности:
- во всех схемах за исключением «Brightness Index» диск Солнца учитывается
в качестве области класса «ОБЛАКО», систематически увеличивая оценку
величины облачного покрытия. При этом «Brightness Index» неустойчиво
определяет маску диска Солнца, например, в случаях разорванной облачности;
- оценка БОО существенно зависит от настроечного параметра алгоритма, с
помощью которого добиваются либо в среднем несмещенной оценки БОО, либо
повышения точности в условиях известных особенностей повторяемости типов
облачности для конкретного района. Однако сама необходимость такой подстройки
лишает рассматриваемые алгоритмы свойств универсальности и автономности;
- характер контрольных индексов в сочетании с особенностями правил
разделения пикселей на классы «ОБЛАКО» и «ЧИСТОЕ НЕБО» определяют
низкую чувствительность к оптически тонкой облачности.
Для оценки алгоритмов в диссертации применяются следующие меры
качества: средняя ошибка алгоритма (обозначено как (∆), в октах с долями);
медианная ошибка алгоритма ((∆), в октах с долями); среднеквадратическое
отклонение оценки БОО от показаний наблюдателя ((∆), в октах с долями);
доля верно определенных значений БОО (, в процентах); доля значений БОО,
определенных с ошибкой не более, чем в 1 окта (С1, в процентах).
Из приведенных в Таблице 1 показателей видно, что современные алгоритмы
оценки БОО в целом демонстрируют одинаково невысокую точность. Исходя из
результатов
проведенного
анализа,
в
качестве
ключевых
требований,
предъявляемых к создаваемым установке, методу и алгоритмам, были выбраны:
11
высокая точность, соблюдение преемственности методики наблюдений, полная
автономность и универсальность с точки зрения использования в любых условиях.
Таблица 1. Показатели качества алгоритмов оценки БОО
(∆)
(∆)
(∆)
Acc
С1
Sky Index
0.0
0.0
2.06
27%
62%
Cloud Index
0.0
0.0
2.06
27%
62%
Brightness Index
-0.03
-0.04
2.29
29.5%
61.5%
Глава 2 посвящена описанию разработанной автором установки для
автономных наблюдений за облачностью над океаном, подробному изложению
методики проведения морских экспедиционных исследований, а также описанию
массива натурных данных, полученных в пяти экспедициях ИОРАН.
Установка
получила
рабочее
название
«SAIL
cloud
v.2»
(Sea-Air Interaction Laboratory), под которым она фигурирует в публикациях. Этот
комплекс представляет собой совокупность связанных блоков, спроектированных и
собранных с учетом всех особенностей наблюдений в море. Общая блок-схема
установки приведена на рис. 2.
Рис. 2. Функциональная блок-схема клауд-камеры «SAIL cloud v.2». (1) Персональный
компьютер управления (ПКУ); (2) коммутатор сети Ethernet с поддержкой подачи питания
(технология PoE); (3) Ethernet-кабель связи ПКУ с коммутатором; (4,7) устройства
определения положения (УОП) блоков регистрации; (5,8) цифровые широкоугольные
оптические камеры; (6,9) блоки регистрации (БР); (10,11) и (12,13) совмещенные Ethernetкабели питания и информационного обмена для блоков регистрации
Использование современной элементной базы позволило значительно
сократить габариты созданной установки по сравнению с наиболее популярными
клауд-камерами. Применение одноплатных компьютеров в блоках регистрации
(далее БР) и использование совместимых модульных функциональных устройств
12
сделало возможным программное отслеживание ориентации камер в пространстве.
Благодаря этому захват снимков с фотокамер производится в момент прохождения
БР горизонтального положения. В БР также встроены устройства определения
географического положения (датчик GPS/ГЛОНАСС). Применение технологии
передачи питания по кабелю Ethernet (power over Ethernet, PoE) позволило
сократить количество интерфейсных проводов до одного на каждый БР. Это
существенно упрощает и ускоряет процедуру развертывания установки на борту
судна.
Установка
«SAIL
cloud
v.2» собрана
с
соблюдением
требований,
предъявляемых к эксплуатации приборных комплексов на морских судах. В
частности, все элементы и сочленения, находящиеся за пределами сухой
лаборатории, выполнены в пыле- и влагозащитном исполнении, а количество
сочленений минимизировано. Опытная эксплуатация комплекса в пяти морских
экспедициях
(рис. 3)
показала
его
применимость
в
широком
диапазоне
климатических условий. Общая продолжительность наблюдений составила 164
суток, а максимальная продолжительность непрерывной автономной работы
установки в морских условиях – более 90 суток. Исследования проводились в
различные сезоны и охватывали Атлантический и Индийский океаны, Средиземное
и Красное моря.
Для
автоматизации
наблюдений
и
обработки
результатов
автором
разработано 37 специализированных программ и библиотек функций на различных
языках программирования (C#, C, C++, Python, Octave). Общий объем кодовой базы
составляет более 160 тыс. операторов. При проектировании программного
обеспечения автор придерживался принципа минимальной связности программных
компонентов, что позволяет регулировать состав и источники внешних данных, не
затрагивая функциональность основной части программного комплекса, связанной
с камерами. Кроме того, при реализации программ применялся принцип
параллельности исполнения логически независимых операций, что позволяет
получать снимки с обоих БР с расхождением во времени не более 15мс. Назначение,
интерфейс и порядок работы с программами подробно описаны в Приложении 1 к
диссертации. Программное обеспечение, реализованное для автоматизации
процесса наблюдений, позволяет полностью исключить оператора из процесса.
13
Рис. 3. Маршруты экспедиций
Методика проведения измерений разрабатывалась в соответствии с
руководящими документами [«Наставления...» РД 52.04.316-92, РД 52.04.562-96], а
также учитывала многолетний опыт наблюдений за облачностью. Для получения
достоверных результатов параллельно с измерениями установкой «SAIL cloud v.2»
проводились независимые визуальные наблюдения.
Согласно
руководящим
документам,
наиболее
точными
оценками
пространственных характеристик облачного покрытия считаются показания
наблюдателя, которые регистрируются ежечасно и содержат: БОО, оценки балла
облачности различных ярусов и СДС. Также используются показания судовой
метеостанции (как при наличии автоматической станции, так и при проведении
метеонаблюдений человеком). Данные установки «SAIL cloud v.2» сохраняются с
дискретностью от 2 с. до 30 с. (по выбору исследователя) и включают синхронные
пары цифровых широкоугольных оптических снимков видимой полусферы неба,
данные геопозиционирования; показания судовой навигационной системы и
судовой метеостанции (при наличии).
Снимки видимой полусферы неба отбирались по принципу временного
соответствия
срокам
визуальных
наблюдений.
Согласно
[Kassianov, Long, Ovtchinnikov, 2005] среднее время декорреляции облачного
покрова составляет 15 минут. Допустимое временное отклонение, в пределах
которого показания наблюдателя считались соответствующими снимку, было
14
ограничено пятью минутами. Общее количество снимков после фильтрации
составило 98874 шт. В соответствии с [Long, 2010] аналогичное отклонение для
показателя СДС было установлено в 1 минуту, что позволило получить 26774
снимков. На рис. 6 синим цветом приведены распределения полученных данных по
значениям БОО и СДС.
Глава 3 посвящена описанию аналитического варианта алгоритма оценки
БОО (рабочее название «GrIx SAIL ML»). Алгоритм был разработан на основе
подхода
семантической
изображения
в
поле
сегментации
значений
с
использованием
контрольного
индекса
преобразования
с
последующей
классификацией пикселей по значению этого поля.
Для повышения чувствительности к оптически тонкой облачности автором
предложен специальный контрольный индекс, характеризующий степень серости
пикселя как единственную надежную меру идентификации белых или серых
облаков на снимке («индекс степени серости» или «grayness rate index», далее ).
Индекс  (2) имеет смысл, обратный насыщенности в цветовой модели HSV; для
устранения зависимости от яркости применяется нормирование на яркость точки Y:
 = 1 −
( ,  ,  )
,

(2)
где R,G,B – компоненты цвета точки в цветовой модели RGB в каждой точке снимка
(i, j) , Y – яркость точки. Стандартное отклонение ( ,  ,  ) используется
как мера разброса значений R,G,B, т.е. мера отклонения цвета от абсолютно
ненасыщенного. Таким образом, индекс  проявляет высокую чувствительность
к тонкой облачности и равен 1.0 для всех абсолютно ненасыщенных цветов (белый
и серый различной яркости).
При анализе экспедиционных данных измерений было установлено, что
области снимка вблизи солнечного диска, а также в зоне около горизонта имеют
менее насыщенный цветовой фон неба, а зависимость индекса GrIx от значения ,
характеризующего удаление пикселя от солнечного диска, всегда подчиняется
общей эмпирической закономерности, даже в тех ситуациях, когда сам диск Солнца
закрыт облаками:
 () =  () =  (, 0 , 1 , … ,  ) ,
(3)
15
argmin
, 0 , 1 , … ,  =

1
,0 ,1 ,…, 
2
∑ ( ( ) −
 =0
min
∈[ ; +1),∀
(, )) ,
(4)
 ∈ [2; 6] ∩ ℤ ,
0 , 1 , … ,  ∈ ℝ ,
{
 = argmin((, )) ,
(5)
(, ) =  () ∗ 1 ∗ (1 cos( − 0 ) + √ 2 − 2 2 sin2 ( − 0 )) ,
(6)
,∀
1
1 , 1 , 2 , , 0 = argmin (
1 ,1 ,2 ,,0 
2
∑
((, , , ) − , ) ) .
(7)
,∈  0
Здесь   0 – область снимка, классифицируемая как «ЧИСТОЕ НЕБО»
алгоритмом «GrIx SAIL» без применения схемы фильтрации фона чистого неба;  –
количество пикселей этой области;  () – базовая аналитическая зависимость
значений фонового поля  от расстояния от диска Солнца  на конкретном
снимке. В настоящей работе эта зависимость аппроксимируется  () – полиномом
степени n с параметрами 0 , 1 , … ,  . (, ) – искомая зависимость поля значений
GrIx фона чистого неба от углового расстояния  от диска Солнца и угла 
анализируемой точки. Величины
, 1 , 2 , 1 , 0
– параметры алгоритма,
определяемые для каждого отдельного снимка оптимизационным методом по
формуле (7). Полученные значения (, ) фона чистого неба вычитаются из
значений  (8). Дальнейшая классификация пикселей производится с
применением фиксированного граничного значения  ℎ (9,10). Визуализация
применения схемы фильтрации фона чистого неба приведена на рис. 4.
  =  − ( ,  ) ,
(8)
 ℎ = 0,1 ,
(9)
 = {
ОБЛАКО,
ЧИСТОЕ НЕБО,
 ≥  ℎ ,
 <  ℎ .
(10)
16
Рис. 4. Визуализация применения схемы фильтрации фона чистого неба
В вышеописанной схеме оценки (, ) начало полярной системы координат
(, ) лежит в центре диска Солнца. Практика показала, что некорректное
определение положения Солнца на снимке и, как следствие, ошибочное
определение  для каждого пикселя изображения существенно влияют на качество
оценки поля (, ), что негативно сказывается на точности оценки БОО. В силу
подвижности платформы и невозможности использовать устройство слежения за
направлением на Солнце, был предложен и реализован алгоритм определения
положения диска Солнца на снимке, не использующий астрономические
параметры. Способ основан на модификации формул (3–6) путем введения в них
координат и размера диска Солнца как дополнительных параметров. Оптимизация
(7) производится с учетом этих изменений. Результатом являются одновременно
координаты и размер диска Солнца на снимке, а также значения поля (, ).
Практика использования схемы фильтрации фона чистого неба показала
существование класса ситуаций, в которых ее применение нецелесообразно,
например, в условиях полностью закрытого слоисто-кучевыми облаками неба.
Оправданность ее применения можно оценить для каждого конкретного снимка
только посредством определения СДС. Таким образом, данные о состоянии диска
Солнца на снимке являются одним из ключевых факторов точности алгоритма
оценки БОО. В Главе 4 изложен подход, позволяющий с использованием методов
машинного обучения определять СДС с высокой точностью. Этот подход был
использован в описываемом алгоритме оценки БОО для ограничения применения
схемы фильтрации фона чистого неба состояниями СДС ⊙1 и ⊙2 .
Разработанный алгоритм удовлетворяет требованиям автономности и
универсальности: в нем исключено вмешательство оператора за счет отсутствия
17
настроечных параметров схемы, снижена зависимость точности оценки БОО от
состояния диска Солнца и повышена чувствительность к тонкой облачности.
Эффективность описанного метода определения БОО подтверждается
оценкой доли верно определенных значений БОО:  = 38%, что существенно
превышает показатели рассмотренных выше алгоритмов (см. Табл. 1). Однако с
точки зрения статистических показателей ((∆), (∆), (∆)) очевидного
превосходства не выявлено (Табл. 2). Для достижения большей точности были
применены принципиально новые подходы.
Таблица 2. Показатели качества алгоритма оценки БОО «GrIx SAIL ML» с использованием
схемы фильтрации фона чистого неба и с ограничением применения этой схемы
состояниями СДС ⊙1 и ⊙2 ; гистограмма отражает распределение ошибок оценки БОО
(∆), окта
-1,67
(∆), окта
-0,88
(∆), окта
2,73
Acc, %
38%
С1 , %
64%
Глава 4 посвящена описанию разработанных автором алгоритмов оценки
БОО и определения СДС, основанных на методах машинного обучения (далее
ММО), в частности, так называемых методах обучения по прецедентам.
В начале главы приведено краткое описание методологии машинного
обучения (далее МО). Центральными понятиями ММО являются:
- объекты  . В настоящей работе – снимки видимой полусферы неба;
- целевая переменная  . В настоящей работе – оценка БОО или класс СДС;
- обучающая (тренировочная) выборка . В настоящей работе – массив снимков и
сопутствующих
данных,
а
также
показания
экспертов
относительно
наблюдаемых БОО и СДС;
- признаковое описание объектов ⃗⃗⃗
 – представление снимков в цифровом виде,
допускающем применение численных методов оптимизации в ММО;
- гиперпараметры моделей – величины, которые не могут быть получены путем
извлечения закономерностей из обучающей выборки. Гиперпараметрами
18
регулируется сложность модели и некоторые характеристики процесса
оптимизации. Оптимизация гиперпараметров в ММО – процесс, главной целью
которого является соблюдение баланса между точностью оценки целевой
переменной и обобщающей способностью модели.
Задача определения СДС в данной главе сформулирована как жесткая
многоклассовая классификация, в которой объектами являются снимки видимой
полусферы неба, и каждому снимку ставится в соответствие целевая переменная —
свой, и только один, класс СДС. Эта классификация соответствует РД 52.04.562-96
и
«Наставлениям...»,
по
которым
производятся
стандартизированные
метеонаблюдения в России. Значения, которые может принимать СДС: пасмурно
(П), солнце в нулевой степени (⊙0 ), солнце в первой степени (⊙1 ), солнце в
квадрате (⊙2 ) (рис. 5).
П
⊙0
⊙1
⊙2
Рис. 5. Примеры снимков с различными СДС
Рис. 6. Повторяемость (а) классов СДС и (б) классов БОО в массиве данных; синим цветом
показано распределение в исходных данных, оранжевым цветом – в выборке,
сбалансированной по целевой переменной.
Руководствуясь рекомендуемой методикой, наблюдатель способен различать
эти четыре состояния с высокой точностью, однако в некоторых пограничных
случаях оценки двух экспертов относительно наблюдаемого СДС могут отличаться.
Это вносит неопределенность в оценку СДС, а в конечном итоге и в разработанный
19
метод определения СДС. Мерой качества в задаче определения СДС принимается
доля верных ответов алгоритма:
 =
1
∑[̂ =  ] ,
‖‖
(11)

где ̂ – ответ алгоритма на объекте  . Чтобы иметь возможность достоверно
оценивать качество моделей этой метрикой, выборка данных балансируется по
целевой переменной (класс СДС) приведением количества объектов к среднему по
классам {П, ⊙0 } (рис. 6(а)).
Наблюдаемое состояние облачного покрова обуславливает статистические
характеристики цветовых полей , , , поля яркости  и, как следствие,
нелинейной функции этих величин – индекса , введенного в Главе 3. Для
формирования признакового описания ⃗⃗⃗
 на этих вещественных полях с
применением маски вычислялись следующие статистики: минимальное и
максимальное значения, арифметическое среднее, нормализованные эмпирические
центральные моменты распределения (дисперсия, коэффициент асимметрии,
коэффициент эксцесса), среднеквадратическое отклонение, набор перцентилей от 5
до 99, среднеквадратическое по полю (12).
для  = {, , , , }:
max 
∩
min 
∩
1 () =  ()
∩
 2 () =  (( − 1 )2 )
∩
1
3 () = 3  (( − 1 )3 )
 ∩
 =
⃗⃗⃗
.
1
4
4 () = 4  (( − 1 ) ) − 3
 ∩
(12)
 () = √ 2
∩
 ()
∩
∀: {4,5,6,7 … 99}
2 () =  ( 2 )
∩
{
ℎ⨀
Здесь  – все множество пикселей изображения,  – множество пикселей, на
которых маска принимает значение 1 (True);  () – квантиль уровня ; ℎ⨀ – высота
20
Солнца над горизонтом в момент съемки. С учетом всех этих переменных
образовано 521-мерное признаковое пространство. Для успешного применения
ММО была выдвинута гипотеза компактности: предполагается, что объекты
(снимки видимой полусферы неба) схожих свойств (одинаковых классов СДС или
БОО) образуют в сформированном признаковом пространстве обособленные
множества точек.
В работе исследовались четыре метода МО, подходящие для задач жесткой
многоклассовой классификации: LDA (Linear Discriminant Analysis, линейный
дискриминантный анализ) [Fisher, 1936], RF (Random Forests, случайные леса)
[Breiman, 2001], GBT (Gradient Boosting Trees, градиентный бустинг над
решающими деревьями) [Breiman, 1996] и DANN (глубокие искусственные
нейронные сети, Deep Artificial Neural Networks) [Минский, Пейперт, 1971].
Предварительная обработка данных включала в себя нормирование
признаков к нулевому среднему и единичной дисперсии, а также поиск аномалий
по каждой переменной из признакового описания. Визуальная инспекция
аномальных снимков показала эффективность примененного метода фильтрации
выбросов.
Согласно стандартной практике применения ММО, общий массив данных
был разделен на обучающую (тренировочную) и тестовую части. Оценка качества
в процессе обучения и оптимизация гиперпараметров проводилась методом
скользящего контроля с динамическим выделением контрольной подвыборки из
состава обучающей. Для каждого типа моделей оценка качества проводилась для
конфигурации, показавшей на контрольной подвыборке высшую точность. Модель
типа DANN продемонстрировала решающее преимущество перед остальными с
достижением показателя доли верных ответов более 99%.
Значимость отдельных признаков для модели типа DANN оценивалась с
применением т.н. метода «оптимального повреждения мозга» (OBD от англ. Optimal
Brain Damage) [Le Cun, Denker, Solla, 1990]. Наиболее значимыми признаками
являются (в порядке убывания): 99 (), 5 (),  2 (), 6 (), (),
3 (), 7 (), 4 (), 3 (). Очевидно, что предложенный автором индекс
 является важным признаком с точки зрения задачи определения СДС. На
рис. 7 приведена матрица ошибок модели типа DANN в задаче определения СДС.
Видно, что алгоритм допускает ошибки преимущественно в смежных классах.
21
Таким образом, ограниченная точность в определении СДС наблюдателем,
отмеченная ранее, может вносить неопределенность в описанный метод.
Высокая точность предложенного метода определения СДС достигается на
пространстве числовых признаков, сформированных на основании статистик
цветовых полей изображения и синтетического индекса , а также
дополнительных переменных, вычисляемых на основании координат и времени
съемки. Высокое качество классификации на тестовой выборке подтверждает
обобщающую
способность
модели
DANN
в
задаче
определения
СДС.
Следовательно, способ определения СДС в предложенной формулировке обладает
свойствами точности и универсальности, а автономность метода обеспечивается
отсутствием регулировочных параметров и других способов вмешательства
оператора.
Рис. 7. Матрица ошибок модели DANN в задаче определения СДС
Таким образом, был разработан алгоритм, основанный на методах МО, в
частности, глубокой искусственной нейронной сети, который может эффективно
применяться в задаче автоматического определения СДС по широкоугольным
цифровым оптическим снимкам видимой полусферы неба над океаном.
Задача оценки БОО по широкоугольным снимкам видимой полусферы неба
также сформулирована как жесткая многоклассовая классификация, где целевая
переменная – балл общей облачности. Признаковое описание снимков, процедуры
нормирования признаков и фильтрации аномалий в данной задаче аналогичны
задаче определения СДС. Балансировка выборки по значениям целевой переменной
проводилась к среднему по классам БОО от 0 до 7 (рис. 6(б)), что дало общий объем
выборки, равный 62055 снимков.
22
На рис. 8 в общем виде приведена схема модели DANN, применяемой в задаче
оценки БОО. Согласно выводу Главы 3 о важности сведений об СДС в задаче
оценки БОО, признаковое описание снимков для этой конфигурации нейронной
сети дополнено вероятностями четырех классов СДС, оцениваемыми с помощью
вышеописанной
модели.
Размерность
признакового
пространства,
сформированного таким способом, равна 525.
Рис. 8. Общий вид архитектуры нейронной сети в задаче оценки БОО; заштрихованными
зонами условно обозначена свобода выбора количества полносвязных слоев и количества
нейронов в этих слоях
Таблица 3. Показатели качества алгоритма оценки БОО с использованием методов
машинного обучения
(∆), окта
0
(∆), окта
0
(∆), окта
0,17
Acc, %
99,3%
С1, %
99,7%
Обучение нейросетевой модели оценки БОО, проверка ее качества и
оптимизация ее гиперпараметров проводились аналогично задаче определения
СДС. Из таблицы 3 видно, что при сравнении со всеми описанными выше
23
подходами оценки БОО разработанный метод на основе модели типа DANN
демонстрирует решающее преимущество во всех мерах качества.
Переменные из признакового описания снимков, продемонстрировавшие в
подходе OBD наибольшую значимость: перцентили 5, 6, 7, 8, 9, 10, 90, 91, 97, 98 и
дисперсия значений поля , 4 (), min(), 97 (), вероятности классов СДС,
97 () и  2 ().
Таким образом, разработан и настроен алгоритм, основанный на методе
глубоких полносвязных нейронных сетей, который может эффективно применяться
в задаче автоматизации оценки БОО по широкоугольным оптическим снимкам
видимой
полусферы
неба.
На
сформированном
пространстве
признаков,
дополненном вероятностями классов СДС, достигается точность более 99% в
терминах доли верных ответов. При этом статистики поля индекса  и оценки
вероятностей классов БОО стоят в ряду наиболее значимых переменных.
У разработанного метода существуют некоторые ограничения. Например, как
и в задаче определения СДС, неточность в оценке БОО наблюдателем может
вносить неопределенность в описанный алгоритм. Чтобы обойти это ограничение,
в морских полевых испытаниях использовались показания нескольких (шестерых)
наблюдателей. Далее, сам принцип МО может привести к пониженной точности
оценки БОО и СДС при обработке данных, полученных в условиях, редко
представленных в обучающей выборке. Однако, обучающая выборка, набранная в
экспедициях со столь обширной географией (рис. 3), существенно снижает
вероятность редких ситуаций.
Оценка пространственных характеристик облачности с применением
разработанных
алгоритмов
в
99%
случаев
совпадает
с
оценкой
квалифицированного наблюдателя, что позволяет говорить о преемственности
методики измерений.
Высокое качество классификации при использовании методов МО может
считаться косвенным подтверждением гипотезы компактности для снимков на
сформированном пространстве вещественных признаков, что позволяет выдвинуть
предположение об эффективности предлагаемого подхода в аналогичных задачах,
таких как классификация наблюдаемых типов облачности и др.
Будучи обученным на тренировочной выборке, содержащей широкий спектр
облачных ситуаций и условий наблюдений, а также показывая высокое качество
24
классификации БОО на тестовой выборке, разработанный алгоритм демонстрирует
обобщающую способность. Иными словами, разработанный алгоритм оценки БОО
проявляет свойства точности и универсальности, а автономность метода
обеспечивается отсутствием регулировочных параметров и других способов
вмешательства оператора.
В Заключении сформулированы основные выводы диссертационной работы:
1. Показано, что современные установки, предназначенные для автоматизации
наблюдений за облачностью, не приспособлены для долговременной автономной
работы в морских условиях, а известные алгоритмы оценки БОО не удовлетворяют
ключевым требованиям: точности, универсальности и автономности.
2. Разработан, спроектирован, собран, апробирован и введен в эксплуатацию
не имеющий аналогов программно-аппаратный комплекс для автоматизации
наблюдений за облачностью над океаном, полностью удовлетворяющий условиям
долговременных наблюдений в морских экспедициях.
3. Разработан новый алгоритм оценки БОО с применением классического
подхода семантической сегментации изображения по значению контрольного
индекса, в котором впервые применена схема фильтрации фона чистого неба,
позволяющая существенно повысить точность оценки. Показано, что алгоритм
автономен и универсален, а по точности превосходит известные из литературы
схемы.
4. Впервые показано, что достоверная информация о СДС является одним из
ключевых факторов, влияющих на точность алгоритма оценки БОО.
5. Впервые определение СДС и оценка БОО по широкоугольным цифровым
снимкам видимой полусферы неба рассмотрены как задачи машинного обучения в
формулировке жесткой многоклассовой классификации, для которых предложен
новый способ формирования признакового описания снимков.
6. Впервые
предложены
и
реализованы
конфигурации моделей
типа
искусственной нейронной сети для определения СДС и оценки БОО, которые
демонстрируют решающее преимущество по сравнению с алгоритмами, наиболее
распространенными в наблюдательной практике. Предложенные схемы оценки
пространственных характеристик облачности над океаном обладают одновременно
тремя
необходимыми
автономностью.
свойствами:
точностью,
универсальностью
и
25
7. Впервые создан уникальный программно-аппаратный комплекс для
автоматизации наблюдений за характеристиками облачности над океаном.
Комплекс включает в себя автономную установку для проведения наблюдений на
морских судах, а также полностью автономные алгоритмы оценки БОО и
определения СДС, разработанные на основе методов МО и обладающие всеми
необходимыми
свойствами
для
получения
достоверных
данных
о
пространственных характеристиках облачности над океаном.
В Приложении 1 приведено описание разработанного автором при
подготовке диссертации программного обеспечения комплекса «SAIL cloud v.2»,
обеспечивающего автономность наблюдений. Описаны особенности передачи
информации между блоками установки, варианты настройки режимов съемки, а
также возможности программного взаимодействия с информационными системами
научных судов ИОРАН. Данный раздел может быть использован как справочное
руководство по программной части комплекса.
В Приложении 2 перечислены аббревиатуры и сокращения, используемые в
тексте диссертации.
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи, опубликованные в изданиях из перечня ВАК:
1. Криницкий М.А. Адаптивный алгоритм оценки общего балла облачности над
морем по широкоугольным снимкам неба / М.А. Криницкий, А.В. Синицын //
Океанология. – 2016. – Т. 56. – № 3. – C. 341–345.
2. Криницкий М.А. Методы машинного обучения в задаче определения состояния
диска Солнца по широкоугольным снимкам видимой полусферы неба над
океаном / М.А. Криницкий // Океанология. – 2017. – Т. 57. – № 2. – C. 297–302.
Опубликованные тезисы докладов:
3. Krinitskiy M. New optical package and algorithms for accurate estimation and
interactive recording of the cloud cover information over land and sea / M. Krinitskiy,
A. Sinitsyn, S. Gulev // Geophysical Research Abstracts. – 2014. – Vol. 16. –
EGU2014-2566.
4. Krinitskiy M. New optical package and algorithms for the accurate cloud cover
estimation for short wave parameterization / M. Krinitskiy, A. Sinitsyn, S. Gulev //
EMS Annual Meeting Abstracts. – 2014. – Vol. 11. – EMS2014-259-2.
26
5. Криницкий
М.
Установка
оценки полного
балла
облачности:
новое
оборудование, новые алгоритмы, новая точность и новые задачи /
М.А. Криницкий, А.В. Синицын, С.К. Гулев // Мат-лы 19-ой Международной
школы-конференции молодых ученых «Состав атмосферы. Атмосферное
электричество. Климатические процессы», 25-29 мая 2015г. – М.: ГЕОС. – 2015.
– С. 44.
6. Криницкий
М.
Установка
оценки полного
балла
облачности:
новое
оборудование, новые алгоритмы, новая точность и новые задачи /
М.А. Криницкий,
А.В.
Синицын
//
Мат-лы
международного
симп.
«Атмосферная радиация и динамика», 23-26 июня 2015 г. – СПб. – 2015. – С.
243-244.
7. Krinitskiy M. Cloud cover estimation optical package: New facility, algorithms and
techniques / M. Krinitskiy // AIP Conference Proceedings. – 2017. – Vol. 1810. –
080009.
8. Krinitskiy M. Advanced optical package for estimating of cloud cover and structure /
M. Krinitskiy // Мат-лы междунар. конф. «XVII International conference on clouds
& precipitation», 25-29 июля 2016 г. – 2016. – P16.24.
9. Krinitskiy M. Cloud cover estimation using all-sky images: state of the art algorithms,
its results and applicability / M. Krinitskiy // EMS Annual Meeting Abstracts. – 2016.
– Vol. 13. – EMS2016-350.
10. Krinitskiy M. Cloud cover and solar disk state estimation using all-sky images: deep
neural networks approach compared to routine methods / M. Krinitskiy, A. Sinitsyn
// Geophysical Research Abstracts. – 2017. – Vol. 19. – EGU2017-17286.
11. Krinitskiy M. Artificial neural networks for total cloud cover estimation and solar disk
state detection using all sky images / M. Krinitskiy // Geophysical Research
Abstracts. – 2018. – Vol. 20. – EGU2018-18036.
Патенты:
12. Устройство для определения общего балла облачности на основе прямых
цифровых широкоугольных снимков видимой полусферы неба : пат. 2589463
Рос. Федерация : МПК G 01 W 1/00 (2006.01) / авторы Криницкий М.А., Гулев
С.К., Синицын А.В. ; патентообладатель Федеральное государственное
бюджетное учреждение науки Институт океанологии им. П.П. Ширшова
Российской академии наук (RU).
1/--страниц
Пожаловаться на содержимое документа