close

Вход

Забыли?

вход по аккаунту

?

Разработка и исследование методов повышения эффективности сжатия в современных видеокодеках

код для вставкиСкачать
На правах рукописи
Нгуен Ван Чыонг
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОВЫШЕНИЯ
ЭФФЕКТИВНОСТИ СЖАТИЯ В СОВРЕМЕННЫХ ВИДЕОКОДЕКАХ
Специальность: 05.13.11 – Математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург − 2018
2
Работа выполнена в федеральном государственном автономном образовательном
учреждении
высшего
образования
Санкт-Петербургском
национальном
исследовательском университете информационных технологий, механики и оптики.
Научный руководитель:
Тропченко Андрей Александрович,
кандидат технических наук, доцент.
Официальные оппоненты:
Фахми Шакиб Субхиевич,
доктор технических наук, доцент, профессор
кафедры САПР СПб ГЭТУ «ЛЭТИ»
Фисенко Татьяна Юрьевна,
кандидат технических наук, доцент, ведущий
научный сотрудник, Филиал АО "Корпорация
"Комета" - "НПЦ ОЭКН"
Ведущая организация:
ФГБУН "Санкт-Петербургский институт
информатики и автоматизации Российской
академии наук".
Защита состоится 29 ноября 2018 г. в 16-00 на заседании диссертационного
совета Д 212.227.06 при федеральном государственном автономном образовательном
учреждении
высшего
образования
Санкт-Петербургском
национальном
исследовательском университете информационных технологий, механики и оптики
по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49., ауд. 431.
С диссертацией можно ознакомиться в библиотеке федерального
государственного автономного образовательного учреждения высшего образования
Санкт-Петербургского
национального
исследовательского
университета
информационных технологий, механики и оптики по адресу: 197101, СанктПетербург, Кронверкский пр., д. 49 и на сайте
http://fppo.ifmo.ru/?page1=16&page2=52&page_d=1&page_d2=199492
Автореферат разослан « ____ » ___________ 2018 года.
Ученый секретарь диссертационного совета
Д 212.227.06,
кандидат физико-математических наук, доцент
Холодова С. Е.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Стандарт H.264/AVC (англ. Advanced Video Coding) широко используется для
многих приложений, в том числе для передачи телевизионных сигналов высокой
четкости (HD) по спутниковым, кабельным и наземным системам передачи, системам
сбора и редактирования видео контента, видеокамерам, приложениям для
обеспечения безопасности, интернет и мобильным видео, а также в системах
реального времени, например, в видеочатах, видеоконференциях и системах
телеприсутствия. Однако растущее разнообразие услуг, растущая популярность HDвидео и появление вне HD-форматов (например, разрешение 4k × 2k или 8k × 4k)
создают еще более сильные потребности в эффективности кодирования,
превосходящем H.264/AVC. Эта потребность еще сильнее, когда более высокое
разрешение сопровождается стереофоническим или многопользовательским захватом
и отображением.
Высокоэффективное кодирование видеоизображений H.265/HEVC (англ. High
Efficiency Video Coding) – это новейший стандарт кодирования видео. Он бросает
вызов стандарту H.264/AVC, поскольку он способен снизить скорость передачи
данных на 50%, сохраняя при этом одинаковое качество видео.
H.265/HEVC предназначен для решения существующих задач H.264/AVC и
сосредоточен на двух ключевых проблемах: увеличении разрешения видео и
увеличении использования архитектур параллельной обработки.
Существенное повышение степени сжатия видеоданных в рамках стандарта
H.265/HEVC достигается за счёт расширения возможностей методов и алгоритмов
кодирования видеоданных. Такое расширение тоже является причиной повышения
вычислительной сложности процесса кодирования. Так же недостатками
стандартного кодека является использование одноступенчатых алгоритмов
устранения временной и пространственной избыточности, интерполяции
восстановленного
изображения
и
энтропийного
кодирования
выходной
последовательности.
В данной диссертационной работе была исследована эффективность работы
одноступенчатых и многоступенчатых адаптивных алгоритмов устранения
временной,
пространственной,
статистической
избыточностей,
также
интерполяционного метода восстановления кадров.
Степень теоретической разработанности темы. Наибольший вклад в развите
теории сжатия видеоданных внесли Ватолин Д., Фахми Ш.С., Сэломон Д., Гонсалес
Р., Ричардсон Я. и многие другие видные ученые, специалисты. Над этой теорией
работают и вьетнамские ученые Чан Суан Ту, Фан Хай Фонг.
Объект исследования – мультимедийные данные.
Предмет исследования – методы и алгоритмы обработки и сжатия видеоданных
в современных видеокодеках.
Целью работы является создание в рамках стандарта H.265/HEVC новых
методов сокращения избыточности (временной – на этапе оценки движения,
пространственной на этапе кодирования опорных видеокадров, статистической – на
этапе энтропийного кодирования) и метода повышения качества восстановленного
изображения.
Задачи исследования
В рамках диссертационного исследования решались следующие задачи:
4
1. Исследование эффективности алгоритмов сопоставления блоков для оценки
движения при межкадровом кодировании видеоданных.
2. Разработка методов повышения эффективности существующих алгоритмов
сжатия, использующих иерархический подход.
3. Исследование методов и алгоритмов интерполяции для субпиксельной оценки
движения.
4. Разработка метода кодирования опорных видеокадров внутрикадровым
предсказанием на основе трехэтапной схемы.
5. Исследование
методов
энтропийного
кодирования
бинарных
последовательностей в современных видеостандартах.
6. Разработка методов повышения эффективности существующих алгоритмов
кодирования бинарных последовательностей, использующих метод иерархического
нумерационного кодирования.
7. Построение модели кодека и программная реализация алгоритмов сжатия на
основе предложенных подходов.
Методы исследования
В работе, проведенные исследования основаны на ряде теоретических и
практических методов. В рамках теоретической части, исследования базировались на
методах теории информации (RD-теория, метрика Бьёнтегарда и устранения
избыточности данных), цифровой обработки сигналов и теории интерполяции, а
также методы теории вероятностей. В рамках практического исследования была
проведена программная реализация алгоритмов сжатия с последующим сравнением
реализованных алгоритмов с существующими. Экспериментальные методы
основывались на моделировании и реализации алгоритмов в средах Matlab и Visual
C++.
Достоверность и обоснованность результатов исследования подтверждается их
сопоставимостью с существующими опубликованными материалами, а также
внедрением полученных результатов.
На защиту выносятся следующие положения:
1. Для снижения временной избыточности предлагается использовать метод на
основе быстрого алгоритма построения траектории движущихся объектов на основе
поиска по тестовой зоне (FTZS – Fast Test Zone Search).
2. Для сокращения искажений и устранения блокинг-эффекта предлагается
применить метод субпиксельной оценки движения на основе интерполяционного
метода (метод суперразрешения).
3. Для сокращения пространственной избыточности предлагается использовать
быстрый алгоритм кодирования опорных видеокадров с внутрикадровым
предсказанием на основе трехэтапной схемы.
4. Для дальнейшего снижения объема выходных данных и устранения
статистической избыточности предлагается использовать метод на основе алгоритма
нумерационного кодирования с использованием иерархического подхода
Научная новизна работы
Для устранения недостатков H.265/HEVC в рамках стандартной модели
видеокодека предлагается усовершенствовать методы, отвечающие за ключевые
моменты при сжатии (устранение пространственной и временной избыточности,
энтропийное кодирование) с использованием указанных многоступенчатых
адаптивных алгоритмов.
5
Теоретическая значимость состоит в том, что разработаны алгоритмы для
межкадрового, внутрикадрового и энтропийного кодирования на основе
стандартного подхода H.265/HEVC, а также предложена схема видеокодека,
реализующая эти алгоритмы для повышения степени сжатия и уменьшения объема
выходного потока данных.
Практическая ценность результатов работы заключается в следующем:
1. Предложенная схема видеокодека обеспечивает более высокий коэффициент
сжатия и уменьшение вычислительных затрат при незначительной потере уровня
качества восстановленной видеопоследовательности.
2. Разработанные алгоритмы не требуют значительного изменения стандартной
схемы видеокодека H.265/HEVC что упрощает их реализацию.
3. Разработаны
программно-алгоритмические
средства,
реализующие
предложенную модель видеокодека, обеспечивающие кодирование и декодирование
видеопоследовательностей с возможностью изменения параметров кодирования.
Внедрение результатов работы
Основные результаты работы внедрены в учебном процессе на кафедре ВТ НИУ
ИТМО и проведенных в НИУ ИТМО НИР №718574 «Методы, модели и технологии
искусственного интеллекта в биоинформатике, социальных медиа, киберфизических,
биометрических и речевых системах» международной лаборатории «компьютерные
технологии». Исследования выполнены при государственной поддержке ведущих
университетов Российской Федерации (субсидия 08-08).
Апробация результатов работы
Результаты выполненных исследований были представлены на конференциях:
− 2-й
Международной
мультидисциплинарной
научно-практической
конференции, Москва (2015 г.).
− 14-й Международной конференции "Телевидение: Передача и обработка
изображений" Университета ЛЭТИ (2017 г.).
− 6-й и 7-й Международных конференциях по анализу изображений,
социальных сетей и текстов (АИСТ`2017 и АИСТ`2018), Москва (2017 г. 2018 г.).
− V Научно-практическая конференция с международным участием «Наука
настоящего и будущего» Университета ЛЭТИ (2017 г.).
− I Всероссийской научной конференции «Информационные технологии в
моделировании и управлении: подходы, методы, решения» Тольяттинского
государственного университета (2017 г.).
− IV, V, VI, VII Всероссийских конгрессах молодых ученых (2015-2018 г.).
− XLIV и XLVII Научной и учебно-методической конференции НИУ ИТМО
(2015 г. и 2018 г.).
Публикации
Основные результаты диссертационного исследования опубликованы в 23-х
научных публикациях: 6 статьей в изданиях из перечня ВАК, в т.ч. 1 из перечня
Scopus; 2 – в изданиях из перечня Web of Science или Scopus; 1 охранный документ
на результат интеллектуальной деятельности № 2018617191 от 20.06.2018
(Программа для ЭВМ); 11 – в материалах конференций и сборниках тезисов
докладов и 3 в других изданиях.
Личный вклад
Основные результаты, представленные в диссертации, получены лично автором.
Постановка экспериментов делалась совместно с научным руководителем. В
большинстве статьей постановка задач, редактирование текстов, постановка
6
экспериментов делались совместно с научным руководителем, а эксперименты, их
обработка и интерпретация выполнены автором. В одной статье соавтор Тропченко
А.Ю. обеспечивал проведение экспертных оценок точности и полноты извлечения
терминов.
Структура и объем работы
Диссертация состоит из списка сокращений и условных обозначений, введения,
пяти разделов, заключения, списка литературы и двух приложений. Основной объем
диссертации составляет 123 страницы с 50 рисунками и 20 таблицами. Объем двух
приложений – 37 страниц. Список литературы содержит 115 библиографических
наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении показано обоснование актуальности рассматриваемых в
диссертации вопросов. Формулируются цель, задачи и методы исследования.
В первом разделе проведен анализ существующих алгоритмов в рамках
пространственной и временной моделей и энтропийного кодера видеокодека
стандарта Н.265/HEVC. При этом проводим сравнение эффективности методов и
алгоритмов современного стандарта с предыдущим стандартом Н.264/AVC. В том же
разделе, представлены метрики для оценки качества видеопоследовательностей.
Выявлены актуальные недостатки существующих алгоритмов сжатия видеоданных и
определены основные подходы к их устранению. В конце раздела формулируются
цель и задачи исследования.
Во втором разделе исследуются алгоритмы сопоставления блоков для оценки
движения при межкадровом кодировании, а также методы интерполяции для
субпиксельной оценки движения.
Алгоритм сопоставления блоков является способом нахождения соответствия
блоков в видеопоследовательности для оценки движения. Алгоритм включает в себя
разделение текущего кадра на блоки и сравнение каждого из них с соответствующим
блоком в соседнем кадре видео. Обычно такие алгоритмы обладают большой
вычислительной сложностью и для ее снижения используется иерархический
алгоритм MP (англ. Mean Pyramid). Основной его особенностью является то что
каждый последующий уровень сопоставления обладает меньшей размерностью чем
предыдущий. Алгоритм выполняется по указанной формуле:
(1)
1  1 1

g L ( p , q )      g L 1 (2 p  u , 2q  w)   ,

 4  u  0 w0
где gL  p.q   значение яркости пикселя уровня L в позиции  p.q  в блоке,
Таким образом, если использовать три уровня иерархии, один пиксель 2-го уровня
соответствует блоку 44 0-го уровня и блоку 22  1-го уровня соответственно. В то
же время блок размером 1616 0-го уровня будет соответствовать блоку
(16/2L)(16/2L) уровня L
Общая схема работы алгоритма MP представлена на рисунке 1.
7
Рисунок 1 – Процесс работы алгоритма MP
Рисунок 2 – Блок-схема алгоритма TZS (Diamond Search DS – ромбический
поиск, Square Search SS – квадратичный поиск)
Алгоритм поиска по тестовой зоне TZS (англ. Test Zone Search) принимается как
алгоритм оценки быстрого движения в HM (англ. HEVC Test Model – эталонное
программное обеспечение HEVC). Блок-схема TZS представлена на рисунке 2.
Основной недостаток – это огромный объем вычислений из-за большой
размерности шаблона поиска DS (или SS) и последующего растрового поиска.
Для устранения указанных недостатков предлагается алгоритм быстрого поиска
тестовой зоне FTZS (англ. Fast Test Zone Search), который включает в себя алгоритмы
TZS и MP. Блок-схема предложенного алгоритма представлена на рисунке 3.
8
Рисунок 3 – Блок-схема предложенного алгоритма FTZS
Алгоритм FTZS был реализован и протестирован с видеопоследовательностями
разных типов (с различными значениями меры нестационарности и
широкополосности). Экспериментальные результаты показали, что алгоритм FTZS
уменьшает время кодирования примерно в 4 раза по сравнению с TZS (при 1-ом
уровне MP), при этом теряется не более 3% коэффициента PSNR (рисунок 4).
СРЕДНЕЕ ЗНАЧЕНИ Я PS N R В И Д ЕОПОСЛЕДОВ АТЕЛЬ НОСТЕЙ РА З НЫ Х
ТИ П ОВ
TZS
Б
,Д45
R
N
S
P40
FTZS
35
30
25
20
15
10
5
0
B US_C I F
C I T Y _ D1
C R E W_ D 1
F O O T B A L L_CI FF O R E M A N _ C IF H A R B O U R_ D 1 M O B I L E _C IF
S O C C E R _D1
ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
Рисунок 4 – Средний покадровый коэффициент PSNR
Для интерполяции при восстановлении изображения были проанализированы
существующие алгоритмы и предложено использовать метод суперразрешения SR
(англ. Super-Resolution method).
Метод SR (рисунок 5) позволяет в лучшей степени сократить блокинг–эффект,
полученный в результате межкадрового предсказания. Данный метод состоит из трех
составляющих: регистрация, интерполяция и восстановление.
Рисунок 5 – Схема метода SR
Результаты показали, что в большинстве испытаний метод SR дает лучший
результат по критерию качества изображений, имеющих различные меры
нестационарности и широкополосности (таблица 1).
Таблица 1 – Коэффициент PSNR, дБ
Изображение
Nearest
airplane
baboon
barbara
Lena
boy
cat
35.39
34.90
37.89
36.25
38.44
33.10
Bilinear
36.10
34.92
39.04
36.87
39.32
33.20
Алгоритмы интерполяции
Bicubic
B-Spline
Lanczos
n2
34.77
34.20
38.08
35.75
38.20
32.07
37.42
35.56
39.88
37.97
40.36
34.29
37.49
35.59
39.94
38.02
40.4
34.34
Lanczos
n3
38.04
35.81
40.24
38.47
40.75
34.77
SR
39.01
38.31
38.33
39.78
40.16
38.35
9
peppers
cameraman
Среднее
38.56
33.47
36.00
40.18
33.82
36.68
38.68
32.88
35.58
41.71
34.66
37.73
41.77
34.7
37.78
42.4
35.05
38.19
40.72
37.86
39.07
Однако, предлагаемый метод имеет значительные вычислительные затраты и
существенно увеличивает время работы стандартных видеокодеков (таблица 2).
Следовательно, этот алгоритм не подходит к системам реального времени, хотя
может быть предложен для архивного хранения видео.
Таблица 2 – Среднее время выполнения, сек.
Изображение
Nearest
airplane
baboon
barbara
Lena
boy
cat
peppers
cameraman
Среднее
0.0036
0.0039
0.0041
0.0028
0.0682
0.0037
0.0036
0.0601
0.0188
Алгоритмы интерполяции
Bicubic
B-Spline
Lanczos
Bilinear
n2
0.0075
0.0045
0.0039
0.0052
0.0297
0.0028
0.0038
0.0093
0.0083
0.0036
0.0038
0.0046
0.0042
0.0051
0.0046
0.0034
0.0064
0.0045
0.0042
0.0038
0.0044
0.0051
0.0032
0.0038
0.0054
0.0048
0.0043
0.0037
0.0034
0.0043
0.0038
0.0538
0.0028
0.0059
0.0050
0.0103
Lanczos
n3
0.0031
0.0051
0.0041
0.0031
0.0031
0.0036
0.0038
0.0038
0.0037
SR
0.8965
0.9649
0.8906
0.9227
1.4049
0.7594
0.9365
1.0689
0.9806
В третьем разделе рассматриваются существующие алгоритмы кодирования
опорных видеокадров внутрикадровым предсказанием. Эти алгоритмы дают хорошие
результаты, но требуют огромный объем вычислений. Предложим метод, который
состоит из трех основных этапов.
Этап 1. Раннее завершение для CU (англ. Coding Unit – единица кодирования)
(рисунок 6). Сложность CU ( CCU ) определяется по (2), где Y (i, j ) – значение яркости
пикселя в (i, j) в CU, а Ym – среднее значение яркости CU:
N N
(2)
CCU   Y (i, j )  Ym
i 0 j 0
Рисунок 6 – Пример понижения выборки с помощью иерархического подхода
Этап 2: Поиск прогрессивного режима PU (англ. Prediction Unit – Единица
предсказания). Стоимость кодирования J RMD приблизительно оценивается согласно
выражению (3).
(3)
J
 J    b,
RMD
H
где J H представляет собой сумму абсолютных значений коэффициентов Адамара для
остатка PU, а λ – множитель Лагранжа, связанный с числом битов b для кодирования
режима прогнозирования. Количество бит b является постоянным и равным для
почти всех режимов.
10
В HEVC определены 3 режима, для которых количество бит меньше, чем для
других режимов. Эти 3 режима называются наиболее вероятными MPM (англ. Most
Probable Modes) и выбираются для PU на основе режимов соседних PU.
Этап 3: Раннее завершение RDOQ (англ. Rate-Distortion Optimized Quantization –
Оптимизированное квантование скорости искажения). На третьем этапе, из
результата второго этапа выбираются M режимов. Они помещаются в группу  ,
которые проходят процесс RDOQ, чтобы получить лучший режим mопт . . Раннее
завершение RDOQ предлагается для дальнейшего сокращения времени кодирования.
Для каждого внутрикадрового режима m  вычисляется его общая стоимость J (m)
как комбинация стоимости SATD (англ. Sum of the Absolute Transform Difference) и
потребления битов условного режима.
Для оценки эффективности предложенного алгоритма использовались критерии
качества восстановления видеопоследовательностей по PSNR и BD  PSNR (англ.
Bjontegaard Delta PSNR – Метрика Бьёнтегарда по PSNR), битрейту и BD  rate (
англ. Bjontegaard Delta rate – Метрика Бьёнтегарда по битрейту), а также времени
кодирования. Экспериментальные результаты показали, что вычислительная
сложность кодирования может быть уменьшена в среднем на 13.6% по сравнению с
программным
обеспечением
HM
16.0
при
сопоставимом
качестве
видеопоследовательности (таблицы 3, 4). Предлагаемая схема доказала, что он может
обеспечить хорошую производительность.
Таблица 3 – Среднее время для кодирования разных видеопоследовательностей
Тип
Видеопоследовательн
ость
с
малым
количеством
движущихся
объектов в кадре
с
их
большим
количеством
HD
Bus_QCIF
Football_QCIF
Foreman_QCIF
Ice_QCIF
Mobile_QCIF
City_CIF
Football_CIF
Foreman_CIF
Ice_CIF
Soccer_CIF
Crew
Harbour
Beauty
Bosphorus
ReadySteadyGo
YachtRide
Среднее время кодирования, сек.
HM 16.0
Пред. схема
50.393
52.950
44.948
47.017
59.036
206.423
202.819
172.950
158.221
196.683
720.624
899.488
3385.984
3469.184
4107.498
3516.496
В среднем
44.276
47.501
38.923
35.784
61.214
179.935
184.773
154.664
146.611
161.962
610.191
800.702
2345.567
2769.222
3415.530
3132.940
t , %
-12.139
-10.291
-13.404
-23.891
3.689
-12.832
-8.898
-10.573
-7.338
-17.653
-15.325
-10.982
-30.727
-20.177
-16.846
-10.907
-13.643
Таблица 4 – BD  PSNR
Тип
с
малым
количеством
движущихся
объектов в кадре
с
их
большим
количеством
Видеопоследовательност
ь
Bus_QCIF
Football_QCIF
Foreman_QCIF
Ice_QCIF
Mobile_QCIF
City_CIF
Football_CIF
Foreman_CIF
Ice_CIF
Soccer_CIF
HM 16.0
35.1618
33.9669
37.1322
38.2524
33.4984
36.1379
35.1422
38.6286
39.4006
36.2800
PSNR, дБ
Пред. схема
35.1536
33.9687
37.1527
38.2531
33.4996
36.1344
35.1321
38.6186
39.3909
36.2662
BD  PSNR , дБ
-0.0082
0.0018
0.0205
0.0007
0.0012
-0.0035
-0.0101
-0.0100
-0.0097
-0.0138
11
Crew
Harbour
Beauty
Bosphorus
ReadySteadyGo
YachtRide
HD
38.7407
36.6092
38.9322
40.4333
38.2142
40.0419
38.7338
36.6079
38.9302
40.4315
38.2076
40.0387
-0.0069
-0.0013
-0.0020
-0.0018
-0.0066
-0.0032
-0.0033
В среднем
PSNR, дБ
Также в третьем разделе проведен анализ эффективности алгоритмов
кодирования преобразованием на основе блоков. На рисунке 7 представлены
результаты сравнения существующих блочных преобразований для тестового
изображения «lenna» размером 512х512 пикселей. Для дальнейших исследований
предлагается дискретное косинусное преобразование, как алгоритм с наибольшим
коэффициентом сжатия.
В общем, методы преобразований на основе блоков обладают следующими
преимуществами:
 значительная декорреляция сигнала ведет к сокращению избыточности;
 перераспределение
энергии
сигнала,
что
значительно
повышает
эффективность последующих этапов кодирования;
 возможность работы с многомерным сигналом как с комбинацией
одномерных.
Кривые зависимости PSNR от параметра
квантования QP
30
29
28
27
26
25
24
0
5
10
15
20
25
30
35
40
QP
DCT
DHarT
DHaaT
WHT
Рисунок 7 – Кривые зависимости PSNR от параметра квантования QP для
изображения «lenna»
Четвертый раздел посвящен исследованию методов энтропийного кодирования
в современных стандартах видеокодирования, а также разработке нового
энтропийного кодера, который состоит из алгоритма CABAC (Context-Adaptive Binary
Arithmetic Coding) и алгоритма нумерационного кодирования с применением
иерархического подхода (рисунок 8).
Рисунок 8 – Общая блок-схема предложенного энтропийного кодера
12
Пусть {0,1}n – вектор n двоичных чисел и x  ( x1 , x2 ,..., xn ) – элементы этого
вектора, S – множество векторов n двоичных чисел. Определим ns – число
элементов в S и обозначим ns ( x1 , x2 ,..., xk ) – число элементов в S , для которого были
определены первые k элементов. Предложим, что вектор имеет w элементов 1 или
n
 xj  w.
j 1
Кодирование методом нумерационного кодирования с применением иерархий
включает следующие стадии:
1. Построить дерево сумм (рисунок 9).
2. Кодировать wpmax ,1 с использованием  log2 ( N  1) бит.
3. Производить цикл для p от pmax  1 до 1 с единичным шагом:


N 

 выполнить цикл для i от 1 до
,
 p n
  j 1 j 
 кодировать вектор {wp,(i-1)n p 1,..., wp,in p } методом нумерационного
кодирования ограниченных целых чисел.
N
4. Производить цикл для i от 1 до   :
 n1 
 кодировать
{wp,(i-1)n p 1,..., wp,in p }
методом
Линча–Дэвиссона,
чтобы
получить выходную последовательность.
Процесс декодирования методом нумерационного кодирования с применением
иерархий производится в таком же порядке, как процесс кодирования.
w pmax ,1
w3,1
w2,1
w 1 ,1
x (1 ) x ( 2 )
x ( n1 )

w2,n3

w1, 2

x(n1  1)

w1, n 2

x ( 2 n1 )


x ( n 1 n 2  n1  1)
x ( n1 n 2 )
Рисунок 9 – Дерево сумм
Метод Линча-Дэвиссона. Процесс кодирования заключается в вычислении
лексикографического
индекса
(обычное
словарное
упорядочивание
при
n
интерпретации 0  1 ) вектора x  S  0,1, 2,..., M  определяется по следующей

формуле:
n x j 1
is ( x)    x j ns ( x1 , x2 ,..., x j 1 , m) ,
j 1 m0
(4)
13
Для построения выходного кода требуется log 2 Cwn  битов.
Процесс декодирования осуществляется по следующему алгоритму: если
is ( x)  ns ( x1 , x2 ,..., xk 1 ,0) , k  1,..., n , то xk  1 ; в противном случае – xk  0 . Выполнить
до конца последовательности.
is (x)
w
k 1; n 1;1
m0
is (x) is (x)  fM (w, n k)
is (x)  fM (w, nk)
ww1
mm1
xi  m
xn  w
Рисунок 10 – Алгоритм декодирования на основе нумерационного кодирования
ограниченных целых чисел
Метод нумерационного кодирования ограниченных целых чисел. Вектор x с
размером n , каждый элемент которого xi удовлетворяет условию: 0  xi  M , где M
– постоянное положительное целое число.
Тогда:
n 1 x j 1
k
(5)
is ( x)    f M (( w  m   xi ), n  j ) ,
j 1 m0
где:
f M ( p, q ) 
p

i  p M
i 1
f M (i, q  1) ,
1,0  p  M
.
f M ( p,1)  
0,
иначе

Для построения выходного кода требуется  log2 f M ( w, n) битов.
Процесс декодирования осуществляется по алгоритму, представленному на
рисунке 10.
14
ПРОЦЕНТ, %
Качество кодирования оценивается путем сравнения объема выходного потока.
Согласно экспериментальным результатам предложенный алгоритм уменьшает объем
выходного файла по сравнению с CABAC H.264/AVC в среднем на 12.42 – 14.76%
(рисунок 11), при этом повышает время кодирования в среднем на 50%.
По сравнению с CABAC H.265/HEVC предложенный алгоритм уменьшает объем
выходного файла в среднем на 31.24 – 38.13% (рисунок 12), при этом повышает время
кодирования в среднем на 16%.
У МЕН Ь ШЕН ИЕ О БЪ ЕМА ВЫХОДН О ГО ФАЙЛА ПРЕДЛО ЖЕН Н ОГО
МЕТОДА ПО СРАВНЕН ИЮ С CABAC H .2 6 4 /AV C
QP = 24
QP = 28
QP = 32
QP = 36
40
35
30
25
20
15
10
5
0
ВИДЕОПОСЛЕДОВАТЕЛЬНОСТИ
Рисунок 11 – Уменьшение объема выходного файла предложенного метода по
сравнению с CABAC H.264/AVC
Рисунок 12 – Уменьшение объема выходного файла предложенного метода по
сравнению с CABAC H.265/HEVC
В пятом разделе предлагается схема сжатия видеоданных, основанная на
сочетании предложенных алгоритмов, а также описывается программная реализация
предложенной схемы. На рисунке 13 представлена модель предложенного
видеокодека.
Программный комплект позволяет:
1. выбрать параметры сжатия (файл видеоданных, его размер, разрешение,
параметр квантования,…);
2. оценить показатели сжатия, а именно метрику PSNR, коэффициент сжатия,
время выполнения процедуры сжатия, битрейт…;
15
3. осуществлять сжатие видеопотока по заданному набору параметров,
воспроизводить и сохранять результаты декодирования в формате yuv.
Блок основного
управления
кодированием
Входной видеопоток
разбивается с CTU
-
Преобразование/
мастабирование/
квантование
Мастабированное и
обратное
преобразование
+
Внутрикадровая
оценка
Внутрикадровое
предсказание
(трехшаговый
метод)
Выбор
режима
предсказания
Энтропийное
кодирование
(CABAC c применением
нумерационного
кодирования
иерархического
подхода)
Сжатые
данные
Управление
фильтром
Компенсация
движения
Деблокирующий
фильтр
Оценка движения
(TZS с MP)
Кадровый буфер
Рисунок 13 – Модель предложенного видеокодека.
Экспериментальные результаты показали, что предложенная схема сжатия при
комплексном использовании указанных многоступенчатых алгоритмов позволила
повысить степень сжатия на 38%, уменьшить время кодирования на 30% по
сравнению с эталонным программным обеспечением HM 16.0, при незначительном
снижении коэффициента PSNR (уменьшение составляет до 1.6%).
В заключении представлены основные результаты работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В рамках стандартной модели видеокодека H.265/HEVC были реализованы все
указанные методы, как по отдельности, так и вместе. При использовании отдельных
методов были получены улучшения для отдельных характеристик. При устранении
временной избыточности выигрыш во: времени кодирования составил до 4 раз, при
устранении пространственной избыточности – около 13% при сопоставимых уровнях
временных затрат и уровне искажений. Качество при использовании метода суперразрешения при интерполяции восстановленных кадров повысилось до 4% PSNR при
существенном (до 10 раз) увеличении времени сжатия. Коэффициент сжатия при
энтропийном кодировании (устранении статистической избыточности) – до 40% при
увеличении времени сжатия на 16%. Комплексное же использование указанных
методов из-за сильно возросшей сложности последующих за устранением временной
и пространственной избыточности этапов кодирования привело к повышению
коэффициента сжатия примерно на 38%, росту скорости кодирования всего на 30%
при незначительном снижении уровня качества (потеря PSNR 1.6%).
16
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1.
2.
3.
4.
5.
6.
7.
8.
9.
В журналах, рекомендованных ВАК
Нгуен В.Ч., Тропченко А.А. Иерархический адаптивный алгоритм шаблонного
поиска для оценки движения при анализе видеопоследовательности // Научно—
технический вестник информационных технологий, механики и оптики. — 2016.
— Т. 16. — № 3(103). — С. 474–481. — 0,65 п. л. / 0,46 п. л.
Нгуен В.Ч., Тропченко А.А. Повышение эффективности сжатия данных с
помощью иерархического перечислительного кодирования // Известия высших
учебных заведений. Приборостроение. — 2016. — Т. 59. — № 12. — С. 991–996.
— 0,41 п. л. / 0,29 п. л.
Нгуен В.Ч., Тропченко А.А. Анализ методов интерполяции в задачах
реконструкции изображений // Наука и образование: научное издание МГТУ им.
Н.Э. Баумана. — 2017. — № 3. — С. 170–181. — 0,73 п. л. / 0,51 п. л.
Нгуен В.Ч., Тропченко А.А. Быстрый алгоритм поиска по тестовой зоне для
межкадрового кодирования // Научно—технический вестник информационных
технологий, механики и оптики. — 2017. — Т. 17. — № 3(109). — С. 483–489. —
0,66 п. л. / 0,46 п. л.
Нгуен В.Ч., Тропченко А.А., Доан Б.Т. Повышение эффективности метода
кодирования внутрикадровым предсказанием в стандарте H.265/HEVC //
Научно—технический вестник информационных технологий, механики и
оптики. — 2018. — Т. 18. — № 2. — С. 255–261. — 0,64 п. л. / 0,45 п. л.
Нгуен В.Ч., Тропченко А.А. Повышение эффективности метода энтропийного
кодирования в современных стандартах видеосжатия // Труды СПИИРАН. —
2018. — № 3(58). — С. 111–127. — 0,89 п. л. / 0,62 п. л.
В рецензируемых изданиях, индексируемых Web of Science или Scopus
Tropchenko A., Tropchenko A., Nguyen V.T. Research of Block—Based Motion
Estimation Methods for Video Compression // Tem Journal—Technology, Education,
Management, Informatics. — 2016. — Vol. 5. — № 3. — P. 277–283. — 0,86 п. л. /
0,35 п. л.
Nguyen V.T., Tropchenko A.A. Fast Multigrid Pattern Search for Motion Estimation in
Hybrid Compression Systems // CEUR Workshop Proceedings — 2017, Vol. 1975, pp.
242–253. — 0,60 п. л. / 0,42 п. л.
Публикации, которые приравниваются к рецензируемым научным
изданиям:
Нгуен В. Программа для сжатия бинарных последовательностей методом
нумерационного кодирования иерархического подхода № 2018617191 от
20.06.2018 (Программа для ЭВМ).
Тиражирование и брошюровка выполнены в учреждении
«Университетские телекоммуникации»
197101, Санкт-Петербург, Кронверкский пр., д.49. Тел. (812) 233 46 69
Объем 1 у.п.л. Тираж 100 экз.
Документ
Категория
Без категории
Просмотров
4
Размер файла
1 679 Кб
Теги
эффективность, современные, методов, разработка, исследование, повышения, сжатие, видеокодеков
1/--страниц
Пожаловаться на содержимое документа