close

Вход

Забыли?

вход по аккаунту

?

NikitinReshetnikova

код для вставкиСкачать
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное
образовательное учреждение высшего образования
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ
МЕТОДЫ И ТЕХНОЛОГИИ
ИНТЕРАКТИВНОГО ПОГРУЖЕНИЯ
Учебное пособие
Под редакцией кандидата технических наук,
доцента А. В. Никитина
Санкт-Петербург
2015
УДК 004.946(075.8)
ББК 32.973я73
М54
Рецензенты:
кандидат технических наук, доцент В. В. Белош;
кандидат технических наук, доцент А. В. Меженин
Утверждено
редакционно-издательским советом университета
в качестве учебного пособия
Авторы: А. А. Никитин, А. В. Никитин,
А. А. Никитина, Н. Н. Решетникова
М54 Методы и технологии интерактивного погружения: учеб. пособие / А. А. Никитин [и др.]; под ред. А. В. Никитина. – СПб.: ГУАП,
2015. – 105 с.
ISBN 978-5-8088-1039-6
Рассмотрены основные понятия, методы и технологии интерактивного погружения, а также методика создания приложений на
их основе с иллюстрацией на примерах проектов в культурном наследии, театральном искусстве, промышленности и медицине, выполненных в лаборатории компьютерной графики и виртуальной
реальности ГУАП.
Учебное пособие предназначено для студентов направления
09.04.01 (230100.68) «Информатика и вычислительная техника»,
изучающих дисциплины магистерской программы «Системы мультимедиа и компьютерная графика».
УДК 004.946(075.8)
ББК 32.973я73
ISBN 978-5-8088-1039-6
© Санкт-Петербургский государственный
университет аэрокосмического
приборостроения, 2015
СПИСОК СОКРАЩЕНИЙ
ВМ – виртуальный мир
ВР – виртуальная реальность
ДР – дополненная реальность
ИКТ – информационно-коммуникационные технологии
КВМ – компьютерные виртуальные миры
МВМ – многопользовательские ВМ
ММИ– мультимодальный интерфейс
СВР – системы ВР
ТИП – технологии интерактивного погружения
3
ВВЕДЕНИЕ
Повышение эффективности деятельности человека в различных
областях связано с такими факторами, как непосредственное взаимодействие с объектом деятельности, вовлечение в рабочий процесс всех органов чувств и моторики человека, поддержка совместной работы.
В качестве одного из подходов к решению перечисленных задач
можно использовать системы интерактивного погружения, для
которых характерна поддержка погружения человека в заданную
среду и участие в событиях среды с учетом его индивидуальных
особенностей – перцептивных, двигательных, познавательных,
личностных и др.
Для создания подобных систем применяются такие информационные и коммуникационные технологии, как виртуальные миры,
смешанные миры (дополненные реальность и виртуальность),
многопользовательские среды, мультимодальный интерфейс и ряд
других.
Использование такого подхода позволяет учесть индивидуальные особенности восприятия и обработки информации человеком,
а также повысить эффективность приобретения и применения индивидуальных и социальных знаний и умений.
4
1. ОСНОВЫ ИНТЕРАКТИВНОГО ПОГРУЖЕНИЯ
1.1. Концепция реально-виртуального континуума
«Реально-виртуальный континуум» (Reality-Virtuality Continuum) – понятие, используемое для описания концепции существования непрерывной шкалы в диапазоне от полностью виртуальной
до полностью реальной среды.
Он охватывает все возможные варианты и композиции из реальных и виртуальных объектов. Эта концепция была впервые представлена P. Milgram и иллюстрируется рис. 1.1 [1].
Реальная среда (Real Environment) определяет любую окружающую среду, состоящую исключительно из реальных объектов, и
включает то, что мы могли бы наблюдать/ощущать (фрагмент реального мира) непосредственно лично, или через некоторое устройство (очки, камеру мобильного телефона, бинокль и т. п.).
Виртуальная среда (Virtual Environment) определяет среду,
состоящую исключительно из виртуальных объектов, например,
компьютерные игры или отображаемые на мониторе результаты
графического моделирования.
Область между двумя крайностями, где реальность и виртуальность смешиваются, называется смешанной реальностью (Mixed
Reality), она объединяет реальные и виртуальные миры для создания новых сред, где физические и цифровые объекты сосуществуют и взаимодействуют в режиме реального времени.
В свою очередь, смешанная реальность состоит из:
– дополненной реальности (Augmented Reality), где виртуальность расширяет (дополняет, увеличивает) реальное,
– и дополненной виртуальности (Augmented Virtuality), где реальное расширяет (дополняет, увеличивает) виртуальное.
Термин «виртуальный» имеет многообразие смыслов и значений. Рассмотрим некоторые из них [2–4].
Смешанная реальность
Реальная
среда
Дополненная
реальность
Дополненная
виртуальность
Виртуальная
среда
Рис. 1.1. Реально-виртуальный континуум
5
В иностранных языках значения слова «виртуальный» имеют
разные оттенки, например:
– англ. virtual – фактический, не номинальный, действительный;
– франц. virtuel – возможный, потенциальный;
– лат. virtualis – возможный, предполагаемый, мнимый; такой,
который может или должен проявиться.
В повседневной практике русского языка виртуальным часто
называют нечто надуманное, воображаемое и не существующее
в нашей реальности.
В гуманитарных науках, в большинстве случаев, под виртуальностью понимаются объект или состояние, которые реально не существуют, но могут возникнуть при определенных условиях.
В естественных и технических науках, в том числе информатике и вычислительной технике, под виртуальностью понимается
абстрагирование процессов от ресурсов (как правило, аппаратных,
их ограничений), например, виртуальная машина, виртуальная
память, виртуальный маятник и др.
1.2. Анализ перспективных технологий
Уровень видимости
Специалисты агентства Gartner, одного из ведущих мировых
центров в области анализа современных ИT-технологий, создали
графическую модель для представления данных о развитии новых
технологий. Она получила название Hype Cycle, которое можно
перевести как «цикл ажиотажа» [5].
В соответствии с концепцией данной модели каждая новая технология в процессе своего развития проходит пять стадий, соответствующих определенной области графика (рис. 1.2).
Время
I
II
III
IV
V
Рис. 1.2. Графическое представление модели Hype Cycle
6
Рассмотрим особенности каждого из этих периодов:
1. Восход надежд (On the rise/Technology trigger) – технологии,
обладающие, по мнению аналитиков и разработчиков, наиболее
высоким потенциалом, но которые не являются еще зрелыми для
привлечения больших инвестиций и внедрения в коммерческих
продуктах.
2. Пик завышенных ожиданий (At the peak/Peak of inflated expectations) – на этой стадии начинается реклама преимуществ новой технологии для привлечения внимания общественности, инвесторов и производителей. Однако инвестиции на данном этапе рискованны, так как потенциал технологии может быть переоценен.
3. Котловина разочарований (Sliding into the trough/Trough of
disillusionment) – после активной рекламы новинка либо сходит со
сцены, либо занимает свое место в существующей инфраструктуре рынка. Период выявления недостатков технологии и уточнения
перспектив ее применения.
4. Подъем жизнестойкости (Climbing the slope/Slope of enlightenment) –новая волна исследований для устранения выявленных
недостатков и доведения до серийного производства, признание
специалистов и потребителей.
5. Плато продуктивности (Entering the plateau/Plateau of productivity) –выход технологии на промышленный уровень, широкое
применение и прибыльность.
Предполагается, что развитие технологий в разные периоды может происходить как с различной скоростью, так и необязательной
последовательностью прохождения всех пяти этапов (возможные
перескоки или возвраты).
Примеры Hype Cycle для двух направлений – появляющиеся
технологии и человеко-машинное взаимодействие, соответствующие 2014 г., приведены в Приложении.
1.3. Необходимые сведения из психологии
и физиологии человека
Психологи определили ряд факторов, которые повышают эффективность деятельности, в том числе обучения человека [6].
1. Человек приобретает знания и опыт через непосредственный
контакт с окружающим миром. Когда мы взаимодействуем с окружающим миром, реальным или виртуальным, мы вступаем с ним
в непосредственное, т. е. прямое, нерефлективное, даже подсозна7
тельное, взаимодействие. Напротив, при обращении к промежуточному интерфейсу (чье-либо описание действительности, символическое изображение, компьютерный интерфейс, оказывающийся посредником между пользователем и окружающим миром, и
т. д.) возникает взаимодействие через третье лицо, которое требует
специального отображения и не может предоставить те же знания
и опыт, которые можно получить при непосредственном общении.
2. Исследования процесса человеческой деятельности, в том числе обучения, показывают, что люди усваивают и используют большее количество информации, если в процесс усвоения вовлечены
как можно больше органов чувств, т. е. мы лучше воспринимаем и
используем информацию, когда одновременно задействуем органы
зрения, слуха, обоняния и осязания, а также механическую память.
3. Как правило, деятельность, в том числе обучение, носит социальный характер, результаты которой улучшаются при обмене опытом. Каждый человек по-своему понимает и интерпретирует полученные ранее знания, но для обеспечения общения между людьми
необходимы общие значения концептов. Для решения этой проблемы применяется совместная деятельность или обучение, поскольку
работа в группе улучшает персональное когнитивное развитие, а
также социальные функции и навыки управления. Совместное обучение – подход, в центре которого находится учащийся: предполагается, что каждый обучающийся принимает активное участие
в обсуждениях, решениях, общем понимании и достижении целей.
Эффективность различных способов восприятия по данным психологов приведена в табл. 1.1.
4. Традиционное образование основывается на знаниях, получаемых из книг или от преподавателей, которые необходимо применять в реальных ситуациях. Изучение ситуаций, наоборот, основыТаблица 1.1
Эффективность восприятия материала
Способ восприятия
Эффективность, %
Чтение текстового материала
Восприятие информации на слух
Восприятие визуальной информации
Сочетание визуальной и звуковой информации
Обсуждение информации с другими
Данные, полученные на основе собственного опыта
Объяснение учебного материала другому
10
20
30
50
70
80
90
8
вается на том, что учащиеся легче усваивают определенные понятия в контексте, повторяющем их реальное применение. В действительности изучение ситуаций представляет аутентичный контекст,
демонстрирующий способы применения знаний в реальной жизни.
Основная задача систем виртуальной реальности – создать
у пользователя ощущение реальности попадания в смоделированный на компьютере мир, который должен быть не только реалистичным, но и позволять взаимодействовать человеку с его объектами так же, как с объектами, окружающими человека в обычной
жизни – естественным и привычным путем, не требующим специального обучения.
Таблица 1.2
Моторные (мышечные) системы
Система
Равновесие
Цель
Ориентация за
счёт сил гравитации и ускорения
Ориентированно- Движение частей
исследователь- тела для полуская
чения внешних
стимулов
Локомоторная
Движение тела
или его частей
в среде
Приёма
Совершения
действий
Экспрессивная
Семантическая
Применение
Другие системы
Поддержание
равновесия тела
Вестибулярные
органы
Информация от
сенсоров или исследование
Все другие органы
чувств
Перемещение
из одной точки
в другую
Ориентированноисследовательская и позирования
Движение частей Приём внутрь или Вкусовые, приёма
тела для приёма освобождение
и другие функции
внутрь или освотела
бождения
Движения, нуж- Совершение
Локомоторные и
ные индивидууму действий, защита другие
себя
Движение для
Совершение пози- Голосовые, слувыражения себя ционных движе- ховые, мускулы
Проявление эмо- ний, движение
лица
ций или иденти- лица и голоса
фикация себя
Движения для вы- Голосовые выра- Любые другие
ражения сигналь- жения
системы, связанных действий,
ные с передачей
состояние или
сигналов
экспрессии
9
Для этого необходимо проанализировать и сформировать между
человеком и виртуальным миром сенсомоторные связи, являющиеся естественным способом общения человека с внешним миром.
Сложность человеческого интерфейса делает пока невозможным
полностью формализовать это взаимодействие, однако результаты
подобного анализа можно использовать при разработке концептуальной модели, которая описывает человеческие и аппаратно-программные компоненты систем виртуальной реальности.
Один из подходов для описания взаимодействия человека с виртуальной средой является определение перцептивных и моторных
(мышечных) систем человека по Дж.Гибсону (см. табл. 1.2 и 1.3) [7].
В настоящее время большинство систем виртуальной реальности
основаны на стимуляции различных органов чувств. Тем не менее
для человека зрение является доминантной сенсорной системой.
На биологическом уровне это подтверждается тем, что в обработке
зрительной информации участвует почти половина коры головного
мозга [6], а на поведенческом уровне доминирующая роль зрения
подтверждается многочисленными экспериментами на сенсорный
конфликт, в которых зрительная информация противоречит информации от какой-либо другой сенсорной системы.
1.4. Концепция присутствия
При создании приложений на основе технологий интерактивного погружения необходимо учитывать сложный психосоциальный феномен – присутствие (Presence), который состоит в том,
что индивид испытывает иллюзию присутствия в одной реальности
с предметами или субъектами, не находящимися в непосредственно наблюдаемой реальности индивида [6].
В англоязычной литературе используется понятие mediated
environment, т. е. дословно «опосредствованная реальность». В большинстве обсуждаемых примеров в качестве реальности присутствия рассматривается реальность, искусственно созданная с помощью компьютеров и/или иных средств телекоммуникации. Однако
некоторые исследователи расширяют понятие присутствия, включая в него также взаимодействие с реальностями другого рода, например, реальность воспоминаний или сцена внутреннего диалога.
Существуют несколько концепций этого понятия:
1. Концепция коммуникативной насыщенности (концепция
присутствия в социуме) – восприятие индивидом пребывания в ис10
11
Рецептивные
элементы
Анатомия
органа
Зрения
Запаха
Вкуса
Осязания
Силы гравитации и ускорения
Вибрации воздуха
Стимулы
Направление гравитации и ускорения
Внешняя
информация
Природа и локация
вибраторных событий
Прикоснове- Механические, Кожа, суста- Исследование Деформация
Контакт с формой
ние
термальные,
вы, мускулы, различного
ткани, конфи- и поверхностью
кинематичесухожилия
рода на осногурация суста- объекта, состояние
ские
ве придатков
вов, растяже- материала, вязкость,
кожи, языка
ние волокон
тепло, холод
Проба на вкус Химические и Рот
Смакование
Химия введен- Питательные вещемеханические
ных объектов ства, биохимические
рецепторы
элементы
Восприятие Химические
Нос
Активное вды- Химия паров
Природа запахов
запаха
рецепторы
хание
Смотрение
Фоторецепторы Окулярный
Аккомодация, Свет
Размер, форма,
механизм,
настройка,
расстояние,цвет,
включающий фиксация,
текстура, движения
глаза и двиконвергенция,
жения целого сканирование
глаза
Равновесие
тела и балансирование
Ориентация по
звуку
Активность
органа
Перцептивные системы
Равновесия Позирование Механические Вестибуляри ориентация и гравитацион- ные органы
ные рецепторы
Звуковая Слушание
Механические Улитки уха
рецепторы
Система
Модель
активности
Таблица 1.3
кусственно созданном пространстве как совместное пребывание
с другим(и) индивидом(ами).
2. Концепция контакта («субъект из дополнительной реальности») – может рассматриваться как вариант концепции коммуникативной насыщенности: индивид – участник эксперимента воспринимает коммуникацию с неким субъектом из дополнительной
реальности как коммуникацию c другим, также реальным, индивидом, проявляя характерные поведенческие реакции. Этот эффект
достигается в случае, когда удается обеспечить уровень передачи
невербальной информации, достаточный, чтобы создать у участника эксперимента ощущение спонтанной «живой» коммуникации.
3. Концепция перемещения – переживается индивидом как условное «перемещение» в дополнительную реальность. Различается
три варианта субъективного восприятия феномена переноса:
– индивид может ощущать, что он «переместился» в дополнительную реальность (например, эффект присутствия, испытываемый читателем увлекательной книги);
– индивид может переживать присутствие как «привнесение»
предметов из дополнительной реальности в непосредственно наблюдаемую реальность;
– индивид может воспринимать присутствие как «перенесение»
его и другого индивида, находящегося на самом деле в удаленной
точке, в некое третье место, расположенное в дополнительной реальности.
4. Концепция погружения – этот вариант реализации феномена
присутствия требует гораздо более богатого технического оснащения, чем предыдущие. Сигналы, являющиеся частью дополнительной реальности, передаются непосредственно на органы восприятия индивида. Таким образом, большинство каналов восприятия –
зрение, слух, осязание, обоняние – получают информацию, отвечающую происходящему не в основной реальности, а в дополнительной. Соответствующие информационные образы, принадлежащие
к основной («истинной») реальности, оказываются в этом случае
блокированными, индивид полностью «погружается» в восприятие дополнительной реальности.
12
2. МЕТОДЫ И ТЕХНОЛОГИИ
ИНТЕРАКТИВНОГО ПОГРУЖЕНИЯ
2.1. Виртуальная реальность
У философов, программистов, психологов, инженеров, социологов, культурологов, искусствоведов, педагогов и других специалистов существуют различные взгляды на определение термина
«виртуальная реальность», однако большинство из них сходятся
в том, что «он относится к любой ситуации, когда искусственно создается ощущение пребывания человека в определенной среде» [8],
которое достигается при помощи компьютерных средств [2–9].
Интересна в этом плане концепция американского футуролога
Э.Тоффлера, определяющего будущее общество как «индустрию ощущений, продукцией которой будут не товары и даже не обычное обслуживание, а заранее запрограммированные ощущения» [10], которые
можно будет коллекционировать, обменивать, продавать и т. п. И там
же «Важной разновидностью продукции ощущений будут имитированные «мирки», где потребитель без риска для жизни или репутации
ощутит желаемые объекты или ситуации», что вызовет появление новых организаций, профессий и продуктов, например, психофирмы,
дизайнеры ощущений, психологическая обертка продукта и др.
Некоторые ученые считают, что виртуальная реальность вряд
ли будет когда-либо сильно походить на реальный мир. Например,
один из пионеров в этой области У. Брикен [11] сформулировал
свои правила виртуальной реальности: психология – физика виртуальной реальности; наше тело – интерфейс; знание – это эксперимент; факт – это среда; пространство и время подлежат изучению;
реализм необязателен.
В дальнейшем будем использовать следующее определение виртуальной реальности.
Виртуальная реальность (ВР) – разновидность человеко-компьютерного интерфейса, обеспечивающего погружение человека
в определенную смоделированную среду и взаимодействие с объектами этой среды в реальном времени с использованием различных
характеристик человека – физических, физиологических, психических и других.
Данное определение включает во взаимодействие не только перцептивные и моторные системы человека (см. подр. 1.4), но, в общем случае, и другие его характеристики, например, пульс, давление, излучение мозга и т. п.
13
Пример простой ВР – приложение, реализованное в форме интерактивной 3D-среды с шестью степенями свободы с поддержкой
прямого манипулирования объектами в пространстве модели.
Под термином «система виртуальной реальности» будем понимать вычислительную систему, которая формирует и поддерживает ВР.
Пример концептуальной модели ВР приведен на рис. 2.1.
На рис. 2.1 обозначены: ПС – перцептивная (сенсорная) система
человека; МС – моторная система; СПР – система принятия решения;
ВК – вычислительный комплекс; УВ2 – устройства ввода, например,
перчатка данных, микрофон, устройство отслеживания движений,
видеокамера и др.; УВ1 – устройства вывода, например, головной дисплей, устройство отражения усилий, аудио-колонки и т. п.
Таким образом, поддерживаемая компьютером ВР использует
сильно связанные петли ощущение – действие для моделирования
естественной связи. Мы действуем, это фиксирует компьютер, реагирует, и мы получаем ответ, и так далее. Если соответствующая
технология реализована хорошо, мы чувствуем эффект присутствия – ощущение того, что мы находимся в виртуальной среде.
Основными характеристиками ВР являются погружение и интерактивность.
Погружение (иммерсивность) – свойство моделируемой среды,
вовлекающее человека через его сенсомоторные средства в поведение среды и обеспечивающее его непрерывным потоком стимулов.
Степень погружения определяется количеством используемых
одновременно перцептивных ресурсов (зрение, слух, касания и т. п.)
человека. В пределе иммерсивность превращается в присутствие.
Возможны три формы иммерсии (позиции восприятия) – первая
(непосредственный участник среды), вторая (видит себя в среде как
бы со стороны, с точки зрения другого человека) и третья (видит
среду и себя как в зеркале, с позиции стороннего наблюдателя).
Система ВР
Человек
ПС
СПР
МС
Ощущения
Действия
УВ1
ВК
УВ2
Рис. 2.1. Концептуальная модель ВР
14
Интерактивность – свойство моделируемой среды, определяющее следующие возможности действий человека внутри нее в реальном времени – перемещение в среде, взаимодействие с объектами среды с ощущением их ответных реакций, изменение среды.
Может характеризоваться скоростью и точностью реакции среды на действия пользователя, диапазоном возможных действий
в среде в текущий момент времени, удобством работы, простотой
использования и обучения, пользовательским комфортом, степенью удовлетворения целям системы и сосредоточения на задачах,
а не на интерфейсе.
Например, к типовым задачам взаимодействия в 3D-средах относятся [12]:
– навигация (ориентация и перемещение);
– селекция и сбор – определяет один или более объектов из набора;
– манипуляции – изменение свойств объекта (позиции, ориентации, формы, масштаба, цвета, поведения, текстуры и т. п.);
– управления – изменение состояния системы или режима взаимодействия.
Селекция и манипуляции – основные методы взаимодействия
с физическими и виртуальными средами, их реализация влияет на
качество 3D пользовательского интерфейса.
Схема взаимосвязи приведенных понятий показана на рис. 2.2.
Программное приложение
Интерфейс пользователя
Система управления/символьный ввод
Входные
устройства
Навигация
Селекция/манипуляция
Пользователь
Выходные устройства:
– визуальные
– слуховые
– тактильные
Сцена
Объект
Объект
Поведение
Поведение
Рис. 2.2. Взаимосвязь понятий
15
Базой любой хорошей ВР является метафора навигации, управления и взаимодействия, отсылающая пользователя к знакомой
ему ситуации с целью более легкого понимания среды, выполнения
«естественных» действий в ней, обеспечения комфортной ситуации. Однако при этом необходимо учитывать специфику компьютерных технологий – механизмы реализации метафор, более широкие возможности компьютерных сред перед физическими, пока
еще «неестественность» средств взаимодействия (например, клавиатура и мышь), сложившуюся практику использования компьютеров профессионалами, являющимися законодателями в области
новых интерфейсов. Примеры первых метафор ВР – аквариум, театр, город, Вселенная.
Пример структуры системы ВР приведен на рис. 2.3.
Система ВР состоит из следующих основных подсистем:
– интерфейс пользователя – обеспечивает отображение состояний среды; регистрацию действий человека, производимых с помощью моторики (эффекторов), и воздействие на модальности человека в соответствии с состоянием среды;
– управления – включает анализ выполненных субъектом действий; формирование реакции на действия субъекта; определение
изменений состояний среды во времени и пространстве;
– моделирования среды, объектов и персонажей – формирует их
реалистическое представление (геометрия и иерархия, физические
свойства, свойства материалов) и имитирует их поведение во времени и пространстве в реальном времени на базе физических моделей или моделей искусственного интеллекта.
Рассмотрим основные классификации ВР [6].
1. По виду интерактивности – полетные и реактивные, соответственно позволяют передвигаться в трехмерной среде с шестью степенями свободы без ограничений либо предоставляют возможность
взаимодействовать с объектами реагированием.
По уровням погружения – экран стандартного монитора, стереоскопический монитор или проектор в комплекте с очками, полное
погружение.
2. По особенностям организации в пространстве – локальные
и распределенные, соответственно, когда все ресурсы реализующей среды сосредоточены практически в одном месте так, что не
используется передача данных по линиям связи, или имеется совокупность сред, физически распределенная по взаимосвязанным
ресурсам реализующей среды и доступная для совместного использования в различных приложениях.
16
17
– ориентация
/позиция
/перемещение
– команды / выбор
Устройство
ввода 1
Устройство
ввода 2
ЧЕЛОВЕК
СИСТЕМА
УПРАВЛЕНИЯ
– обработка взаимодействия с
пользователем
– определения изменений
состояний среды
Устройство
вывода 1
Устройство
вывода 2
(визуальный, слуховой,
обонятельный, осязательный,
вкусовой и др.)
СЕНСОМОТОРНЫЙ
СИНТЕЗ
Рис. 2.3. Структура системы формирования и поддержки ВР
– реальное время
– реалистичность
– физические законы
– искусственный интеллект
– сценарность
СИСТЕМА
МОДЕЛИРОВАНИЯ
СРЕДЫ, ОБЪЕКТОВ
И ПЕРСОНАЖЕЙ
(представление
и поведение)
3. По способу реализации – настольные, проекционные, носимые тренажеры:
– настольные (Desktop VR): монитор служит как окно в виртуальный мир; для взаимодействия могут использоваться стереоочки
и 3D-устройства ввода; идеальны для научной визуализации данных и обучения; дешевая альтернатива носимым КВМ; гибки (легко переключаются с моно- на стереовизуализацию; простой клавиатурный доступ); легко связываются в сеть; недостатки: как правило, индивидуальное использование и нет полного погружения;
– проекционные (Projection VR): большие виртуальные модели
и среды проецируются на вертикальные и/или горизонтальные поверхности, используя такие технологии, как Walls, CAVE и др.;
идеальны для цифрового прототипирования, маркетинга, медицинского моделирования, визуализации научных и финансовых
данных, городского моделирования, сложного проектирования,
искусства и образования, развлечений; высокое разрешение, поддержка групп участников и сотрудничества; недостатки: «бесшовное» слияние изображений при отображении на большие экраны,
моделирование физического пространства;
– носимые («Wearable» VR): используется прямое взаимодействие
частей тела пользователя с виртуальной моделью или средой через
такие устройства, как шлемы, перчатки данных, костюмы данных,
хаптик системы обратной связи, платформы движения; идеальны
для цифрового прототипирования, мультипликации, хирургического моделирования, цифровых парков отдыха, научной визуализации данных; обеспечивается высокое качество кинестетического
опыта; недостатки: низкая разрешающая способность, высокое время ожидания, в основном однопользовательское использование;
– тренажеры (Simulator VR): используются физические макеты
транспортных средств с реальным управлением (руль, педали и т.
д.), при помощи которых можно передвигаться через виртуальную
среду; идеальны для тренировки пилотов, обучения водителей, эргономического анализа, развлечений; высокое разрешение, легкая
интеграция в сеть, оптимально для нескольких участников; недостаток – относительно высокая стоимость.
4. По режиму обслуживания – однопользовательские и многопользовательские. Соответственно, мир предоставляется полностью в распоряжение пользователя, по крайней мере, на время решения его задачи, или возможен одновременный доступ нескольких независимых географически распределенных пользователей
к одному миру.
18
В качестве основных проблем создания и использования ВР
можно назвать следующие:
– поиск и исследование метафор управления, взаимодействия и
навигации;
– разработка нового моделирующего инструментария для больших интерактивных сред (взгляд изнутри среды, физическое моделирование, интеллектуальное поведение), определение в реальном
времени столкновений, акустики и взаимодействия объектов;
– исследование пользователя на различные входные и выходные
модальности и их комбинации (зрение, речь, звук, тактильно-силовая, движение, бета-волны, глазной трекинг и т. п.) и формирование библиотеки моделей сенсорных и моторных связей;
– улучшение понимания воздействия ВР на человека как биологическую систему, его комфорт, здоровье, безопасность;
– разработка метрик для описания и измерения эффективности
ВР, пользовательского удовлетворения, влияния сенсоров и обмена;
– разработка стандартов для программного и аппаратного обеспечения;
– формирование ВР рабочих смесей;
– исследование подходящих ВР-чипов (по аналогии с мультимедиа-чипами);
– сервис – построение и поддержка ВР.
2.2. Дополненная реальность
Дополненная реальность (ДР) (Augmented Reality) расширяет
(дополняет) различные ощущения реального мира виртуальными
(компьютерно-генерируемыми) объектами, которые сосуществуют
и взаимодействуют в одном и том же пространстве, как в реальном
мире [1,6,13,14].
Данная технология дополняет, например, поле зрения пользователя посредством компьютерных устройств соответствующей
информацией, что позволяет ему получать со своей точки зрения и
в соответствии с индивидуальными настройками необходимые для
работы сведения о наблюдаемых объектах и помощь в решении поставленных задач.
Некоторые приложения дополненной реальности также требуют
устранения реальных объектов из воспринимаемой среды, помимо
добавления виртуальных объектов. Например, при визуализации
строящегося здания, которое стоит на определенном месте, может
19
понадобиться удалить строительные леса, краны и т. п., которые
существуют там и сегодня. Некоторые исследователи называют
подобную задачу устранения реальных объектов уменьшенной реальностью, однако мы считаем, что эта задача является подмножеством расширенной/дополненной реальности.
В настоящее время большинство систем дополненной реальности реализуется с использованием «живого» цифрового видео, которое обрабатывается и дополняется компьютерно-генерируемыми
изображениями.
Однако данное определение систем дополненной реальности не
ограничивается только визуальным каналом восприятия человека,
но и включает различные другие его сенсомоторные характеристики
(слух, обоняние, осязание, тактильно-силовые взаимодействия и др.).
Системы дополненной реальности имеют следующие свойства:
– комбинируют реальные и виртуальные объекты в реальной
среде;
– работают в интерактивном режиме в реальном времени;
– реалистично совмещают (регистрируют) реальные и виртуальные объекты друг с другом.
Основная цель систем дополненной реальности – реалистичное
включение в реальное изображение, поступающее из видеокамер,
виртуальных объектов в реальном времени, что требует решения
следующих типовых задач [15 ]:
– обработка и распознавание изображений объектов среды в реальном времени;
– синтез и визуализация виртуальных объектов; в зависимости
от сценария приложения необходима различная информация, например, для пространственной навигации необходима информация о попадающих в поле зрения объектах, для градостроительства
– возможный вид здания при его ремонте, для военных операций
– характеристики вооружения противника и т. п.;
– синхронизация между объектами реального мира и виртуальными объектами; перед тем, как объединить синтезированное
изображение с объектами реального мира, трехмерные параметры
реальной и синтезированной камеры должны быть синхронизированы; для этого реальная камера должна быть калибрована, и ее
местоположение и ориентация должны быть отслеживаемы при помощи специальных сенсоров;
– определение и визуализация трехмерных геометрических и
других зависимостей между физическими и виртуальными объектами, в частности, определение места виртуального объекта в сцене
20
и вычисление в каждом кадре видимых с данной позиции камеры
точек виртуальных и реальных объектов (пересечения виртуальных и реальных объектов); реалистичное слияние реального мира
и виртуальных объектов достигается только в том случае, если виртуальные объекты ведут себя подобно объектам реального мира:
они могут заслонять или заслоняться объектами реального мира,
они не могут двигаться сквозь реальные объекты, они должны отбрасывать тени от реальных источников света и изменять освещенность своих элементов при попадании их в тень реальных объектов;
– взаимодействие с пользователем; необходимы новые методы
и средства взаимодействия на основе жестов, голоса, тактильного
управления и т. п.
Существуют три основные технологии, на которых строится
ДР [16]:
1. Отслеживание (Tracking) – система должна знать точку зрения пользователя для поиска и представления связанного с ней
виртуального контента. Определение параметров местоположения
и ориентации известно как слежение.
2. Регистрация (Registration) – отслеживание – всего лишь
средство для достижения регистрации – окончательного совмещения реальной и виртуальной информации, которая предоставляется пользователю; регистрация должна быть произведена с пиксельной точностью в кадре для сохранения иллюзии сосуществования
реальных и виртуальных объектов в одной и той же области.
3. Отображение (Display) – в СРР должна быть возможность вывода сочетания реальных и виртуальных объектов. Следовательно,
дисплеи должны давать возможность пользователю видеть реальный мир с наложенной 3D-графикой с учетом отслеживаемости
объектов в каждом кадре.
Рассмотрим подход к ДР исследователей O. Bimber и R. Raskar
[17], которые ввели понятие «пространственная дополненная реальность».
Системы отображения пространственной дополненной реальности – это формирующие изображения системы, которые применяют ряд оптических, электронных и механических компонентов для
создания изображений на оптическом пути между глазом наблюдателя и физическим объектом, который в результате этого будет
расширен (дополнен).
В зависимости от используемой оптики изображение может
быть сформировано на плоскости или на более сложной неплоской
поверхности.
21
Схема различных вариантов создания изображений с учетом расположения наблюдателя и реального объекта приведена на рис. 2.4.
Рассмотрим их более подробно, предварительно отметив следующее: если для представления расширенных (реальных и виртуальных) миров используется стереоскопическая визуализация, то
в настоящее время применяют две базовые технологии слияния:
видеосмешивание и оптическое совмещение.
Видеосмешивание объединяет живой видеопоток с синтезированной компьютером графикой и отображает результат на мониторе, а оптическое совмещение создает оптическое изображение на
реальном экране (отображение компьютерной графики), который
появляется в реальной среде (или в пределах поля зрения наблюдателя, пока наблюдается реальная окружающая среда).
Каждая технология имеет свои преимущества и недостатки, которые влияют на их применение. Сегодня большинство стереоскопических дисплеев требуют использования определенных очков.
Автостереоскопический подход может играть доминирующую роль
в будущем ДР.
Приведем классификацию устройств визуального отображения.
Пространственный
прозрачный
дисплей
Проектор
Ретинальный
дисплей
Шлем
виртуальной
реальности
Проектор
Присоединенный к голове
ручной
дисплей
Проектор
ручной
Реальный
объект
Пространственный
Рис. 2.4. Генерация изображений для ДР
22
1. Дисплеи, закрепленные (установленные) на голове. Отображение, привязанное к голове, выдвигает пользователю требование
надеть дисплейную систему на голову. В зависимости от технологии генерации изображений существует три основных вида подобных систем:
a) ретинальные дисплеи (Retinal displays), которые применяют
лазеры малой мощности для проецирования изображений непосредственно на сетчатку глаза;
б) дисплеи, закрепленные на голове (Head-Mounted Displays), и
очки, которые используют миниатюрные дисплеи перед глазами;
существуют две разные HMD-технологии, чтобы наложить графику на пользовательское видение реального мира:
– видеопрозрачность (video see-through), которая использует видеосмешивание и отображение слитного изображения внутри HMD
(рис. 2.5);
– оптическая прозрачность (optical see-through), которая использует комбинации оптических наложений (в основном прозрачные зеркала или ЖК-дисплеи) (рис. 2.6);
в) проекторы, установленные на голове (Head-Mounted Projectors), которые используют миниатюрные проекторы или миниатюрные ЖК-панели с подсветкой и проецируют изображения на
поверхности реальной среды (рис. 2.7).
При этом предполагается, что поверхности объектов реального
мира могут быть покрыты рефлективным, диффузным или ретрорефлективным светоотражающим слоем. В последнем случае отражение происходит строго по линии падения света, что позволяет
Положение
головы
Видео
реального
мира
Головной
трекер
Видеокамера
Реальный
мир
Генератор
сцены
Изображение
Монитор
Видеосмешивание
Объединенное видео
Рис. 2.5. Устройство видеопрозрачного шлема
23
Генератор
сцены
Положение
головы
Головной
трекер
Изображение
Монитор
Реальный
мир
Оптическое
объединение
Рис. 2.6. Устройство оптически прозрачного шлема
Проектор
рефлективная
Компьютер
ли
т
од
е
ет
Св
ретрорефлективная
ел
ьн
ая
по
ве
рх
но
ст
ь
диффузная
Рис. 2.7. Проецирование изображений
нескольким пользователям рассматривать один объект с разных
точек зрения без наблюдения информации соседей.
2. Ручные дисплеи. Примеры «ручных» отображений (дисплеев), позволяющих генерировать изображения «на руку» – планшеты и смартфоны. Все эти устройства имеют процессор, память,
дисплей, а также технологии взаимодействия в одном устройстве и
поддерживают беспроводную и мобильную обработку.
24
Видеопрозрачность – предпочтительная концепция для такого
подхода.
Перед отображением в видеокамере интегрируются захваченный
живой видеопоток от среды с наложенной дополнительной графикой.
3. Пространственные дисплеи. В отличие от дисплеев, связанных с телом (головные или ручные), пространственные дисплеи отсоединяют большую часть техники от пользователей и интегрируют ее в среду.
Существуют три различных подхода, которые в основном отличаются способом увеличения среды – либо с помощью видеопрозрачности, оптической прозрачности или путем прямого расширения:
Видеопрозрачные отображения, базирующиеся на экранах (мониторах).
Такие системы используют видеосмешивания (видеопрозрачность)
и отображают объединенные изображения на монитор (рис. 2.8).
Пространственные оптические прозрачные отображения.
В отличие от видеопрозрачных отображений (прикрепленных к голове или ручных), пространственные оптически прозрачные отображения создают образы, которые совмещены в физической среде.
Пространственные оптические конфигурации, как, например,
плоские или изогнутые зеркала, прозрачные экраны или оптические голограммы, являются важнейшими компонентами таких
отображений (рис. 2.9).
Пространственные отображения, основанные на проекциях.
Пространственные отображения на основе проецирования используют фронтпроекции для бесшовного проецирования изображений
непосредственно на поверхности физических объектов вместо отоТрекер
Положение
Монитор
Стереоочки
Видеокамера
Видео
реального
мира
Генератор
сцены
Объединитель
Изображение
Рис. 2.8. Работа экранной системы
25
Рис. 2.9. Пространственное оптически прозрачное отображение
(Laser Magic)
бражения их на плоскость изображения (или поверхность) в пределах поля зрения пользователя.
Единый стационарный большой экран и несколько проекторов
применяются для увеличения потенциальной области отображения.
Рассмотрим типовую архитектуру приложения, использующего ДР [18] (рис. 2.10).
Данная архитектура является обобщенным вариантом модели
предметной области. Пользователь, находясь в реальном мире, использует систему ДР для расширения своего восприятия. Происходит взаимодействие трех основных составляющих: пользователя,
реального мира и системы ДР, которая в свою очередь может взаимодействовать с сетью для получения информации.
В эталонной модели выделено несколько основных подсистем,
необходимых для организации систем ДР:
– «Отслеживание» (tracking). Подсистема, отвечающая за постоянный контроль над местонахождением, положением и ориентацией пользователя (устройства). Данная подсистема необходима
для правильного расположения виртуальных объектов относительно пользователя.
– «Взаимодействие» (interaction). Подсистема позволяет пользователю взаимодействовать и управлять всей системой.
– «Представление» (presentation). Данная подсистема ответственна за все виды исходящей из системы информации: модели,
звук, видео и т. д.
26
27
Пользователь
Представление
Взаимодействие
Трекинг
Система
дополненной
реальности
Модель
мира
Контекст
Данные датчиков
Доступ
к информации
Виртуальный
мир
Приложение
Рис. 2.10. Эталонная архитектура систем, использующих ДР
Вывод
Ввод
Прямое
взаимодействие
Реальная
среда
– «Окружение» (context). Включает в себя информацию о пользовательском статусе и ситуации, в которой он находится. Отслеживание является частью данной подсистемы, но так как оно очень
важно для ДР, то оно выведено в отдельную подсистему.
– «Мировая модель» (world model). Подсистема отвечает за виртуальное представление окружающего пространства и включает
точки интереса, объединенные в слои, миры или каналы.
– «Приложение» (application). Осуществляет контроль за совместной работой остальных подсистем.
Одной из важнейших проблем для систем ДР является хранение
информации о точках интереса. Существует три основных типа
архитектур, на которых строятся системы ДР: сетевая (web), автономная (standalone) и шлюзовая (gateway) [19].
Сетевая модель (рис. 2.11) подразумевает, что у системы есть
неограниченный доступ в Интернет и вся информация хранится
в глобальной сети.
Соответственно, есть возможность доступа к неограниченному
объему контента, что налагает на разработчика дополнительные
заботы по контролю мировой модели – информации, связанной
с точками интереса. Например, необходимо тщательно отфильтровать права доступа к ресурсам, чтобы пользователь получал только
достоверную информацию. Также хранение данных в сети значительно расширяет набор устройств, на которых возможно реализовать подобную систему.
Использование автономной модели (рис. 2.12) основано на применении несетевых технологий. Вся система должна функционировать без доступа в глобальную сеть, что и является главным преОкружение
реального
мира
Клиент
Приложение
Взаимодействие
Отслеживание
Представление
Виртуальный
мир
WWW
Окружение
Мировая модель
Рис. 2.11. Сетевая архитектура
28
Окружение
реального
мира
Клиент
Приложение
Взаимодействие
Отслеживание
Представление
Окружение
Мировая модель
Виртуальный
мир
WWW
Рис. 2.12. Автономная архитектура
имуществом данной архитектуры. Среди отрицательных сторон
можно выделить необходимость постоянно производить выпуск
новых версий приложения с обновленной информацией.
В шлюзовой модели информация о статусе пользователя и окружении переносится на программно-аппаратную платформу. Платформа берет на себя все основные настройки внешнего вида приложения, фильтры точек интереса и т. д. В свою очередь поставщик
контента настраивает приложение под свои нужды и размещает на
своих серверах контент, на который ссылается через платформу,
которая служит шлюзом.
Преимуществом данной модели является то, что поставщику
контента нет необходимости заботиться о создании собственного
пользовательского интерфейса с нуля, его необходимо просто настроить. Таким образом, более широкий круг поставщиков может
присоединиться к развитию платформы, что положительным образом скажется на количестве и качестве контента (рис. 2.13).
Каждая архитектура имеет свои положительные и отрицательные стороны. Необходимо исходить из конкретных условий применения приложения для выявления наиболее подходящей архитектуры. Сетевая архитектура подойдет для использования в приложениях с разнообразным и постоянно меняющимся контентом.
Автономная архитектура должна использоваться, когда ограничен
или отсутствует доступ к сети. Шлюзовая архитектура представляет собой компромиссный вариант.
Исследовательская компания ARCchart считает, что в первую
очередь гиганты в области дополненной реальности будут разви29
Окружение
реального
мира
Клиент
Приложение
Взаимодействие
Отслеживание
Представление
Виртуальный
мир
Платформа
WWW
Окружение
Мировая модель
Рис. 2.13. Шлюзовая архитектура
вать пять направлений: поиск, рекламу, распознавание изображений, картографию и 3D-визуализацию. [11 ].
В качестве проблем дополненной реальности можно указать [17]:
– идентификацию – распознавание объектов, например, на основе использования маркеров, визуальных меток, электронных
ярлыков, GPS;
– регистрацию – нахождение относительного положения устройства отображения (динамическая оценка перемещений и вращений,
рендеринг/деформация изображений);
– интерактивность – виджеты, распознавание жестов, голос, визуальная обратная связь.
Вторым компонентом смешанной реальности является дополненная виртуальность (Augmented virtuality), которая означает
слияние объектов реального мира с виртуальным миром, например,
физические объекты или люди динамически интегрируются в виртуальный мир и взаимодействуют с ним в режиме реального времени.
Такая интеграция осуществляется с использованием различных методов, например, потоковое видео из физического пространства, или
с использованием трехмерной оцифровки физических объектов.
2.3. Виртуальные миры
Термин «виртуальный мир» (ВМ), в общем случае, обозначает
компьютерно-моделируемую среду, которая предоставляет возможность взаимодействовать нескольким пользователям в форме
30
аватаров, видимых другими. Можно сказать, что ВМ – это сетевая
ВР. Такие среды могут быть реализованы как в виде интерактивных 3D-приложений с аватарами, так и в более сложных системах,
имитирующих тактильные, звуковые и другие ощущения. Виртуальные миры, в основном, многопользовательские, однако некоторые авторы относят к ним и однопользовательские, например,
игры с автономными интеллектуальными персонажами [20].
Таким образом, в ВМ поддерживается совместная работа среди
групп пользователей. В них каждый посетитель представлен специальным сетевым объектом – аватаром, которого и видят другие
пользователи, а действия, производимые посетителями над виртуальным миром, также синхронизируются и видны всем. Это позволяет поддержать, например, наиболее эффективные технологии
обучения – участие в обсуждении материала и объяснение его другому [6].
Анализ многопользовательских ВМ производится на основе следующих трех основных критериев:
1. Пространственная метафора. Пространственная видимость
виртуального мира и всего в нем существующего играют решающую роль для функциональной возможности его использования
в качестве обучающей среды. Для значимой визуализации и взаимодействий могут быть использованы различные метафоры, связанные с реальным или вымышленным миром. Однако вероятно,
что при использовании метафор реального мира познавательная
нагрузка пользователя снижается, увеличивая степень сосредоточения и осознания пользователем задачи изучения. Например, при
дистанционном обучении используются метафоры классов, комнат
для частных встреч и лекционных аудиторий.
2. Представление пользователя. Установив соответствующую
пространственную метафору, следующее решение должно определить присутствие и тождество пользователей в ВМ в любое специфическое время. Пользователи совместной виртуальной среды должны быть видимы себе и другим пользователям. Для представления
пользователя необходимо решить следующие основные проблемы:
– присутствие – первичная цель аватара состоит в том, чтобы
передать присутствие пользователя в виртуальном мире, его местоположение и ориентацию;
– тождество – идентификация пользователя и его представления аватаром;
– точки зрения – реализуются через позиции восприятия пользователя, которые влияют на его взаимодействие с приложением;
31
– готовность – необходимо передать готовность к взаимодействию; (присутствие аватара предполагает готовность пользователя, хотя это не всегда может иметь место);
– знак – поддержка знаков в коммуникации подразумевает необходимость наличия у аватаров выражающих их средств – руки,
ноги, лицо и др.;
– мультимодальное представление – пользовательское представление должно рассматриваться не только как визуальное, но и
давать возможность использовать другие средства коммуникации,
например, голос и текст;
– эффективность – аватары должны быть настолько простыми,
насколько это возможно;
– правдивость – насколько аватар должен соответствовать реальному человеку.
3. Коммуникация между пользователями. Виртуальные миры
должны предоставить возможность подражать реальному миру
в поддержке визуальной, голосовой, текстовой и невербальной
коммуникации (жесты, телодвижения, мимика лица) в режиме реального времени.
В качестве примера одного из наиболее посещаемых публичных
многопользовательских ВМ можно привести Second Life, разработанный и опубликованный в Интернете в 2003 г. компанией Linden
Lab [21–23].
Second Life – трёхмерный виртуальный мир с элементами социальной сети, который насчитывает свыше 1 млн активных пользователей.
Second Life поддерживается сеткой серверов. Владельцы аккаунтов получают возможность выбрать наиболее приемлемый для
них способ виртуального существования – строительство, покупка
и продажа виртуальной земли, создание виртуальных предметов
искусства, создание виртуальных товаров, общение в чате или голосом, путешествия по многочисленным примечательным местам
виртуального мира и т. п.
В Second Life сами жители создают окружающий их контент:
одежду, дома, автомобили и многое другое. Жители (резиденты)
Second Life сами выбирают вид своего аватара либо модифицируют
(или покупают готовый у других резидентов) внешний вид.
В Second Life есть внутренняя валюта под названием Linden
Dollar, которую можно получить, обменяв на настоящие деньги;
предусмотрена также обратная конвертация, что создает возможность организации в Second Life вполне реальных бизнес-схем.
32
Ввести деньги в SL можно с помощью кредитной карты PayPal,
WebMoney, Яндекс-Денег.
Многие университеты и компании используют Second Life для
представления своих образовательных программ и обучения. Например, Second Life используется как место для обучения иностранным языкам (Second Life для тинейджеров).
Другой пример – разработка многопользовательской игры, рассмотрен в рамках цикла лабораторных работ на базе Unity3D [38].
2.4. Мультимодальный интерфейс
Человек в реальном мире использует свои сенсомоторные системы для взаимодействия с окружающей средой и общения с другими
людьми, применяя для этого различные вербальные (язык, речь) и
невербальные (мимика, жесты, запахи, касания и др.) средства.
Рассмотрим ряд терминов, используемых в области человекомашинного взаимодействия [24].
Термин коммуникации «способ» (mode) определяет сенсомоторный
канал коммуникации, используемый человеком для взаимодействия
с машиной (системой). Способ коммуникации определяет тип взаимодействия между пользователем и системой, т. е. у каждого способа
коммуникации есть связанный тип взаимодействия. Например, если
способ коммуникации между пользователем и системой является
графическим, взаимодействие называется графическим по аналогии.
Термин «среда» (media) используется для указания технических
средств поддержки коммуникации, которые позволяют передавать, обрабатывать и хранить информацию. Например, устройства
ввода – клавиатура, микрофон, мышь или др., устройства вывода –
экран, громкоговорители или др., а также устройства хранения –
компакт-диски или др.
Термин «модальность» (от лат. modus – способ, англ. – «modality») в психологии указывает на принадлежность отражаемого раздражителя к определенной сенсорной системе (зрительной, слуховой, тактильной и др.); качественность определенности ощущений
(цвет – в зрении, тон и тембр – в слухе, характер запаха – в обонянии). Модальность обусловлена строением органов чувств и особенностями среды, воздействующей на них.
В области человеко-машинных интерфейсов [25–27]:
модальность – тип канала коммуникации, используемого для
взаимодействия;
33
мультимодальная система (Multimodal system) – поддерживает коммуникацию с пользователем через различные модальности,
такие как голос, жест и печатание;
мультимодальное взаимодействие (multimodal interaction) –
взаимодействие пользователя с приложением, с использованием
более чем одного способа взаимодействия, например, предлагая
пользователю выбор разговора, или печатания, или, в некоторых
случаях, разрешая пользователю обеспечить сложный вход, вовлекающий многократные способы.
Термины «мультимода», «мультимедиа» и «мультимодальный»
(«multimode», «multimedia» и «multimodality») при описании человеко-машинных систем, как правило, используются с точки зрения возможностей системы. Приставка «много-» или «мульти-»
(«multi») подразумевает использование более чем одного способа,
среды или модальности. Таким образом, мономодальная и мультимодальная системы определяются как любая система, которая поддерживает коммуникацию с конечным пользователем через одну
или, соответственно, несколько модальностей [28].
Каково различие между многомодальной системой и мультимедийной системой? Мультимедийная система позволяет приобретать,
хранить и распределять данные, в то время как мультимодальная система способна к приобретению и интерпретации данных, так же как
к хранению и распределению этих интерпретаций. Поэтому можно сказать, что мультимодальная система – это система с мультимедийными
способностями, которая позволяет семантическую обработку данных.
В человеко-машинных системах модальности взаимодействия
можно описать как некоторое физическое устройство d и язык взаимодействия L: <d, L> [29].
Физическое устройство – это входные и выходные устройства
системы, например, мышь, клавиатура, микрофон, видеокамера,
трекеры положения и движения, экран и др. Язык взаимодействия – это набор характерных для данного устройства символов,
при помощи которых передается смысл, например, ограниченный
естественный язык, прямое манипулирование и т. п.
Типичные примеры:
– графическая входная модальность описывается как <mouse,
direct manipulation>;
– голосовая входная модальность: <microphone, pseudo-natural
language>;
– тактильная входная модальность: <tactile screen, tactile commands>;
34
– графическая выходная модальность: <screen, graphics language>;
– голосовая выходная модальность: <loud speakers, pseudo natural language>.
Преимущества мультимодального взаимодействия: мультимодальное взаимодействие позволяет пользователю работать с компьютером аналогично тому, как люди взаимодействуют друг с другом естественным образом – с помощью речи, взгляда, мимики,
жестов, поз, касаний и т. п.
Можно перечислить следующие преимущества мультимодального взаимодействия человека с машиной [30]:
– более естественное и выразительное взаимодействие;
– повышение эффективности выполнения задач (время, усилия,
обработка ошибок), в том числе повышение точности при решении
пространственно-визуальных задач;
– поддержка наиболее предпочитаемого пользователем способа
взаимодействия;
– снижение требований к интерфейсным знаниям пользователя.
Тем самым это обеспечивает для сложных человеко-машинных
систем расширение не только доступности, привлечения более широкой аудитории, но и ситуаций использования.
Основные проблемы при создании мультимодального интерфейса:
– описание решаемых задач в терминах модальностей на основе
человеко-центрированного и системо-центрированного подходов;
– анализ модальностей взаимодействия на соответствие сенсомоторным характеристикам пользователя;
– объединение соответствующих входных модальностей;
– разделение выходных модальностей (активизация самого подходящего канала взаимодействия).
Рассмотрим обобщенную архитектуру мультимодального интерфейса [25], представленную на рис. 2.14.
1. Пользователь – человек, который вводит данные в систему и
получает от нее ответную реакцию.
2. Ввод – реализация мультимодального взаимодействия с использованием нескольких режимов ввода, таких как речь, жесты,
рукопись, текст, движения и др. Механизм ввода для мультимодального взаимодействия включает три компонента:
– компонент распознавания;
– компонент интерпретации;
– компонент интеграции (слияния).
Компонент распознавания воспринимает естественный ввод от
пользователя и переводит его в форму, пригодную для дальнейшей
35
Компонент
интерпретации
Компонент
интеграции
Компонент
распознавания
Ввод
Компонент
генерации
Компонент
стиля
Компонент
представления
Вывод
Менеджер
взаимодействия
Функции
приложения
Компонент сессии
Компонент
системы и
окружающей
среды
Рис. 2.14. Обобщенная архитектура мультимодального интерфейса
обработки. Может быть описан с использованием грамматики языка разметки. Примеры:
– Speech – конвертирует произнесенную речь в текст;
– Handwriting – конвертирует рукописные слова и сообщения
в текст;
– Keyboarding – конвертирует нажатые клавиши в текстовые
символы;
– Pointing device – конвертирует кнопки, нажатые в (x, y)-позиции,
в двумерную поверхность.
Другие компоненты распознавания могут включать зрение,
язык жестов, биометрию, тактильный ввод, идентификацию говорящего, идентификацию почерка и другие режимы ввода.
Компонент интерпретации идентифицирует «значение», или
«семантику», подразумеваемую пользователем. Например, многие
слова, которые используются в значении «да», «конечно» и «согласен», могут быть представлены как «да».
Компонент интеграции объединяет выходы от нескольких
компонентов интерпретации входов. Иногда используется термин
«мультимодальное слияние» (multimodal fusion).
Некоторые или все возможности этого компонента могут быть обеспечены как часть компонента распознавания, интерпретации или
взаимодействия. Например, аудиовизуальное распознавание речи
может интегрировать распознавание движения губ и распознавание
речи, как часть компонента чтения губ, как часть компонента распознавания речи или объединяться в отдельный компонент интеграции.
36
Другой пример: два режима ввода речи и указания используются
в «положить это» (указание на объект), «там» (указание на место) и
могут быть объединены в отдельный компонент интеграции или могут быть объединены в компоненте менеджера взаимодействия.
Существует три основных подхода для управления вводом в порядке увеличения сложности [30]:
– последовательный мультимодальный ввод – соответствует входным данным, полученным от одной модальности, которая может меняться с течением времени; на данном уровне должно быть доступно
описание, какая модальность или устройство будет использоваться для
ввода и указания или осуществления переключения модальностей;
– синхронный мультимодальный ввод – предполагает, что входные данные от нескольких модальностей интерпретируются одно
за другим в порядке приема, вместо того чтобы комбинироваться
перед интерпретацией;
– смешанный мультимодальный ввод – соответствует входным
данным, полученным от нескольких модальностей в одно и то же
время и рассмотренных как единый, интегрированный комплекс
введенных данных для последующей обработки;
3. Вывод – реализация мультимодального взаимодействия, использующая несколько режимов вывода, таких, как речь, текст,
графика, аудиофайлы и анимация.
Механизм вывода для мультимодального взаимодействия включает три компонента:
– компонент генерации;
– компонент стиля;
– компонент представления (рендеринга).
Компонент генерации – определяет, какой способ (способы) вывода будут использоваться для представления информации, поступающей от менеджера взаимодействия пользователю. Иногда используется термин «мультимодальное разделение» (multimodal fission). Информация от менеджера взаимодействия может быть передана непосредственно на соответствующее устройство представления, не будучи закодированной на внутреннем языке представления. Например,
записанное аудио посылают непосредственно в звуковую систему.
Компонент стиля – добавляет информацию о том, как информация должна «выставляться» (представляться). Например, компонент стиля для дисплея описывает, как графические объекты располагаются на экране, в то время как компонент стиля для звука
может вставлять паузы и интонации голоса в текст, который произносится синтезатором речи.
37
Компонент представления (рендеринга) – конвертирует информацию из компонента стиля в формат, который легко понять
пользователю. Например, компонент графического представления
отобразит вектор точек как кривую линию, а система синтеза речи
конвертирует текст в синтезированную речь.
4. Менеджер взаимодействия – это логический компонент, который координирует данные и управляет потоками из различных
входных и выходных модальностей. Он поддерживает состояние
взаимодействия в контексте приложения, отвечает за входы от составляющих интерфейс объектов и изменения в системе и окружающей среде, управляет этими изменениями и координирует вход и
выход через составляющие интерфейс объекты.
5. Компонент сессии – предоставляет интерфейс для менеджера
взаимодействия, чтобы поддерживать управление состояниями, а
также временными и постоянными сессиями для мультимодальных приложений. Особенно важен для распределенных приложений, включающих более одного устройства и/или пользователя. Он
скрывает подробности используемых схем и протоколов и обеспечивает интерфейс высокого уровня для запроса или освобождения
ресурсов внутри сессии.
6. Компонент системы и окружающей среды – позволяет менеджеру взаимодействия обнаруживать возможные изменения
устройств, параметров пользователя, состояние окружающей среды и реагировать на них. Например, какой из доступных режимов
предпочитает пользователь, возможности поддержки цвета, разрешение экрана и др.
Рассмотрим основные особенности мультимодальной интеграции и генерации, соответственно, мультимодального слияния и
мультимодального разделения.
Задача мультимодального слияния (multimodal fusion) состоит в том, чтобы объединить все входящие унимодальные события
в единое представление намерения, выраженное пользователем.
При этом необходимо принимать во внимание каждое унимодальное событие, которое потенциально может способствовать комплексному пониманию мультимодального взаимодействия (на
уровне данных, функциональное и смысловое).
Можно сформулировать некоторые требования к мультимодальному слиянию:
1. Учет возможности, при которой пользователь может переключаться между различными модальностями для совершения одной и той же команды. Например, он сначала может использовать
38
жесты для перемещения одного объекта, а затем использовать голос для перемещения другого.
2. Совершенствование мономодальной обработки и контекстуального предсказания для пользователей, проявляющих шаблонное поведение. Пользователи могут всегда (или очень часто) использовать одну модальность для данной команды. Например, они
могут всегда использовать модальность жестов для открытия двери
и практически никогда не использовать речь.
3. Учет индивидуальных различий как предпочтений пользователя, например, одни пользователи предпочитают жесты, другие –
речь, так и насыщенности применения пользователем модальности, например, дети чаще, чем взрослые, используют жесты.
4. Возможность взаимного устранения противоречий между модальностями из-за того, что пользователь может проявлять неоднозначное поведение в своих жестах и речи. Например, пользователь
при работе с мультимодальной картой может указать жестом между
объектами вместо точного указания конкретного объекта или при
речевом взаимодействии указывать на объект с различным уровнем точности (может указывать на «Музей Эрмитаж», произнося:
«Этот», «Это здание», «Этот музей», или «Музей Эрмитаж»). Другой
пример – порождение различных мультимодальных структур:
– синтаксически корректное высказывание, требующее слияния событий речи и жестов: «Существуют ли какие-нибудь изображения в этой книге?» + <указание жестом на книгу>;
– синтаксически некорректное высказывание, требующее слияния взаимодополняющих событий речи и жестов: «Существуют ли
какие-нибудь изображения в…?»” + <указание жестом на книгу>;
– синтаксически корректное высказывание, требующее слияние избыточных событий речи и жестов: «Существуют ли какиенибудь изображения в книге?»+<указание жестом на книгу >.
5. Учет временной близости используемых модальностей, т. е.
события, происходящие в одном временном окне, как правило,
объединяются. Однако при этом необходимо помнить следующее:
– иногда пользователь может жестикулировать и говорить для
двух независимых задач, например: перемещать объект с помощью
жестов и одновременно просить удалить другой объект с помощью
голоса; пользователь может прогнозировать реакцию системы и
производить новую команду перед тем, как предыдущая команда
будет выполнена системой;
– длина временного окна может различаться для различных
групп пользователей или для одиночного пользователя;
39
– как правило, различное время обработки для разных модальностей, например, распознавания жестов и речи.
Основная задача мультимодального разделения (multimodal
fission) – анализ различий для активации наиболее подходящей
модальности и построение сообщения через их комбинацию. Как
правило, решается в три этапа:
1) выбор и структуризация содержимого сообщения;
2) выбор модальностей;
3) координация выходных параметров на каждом канале в форме последовательных сообщений.
Классические методы деления – визуализация, синтез речи, диалоговые агенты и др.
Существуют различные концептуальные модели мультимодального интерфейса, например:
– Подход TYCOON framework (TYpes of COOperatioN) – позволяет описывать и оценивать различные типы связей между взаимодействующими модальностями [31]. Такой подход основан на
представлении типов и целей взаимосвязи между модальностями.
– Модель CASE – позволяет классифицировать мультимодальные взаимодействия [30].
– Модель CARE (Complementarity, Assignment, Redundancy and
Equivalence) – предлагает формальный способ описания и оценки
свойств мультимодального взаимодействия, а также позволяет
описать и свойства модели CASE [32].
– Подход W3C (World Wide Web Consortium) [23] – предлагает
общую и гибкую архитектуру, обеспечивающую взаимодействие
между компонентами отдельных модальностей от различных поставщиков.
Рассмотрим более подробно указанные модели.
1. Модель TYCOON.
В результате исследований в таких областях, как психология,
искусственный интеллект, человеко-машинное взаимодействие,
были выявлены пять типов взаимосвязей между модальностями:
1. Трансформация: устанавливает, какая часть информации,
порожденная одной модальностью, будет использоваться другой
модальностью. Трансформация может происходить как между двумя входными или выходными модальностями, так и между входной и выходной модальностью. Цели такого типа взаимосвязи:
– перевод – например, в гипермедиаинтерфейсах клик мышью
генерирует отображение рисунка или поиск информации в приложении, пользователь может выразить запрос в одной модальности
40
(например, речь) и получить соответствующую информацию в другой (например, видео);
– улучшение распознавания, например, результат указания мышью может быть перенесен в модальность речи для облегчения распознавания предсказуемых слов (например, «здесь», «тот»);
– возможность быстрого взаимодействия – например, часть произнесенного высказывания была не распознана, она может быть отредактирована с помощью клавиатуры, при этом пользователю не
нужно вводить/произносить все высказывание сначала.
2. Эквивалентность: две модальности считаются эквивалентными, если часть информации может быть обработана как альтернатива любой из модальностей. Цели такого типа взаимосвязи:
– улучшение распознавания команд – например, когда механизм распознавания речи не работает эффективно (например, наличие шума в окружающей среде), пользователь может выбрать
действие с помощью стилуса;
– адаптация к характеристикам пользователя – пользователь
может выбрать предпочитаемую модальность.
3. Специализация: указывает на определенный тип информации, который всегда обрабатывается одной и той же модальностью.
Цели такого типа взаимосвязи:
– интерпретация – пользователь помогает интерпретировать события, порожденные системой;
– улучшение распознавания – облегчает процесс обработки и улучшает точность распознавания речи из-за уменьшения области поиска;
– ускорение взаимодействия – уменьшает продолжительность
интеграции и процесса выбора модальности.
4. Избыточность: некоторые модальности взаимодействуют избыточно, когда они обрабатывают одну и ту же информацию (например, отображение подтверждающего диалога скрывается с помощью двух избыточных действий пользователя: вводом «quit»
и произношением «quit», это способствует ускорению взаимодействия). Наблюдаются некоторые преимущества избыточности:
– поддержка естественных для пользователя действий – исследования показали, что иногда пользователи выбирают некоторые
опции (например, город), одновременно используя речь и прикосновение к сенсорному экрану;
– увеличение обучаемости – избыточный мультимодальный вывод с одновременным отображением текста и его произношением
позволяет ускорить процесс обучения по сравнению с графическим
интерфейсом.
41
5. Комплементарность: рассматриваются несколько модальностей, каждая из которых обрабатывает различные части информации, которые впоследствии объединяются. Цели такого типа взаимосвязи:
– ускорение взаимодействия – две модальности могут использоваться одновременно и передавать короткие сообщения, распознаваемые лучше, чем длинные;
– улучшение интерпретации – для продвинутых пользователей
достаточно графического отображения, но для новичков необходимо также отображение текста.
Модель TYCOON лежит в основе инструментария COMIT, который
позволяет пользователю мультимодально взаимодействовать с системой. COMIT определяет командный язык, который используется для
описания различных типов взаимоотношений между модальностями, например, распознаванием речи, клавиатурой и мышью.
2. Модель CASE.
Модель позволяет классифицировать мультимодальные взаимодействия на основе трех критериев: уровень абстракции данных,
используемые модальности и виды слияния (рис. 2.15).
Использование модальностей зависит от времени и может быть
параллельным (несколько модальностей работают одновременно)
или последовательным(одна модальность – в одно время, следующая – в другое время).
Слияние – это комбинирование различных типов данных, которое может быть независимым (отсутствие слияния) и комбинированным (необходимое слияние).
Уровень абстракции – данные, полученные от устройства, – могут быть обработаны на различных уровнях абстракции, например,
для анализа речи – уровень сигнала; фонетический уровень; семантический уровень.
Исходя из этого, можно выделить четыре типа мультимодальных взаимодействий:
1) Concurrent – две различные задачи выполняются параллельно, без обращения друг к другу;
Использование модальностей
Последовательно
Параллельно
Слияние
Комбинированное
Независимое
Alternate
Synergistic
Exclusive
Concurrent
Уровень абстракции
Рис. 2.15. Типы мультимодальных взаимодействий
42
2) Alternate – задачи с временным чередованием модальностей,
используется взаимосвязь;
3) Synergistic – параллельные задачи, использующие несколько
связанных модальностей;
4) Exclusive – одна задача за другой использует одну модальность в одно и то же время, без обращения друг к другу.
3. Модель CARE.
Модель CARE (Complementarity, Assignment, Redundancy and
Equivalence) предлагает формальный способ описания и оценки
свойств мультимодального взаимодействия. Кроме того, она позволяет описать и свойства модели CASE.
Для того чтобы дать формальное определение свойствам CARE,
определим некоторые параметры:
– состояние – набор свойств, которые могут быть измерены
в определенное время для описания ситуации;
– агент – пользователь или система, способные инициировать
выполнение действий;
– цель – состояние, которое намерен достичь агент, выполняя
экспрессию; входная экспрессия выполняется пользователем, которому необходимо достичь намеченной цели; затем она обрабатывается системой, которая, в свою очередь, производит выходную
экспрессию;
– модальность – метод взаимодействия, который может использовать агент для достижения своей цели; представляется парой из
физического устройства d и языка взаимодействия L: <d, L>.
– временное окно (temporal window) – интервал времени, который определяет временные ограничения использования модальностей для генерации входных и выходных экспрессий; временное
отношение (temporal relationship) характеризует использование
с течением времени набора модальностей; использование модальностей может быть последовательным и параллельным в рамках
временного окна;
– функция достижимости Reach (s, m, s’) – моделирует экспрессивную силу модальности m, т. е. ее способность позволить агенту
достичь состояния s’ из состояния s за один шаг. Последовательность
шагов (или состояний) называется траекторией взаимодействия;
– модальности набора M используются совместно (или параллельно), если в рамках временного окна они используются в одно
и то же время.
Пусть Active (m, t) обозначает используемую в некоторый момент времени t модальность m. Одновременное использование мо43
дальностей из набора M над конечным временным окном tw можно
формально определить:
Parallel (M, tw) ⇔ (Card (M) > 1) ∧ (Duration (tw) ≠ ∞) ∧
∧ (∃ t∈tw, ∀m∈ M, Active (m, t)),
где Card (M) – это число модальностей набора M; и Duration (tw) –
это длительность временного интервала tw;
– модальности M используются последовательно в рамках временного окна tw, если только одна модальность может быть активна в одно и то же время и все модальности набора используются
в рамках tw:
Sequential (M, tw) ⇔ (Card (M) > 1) ∧ (Duration (tw) ≠ ∞) ∧
∧ (∀t∈ tw, (∀m, m’∈ M, Active (m, t) ⇒ ¬ Active (m’, t)) ∧
∧ (∀m ∈ M, ∃t∈ tw, Active (m, t)).
У временных окон для параллельных и последовательных модальностей нет необходимости в идентичных продолжительностях. Важным моментом является то, что они выражают ограничение на темп
взаимодействия. Отсутствие временных ограничений рассматривается в рамках длительности временного окна как бесконечность.
Теперь мы можем определить ряд свойств модальностей:
1. Эквивалентность (E – equivalence) – модальности набора M
эквивалентны для достижения состояния s’ из состояния s, если
необходимо и достаточно использовать любую из модальностей. M,
как предполагается, содержит, как минимум, две модальности:
Equivalence (s, M, s ‘) ⇔ (Card(M) >1) ∧ (∀ m∈ M, Reach (s, m, s ‘))
Например, рассматрим следующие параметры:
– модальности: m1 = речевой ввод <микрофон; узкий словарь,
ориентированный на естественный язык >; m2 = письменный естественный язык <клавиатура; язык команд>;
– состояния: s = незаполненное текстовое поле; s’ = заполненное
текстовое поле s.
– цель – достичь состояния s’ из состояния s;
– агент – пользователь.
Таким образом, пример эквивалентного использования модальностей: пользователь может заполнить текстовое поле, используя
любую из модальностей m1 или m2.
Эквивалентность определяет возможность выбора между модальностями, но не налагает временных ограничений на них.
2. Определенность (A – assignment) – модальность m называют
определенной для достижения состояния s’ из состояния s, если ни
44
одна из других модальностей не может быть использована для достижения состояния s’ из состояния s:
Assignment (s, m, s’) ⇔ Reach (s, m, s’) ∧ (∀ m’ ∈M,
Reach (s, m’, s’) ⇒ m’=m).
Например, если рассмотрим следующие параметры:
– модальность: m = письменный естественный язык <клавиатура; язык команд>;
– состояния: s = незаполненное текстовое поле; s’ = заполненное
текстовое поле;
– цель – достичь состояния s’ из состояния s;
– агент – пользователь.
Таким образом, пример определенной модальности: пользователь может заполнить текстовое поле, используя только определенную модальность m. Другие модальности не могут быть использованы для достижения состояния s’.
3. Избыточность (R – redundancy) – модальности из набора M
используются избыточно для достижения состояния s’ из состояния s, если они имеют одинаковую выразительную мощность (они
эквивалентны) и если все они используются в рамках одного временного окна tw:
Redundancy (s, M, s’, tw) ⇔ Equivalence (s, M, s’) ∧
∧ (Sequential (M, tw) ∨ Parallel (M, tw)).
Например, рассмотрим следующие параметры:
– modalities: m1 = речевой ввод <микрофон; узкий словарь, ориентированный на естественный язык >; m2 = графический ввод
<мышь; прямое манипулирование>;
– состояния: s = незаполненный комбо-бокс; s’ = заполненный
комбо-бокс s;
– цель – достичь состояния s’ из состояния s;
– агент – пользователь.
Избыточность может включать два разных временных отношения
– последовательное и параллельное, которые могут быть различными для юзабилити и реализации программного обеспечения. В частности, параллельность накладывает некоторые ограничения на тип
используемых одновременно модальностей: модальности, которые
конкурируют за одни и те же системные или человеческие ресурсы,
не могут быть активизированы параллельно. В таком случае агент
может действовать последовательно, но в рамках одного временного
окна (т. е. пользователь должен произвести действие за очень короткий промежуток времени, чтобы входные модальности были рас45
смотрены как параллельные). Для описания этих свойств можно
использовать спецификацию модели CASE. В таком случае, когда
параллельность возможна, мы имеем «Конкурентность – Избыточность» («Concurrent – Redundancy») и «Исключение – Избыточность»
(«Exclusive – Redundancy») для последовательного поведения:
Concurrent – Redundancy (s, M, s’, tw) ⇔
⇔ Equivalence (s, M, s’) ∧ Parallel (M, tw);
Exclusive – Redundancy (s, M, s’, tw) ⇔
⇔ Equivalence (s, M, s’) ∧ Sequential (M, tw).
Пример избыточного использования модальностей: комбо-бокс
может быть заполнен пользователем, используя модальности m1 и
m2 параллельно, или используя их последовательно.
4. Комплементарность (C – complementarity) – модальности из
набора M используются комплементарно для достижения состояния s’ из состояния s в рамках одного окна, если все они должны
быть использованы для достижения состояния s’ из состояния s (отдельно ни одна из них не может привести к достижению состояния):
Complementarity (s, M, s’, tw) ⇔ (Card (M) >1) ∧
(Duration (tw) ≠ ∞ ) ∧ ((∀M’ ∈ PM, (M ‘ ≠ M ⇒
⇒ ¬ REACH (s, M’, s’))) ∧ REACH (s, M, s’) ∧
∧ (Sequential (M, tw) ∨ Parallel (M, tw))),
где PM – часть набора М.
Например, рассмотрим следующие параметры:
– modalities: m1 = речевой ввод <микрофон; узкий словарь,
ориентированный на естественный язык >; m2 = письменный естественный язык <клавиатура; язык команд>;
– состояния: s = незаполненное текстовое поле для ввода имени
и фамилии; s’ = заполненное текстовое поле;
– цель – достичь состояния s’ из состояния s;
– агент – пользователь.
Пример комплементарного использования модальностей: модальность m1 используется для произнесения имени пользователя,
в то время как m2 используется для ввода фамилии. Ни одна из модальностей, взятая отдельно, не может быть использована для достижения состояния s’.
Как и избыточность, комплементарность может быть параллельной или последовательной. Учитывая спецификацию CASE, «Синергетический –Комплементарный» («Synergistic – Complementarity»)
используется при параллельном взаимодействии, а «Альтернатив46
ный – Комплементарный» («Alternate – Complementarity») – при
последовательном взаимодействии в рамках временного окна. Например, при «Alternate – Complementarity» выражение: «Положи
это туда» будет понято системой, если пользователь сначала произнесет: «Положи это», – затем покажет объект, а затем произнесет:
«Туда», указывая жестом на новую позицию (все действия должны
производиться в рамках одного временного окна).
Synergistic – Complementarity (s, M, s’, tw)⇔
⇔ (Card (M) >1)∧(Duration (tw)≠∞ ) ∧ (∀M’∈PM (M’≠ M ⇒
⇒ ¬ REACH (s, M’, s’)))∧ REACH (s, M, s’) ∧ Parallel (M, tw).
Alternate – Complementarity (s, M, s’, tw)⇔ (Card (M) >1) ∧
∧ (Duration (tw) ≠ ∞ ) ∧ (∀M’∈PM (M’ ≠ M⇒ ¬ REACH (s, M’, s’)) ∧
∧ REACH (s, M, s’) ∧ Sequential (M, tw).
Будь то синергетичность или альтернативность, комплементарный ввод требует, чтобы система выполняла при вводе слияние
данных (data fusion), а при выводе – деление данных (data fission).
4. W3C – мультимодальная архитектура и интерфейсы.
Цель подхода W3C – World Wide Web Consortium – предоставить общую и гибкую архитектуру, обеспечивающую взаимодействие между компонентами отдельных модальностей от различных
поставщиков, например, распознавания речи от одного поставщика и распознавания рукописного текста от другого поставщика. Эта
архитектура накладывает очень мало ограничений на отдельные
компоненты или на взаимодействие с каждым из них, вместо этого
основное внимание уделяет обеспечению общего средства, позволяющего взаимодействовать им друг с другом, а также базовой инфраструктуре для управления приложением и сервисами платформы.
Требования к мультимодальной архитектуре:
1) инкапсуляция: архитектура не должна касаться внутренней реализации компонентов, которые будут рассматриваться как
«черные ящики»;
2) распространение: архитектура должна поддерживать как
распределение, так и локальные реализации;
3) расширяемость: архитектура должна облегчить интеграцию
новых компонентов модальности; например, к существующей реализации с голосовым и графическим компонентами можно добавить новый компонент (например, компонент биометрической безопасности) без изменения существующих компонентов;
4) рекурсивность: архитектура должна поддерживать вложение
так, чтобы ссылка на некоторые компоненты, присутствующие
47
в структуре, могла быть упакована и представлена в виде отдельного компонента на ссылке более высокого уровня в архитектуре;
5) модульность: архитектура должна предусматривать разделение данных, контроля и оформления.
Основные составляющие архитектуры мультимодального взаимодействия приведены на рис. 2.16.
Архитектура включает следующие компоненты:
– структура рабочего цикла (Runtime Framework) – обеспечивает базовую инфраструктуру и контроль над взаимодействием среди
других составляющих;
– менеджер взаимодействия (Interaction Manager) – координирует различные модальности;
– компонент данных (Data Component) – обеспечивает общую
модель данных;
– компонент модальности (Modality Components) – обеспечивает
механизм взаимодействия отдельных модальностей.
Компоненты модальности взаимодействуют со структурой через
асинхронные события. Компоненты должны быть способны вызывать и обрабатывать асинхронно доставленные события. В целом
ожидается, что компоненты будут вызывать события как автоматически (например, как часть их реализации), так и в соответствии
Менеджер
взаимодействия
Механизм передачи А
Компонент
данных
Механизм передачи В
Уровень передачи событий
Компонент
модальности
Компонент
модальности
Структура рабочего цикла
Рис. 2.16. Мультимодальная архитектура
48
с разметкой. Ответственность за распоряжение событиями ложится на уровень структуры. Это означает, что компонент, вызвавший
событие, не указывает, какому конкретному компоненту или же
всем компонентам оно должно быть доставлено.
Существуют следующие требования к механизму, используемому для доставки событий между компонентами модальности и
структурой:
1. События должны быть надежно доставлены. В частности, механизм доставки событий должен вывести сообщение об ошибке,
если событие не может быть доставлено, например, если конечная
точка недоступна.
Таблица 2.1
Пример событий
Событие
Источник
NewContextRequest Модальность
NewContextResponse Runtime
Framework
Prepare
Runtime
Framework
PrepareResponse
Модальность
Start
StartResponse
Runtime
Framework
Модальность
Done
Модальность
Cancel
Runtime
Framework
Модальность
CancelResponse
Pause
PauseResponse
Resume
Runtime
Framework
Модальность
ResumeResponse
Runtime
Framework
Модальность
Data
Любой из двух
ClearContext
Runtime
Framework
Получатель
Runtime
Framework
Модальность
Модальность
Runtime
Framework
Модальность
Назначение
Запрос нового
контекста
Отправка нового
id- контекста
Предварительная
загрузка разметки
Подготовка
распознавания
Запуск разметки
Runtime
Framework
Runtime
Framework
Модальность
Начало распознавания
Runtime
Framework
Отмена распознавания
Модальность
Приостановка
обработки
Приостановка
распознавания
Восстановление
обработки
Восстановление
распознавания
Отправка значения
данных
Деактивация
контекста
Runtime
Framework
Модальность
Runtime
Framework
Любой из двух
Модальность
Окончание работы
Остановка обработки
49
2. События должны быть доставлены получателю в том порядке, в котором они были порождены источником. Не существует
никакой гарантии соблюдения упорядоченности поставляемых событий, генерируемых различными источниками. Например, если
компонент модальности M1 генерирует события E1 и E2 в таком
порядке, а компонент модальности M2 генерирует E3 и E4, требуется, чтобы E1 было доставлено перед E2, а E3 – перед E4, но нет
гарантии доставки E1 и E2 в сравнении с E3, E4.
Мультимодальная архитектура определяет следующие основные события жизненного цикла (табл. 2.1), которые должны быть
поддержаны всеми компонентами модальности. Эти события позволяют структуре вызывать компоненты модальности и получать
от них результаты. Таким образом, они образуют основу интерфейса между компонентами модальности и структурой.
50
3. ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ
ИНТЕРАКТИВНОГО ПОГРУЖЕНИЯ
В данном разделе рассмотрена методика создания приложений
на основе методов и технологий интерактивного погружения с иллюстрацией на примерах проектов в культурном наследии, театральном искусстве, промышленности и медицине, выполненных
за последние три года в лаборатории компьютерной графики и виртуальной реальности ГУАП. С примерами проектов, реализованных ранее, можно ознакомиться в монографии [6].
На сайтах лаборатории компьютерной графики и виртуальной
реальности Санкт-Петербургского государственного университета
аэрокосмического приборостроения [33] и компании VR Lab. [34]
можно посмотреть дополнительный иллюстративный и видеоматериал по разработанным приложениям.
3.1. Методика разработки приложений
Рассмотрим обобщенную методику разработки приложений на
основе технологий интерактивного погружения.
Основным объектом разработки являются программные приложения (продукты), моделирующие различные объекты и процессы
с использованием технологий интерактивного погружения и обеспечивающие, в общем случае, следующую функциональность [35, 36]:
– Погружение в трехмерную аудиовизуальную (моно + стерео) среду с возможностью добавления кинестетических и других ощущений.
– Перемещение в среде с шестью степенями свободы и взаимодействие с ее объектами в реальном времени (селекция объекта, манипуляции с объектом, включая получение информации об объекте)
посредством контактного (клавиатура, мышь, джойстик, касания)
или бесконтактного (телодвижения, голос, мимика) управления.
– Прямое манипулирование объектами в пространстве модели.
– Поведение объектов с учетом физических законов реального
мира и искусственного интеллекта.
– Использование аватаров, представляющих пользователей,
или автономных аватаров с интеллектуальным поведением.
– Дополнение визуальных и слуховых ощущений реального или
виртуального мира соответственно виртуальными или реальными
объектами.
– Индивидуальный и многопользовательский доступ.
51
– Визуальная, голосовая, текстовая, невербальная и др. коммуникация при совместной работе.
– Воспроизведение на настольных, носимых, мобильных и поверхностных системах, в том числе многоэкранных (моно и стерео).
– Локальная, сетевая и гибридная доставка пользователю.
В общем случае создание подобного приложения включает следующие основные этапы [6]:
1. Замысел – что предлагается, что это дает, чем отличается, как
реализуется?
2. Создание цифровых объектов с использованием различных
типов представления информации – текст, изображения (фото, карты, схемы, рисунки), видео, речь, музыка, 3D-графика и анимация.
3. Создание цифровых персонажей, как правило, двух типов:
– представляющих пользователей,
– автономных, в том числе с интеллектуальным поведением.
4. Создание интерактивной и иммерсивной виртуальной среды,
включая:
– сборку цифровых объектов и персонажей;
– добавление интерактивности и реалистичности (физические
законы, спецэффекты, искусственный интеллект);
– создание иммерсивных представлений;
– создание многопользовательских приложений;
– разработку доступа к базам данных, в том числе к распределенным в случае необходимости.
5. Публикации для расширенного развертывания, включая:
– распределение контента на кластерах компьютеров, например, для многоэкранных систем отображения;
– управление специализированными устройствами ввода/вывода – шлемы, перчатки и т. п.;
– многопользовательский сервер, представляющий компоненты
для создания общедоступных приложений (локальных и сетевых)
и полноценную публикацию (неограниченное число соединений,
Internet, LAN).
6. Доставка контента конечному пользователю:
– стандартная – осуществляется при помощи базовых или продвинутых средств пользовательского интерфейса, например, webплеер, иммерсивный плеер, плеер игровой приставки;
– специализированная – по индивидуальному заказу пользователя.
В табл. 3.1 приведены основные инструменты реализации технологии интерактивного погружения, которые использовались
при выполнении проектов, приведенных в подр. 3.2–3.5.
52
Таблица 3.1
Пример инструментов разработки
Объект разработки
Инструменты
Интерактивные 3D-модели
3D-модели
Персонажи
Анимации
Управление жестами
Дополненная реальность
Чертежи
Unity 3D, языки C# и JavaScript
Autodesk 3ds Max
Autodesk 3ds Max, Zbrush, Topogun
Autodesk 3ds Max, Unity Mecanim
MS Kinect SDK
Qualcomm Vuforia
Autodesk AutoCAD
Тексты (MS Word), изображения (Adobe Photoshop, Adobe InDesign, Adobe Illustrator), аудио
(Adobe Audition), видео (Adobe Premiere)
Мультимедиа
Основы и навыки разработки приложений с использованием перечисленных инструментов студенты ГУАП направления 09.04.01
(230100.68) «Информатика и вычислительная техника» приобретают при подготовке:
– бакалавров – основы моделирования 3D-сцен в пакете 3DS
Max [37];
– магистров по программе «Системы мультимедиа и компьютерная графика» – основы работы в Unity3D [38,39], создание приложений с использованием дополненной реальности (Vuforia, Metaio)
и бесконтактных интерфейсов (сенсор MS Kinect) [40].
Основные этапы интерактивного 3D-моделирования объектов
на примере исторических реконструкций ландшафта и строений
крепостей Ям – Ямбург (см. подр. 3.2) приведены в табл. 3.2.
3.2. Культурное наследие и культурный туризм
Исторические реконструкция крепости Ям – Ямбург
Крепость Ям-Ямбург (до XVIII века – Ям, до 1922 г. – Ямбург,
в настоящее время – г. Кингисепп Ленинградской области) расположена в северо-западной части России на берегу р. Луги.
Была построена в конце XIV века как важный форпост на западной границе Руси. История строительства крепости включает различные периоды, в том числе шведский (1581–1590, 1612–1703).
В настоящее время сохранились остатки бастионной системы
XVII–XVIII веков (северные бастионы с куртинами, ров и пруд),
обозначающие контур крепости, а также под землей расположены
53
Таблица 3.2
Этапы интерактивного 3D-моделирования
№
Основные этапы
Инструменты
1
Создание модели местности:
1.1 Создание карты высот ландшафта на основе исходной
Photoshop
карты (топоплана) местности по изолиниям
1.2 Создание ландшафта с помощью карты высот
Unity3D
1.3 Из-за большого размера полигонов сетки ландшафта
3dSMax
отдельно с большей детализацией моделируется ров,
Unity3D
который добавляется в модель ландшафта
1.4 Добавление травы, деревьев, кустов, неба, солнца, доUnity3D
рог, камней, водных поверхностей и т. п.
1.5 Установка освещения
Unity3D
1.6 Подготовка текстур с учетом особенностей Unity3D
Photoshop
(texture tiling, normal maps, brightness) и выставленного
освещения
1.7 Текстурирование ландшафта
Unity3D
2
Создание моделей крепости и строений:
2.1 Создание плана крепости с учетом специфики моделиро- Autocad
вания в 3dSMax
2.2 Перенос плана в 3dSMax по слоям (отдельно стены,
3dSMax
боевой ход и т. п.)
2.3 Корректировка плана (слияние точек и др.)
3dSMax
2.4 3D-моделирование элементов крепости и строений (кар- 3dSMax
каса стен с проемами, полом, потолком и др.)
2.5 Подготовка текстур
Photoshop
2.6 Текстурирование модели
3dSMax
Photoshop
2.7 Перенос моделей в общую сцену Unity3D
Unity3D
2.8 Установка освещения, корректировка текстур с учеUnity3D
том особенностей Unity3D (см. п. 1.6) и выставленного
освещения
3
Создание и постановка коллайдеров (ограничение пере- Unity3D
мещения по территории и т. д.).
4
Добавление интерактивности в модель (управление
Unity3D
камерой и характеристиками объектов).
5
Интеграция модели в приложение и организация интер- Unity3D
фейса (навигация, устройства)
фрагменты нижних частей каменных укреплений XIV–XVI веков,
раскопанные под руководством А. Н. Кирпичникова [41].
На территории крепости находится здание Кингисеппского
историко-краеведческого музея.
54
С целью сохранения и популяризации исторической информации об утраченном объекте культурного наследия, а также создания
информационного ресурса для культурного туризма в 2013–2015 гг.
в рамках программы «Сохранение и использование культурного наследия в России» выполнялся проект «История крепости Ям».
Участники проекта: Музейное агентство Ленинградской области, Кингисеппский историко-краеведческий музей, Институт
истории материальной культуры РАН, лаборатория компьютерной графики и виртуальной реальности ГУАП, компания VR Lab.,
Фонд инвестиционных строительных проектов Санкт-Петербурга.
Работы осуществлялись на основе собранных Кингисеппским
историко-краеведческим музеем документальных материалов и
художественных реконструкций, опубликованных работ и консультаций сотрудников отдела славяно-финской археологии Института истории материальной культуры, а также анализа реально
существующих аналогов – крепостей Порхов, Ивангород, Копорье.
При выполнении проекта учитывались следующие рекомендации [42] по созданию успешных и устойчивых программ и продуктов культурного туризма, в частности:
– Сотрудничество различных региональных партнеров – органов местного самоуправления, музеев, туроператоров, гостиниц,
ресторанов и др.
– Баланс потребностей туристов и местных жителей.
– «Живые» культурные туристические программы и продукты,
учитывающие, в частности, эффективность различных способов
восприятия и запоминания материала посетителями (по данным
психологов – 10% – на слух; 30% – после чтения; 50% – визуально;
90% – делают сами), а также вовлечение в культурный опыт всех
органов чувств посетителя и связывание с его личным опытом.
– Упор на качество и подлинность представления местного культурного наследия.
– Сохранение и защита в долгосрочной перспективе объектов
культурного наследия, которые лежат в основе местных планов по
развитию культурного туризма.
Результаты выполнения проекта:
– Интерактивные 3D-модели крепости Ям-Ямбург: четырехбашенная (XIV век), девятибашенная (XV век) и земляная бастионная (XVIII век).
– Виртуальные экскурсии на основе моделей крепостей.
– Исторические 3D-игры «Оборона крепости» и «Подрыв крепости».
55
– Приложение «Дополненная реальность», предназначенное
для информационного обеспечения экспозиции музея и прилегающей к нему территории.
– Мультимедийные информационные системы «Личности
в истории крепости Ям», «Крепости северо-запада России» и «Памятники Яма-Ямбурга-Кингисеппа».
Приведем более подробное описание результатов проекта.
1. Интерактивные 3D-модели крепости Ям-Ямбург демонстрируют различные этапы строительства: четырехбашенная крепость (XIV век), девятибашенная (XV век) и земляная бастионная
(XVIII век) (платформа – PC, Windows, моно/стерео).
Предварительно отметим, что для каждой крепости разрабатывался следующий набор моделей:
– Ландшафт местности, соответствующий рассматриваемому
периоду времени и включающий участок реки, разные виды почв,
зоны и виды растительности (трава, деревья и их породы), сеть дорог и их покрытие, овраги, водоемы, переправу.
– Внешний и внутренний вид башен и стен крепости.
– Постройки внутри крепости и на прилегающей территории.
– Персонаж/воин для свободного перемещения по модели крепости от 3-го лица.
Доступ к модели осуществляется через интерактивную карту
(обозначены основные объекты крепости и значимые элементы
ландшафта) или список объектов крепости. Свободное перемещение по модели крепости реализовано от 1-го или 3-го лица при помощи персонажа/воина, управлять которым можно с использованием жестов или шестистепенного манипулятора.
Для упрощения навигации и работы с 3D-моделью крепости разработана двухмерная мини-карта, постоянно отображаемая в окне
приложения и демонстрирующая текущее местоположение взаимодействующего с моделью пользователя. Под мини-картой располагается выпадающее меню, содержащее список внутрикрепостных объектов для быстрого перемещения к ним.
Для значимых объектов крепости разработаны информационные ресурсы, наличие которых в модели выделяется специальными иконками. Активация иконок в процессе перемещения персонажа (аватара) приводит к открытию дополнительного информационного окна.
Исходный фрагмент моделируемой территории показан на рис. 3.1.
Рассмотрим основные элементы каждой из трех моделей крепости.
56
Крепость четырехбашенная (1384 г.)
Модель построена на основе опубликованных работ В. И. Кильдюшевского [43], А. Н. Кирпичникова [41]. Примером особенностей строения крепостей XIV века является крепость Порхов.
Модель крепости Ям соответствует каменному фортификационному сооружению XIV века и включает следующие объекты:
Элементы крепости:
– внешний и внутренний виды каменных башен;
– воротное устройство с входными воротами в северо-западной
башне;
– каменные стены между башнями с боевым ходом и каменной
лестницей с внутренней стороны;
– ров вокруг крепости;
– мост через ров к входным воротам.
Внутрикрепостные сооружения:
– дорожки;
– внешний вид застройки крепости жилыми и хозяйственными
постройками (деревянные избы);
– внешний вид храма Архистратига Михаила.
Объекты за периметром крепости
– избы у переправы.
Рис. 3.1. Фрагмент моделируемой территории
57
Персонаж для взаимодействия пользователя с моделью крепости в режиме работы от 3-го лица – новгородский стрелец XIV века.
Скриншоты модели четырехбашенной крепости показаны на
рис. 3.2–3.4.
Крепость девятибашенная (1448 г.)
Модель построена на основе работы А. Н. Кирпичникова [41].
Примером особенностей строения XV века являются крепости
Ивангород, Копорье.
Модель крепости соответствует каменному фортификационному сооружению XV века и включает следующие основные объекты:
Рис. 3.2. Общий вид четырехбашенной крепости
со списком объектов
Рис. 3.3. Вид воина и двора
58
Рис. 3.4. Внутри башни
Элементы крепости:
– внешний и внутренний виды каменных башен;
– воротные устройства с входными воротами;
– каменные стены между башнями с боевым ходом и тремя каменными лестницами;
– рвы вокруг крепости и вокруг детинца (четырехбашенной крепости);
– частокол (по длине северной стены) с воротным обрамлением;
– мосты через рвы к входным воротам (2 шт.).
Внутрикрепостные сооружения (внешний вид):
– дом коменданта;
– дом городового;
– осадные дворы (амбары);
Рис. 3.5. Общий вид девятибашенной крепости
со списком объектов
59
Рис. 3.6. Вид двора
Рис. 3.7. Внутри башни
– дорожки мощеные и немощеные;
– внешний вид храма Архистратига Михаила.
Объекты за периметром крепости:
– дворы.
Персонаж для взаимодействия пользователя с моделью крепости в режиме работы от 3-го лица – русский воин XVI века.
Скриншоты модели девятибашенной крепости показаны на
рис. 3.5–3.7.
Крепость бастионная (1703 г.)
Модель построена на основе опубликованных работ А. Н. Кирпичникова [41] и Н. Ю. Скрипинской [44].
Модель бастионной крепости соответствует каменному четырехбашенному фортификационному сооружению XV века, окружен60
ному земляными куртинами и четырьмя земляными бастионами
1703 г., и включает следующие объекты:
Ландшафт (за основу принимается существующий ландшафт
местности с имеющимися элементами крепости – 3 бастиона, куртины, пруд, ров).
Элементы крепости:
– бастионы;
– куртины;
– ров с частокольной канавкой;
– входные ворота;
– мост через ров;
– каменный детинец (четырехбашенная крепость);
– казематы.
Внутрикрепостные сооружения (внешний вид):
– дом коменданта;
– пороховой погреб;
– амбары;
– храм;
– казармы;
– караульня;
– пушки и деревянные настилы под ними;
– дорожки мощеные и немощеные.
Объекты за периметром крепости – избы/усадьбы.
Персонаж для взаимодействия пользователя с моделью крепости в режиме работы от 3-го лица – петровский солдат XVIII века.
Скриншоты модели бастионной крепости показаны на рис. 3.8–
3.10.
Рис. 3.8. Общий вид бастионной крепости
61
2. Аудиовизуальные виртуальные экскурсии по крепости (платформа – PC, Windows, моно/стерео).
Экскурсии подготовлены на основе записи с камеры, перемещаемой в режимах обхода или облета по сценарной траектории в модели крепости с добавленными изображениями отдельных объектов,
голосом диктора и фоновой музыкой (рис. 3.11, а, б).
Реализованы следующие режимы работы пользователя с интерактивными 3D-моделями крепостей и экскурсиями, которые могут демонстрироваться в 3D-зале или на индивидуальном рабочем
месте с использованием для взаимодействия 6DOF манипулятора
или сенсора MS Kinect:
– Экскурсии – просмотр аудиовизуального ролика или живая
интерактивная демонстрация, проводимая экскурсоводом.
– Прогулка – свободное перемещение по модели.
Рис. 3.9. Вид двора
Рис. 3.10. Воин у пушки
62
а)
б)
Рис. 3.11. Фрагменты экскурсий: а – Крепость 2; б – Крепость 3
3. Исторические 3D-игры «Оборона крепости» и «Подрыв крепости» с управлением перемещениями пользователя в игровом пространстве (платформа – PC, Windows, Kinect, моно/стерео). Работают в индивидуальном и соревновательном (два игрока) режимах.
Игра «Подрыв крепости»
Сюжет игры: Крепость Ям, 1682 г. Чтобы убрать обветшалую
стену крепости, шведы заложили бочки пороха вдоль восточной
стены и последовательно взорвали их. В результате взрывов в разные стороны разлетелись осколки и обломки каменной кладки.
Цель игры – игрок, находящийся внутри крепости, должен
уклониться от летящих на него обломков. При попадании обломков в героя/игрока изменяется его виртуальное здоровье. Если уровень здоровья снижается до нуля, игра проиграна (рис. 3.12, а).
Игра «Оборона крепости»
Сюжет игры: Крепость Ям, 1444 г. Ливонцы осадили крепость
и начали обстреливать ее. Игрок находится на крепостном дворе,
а)
б)
Рис. 3.12. Фрагменты игр: а – Подрыв крепости; б – Оборона крепости
63
а)
б)
Рис. 3.13. Фрагменты приложений: а – Костюмы; б – Модель крепости 3
на который падают стрелы, копья, ядра. За игроком расположены
бочки с порохом.
Цель игры – защитить бочки от летящих в крепость снарядов.
В случае попадания в бочки изменяются параметры состояния порохового склада, при уменьшении которых до нуля игра проиграна
(рис. 3.12, б).
4. Приложение «Дополненная реальность» для музеев и прилегающих к музеям территорий (платформа – mobile, Android,
iOS) предназначено для расширения аудиовизуального восприятия
посетителя музея в реальном времени справочной информацией
на основе маркерной дополненной реальности с использованием
планшетного компьютера или смартфона. Приложение может использоваться как внутри здания музея, так и на прилегающей территории при ознакомлении с экспонатами, а также для просмотра
печатного материала о музее (проспекты, буклеты, альбомы).
Определено 20 точек интереса (например, Фрагмент керамического
сосуда, Клад из шведских монет, Костюм ижорской женщины и др.)
внутри здания музея и 5 точек интереса (например, Крепость 1384 г.,
Храм Архистратига Михаила и др.) на прилегающей территории. Каждой точке соответствуют размещаемые рядом с экспозиционными объектами уникальные маркеры (черно-белые или цветные изображения),
с которыми связывается тематическая информация в виде текста, изображений, аудио, видео, 3D-моделей (см. рис. 3.13, а, б).
5. Мультимедийные информационные системы (платформа –
PC, Windows).
– Система «Личности в истории крепости Ям» представляет собой портретную галерею изображений значимых персон и инфор64
мацию о них (37 человек, например, Св. Ефимий, Иван Грозный,
П. Делагарди, Петр I, Б. Шереметев, А. Кирпичников и др.) (см.
рис. 3.14, а, б).
– Система «Крепости северо-запада России» представляет собой интерактивную карту Ленинградской области и прилегающих
территорий и содержит информацию о крепостях: Выборгский замок, Гдов, Ивангород, Изборск, Копорье, Корела, Кронштадт, Новгород, Орешек, Петропавловская крепость, Порхов, Псков, Старая
Ладога, Ям (см. рис. 3.15, а, б).
– Система «Памятники Яма-Ямбурга-Кингисеппа» представляет собой интерактивную карту Кингисеппа с информацией о наиболее значимых объектах города (19 объектов, например, Городище
крепости Ям, Гостиные дворы, Памятник жертвам гражданской
войны, Ратуша и др.) (см. рис. 3.16, а, б).
Основная ценность результатов проекта следующая.
1. Для региона в целом:
– Повышение эффективности экономического и социального
развития региона за счет вовлеченности местного сообщества в сохранение и использование культурного наследия.
а)
б)
Рис. 3.14. Фрагменты личностей: а – Св. Ефимий; б – А. Кирпичников
а)
б)
Рис. 3.15. Фрагменты крепостей: а – Карта; б – Ивангород
65
а)
б)
Рис. 3.16. Фрагменты памятников: а – Карта Кингисеппа;
б – Екатерининский собор
– Положительное влияние на устойчивое развитие музейной и
туристической деятельности за счет организации и управления наследием, а также его эксплуатации как туристического объекта.
2. Для музея:
– Вовлечение туризма в популяризацию и использование историко-культурного наследия, поддержка устойчивого развития музея.
– Усиление связи музея и сообщества, из которого происходит
его коллекция.
– Повышение доступности коллекций для различных целевых
аудиторий.
– Повышение качества и разнообразия форм представления коллекций, возможность получения нового музейного опыта и влияния на поведение посетителя, что позволит увеличить количество
посещений музея.
– Профессиональный рост специалистов музейной сферы.
– Продвижение продукта на российский и мировой рынок услуг
в области музейного туризма.
3. Для посетителя:
– Целостность сенсомоторных ощущений с учетом индивидуальных особенностей человека.
– Непосредственное формирование индивидуального и коллективного опыта, в том числе недоступными в реальном мире способами.
– Увеличение мотивации и эмоциональной вовлеченности, в том
числе за счет возможности менять роли «зритель – участник».
В качестве перспектив развития результатов проекта планируется
на базе одной из моделей крепости разработка многопользовательского приложения для сценарного и свободного общения пользователей,
которое, в свою очередь, станет основой онлайновой исторической
игры в смешанной реальности с учетом местоположения игрока.
66
3D-реконструкция 1-го Разменного (Костромского) кургана
Рассмотрим результаты инициативного проекта по использованию технологий интерактивного погружения в археологии, выполненного магистрантами в рамках учебной программы «Системы
мультимедиа и компьютерная графика» на кафедре вычислительных систем и сетей ГУАП в сотрудничестве с отделом археологии
Восточной Европы и Сибири Государственного Эрмитажа (ГЭ).
Научный консультант проекта – Т. В. Рябкова, кандидат исторических наук, старший научный сотрудник отдела археологии
Восточной Европы и Сибири ГЭ.
Основная цель проекта – создание интерактивного приложения,
включающего материалы экспедиций 1897 г. и 2010–2012 гг., а также 3D-реконструкцию возведения скифского кургана для демонстрации и сравнительного анализа результатов исследования эталонного памятника скифской архаики рубежа VII–VI веков до н.э.
В качестве исходных материалов для интерактивной 3D-реконструкции 1-го Разменного (Костромского) кургана использовались:
1. Отчеты археологических экспедиций 1897 г. и 2010–2012 гг.
2. Карта Кубани.
3. Карта-схема курганной группы «Разменные».
4. План подкурганной площадки, построенный в результате
раскопок 2010–2012 гг.
5. Фотографии археологических исследований 2010–2012 гг.
6. Описание, фотографии и зарисовки вещевого комплекса, найденного в ходе раскопок.
7. Описание сложной конструкции и последовательности этапов
возведения кургана на основе результатов полевых исследований и
научной информации о погребальных обрядах скифов.
Перечисленные исходные материалы подготовлены научным
консультантом проекта – Т. В. Рябковой.
Примеры исходных материалов приведены на рис. 3.17–3.18, а,
б, в, г.
Рис. 3.17. Панорама курганной группы «Разменные»
67
а)
б)
в)
г)
Рис. 3.18. Примеры изображений и фотографий
Знаменитый Костромской курган (1-й Разменный), исследованный летом 1897 г. проф. Н. И. Веселовским на территории Кубанской области, дал уникальные материалы [45, 46, с. 11–15], на которых в значительной мере основаны современные представления о
скифском присутствии в Предкавказье. Несмотря на важность этих
материалов для науки, более 100 лет памятник оставался загадкой:
дореволюционная методика раскопок глухой траншеей и особенности полевой фиксации не позволили получить достоверные сведения о его конструкции, а вещевой комплекс так и не был полностью
опубликован. Изменить эту ситуацию смогло лишь повторное исследование 1-го Разменного кургана, произведенное силами ЮжноКубанской археологической экспедиции ГЭ в 2010–2012 гг. [47].
При разработке структуры интерактивного приложения был
выбран подход, ориентированный на специфику исходных археологических материалов, что и определило визуальную форму представления фактического материала, полученного в результате полевых работ 1897 г. и 2010–2012 гг., удобную для детального сравнительного анализа.
Поэтому в первую очередь была сформирована иерархическая
структура интерфейса пользователя, затем выполнен ряд эскизов
68
интерфейса будущего приложения с использованием редакторов
растровой и векторной графики. В ходе проектирования периодически обсуждались первоначальные эскизы, уточнялся дизайн
интерфейсов, расположение функциональных элементов (кнопок,
интерактивных изображений, элементов доступа к справочной информации и т. п.), а также параметры 3D-объектов для дальнейшего моделирования и анимации.
Кнопка
информации
Исследование 1-го Разменного
(Костромского) кургана
Основное меню
Кнопка
выхода
Исследования
2010–2012 гг.
Интерактивная
карта Кубани
Интерактивная
Находки
Интерактивные
3D-реконструкция
Интерактивная
карта-схема
изображения
кургана
курганной группы
Интерактивная
архивных материалов
“Разменные”
3D-модель
Интерактивная
скифа
Этапы
карта подкурганной
Справочная
3D-реконструкции Фрагменты
площадки
информация
вещевого
Фото результатов
комплекса
раскопок
Кнопка возврата
Звуковой
Кнопка
в основное меню
фрагмент
Кнопка возврата
информации
в основное меню
Кнопка возврата
Кнопка возврата
в основное меню
в основное меню
Исследования
1897 г.
Рис. 3.19. Иерархическая структура интерфейса
интерактивного приложения
Рис. 3.20. Дизайн основного меню
69
Иерархическая структура интерфейса интерактивного приложения и дизайн основного меню приведены на рис. 3.19 и 3.20 соответственно.
При подходе к проектированию «от требований заказчика
к программной реализации», детально проработанные эскизы интерфейсов могут быть использованы в качестве шаблонов при программной реализации проекта. Тогда как иерархическая структура определила состав элементов и функциональность разрабатываемого интерактивного приложения. Программная реализация выполнена на основе платформы Unity 3D и по форме представления
археологических материалов пользователю разделена на две части:
информационно-справочную в 2D-формате и 3D-реконструкцию
кургана с анимациями этапов его сооружения, которые сопровождаются звуковыми комментариями.
На основе структуры, приведенной на рис. 3.19 и исходных данных для разделов «1897 г.» и «2010–2012 гг.» подготовлены отдельные элементы (архивные материалы, фотографии, тексты, карты
местности, планы раскопок и др.), каждый из которых обработан
в графическом редакторе и оформлен в виде, удобном для сравнительного анализа. Так, например, дореволюционная история исследования памятника представлена в разделе «1897 г.» (рис. 3.21).
При создании 3D-реконструкции 1-го Разменного (Костромского) кургана – раздел «3D-реконструкция», разрабатывались сценарии (литературный, компонентный, рабочий) аналогично традиционному подходу, принятому в кинематографии.
Рис. 3.21. Исследование 1-го Разменного кургана
Н. И. Веселовским в 1897 г.
70
Литературный сценарий, подготовленный научным консультантом проекта, определил порядок появления отдельных объектов в 3D-сцене, а также характер звукового сопровождения. При
разработке компонентного и рабочего сценариев для каждого этапа
виртуальной реконструкции кургана были учтены параметры отдельных 3D-объектов (размеры, внешний вид, характер анимации
при появлении объекта в 3D-сцене и др.)
Трехмерные модели объектов подготовлены в пакете Autodesk
3ds Max (учебная версия) и затем импортированы в игровой движок Unity 3D для дальнейшей проработки. Следует отметить, что
программная реализация интерактивного приложения на платформе Unity 3D [48] включает не только стандартные возможности 3D-движка, но и собственные программные сценарии (scripts)
и расширения редактора (editor extentions), разработанные магистрантами. Копия экрана одного из этапов 3D-реконструкции сооружения кургана, подготовленной для демонстрации на мониторе
с сенсорным экраном (touch screen) в экспозиционном пространстве
археологической выставки ГЭ приведена на рис. 3.22.
Раздел «Находки» включает уникальную 3D-модель персонажа/
скифа, разработанного в пакете скульптурного 3D-моделирования
для демонстрации особенностей внешнего вида и костюма воина периода скифской архаики, а также некоторые фрагменты вещевого комплекса, обнаруженного в раскопе Костромского кургана (рис. 3.23).
Рис. 3.22. Копия экрана (screen shot) одного
из этапов 3D-реконструкции кургана
71
Рис. 3.23. Копия основного экрана
(screen shot) раздела «Находки»
Следует отметить, что дальнейшее развитие проекта возможно
в части:
– повышения реалистичности 3D-сцены в процессе интерактивной визуализации с заданным уровнем fps (frame per second);
– подключения уточненных и новых 3D-моделей объектов, полученных в ходе анализа результатов археологических экспедиций;
– перехода к технологиям дополненной реальности с использованием мобильных средств доступа;
– разработке сетевых приложений для совместного использования в сети Интернет, а также различных видов публикаций (Web,
компакт-диск и др.).
Кроме того, разработанная интерактивная 3D-реконструкция
1-го Разменного (Костромского) кургана полезна в качестве дидактического пособия при организации выставок, тематических экскурсий и проведении занятий в археологическом кружке ГЭ.
3.3. Театральное искусство
Рассмотрим результаты реализации проекта по использованию
технологий интерактивного погружения (ТИП) в театральной сфере [49], выполненного специалистами лаборатории компьютерной
графики и виртуальной реальности ГУАП, СПб НИУ ИТМО, Александринского театра и СПбГАТИ.
72
Основная цель проекта – создание и апробация методики разработки и моделей театральных площадок и спектаклей на основе
технологии интерактивного погружения для повышения эффективности индивидуальной и совместной работы постановщиков,
исполнителей и зрителей при решении творческих, производственных, учебно-творческих и маркетинговых задач на различных этапах жизненного цикла спектакля.
Использование ТИП при создании модели спектакля предполагает моделирование:
1) сценической площадки;
2) технологического оснащения сцены (планшеты, штанкетное
хозяйство, система сценического освещения, верхняя и нижняя
механизация);
3) трансформации сценического пространства в соответствии со
сценариями, обусловленными технологическими возможностями
сценической техники;
4) зрительного зала театра с возможностью менять точку зрения
посетителя, воспринимающего действие в соответствии с системой
зрительских мест;
5) сценографического оформления спектаклей с возможностью
«привязки» его элементов к пространству и технологическим возможностям сцены и в соответствии с планировочным решением
спектакля;
6) мизансцен, т. е. расположения и перемещений моделей фигур
актеров по сцене в соответствии с заданными режиссерским решением сценариями.
Результаты работы
1. Методика разработки моделей театральных площадок и спектаклей на основе ТИП.
2. Интерактивная трехмерная модель Большой сцены и зрительного зала Александринского театра.
3. Интерактивная трехмерная модель перемен сценического
оформления спектакля Вс. Мейерхольда по драме М. Ю. Лермонтова «Маскарад» (1917).
4. Бесконтактное взаимодействие с моделями сцены и спектакля на основе жестов.
5. Аудиовизуальное дополнение электронных и печатных материалов моделями спектакля на основе технологии дополненной
реальности.
73
Использование ТИП в театральном искусстве позволяет решать следующие задачи:
– творческие – сочинение и моделирование сценических текстов
на проектном уровне; творческая превизуализация;
– производственные – фиксация постановочных решений, обеспечение качественного воспроизведения сценического рисунка,
показ модели декорационного оформления и планировочного решения перемены декораций и освещения, показ в действии сценической техники и расположения актеров на сцене, что способствует
повышению качества композиционных и технологических решений, примененных в спектакле, и сокращает репетиционное время,
способствует поиску наиболее эффективных творческих методик;
– репетиционные и учебно-творческие (режиссеры, артисты,
обучающиеся по соответствующим специальностям) – позволяют
развивать творческую фантазию и опробовать различные постановочные и планировочные решения, а также прогнозировать мизансценические решения в преддверии репетиции;
– исторические научные и учебные реконструкции театров (зданий и сцен) и спектаклей – позволяют глубоко и творчески изучать театральное наследие прошлого, проникая не только в идеологию, но и
в технологию создания спектаклей, не зафиксированных визуально.
Программный компонент
«Интерактивная трехмерная модель Большой сцены
и зрительного зала Александринского театра»
Программный компонент обеспечивает работу с интерактивной
трехмерной моделью Большой сцены и зрительного зала Александринского театра, использование которой позволяет повысить эффективность технической превизуализации спектакля, обучения и
тренажа режиссеров и артистов.
Трехмерная модель Большой сцены представляет коробку сцены (ширина, глубина, высота), архитектурный портал, планшет,
карманы, оркестровую яму с подъемно-опускными площадками, подъемно-опускные площадки, верхнюю механизацию сцены
(штанкетные подъемы, софитные фермы), занавес, осветительное
оборудование, а зрительного зала – архитектурно-пространственное решение, ложи (бельэтаж, 1–4 ярусы), Царскую ложу, люстру.
Интерактивность, внесенная в модель, позволяет управлять
подъемно-опускными площадками оркестровой ямы, подъемноопускными площадками сцены, штанкетными подъемами, софит74
ными фермами, занавесом, осветительным оборудованием с пульта
управления сценическими механизмами (без показа механооборудования) как элемента интерфейса пользователя.
При реконструкции Большой сцены Александринского театра
использованы обмерные чертежи сцены и зрительного зала, технологические планировки театральной техники различных исторических периодов, технологическая документация реконструкции
театра в 2006 г.
На рис. 3.24–3.28 соответственно приведены следующие скриншоты:
– 3.24 – фрагменты 3D-модели – штанкетные подъемы;
– 3.25 – фрагменты 3D-модели – подъемно-опускные площадки
ямы;
Рис. 3.24. Штанкетные подъемы
Рис. 3.25. Подъемно-опускные площадки ямы
75
Рис. 3.26. Подъемно-опускные площадки сцены
Рис. 3.27. Постановка света
Рис. 3.28. Вид на зал со сцены
76
– 3.26 – фрагменты 3D-модели – подъемно-опускные площадки
сцены;
– 3.27 – фрагменты 3D-модели – постановка света;
– 3.28 – фрагменты 3D-модели – вид на зрительный зал со сцены.
Программный компонент
«Интерактивная трехмерная модель перемен
сценического оформления спектакля Вс. Мейерхольда
по драме М. Ю. Лермонтова «Маскарад» (1917)»
Программный компонент обеспечивает работу с интерактивной
трехмерной моделью перемен сценического оформления 10 мизансцен спектакля Вс. Мейерхольда по драме М. Ю. Лермонтова
«Маскарад» (1917), которая может рассматриваться как эффективная форма сохранения и изучения театрального наследия России, а
также документирования и архивации спектакля.
Трехмерная модель Большой сцены представляет:
– сценический портал, декорации, бутафорию, освещение, музыкальное и голосовое сопровождение на основе материалов из
коллекции Александринского театра;
– две группы персонажей –3D-модели Арбенина и Нины (анимированные и статические соответственно для картины 3 и 9) и
2D-модели персонажей, одетые в аутентичные костюмы, созданные по эскизам академика и художника А. Я. Головина и на основе
реальных костюмов из коллекции Александринского театра, расположенные и двигающиеся по мизансценам, реконструированным на основе режиссерской партитуры Вс. Мейерхольда.
Интерактивность, внесенная в модель, позволяет управлять
переменами картин, занавесами (подъем/опускание), освещением,
музыкальным сопровождением, покадровым перемещением персонажа на основе пульта управления спектаклем как элемента интерфейса пользователя.
В ходе создания модели сценического оформления использованы эскизы А. Я. Головина, фотографии и обмеры реально сохранившихся артобъектов, исторические планировки из архивов ЦТМ
им. А. А. Бахрушина, РГИА, документальные архивные источники Вс. Мейерхольда.
Навигация по сцене ограничена стенами зрительного зала, стенами сцены, стенами портала и занавесом. Через предметы на сцене
можно проходить насквозь. Это сделано для облегчения просмотра
мизансцены, чтобы не нужно было останавливаться перед каждым
предметом и обходить его.
77
Рис. 3.29. Фрагмент первой картины
Рис. 3.30.Фрагмент второй картины
Рис. 3.31. Фото артиста Ю. М. Юрьева
и его сценического костюма-халата, модели Арбенина и Нины
78
Рис. 3.32. Фрагмент четвертой картины
Рис. 3.33. Фрагмент восьмой картины
Скриншоты картин спектакля и примеры бутафории к каждой
из них приведены на рис. 3.29–3.33.
Программный компонент
«Бесконтактное взаимодействие
с моделями сцены и спектакля на основе жестов»
Программный компонент обеспечивает бесконтактное взаимодействие с трехмерными моделями сцены и спектакля (на примере третьей картины) на основе жестов на базе сенсора Kinect для
решения задач управления перемещением камеры внутри сцены,
занавесами и персонажами, музыкальным сопровождением и др.,
79
Таблица 3.3
Примеры жестов для управления
№
п.п
Действия
1 Переход к показу модели театра
2 Перемещение:
– привязка к полу
вперед
влево/вправо
назад
3 Пауза после открытия занавеса
4 Проигрывание с паузы после
открытия занавеса
5 Следующий кадр
6 Запуск боя часов
7 Поднятие занавеса
8 Переход в царскую ложу
Жесты
Обе руки вверх
Две руки на уровне плеч вперед
Рука левая влево + правая вправо
Левая рука влево вверх
Правая рука вверх
Правая рука вверх
Правая рука вправо, запястье и локоть выше плеча
Левая рука вверх и вперед, с поднятой вверх ладонью
Вытянутая вперед правая рука с согнутой к себе ладонью движется вверх
Левая рука вправо.
Рука должна быть правее головы, запястье выше локтя
Рис. 3.34. Управление сценой при помощи жестов
80
что позволяет организовать естественную форму взаимодействия
с моделями театральных площадок.
Примеры жестов для взаимодействия с интерактивными трехмерными приложениями приведены в табл. 3.3, а на рис. 3.34 – фотография управления моделью сцены ректором ГАТИ А. А. Чепуровым при помощи жестов.
Программный компонент
«Аудиовизуальное дополнение электронных
и печатных материалов моделями спектакля
на основе технологии дополненной реальности»
Программный компонент предназначен для аудиовизуального
дополнения в реальном времени электронных и печатных материалов разработанными моделями сценического оформления спектакля «Маскарад» и справочной информацией на основе технологии
дополненной реальности для мобильных устройств с ОС android,
что позволяет повысить эффективность решения образовательных
и маркетинговых задач.
В качестве маркеров используются изображения Арбенина (см.
рис. 3.35, а) и сцены третьей картины спектакля «Маскарад» (см.
рис. 3.35, б) из книги [50], которые могут использоваться отдельно
или в альбоме.
С каждым маркером связана следующая информация:
– «Арбенин» – анимированная 3D-модель Арбенина, фотографии Ю. М. Юрьева и текстовое описание его работы над ролью Арбенина,
а)
б)
Рис. 3.35. Маркеры-изображения: а – Арбенин; б – Третья картина
81
а)
б)
Рис. 3.36. Приложения: а – одномаркерное; б – многомаркерное
– «Сцена» – 3D-модель сценического оформления третьей картины из спектакля «Маскарад», несколько фотографий из реального спектакля и текстовое описание содержания третьей картины.
Приложение может работать в двух режимах – одномаркерном
(маркеры «Арбенин» или «Сцена» с отображением соответственно
модели Арбенина или модели сцены третьей картины) и мультимаркерном (маркеры «Арбенин» и «Сцена» с отображением модели
Арбенина на поверхности модели сцены).
Пользователь может осуществлять поворот и масштабирование
моделей, используя сенсорный экран.
В галерее пользователь может просмотреть фотографии
Ю. М. Юрьева и оформление третьей картины спектакля.
Примеры скриншотов одномаркерного и мультимаркерного
приложения приведены на рис. 3.36, а и 3.36, б соответственно.
3.4. Промышленность
Рассмотрим использование ТИП в промышленности на примере
реализованного по заказу ООО «Горизонты роста» проекта создания прототипа интерактивной 3D-модели кустовой площадки нефтегазового месторождения.
Отметим, что рост рынка приложений на основе ТИП в нефтегазовой индустрии обусловлен такими факторами, как необходимость замещения выбывающего поколения молодыми работниками, увеличением спроса на нефть и газ, выполнением требований
безопасности, использованием технологических достижений [51].
82
В нефтегазовой индустрии ТИП используются для решения следующих задач:
– обучения персонала правилам эксплуатации, обслуживания и
ремонта изделия;
– проектирования нефтегазового оборудования и перерабатывающих заводов;
– оптимизации технологии бурения;
– улучшение безопасности, в том числе пожарной;
– обеспечения персонала справочными материалами об устройстве
и принципах работы изделия, его эксплуатации, планирования и выполнения регламентных работ, поиска неисправностей и ремонта.
Использование ТИП позволяет улучшить:
– качество обслуживания и материально-технического обеспечения изделия;
– качество и оперативность обучения, переучивания и тренажа
персонала, в том числе на рабочем месте;
– способность демонстрировать сложную информацию пользователям.
Цель работы – разработка прототипа интерактивной 3D-модели
кустовой площадки нефтегазового месторождения для улучшения
обучения и обеспечения информационно-справочными материалами обслуживающего персонала.
В качестве исходных материалов использовались:
1. Видео площадок и объектов нефтегазового комплекса (НГК)
с геоокружением.
2. Внешний вид (фото), чертежи и описание работы всего оборудования.
3. Виды и чертежи скважин.
4. Виды пластов земли (текстуры).
5. Виды жидкостей с привязкой к местоположению, принципы
их движения.
6. Координаты и взаимная привязка объектов на территории,
площадках и подземных объектов.
7. Модели (до уровня сборочных единиц) наземного и подземного оборудования (в форматах Solid Works 2011 и STEP).
Прототип включает следующие объекты и их представления:
1) фон – горизонт + небо + облака + солнце (день);
2) фрагмент поверхности Земли размером 700 на 300 м (на бесконечном пространстве), ландшафт которой соответствует лесостепи
(растительность – трава, кусты, деревья) с небольшими холмами,
озером, асфальтовой автотрассой и грунтовыми дорогами;
83
3) фрагмент объемного среза земли глубиной около 2 км с различными геологическими пластами – грунт, мел, глина, известняк, продуктовые пласты;
4) наземное оборудование НГК:
а) площадки для установки оборудования НГК, каждая размером около 100×30 м, выровненная поверхность которых покрыта
гравием;
б) на каждой площадке установлено следующее оборудование,
соединенное технологическими трубопроводами:
– станки-качалки – станок, редуктор, двигатель, фундамент,
шток, сальник, арматура;
– групповая замерная установка (ГЗУ) – здание с внешними
разъемами;
– станция управления;
в) дожимная насосная станция (ДНС) – здание с внешними разъемами;
г) ЛЭП 380В с подводкой к оборудованию площадок 1 и 2 и ДНС;
д) система трубопроводов, соединяющих оборудование площадок между собой и с ДНС, а также фрагмент трубопровода от ДНС
к внешней системе;
5) скважины с подземным оборудованием:
а) скважина – муфта, ствол, колонна обсадных труб с аварийными участками, стоп-кольцо, перфорация, коллектор;
б) погружное оборудование в каждой скважине:
– колонна насосно-компрессорных труб;
– колонна штанг;
– штанговый насос;
6) разрез 3D-территории вертикальной плоскостью с заданными
координатами с отображением в плоскости разреза и за ней геологических пластов, скважин, оборудования и др.;
7) анимированные элементы:
а) работа оборудования (движущиеся механические части оборудования);
б) ток жидкостей – флюида в пластах и в перфорации работающих скважин, флюида в насосно-компрессорные трубы (НКТ), нефти от качалок к ГЗУ и через ДНС в магистраль.
Реализованы следующие режимы работы:
1) свободный облет камерой (камера может проникать сквозь
землю – двигаясь вдоль оси объекта и сквозь стены) с осмотром подземной части модели (погружное оборудование, объекты, пласты)
по разрезам;
84
Рис. 3.37. Общий вид местности
Рис. 3.38. Вид площадки
2) обход – поведение камеры эмулирует перемещение человека
по плоским поверхностям (земля, пол), лестницам, эстакадам;
3) выбор в меню имени объекта с мгновенным переходом либо
быстрым полетом к нему;
4) указание объекта на площадке (карте) с получением его характеристики (вызов отдельного окна просмотра изображения модели объекта в формате png);
5) остановка–запуск анимации.
85
Рис. 3.39. Информация о качалке
Рис. 3.40. Вид разреза насоса
Примеры скриншотов модели приведены на рис. 3.37–3.40.
3.5. Медицина
Рассмотрим результаты НИОКР, выполненной ГУАП совместно
с Российским научным центром «Восстановительная травматология и ортопедия» имени академика Г. А. Илизарова» (далее – РНЦ
ВТО), с целью исследования возможностей применения технологий
86
интерактивного погружения при хирургических вмешательствах
для оказания информационной поддержки хирургу и для моделирования инфраструктуры медицинского учреждения при обеспечении его деятельности (безопасность, информационно-справочные
услуги, реабилитация, общение, развлечения и др.).
Прототип системы обучения хирурга
на основе технологии дополненной реальности
Цель – разработка методов и средств дополнения аудиовизуального восприятия хирургом в реальном времени необходимой информации применительно к образовательным и клиническим приложениям (планирование и проведение операций, постоперационная оценка и др.) для повышения эффективности практической
деятельности врачей.
Была решена частная задача – реализован на базе маркерной дополненной реальности для конфигурации «web-камера + маркер +
монитор» управляемый поэтапный показ сборки аппарата Г. Илизарова на голени пациента. На базе интерактивной анимированной
3D-модели анатомического органа (голень – кожа, нервы, сосуды,
кость), частей аппарата и хирургических инструментов (гаечный
ключ, дрель, молоток, клещи, скальпель, долото) с синхронной
(соответствующей рассматриваемому этапу) выдачей справочной
информации – текстовой, видео, голосовых комментариев, изображений срезов кости и изображений с томографа.
Создание приложения включало 3 основных этапа.
1. На первом этапе производится трехмерное моделирование
анатомического органа, аппарата Илизарова и хирургических инструментов, которые должны удовлетворять определенным требованиям (текстурирование, освещение, малое число полигонов).
2. На втором этапе создаются интерфейсные элементы (кнопки),
представление справочной информации и текстур для 3D-объектов,
которые должны соответствовать определенным требованиям (формат, размер, глубина цвета).
3. Основная задача третьего этапа, используя специализированную программную платформу FLARToolKit [52], реализовывать
систему дополненной реальности, которая позволяет привязать
модели к маркеру.
Сценарии использования:
1. На человеке – например, приложив маркер к ноге реального
пациента (к тому месту, где будет делаться данная операция), мы
сможем увидеть и управлять операцией в трехмерной среде.
87
Рис. 3.41. Модели элементов
Рис. 3.42. Модель кости и сосудов с аппаратом
2. Книга на основе дополненной реальности.
Скриншоты моделей приведены на рис. 3.41–3.44.
88
Рис. 3.43. Модель ноги с аппаратом
Рис. 3.44. Наложение модели на ногу пациента
89
Книги на основе дополненной реальности
Цель – реализация на базе одно- и многомаркерной ДР для конфигурации «web-камера + маркер(ы) + монитор» нового поколения
бумажных книг, позволяющих при их чтении просматривать на
экране трехмерные анимированные модели объектов и процессов,
а также управлять ими.
Платформа реализации – ARToolKit – это кросс-платформенная
библиотека с открытым исходным кодом для создания расширенных
приложений дополненной реальности, разработана Хироказу [ 53].
Рис. 3.45. Модель центра
Рис. 3.46. Модели органов
90
Скриншоты фрагментов книги приведены на рис. 3.45 и 3.46.
Многофункциональная интерактивная
3D панорама РНЦ ВТО
Цели: разработка многофункциональной интерактивной трехмерной модели территории и зданий РНЦ ВТО для представления
исторических, учебных и информационно-справочных материалов.
В качестве программной платформы реализации панорамы использовалось программное обеспечение компании DASSAULT
SYSTÈMES, воспроизводится оно при помощи свободно распространяемого скачиваемого программного модуля 3DVIA [54].
Состав и режимы работы панорамы
Разработана интерактивная трехмерная панорама РНЦ ВТО,
которая состоит из следующих основных элементов:
Интерактивная трехмерная модель корпуса 1:
– Экстерьер.
– Интерьер:
Двери, лестницы, коридоры, холлы, лампы.
Палата пациентов с обстановкой.
Операционная с обстановкой.
Блок Д – растения и бюст Илизарова.
Лифт с 1 на 5 этаж.
Рис. 3.47. Общий вид модели центра
91
Рис. 3.48. Вход в главное здание
Рис. 3.49. Вид холла
Интерактивная трехмерная модель корпуса 2 (поликлиника)
– Экстерьер.
– Интерьер:
Двери, лестницы, холлы, лампы.
92
Рис. 3.50. Вид операционной
Регистратура.
Помещения музея.
Интерактивная трехмерная модель территории со всеми второстепенными зданиями и объектами на основе плана 1:2500:
– Купол неба и горизонт.
– Ландшафт – рельеф, дорожки, трава, деревья, кусты, фонарные
столбы, урны, забор, памятник Илизарову, указатели на местности.
– Второстепенные здания и объекты – КПП, пансионат, кафе,
административно-хозяйственные службы, научно-медицинский
архив, отдел капитального строительства, транспортная служба,
клиническая кухня, склады, опытный завод, магазин, энергоблок,
экспериментальный отдел, автостоянка.
Информационные ресурсы:
– Тексты к экскурсии.
– Фото общего вида РНЦ ВТО и операционной.
– Видеофрагменты о РНЦ ВТО.
– Фоновая музыка, сопровождающая экскурсию и прогулку.
– Голосовое сопровождение экскурсии.
Реализованы следующие режимы работы:
– Облет территории и зданий.
– Экскурсия.
– Свободное перемещение.
Некоторые скриншоты панорамы приведены на рисунках 3.47–
3.50.
93
ЗАКЛЮЧЕНИЕ
Методы и технологии интерактивного погружения имеют ряд
следующих преимуществ по сравнению с традиционными технологиями.
Целостное сенсорное восприятие, в том числе за счет трехмерной визуализации данных. Это биологически естественно для человеческого организма; позволяет исключить из когнитивного процесса необходимую стадию мысленного достраивания воспринимаемой картины и тем самым облегчает работу анализаторов, ускоряя
процесс понимания и восприятия материала. Использование трехмерной графики способствует более реалистичному и детальному
раскрытию тем, а также подразумевает больше точек зрения и возможностей интерпретации по сравнению с двухмерным изображением. В условиях виртуального мира с помощью полисенсорных
стимулов, таких как трехмерное пространственное звучание или
стимулы осязания (сила, вибрация), можно активизировать все человеческие возможности.
Непосредственное формирование индивидуального и коллективного опыта. Предоставление интерактивного опыта – одна
из наиболее значимых особенностей виртуальных и смешанных
миров. Во многих случаях взаимодействие посредством подобных
миров может заменить непосредственное общение, они предоставляют возможности спонтанного приобретения знаний и требует
меньших когнитивных затрат, чем традиционные методы общения
и образования. Виртуальные среды способствуют развитию необходимой реалистичности и интерактивности и поэтому способны
заменять непосредственное общение и образование, поддерживая
систему изучения ситуаций.
Возможность приобретения знаний и умений способами, недоступными в реальном мире. Благодаря виртуальным и смешанным
мирам, открывается большой потенциал действий, которые нельзя
предпринять в реальном мире вследствие их дистанцированности,
высокой стоимости, опасности или непрактичности. Например,
возможно реконструировать античные здания и города, чтобы посмотреть, как они могли выглядеть в действительности и как жили
люди в древние времена; или можно тренировать артистов до их
выхода на реальную сцену.
Виртуальные и смешанные миры обеспечивают три вида опыта
построения знания, которые недоступны в реальном мире. К ним
относятся размер, трансдукция и материализация.
94
В подобных мирах пользователи могут изменять пространственные характеристики (например, размер) для более детального изучения исследуемого предмета. Например, они могут увеличиваться
до планетарных размеров или уменьшаться до такой степени, чтобы можно было различить атомы и молекулы.
Понятие трансдукции более фундаментально. Преобразователь
делает информацию доступной для органов чувств. В виртуальном
пространстве возможно преобразование любых данных в формы,
цвета, движения, звуки или вибрации, т. е. в то, что можно видеть,
слышать, чувствовать и осязать. Поэтому виртуальные среды рассматриваются как преобразователи, которые расширяют спектр
информации, доступной в ходе непосредственного эксперимента.
С помощью трансдукции и изменения размера пользователи могут
воспринимать даже ту информацию, которая в реальном мире не
имеет физического воплощения.
Наконец, материализация относится к процессу создания вещественного представления абстрактных понятий.
Все упомянутые возможности приобретения знаний не доступны в реальном мире, но они представляют огромный потенциал для
образования.
Другим преимуществом виртуального образования является
возможность анализа одного и того же предмета или явления с разных точек зрения. Таким образом, пользователи могут лучше усвоить изучаемый предмет и создать более правильное и полное представление о нем.
Невербальная коммуникация, связанная с чувствами и эмоциями человека, его внешним видом и поведением. Общение между
людьми гораздо проще и более привлекательно, чем взаимодействие с книгой или компьютером. Поэтому возможность интерактивного общения с виртуальными персонажами внутри виртуального пространства всегда оценивалась как значительное преимущество, которое можно продуктивно использовать в рамках какойлибо деятельности или образовательного контекста. Прежде всего,
с помощью виртуальных персонажей можно получить реалистичное представление об изучаемом предмете.
Эмоции также важны, когда происходит взаимодействие с виртуальными учителями, например, в случае дистанционного или
электронного образования. Доказано, что одно присутствие героя,
похожего на человека, положительно влияет на обучение («эффект
персоны»), но еще большее положительное влияние на мотивацию
со стороны ученика оказывает виртуальный учитель, который одо95
брительно относится к достижениям своего подопечного и переживает по поводу его неудач. У виртуальных учителей, анимационных педагогических агентов, есть и другие преимущества.
Во-первых, они вносят социальный аспект в дистанционное и электронное обучение, которое часто воспринимается как отстраненное,
безличное и, следовательно, не ведущее к возникновению мотивации.
Во-вторых, они могут показать, как выполняется то или иное задание, а не просто объяснить его, что сокращает время, необходимое для усвоения знаний, поскольку обучение через примеры более
эффективно, чем обучение через объяснение.
В-третьих, педагогические агенты способны использовать средства невербальной коммуникации как для подтверждения объяснения, так и для обратной связи с учениками. Например, они могут
обратить внимание пользователя на определенный объект непосредственно с помощью движения или взгляда или способны положительно или отрицательно реагировать на ответы пользователя
только с помощью мимики. Такой вид коммуникации более предпочтителен, чем вербальная коммуникация, так как он не перебивает и не отвлекает отвечающего.
Рассмотренные преимущества ТИП применительно к различным видам деятельности позволяют:
– повысить эффективность приобретения индивидуальных и социальных знаний и умений;
– учесть индивидуальные особенности восприятия и обработки
информации человеком;
– ускорить совместное решение сложных проблем;
– повысить как реалистичность представления и поведения объектов и процессов, так и точность анализа взаимосвязей между изменяющимися величинами исследуемого объекта и процесса;
– выполнять эксперименты, невозможные, дорогостоящие или
опасные в реальных условиях;
– упростить анализ, проектирование, производство и тестирование создаваемой продукции и предоставляемых услуг;
– сократить эксплуатационные расходы.
Понятие о передаче образовательной и другой информации из
виртуального и смешанного пространства в реальное может применяться для выполнения сенсомоторных заданий.
Логично предположить, что имитация может служить в качестве
хорошей замены реальных понятий. Однако в действительности для
доказательства этой точки зрения необходимы дальнейшие эмпирические исследования, в ходе которых должны быть выработаны чет96
кие заключения, какие программы подлежат передаче, в каких условиях, в каком объеме и насколько сжато должно быть их содержание.
Отметим ряд проблем в использовании ТИП:
1. Относительная дороговизна аппаратных и программных
средств ТИП. Возможное решение данной проблемы – создание
приложений на основе открытых стандартов, например, Web3D
(VRML\X3D, X3DOM, WebGL), они предоставляют возможность
доступа через Internet к интерактивному пространству, которое
в любое время открыто для большого количества потенциальных
пользователей по всему миру. Виртуальные среды Web3D также
могут функционировать и автономно, тогда для работы с ними необходимо только использование web-браузера.
2. Оправданность подобного подхода. В общем случае, разработка приложения на основе ТИП носит междисциплинарный характер, т. е. в идеале в коллективе разработчиков должны быть
дизайнеры, специалисты по предметной области, интерактивному
3D-моделированию, программированию и устройствам ввода-вывода, психологи и физиологи. К сожалению, на практике большинство приложений разрабатывается ограниченным коллективом специалистов. Поэтому для тщательной оценки преимуществ
и недостатков подобного подхода необходимы продолжительные
исследования с привлечением большого числа специалистов и
пользователей. Виртуальные и смешанные пространства должны
рассматриваться как неотъемлемая часть учебных программ, так
и практики, поэтому необходимо дать потенциальным потребителям, учащимся и преподавателям время, чтобы привыкнуть к ним
и начать использовать в ежедневной практике.
3. Отношение пользователей к ТИП и к их применению в реальной деятельности и учебной практике. Некоторые специалисты могут быть не заинтересованы во введении новых технологий, с одной
стороны, считая это пустой тратой времени, поскольку они в корне
изменяют традиционную методологию работы, с другой – так как
они плохо владеют компьютером и им не нравится, что, например,
ученики лучше справляются с заданиями. Эту проблему можно отчасти решить, включив их в процесс разработки виртуальных и
смешанных пространств, обучая их навыкам работы с компьютером и создавая электронные среды таким образом, чтобы это не затрагивало их самооценку.
4. Сочетание традиционного подхода к обучению с виртуальной
образовательной средой. Например, даже если образовательные
ВМ используются для профессионального обучения с целью приоб97
ретения теоретических и практических знаний, необходимых для
выполнения заданий, до сих пор часто применяется традиционный
для образования подход, где учитель – источник знаний, объясняющий учащимся различные понятия. Однако образовательные ВМ
созданы для продвижения знаний, основанных на эксперименте,
следовательно, меняется и роль преподавателя: это не обучающий
робот, задающий вопросы, а гид, сопровождающий учащегося.
Также следует в значительной степени изменить и структуру занятий. Однако успешное соединение традиционной структуры занятий с запросами виртуальной образовательной среды – очень сложная задача, которую еще предстоит решить.
5. Отрицательное влияние на использование ТИП может оказать
разочарование пользователей – часто ожидания слишком высоки,
чтобы их было можно выполнить, например, некоторые думают,
что виртуальные и смешанные миры должны быть полной копией
реального мира, и недостаточная реалистичность отвлекает их от
восприятия содержания созданного продукта. Поэтому иногда полезно сделать задание на основе ТИП более абстрактным, чтобы способствовать развитию навыков, необходимых для его выполнения.
6. Подходящее строение сред на основе ТИП, т. е. необходимо учитывать и эргономические теории, и практические вопросы, такие как
простая способность к передвижению внутри среды и использованию
интерфейсов. Часто пользователям не удается передвигаться так,
как им хотелось бы, они легко теряются и не знают, как добраться
до определенной цели или как выбрать нужную точку зрения. Поскольку виртуальное пространство ориентируется, прежде всего, на
пользователей-непрофессионалов, возможности в передвижении и
ориентация в пространстве должны быть предельно просты.
7. Использование иммерсивных технологий. Подобные технологии более эффективны, чем стационарный компьютер, но пользователю, помещенному в специальную камеру или использующему
специальный головной дисплей, трудно следовать за комментариями создателя или общаться с ним.
8. Правильное включение виртуальных образовательных программ в учебный план подготовки специалистов. Программа минимум
заключается в том, чтобы виртуальные и смешанные миры применялись только для иллюстрации примеров и упражнений из традиционных учебников. Программа-максимум (с точки зрения конструктивистов) – образовательные миры могут занять место учебников и стать
основным источником знаний. При этом нужно переосмыслить весь
процесс обучения. Поэтому необходимо найти «золотую середину».
98
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Milgram P. et al. Augmented Reality: A class of displays on reality-virtuality continuum // Proceedings of SPIE. 1994. Vol. 2351.
P. 282–292. 
2. Силаева В. Л. Об использовании понятия «виртуальный» //
Социологические исследования. 2010. № 8. С. 19–35.
3. Виртуальный. Викисловарь. URL: https://ru.wiktionary.org/
wiki/виртуальный (дата обращения 01.03.2015).
4. Словари и энциклопедии на Академике. URL: http://dic.academic.ru/ (дата обращения 01.03.2015).
5. Сайт агентства Gartner. URL: http://www.gartner.com/it/
products/hc/hc.jsp (дата обращения 01.03.2015).
6. Архитектура виртуальных миров: моногр. / под ред. М. Б. Игнатьева, А. В. Никитина, А. Е. Войскунского. 2-е изд., перераб. и
доп. СПб.: ГУАП, 2009. 287 с.
7. John N. Latta, David J. Oberg. A Conceptual Virtual Reality
Model // J. IEEE Computer Graphics and Applications. Vol. 14. Iss.1,
1994. P. 23–29.
8. Дойч Д. Структура реальности. Ижевск: НИЦ «Регулярная и
хаотическая динамика», 2001. 400 с.
9. Burdea and Coiffet. Virtual Reality Technology. 2nd ed. Wiley,
2005. 464 р.
10. Тоффлер Э. Шок будущего. М.: АСТ, 2008. 560 с.
11. Bricken W. Virtual reality: directions of growth notes. URL:
http://www.wbricken.com/pdfs/03words/02vr/01describe/03dirof-growth.pdf (дата обращения 01.03.2015).
12. 3D-user interfaces: Theory and practice / D. Bowman, E. Kruijff,
J. LaViola and I. Poupyrev. Addison-Wesley, 2004. 512 p.
13. Многослойное представление информации (дополненная реальность) / Высшая школа маркетинга и развития бизнеса НИУ ВШЭ.
М., 2012. URL: http://www.rusventure.ru/ru/programm/analytics/
docs/201212_market_reality.pdf (дата обращения 01.03.2015).
14. Azuma R. T. A Survey of Augmented Reality // Presence: Teleoperators and Virtual Environments. 1997. Vol. 6. № 4. Р. 355–385.
15. Kutulakos K. N., Vallino J. R. Calibration-Free Augmented
Reality // IEEE transactions on visualization and computer graphics.
1998. Vol. 4. № 1. P. 1–41.
16. Henrysson A. Bringing Augmented Reality to Mobile Phones:
dissertations. 2007. URL: http://liu.diva-portal.org/smash/record.
jsf?pid=diva2:16967 (дата обращения 01.03.2015).
99
17. Bimber O., Raskar R. Spatial Augmented Reality: Merging Real
and Virtual Worlds. A K Peters/CRC Press, 2005. 392 р.
18. Reicher T. A Framework for Dynamically Adaptable Augmented
Reality Systems (PhD thesis) / Technische Universität München, 2004.
223 р. URL: https://mediatum.ub.tum.de/doc/601755/601755.pdf (дата
обращения 01.03.2015).
19. Butchart B. Architectural styles for augmented reality in smartphones / B. Butchart, EDINA, University of Edinburgh, 2011.URL:
http://www.perey.com/ARStandards/[EDINA]Mobile_AR_Architectural_Styles.pdf (дата обращения 01.03.2015).
20. Виртуальный мир. Википедия. URL: https://ru.wikipedia.
org/wiki/Виртуальный_мир (дата обращения 01.03.2015).
21. Сайт SecondLife. URL: https://secondlife.com (дата обращения 01.03.2015).
22. SecondLife. Википедия. URL: http://ru.wikipedia.org/wiki/
SecondLife (дата обращения 01.03.2015).
23. Краткое руководство по SecondLife. URL: https://community.
secondlife.com/t5/Русская-база-знаний / Краткое-руководство-поSecond-Life/ta-p/1248343 (дата обращения 01.03.2015).
24. Stanciulescu А. A Methodology for Developing Multimodal
User Interfaces of Information Systems. A dissertation submitted in
fulfillment of the requirements for the degree of Doctor of Philosophy
in Management Sciences of the Université catholique de Louvain.
2008. 316 р.
25. Multimodal Interaction Working Group. URL: http://www.
w3.org/2002/mmi/Overview.html (дата обращения 01.03.2015).
26. Turk M. Multimodal interaction: A review. Pattern Recognition
Lett, 2013. URL: http://dx.doi.org/10.1016/j.patrec.2013.07.003
(дата обращения 01.03.2015).
27. Dumas B., Lalanne D, Oviatt Sh. Multimodal Interfaces:
A Survey of Principles, Models and Frameworks // Human Machine
Interaction. Lecture Notes in Computer Science. Vol. 5440, 2009,
Р. 3–26.
28. Coutaz J. Multimedia and Multimodal User Interfaces: A Taxonomy for Software Engineering Research Issues // East-West International Conference on Human-Computer Interaction: Proceedings of
the EWHCI92. SPb., 1992. P. 229–240.
29. Nigay L., Coutaz J. A Generic Platform for Addressing the
Multimodal Challenge // Conference on Human Factors in Computing
Systems.Proceedings of the SIGCHI conference on Human factors in
computing systems.1995. P. 98–105. 
100
30. Lalanne D., Khaled O., Bapst J. Multimodal interfaces. DIVA
research group, Department of Informatics of the University of
Fribourg. URL: http://diuf.unifr.ch/courses/05-06/mmi (дата обращения 01.03.2015).
31. Martin J. TYCOON: theoretical and software tools for multimodal interfaces. URL: http://citeseerx.ist.psu.edu/viewdoc/down
load?doi=10.1.1.144.8619&rep=rep1&type=pdf (дата обращения
01.03.2015).
32. Coutaz J. et al. Four easy pieces for assessing the usability of
multimodal interaction: the CARE properties // Proceedings of 5th
IFIP TC 13 International Conference on Human-Computer Interaction.
London, 1995. P. 115–120.
33. Сайт лаборатории компьютерной графики и виртуальной реальности ГУАП. URL: http://guap.ru/labvr/projects (дата обращения 01.03.2015).
34. Сайт компании VR Lab. URL: http://vr-lab.com/ (дата обращения 01.03.2015).
35. Никитин А. В., Решетникова Н. Н. Технологическая платформа интерактивного погружения для культуры и современного
искусства // Тр. XIV Ежег. междунар. конф. «EVA-2012 Москва»,
26–28 нояб. 2012 г., «Развитие и сохранение электронного культурного и научного наследия». М.: РГБ, 2012. URL: https://eva.rsl.
ru/ru/2012/report/list/1127 (дата обращения 01. 02. 2015).
36. Никитин А. А., Никитин А. В., Никитина А. А. и др. Технологии интерактивного погружения для «культурного туризма»: концепция, реализация, опыт // Музей и проблемы «культурного туризма»: матер. XI Круглого стола (Санкт-Петербург,
11–12 апр. 2013). СПб.: Изд-во Государственного Эрмитажа, 2013.
С. 141–144.
37. Булгаков Д. А., Никитина А. А., Решетникова Н. Н. Основы
моделирования 3D-сцен в пакете 3DS Max: метод. указ. к вып. лаб.
работ. СПб.: ГУАП, 2012. 55 с.
38. Основы работы в UNITY3D: метод. указ. к вып. лаб. работ /
под ред. А. В. Никитина. СПб.: ГУАП, 2014. 63 с.
39. Основы работы в UNITY3D. Ч. 2: метод. указ. к вып. лаб. работ / под ред. А. В. Никитина, Н. Н. Решетниковой. СПб.: ГУАП,
2015. 79 с.
40. Официальный сайт сенсора MS Kinect. URL: https://dev.
windows.com/en-us/kinect (дата обращения 01.03.2015).
41. Кирпичников А. Н. Каменные крепости Новгородской земли.
Л.: Наука, 1984. 275 с.
101
42. Five Principles for Successful and Sustainable Heritage Tourism. National Trust for Historic Preservation. URL: http://www.
preservationnation.org/information-center/economics-of-revitalization/heritage-tourism/basics/the-five-principles.html#Quality
(дата обращения 01.03.2015).
43. Кильдюшевский В. И., Курбатов А. В. Новые исследования
крепости Ям // Фортификация в древности и средневековье. СПб.:
ИИМК РАН, 1995. С. 103–105.
44. Скрипинская Н. Ю. Бастионная система крепости Ямбург //
Stratum plus. Археология и культурная антропология. № 6. СПб.;
Кишинев; Одесса; Бухарест, 2014. С. 249–260.
45. Научный Архив ИИМК РАН. Ф. 1. 1896. Дело № 204. 
46. Отчет Императорской археологической комиссии за 1897 год.
Спб.: Типография Главного Управления уделов. 1900.
47. Рябкова Т. В. 1-й Разменный (Костромской) и 10-й Разменный курганы // Боспорский феномен. Греки и варвары на Евразийском перекрестке: матер. междунар. науч. конф. (Санкт-Петербург,
19–22 нояб. 2013). СПб.: Нестор-История, 2013. С. 378–385.
48. Официальный сайт Unity3D. URL: http://unity3d.com/ (дата
обращения 01.03.2015).
49. Multimedia Technologies for the Historical Reconstructions
of the Theater Performances / N. Borisov, A. Nikitin, A. Chepurov,
A. Smolin // International Conference Electronic Imaging & the Visual
Arts: Proceedings of the EVA 2015, St. Petersburg. 2015. P. 175–179.
50. Маскарад. М.: Изд. программа «Интерроса», 2007. 312 с.
51. The Oil & Gas Virtual Reality Training and Simulation Market 2011–2021. URL: http://www.visiongain.com/Report/714/TheOil-Gas-Virtual-Reality-%28VR%29-Training-and-Simulation-Market-2011–2021 (дата обращения 01.03.2015).
52. Официальный источник FlarToolKit. URL: http://www.libspark.
org/wiki/saqoosha/FLARToolKit/en. (дата обращения 01.03.2015).
53. Официальный источник ArToolKit. URL: http://www.artoolworks.com/ (дата обращения 01.03.2015).
54. Сайт компании DASSAULT SYSTÈMES. URL: http://www.3dvia.
com/ (дата обращения 01.03.2015).
102
ПРИЛОЖЕНИЕ
Пример Hype Cycle – появляющиеся технологии
и человеко-машинное взаимодействие
Stages
Emerging Technologies
Human-Computer Interaction
On the Rise Bioacoustic Sensing
Digital Security
Virtual Personal Assistants
Smart Workspace
Connected Home
Quantified Self
Brain-Computer Interface
Human Augmentation
Quantum Computing
Software-Defined
Anything
Volumetric and Holographic Displays
3D Bioprinting Systems
Smart Robots
Affective Computing
Biochips
Neurobusiness
Prescriptive Analytics
Bioacoustic Sensing
Virtual Personal Assistants
Augmented-Human Staffing
Cognizant Computing
Programming by Example (PbE)
3D Video Telepresence
Olfactory Interfaces
Quantified Self
Gait Recognition
Brain-Computer Interface
Human Augmentation
Volumetric and Holographic Displays
Chip Implants for Nonmedical Applications
Smart Robots
Tangible User Interfaces
Affective Computing
Flexible Display
Machine Learning
Muscle-Computer Interface
Emotion Detection/Recognition
Ensemble Interactions
MEMS Displays
At the
Peak
Behavioral or Gestural Analytics
UXPs
Mood Recognition
Speech-to-Speech Translation
Heterogeneous Architectures
Sensor Fusion
Natural-Language Question Answering
Wearable User Interfaces
Smart Fabrics
Data Science
Smart Advisors
Autonomous Vehicles
Speech-to-Speech
Translation
Internet of Things
Natural-Language
Question Answering
Wearable User Interfaces
Consumer 3D Printing
Cryptocurrencies
Complex-Event Processing
103
Окончание прил.
Stages
Emerging Technologies
Human-Computer Interaction
Sliding
Into the
Trough
Big Data
In-Memory Database
Management Systems
Content Analytics
Hybrid Cloud Computing
Gamification
Augmented Reality
Machine-to-Machine
Communication Services
Mobile Health Monitoring
Cloud Computing
NFC
Virtual Reality
Head-Mounted Displays
Facial Recognition
Augmented Reality
Embedded GUI
Pico Projectors
Virtual Reality
Virtual Worlds
3D LCDs
Ambient and Glanceable Displays
Climbing
the Slope
Gesture Control
In-Memory Analytics
Activity Streams
Enterprise 3D Printing
3D Scanners
Consumer Telematics
Gaze Control
Gesture Control
Haptics
Large-Surface Computers
Electronic Paper
MEMS Gyroscopes
Bone Conduction
Rich Presence
Biometric Authentication Methods
Handwriting Recognition
Entering
Speech Recognition
the Plateau
104
Speech Recognition
СОДЕРЖАНИЕ
Список сокращений................................................................... Введение.................................................................................. 1. Основы интерактивного погружения........................................ 1.1. Концепция реально-виртуального континуума.................... 1.2. Анализ перспективных технологий. .................................. 1.3. Необходимые сведения из психологии и физиологии
человека.............................................................................. 1.4. Концепция присутствия................................................... 2. Методы и технологии интерактивного погружения.................... 2.1. Виртуальная реальность................................................... 2.2. Дополненная реальность.................................................. 2.3. Виртуальные миры.......................................................... 2.4. Мультимодальный интерфейс........................................... 3. Примеры использования интерактивного погружения................ 3.1. Методика разработки приложений.................................... 3.2. Культурное наследие и культурный туризм........................ 3.3. Театральное искусство..................................................... 3.4. Промышленность............................................................ 3.5. Медицина....................................................................... Заключение............................................................................. Библиографический список........................................................ Приложение. Пример Hype Cycle – появляющиеся технологии
и человеко-машинное взаимодействие......................................... 3
4
5
5
6
7
10
13
13
19
30
33
51
51
53
72
82
86
94
99
103
Учебное издание
Никитин Александр Александрович
Никитин Александр Васильевич
Никитина Анна Александровна и др.
МЕТОДЫ И ТЕХНОЛОГИИ
ИНТЕРАКТИВНОГО ПОГРУЖЕНИЯ
Учебное пособие
Редактор В. П. Зуева
Компьютерная верстка С. Б. Мацапуры
Сдано в набор 15.09.15. Подписано к печати 24.11.15.
Формат 60×84 1/16. Бумага офсетная. Усл. печ. л. 6,17.
Уч.-изд. л. 6,63. Тираж 100 экз. Заказ № 459.
Редакционно-издательский центр ГУАП
190000, Санкт-Петербург, Б. Морская ул., 67
Документ
Категория
Без категории
Просмотров
7
Размер файла
12 829 Кб
Теги
nikitinreshetnikova
1/--страниц
Пожаловаться на содержимое документа