close

Вход

Забыли?

вход по аккаунту

?

Методология наполнения онтологий – практика без теории?

код для вставкиСкачать
Методология наполнения онтологий –
практика без теории?
Рубашкин В.Ш., Пивоварова Л. М.
Санкт-Петербургский университет
1. Положение дел:
Методология наполнения онтологий была и остается самым слабым
звеном онтологической инженерии.
"…One of the main purposes of ontologies is to reduce the knowledge
acquisition bottleneck, to acquire knowledge for building ontologies
still requires a lot of time and resources. [G-P, с. 112]"
Каждый из "больших" онтологических проектов формулирует и
реализует собственный подход к наполнению онтологий, и это
само по себе свидетельствует о неблагополучии в данной
области.
Даже к большим и пользующимся авторитетом онтологическим
системам, таким как CYC или SUMO, при внимательном
ознакомлении с их наполнением возникает много вопросов,
касающихся логической и терминологической полноты,
логической последовательности содержимого и возможности
реализовать в полном объеме ту функциональность, которая
востребована развитием информационных технологий.
1. Положение дел:
Приходится констатировать, что задача создания открытого для
общего и многократного использования (sharable and reusable)
информационного ресурса, поставленная еще в начале 90-х,
до сих пор остается не решенной.
NB:
Документация, например, по OWL или по редакторам и резонерам
НЕ содержит развернутых рекомендаций по методологии
наполнения.
1. Положение дел: что имеем?
Весьма существенно то, что онтологии не порождают нового знания, а
лишь оформляют то понимание терминологии и языковых единиц
вообще, которое уже сложилось в коммуникационной системе.
Большая часть связей, фиксируемых в онтологиях - это так
называемые "знания здравого смысла" (common sense metaphysics), без
формализации и использования которых не может быть решена ни
одна задача, так или иначе связанная с пониманием текста. Это
недокументированные знания, которые почти никогда не
вербализуются ни в научных коммуникациях, ни в повседневном
общении. Речь идет о содержательно очень простых вещах: скажем,
надо формализовать понимание того, что супермаркет или бутик есть
вид торговой организации, последняя есть вид специализированной
социальной системы (в отличие от города или страны); что
супермаркет не станок, не теплоход, не стадион и т.д. (отношение
объемной несовместимости); что всякая специализированная
социальная система имеет руководителя (директор, начальник,
заведующий), что в ней работает персонал с определенным набором
социальных ролей и т.п.
1. Положение дел: что имеем?
Попытки создания регламентирующих документов:
1994
Classic Knowledge Representation System Tutorial
Deborah L. McGuinness,et al. AT&T Bell Laboratories and University of
Pittsburgh,
Использованный там пример детализирован и превращен в
развернутый учебный пример
(2001 Natalya Noy and Deborah McGuinness)
Ontology Development 101: A Guide to Creating Your First Ontology,
Так появилась пресловутая "Онтология вина", кочевавшая из
документа в документ на протяжении почти десятка лет.
NB: была включена в официальную документацию по OWL OWL Web Ontology Language Guide
1. Положение дел: что имеем?
OWL2:
В документацию по OWL2 в качестве приложения включен уже
другой пример наполнения, рассматривающий возможный
способ формализации некоторых терминов родства и связанных
с ними характеристик:
OWL 2 Web Ontology Language. Primer. W3C Recommendation 27
October 2009.
Бросается в глаза чрезвычайная упрощенность используемых
примеров по сравнению с реальными терминосистемами.
Такого рода "игрушечные" примеры скорее служат развернутой
иллюстрацией к описанию синтаксиса OWL, чем методическим
руководством для систематизации и формализации реальных
терминосистем.
1. Положение дел: что имеем?
Самым полезным на сегодня методическим пособием,
показывающим как можно систематизировать большой
языковый материал, являются сами "большие" онтологии.
НО
Пример SUMO-MILO:
Transp_Sumo.doc
Что следовало бы:
SUMO_Transport.ppt#5. RoadVehicle
InTez.exe
1. Положение дел: что имеем?
Определенное методологическое ядро, пригодное, прежде всего для
построения доменных онтологий, тем не менее,
сформировалось.
Сложилась определенная практика, предусматривающая
следующую последовательность конструктивных действий:
1) Отбор значимых для предметной / проблемной области
концептов.
2) Категоризация терминов:
3) Дальнейшая внутрикатегорная систематизация - построение
таксономии.
4) Установление нетаксономических отношений
1. Положение дел: что имеем?
Более детальный вариант такого описания шагов по построению
онтологии можно найти в обзоре, приведенном в [G-P, p. 132 и
след.].
А) 4 этапа построения онтологии: спецификация, концептуализация,
формализация, реализация.
Понимание этих этапов в очень кратком изложении таково.
• Спецификация – определение функциональности онтологии.
• Концептуализация – структурирование (как можно более
тщательное) доменной терминологии на содержательном
уровне.
• Формализация – "преобразует концептуальную модель в
формальную или полувычислимую (semi-computable) модель".
• Реализация (implementation) – строит вычислимую модель на
языке представления онтологий.
Собственно содержательный этап структурирования
терминосистемы – концептуализация.
1. Положение дел: что имеем?
Концептуализация.
Для этого этапа (conceptual modeling) авторы указанной работы
подробно определяют принятую ими последовательность
действий:
1) Построение словаря терминов, включая сюда также
естественно-языковые определения терминов, синонимы и
акронимы.
2) Построение таксономии для концептов. Отмечается
необходимость одновременно фиксировать отношение
несовместимости (disjoint).
3) Построение ad hoc (т.е., экспертно) графа бинарных (!)
отношений между концептами. Отмечается важность точного
определения условий заполнения аргументов отношений
(domains and ranges).
4) Построение "словаря концептов" – с привязкой к концептам
атрибутов и отношений.
1. Положение дел: что имеем?
5) Детализация описания бинарных отношений (п. 3).
Предусматривается дополнительное указание числа возможных
значений (cardinality – 1:1, 1:N), логических характеристик
отношения (симметричность, транзитивность) и наличие
конверсива.
6) Описание атрибутов: область применимости (domain); тип
данных для значения; единица измерения, точность
представления, область определения ("от…до…"), - если
атрибут числовой; минимальное и максимальное число
возможных значений – (0,1), (1,1), (0,N), (1,N).
7) Описание "атрибутов классов" (?).
8) Описание специфичных для области знаний констант.
9) Описание экземпляров: отнесение к классу и указание значений
релевантных для класса атрибутов.
1. Положение дел: что имеем?
Есть еще 2 пункта, которые, по существу, подразумевают переход к
следующему этапу ("формализация") и предусматривают
формулировку аксиом и правил, так или иначе ограничивающих
допустимые описания экземпляров.
[ Логического различия между "аксиомами" и "правилами" обнаружить не
удается. Пол всей видимости имеется в виду то различие, что "аксиомы"
представляют, так сказать, абсолютные ограничения, обуславливаемые
законами природы (На поезде из Европы можно попасть только в Европу –
поездка в Азию через Россию с точки зрения авторов, видимо противоречит
законам природы), в то время как "правила" представляют
административные и юридические ограничения, действительные в
определенный период времени (Все круизы из Европы в Коста-Рику
организуются компанией Costa Cruises). ]
1. Положение дел: что имеем?
Самая актуальная проблема –
язык, среда и дисциплина,
обеспечивающие накопление и интеграцию онтологических знаний.
Один из ключевых элементов такой среды –
онтология верхнего уровня, обеспечивающая такую интеграцию.
2. Онтология верхнего уровня
Wiki:
"Почему онтология верхнего уровня НЕ осуществима" –
"Почему онтология верхнего уровня осуществима"
Wiki:
Upper ontology (top-level ontology, or foundation ontology) is an
ontology which describes very general concepts that are the same
across all knowledge domains. The most important function of an
upper ontology is to support very broad semantic interoperability
between a large number of ontologies accessible "under" this upper
ontology.
Возможное операциональное определение:
Онтологическая подсистема, достаточная для последующего
присоединения любых доменных онтологий и для представления
логических связей между концептами, значимых во всех или хотя
бы в нескольких частных онтологиях.
2. Онтология верхнего уровня
Практика построения онтологий верхнего уровня:
"Еще одна, еще одна, еще одна…":
YAGO - Yet Another Great Ontology)
YAMATO - Yet Another More Advanced Top-level Ontology
top-level_Survey.xls
TopLevel_Filling.ppt
Viviana Mascardi, Valentina Cordì, Paolo Rosso
A Comparison of Upper Ontologies
(Technical Report):
Since all of us have a computer science background, these criteria are more familiar to
us than philosophical ones.
2. Онтология верхнего уровня
“John’s height of 160cm long”
Общие
замечания:
<“John’s
height” instance-of height>
<”height” (role) is-a quality role type>
<quality
instance-of quality role type >
1) Два
подхода:
<“height” (role) is-played-by length>
• <quality
Представление
метазнаний
(метапонятий)
role type is-played-by
generic
quality type >
is-a generic
quality type> понятий и связей между ними
• <length
Интеграция
предметных
<160cm long instance-of length quantity>
(Преобладает
сочетание
того и другого с разным акцентом)
<length quantity
is-a quantity>
2) Различие
несопоставимость используемой терминологии
Имеется вивиду:
<объект,
атрибут(признак),
числовое значение,
единица(отсутствие
мешает
обнаружить
содержательные
совпадения
измерения>
традиции)
вариант:
<объект,
атрибут(признак),
числовое
значение
> YAGO
3) "Много
единиц"
Sample
facts
from the
4) Проблема логической полноты и последовательности.
2. Онтология верхнего уровня
Общие замечания:
Обзор Top-Level онтологий наводит на мысль, что их построение
рассматривается скорее как интимное дело эксперта, которое
регламентации и методологическому регулированию не
подлежит.
Как возникает онтология верхнего уровня:
Построение онтологии, рассчитываемой на многократное
применение, предполагает стремление к логической полноте
концептуальной системы. При добавлении в онтологию имени
некоторого подкласса всегда полезно задаться вопросами:
- из какого исходного класса выделен данный подкласс?
- по какому основанию он выделен?
и самое главное:
- какие еще подклассы могут быть выделены по данному
основанию из данного исходного класса?
Отвечая на такие вопросы, получаем фрагмент таксономии, который
часто выводит за пределы рассматриваемой и непосредственно
формализуемой дисциплинарной области.
Как возникает онтология верхнего уровня:
Пример.
Центральное положения в системе концептуальной системы
лингвистики должен занимать концепт текстовое произведение
- текст, представляющий одно законченное сообщение,
представляющий содержание одного коммуникационного акта.
ср. SUMO: Text - A &%LinguisticExpression or set of
&%LinguisticExpressions that perform a specific function related to
&%Communication, e.g. express a discourse about a particular
topic).
(Научная статья, монография или диссертация; роман, эссе или губермановский
"гарик"; устав гарнизонной и караульной службы, закон о правах
потребителей, инструкция по использованию лекарства, рекламный постер,
короткий приказ армейского командира в бою, бытовой диалог …)
предложение, слово, морфема, … - лишь "детали" и "узлы" для построения
востребованного социумом "изделия".
Как возникает онтология верхнего уровня:
Далее необходима более детальная функциональная спецификация
объектов класса текстовое произведение художественное произведение и деловой документ.
деловой документ – подклассы:
нормативный документ, научно-технический документ,
организационно-распорядительный документ, ценная бумага.
- Из лингвистики в такие области как литературоведение,
юриспруденция, экономика и финансы, управленческая
деятельность и т. д.
Как возникает онтология верхнего уровня:
Какие еще "произведения", реализующие самостоятельную
коммуникативную функцию, можно указать?
Примеры:
- симфония, натюрморт, архитектурный ансамбль и даже
лампасы на генеральских бриджах.
Речь идет о разбиении некоторого исходного класса семиотический
(ментальный) объект по основанию
тип знакового материала с порождение подклассов:
- текстовый объект, музыкальный объект, объект
изобразительного искусства, утилитарный объект со
знаковыми функциями.
Построение такого ряда необходимо для обеспечения полноты
таксономической системы и, соответственно, полноты
отображения определенного аспекта миропонимания.
С другой стороны, - выход за пределы дисциплинарно
ориентированной терминосистемы, как результат
последовательной работы по ее формализации.
Что должна содержать Top-Level онтология?
•
•
•
•
•
•
•
•
Один, два, три, …; много, мало, несколько, …; весьма, сверх-,
ультра- …; …
Далеко - близко; раньше – позже; редко –часто; шар, куб,
пластина, лист, цилиндрический; больше – меньше; …
'логическое И', 'логическое ИЛИ', 'логическое НЕ'; все,
существует, некоторые; большинство, меньшая часть,
несколько; всегда, иногда; везде, нигде;
совокупность, стая, стадо, толпа, куча, скопление…; и др.
Общеязыковые отношения: 'часть-целое', анти-, 'быть
предназначенным для', причинна
Общие термины-категоризаторы (предмет, экземпляр, процесс,
действие, отношение, свойство, связь, совокупность и т. п.)
Индикаторы кореференции ('этот', 'другой', 'такой же'
Фазовые определители процессов/действий: 'начинать(ся)',
'заканчивать(ся)', 'продолжаться'
Что должна содержать Top-Level онтология?
•
•
•
Вопросительные элементы: кто, что, кого, кому, где, как, зачем,
когда, ли и т. п.).
Верх дерева признаков, включая системообразующую часть и
общие термины каждого из основных направлений научной,
художественной и практической деятельности.
По-видимому, также бытовая и вообще общеязыковая
знаменательная лексика, образующая разговорное ядро языка.
Основные противопоставления верхнего уровня
(значимы для организации наследования свойств)
Basic distinctions (YAMATO):
(1) Substrate and entity
(2) Entity and property
(3) Physical and abstract
(4) Continuant(Object) vs. Occurrent(Process)
(5) Entity and relation
(6) Representation and non-representation
(1) Space and time are indispensable for things to exist in the world, while
these
two
can cannot
exist independently
entities.
(2) Any
entity
exist withoutofany
property, e.g., any physical object has necessarily a
couple
of properties
mass, size,
etc.).
At time
the same
time, any
property
exist alone.
(3) A physical
thing (color,
as something
which
needs
and space
to exist,
and cannot
introduce
semi-abstract which needs only time to exist. Abstract things are defined as things that need
(6)
We need toisdeal
with representation in our ontology, since there apparently exist music,
(4)
YAMATO
neither
time norbased
space.on a solid theory of objects, processes and events
novels,
texts,
symbolsare
andaction
so onand
in the
real world.
Representation
and non-representation
(5) Typical
examples
attribute
that are
sometimes formalized
as a relation
(object,
are between
very different
fromand
each
because process,
an actionrelation,
is often attribute,
formalizedetc.)
as one
an actor
another.
object and an attribute as
For
the representation,
it isanot
easyBut,
to identify
what
their
are. For
example, what
an
one between
an object and
value.
of course,
they
areinstances
not relations
ontologically.
They isare
instance
of aentities
piece ofincluded
music, what
an algorithm, …
intrinsically
in anisontology.
Основные противопоставления верхнего уровня
(значимы для организации наследования свойств)
Мир естественного (мир природы):
• дискретный – континуум
• агрегатное состояние
• локализованный (self connected object) – нелокализованный
• объект – квазиобъект
• неживое – живое – одушевленное
• масштабирование объектов
Основные противопоставления верхнего уровня
Мир социального (мир культуры)
• эмпирический объект - семиотический объект
•
•
•
•
(город – теорема)
объект материальной культуры - социальный индивид
человек (личность) - социальная система
жизнеорганизующая социальная система –
специализированная социальная система
(город - филармония)
функционально значимый объект - вспомогательный объект
(автомобиль - колесо)
Общие рекомендации по формализации терминосистем
1) Не отдельные термины, а терминосистемы. Формализация
должна быть одинаковой для всего ряда однотипных языковых
явлений.
2) Опора на хорошо выстроенную онтологию верхнего уровня.
Действия по формализации частных терминосистем:
3)
(!) Жесткая поддержка DisjointUnion-дисциплины построения
иерархической системы классов – разбиение каждого из
исходных классов (Partition) с явным указанием оснований
деления. Выявление базовых признаков и других
информационно значимых элементов путем содержательного
анализа словарных определений.
NB: Две проблемы –
связь свойство – значение; несовместимость классов.
Обычная таксономия:
Макротело
- красный
- синий
- зеленый
-…
- тяжелый
- легкий
-…
- твердый
- жидкий
- газ
При этом свойство цвет придется определить как
<owl:ObjectProperty rdf:ID = ”Цвет”>
<rdf:type rdf:resource="&owl:FunctionalProperty" />
<rdfs:domain rdf:resource = ”# Макротело” />
<rdfs:range rdf:resource = ”# Макротело”/>
</owl:ObjectProperty>
Но такое определение оставляет возможность на вопрос о цвете отвечать
тяжелый или твердый.
Остается возможность сформировать искусственные подклассы:
Макротело
- Тела имеющие цвет
-- красный
-- синий
-- зеленый
-- …
- Тела имеющие вес
-- тяжелый
-- легкий
-- …
- Тела, характеризующиеся агрегатным состоянием
--твердый
-- жидкий
-- газ
<owl:ObjectProperty rdf:ID = ”Цвет”>
<rdf:type rdf:resource="&owl;FunctionalProperty" />
<rdfs:domain rdf:resource = ”# Макротело” />
<rdfs:range rdf:resource = ”# Тела имеющие цвет”/>
</owl:ObjectProperty>
Еще лучше было бы исключить класс Тела имеющие цвет из
области определения domain.
Альтернативный способ решения той же задачи может выглядеть
так. Сначала определяем систему базовых признаков,
организованных в дерево признаков: InTez.exe
Макротело
- цвет
-- красный
-- синий
-- зеленый
-- …
- вес
-- тяжелый
-- легкий
-- …
- агрегатное состояние
-- твердый
-- жидкий
-- газ
Альтернатива в OWL2 – конструкция DisjojntUnion
4)
Логическая реконструкция словарных определений в терминах
построенной на этапе 2 системы базовых признаков.
Необходим язык формальных толкований терминов – при этом должна
использоваться не только конъюнкция, но и другие логические средства, например определение через отношение.
«Множественное наследование» как способ представления определения через
конъюнкцию можно рассматривать как удобный технологический прием –
особенно при наличии системы графического редактирования.
NB: Не энциклопедические определения терминов, а отнесение к системе базовых
признаков.
Ср.: «остров - часть суши, окруженная водой» vs
SubClassOf ГеографическийОбъект,
DisjoinClasses Остров, Полуостров, Залив, Пролив, Мыс, Канал, Риф, Лагуна,
Море и т. п.
5)
Логический контроль должен, главным образом не
обнаруживать ошибки, а предотвращать их появление.
6) Тщательно составленный и хорошо прокомментированный
системный пример (или ядро универсальной онтологии с
примерами доменного расширения и достаточным комментарием)
Документ
Категория
Презентации
Просмотров
38
Размер файла
252 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа