close

Вход

Забыли?

вход по аккаунту

?

bd000101943

код для вставкиСкачать
На правах рукописи
ЯРНЫХ Юлия Анатольевна
СТРУКТУРИРОВАННАЯ СЕМАНТИЧЕСКАЯ
МОДЕЛЬ КОНТЕНТА ТЕКСТОВ
НАУЧНО-ТЕОРЕТИЧЕСКОГО ХАРАКТЕРА
Специальность 05.25.05 - Информационные системы и процессы,
правовые аспекты информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Москва - 2005
Работа выполнена на кафедре информатизации структур государ­
ственной службы Российской академии государственной службы при
Президенте Российской Федерации, г. Москва
Научный руководитель:
доктор технических наук, профессор
Данчул Александр Николаевич
Официальные оппоненты:
доктор технических наук, профессор
Ефремов Владимир Александрович,
кандидат технических наук, доцент
Кононенко Александр Васильевич
Ведущая организация:
Московский
автомобильно-дорожный
институт (государственный технический
университет)
Защита состоится « »_
2005 г. в
часов на заседа­
нии диссертационного совета Д 502.006.17 Российской академии госу­
дарственной службы при Президенте Российской Федерации по адресу:
119606, Москва, пр-т Вернадского, д. 84,2-й учебный корпус, ауд.
С диссертацией можно ознакомиться в библиотеке Российской
академии государственной службы при Президенте Российской Федера­
ции (119606, г. Москва, проспект Вернадского, д.84)
Автореферат разослан «
Ученый секретарь
диссертационного совета,
доктор пед. наук,
кандидат физ.-мат. наук,
доцент
»
2005 г.
Митин А.И.
г/г г ♦
^ >^'
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. В настоящее время тексты на
естественном языке являются основным способом хранения и передачи
знаний. В связи с усиливающейся тенденцией к хранению текстов в циф­
ровом виде и с быстрым ростом объема текстовой информации актуальной
является проблема автоматизации обработки подобной информации, в ча­
стности проблема машинного анализа текста.
Системы, автоматизирующие обработку текста с целью выявления
его смысла и структуризации контента, крайне немногочисленны, что объ­
ясняется в первую очередь сложностью объекта моделирования, разнород­
ностью используемых методов и т.д.
Существуют различные методы структуризации текста, такие как:
гипертекст, семантические сети, методы массированной онтологии кон­
цептуальных значений, частотно-вероятностные и логико-статистические
модели и методы, метод рубрицирования, метод автоматического нелин­
гвистического анализа неструктурированной текстовой информации, реа­
лизованный на основе нейросетевых алгоритмов и т.д.
Существующие методы структуризации текста не ставят задачу вы­
деления структуры описываемой ими предметной области по нескольким
аспектам описания и рассмотрения систем, а, следовательно, не предостав­
ляют эффективный механизм структуризации информационного содержи­
мого предметной области.
В связи с этим актуальным остается вопрос разработки эффективно­
го механизма структуризации контента документа (текста), отражающего
предметную область, основанного на выделении определенного класса
взаимосвязанных аспектных описаний, каждое из которых имеет собст­
венную структуру - механизм систематизации контента.
Разрабатываемый механизм систематизации контента должен осно­
вываться на существующем механизме структуризации текста, удовлетво­
ряющем требованиям доступности, простоты, возможности описания ши­
рокого класса понятий для любой предметной области, возможности ре­
шения ряда задач, возникающих в предметной области, и в то же время
предусматривать возможность доработки существующего механизма с це­
лью повышения эффективности процесса систематизации контента.
В качестве существующего механизма структуризации текста в ра­
боте выбран аппарат семантических сетей. Поскольку данный механизм
РОС НАЦИОНАЛЬНАЯ I
КНБЛИОТЕКД
I
_»да®]
достаточно часто используется при структурировании небольших масси­
вов информации, требующими своей разработки остались вопросы выде­
ления укрупненных единиц семантической сети, создания отдельных ти­
повых блоков из семантической сети (семантических микроструктур), ис­
пользования принципов абстрагирования и укрупнения для семантической
сети - вопросы разработки нового механизма систематизации контента на
основе укрупненных семантических микроструктур (структурированной
семантической модели).
Недостаточная проработанность указанных выше вопросов свиде­
тельствует об актуальности темы диссертационного исследования.
Степень разработанности проблемы.
В отечественной и зарубежной научно-технической литературе
представлено достаточно много работ, связанных с:
- вопросами в области систематизации контента, основанными на
различных методах и средствах систематизации и используемыми в раз­
личных предметных областях (Р. Абельсон, В.А. Ефремов, Е.В. Мячина,
Т.Н. Нельсон, Д.А. Поспелов, Й. Уилкс, С.А. Холодова, Э. Черняк,
Р. Шенк и др.);
- вопросами в области семантического моделирования, описываю­
щего модели структур данных, опираясь на смысл этих данных (Т.Р.
Грубер, Т.А. Гаврилова, Т.В. Левашова, Г.С. Осипов, М.П. Пашкин, А.В.
Смирнов, В.Ф. Хорошевский, Ю.И. Шемакин, Н.Г. Шилов и др.);
- использованием механизмов систематизации контента в учебной
деятельности (С.А. Бешенков, А.Г. Гейн, Р.С. Гиляревский, Т.А. Кувалдина, А.С. Лесневский, Е.А. Ракитина, В.Ю. Строганов и др.).
Менее разработанным остаются вопросы использования семантиче­
ского моделирования как механизма систематизации контента для струк­
турирования учебных дисциплин и решения задач учебно-методического
характера в учебной деятельности.
Данное обстоятельство предопределило выбор темы, постановку це­
ли и задач исследования.
Цель диссертационной работы заключается в разработке концеп­
ции систематизации контента и решении задач учебно-методического ха­
рактера на основе построения структурированной семантической модели.
Объектом исследования является процесс систематизации контента
текстов научно-теоретического характера, описывающих сложные актив­
ные системы.
Предметом исследования являются методы и средства системати­
зации контента текстов научно-теоретического характера, предполагаю­
щие использование её результатов в учебной деятельности.
Задачи исследования:
1 Провести анализ существующих направлений автоматизации работы с
текстовой информацией с целью формулировки обобщенной задачи
систематизации контента, а также проанализировать существующие
подходы к её решению с целью выделения требований к аппарату мо­
делирования контента текстов научно теоретического характера, ис­
пользуемых в учебной деятельности.
2. Выделить в исследуемой предметной области устойчивые семантиче­
ские микроструктуры, являющиеся инвариантами при описании слож­
ных активных систем, а также порождаемые ими типы отнощений.
3. Путем сравнительного анализа предложенного и существующих набо­
ров типов отношений в семантических сетях охарактеризовать степень
их целостности и полноты.
4. Выделить задачи учебно-методического характера, решаемые с помо­
щью структурированной семантической модели, и дать рекомендации
по их реализации; провести апробацию построения структурирован­
ной семантической модели и построения обучающе-тестирующего
комплекса на его основе.
5. На основе сравнительного анализа существующих инструментальных
средств автоматизированной обработки информации сформировать
требования, предъявляемые к инструментальным средствам автомати­
зации процесса систематизации контента и дать рекомендации по вы­
бору программных средств, реализующих основные этапы этого про­
цесса.
Теоретической и методологической базой диссертационного ис­
следования послужили труды российских и зарубежных ученых в области
компьютерной лингвистики, семантического моделирования, инженерии
знаний, а также работы по искусственному интеллекту.
Методы исследования базируются на различных аспектах концеп-
туального моделирования. В той или иной степени в работе использова­
лись методы инженерии знаний, методы и модели структуризации, методы
теории графов для формального описания модели предметной области.
Научная новизна. При выполнении диссертационного исследования
получены следующие результаты, отражающие и характеризующие его
научную новизну:
1. Сформулирована обобщенная задача систематизации контента, сущно­
стью которой является переход от вербальной формы представления
информации к структурной форме на основе построения её архитекту­
ры, учитывающей многоаспектность и иерархичность описания слож­
ных систем.
2. Сформированы требования к аппарату моделирования контента текстов
научно теоретического характера в учебной деятельности, отвечающие
свойствам полноты, целостности, доступности, простоты и др.
3. Выделены устойчивые семантические микроструктуры, являющиеся
инвариантами при описании сложных активных систем и порождающие
новые наборы типов отношений в семантических сетях.
4. Выделен новый набор типов отнощений в семантических сетях; путем
сравнительного анализа с существующими наборами установлена его
целостность и полнота.
5. Предложен способ построения модели предметной области на основе
выделенных устойчивых семантических микроструктур.
Практическая ценность исследования заключается в построении
структурированной семантической модели для фрагмента учебного посо­
бия по информатике, разработке на основе семантических микроструктур
обучающе-тестирующего комплекса по дисциплине «Информатика».
Апробация работы. Результаты исследования докладывались на:
межвузовской научно-практической конференции молодых ученых, по­
священной 130-летию со дня рождения А.А. Богданова (Москва, 2003 г.),
на совместной междисциплинарной аспирантской конференции РАГССЗАГС (Санкт-Петербург, 2003 г.), на Международной научнопрактической конференции «Экономико-организационные проблемы про­
ектирования и применения информационных систем» (Ростов, 2003 г.), на
межвузовской научно-практической конференции молодых ученых, по­
священной творчеству В.Г. Афанасьева (Москва, 2004 г.), на научно-
техническом семинаре кафедры информатизации структур государствен­
ной службы. По результатам диссертационного исследования опубликова­
но 5 печатных работ общим объемом 2 п. л.
Структура диссертационной работы. Работа состоит из введения,
трех глав, заключения, списка литературы, приложений. Общий объем ра­
боты составляет 179 стр., в работе содержится 52 рисунка, 6 таблиц. Спи­
сок литературы содержит 109 источников.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, выделены объект и
предмет исследования, сформулированы цели и задачи исследования, на­
учная новизна и практическая ценность диссертационной работы.
В первой главе сформулированы понятия «систематизация контен­
та», «структурированная семантическая модель», проведен анализ сущест­
вующих направлений автоматизации работы с текстовой информацией,
выделена обобщенная задача систематизации контента, выполнен анализ
существующих подходов (методов и средств) к её решению. На основе
анализа особенностей задач систематизации контента текстов научнотеоретического характера, решаемых в учебной деятельности, сформиро­
ваны требования к аппарату моделирования контента текстов.
В современной литературе под систематизацией понимают процесс
выделения структуры предметной области по одному из аспектов рассмот­
рения и описания систем. Так как в качестве предметной области в работе
рассматриваются сложные активные системы, характеризующиеся многоаспектностью и иерархичностью описания, то такое понимание процесса
систематизации приводит к построению модели предметной области в од­
ной из возможных плоскостей описания и рассмотрения систем, что явно
недостаточно для адекватного отражения контента рассматриваемой пред­
метной области.
Указанные выше особенности, а также специфика сложных активных
систем, рассматриваемых в работе в качестве предметной области, требуют
нового понимания процесса систематизации. В работе введено понятие
«систематизация контента», под которым понимается выделение опреде­
ленного класса взаимосвязанных аспектных описаний, каждое из которых
имеет собственную структуру.
Анализ различных направлений (сфер жизнедеятельности), связан­
ных с автоматизированной обработкой информации, показал, что задача
8
систематизации контента является актуальной задачей современных ин­
формационных технологий.
На основе проведенного исследования была сформулирована обоб­
щенная задача систематизации контента - задача построения архитекту­
ры (логической организации) контента, определяемой её конфигуратором
(перечнем аспектов), иерархическими аспектными подсистемами и прин­
ципами их взаимодействия.
Анализ существующих подходов к систематизации контента, пока­
зал, что такие технологии систематизации контента как гипертекст, семан­
тические сети, методы массированной онтологии концептуальных значе­
ний, частотно-вероятностные и логико-статистические модели и методы,
метод рубрицирования и т.д., являясь мощным средством структуризации
контента, задачу систематизации контента не ставят, но могут быть при
некоторых условиях использованы для её решения.
Анализ существующих подходов к систематизации текстов научнотеоретического характера, а также анализ задач учебно-методического ха­
рактера, решение которых зависит от механизма систематизации, позволил
выделить ряд требований, которым должен отвечать аппарат моделирова­
ния контента текстов научно-теоретического характера, используемых в
учебной деятельности, отвечающих свойствам полноты, целостности, дос­
тупности, простоты, модифицируемости и др.
В работе сделан вывод, что данным требованиям удовлетворяет ап­
парат семантических сетей, в частности, используемая в работе иерархиче­
ски организованная семантическая модель с выделенными устойчивыми
инвариантными микроструктурами - структурированная семантическая
модель.
Во второй главе выделены устойчивые семантические микрострук­
туры, являющиеся инвариантами в различных классах предметных облас­
тей и порождающие новые наборы типов отношений в семантических се­
тях. Путем сравнительного анализа предложенного и существующих
наборов типов отношений установлена его целостность и полнота.
Анализ эффективности применения семантических сетей показал,
что с помощью проанализированных в работе операций над семантиче­
скими сетями, таких как создание, редактирование, пересечение и объеди­
нение семантических сетей, декомпозиция и агрегирование, сравнение и
оценка семантической сети, поиск элементов семантической сети и др..
можно устранить основной недостаток семантических сетей - избыточ­
ность модели при создании сложной семантической сети.
Применение операций декомпозиции и агрегирования и приводит к
появлению новых, укрупненных структур семантической сети - семанти­
ческих микроструктур, являющихся инвариантами в классе нескольких
областей, позволяющих типизировать семантическую структуру предмет­
ной области и порождающих новые наборы типов отношений в семантиче­
ских сетях.
В работе выделены два вида семантических микроструктур: содер­
жательная микроструктура (стереотип) и формальная микроструктура, ко­
торые служат основой для построения семантической модели предметной
области и позволяют оптимизировать процесс создания модели и унифи­
цировать его.
Под стереотипом в работе понимается семантическая микрострук­
тура предметной области, отражающая некоторый из её аспектов. Стерео­
тип является семантической микроструктурой, соответствующей некото­
рому классу фрагментов семантической сети, который позволяет обобщить
отношения внутри фрагмента, не отказываясь от их семантической интер­
претации.
С целью выделения стереотипов, позволяющих унифицировать про­
цесс создания модели предметной области, в работе были проанализирова­
ны различные аспекты рассмотрения и описания сложных активных сис­
тем: морфологический, функциональный, процессный, технологический.
Поскольку для сложных активных систем, описывающих техноло­
гию деятельности, основным является технологический аспект, первона­
чально в работе был выделен стереотип, отражающий технологический ас­
пект процесса передачи продукта от источника к потребителю (рис. 1).
Под формальной микроструктурой в работе понимается семантиче­
ская микроструктура, соответствующая некоторому классу фрагментов се­
мантической сети и позволяющая обобщать отношения внутри фрагмента,
отказавшись от их семантической интерпретации и используя только
структуру. Наиболее распространенной формальной микроструктурой яв­
ляется одноуровневая иерархия семантической сети. В работе формальная
микроструктура рассматривалась как основа создания иерархически орга­
низованной семантической сети.
10
Требование
Источник
Отношение
«требование-процесс»
Продукт
Отношение
«объект(вход процесс»
Отношение
«субъект-процесс»
Субъект
Процесс
объект *'
(выход»)
Отношение «процесссредство процесса»
Средство
Рис. 1. Графическое представление стереотипа
Фрагмент конкретной предметной области, структура которого явля­
ется подструктурой семантической микроструктуры с тождественностью
соответствующих отношений и который возникает при использовании се­
мантической микроструктуры для представления информационного со­
держимого предметной области будем называть модулем семантической
сети.
Семантическая и формальная микроструктуры служат основой для
построения семантической модели предметной области и позволяют усо­
вершенствовать процесс создания модели за счет его унификации.
На рис. 2 представлен пример фрагмента предметной области, струк­
турированный на основе семантических микроструктур.
Типы отношений между концептами в модели фрагмента предмет­
ной области:
1. Отношение «субъект - процесс».
Отношение «процесс - выход».
Отношение «источник - продукт».
Отношение «продукт - потребитель».
Отношение «объект, вход - процесс».
Отношение «процесс - средство процесса».
7. Отношение «требование - процесс».
8. Отношение «иерархии», включающее в себя отношение «часть целое», «общее - частное» и т.д.
11
Рис. 2. Модель фрагмента предметной области на основе
семантических микроструктур
Между выделенными модулями семантической сети возникают раз­
личные связи, которые можно обобщить и для семантических микрострук­
тур.
В работе были выделены следующие типы связей:
1. Концептуальные связи, устанавливаемые между микроструктура­
ми по концепту, используемому в нескольких микроструктурах.
2. Ассоциативные связи, устанавливаемые между микроструктурами
через отношения (связи) между концептами, принадлежащими различным
микроструктурам.
3. Смешанные связи, сочетающие в себе концептуальные и ассоциа­
тивные связи.
При необходимости построения более подробной модели
предметной области возможна детализация концептов исходной модели.
При необходимости построения более адекватной модели
предметной области дополнительно используются семантические
микроструктуры для систематизации новых фрагментов семантической
сети.
12
При дальнейшем расширении семантической модели за счет добав­
ления новых фрагментов может возникнуть ситуация, при которой в про­
цессе структуризации информационного содержимого предметной области
с использованием семантических микроструктур остаются неструктуриро­
ванные фрагменты. Невозможность построения семантической модели
предметной области только на основе семантических микроструктур свя­
зана с выделением некоторых нетиповых, уникальных для моделируемой
предметной области концептов и отношений. Данные концепты и отноше­
ния образуют один или несколько связных фрагментов семантической се­
ти, которые в дальнейшем мы будем называть уникальными микрострук­
турами.
На рис. 3 представлена модель предметной области на основе как
семантических микроструктур (выделено сплошной линией) так и уни­
кальных микроструктур (выделено пунктирной линией).
Рис. 3. Модель фрагмента предметной области на основе
семантических и уникальных микроструктур
В результате получаем, что процесс систематизации информацион­
ного содержимого рассматриваемой предметной области будет включать в
13
себя процесс выделения и построения модели как на основе семантических
микроструктур, так и на основе уникальных микроструктур. При этом ме­
жду выделенными микроструктурами, как в случае с семантическими мик­
роструктурами, возникают связи тех же типов: концептуальные, ассоциа­
тивные, смешанные.
Противоположной к задаче построения подробной модели является
задача построения укрупненной модели предметной области, которая реша­
ется за счет укрупнения микроструктур (как семантических, так и уни­
кальных) в результате «стягивания» микроструктур в соответствующий
концепт, центральное понятие микроструктуры.
В работе предложено следующее определение центрального поня­
тия:
- в случае с модулем семантической сети как центральное из соот­
ветствующего стереотипа или высшее по иерархии в соответствующей
формальной микроструктуре;
- в случае с уникальными микроструктурами центральное понятие
определяет эксперт предметной области, строящий укрупненную семанти­
ческую сеть в соответствии со своими потребностями и с учетом решае­
мых задач за счет укрупнения семантической сети.
При «стягивании» микроструктур в концепт происходит поглощение
связей между концептами, которые не находят отражения в укрупненной
модели» остаются связи более высокого уровня по сравнению с поглощае­
мыми между центральными концептами (рис. 4).
Информационные услуги
Информационное общество
Информационный процесс
Информация
Рис. 4. Фрагмент у/дуупненной семантической сети
Данная семантическая сеть характеризуется наличием не только кон­
цептов, но и отношений, которые возникают между ними. Так как эти от­
ношения строго определены, то, вероятно, с расширением структурируе-
14
мого фрагмента предметной области, и между укрупненными микрострук­
турами возникнут определенные ранее семантические микроструктуры.
Процесс построения структурированной семантической модели для
описываемой предметной области можно вести в нескольких
направлениях, в частности от построения семантической сети всей пред­
метной области до рассмотрения понятий предметной области в результате
укрупнения процесса систематизации (рис. 5).
^
Семантическая сеть с выделенными укрупненными
микроструктурами
Щ
^ B M W M ^ ^ H ^ ^ i ^ M M M M l ^ ^ M i B M M ^ M ^ ^ M M ^ B ^ ^ l B M ^ ^ M ^ n M M ^ ^ M M ^
g
S й
Семантическая сеть с выделенными микроструктурами
ю
о
с
о
Семантическая сеть с простыми концептами
Рис. 5. Процесс построения структурированной
семантической модели
Создание семантических микроструктур, уникальных микрострук­
тур, применение процесса укрупнения микроструктур, все это позволяет
определить последовательность построения структурированной семанти­
ческой модели на любом уровне подробности.
При построении семантических сетей для предметной области одной
из центральных задач является задача формирования базисного набора от­
ношений, которая была решена в результате анализа существующих клас­
сификаций типов отношений в семантических сетях и анализа выделенных
в работе семантических микроструктур.
В работе был проведен сравнительный анализ существующих клас­
сификаций (наборов отношений), таких как классификация Г.С. Осипова
(А), классификация из государственного стандарта «Тезаурус информаци­
онно-поисковый одноязычный» (В), классификация Ю.И. Шемакина (С), и
классификации, выделенной в работе (D), а также была проведена провер­
ка данных классификаций на целостность и полноту.
При этом под полнотой набора отношений в работе понимается от­
носительная характеристика достаточности набора отношений для описа­
ния предметной области.
15
Сравнение классификаций типов связей в семантических сетях на
взаимную полноту было проведено исходя из соотношений имеющихся
типов связей в рассматриваемых классификациях, для чего в работе были
построены структурные модели взаимосвязи типов отношений в семанти­
ческих сетях (рис. 6).
На рис. 6 область, ограниченная сплошной линией, - общеструкту­
рированная часть, в которой наблюдается замыкание (взаимное соответст­
вие) типов связей из рассматриваемых классификаций; область, ограни­
ченная сплошной и пунктирной линией, - частично-структурированная
часть, в которой наблюдается попарное соответствие типов связей из раз­
личных классификаций; неограниченная область - неструктурированная
часть, в которой расположены типы отношений, не находящие соответст­
вия с типами отношений других классификаций.
Типы связей рассматриваемых классификаций, соответствующие ти­
пам связей классификации, предложенной в работе, помечены жирными
кружочками.
Анализ структурных моделей, а также анализ построенных графов
соответствий между концептами (типами связей) из различных классифи­
каций (попарное сравнение классификаций), показали, что существующие
классификации и классификация, предложенная в работе, не являются вза­
имно полными.
Для сравнения выделенных классификаций в работе были введены
числовые характеристики, позволяющие количественно отразить степень
полноты рассматриваемых классификаций типов отношений в семантиче­
ских сетях: частная и интегральная полнота.
Частная полнота отражает полноту одной классификации по отно­
шению к другой и вычисляется как отношение числа элементов i-той клас­
сификации, входящих в анализируемую, к общему числу отношений в ана­
лизируемой классификации.
Интегральная полнота отражает полноту одной из классификаций
по отношению к объединению всех остальных классификаций и вычисля­
ется как сумма всех элементов i-той классификации, входящих в анализи­
руемую, к сумме всех элементов остальных классификаций.
Кдвпгмфимпив с
Количесп шная стязь
Функшюк льная связь
Классафакацня А
Рис 6. Структурная модель соответствия типов отношений классификаций А, В, С.
Классвфнкация В
17
Результаты вычисления частной и интегральной полноты доказыва­
ют полноту классификации, выделенной в работе, относительно сущест­
вующих классификаций (таблица 1).
Таблица 1. Частная и интегральная полнота
Частная полнота
Классификация В
Классификация А
«,=9
Клас1
^ ^
сификашм
А
Клас­
- = 0,555^^'^^
сифи­
кация
В
Клас- ^ ^
5
-=0,333^^^^
сифи9
'^
кашмС
^ ^
3
9
Клас­
сифи­
кация
D
JP^
6
-=0,667^^
9
JP^
10
"с =11
— =0,909-'^
^
11
1
^
Классификация С
^ 5
'^
10
^ ^
9 "р>^
^
^
^
11 JP^
9
^
6
^
^
9
7
4
'::;:>^
^
^
- =
ufill^
7
- =0^5 ^.--'''''^
^
%^
J - " ^
8
1
4
^
\У^
— я> 0,661
18
5
,
-=0,444,^^
9
,/^
-=0,875.^^
5
-=0,555,^
6
^ ,1
— = 0,545,--^^
"о =8
^
- = 0,555,-^
9
Классификация D
«в =9
Инте­
граль­
ная
полнота
3
^^
-«0,5
16
-^«0,4
15
—«о,бз:
19
Где, М; - количество типов связей в /-той классификации.
Под внутренней целостностью набора отношений в работе понима­
ется качественная характеристика набора отношений, определяемая: а)
существованием некоторой метамодели, позволяющей выделить типы от­
ношений; б) соответствием набора отношений, используемых в предмет­
ной области, типам отношений, определяемых метамоделью.
Для оценки внутренней целостности была введена качественная
шкала, содержащая следующие качественные характеристики:
1. Низкая целостность (метамодель описания предметной области,
позволяющая выделить типы отношений в семантических сетях, для дан­
ной предметной области отсутствует).
2. Средняя целостность (метамодель описания предметной области,
позволяющая выделить типы отношений в семантических сетях, для дан­
ной предметной области существует, но описана неявно или неадекватно
(без учета специфики предметной области)).
3. Высокая целостность (существует метамодель описания предмет­
ной области, позволяющая выделить типы отношений в семантических се­
тях для данной предметной области).
18
Поскольку ни в одной из существующих классификаций типов от­
ношений в явном виде метамодель не задана, внешняя целостность клас­
сификаций типов отношений в семантических сетях рассматривалась от­
носительно метамодели, выделенной в работе, как примера метамодели,
отражающей архитектуру предметной области, и определялась возможно­
стью построения метамодели предметной области для рассматриваемых
классификаций и соответствием построенных метамоделей стереотипу,
выделенному в работе.
Для оценки внешней целостности была введена качественная шкала,
содержащая следующие качественные характеристики:
1. Низкая целостность (метамодель построить невозможно).
2. Средняя целостность (построение метамодели возможно, но она
не находит соответствия стереотипу, вьщеленному в работе).
3. Высокая целостность (возможно построение метамодели соответ­
ствующей стереотипу, выделенному в работе.).
Результаты проверки существующих классификаций и классифика­
ции предложенной в работе на внутреннюю и внешнюю целостность при­
ведены в таблице 2.
Таблица 2. Оценка внутренней и внешней целостности
Характеристика
Классифи­
Классифика­
Классифи­
ции В
Целостность внутренняя
средняя
Целостность внешняя
низкая
—
кации С
кации А
высокая
Классифи­
кации D
средняя
высокая
высокая
высокая
Таким образом, анализ полноты и целостности рассматриваемых
классификаций позволяет оценить классификацию, предложенную в рабо­
те, как классификацию, обладающую высокой целостностью и полнотой;
следовательно, для рассматриваемой предметной области типы отношений
из классификации, выделенной в работе, могут быть использованы в каче­
стве базисного набора типов отношений в семантических сетях, описы­
вающих сложные активные системы.
Говоря о формальных микроструктурах, которые наряду с содержа­
тельной микроструктурой являются основными для унификации процесса
построения модели предметной области, рассмотрим одну из основных
групп отношений в семантических сетях — иерархические отношения.
Выделить иерархические отношения в семантических сетях позволяет
19
формальная микроструктура, которая также позволяет выявить нарушения
в иерархии семантической сети.
В работе были выделены следующие нарушения в иерархической ор­
ганизации семантической сети:
- ситуация, когда часть класса описываемых объектов принадлежит
тому же классу, что и все объекты;
- ситуация, когда неоднозначная интерпретации концептов внутри се­
ти (класс объектов и объект класса) влечет разную интерпретацию
дуг.
Семантическая сеть, как средство структуризации контента рассмат­
риваемой предметной области, может быть определена и формально опи­
сана при помощи теории графов, которая дает простой, доступный и мощ­
ный инструмент построения моделей. В работе представлено формальное
описание основных операций, производимых над семантическими сетями,
а также операции выделения семантических микроструктур и укрупнения
микроструктур.
При построении модели предметной области в зависимости от цели
и решаемых задач следует использовать один или несколько аспектов рас­
смотрения системы.
Анализ основных аспектов описания сложных активных систем по­
казал, что технологический аспект рассмотрения системы является наибо­
лее подробным и включает в себя процессный аспект, который в свою оче­
редь включает в себя
функциональный аспект
рассмотрения системы.
Морфологический ас­
пект
представления
системы и технологиче­
ский аспект представ­
ления системы содер­
Рис. 7. Взаимосвязь аспектов представления
жат общие концепты
систем
(рис. 7).
При построении семантической модели предметной области такая
межаспектная связь позволяет рассматривать и анализировать системати­
зируемый контент в различных плоскостях, каждая из которых соответст­
вует одному из аспектов описания системы.
20
В третьей главе выделены задачи учебно-методического характера,
решение которых может быть основано на использовании структуриро­
ванных семантических моделей, и предложены методы их решения на этой
основе.
С целью автоматизации процесса решения задач учебнометодического характера проанализированы существующие средства ав­
томатизации процесса систематизации контента, сформированы требова­
ния, предъявляемые к ним, и даны рекомендации по выбору программных
средств, реализующих основные этапы этого процесса.
Процесс систематизации контента на основе структурированной се­
мантической сети требует наличия программных средств визуализации
данных.
Под визуализацией данных в работе понимается задача наглядного
представления структурированных данных.
В работе проведен анализ существующих средств визуализации дан­
ных, а так же анализ задач, решаемых за счет визуализации семантической
сети, что позволило выделить и обосновать требования, предъявляемые к
подобным средствам, такие как возможность настройки на произвольную
предметную область, простота в использовании, гибкость в настройке,
удобство и наглядность интерфейса, полнота инструментов, универсаль­
ность отображения, наличие средств анализа.
Проведенный в работе анализ наиболее распространенных средств
визуализации данных (пакет прикладных программ Microsoft Office,
Microsoft Office Visio 2003, LightOntos Business Edition, Decision Explorer,
Невод, RCO Semantic Network, RCO TopNet Win) показал, что ни одно про­
граммное средство визуализации данных не удовлетворяет всему набору
предъявляемых к ним требований, а, следовательно, при построении моде­
ли предметной области требуется интегрированное использование не­
скольких программных продуктов (таблица 3).
Процесс решения задач возникающих при работе со структуриро­
ванной семантической моделью требует наличия программных средств
проектирования данных.
Под проектированием данных в работе понимается задача автомати­
зированного структурирования данных и задача автоматизированного ре­
шения задач учебно-методического характера.
21
В работе проведен анализ существующих средств проектирования
данных, а так же анализ задач учебно-методического характера, решаемых
при помощи средств проектирования данных, что позволило выделить и
обосновать требования, предъявляемые к подобным средствам: возмож­
ность автоматического структурирования данных, полнота инструментов
визуализации, возможность автоматического укрупнения фрагментов сети,
простота и удобство интерфейса, наличие дидактической базы знаний, а
также средств генерации вопросов и средств статистического анализа.
Проведенный в работе анализ наиболее распространенных средств
проектирования данных (системы ОЛИМП, EXTRA, НЕВОД, программ­
ные продукты Ontos Miner и Macromedia AuthorWare 6.0.) показал, что ни
одно программное средство проектирования данных не удовлетворяет
всему набору предъявляемых к ним требований (Таблица 4).
Таблица 3. Требования к программным средствам визуализации данных
"^~-^^^^
Средства визуализации
Требования
^^^^^
Возможность настройки на произволь­
ную предметную область
Простота в использовании
Гибкость в настройке
Удобство и наглядность интерфейса
Наличие (полнота) инструментов визуа­
лизации
Наличие средств анализа
Универсальность отображения
Micro­
soft
Office
Micro­
soft
Office
Visio
2003
LightOntos
BE
Deci­
sion
Explorer
Невод
+
+
+
+
+
+
+
+
+
+
+
+
+
-
-
-
-
+
+
-
RCO
Semantic
Network,
RCO
TopNet
Win
+
-
+
-
■
+
+
+
+
+
+
+
+
+
Таблица. 4. Требования к программным средствам проектирования данных
'——.__^
Средства
—-___^проектирования
Требования
^~^~^-.^
Возможность автоматического структури­
рования данных
Наличие полнота инструментов визуали­
зации
Возможность автоматического укрупне­
ния фрагментов сети;
Простота интерфейса
Наличие дида1сгической базы знаний
Наличие средств создания программных
продуктов на естественном языке
Наличие средств генерации вопросов
Наличие средств статистического анализа
EXTRA
НЕ­
ВОД
Ontos
Miner
Macromedia
AuthorWare
6.0.
-
+
+
+
-
-
+
-
+
-
-
+
-
+
-
+
+
+
-
+
.
-
+
+
+
+
+
+
.
-
.
-
.
-
+
+
олимпю
КС
■
22
Следует заметить, что все программные продукты проектирования
данных делятся на программные продукты, осуществляющие автоматиче­
ское структурирование данных, и на продукты, решающие задачи учебнометодического характера.
Следовательно, при построении модели предметной области требу­
ется интегрированное использование нескольких программных продуктов
визуализации и проектирования данных.
Рассмотренные средства визуализации и проектирования данных по­
зволяют автоматизировать процесс решения задач учебно-методического
характера, возникающих в предметной области.
К таким задачам можно отнести:
- построение теоретического курса (отбор содержания);
- представление теоретического материала (последовательность из­
ложения);
- создание обучающе-тестирующего комплекса.
В работе предложены основные пути и методы решения данных за­
дач, основанные на выделенной в работе последовательности построения
структурированной семантической модели.
Наиболее подробно в работе рассмотрена задача построения обу­
чающе-тестирующего комплекса и предложены механизмы её решения.
В отличие от стандартного подхода, предполагающего вьщеление в
комплексе обучающих средств блока требований, предъявляемых к знани­
ям обучаемого, теоретического и тестирующего блоков, в работе предлага­
ется введение нового обучающе-тестирующего блока, построенного на ос­
нове семантических микроструктур в соответствии с механизмом последо­
вательности систематизации контента.
Обучающе-тестирующий блок предназначен для организации само­
обучения слушателя по изучаемой теме на основе тестирующих вопросов
и самоконтроля знаний по выбранной теме, разделу, курсу в целом, с воз­
можностью изучения только тех теоретических материалов, которые вы­
зывают затруднения у обучаемого в процессе ответов на поставленные в
тесте вопросы.
Разработка тестирующих вопросов основывается на семантических
микроструктурах, выделенных в работе.
Процесс обучения на основе тестирующих вопросов ведется в не­
скольких плоскостях: плоскость работы с внешними связями семантиче-
23
ских микроструктур и плоскость работы с внутренними связями семанти­
ческих микроструктур (рис.8).
1.1. Вопросы на опосредованные связи стерео­
типа Ш1И на классы центральных пошгтий
1.0. Вопрос на проверку п о ш ■
мания внешних связей
1.1.1 Вопросы на непосредст­
венные связи стереотипа
I Вопрос на стереотип в целом
Работа
2 Вопрос на стереотип в целом
с внутрет
-*«
1.1.1.1. Вопросы на определение
понятий
ими связями
Теоретический
материал
Работа с внутренними связями
Рис. 8. Структура методики постановки вопросов на основе
микросемантических структур
Тестирование на понимание внутренних связей семантической мик­
роструктуры ведется на следующих уровнях:
1.1. Вопросы на связи стереотипа, связи опосредованные.
1.1.1. Вопросы на связи стереотипа, связи непосредственные.
1.1.1.1. Вопросы на определение понятий.
При правильном ответе на вопрос (вопросы) каждого из уровней
осуществляется переход на более высокий уровень вопроса, в противном
случае движение идет в обратном направлении, к большему уровню под­
робности рассматриваемого стереотипа. При этом незнание ответа на во­
просы из самого низшего по уровню иерархии вопроса приводит слушате­
ля к теоретическому материалу, позволяющему восстановить знания по
тестируемой теме. Определение границ теоретических блоков, которые
предлагается изучить обучаемому самостоятельно, в соответствии с вопро-
24
сами, которые вызвали затруднения при тестировании, осуществляется
преподавателем - разработчиком изучаемого курса и обучающетестирующего комплекса.
Такая методика самостоятельного обучения позволяет обучаемому
рационально использовать время обучения, так как предполагает изучение
только тех блоков теоретического материала, знания по которым не сфор­
мированы у обучаемого.
В заключении подведены итоги выполненных исследований и пере­
числены основные научные и практические результаты, полученные авто­
ром:
1. Сформулирована обобщенная задача систематизации контента,
сущностью которой является переход от вербальной формы представления
информации к структурной форме на основе построения её архитектуры,
учитывающей многоаспектность и иерархичность описания сложных сис­
тем.
Сформированы требования к аппарату моделирования контента тек­
стов научно теоретического характера в учебной деятельности, отвечаю­
щие свойствам полноты, целостности, доступности, простоты и др.
2. Выделены устойчивые семантические микроструктуры, являю­
щиеся инвариантами при описании сложных активных систем и порож­
дающие новые наборы типов отнощений в семантических сетях.
3. Построена структурная модель соответствия типов отношений в
семантических сетях для предложенного и существующих наборов типов
отношений, позволяющая дать качественную и количественную характе­
ристики их целостности и полноты.
4. Построена структурированная семантическая модель контента
раздела учебного пособия по информатике.
5. Выделены задачи учебно-методического характера, решение ко­
торых может быть основано на использовании структурированных семан­
тических моделей, предложены методы их решения на этой основе.
6. Предложен метод построения обучающе-тестирующего комплек­
са, основанный на использовании структурированной семантической мо­
дели; программная реализация комплекса выполнена в объеме раздела
учебного пособия по информатике.
25
7. Сформированы требования, предъявляемые к инструментальным
средствам автоматизации процесса систематизации контента, и даны реко­
мендации по выбору программных средств, реализующих основные этапы
этого процесса.
Осиовное содержание работы отражено в публикациях:
1. Ярных Ю.А. Структурирование информационного содержимого
некоторых учебных дисциплин в процессе обучения государственных
служащих // Государственность и государственная служба России: пути
развития: Материалы совместной междисциплинарной аспирантской кон­
ференции РАГС-СЗАГС. Выпуск 3 / Под общ. Ред. В.К. Егорова, В.А. Шамова, В.М. Герасимова. - СПб.: Изд-во СЗАГС, 2003. С. 529-530.
2. Ярных Ю.А. Системный подход к структуризации контента //
Идеи А.А. Богданова и современность: Материалы третьей межвузовской
научно-практической конференции молодых ученых, посвященной 130летию со дня рождения А.А. Богданова. - М.: Изд-во РАГС, 2004. С.252257.
3. Данчул А.Н., Ярных Ю.А. Использование семантических микро­
структур для построения моделей предметной области // Информационные
технологии в управлении организационными системами: Сб. статей. - М.:
Изд-во РАГС, 2004. С.43-55.
4. Ярных Ю.А. Подходы к структуризации информационного со­
держимого некоторых учебных дисциплин в процессе обучения государст­
венных служащих // Регион в условиях перехода к устойчивой модели раз­
вития современного Российского общества: Материалы межрегиональной
научно-практической конференции. Часть 1. - Брянск: изд-во Б Ф ОРАГС,
2004. С. 233-242.
5. Ярных Ю.А, Формализация и анализ понятийного аппарата соци­
альных теорий // Научное наследие В.Г. Афанасьева и современные про­
блемы государственного управления и государственной службы: Материа­
лы четвертой межвузовской научно-практической конференции молодых
ученых, посвященной творчеству В.Г. Афанасьева. - М,: Изд-во РАГС,
2005.С.199-212.
26
Автореферат
Диссертация на соискание ученой степени кандидата наук
Ярных Юлия Анатольевна
Структурированная семантическая модель контента текстов научнотеоретического характера
Научный руководитель
Данчул Александр Николаевич, доктор технических наук, профессор
Изготовление оригинал-макета
Ярных Юлия Анатольевна
Подписано в печать^/*, ^В.
2005 г. Т и р а ж ^ ^ экз.
Усл. П.Л. / ^ У
Российская академия государственной службы
при Президенте Российской Федерации
Отпечатано ОПМТ РАГС. Заказ ШЯЗ/^
119606, Москва, пр-т Вернадского, 84
Р 1 974 1
РНБ Русский фонд
2006-4
21524
Документ
Категория
Без категории
Просмотров
0
Размер файла
1 052 Кб
Теги
bd000101943
1/--страниц
Пожаловаться на содержимое документа