close

Вход

Забыли?

вход по аккаунту

?

Методы и алгоритмы интеллектуализации проектирования технических систем посредством тематической сегментации текстов

код для вставкиСкачать
На правах рукописи
Добренко Наталья Викторовна
МЕТОДЫ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛИЗАЦИИ
ПРОЕКТИРОВАНИЯ ТЕХНИЧЕСКИХ СИСТЕМ
ПОСРЕДСТВОМ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ ТЕКСТОВ
05.13.06 - Автоматизация и управление технологическими процессами
и производствами (образование)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург - 2018
2
Работа выполнена в Санкт-Петербургском национальном исследовательском
университете информационных технологий, механики и оптики
Научный руководитель
кандидат технических наук,
старший научный сотрудник,
Гусарова Наталия Федоровна
Официальные оппоненты
Водяхо Александр Иванович
доктор технических наук, профессор
профессор кафедры вычислительной техники
СПбГЭТУ «ЛЭТИ» им. В.И. Ульянова (Ленина)
Рыбка Роман Борисович
кандидат технических наук
начальник группы нейроморфных алгоритмов
НИЦ "Курчатовский институт"
Ведущая организация
Санкт-Петербургский институт информатики
и автоматизации Российской академии наук
Защита состоится «26» декабря 2018 года в 11.30 часов на заседании диссер­
тационного совета Д 212.227.06 при Санкт-Петербургском национальном иссле­
довательском университете информационных технологий, механики и оптики по
адресу: 197101, Санкт-Петербург, Кронверкский пр., 49, ауд. 431.
С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского
национального исследовательского университета информационных технологий,
механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр., 49 и на
сайте http://fppo.ifmo.ru/7page 1=16&page2=52&page_d= 1&page_d2=l29656
Автореферат разослан «19» ноября 2018 года.
Ученый секретарь диссертационного совета Д 212.227.06у
канд. физ.-мат. наук, доцент
Холодова С. Е.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В современном профессиональном образовании в качестве
средств обучения широко используются компьютерные тренажеры – программнотехнические системы, позволяющие сформировать у будущих специалистов качества, определяемые их профессиональной деятельностью. В условиях быстро меняющихся требований к квалификации будущего специалиста педагог должен
иметь возможность совместно с проектировщиком гибко и оперативно проектировать и модифицировать такие системы. Поэтому интеллектуализация их проектирования является важной задачей в рамках формирования АСУ образовательного процесса.
Однако в общей структуре процесса проектирования технических систем
имеются процедуры, интеллектуализации которых до сих пор уделялось недостаточное внимание, и среди них – поиск и анализ научно-технической информации. Как показывает практика, эта проблема особенно важна для таких этапов проектирования, как разработка технического задания и НИР, когда требуется оперативно освоить максимально широкий спектр научной и технической
информации, релевантной рассматриваемой задаче. При этом наиболее актуальная информация содержится в оригинальных текстах – в научных статьях и
монографиях, а также на тематических форумах Интернета, часто написанных
на иностранном языке. Исследования показывают, что структура научных текстов далеко не всегда может быть представлена типовыми атрибутами информационного поиска, такими как оглавление, метатеги или набор ключевых
слов.
Интеллектуализация проектирования тренажеров как сложных программмно-технических систем может быть связана с тем, чтобы предоставить педагогу и проектировщику возможность анализировать не весь потенциально интересный текст, а только его фрагменты, содержащие релевантную информацию,
профессиональную значимую для подготовки будущих специалистов. Для их
выделения необходимо решить задачу тематической сегментации (ТС) текстов –
автоматического членения документа на последовательность сегментов с однородной семантикой (топиков), учитывающих внутренние особенности текста и
целей запроса. ТС может обеспечить исходную структуру текста из топиков в
качестве опорной, чтобы он смог построить свою интерпретацию с минимальным затратами ресурсов – выбрать для чтения то, что необходимо, или убрать то,
что заведомо не требуется.
Использование ТС текстов при проектировании компьютерных тренажеров позволит сократить время их создания и улучшить качество профессиональной подготовки будущих специалистов. Поэтому разработка и исследование методов и алгоритмов интеллектуализации проектирования таких сложных
программно-технических систем, как компьютерные тренажеры, посредством
ТС является актуальной и своевременной задачей.
Степень научной разработанности проблемы. Вопросы интеллектуализации
проектирования технических систем представлены в работах таких отечественных и зарубежных авторов, как И.О. Жаринов, А.Г. Коробейников, В.М. Курей-
4
чик, И.П. Норенков, И.В. Романова, Н.Г. Ярушкина, P.J.W. ten Hagen, T.
Tomiyama, а применительно к образованию – в работах В.Н. Васильева и Л.С.
Лисицыной. Однако, как показал анализ литературных источников, в общем
комплексе задач проектирования технических систем недостаточное внимание
уделяется интеллектуализации поиска и анализа научно-технической информации. Эта задача практически не поддерживается существующими средствами
САПР. Вопросы автоматической обработки текстов на естественном языке широко представлены в литературе, причем в качестве базового подхода рассматривается машинное обучение. Здесь нужно отметить работы таких отечественных авторов, как Ю.И. Журавлев, И.А. Бессмертный, Е.И. Большакова, К.В. Воронцов,. Н.Н. Леонтьева, Н.В. Лукашевич, С.И. Николенко. Не менее широко
этот круг вопросов рассматривают и зарубежные авторы, в том числе М. Hearst,
G. Ingersoll, D. Jurafsky, Ch. Manning, G. Marchionini, J. Martin, R. Mitkov, T.
Morton, H. Schutze. В работах Воронцова К.В. и Журавлева Ю.И. раскрыты
преимущества ансамблирования отдельных алгоритмов машинного обучения
для повышения эффективности классификации.
Однако большинство исследований, посвященных ТС протяженных текстов, направлено на тексты из социальных сетей и новостных ресурсов, что не
позволяет учесть специфику научных текстов. При обработке текстов Интернет-форумов преобладают такие задачи, как сентимент-анализ, выделение фактографической информации, анализ активности пользователей, в то время как
задача выделения профессионально значимой информации из текстов Интернет-форумов в известных работах не рассматривается.
Цели и задачи исследования. Цель диссертационной работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических
систем посредством тематической сегментации научных текстов. В соответствии с поставленной целью необходимо решить следующие задачи:
1. Провести проблемно-ориентированное исследование научных текстов, выделить специфические свойства задачи тематической сегментации научных текстов как объектов машинного обучения.
2. Разработать методику отбора и настройки алгоритмов машинного обучения
для тематической сегментации научных текстов.
3. Разработать метод композиции (ансамблирования) алгоритмов тематиче-ской
сегментации и средство его программной поддержки.
Методы исследования. В диссертационной работе применяются различные
методы и алгоритмы машинного обучения. При разработке программного
обеспечения использованы методы объектно-ориентированного программирования.
Достоверность работы. Теоретические и экспериментальные исследования,
проведенные в работе, являются обоснованными и достоверными, что подтверждается представлением основных результатов на российских и международных
конферениях, а также сравнительным анализом полученных результатов с исследованиями в этой области.
5
Научная новизна работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических систем посредством тематической
сегментации текстов. При этом:
1. Разработана методика отбора алгоритмов машинного обучения и настройки
их параметров для тематической сегментации научных текстов, отличающаяся тем, что она является единой для текстов разных жанров и позволяет
учесть внутреннюю структуру текста и цель запроса.
2. Разработан ансамблевый метод структуризации научных текстов, основанный на алгоритмах тематической сегментации текстов, и средство его программной поддержки. Метод позволяет реализовать одновременную демонстрацию нескольких вариантов тематической сегментации.
Теоретическая значимость работы обусловлена совершенствованием метода
и алгоритмов тематической сегментации научных текстов.
Практическая значимость результатов диссертации. Практическая значимость
работы состоит в разработанной системе визуализации ТС протяженных текстов,
применяемой для удобства понимания семантической структуры текста в целом и
его фрагментации, при использовании различных алгоритмов сегментации и их
композиций. Специфику сервиса реализуют следующие компоненты: утилита для
визуализации тематической структуры связных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660417 от 21.09.2017); утилита для визуализации тематической структуры несегментированных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017
660443 от 21.09.2017); модуль обработки пользовательских запросов на анализ
текста (Свидетельство о государственной регистрации программы для ЭВМ №
2017 660432 от 21.09.2017).
Разработанная система демонстрирует структуру текста, что позволяет
педагогу и проектировщику при проектировании компьютерных тренажеров
выделять и анализировать не весь текст целиком, а только фрагменты, соответствующие текущим информационным потребностям. Архитектура системы для
тематической сегментации научных текстов является модульной, что позволяет
добавлять новые алгоритмы машинного обучения и представлять одновременно несколько результатов сегментации (в виде линеек) для одного текста.
Соответствие паспорту специальности. Работа выполнена в соответствии с
паспортом специальности ВАК РФ 05.13.06 «Автоматизация и управление технологическими процессами и производствами (по отраслям)», п. 15, 17.
На защиту выносятся:
1. Методика отбора алгоритмов машинного обучения и настройки их параметров для интеллектуализации проектирования технических систем посредством тематической сегментации текстов.
2. Ансамблевый метод представления результатов тематической сегментации
текстов для интеллектуализации проектирования технических систем и
средство его программной поддержки.
Степень достоверности и апробация результатов исследования. Основные
положения диссертационной работы докладывались и обсуждались на:
XVI Всероссийской научной конференции «Электронные библиотеки: перспек-
6
тивные методы и технологии, электронные коллекции» (С.-Петербург, 2014);
International Conference on Knowledge Engineering and the Semantic Web (Казань,
2014); 20 International Conference «Dialogue» (Прага, 2014); XVIII объединенной конференции «Интернет и современное общество. Компьютерная лингвистика и вычислительные онтологии» (С.-Петербург, 2015); IV и V Всероссийских конгрессах молодых ученых (С.-Петербург, 2015, 2016); International
Conference on Knowledge Engineering and the Semantic Web (Москва, 2015);
XLV, XLVI, XLVII научных и учебно-методических конференциях Университета ИТМО (С.-Петербург, 2016, 2017, 2018); 21st International Conference on
Text, Speech and Dialogue (Брно, 2018). По материалам диссертационной работы опубликованы десять научных работ, в том числе пять в рецензируемых
журналах, включенных в перечень ВАК, и пять – в рецензируемых журналах,
включенных в базу данных Scopus, зарегистрировано девять результатов интеллектуальной деятельности.
Распределение работ между соавторами публикаций: Добренко Н.В. принимала участие на всех этапах работы; Гусарова Н.Ф. - постановка задач исследований; Боярский К.К., Станкевич А.С., Шалыто А.А. – общая координация работ;
Артемова Г.О., Бурая К.И., Трофимов В.А., Грозин В.А. - проблемноориентированное исследование; Нигматуллин Н., Ведерников Н., Васильев А. написание кода; Авдеева Н., Макаренко А., Ватьян А., Нин Т., Виноградов П.Д. –
тестирование и отладка; Каневский Е., Гузевич Д. - обзор литературы. Доля личного вклада соискателя в статьях, написанных в соавторстве, не меньше, чем у
каждого из соавторов.
Работа выполнена при финансовой поддержке Министерства образования и
науки РФ, Соглашение № 14.578.21.0196 от 03.10.2016 (проект
RFMEFI57816X0196). Результаты работы использованы в учебном процессе и
научно-исследовательских работах Университета ИТМО (акты внедрения в
НИР № 615870 и НИР № 617042), при разработке программного обеспечения в
АО «Навигатор» (акт использования от 11.10.2018) и для поддержки учебного
процесса в Центре детского юношеского технического творчества Кировского
р-на СПб (акт использования от 27.07.2018).
Структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературных источников.
СОДЕРЖАНИЕ ДИССЕРТАЦИОННОЙ РАБОТЫ
Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи, определены научная и практическая значимость результатов, охарактеризованы основные разделы работы.
В первой главе проведено проблемно-ориентированное исследование
научных текстов.
Как показывает практика, процесс сбора и освоения необходимой научнотехнической информации по проекту требует от проектировщика огромных
трудозатрат. Например, по оценкам проектировщиков систем ближней и дальней радионавигации, сбор и анализ научно-технической информации занимает
7
у них от 20 до 30% от общего времени разработки, а в некоторых случаях и
больше.
Современные САПР имеют развитые информационно-поисковые системы. На этапе разработки технического задания с их помощью осуществляется
поиск и выбор необходимой научно-технической информации (о прототипах,
патентных данных и т.д.) из имеющейся базы данных. Однако в случае проблемного поиска, например, на этапе НИР, информации, хранящейся в локальных базах САПР, уже недостаточно, и необходимо проводить информационный
поиск более широко, на базе ресурсов Интернета.
Как показал анализ, в процессе проектирования технических систем
наибольшую информационную нагрузку несут такие тексты, как монографии и
оригинальные научные статьи (научная проза), а также профессиональные интернет-форумы. В диссертации для их обозначения используется объединяющий термин «научные тексты» (academic texts). Интеллектуализация поиска в
таких текстах должна быть связана с тем, чтобы помочь проектировщику более
эффективно формировать собственные профессиональные знания, максимально
соответствующие (релевантные) конкретной решаемой задаче проектирования
(в рамках компетентностного подхода используется термин «профессионально
значимая информация» (ПЗИ)). Перспективным путем сокращения ресурсных
затрат на проблемный поиск является тематическая сегментация документов,
получаемых в ответ на поисковый запрос. При этом она должна быть привязана
к внутренней, семантической структуре документа.
Построена модель процесса тематической сегментации (рисунок 1). Проблемно-ориентированный анализ научных текстов как источника профессионально-значимой информации показал, что для их тематической сегментации
перспективны методы машинного обучения, однако выбор наиболее эффективного метода или их композиции составляет проблему.
Рисунок 1. Модель процесса тематической сегментации
Рассмотрена общая постановка задачи машинного обучения и ее специфика применительно к задаче тематической сегментации научных текстов. Заданы множества объектов X и ответов Y. Сформирована обучающая выборка
Xℓ = (, yi)li=1 в виде конечного подмножества пар yi = y*(xi), i = 1, . . . , ℓ. Задан
набор признаков f1, …, fn , и для каждого объекта выборки задано его признаковое описание {1(), . . . , ()}. Рассматривается задача классификации на М
классов, Y = {1, ... , M}. Требуется по обучающей выборке построить алгоритм
a: X → Y, а ∈А.
8
Специфика задачи машинного обучения задается содержательными характеристиками множеств X, Y и А, а также ограничениями на их формирование.
В качестве множества X выступает множество анализируемых текстов, а в качестве
Y – множество классов, к одному из которых должен быть отнесен
анализируемый терминальный элемент или группа элементов. При этом А –
множество алгоритмов машинного обучения, применимых для задачи ТС научных текстов.
Задача тематической сегментации научных текстов сфомирована в виде
кортежей признаков и ограничений, причем каждый компонент кортежа
определен в виде лингвистического терма:
X = <тип(жанр), модель текста, признаки для машинного обучения,
терминальный элемент> | <объем обучающей выборки>, где
(1)
тип (жанр) = <монография, оригинальная статья, интернет-форум>
модель текста = < статистическая (bag_of_words, n-gram), лингвистическая (графовая), структурная (семантические_компоненты_текста)>;
признаки для машинного обучения = <язык оригинала, текстовые
признаки; структура текста>;
терминальный элемент = <слово, предложение, абзац,
часть_текста>
объем обучающей выборки =<малый, большой>;
Y = < шкала_оценки_эффективности, режим_машинного обучения > |
<контекст_запроса>, где
(2)
шкала_оценки_эффективности = <бинарная, многозначная, непрерывная>;
режим машинного обучения = <классификация / регрессия>;
контекст запроса =<широкий, узкий>;
А = <модель_алгоритма, параметры_алгоритма, метрика релевантности,
композиция алгоритмов>, где
(3)
A = {g(x, θ) | θ ∈ Θ}, g : X × Θ → Y – фиксированная функция,
Θ – множество допустимых значений параметра θ;
композиция_алгоритмов = <алгоритмическая, визуальная>.
Проведено сравнение постановок задачи ТС научных текстов и смежных
задач ТС, представленных в литературе и практике. Путем применения системно-аналитического подхода задача ТС представлена в обобщенном виде:
задача ТС = <формализация постановки задачи; формализация описания текста; характеристики выборки>,
причем каждый компонент кортежа удалось задать в идентичной шкале – в виде терма <малый, средний, большой> = М,С,Б>.
Некоторые результаты сравнения представлены ниже:
1. Задача ТС профессиональных интернет-форумов в сравнении с задачей сентимент-анализа форумов:
задача сентимент-анализа = <Б, С, Б>;
задача ТС профессиональных интернет-форумов = <С, С, Б>.
2. Задача ТС научной прозы в сравнении с задачей ТС новостного потока:
задача ТС новостного потока = <Б, С, Б>;
задача ТС научной прозы = <М, М, М>.
9
Таким образом, в первой главе выделены специфические свойства задачи
тематической сегментации научных текстов как объектов машинного обучения,
построена проблемно-ориентированная модель тематической сегментации для
научных текстов.
Во второй главе задача ТС в постановке (1) – (3) конкретизируется для
двух типов научных текстов – профессиональных интернет-форумов и научной
прозы. Для этого были проведены две группы исследований.
Первая группа посвящена исследованию ТС профессиональных интернетфорумов. Задачей здесь является суммаризация форума – выделение постов,
содержащих профессионально-значимую информацию. Для обучения были
отобраны тематические интернет-форумы на разных языках (русский, английский, немецкий) объемом 600–3000 постов каждый. Использованы различные
варианты предобработки текста, в том числе лемматизация и удаление стопслов. В качестве терминальной единицы членения интернет-форумов выбран
пост.
Показано, что формирование запроса с целью эффективного выделения
профессионально-значимой информации из интернет-форумов представляет самостоятельную проблему. Предложено моделировать информационные потребности проектировщика в виде проблемно-ориентированных запросов разного
типа («широкий» / «узкий»), а для оценки степени удовлетворения этих запросов
(полезности) использовать шкалирование контекстов оценки. Такое деление позволяет с достаточной точностью трактовать получаемые оценки либо как категориальные (по шести категориям), либо как непрерывные (на интервале [0, 5]),
что обеспечивает их адаптивность к используемому режиму машинного обучения (классификация или регрессия соответственно) и в то же время вполне соответствует реальным потребностям проектировщиков при поиске профессионально-значимой информации.
Отбор признаков производился в соответствии со спецификой постановки
задачи – требованием максимально возможной языковой независимости характеристик. Наиболее важные признаки представлены в таблице 6 диссертации.
Для оценки качества моделей использована кумулятивные метрики NCG
(Normalized Cumulative Gain) и NDCG (Normalized Discounted Cumulative Gain),
основанные на сравнении позиции текущего поста с его позицией при идеальной сортировке:
N
∑Utility
i
N
1
Utilityi
, NDCG =
.
NCG =
N
N ∑
CGmax
CGmax i =1 log 2 (i )
Здесь Utilityi – полезность i-го поста в отсортированной выборке, N – чис-
i =1
ло извлеченных постов; CGmax – сумма N наибольших значений полезности из
всей выборки. Для NDCG суммирование производится по дисконтированным
(деленным на log2i) значениям полезности.
Проведен комплекс исследований по выявлению зависимости между
компонентами оценочного множества Y и множества алгоритмов А.
N
10
На рисунке 2 представлены кривые NCG для 57 алгоритмов машинного
обучения из пакета Weka, из которых отобраны семь алгоритмов, показавшие
наилучшую эффективность для выделения профессионально-значимой информации из интернет-форумов (таблица 8 диссертации). Эти алгоритмы обеспечивают достаточно высокий уровень NCG. При этом явно доминирующий алгоритм не выделяется. Кроме того, среди семи отобранных алгоритмов наблюдается сравнительно высокая согласованность (коэффициент ранговой корреляции Кендалла составил 0,73).
Рисунок 2. Отбор алгоритмов машинного обучения
Исследованы зависимости эффективности тематической сегментации от
режима машинного обучения и контекста запроса (рисунок 3, а–г).
а)
б)
в)
г)
Рисунок 3. Зависимости эффективности тематической сегментации от:
режима машинного обучения (а , б); контекста запроса (в, г); а, в – «широкий» запрос,
б, г – «узкий» запрос
На рисунке 3, а, б, показано, что независимо от контекста запроса, эффективность сегментации в режиме регрессии (кривая 2) выше, чем в режиме классификации (кривая 1). На рисунке 3, в, г, показано, что для «широкого» запроса
линейные алгоритмы (линейная регрессия – кривая 2, линейное размещение
Дирихле – Latent Dirichlet allocation (LDA) – кривая 3) проявляют себя лучше,
чем нелинейные (градиентный бустинг – кривая 1), а для «узкого» запроса зависимость обратная и выражена слабее. При этом алгоритм LDA, широко применяемый в задачах обработки естественного языка, проигрывает другим алгоритмам машинного обучения в случае «узкого» запроса (рисунок 3, г, кривая 3).
11
Исследована зависимость эффективности тематической сегментации от
языка форума (рисунок 4). Показано, что отобранные и настроенные алгоритмы
машинного обучения являются языково-независимыми – робастными по отношению к языку форума (1 – английский язык, 2 – русский язык, 3 – немецкий
язык).
Рисунок 4. Зависимость эффективности тематической сегментации от языка форума
Исследована относительная значимость признаков машинного обучения в
тематической сегментации интернет-форумов (таблица 13 диссертации). Показано, что при «широком» запросе наибольшей значимостью обладают признаки, связанные с ключевыми словами и эмоциональной окраской поста, а при
«узком» – признаки, характеризующие структуру связности форума (например,
длина поста). При этом эффективность тематической форумов при «узком» запросе практически не зависит от способа задания ключевых слов, в то время
как при «широком» запросе такая зависимость существенна (рисунок 8 диссертации).
Рисунок 5. Сравнительная оценка эффективности тематической сегментации форумов
На рисунке 5 представлены результаты экспериментальной оценки эффективности разработанной методики отбора и настройки алгоритмов машинного
обучения (линейная регрессия – кривая 3, градиентный бустинг – кривая 4) по
сравнению с широко применяемыми методиками (бейзлайнами) (языковонезависимый бейзлайн – кривая 1, промышленно применяемый бейзлайн – кривая 2). Показано, что разработанная методика обеспечивает лучшее качество
суммаризации по сравнению с бейзлайнами.
Вторая группа исследований посвящена рассмотрению ТС научной прозы. Здесь задача состояла в разделении текста на топики, соответствующие
внутренней структуре текста, для последующей оценки их релевантности с
12
точки зрения соответствия ПЗИ. При этом были отобраны тексты на трех языках (русском, английском и французском), относящиеся к жанру научной прозы, предметом которых являются аспекты технологий разных предметных областей. Объем выборки составил 15 текстов общим объемом 146 000 слов – показано, что выборка является репрезентативной с ошибкой 5%. В набор данных
включен профессиональный перевод трех текстов на русский язык, а также искусственно созданный текст, состоящий из конкатенации медицинских заключений.
В качестве эталонной в работе использована экспертная разметка текстов.
В исследовании приняли участие 16 экспертов с высшим профессиональным образованием (таблица 20 диссертации), коэффициент согласованности мнений
экспертов составил 0.68. Показано, что позиции изменения темы в тексте в подавляющем большистве случаев коррелируют с границами абзацев, поэтому в
качестве терминальной единицы для ТС выбран абзац.
В качестве меры сходства между сравниваемыми фрагментами текста использована косинусная мера, широко применяемая в задачах тематической сегментации. Для оценки качества ТС научной прозы использованы традиционные
метрики – полнота R, точность P и сбалансированная F-мера.
По отдельности и в комбинации использованы различные варианты предобработки текста, в том числе лемматизация, удаление стоп-слов, удаление
наиболее часто встречающихся слов, объединение коротких абзацев и отбор
терминов. Для каждой тематики текста определен и реализован оптимизирующий набор механизмов предобработки, подробно описанный в диссертации.
Проведен комплекс исследований по выявлению зависимости между компонентами множеств X, Y и А для ТС научной прозы.
Выделены алгоритмы, показавшие наилучшую по критерию F-меры эффективность для тематической сегментации научной прозы, каждый из которых соответствует собстенной концепции топика: (1) алгоритм TextTiling; (2) алгоритм латентного семантического анализа (LSA); (3) алгоритм Additive Regularization for
Topic Modeling (ARTM) в комбинации с TextTiling. Эти алгоритмы демонстрируют
достаточно близкие и высокие значения F-меры независимо от тематики и языка
текста (таблица).
Таблица - Значения F-меры для разных признаков
№
Признак
1
Весь датасет
2
Тексты технической тематики
3
Тексты медицинской тематики
4
Тексты ИТ- тематики
5
Тексты на английском языке
6
Тексты на французском языке
7
Тексты на русском языке
F-мера
0,60 ± 0,09
0,63 ± 0,10
0,59 ± 0,05
0,54 ± 0,08
0,59 ± 0,05
0,70 ± 0,03
0,60 ± 0,05
Исследованы зависимости эффективности тематической сегментации от
уровня отсечки z. Для алгоритма TextTiling оптимальное значение z = 0,1–0, 15, а
для алгоритма LSA оптимальные комбинаций значений z и количества сингулярных чисел представлено на рисунке 11 диссертации.
13
На рисунках 6–8 представлены примеры тематической сегментации различных текстов (подробное описание текстов – в таблицах 16, 17 диссертации).
На рисунках по горизонтали обозначены номера абзацев, в строках – различные
виды сегментации. Для всех строк указаны границы топиков, в последней строке
оттенками показана принадлежность абзацев к одной из тем, сформированных
алгоритмом ARTM + TextTiling. Рисунки показывают, что каждый алгоритм
принципиально выполняет тематическую сегментацию по-разному, выделяя ту
или иную характерную особенность структурной организации текста. Например,
алгоритм TextTiling характеризуется ошибками сдвига границ, а алгоритм
ARTM+ TextTiling – включениями в текущем сегменте из других сегментов.
Рисунок 6. Тематическая сегментация текста Т1 (французский язык)
Рисунок 7. Тематическая сегментация текста Т6 (английский язык)
Рисунок 8. Тематическая сегментация текста Т7 (перевод текста Т6 на русский язык)
При сравнении ТС текстов на нативных языках (рисунок 7) и их профессиональных переводов (рисунок 8) выявлено, что число и общая структура топиков сохраняются, однако при переводе появляется дополнительный шум, который дает некоторое смещение позиций сегментации для каждого алгоритма.
Таким образом, во второй главе на основе комплекса исследований разработана методика отбора и настройки алгоритмов тематической сегментации для
научных текстов, ее более подобное описание представлено в диссертации. Показано, что использованные методы обработки обеспечивают лучшее выделение значимых характеристик текстов по сравнению с бейзлайнами.
В третьей главе представлен метод визуальной композиции (ансамблирования) результатов тематической сегментации научных текстов.
Так как разные алгоритмы ТС выделяют несколько разные фрагменты текста, то реализовать композицию алгоритмов в классической форме – алгоритмически, затруднительно. Для решения этой проблемы предложен ансамблевый
метод структуризации научных текстов, реализующий одновременную демонстрацию нескольких вариантов ТС одного и того же текста. Метод позволяет
14
пользователю получить интегральное представление структуры текста, что облегчает выбор эффективной стратегии для отбора необходимых фрагментов.
Содержание метода поясняется на рисунке 9. Пользователь загружает
текст, подлежащий сегментации, в систему, и выбирает желаемые алгоритмы
сегментации. Система выполняет сегментацию и сохраняет ее результаты в базе
данных. В текстовом окне интерфейса пользователю демонстрируется выбранный текст, который можно двигать с помощью линейки прокрутки. При клике
на выбранный абзац активизируются линейки сегментации, соответствующие
выбранным алгоритмам, и на них отображаются границы топиков, в которые
входит выбранный абзац. Это позволяет пользователю более точно отбирать
фрагменты текста, подлежащие изучению. Двигая текст посредством линейки
прокрутки, пользователь может расширить зону анализа вплоть до границ текста. Результаты анализа сохраняются в базе данных и могут быть вызваны повторно.
Рисунок 9. Схема ансамблевого метода структуризации научных текстов
Специфика метода состоит в следующем. Текст рассматривается не в виде
последовательности ACII–символов, а в виде последовательности букв как графических символов, что позволяет избежать преобразования исходного текста в
формат txt. Для облегчения ориентации в выделенных топиках пользователю
одновременно демонстрируются ключевые слова, соответствующие конкретному топику.
Сервис построен по трехзвенной архитектуре с разнесением слоя сервера
приложений на два узла. Клиент построен в виде Web-приложения. При этом
Web-кли-ент выполняет стандартную задачу интерфейсного ввода-вывода. На
клиенте установлена утилита для визуализации тематической структуры связных текстов.
Таким образом, в третьей главе разработан метод композиции (ансамблирования) алгоритмов тематической сегментации, а также рассмотрены особенности программной реализации сервиса тематической сегментации. Более подробное описание представлено в диссертации.
В четвертой главе представлены результаты экспериментальных проверок. Методика, по которой проводились проверки, обеспечила охват пользователей, различающихся не только опытом работы в научной сфере, но и содержанием и спецификой ПЗИ.
Измерялось время, затраченное на поиск релевантной информации с помощью разработанного сервиса и сервиса Google-Книга (рисунок 10, а) , а так-
15
же распределение полезности постов, выделенных из интернет-форумов с
применением разработанной методики и без нее.
а
б
Рисунок 10. а – экспериментальное значение времени поиска релевантной информации
с помощью разработанного сервиса (светлый тон) и сервиса Google-Книга (темный
тон); б – число постов, выделенных из интернет-форумов, в зависимости от их полезности: темный тон – выделение студентами при использовании разработанной методики,
средний тон – выделение студентами при использовании типовых поисковых средств,
светлый тон – экспертное выделение
Из рисунка 10 следует, что проведенные экспериментальные проверки показали эффективность разработанных методов и алгоритмов для ТС текстов.
Таким образом, в четвертой главе проведены экспериментальные проверки
разработанного метода композиции алгоритмов тематической сегментации.
Усредненное по всем экспериментам сокращение временных затрат для научных текстов различной проблематики и различных групп пользователей составило 20%.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Произведено проблемно-ориентированное исследование научных текстов, выделены специфические свойства задачи тематической сегментации
научных текстов как объектов машинного обучения.
2. Разработана методика отбора и настройки алгоритмов машинного обучения для тематической сегментации научных текстов.
3. Разработан метод композиции (ансамблирования) алгоритмов тематической сегментации и средство его программной поддержки.
Рекомендации и перспективы дальнейшей разработки темы. Исследование особенностей и расширение номенклатуры предметных областей исследуемых текстов.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в научных журналах и изданиях из Перечня рецензируемых
научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук,
на соискание ученой степени доктора наук
1. Добренко Н.В. Композиция алгоритмов тематической сегментации текстов
как средство интеллектуализации проектирования технических систем //
16
Научно-технический вестник информационных технологий, механики и оптики - 2018. - Т. 18. - № 4(116). - С. 690-694.
2. Бурая К.И., Виноградов П.Д., Грозин В.А., Гусарова Н.Ф., Добренко Н.В.,
Трофимов В.А. Автоматическая суммаризация веб-форумов как источников
профессионально значимой информации // Научно-технический вестник информационных технологий, механики и оптики. - 2016. - Т. 16. - № 3(103). - С.
482-496.
3. Grozin V.A., Dobrenko N.V., Gusarova N.F., Nin T. The application of machine
learning methods for analysis of text forums for creating learning objects // Компьютерная лингвистика и интеллектуальные технологии = Computational Linguistics and Intellectual Technologies [Komp'juternaja Lingvistika i Intellektual'nye Tehnologii]. - 2015, Vol. 1, No. 14, pp. 202-213.
4. Бурая К.И., Грозин В.А., Гусарова Н.Ф., Добренко Н.В. Методы машинного
обучения для выделения профессионально значимой информации из вебфорумов
// Дистанционное и виртуальное обучение - 2015. - № 12(102). - С.
46-63.
5. Агаркова Н.В.(Добренко), Артемова Г.О., Гусарова Н.Ф. Система поддержки
принятия проектных решений для документирования научно-технической
информации // Научно-технический вестник информационных технологий,
механики и оптики. - 2012. - № 1(77). - С. 128-134.
Публикации в зарубежных научных изданиях, индексируемых в системах
Scopus или Web of Science
1. Vatian A., Dobrenko N., Makarenko A., Nigmatullin N., Vedernikov N., Vasilev
A., Stankevich A., Gusarova N., Shalyto A. Adaptation of Algorithms for Medical
Infor-mation Retrieval for Working on Russian-Language Text Content // Lecture
Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). - 2018, Vol. 11107, pp. 106-114.
2. Grozin V.A., Dobrenko N.V., Gusarova N.F., Nin T. The application of machine
learning methods for analysis of text forums for creating learning objects // Компьютерная лингвистика и интеллектуальные технологии = Computational Linguistics and Intellectual Technologies [Komp'juternaja Lingvistika i Intellektual'nye Tehnologii]. - 2015, Vol. 1, No. 14, pp. 202-213.
3. Grozin V.A., Gusarova N.F., Dobrenko N.V. Feature selection for language independent text forum summarization // Communications in Computer and Information Science. - 2015, Vol. 518, pp. 63-71.
4. Avdeeva N., Artemova G., Boyarsky K., Gusarova N., Dobrenko N., Kanevsky E.
Subtopic Segmentation of Scientific Texts: Parameter Optimisation // Communications in Computer and Information Science. - 2015, Vol. 518, pp. 3-15.
5. Artemova G., Boyarsky K., Gouzevitch D., Gusarova N., Dobrenko N., Kanevsky
E., Petrova D. Text Categorization for Generation of a Historical Shipbuilding Ontology // Communications in Computer and Information Science. - 2014, Vol. 468,
pp. 1-14.
Перечень РИДов
1. Программа для ЭВМ «Модуль лемматизации текста» (Свидетельство о регистрации программы для ЭВМ № 2017660449 от 21.09.2017).
17
2. Программа для ЭВМ «Модуль обработки пользовательских запросов на анализ текста» (Свидетельство о регистрации программы для ЭВМ №
2017660432 от 21.09.2017).
3. Программа для ЭВМ «Модуль сегментации текста» (Свидетельство о регистрации программы для ЭВМ № 2017660427 от 21.09.2017).
4. Программа для ЭВМ «Модуль сегментации текста с применением алгоритмов LSA и TextTiling» (Свидетельство о регистрации программы для ЭВМ
№ 2017660430 от 21.09.2017).
5. Программа для ЭВМ «Утилита для визуализации тематической структуры
несегментированных текстов» (Свидетельство о регистрации программы для
ЭВМ № 2017660443 от 21.09.2017).
6. Программа для ЭВМ «Утилита для визуализации тематической структуры
связных текстов» (Свидетельство о регистрации программы для ЭВМ
№ 2017660417 от 21.09.2017).
7. Программа для ЭВМ «Утилита для отображения результата кластеризации
текста» (Свидетельство о регистрации программы для ЭВМ № 2017660458 от
21.09.2017).
8. Программа для ЭВМ «Утилита для оценки результатов работы алгоритма латентно-семантического анализа текста и их визуализации» (Свидетельство о
регистрации программы для ЭВМ № 2017660420 от 21.09.2017).
9. Программа для ЭВМ «Программа для сопоставления синонимов и гиперонимов в тексте» (Свидетельство о регистрации программы для ЭВМ №
2016663025 от 28.11.2016).
18
Для заметок
19
Для заметок
20
Тираж 100 экз.
Отпечатано в учреждении «Университетские телекоммуникации»
Адрес: 197101, Санкт-Петербург, Кронверкский пр., 49
1/--страниц
Пожаловаться на содержимое документа