close

Вход

Забыли?

вход по аккаунту

?

Методы средства и алгоритмы автоматического извлечения фактов из китайских текстов

код для вставкиСкачать
На правах рукописи
ЮЙ ЧУЦЯО
МЕТОДЫ, СРЕДСТВА И АЛГОРИТМЫ АВТОМАТИЧЕСКОГО
ИЗВЛЕЧЕНИЯ ФАКТОВ ИЗ КИТАЙСКИХ ТЕКСТОВ
05.13.11 – Математическое и программное обеспечение вычислительных
машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург – 2018
2
Работа выполнена в федеральном государственном автономном
образовательном учреждении высшего образования Санкт-Петербургском
национальном исследовательском университете информационных технологий,
механики и оптики
Научный руководитель:
доктор технических наук, доцент
Бессмертный Игорь Александрович
Официальные оппоненты: Ломакина Любовь Сергеевна, доктор
технических наук, профессор,
ФГБОУ ВО Нижегородский
государственный технический университет
им. Р.Е.Алексеева
Ведущая организация:
Браславский Павел Исаакович, кандидат
технических наук, кандидат культурологии,
ФГАОУ ВО «Уральский федеральный
университет» нау
к
ФГБОУ ВО «Волгоградский
государственный технический университет»
В.И.Ульянова (Ленина)»
Защита состоится 22 июня 2018 г. в 16-00 на заседании диссертационного
совета Д 212.227.06 при федеральном государственном автономном
образовательном учреждении высшего образования Санкт-Петербургском
национальном исследовательском университете информационных технологий,
механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр.,
д.49, ауд.431.
С диссертацией можно ознакомиться в библиотеке федерального
государственного автономного образовательного учреждения высшего
образования Санкт-Петербургского
национального
исследовательского
университета информационных технологий, механики и оптики по адресу:
197101, Санкт-Петербург, Кронверкский пр., д. 49 и на сайте
http://fppo.ifmo.ru/?page1=16&page2=52&page_d=1&page_d2=155525
Автореферат разослан « __ » ________ 2018 года.
Ученый секретарь
диссертационного совета Д 212.227.06,
кандидат физико-математических наук, доцент
С.Е. Холодова
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Расширение сотрудничества между Россией и
Китаем выводит на первый план проблему языкового барьера. Китайские
интернет-ресурсы очень редко содержат страницы на английском или русском
языках, что затрудняет информационный поиск в китайском сегменте
интернета. Объявления о госзакупках, грантах, коммерческие предложения и
другие новости недоступны как для русскоязычных пользователей, так и для
российских поисковых сервисов. Существующие методы автоматического
аннотирования, тегирования текстов, извлечения сущностей и фактов,
разработанные для алфавитных языков, ограниченно применимы для
иероглифических текстов. Использование средств машинного перевода
невозможно, если речь идет о поиске в неопределенном множестве документов.
В этой связи актуальной является задача прямого извлечения сущностей и
отношений из китайских текстов.
Особенности китайского языка – полисемия каждого иероглифа,
отсутствие заимствованных, иероглифическое написание имен собственных,
стремление к упрощению фраз – приводят к тому, что перевод отдельного
предложения невозможен в отрыве от контекста. Все это делает задачу
информационного поиска в китайских текстах актуальной.
Степень теоретической разработанности темы. Наибольший вклад в
развитие обработки текстов на алфавитных языках внесли Н. Хомски,
Т. Виноград, Р. Шанк, Р. Виленски, Р. Пираччини, В.Ф. Хорошевский,
В.З. Демьянков,
Ю.А. Загорулько,
Е.А. Сидорова,
В.Ш. Рубашкин,
П.И. Браславский. Над автоматической обработкой китайских текстов работают
Дичжан Чжао, Ли Дун, Липин Ду, Д. Цзен, Цзесюнь Ли, Фейю Ван, Ваньли
Цзуо.
Объект исследования – информационные ресурсы на китайском языке.
Предмет исследования – методы информационного поиска в естественноязыковых китайских текстах.
Цель и задачи исследования. Целью исследования является повышение
доступности информации, размещенной в массиве документов на китайском
языке. Поставленная цель достигается решением следующих задач:
1. Анализ состояния проблемы и текущих исследований в области
автоматической обработки текстов.
2. Разработка метода автоматического построения тезауруса предметной
области на основе китайского корпуса документов.
3. Разработка метода синтаксического анализа предложений на китайском
языке.
4. Разработка метода автоматического извлечения фактов из естественноязыковых китайских текстов, подвергнутых процедуре синтаксического
анализа.
4
5. Результаты экспериментального исследования работоспособности и
эффективности разработанных методов и алгоритмов автоматической
обработки китайских текстов.
Теоретическую и методическую основу исследования составляют
корпусная
лингвистика,
теория алгоритмов,
теория
вероятностей,
математическая
статистика,
логическое
программирование.
Методы
исследования включают в себя эксперименты на корпусах текстов в среде
логического программирования Prolog.
Достоверность
и
обоснованность
результатов
исследования
подтверждается их сопоставимостью с существующими опубликованными
материалами, а также внедрением полученных результатов.
Положения, выносимые на защиту, обладающие научной новизной
1. Метод автоматического формирования тезауруса предметной
области на основе корпуса текстов на китайском языке, отличающийся
отсутствием фазы предварительной сегментации фраз на слова и
обеспечивающий лучшие точность и полноту извлечения редко встречающихся
терминов.
2. Ролевой метод поверхностного синтаксического анализа
предложений на китайском языке,
отличающийся использованием
служебных иероглифов в качестве маркеров частей речи, что обеспечивает
повышение качества идентификации текстов.
3. Алгоритм автоматического извлечения фактов из естественноязыковых китайских на основе ролевого подхода к частеречному анализу
предложений, что позволяет извлекать факты из китайских текстов без их
перевода на другой язык.
4. Результаты экспериментального исследования разработанных
алгоритмов
и программ, подтверждающие работоспособность и
эффективность разработанных методов автоматического извлечения фактов из
естественно-языковых китайских текстов.
Теоретическая значимость исследования обоснована тем, что доказана
возможность упрощенного синтаксического анализа китайских текстов с целью
извлечения фактов без подключения полного словаря.
Практическая значимость исследования подтверждается тем, что:
разработаны и внедрены на уровне лабораторных работ в учебный
процесс по дисциплине «Интеллектуальные системы» на кафедре
вычислительной
техники
Санкт-Петербургского
национального
исследовательского университета информационных технологий, механики и
оптики; определены перспективы коммерциализации полученных научных
результатов в сфере поисковых сервисов в среде Интернет и
библиографического поиска; создана модель эффективного применения
разработанных методов к информационному поиску в естественно-языковых
китайских текстах;
5
представлены
методические
рекомендации
по
дальнейшему
совершенствованию методов и средств автоматической обработки текстов на
китайском языке.
Апробация
результатов
исследования.
Основные
положения
диссертационной работы и результаты исследований докладывались на
различных конференциях, в числе которых Международная конференция по
коммуникационным компьютерным сетям и интеллектуальным вычислениям
(CCNIC-2017), Газиабад, Индия, Международная конференция по
современному образованию и науке управления (AEMS 2017), Бангкок,
Таиланд, 11-я Международная конференция по приложениям в
инфокоммуникационных технологиях (AICT-2017), Москва, Международный
конгресс по интеллектуальным системам и информационным технологиям
(IS&IT'17), пос. Дивноморское Краснодарского края.
Публикации результатов исследования. По теме диссертации
опубликовано девять работ, из них три статьи в журналах из перечня
рецензируемых научных изданий, в которых должны быть опубликованы
основные научные результаты диссертаций на соискание ученой степени
кандидата и доктора наук.
Результаты исследования внедрены в учебный процесс на кафедре ВТ
Университета ИТМО, что подтверждается актом о внедрении.
Личный вклад. Основные результаты, представленные в диссертации,
получены лично автором. Постановка экспериментов делалась совместно с
научным руководителем.
Объем и структура работы. Диссертационная работа изложена на 112
страницах, состоит из введения, пяти глав, содержащих 5 рисунков, 13 таблиц,
заключения, а также трех приложений. Библиографический список включает 83
наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертационной работы,
определяются объект, предмет, методы, цель и задачи исследования,
положения, выносимые на защиту, представлена научная новизна и
практическая значимость представляемой работы, приводятся сведения об
апробации работы.
В первой главе проводится анализ состояния проблемы в области
автоматической обработки естественно-языковых китайских текстов и
определяется постановка задач исследования.
Рассматриваемая проблема извлечения знаний из китайских текстов
обусловлена следующими особенностями китайского языка. Каждое понятие
(эквивалент слова) обозначается одним или несколькими иероглифами. При
этом в отличие от алфавитных языков, пробелы между отдельными словами
отсутствуют. Каждый иероглиф имеет множество значений и зачастую может
выступать в качестве разных частей речи (существительного, глагола,
прилагательного). Практически любое сочетание иероглифов может быть
интерпретировано тем или иным способом. Несмотря на достаточно строгий
6
порядок слов в предложении, отдельные части речи зачастую опускаются. Все
перечисленное приводит к тому, что синтаксический анализ не может
осуществляться без семантического анализа с учетом контекста, что
существенно усложняет автоматизацию обработки китайских текстов.
Существующие задачи обработки китайских текстов сводятся к
следующему.
1. Автоматическая сегментация предложений на слова. Несмотря на
наличие правил сегментации, их практическое применение требует наличия
мощного словаря и в значительной степени ориентировано на носителей языка.
Кроме того, сегментация фраз зачастую определяется контекстом и семантикой.
В этой связи распространенными являются статистические методы, в
частности, метод взаимной информации I(a;b) между отдельными символами a
и b:
,
(1)
где p(a) и p(b) — вероятности появления в тексте символов a и b
соответственно, p(a,b) — вероятность появления в тексте сочетания символов
ab. Однако, подобные методы часто приводят либо к излишнему дроблению
последовательностей символов, что разбивает термины на фрагменты, либо к
присоединению к словам предлогов и послелогов. Улучшение сегментации
достигается существенным увеличением объема корпуса документов,
используемого для машинного обучения. Лучшие результаты автоматической
сегментации текста демонстрируют значение точности на уровне 90%, а
полноты – 95%. Естественно, любой метод обработки текста, использующий
сегментацию, не может демонстрировать лучшие результаты, поскольку
опирается на текст, сегментированный с ошибками.
2. Извлечение терминов предметной области. Данная задача обычно
решается с помощью целевого и контрастного корпусов документов, и выбор
терминов осуществляется исходя из следующих данных: A — число
документов домена, содержащих слово, С — число документов домена, не
содержащих слово, B — число документов контрастного набора, содержащих
слово, D — число документов контрастного набора, не содержащих данное
слово. На основе этих данных также может быть вычислена взаимная
информация, которая хорошо адаптируется к задаче извлечения терминов:
(2)
где
. Здесь факт наличия термина в каждом документе
целевой коллекции и его отсутствие в документе контрастного набора
увеличивает взаимную информацию, и наоборот, отсутствие документа домена
с термином и наличие в документе контрастной коллекции уменьшает
взаимную информацию.
3. Поверхностный синтаксический анализ (shallow analysis). Данный
анализ рассчитан в меньшей степени на полный анализ сложных предложений,
а в большей части на выявление (тегирование) частей речи.
4. Извлечение фактов из текстовых документов.
7
Решение каждой из перечисленных задач должно быть увязано с
остальными.
Таким образом, в первой главе сформулированы цель исследования:
повышение доступности информации, размещенной в массиве документов на
китайском языке, и задачи, решение которых создает алгоритмическую основу
для извлечения фактов из китайских текстов.
Вторая глава посвящена разработке метода автоматического
формирования тезауруса предметной области.
Поскольку существующие методы извлечения терминов, ориентированные
на алфавитные языки, требуют предварительной сегментации фраз на
отдельные слова, а задача сегментации требует большого объема текстов для
обучения, это может привести к невозможности составления тезауруса для
небольшой предметной области, представленной небольшим числом
документов. Кроме того, ошибки сегментации накладываются на ошибки
извлечения терминов, что снижает точность и полноту любого используемого
метода. В этой связи для китайских текстов предлагается отказаться от
сегментации предложений на слова, а работать с непрерывными
последовательностями символов.
Представим текст в виде последовательности символов вида abcdefghijk,
расположенной между терминальными символами, в качестве который
выступают не только знаки препинания, но и любые символы, отличные от
иероглифов. Считая, что термины предметной области могут состоять из двух,
трех или четырех символов, возможны следующие интерпретации указанной
последовательности: четырехсимвольные — abcd, bcde, cdef, defg, efgh, fghi,
ghij, hijk, трехсимвольные – abc, bcd, cde, def, efg, fgh, ghi, hij, ijk,
двухсимвольные — ab, bc, cd, de, ef, fg, gh, hi, ij, jk. Часть из них является
терминами предметной области, часть — общеупотребительными словами,
остальные — бессмысленными сочетаниями. Для любого текста несложно
провести частотный анализ встречаемости данных последовательностей.
При внимательном изучении результатов чистого частотного анализа
китайских текстов была обнаружена закономерность, состоящая в том, что
непереводимые последовательности из трех или четырех иероглифов чаще
всего состоят из общеупотребительных слов с добавлением предлогов или
других фрагментов. Следовательно, если с помощью контрастной коллекции
выявить общеупотребительные слова, то можно отфильтровать бессмысленные
сочетания символов. Таким образом, для фильтрации списка, полученного на
основе чистого частотного анализа, предлагается следующий подход. Пусть в
целевой коллекции встречается последовательность ‘abcd’, которая включает в
себя фрагменты ‘abc’, ‘bcd’, ‘ab’, ‘bc’ и ‘cd’. Данная последовательность
включается в список терминов только в том случае, если вероятность
присутствия последовательности в целевой коллекции и любого из ее
фрагментов pg выше, чем в контрастной pc:
(3)
8
Результаты экспериментального исследования данного подхода,
описанные в главе 5, показали, что из кандидатов в термины успешно
исключаются общеупотребительные словосочетания, существительные в
притяжательной форме с послелогом 的 (de), глаголы в повелительном
наклонении с префиксом 式 (shi) и другие. Здесь и далее иероглифы
сопровождает их латинская транскрипция (пиньинь).
В третьей главе разрабатывается метод поверхностного синтаксического
анализа китайских текстов. Существующие методы синтаксического анализа,
как и методы извлечения терминов, работают с сегментированными
предложениями. Однако неизбежные ошибки сегментации могут приводить к
невозможности синтаксического анализа и пересмотру сегментации.
Собственно, человек обычно сегментирует предложения исходя из их
семантики. Кроме того, синтаксический анализ опирается на грамматику и
словарь, недостатки первого и второго ухудшают качество парсинга.
Вместо того, чтобы подключать к парсеру мощные словари, в работе
предлагается наоборот, ограничить словарь небольшим числом слов, в
наибольшей степени определяющих структуру фразы. К таким словам
относятся модальные глаголы, предлоги, послелоги, такие, как 吗 (ma — аналог
частицы «ли» в русском языке — признак вопроса), 的
(de — признак
притяжательного прилагательного или аналога родительного падежа), 了 и 过 (le
и guo — две разновидности прошедшего времени) и некоторые другие.
В целях поверхностного синтаксического анализа в работе создан парсер
на языке SWI-Prolog объемом 200 строк, использующий небольшой встроенный
словарь. Фрагмент грамматики в форме Бэкуса-Наура имеет иерархический
вид, представленный ниже:
group(sentence,[subject,predicate,object]).
group(sentence,[subject,object,predicate]).
group(sentence,[subject,predicate,object,afterlog]).
group(subject,[nouns]).
group(subject,[pronouns]).
group(subject,[attribute,nouns]).
group(subject,[nouns,attribute]).
group(subject,[subject,link,subject]).
group(nouns,[noun]).
group(nouns,[noun,noun]).
…
Словарь содержит минимум атрибутов слов, необходимых для
синтаксического разбора. В частности, для предлогов указывается, с какими
частями части речи они сочетаются. Ниже приведены примеры частей речи.
Первый аргумент предикатов частей речи содержит иероглиф(ы), второй —
произношение (пиньинь), затем перевод на русский язык и атрибуты, если
необходимы (число, лицо и т.д.).
pronoun('我', 'wǒ', 'я', singular, '1st').
modal_verb('要', 'yào', 'намереваться').
verb('工作','gōngzuò', 'работать').
9
adjective('大', 'dà', 'большой’, noun).
preposition('在', 'zài', 'в', noun).
afterlog('了', 'le', 'однократное прошедшее время', verb).
link('和', 'hē', 'и').
Алгоритм синтаксического разбора предложения является рекурсивным и
выглядит следующим образом.
1. Выбрать модель предложения (предикат group(sentence,[List]) из
грамматики).
2. Выбрать первый элемент из списка членов предложения List.
3. Отделить N (максимально возможное число) иероглифов от предложения.
4. Провести синтаксический разбор члена предложения.
5. Если разбор удачный, то перейти к п.7, иначе
.
6. Если
, то выбрать следующую модель предложения и перейти к п.2.
7. Провести синтаксический анализ оставшейся части предложения.
Синтаксический разбор члена предложения выполняется рекурсивно с
помощью того же самого алгоритма, но с использованием модели не
предложения (sentence), а более мелкой структурной единицы (subject,
object, predicate, attribute, noun, verb, preposition и т.д.). Если на
самом нижнем уровне грамматики парсер не находит словарного слова, то он
пытается подставить слово из обезличенного словаря, полученного путем
статистической обработки корпуса документов.
Ниже приведен пример результата синтаксического разбора предложения
王 书 10 岁 在 中 国 饭 店 工 作 。 (Ван Шу 10 лет работает в китайском ресторане).
Знаками подчеркивания ‘_’ здесь и далее обозначаются отсутствующие
значения, а дробная черта разделяет слова.
[(_, 王书,_,Ван Шу),
(number,10/岁,sui, лет),
(location*,在/中国,zài/zhōngguó,в/Китай),
(_,饭店,_,_),
(predicate,工作,_,работать)].
Слово 饭 店 («ресторан») отсутствует в словаре, поэтому оно не было
распознано.
Сложность данного алгоритма можно оценить следующим образом.
Пусть N — число иероглифов в предложении, b — коэффициент ветвления
дерева грамматики, d — средняя глубина дерева синтаксического разбора, s —
среднее число иероглифов в слове. Тогда число шагов спуска по дереву
решений для парсинга первого слова составит
(4)
а для каждого последующего i-го слова:
(5)
Тогда общее число шагов алгоритма М составит
(6)
10
Из формулы (6) видно, что сложность синтаксического анализа имеет
экспоненциальную зависимость от глубины иерархии предложения и
квадратичную – от длины предложения.
Таким образом, предложенный подход позволяет проводить
поверхностный
синтаксический
анализ
предложений
с
частичной
идентификацией членов предложения, если составляющие его слова
отсутствуют в словаре.
В четвертой главе рассматривается задача извлечения фактов из
китайских текстов на основе ролевого подхода. В условиях ограниченного
словаря повысить полноту идентификации сущностей и отношений
предлагается на основе ролевого подхода. Для улучшения качества извлечения
фактов в работе предложено использовать служебные слова, которые
позволяют одновременно решать сразу несколько задач: сегментацию фраз,
синтаксический анализ и идентификацию частей речи.
Несмотря на отсутствие падежных окончаний, спряжения глаголов и
других признаков, облегчающих синтаксический анализ текстов на флективных
языках, в китайском языке имеется достаточно слов, позволяющих извлекать
полезную информацию о частях речи их семантике.
1) все предлоги, определяющие, как и в других языках, положение в
пространстве (например, 在 ,zài — в), времени ( 之 后 ,zhīhòu — после)
направление движения (过来, guòlai —приближение к чему-либо) и др.;
2) рассмотренные в третьей главе послелоги: 吗 , ma — признак
вопросительного предложения; 了, le — признак однократного прошедшего времени глагола; 过, guo — признак действия в прошлом; 的, de —
признак притяжательного слова, принадлежность к кому- или чему-нибудь;
们, men — признак множественного числа;
3) признаки числительных: 个, ge — универсальное счетное слово; 支, zhī
— счетное слово для длинных предметов; 把', bǎ — счетное слово для
предметов с ручкой; 辆, liàng — счетное слово для машин;
4) частицы и союзы: 和, hē — и; 或者, huòzhě — или; 不, bu — не;
5) модальные глаголы, используемые вместе с другими глаголами: хотеть,
иметь,
6) легкие глаголы (light verbs), обычно приобретающие смысл в связке с
существительным, например, 作, zuò — делать;
7) маркерные слова — признаки имен собственных: имен людей (названия
должностей, воинских званий, ученых степеней, профессий и др.),
географических названий (провинция, область, район, море, река), названий
организаций (завод, университет, совет, музей);
8) глаголы, используемые главным образом вместе с именами собственными:
说, shuō — говорить; 看到, kàndào — видеть, 知道, zhīdao — знать,
明白, míngbai — понимать и др.
Кроме перечисленных, в китайском, как и в любом другом языке, имеется
достаточно узкий набор очень часто используемых слов, которые можно
включить в состав универсального словаря, использование которого позволит
11
существенно повысить полноту распознавания предложений. Идея
предлагаемого подхода состоит в том, чтобы отказаться от общепринятой
последовательности (сегментация слов, частеречный анализ, синтаксический
анализ), выделив на первый план выявление маркерных слов, с помощью
которых можно определить части речи и их роли в предложении. После этого
применить поверхностный синтаксический анализ для назначения кандидатов
на роли элементов триплета субъект-предикат-объект для входного запроса.
В данной работе предлагается многофазный процесс анализа китайского текста
с постепенным устранением неоднозначностей. Для обработки текста
используются следующие символы и маркерные слова в порядке убывания
приоритета:
a) терминальные символы (точка, восклицательный, вопросительный знак,
конец абзаца);
b) символы, отличные от иероглифов (цифры, кавычки, спецсимволы);
c) термины предметной области;
d) предлоги, послелоги, частицы, модальные глаголы;
e) служебные слова, сопутствующие именам собственным
f) служебные слова, сопутствующие числительным.
Указанная приоритетность, в частности, в отношении последних пунктов с) – f),
обусловлена тем, что иероглифы, обозначающие маркерные слова, могут
входить в общеупотребительные слова и имена собственные, что может
привести к слишком мелкой сегментации таких слов с полной потерей их
смысла.
С учетом выбранных приоритетов процесс анализ текста с целью извлечения
фактов выглядит следующим образом.
1. Разбиение текста на отдельные предложения по терминальным символам.
2. Первичная сегментация предложений по символам, отличным от
иероглифов.
3. Выделение в тексте предлогов, послелогов, частиц, модальных глаголов.
4. Сегментация оставшихся в тексте цепочек иероглифов с помощью
словаря.
5. Выявление в тексте имен собственных с помощью служебных слов.
6. Выявление в тексте числительных с помощью служебных слов.
7. Назначение словам, соседствующим с выявленными предлогами,
послелогами, частицами и модальными глаголами, атрибутов в
соответствии с их ролями.
8. Выбор моделей предложений, не противоречащих выявленным словам, и
назначение им частей речи.
9. Сопоставление элементов запроса составным частям предложений.
Результатом обработки текста будет представление каждого предложения в
виде цепочек иероглифов, часть из которых снабжена атрибутами (член
предложения, произношение, перевод, признак имени собственного, признак
притяжательного и др.). Для каждого предложения возможно множество его
интерпретаций. С целью сокращения сложности задачи предлагается
12
анализировать только предложения, которые содержат элементы запроса, не
являющиеся переменными/
Ниже приведен результат анализа фразы из газеты «Женьминь Жибао»,
извлеченной по запросу: «Найти любую информацию о человеке по имени
Бонго (邦戈)». Поиск по образцу выдал предложение
全国人大常委会委员长张德江8日在北京人民大会堂会见了加蓬总统邦戈。
Результат анализа данного предложения приведен ниже.
[(subject,全国人大常委会/委员长,/wěiyuánzhǎng,/председатель комитета),
(_,张德江,_,_),
(number,8日,rì,день),
(location,在/北京,zài/běijīng,в/Пекин),
(dict,人民,_,_),
(dict,大会,_,_),
(object,堂会,_,_),
(predicate,见/了,jiàn/le,встречаться/однократное прошедшее время),
(object, 加蓬,_,_),
(object,总统/邦戈,zǒngtǒng/,президент/)].
Полученный результат позволяет понять, что Бонго является президентом
[Габона] и он 8-го числа стал объектом встречи в Пекине с председателем
комитета [Всекитайского собрания народных представителей].
Таким образом, предложенный алгоритм позволяет в задаче извлечения
фактов из китайских текстов путем задействования информации из запроса,
служебных иероглифов и вспомогательных слов обойтись без сегментации
предложений и без полного словаря, что существенно упрощает решение
данной задачи.
Пятая глава посвящена экспериментальным исследованиям и оценке
эффективности методов, разработанных в ходе исследования. В качестве
предметной области была выбрана геология, а корпус документов представлен
учебником «Основы геологии». Простой частотный анализ встречаемости
последовательностей из двух, трех и четырех символов позволил без
сегментации фраз выделить в тексте часто используемые слова, среди которых
как термины предметной области, так и обычные слова. Таблица 1 содержит
самые часто используемые слова из данного корпуса.
Таблица 1 — Наиболее часто используемые слова в учебнике
«Основы геологии»
Число слов в
документе
943
909
803
779
724
641
600
Последовательность
символов
作用
形成
矿物
岩石
矿床
构造
沉积
487
断层
Перевод
Тип слова
осаждение
наслоение
минерал
горная порода
месторождение
тектоническое движение
пещерные отложения
вскрытие реки
термин
термин
термин
термин
термин
термин
термин
термин
13
Отделение терминов предметной области выполнено с помощью
контрастного подхода. В качестве контрастной коллекции использовались
статьи из газеты «Жэньминь жибао» из разделов «Политика», «Культура»,
«Происшествия» и др. Использование классических методов TF-IDF и
взаимной информации не обеспечило надежную фильтрацию терминов
предметной области в силу того, что иероглифы и их парные сочетания имеют
значительно большую полисемию по сравнению со словами любого
алфавитного языка. Применение подхода, описанного в главе 2, обеспечило
лучшие результаты по сравнению с простым частотным анализом.
В таблице 2 приведены результаты извлечения терминов, состоящих их
четырех иероглифов, как наиболее частых.
Таблица 2 — Наиболее часто используемые четырехсимвольные слова в
учебнике «Основы геологии»
К-во слов в
документе
144
117
55
50
40
40
39
37
37
34
Последовательность
символов
构造运动
变质作用
矿物成分
沉积矿床
鉴定特征
热液矿床
火山碎屑
状集合体
火山喷发
酸盐矿物
Перевод
Тип слова
диастрофическое движение
метаморфизм
минеральный состав
осадочная горная порода
характерные черты
гидротермальное месторождение
пироклассическая порода
термин
термин
термин
термин
общее слово
термин
термин
бессмыслица
термин
термин
извержение вулкана
фталатный минерал
Точность P и полнота R оцениваются следующими формулами:
P= |Drel∩Dretr/ Dretr|*100%; R= |Drel∩Dretr| / |Drel|*100%,
(7)
где Drel – множество терминов предметной области, Dretr – множество
кандидатов в термины, отобранных во время поиска.
Таблица 3 — Точность извлечения терминов методами чистого частотного
анализа и на основе контрастного подхода
Длина
слова,
симв.
4
3
2
Чистый частотный анализ
Точность для часто
Точность для редко
используемых слов
используемых слов
66%
62%
42%
48%
35%
14%
Контрастный подход
Точность для часто Точность для редко
используемых слов используемых слов
78%
73%
44%
65%
41%
16%
Еще одна предметная область, для которой выполнено извлечение
терминов, это психология. В качестве целевого корпуса использовался
переведенный на китайский язык учебник Д.Басса «Эволюционная
психология». Благодаря наличию в данной книге авторского глоссария, удалось
оценить не только точность, но и полноту извлечения терминов, как показано в
таблице 4. Полученные результаты демонстрируют приемлемые точность и
полноту для часто встречающихся терминов.
14
Таблица 4 – Точность и полнота извлечения терминов предметной
области «Психология»
Число слов в
тексте
100+
80+
60+
50+
40+
35+
30+
25+
20+
Точность
Полнота
73%
70%
70%
71%
67%
63%
59%
55%
50%
93%
89%
83%
82%
75%
75%
69%
67%
64%
На основе построенного тезауруса предметной области был также
апробирован алгоритм извлечения фактов из документа «Основы геологии».
Алгоритм использовал созданный методом, изложенным в главе 2, словарь
терминов предметной области, а также алгоритм поверхностного синтаксического анализа на основе ролевого подхода, изложенные в главах 3 и 4.
В качестве поискового запроса использовался триплет вида (субъектпредикат-объект). В таблице 4 приведены результаты выполнения поискового
запроса (岩石, 组成, 组成, _), где субъект — 岩石 (горная порода), предикат — 组成
(включать в себя, состоять из), а объекты должны быть извлечены из текста. В
целях упрощения задачи части сложных предложений рассматривались как
отдельные фразы, а из результатов поиска отсеивались заведомо бесполезные
извлеченные объекты, такие, как много, основные, сложившиеся и др.
Осмысленных результатов поиска было около 50% .
Таблица 4 — Результаты поиска из текста фактов, содержащих термин
«горные породы» в качестве субъекта
Субъект
岩石
горная
порода
Предикат
组成
включает
Объект
硅
同矿物特别
使地表,
单位,
陨石
火成岩
酸
一定类型
矿物全部结晶
矿物部
云母
枚岩片岩
粒
又硬又脆
Перевод
кремний
различные минералы
чтобы поверхность Земли
компонент
метеорит
вулканические породы
кислота
определенный тип
все кристаллические минералы
набор минералов
слюда
филлит-сланцы
фракция
и жесткий и ломкий
Полученные результаты демонстрируют, что предложенный подход к
извлечению фактов из китайских текстов без предварительной сегментации
15
предложений на слова является работоспособным. Даже на простейшей
грамматике, игнорирующей сложноподчиненные обороты, удалось получить
удовлетворительные результаты. Здесь из 15 ответов 13 содержат осмысленные
результаты.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
В рамках поставленной цели были получены следующие результаты:
1. Метод автоматического формирования тезауруса предметной области на
основе корпуса текстов на китайском языке, включающий:
способ извлечения часто используемых слов без предварительной
сегментации предложений на слова, позволяющий отказаться от использования
словарей;
метод контрастного извлечения терминов предметной области на основе
частотного
анализа
фрагментов
последовательностей
иероглифов,
обеспечивающий
исключение
словосочетаний
терминов
с
общеупотребительными словами.
2. Метод поверхностного синтаксического анализа китайских текстов при
использовании ограниченного словаря, включающий:
способ выявления слов в предложении на основе обезличенного словаря,
построенного с помощью частотного анализа текста;
алгоритм поверхностного синтаксического анализа на основе грамматики и
ограниченного словаря, позволяющий назначать атрибуты неизвестным словам
из обезличенного словаря.
3. Алгоритм извлечения фактов из китайских текстов, в основе которых лежит
ролевой подход к выявлению частей речи, позволяющий:
путем анализа предлогов, послелогов, частиц и др. извлекать полезную
информацию о частях речи, в т.ч. определять семантику;
с помощью маркерных слов идентифицировать имена собственные, в .т.ч.
географические названия, предприятия и организации, имена людей и др.
4. Выполнены
экспериментальные
исследования
с
использованием
разработанных методов и алгоритмов, подтверждающие их работоспособность
и эффективность:
построены целевой и контрастный корпус документов и поставлены
вычислительные эксперименты;
на основе контрастного подхода построен тезаурус для нескольких предметных
областей;
на основе построенного тезауруса апробирован алгоритм извлечения фактов в
виде триплетов субъект-предикат-объект в области «Геология»;
с помощью вычислительных экспериментов установлено, что разработанные
алгоритмы позволяют осуществлять извлечение фактов из естественноязыковых китайских текстов без предварительной сегментации предложений на
слова.
16
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи в ведущих рецензируемых журналах, утверждённых ВАК РФ
для публикации основных научных результатов диссертаций соискателей
ученой степени кандидата и доктора наук:
1. Бессмертный И.А., Юй Чуцяо, Ма Пэнюй. Статистический метод извлечения
терминов из китайских текстов без сегментации фраз // Научно-технический
вестник информационных технологий, механики и оптики – 2016. – Т. 16. – №
6(106). – С. 1096-1101. – 0,31/0,15 п.л.
2. Юй Чуцяо, Бессмертный И.А. Автоматический синтаксический анализ
китайских предложений при ограниченном словаре // Программные продукты и
системы. – 2017. – №2. – С. 138-142. – 0,3/0,15 п.л.
3. Юй Чуцяо. Метод автоматического извлечения открытых отношений из
китайских текстов // Научно-технический вестник информационных
технологий, механики и оптики – 2018. – Т. 18. – № 1. – С. 163-165. – 0,2 п.л.
Публикации в изданиях, индексируемых Scopus или Web of Science:
4. Chuqiao Yu, I.A. Bessmertny. Shallow syntactic analysis of Chinese texts // 3rd
IEEE International Conference on "Computational Intelligence and Communication
Technology", CICT 2017. 9-10 Feb. 2017, Ghaziabad, India. – статья № 7977287.
DOI: 10.1109/CIACT.2017.7977287. – 0,3/0,15 п.л
5. Chuqiao Yu, Ma Pengyu, et. al. Term Extraction from Chinese Texts without
Word Segmentation // 2017 IEEE 11th International Conference on Application of
Information and Communication Technologies (AICT), IET - 2017, Vol. 1, pp. 124126. – 0,2/0,1 п.л.
Работы,
опубликованные
в
материалах
всероссийских
и
международных конференций, статьи в сборниках научных трудов:
6. Чуцяо Юй, И.А. Бессмертный Ролевой подход к автоматическому
извлечению
фактов
из
естественно-языковых
китайских
текстов
[ЭЛЕКТРОННЫЙ РЕСУРС] // Программные продукты, системы и алгоритмы.
– 2017. – №1. – С.4. – 0,2/0,1 п.л.
7. Chuqiao Yu, I.A. Bessmertny. Contrastive Domain Term Extraction from Chinese
Texts without Word Segmentation // Proc. of 2017 IEEE International Conference on
Advanced Education and Management Science (AEMS2017). – 2017, March 26-27,
2017, Bangkok, Thailand. – С.50-55. – 0,3/0,15 п.л
8. Чуцяо Юй, Пэнюй Ма., И.А. Бессмертный. Автоматическое извлечение
фактов из китайских текстов // Труды Конгресса по интеллектуальным
системам и информационным технологиям IS&IT'17 - 2017. - Т. 2. - С. 236-243.
– 0,4/0,15 п.л.
Результаты интеллектуальной деятельности:
9. И.А. Бессмертный, Чуцяо Юй. Синтаксический анализатор китайских
текстов // Св-во о рег. программы для ЭВМ №2017611463 от 03.02.2017.
Тиражирование и брошюровка выполнены в учреждении
«Университетские телекоммуникации»
197101, Санкт-Петербург, Кронверкский пр., д.49. Тел. (812) 233 46 69
Объем 1 у.п.л. Тираж 100 экз.
Документ
Категория
Без категории
Просмотров
3
Размер файла
1 335 Кб
Теги
автоматическая, алгоритм, метод, извлечения, фактор, средств, текстом, китайских
1/--страниц
Пожаловаться на содержимое документа