close

Вход

Забыли?

вход по аккаунту

?

Язык русской и башкирской поэзии XX века в свете дистрибутивного подхода

код для вставкиСкачать
На правах рукописи
ГРЕЧАЧИН ВИТАЛИЙ АНДРЕЕВИЧ
ЯЗЫК РУССКОЙ И БАШКИРСКОЙ ПОЭЗИИ XX ВЕКА В
СВЕТЕ ДИСТРИБУТИВНОГО ПОДХОДА
Специальность 10.02.20 – сравнительно-историческое,
типологическое и сопоставительное языкознание
Автореферат
диссертации на соискание ученой степени кандидата
филологических наук
Уфа – 2018
Работа выполнена на кафедре русской и сопоставительной филологии
ФГБОУ ВО «Башкирский государственный университет»
Научный руководитель:
доктор филологических наук, профессор
Фаткуллина Флюза Габдуллиновна
Официальные
оппоненты:
Мардиева Ляйля Агьдасовна,
доктор филологических наук, доцент,
ФГАОУ ВО «Казанский (Приволжский)
федеральный
университет»,
кафедра
русского языка и прикладной лингвистики,
профессор
Рахимова Эльвира Фидаиловна, кандидат
филологических наук, доцент ФГБОУ ВО
«БГПУ им. М. Акмуллы», кафедра
башкирского языка и методики его
преподавания, доцент
Ведущая организация:
ФГБОУ ВО «Уфимский государственный
нефтяной технический университет», г. Уфа
Защита состоится «27» декабря 2018 г. в 10:00 часов на заседании
диссертационного совета Д 212.013.02 при ФГБОУ ВО «Башкирский
государственный университет» по адресу: 450076, г. Уфа, ул. З. Валиди,
32, ауд. 400.
С диссертацией можно ознакомиться в библиотеке Башкирского
государственного университета по адресу: 450076, г. Уфа, ул. З. Валиди,
32 и на официальном сайте http://www.bashedu.ru/autoref.
Автореферат разослан «
»_________________ 2018 г.
Учёный секретарь
диссертационного совета
Салимова Л.М.
2
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Диссертационное исследование посвящено изучению
языковой картины миры русских и башкирских поэтов XX века с
применением современных инструментов обработки естественных
языков и анализа данных. В работе рассматриваются различные
способы интеллектуального анализа корпусов текстов (Text
Mining) двух разноструктурных языков с целью выявления
наиболее приемлемых для сопоставительных исследований.
Поскольку объектом исследования являются большие
массивы текстов на русском и башкирском языках, написанных в
одинаковый промежуток времени, актуальным становится
установление синхронного и диахронного срезов изучаемых
языков с применением сопоставительного анализа языковых
единиц.
Специфика поэтических текстов в данном исследовании
рассматривается
как
возможность
получения
наиболее
разностороннего описания эпохи. Кроме того, сопоставительный
анализ русской и башкирской поэзии позволяет определить, как
происходила эволюция языковой картины мира русских и
башкирских поэтов в эпоху, охватывающую две мировые войны,
гражданскую войну в России, революцию 1917 года, образование и
распад СССР и другие значимые в истории России события, а
также рассмотреть сходства и различия в отражении этих событий
в поэтических текстах того времени.
В рамках данного исследования представлены возможные
инструменты и модели для проведения подобного анализа.
Актуальность
диссертационного
исследования
определяется, прежде всего, недостаточной изученностью
современных инструментов обработки естественных языков и
анализа
данных
применительно
к
сопоставительным
исследованиям.
Разработка
методики,
основанной
на
использовании таких инструментов, может упростить проведение
сопоставительных исследований языковых единиц, что позволит
исследователям сосредоточиться на решении других научных
задач. В основе предлагаемого подхода лежит идея использования
инструментов автоматической обработки естественных языков и
статистики для проведения сопоставительного анализа двух
3
разноструктурных языков с целью определения национальноспецифических черт языковых единиц, особенностей их
функционирования в структуре поэтического текста, а также
выявления их семантических параметров.
В рамках данного исследования разработана методика
сопоставительного анализа разноструктурных языков на материале
корпуса текстов с применением инструментов автоматической
обработки языка, статистического анализа текстовых данных и
дистрибутивных моделей, а также разработан набор программных
инструментов для осуществления предобработки текстовых
данных и дальнейшего анализа.
Научная новизна работы определяется тем, что впервые
проведено сопоставительное исследование целого массива
поэтических текстов в двух разноструктурных языках при помощи
инструментов автоматической обработки текстовых данных.
Новизна работы также определяется интегративным подходом к
объекту исследования,
Объектом исследования выступили коллекции текстов
русской и башкирской поэзии XX века, анализируемые при
помощи
предложенного
подхода
с
целью
выявления
результативности данной модели обработки языка.
Предметом исследования становится автоматическая
обработка языка, направленная на предобработку данных для
сопоставительного исследования, инструменты описательной
статистики для описания функционирования лингвистических
единиц, статистические подходы для извлечения ключевых слов и
коллокаций, которые смогут описать исследуемые тексты с точки
зрения
частотного
распределения
лексики,
а
также
дистрибутивные семантические модели.
Цель диссертационного исследования связана с разработкой
программного инструмента для извлечения данных, необходимых
для описания особенностей национальной языковой картины мира,
отраженной
в
поэтических
текстах,
особенностей
функционирования лингвистических единиц в русском и
башкирских языках; исследованием формальных моделей,
наиболее подходящих для сопоставительного анализа.
Данная цель обусловила конкретные задачи исследования:
4
- выявить современные методы предобработки текстовых
данных, необходимых для квантитативного анализа;
- провести типологическое описание существующих
подходов автоматической обработки естественных языков и
выделить доминирующие;
- разработать программу морфологического анализа и
лемматизации для башкирского языка, необходимую для
осуществления предобработки данных;
- выявить основные способы извлечения необходимых
данных для проведения сопоставительного исследования
разноструктурных языков;
- выявить особенности использования дистрибутивных
сематических моделей;
- разработать программный инструмент для извлечения
необходимых данных из коллекций текстов русской и башкирской
поэзии XX века;
апробировать
использование
анализа
частного
распределения лингвистических единиц, использование способов
извлечения ключевых слов и коллокаций, использование
дистрибутивных семантических моделей для проведения
сопоставительного исследования;
Методологическими основами исследования послужили
труды отечественных и зарубежных ученых в области:
компьютерной и корпусной лингвистики, таких, как Арапов
А.Н., Байбер Д., Конрад С., Плунгян В. А,, Рэппен Р., Френсис У.
Э., Захаров В.П., Богданова С.Ю., Журавски Д., Маннинг К. и
другие;
дистрибутивной семантики: Ландауэр Т., Миколов Т., Фёрт
Дж. Р, Харрис З., Шалгрен М., Шутс Х. и другие;
лингвистической семантики, прагматики и сопоставительной
лингвистики: Вежбицкая А., Виноградов В.В., Костомаров В.Г.,
Кронгауз М.А., Кобозева И.М., Ибрагимова В.Л., Фаткуллина Ф.Г.,
и другие; а также научные разработки крупных IT-компаний:
Google, Yandex, Facebook.
Цель и задачи, поставленные в настоящей работе,
обусловили применение следующих методов исследования: для
предобработки текстовых данных, анализа данных и разработки
программы были использованы язык программирования Python
5
версии 3.6.5 и пакет nltk 3.3 (Natural Language Toolkit), пакет
морфологического анализатора русского языка pymorphy 20.8,
пакет машинного обучения scikit-learn 0.19.1 с открытым
исходным кодом, метод сопоставительного анализа языковых
единиц изучаемых разноструктурных языков, метод описательной
статистики, метод количественного анализа, метод исследования
семантики на основе дистрибутивной модели, метод корпусного
анализа.
Материалом исследования послужили поэтические тексты
на русском и башкирском языках, написанные и изданные в
период 1900-2000 гг. Русский поэтический корпус содержит более
49000 текстов, а башкирский – более 16000 текстов.
Положения, выносимые на защиту:
1.
Лингвистические корпуса разноструктурных языков
могут быть использованы для проведения сопоставительных
исследований с целью выявления национально-специфических
особенностей языковых единиц. Количественные признаки
частотного распределения лексики могут быть использованы для
извлечения ключевых слов из массивов текстов с целью
содержательного описания исследуемых текстов.
2.
Ключевые слова, извлеченные из данных о
частотном распределении лексики в текстах, написанных в один и
тот же период времени, предоставляют полную характеристику
социальной, политической, идеологической и культурной жизни в
стране, относятся к одному и тому же концепту и репрезентируют
языковую картину мира автора произведения и самого
художественного текста в указанный период времени.
3.
Частотное
распределение
морфем
и
корреляционный
анализ
выявляет
числовые
данные,
характеризующие
структуру
исследуемого
языка,
а
сопоставительный анализ этих данных позволяет выявить
основные различия в структуре исследуемых языков.
4.
Предложенная сетевая модель агглютинативной
морфологии,
нашедшая
применение
в
программе
морфологического парсинга текстов, написанных на башкирском
языке, может быть использована для описания морфологии
башкирского языка.
6
Теоретическая значимость исследования определяется
переложением методов и приложений компьютерной лингвистики
и статистики в контекст сопоставительных исследований
разноструктурных языков; предложенной методикой проведения
сопоставительного
исследования;
исследованием
методов
автоматической обработки естественных языков и статистического
анализа данных и определении наиболее оптимального подхода.
Диссертационное исследование вносит определенный вклад в
развитие
теоретических
подходов
к
формализации
сопоставительных
исследований.
Предложенные
методы
автоматической обработки языка, статистики, программирования
могут быть использованы для сопоставительного анализа других
разноструктурных языков.
Практическая значимость диссертации заключается в том,
что полученные результаты могут быть использованы для
дальнейшего изучения методов обработки и анализа текстовых
данных в контексте сопоставительных исследований языков; для
обогащения
поискового
функционала
существующих
русскоязычных и башкироязычных корпусов. Результаты данной
работы могут быть использованы в переводоведении и
преподавании русского и башкирского языков в качестве
иностранных.
Апробация
работы.
Основные
положения
диссертационного исследования были представлены на форуме во
Второй Московско-Тартуской школе по цифровым гуманитарным
исследованиям «Тексты. Сети. Карты» (Москва, 2017); на Научном
форуме «Наука будущего – наука молодых» (Казань, 2016);
Международной научно-практической конференции «Интеграция
образования, науки и производства» (Актобе, 2016); XVI
Всероссийской
конференции
«Актуальные
проблемы
диалектологии
языков
народов
России»
(Уфа,
2016);
Международной научно-методической конференции «Актуальные
проблемы русской и сопоставительной филологии: теория и
практика» (Уфа, 2016); IV международной научно-методической
конференции
«Межкультурная
↔
интракультурная
коммуникация: теория и практика обучения и перевода» (Уфа,
2015).
7
Диссертационное исследование обсуждалось на заседании
кафедры русской и сопоставительной филологии факультета
башкирской
филологии
и
журналистики
Башкирского
государственного университета. По материалам настоящего
исследования опубликовано 11 печатных работ, из них 4 работы –
в журналах, рекомендованных ВАК, получены 2 свидетельства о
государственной регистрации программы ЭВМ, по материалам
диссертации
опубликован
интернет-ресурс
http://oldturkicmorph.herokuapp.com/.
Структура работы определяется целями и задачами,
поставленными в исследовании. Диссертация состоит из введения,
трех глав, заключения и библиографии (160 наименований).
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении отмечены актуальность и научная новизна
исследования, его теоретическая и практическая значимость;
определены объект, предмет, материал исследования; обозначены
использованные методы исследования, сформулированы цель и
задачи работы; излагаются выносимые на защиту положения;
приводятся сведения об апробации результатов работы.
В первой главе «Актуальные вопросы изучения текстов
при помощи компьютерных технологий» – общетеоретическом
введении в проблематику исследования – анализируется
современное состояние таких дисциплин, как прикладная
лингвистика, корпусная лингвистика, компьютерная лингвистика;
рассматриваются основные понятия, основные методы и
инструменты;
раскрываются
проблемы
соотношения
естественного языка и формальных алгоритмов; определяется
специфика обработки естественных языков.
В параграфе 1.1 «Основные понятия и задачи
прикладной
лингвистики»
рассматриваются
основные
направления прикладной лингвистики. В рамках данного
диссертационного
исследования
прикладная
лингвистика
рассматривается с функциональной точки зрения и определяется
как научная дисциплина, в которой изучаются и разрабатываются
способы оптимизации функционирования языка. Таким образом,
основу данного диссертационного исследования составили идеи и
8
положения, высказанные в работах А.Н. Баранова и В.А.
Звегинцева.
Методы прикладной лингвистики разнообразны и
отличаются в конкретных областях языкознания. Так, в
квантитативной лингвистике основные методы исследования
опираются
на
инструменты
статистики,
компьютерная
лингвистика использует программирование и базы данных и т. п.
Но важнейшим свойством всех методов прикладной лингвистики
является оптимизация. Под оптимизацией понимается такое
описание (модель) проблемной области, при котором эта область
сохраняет в результирующем представлении только те
существенные свойства, которые необходимы для данной
практической задачи, то есть прикладное описание направлено
только на решение конкретной задачи. Важнейшим методом
прикладной лингвистики можно назвать моделирование.
Прикладное моделирование не охватывает весь язык и
теоретические знания о нем, оно ориентировано на конкретные
языковые уровни.
Прикладные
модели
требуют
большой
степени
формализации и используют выборочные знания о языке. В
отличие от теоретических моделей, которые стремятся охватить
все аспекты языка, прикладные модели допускают определенную
степень «огрубления».
Прикладная лингвистика опирается на методы описательной
и теоретической лингвистики. Описывая факты языка, лингвистика
выявляет закономерности, классифицирует их, то есть пытается
осмыслить и понять структуру языка. Благодаря этому
лингвистические знания могут быть приложены в различных
научных областях.
В.А.
Звегинцев,
обсуждая
соотношение
между
теоретической и прикладной лингвистикой, писал, что под
прикладной лингвистикой чаще всего понимают все виды
автоматической обработки речевой информации (Language-data
Processing) — машинное распознавание устной речи, машинный
перевод, автоматическую классификацию технических и иных
документов,
автоматическое
аннотирование
текстов,
автоматическое
кодирование
и
пр.
И
действительно,
автоматическая обработка речевой информации составляет в
9
настоящее время основную исследовательскую проблематику
прикладной лингвистики. Но все же было бы неправильно
замыкать прикладную лингвистику в пределах данной
проблематики.
В параграфе 1.2 «Корпусный анализ как основной метод
современного изучения языка» рассматривается категориальнопонятийный
аппарат
корпусной
лингвистики,
который
используется в рамках данного диссертационного исследования,
определяется место корпусной лингвистики в системе
лингвистических дисциплин.
Мы определяем корпусную лингвистику как раздел
компьютерной лингвистики, которая занимается разработкой
лингвистических корпусов (как текстовых, так, и речевых) и
унифицированием принципов их построения с применением
компьютерных технологий.
В этом параграфе нами представлено описание текстового
корпуса, который представляет собой массив текстов,
репрезентированный в машиночитаемом виде, определенным
образом структурированный и размеченный, который может быть
использован для конкретного лингвистического анализа. Кроме
того, рассматриваются разновидности текстовых корпусов.
Тексты в корпусе могут быть изолированными,
классифицированными («приключенческие романы», «любовные
романы», «фантастика», …), пересекающимися (под метками
«экономика», «Россия», «Вести» может находится одна и та же
публицистическая
статья),
хронологическими
(тексты
расположены в хронологическом порядке). Также существуют
корпуса, где представлены тексты на нескольких языках.
Различают сравниваемый корпус, где тексты, написанные на
разных языках на одну и ту же тему, сравниваются между собой, и
параллельный корпус, где тексты представлены на разных языках
и выравнены по абзацам или по предложениям. Тексты в корпусах,
как правило, размечены. Разметка бывает семантической,
синтаксической,
морфологической,
экстралингвистической,
которая заключается в добавлении понятных для программы
специальных символов в строку. Например, в корпусе
инаугурационных речей тексты расположены в хронологическом
10
порядке, каждая отдельная речь начинается с сведений о
говорящем и пр.
Мы можем представить текст в машиночитаемом виде,
используя
знания
компьютерного
и
математического
моделирования, но для того, чтобы структурировать и разметить
текст, мы обращаемся к данным языка.
Хотя некоторые
лингвистические задачи не требуют большого количества
материалов, корпус должен стремиться к максимальной
репрезентативности и охватывать как можно больше текстов.
Также в этом параграфе рассматриваются значимые для
корпусной лингвистики методы обработки языка, к которым
относятся следующие процедуры: токенизация, лемматизация,
стемминг, парсинг.
В параграфе 1.3 «Модели и алгоритмы автоматической
обработки лингвистических данных» рассматриваются базовые
модели и алгоритмы автоматической обработки лингвистических
данных.
Одна из ключевых идей в исследованиях обработки языка за
последние 50 лет заключается в том, что знания о языке могут
быть задействованы через использование узкого круга формальных
моделей или теорий. Среди важных можно выделить конечный
автомат, системы формальных правил, логику, а также теорию
вероятности и другие средства машинного обучения. Эти модели, в
свою очередь, поддаются небольшому числу алгоритмов из
хорошо известных вычислительных принципов. Среди них
наиболее важными являются алгоритмы поиска в пространстве
состояний и алгоритмы динамического программирования.
Самая простая интерпретация конечных автоматов –
формальные модели, которые состоят из состояний, переходов
между состояниями и вводных данных.
Тесно связаны с этими некоторыми процедурными
моделями системы формальных правил. Среди самых важных мы
можем отметить регулярные грамматики и регулярные отношения,
контекстно-свободные грамматики, в том числе и их
вероятностные варианты. Конечные автоматы и системы
формальных правил – главные средства, использующиеся в работе
вместе с знаниями фонологии, морфологии и синтаксиса.
11
В указанном параграфе рассмотрены некоторые алгоритмы,
которые могут использованы для решения основных задач
компьютерной
лингвистики:
токенизации,
лемматизации,
стемминга, парсинга.
Во второй главе «Формализация распределения
языковых единиц при изучении языков» рассматриваются
различные формальные подходы к описанию распределения
языковых единиц, которые могут быть использованы при
сопоставительном анализе двух языков.
В параграфе 2.1 «Дистрибутивные семантические модели
естественных языков» анализируются дистрибутивные модели,
релевантные для сопоставительного анализа авторских языковых
картин мира на материале русской и башкирской поэзии XX века.
Данная гипотеза подразумевает, что статистика совместной
встречаемости слов, извлеченная из корпуса текстов, может
послужить основой для репрезентации семантики этих слов.
Термины
дистрибутивный,
контекстно-теоретический,
корпусный,
статистический
могут
быть
использованы
(практически как взаимозаменяемые) для определения различных
подходов к рассмотрению семантики. Все эти подходы объединяет
особый взгляд на значение слова, основанный на использовании
или употребляемости, то есть ключевую роль в определении
«семантического
поведения»
слов
играет
статистика
распределения слов в контексте. За исключением общего взгляда,
между подходами возникают отличия, зависящие от особенностей
математических и компьютерных методов, от типа семантических
характеристик, связанных с распределениями в тексте, от
определения лингвистического контекста, который задает
комбинаторные пространства лексических единиц и т. д.
Основная
цель
этого
параграфа
заключается
в
способствовании необходимого обсуждения дистрибутивной
семантики, благодаря описанию основных аспектов методологии,
предложенных лингвистами, психологами и когнитивистами.
Основная задача заключается в изучении значения компьютерных
методов. Дистрибутивные подходы поднимают два основных
вопроса: как лексические свойства слов могут быть сведены к их
комбинаторному поведению (синтагматическому распределению в
тексте); и о роли контекстов, в которых образуются слова, в
12
определении
структуры
и
организации
семантических
репрезентаций на когнитивном уровне.
Корпуса важнейшим образом связаны с дистрибутивной
семантикой, поскольку являются хранилищем лингвистических
данных. Они являются основным источником информации,
необходимым для выявления дистрибутивных свойств слов.
Значение корпусов усиливается тем, что сегодня доступно
огромное количество собраний текстов (до миллионов слов), а
также возрастает количество сложных методов компьютерной
лингвистики для их обработки и извлечения значимых
характеристик, необходимых для построения репрезентаций
дистрибутивной семантики.
Нами рассмотрены математические и компьютерные техники
– важные составляющие дистрибутивной семантики, поскольку
они
позволяют
представить
понятие
контекстуальной
репрезентации в виде эмпирических семантических моделей.
Представим
основные
характеристики
семантических
репрезентаций, которые они разрабатывают:
1.
Лексико-семантические репрезентации по сути
своей основаны на контексте и поэтому «чувствительны» к
контексту: контекст определяет семантику слова.
2.
Лексико-семантические репрезентации по сути
своей распределенные, поскольку значение вытекает из
способности слова взаимодействовать с различными контекстами,
в которых оно возникает и которые кодируются как определенное
векторное пространство. Семантическое содержание слова лежит в
его глобальной дистрибутивной истории, а не в каких-то
определенных семантических характеристиках или смысловых
компонентах.
3.
Лексические репрезентации по сути своей
квантитативные и последовательные. Значение слова представлено
не по средствам «концептуальных символов», а в соответствии с
его статистическим распределением в различных лингвистических
контекстах. Слова отличаются не только контекстами, в которых
они возникают, но также и особенностями этих контекстов, что
определяет их комбинаторное поведение.
13
В связи с этим, мы считаем, что указанные свойства
отличают дистрибутивные семантические репрезентации от тех,
которые используются в лексической и формальной семантике.
В параграфе 2.2 «Прикладные парсеры в корпусных
исследованиях»
рассматриваются
принципы
парсинга
(компьютерной
предобработки
текстовых
данных
для
последующего анализа) корпуса текстов.
Разработка каких-либо корпусов включает в себя несколько
этапов компьютерной обработки текстов. Большинство текстов,
представляющих большой интерес для лингвистов, сохранились в
рукописном, реже в печатном виде. Поэтому первым этапом
создания корпуса таких текстов является перевод их в
электронный формат. Это может быть сканирование или ручной
набор текста. Далее необходимо токенизировать текст, то есть
определить границы основных структурных элементов текста –
лексем и предложений. Далее следуют этапы морфологического и
синтаксического анализа при помощи разметки токенизированного
текста и словарей. В корпусной лингвистике эти этапы обработки
называют морфологической обработкой (лемматизация и
стемминг) и синтаксическим парсингом. Все перечисленные этапы
представляют собой трудоемкий процесс обработки текстов,
требующий от разработчиков глубоких познаний в лингвистике,
программировании и компьютерных технологиях.
Морфологический парсинг по определению включает два
этапа: лемматизацию и стемминг. Процесс стемминга заключается
в определении основы слова. Основа (стем) обычно находится
путем отсечения аффиксов в словоформе. Процесс лемматизации
заключается в приведении последней к ее словарной форме.
Начальная (нормальная) форма слова в данном случае называется
леммой. В аналитических языках, например в английском,
алгоритм стемминга получает на вводе, например, слово matching
(соответствие), отсекает глагольный аффикс -ing и проводит
морфологический разбор слова, обычно в соответствии с
правилами глоссирования. Вывод, как правило, имеет вид
«match+V+PastPart». В английском языке алгоритм лемматизации
получает на вводе слова, например, matching или mine, и выводит
их леммы match или mine. Во флективных языках, например в
русском, алгоритм стемминга отличается из-за существенных
14
грамматический отличий языка, но принцип алгоритма
сохраняется: получая слово, например, дела, он проводит его
разбор,
например
{дело=S,сред,неод=(вин,мн|род,ед|им,мн)}
(программа Mystem от Yandex). Алгоритм лемматизации в русском
языке на вводе получает слово, например, людей, и выводит
лемму, для людей это человек. В агглютинативных языках,
например в башкирском, процессы стемминга и лемматизации
совпадают. В таких языках обычно стем является одновременно и
леммой. Например, в башкирском языке алгоритм стемминга
получает
на
вводе
слово
сүлдәрҙәме
и
выводит
{сүл+дәр+ҙә+ме="полупустыня"=S=PL,LOC,clit.INTERROG}
(программа Bashmorph), что содержит лемму сүл.
В параграфе 2.3 «Статистические модели при
сопоставительном анализе языков» рассматриваются основные
понятия статистики и статистические модели применительно к
лингвистическим исследованиям.
Основное допущение, на котором основывается наше
исследование, заключается в следующем: «Текст есть
последовательность независимых реализаций случайной величины
X». Это предположение относится к любым лингвистическим
единицам, но для определенности положим, что значениями
случайной величины X являются слова (словоформы) x1, x2, x2, …,
 . Слова в свою очередь составляют словарь – множество V. Для
того, чтобы говорить о значимых различиях в частоте
употребления той или иной переменной в различных выборках,
приведем предположение, на котором основывается наше
исследование. Оно состоит в следующем: «Каждой языковой
единице x может быть сопоставлена вероятность p ее употребления
в корпусе текстов X». Таким образом, p1, p2, p3, …,  – это
вероятности, с которыми X принимает значения x1, x2, x3, …,  .
Важной для нашего исследования величиной, на основании
которой мы можем сделать вывод о существенности или
несущественности различия в частоте употреблении того или
иного слова в нескольких корпусах текстов, является вероятность
p, которая может быть вычислена для любого слова x, входящего в
корпус X и которая отражает вероятность употребления этого
слова x в корпусе X.
15
Таким образом, для каждого x в корпусе X мы можем
получить различные характеристики, основываясь на описательной
статистике. Абсолютная частота  словоформы  в корпусе X –
это целочисленное значение, которое отражает общее количество
употреблений  .
Средняя частота характеризует обобщенное значение
переменной и чаще используется для сравнения нескольких
совокупностей признаков.
Также важной величиной для статистики лингвистических
единиц является относительная частота. В статистике
относительные
показатели
используют
для
проведения
сравнительного анализа, а также обобщения и синтеза.
Относительная частота показывает отношение количества
словоупотреблений определенной словоформы в наблюдаемом
тексте или наблюдаемых текстах к общему количеству словоформ
в этом тексте или этих текстах.
Статистика
также
может
помочь
исследователю
обнаружить связи между признаками. Величина, характеризующая
взаимную зависимость двух случайных величин, в статистике
называется корреляцией. В данном параграфе показана
возможность применения коэффициента корреляции для
обнаружения связей между употреблениями тех или иных частей
речи.
Кроме того, в данном параграфе рассмотрен основной
способ извлечения ключевых слов, или лексических доминант,
которой используется в рамках данного диссертационного
исследования. Этот способ, основанный на частоте употребления
слов, позволяет количественно оценить важность той или иной
словоформы для каждого отдельного текста, входящего в состав
корпуса и называется Term Frequency - Inverse Document Frequency
(TF-IDF).
В
русскоязычной
научной
литературе
нет
общепринятого термина для этого метода и зачастую используется
аббревиатура TF-IDF, которую мы и используем в нашей работе.
TF-IDF является мерой, которая оценивает важность каждой
словоформы в соответствии с тем, насколько хорошо данная
словоформа описывает текст по отношению к корпусу (собранию
текстов). Для этого словоформе добавляется вес за количество раз,
которое оно употребляется в данном документе, и убавляется за
16
количество других текстов, в которых эта словоформа также
употребляется.
Также в данном параграфе рассмотрен основной
статистический метод выделения фразеологических сочетаний и
коллокаций, который называется LogLikelihood score.
В
третьей
главе
«Сопоставительный
анализ
распределения языковых данных в текстах русской и
башкирской поэзии XX века» проводится дистрибутивный
анализ лингвистических единиц в русской и башкирской поэзии с
целью выявления сходств и различий в языковой картине мира
поэтов с использованием методов, описанных в предыдущих
главах.
В данной главе нами доказано, что сопоставительный
анализ двух разноструктурных языков, представленный корпусами
текстов одного временного интервала, возможен при помощи
небольшого набора инструментов и методик компьютерной
лингвистики. Ключевые слова, отражающие специфику эпохи,
могут быть получены автоматически при помощи меры TF-IDF.
Дальнейший анализ особенностей употребления и
семантики ключевых слов возможен благодаря методам
дистрибутивной семантики, а также благодаря автоматическому
извлечению фразеологических сочетаний, или коллокаций, что
основано на статистической мере LogLikelihood. Кроме того,
дистрибутивные модели могут быть использованы для описания
особенностей языковой картины мира авторов, тексты которых
входят в корпус, и для последующего сопоставительного анализа
языковых картин мира.
В указанной главе успешно использована предложенная в
данном
диссертационном
исследовании
методика
сопоставительного анализа на материале русской и башкирской
поэзии XX века. В результате анализа мы выявили, что русские
поэты отражали в своих произведениях все ключевые события XX
века, а также по-разному оценивали эти события от десятилетия к
десятилетию.
В параграфе 3.1 «Структурные особенности корпусов
поэтических текстов XX века на русском и башкирском
17
языках» представлено описание подготовленных для проведения
исследования корпусов текстов русской и башкирской поэзии.
Коллекции текстов русской и башкирской поэзии XX века,
использованные в нашем исследовании, представляют собой
собрания текстов в электронном варианте.
Мы используем
понятие корпус текстов, подразумевая таблицу данных (англ. data
frame), в который представлена коллекция текстов. Столбцы наших
таблиц данных: author, title, text – представляют собой наборы
данных строкового типа, столбец date – числового типа. Таким
образом, каждый текст в таблице данных представлен строкой
таблицы и содержит информацию об авторе текста, дате написания
или публикации, названии произведения.
Корпус русской поэзии XX века, подготовленный и
использованный в нашем исследовании, содержит 49030
произведений, написанных или опубликованных в период с 1900
года по 2000 год. В корпусе представлены произведения 467
авторов.
Корпус башкирской поэзии XX века содержит 16080
произведений, написанных или опубликованных в период 1902
года по 2005 год. В башкирском корпусе представлены
произведения 97 авторов.
В данном параграфе рассмотрены принципы работы
программ,
разработанных
в
рамках
диссертационного
исследования.
Подготовка материала для проведения квантитативных и
дистрибутивных
исследований
начинается
с
этапа
графематического анализа. В рамках нашего исследования
предметом графематического анализа послужили алфавитные
графемы, а также непечатаемые графемы, а графема заглавности
игнорировалась.
Для
выделения
словоформ
с
сохранением
последовательности их вхождения в текст была разработана
программа-сценарий, написанная на языке программирования
Python версии 3.5.
Принципиальной разницы в токенизации текстов русского
и башкирского корпусов не было обнаружено. Метод для
токенизации словоформ, предложенный нами, подходит как для
русского, так и башкирского корпуса.
18
Следующим этапом подготовки корпусов текстов является
процесс лемматизации. Для статистического и дистрибутивного
анализа текстов необходимо объединить все парадигматические
формы слова и свести их к начальной форме, то есть лемме. Таким
образом, нам потребовалось проанализировать каждое слово в
корпусе и заменить его на лемму. Для решения этой задачи мы
провели морфемный анализ каждой словоформы с использованием
автоматического морфемного анализа. Разработка инструмента
морфологического парсинга представляет собой отдельную
исследовательскую задачу.
В данном параграфе дается описание принципов работы
морфологического анализатора для русского языка pymorphy2,
который был использован в данном диссертационном
исследовании и автором которого является М. Коробов.
Для корпуса башкирской поэзии XX века автором
настоящей работы был разработан морфологический парсер,
который учитывает особенности агглютинативной морфологии
башкирского языка. В параграфе 3.1 описаны принципы работы
этой программы.
В основе предложенной программы лежит разработанная в
данном диссертационном исследовании модель агглютинативной
морфологии. В основе модели лежит теория графов. Модель
агглютинативной морфологии, которую мы предлагаем,
представляет собой сеть, в которой множество вершин – это
классы аффиксов с определенными грамматическими значениями
и показатели частей речи; дуги отражают позиционные отношения
между вершинами.
Чтобы приложить теорию графов к агглютинативной
морфологии, рассмотрим ключевые особенности агглютинации.
Мы исходим из того, что в агглютинативных языках преобладает
такой способ образования производных и грамматических форм
слов, при котором аффиксы присоединяются к корню,
сополагаются друг с другом, не изменяясь при этом существенным
образом, каждый аффикс имеет только одно грамматическое
значение. Для агглютинативных языков характерно, что аффиксы
однозначны (в подавляющем большинстве), в них отсутствуют
фузии, а значит, морфемные швы всегда очевидны,
последовательность аффиксации в грамматических формах
19
постоянна. Последнее и является ключевой особенностью
агглютинации при построении сети. Причем на вопрос, почему
последовательность аффиксации в агглютинативных языках
постоянна, однозначного ответа нет. Строгая последовательность
аффиксации может быть объяснена семантической связанностью
аффиксов со значением слова. Например, аффикс числа больше
связан со значением слова, чем аффикс падежа. В башкирском
бала-лар-ҙы (детей), где -лар – показатель множественного числа,
-ҙы – аффикс местно-временного падежа.
Сетевая модель агглютинативной морфологии находит
применение как для разработки инструментов автоматического
морфологического анализа, так и для квантитативных
исследований. Дальнейшие исследования преимуществ сетевого
подхода могут помочь в разработке универсальных инструментов
NLP для всех тюркских языков.
Мы полагаем, что все аффиксы в агглютинативных языках
можно разделить на классы по грамматическому значению.
Например, один класс включает возможные аффиксы
множественного числа, другой – аффиксы дательного падежа. В
башкирском языке в один класс попадут -лар, -тар, -дар, -ҙар и их
алломорфы -ләр, -тәр, -дәр, -ҙәр.
Рисунок 1. Подграф сетевой
модели современного
20
башкирского языка для грамматической категории
множетсвенного числа (Plural).
Предлагаемая нами модель агглютинативной морфологии
представляет собой сеть, в которой множество вершин – это
классы аффиксов с определенными грамматическими значениями
и показатели частей речи; дуги отражают позиционные отношения
между вершинами. Таким образом, в сетевой модели морфологии
башкирского языка есть вершина ‘Plural’, которая является
абстракцией грамматического значения множественного числа, и
дуги, представленные парами типа (‘Plural’, ‘Ablative’) и
(‘Possessive’, ‘Plural’), которые показывают возможное окружение
для ‘Plural’. То есть в словоформах башкирского языка перед
показателем множественного числа может стоять показатель
принадлежности, а после – показатель исходного падежа. В
сетевой модели количество пар с ‘Plural’ показывает все
возможные варианты совместной встречаемости показателя
множественного числа с другими показателями. Также в ней есть
вершины, означающие части речи, например вершина ‘NOUN’
(существительное), и пары типа (‘NOUN’, ’Plural’), показывающие,
какие показатели могут встречаться после основы определенной
части речи. Для каждой вершины есть свой набор пар. Путь в этой
модели (то есть набор вершин, соединенных дугами), который
начинается с вершин, означающих часть речи, представляет собой
модель словоформы.
Теперь рассмотрим последовательность (рис. 2) в сети
башкирской морфологии, которая представляет собой некое
чередование грамматических показателей, которое следует за
основой существительного. Такую последовательность можно
встретить,
например,
в
словах
эш-се-ләр-ҙеке
(башк.
принадлежащий рабочим).
21
Рисунок 2. Путь в сетевой модели башкирской
морфологии (существительное + абстрактное
+ во множественном числе + неличная
принадлежность).
Таким образом, в данном диссертационном исследовании
нам удалось разработать сетевую модель башкирской морфологии,
которая легла в основу разработанного нами морфологического
парсера для современного башкирского языка.
В параграфе 3.2 «Сопоставительный анализ ключевых
слов в русской и башкирской поэзии XX века» проводится
сопоставительный анализ наиболее важных, частотных, ключевых
слов (далее – КС) рассматриваемой эпохи в языке русской и
башкирской поэзии XX века.
В этом параграфе сопоставительному анализу подверглись
соотносительные пары ключевых слов, извлеченных из текстов
русской и башкирской поэзии, объединенных по десятилетиям:
1910-е, 1920-е, 1940-е, 1950-е, 1970-е годы. Указанные списки
ключевых слов, извлеченные автоматически при помощи меры TFIDF, представлены в приложениях диссертации.
При анализе лексических доминант нами выявлено, что во
втором десятилетии сохраняется тенденция использования
поэтами абстрактной, религиозной и мифологической лексики, а
также появление лексики, связанной с политическим дискурсом.
Например: рабочий, революция, знамя, коммуна, кадет, борьба,
воин. Появление подобной лексики, безусловно, можно связать с
политической ситуацией в стране, революцией 1917 года и
гражданской войной. Частотными являются имена собственные, не
связанные с мифологией, например Маша, Алеша, Никола. Среди
КС встречается лексика, обозначающая термины родства: дед,
22
отец, дочь. Также обнаруживаются лексические доминанты,
связанные с городским и деревенским бытом: городишко, железо,
завод, самовар, кирпичик, домбра, изба. Стоит отметить и наличие
топонимической лексики: Пермь, Нева, Париж. Возрастает
количество КС, которые относятся к общеупотребительной
лексике.
В башкирской поэзии этого периода возрастает количество
лексических доминант, описывающих чувства и имеющих
отношение к чувственному восприятию человека: иҫ (чувство,
сознание, память), хис (чувство), йөрәг (сердце), мөхәббәт
(любовь), еҫ (запах), һөйөү (любовь, ласка), һағыш (тоска, грусть),
шау (шум), еҫ (запах). Также появляются КС, которые относятся к
лексике, описывающей пейзажные образы: ҡыр (край), болот
(облако), үр (подъем, высота), шишмә (родник), ямғыр (дождь),
офоҡ (горизонт), ҡайын (береза), бүре (волк). Стоит отметить и
лексические доминанты дошман (враг), үлем (смерть, кончина),
көрәш (борьба), ҡылыс (сабля, меч), которые относятся к
милитаристскому дискурсу.
Военная лексика в башкирской поэзии второго десятилетия
XX в. может быть связана с политической ситуацией в России, что
убедительно доказывает анализ дистрибутивных характеристик
КС.
В
параграфе
3.3
«Сопоставительный
анализ
дистрибутивных моделей русской и башкирской поэзии XX
века»
посвящен
выявлению
особенностей
применения
дистрибутивных моделей в текстовом пространстве русской и
башкирской поэзии XX века.
Примечательным для изучения векторных моделей слов
является тот факт, что с помощью подобных моделей можно
вычислить слова с наиболее близкими значениями. Они образуют
группы слов, включающие синонимы, антонимы, гиперонимы,
гипонимы и коллокации. Мы основываемся на гипотезе
дистрибутивной семантики: «степень семантической близости
между двумя лингвистическими единицами А и В есть функция
схожести лингвистических контекстов, в которых могут
употребляться А и В». Таким образом, найдя для определенного
слова группу слов, схожих по контексту, мы можем раскрыть
различные аспекты значения этого слова, то есть схожие по
23
контексту слова образуют ассоциативный ряд, который может
быть использован для раскрытия понятия, отражаемого
анализируемым словом.
Например, мы рассмотрели понятия счастие в русской
поэзии XX в. и бәхет – в башкирской, вычислив и
проанализировав слова, наиболее схожие с ними по контексту. Мы
получили следующие группы слов. Для слова счастие: радость,
надежда,
утрата,
счастливый,
молодость,
суждено,
блаженство, беспеременный, вечно.
Для слова бәхет: юра (предсказывать, толковать),
бәхетле (счастливый), юлдаш (спутник), өләш (раздавать,
выделять долю), теләп (желать), ҡыуаныс (радость), ышаныс
(надежда, вера), өмөт (надежда).
Поскольку слова, схожие по контексту, а следовательно, и
по значению, с понятием «счастье», в русской и башкирской
поэзии различаются, значит, различаются и контексты
употребления счастие и бәхет, а соответственно, и семантика
данных слов. Сопоставляя полученные данные, мы можем делать
выводы о схожести и различии национально-специфических черт
семантики одного и того же понятия.
Счастье русские и башкирские поэты связывают прежде
всего с радостью. Основное сходство в семантике мы можем
описать тезисами: «счастье – это то, что приносит радость»;
«счастье – это то, на что надеются». Отличие заключается в том,
что русские поэты связывают счастье с молодостью, а башкирские
поэты в одном контексте используют слова бәхет и өләш, өлөш.
Для башкирских поэтов счастье – это непременно то, чем люди
делятся. А вот русские поэты в одном контексте употребляют
счастие и утрата, что может говорить о боязни потерять счастье.
Нам удалось успешно использовать предложенную в данном
диссертационном исследовании методику сопоставительного
анализа текста на материале русской и башкирской поэзии XX
века.
В
заключении
обобщаются
основные
положения
исследования, подводятся его итоги.
В результате проведенного исследования мы выяснили, что
русские поэты остро реагировали и отражали в своих
24
произведениях все ключевые события XX века, а также по-разному
оценивали эти события от десятилетия к десятилетию.
В башкирской поэзии XX века не обнаружено подобной
активной реакции поэтов на происходившие события; наибольшее
влияние на башкирскую поэзию оказали Вторая мировая война и
революция 1917 года. Кроме того, башкирская поэзия отличается
нейтральностью в оценке тех или иных явлений и событий и
идеологической направленностью, которая сохранялась на
протяжении всего XX века. Нам сложно делать выводы о том,
почему обнаруживается такая ситуация, поскольку мы не можем
охватить многих экстралингвистических факторов, которые
выходят за рамки применения предложенной нами методики. Но
мы можем сделать некоторые предположения, а именно:
отсутствие разнообразной оценки тех или иных событий и явлений
можно объяснить сильным влиянием советской идеологии и
цензуры. В то же время подобная ситуация отчасти может быть
объяснена традиционалистическим мышлением, свойственным
башкирскому народу.
Исследования по вышеизложенной проблематике могут
быть продолжены с использованием нескольких пар родственных
и неродственных языков и подбором наиболее оптимальных
алгоритмов и новых правил обработки корпусных данных.
Основное содержание диссертации отражено в следующих
публикациях:
Статьи в рецензируемых научных изданиях,
рекомендованных ВАК Министерства образования и науки
Российской Федерации:
1. Гречачин В.А. К вопросу о токенизации текста //
Международный научно-исследовательский журнал. 2016. № 6
(48). Часть 4. С. 25-27.
2. Гречачин В.А. Лексика М.-А. Чукури в статистическом
освещении // Международный научно-исследовательский журнал.
2016. № 12 (54). Часть 2. С. 76-78. (в соавторстве).
3. Гречачин В.А. Сетевая модель агглютинативной
морфологии // Международный научно-исследовательский журнал.
2018. № 1 (67). Часть 4. С. 101-105.
25
4. Гречачин В.А. Статистические методы в исследовании
текстов // Вестник Башкирского университета. 2018. Т. 23. № 3. С.
917-921.
Статьи, опубликованные в других изданиях:
1. Гречачин В.А. Анализ особенностей употребления лексемы
«however» в английском языке на основе корпусных данных / В. А.
Гречачин // Актуальные проблемы теоретической и прикладной
филологии. Материалы I международной электронной (заочной)
научной конференции. – Уфа: РИЦ БашГУ, 2015. С. 44 – 47.
2. Гречачин В.А.
Категориально-понятийный
аппарат
корпусной лингвистики / В.А. Гречачин // Межкультурная ↔
интракультурная коммуникация: теория и практика обучения и
перевода. Материалы IV международной научно-методической
конференции. – Уфа: РИЦ БашГУ, 2015. С. 164 – 169.
3. Гречачин В.А. Понятие токенизации в корпусной
лингвистике / В. А. Гречачин // Современные тенденции развития
науки и технологии: Сборник научных трудов по материалам IX
международной научно-практической конференции. – Белгород:
АПНИ, 2015. С. 49 – 51.
4. Гречачин В.А. Понятие морфологического парсинга в
корпусной лингвистике / В. А. Гречачин // Актуальные проблемы
русской и сопоставительной филологии: теория и практики:
Материалы Международной научно-методической конференции. –
Уфа: РИЦ БашГУ, 2016. С. 173 – 176.
5. Гречачин В.А. Проблема компьютерной обработки
однобуквенных аффиксов старотюркского языка / В.А. Гречачин //
Актуальные проблемы диалектологии языков народов России. XVI
Всероссийская конференция (с международным участием):
Материалы XVI Всероссийской конференции. – Уфа: ИИЯЛ УНЦ
РАН, 2016. С. 126 – 129.
6. Гречачин В.А. Алгоритм морфологического парсинга
старотюркских текстов (на материале текстов М.-А. Чукури / В. А.
Гречачин // Материалы международной научно-практической
конференции "Интеграция образования, науки и производства" /
отв. ред. А.Б. Агзамова. – Актобе: Актюбинский университет им.
С. Баишева, 2016. С. 228 – 231.
26
7. Гречачин В.А. / Алгоритм морфологического парсинга
старотюркских текстов (на материале текстов М.-А. Чукури В.А.
Гречачин // Наука будущего – наука молодых: Сборник тезисов
участников форума. – Казань, 2016. Том 1. С. 116 – 118.
27
Документ
Категория
Без категории
Просмотров
10
Размер файла
854 Кб
Теги
свет, башкирский, века, поэзия, язык, подход, русской, дистрибутивность
1/--страниц
Пожаловаться на содержимое документа