close

Вход

Забыли?

вход по аккаунту

?

НЕГАУССОВОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКО-СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ВАРИАТИВНОГО ТЕКСТА (НА ПРИМЕРЕ «СКАЗАНИЯ О МАМАЕВОМ ПОБОИЩЕ»)

код для вставкиСкачать
ФГБОУ ВПО «Санкт-Петербургский государственный университет»
На правах рукописи
Ковригина Любовь Юрьевна
НЕГАУССОВОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКО-СТАТИСТИЧЕСКОЙ
СТРУКТУРЫ ВАРИАТИВНОГО ТЕКСТА
(НА ПРИМЕРЕ «СКАЗАНИЯ О МАМАЕВОМ ПОБОИЩЕ»)
Специальность 10.02.21 – Прикладная и математическая лингвистика
Автореферат диссертации
на соискание ученой степени кандидата филологических наук
Санкт-Петербург – 2014
Работа выполнена на кафедре математической лингвистики федерального
государственного бюджетного образовательного учреждения высшего
профессионального образования «Санкт-Петербургский государственный
университет»
Научный руководитель:
Чебанов Сергей Викторович,
доктор филологических наук, профессор,
Официальные оппоненты:
Спивак Дмитрий Леонидович,
доктор филологических наук,
старший научный сотрудник,
Институт мозга человека РАН, группа по изучению нейрофизиологии
мышления, творчества и сознания, ведущий научный сотрудник,
Санкт-Петербургский филиал Российского института культурного и
природного наследия им. Д.С.Лихачева, директор
Орехов Борис Валерьевич,
кандидат филологических наук,
Национальный исследовательский университет
«Высшая школа экономики»,
факультет филологии, доцент
Ведущая организация:
ФГБОУ ВПО «Тюменский
государственный университет»
Защита состоится “__” ___________ 2015 г. в ____ часов на заседании Совета
Д 212.232.23 по защите диссертаций на соискание степени доктора
филологических наук, на соискание степени кандидата филологических наук
при ФГБОУ ВПО «Санкт-Петербургский государственный университет» по
адресу: 199034, Санкт-Петербург, Университетская наб. д.11, ауд._____.
С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького
Санкт-Петербургского государственного университета (г. Санкт-Петербург,
Университетская набережная, д.7/9)
Автореферат разослан «___» ___________ 2014 г.
Ученый секретарь диссертационного совета,
кандидат филологических наук,
2
Манерова К.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.
К настоящему времени лингвостатистика достигла определённой степени
зрелости. Это выражается в наличии, по крайней мере, трех областей
исследований, которые находятся в тесной взаимосвязи друг с другом.
Во-первых, это изучение статистики языковых единиц разных уровней
(фонем, букв, слогов, морфем, словоформ, лексем, словосочетаний,
синтаксических конструкций) в текстах самой разной природы и их
фрагментах. Начавшись в 1930-х гг. с работ Дж. К. Ципфа, подобные
исследования продолжаются по настоящее время, а их результатом является
формирование представления о резкой неравночисленности единиц разных
уровней в тексте, накопление всё более точных количественных характеристик
этих распределений для тех или иных лингвистических объектов (современных
и древних текстов, технической документации и художественной литературы,
спонтанной устной речи и поэтических текстов с жесткой структурой, такой
как у сонетов и канцоны, и т.д.).
Во-вторых, это широкий круг практических разработок, основанных на
изучении статистики лексических единиц. Прежде всего, это частотные словари
разных национальных языков, профессиональных и социальных диалектов,
идиолектов отдельных авторов (Засорина, 1977, Творогов, 1984, Ляшевская,
Шаров, 2009, Гребенников, Мартыненко, 1999, 2011, Шайкевич, Андрющенко,
Ребецкая, 2003, Алексеев, 2004, Kučera, Francis, 1967, Urai, Ando, 2003) и т.д.
Такие словари являются основой для решения широкого круга прикладных
задач – лингводидактики (учебные частотные словари ― Алексеев, 1998, Зубов,
1990), стилеметрии (Мартыненко, 1988), атрибуции анонимных и
псевдонимных текстов (Марусенко, 1990), в том числе, для целей
осуществления судебно-криминалистических экспертиз и т.д.
В-третьих, это теория лингвостатистических распределений, которая
формируется на стыке теории вероятности и математической статистики,
лингвистики и лингвостатистики, психолингвистики и эстетики и т.д. Несмотря
на примерно восьмидесятилетнее развитие этой области, она полна дискуссий и
противоречий, представляя собой поле жесткой борьбы порою резко
различающихся точек зрения (Арапов, Шрейдер, 1978, Бычков, 1986,
Пиотровский, Бектаев, Пиотровская, 1977, Herdan, 1964).
Одной из самых острых проблем теории лингвостатистических
распределений является вопрос об их гауссовости или негауссовости
(Мартыненко, 1978, 1988, Чебанов, 2012, Popescu, Mačutek, Altmann, 2009). При
этом надо отметить, что в большинстве случаев этот вопрос обсуждается с
обращением к выборкам языкового материала большего или меньшего объема
(при том, что современные принципы и практика корпусной лингвистики
позволяет оперировать с объемом материала, измеряемым миллионами
словоупотреблений), и вопрос в большой мере сводится к обсуждению
репрезентативности тех или иных выборок этого материала (Беликов, Копылов,
Пиперски, 2013).
Вместе с тем, как на это обращал внимание еще Ципф (Zipf 1935, 1949), а
позднее отмечали другие исследователи (Налимов, 1979, Арапов, Шрейдер,
3
1978) лингвостатистические распределения дают представление не о статистике
отдельных репертуарных единиц (морфем, лексем, словаря) в языке, но об их
статистике в тексте. В таком случае, лингвостатистические распределения
оказываются инструментом изучения не языка, а речи, текста. Тем не менее,
изучение статистики текста остается до сих пор делом новаторским, не вполне
концептуально проясненным, хотя и пересекается с работами по интенсивно
развивающейся ныне лингвистике текста.
Однако, если говорить о лингвостатистике текста, то ситуация как с
теоретической, так и с практической точки зрения не является абсолютно
ясной.
Дело в том, что при всем разнообразии (Филиппов, 2003) текстов,
наиболее изучаемыми являются авторские художественные тексты нового и
новейшего времени, тиражируемые с помощью традиционной гутенберговской
полиграфии, обеспечивающей идентичность разных отпечатков одного тиража.
Ситуация же с устными и рукописными текстами, произведениями
самиздата,
современной
городской
(авторской)
песней,
текстами,
циркулирующими в интернете, и т.д. оказывается совсем иной. Для таких
текстов не существует эталонного, окончательного, подлинного авторского
варианта, который и должен быть предметом исследования с позиций
лингвистики текста.
Прецеденты рассмотрения таких текстов были и ранее (Лихачев, 2001,
Корона, 1999, Пропп, 2003). Однако, целенаправленно концентрируясь на
изучении таких текстов, Ю.В.Доманский обосновывает представление о том,
что они должны рассматриваться в качестве особого класса текстов –
вариативных текстов, трактуемых им следующим образом «категория варианта
… важна уже потому, что в неклассической художественности произведение не
реализуется только в каком-то одном варианте, а представляет из себя
совокупность текстуальных (в широком смысле) манифестаций, каждая из
которых обладает относительно самостоятельными смыслами. Это сближает
словесность парадигмы неклассической художественности с фольклором и
древней литературой» (Доманский, 2006). Такими текстами являются и сказки
(см. на эту тему работы В.Я.Проппа), рукописные тексты Средневековья,
многие тексты замкнутых профессиональных и полупрофессиональных
сообществ и т.д.
По отношению к таким текстам возникает новый круг задач из области
лингвистики текста, которые лишь отчасти пересекаются с задачами,
рассматриваемыми в текстологии, – как в авторско-гутенберговской, так и в
средневековой (Лихачев, 2001). Очевидно, что описание особенностей
вариативных текстов – серьезная самостоятельная задача, решение которой
предполагает формирование обширной самостоятельной исследовательской
программы.
В контексте же лингвостатистических исследований может быть
поставлен вопрос об особенностях лингвостатистических распределений
вариативных текстов. Этот вопрос тем более интересен, что не было не только
каких-то попыток его изучения на конкретном материале, но он даже не
4
ставился в такой форме. Предлагаемая же постановка вопроса позволяет поновому обсуждать всю лингвостатистическую проблематику.
В связи с этим важно иметь в виду то, что к настоящему времени
сложилось несколько методологически различных подходов к описанию
статистической структуры текстов и других поликомпонентных объектов
К настоящему времени сложилось несколько методологически различных
подходов к описанию статистической структуры текстов и других
поликомпонентных объектов – внутренних систем по терминологии
Ю.А.Шрейдера (Шрейдер, 1977).
Начало таким исследованиям заложили работы В.Парето, Дж.Юла,
Дж.Виллиса, Дж.Ципфа, Б.Мандельброта (конца XIX – первой половины
XX вв.), обнаруживших сходный тип распределения, репрезентирующий
резкую неравномерность численности объектов. Несмотря на неадекватность
аппроксимации для отдельных участков кривой эмпирического распределения,
наиболее известным оказалось ранговое распределение Ципфа (гипербола, или,
как оно называется в лидирующей сейчас отечественной школе Б.И.Кудрина, –
Н-распределение).
В практике описания подобных ранговых и спектровых распределений
применяется множество аппроксимирующих функций, каждая из которых
может быть оспорена. Разногласия наблюдаются не только в выборе
аналитической модели, но и во мнении исследователей относительно объема
(достаточности) материала репрезентативной выборки (этот вопрос
нерелевантен только при изучении выборки, совпадающей с генеральной
совокупностью, т.е. при описании частотной структуры целых объектов).
Характеристики гиперболических ранговых распределений частот
лексики текстов на естественном языке указывают на негауссовость таких
распределений: дисперсия увеличивается с объемом выборки, выборочная
средняя
величина
неинформативна
и
даже
бессмысленна
из-за
неопределенности генеральной средней (Шелухин, Беляков, 1992, Кудрин,
2002). При этом в лингвостатистике на протяжении более чем полувека широко
применяются методы классической статистики, в том числе установление
характеристик генеральной совокупности по выборке и многочисленные
методы оценки. Таким образом, исследователь оказывается перед выбором
одного из альтернативных классов распределений: гауссовых или негауссовых.
С одной стороны, представляется несомненной негауссовость
совокупностей (в настоящей работе принимается гипотеза именно о
негауссовой природе лексико-статистических распределений), имеющих резко
асимметричное распределение, и невыполнение для них центральной
предельной теоремы (ЦПТ, даже существование которой не принимается во
внимание некоторыми исследователями), а также неопределенность для них
моментов любого порядка, в частности, дисперсии, что определяет
некорректность использования традиционных статистических методов
моделирования и оценки (см., напр., работу С.Д.Хайтуна - Хайтун, [20― ―?]).
Принятие идеи негауссовости для лингвостатистических распределений делает
5
неправомерным приписывание слову в языке определенной вероятности,
оставляя возможность говорить только о частоте по корпусу.
Вслед за констатацией этого факта, исследователь оказывается в
ситуации отсутствия удовлетворительных способов описания негауссовых
распределений при наличии нескольких вариантов техники осуществления
такого описания. Последнее обстоятельство ставит вопрос о необходимости
либо выбора лучшей из имеющихся моделей, либо создания новой
универсальной модели.
В связи с этим к рассмотрению привлекаются модели из других
предметных областей, тем более, если эти модели самими их создателями
трактуются как универсальные (метод RHA, S-распределение, Нраспределение), применимые к любому материалу с подобными свойствами
(когда можно говорить только о частоте по корпусу – выборочной частоте).
При этом, как показывает опыт моделирования, если модель обладает
высокой степенью адекватности, то её приложение к новому, в данном случае
лингвистическому, материалу может обнаружить новые нетривиальные
свойства последнего. Однако, подобная универсальность для части
обсуждаемых в диссертации моделей ранее никогда не подтверждалась на
едином текстовом материале.
С другой стороны, кривая распределения (при разбиении на зоны)
неплохо описывается некоторыми гауссовыми (в смысле выполнения для них
ЦПТ) законами распределения (см. работы Г. Я. Мартыненко– Мартыненко,
1978, 2009 – и Г. Хердана – Herdan, 1964).
Таким же спорным вопросом, как и адекватность статистического
аппарата,
является
аналитический
вид
распределения,
его
одномодальность / полимодальность (споры проистекают из соображений о
смешанной / однородной природе генеральной совокупности), параметры
теоретического распределения и некоторые другие.
Таким образом, методологические вопросы моделирования структуры
текста как поликомпонентного объекта требуют прояснения. Дискуссионные
методологические основания были исследованы в настоящей работе с точки
зрения их реализации в конкретных статистических моделях и
проинтерпретированы с помощью изучения сопоставимости полученных
результатов моделирования.
Содержательно исследование представляет собой построение метамодели
лексико-статистической структуры вариативного текста – «Сказания о
Мамаевом побоище» («Сказания»). Частотные словари «Сказания о Мамаевом
побоище» после подтверждения роста дисперсии в спектровых распределениях
вариантов текста были обработаны с помощью каждого из выбранных средств
изучения совокупностей, после чего были произведены сопоставления
характеристик этих средств и содержательный анализ результатов
применительно к тексту «Сказания».
Степень
разработанности
проблемы.
Проблема
природы
гауссовости / негауссовости Н-распределений является одной из тех проблем,
обсуждение которых, несмотря на его напряженность, не получило своего
6
завершения (Яблонский, 1977, Арапов, Шрейдер, 1978, Мартыненко, 1978,
2009, Налимов, 1979, Шелухин, Беляков, 1992, Кудрин, 2002, Хайтун, 1983,
2005, Popescu, Mačutek, Altmann, 2009 и др.). Нередко при моделировании
компонентной структуры текстов принимается не принципиальное, а
операциональное допущение об устойчивости / неустойчивости частот (без
обсуждения вопроса о существовании вероятности), определяемое на
основании опыта исследователя и эмпирического материала, в то время как
собственно математический аппарат негауссовых распределений слабо
разработан, не говоря уже о практике его использования при описании
конкретного материала. В силу этого, сам факт того, что настоящая работа –
первая, в которой исследуется сопоставимость моделей, которые не используют
представления
о
гауссовости
лингвостатистических
распределений,
принципиально отличает её от подавляющего числа исследований в данной
области.
Указанное положение дел, связанное с содержательно-типологической
ограниченностью материала исследований и научными позициями авторов,
привело к тому, что для разных дискретных и недискретных объектов были
разработаны концептуально различные методы без попыток апробации
методики на инородном (в частности, лингвистическом) материале
достаточного объема.
При этом, хотя накапливается всё больше аргументов в пользу того, что
речь идет об использовании нового класса теоретических статистик, проводятся
новаторские работы (причем на эмпирическом материале разных дисциплин),
статус – предметно-специфический или универсальный – получаемых
результатов не прояснен. Таким образом, сама история моделирования
количественных соотношений компонентов в объекте, характеризующемся
свойствами целостности и системности, предполагает проведение именно
междисциплинарных исследований в этой области.
Следует отметить, что вопрос об аппроксимации одного и того же
эмпирического материала разными математическими моделями неоднократно
ставился
в
исследованиях
по
математической
лингвистике
(Пиотровский, Бектаев, Пиотровская, 1977, Мартыненко, 1978, Тулдава, 1986,
Крылов Ю.К., 1996, Кромер, 2001). Однако подавляющее большинство
исследований сводится к подтверждению адекватности одной модели для
разного эмпирического материала, поэтому эквивалентность/специфичность
моделей компонентной структуры негауссовых совокупностей равно как и
методы оценки качества их аппроксимации остается совершенно
неразработанной областью.
Компонентная же структура вариативного текста как самостоятельный
предмет изучения ранее не исследовалась вовсе, и статистические данные о
соотношении компонентов в вариантах одного текста представлены впервые
именно в настоящей работе. При этом впервые средневековый рукописный
текст представлен как текста вариативный, несмотря на подготовленность
такой трактовки текста результатами, полученными текстологами и
палеографами.
7
Актуальность проведенного исследования обоснована отсутствием
данных о сопоставимости результатов, получаемых с помощью разных
моделей, в том числе, моделей, созданных в разных дисциплинах, в которых
были предложены модели статистической структуры поликомпонентных
объектов, часть из которых опирается на гауссовость распределения
совокупности компонентов, а часть – на негауссовость.
В силу вышесказанного проведенное исследование является крайне
актуальным, поскольку результаты исследования проясняют характер и степень
универсальности наиболее распространенных техник изучения негауссовых
совокупностей. Актуальность усиливается тем, что, при наличии большого
объема эмпирических данных по лингвостатистике, отдельные массивы этих
данных разрабатываются внутри нескольких альтернативных версий
представлений о природе лингвостатистических распределений, поскольку
развитие этой области идет не путем накопления и обобщения данных,
полученных предшествующими исследователями, а путем выдвижения нового
взгляда на предметную область. Такая ситуация характерна для
революционного, а не кумулятивного типа развития и свидетельствует о
дефиците обобщающих концепций в этой области.
Кроме
прояснения
теоретических
вопросов,
выявление
интерпретационной силы и активизация применения негауссовых моделей,
описывающих компонентную структуру текста, являются крайне важными для
задач, связанных с машинным обучением, поскольку в этой области проблема
сходимости параметров выборки к параметрам генеральной совокупности
относится к критичным. При проецировании модели, построенной по
обучающей выборке и улучшенной по проверочной, на тестовые данные
(Ripley, 1996) часто происходит ухудшение качества, что объясняется
принадлежностью выборок к разным генеральным совокупностям. Можно
выдвинуть гипотезу, что ухудшение качества обусловлено также и
негауссовостью лингвистических совокупностей, проявляющейся в постоянном
появлении маргинальных значений признаков и приводящей к изменению
средних значений признака в обучающей и тестовой выборке и, что еще хуже, к
чрезмерно близкой подгонке параметров имитационной модели.
Кроме того, идея негауссовости распределений лексики по числу
употреблений полностью соответствует взглядам на порождение текста, как на
процесс, определяющийся не вероятностью появления слова, а целями
индивидуума, порождающего этот текст (Налимов, 1979, Шрейдер, 1996).
Вышеизложенное свидетельствует об обоснованности и необходимости
учета негауссовости при обработке данных и установлении универсальности
моделей, не опирающихся на гауссовские статистики.
Цель настоящего исследования заключается в построении метамодели
лингвостатистических распределений частот лексики вариативного текста,
которая позволит, с одной стороны, выявить сопоставимые меры и параметры
рассматриваемых моделей и показать различия моделей, а с другой – выявить
содержательно
интерпретируемые
количественные
характеристики
диахронических изменений текста. В соответствии с поставленной целью в
8
работе осуществляется прояснение универсальности и интерпретационной
силы моделей, не учитывающих гауссовость лингвостатистических
распределений,
сравнение
характера
аппроксимации
эмпирических
распределений лексики разными теоретическими распределениями и
обсуждение характера получаемых результатов и их интерпретируемости.
Достижение этой цели потребовало решения следующих задач:
1. Описание и критический анализ разных подходов (статических и
динамических) к изучению поликомпонентных объектов, а также выявление
концептуально значимых признаков для их сопоставления. В работе
рассматриваются следующие средства изучения совокупностей:
― информационный язык RHA Т.Г.Петрова, применяемый для описания
объектов разной природы (Петров, 1971, 2008, Петров, Фарафонова, 2005);
― структурно-топологический анализ временных рядов В. В. Фуфаева
(Фуфаев, 1996, 2006, 2010), аналогичный модели изменения словаря во времени
М. В. Арапова и М.М.Херц (Арапов, Херц, 1972), но разработанный
совершенно независимо;
― методы описания ценозов посредством модели простых чисел и
пойнтер-точки R Б. И. Кудрина (Кудрин, 1974, 2002, 2007), сложившиеся
внутри ценологического подхода;
― методика Г. Я. Мартыненко, с выделением в структуре неоднородной
совокупности «ядра» и «периферии» (Мартыненко, 1978, 2009);
― принцип максимума диссимметрии Ю. А. Шрейдера-М. В. Арапова
(Арапов, Шрейдер, 1978), ориентированный на отражение целостности
структуры объекта;
― методика В. П. Маслова (Маслов, 2006а, б), направленная на
улучшение аппроксимации эмпирических данных распределением Ципфа,
принятым в качестве эталонного;
― методика Г. Альтманна, И.-И. Попеску и Я. Машутека, основанная на
выделении функциональных зон в ранговом распределении (Popescu, Mačutek,
Altmann, 2009).
2. Сравнение результатов применения этих методов к одному и тому же
материалу – «Сказанию о Мамаевом побоище».
3.
Установление
содержательной
интерпретации
полученных
количественных характеристик.
Следует отметить, что модели В. В. Фуфаева и Т. Г. Петрова
применяются их авторами для анализа временных рядов, а другие
рассматриваемые «статические» модели не содержат жестких ограничений на
добавление «динамической» компоненты и допускают переход к анализу
темпоральных изменений объекта. Однако оказывается крайне сложным
осуществить анализ временных рядов в чистом виде на материале «Сказания о
Мамаевом побоище» из-за существования транзитивного полиморфизма
(Мейен, 1978; о применении транзитивного полиморфизма к литературному
материалу см. работу В.В.Короны – Корона, 1999).
Включение диахронических моделей в план исследования потребовало
формулирования принципиально новых требований к отбору исследуемого
9
материала, так что для достижения поставленных целей оказались наиболее
пригодными тексты, квалифицируемые как вариативные, т.е. существующие во
множестве равноценных вариантов.
Текст, подходящий для такого исследования, должен иметь некоторое
количество зафиксированных промежуточных стадий, «следов» процесса
изменения. Поэтому речь идет об исследовании вариантов одного текста (см.
главу 2). Таким текстом и является текст «Сказания».
Материалом исследования послужили 8 списков «Сказания» (описание
см. в таблице 1).
Таблица 1 ― Списки «Сказания», привлеченные для исследования
Время
Датировка
Особенности
№ Название редакции
возникновеи шифр списка
редакции
ния редакции
Типовые списки редакций в хронологическом порядке
1 Основная (ОР)
не ранее 1-й
XVI в.,
Редакция,
наиболее
четверти XV в. РНБ O.IV.22
близкая к протографу
2 Летописная (ЛР)
конец XV –
XVI в.,
Летописная повесть +
нач. XVI вв.
СПбОИИ №251 ОР
3 Киприановская (КР)
1526-1530 гг.
XVI в.,
Структура Летописной
БАН 32.14.8
повести + сокращенная
ОР,
возникла
в
церковной
среде,
прославление
митрополита Киприана
4 Распространенная
до начала
XIX в.,
ОР + 2самостоятель(РР)
XVII в.
РНБ Q.IV.354
ные
повести
«О
посольстве Захария»,
«О новгородцах»
5 Редакция в составе
ок. 1680 г.
конец XVIII в., Последовательное
Киевского Синопсиса
РНБ Собр.
сокращение
ОР,
(РС)
Колобова,
местами вставки
№336
Нетиповые и компилятивные списки
6 Сокращенный
не
XVII в., РНБ
Искусное сокращение
вариант
установлено
Q.XVII.70
текста РР
Распространенной
редакции
7 Компилятивный
не
XIX в., РНБ
Компилят
вариант
установлено
O.IV.46
Распространенной
Распространенной
редакции, в котором
редакции
прочитывается
11
других источников.
8 Беллетризованный
не
XIX в.,
ОР, опущены молитвы
вариант Основной
установлено
РНБ Собр.
+ поздние вставки
редакции
Михайловского, № Q.509
Эти списки включают типовые списки редакций (по Л. А. Дмитриеву –
Тихомиров, Ржига, Дмитриев, 1959, Дмитриев, 1982; номера 1-5 в таблице 1) и
списки, представляющие интерес для изучения статистических различий
10
между: а) полным текстом редакции и текстом, представляющим ее
систематическое сокращение (номера 4 и 6); б) полным текстом и текстом,
сокращенным с целью беллетризации (номера 1 и 8); в) текстом, близким к
авторскому, и компилятивным текстом (номера 4 и 7).
Объектом исследования является множество статистических моделей
текстов «Сказания», создаваемых при представлении текста как
поликомпонентного объекта. Предмет исследования составляет характер и
степень сходства / различия этих моделей (метамодель вариативного текста
«Сказания»).
В полном соответствии с междисциплинарностью, как одной из основных
особенностей математической лингвистики, в качестве рабочей гипотезы была
принята квазиуниверсальность и квазиэквивалентность разных приемов
изучения компонентного состава, что обеспечивает частичную сопоставимость
результатов, получаемых с их помощью.
Новизна работы определяется тем, что автором впервые произведена
апробация концептуально разных методов моделирования компонентной
структуры (как в статике, так и в динамике) на одном и том же монографически
обработанном материале. Результаты, полученные автором, позволяют
расширить эмпирическую базу для дальнейших исследований. Кроме того,
получен ряд новых ценных фактов о количественных коррелятах
содержательных особенностей вариантов текста (выявление скореллированного
изменения частоты словоупотреблений фиксированных частотных зон
распределения лексики как индикатор идеологически целенаправленной правки
текста, динамика числа hapax legomena (определяемых в настоящей работе, как
слова, встретившиеся в рассматриваемом тексте по одному разу) как индикатор
стилистической трансформации текста и т.д.
Кроме того, впервые были получены количественные данные о
целостном вариативном тексте, изменявшемся на протяжении 400 лет (до этого
в диахронии изучались только частотные характеристики отдельных лексем).
Определение статистических свойств вариативного текста, выявление
статистических коррелятов изменений, вносимых в текст в процессе создания
редакций, переработок, компиляций, составляют несомненную новизну данной
работы.
Автором создан претендующий на репрезентативность микрокорпус из 8
исследованных вариантов текста «Сказания», включающий 5 неизданных
списков «Сказания», впервые представленных автором по единым правилам в
машиночитаемой форме.
В процессе работы над диссертацией использованы методы а)
представления рукописного текста в машиночитаемом виде в соответствии с
методикой проекта СКАТ, б) статистической обработки текста, в)
сопоставления результатов статистической обработки, г) выявления
инвариантов. Расчеты и исследования производились с помощью пакета
Attestat, встроенного в Microsoft Excel, пакета Statgraphics, макросов Visual
Basic для Microsoft Excel, системы Mathcad, процедур, реализованных на
11
языках программирования С и Python, системы для обработки естественного
языка NooJ, морфологического анализатора mystem (Яndex).
На защиту выносятся следующие положения:
1. Для лингвостатистического анализа «Сказание» выступает как
представитель особого типа объектов – вариативного текста, количественные
характеристики которого впервые получены в настоящей работе.
2. Использование разных методов лексико-статистического анализа
обнаруживает у изученных списков «Сказания» следующие особенности:
а) для списков, написанных скорописью, уменьшается диагностический
параметр β, который чувствителен к изменению интенсивности использования
графических дублетов в рукописи;
б) компонентная структура церковной Киприановской редакции наиболее
отлична от других версий «Сказания» по базовым лексико-статистическим
характеристикам (относительная частота в тексте слова с рангом 1 – союза и,
доля hapax legomena в словаре и тексте, отношение объема словаря к объему
текста), её месту на диаграммах «энтропия-анэнтропия», динамике прироста
скользящего коэффициента вариации, что объясняется обилием предлогов и
усложненными синтаксическими конструкциями;
в) компонентная структура беллетризованного списка претерпевает
изменения в процессе беллетризации, связанные с целенаправленным
удалением из текста религиозной лексики, что влияет на форму Sраспределения (оцениваемую увеличением угла наклона одной из его ветвей к
оси абсцисс).
3. Пойнтер-точка R и правая граница монотонности прироста
скользящего коэффициента вариации спектрового (видового) распределения
либо совпадают, либо близки и выделяют наиболее высокочастотную лексику.
Точка h Хирша пригодна для отсеивания служебной лексики и формирования
списка стоп-слов. Полнозначные слова, имеющие частоту больше h в ранговых
распределениях ЧС лексем «Сказания», относятся к религиозной лексике,
именам собственным и титулатуре.
4. Методики изучения динамики разночастотных компонентов
В.В.Фуфаева и М.В.Арапова-М.М.Херц дают частично сопоставимые
результаты, а их совмещение на стабильной зоне S-распределения выявляет
лексику, маркирующую вставные повести в вариантах Распространенной
редакции и установляет количественные индикаторы идеологической правки
текста – его беллетризации (по списку собрания Михайловского, Q.509).
5. Статистическая структура текста обладает высокой устойчивостью,
которая проявляется в сохранении относительных частот классов разных
численностей при сокращении текста.
6. Коэффициент конкордации Кендэла применим для установления
однородности выборки и чувствителен к введению в выборку инородного
текста.
Теоретическая значимость работы заключается в построении
метамодели рассматриваемых способов анализа текста, обеспечивающей
12
сопоставимость результатов, получаемых с помощью разных методик на одном
и том же материале. Тем самым удается частично прояснить соотносимость
получаемых результатов. В работе впервые осуществлена постановка задачи о
статистическом исследовании структуры вариативного текста, что открывает
принципиально новые перспективы лингвостатистических исследований.
Практическую ценность представляет возможность оптимизации
процедуры
исследования
компонентной
структуры
текста
как
поликомпонентного объекта и выявление границ универсальности /
специфичности таких процедур, а также основанная на этом оптимизация
ситуативного выбора тактики исследования при статистическом изучении
текстов как поликомпонентных объектов. Полученные результаты могут быть
использованы при подготовке курсов по лингвостатистике и оптимизации
методов лингвостатистических исследований.
Достоверность и научная обоснованность результатов исследования
подтверждается следующими особенностями процедуры, массива изученных
списков и полученных результатов: 1) унифицированностью методики
перевода текста в машиночитаемую форму, 2) тщательной двукратной сверкой
машиночитаемого и рукописного текста, 3) дублированием расчетов с
помощью разных расчетных пакетов, 4) сопоставимостью результатов,
полученных с помощью нескольких методик, качественным воспроизведением
результатов для разных списков и типов частотных словарей, 5)
эксплицитностью допущений, произведенных при построении моделей, 6)
содержательной интерпретируемостью значительного числа полученных
результатов, 7) принадлежностью исследуемых списков к контрастно
различным аспектам варьирования текста.
Апробация работы. Материалы работы докладывались на конференции
«Специфика ценологических представлений разных школ» в рамках
«Федоровских чтений-2011» (Московский энергетический институт – МЭИ,
кафедра электрики промышленных предприятий, г. Москва, 2011 г.) и семинаре
по общей и прикладной ценологии в рамках Федоровских чтений-2012 (там же,
2012 г.), семинаре по прикладной лингвистике в Балтийском государственном
техническом университете (БГТУ, г. Санкт-Петербург, руководитель семинара
–
С.В.Чебанов),
семинаре
по
биогерменевтике
Петербургского
лингвистического общества (сентябрь – октябрь 2012 г.), 14-й конференции
«Conference of Open Innovations Association FRUCT», Хельсинки, 11-15 ноября
2013 г.
Внедрение. Материалы исследования использованы при чтении курса
«Формальные модели в лингвистике» на факультете прикладной лингвистики
БГТУ и проведении практических занятий по этому курсу. Точка h Хирша была
применена для улучшения алгоритма извлечения ключевых фраз (Popova,
Kovriguina, Mouromtsev, Khodyrev, 2013).
Структура работы. Диссертация состоит из Введения, 4 глав,
Заключения, списка сокращений, списка иллюстраций, библиографии из 229
наименований (из которых 192 источников на русском, 37 – на английском
языках), списка приложений, пояснительной записки к приложениям и 15
13
приложений. Основная часть работы изложена на 242 страницах
машинописного текста, содержит 22 рисунка и 36 таблиц. В приложения
вынесены примеры текстов, частотных и инвариантных словарей, диаграммы,
таблицы, содержащие расчеты и их результаты для всех исследованных
списков «Сказания».
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.
Во Введении описываются объект и предмет исследования,
обосновываются причины выбора моделей, не использующих представления о
гауссовости лингвостатистических совокупностей, определяются цели, задачи и
методы исследования. Важную часть Введения составляет обсуждение
вариативного текста и особенностей его существования в культуре, а также
вводится представление о «Сказании о Мамаевом побоище», как вариативном
тексте, пригодном для статистической обработки. Акцентирование внимания на
вариативном тексте уже во Введении важно для понимания мотивов выбора
адекватного эмпирического материала.
В главе 1 «Сказание о Мамаевом побоище» как вариативный текст и
объект исследования» на основании работы о памятниках Куликовского
цикла,
проведенной
в
1950-х
гг.
Л. А. Дмитриевым,
излагается
текстологическое описание «Сказания о Мамаевом побоище» как материала
исследования и дается палеографическое описание рассматриваемых списков
(см. таблицу 1 и рисунок 1).
Текст, существующий в нескольких вариантах, каждый из которых
является
полноправным
представителем
данного
текста,
будет
квалифицироваться как вариативный (Доманский, 2006). Варьирование формы
текста обеспечивается с помощью его сокращения, расширения, правки
создателей списка, внесения содержательных, стилистических, структурных,
грамматических изменений, фонетических изменений, получивших отражение
в рукописном тексте, интенсивности интертекстуальных связей и т.д. При этом
все такие варианты функционируют в культуре как единый текст, без явного
предпочтения одного из его вариантов.
В силу культурных предпосылок, семантически полноценные
вариативные тексты значительного объема обнаруживаются только в
средневековой литературе. В Новое время культурная норма Средневековья
сменяется представлением о допустимости единственной окончательной версии
авторского текста, а вытеснение коллективного авторства индивидуальным
закономерно сужает диапазон и объем допустимых редакционных изменений.
Следует отметить, что с появлением и распространением Интернета вновь
актуализируется коллективное авторство, но уже в других формах и жанрах.
14
основной источник
дополнительный
источник
сокращение
СКАЗАНИЕ О МАМАЕВОМ ПОБОИЩЕ
Сокращенный вариант
Распространенной редакции
РНБ Q.XVII.70
?
?
Печатный вариант
Задонщина
Распространенная редакция
РНБ Q.IV.354
Летописная редакция
СПбОИИ №251
ОСНОВНАЯ РЕДАКЦИЯ
Редакция Синопсиса
Собр. Колобова, №336
ПРОТОГРАФ ?
Компилятивный
список РНБ O.IV.46
гр. О
РНБ O.IV.22
гр. У
Киприановская
редакция БАН 32.14.8
гр. О/У
Забелинский список
Беллетризованный вариант
РНБ Собр. Михайловского, Q.509
?
Летописная повесть пространная
Редакция летописца кн. Хворостинина
Летописная повесть краткая
Западнорусская обработка
Рисунок 1 ― Связи между редакциями «Сказания о Мамаевом побоище» и памятниками Куликовского цикла
П р и м е ч а н и е ― полужирным шрифтом выделены редакции «Сказания», отобранные для анализа (рядом – шифры используемых списков (курсивом), подчеркиванием – памятники Куликовского цикла,
связанные со «Сказанием», «?» – дополнения из неустановленных источников (включая измышления переписчика), стрелка, идущая от «протографа» обозначает наличие архаических чтений в списках
15
Можно выстроить несколько линий сопоставления списков с целью
количественной оценки их различий:
1. Историческое изменение текста за время его существования: линия
списков Основная редакция РНБ O.IV.22 – Летописная редакция СПбОИИ
№251 – Киприановская редакция БАН 32.14.8 – Распространенная редакция
РНБ Q.IV.354 – редакция Синопсиса РНБ, собр. Колобова, №336, что
соответствует хронологической последовательности основных редакций
«Сказания».
Хронологическая последовательность списков не является еще историей
текста. История же текста будет представлена тем, как набор существующих в
списках его версий определенного времени сменяется в другое время другим
набором списков с подобными версиями. Сам такой тип исторических изменений
предложено называть транзитивным полиморфизмом (Мейен, 1978).
2. Полная версия текста vs сокращенная версия текста: по спискам
типового варианта Распространенной редакции РНБ Q.IV.354 и
сокращенного варианта Распространенной редакции РНБ Q.XVII.70
(сокращение по всему тексту), но вполне допустимо и сопоставление типового
варианта Основной редакции РНБ O.IV.22 – беллетризованного варианта
Основной редакции РНБ собр. Михайловского, Q.509 (сокращены молитвы и
отступления на религиозные темы).
3. Исходный идеологически нейтральный текст vs производный
идеологизированный текст, к тому же заимствовавший структуру другого
произведения – пространной Летописной повести: типовой вариант Основной
редакции РНБ O.IV.22 – типовой вариант церковной Киприановской редакции
БАН 32.14.8.
4. Влияние жанра: редакции, предназначавшиеся для летописных сводов:
типовые варианты Летописной и Киприановской редакций vs редакции в
составе сборников и отдельные рукописи произведения (любой из остальных 6
списков).
5. Идейно и жанрово однородный текст vs текст со следами механической
компиляции: типовой вариант Распространенной редакции РНБ Q.IV.354 –
компилятивный вариант Распространенной редакции РНБ O.IV.46.
Во всех списках «Сказания» обнаруживается широкий спектр изменений: от
ошибок и механических описок до значительных смысловых правок.
Для целей настоящего исследования интересны изменения текста любого
характера, начиная с графики и заканчивая деталями сюжета, однако
исследование изменения лексического наполнения редакций одного текста
представляется наиболее перспективным. При этом оказалось очень важно
проследить, как именно изменяется распределение единиц в тексте, если
последовательно избавляться от графической и грамматической вариативности.
Эта задача частично решена при работе с несколькими видами частотных
словарей (ЧС), отражающих особенности лексики с разной степенью детальности.
При этом не совсем очевидно, следует ли сводить словоформы-варианты к
одной словоформе или нескольким. При проведении автоматического
16
морфологического анализа такие словоформы-варианты целесообразно
«стягивать» в один класс, но с сохранением их различий.
Такая операция технически легко осуществима в лингвопроцессоре NooJ. В
пункте 1.6.2 главы 1 приводится пример формализованного описания глагольного
словоизменения и демонстрация процедуры сведения словоформ-вариантов в
«суперлексему».
В главе 1 приводится также описание а) принципов представления текстов в
электронном виде, б) методики формирования трех типов частотных словарей,
различие которых отражает последовательное огрубление представления
исходного текста, в) примера работы с корпусом вариативных текстов.
Для целей настоящего исследования перевод списков в машиночитаемую
форму производился вручную с рукописи в соответствии с методикой
представления рукописного текста, принятой в проекте «СКАТ» (1.6.1). Из 8
используемых списков 5 получены в машиночитаемом виде впервые, ранее не
издавались и, таким образом, впервые вводятся в научный оборот (№№ 4, 5, 6 и 7
по таблице 1).
Методика формирования частотных словарей приводится в 1.6.2. Для
каждого текста были построены три типа частотных словарей:
1. ЧС рукописных словоформ, на основании которого можно установить
количественные характеристики графических особенностей списка; в таком
словаре воспроизводится графика рукописи, включая описки и ошибки писца;
2. ЧС стандартизованных словоформ (графика редуцируется до
современного алфавита + «ять», удаляются явные описки), с помощью которого
обнаруживаются преимущественно синтаксические особенности редакций
«Сказания»;
3. ЧС лексем, позволяющий определить преимущественно семантические
особенности редакций.
Основные
количественные
характеристики
списков
«Сказания»
демонстрируют устойчивость их статистической структуры и изменяются
согласованно при переходе от одного типа частотных словарей к другому (§ 3.2).
Глава 2 «Моделирование структуры текста как поликомпонентного
объекта» начинается с обзора исследований по моделированию структуры
текстов и других поликомпонентных объектов (§ 2.1) отечественными и
зарубежными исследователями. Результаты, полученные в этой области,
проецируются на моделирование компонентной структуры текста. Пункты 2.2.12.2.7 посвящены описанию и анализу рассматриваемых методик и их
сопоставлению посредством набора инвариантных признаков. Выявление
сопоставимых параметров каждой из методик производится в § 2.3 (см. также
результирующую таблицу 2).
Продемонстрировано, что при сходном начальном представлении
статистических данных – ранговом распределении – результаты, получаемые с
помощью
некоторых
из
рассматриваемых
методик,
принципиально
несопоставимы.
Можно конструктивно по конкретным характеристикам сопоставить:
1. Методы Г. Я. Мартыненко, Б. И. Кудрина и И.-И.Попеску с соавторами,
предназначенные для членения кривой распределения на функциональные зоны:
ядро соответствует саранчёвой касте и области от слова с максимальной частотой
до точки h, а периферия – ноевой касте. Формальными маркёрами здесь являются
граница, определяемая с помощью скользящего коэффициента вариации,
пойнтер-точка R и точка h.
2. Методы Т. Г. Петрова и Г. Я. Мартыненко, сравнивая группировку
списков «Сказания» в поле «энтропия-анэнтропия» и по индексу Я/С. Такое
сопоставление кажется правомерным, так как значение энтропии определяют
доли доминирующих, высокочастотных элементов, а значение анэнтропии,
напротив, – редких, низкочастотных, «примесных».
3. Методы Б. И. Кудрина и Т. Г. Петрова, рассматривая энтропию Н как
характеристику саранчёвой касты (слово с максимальной частотой), а анэнтропию
как характеристику ноевой касты (hapax legomena). В этом случае все прозрачно
соотносимо с представлениями чистоты, как доли малых компонентов, и
сложности по Т. Г. Петрову. Полученные результаты могут использоваться для
сравнения подходов Ю. А. Шрейдера и Т. Г. Петрова (симметричность vs
сложность-чистота).
4. Методы М. В. Арапова-М. М. Херц и В. В. Фуфаева по характеру
убывания доли сохранившейся лексики в разных ранговых группах в стабильной
зоне S-распределения.
Явных параметров для сравнения методов Т. Г. Петрова и В. В. Фуфаева не
обнаруживается, хотя оба исследователя ориентированы на изучение процесса.
При этом метод В. В. Фуфаева направлен на изучение динамики численности
компонента, а метод Т. Г. Петрова – на изучение динамики совокупности. Главное
препятствие для возможности такого сравнения – несопоставимость исходных
данных. Содержательно, в S-распределении отражается динамика каждого
компонента и выделяются зоны хаоса и стабильности как минимум для двух
временных состояний объекта, а на диаграммах Т. Г. Петрова, наоборот, целое
распределение компонентов объекта характеризуется двумя параметрами, и, уже
анализируя набор этих точек-состояний, Т. Г. Петров выявляет и характеризует
процесс.
Таблица 2 ― Сопоставление рассматриваемых методов с помощью набора концептуальных признаков
Метод Т. Г. Петров
Б. И. Кудрин
В. В. Фуфаев Г. Я. Мартыненко Ю. А. Шрейдер В. П. Маслов
Характеристика
1. Полнота
материала
исследования высокочастот- целое
инвариантный целое
ные элементы распределение словарь
распределение
2. Форма
представления ранговая
исходных данных
формула
3. Декларирование составности не
распределения
обсуждается
4. Операциональность
нет
обращения к составности
5. Опора на ЦПТ
не
обсуждается
6.Гауссовость / негауссовость
не
обсуждается
7. Техника расчетов
энтропия,
анэнтропия
видовое
ранговое
(спектровое) распределение
распределение
нет
нет
спектровое
(видовое)
распределение
да
нет
нет
есть
опора есть
опора есть
игнорирование
целое
распределение
целое
целое
распределение распределение
ранговое
распределение
ранговое
распределение
видовое,
ранговое
распределение
принципиально не
несоставное
обсуждается
нет
не
обсуждается
отрицание
нет
негауссовость негауссовость не принципиально негауссовость
комбинаторика,
классич.статистика
8. Прерывность / непрерывность поле
из дискретность
данных
непрерывных
параметров
комбинатори- классич.статиска,
тика
классич.статистика
дискретность непрерывность
9. Набор идеальных значений значение Н и А нет
параметров
для
чистых
веществ и для
равномерных
смесей
нет
нет
19
И.-И. Попеску,
Г. Альтманн,
Я. Машутек
негауссова
статистика
данные
прерывны,
интерпретация
непрерывна
есть
нет
да
нет
не
обсуждается
комбинаторика, классич.
статистика
негауссовость
данные
прерывны,
интерпретация
непрерывна
есть
данные прерывны,
интерпретация
непрерывна
аналитическая
геометрия,
классич.
статистика
принципиально
отсутствует,
уникальность
точки
h
для
каждого текста
В пп. 3.3.1-3.3.6 главы 3 «Лексико-статистическая структура списков
«Сказания о Мамаевом побоище» описан процесс моделирования материала с
применением рассматриваемых методик.
ЧС всех 8 исследуемых списков «Сказания» обрабатывались с
привлечением рассматриваемых методик (см. таблицу 3, «+» – ЧС указанного
типа обрабатывался по соответствующей методике, «–» – не обрабатывался).
Таблица 3 ― Сводная таблица проанализированных ЧС
Автор
Тип ЧС
методики
В. П. Маслов
Б. И. Кудрин
Г. Я. Мартыненко
Т. Г. Петров
В. В. Фуфаев
И.-И. Попеску, Я. Машутек,
Г. Альтманн
ЧС рукописных
словоформ
ЧС стандартизованных словоформ
ЧС лексем
–
+
+
+
–
+
–
+
+
+
+
+
+
+
+
+
+
+
C, (F*r; F*r/log2(r))
Анализ частотных словарей производился с помощью следующих средств:
― Исправления эффекта рангового искажения при определении параметра
С распределения Ципфа по В. П. Маслову (3.3.1, рисунок 2).
2000
1900
1800
1700
1600
1500
1400
1300
1200
1100
1000
900
800
700
600
500
400
300
200
100
0
0
50
100
150
200
250
300
350
400
r, ранг
Рисунок 2 ― График изменения параметра С распределения Ципфа до (верхняя линия) и после
(нижняя линия) исправления эффекта рангового искажения для ЧС лексем сокращенного
варианта Распространенной редакции РНБ Q.XVII.70
― Моделирования спектровых распределений списков «Сказания» с
помощью Н-распределения и модели простых чисел Б. И. Кудрина (3.3.2).
― Метода динамики прироста скользящего коэффициента вариации,
предложенного Г. Я. Мартыненко (3.3.3).
― Рангово-энтропийного подхода Т. Г. Петрова, заключающегося в
вычислении для рангового распределения лексики каждого списка значений
20
энтропии и анэнтропии и рассмотрении группировки списков в поле «энтропияанэнтропия» (3.3.4).
―
Метода
структурно-топологической
динамики
В. В. Фуфаева,
нацеленного на изучение изменения компонентной структуры объекта в
диахронии и анализ траекторий изменения рангов каждого компонента.
Изменение статуса (ранга) элемента в структуре объекта позволяет ввести
понятие скорости. Ранжирование скоростей по их убыванию дает S-образное
распределение, которое используется для выявления устойчивых и динамических
областей в компонентной структуре объекта (3.3.5, см. также рисунок 3);
― Точки h Хирша по технике И.-И. Попеску, Я. Машутека и Г. Альтманна
(3.3.6).
Примечание ― обведена стабильная зона S-распределения
Рисунок 3 ― S-распределение инвариантного словаря лексем типового (РНБ Q.IV.354) и
беллетризованного (РНБ Собр. Михайловского, Q.509) вариантов (неалфавитное
упорядочивание)
S-распределения строились по инвариантным словарям групп и пар списков
«Сказания».
Коэффициент
конкордации,
как
характеристика
меры
согласованности изменений траекторий элементов на поверхности Hраспределений, стабильно высок для комбинаций списков «Сказания», но при
введении инородного текста резко падает вместе с объемом инвариантного
словаря и, следовательно, может использоваться для установления однородности
совокупности.
Глава 4 «Многомодельное представление лексико-статистической
структуры «Сказания о Мамаевом побоище» как вариативного текста»
посвящена сопоставлению выделенных параметров разных моделей и описанию
лексико-статистических аспектов сокращения и беллетризации текста.
Те параметры, которые удалось сопоставить, демонстрируют сходство
результатов при различии допущений при моделировании. Так, например,
пойнтер-точка R Б. И. Кудрина и правая граница монотонности графика функции
21
прироста скользящего коэффициента вариации очень близки или совпадают
(§ 4.2, см. таблицу 4).
Таблица 4 ― Совмещение значений натуральнозначного аргумента, пойнтер-точки R
(полужирный шрифт), левой (курсив и подчеркивание) и правой (подчеркивание) границ
знакомононности прироста скользящего коэффициента вариации и точки h (черный фон).
Курсивом и серым фоном обозначено значение n, до которого количество классов с
численностью n монотонно убывает (по ЧС стандартизованных словоформ)
Основная ред.,
РНБ O.IV.22
f(n)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
27
28
31
32
33
35
36
37
38
39
40
44
46
47
51
52
56
62
74
79
82
84
85
87
90
93
114
209
226
758
2692
508
236
116
60
59
27
33
20
16
13
13
14
10
8
5
8
9
5
1
2
1
3
2
1
3
1
2
1
6
2
1
1
1
2
1
1
1
1
1
1
1
1
2
2
1
1
1
1
1
1
1
1
1
1
V
Летописная ред.,
СПбОИИ №251
dV
0,000
0,315
0,455
0,546
0,611
0,691
0,736
0,801
0,845
0,887
0,925
0,968
1,018
1,056
1,089
1,112
1,151
1,197
1,224
1,230
1,243
1,250
1,274
1,291
1,300
1,332
1,343
1,371
1,385
1,471
1,500
1,516
1,532
1,548
1,582
1,599
1,620
1,643
1,666
1,693
1,721
1,752
1,791
1,897
2,007
2,061
2,115
2,167
2,219
2,271
2,325
2,406
2,687
2,963
5,115
0,315
0,139
0,092
0,065
0,080
0,045
0,065
0,045
0,042
0,039
0,043
0,050
0,038
0,033
0,023
0,039
0,046
0,027
0,006
0,013
0,007
0,024
0,017
0,009
0,032
0,011
0,028
0,015
0,085
0,030
0,015
0,016
0,017
0,034
0,017
0,021
0,023
0,023
0,027
0,027
0,032
0,038
0,107
0,110
0,054
0,054
0,052
0,052
0,053
0,053
0,081
0,281
0,276
2,151
n
f(n)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
29
30
31
32
33
37
38
39
40
41
43
50
55
64
65
68
74
77
81
85
87
97
99
123
139
141
196
687
2380
479
178
112
71
43
25
25
26
9
13
10
6
8
8
5
3
2
9
2
4
3
1
3
1
2
2
1
2
3
1
1
1
1
2
1
1
1
1
1
1
2
2
1
1
2
1
1
1
1
1
1
1
1
V
ред. Синопсиса,
РНБ Собр. Колобова №336
dV
0,000
0,320
0,441
0,546
0,628
0,691
0,736
0,792
0,856
0,882
0,925
0,963
0,988
1,026
1,066
1,093
1,112
1,125
1,189
1,204
1,235
1,260
1,269
1,298
1,309
1,331
1,359
1,373
1,403
1,449
1,464
1,484
1,505
1,526
1,569
1,590
1,614
1,646
1,685
1,738
1,788
1,891
2,001
2,056
2,114
2,230
2,285
2,352
2,418
2,519
2,640
2,753
2,965
4,924
n
f(n)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
22
25
26
28
30
31
33
38
39
40
43
44
45
53
55
63
64
76
77
80
89
100
169
190
567
0,320
0,121
0,104
0,083
0,062
0,046
0,056
0,064
0,026
0,043
0,037
0,025
0,038
0,041
0,027
0,018
0,014
0,064
0,015
0,032
0,025
0,009
0,029
0,010
0,022
0,028
0,015
0,030
0,046
0,015
0,020
0,021
0,021
0,043
0,022
0,023
0,032
0,039
0,052
0,051
0,103
0,110
0,055
0,058
0,116
0,055
0,067
0,065
0,101
0,121
0,112
0,213
1,959
2321
412
182
88
55
43
27
18
17
20
13
9
7
5
5
4
4
5
4
2
2
4
1
2
2
2
2
2
1
1
1
1
1
1
1
1
1
2
1
2
1
1
1
1
V
dV
0,000
0,311
0,447
0,537
0,613
0,687
0,743
0,788
0,838
0,903
0,949
0,984
1,015
1,040
1,068
1,092
1,120
1,156
1,187
1,208
1,237
1,294
1,310
1,346
1,383
1,423
1,475
1,527
1,552
1,582
1,611
1,641
1,683
1,727
1,783
1,837
1,913
2,050
2,117
2,268
2,356
2,611
2,884
4,645
0,311
0,136
0,090
0,076
0,074
0,056
0,045
0,050
0,065
0,046
0,035
0,031
0,025
0,028
0,025
0,027
0,036
0,031
0,021
0,028
0,057
0,016
0,036
0,037
0,040
0,052
0,051
0,026
0,029
0,030
0,030
0,042
0,043
0,056
0,054
0,075
0,137
0,067
0,152
0,088
0,255
0,272
1,762
Беллетризованная Осн. ред.,
РНБ Собр. Мих., Q.509
n
f(n)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
27
28
29
31
33
34
38
39
40
41
42
47
48
49
53
55
57
58
67
71
72
84
88
104
160
243
636
1875
385
179
89
70
48
27
18
14
15
12
6
12
9
12
6
2
7
4
2
3
4
2
1
1
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
1
V
dV
0,000
0,321
0,459
0,550
0,640
0,712
0,761
0,801
0,839
0,887
0,929
0,954
1,007
1,049
1,106
1,136
1,147
1,190
1,215
1,229
1,251
1,283
1,300
1,309
1,319
1,343
1,355
1,381
1,396
1,413
1,431
1,454
1,477
1,501
1,525
1,550
1,581
1,612
1,643
1,679
1,716
1,755
1,792
1,843
1,948
1,996
2,062
2,130
2,223
2,440
2,873
4,785
0,321
0,138
0,091
0,090
0,072
0,049
0,040
0,038
0,047
0,042
0,024
0,053
0,042
0,058
0,030
0,011
0,042
0,025
0,014
0,023
0,032
0,017
0,009
0,010
0,024
0,012
0,026
0,015
0,017
0,018
0,023
0,023
0,024
0,024
0,025
0,031
0,031
0,031
0,036
0,037
0,038
0,038
0,051
0,105
0,049
0,066
0,068
0,092
0,217
0,434
1,912
Примечание ― n – численность класса, f(n) – количество классов с такой
численностью, V – коэффициент вариации, dV – прирост коэффициента вариации
22
Интересным и практически важным параметром является также точка h
Хирша, определяемая в большинстве случаев, как h = r, если  r = f(r) (см.
таблицу 4). Зафиксировав на ранговом распределении точку h, можно выделить
бо́льшую часть тематически незначимой лексики, в то время как параметры
Б.И.Кудрина и Г.Я.Мартыненко позволяют отфильтровать лишь самые
высокочастотные строевые элементы (см. таблицу 5).
Таблица 5 ― Словоформы, отграничиваемые точкой h (весь столбец), пойнтер-точкой R (серый
фон) и правой границей знакомонотонности скользящего коэффициента вариации (полужирный
шрифт), по ЧС стандартизованных словоформ
Основная ред.,
РНБ O.IV.22
r , ранг
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
И
(Ж)
НА
НЕ
КНЗЬ#
А
О(Т)
ЯКО
В
БО
ЖЕ
С
ВЕЛИКИИ
ЕГО
ПО
ВЪ
ДА
РЕ(Ч)
НН+#
ЕМУ
СЪ
ТО
К
СВОЕГО
АКИ
ГИ#
КНЗЯ#
ВЕЛИКОМУ
КНЗЮ#
ЗА
КНЗИ#
НА(М)
НА(С)
Летописная ред.,
СПбОИИ 251
f (r )
758
225
209
114
93
90
87
85
84
82
79
79
74
74
62
56
52
51
47
46
44
40
39
39
38
37
36
35
35
33
33
33
33
И
НА
ЖЕ
(Ж)
НЕ
КНЯ(З)
А
БО
НО
О(Т)
В
РЕ(Ч)
ЕГО
ЯКО
ВЕЛИКИИ
С
ДА
ПО
ЕМУ
ТО
К
КНЗЯ#
КНЗИ#
КНЗЮ#
СВОЕГО
ВЕЛИКОМУ
И(Х)
КО
ВО
О
СО
ДМИТРЕИ
f (r )
687
196
141
139
123
99
97
87
85
85
81
77
74
74
68
68
65
64
55
50
43
41
40
40
39
38
37
33
32
32
32
31
ред. Синопсиса,
РНБ Собр.Колобова,
№336
И
ЖЕ
НА
О(Т)
КНЯЗЬ
С
В
О
ЯКО
НЕ
ЕГО
ВЕЛИКИИ
ДА
РЕЧЕ
СО
КНЯЗЯ
ПО
К
ВЕЛИКАГО
ЕМУ
А
ДИМИТРИИ
ВО
СВОЕГО
ЗА
НО
ВЕЛИКОМУ
КНЯЗЮ
ВЪ
f (r )
567
190
169
100
89
89
80
77
77
76
64
63
55
53
45
44
43
40
39
39
38
38
33
33
31
31
30
30
28
Беллетризованный
список,
РНБ Мих.Q.509
И
ЖЕ
НА
КНЯ(З)
ВЕЛИКИИ
НЕ
С
О(Т)
ЯКО
В
РЕЧЕ
ДА
ИВАНОВИЧЪ
ДМИТРЕИ
А
ЕГО
ПО
К
СВОЕГО
ЕМУ
СО
ТО
ВО
ВЕЛИКОМУ
ЗА
БО
НАЧА
КО
f (r )
636
243
160
104
88
84
72
71
71
67
58
57
55
53
49
48
47
42
41
40
39
38
34
33
31
29
29
28
Примечание ― в скобки заключены выносные буквы
Практически значимые результаты получаются при комбинировании
методики М. В. Арапова-М. М. Херц с S-распределением В. В. Фуфаева в
стабильной зоне S-распределения (§ 4.5). С помощью этого приема удалось
выделить маркированную лексику вставных повестей в инвариантном словаре
списков Распространенной редакции РНБ Q.IV.354 и РНБ Q.XVII.70 (таблица 6).
М. В. Арапов и М. М. Херц выдвигают и подтверждают гипотезу об
уменьшении шансов слова сохраниться в своей ранговой группе с увеличением
ранга слова (Арапов, Херц, 1972). Эта же гипотеза была принята при
исследовании состава стабильной зоны S-распределения типового и
23
сокращенного вариантов Распространенной редакции, в которую попадают слова,
незначительно изменившие свой ранг в частотном словаре вариантов текста.
Стабильная зона разбивалась на группы по 100 рангов (не слов!), после чего
подсчитывалась доля словоформ каждой ранговой группы в стабильной зоне
(активность), сохранившихся в пределах группы и перешедших в соседние
группы (сохранность), см. рисунок 4. Так, для трех первых ранговых групп
наблюдалось хорошее соответствие гипотезе М.В.Арапова-М.М.Херц: и
активность, и сохранность словоформ уменьшались с увеличением номера
ранговой группы. Начиная с 4-й ранговой группы сохранность немонотонно
увеличивалась до последней группы. Активность же продолжала уменьшаться до
6-й группы, а начиная с 7-й группы увеличилась и осталась неизменной в 8-й и 9й группах. Таким образом, кроме словоформ 1-й ранговой группы (1≤r≤100),
словоформы 7-й, 8-й и 9-й ранговых групп (601≤r≤900) также имеют
относительно большую активность и сохранность в пределах ранговой группы.
Активность словоформ i-й группы в
стабильной зоне (Ряд 1), сохранность
словоформ i-й группы (Ряд 2)
0,90
0,80
0,70
0,60
0,50
Ряд1
Ряд2
0,40
0,30
0,20
0,10
0,00
0
1
2
3
4
5
6
7
8
9
10
i, номер ранговой группы
Примечание ― на графике не отображены данные для последней ранговой группы, так
как они полностью зависят от объема инвариантного словаря
Рисунок 4 ― Активность и сохранность в пределах ранговой группы словоформ разных
ранговых групп в стабильной зоне S-распределения Распространенной редакции и ее
сокращенного варианта
Лексика 7-й ранговой группы приведена в таблице 6. Словоформы,
выделенные в таблице 6 полужирным шрифтом, относятся к прямой речи
персонажей вставной повести о Захарии. Все эти словоформы относятся к
уникальной лексике в обоих списках. Лексика 8-й ранговой группы
преимущественно относится к началу вставной повести о новгородцах.
Таким образом, наблюдается отклонение в определенном диапазоне рангов,
соответствующем уникальной лексике, которая является настолько важной, что
не может быть удалена из текста при его сокращении. Указанный способ
24
выделения рядом стоящих hapax legomena имеет не статистическую природу, а
определяется детерминистическим алгоритмом.
Таблица 6 ― Лексика 7-й ранговой группы
601≤r распр ≤700
словоформы, перешедшие в (i -1)-ую
группу
словоформа
r распр r сокр φ
словоформы, сохранившихся в пределах словоформы, перешедшие в (i +1)-ую
группы
группу
словоформа
r распр r сокр φ
словоформа r распр r сокр φ
УТОЛЯТИ
СМИРИТЦА
ОБЛОБЫЗАИ
ПОЧЕСТЬ
КУПИТЕ
ПЛЕТИ
ПОКЛОНИСЯ
ПРИСТАВЛЮ
601
603
636
637
638
639
608
640
534
535
568
571
572
573
600
575
-67
-68
-68
-66
-66
-66
-8
-65
МИТРОПОЛИТА
СЛОВО
СОТВОРИШИ
ПРОВОДИТИ
ХВАТАТИ
БЕЗУМИЯ
ТАТАРИН
НЕУКЛОННО
605
629
657
658
661
662
663
665
680
621
601
602
605
610
612
614
75 МНОГОЮ
-8 ФЕДОР
-56
-56
-56
-52
-51
-51
ВОЗМУ
ДВОР
ОБЫЧАЯ
ПОСАЖУ
ДОВЕРША
СЛУГОЮ
СОЛГАХ
ПЕРВОМУ
СЛОЖУ
СМИРЕННАГО
ТАТАР
641
642
643
644
646
648
650
651
652
654
660
578
577
579
580
583
584
586
587
589
593
597
-63
-65
-64
-64
-63
-64
-64
-64
-63
-61
-63
ЗАКОННУЮ
ГРАМОТА
Б
ПОСЫЛАЛИ
ПИСАНА
Л+ТА
ТЕЧЕНИЕ
ТРОИЦЫ
ПРЕПОДОБНОМУ
ВСЕЮ
ОКРОПИ
ЕТЕРА
ПОСЛУШАНИЕ
ОРУЖИЯ
ОРУЖНИЦЫ
ГРАДУ
СОКРОВИЩЕ
НЕКРАДОМОЕ
ЛОЖНИЦУ
МУЖИ
668
671
672
674
675
676
678
683
684
686
690
691
692
693
694
695
696
697
698
700
620
609
627
628
629
630
637
639
640
645
647
648
650
651
653
657
658
659
662
693
-48
-62
-45
-46
-46
-46
-41
-44
-44
-41
-43
-43
-42
-42
-41
-38
-38
-38
-36
-7
679
681
757
779
78
98
Примечания
1 Полужирным шрифтом выделена маркированная лексика вставной повести о
посольстве Захарии
2 rраспр – ранг словоформы в ЧС Распространенной редакции РНБ Q.IV.354, rсокр – ранг
словоформы в ЧС ее сокращенного варианта РНБ Q.XVII.70 (ранги приписываются по
инвариантному словарю), φ – скорость
В § 4.6 приводятся данные о количественных особенностях сокращения
текста (таблица 7). Сокращение производится преимущественно за счет hapax
legomena. Одновременно с ростом численности класса n (n = 1, 2, 3…) резко
уменьшается количество слов-новаций сокращенного варианта РНБ Q.XVII.70.
При анализе ЧС лексем оказалось, что новации в сокращенном списке перестают
встречаться, начиная с лексем, встретившихся в тексте 6 и более раз; при этом
лексемы-новации относятся к более позднему времени, чем время составления
самой Распространенной редакции, их можно считать т.н. «заносными»
элементами.
Лексика,
сохранившаяся
в
сокращенном
25
Таблица 7 ― Количественные аспекты сокращения текста на примере частотных словарей лексем Распространенной редакций и ее
сокращенного варианта
n, частота
встречаемости
лексемы
1
1
2
3
4
5
6
7
8
9
10
11-Fmax
fполн(n)
2
940
279
149
115
65
40
25
26
9
20
184
fполн(n)/N
3
0,082
0,024
0,013
0,010
0,006
0,004
0,002
0,002
0,001
0,002
0,016
fсокр(n)
4
628
211
110
44
42
20
18
15
16
8
119
fсокр(n)/N
5
0,093
0,031
0,016
0,006
0,006
0,003
0,003
0,002
0,002
0,001
0,018
fобщ(n)
6
241
143
105
89
53
37
22
24
8
20
179
Количество
лексем-новаций
с частотой n,
появившихся в
Преимущественные группы перехода
сокращенном
для лексем из колонки (6)
варианте
fобщ2(n)
7
8
9
174
n=2 (49); n=3 (11); n=4 (4); n=5 (3)
253
26
n=1 (87); n=3 (20); n=4 (7); 4<n<7 (10)
41
15
n=1 (46); n=2 (35); n=4 (3); 4<n<8 (9)
7
5
n=1 (34); n=2 (17); n=3 (20); 4<n<7 (13)
3
2
n=1 (13); n=2 (17); n=3 (12); 3<n<8 (9)
4
1
n=1 (5); n=2 (19); 7<n<47 (10)
0
0
n=1 (6); n=3 (6);
0
0
n=1 (5); n=3 (5); n=4 (5);
0
3
преимущественной группы нет
0
1
преимущественной группы нет
0
0
не сохраняют частоты
0
Примечания
1. В столбцах 3 и 5 указана доля в тексте лексем, встретившихся n раз, в столбце 8 в скобках указано количество лексем, перешедших
в класс с частотой n из класса, указанного в столбце 1
2. fполн(n) – количество лексем с частотой n в исходном тексте, fсокр(n) – количество лексем с частотой n в сокращенном тексте,
fобщ(n) – количество лексем, имеющих частоту n в полном варианте, и сохранившихся в сокращенном варианте, fобщ2(n) – количество лексем,
имеющих частоту n в
полном
варианте,
и
сохранившихся в
сокращенном
варианте с той же частотой
26
списке с другой частотой, чем в полном, распределяется по соседним частотным
классам относительно ее частотного класса в сокращаемом списке.
В Заключении обобщаются результаты исследования и приводятся выводы.
1.
Совокупность имеющихся эмпирических данных, относящихся к
различному материалу, априорные соображения (экстремальные принципы,
принципы симметрии, признание уникального значения натуральных чисел и
т.п.), теоретические положения статистики (различение процессов разных типов),
эмпирические критерии (аномальный рост дисперсии у эмпирических
распределений) являются основанием для принятия тезиса о негауссовой природе
распределений лексического состава в тексте как поликомпонентном объекте.
2.
Ни одна из существующих концептуально различных моделей
распределения численности компонентов поликомпонентных объектов не дает
универсальных либо исчерпывающих характеристик статистической структуры
текста.
3.
Отношения разных редакций и списков «Сказания» как вариативного
текста могут быть представлены в категориях транзитивного полиморфизма.
Изученные редакции дают представления о пределах полиморфизма текста
«Сказания»,
а
поэтому составляют
репрезентативный
массив
для
лингвостатистического исследования вариативного текста.
4.
В настоящей работе впервые произведена апробация всех
рассмотренных
моделей
распределения
численности
компонентов
поликомпонентных объектов на едином массиве эмпирических данных, что
позволяет оценить возможности этих моделей, в частности:
― показана неприменимость модели простых чисел Б. И. Кудрина к
обработке распределений лексики в текстах из-за большого индекса разнообразия;
― обнаружена относительно неплохая аппроксимация эмпирических
распределений моделью В. П. Маслова и Н-распределением Б. И. Кудрина;
― получен ряд интересных и практически значимых результатов при
использовании модели структурно-топологической динамики В. В. Фуфаева, в
особенности при комбинировании ее с моделью М. В. Арапова-М. М. Херц.
Можно утверждать, в частности, что
1) Лексика инвариантных словарей охватывает от 38 до 96 %
словоупотреблений в списках «Сказания», свидетельствуя о малом разнообразии
семантически насыщенной лексики.
2) Коэффициент конкордации Кендэла может быть использован в качестве
индикатора однородности выборки, обладая чувствительностью к введению в
выборку инородного текста.
3) Антисимметричная форма и наличие обширной стабильной зоны в Sраспределениях инвариантных словарей групп и пар списков «Сказания
указывают на темпоральную устойчивость структуры текста «Сказания», а форма
графика S-распределения может быть индикатором характера изменения текста.
4) Комбинация методик В. В. Фуфаева и М. В. Арапова-М. М. Херц
позволяет выявить маркированную лексику вставных повестей в типовом и
сокращенном вариантах Распространенной редакции.
27
5.
Сопоставление значений пойнтер-точки R и правой границы
монотонности графика прироста скользящего коэффициента вариации
показывает, что эти точки совпадают или очень близки, и отсекают наиболее
высокочастотную лексику. Точка h Хирша может использоваться как параметр
для отсеивания служебной лексики. Полнозначные слова, имеющие частоту
больше h в ранговых распределениях ЧС лексем «Сказания», относятся к
идеологизированной лексике, именам собственным и титулатуре.
6.
Списки «Сказания» группируются по-разному при вычислении для
них индекса Я/С, характеризующего соотношение ядра лексики и полного
словаря, энтропии и анэнтропии НА и доли ноевой и саранчёвой каст. При этом
полученным кластерам невозможно дать содержательную интерпретацию.
7.
Анализ состава и долей частотных классов в списках типовой
Распространенной редакции и сокращенной Распространенной редакции показал,
что текст сокращается преимущественно за счет hapax legomena, а лексика,
сохранившаяся в обоих списках с разной частотой, меняет эту частоту
незначительно и переходит в соседние по отношению к исходному частотные
классы. Лексемы-новации при этом встречаются в сокращенном тексте только
среди лексем с абсолютной частотой меньше 6.
Основные положения работы отражены в следующих публикациях:
― в изданиях, включенных в перечень ведущих рецензируемых изданий
ВАК РФ:
1. Ковригина Л. Ю. Изменение лексико-статистических характеристик структуры
вариативного текста во времени / Л. Ю. Ковригина // Известия высших
учебных заведений. Серия «Гуманитарные науки». ― 2013. ― Т.4. ― Вып. 1.
― С. 41―45. ― 0,3 а.л.
2. Ковригина Л. Ю. Концептуальные различия подходов к описанию
статистической структуры текстов (на примере «Сказания о Мамаевом
побоище») / Л. Ю. Ковригина // Ученые записки Петрозаводского гос. ун-та.
Общественные и гуманитарные науки. ― 2013. ― № 7 (136). ― С. 70―76. ―
0,5 а.л.
3. Ковригина Л. Ю. Применение лингвопроцессора NooJ для морфологической
разметки вариативного текста (на примере «Сказания о Мамаевом побоище») /
Л. Ю. Ковригина // Вестник СПбГУ. Серия 9. ― 2014. ― № 1. ― С. 161―166.
― 0,3 а.л.
― в зарубежных изданиях, включенных в наукометрическую базу Scopus:
4. Stop-words in Keyphrase Extraction Problem / S. Popova, L. Kovriguina,
D. Mouromtsev, I. Khodyrev // Proceedings of the 14th Conference of Open
Innovations Association FRUCT, Helsinki, Finland, 11-15 November 2013. ―
P. 121―135. ― URL: www.fruct.org/publications/fruct14/files/Pop_23.pdf (дата
обращения 17.12.2013). ― 1 а.л. (авторство разделено – 0,4 а.л.).
28
― в других изданиях:
5. Ковригина Л. Ю. К вопросу: описывается ли структура поликомпонентного
объекта
одним
или
несколькими
распределениями / Л. Ю. Ковригина // Ценологические исследования. ― 2012.
― Вып. 46 : Специфика ценологических представлений разных школ. ―
С. 203―210. ― 0,4 а.л.
― Интернет-публикации:
6. Ковригина Л. Ю., Чебанов С. В. Предельность Н-распределений. Доклад на
семинаре по ценологическим исследованиям 09.11.12 г. [Электронный
ресурс] / Л. Ю. Ковригина,
С. В. Чебанов.
―
[2012].
―
URL:
http://iskri.ru/q/Misc/index.htm (дата обращения 19.09.2013).
29
1/--страниц
Пожаловаться на содержимое документа