close

Вход

Забыли?

вход по аккаунту

?

Автоматизация лингвистического анализа поэтического наследия таджикской литературы

код для вставкиСкачать
ФИО соискателя: Джаъфарова Давлатхоним Файзалиевна Шифр научной специальности: 10.02.22 - языки народов зарубежных стран Европы, Азии, Африки, аборигенов Америки и Австралии Шифр диссертационного совета: Д 047.004.01 Название организации: Институт я
 На правах рукописи
Джаъфарова Давлатхоним Файзалиевна
Автоматизация лингвистического анализа поэтического наследия таджикской литературы (на примере газелей Хафиза)
Специальность: 10.02.22 - языки народов зарубежных стран, Европы, Азии, Африки, аборигенов Америки и Австралии (таджикский язык)
Автореферат
диссертации на соискание учёной степени
кандидата филологических наук
Душанбе - 2012
Работа выполнена в Технологическом университете Таджикистана.
Научные руководители:кандидат технических наук
Умаров Махмуд
кандидат филологических наук
Одинаев Нурмахмад Официальные оппоненты:доктор филологических наук Султонов Мирзохасан
доктор филологических наук Олимджон Махмадджонов
Ведущая организация:Таджикский национальный Университет Защита диссертации состоится: " 10 " ___05____2012 г. в ___ часов на заседании диссертационного совета Д. 047.004.01 по защите докторских и кандидатских диссертаций при Институте языка, литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистан (734025, Душанбе, пр. Рудаки 21).
С диссертацией можно ознакомиться в Центральной научной библиотеке им. Индиры Ганди Академии наук Республики Таджикистан (734025, Душанбе, пр. Рудаки, 33).
Автореферат разослан "____"___________________2012
Учёный секретарь
диссертационного совета
кандидат филологических наук Касимов О. Х.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использование в языкознании, литературоведении, лингвистике и других направлениях современной филологической науки, аппарата математики, и в первую очередь статистических методов и средств, бурно развивающихся компьютерных и коммуникационных технологий, стало уже традиционным и обычным явлением. С другой стороны, огромное наследие таджикско-персидской классической литературы до сих пор недостаточно изучено с позиции статистического анализа. Имеющиеся отдельные исследования явно не достаточны для охвата хотя бы определенной части всего объема этого огромного наследия, а использование статистических методов дают наилучшие результаты в стилистике, которая может избавиться от субъективных оценок при помощи подсчета и строгой систематизации материала. При исследовании таджикско-персидской классической поэзии, кроме атрибуции, которая является, несомненно, одной из важнейших задач стилистики, огромный интерес представляет также установление закономерностей и по другим параметрам поэтического материала. Значительную часть исследовательского процесса в этом направлении составляет рутинная работа по обработке текстового материала. На современном этапе бурно развивается такая отрасль в прикладной лингвистике, как компьютерная лингвистика. Под компьютерной лингвистикой обычно понимается широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Достижения в области компьютерной лингвистики находят все большее применение для анализа поэтических материалов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста: ей не под силу определить жанр, тему, сюжет, образную часть и т.д. И тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Однако в настоящее время сложился определённый минимум, из которого можно получить начальные сведения о стихах. Лексикография, будучи прикладной дисциплиной в области языкознания, изучает в основном методы создания (составления) словарей. Обычно под словарем понимается определенным образом организованное собрание слов, как правило, с приписанными им комментариями, в которых в стандартной для данного словаря форме описываются особенности их структуры и/или функционирования. Помимо слов, объектами словарного описания могут выступать их компоненты, а также словосочетания различных типов - фразеологизмы, цитаты и т.п. К компетенции лексикографии относится также задача разработки технологий составления словарей. Использование современных методов разработки программных продуктов позволяет автоматизировать многие процессы технологий составления словарей, поскольку современные технологии программирования дает возможность разрабатывать разнообразные приложения, которые находят свое применение в различных предметных областях. Методологическую основу этих технологий составляют: теория алгоритмов и методы алгоритмизации; методы структурного программирования; методы объектно-ориентированного программирования; методы визуального моделирования и технологии обмена информацией и доступа к данным.
В связи с этим возникает естественная необходимость в создании такого инструментария, который автоматизирует все основные рутинные работы как в процессе исследования статистических закономерностей поэтического материала, так и в технологии составления словарей.
Для решения поставленной задачи нами разработан программный комплекс для составления частотных словарей с учетом следующих требований:
* приложение должно быть интерактивным; * содержать функциональные точки, позволяющие выполнить процедуру редактирования (до, в процессе и после выполнения возложенных на приложение функций); * базироваться на доступной для конечных пользователей платформе. Разработанный программный комплекс использован для статистического исследования произведения Хафиза Ширази и изучения закономерностей лингвистических элементов и стилистических особенностей на основе автоматизированного составления частотного словаря сборника его газелей. Теоретическими основами для решения поставленной в работе задачи явились научные работы в области проектирования информационных систем, методы визуального моделирования и технологии программирования, а также методы математической статистики.
Степень разработанности проблемы. А) В настоящее время имеется очень мало частотных словарей произведений классиков таджикско-персидской литературы. Имеющиеся единичные частотные словари составлены традиционным способом и представлены, в основном, в виде конкорданса. Автору известны лишь следующие работы: 1. Османов М.Н. Частотный словарь Унсури.- М.: Наука, 1970,
2. ﻔﺮﻫﻨﮓ ﻭﺍﮊﻩﻧﻤﺎﻯ ﺤﺎﻔﻇ. ﻔﺮﺍﻫﻢﺁﻭﺮﻧﺪﻩ: ﻤﻬﻳﻦﺪﺧﺖ ﺼﺎﺪﻗﻴﺎﻦ ﺑﺎ ﻫﻣﮑﺎﺮﻯ ﺍﺑﻭﻁﺎﻟﺐ ﻣﺮﻋﺎﺑﺪﻴﺎﻦ: ﺗﻬﺮﺍﻦ - ١٣٦٦ Б) Диссертанту не известна ни одна работа по комплексному статистическому анализу материалов того или иного автора.
В) Вопросы классической поэтики, прежде всего касающиеся метрической системы аруз, изучены в работах:
1. Шамсиддин Муњаммад бинни Ќайси Розї. Ал-мўъљам фї маойри ашъор-ил-Аљам. - Тегеран, 1338/1960.
2. Насириддини Тўсї. Меъёр-ул-ашъор. - Тегеран, 1334/1956.
3. Фарњанги омори куллиёти Ќуръони Карим.Таълиф ва тањќиќи доктор Мањмуди Рўњонї.- Тегеран, 1990 м. 4. Парвиз Нотили Хонларї. Вазни шеъри форсї. - Тегеран, 1345/1967.
5. Тўраќул Зењнї. Санъати сухан. - Душанбе: Ирфон, 1979.
6. Бањром Сирус. Арўзи тољикї. - Душанбе: Таджикгосиздат, 1963.
7. Нарзиќул М. Љойгоњи сухан.- Душанбе: Адиб, 2007. Г) Автором диссертации изучены отдельные работы, в которых поэтические материалы исследуются с помощью компьютерной технологии (напр. А.В.Козьмин Автоматический анализ стиха в системе STARLING // Тр. Международной конф. "Диалог-2006". - М, 2006; Бабенко И.И. Коммуникативный потенциал слова и его отражение в лирике М.И. Цветаевой: Автореф. дис. ... канд. филол. наук. - Томск, 2001. - 25 с.; Орлова О.В. Коммуникативные аспекты лексической репрезентации концепта язык в лирике И. Бродского: Автореф. дис. ... канд. филол. наук. - Томск, 2002. - 25 с.). Однако по проблемам автоматизации анализа таджикской поэзии исследования не проводились.
Цель работы. Цели исследования - на основе использования современных технологий проектирования информационных систем и методов визуального моделирования разработать и реализовать программный комплекс составления частотных словарей и применить его в процессе решения конкретной задачи статистического анализа поэтических материалов.
Достижение поставленной цели осуществляется путем решения следующих задач:
1. Анализ и систематизация существующих научных знаний в области математической и компьютерной лингвистики.
2. Исследование стилистических закономерностей поэтических материалов, в частности, исследование закономерностей образования стихотворных размеров.
3. Разработка и обоснование моделей с использованием стандартных систем обозначений программного комплекса.
4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматизированного составления частотных словарей и их реализация в виде проблемно-ориентированного программного обеспечения.
5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы теории алгоритмов, теории множеств, математического моделирования, теории информации, математической статистики, теории вероятностей и методы проектирования информационных систем. Для разработки программных средств применялись методы визуального моделирования (UML) и технологии объектно-ориентированного программирования, а также САSЕ-средства.
Теоретические результаты получены методом дедуктивных рассуждений. Достоверность также подтверждается численным экспериментом.
Научная новизна работы обусловлена:
1. Применением методов современной технологии проектирования информационных систем в рассматриваемой предметной области;
2. Разработкой технологии составления частотных словарей;
3. Применением нового подхода к лингвистическому исследованию для статистического анализа текстовой информации с целью определения стилистических закономерностей;
4. Проведением комплексного статистического анализа множества словоформ исследуемого поэтического материала, позволившего получить перечни и статистические распределения для различных морфологических лингвистических элементов. Практическая значимость работы состоит в возможности широкого внедрения созданных средств составления частотных словарей в лингвистических исследованиях, а также в качестве одного из элементов системы разработок в области компьютерной лингвистики.
Полученные результаты используются в учебном процессе Российско-Таджикского (славянского) университета и Таджикского технологического университета при разработке курсов лекций и программ по дисциплинам "Компьютерная лингвистика", "Технологии проектирования информационных систем".
Теоретическая ценность работы состоит в том, что разработанный подход к моделированию проблемно-ориентированных программных комплексов и реализации вычислительных алгоритмов в области лингвистических исследований может эффективно применяться при решении широкого круга задач по изучению таджикско-персидского литературного наследия.
Источники исследования. Объектом данного исследования послужили следующие работы:
1. Шамсиддин Мухаммад Хофизи Шерози. Куллиёт // Под ред. М.Бори - Тегеран: Иктисодиёти чахон, 1379/2001 (основной).
2. Насириддини Тўсї. Меъёр-ул-ашъор. - Тегеран, 1334.
3. Хофизи Шерози. Куллиёт // Ред. и автор предисл. Дж. Шамбезода. - Душанбе: Адиб, 1983.
4. ﺷﻳﺮﺍﺯﻯ :ﺍﻨﺗﺷﺎﺖ ﺫﻬﺎﻞ ﻨﻮﻴﺪﺍﻦ : ﺗﻬﺮﺍﻦ ١٣٧٣ ﺤﺎﻓﻅ ﺪﯿﻮﺍﻦ 5. Фарњанги омори куллиёти Ќуръони Карим // Сост. и ред. доктор Мањмуди Рўњонї.- Тењрон, 1990 м.,1410 њиљрї. 6. Нарзиќул М. Љойгоњи сухан.- Душанбе: Адиб, 2007. Апробация работы. Диссертационное исследование обсуждено на совместном заседании отделов таджикской классической литературы и таджикского языка Института языка и литературы им. Рудаки Академии наук Республики Таджикистан (24.01.2012, протокол №9) и рекомендовано к защите. Основное содержание работы отражено в научных статьях, опубликованных в различных научных сборниках. По материалам исследования диссертант выступала на научно-теоретических семинарах, международных конференциях, в том числе на Международном конференции (забони тољикї-форсї ва технологияњои иттилоотї) 28-29-мая 2008г. АНРТ);
Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 161 источника. Объем работы 111 страниц, в тексте основной части имеется 23 рисунков и 16 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цели и задачи работы, научная новизна и практическая ценность полученных результатов, представлены основные положения, выносимые на защиту.
В первой главе описывается "Проблематика математической экспликации и использования аппарата математики для исследования лингвистических объектов и вообще методов математического моделирования в языкознании и литературоведении. Математическое описание языка основано на представлении о языке как механизме, функционирование которого проявляется в речевой деятельности его носителей. Её результатом являются "правильные тексты" - последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание. Изучение способов математического описания правильных текстов (в первую очередь предложений) составляет содержание одного из разделов математической лингвистики - теории способов описания синтаксической структуры. Для описания строения предложения можно либо выделить в нём "составляющие" - группы слов, функционирующие как цельные синтаксические единицы, либо указать для каждого слова те слова, которые от него непосредственно зависят.
Лингвистические объекты обладают как количественными, так и качественными свойствами. Количественные свойства (например, длина словоформы в буквах или фонемах, слогах, морфемах либо количество словоупотреблений в предложении и т. п.) постоянно используются в качестве тех признаков, по которым лингвистические объекты выступают в качестве единиц статистической совокупности. Однако статистика текста оперирует не только количественными, но и качественными признаками. Например, в ходе статистико-морфологического исследования словоупотребления текста группируются по признаку их принадлежности к той или иной части речи. При статистико-синтаксическом исследовании таким качественным признаком является функционирование каждого словоупотребления в роли определенного члена предложения. Статистическое исследование классиков таджикской литературы проводилось очень мало1. Очевидно, при исследовании классической поэзии, кроме атрибуции, которая является одной из важнейших задач стилистики, требуется установить также и другие параметры поэтического наследия, такие как жанр, размер, тематика, рифма, арабизм и т.п. Интересно узнать, например, удовлетворяют ли тексты авторов таджикской классической поэзии зависимости между частотой словоформы и ее номером в частотном словаре, составленном на основе данных текстов. Эта зависимость выражается формулой (называемой обычно законом Эсту-Ципфа-Мандельброта), которая имеет следующий вид: в этой зависимости Fi - частота словоформы и i - номер ее в частотном словаре выступают в качестве переменных величин, а величины N - длина исследованного текста, k , ρ и ν - коэффициенты, связанные с различной частотой лексических элементов. Хотя статистическое исследование поэтического материала во многом аналогично исследованию прозы, тем не менее, имеются отличительные особенности, которые определяются свойством поэзии. Этими особенностями, например, являются размерность, строчная разделяемость, рифма, стихотворный слог и т.д. Вообще говоря, стиховедение требует выполнения огромного объема рутинных операций. Вероятно, именно поэтому в литературоведческой среде оно считается трудной областью, хотя работа именно в этой сфере приносит очень весомые и, главное, хорошо обоснованные результаты. Эти операции хорошо формализуются, что, кажется, должно было бы привести к созданию программного инструментария для их выполнения. Однако до сегодняшнего дня нет программ, которые могли бы использоваться как рабочее место стиховеда.
Компьютерный анализ лексической организации поэтических текстов позволяет не только создать частотный словарь лирики автора, выделить ключевые концепты его мировидения, но и определить специфику вербальной репрезентации в творчестве художника той или иной универсалии его мышления на основе моделирования межтекстового ассоциативно-смыслового поля концепта. Вместе с тем частотный словарь позволяет определить статистические закономерности поэтического материала, а включение размера стиха в качестве дополнительного параметра статистического анализа увеличить вероятность атрибуции материала.
В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы - базы данных, компьютерные картотеки, программы обработки текста - позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ разделяются на две большие группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Компьютерное моделирование структуры сюжета - еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета - морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры - выделения в них смысловых единиц и установления связей между ними.
Корпусная лингвистика в последнее десятилетие всё более активно включается в научный оборот, особенно в плане практического использования корпусов в лингвистических исследованиях, подготовке словарей и грамматик. В то же время осмысление теоретических оснований нового направления в определённой мере отстаёт от конкретных исследований с применением корпусов. Несмотря на то, что проблемы корпусной лингвистики рассматриваются в учебных пособиях, им посвящены специальные выпуски научных журналов, в которых публикуются статьи по общим и специальным проблемам создания и функционирования корпусов текстов, ряд проблем остаётся неразработанным. К таким проблемам относится определение корпусной лингвистики и основных понятий, её места в структуре лингвистического знания, методов корпусной лингвистики и другие. Кроме того, применение корпусов в качестве исследовательского инструментария только начинает быть предметом языковедческой рефлексии. Основные задачи корпусной лингвистики могут быть сведены к следующим: разработка теоретических оснований данного направления; анализ опыта создания и применения корпусов различных видов; формулирование общих требований к корпусу; создание корпусов для различных исследовательских и учебных задач; формирование эффективных способов применения корпусов текстов в различных областях языкознания. Среди методов корпусной лингвистики обычно выделяются следующие группы: филологические методы; теоретико-лингвистические методы; математические (статистические) методы; методы информационных технологий. Поэтический (под) корпус - часть национального корпуса со специфической метаразметкой, в которой отражены основные жанровые и формальные параметры поэтического текста. Присутствие данной метаразметки позволяет программными средствами восстановить акцентную схему каждой входящей в рассматриваемый поэтический текст словоформы с определенной точностью. Интерфейс поиска, в целом, одинаков для поэтического и основного корпусов. Однако в поэтическом корпусе существует дополнительный набор метатекстовых атрибутов, позволяющих осуществлять поиск по характерным параметрам поэтического текста. Основные параметры, которые принципиальны для формирования поэтического корпуса, - это стиль, жанр, рифма, размер и т.п.
Размер. Традиционно метрической основой стихотворной размерности персоязычной поэзии является аруз. Хотя аруз заимствован из арабской поэзии и его основоположником является Халил ибн Ахмад, классики таджикско-персидской литературы постепенно стали вносить свои коррективы с учетом требований и особенностей персидского языка. Вместе с тем, для письменности использовалась все та же арабская графика. Поэтому почти во всех руководствах и трактатах по арузу придерживаются правил образования размерности, предложенных Халилом ибн Ахмадом.
Только в последнее время (ХХ в.) к этому положению начали относиться критически. Такие ученые, как П.Н. Хонлари, Т.Зехни, Б. Сирус и др., стали утверждать, что размерность в таджикско-персидской поэзии достигается путем создания в соответствии с определенными правилами последовательностей коротких и длинных слогов. И в качестве основной единицы определения размера служит только слог. Рассматриваются следующие виды слогов: открытый слог с коротким гласным2 (короткий слог); закрытый слог с коротким гласным (длинный слог); открытый слог с длинным гласным (длинный слог) и закрытый слог с длинным гласным (полуторный слог). Также рассматриваются случаи, когда закрытый слог заканчивается двумя согласными, которые в основном считаются полуторными. Для образования стихотворных размеров используются базовые элементы - рукны3. Изначально путем различной комбинации единицы слогов, называемых "сабаб", "ватад", "фосила", и их разновидностей, определяются 7 базовых рукнов: "Ма-фо-i-лун" (V ─ ─ ─), "Мус-таф-ъи-лун" (─ ─ V ─), "Фо-и-ло-тун" (─ V ─ ─), "Ма-фо-i-лу" (V─ ─ V), "Фа-u-лун" (V─ ─), "Мус-таф-ъи-лун" (─ ─ V ─), "Фои-ло-тун" (─ V ─ ─). Два последних элемента отличаются от второго и третьего лишь конструктивно в соответствии с правилами сопряжения корневого слова "фаъл", а по звучанию, мелодичности и последовательности сочетания коротких и длинных слогов они идентичны. Поэтому для анализа в качестве базовых элементов в работе использованы только первые пять рукнов.
В системе аруз зихофом называется порождение новых рукнов в результате внесения определенных изменений в рукны базового множества. В классическом стиле это образование получается в результате добавления, удаления или изменения одного или нескольких букв (слогов) в базовых элементах. И в связи с этим сформулированы правила образования зихофов. Хотя в литературных источниках приводятся 45 зихофов, получаемых в результате применения различных правил, большинство исследователей придерживаются мнения, что это не окончательный вывод. Обычно классики таджикско-персидской литературы путем выбора размера поэтического материала, а также звучности букв умели создавать ассоциативный образ описываемой в стихотворении темы и его эмоциональный оттенок. Этот навык выбора доведен некоторыми авторами до абсолютного совершенства. Например, тема "Цветущие сады" ассоциируется с пением птиц. А последнее связано с чириканием, или со звуком, который производится буквой "ч". И в связи с этим Хафиз приводит:
Мурғи чамони ман чаро майли чаман намекунад,
Ҳамдами гул намешавад, ёди суман намекунад.
Мелодичность размера данного двустишия настраивает на выражение восхищения красотой цветущего сада, а повторение буквы "ч" в словах "чамон", "чаро" и "чаман" создает ощущение чирикания птиц. Другой пример:
Эй њама шакли ту матбўъу њама љои ту хуш,
Дилам аз ишваи ширини шакархои ту хуш.
Повторение буквы "ш" в словах "ишва", "ширин", "шакархо", "хуш" порождает особое эмоциональное состояние. Или же Лахути в некоторых своих стихотворениях для эмоционального выражения призыва к борьбе, вопреки правилам, принятым в канонах аруза, в пределах одного размера использует различные звуки, порожденные короткими и длинными гласными [2, 40]. При этом мелодичность стихотворения даже усиливается, что свидетельствует о высоком мастерстве поэта. Поэтому, имея в виду дальнейшие исследования, целю которых - устанавливать закономерности связи отдельных тем с мелодичностью размера на основе регрессионного и корреляционного анализа, мы отделили атрибут "Тема" как отдельное множество. Вместе с тем эта задача не входит в рамки данного исследования.
Во второй главе описывается "Разработанная технология составления частотных словарей". Основными этапами процесса составления частотного словаря и выполнения статистической обработки поэтического материала являются:
1. Подготовка материала. Материал можно подготовить через сканирование и распознавание с последующим редактированием или традиционным способом - путем ввода с клавиатуры. 2. Считывание материала и формирование таблицы в базе данных. В базе данных определены необходимые таблицы: таблица размеров и таблица поэтических жанров. Значение этих атрибутов в формируемой таблице определяется в диалоговом окне.
3. Предварительная обработка материала и нормализация лексических элементов.
4. Составление конкорданса и предоставление возможности редактирования. 5. Редактирование конкорданса с целью определения дополнительных параметров: значение отдельных слов, морфологические параметры, этимологические параметры и, возможно, некоторые комментарии.
6. Статистический анализ в соответствии с заданными параметрами. Очевидно, что данный программный комплекс является человеко-машинной системой и обеспечивает взаимодействие между различными программными средами (текстовый редактор, СУБД, электронная таблица).
Описание моделей элементов программного комплекса (ПК) осуществлено на основе стандарта системы обозначений UML (Unified Modeling Language - Унифицированный язык моделирования), утвержденного OMG (Object Management Group - Группа управления объектами) в 2004г4. Для этого использовались инструментальные средства IBM Rational Rose, Enterprise Edition 7.0, которые позволяют отслеживать процесс разработки, сопровождения и эксплуатации программного комплекса в течение всего его жизненного цикла. На первом этапе проекта необходимо составить набор требований, предъявляемый к конечному продукту. Набор требований, обычно составляется исходя из того, что хочет заказчик и что ему на самом деле нужно. В данном случае требования формируются, прежде всего, исходя из тех функций, которые должен выполнить частотный словарь и задач, которые возникают в процессе его составления. К проектируемым программным продуктам также предъявляется ряд нефункциональных требований, таких как надежность, производительность, переносимость и т.п. Эти требования являются общими, и чтобы их учитывать, необходимо реализовать функциональную часть программного продукта. Поэтому с целью демонстрации важных аспектов разработки сформулированы основные функциональные требования к разрабатываемому проекту программного комплекса составления частотных словарей (ПКСЧС) следующим образом:
* ПКСЧС должен обеспечить обработку поэтических произведений различных авторов и различных жанров, а также хранение результатов обработки;
> ввод исходного материала осуществляется отдельно; * обработка исходного материала осуществляется в несколько этапов:
1. Первичная обработка - нормализация лексических элементов, которая осуществляется путем удаления, добавления и изменения отдельных их частей. В материалах на таджикском языке это выражается в следующем: удаление символа притяжательного падежа (бандаки изофї), например, фраза "хонаи ман" заменяется на "хона ман"; изменение формы соединительного союза - "ману ту" заменяется на "ман ва ту"; сочетания, рожденные стяжением двух слов, согласно требованиям размера поэтического материала, заменяются на два элемента, например, "з-ин", "в-агар", "к-он" и т.п. заменяются на "зи ин", "ва агар", "ки он" и т.п., соответственно; связка "аст" может быть как частью именного сказуемого "будааст", "рафтааст", так и служить для образования сложных форм, при этом, если основное слово заканчивается согласным, то сложная форма пишется слитно и "аст" заменяется на "ст", например, "шумост", "накўст", "борҳост" и т.п. В первом случае сложное сказуемое заменяется инфинитивом, а вместо сложной формы записываются два слова: "шумо аст", "накў аст", "борҳо аст". На рис. 1 показан алгоритм первичной обработки
2. Составление списка лексических элементов с указанием их местонахождения в материале с точностью до строки;
3. Определение длины (количество букв) лексических элементов;
4. Определение частотности лексических элементов;
5. Сортировка лексических элементов в соответствии с указанным признаком (длина, алфавит, порядок встречаемости, частотность); * результаты обработки на любом этапе должны храниться отдельно от исходного материала с целью его восстановления в случае программного или аппаратного сбоя;
* ПКСЧС должен обеспечить возможность редактирования в следующих режимах:
> предварительное - после первичной обработки для просмотра и, быть может, внесения изменений;
> промежуточное - с целью просмотра параметров, полученных в результате обработки и координации признаков сортировки;
> окончательное - для ознакомления с конечными результатами и подготовки к печати выходных документов. * ПКСЧС должен обеспечить подготовку и печать следующих выходных документов:
> список лексических элементов в соответствии с выбранным признаком, полностью или частично, с указанием местоположения слова в материале или без него;
> список внесенных изменений лексических элементов в результате первичной обработки и исходная их форма;
> результаты статистической обработки данных материала в виде таблиц, диаграмм, графиков и комментариев. Далее на основе этих требований и ограничений можно выделить классы пользователей программного комплекса и построить его описание с точки зрения конечного пользователя. Для данного программного комплекса определены шесть прецедентов использования (Use Case):
1. Ввод исходного материала, который осуществляется традиционным способом или через сканирование и распознавание.
2. Редактирование. Процедура редактирования включается на всех этапах процесса составления частотного словаря. Даже если ввод исходного материала осуществляется через сканирование и распознавание, то требуется процедура редактирования для сравнения с оригинальным источником обрабатываемого материала. В зависимости от содержания материала и этапа обработки программа должна открыть окно редактора текстов, лист электронной таблицы или форму базы данных. Такая программа реализуется при помощи технологии DAO и DLL (Dynamic Linking Library) - динамически подключаемая библиотека. Эти объекты должны использоваться актерами как в режиме просмотра, так и в режиме изменения и добавления. 3. Обработка материала. Обработка в соответствии с предъявляемыми функциональными требованиями осуществляется в несколько этапов. 4. Составление списка слов. Список составляется для определенного значения параметров и заданного объема слов.
5. Статистический анализ. Анализ полученных в результате обработки элементов частотного словаря.
6. Печать документов. Инициируется либо прецедентом "Составление списка слов", либо прецедентом "Статанализ"
Кроме того, выделены три класса пользователей, или три действующих лица (актеры), и определены их роли: Лингвист, Аналитик и Оператор. Их роли во взаимодействии с программой определены при помощи диаграммы прецедентов использования. Система обозначений UML позволяет описывать динамическое поведение программного комплекса и его статическую структуру. Современные CASE - технологии (в частности, Rational Rose) содержат разные средства генерации кода, причем предоставляется возможность выбора языка программирования. Однако мы не стали пользоваться этой возможностью программы Rational Rose исходя из следующих соображений:
1. Из-за невозможности автоматизировать весь процесс составления частотного словаря. Более того, это не рекомендуется, т.к. кроме формальной рутинной работы в данной процедуре имеется большое количество неформальных задач, решение которых полностью зависит от экспертных знаний. Это задачи смыслового и этимологического толкования слов, разделения омонимов, определения принадлежности к той или иной части речи и др. Исходя из этого, возникает естественная необходимость предоставления конечным пользователям широких возможностей манипулирования исходными, промежуточными и результирующими данными.
2. Приложение должно базироваться на доступной для конечных пользователей платформе. На данный момент такой платформой являются программы пакета Office, поскольку полностью или его отдельные компоненты используются практически всеми теми, кто выполняет ту или иную задачу на персональном компьютере, и по некоторым оценкам 90% организаций лишь на 10% используют возможности программ пакета Office. Поэтому механизм манипулирования данными надо предоставить с помощью этих программ путем широкого использования их возможностей. В связи с этим возникает задача интеграции разных приложений пакета MS Office.
Для реализации программного комплекса в диссертации использован подход, в основе которого лежит понятие алгоритма диалоговых операций (АДО) - совокупность логически связанных выполняемых человеком и компьютером операций, обозначаемых в виде граф-схемы, по обработке, вводу и выводу данных при решении конкретных прикладных задач, реализуемой в виде проблемно-ориентированного программного комплекса. Все множество операций АДО разбивается на два основных класса: формальные операции над данными, выполняемые компьютером автоматически, без участия в этом процессе человека; неформальные операции преобразования данных, вводимых в компьютер человеком.
Для создания АДО применительно к проблемно-ориентированному программному комплексу необходимо иметь следующую информацию:
1. Формулировка назначения программного комплекса и определение основных предъявляемых к нему требований;
2. Модели и методы решения исследуемых задач;
3. Алгоритмы выполнения процессов обработки и их блок-схемы;
4. Модели представления различных аспектов программного комплекса и их описание на базе стандартизированной системы обозначений;
5. Списки входного и выходного потока данных, их формы и ограничения;
6. Перечень выходной документации с конкретной формой представления результатов;
7. Представление диалоговых процедур на трех этапах: задание исходных данных, настройка задачи, выбор метода решения и т.д.; просмотр текущей информации, коррекция исходных данных и внесение требуемых изменений, сохранение промежуточных результатов и т.д. и просмотр результатов, оформление документации и организация ее выдачи и т.д.
Третья глава диссертации "Использование программы для решения лингвистических задач на основе статистического анализа" посвящена применению разработанного программного комплекса для решения конкретной задачи, а именно для статистического анализа поэтических материалов на примере газелей Хафиза. Для этого использованы ряд изданий стихов Хафиза, но основными источниками послужили издания стихов Хафиза 2001 года (Тегеран) и 1983 года (Душанбе).
Разработка должна вестись таким образом, чтобы алгоритмы легко могли быть улучшены. Поэтому работа программ разбивается на этапы, каждый из которых должен улучшать результаты, полученные на предыдущем этапе. Основной единицей анализа в текущей версии программ является строка. А статистический анализ осуществляется лишь после составления частотного словаря изучаемого текста.
В реляционной базе данных классам соответствуют отношения (таблицы), а объектам - кортежи (записи), ассоциациям между классами соответствуют реляционные отношения между таблицами. Каждое отношение, определенное для отдельного поэтического жанра, в совокупности образует множество отношений базы данных информационной системы для рабочего места стиховеда. Иными словами, G=G1  G2  ...  Gn , где n - количество всех поэтических жанров, Gi - отношение для i-го жанра, i=1,2,..., n. При этом множество атрибутов каждого отношения Gi задается как подмножество всех атрибутов поэтического материала.
Основное отношение базы данных для хранения, использования и дальнейшей переработки газелей Хафиза Ширази из 9 атрибутов определено следующим образом:
DbGazal={КодЗ, №Газ., Газель, Размер, Рифма, КолСтр, КолСлов, Назв, Тема}.
Хотя интерфейс программного комплекса, как и его реализация, является весьма общим и применим к произвольному приложению, тем не менее, каждое новое применение имеет свои отличительные особенности. Поэтому более корректным является случай, когда для некоторого конкретного применения, основываясь на общих принципах разработки интерфейса программного комплекса, создается интерфейс, предназначенный для работы именно с этим материалом. Предлагается два варианта анализа сборника газелей: выборочный и полный. В случае выборочного режима можно определить размер выбранной газели и производить отдельно статистический анализ. При этом вначале необходимо исследовать базу данных, на что программа тратит определенное время. Этот факт отражается в интерфейсе.
Определение размера осуществляется в соответствии с алгоритмом (рис 2). Выдаются наиболее вероятные размеры, определенные и упорядоченные по количеству совпадений, т.е. , указав номер размера в базе, его название, название рукнов и схему
При выборе режима "Полностью" из базы последовательно считываются все газели, и на первом этапе анализа, для удобства, открывается лист MS Excel, в котором записываются расщепленные лингвистические элементы (словоформы) от первой до последней газели. По завершении процедуры расщепления предлагается сохранить файл.
Частотный словарь составлен на основе 569 газелей Хафиза со следующими условиями:
* исключение изафета (бандаки изофї) "и", например, "Равоқи манзари чашми ман..." рассматривается как "Равоқ манзар чашм ман...";
* замена слитных соединительных союзов "ву", "ю" на "у" и его отделение от слова для дальнейшего рассмотрения в качестве однобуквенного лингвистического элемента;
* замена сочетаний, рожденных стяжением двух слов в соответствии с требованиями размера, на два слова, например: "з-ин" - "зи ин", "в-агар" - "ва агар";
* отделение связки "аст" от части именного сказуемого, а также в словах, заканчивающихся гласной буквой, в которых эта связка выражается в виде "ст", её замена на "аст", например: "туст" - "ту аст", "равост" - "раво аст"; * составление конкорданса. Этот процесс автоматизирован и выполняется в несколько этапов 1. Расщепление всего текста на отдельные слова, разделителем являются пробел, знаки препинаний, тире (дефис), знак перехода строки, знак абзаца;
2. Определение номера газели и номера строки в газели для каждого встречаемого слова5; 3. Группировка слов по длине;
4. Выдача первичного списка для предварительного знакомства, и может быть, внесение некоторых коррективов и изменений;
5. Подготовка конкорданса без какого либо упорядочивания в следующем формате "слово - частотность, {№Г-№с; №Г- №с ; ....;} ". Причем порядок слов устанавливается по мере встречаемости, ниже приводится пример фрагмента составленного конкорданса; 6. Упорядочивание конкорданса, обычно по алфавиту;
7. Составление комментариев и толкований слов конкорданса, а также их запись с помощью арабской графики. Этот процесс выполняется лингвистом в интерактивном режиме взаимодействия с системой на основе упорядоченного конкорданса. В итоге словарь обретает следующую форму: {Слово-Вязь-Толкование-Встречаемость-Частотность}
адлعدلБа њамаи одамон бо як чашм нигоњ кардан, инсоф. 7 207-3; 268-15; 270-4; 347-15; 409-4; 410-25; 438-14;аќлعقلХирад, идроки дарёфт, ќобилияти фикр, зењн. 38 10-7; 21-10; 23-13; 52-7; 55-13; 73-13; 81-5; 120-6; 129-12; 133-10; 136-3; 144-3; 146-7; 167-5; 175-2; 182-9; 186-16; 207-9; 217-18; 221-6; 224-15; 232-14; 323-12; 329-11; 342-11; 397-2; 422-11; 432-7; 438-21; 454-2; 458-5; 492-9; 518-4; 529-3; 538-3; 542-13; 562-8; 568-3;комکامМаќсад, мурод, орзу, майл, коми дил муроди дил, орзуи матлуб. 49 11-2; 20-19; 40-5; 49-13; 53-1; 53-12; 71-14; 71-14; 93-18; 110-12; 126-10; 128-1; 132-10; 168-18; 196-12; 214-5; 249-7; 254-11; 261-1; 261-8; 261-10; 262-12; 263-2; 265-1; 265-6; 266-15; 270-6; 276-3; 279-15; 288-1; 350-12; 354-4; 363-9; 364-15; 366-14; 374-5; 381-13; 390-9; 407-10; 431-8; 440-9; 453-8; 460-4; 471-2; 505-2; 519-11; 531-16; 536-11; 546-7; адабادبШарм, њаё; накўтабиатї, покизагии табиат. 13 62-14; 73-13; 113-7; 121-13; 142-8; 226-15; 229-9; 233-13; 233-14; 243-8; 315-7; 511-6; 555-7;бўъдبعدДурї, дур будан; фосила. 2 99-5; 539-14;замонزمان1.Ваќт, њангом; давр, замона, рўзгор; акнун, њоло, њозир; таќдир, сарнавишт. 2. зоминї, кафолат. 40 10-10; 20-4; 20-19; 62-11; 66-5; 67-17; 83-10; 165-11; 175-10; 181-3; 183-8; 183-10; 209-12; 220-12; 223-16; 231-19; 252-4; 252-5; 258-15; 265-15; 270-7; 271-9; 282-14; 293-7; 339-4; 339-18; 341-5; 343-6; 343-6; 345-2; 349-10; 351-8; 366-15; 366-20; 390-2; 393-9; 430-14; 484-7; 501-6; 547-2;аврангاورنگ1.Тахт, сарир; 2.Номи шахсе, ки ошиќи Гулчењра ном духтаре будааст. 3 390-5; 491-17; 559-12;остонаآستانه1.Ќисми поении чорчўбаи дар, поиндарї; даромадгоњ, мадхал; 2. Кафшкан; 3. Дарбор, боргоњи подшоњї. 12 39-10; 46-9; 54-5; 69-15; 129-8; 142-16; 170-13; 253-18; 269-14; 420-16; 457-7; 462-12;паргорپرگار1.Афзор ва олотест барои кашидани доира ва паймоиши хатњо, сиркул; 2. чора, васила; тадбир. 7 86-10; 96-9; 123-11; 155-12; 228-9; 256-9; 282-10;тазарвتذروМурѓи дашти, ќирќовул, мурѓи титав, ки дар афсонањо ошиќи сарв будани он машњур аст. 2 398-3; 403-12;хусравخسروНоми шахс(Хисрав); Хусрави Ховар - офтоб (Сањар чун хусрави ховар алам бар кўњсорон зад-168-1) 17 61-16; 168-1; 196-2; 213-7; 275-9; 321-18; 334-13; 347-1; 408-15; 435-1; 439-1; 491-22; 493-15; 496-18; 546-4; 552-9; 555-7;
8. Определение лингвистических признаков слов (части речи, языковые и этимологические аспекты) конкорданса для дальнейшего его использования с целью статистического анализа и установления стилистических закономерностей. Этот процесс также выполняется лингвистом на основе упорядоченного конкорданса.
Следующий этап работы - исследование газелей Хафиза с позиции статистического анализа с целью обнаружения некоторых стилистических закономерностей и лингвистических особенностей.
Длина словоформы. Полный объем словаря составляет 68955 слов. В сборнике газелей Хафиза встречаются отдельные строки и даже полностью газели на арабском языке. Мы их не стали включать в словарь, а рассматривали как отдельный параметр. Таких строк в тексте всего 97 с общим объемом 689 слов. С другой стороны, во всем тексте встречаются всего 4 однобуквенных слова, это: ў (он, она) - 327, ё (обращение) - 102, о (повелительная форма глагола "омадан" - приходить) - 10 и соединительный союз у, который обычно пишется слитно и в зависимости от окончания имеет формы "ву" или "ю" встречается 2273 раза. При произведении статистического анализа такой соединительный союз не учитывался, т.к., во-первых, он входит в состав того или иного слова, во-вторых, его учет из-за большого количества может привести к искажению реальной картины исследуемого материала. Поэтому анализ произведен на основе словаря с объемом 66652 слова, в количестве 9685 различных слов со средней встречаемостью 7 раз, без учета строк на арабском языке и соединительного союза "у". Самая большая по длине словоформа - 17 букв, в тексте встречаются всего две словоформы (киштинишастагонем и мўъдалатиссултонї). Самую большую частоту имеют слова из двух букв (14704). Такое количество создается в основном за счет предлогов и союзов, таких как "ба", "аз", "зи", "ки", "ва" и т.п. Поэтому, при такой большой частоте, в тексте встречаются всего 56 двухбуквенных слов. Самое большое количество словоформ из 6 букв - 1873 при частоте 6463. Таким образом, по длине словоформы получено следующее распределение (таблица 1). Таблица 1. Распределение по длине словоформы
Длина словаЧас-та%Кол-воСр част.Длина словаЧас-та%Кол-воСр част14090,614146,3105470,824351,2621470422,0656262,6111900,291681,1331446221,7040235,9812980,15781,2641105316,5898811,1913340,05311,1051136217,0517956,331450,007570,71664639,7018733,451570,010551,40742656,4017732,411600,000000,00820233,0412041,681720,003021,00910291,547091,45 Слабой стороной табличного описания колебания признака является недостаточная наглядность этого описания. Гораздо большая наглядность достигается с помощью графического или геометрического изображения интересующего нас распределения (рис.3).
Рис.3. Распределение словоформ по количеству букв
Изучение частотного словаря по длине словоформы позволяет сделать вывод, что максимальные информационные нагрузки текстового и словарного слова в произведениях Хафиза не очень отклоняются от среднестатистических литературных данных для других языков. Это соответствует тому, что данная величина в индоевропейских языках примерно одинакова. Распределение словоформ. Полный объем словаря из 68955 словоформ распределяется по отдельным единицам изучаемого материала, в нашем случае по газелям, следующим образом. Минимальное количество использованных словоформ - xmin = 43, которое встречается в трех газелях (479, 498, 543) и составляет всего 0,63% от общего количества газелей, а максимальное xmax = 239 словоформ только в одной газели (410). В 27 газелях количество словоформ не повторяется. В таблице 2 приведен список, в котором указаны все такие газели, при этом S - количество словоформ, № - номер газели в базе данных.
Таблица 2
S№S№S№S№S№S№S№S№S№4949861182905651574031675551732861761231812871875355163861251331481632416943817456178449182567190271572818950115415716628517122017541517933918580196517 Такой ряд, очевидно, является не очень удобным для дальнейшего исследования. Чтобы избежать этого неудобства, сгруппируем полученный вариационный ряд по количеству словоформ и определим интервалы, в которых находятся эти значения. Таким образом, пусть (x1,x2), (x2,x3), ...,(xn-1, xn) будут этими интервалами с интервальными разностями k1= x2 - x1, k2= x3 - x2,...,kn-1= xn - xn-1, которые характеризуют ширину интервалов.
Не умаляя общности, можно предположить, что интервалы имеют длину. Для определения ширины интервалов воспользуемся формулой Стерджесса
=
Отсюда находим длину интервала
 10
Таким образом, весь отрезок, определенный по количеству словоформ, будет разбит на интервалы , длина каждого (кроме последнего) равняется 10, а длина последнего интервала из-за небольшого количества элементов, значительно увеличена. В этот интервал входят все газели, имеющие более 200 словоформ. С учетом этого посчитаем количество возможных интервалов по формуле . Значения этих интервалов приведены в таблице 3.
Таблица 3.Группировка газелей по количеству словоформ.
ГруппаКоличество словоформ В среднемГазели%ГруппаКоличество словоформВ среднемГазели%I40-494630,63X130-1391357212,65II50-595550,88XI140-149144437,56III60-696681,41XII150-159154284,92IV70-7975203,51XIII160-169164152,64V 80-8985172,99XIV170-179175111,93VI90-9995457,91XV180-18918481,41VII100-1091059416,52XVI190-19919561,05VIII110-1191159416,52XVII> 20022061,05IX120-1291249416,52Общее количество569100 Эти табличные данные представлены графически в виде гистограмм (рис.4)
Рис.4. Гистограмма распределения по количеству словоформ.
Далее изучаются вопросы распределения словоформ по принадлежности частям речи, языковым и другим признакам.
Заключение подытоживает основные результаты проведённых исследований, экспериментов и практической реализации.
В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ. А это - задача чрезвычайной сложности.
Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми - средством восприятия, накопления, хранения, обработки и передачи информации.
Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно - на рубеже пятидесятых и шестидесятых годов прошлого столетия. Поначалу, в период своего становления, она имела различные названия: математическая лингвистика, вычислительная лингвистика, инженерная лингвистика. Но в начале восьмидесятых годов за ней закрепилось название компьютерная лингвистика.
За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Но были и разочарования. Например, проблема машинного перевода текстов с одних языков на другие оказалась значительно сложнее, чем это представляли себе пионеры машинного перевода и их последователи. То же самое можно сказать об автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной речи. Известно, что в естественных языках и в речи основными единицами смысла являются морфемы, слова, словосочетания, фразы и различного рода сверхфразовые единства. Эти единицы в совокупности представляют собой иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не может быть "вычислен" на основе информации о смысле единиц более низкого уровня и о информации о связях между этими единицами). Минимальной единицей смысла, обозначающей понятие, является слово, но большинство понятий обозначается словосочетаниями. При этом количество многословных наименований понятий (фразеологических единиц) в сотни раз больше, чем количество однословных наименований понятий. При автоматической "смысловой" обработке текстов важную роль должен играть их концептуальный анализ. Задачей такого анализа должно быть определение границ наименований понятий в текстах и установление синтагматических и парадигматических отношений между ними.
Итак, одной из важнейших задач компьютерной лингвистики на современном этапе ее развития является составление достаточно представительных словарей наименований понятий - выявление основного понятийного фонда естественных языков. Этот фонд предположительно будет состоять из сотен миллионов слов и фразеологических словосочетаний. Выполнение поставленной задачи благотворно повлияет на развитие информационных технологий, связанных с автоматической обработкой текстовой информации.
Опыт полувекового развития компьютерной лингвистики продемонстрировал широкие возможности конструктивного алгоритмического подхода к решению ее задач. Вместе с тем он выявил и ограниченность этого подхода. Оказалось что в некоторых сложных ситуациях алгоритмический подход неэффективен, и в таких случаях лучше применять метод аналогии. В этой связи у специалистов по компьютерной лингвистике и перспективным информационным технологиям сформировалась точка зрения, согласно которой часть задач может решаться "по правилам" (rule based approach), а другая часть - "по аналогии с прецедентами" (example based approach). Возможны и гибридные технологии, в которых целесообразно использовать оба эти подхода.
В заключение хотелось бы еще раз подчеркнуть важную роль компьютерной лингвистики в развитии перспективных информационных технологий. В эпоху построения Информационного Общества эта наука становится одним из основных факторов, определяющих прогресс в данной области. Цитируемая литература:
1. Бањром Сирус. Арўзи тољикї. - Душанбе: Таджикгосиздат, 1963.
2. Давронов С. Вазни ашъори Абулќосим Лоњутї. - Душанбе, 1974.
3. Мисбоњиддини Нарзиќул. Љойгоњи сухан.- Душанбе: Адиб, 2007. 4. Насириддини Тўсї. Меъёр-ул-ашъор. - Тегеран, 1334.
5. Парвиз Нотили Хонларї. Вазни шеъри форсї. Тегеран, 1345.
6. Тўраќул Зењнї. Санъати сухан. - Душанбе: Ирфон, 1979.
7. Фарњанги омори куллиёти Ќуръони Карим.Таълиф ва тањќиќи доктор Мањмуди Рўњонї.- Тегеран, 1990. 8. Шамсиддин Муњаммад бинни Ќайси Розї. Ал-мўъљам фї маойри ашъор-ил-Аљам. - Тегеран, 1338.
Основные положения исследования изложены в следующих публикациях:
Статьи, опубликованные в изданиях, вошедших в Перечень ВАК РФ: 1. Джаъфарова Д.Ф. Пажўњиши воситањои технологияи иттилоотї дар адабиётшиносї (дар мисоли назми классикии форсу тољик) // Паёми Донишгоњи милии Тољикистон. Бахши филология. - Душанбе, 2010. С.139-141.
2. Джаъфарова Д.Ф. Технология составления частотных словарей // Вестник университета (Республика Таджикистан). Душанбе: РТСУ, 2010. - №(30). - С.126-131.
3. Джаъфарова Д.Ф. Составление частотного словаря газелей Хафиза // Вестник национального университета. Серия "Филология". Душанбе, 2010. - №7(63). - С.84-86.
4. Джаъфарова Д.Ф. Программный комплекс для составления частотных словарей // Материалы Международной молодежной научной Конференции/Марийский государственный технический университет (16-17 апреля 2010г.). - Йошкар-Ола, 2010. - С. 260-263. 5. Умаров М.А., Джаъфарова Д.Ф. Об особенностях технологии составления частотных словарей // Материалы Международной научно-практической конференции студентов и молодых ученых. - Уфе, 2011. - С.93-98).
Статьи, опубликованные в других научных журналах и изданиях:
1. Умаров М.А., Джафарова Д.Ф. Вопросы использования ИКТ в изучении таджикской классической поэзии // Труды научно-практической конференции "Вопросы ресурсного обеспечения информационно - коммуникационных технологий в образовании" РТСУ. - Душанбе, 2007. - С. 110-113.
2. Одинаев Н.С., Джафарова Д.Ф. Забон ва худшиносии миллї // Озодагон. - 2008. - 7 авг., №32. - С.14.
3. Умаров М.А., Джафарова Д.Ф. Составление частотного словаря газелей Хафиза // Труды технологического Университета Таджикистана. Вып. XIV. - Душанбе, 2008. - С.57-60.
4. Джафарова Д.Ф. Применение методов продукционных систем в исследовании образования размерности таджикской поэзии // Вестник Технологического Университета Таджикистана. - Душанбе, 2009. - №1(15). - С.59-62.
5. Джафарова Д.Ф. Об одном подходе проектирования программных комплексов // Материалы научно-практической республиканской конференции. - Душанбе: ТУТ, 2010. - С. 25-28. 6. Джафарова Д.Ф. О статистическом анализе газелей Хафиза // Материалы Международной научно-практической конференции. - Душанбе: ТУТ, - 2010, С. 352-357.
7. Умаров М.А., Одинаев Н.С., Джафарова Д.Ф. Оид ба тањияи вожаномаи басомади Њофизи Шерозї. Материалы круглого стола "Перспективы развития фундаментальных и прикладных лингвистических исследований в республике Таджикистан". Душанбе, РТСУ - 28.01.2011. -С.28-35.
1 См., например: Османов М.Н. Частотный словарь Унсури. - М.: Наука, 1970.
2 В арабской графике некоторые гласные буквы (а, и, у) не пишутся (мутаххарик). Для правильного их озвучивания используются специальные надстрочные и подстрочные значки, о ни являются короткими гласными.
3 Рукн означает столп, основа, база
4 Рамбо Дж., Блаха М. UML 2.0. Объектно-ориентированное моделирование и разработка. 2-е изд. - СПб.: Питер, 2007. - 544 с.
5 Номер газели соответствует порядку, приведенному в основном используемом источнике ---------------
------------------------------------------------------------
---------------
------------------------------------------------------------
2
Документ
Категория
Филологические науки
Просмотров
268
Размер файла
326 Кб
Теги
кандидатская
1/--страниц
Пожаловаться на содержимое документа