close

Вход

Забыли?

вход по аккаунту

?

Презентация

код для вставкиСкачать
Некоторые особенности
формирования
электронного корпуса текстов
с синтаксической разметкой
Рогов А.А., Гурин Г.Б., Котов А.А.,
Сидоров Ю.В., Седов А.В., Некрасов М.Ю.
Презентация
Упрощенная структура словаря
Система грамматической атрибуции
Часть речи
Глагол
Время
Существительное
Форма
Падеж
Настоящее
Прошедшее
Род
Мужской
Прилагательное
Именительный
Женский
Число
Сложности, возникающие
при создании грамматического
словаря XIX века
Написание
XIX-го века
Современное
написание
Мужчина
Мужщина
Музжчина
Мужчина
Сложности, возникающие при
создании грамматического словаря
Кофе
Печь
?
Мужской род
?
Средний род
Существительное
Глагол
БД морфологии
Система грамматической атрибуции
ENTRIES
WORD
TEXT
ID: integer
ID: integer
ID: integer
Word: Varchar(200);
Title: Varchar(200)
Word: Varchar(200);
InitialForm: Varchar(200);
TextId: integer;
ChapterIndex: integer;
Author_ID: integer
Magazine_ID: integer
Modern: Varchar(200);
ParagraphIndex: integer;
Param_i: integer;
SentenceIndex: integer;
Magazine_No: integer
WordIndex: integer;
Publication_date: timestamp
Dictword_id: integer;
Comment: Blob
Url: Varchar(255)
MENU_ITEMS
MENU_PARAMS
ID: integer
ID: integer
ItemCaption: Varchar(200);
ParamCaption: Varchar(200);
ParamsCount: integer;
ItemsCount: integer;
Param01: integer;
Item01: integer;
…
…
Param30: integer;
Item30: integer;
Программа для морфологии
Система грамматической атрибуции
Выбор синтаксического аннотирования
Существующие корпусы со встроенной синтаксической разметкой
опираются либо на общепринятые классификации традиционной
(«школьной») грамматики (Хельсинкский аннотированный корпус
русских текстов ХАНКО; http://www.slav.helsinki.fi/hanco/index.html), либо
на доступные узкому кругу специалистов и требующие детального
предварительного знакомства классификации, например разметка в
терминах деревьев зависимостей и синтаксических отношений,
принятых в теории «Смысл-Текст», как в Национальном корпусе
русского языка (http://www.ruscorpora.ru). В создаваемом корпусе в
основу синтаксической разметки положена идея структурной схемы в
понимании Н. Ю. Шведовой и ее последователей, наиболее полно
отраженная и развитая в «Русской грамматике». Создание полного
списка структурных схем простого предложения (в корпусе
размечаются предикативные клаузы) – отдельная научная проблема,
не имеющая пока своего окончательного решения. На данный момент
в научном обороте существуют как минимум три списка структурных
схем – различные как количественно, так и качественно: 1) список схем
«Русской грамматики» (1980); 2) список «минимальных схем»
В. А. Белошапковой; 3) список схем О. А. Крыловой и Е. Н. Ширяева.
Последняя классификация с небольшими изменениями
и дополнениями была взята за основу разметки
настоящего корпуса. Этот выбор объясняется двумя
причинами: во-первых, использование структурных
схем для синтаксической разметки в корпусе имеет
свою специфику, во-вторых, ситуация изучения
вопроса такова, что ни один из существующих
списков структурных схем нельзя признать
окончательно полным. На выходе мы получили
наиболее полный и сбалансированный список
структурных схем простого предложения, который
был использован для синтаксической разметки
текстов.
СВОБОДНЫЕ СТРУКТУРНЫЕ ДВУХКОМПОНЕНТНЫЕ СХЕМЫ
А. Раздельнопредикативные схемы:
1. Подлежащно-сказуемостные схемы
1а. С координируемыми главными членами
N1+Vf: Иван читает газету; Пиши письмо; Ты бы подумал.
N1+(сор)+N1: Бог есть любовь.
N1+Adj: День сегодня холодный; Старики ворчливы.
N1+Part: Брак расторгнут.
1б.С некоординируемыми главными членами.
N1+ N2…(Adv): Отец в саду; Сад недалеко.
N1+Inf: Мой долг – воспрепятствовать вам; Какая мука —
воспитывать!
N1+(сор)+Praed: Шахматы — это здорово.
Inf+Praed(part): Читать неохота, Курить вредно.
Inf+(сор)+N1: Помогать ему – моя обязанность.
Inf+Vf3s: Рассчитывать на большее не приходится.
Inf+Pronneg: Спорить тут не о чем.
Inf+Inf: Курить — здоровью вредить.
2. Неподлежащно-сказуемостные схемы.
N2+(не) Vf3s: Беды не случится.
N2/N4+(не) Praed(part): Следов не видно,
Нарушений не обнаружено, Людей жаль.
N4+Vf3s: Ивана укачивает.
N2+N1quant (Adv quant): Народу толпа, Ягод полно.
N2+нет: Замечаний нет.
N3+ Vf3s: Ей не спится.
N3+Praed: Мне лень.
N2+никого/ничего: Народу никого.
Синтаксическая атрибуция
Система синтаксической атрибуции
4 клаузы:
• Вася пошел в бассейн
• Вася плавал там до вечера
• Тот самый отличник и староста
• Который открылся на днях
Программа синтаксиса
Система синтаксической атрибуции
БД синтаксической атрибуции
Система синтаксической атрибуции
CLOUSES
PARTCLOUSES
ID: integer
ID: integer
ClouseIndex: integer;
PartID: integer;
Scheme: integer;
ClouseID: integer;
StartPart: integer;
PARTS
TEXTS
ID: integer
ID: integer
TextId: integer;
Title: Varchar;
ChapterIndex: integer;
Author: Varchar;
ParagraphIndex: integer;
SentenceIndex: integer;
PartIndex: integer;
Part: Varchar(1000);
Система синтаксической атрибуции
Анализ использования структурных схем
Схема
Количество
Частота
N1 + Vf
21195
58,5 %
N1 + Adj
3021
8,3 %
N1 + (cop) + N1
2344
6,5 %
N1 + Part
1474
4%
Praed(part) Inf
1160
3,2 %
N1
1087
3%
N1 + N2 …(Adv)
1038
2,9 %
Смешанная БД грамматической и синтаксической атрибуции
CLOUSES
PARTCLOUSES
ID: integer
ID: integer
ClouseIndex: integer;
PartID: integer;
Scheme: integer;
ClouseID: integer;
StartPart: integer;
PARTS
TEXTS
ID: integer
ID: integer
TextId: integer;
Title: Varchar;
ChapterIndex: integer;
Author: Varchar;
ParagraphIndex: integer;
SentenceIndex: integer;
PartIndex: integer;
Part: Varchar(1000);
ENTRIES
WORD
ID: integer
ID: integer
Word: Varchar(200);
InitialForm: Varchar(200);
Modern: Varchar(200);
Param_i: integer;
Word: Varchar(200);
PartId: integer;
WordIndex: integer;
Dictword_id: integer;
Оптимизация данных под поиск
n
• Оптимизация по скорости
получения информации
• Оптимизация по объёму
хранимой информации
• Оптимизация количества
информации единовременно
предоставляемой
пользователю
T ср t
i
i 1
n
Q i * M
S A
c
Временные характеристики
Вид поиска
Время поиска 1 БД
Время поиска 2 БД
Время поиска 3 БД
0.602
2.032
0.591
0.816
4.55
0.814
16.19
22.09
22.11
50.76
60.23
60.63
17.02
23.09
24.11
50.97
61.23
61.62
Поиск по синтаксису
11.26
17.89
17.87
Смешанный поиск
20.84
30.23
30.37
Слово (написание, нач.
форма)
Выбор слова и
параметоров
Поиск по грамм.
Параметрам
Поиск по грамм. +
вывод контекста
Поиск по слову + грамм.
признаки
Поиск слова + по грамм.
+ вывод контекста
Результаты оптимизации
• Хранение всех признаков в одной
записи
• Хранение пар: слово – его параметры
• Количество строк: 10
Реализованные типы поиска
•
•
•
•
•
Поиск по словоформе
Поиск по грамматическим признакам
Поиск по синтаксическим признакам
Поиск контекста
Алфавитный и частотный словари
Представление информации на сайте
Полученные результаты
Статистика БД
Количество текстов
80
Количество слов в текстах
135867
Количество слов в словаре
37670
Количество разобранных клауз
36224
Размер на диске
130 Мб
Благодарю за внимание
http://smalt.karelia.ru
Документ
Категория
Презентации
Просмотров
7
Размер файла
771 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа