close

Вход

Забыли?

вход по аккаунту

?

Словарь ключевых слов

код для вставкиСкачать
Технология извлечения
структурированной информации из
неструктурированного
текстового массива
Яндекс.Новости: пресс-портреты,
цитаты в новостях, карта сюжета
Лев Гершензон, Яндекс
1
План
Подходы к извлечению
структурированной информации
из текста
Этапы анализа текста и обработка
данных
Приложения в Яндекс.Новости
2
Структурированная информация
Множество типизированных объектов,
связанных содержательными,
экстралингвистическими
отношениями.
3
Структурированная информация. Объекты и
отношения
Атомарные объекты
фио, дата, число, именованная сущность
Сложные объекты
компания = <дескриптор> + <им. сущность>
кафе «Азия», нефтяная компания ЮКОС
число + ед. изм.
Отношения
быть родственником (фио - фио)
Мария Гайдар – старшая дочь Егора Гайдара
работать в \ быть сотрудником (фио - компания)
гендиректор АНО «Восход» И.Иванов
владеть (фио – компания, компания - компания)
Основным акционером Банка Москвы является московская мэрия
иметь длину / цену / размер
«Коммерсантъ» стоит $200 млн
4
Два подхода к извлечению фактов
• Извлекается вся лингвистическая информация
(синтаксис, анафорические связи), а затем на ее
основе извлекаются факты.
• Ищутся ключевые слова, которые наращиваются в
тексте с помощью лингвистических правил до
цепочки, описывающей факт.
5
Этапы анализа текста и обработка данных
•Графематика
деление текста на абзацы, предложения и слова
•Морфологический анализ
определение словарной формы и
информации
грамматической
•Выделение атомарных объектов
обозначения ФИО, дат и чисел
•Выделение неразрывных цепочек, обозначающих объекты и их связи
•Выделение фактов, выраженных предикативными конструкциями (шаблоны
ситуаций)
•Создание базы фактов
отождествление различных выражений одного объекта или
факта, выбор лучшего представителя
6
Графематика. Трудности
Неочевидный конец предложения
Словарь сокращений, разные виды
сокращений, анализ правого контекста
Непростые слова
числобуквенные комплексы, слова со
знаками препинания
7
Морфологический анализ
Словарная морфология
каждой словоформе приписываются все
возможные леммы и наборы граммем
Модуль предсказания для несловарных слов
предсказываются леммы и возможная
грамматическая информация
8
Атомарные объекты
Числа (...4,9 млн рублей..., ... 26
тысяч 980 жителей..., ...12 100 000
литров...)
Даты ( ... состоятся 5 и 10 ноября
2000г..., ... лишь в июле 2002 г...)
ФИО (... ведет Василий Черный...,
...А. П. Чехов...)
9
Атомарные объекты. Даты и числа
Выделение словарных, число-словарных и числовых
обозначений
два с половиной миллиона, 2,5 млн, 2 500 000
Нормализация. Приведение выделенных объектов к
стандартному числовому виду
10
Атомарные объекты. Выделение ФИО
пометы в морфологическом словаре для
обозначения имен, отчеств и фамилий
наличие словарной фамилии
необязательно
отождествление по тексту формально
различных ФИО
разрешение родовой омонимии для имен
Александра, Валерия
11
Компоненты модуля анализа
Выделение цепочек
По словам замдиректора компании «ТрансСофт» Антона
Петрова ....
Интерпретация участников по ролям
ФИО
Должность
Организация
Антона Петрова
замдиректора
«ТрансСофт»
ФИО
Должность
Организация
Антон Петров
заместитель
директора
ТрансСофт
Нормализация
12
Выделение неразрывных цепочек.
Пример с фактами фио-должностьорганизация (ФДО)
• Выделение ключевых слов
(«управляющий директор», «контора», «месторождение»)
• Описание синтаксических конструкций, вершинами которых являются
ключевые слова
( группа должности: группа прил_сущ, где главное слово «директор» )
• Описание взаимного расположения и согласования таких синтаксических
групп
(ФДО: (группа ФИО) +
«,» +
(группа должности ) +
(группа компании ) +
«,» )
13
Инструменты анализа
• Словарь ключевых слов
(слова и словосочетания, характерные для выделяемых фактов)
• Язык Тома
(язык описания синтаксической структуры выделяемых фактов)
• Шаблоны предикативных структур
(язык описания грамматических признаков, лексического
состава и взаимного расположения актантов и вершины клаузы)
14
Словарь. Пример словарной статьи
ЗГЛ= пред_комп_прил_сущ
{
СОСТАВ= (приемный комиссия|экзаменационный
комиссия|дочерний предприятие|экспертный
группа|рабочий группа)
ГС = 2
СОГЛ = род_число_падеж(1,2)
ТИП_КС = sub_company
}
15
Язык Тома
• В основу парсера положен алгоритм Томиты (GLRgrammar, бесконтекстная грамматика )
• Терминалы:
– одиночные слова предложения
– объекты типа фио, дата, число
– словосочетания из словаря ключевых слов
– цепочки, распознанные другими грамматиками
• Проверка согласования и приписывание вершины в
правых частях правил
• Порождение всех возможных вариантов
синтаксического разбора распознаваемой цепочки и выбор
лучшего
• Возможность задания соответствия нетерминала полю
выделяемого факта.
16
Связь Томы и словаря ключевых слов
Словарь предоставляет общий интерфейс для поиска
неразрывных словосочетаний.
Каждая статья описывает определенное множество цепочек и
указывает способ выделения таких цепочек.
Два основных способа выделения цепочек:
– явное указание слов или словосочетаний
– правила на языке Тома
Возможность отсылки из правил грамматики на статью.
17
Язык Тома. Примеры правил
ROrderFdoP -> FIO<rt, nc-agr[1]> (ChainInBracket) Break
FdoNonT<nc-agr[1]> (ChainInBracket) PunctE;
FIO – группа ФИО
ChainInBracket – последовательность слов в
скобках
FdoNonT – цепочка <должность>+<организация>
PunctE – знак препинания
rt – главное слово группы
nc-agr – согласование по числу и падежу
FdoNonT -> PostP<rt>![nc-agr] CompanyP;
PostP – группа должности
CompanyP – группа организации
18
Язык Тома – выделение цепочки ФДО
19
Интерпретация
• Описание факта
– поля и их типы
– значения по умолчанию
– обязательность полей
• Задание соответствия нетерминала грамматики
некоторому полю выделяемого факта.
20
Интерпретация. Описание факта
fact_type Fdo
{
fio Fio;
text Post [info];
text CompanyName [h-reg1];
~date TextDate;
~text Type = "Fdo";
}
Fio, Post – название поля
text, date – тип данных
~ - необязательное поле
21
Интерпретация. Пример правила
PostP_ -> NPAdjConj<gnc-agr[1]>* PostNonT<gncagr[1],rt> (ChainBetween) (PostDescr) ;
PostP -> PostP_ interp (Fdo.Post);
NPAdjConj – группа прилагательных
PostNonT - группа <прилагательное> +
<существительное> с главным словом из
должностей
списка
PostDescr – предложная группа, относящаяся к
должности (по маркетингу, в странах СНГ)
gnc-agr – согласование по роду, числу и
падежу
22
Нормализация
•Морфологическая нормализация: порождение для
главного слова его нормальной формы и нормализация
зависимых от него слов
•Нормализация с помощью словаря:
– республика Саха Якутия
– замгендиректора заместитель генерального
директора
•Нормализация с помощью информации, полученной из
самого документа:
– ТНК Тюменская Нефтяная Компания
– А. Петров Александр Васильевич Петров
23
Шаблоны для ситуаций
•Используют результаты фрагментационного анализа:
– дерево построенных фрагментов
– синтаксические связи между подлежащим и сказуемым,
причастием и определяемым существительным
•Работают внутри одной клаузы
•Приписываются вершинам клауз
•Актантами являются цепочки, распознанные
специальными грамматиками
24
Ситуации. Пример статьи
ЗГЛ = _родился
{
СОСТАВ = родиться
ЧР = г
ТИП_КС = death_born_sit
УПР1 = ВАЛ_ФИО (( ТИП_КС = fio_chain СОГЛ = подл_глаг ) | ( ТИП_КС = fio СОГЛ = подл_глаг ) | (
СОСТАВ = который АНТ:ТИП_КС = fio СОГЛ = подл_глаг СИН_О = подл_им )
interp( FioBirthDeath.Fio;))
ВАЛ_ДАТА( ( ТИП_КС = date_chain )
interp( FioBirthDeath.TextDate;FioBirthDeath.WasBorn = true;)
)
ВАЛ_ГЕО( ( ТИП_КС = geo ПРЕФИКС:СОСТАВ = (в|во|на|около) МИ = пр МОД = возможно )
interp( FioBirthDeath.Geo; )
)
ПОРЯДОК ( (СЛЕД(ВАЛ_ФИО Х ВАЛ_ДАТА ВАЛ_ГЕО)) |
(СЛЕД(ВАЛ_ФИО Х ВАЛ_ГЕО ВАЛ_ДАТА))|
(СЛЕД(ВАЛ_ДАТА Х ВАЛ_ФИО )))
}
25
База фактов. Отождествление объектов и
фактов
Определить, являются ли два факта тождественными
Глава МЭРТа Герман Греф <=>
Министр экономического развития Г. Греф
Определить, относятся ли два факта к физически
одному объекту или это два разных одноименных
объекта
26
База фактов. Отождествление объектов.
Названия организаций
Совпадение с точностью до морфологии
Новое Время – Нового Времени
Нечеткое сравнение строк (аналог кворума)
Министерство экономического развития и
торговли - Министерство экономического развития
Совпадение с точностью до опечаток
Минэкономразвития - Минэконоразвитие
Транслитерация
Яндекс - Yandex
Полное и сокращенное название
Объединенные машиностроительные заводы - ОМЗ
27
Приложения в Яндекс.Новости
Пресс-портреты
Сюжет в лицах
Цитаты в новостях
Карта сюжета
28
Пресс-портрет
29
Пресс-портрет. Результаты поиска
30
Цитаты в новостях
31
Цитаты в новостях. Результаты поиска
32
Цитаты в новостях. База цитат
Выделение цитат в тексте
Отождествление разных упоминаний одной цитаты
Выбор лучшего представителя цитаты
Отождествление авторов цитат (все цитаты одного
человека). Связь автора с пресс-портретом
33
Выделение цитат в тексте
Косвенная речь. Результаты фрагментационного
анализа.
придаточные предложения
Иванов заявил, что …
вводные обороты
по словам Иванова, …
Прямая речь.
Специальный алгоритм, который может брать
несколько предложений и искать
закрывающие кавычки
34
Отождествление упоминаний одной цитаты
Тождество определяется по шинглам
Шинглы взвешиваются по частотности входящих в
них слов
Учитывается близость дат высказываний
35
Карта сюжета
36
Карта сюжета
Выделение цепочек с адресом из всех документов
сюжета
Кластеризация тождественных и вкладывающихся
адресов
Выбор лучшего представителя по полноте и частоте
Определение города
Составление запроса к Я.Картам – валидация адреса
– и получение ссылки на карту
Проставление ссылок на все карты из блока
аннотации
37
Документ
Категория
Презентации
Просмотров
271
Размер файла
228 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа