close

Вход

Забыли?

вход по аккаунту

?

Тематический анализ и квазиреферирование текста с

код для вставкиСкачать
Тематический анализ и
квазиреферирование текста
с использованием
сканирующих статистик
Гусев В.Д.,
Мирошниченко Л.А.,
Саломатина Н.В.
Институт математики СО РАН
г. Новосибирск
автоматический анализ текстов
(индексирование, реферирование)
СУПЕРСИНТАКСИЧЕСКИЕ МЕТОДЫ
•
сегментация текста на субтексты
(сверхфразовые единства);
•
выявление в каждом субтексте
наиболее информативных слов,
словосочетаний или фраз.
Сегментация текста на субтексты
производится с использованием показателя
связности предложений, образующих субтекст.
Таким показателем может служить концентрация
лексических повторов в анализируемом фрагменте
текста.
Аномально высокая концентрация повторов в одном
фрагменте текста свидетельствует о его
тематическом единстве.
Выделение сверхфразовых единств
Сканирующие
статистики
Позволяют
выявлять аномальные
отклонения от равномерности
в распределении лексических
единиц в тексте и
оценивать их значимость
Формальный
критерий
Имитационное
моделирование
Предполагается, что аномальные сгущения
(кластеры) лексических единиц адекватно
отражают
смысловое
содержание
соответствующего фрагмента текста, и эти
фрагменты трактуются как сверхфразовые
единства.
Задача о выявлении неравномерностей
позиционного распределения словоформ
текста сводится к изучению различных схем
расстановки точек на линии (каждую точку
можно трактовать как место вхождения
анализируемой словоформы в текст).
Схемы расстановки точек на линии
Пусть x1 , x2 ,..., xM произвольный набор точек
из единичного интервала (0, 1].
•
•
•
•
Требуется проверить гипотезу о
равномерности ( H 0 ) против
альтернативы ( H 1),
связанной с отклонением от равномерности:
кластеризация
сверхравномерное распределение
наличие «запретных» областей
наличие изолированных точек
Для случая кластеризации эффективное
решение основано на использовании
сканирующей статистики n(d ) , фиксирующей
максимальное число точек n , попавших в
интервал длины d при всевозможных
расположениях этого интервала внутри
единичного отрезка.
Статистика названа сканирующей, т.к.
вычисление ее ведется путем подсчета числа
точек, попавших в окно ширины d ,
скользящее вдоль отрезка.
Из алгоритмических соображений используем
статистику d (n) , фиксирующую
интервал d , в котором содержится ровно n
точек (2 n M).
Распределение d (n) при H 0 получено.
Табулирование распределения в широком
диапазоне значений n и M является
трудоемким.
Для оценки значимости отклонения
статистики d (n) от значения, постулируемого
H 0 (равномерность), воспользуемся
имитационным моделированием.
Схема выявления позиционных аномалий
•
нормализация словоформ текста x и
подсчет частоты встречаемости F (x)
словоформ в нормализованном тексте.
•
отбор словоформ с F ( x) Fпор ,
где Fпор — пороговое значение частоты,
зависит от длины текста N в словоформах.
n — число вхождений x в текст, 2 n F ( x)
d (n) — длина минимального фрагмента
текста, содержащего n вхождений цепочки .
Схема выявления позиционных аномалий
•
перебор по n ( Fпор n F (x) ).
Для фиксированного n :
а) вычисление d (n)
б) оценка распределения d (n) при H 0
с помощью имитационного моделирования.
Для этого многократно перемешиваем
слова в исходном тексте, формируем m
его рандомизированных аналогов с
равномерным распределением слова по
тексту ( m 100).
Вычисляем оценки значений статистики d (n)
S min S max
S
s
Схема выявления позиционных аномалий
•
сравнение значения d (n) S набл с оценками
из имитационного эксперимента.
Аномальное (неслучайное) отклонение от
равномерности типа «кластеризация» имеет
место, если:
*
( S набл S min ) & ( S набл S 3s)
Значимость выделенного кластера можно
характеризовать безразмерной величиной
( x) u ( x) / v( x)
u ( x) N / F ( x)— среднее расстояние между
вхождениями слова в текст,
v( x) d (n) / n — среднее внутрикластерное
расстояние между вхождениями x .
Схема выявления позиционных аномалий
•
фильтрация слов, демонстрирующих
аномальную кластеризацию с помощью
показателя (x) .
Кластеры с относительно высоким (x)
( ≥ 5 ) обычно содержат не слишком много
точек ( n ~ 6 12 ) и характеризуют локальные
подтемы или эпизоды в тексте.
Более разреженные кластеры с
небольшими значениями ( x) ~ 2 3
покрывают значительные фрагменты
текста, но характеризуют, скорее,
предметную область в целом.
Схема выявления позиционных аномалий
Выявленная при фиксированном n
сильная аномалия не исчезает мгновенно.
При увеличении n возникает система
вложенных или пересекающихся кластеров
со все меньшими значениями (x) . Они
заменяются одним (максимальным по
размеру и числу точек) кластером,
удовлетворяющим ограничению ( x) пор
.
Среднечастотные слова, демонстрирующие
позиционные аномалии, обычно
характеризуются одним таким кластером.
Высокочастотные слова могут иметь
два — три независимых кластера.
Способы формирования квазиреферата
• построение профиля кластеризуемости
лексических единиц в тексте и отслеживание
точек изменения значений этой функции;
• приписывание каждому предложению веса в
соответствии с наличием в нем
кластерообразующих лексических единиц и
отбор для квазиреферата предложений с
максимальным весом.
0
55
101
102
110
111
148
149
150
151
167
168
169
170
171
172
178
179
183
184
195
196
204
1
СЕГОДНЯ
СЕГОДНЯ
x
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
ГОРШОЧЕК
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
СОВА
СОВА
2
3
4
5
6
y
ДЕНЬ
ДЕНЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
ПОПРОСИТЬ
НАПИСАТЬ
НАПИСАТЬ
СОВА
СОВА
СОВА
СОВА
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
НАПИСАТЬ
СОВА
СОВА
ДЕРЖАТЬ
ДЕРЖАТЬ
ДЕРЖАТЬ
ДЕРЖАТЬ
ХОТЕТЬ
ХОТЕТЬ
СОВА
СОВА
ХОТЕТЬ
ХОТЕТЬ
ХОТЕТЬ СОВА
ХОТЕТЬ СОВА
СОВА
СОВА
ПРОФИЛЬ КЛАСТЕРИЗУЕМОСТИ
Учет веса фразы
Каждому предложению текста назначается
вес равный числу вхождений в него
словоформ, демонстрирующих
кластеризацию в произвольном месте текста,
а не только в том, где расположено данное
предложение.
Вес предложения фиксирует разнообразие
представленных в нем кластеризованных
словоформ, а не полное их количество.
Апробация подхода проводилась на
полнотекстовых документах разного жанра:
•
•
•
научные статьи
главы художественных произведений
газетные публикации
Основная лексической единица –
словоформа.
Пороги отбора лексических единиц:
• по частоте — Fпор 4 ,
• по значению безразмерной величины — 3
Сравнение алгоритмов
Реферат по профилю кластеризуемости
отличается детальностью и
разнообразием учета ключевых слов.
Реферат, полученный из предложений с
учетом их весов, может иметь любой
заданный объем, ограниченный числом
фраз или их весом.
Факторы, влияющие на качество
квазиреферата
• разбивка текста на предложения
• неоднозначность нормализации
• использование словосочетаний
(лексическая функция,
лексическая {единица, омонимия})
• учет семантических повторов
(ЛФ = «лексическая функция»)
• раскрытие анафорических ссылок
Предложенный метод квазиреферирования текста
• дает вполне сопоставимые результаты с
рефератами, построенными другими методами
• работает с неструктурированными текстами,
учитывает позиционную информацию при
оценивании значимости той или иной лексической
единицы
• не требует проведения предварительной фильтрации
малоинформативных лексических единиц. Большая
часть их устраняется автоматически, не пройдя
критерий на аномальность.
Документ
Категория
Презентации
Просмотров
46
Размер файла
308 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа