close

Вход

Забыли?

вход по аккаунту

?

Автоматизация процесса

код для вставкиСкачать
Автоматизация процесса
построения и пополнения
двуязычных специализированных
словарей
Липатов Антон Александрович
Мальцев Андрей Анатольевич
Шило Виктор Владимирович
Постановка задачи
Есть корпус текстов на английском языке,
относящихся к некоторой предметной
области.
Для каждого текста есть перевод на русский
язык.
Требуется построить (пополнить) англорусский словарь терминов для данной
предметной области.
Подход к решению
Суть алгоритмов: последовательное
разбиение и анализ парных текстов,
нахождение соответствий между
семантическими единицами в парных
текстах.
Алгоритмы не используют специфических
особенностей английского и русского
языков.
Подзадачи
1.
2.
3.
Разбивка текста на предложения
Сопоставление предложений и их
переводов
Пополнение словаря
1. Разбивка текста на
предложения
Цель: Каждые текст и его перевод разбить на
отдельные предложения.
Алгоритм последовательно идентифицирует
концы предложений, используя знаки
препинания и другие ориентиры.
распознается корректно более 95%
2. Сопоставление
предложений и их переводов
Цель: каждому предложению из текста
сопоставить его перевод.
Предположение о монотонности перевода
Последовательно маркируем предложения
на английском языке и соответствующие им
русские. На следующем шаге переходим к
рассмотрению упорядоченных списков
между соответствующими маркерами.
сопоставляется от 30 до 70 % предложений
2. Сопоставление
предложений и их переводов
Основные признаки соответствия предложений:
Непереведённые слова и группы символов
формулы, переменные, названия, числа, даты,
имена файлов и т.д.
Однозначно переводимые слова
имена людей, названия и другие имена
собственные; аббревиатуры; термины данной
предметной области.
Знаки препинания
восклицательный и вопросительный знаки,
цитирование, прямая речь.
3. Пополнение словаря
Цель: используя пары (предложение, перевод),
создать (пополнить) словарь.
Используются статистические методы
находится 60 – 65 % терминов из текстов
корректность результатов 70 – 80 %
Итерационный характер
работы алгоритмов
После очередного прохода алгоритмов
возвращаемся к шагу 2 («Сопоставление
предложений и их переводов»), используя
словарь терминов для предметной
области, построенный на предыдущем
шаге.
Дальнейшая работа
Автоматическое выделение
словосочетаний.
Учёт разметки документов в алгоритмах
сопоставления предложений.
Автоматическое удаление
общелексических терминов из
построенного словаря.
Построение онтологий для предметных
областей.
Спасибо за внимание!
Документ
Категория
Презентации
Просмотров
5
Размер файла
83 Кб
Теги
1/--страниц
Пожаловаться на содержимое документа