close

Вход

Забыли?

вход по аккаунту

?

Патент BY16050

код для вставкиСкачать
ОПИСАНИЕ
ИЗОБРЕТЕНИЯ
К ПАТЕНТУ
РЕСПУБЛИКА БЕЛАРУСЬ
(46) 2012.06.30
(12)
(51) МПК
НАЦИОНАЛЬНЫЙ ЦЕНТР
ИНТЕЛЛЕКТУАЛЬНОЙ
СОБСТВЕННОСТИ
(54)
G 06K 9/68
G 06F 17/21
(2006.01)
(2006.01)
СПОСОБ РАСПОЗНАВАНИЯ РУКОПЕЧАТНОГО СИМВОЛА ИЗ
ТЕКСТОВОГО ИСТОЧНИКА
(21) Номер заявки: a 20100091
(22) 2010.01.25
(43) 2011.08.30
(71) Заявитель: Учреждение образования
"Полоцкий государственный университет" (BY)
(72) Авторы: Вихров Александр Геннадьевич; Богуш Рихард Петрович
(BY)
BY 16050 C1 2012.06.30
BY (11) 16050
(13) C1
(19)
(73) Патентообладатель: Учреждение образования "Полоцкий государственный
университет" (BY)
(56) RU 2295154 C1, 2007.
RU 2285952 C1, 2006.
RU 2251736 C2, 2005.
RU 2008117180 A, 2009.
JP 5159105 A, 1993.
EP 106354 A2, 1984.
(57)
Способ распознавания рукопечатного символа из текстового источника, в котором
выполняют логическую фильтрацию и скелетизацию изображения распознаваемого символа из текстового файла, разбивают полученное изображение на блоки и выделяют в каждом блоке соответствующий ему дескриптор формы, выбранный из следующей группы:
а) концевой;
б) примыкание первой степени;
в) примыкание второй степени;
г) изгиб вверх;
д) изгиб вниз;
е) изгиб влево;
ж) изгиб вправо;
з) вертикальная прямая;
и) горизонтальная прямая;
к) наклон слева направо;
л) наклон справа налево,
Фиг. 1
BY 16050 C1 2012.06.30
каждый компонент которой имеет вид, показанный на фигуре 1, затем строят из выделенных по всем блокам дескрипторов двумерную матрицу распознаваемого символа, уточняют виды, положение и результирующее количество дескрипторов в матрице с помощью
масок, объединяют уточненные дескрипторы в следующие семейства:
К - семейство концевых;
ППС - семейство примыкания первой степени;
ПВС - семейство примыкания второй степени;
СПИ - семейство прямых и изгибов,
после чего строят из дескрипторов, принадлежащих указанным семействам, уточненную
двумерную матрицу символа, которую разбивают на одинаковые верхнюю, центральную
и нижнюю области, далее производят фильтрацию дескрипторов из семейств К, ППС и
ПВС для уточнения их положения в матрице и определяют вектор уточненных дескрипторов, и затем сравнивают полученный вектор по семействам К, ППС и ПВС поочередно в
каждой из указанных областей с эталонными векторами с распознаванием символа в случае получения однозначного результата сравнения, а в случае получения нескольких равнозначных результатов сравнения дополнительно сравнивают вектор дескрипторов с
эталонными векторами по семейству СПИ до получения однозначного результата сравнения.
Заявляемое изобретение относится к области информатики и может быть использовано для распознавания текстовой информации в различных системах, включая системы
распознавания рукопечатных символов в реальном режиме времени.
Известен способ распознавания рукопечатных символов текстовой информации из
векторно-растрового изображения [1], включающий последовательность следующих действий:
выполняют последовательное разбиение изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера;
обрабатывают текстовые объекты;
проводят анализ и составление групп символов строки;
после сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя
интервалы между символами там, где пробелов нет;
обрабатывают векторные объекты;
обрабатывают растровые объекты;
удаляют избыточную и излишнюю информацию;
после разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют;
если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.
Недостатками известного способа являются необходимость в значительных вычислительных ресурсах, низкая вероятность правильного определения объекта и выявления необходимой текстовой области. Способ предполагает наличие фильтрации для удаления
избыточной и излишней информации, однако при этом уменьшается точность и скорость
распознавания символов.
В качестве прототипа выбран способ распознавания рукопечатных символов текстовой информации из графического файла с использованием словарей и дополнительных
данных [2], предполагающий выполнение следующих действий:
предварительно задают порядок обращения к дополнительной информации;
назначают оценку качества для каждого вида дополнительной информации;
строят различные варианты разбиения изображения выделенных строк на фрагменты;
2
BY 16050 C1 2012.06.30
для каждого фрагмента строки строят граф линейного деления;
распознают изображения графических элементов, используя классификатор, и каждому варианту распознавания присваивают оценку;
выполняют переход от вариантов распознавания графем к вариантам символов алфавита;
для каждой цепочки, соединяющей начальную и конечную вершины, строят цепочки,
соответствующие всем вариантам распознавания графем и вариантам переходов от распознанных графем к символам алфавита;
ранжируют полученные варианты в порядке уменьшения оценки качества распознавания;
обрабатывают полученные варианты с привлечением информации о расположении заглавных и строчных букв и каждому полученному варианту назначают оценку качества;
варианты символов, имеющие оценку ниже предварительно заданной, отбрасывают,
полученные варианты сортируют, используя попарное сравнение;
используя попарное сравнение, производят дополнительную коррекцию распознавания пробелов, ошибочно распознанных на предыдущих этапах.
Недостатком прототипа являются значительные вычислительные затраты при ранжировании графем и сортировке попарных символов, имеющие оценку ниже предварительно
заданной.
Задачей изобретения является сокращение вычислительных затрат на обработку символа, повышение точности его распознавания и, за счет этого, повышение эффективности
функционирования систем распознавания рукопечатных символов в целом.
Поставленная задача решается тем, что в способе распознавания рукопечатного символа из текстового источника, в котором выполняют логическую фильтрацию и скелетизацию изображения распознаваемого символа из текстового файла, разбивают полученное
изображение на блоки и выделяют в каждом блоке соответствующий ему дескриптор
формы, выбранный из следующей группы:
а. концевой;
б. примыкание первой степени;
в. примыкание второй степени;
г. изгиб вверх;
д. изгиб вниз;
е. изгиб влево;
ж. изгиб вправо;
з. вертикальная прямая;
и. горизонтальная прямая;
к. наклон слева направо;
л. наклон справа налево,
каждый компонент которой имеет вид, показанный на фиг. 1, затем строят из выделенных
по всем блокам дескрипторов двумерную матрицу распознаваемого символа, уточняют
виды, положение и результирующее количество в матрице с помощью масок, объединяют
уточненные дескрипторы в следующие семейства:
К - семейство концевых;
ППС - семейство примыкания первой степени;
ПВС - семейство примыкания второй степени;
СПИ - семейство прямых и изгибов,
после чего строят из дескрипторов, принадлежащих указанным семействам, уточненную
двумерную матрицу символа, которую разбивают на одинаковые верхнюю, центральную
и нижнюю области, далее производят фильтрацию дескрипторов из семейств К, ППС и
ПВС для уточнения их положения в матрице и определяют вектор уточненных дескрипторов, и затем сравнивают полученный вектор по семействам К, ППС и ПВС поочередно в
3
BY 16050 C1 2012.06.30
каждой из указанных областей с эталонными векторами с распознаванием символа в случае получения однозначного результата сравнения, а в случае получения нескольких равнозначных результатов сравнения дополнительно сравнивают вектор дескрипторов с
эталонными векторами по семейству СПИ до получения однозначного результата сравнения.
Сущность заявляемого способа поясняется изображениями, представленными на
фиг. 1-8. На фиг. 1 представлены дескрипторы формы: а) концевой, б) примыкание первой
степени, в) примыкание второй степени, г) изгиб вверх, д) изгиб вниз, е) изгиб влево, ж)
изгиб вправо, з) вертикальная прямая, и) горизонтальная прямая, к) наклон слева направо,
л) наклон справа налево; на фиг. 2 - пример рукопечатного символа, полученного из файла; на фиг. 3 - результат выполнения предобработки символа с фиг. 2 и выделения дескрипторов формы; на фиг. 4 - результат выполнения этапа фильтрации семейства
дескрипторов; на фиг. 5 - таблица дескрипторов буквы "A"; на фиг. 6 - второй пример рукопечатного символа, полученный из файла; на фиг. 7 - результат выполнения логической фильтрации и скелетизации символа; на фиг. 8 представлена таблица дескрипторов цифры "7".
Примеры осуществления заявляемого способа.
Пример 1
Выделяют рукопечатный символ из текстового файла и выполняют логическую
фильтрацию и скелетизацию этого символа (фиг. 2). Такой подход характерен для офлайнсистем распознавания рукопечатных символов. Затем разбивают символ на блоки и по
каждому блоку выделяют дескриптор. Полученные дескрипторы объединяют в семейства
и строят двумерную матрицу семейства дескрипторов (фиг. 3). Далее проводят фильтрацию семейства К, ППС и ПВС. Фиг. 4 отображает результат выполнения этапа фильтрации семейства дескрипторов. Следующим шагом определяют вектор окончательно
обработанных дескрипторов (фиг. 5). По этапу сравнения полученного вектора дескрипторов с эталонными векторами дескрипторов определяют степень схожести. Символ "A"
из базы эталонов имеет наибольшую степень схожести и поэтому он выдается в качестве
искомого.
Пример 2
Получают символ, считанный с сенсорного устройства (фиг. 6). Данная методология
распознавания рукопечатных символов характерна для онлайн-систем. Результат выполнения логической фильтрации и скелетизации символа с результатом фильтрации семейств дескрипторов изображены на фиг. 7. Формируют окончательный вектор
дескрипторов (фиг. 8). Сравнивают полученный вектор дескрипторов с эталонными векторами дескрипторов. Определяют степень схожести. Символ "7" из базы эталонов имеет
наибольшую степень схожести и поэтому он выдается в качестве искомого.
Сокращение вычислительных затрат достигается за счет использования минимального
набора эталонных символов, которые формируются в зависимости от сложности задачи
распознавания.
Повышение точности распознавания символов обеспечивается за счет эффективного
набора дескрипторов при структурном анализе рукопечатного текстового символа, а также за счет того, что дескрипторы концевая, примыкания и изгибы определяются в отдельных областях - в верхней, центральной и нижней, а остальные определены по всей области
расположения символа.
Источники информации:
1. Патент Российской Федерации 2309456, МПК G 06K 9/36, опубл. 27.10.2007.
2. Патент Российской Федерации 2295154, МПК G 06K 9/68, опубл. 10.03.2007 (прототип).
4
BY 16050 C1 2012.06.30
Фиг. 2
Фиг. 3
Фиг. 4
5
BY 16050 C1 2012.06.30
Фиг. 5
Фиг. 6
Фиг. 7
6
BY 16050 C1 2012.06.30
Фиг. 8
Национальный центр интеллектуальной собственности.
220034, г. Минск, ул. Козлова, 20.
7
Документ
Категория
Без категории
Просмотров
0
Размер файла
252 Кб
Теги
by16050, патент
1/--страниц
Пожаловаться на содержимое документа