RU2309456C2 - Способ распознавания текстовой информации из векторно-растрового изображения - Google Patents

Способ распознавания текстовой информации из векторно-растрового изображения Download PDF

Info

Publication number
RU2309456C2
RU2309456C2 RU2005138164/09A RU2005138164A RU2309456C2 RU 2309456 C2 RU2309456 C2 RU 2309456C2 RU 2005138164/09 A RU2005138164/09 A RU 2005138164/09A RU 2005138164 A RU2005138164 A RU 2005138164A RU 2309456 C2 RU2309456 C2 RU 2309456C2
Authority
RU
Russia
Prior art keywords
text
objects
processing
vector
raster
Prior art date
Application number
RU2005138164/09A
Other languages
English (en)
Other versions
RU2005138164A (ru
Inventor
гин Дмитрий Георгиевич Дер (RU)
Дмитрий Георгиевич Дерягин
В чеслав Михайлович Сапроненко (RU)
Вячеслав Михайлович Сапроненко
Original Assignee
"Аби Софтвер Лтд."
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by "Аби Софтвер Лтд." filed Critical "Аби Софтвер Лтд."
Priority to RU2005138164/09A priority Critical patent/RU2309456C2/ru
Priority to US11/428,845 priority patent/US20070133029A1/en
Publication of RU2005138164A publication Critical patent/RU2005138164A/ru
Application granted granted Critical
Publication of RU2309456C2 publication Critical patent/RU2309456C2/ru
Priority to US12/816,307 priority patent/US20100254606A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста. Технический результат изобретения заключается в повышении надежности выявления текстовых, растровых и векторных объектов, получении информации о форматировании документа и ускорении процесса обработки. Достигается технический результат за счет того, что обработка текстовых объектов включает разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов и анализ и объединение групп символов в слова, обработка векторных объектов включает выявление разделителей, фона, обработка растровых объектов включает анализ на наличие изображения текста в нетекстовых объектах, и/или анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта, причем дополнительно возможно проведение анализа корректности кодировки, и в случае необходимости исправление, для чего анализируют отдельные символы на принадлежность к заданному алфавиту, а слова текста - на принадлежность к заданному словарю. 2 з.п. ф-лы.

Description

Предлагаемое техническое решение относится к распознаванию образов и, в частности, к предварительной обработке представления документа в электронном виде, выполняемой перед операциями по распознаванию текста (или вместо распознавания).
Предлагаемое техническое решение позволяет выявить информацию о содержании и форматировании из векторно-растрового изображения документа в электронном виде, например, файла в формате PDF достаточную, чтобы затем восстановить документ в исходном или близком к исходному виде в любом известном формате, допускающем редактирование.
Из уровня техники известен способ извлечения текстовой информации из электронного файла в векторно-растровом формате. Этот способ использует компания-производитель инструментария для получения документов в векторно-растровом формате (в формате PDF). "Acrobat and PDF Library API Reference", January 7, 2005, Adobe Solutions Network, 3603 р.
Недостатком известного способа является его приспособленность для извлечения только текстовой информации без сохранения информации о форматировании (о внешнем оформлении документа).
Описанный способ выбран как прототип.
Технический результат состоит в расширении возможностей по распознаванию документа из электронного файла в векторно-растровом формате, повышении надежности выявления текстовых, растровых и векторных объектов, получении (извлечении) информации о форматировании документа (форматной информации), ускорении процесса обработки.
Известный способ не позволяет достичь заявленного технического результата.
Заявленный технический результат достигают последовательным выполнением разбивки изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, обработки текстовых объектов, обработки растровых объектов, обработки векторных объектов, удаления избыточной и излишней информации, дополнительной обработкой объектов, не относящихся к текстовым, растровым, векторным, как растровые, дополнительного анализа каждого объекта с учетом всей имеющейся информации по результатам обработки других объектов.
Ускорение обработки достигают в том числе благодаря исключению или сокращению части обычно выполняемых операций.
Например, во многих случаях частично или полностью отпадает необходимость распознавать растровый текст.
Сущность способа предварительной обработки текстовой информации по информации векторно-растрового изображения в электронном виде состоит в следующем.
В порядке предварительной (перед распознаванием символов) обработки выполняют следующие операции, используя атрибуты форматирования файла, имеющиеся в файле векторно-растрового изображения.
Выполняют разбивку изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Для этого разбивают изображение на области, предположительно содержащие текст, и затем анализируют соседние области на возможность объединения в более крупные.
Обрабатывают текстовые объекты. Обработка текстовых объектов включает, по крайней мере, разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов, анализ и составление (объединение, сборка) групп символов в строки. Разбивка на отдельные символы и группы символов включает, по крайней мере, преобразование абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками.
Анализ и составление (сборка) групп символов в строки включает, по крайней мере, следующие действия:
а) определение ориентации текста,
б) выявление текста, написанного в положении верхнего индекса,
в) выявление текста, написанного в положении нижнего индекса,
г) выявление текста, написанного в виде буквицы.
После сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя интервалы между символами там, где пробелов нет.
Обрабатывают векторные объекты. Обработка векторных объектов включает, по крайней мере, идентификацию (выявление) разделителей, фона, подложек в блоке.
Обрабатывают растровые объекты. Обработка растровых объектов включает, по крайней мере, анализ на наличие изображения текста в нетекстовых объектах, анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.
Удаляют избыточную и излишнюю информацию. К удаляемой избыточной и излишней информации относят, по крайней мере, информацию для оттенения символов и информацию об излишних атрибутах, некоторую другую, в зависимости от особенностей документа.
Объекты, не относящиеся к текстовым, растровым, векторным, обрабатывают как растровые.
Каждый объект повторно дополнительно анализируют с учетом всех имеющихся результатов обработки других объектов. Если по полученным результатам первичной обработки объекта появилась информация, способная повлиять на другие объекты, проводят повторный анализ этих других объектов.
После разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют. Для определения корректности кодировки анализируют текст на принадлежность букв к алфавиту и слов текста к словарю, с учетом заданного языка.
Если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.

Claims (3)

1. Способ предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста, характеризующийся
наличием текстовых, и/или растровых, и/или векторных объектов,
разбиением изображения на области, предположительно содержащие абзацы, таблицы, строки текста, символы текста, нетекстовые объекты;
отличающийся тем, что выполняют следующие операции, используя атрибуты форматирования файла:
разбивку изображения выполняют до получения областей содержащих неразрывный логически связанный текст наибольшего размера,
обработку текстовых объектов,
обработку растровых объектов,
обработку векторных объектов,
удаление избыточной и излишней информации,
обработка объектов, не относящихся к текстовым, растровым, векторным, как растровых,
анализ каждого объекта с учетом всех имеющихся результатов обработки других объектов;
причем удаляемая избыточная и излишняя информация, включает, по крайней мере, следующие виды:
а) информация для оттенения символов,
б) лишние атрибуты;
причем получение областей содержащих неразрывный логически связанный текст наибольшего размера включает, по крайней мере, следующие этапы:
разбивку изображения на области, предположительно содержащие текст,
анализ соседних областей на возможность объединения в более крупную область;
причем обработка указанных текстовых объектов включает, по крайней мере, следующие этапы:
разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов и/или других неиндицируемых символов,
анализ и объединение групп символов в слова;
причем обработка указанных векторных объектов включает, по крайней мере, выявление разделителей, фона;
причем обработка указанных растровых объектов включает, по крайней мере, следующие этапы:
анализ на наличие изображения текста в нетекстовых объектах, и/или
анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.
2. Способ по п.1, отличающийся тем, что дополнительно включает анализ корректности кодировки символов, путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, и в случае необходимости исправление.
3. Способ по п.1, отличающийся тем, что анализ и составление групп символов в слова, включает, по крайней мере, следующие действия:
а) определение ориентации текста,
б) выявление текста, написанного в положении верхнего индекса,
в) выявление текста, написанного в положении нижнего индекса,
г) выявление текста, написанного в виде буквицы.
RU2005138164/09A 2005-12-08 2005-12-08 Способ распознавания текстовой информации из векторно-растрового изображения RU2309456C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2005138164/09A RU2309456C2 (ru) 2005-12-08 2005-12-08 Способ распознавания текстовой информации из векторно-растрового изображения
US11/428,845 US20070133029A1 (en) 2005-12-08 2006-07-06 Method of recognizing text information from a vector/raster image
US12/816,307 US20100254606A1 (en) 2005-12-08 2010-06-15 Method of recognizing text information from a vector/raster image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2005138164/09A RU2309456C2 (ru) 2005-12-08 2005-12-08 Способ распознавания текстовой информации из векторно-растрового изображения

Publications (2)

Publication Number Publication Date
RU2005138164A RU2005138164A (ru) 2007-06-20
RU2309456C2 true RU2309456C2 (ru) 2007-10-27

Family

ID=38138962

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005138164/09A RU2309456C2 (ru) 2005-12-08 2005-12-08 Способ распознавания текстовой информации из векторно-растрового изображения

Country Status (2)

Country Link
US (1) US20070133029A1 (ru)
RU (1) RU2309456C2 (ru)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2479028C2 (ru) * 2011-03-21 2013-04-10 Федеральное государственное военное образовательное учреждение высшего профессионального образования ВОЕННО-КОСМИЧЕСКАЯ АКАДЕМИЯ им. А.Ф. Можайского Способ распознавания контентного содержания сообщений графических форматов
RU2550543C1 (ru) * 2013-12-11 2015-05-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети интернет
RU2571379C2 (ru) * 2013-12-25 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Интеллектуальная обработка электронного документа
RU2613846C2 (ru) * 2015-09-07 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Метод и система извлечения данных из изображений слабоструктурированных документов
RU2661760C1 (ru) * 2017-08-25 2018-07-19 Общество с ограниченной ответственностью "Аби Продакшн" Использование нескольких камер для выполнения оптического распознавания символов
RU2680358C1 (ru) * 2018-05-14 2019-02-19 Федеральное государственное казенное военное образовательное учреждение высшего образования Академия Федеральной службы охраны Российской Федерации Способ распознавания контента сжатых неподвижных графических сообщений в формате jpeg

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8161369B2 (en) 2007-03-16 2012-04-17 Branchfire, Llc System and method of providing a two-part graphic design and interactive document application
US8023740B2 (en) * 2007-08-13 2011-09-20 Xerox Corporation Systems and methods for notes detection
CN105528600A (zh) * 2015-10-30 2016-04-27 小米科技有限责任公司 区域识别方法及装置
CN105550633B (zh) * 2015-10-30 2018-12-11 小米科技有限责任公司 区域识别方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0539158A2 (en) * 1991-10-21 1993-04-28 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5485568A (en) * 1993-10-08 1996-01-16 Xerox Corporation Structured image (Sl) format for describing complex color raster images
US5729637A (en) * 1994-08-31 1998-03-17 Adobe Systems, Inc. Method and apparatus for producing a hybrid data structure for displaying a raster image
US6512848B2 (en) * 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US5767978A (en) * 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
US6141012A (en) * 1997-03-31 2000-10-31 Xerox Corporation Image processing code generation based on structured image (SI) techniques
US6148102A (en) * 1997-05-29 2000-11-14 Adobe Systems Incorporated Recognizing text in a multicolor image
JP2000295406A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
US6934909B2 (en) * 2000-12-20 2005-08-23 Adobe Systems Incorporated Identifying logical elements by modifying a source document using marker attribute values
JP4181310B2 (ja) * 2001-03-07 2008-11-12 昌和 鈴木 数式認識装置および数式認識方法
JP4118749B2 (ja) * 2002-09-05 2008-07-16 株式会社リコー 画像処理装置、画像処理プログラムおよび記憶媒体
KR100747879B1 (ko) * 2004-06-10 2007-08-08 캐논 가부시끼가이샤 화상 처리 장치, 제어 방법 및 기록 매체
US20070266309A1 (en) * 2006-05-12 2007-11-15 Royston Sellman Document transfer between document editing software applications

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2479028C2 (ru) * 2011-03-21 2013-04-10 Федеральное государственное военное образовательное учреждение высшего профессионального образования ВОЕННО-КОСМИЧЕСКАЯ АКАДЕМИЯ им. А.Ф. Можайского Способ распознавания контентного содержания сообщений графических форматов
RU2550543C1 (ru) * 2013-12-11 2015-05-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети интернет
RU2571379C2 (ru) * 2013-12-25 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Интеллектуальная обработка электронного документа
RU2613846C2 (ru) * 2015-09-07 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Метод и система извлечения данных из изображений слабоструктурированных документов
RU2661760C1 (ru) * 2017-08-25 2018-07-19 Общество с ограниченной ответственностью "Аби Продакшн" Использование нескольких камер для выполнения оптического распознавания символов
RU2680358C1 (ru) * 2018-05-14 2019-02-19 Федеральное государственное казенное военное образовательное учреждение высшего образования Академия Федеральной службы охраны Российской Федерации Способ распознавания контента сжатых неподвижных графических сообщений в формате jpeg

Also Published As

Publication number Publication date
US20070133029A1 (en) 2007-06-14
RU2005138164A (ru) 2007-06-20

Similar Documents

Publication Publication Date Title
RU2309456C2 (ru) Способ распознавания текстовой информации из векторно-растрового изображения
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
US20150095769A1 (en) Layout Analysis Method And System
CN102609459A (zh) 基于正则表达式的字符串匹配方法和装置
CN105095196A (zh) 文本中新词发现的方法和装置
CN113610068A (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN110298350B (zh) 一种高效的印刷体维吾尔文单词分割算法
KR20180114513A (ko) 해석 프로그램, 해석 방법 및 해석 장치
JPH0991371A (ja) 文字表示装置
JP3932912B2 (ja) 文字列整形装置、方法及びプログラム
JP4083723B2 (ja) 画像処理装置
JP2002056357A (ja) 文字認識装置、その方法および記録媒体
KR100277831B1 (ko) 문서 영상에서의 표 분석방법
JPH0528324A (ja) 英文字認識装置
JPH09167206A (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法、定ピッチ英数文字列のスペース検出方法、及びプロポーショナルピッチ英数文字列のスペース検出方法
Banerjee Identification of handwritten text in machine printed document images
JPH028348B2 (ru)
US20100254606A1 (en) Method of recognizing text information from a vector/raster image
JP2746345B2 (ja) 文字認識の後処理方法
JPS6254380A (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
JPH02230484A (ja) 文字認識装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JPS61229177A (ja) 濁点・半濁点付き文字の認識方式
JP2004220625A (ja) 文字画像の正規化方法および文字認識装置

Legal Events

Date Code Title Description
HE4A Change of address of a patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20141031

QB4A Licence on use of patent

Free format text: LICENCE

Effective date: 20151118

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311