RU2014124525A - Визуализация машинно-генерируемого изображения документа - Google Patents

Визуализация машинно-генерируемого изображения документа Download PDF

Info

Publication number
RU2014124525A
RU2014124525A RU2014124525/08A RU2014124525A RU2014124525A RU 2014124525 A RU2014124525 A RU 2014124525A RU 2014124525/08 A RU2014124525/08 A RU 2014124525/08A RU 2014124525 A RU2014124525 A RU 2014124525A RU 2014124525 A RU2014124525 A RU 2014124525A
Authority
RU
Russia
Prior art keywords
identifiers
document
structural blocks
image
lines
Prior art date
Application number
RU2014124525/08A
Other languages
English (en)
Other versions
RU2604668C2 (ru
Inventor
Сергей Анатольевич Кузнецов
Original Assignee
Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Девелопмент" filed Critical Общество с ограниченной ответственностью "Аби Девелопмент"
Priority to RU2014124525/08A priority Critical patent/RU2604668C2/ru
Priority to US14/508,617 priority patent/US20150363658A1/en
Publication of RU2014124525A publication Critical patent/RU2014124525A/ru
Application granted granted Critical
Publication of RU2604668C2 publication Critical patent/RU2604668C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

1. Способ визуализации машинно-генерируемого изображения документа, содержащий:обнаружение на изображении структурных блоков документа; иснабжение изображения линейными идентификаторами свойств и состояний машинной интерпретации содержимого структурных блоков.2. Способ по п. 1, в котором изображение документа получается методами оптического распознавания символов (OCR) или интеллектуального распознавания символов (ICR).3. Способ по п. 1, в котором структурные блоки содержат текстовые объекты, графические/изображаемые объекты или их комбинацию.4. Способ по п. 1, дополнительно содержащий:применение идентификаторов для выборочного разделения, подчеркивания или штриховки по меньшей мере фрагментов структурных блоков.5. Способ по п. 1, дополнительно содержащий:использование идентификаторов, включающих (i) одиночные или множественные сплошные, штриховые, пунктирные, штрихпунктирные, ломаные или волнистые линии, имеющие участки одинаковой или разной ширины, или (ii) линии, образованные с использованием предварительно выбранных символов или предварительно выбранных геометрических эталонов.6. Способ по п. 1, дополнительно содержащий:размещение идентификаторов рядом с периферийными участками структурных блоков.7. Способ по п. 1, в котором идентификаторы включают в себя (i) линии одного цвета или разных цветов или (ii) линии, имеющие элементы разных цветов.8. Способ по п. 1, дополнительно содержащий:предложение пользователям, работающим с изображением документа, инструментов графического интерфейса пользователя (GUI) для применения, изменения или замены идентификаторов структурных блоков.9. Способ по п. 1, дополнительно содерж

Claims (20)

1. Способ визуализации машинно-генерируемого изображения документа, содержащий:
обнаружение на изображении структурных блоков документа; и
снабжение изображения линейными идентификаторами свойств и состояний машинной интерпретации содержимого структурных блоков.
2. Способ по п. 1, в котором изображение документа получается методами оптического распознавания символов (OCR) или интеллектуального распознавания символов (ICR).
3. Способ по п. 1, в котором структурные блоки содержат текстовые объекты, графические/изображаемые объекты или их комбинацию.
4. Способ по п. 1, дополнительно содержащий:
применение идентификаторов для выборочного разделения, подчеркивания или штриховки по меньшей мере фрагментов структурных блоков.
5. Способ по п. 1, дополнительно содержащий:
использование идентификаторов, включающих (i) одиночные или множественные сплошные, штриховые, пунктирные, штрихпунктирные, ломаные или волнистые линии, имеющие участки одинаковой или разной ширины, или (ii) линии, образованные с использованием предварительно выбранных символов или предварительно выбранных геометрических эталонов.
6. Способ по п. 1, дополнительно содержащий:
размещение идентификаторов рядом с периферийными участками структурных блоков.
7. Способ по п. 1, в котором идентификаторы включают в себя (i) линии одного цвета или разных цветов или (ii) линии, имеющие элементы разных цветов.
8. Способ по п. 1, дополнительно содержащий:
предложение пользователям, работающим с изображением документа, инструментов графического интерфейса пользователя (GUI) для применения, изменения или замены идентификаторов структурных блоков.
9. Способ по п. 1, дополнительно содержащий:
встраивание в машинно-генерируемое изображение документа примененных, измененных или замененных идентификаторов.
10. Платформа для визуализации машинно-генерируемого изображения документа, содержащая:
локальное, удаленное, распределенное или сетевое вычислительное устройство; и
память, локально или удаленно соединенную с вычислительным устройством и хранящую команды, исполнение которых на вычислительном устройстве приводит к выполнению вычислительным устройством следующих действий:
обнаружение на изображении структурных блоков документа; и
снабжение изображения линейными идентификаторами свойств и состояний машинной интерпретации содержимого структурных блоков.
11. Платформа по п. 10, дополнительно содержащая сканирующее устройство, выполненное с возможностью получения по меньшей мере фрагментов изображения документа.
12. Платформа по п. 10, в которой:
изображение документа генерируется методами оптического распознавания символов (OCR) или интеллектуального распознавания символов (ICR); и
структурные блоки содержат текстовые объекты, графические/изображаемые объекты или их комбинацию.
13. Платформа по п. 10, в которой идентификаторы выполнены с возможностью выборочно разделять, подчеркивать или штриховать по меньшей мере фрагменты структурных блоков и содержат (i) одиночные или множественные сплошные, штриховые, пунктирные, штрихпунктирные, ломаные или волнистые линии, имеющие участки одинаковой или разной ширины, или (ii) линии, образованные с использованием предварительно выбранных символов или предварительно выбранных геометрических образцов.
14. Платформа по п. 10, в которой:
идентификаторы размещены рядом с периферийными участками структурных блоков; и
идентификаторы включают в себя (i) линии одинакового или разных цветов или (ii) линии, имеющие элементы разных цветов.
15. Платформа по п. 10, в которой:
пользователям, работающим с изображением документа, предлагаются инструменты графического пользовательского интерфейса (GUI) для применения, изменения и замены идентификаторов структурных блоков; и
примененные, измененные или замененные идентификаторы встраиваются в машинно-генерируемое изображение документа.
16. Носитель для хранения считываемых процессором команд, исполнение которых на вычислительном устройстве приводит к выполнению вычислительным устройством следующих действий:
обнаружение структурных блоков на машинно-генерируемом изображении документа; и
снабжение изображения линейными идентификаторами свойств и состояний машинной интерпретации содержимого структурных блоков.
17. Носитель по п. 16, в котором в результате выполнения команд дополнительно происходит:
формирование изображения документа с использованием методов оптического распознавания символов (OCR) или интеллектуального распознавания символов (ICR).
18. Носитель по п. 16, в котором в результате выполнения команд дополнительно происходит:
применение идентификаторов для выборочного разделения, подчеркивания или штриховки по меньшей мере фрагментов структурных блоков; и
использование идентификаторов, содержащих (i) одиночные или множественные сплошные, штриховые, пунктирные, штрихпунктирные, ломаные или волнистые линии, имеющие участки одинаковой или разной ширины, или (ii) линии, образованные с использованием предварительно выбранных символов или предварительно выбранных геометрических эталонов.
19. Носитель по п. 16, в котором в результате выполнения команд дополнительно происходит:
размещение идентификаторов рядом с периферийными участками структурных блоков; и
использование идентификаторов, включающих в себя (i) линии одинакового или разных цветов или (ii) линии, имеющие элементы разных цветов.
20. Носитель по п. 16, в котором в результате выполнения команд дополнительно происходит:
предложение пользователям, работающим с изображением документа, инструментов графического интерфейса пользователя (GUI) для применения, изменения или замены идентификаторов структурных блоков; и
встраивание в машинно-генерируемое изображение документа примененных, измененных или замененных идентификаторов.
RU2014124525/08A 2014-06-17 2014-06-17 Визуализация машинно-генерируемого изображения документа RU2604668C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014124525/08A RU2604668C2 (ru) 2014-06-17 2014-06-17 Визуализация машинно-генерируемого изображения документа
US14/508,617 US20150363658A1 (en) 2014-06-17 2014-10-07 Visualization of a computer-generated image of a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014124525/08A RU2604668C2 (ru) 2014-06-17 2014-06-17 Визуализация машинно-генерируемого изображения документа

Publications (2)

Publication Number Publication Date
RU2014124525A true RU2014124525A (ru) 2015-12-27
RU2604668C2 RU2604668C2 (ru) 2016-12-10

Family

ID=54836422

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014124525/08A RU2604668C2 (ru) 2014-06-17 2014-06-17 Визуализация машинно-генерируемого изображения документа

Country Status (2)

Country Link
US (1) US20150363658A1 (ru)
RU (1) RU2604668C2 (ru)

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
US5937084A (en) * 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6562077B2 (en) * 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US7050630B2 (en) * 2002-05-29 2006-05-23 Hewlett-Packard Development Company, L.P. System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region
US20040080795A1 (en) * 2002-10-23 2004-04-29 Bean Heather N. Apparatus and method for image capture device assisted scanning
US8571264B2 (en) * 2003-09-08 2013-10-29 Abbyy Development Llc Method of using structural models for optical recognition
US8054495B2 (en) * 2004-04-07 2011-11-08 Hewlett-Packard Development Company, L.P. Digital documents, apparatus, methods and software relating to associating an identity of paper printed with digital pattern with equivalent digital documents
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
US7937653B2 (en) * 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
US8706475B2 (en) * 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination
JP4443443B2 (ja) * 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure
RU2295154C1 (ru) * 2005-06-16 2007-03-10 "Аби Софтвер Лтд." Способ распознавания текстовой информации из графического файла с использованием словарей и дополнительных данных
US20060290789A1 (en) * 2005-06-22 2006-12-28 Nokia Corporation File naming with optical character recognition
US7826665B2 (en) * 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
JP4973063B2 (ja) * 2006-08-14 2012-07-11 富士通株式会社 表データ処理方法及び装置
JP4835459B2 (ja) * 2007-02-16 2011-12-14 富士通株式会社 表認識プログラム、表認識方法および表認識装置
JP4402138B2 (ja) * 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US8260049B2 (en) * 2007-09-28 2012-09-04 Abbyy Software Ltd. Model-based method of document logical structure recognition in OCR systems
US8035855B2 (en) * 2008-02-01 2011-10-11 Xerox Corporation Automatic selection of a subset of representative pages from a multi-page document
US8107766B2 (en) * 2008-04-03 2012-01-31 Abbyy Software Ltd. Method and system for straightening out distorted text-lines on images
US8787690B2 (en) * 2008-11-12 2014-07-22 Abbyy Development Llc Binarizing an image
US8718367B1 (en) * 2009-07-10 2014-05-06 Intuit Inc. Displaying automatically recognized text in proximity to a source image to assist comparibility
US8452086B2 (en) * 2009-07-10 2013-05-28 Palo Alto Research Center Incorporated System and user interface for machine-assisted human labeling of pixels in an image
US8340425B2 (en) * 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
US9223769B2 (en) * 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
US9080882B2 (en) * 2012-03-02 2015-07-14 Qualcomm Incorporated Visual OCR for positioning
US9008443B2 (en) * 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages
US20140067631A1 (en) * 2012-09-05 2014-03-06 Helix Systems Incorporated Systems and Methods for Processing Structured Data from a Document Image
US9223756B2 (en) * 2013-03-13 2015-12-29 Adobe Systems Incorporated Method and apparatus for identifying logical blocks of text in a document
US9092688B2 (en) * 2013-08-28 2015-07-28 Cisco Technology Inc. Assisted OCR

Also Published As

Publication number Publication date
RU2604668C2 (ru) 2016-12-10
US20150363658A1 (en) 2015-12-17

Similar Documents

Publication Publication Date Title
SG11201907521SA (en) Synthesis method of chinese printed character images and device thereof
EP2369446A3 (en) Method for inputting a string of characters and apparatus thereof
WO2016189390A3 (en) Gesture control system and method for smart home
EP2961150A3 (en) Image forming apparatus and image forming method
RU2014112237A (ru) Ввод данных с изображений документов с фиксированной структурой
JP6494249B2 (ja) 画像形成装置、画像形成方法、プログラム
MX2016004105A (es) Metodo y dispositivo para dibujar una interfaz grafica de usuario.
EP2980694A3 (en) Device and method for performing functions
EP2704061A3 (en) Apparatus and method for recognizing a character in terminal equipment
JP2013152601A5 (ru)
JP2016024789A5 (ru)
JP2012185697A5 (ru)
GB2547380A (en) Method for enabling communication between a user device browser and a local device
EP3007101A3 (en) History generating apparatus and history generating method
JP2014229115A5 (ru)
JP2010128904A5 (ru)
JP2014192553A5 (ru)
CN103729836B (zh) 基于多尺度变换和可能性理论的多波段图像融合方法
MY177406A (en) Character recognition apparatus, character recognition method and program
MX2016015251A (es) Informacion de identificacion (id) para identificar un animal.
EP2657034A4 (en) TWO-COLOR DUPLEX PRINTING METHOD AND DEVICE
JP2013042458A5 (ru)
RU2014124525A (ru) Визуализация машинно-генерируемого изображения документа
EP3142041A3 (en) Information processing apparatus, information processing method and program
RU2014144496A (ru) Сравнение документов с использованием достоверного источника

Legal Events

Date Code Title Description
QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311