RU2013157758A - Интеллектуальная обработка электронного документа - Google Patents

Интеллектуальная обработка электронного документа Download PDF

Info

Publication number
RU2013157758A
RU2013157758A RU2013157758/08A RU2013157758A RU2013157758A RU 2013157758 A RU2013157758 A RU 2013157758A RU 2013157758/08 A RU2013157758/08 A RU 2013157758/08A RU 2013157758 A RU2013157758 A RU 2013157758A RU 2013157758 A RU2013157758 A RU 2013157758A
Authority
RU
Russia
Prior art keywords
text
image
visually presented
electronic document
user
Prior art date
Application number
RU2013157758/08A
Other languages
English (en)
Other versions
RU2571379C2 (ru
Inventor
Иван Юрьевич Корнеев
Original Assignee
Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Девелопмент" filed Critical Общество с ограниченной ответственностью "Аби Девелопмент"
Priority to RU2013157758/08A priority Critical patent/RU2571379C2/ru
Priority to US14/488,672 priority patent/US20150089335A1/en
Publication of RU2013157758A publication Critical patent/RU2013157758A/ru
Application granted granted Critical
Publication of RU2571379C2 publication Critical patent/RU2571379C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

1. Способ, включающийполучение процессором электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;автоматическое распознавание изображения, которое содержит визуально представленный текст, где автоматическое распознавание осуществляется в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;создание текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении электронного документа, где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным, исохранение результатов операций пользователя на запоминающем устройстве в виде части электронного документа.2. Способ по п. 1, отличающийся тем, что текст, соответствующий распознаваемым данным, представляет собой текстовые данные, полученные в результате автоматического распознавания.3. Способ по п. 1, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.4. Способ по п. 1, отличающийся тем, что пользовательская операция включает, по меньшей мере, одну из следующих операций: поиск в тексте, соотве�

Claims (20)

1. Способ, включающий
получение процессором электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;
автоматическое распознавание изображения, которое содержит визуально представленный текст, где автоматическое распознавание осуществляется в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;
создание текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;
добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении электронного документа, где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным, и
сохранение результатов операций пользователя на запоминающем устройстве в виде части электронного документа.
2. Способ по п. 1, отличающийся тем, что текст, соответствующий распознаваемым данным, представляет собой текстовые данные, полученные в результате автоматического распознавания.
3. Способ по п. 1, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.
4. Способ по п. 1, отличающийся тем, что пользовательская операция включает, по меньшей мере, одну из следующих операций: поиск в тексте, соответствующему распознанным данным, выделение текста, соответствующего распознанным данным, копирование текста, соответствующего распознанным данным, и добавление пометок в текст, соответствующий распознанным данным.
5. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом включает использование оптического распознавания символов визуально представленного текста.
6. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом также включает предобработку изображения с целью повышения точности распознавания.
7. Способ по п. 6, отличающийся тем, что предобработка изображения включает по меньшей мере одно из следующих действий: коррекция искажения изображения, исправление ориентации изображения, фильтрацию изображения, изменение разрешения изображения, изменение контрастности изображения и корректировку смаза изображения.
8. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом дополнительно включает выдвижение и проверку гипотезы о символе.
9. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом дополнительно включает:
выявление и анализ структурных единиц электронного документа и
иерархическую организацию структурных единиц на основании типа каждой структурной единицы.
10. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом запускается без команды пользователя.
11. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом инициализируется, когда документ открывается пользователем.
12. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленные текст, производится независимо и одновременно с пользовательскими операциями над содержимым страницы, на которой в настоящее время работает пользователь.
13. Система, включающая:
один или несколько электронных процессоров, настроенных на
получение электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;
автоматическое распознавание изображения, которое содержит визуально представленный текст, где автоматическое распознавание осуществляется в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;
создание текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;
добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, чтобы он скрыт от пользователя при отображении электронного документа, и где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным: и
сохранение результатов операций пользователя на запоминающем устройстве в виде части электронного документа.
14. Система по п. 13, отличающаяся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.
15. Система по п.13, отличающаяся тем, что пользовательская операция включает, по меньшей мере, одно из следующего: поиск в тексте, соответствующего распознанным данным, выделение текста, соответствующего распознанным данным, копирование текста, соответствующего распознанным данным, и добавление пометок в текст, соответствующий распознанным данным.
16. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, включает использование оптического распознавания символов визуально представленного текста.
17. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, дополнительно включает:
выявление и анализ структурных единиц электронного документа и
иерархическую организацию структурных единиц на основании типа каждой структурной единицы.
18. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, инициализируется, когда документ открывается пользователем.
19. Энергонезависимый машиночитаемый носитель, содержащий команды, которые включают:
команды для получения электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображении;
команды для автоматического распознавания изображения, которое содержит визуально представленный текст, где автоматическое распознавание производится в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;
команды для создания текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;
команды для добавления текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении этого электронного документа, где скрытый текстовый слой настроен так, что он предоставляет возможность пользователю производить операции над текстом, который соответствует распознанными данными: и
команды для сохранения результатов операций пользователя на запоминающем устройстве в виде части электронного документа.
20. Энергонезависимый машиночитаемый носитель по п. 19, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.
RU2013157758/08A 2013-09-25 2013-12-25 Интеллектуальная обработка электронного документа RU2571379C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013157758/08A RU2571379C2 (ru) 2013-12-25 2013-12-25 Интеллектуальная обработка электронного документа
US14/488,672 US20150089335A1 (en) 2013-09-25 2014-09-17 Smart processing of an electronic document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013157758/08A RU2571379C2 (ru) 2013-12-25 2013-12-25 Интеллектуальная обработка электронного документа

Publications (2)

Publication Number Publication Date
RU2013157758A true RU2013157758A (ru) 2015-06-27
RU2571379C2 RU2571379C2 (ru) 2015-12-20

Family

ID=52692150

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013157758/08A RU2571379C2 (ru) 2013-09-25 2013-12-25 Интеллектуальная обработка электронного документа

Country Status (2)

Country Link
US (1) US20150089335A1 (ru)
RU (1) RU2571379C2 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055333B2 (en) 2019-01-08 2021-07-06 International Business Machines Corporation Media search and retrieval to visualize text using visual feature extraction
CN111291753B (zh) * 2020-01-22 2024-05-28 平安科技(深圳)有限公司 基于图像的文本识别方法、装置及存储介质
EP4386605A1 (en) * 2021-08-11 2024-06-19 Khegai, Aleksandr Olegovich Identification of a user requesting an electronic document

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7773822B2 (en) * 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
RU2309456C2 (ru) * 2005-12-08 2007-10-27 "Аби Софтвер Лтд." Способ распознавания текстовой информации из векторно-растрового изображения
JP4738180B2 (ja) * 2006-01-17 2011-08-03 株式会社リコー 画像処理装置および電子ファイル生成方法
RU2006141518A (ru) * 2006-11-24 2008-06-10 Корпораци "Самсунг Электроникс Ко., Лтд." (KR) Способ распознавания текстовых документов
US9098888B1 (en) * 2013-12-12 2015-08-04 A9.Com, Inc. Collaborative text detection and recognition

Also Published As

Publication number Publication date
US20150089335A1 (en) 2015-03-26
RU2571379C2 (ru) 2015-12-20

Similar Documents

Publication Publication Date Title
US10783400B2 (en) Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
RU2014150944A (ru) Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
EP2166488A3 (en) Handwritten word spotter using synthesized typed queries
WO2015200110A3 (en) Techniques for machine language translation of text from an image based on non-textual context information from the image
EP2797031A3 (en) Optical character recognition of text in an image according to a prioritized processing sequence
RU2014125500A (ru) Редактирование содержимого электронного документа
EP2669847A3 (en) Document processing apparatus, document processing method and scanner
EP2444920A3 (en) Detection of duplicate document content using two-dimensional visual fingerprinting
EP2241999A3 (en) Underline removal apparatus
US9916500B2 (en) Method and system for imaging documents, such as passports, border crossing cards, visas, and other travel documents, in mobile applications
EP2746989A3 (en) Document processing device, image processing apparatus, document processing method and computer program product
CN104424472B (zh) 一种图像识别方法及用户终端
RU2013157758A (ru) Интеллектуальная обработка электронного документа
EP2890100A3 (en) Image processing apparatus
JP2019067235A5 (ru)
JP2009506394A5 (ru)
US20140325350A1 (en) Target area estimation apparatus, method and program
CN105630822A (zh) 一种专利检索相似内容标红法
RU2014144496A (ru) Сравнение документов с использованием достоверного источника
CN109308474B (zh) 基于智能笔的眼镜拍照方法、智能笔、眼镜及存储介质
RU2015103742A (ru) Способ и устройство для обновления пользовательских данных
US20150186421A1 (en) Computer implemented system for handling text distracters in a visual search
Park et al. A user adaptation method for hand shape recognition using wrist-mounted camera
RU2015102523A (ru) "умный" ластик
RU2556461C2 (ru) Способ автоматизированного поиска эталонных печатей

Legal Events

Date Code Title Description
QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20161213

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20170613

QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311