RU2013157758A

RU2013157758A - Интеллектуальная обработка электронного документа

Info

Publication number: RU2013157758A
Application number: RU2013157758/08A
Authority: RU
Inventors: Иван Юрьевич Корнеев
Original assignee: Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2015-06-27
Also published as: US20150089335A1; RU2571379C2

Abstract

1. Способ, включающийполучение процессором электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;автоматическое распознавание изображения, которое содержит визуально представленный текст, где автоматическое распознавание осуществляется в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;создание текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении электронного документа, где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным, исохранение результатов операций пользователя на запоминающем устройстве в виде части электронного документа.2. Способ по п. 1, отличающийся тем, что текст, соответствующий распознаваемым данным, представляет собой текстовые данные, полученные в результате автоматического распознавания.3. Способ по п. 1, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.4. Способ по п. 1, отличающийся тем, что пользовательская операция включает, по меньшей мере, одну из следующих операций: поиск в тексте, соотве�

Claims

1. Способ, включающий

получение процессором электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;

автоматическое распознавание изображения, которое содержит визуально представленный текст, где автоматическое распознавание осуществляется в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;

создание текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;

добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении электронного документа, где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным, и

сохранение результатов операций пользователя на запоминающем устройстве в виде части электронного документа.

2. Способ по п. 1, отличающийся тем, что текст, соответствующий распознаваемым данным, представляет собой текстовые данные, полученные в результате автоматического распознавания.

3. Способ по п. 1, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.

4. Способ по п. 1, отличающийся тем, что пользовательская операция включает, по меньшей мере, одну из следующих операций: поиск в тексте, соответствующему распознанным данным, выделение текста, соответствующего распознанным данным, копирование текста, соответствующего распознанным данным, и добавление пометок в текст, соответствующий распознанным данным.

5. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом включает использование оптического распознавания символов визуально представленного текста.

6. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом также включает предобработку изображения с целью повышения точности распознавания.

7. Способ по п. 6, отличающийся тем, что предобработка изображения включает по меньшей мере одно из следующих действий: коррекция искажения изображения, исправление ориентации изображения, фильтрацию изображения, изменение разрешения изображения, изменение контрастности изображения и корректировку смаза изображения.

8. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом дополнительно включает выдвижение и проверку гипотезы о символе.

9. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом дополнительно включает:

выявление и анализ структурных единиц электронного документа и

иерархическую организацию структурных единиц на основании типа каждой структурной единицы.

10. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом запускается без команды пользователя.

11. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения с визуально представленным текстом инициализируется, когда документ открывается пользователем.

12. Способ по п. 1, отличающийся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленные текст, производится независимо и одновременно с пользовательскими операциями над содержимым страницы, на которой в настоящее время работает пользователь.

13. Система, включающая:

один или несколько электронных процессоров, настроенных на

получение электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображения;

добавление текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, чтобы он скрыт от пользователя при отображении электронного документа, и где скрытый текстовый слой настроен так, что он предоставляет пользователю возможность производить операции над текстом, который соответствует распознанным данным: и

14. Система по п. 13, отличающаяся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.

15. Система по п.13, отличающаяся тем, что пользовательская операция включает, по меньшей мере, одно из следующего: поиск в тексте, соответствующего распознанным данным, выделение текста, соответствующего распознанным данным, копирование текста, соответствующего распознанным данным, и добавление пометок в текст, соответствующий распознанным данным.

16. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, включает использование оптического распознавания символов визуально представленного текста.

17. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, дополнительно включает:

18. Система по п. 13, отличающаяся тем, что автоматическое распознавание в фоновом режиме изображения, содержащего визуально представленный текст, инициализируется, когда документ открывается пользователем.

19. Энергонезависимый машиночитаемый носитель, содержащий команды, которые включают:

команды для получения электронного документа, где этот электронный документ включает изображение, которое содержит визуально представленный текст, в котором отсутствуют текстовые данные, соответствующие визуально представленному тексту этого изображении;

команды для автоматического распознавания изображения, которое содержит визуально представленный текст, где автоматическое распознавание производится в фоновом режиме так, что внешний вид этого электронного документа для пользователя остается неизменным;

команды для создания текстового слоя, включающего распознанные данные, где распознанные данные получены в результате автоматического распознавания изображения, содержащего визуально представленный текст;

команды для добавления текстового слоя под изображение, которое содержит визуально представленный текст, таким образом, что он скрыт от пользователя при отображении этого электронного документа, где скрытый текстовый слой настроен так, что он предоставляет возможность пользователю производить операции над текстом, который соответствует распознанными данными: и

команды для сохранения результатов операций пользователя на запоминающем устройстве в виде части электронного документа.

20. Энергонезависимый машиночитаемый носитель по п. 19, отличающийся тем, что электронный документ включает по меньшей мере один файл в формате image-only PDF, TIFF, JPEG, PNG, BMP, GIF или RAW.