RU2014112236A

RU2014112236A - Сохранение контента в конвертированных документах

Info

Publication number: RU2014112236A
Application number: RU2014112236/08A
Authority: RU
Inventors: Иван Юрьевич Корнеев; Сергей Георгиевич Попов; Александер Сергеевич Макушев; Наталья Александровна Колодкина
Original assignee: Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2015-10-10
Also published as: RU2648636C2; US20150278162A1

Abstract

1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:получение PDF-документа, возможно имеющего первый текстовый слой;оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.9. Способ по п. 1, отличающийся тем, что выпол

Claims

1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:

получение PDF-документа, возможно имеющего первый текстовый слой;

оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.

2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.

3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.

4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.

5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.

6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.

7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.

8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.

9. Способ по п. 1, отличающийся тем, что выполнение оценки качества первого текстового слоя дополнительно предусматривает использование метода полиграмм в первом текстовом слое:

разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и

проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.

10. Система для конвертации без потерь PDF документа в PDF документ с возможностью поиска, включающая в себя:

по меньшей мере одно процессорное устройство, причем по меньшей мере одно процессорное устройство:

получает PDF документ, возможно содержащий первый текстовый слой;

оценивает качество возможно существующего первого текстового слоя, в котором, если возможный первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.

11. Система по п. 10, отличающаяся тем, что создание второго текстового слоя включает распознавание документа.

12. Система по п. 10, отличающаяся тем, что возможно существующий первый текстовый слой не является приемлемым, если он содержит ошибки, превышающие пороговое значение.

13. Система по п. 10, отличающаяся тем, что первый текстовый слой представляет собой видимый текстовый слой, и дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство блокирует возможность поиска или копирования в видимом текстовом слое.

14. Система по п. 10, отличающаяся тем, что первый слой текста является невидимым слоем, дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство удаляет невидимый текстовый слой.

15. Система по п. 10, отличающаяся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.

16. Система по п. 15, отличающаяся тем, что по меньшей мере одно процессорное устройство при сравнении первого текстового слоя со вторым текстовым слоем сравнивает части первого текстового слоя и второго слоя текста, относящиеся к одной и той же части изображения.

17. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство при оценке качества первого текстового слоя сравнивает первый текстовый слой с по меньшей мере одним словарем при операции проверки по словарю.

18. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство в зависимости от оценки качества первого текстового слоя использует способ полиграмм для первого текстового слоя, выполняя:

19. Компьютерный программный продукт для конвертации без потерь PDF документа на процессорном устройстве, при этом компьютерный программный продукт предусматривает постоянный машиночитаемый носитель, в котором хранятся части машиночитаемого программного кода, причем части хранящегося машиночитаемого программного кода включают:

первую исполняемую часть, получающую PDF документ, который может иметь первый текстовый слой;

вторую исполняемую часть, которая оценивает качество возможно существующего первого текстового слоя, причем если возможно существующий первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.

20. Компьютерный программный продукт по п. 19, отличающийся тем, что создание второго текстового слоя включает распознавание документа.

21. Компьютерный программный продукт по п. 19, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.

22. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является видимым текстовым слоем; и включающий ее пятую исполняемую часть, которая блокирует возможность поиска или копирования видимого текстового слоя.

23. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно включает пятую исполняемую часть, которая блокирует невидимый текстовый слой.

24. Компьютерный программный продукт по п. 19, отличающийся тем, что выполнение оценки качества первого текстового слоя содержит сравнение первого текстового слоя со вторым текстовым слоем.

25. Компьютерный программный продукт по п. 24, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение части первого текстового слоя и второго текстового слоя, связанных с одной и той же частью изображения.

26. Компьютерный программный продукт по п. 19, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя с по меньшей мере одним словарем для выполнения операции проверки по словарю.

27. Компьютерный программный продукт по п. 19, отличающийся тем, что при оценке качества первый текстовый слой дополнительно содержит использование метода полиграмм в первом текстовом слое: