RU2014112236A - Сохранение контента в конвертированных документах - Google Patents
Сохранение контента в конвертированных документах Download PDFInfo
- Publication number
- RU2014112236A RU2014112236A RU2014112236/08A RU2014112236A RU2014112236A RU 2014112236 A RU2014112236 A RU 2014112236A RU 2014112236/08 A RU2014112236/08 A RU 2014112236/08A RU 2014112236 A RU2014112236 A RU 2014112236A RU 2014112236 A RU2014112236 A RU 2014112236A
- Authority
- RU
- Russia
- Prior art keywords
- text layer
- layer
- text
- combinations
- processor device
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract 21
- 238000001303 quality assessment method Methods 0.000 claims abstract 9
- 238000004590 computer program Methods 0.000 claims 5
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:получение PDF-документа, возможно имеющего первый текстовый слой;оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.9. Способ по п. 1, отличающийся тем, что выпол
Claims (27)
1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:
получение PDF-документа, возможно имеющего первый текстовый слой;
оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.
2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.
3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.
4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.
5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.
6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.
7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.
8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.
9. Способ по п. 1, отличающийся тем, что выполнение оценки качества первого текстового слоя дополнительно предусматривает использование метода полиграмм в первом текстовом слое:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
10. Система для конвертации без потерь PDF документа в PDF документ с возможностью поиска, включающая в себя:
по меньшей мере одно процессорное устройство, причем по меньшей мере одно процессорное устройство:
получает PDF документ, возможно содержащий первый текстовый слой;
оценивает качество возможно существующего первого текстового слоя, в котором, если возможный первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.
11. Система по п. 10, отличающаяся тем, что создание второго текстового слоя включает распознавание документа.
12. Система по п. 10, отличающаяся тем, что возможно существующий первый текстовый слой не является приемлемым, если он содержит ошибки, превышающие пороговое значение.
13. Система по п. 10, отличающаяся тем, что первый текстовый слой представляет собой видимый текстовый слой, и дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство блокирует возможность поиска или копирования в видимом текстовом слое.
14. Система по п. 10, отличающаяся тем, что первый слой текста является невидимым слоем, дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство удаляет невидимый текстовый слой.
15. Система по п. 10, отличающаяся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.
16. Система по п. 15, отличающаяся тем, что по меньшей мере одно процессорное устройство при сравнении первого текстового слоя со вторым текстовым слоем сравнивает части первого текстового слоя и второго слоя текста, относящиеся к одной и той же части изображения.
17. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство при оценке качества первого текстового слоя сравнивает первый текстовый слой с по меньшей мере одним словарем при операции проверки по словарю.
18. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство в зависимости от оценки качества первого текстового слоя использует способ полиграмм для первого текстового слоя, выполняя:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
19. Компьютерный программный продукт для конвертации без потерь PDF документа на процессорном устройстве, при этом компьютерный программный продукт предусматривает постоянный машиночитаемый носитель, в котором хранятся части машиночитаемого программного кода, причем части хранящегося машиночитаемого программного кода включают:
первую исполняемую часть, получающую PDF документ, который может иметь первый текстовый слой;
вторую исполняемую часть, которая оценивает качество возможно существующего первого текстового слоя, причем если возможно существующий первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.
20. Компьютерный программный продукт по п. 19, отличающийся тем, что создание второго текстового слоя включает распознавание документа.
21. Компьютерный программный продукт по п. 19, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.
22. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является видимым текстовым слоем; и включающий ее пятую исполняемую часть, которая блокирует возможность поиска или копирования видимого текстового слоя.
23. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно включает пятую исполняемую часть, которая блокирует невидимый текстовый слой.
24. Компьютерный программный продукт по п. 19, отличающийся тем, что выполнение оценки качества первого текстового слоя содержит сравнение первого текстового слоя со вторым текстовым слоем.
25. Компьютерный программный продукт по п. 24, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение части первого текстового слоя и второго текстового слоя, связанных с одной и той же частью изображения.
26. Компьютерный программный продукт по п. 19, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя с по меньшей мере одним словарем для выполнения операции проверки по словарю.
27. Компьютерный программный продукт по п. 19, отличающийся тем, что при оценке качества первый текстовый слой дополнительно содержит использование метода полиграмм в первом текстовом слое:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014112236A RU2648636C2 (ru) | 2014-03-31 | 2014-03-31 | Сохранение контента в конвертированных документах |
US14/570,088 US20150278162A1 (en) | 2014-03-31 | 2014-12-15 | Retention of content in converted documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014112236A RU2648636C2 (ru) | 2014-03-31 | 2014-03-31 | Сохранение контента в конвертированных документах |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2014112236A true RU2014112236A (ru) | 2015-10-10 |
RU2648636C2 RU2648636C2 (ru) | 2018-03-26 |
Family
ID=54190601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014112236A RU2648636C2 (ru) | 2014-03-31 | 2014-03-31 | Сохранение контента в конвертированных документах |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150278162A1 (ru) |
RU (1) | RU2648636C2 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784004A (zh) * | 2019-11-08 | 2021-05-11 | 浙江大搜车软件技术有限公司 | Pdf文档的检索方法、系统、电子设备、存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10698645B2 (en) * | 2016-06-15 | 2020-06-30 | Solix Technologies, Inc. | Virtual printer |
JP7379876B2 (ja) * | 2019-06-17 | 2023-11-15 | 株式会社リコー | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム |
CN110457276B (zh) * | 2019-08-06 | 2022-02-25 | 超级知识产权顾问(北京)有限公司 | Pdf文档可用程度解析系统及方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5319543A (en) * | 1992-06-19 | 1994-06-07 | First Data Health Services Corporation | Workflow server for medical records imaging and tracking system |
US20020103834A1 (en) * | 2000-06-27 | 2002-08-01 | Thompson James C. | Method and apparatus for analyzing documents in electronic form |
WO2002041170A2 (en) * | 2000-11-16 | 2002-05-23 | Interlegis, Inc. | System and method of managing documents |
US20020129256A1 (en) * | 2001-03-07 | 2002-09-12 | Diebold, Incorporated | Automated transaction machine digital signature system and method |
US20050166137A1 (en) * | 2004-01-26 | 2005-07-28 | Bao Tran | Systems and methods for analyzing documents |
US7773822B2 (en) * | 2005-05-02 | 2010-08-10 | Colormax, Inc. | Apparatus and methods for management of electronic images |
CN101802840A (zh) * | 2007-07-30 | 2010-08-11 | 微差通信公司 | 扫描至编校的可搜索文档 |
US20130054595A1 (en) * | 2007-09-28 | 2013-02-28 | Abbyy Software Ltd. | Automated File Name Generation |
US8254681B1 (en) * | 2009-02-05 | 2012-08-28 | Google Inc. | Display of document image optimized for reading |
US20170147577A9 (en) * | 2009-09-30 | 2017-05-25 | Gennady LAPIR | Method and system for extraction |
US8515185B2 (en) * | 2009-11-25 | 2013-08-20 | Google Inc. | On-screen guideline-based selective text recognition |
US20110258535A1 (en) * | 2010-04-20 | 2011-10-20 | Scribd, Inc. | Integrated document viewer with automatic sharing of reading-related activities across external social networks |
US8452099B2 (en) * | 2010-11-27 | 2013-05-28 | Hewlett-Packard Development Company, L.P. | Optical character recognition (OCR) engines having confidence values for text types |
US8542311B2 (en) * | 2011-01-20 | 2013-09-24 | Aptina Imaging Corporation | Multisection light guides for image sensor pixels |
US8745084B2 (en) * | 2011-07-20 | 2014-06-03 | Docscorp Australia | Repository content analysis and management |
US9305227B1 (en) * | 2013-12-23 | 2016-04-05 | Amazon Technologies, Inc. | Hybrid optical character recognition |
US10089555B2 (en) * | 2014-03-28 | 2018-10-02 | Hyland Software, Inc. | Method, apparatus, and computer program product for providing automated testing of an optical character recognition system |
-
2014
- 2014-03-31 RU RU2014112236A patent/RU2648636C2/ru active
- 2014-12-15 US US14/570,088 patent/US20150278162A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784004A (zh) * | 2019-11-08 | 2021-05-11 | 浙江大搜车软件技术有限公司 | Pdf文档的检索方法、系统、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
RU2648636C2 (ru) | 2018-03-26 |
US20150278162A1 (en) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799647B (zh) | 网页去重方法和设备 | |
RU2015151699A (ru) | Извлечение сущностей из текстов на естественном языке | |
RU2014112241A (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
RU2014112236A (ru) | Сохранение контента в конвертированных документах | |
US9436882B2 (en) | Automated redaction | |
RU2014150944A (ru) | Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов | |
JP2012506596A5 (ru) | ||
JP2014149848A5 (ru) | ||
WO2016066043A1 (zh) | 网页去重方法及装置 | |
EP3203417A3 (en) | Method for detecting texts included in an image and apparatus using the same | |
JP2018506087A5 (ru) | ||
US20150064684A1 (en) | Assessment of curated content | |
Alzahrani | Arabic plagiarism detection using word correlation in N-Grams with K-overlapping approach | |
Kothwal et al. | Cross lingual text reuse detection based on keyphrase extraction and similarity measures | |
RU2014144496A (ru) | Сравнение документов с использованием достоверного источника | |
CN104615705A (zh) | 网页质量检测方法及装置 | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
Han et al. | UMBC webbase corpus | |
US20230026110A1 (en) | Learning data generation method, learning data generation apparatus and program | |
Van Niekerk | Exploring unsupervised word segmentation for machine translation in the South African context | |
Nandini et al. | Dengue detection and prediction System using data mining with Frequency analysis | |
Smith et al. | Classification of text to subject using LDA | |
Xiang et al. | An efficient framework to extract parallel units from comparable data | |
Gulis et al. | Plagiarism Detection in Students’ Assignments Written in Natural Language | |
Bollmann | Spelling normalization of historical German with sparse training data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HE9A | Changing address for correspondence with an applicant | ||
PC43 | Official registration of the transfer of the exclusive right without contract for inventions |
Effective date: 20181121 |
|
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |