RU2014112236A - Сохранение контента в конвертированных документах - Google Patents

Сохранение контента в конвертированных документах Download PDF

Info

Publication number
RU2014112236A
RU2014112236A RU2014112236/08A RU2014112236A RU2014112236A RU 2014112236 A RU2014112236 A RU 2014112236A RU 2014112236/08 A RU2014112236/08 A RU 2014112236/08A RU 2014112236 A RU2014112236 A RU 2014112236A RU 2014112236 A RU2014112236 A RU 2014112236A
Authority
RU
Russia
Prior art keywords
text layer
layer
text
combinations
processor device
Prior art date
Application number
RU2014112236/08A
Other languages
English (en)
Other versions
RU2648636C2 (ru
Inventor
Иван Юрьевич Корнеев
Сергей Георгиевич Попов
Александер Сергеевич Макушев
Наталья Александровна Колодкина
Original Assignee
Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Девелопмент" filed Critical Общество с ограниченной ответственностью "Аби Девелопмент"
Priority to RU2014112236A priority Critical patent/RU2648636C2/ru
Priority to US14/570,088 priority patent/US20150278162A1/en
Publication of RU2014112236A publication Critical patent/RU2014112236A/ru
Application granted granted Critical
Publication of RU2648636C2 publication Critical patent/RU2648636C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:получение PDF-документа, возможно имеющего первый текстовый слой;оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.9. Способ по п. 1, отличающийся тем, что выпол

Claims (27)

1. Способ конвертации без потерь PDF документа в PDF документ с возможностью поиска с использованием процессорного устройства, включающий:
получение PDF-документа, возможно имеющего первый текстовый слой;
оценку качества возможно присутствующего первого текстового слоя, при которой, если первый слой не существует или является неприемлемым, создается второй текстовый слой для поиска или копирования.
2. Способ по п. 1, отличающийся тем, что создание второго текстового слоя включает распознавание документа.
3. Способ по п. 1, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.
4. Способ по п. 1, отличающийся тем, что первый текстовый слой является видимым текстовым слоем, и дополнительно предусматривающий отключение возможности поиска или копирования видимого текстового слоя.
5. Способ по п. 1, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно предусматривающий удаление невидимого текстового слоя.
6. Способ по п. 1, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.
7. Способ по п. 6, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение частей первого текстового слоя и второго текстового слоя, относящихся к одной и той же части изображения.
8. Способ по п. 1, отличающийся тем, что оценка качества первого слоя текста включает сравнение первого текстового слоя по меньшей мере с одним словарем для выполнения операции проверки по словарю.
9. Способ по п. 1, отличающийся тем, что выполнение оценки качества первого текстового слоя дополнительно предусматривает использование метода полиграмм в первом текстовом слое:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
10. Система для конвертации без потерь PDF документа в PDF документ с возможностью поиска, включающая в себя:
по меньшей мере одно процессорное устройство, причем по меньшей мере одно процессорное устройство:
получает PDF документ, возможно содержащий первый текстовый слой;
оценивает качество возможно существующего первого текстового слоя, в котором, если возможный первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.
11. Система по п. 10, отличающаяся тем, что создание второго текстового слоя включает распознавание документа.
12. Система по п. 10, отличающаяся тем, что возможно существующий первый текстовый слой не является приемлемым, если он содержит ошибки, превышающие пороговое значение.
13. Система по п. 10, отличающаяся тем, что первый текстовый слой представляет собой видимый текстовый слой, и дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство блокирует возможность поиска или копирования в видимом текстовом слое.
14. Система по п. 10, отличающаяся тем, что первый слой текста является невидимым слоем, дополнительно отличающаяся тем, что по меньшей мере одно процессорное устройство удаляет невидимый текстовый слой.
15. Система по п. 10, отличающаяся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя со вторым текстовым слоем.
16. Система по п. 15, отличающаяся тем, что по меньшей мере одно процессорное устройство при сравнении первого текстового слоя со вторым текстовым слоем сравнивает части первого текстового слоя и второго слоя текста, относящиеся к одной и той же части изображения.
17. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство при оценке качества первого текстового слоя сравнивает первый текстовый слой с по меньшей мере одним словарем при операции проверки по словарю.
18. Система по п. 10, отличающаяся тем, что по меньшей мере одно процессорное устройство в зависимости от оценки качества первого текстового слоя использует способ полиграмм для первого текстового слоя, выполняя:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
19. Компьютерный программный продукт для конвертации без потерь PDF документа на процессорном устройстве, при этом компьютерный программный продукт предусматривает постоянный машиночитаемый носитель, в котором хранятся части машиночитаемого программного кода, причем части хранящегося машиночитаемого программного кода включают:
первую исполняемую часть, получающую PDF документ, который может иметь первый текстовый слой;
вторую исполняемую часть, которая оценивает качество возможно существующего первого текстового слоя, причем если возможно существующий первый текстовый слой не существует или является неприемлемым, то для поиска или копирования создается второй текстовый слой.
20. Компьютерный программный продукт по п. 19, отличающийся тем, что создание второго текстового слоя включает распознавание документа.
21. Компьютерный программный продукт по п. 19, отличающийся тем, что возможно существующий первый текстовый слой является неприемлемым, если он содержит ошибки, превышающие пороговое значение.
22. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является видимым текстовым слоем; и включающий ее пятую исполняемую часть, которая блокирует возможность поиска или копирования видимого текстового слоя.
23. Компьютерный программный продукт по п. 19, отличающийся тем, что первый текстовый слой является невидимым слоем, и дополнительно включает пятую исполняемую часть, которая блокирует невидимый текстовый слой.
24. Компьютерный программный продукт по п. 19, отличающийся тем, что выполнение оценки качества первого текстового слоя содержит сравнение первого текстового слоя со вторым текстовым слоем.
25. Компьютерный программный продукт по п. 24, отличающийся тем, что сравнение первого текстового слоя со вторым текстовым слоем содержит сравнение части первого текстового слоя и второго текстового слоя, связанных с одной и той же частью изображения.
26. Компьютерный программный продукт по п. 19, отличающийся тем, что оценка качества первого текстового слоя включает сравнение первого текстового слоя с по меньшей мере одним словарем для выполнения операции проверки по словарю.
27. Компьютерный программный продукт по п. 19, отличающийся тем, что при оценке качества первый текстовый слой дополнительно содержит использование метода полиграмм в первом текстовом слое:
разбиение каждого слова в первом текстовом слое на комбинации букв, причем комбинации букв представляют собой комбинации из двух букв и комбинации из трех букв; и
проверку комбинаций букв на основании таблицы приемлемости комбинаций букв в естественном языке.
RU2014112236A 2014-03-31 2014-03-31 Сохранение контента в конвертированных документах RU2648636C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014112236A RU2648636C2 (ru) 2014-03-31 2014-03-31 Сохранение контента в конвертированных документах
US14/570,088 US20150278162A1 (en) 2014-03-31 2014-12-15 Retention of content in converted documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014112236A RU2648636C2 (ru) 2014-03-31 2014-03-31 Сохранение контента в конвертированных документах

Publications (2)

Publication Number Publication Date
RU2014112236A true RU2014112236A (ru) 2015-10-10
RU2648636C2 RU2648636C2 (ru) 2018-03-26

Family

ID=54190601

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014112236A RU2648636C2 (ru) 2014-03-31 2014-03-31 Сохранение контента в конвертированных документах

Country Status (2)

Country Link
US (1) US20150278162A1 (ru)
RU (1) RU2648636C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784004A (zh) * 2019-11-08 2021-05-11 浙江大搜车软件技术有限公司 Pdf文档的检索方法、系统、电子设备、存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10698645B2 (en) * 2016-06-15 2020-06-30 Solix Technologies, Inc. Virtual printer
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
CN110457276B (zh) * 2019-08-06 2022-02-25 超级知识产权顾问(北京)有限公司 Pdf文档可用程度解析系统及方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319543A (en) * 1992-06-19 1994-06-07 First Data Health Services Corporation Workflow server for medical records imaging and tracking system
US20020103834A1 (en) * 2000-06-27 2002-08-01 Thompson James C. Method and apparatus for analyzing documents in electronic form
WO2002041170A2 (en) * 2000-11-16 2002-05-23 Interlegis, Inc. System and method of managing documents
US20020129256A1 (en) * 2001-03-07 2002-09-12 Diebold, Incorporated Automated transaction machine digital signature system and method
US20050166137A1 (en) * 2004-01-26 2005-07-28 Bao Tran Systems and methods for analyzing documents
US7773822B2 (en) * 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
CN101802840A (zh) * 2007-07-30 2010-08-11 微差通信公司 扫描至编校的可搜索文档
US20130054595A1 (en) * 2007-09-28 2013-02-28 Abbyy Software Ltd. Automated File Name Generation
US8254681B1 (en) * 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
US20170147577A9 (en) * 2009-09-30 2017-05-25 Gennady LAPIR Method and system for extraction
US8515185B2 (en) * 2009-11-25 2013-08-20 Google Inc. On-screen guideline-based selective text recognition
US20110258535A1 (en) * 2010-04-20 2011-10-20 Scribd, Inc. Integrated document viewer with automatic sharing of reading-related activities across external social networks
US8452099B2 (en) * 2010-11-27 2013-05-28 Hewlett-Packard Development Company, L.P. Optical character recognition (OCR) engines having confidence values for text types
US8542311B2 (en) * 2011-01-20 2013-09-24 Aptina Imaging Corporation Multisection light guides for image sensor pixels
US8745084B2 (en) * 2011-07-20 2014-06-03 Docscorp Australia Repository content analysis and management
US9305227B1 (en) * 2013-12-23 2016-04-05 Amazon Technologies, Inc. Hybrid optical character recognition
US10089555B2 (en) * 2014-03-28 2018-10-02 Hyland Software, Inc. Method, apparatus, and computer program product for providing automated testing of an optical character recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784004A (zh) * 2019-11-08 2021-05-11 浙江大搜车软件技术有限公司 Pdf文档的检索方法、系统、电子设备、存储介质

Also Published As

Publication number Publication date
RU2648636C2 (ru) 2018-03-26
US20150278162A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
CN102799647B (zh) 网页去重方法和设备
RU2015151699A (ru) Извлечение сущностей из текстов на естественном языке
RU2014112241A (ru) Построение корпуса сравнимых документов на основе универсальной меры похожести
RU2014112236A (ru) Сохранение контента в конвертированных документах
US9436882B2 (en) Automated redaction
RU2014150944A (ru) Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
JP2012506596A5 (ru)
JP2014149848A5 (ru)
WO2016066043A1 (zh) 网页去重方法及装置
EP3203417A3 (en) Method for detecting texts included in an image and apparatus using the same
JP2018506087A5 (ru)
US20150064684A1 (en) Assessment of curated content
Alzahrani Arabic plagiarism detection using word correlation in N-Grams with K-overlapping approach
Kothwal et al. Cross lingual text reuse detection based on keyphrase extraction and similarity measures
RU2014144496A (ru) Сравнение документов с использованием достоверного источника
CN104615705A (zh) 网页质量检测方法及装置
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Han et al. UMBC webbase corpus
US20230026110A1 (en) Learning data generation method, learning data generation apparatus and program
Van Niekerk Exploring unsupervised word segmentation for machine translation in the South African context
Nandini et al. Dengue detection and prediction System using data mining with Frequency analysis
Smith et al. Classification of text to subject using LDA
Xiang et al. An efficient framework to extract parallel units from comparable data
Gulis et al. Plagiarism Detection in Students’ Assignments Written in Natural Language
Bollmann Spelling normalization of historical German with sparse training data

Legal Events

Date Code Title Description
HE9A Changing address for correspondence with an applicant
PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311