WO2020252931A1 - Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage - Google Patents
Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage Download PDFInfo
- Publication number
- WO2020252931A1 WO2020252931A1 PCT/CN2019/103580 CN2019103580W WO2020252931A1 WO 2020252931 A1 WO2020252931 A1 WO 2020252931A1 CN 2019103580 W CN2019103580 W CN 2019103580W WO 2020252931 A1 WO2020252931 A1 WO 2020252931A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sub
- character string
- objects
- pdf file
- combined
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
La présente invention concerne un procédé et un appareil d'extraction de données de fichier PDF, un dispositif et un support de stockage. Le procédé consiste à : analyser un fichier PDF et générer des sous-objets LT ; acquérir l'ordonnée et l'abscisse de chaque sous-objet LT, stocker de manière correspondante des sous-objets LT de chaque page dans une première liste, extraire des sous-objets LT dans un ordre croissant des ordonnées, et agencer longitudinalement, dans la première liste, les sous-objets LT dans un ordre croissant des ordonnées, l'abscisse comprenant une coordonnée de limite gauche x0 et une coordonnée de limite droite x1 ; pendant une lecture effectuée rangée par rangée, déterminer si les sous-objets LT sont dans la même rangée au moyen d'une distance longitudinale, et trier les sous-objets LT en rangées respectives ; et trier des sous-objets LT de chaque rangée dans un ordre croissant de x0, et si la coordonnée x1 d'un sous-objet LT situé d'un côté gauche est égale à la coordonnée x0 d'un sous-objet LT situé d'un côté droit, combiner les deux sous-objets LT pour former une chaîne de caractères combinés. Le procédé réduit la difficulté d'extraction d'informations d'un bulletin statistique mensuel.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521031.4A CN110377559B (zh) | 2019-06-17 | 2019-06-17 | 一种pdf文件数据提取方法、装置及存储介质 |
CN201910521031.4 | 2019-06-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020252931A1 true WO2020252931A1 (fr) | 2020-12-24 |
Family
ID=68248967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/103580 WO2020252931A1 (fr) | 2019-06-17 | 2019-08-30 | Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110377559B (fr) |
WO (1) | WO2020252931A1 (fr) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361257B (zh) * | 2021-06-29 | 2022-10-11 | 深圳壹账通智能科技有限公司 | Pdf文档解析方法、系统、电子装置及存储介质 |
CN115618847B (zh) * | 2022-12-20 | 2023-03-14 | 浙江保融科技股份有限公司 | 一种解析pdf文档的方法、装置和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
CN108415887A (zh) * | 2018-02-09 | 2018-08-17 | 武汉大学 | 一种pdf文件向ofd文件转化的方法 |
US20190179885A1 (en) * | 2017-12-13 | 2019-06-13 | Think Research Corporation | Automated Generation of Web Forms Using Fillable Electronic Documents |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8861856B2 (en) * | 2007-09-28 | 2014-10-14 | Abbyy Development Llc | Model-based methods of document logical structure recognition in OCR systems |
CN102722475A (zh) * | 2012-05-09 | 2012-10-10 | 深圳市万兴软件有限公司 | 一种PDF文档中的表格转换成Excel表格的方法 |
JP6719862B2 (ja) * | 2015-03-20 | 2020-07-08 | 株式会社島津製作所 | Pdfデータ取り出しシステム及びpdfデータ取り出しシステム用プログラム |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
-
2019
- 2019-06-17 CN CN201910521031.4A patent/CN110377559B/zh active Active
- 2019-08-30 WO PCT/CN2019/103580 patent/WO2020252931A1/fr active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866335A (zh) * | 2010-06-14 | 2010-10-20 | 深圳市万兴软件有限公司 | 一种文档转换中的表格处理方法及装置 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
US20190179885A1 (en) * | 2017-12-13 | 2019-06-13 | Think Research Corporation | Automated Generation of Web Forms Using Fillable Electronic Documents |
CN108415887A (zh) * | 2018-02-09 | 2018-08-17 | 武汉大学 | 一种pdf文件向ofd文件转化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110377559B (zh) | 2022-09-16 |
CN110377559A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10592184B2 (en) | Method and device for parsing tables in PDF document | |
WO2021189803A1 (fr) | Procédé et appareil de correction d'erreur de texte, dispositif électronique et support de stockage | |
WO2021147252A1 (fr) | Procédé et appareil de récupération de format de tableau faisant appel à la roc, dispositif électronique et support de stockage | |
US7853869B2 (en) | Creation of semantic objects for providing logical structure to markup language representations of documents | |
US11829401B2 (en) | Method for table extraction from journal literature based on text state characteristics | |
CN110659527B (zh) | 电子表单中的表格检测 | |
WO2021208703A1 (fr) | Procédé et appareil d'analyse de question, dispositif électronique et support d'enregistrement | |
WO2020252931A1 (fr) | Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP5380040B2 (ja) | 文書処理装置 | |
CN116644729A (zh) | 表格文件处理方法、装置、计算机设备和存储介质 | |
CN112417899A (zh) | 文字翻译方法、装置、计算机设备和存储介质 | |
CN115687655A (zh) | 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质 | |
CN114201620A (zh) | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 | |
WO2021151270A1 (fr) | Procédé et appareil d'extraction de données structurées à partir d'une image, et dispositif et support de stockage | |
US10970478B2 (en) | Tabular data analysis method, recording medium storing tabular data analysis program, and information processing apparatus | |
CN114385679A (zh) | 一种表结构巡检方法、表结构巡检装置和电子设备 | |
US20200026749A1 (en) | Pdf extraction with text-based key | |
CN103176956A (zh) | 用于提取文档结构的方法和装置 | |
CN104536947A (zh) | 版式文档的处理方法及装置 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
US20190005038A1 (en) | Method and apparatus for grouping documents based on high-level features clustering | |
CN117151106A (zh) | 文档大纲生成方法、装置、电子设备及存储介质 | |
CN112257400A (zh) | 表格数据提取方法、装置、计算机设备和存储介质 | |
CN111966785B (zh) | 一种基于层叠序列标注的简历信息抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19933599 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19933599 Country of ref document: EP Kind code of ref document: A1 |