WO2020252931A1 - Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage - Google Patents

Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage Download PDF

Info

Publication number
WO2020252931A1
WO2020252931A1 PCT/CN2019/103580 CN2019103580W WO2020252931A1 WO 2020252931 A1 WO2020252931 A1 WO 2020252931A1 CN 2019103580 W CN2019103580 W CN 2019103580W WO 2020252931 A1 WO2020252931 A1 WO 2020252931A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
character string
objects
pdf file
combined
Prior art date
Application number
PCT/CN2019/103580
Other languages
English (en)
Chinese (zh)
Inventor
杨志鸿
常河
徐亮
阮晓雯
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020252931A1 publication Critical patent/WO2020252931A1/fr

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

La présente invention concerne un procédé et un appareil d'extraction de données de fichier PDF, un dispositif et un support de stockage. Le procédé consiste à : analyser un fichier PDF et générer des sous-objets LT ; acquérir l'ordonnée et l'abscisse de chaque sous-objet LT, stocker de manière correspondante des sous-objets LT de chaque page dans une première liste, extraire des sous-objets LT dans un ordre croissant des ordonnées, et agencer longitudinalement, dans la première liste, les sous-objets LT dans un ordre croissant des ordonnées, l'abscisse comprenant une coordonnée de limite gauche x0 et une coordonnée de limite droite x1 ; pendant une lecture effectuée rangée par rangée, déterminer si les sous-objets LT sont dans la même rangée au moyen d'une distance longitudinale, et trier les sous-objets LT en rangées respectives ; et trier des sous-objets LT de chaque rangée dans un ordre croissant de x0, et si la coordonnée x1 d'un sous-objet LT situé d'un côté gauche est égale à la coordonnée x0 d'un sous-objet LT situé d'un côté droit, combiner les deux sous-objets LT pour former une chaîne de caractères combinés. Le procédé réduit la difficulté d'extraction d'informations d'un bulletin statistique mensuel.
PCT/CN2019/103580 2019-06-17 2019-08-30 Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage WO2020252931A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910521031.4A CN110377559B (zh) 2019-06-17 2019-06-17 一种pdf文件数据提取方法、装置及存储介质
CN201910521031.4 2019-06-17

Publications (1)

Publication Number Publication Date
WO2020252931A1 true WO2020252931A1 (fr) 2020-12-24

Family

ID=68248967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103580 WO2020252931A1 (fr) 2019-06-17 2019-08-30 Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage

Country Status (2)

Country Link
CN (1) CN110377559B (fr)
WO (1) WO2020252931A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361257B (zh) * 2021-06-29 2022-10-11 深圳壹账通智能科技有限公司 Pdf文档解析方法、系统、电子装置及存储介质
CN115618847B (zh) * 2022-12-20 2023-03-14 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN108038426A (zh) * 2017-11-29 2018-05-15 阿博茨德(北京)科技有限公司 一种提取文件中图表信息的方法及装置
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
US20190179885A1 (en) * 2017-12-13 2019-06-13 Think Research Corporation Automated Generation of Web Forms Using Fillable Electronic Documents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861856B2 (en) * 2007-09-28 2014-10-14 Abbyy Development Llc Model-based methods of document logical structure recognition in OCR systems
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
JP6719862B2 (ja) * 2015-03-20 2020-07-08 株式会社島津製作所 Pdfデータ取り出しシステム及びpdfデータ取り出しシステム用プログラム
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN108038426A (zh) * 2017-11-29 2018-05-15 阿博茨德(北京)科技有限公司 一种提取文件中图表信息的方法及装置
US20190179885A1 (en) * 2017-12-13 2019-06-13 Think Research Corporation Automated Generation of Web Forms Using Fillable Electronic Documents
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法

Also Published As

Publication number Publication date
CN110377559B (zh) 2022-09-16
CN110377559A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US10592184B2 (en) Method and device for parsing tables in PDF document
WO2021189803A1 (fr) Procédé et appareil de correction d'erreur de texte, dispositif électronique et support de stockage
WO2021147252A1 (fr) Procédé et appareil de récupération de format de tableau faisant appel à la roc, dispositif électronique et support de stockage
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US11829401B2 (en) Method for table extraction from journal literature based on text state characteristics
CN110659527B (zh) 电子表单中的表格检测
WO2021208703A1 (fr) Procédé et appareil d'analyse de question, dispositif électronique et support d'enregistrement
WO2020252931A1 (fr) Procédé et appareil d'extraction de données de fichier pdf, dispositif et support de stockage
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
JP5380040B2 (ja) 文書処理装置
CN116644729A (zh) 表格文件处理方法、装置、计算机设备和存储介质
CN112417899A (zh) 文字翻译方法、装置、计算机设备和存储介质
CN115687655A (zh) 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质
CN114201620A (zh) 用于挖掘pdf文件中的pdf表格的方法、设备和介质
WO2021151270A1 (fr) Procédé et appareil d'extraction de données structurées à partir d'une image, et dispositif et support de stockage
US10970478B2 (en) Tabular data analysis method, recording medium storing tabular data analysis program, and information processing apparatus
CN114385679A (zh) 一种表结构巡检方法、表结构巡检装置和电子设备
US20200026749A1 (en) Pdf extraction with text-based key
CN103176956A (zh) 用于提取文档结构的方法和装置
CN104536947A (zh) 版式文档的处理方法及装置
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
US20190005038A1 (en) Method and apparatus for grouping documents based on high-level features clustering
CN117151106A (zh) 文档大纲生成方法、装置、电子设备及存储介质
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质
CN111966785B (zh) 一种基于层叠序列标注的简历信息抽取方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933599

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933599

Country of ref document: EP

Kind code of ref document: A1