TW202127301A - 針對pdf文件的表格資料解析方式 - Google Patents
針對pdf文件的表格資料解析方式 Download PDFInfo
- Publication number
- TW202127301A TW202127301A TW109143025A TW109143025A TW202127301A TW 202127301 A TW202127301 A TW 202127301A TW 109143025 A TW109143025 A TW 109143025A TW 109143025 A TW109143025 A TW 109143025A TW 202127301 A TW202127301 A TW 202127301A
- Authority
- TW
- Taiwan
- Prior art keywords
- page
- searched
- coordinates
- present
- range
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本發明係關於針對PDF文件的表格資料的解析方式。本發明的特徵在於包括以下步驟:從PDF文件提取資料並且對文件結構進行分析以生成關於PDF文件的解析樹;使用經生成的解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置;基於分配給待搜尋的表格的款目的坐標(x, y),設定搜尋到的頁面內的解析範圍;以及針對設定的解析範圍來對表格資料進行解析的步驟。根據本發明,具有能夠從PDF文件準確地解析出目標表格資料的優點。
Description
本發明涉及針對PDF文件的表格資料的解析方式。
證券公司等會定期發佈總結公司的業務狀況和財務狀況等的報告書,而此時,其會以表格形態製作以便能夠一目了然地查看關於各公司的損益計算、財務狀況、現金流、關鍵指標等的項目的資料。
另外,當執行PDF文件時,在畫面中輸出的表格在實際文件結構中不被存儲為表格的情況諸多,並且是PDF文件的表格實現為回車(CR)、換行(LF)或新行(/n)等的指令的情況。
作為這種實例,圖1是作為本發明的先前技術示出PDF文件的表格形態的視圖。參照圖1,PDF文件的頁面10中包含有關於財務報表的項目1、項目2、項目3、項目4的總共4種項目的表格11、12、13、14。
然而,圖1中所示的表格11、12、13、14的實際文件結構構成為個別字符串,並且在這種文件結構中關於分別彼此不同的項目的表格11、12、13、14不被彼此區分開。
由於如上所述地在實際文件結構中PDF文件的表格不被彼此區分開並且由字符串和指令構成,因此難以僅對關於包含在PDF文件中的特定項目的表格資料進行準確的解析。
圖2是作為本發明的先前技術用於說明關於圖1的表格的表格資料解析的視圖。
如圖2中所示,在針對PDF文件的頁面10來執行表格資料解析的情況下,存在著關於項目1的表格資料11和關於項目2的表格資料12均被識別為相同行內的單純字符串並且在經解析的表格資料20中引起溢出等的錯誤的問題。
另外,在定期發行證券公司的報告書的出版物中,關於特定項目的表格或資料的位置被固定,並且頻繁地出現僅數值被變更的情況。
在這種背景中,圖3是作為本發明的先前技術用於說明使用固定坐標的表格資料解析的視圖。
在圖3中,在調出PDF文件的頁面10之後,基於固定坐標30來對表格資料進行解析。為了使圖3的使用固定坐標的表格資料解析方式有效,PDF文件的頁面10的表格僅出現與其數值相當的波動,並且應有效地保持使該表格資料一直位於固定坐標30中的條件。
然而,每個PDF文件的頁面10內的表格的位置可不同,並且例如,如圖3中所示,在固定坐標30的位置在表格資料的營業額40中不完全匹配的情況下,存在著從該表格解析的表格資料20因無法讀取關於營業額40的表格資料而導致錯誤41的問題。
要解決的技術問題
本發明是為了解決前述的問題,其目的在於提供能夠從PDF文件準確地解析出目標表格資料的表格資料解析方式。
本發明的目的並不限於上文中提及的目的,並且本發明的未提及的其它目的和優點可透過下面的描述而理解,並且可透過本發明的實施例而更加明確地理解。此外,可容易理解,本發明的目的和優點可透過申請專利範圍中提及的手段及其組合來實現。
解決問題的手段
用於實現這種目的的本發明的特徵在於包括以下步驟:從PDF文件提取資料並且對文件結構進行分析以生成關於所述PDF文件的解析樹;使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置;基於分配給待搜尋的所述表格的款目的坐標(x, y),設定搜尋到的所述頁面內的解析範圍;以及針對設定的所述解析範圍來對表格資料進行解析。
發明效果
根據如上所述的本發明,具有能夠從PDF文件準確地解析出目標表格資料的優點。
前述的目的、特徵和優點將參照附圖進行詳細描述,並由此,本發明所屬技術領域中具有通常知識者能夠容易地實施本發明的技術思想。在對本發明進行描述時,對於本發明相關的習知技術的具體描述在判斷為不必要地混淆本發明的要旨的情況下,將省略其詳細描述。在下文中,將參照附圖對根據本發明的較佳實施例進行詳細描述。在附圖中相同的元件符號用於指示相同或相似的構成元件。
圖4是根據本發明的一實施例的表格資料解析裝置的配置圖。參照圖4,根據本發明的一實施例的表格資料解析裝置400可包括解析樹生成部410、頁面搜尋部420、解析範圍設定部430和資料解析部440。
本發明的解析樹生成部410執行按照各個頁面從PDF文件提取文字和非文字的功能。此處,非文字可包括圖像、圖表。解析樹生成部410可區分包含在各個頁面中的區域的文字和圖像等的非文字。
本發明的解析樹生成部410對文件結構進行分析並且生成解析樹,並且在本發明中,“解析樹”意味著包含在各個頁面中的區域的文字和非文字被結構化為樹形態。
本發明的頁面搜尋部420執行使用由解析樹生成部410生成的解析樹來搜尋包含有待搜尋的表格的款目的頁面的功能。
例如,在搜尋包含在PDF文件中的頁面中的“損益計算書”項目的表格的情況下,頁面搜尋部420可按照各個頁面來搜尋解析樹以搜尋表格的款目為“損益計算書”的表格所在的頁面。
此外,頁面搜尋部420可使用除了表格的款目以外的與待搜尋的表格相關的資訊來搜尋頁面。例如,可在項目的名稱為“○○投資”並且項目代碼為“000001”的頁面中搜尋表格的款目為“損益計算書”的表格所在的頁面。
此外,PDF文件內的所有對象具有頁面內的固有坐標,並因此,存在於頁面內的表格的款目、項目的名稱、項目代碼均具有分配的坐標。本發明的頁面搜尋部420可搜尋分配給表格款目、項目的名稱和項目代碼的坐標。
本發明的解析範圍設定部430執行設定搜尋到的頁面內的解析範圍的功能。更詳細地,本發明的解析範圍設定部430基於待搜尋的表格的款目的坐標(x, y)來設定搜尋到的頁面內的解析範圍。
在本發明的一實施例中,解析範圍設定部430可將搜尋到的頁面劃分為n個(此處,n為2以上)區域,並且將經劃分的n個區域中的表格的款目的坐標(x, y)所在的區域設定為搜尋到的頁面內的解析範圍。
例如,本發明的解析範圍設定部430可將搜尋到的頁面劃分為2個區域,並且根據表格的款目的坐標(x, y)處於2個區域中的哪個區域而將其中一個區域設定為解析範圍。
在本發明的一實施例中,解析範圍設定部430可基於經劃分的n個區域中的表格的款目的坐標(x, y)所在的區域的坐標(x1, x2)來設定搜尋到的頁面內的解析範圍中的水平軸範圍,並且基於表格的款目的坐標(x, y)中的y坐標來將垂直軸範圍設定為小於y坐標。
本發明的資料解析部440執行針對由解析範圍設定部430設定的頁面內的解析範圍而對表格資料進行解析的功能。
在本發明的一實施例中,資料解析部440可以行單位讀取表格資料並且對表格資料進行解析。
圖5是用於說明根據本發明的一實施例的表格資料解析過程的視圖。參照圖5,本發明的解析樹生成部410從PDF文件提取文字和非文字並進行文件結構化來生成解析樹。
本發明的頁面搜尋部420使用解析樹來搜尋包含有待搜尋的表格的款目510的頁面500。此時,頁面搜尋部420在搜尋到的頁面500內獲得分配給表格的款目510的坐標(x, y)。
本發明的解析範圍設定部430基於待搜尋的表格的款目510的坐標來設定解析範圍520。更詳細地,解析範圍設定部430將表格的款目510所在的頁面500劃分為2個區域,並且將其中的表格的款目510的坐標(x, y)所在的區域設定為解析範圍520。
此處,解析範圍基於經劃分的2個區域中的表格的款目510所在的區域的坐標來設定水平軸範圍521,並且將垂直軸範圍522設定為小於表格的款目510的y坐標。
此外,本發明的資料解析部440針對根據前述的過程設定的解析範圍520以行單位對表格資料進行讀取並解析。
其結果,從PDF文件的頁面500解析表格資料530。
圖6是根據本發明的一實施例的表格資料解析方式的流程圖。圖6的表格資料解析方式可由前述的表格資料解析裝置400和包括在其中的配置來執行。
參照圖6,本發明的表格資料解析方式首先由解析樹生成部從PDF文件提取資料並且對文件結構進行分析以生成解析樹(S600)。在步驟(S600)中生成的解析樹可包括文字和圖像等的非文字。執行步驟(S600)的結果,針對PDF文件按照各個頁面生成文字和非文字結構化為樹形態的解析樹。
隨後,由頁面搜尋部使用解析樹來搜尋待搜尋的表格所在的頁面(S620)。更詳細地,步驟(S620)可使用解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置。此外,步驟(S620)可包括以下步驟:使用與表格相關的項目的名稱、項目代碼等來搜尋頁面。
此外,如上所述地,PDF文件的頁面內的所有對象分配有固有坐標,並且步驟(S620)可包括以下步驟:搜尋並獲得具有表格的款目的坐標。
隨後,由解析範圍設定部基於分配給表格的款目的坐標(x, y)來設定搜尋到的頁面內的解析範圍(S630)。此外,雖然未在圖6中示出,但是步驟(S630)可包括以下步驟:將搜尋到的頁面劃分為n個(此處,n為2以上)區域;以及將經劃分的n個區域中的坐標(x, y)所在的區域設定為搜尋到的頁面內的解析範圍。
在本發明的一實施例中,步驟(S630)的解析範圍可基於經劃分的n個區域中的表格的款目的坐標(x, y)所在的區域的坐標(x1, x2)來設定水平軸範圍,並且基於表格的款目的坐標(x, y)中的y坐標將垂直軸範圍設定為小於y坐標。
最終,由資料解析部440針對在步驟(S630)中設定的解析範圍以行單位對表格資料進行讀取並解析(S640)。
根據如上所述的本發明,具有能夠從PDF文件準確地解析出目標表格資料的優點。
下面<表1>是示出針對以PDF文件發佈的企業分析報告書對特定種類和種類代碼中的“損益計算書”項目的表格資料進行解析的結果的表格。
表1:
年度 | 總和 | 成功 | 無 | 失敗 | 錯誤 | 成功率(%) |
2019 | 26 | 23 | 3 | 0 | 0 | 100 |
2018 | 27 | 23 | 2 | 2 | 0 | 92 |
2017 | 49 | 43 | 2 | 3 | 1 | 91.5 |
2015 | 36 | 35 | 1 | 0 | 0 | 100 |
2014 | 26 | 26 | 0 | 0 | 0 | 100 |
在上列<表1>中,“總和”是執行表格資料解析的次數,“成功”是其中表格資料解析成功的次數。“無”是企業分析報告書中不存在有表格的情況。“失敗”是根據企業分析報告書,表格的款目不為“損益計算書”的情況。“錯誤”是頁面中種類名或種類代碼被標記錯誤的情況。
上列<表1>是排除執行表格資料解析的結果中不存在有表格的情況後算出的,並且排除PDF文件自身中發生的“失敗”、“錯誤”後,分析為具有100%的成功率。
本發明所屬技術領域中具有通常知識者而言,前述的本發明在不背離本發明的技術思想的範圍內能夠進行各種替換、變形和變更,因此不由前述的實施例和附圖限定。
10:頁面
11:表格
12:表格
13:表格
14:表格
20:表格資料
30:固定坐標
40:營業額
41:錯誤
400:表格資料解析裝置
410:解析樹生成部
420:頁面搜尋部
430:解析範圍設定部
440:資料解析部
500:頁面
510:款目
520:解析範圍
521:水平軸範圍
522:垂直軸範圍
530:表格資料
S600:步驟
S620:步驟
S630:步驟
S640:步驟
[圖1]是作為本發明的先前技術示出PDF文件的表格形態的視圖。
[圖2]是作為本發明的先前技術用於說明關於圖1的表格的表格資料解析的視圖。
[圖3]是作為本發明的先前技術用於說明使用固定坐標的表格資料解析的視圖。
[圖4]是根據本發明的一實施例的表格資料解析裝置的配置圖。
[圖5]是用於說明根據本發明的一實施例的表格資料解析過程的視圖。
[圖6]是根據本發明的一實施例的表格資料解析方式的流程圖。
500:頁面
510:款目
520:解析範圍
521:水平軸範圍
522:垂直軸範圍
530:表格資料
Claims (6)
- 一種針對PDF文件的表格資料解析方式,包括以下步驟: 從PDF文件提取資料並且對文件結構進行分析以生成關於所述PDF文件的解析樹; 使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置; 基於分配給待搜尋的所述表格的款目的坐標(x, y),設定搜尋到的所述頁面內的解析範圍;以及 針對設定的所述解析範圍來對表格資料進行解析。
- 如請求項1所述的針對PDF文件的表格資料解析方式,其中,關於所述PDF文件的解析樹包括文字和非文字。
- 如請求項1所述的針對PDF文件的表格資料解析方式,其中,使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置的步驟包括以下步驟: 搜尋包含有與待搜尋的所述表格相關的項目的名稱、項目代碼的頁面的位置。
- 如請求項1所述的針對PDF文件的表格資料解析方式,其中,基於分配給待搜尋的所述表格的款目的坐標(x, y),設定搜尋到的所述頁面內的解析範圍的步驟包括以下步驟: 將搜尋到的所述頁面劃分為n個區域,其中,n為2以上;以及 將劃分的所述n個區域中所述坐標(x, y)所在的區域設定為搜尋到的所述頁面內的解析範圍。
- 如請求項4所述的針對PDF文件的表格資料解析方式,其中,在搜尋到的所述頁面內的解析範圍中,水平軸範圍是基於劃分的所述n個區域中所述坐標(x, y)所在的區域的坐標(x1, x2)來設定的,並且垂直軸範圍是基於分配給所述款目的坐標(x, y)中的y坐標來設定的。
- 如請求項1所述的針對PDF文件的表格資料解析方式,其中,針對設定的所述解析範圍來對表格資料進行解析的步驟包括以下步驟: 以行單位來讀取所述表格資料並對所述表格資料進行解析。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200004927A KR102171325B1 (ko) | 2020-01-14 | 2020-01-14 | Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법 |
KR10-2020-0004927 | 2020-01-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202127301A true TW202127301A (zh) | 2021-07-16 |
Family
ID=73018375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109143025A TW202127301A (zh) | 2020-01-14 | 2020-12-07 | 針對pdf文件的表格資料解析方式 |
Country Status (3)
Country | Link |
---|---|
KR (1) | KR102171325B1 (zh) |
TW (1) | TW202127301A (zh) |
WO (1) | WO2021145541A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102171325B1 (ko) * | 2020-01-14 | 2020-10-28 | 티아이테크놀로지 주식회사 | Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0765034A (ja) * | 1993-08-24 | 1995-03-10 | Hitachi Ltd | テーブルデータ検索装置におけるデータ表示方法およびテーブルデータ検索装置 |
KR100912502B1 (ko) * | 2007-07-27 | 2009-08-17 | 한국전자통신연구원 | Pdf 파일을 대상으로 하는 자동 번역 방법 |
KR100912288B1 (ko) * | 2008-01-31 | 2009-08-17 | 주식회사 싱싱타오 | 문서 내 목차정보를 이용한 검색 시스템 |
KR102001633B1 (ko) * | 2016-03-31 | 2019-07-18 | 엔지엘 주식회사 | 선박 데이터 수집 및 전송 방법과 이를 수행하는 시스템 |
KR101942468B1 (ko) * | 2017-01-03 | 2019-02-08 | 주식회사 페이스시스템 | 정형 및 비정형 데이터 추출 시스템 및 방법 |
CN108446264B (zh) * | 2018-03-26 | 2022-02-15 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
KR102087247B1 (ko) * | 2018-06-27 | 2020-03-10 | 주식회사 한글과컴퓨터 | 드로잉 개체를 렌더링하는 웹 전자 문서 편집 장치 및 이의 동작 방법 |
KR102171325B1 (ko) * | 2020-01-14 | 2020-10-28 | 티아이테크놀로지 주식회사 | Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법 |
-
2020
- 2020-01-14 KR KR1020200004927A patent/KR102171325B1/ko active IP Right Grant
- 2020-11-03 WO PCT/KR2020/015235 patent/WO2021145541A1/ko active Application Filing
- 2020-12-07 TW TW109143025A patent/TW202127301A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2021145541A1 (ko) | 2021-07-22 |
KR102171325B1 (ko) | 2020-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106886509B (zh) | 一种学位论文格式自动检测方法 | |
US8112401B2 (en) | Analyzing externally generated documents in document management system | |
US7916972B2 (en) | Landmark-based form reading with declarative language | |
US20120102002A1 (en) | Automatic data validation and correction | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
US20220261408A1 (en) | Error identification, indexing and linking construction documents | |
Carrasco | An open-source OCR evaluation tool | |
CN113822037B (zh) | 插入占位符并生成数据映射表的方法、装置、设备及介质 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN110543422B (zh) | 一种用于fpr的软件包代码缺陷数据处理方法、系统及介质 | |
TW202127301A (zh) | 針對pdf文件的表格資料解析方式 | |
US20130155436A1 (en) | Altering a pdf print job based upon criteria stored in memory of a printing system | |
US20130326349A1 (en) | Method and System to Perform Multiple Scope Based Search and Replace | |
JP5766438B2 (ja) | 電子メディアにおけるクリックスルー機能に関する方法およびシステム | |
JP2008027431A (ja) | 情報解析装置、情報解析方法、及び情報解析プログラム | |
JP6155409B1 (ja) | 決算分析システムおよび決算分析プログラム | |
KR102321707B1 (ko) | 비정형 문서의 활용을 위한 데이터 가공 방법 | |
EP1286284A1 (en) | Spreadsheet data processing system | |
US11475686B2 (en) | Extracting data from tables detected in electronic documents | |
CN107145947A (zh) | 一种信息处理方法、装置及电子设备 | |
JP2011198285A (ja) | 文書処理システム、及びプログラム | |
JP6889038B2 (ja) | 決算分析システムおよび決算分析プログラム | |
JP2007199800A (ja) | デグレート防止支援プログラムおよびデグレート防止支援方法 | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |