TW202127301A

TW202127301A - 針對pdf文件的表格資料解析方式

Info

Publication number: TW202127301A
Application number: TW109143025A
Authority: TW
Inventors: 具茶解; 金東勳
Original assignee: 韓商迪艾股份有限公司
Priority date: 2020-01-14
Filing date: 2020-12-07
Publication date: 2021-07-16
Also published as: WO2021145541A1; KR102171325B1

Abstract

本發明係關於針對PDF文件的表格資料的解析方式。本發明的特徵在於包括以下步驟：從PDF文件提取資料並且對文件結構進行分析以生成關於PDF文件的解析樹；使用經生成的解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置；基於分配給待搜尋的表格的款目的坐標（x, y），設定搜尋到的頁面內的解析範圍；以及針對設定的解析範圍來對表格資料進行解析的步驟。根據本發明，具有能夠從PDF文件準確地解析出目標表格資料的優點。

Description

針對PDF文件的表格資料解析方式

本發明涉及針對PDF文件的表格資料的解析方式。

證券公司等會定期發佈總結公司的業務狀況和財務狀況等的報告書，而此時，其會以表格形態製作以便能夠一目了然地查看關於各公司的損益計算、財務狀況、現金流、關鍵指標等的項目的資料。

另外，當執行PDF文件時，在畫面中輸出的表格在實際文件結構中不被存儲為表格的情況諸多，並且是PDF文件的表格實現為回車（CR）、換行（LF）或新行（/n）等的指令的情況。

作為這種實例，圖1是作為本發明的先前技術示出PDF文件的表格形態的視圖。參照圖1，PDF文件的頁面10中包含有關於財務報表的項目1、項目2、項目3、項目4的總共4種項目的表格11、12、13、14。

然而，圖1中所示的表格11、12、13、14的實際文件結構構成為個別字符串，並且在這種文件結構中關於分別彼此不同的項目的表格11、12、13、14不被彼此區分開。

由於如上所述地在實際文件結構中PDF文件的表格不被彼此區分開並且由字符串和指令構成，因此難以僅對關於包含在PDF文件中的特定項目的表格資料進行準確的解析。

圖2是作為本發明的先前技術用於說明關於圖1的表格的表格資料解析的視圖。

如圖2中所示，在針對PDF文件的頁面10來執行表格資料解析的情況下，存在著關於項目1的表格資料11和關於項目2的表格資料12均被識別為相同行內的單純字符串並且在經解析的表格資料20中引起溢出等的錯誤的問題。

另外，在定期發行證券公司的報告書的出版物中，關於特定項目的表格或資料的位置被固定，並且頻繁地出現僅數值被變更的情況。

在這種背景中，圖3是作為本發明的先前技術用於說明使用固定坐標的表格資料解析的視圖。

在圖3中，在調出PDF文件的頁面10之後，基於固定坐標30來對表格資料進行解析。為了使圖3的使用固定坐標的表格資料解析方式有效，PDF文件的頁面10的表格僅出現與其數值相當的波動，並且應有效地保持使該表格資料一直位於固定坐標30中的條件。

然而，每個PDF文件的頁面10內的表格的位置可不同，並且例如，如圖3中所示，在固定坐標30的位置在表格資料的營業額40中不完全匹配的情況下，存在著從該表格解析的表格資料20因無法讀取關於營業額40的表格資料而導致錯誤41的問題。

要解決的技術問題

本發明是為了解決前述的問題，其目的在於提供能夠從PDF文件準確地解析出目標表格資料的表格資料解析方式。

本發明的目的並不限於上文中提及的目的，並且本發明的未提及的其它目的和優點可透過下面的描述而理解，並且可透過本發明的實施例而更加明確地理解。此外，可容易理解，本發明的目的和優點可透過申請專利範圍中提及的手段及其組合來實現。

解決問題的手段

用於實現這種目的的本發明的特徵在於包括以下步驟：從PDF文件提取資料並且對文件結構進行分析以生成關於所述PDF文件的解析樹；使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置；基於分配給待搜尋的所述表格的款目的坐標（x, y），設定搜尋到的所述頁面內的解析範圍；以及針對設定的所述解析範圍來對表格資料進行解析。

發明效果

根據如上所述的本發明，具有能夠從PDF文件準確地解析出目標表格資料的優點。

前述的目的、特徵和優點將參照附圖進行詳細描述，並由此，本發明所屬技術領域中具有通常知識者能夠容易地實施本發明的技術思想。在對本發明進行描述時，對於本發明相關的習知技術的具體描述在判斷為不必要地混淆本發明的要旨的情況下，將省略其詳細描述。在下文中，將參照附圖對根據本發明的較佳實施例進行詳細描述。在附圖中相同的元件符號用於指示相同或相似的構成元件。

圖4是根據本發明的一實施例的表格資料解析裝置的配置圖。參照圖4，根據本發明的一實施例的表格資料解析裝置400可包括解析樹生成部410、頁面搜尋部420、解析範圍設定部430和資料解析部440。

本發明的解析樹生成部410執行按照各個頁面從PDF文件提取文字和非文字的功能。此處，非文字可包括圖像、圖表。解析樹生成部410可區分包含在各個頁面中的區域的文字和圖像等的非文字。

本發明的解析樹生成部410對文件結構進行分析並且生成解析樹，並且在本發明中，“解析樹”意味著包含在各個頁面中的區域的文字和非文字被結構化為樹形態。

本發明的頁面搜尋部420執行使用由解析樹生成部410生成的解析樹來搜尋包含有待搜尋的表格的款目的頁面的功能。

例如，在搜尋包含在PDF文件中的頁面中的“損益計算書”項目的表格的情況下，頁面搜尋部420可按照各個頁面來搜尋解析樹以搜尋表格的款目為“損益計算書”的表格所在的頁面。

此外，頁面搜尋部420可使用除了表格的款目以外的與待搜尋的表格相關的資訊來搜尋頁面。例如，可在項目的名稱為“○○投資”並且項目代碼為“000001”的頁面中搜尋表格的款目為“損益計算書”的表格所在的頁面。

此外，PDF文件內的所有對象具有頁面內的固有坐標，並因此，存在於頁面內的表格的款目、項目的名稱、項目代碼均具有分配的坐標。本發明的頁面搜尋部420可搜尋分配給表格款目、項目的名稱和項目代碼的坐標。

本發明的解析範圍設定部430執行設定搜尋到的頁面內的解析範圍的功能。更詳細地，本發明的解析範圍設定部430基於待搜尋的表格的款目的坐標（x, y）來設定搜尋到的頁面內的解析範圍。

在本發明的一實施例中，解析範圍設定部430可將搜尋到的頁面劃分為n個（此處，n為2以上）區域，並且將經劃分的n個區域中的表格的款目的坐標（x, y）所在的區域設定為搜尋到的頁面內的解析範圍。

例如，本發明的解析範圍設定部430可將搜尋到的頁面劃分為2個區域，並且根據表格的款目的坐標（x, y）處於2個區域中的哪個區域而將其中一個區域設定為解析範圍。

在本發明的一實施例中，解析範圍設定部430可基於經劃分的n個區域中的表格的款目的坐標（x, y）所在的區域的坐標（x1, x2）來設定搜尋到的頁面內的解析範圍中的水平軸範圍，並且基於表格的款目的坐標（x, y）中的y坐標來將垂直軸範圍設定為小於y坐標。

本發明的資料解析部440執行針對由解析範圍設定部430設定的頁面內的解析範圍而對表格資料進行解析的功能。

在本發明的一實施例中，資料解析部440可以行單位讀取表格資料並且對表格資料進行解析。

圖5是用於說明根據本發明的一實施例的表格資料解析過程的視圖。參照圖5，本發明的解析樹生成部410從PDF文件提取文字和非文字並進行文件結構化來生成解析樹。

本發明的頁面搜尋部420使用解析樹來搜尋包含有待搜尋的表格的款目510的頁面500。此時，頁面搜尋部420在搜尋到的頁面500內獲得分配給表格的款目510的坐標（x, y）。

本發明的解析範圍設定部430基於待搜尋的表格的款目510的坐標來設定解析範圍520。更詳細地，解析範圍設定部430將表格的款目510所在的頁面500劃分為2個區域，並且將其中的表格的款目510的坐標（x, y）所在的區域設定為解析範圍520。

此處，解析範圍基於經劃分的2個區域中的表格的款目510所在的區域的坐標來設定水平軸範圍521，並且將垂直軸範圍522設定為小於表格的款目510的y坐標。

此外，本發明的資料解析部440針對根據前述的過程設定的解析範圍520以行單位對表格資料進行讀取並解析。

其結果，從PDF文件的頁面500解析表格資料530。

圖6是根據本發明的一實施例的表格資料解析方式的流程圖。圖6的表格資料解析方式可由前述的表格資料解析裝置400和包括在其中的配置來執行。

參照圖6，本發明的表格資料解析方式首先由解析樹生成部從PDF文件提取資料並且對文件結構進行分析以生成解析樹（S600）。在步驟（S600）中生成的解析樹可包括文字和圖像等的非文字。執行步驟（S600）的結果，針對PDF文件按照各個頁面生成文字和非文字結構化為樹形態的解析樹。

隨後，由頁面搜尋部使用解析樹來搜尋待搜尋的表格所在的頁面（S620）。更詳細地，步驟（S620）可使用解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置。此外，步驟（S620）可包括以下步驟：使用與表格相關的項目的名稱、項目代碼等來搜尋頁面。

此外，如上所述地，PDF文件的頁面內的所有對象分配有固有坐標，並且步驟（S620）可包括以下步驟：搜尋並獲得具有表格的款目的坐標。

隨後，由解析範圍設定部基於分配給表格的款目的坐標（x, y）來設定搜尋到的頁面內的解析範圍（S630）。此外，雖然未在圖6中示出，但是步驟（S630）可包括以下步驟：將搜尋到的頁面劃分為n個（此處，n為2以上）區域；以及將經劃分的n個區域中的坐標（x, y）所在的區域設定為搜尋到的頁面內的解析範圍。

在本發明的一實施例中，步驟（S630）的解析範圍可基於經劃分的n個區域中的表格的款目的坐標（x, y）所在的區域的坐標（x1, x2）來設定水平軸範圍，並且基於表格的款目的坐標（x, y）中的y坐標將垂直軸範圍設定為小於y坐標。

最終，由資料解析部440針對在步驟（S630）中設定的解析範圍以行單位對表格資料進行讀取並解析（S640）。

下面＜表1＞是示出針對以PDF文件發佈的企業分析報告書對特定種類和種類代碼中的“損益計算書”項目的表格資料進行解析的結果的表格。

表1：

年度	總和	成功	無	失敗	錯誤	成功率（%）
2019	26	23	3	0	0	100
2018	27	23	2	2	0	92
2017	49	43	2	3	1	91.5
2015	36	35	1	0	0	100
2014	26	26	0	0	0	100

在上列＜表1＞中，“總和”是執行表格資料解析的次數，“成功”是其中表格資料解析成功的次數。“無”是企業分析報告書中不存在有表格的情況。“失敗”是根據企業分析報告書，表格的款目不為“損益計算書”的情況。“錯誤”是頁面中種類名或種類代碼被標記錯誤的情況。

上列＜表1＞是排除執行表格資料解析的結果中不存在有表格的情況後算出的，並且排除PDF文件自身中發生的“失敗”、“錯誤”後，分析為具有100%的成功率。

本發明所屬技術領域中具有通常知識者而言，前述的本發明在不背離本發明的技術思想的範圍內能夠進行各種替換、變形和變更，因此不由前述的實施例和附圖限定。

10:頁面 11:表格 12:表格 13:表格 14:表格 20:表格資料 30:固定坐標 40:營業額 41:錯誤 400:表格資料解析裝置 410:解析樹生成部 420:頁面搜尋部 430:解析範圍設定部 440:資料解析部 500:頁面 510:款目 520:解析範圍 521:水平軸範圍 522:垂直軸範圍 530:表格資料 S600:步驟 S620:步驟 S630:步驟 S640:步驟

［圖1］是作為本發明的先前技術示出PDF文件的表格形態的視圖。［圖2］是作為本發明的先前技術用於說明關於圖1的表格的表格資料解析的視圖。［圖3］是作為本發明的先前技術用於說明使用固定坐標的表格資料解析的視圖。［圖4］是根據本發明的一實施例的表格資料解析裝置的配置圖。［圖5］是用於說明根據本發明的一實施例的表格資料解析過程的視圖。［圖6］是根據本發明的一實施例的表格資料解析方式的流程圖。

500:頁面

510:款目

520:解析範圍

521:水平軸範圍

522:垂直軸範圍

530:表格資料

Claims

一種針對PDF文件的表格資料解析方式，包括以下步驟：從PDF文件提取資料並且對文件結構進行分析以生成關於所述PDF文件的解析樹；使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置；基於分配給待搜尋的所述表格的款目的坐標（x, y），設定搜尋到的所述頁面內的解析範圍；以及針對設定的所述解析範圍來對表格資料進行解析。
如請求項1所述的針對PDF文件的表格資料解析方式，其中，關於所述PDF文件的解析樹包括文字和非文字。
如請求項1所述的針對PDF文件的表格資料解析方式，其中，使用經生成的所述解析樹來搜尋包含有待搜尋的表格的款目的頁面的位置的步驟包括以下步驟：搜尋包含有與待搜尋的所述表格相關的項目的名稱、項目代碼的頁面的位置。
如請求項1所述的針對PDF文件的表格資料解析方式，其中，基於分配給待搜尋的所述表格的款目的坐標（x, y），設定搜尋到的所述頁面內的解析範圍的步驟包括以下步驟：將搜尋到的所述頁面劃分為n個區域，其中，n為2以上；以及將劃分的所述n個區域中所述坐標（x, y）所在的區域設定為搜尋到的所述頁面內的解析範圍。
如請求項4所述的針對PDF文件的表格資料解析方式，其中，在搜尋到的所述頁面內的解析範圍中，水平軸範圍是基於劃分的所述n個區域中所述坐標（x, y）所在的區域的坐標（x1, x2）來設定的，並且垂直軸範圍是基於分配給所述款目的坐標（x, y）中的y坐標來設定的。
如請求項1所述的針對PDF文件的表格資料解析方式，其中，針對設定的所述解析範圍來對表格資料進行解析的步驟包括以下步驟：以行單位來讀取所述表格資料並對所述表格資料進行解析。