TWI645304B - 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統 - Google Patents

用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統 Download PDF

Info

Publication number
TWI645304B
TWI645304B TW107119249A TW107119249A TWI645304B TW I645304 B TWI645304 B TW I645304B TW 107119249 A TW107119249 A TW 107119249A TW 107119249 A TW107119249 A TW 107119249A TW I645304 B TWI645304 B TW I645304B
Authority
TW
Taiwan
Prior art keywords
text content
file
type
fields
chapter
Prior art date
Application number
TW107119249A
Other languages
English (en)
Other versions
TW201833797A (zh
Inventor
呂建林
Original Assignee
新愛世科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新愛世科技股份有限公司 filed Critical 新愛世科技股份有限公司
Priority to TW107119249A priority Critical patent/TWI645304B/zh
Publication of TW201833797A publication Critical patent/TW201833797A/zh
Application granted granted Critical
Publication of TWI645304B publication Critical patent/TWI645304B/zh

Links

Abstract

一種適用於對應使用者的信用記錄之可攜式文件格式檔 案的資料擷取方法。所述方法包括對所述可攜式文件格式檔案進行向量轉換,以使所述可攜式文件格式檔案轉換成向量檔案;根據所述可攜式文件格式檔案的多個層來將所述向量檔案的所述多筆文字內容劃分為第一類型文字內容與第二類型文字內容;對所述向量檔案進行清洗操作,以使所述向量檔案轉換成文字檔案;以及從所述文字檔案的多個章節中的目標章節的多個欄位擷取多筆資料。

Description

用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統
本發明是有關於一種資料擷取方法,且特別是有關於用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法。
隨著科技的進步以及個人金融事業的蓬勃發展,使用者會開始想要藉由網路(如,提供信用評比的網站或是機構)來有效率地查詢個人的信用評比以及對應的資訊。例如,有些機構或是網站會請使用者申請紙本報告,並且利用郵寄紙本報告的方式且以人工方式來進行信用評比。在相關程序逐漸電子化後,目前使用者可先向聯徵中心來下載個人信用報告,並且藉由所下載的個人信用報告的內容來填入對應的資訊至負責信用評比的網站。 或是,使用者直接上傳所下載的個人信用報告至負責評比的網站,並且由該網站依據所上傳的個人信用報告來輸入與信用評比相關的資訊。如此一來,該網站可根據與信用評比相關的資訊來計算該名使用者的信用評比。
然而,上述依據個人信用報告的內容來填入對應的與信用評比相關的資訊的方式較為耗時並且存在輸入錯誤的可能。因此,要如何有效率地從個人信用報告來擷取相關的資訊,成為本領域人員所致力發展的目標。
本發明提供一種資料擷取方法,可有效率地從對應使用者的信用記錄之可攜式文件格式檔案擷取資料。
本發明的一實施例提供一種資料擷取方法,適用於對應使用者的信用記錄之可攜式文件格式檔案。所述方法包括對所述可攜式文件格式檔案進行向量轉換,以使所述可攜式文件格式檔案轉換成向量檔案,其中所述可攜式文件格式檔案具有分別被配置於多個層的多筆文字內容,其中所述向量檔案的多筆文字內容為所述可攜式文件格式檔案的配置於所述多個層的所述多筆文字內容,並且所述向量檔案的所述多筆文字內容皆可被圈選;根據所述可攜式文件格式檔案的所述多個層來將所述向量檔案的所述多筆文字內容劃分為第一類型文字內容與第二類型文字內容;對所述向量檔案進行清洗操作,以使所述向量檔案轉換成文字檔 案;以及從所述文字檔案的屬於該第一類型文字內容的多個章節中的目標章節的多個欄位擷取多筆資料。
基於上述,本發明的一實施例所提供的資料擷取方法,可將對應使用者的信用記錄之可攜式文件格式檔案轉換成向量檔案,再對所述向量檔案進行清洗操作,以獲得僅含有特定內容的文字檔案,進而有效率地從目標章節來擷取多個欄位所記錄的資料。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100‧‧‧個人信用分析系統
110‧‧‧向量轉換模組
120‧‧‧清洗模組
130‧‧‧資料擷取模組
140‧‧‧使用者檔案資料庫
150‧‧‧信用評比模組
200‧‧‧個人信用報告PDF檔案
S201、S203、S205、S207‧‧‧資料擷取方法的流程步驟
S2031、S2033‧‧‧步驟S203的流程步驟
S2051、S2053、S2055、S2057‧‧‧步驟S205的流程步驟
S2071、S2073、S2075‧‧‧步驟S207的流程步驟
S20731、S20733、S20735、S20737、S20739‧‧‧步驟S2073的流程步驟
701‧‧‧表頭層的文字內容
702、703‧‧‧浮水印層的文字內容
801‧‧‧目標章節
810‧‧‧目標章節的名稱、目標章節的第一行文字內容
820‧‧‧目標章節的第二行文字內容
821‧‧‧目標章節的第三行文字內容
822‧‧‧目標章節的第四行文字內容
圖1是根據本發明的一實施例所繪示的個人信用分析系統的方塊圖。
圖2是根據本發明的一實施例所繪示的資料擷取方法的流程圖。
圖3是根據本發明的一實施例所繪示的圖2的步驟S203的流程圖。
圖4是根據本發明的一實施例所繪示的圖2的步驟S205的流程圖。
圖5是根據本發明的一實施例所繪示的圖2的步驟S207的流程圖。
圖6是根據本發明的一實施例所繪示的圖5的步驟S2073的流程圖。
圖7是根據本發明的一實施例所繪示的部份的個人信用報告。
圖8是根據本發明的一實施例所繪示的將從個人信用報告轉換而成的向量檔案清洗後所獲得的文字檔案的一個章節的內容。
為了方便說明,假設使用者上傳與該名使用者的信用記錄有關的檔案至一個可提供個人信用評比的網站。所述檔案例如是使用者從財團法人金融聯合徵信中心(或是其他可提供使用者的信用記錄的機構)所下載的個人信用報告檔案,其中所述檔案為可攜式文件格式(Portable Document Format,PDF)。所述網站利用架設於所述網站的伺服器的個人信用分析系統來接收所述檔案,並且可從所接收的檔案來擷取可用以判斷該名使用者的信用評比的相關資料。
圖1是根據本發明的一實施例所繪示的個人信用分析系統的方塊圖。
請參照圖1,在本實施例中,個人信用分析系統100包括向量轉換模組110、清洗模組120、資料擷取模組130、使用者檔案資料庫140以及信用評比模組150。此外,個人信用分析系統的輸入模組(未繪示)會從使用者來接收個人信用報告可攜式文件 格式檔案200(以下亦稱,個人信用報告PDF檔案200)。
在本實施例中,所述個人信用分析系統為經由向量轉換模組110、清洗模組120、資料擷取模組130、使用者檔案資料庫140以及信用評比模組150等多個程式碼模組所集合而成的一應用程式,並且所述提供個人信用評比的網站的伺服器的處理單元可存取與執行所述個人信用分析系統100。然而,在其他實施例中,所述個人信用分析系統100亦可被實作為可安裝於行動裝置的應用程式(APP)以在行動裝置上執行。或是,所述個人信用分析系統100的多個程式碼模組可利用硬體方式來實作。例如,向量轉換模組110可被實作為具有向量轉換模組110的功能的向量轉換電路單元。以此類推,所有個人信用分析系統的清洗模組120、資料擷取模組130以及信用評比模組150可分別被實作為清洗電路單元、資料擷取電路單元以及信用評比電路單元,並且使用者檔案資料庫140可被儲存於耦接於資料擷取電路單元與信用評比電路單元的儲存電路單元中。
以下會同時配合圖1與圖2來說明各個人信用分析系統各模組的功能以及本實施例所提供的資料擷取方法。
圖2是根據本發明的一實施例所繪示的資料擷取方法的流程圖。請同時參照圖1與圖2,在步驟S201中,向量轉換模組110對可攜式文件格式檔案進行向量轉換,以使所述可攜式文件格式檔案轉換成向量檔案。所述向量檔案例如是可縮放向量圖形(Scalable Vector Graphics,SVG)檔案。應注意的是,本發明並不 限定於用以進行向量轉換的方法/程式。
更具體來說,當向量轉換模組110接收到使用者所上傳的個人信用報告PDF檔案200,向量轉換模組110會將所述個人信用報告PDF檔案200轉換為向量檔案。一般來說,個人信用報告PDF檔案200會具有被配置於多個層(Layer)的內容(如,圖像內容或/且文字內容)。所述多個層例如是主體層、浮水印層、表頭層、表尾層。所述主體層具有多個章節(Sections),並且所述多個章節分別用以記錄該名使用者的個人信用報告的多種資訊,並且具有多行文字內容。所述浮水印層記錄特定的圖案或是內容,例如,用以防偽的圖案(如,圖7所繪示的圖案703)、用以表示使用者身份的代號(如,圖7所繪示的代號702)、或是文件編號。此外,所述浮水印層的內容大多會與主體層的文字內容重疊。所述表頭層(如,圖7所繪示的表頭層701)以及表尾層用以記錄所述個人信用報告PDF檔案200中不影響判斷該名使用者的信用評比的其他輔助資訊,例如,頁碼、檔案建立日期與時間、提供信用記錄之機構名稱等等。
轉換後的向量檔案的多行文字內容為所述個人信用報告PDF檔案200的配置於所述多個層的所述多行文字內容。所述向量檔案的所述多行文字內容皆可被圈選。
向量模組110會將轉換後的向量檔案傳送至清洗模組120。
在步驟S203中,清洗模組120根據所述可攜式文件格式 檔案的多個層來將所述向量檔案的多行文字內容劃分為第一類型文字內容與第二類型文字內容。以下會配合圖3來說明詳細的劃分方法。
圖3是根據本發明的一實施例所繪示的圖2的步驟S203的流程圖。請參照圖3,在步驟S2031中,清洗模組120將所述向量檔案的所述多行文字內容中對應浮水印層的文字內容、對應表頭層的文字內容以及對應表尾層的文字內容劃分為所述第二類型文字內容。接著,在步驟S2033中,清洗模組120將所述向量檔案的所述多行文字內容中非所述第二類型文字內容的其他文字內容劃分為所述第一類型文字內容。
具體來說,清洗模組120會先將向量檔案的所有文字內容中不會用以判斷使用者的信用評比的文字內容(如,在浮水層、表頭層以及表尾層的文字或圖像內容)劃分為第二類型文字內容,並且將用以判斷使用者的信用評比的文字內容(如,主體層的文字內容)劃分為第一類型文字內容。接著,清洗模組120會基於第一類型文字內容來進行進一步的資訊過濾,以擷取可用以判斷使用者信用評比的資料。
例如,請再回到圖2,在步驟S205中,清洗模組120會對所述向量檔案進行清洗操作,以使所述向量檔案轉換成文字檔案。以下會藉由圖4來詳細說明清洗操作的其他細節。
圖4是根據本發明的一實施例所繪示的圖2的步驟S205的流程圖。請參照圖4,在步驟S2051中,清洗模組120會將所述 向量檔案的部份或全部的所述多行文字內容儲存至所述文字檔案的同一層。在步驟S2053中,清洗模組120會從所述文字檔案的屬於所述第一類型文字內容的多行文字內容中辨識多個章節。更詳細來說,清洗模組120會僅針對第一類型文字內容來進行後續的清洗操作。例如,假設第一類型文字內容為所述個人信用報告PDF檔案200的主體層的所有文字內容。清洗模組120會辨識第一類型文字內容(即,主體層的所有文字內容)所具有的多個章節(Section),並且根據所述多個章節的分隔橫線(如,雙實橫線、虛橫線、單實橫線)來區分每個章節,並且辨識出每個章節的名稱。例如,清洗模組120可利用每個章節的第一行文字內容中的特定字元“【”以及“】”來辨識出每個章節的名稱。舉例來說,從記錄於個人信用報告PDF檔案200的主體層的一個章節的其中一行的文字內容“【信用卡資訊】”可辨識出所述章節的名稱為“信用卡資訊”。
接著,在步驟S2055中,清洗模組120會根據所述該第一類型文字內容的所述多個章節的類型將所述多個章節劃分為不具有多個欄位的第一型章節與具有多個欄位的第二型章節。所述第一型章節和所述第二型章節被用以判斷使用者的信用評比。具體來說,清洗模組120會儲存預定規則表,其中所述預定規則會記錄所有可能出現在所述個人信用報告PDF檔案200中的章節名稱、對應每個章節名稱的欄位總數目,以及對應每個章節名稱的每個欄位(Fields)的字元型態。應注意的是,所述預定規則表是 根據個人信用報告PDF檔案200的格式來制定。
在另一實施例中,清洗模組120可直接根據記錄章節名稱的文字內容的下一行的文字內容來辨識對應每個章節名稱的多個欄位的欄位名稱、欄位總數目,以及字元型態。
接著,在步驟S2057中,清洗模組120會根據所述第一型章節與所述第二型章節的多個章節的名稱,對應地標記所述第一型章節與所述第二型章節的所述多個章節的部份的多行文字內容,其中所述第一型章節與所述第二型章節的所述多個章節中不被標記的其他部份的多行文字內容為分隔橫線。具體來說,步驟S2057可視為清洗模組120僅標記被用以判斷使用者的信用評比的屬於第一類型文字內容的第一型章節與第二型章節至文字檔案,並且不標記其中的分隔橫線(或是不標記其他不被用以判斷使用者的信用評比的文字內容)。所述被標記的所有文字內容都會在爾後被選擇,進而擷取出對應的資料。換句話說,可視為,清洗模組120所執行的清洗操作可(經由不標記的方式)讓浮水層、表頭層、表尾層的文字內容與其他不被用以判斷使用者的信用評比的文字內容(如,分隔橫線)都不會被擷取。
在本實施例中,所述文字檔案的所述多行文字內容可依照所述個人信用報告PDF檔案200的所述多個層來依序排列。舉例來說,所述文字檔案的所述多行文字內容會依序記錄所述個人信用報告PDF檔案200的表頭層、表尾層、浮水層、主體層的多行文字內容於向量檔案中,並且所述文字檔案的多行文字內容皆 被配置於同一層(不會互相重疊)。應注意的是,所述文字檔案中對應所述多個層的多行文字內容的排列順序並不限於本實施例。例如,在另一實施例中,所述文字檔案的所述多行文字內容亦可依序記錄所述個人信用報告PDF檔案200的浮水層、表頭層、表尾層、主體層的多行文字內容於文字檔案中。
請再回到圖2,在步驟S207中,資料擷取模組130會從所述文字檔案的屬於所述第一類型文字內容的多個章節中的目標章節的多個欄位擷取所述多個欄位所記錄的多筆資料。以下會配合圖5來詳細說明步驟S207的細節。
圖5是根據本發明的一實施例所繪示的圖2的步驟S207的流程圖。請參照圖5,在步驟S2071中,資料擷取模組130會從所述文字檔案中選擇所述目標章節的被標記的多行文字內容。換句話說,資料擷取模組130僅會從之前被標記的文字內容來進行文字內容選擇。如此一來,可避免擷取到無用的資訊。所述目標章節用以表示目前欲被擷取資料的章節。選擇目標章節的方式可根據所述多個章節的排列順序來依序選取,或是根據對應信用評比模組150或是使用者檔案資料庫140的特定規則來選擇,本發明並不限於此。
在選擇了欲擷取資料的目標章節的被標記的多行文字內容後,資料擷取模組130會根據目標章節屬於第一型章節或是第二型章節來進行後續的擷取資料的操作。換句話說,資料擷取模組130會根據目標章節是否具有多個欄位而採用不同的擷取資料 的操作。
例如,在步驟S2073中,若所述目標章節屬於第二型章節,資料擷取模組130會根據所述目標章節的被選擇的所述多行文字內容來分別將被選擇的所述多行的文字內容的每一行文字內容區分為多個欄位,以從所述多個欄位分別擷取所述多個欄位所記錄的所述多筆資料。屬於同一欄位的多個行中的第一行所記錄的文字內容為該同一欄位的欄位名稱,其中屬於同一欄位的該些行中的其他行所記錄的文字內容為對應該同一欄位的該欄位名稱的資料。
又例如,在步驟S2075中,若所述目標章節屬於第一型章節,資料擷取模組130會從被選擇的多行文字內容中辨識所述目標章節的名稱,將為所述目標章節的所述名稱的文字內容辨識為章節名稱欄位,將被選擇的所述多行文字內容的其他文字內容辨識為對應所述章節名稱欄位的章節內容資料,並且擷取所述章節內容資料。舉例來說,圖7中的“【銀行借款資訊】查資料庫中無 台端105年04月底在國內各金融機構借款餘額”為目標章節的文字內容。資料擷取模組130會判定此目標章節屬於第一型章節,資料擷取模組130不會去對此目標章節的文字內容區分多個欄位。資料擷取模組130會辨識章節名稱欄位為“【銀行借款資訊】”,並且擷取對應章節名稱欄位的章節內容資料“查資料庫中無 台端105年04月底在國內各金融機構借款餘額”。
以下會配合圖6、圖7、圖8來詳細說明步驟S2073的細 節。
圖6是根據本發明的一實施例所繪示的圖5的步驟S2073的流程圖。圖7是根據本發明的一實施例所繪示的部份的個人信用報告。圖8是根據本發明的一實施例所繪示的將從個人信用報告轉換而成的向量檔案清洗後所獲得的文字檔案的一個章節的內容。
請同時參照圖6、圖7、圖8。在本實施例中,假設轉換後的文字檔案的多個章節中的目標章節801為章節“信用卡資訊”。從圖8可看到,目標章節801具有四行文字內容,分別為第一行810的“【信用卡資訊】”、第二行820的“發卡機構 卡名 額度 發卡日期 停用日期 使用狀態”、第三行821的“元大銀行VISA普卡64 105/02/15 112/02/15使用中”以及第四行822的“元大銀行VISA白金卡100 106/01/03 115/01/03使用中”。所述每一行的內容之間都間隔一個空格。
在步驟S20731中,資料擷取模組130會根據被選擇的所述多行文字內容的第一行文字內容來辨識該目標章節的該名稱。如上所述,資料擷取模組130可利用特定字元(如,“【”與“】”)來辨識出位於目標章節的所述多行文字內容的第一行文字內容中的章節名稱。
在步驟S20733中,資料擷取模組130會根據所述目標章節的所述名稱來從預定規則表查詢所述目標章節的欄位總數目,或根據被選擇的所述多行文字內容的第二行文字內容來辨識所述 欄位總數目,其中根據被選擇的所述多行文字內容的第二行文字內容用以表示所述目標章節的多個欄位名稱,其中每一所述多個欄位名稱之間具有分隔字元。具體來說,資料擷取模組130,如上所述,可辨識出目標章節801的名稱為“信用卡資訊”,並且根據“信用卡資訊”來從預定規則表中查詢到,對應“信用卡資訊”的章節的欄位總數目為“6”。即,資料擷取模組130可辨識出目標章節除了第一行之外的其他行的文字內容可被區分為6個欄位(即,發卡機構、卡名、額度、發卡日期、停用日期、使用狀態共6個欄位)。然而,在另一實施例中,資料擷取模組130亦可不去查詢預定規則表,但資料擷取模組130直接辨識在章節名稱下一行的文字內容(如,第二行文字內容)為多個欄位的欄位名稱,並且所述多個欄位名稱之間都具有一個(如,空格)分隔字元。舉例來說,目標章節的第二行文字內容為“發卡機構、卡名、額度、發卡日期、停用日期、使用狀態”,其中“發卡機構”、“卡名”、“額度”、“發卡日期”、“停用日期”、“使用狀態”為欄位名稱,並且間隔一個空格。資料擷取模組130根據這些欄位名稱的數量來判定目標章節具有6個欄位,即,資料擷取模組130會判定目標章節的欄位總數目為“6”。在一實施例中,資料擷取模組130可將第二行文字內容的分隔字元的總數量加上1來作為目標章節的欄位總數目。
在步驟S20735中,資料擷取模組130會根據每一所述多個欄位名稱來辨識對應每一所述多個欄位的字元型態。舉例來說,資料擷取模組130根據預定規則表辨識到,對應為“發卡機構” 的欄位名稱,此欄位所記錄的資料的字元型態為中文字元;對應為“卡名”的欄位名稱,此欄位所記錄的資料的字元型態為中文、英文字元或是空格;對應為“額度”的欄位名稱,此欄位所記錄的資料的字元型態為數字字元;對應為“發卡日期”的欄位名稱,此欄位所記錄的資料的字元型態為數字字元或斜線字元;對應為“停用日期”的欄位名稱,此欄位所記錄的資料的字元型態為數字字元或斜線字元;對應為“使用狀態”的欄位名稱,此欄位所記錄的資料的字元型態為中文字元。
值得一提的是,在本實施例中,可允許對應部份欄位的資料為空白資料,即,部份欄位並不會記錄任何資料。所述空白資料亦會被記錄至使用者檔案資料庫。
接著,在步驟S20737中,資料擷取模組130根據分隔字元將被選擇的所述多行文字內容的第三行文字內容至最後一行文字內容中的每一行文字內容分別區分為多個欄位,以使所述每一行文字內容的被區分的所述多個欄位的數目等於所述目標章節的所述欄位總數目,並且使所述每一行文字內容的被區分的所述多個欄位的資料符合所述資料所屬的欄位的字元型態。
具體來說,在本實施例中,資料擷取模組130亦會利用分隔字元(如,空格)來區分目標章節801的其他行(如第三行至最後一行)的多個欄位,並且將區分後的欄位以所辨識到的欄位總數目與對應每一個欄位的字元型態來做檢查,以確保所區分後的欄位是否符合目標章節的欄位總數目或對應目標章節的每個 欄位的字元型態。
舉例來說,請參照圖8,資料擷取模組130會根據預定規則表,辨識出目標章節801具有多個欄位(即,第二型章節)。接著,資料擷取模組130會對目標章節的第1行之外的其他行(如,第二行820、第三行821、第四行822)的文字內容來進行區分欄位的操作,並且資料擷取模組130可辨識第二行820為多個欄位名稱,第三行821與第四行822為對應多個欄位的資料。
例如,經由為空格的分隔字元,資料擷取模組130會對於第二行820的文字內容“發卡機構 卡名 額度 發卡日期 停用日期 使用狀態”區分出6個欄位。資料擷取模組130會比對目標章節的欄位總數目與區分後的多個欄位的數目是否一致。在此例子中,由於目標章節的欄位總數目(即,6)與區分後的欄位的數目(即,6)一致,資料擷取模組130會判定對於第二行820的文字內容的區分欄位的操作成功。此外,資料擷取模組130會判定目標章節的6個欄位的欄位名稱分別為“發卡機構”、“卡名”、“額度”、“發卡日期”、“停用日期”、與“使用狀態”,並且,如上所述,經由預定規則表,資料擷取模組130可獲得分別對應“發卡機構”、“卡名”、“額度”、“發卡日期”、“停用日期”、與“使用狀態”欄位的字元型態。
接著,經由為空格的分隔字元,資料擷取模組130會對於第三行820的文字內容“元大銀行VISA普卡64 105/02/15 112/02/15使用中”區分出7個欄位,所述7個欄位的文字內容分 別為“元大銀行”、“VISA”、“普卡”、“64”、“105/02/15”、“112/02/15”、與“使用中”。在此例子中,由於目標章節的欄位總數目(即,6)與區分後的欄位的數目(即,7)不一致,資料擷取模組130會判定對於第二行820的文字內容的區分欄位的操作失敗,並且會去根據每一欄位所對應的字元型態來判斷如何將7個欄位劃分成6個欄位。
例如,在第二行820中的第3個欄位是“額度”,並且對應的字元型態是數字字元。但是,在第三行821中所區分的第3個欄位是為中文字元“普卡”,其不符合其所屬欄位(第3個欄位,“額度”)的字元型態(數字字元),但是符合第二行820的第2欄的字元型態(即,中文字元)。並且,在第三行821中所區分的第4個欄位是為數字字元“64”,符合數字字元的字元型態。基於上述比對,資料擷取模組130會嘗試將第三行821的第3欄的資料“普卡”併入至第2欄的資料“VISA”,並且繼續經由預定規則表來比對後續欄位所記錄的資料的字元型態是否符合應對應的字元型態。
在此例子中,由於在併入“普卡”至“VISA”以成為同一個欄位後(即,第2欄的資料為“VISA普卡”),第三行821的欄位分別為“元大銀行”、“VISA普卡”、“64”、“105/02/15”、“112/02/15”、與“使用中”共6個欄位,其與欄位總數目一致,並且第三行821的每個欄位所記錄的資料的字元型態也符合了其所屬的欄位所對應的字元型態(例如,第3欄的資料“64”符合其所屬欄位“額度”的字元型態-數字字元)。因此,資料擷取模組130 會判定對於第三行821的區分欄位的操作是成功的。接著,資料擷取模組130會繼續對第四行822的文字內容來區分欄位,詳細方式如上所述,不再贅述於此。
區分完所有目標章節的欄位後,在步驟S20739中,資料擷取模組130從區分的所述多個欄位分別擷取所述多個欄位所記錄的所述多筆資料。舉例來說,資料擷取模組130會讀取分別對應第二行820的多個欄位“發卡機構”、“卡名”、“額度”、“發卡日期”、“停用日期”、與“使用狀態”的於第三行821所記錄的多筆資料“元大銀行”、“VISA普卡”、“64”、“105/02/15”、“112/02/15”、與“使用中”。此外,資料擷取模組130可根據所述多筆資料分別所屬的所述多個欄位名稱將所擷取的多筆資料記錄至使用者檔案資料庫140中的對應該名使用者的使用者檔案中,以讓信用評比模組150可根據已儲存所述多筆資料的使用者檔案來計算該名使用者的信用評比。
應注意的是,根據本發明的上述方法可實現在硬體、韌體中,或者可實現為可儲存在記錄介質(諸如CD ROM、RAM、軟碟、硬碟或磁光碟)中的軟體或電腦代碼或者透過網路下載並儲存在非暫態機器可讀介質上的軟體或電腦代碼,從而在此描述的方法可實施在這樣的使用通用電腦的軟體中或者專用處理器或者可編程或專用硬體(諸如ASIC或FPGA)中。在本領域中具有通常知識者應理解,電腦、處理器、微處理器控制器或可編程硬體包括可儲存或接收軟體或電腦代碼的儲存元件(例如,RAM、 ROM、快閃記憶體等),當所述軟體或電腦代碼被電腦訪問和執行時,處理器或硬體實現在此描述的處理方法。另外,應注意的是,當通用電腦訪問用於實現在此說明的處理的代碼時,代碼的執行將通用電腦變換為用於執行在此說明的處理的專用電腦。
綜上所述,本發明的一實施例所提供的資料擷取方法,可將對應使用者的信用記錄之可攜式文件格式檔案轉換成向量檔案,再對所述向量檔案進行清洗操作,以獲得僅含有特定內容的文字檔案,進而有效率地從目標章節來擷取多個欄位所記錄的資料。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

Claims (9)

  1. 一種資料擷取方法,適用於對應一使用者的一信用記錄之一可攜式文件格式(PDF)檔案,所述方法包括:對該可攜式文件格式檔案進行一向量轉換,以使該可攜式文件格式檔案轉換成一向量檔案,其中該可攜式文件格式檔案具有分別被配置於多個層的多行文字內容,其中該可攜式文件格式檔案的該些層包括一主體層、一浮水印層、一表頭層以及一表尾層,並且該浮水印層的文字內容與該主體層的文字內容彼此重疊,其中該向量檔案的多行文字內容為該可攜式文件格式檔案的配置於該些層的所述多行文字內容,並且該向量檔案的所述多行文字內容皆可被圈選;根據該可攜式文件格式檔案的該些層來將該向量檔案的所述多行文字內容劃分為一第一類型文字內容與一第二類型文字內容;對該向量檔案的該第一類型文字內容進行一清洗操作,以標記該第一類型文字內容的多個章節,進而使該向量檔案轉換成一文字檔案;從該文字檔案的屬於該第一類型文字內容的該些章節中的一目標章節的多個欄位擷取該些欄位所記錄的多筆資料;根據所述多筆資料分別所屬的該些欄位之欄位名稱將所擷取的所述多筆資料儲存至該使用者檔案資料庫中對應該使用者的一使用者檔案;以及 根據該使用者檔案來計算該使用者的一信用評比。
  2. 如申請專利範圍第1項所述的資料擷取方法,其中該向量檔案為一可縮放向量圖形(SVG)檔案。
  3. 如申請專利範圍第1項所述的資料擷取方法,其中上述根據該可攜式文件格式檔案的該些層來將該向量檔案的所述多行文字內容劃分為該第一類型文字內容與該第二類型文字內容的步驟包括:將該向量檔案的所述多行文字內容中對應該浮水印層的文字內容、對應該表頭層的文字內容以及對應該表尾層的文字內容劃分為該第二類型文字內容;以及將該向量檔案的所述多行文字內容中非該第二類型文字內容的其他文字內容劃分為該第一類型文字內容。
  4. 如申請專利範圍第3項所述的資料擷取方法,其中上述對該向量檔案的該第一類型文字內容進行該清洗操作,以標記該第一類型文字內容的多個章節,進而使該向量檔案轉換成該文字檔案的步驟包括:將該向量檔案的部份或全部的所述多行文字內容儲存至該文字檔案的同一層;從該文字檔案的屬於該第一類型文字內容的多行文字內容中辨識該些章節;將該些章節劃分為不具有多個欄位的一第一型章節與具有多個欄位的一第二型章節;以及 根據該第一型章節與該第二型章節的多個章節名稱,對應地標記該第一型章節與該第二型章節的該些章節的部份的多行文字內容,其中該第一型章節與該第二型章節的該些章節中不被標記的其他部份的多行文字內容為分隔橫線。
  5. 如申請專利範圍第4項所述的資料擷取方法,其中上述從該文字檔案的屬於該第一類型文字內容的該些章節中的該目標章節的該些欄位擷取該些欄位所記錄的所述多筆資料的步驟包括:從該文字檔案中選擇該目標章節的被標記的多行文字內容;若該目標章節屬於該第一型章節,從被選擇的多行文字內容中辨識該目標章節的名稱,將為該目標章節的該名稱的文字內容辨識為一章節名稱欄位,將被選擇的所述多行文字內容的其他文字內容辨識為對應該章節名稱欄位的一章節內容資料,並且擷取該章節內容資料;以及若該目標章節屬於該第二型章節,根據該目標章節的被選擇的所述多行文字內容來分別將被選擇的所述多行文字內容的每一行文字內容區分為多個欄位,以從該些欄位分別擷取該些欄位所記錄的所述多筆資料,其中屬於同一欄位的多個行中的第一行所記錄的文字內容為該同一欄位的欄位名稱,其中屬於同一欄位的該些行中的其他行所記錄的文字內容為對應該同一欄位的該欄位名稱的資料。
  6. 如申請專利範圍第5項所述的資料擷取方法,其中上述根據該目標章節的被選擇的所述多行文字內容來分別將被選擇的所述多行文字內容的每一行文字內容區分為該些欄位,以從該些欄位分別擷取該些欄位所記錄的所述多筆資料的步驟包括:根據被選擇的所述多行文字內容的第一行文字內容來辨識該目標章節的該名稱;根據該目標章節的該名稱從一預定規則表查詢該目標章節的一欄位總數目,或根據被選擇的所述多行文字內容的第二行文字內容來辨識該欄位總數目,其中被選擇的所述多行文字內容的第二行文字內容用以表示該目標章節的多個欄位名稱,其中每一該些欄位名稱之間具有一分隔字元;根據每一該些欄位名稱來辨識對應每一該些欄位的字元型態;根據分隔字元將被選擇的所述多行文字內容的第三行文字內容至最後一行文字內容中的每一行文字內容分別區分為多個欄位,以使所述每一行文字內容的被區分的所述多個欄位的數目等於所述目標章節的所述欄位總數目,並且使所述每一行文字內容的被區分的所述多個欄位的資料符合所述資料所屬的欄位的字元型態;以及從所區分的該些欄位分別擷取該些欄位所記錄的所述多筆資料。
  7. 如申請專利範圍第6項所述的資料擷取方法,其中該分隔字元包括一空格。
  8. 如申請專利範圍第1項所述的資料擷取方法,其中與該使用者的該信用記錄有關之該可攜式文件格式檔案包括該使用者的一個人信用報告。
  9. 一種個人信用分析系統,包括:一向量轉換模組,接收一使用者的一信用記錄之一可攜式文件格式(PDF)檔案,其中該向量轉換模組對該可攜式文件格式檔案進行一向量轉換,以使該可攜式文件格式檔案轉換成一向量檔案,其中該可攜式文件格式檔案具有分別被配置於多個層的多行文字內容,其中該可攜式文件格式檔案的該些層包括一主體層、一浮水印層、一表頭層以及一表尾層,並且該浮水印層的文字內容與該主體層的文字內容彼此重疊,其中該向量檔案的多行文字內容為該可攜式文件格式檔案的配置於該些層的所述多行文字內容,並且該向量檔案的所述多行文字內容皆可被圈選;一清洗模組,根據該可攜式文件格式檔案的該些層來將該向量檔案的所述多行文字內容劃分為一第一類型文字內容與一第二類型文字內容,並且對該向量檔案的該第一類型文字內容進行一清洗操作,以標記該第一類型文字內容的多個章節,進而使該向量檔案轉換成該文字檔案;一資料擷取模組,從該文字檔案的屬於該第一類型文字內容的該些章節中的一目標章節的多個欄位擷取該些欄位所記錄的多 筆資料;一使用者檔案資料庫;以及一信用評比模組,其中該資料擷取模組更根據所述多筆資料分別所屬的該些欄位之欄位名稱將所擷取的所述多筆資料儲存至該使用者檔案資料庫中對應該使用者的一使用者檔案,其中該信用評比模組根據該使用者檔案來計算該使用者的一信用評比。
TW107119249A 2017-03-10 2017-03-10 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統 TWI645304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107119249A TWI645304B (zh) 2017-03-10 2017-03-10 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107119249A TWI645304B (zh) 2017-03-10 2017-03-10 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統

Publications (2)

Publication Number Publication Date
TW201833797A TW201833797A (zh) 2018-09-16
TWI645304B true TWI645304B (zh) 2018-12-21

Family

ID=64426414

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107119249A TWI645304B (zh) 2017-03-10 2017-03-10 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統

Country Status (1)

Country Link
TW (1) TWI645304B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201229787A (en) * 2010-09-24 2012-07-16 Thales Sa System for the generation of technical documentation in electronic format
TW201413628A (zh) * 2012-09-28 2014-04-01 Kun-Li Zhou 謄本解析系統
CN103902662A (zh) * 2014-03-06 2014-07-02 杭州施强软件开发有限公司 一种基于浏览器的试题生成方法
US20160259770A1 (en) * 2015-03-02 2016-09-08 Canon Kabushiki Kaisha Information processing system, server apparatus, control method, and storage medium
CN106354700A (zh) * 2016-08-11 2017-01-25 广州爱九游信息技术有限公司 页面文本转换方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201229787A (en) * 2010-09-24 2012-07-16 Thales Sa System for the generation of technical documentation in electronic format
TW201413628A (zh) * 2012-09-28 2014-04-01 Kun-Li Zhou 謄本解析系統
CN103902662A (zh) * 2014-03-06 2014-07-02 杭州施强软件开发有限公司 一种基于浏览器的试题生成方法
US20160259770A1 (en) * 2015-03-02 2016-09-08 Canon Kabushiki Kaisha Information processing system, server apparatus, control method, and storage medium
CN106354700A (zh) * 2016-08-11 2017-01-25 广州爱九游信息技术有限公司 页面文本转换方法及系统

Also Published As

Publication number Publication date
TW201833797A (zh) 2018-09-16

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
US8468167B2 (en) Automatic data validation and correction
US10318593B2 (en) Extracting searchable information from a digitized document
CN110457302B (zh) 一种结构化数据智能清洗方法
CN110765770A (zh) 一种合同自动生成方法及装置
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
US9483740B1 (en) Automated data classification
CA3117374A1 (en) Sensitive data detection and replacement
CN110688349A (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN106997350B (zh) 一种数据处理的方法及装置
JP7290391B2 (ja) 情報処理装置及びプログラム
US9516089B1 (en) Identifying and processing a number of features identified in a document to determine a type of the document
TWI645304B (zh) 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統
TWI629605B (zh) 用於對應使用者的信用記錄之可攜式文件格式檔案的資料擷取方法與個人信用分析系統
KR102206001B1 (ko) 사용자 행위에 기반한 전자서적 추천 장치 및 방법
CN104462151A (zh) 评估网页发布时间的方法和相关装置
JP2014134920A (ja) 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム
JP5618968B2 (ja) 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
TWI684950B (zh) 物種數據解析方法、系統及電腦程式產品
CN112257408A (zh) 一种文本对比的方法及相关装置
JP2010092108A (ja) 類似文章抽出プログラム、方法、装置
WO2022215433A1 (ja) 情報表現構造解析装置、および情報表現構造解析方法
CN116719839B (zh) 会计档案的数据查询方法、装置和电子设备
JP7171100B1 (ja) 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。