TWI608415B - 電子檔案資料擷取系統及其方法 - Google Patents
電子檔案資料擷取系統及其方法 Download PDFInfo
- Publication number
- TWI608415B TWI608415B TW105139219A TW105139219A TWI608415B TW I608415 B TWI608415 B TW I608415B TW 105139219 A TW105139219 A TW 105139219A TW 105139219 A TW105139219 A TW 105139219A TW I608415 B TWI608415 B TW I608415B
- Authority
- TW
- Taiwan
- Prior art keywords
- block
- field
- hierarchical
- keyword
- electronic file
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明係關於一種資料擷取技術,詳而言之,係關於一種電子檔案資料擷取系統及其方法。
現行企業已走向e化,越來越多公司將傳統紙本作業以資訊系統取代,不同公司之間因業務需要,而有互相交換資訊的需求,資訊交換可透過訊息建置指引(Message Implementation Guidelines;MIG),其事先定義好需交換的格式,以提供交換訊息的雙方進行新系統建置。
企業內部有許多電子檔案含有許多有價資料,原先的目的係透過列印紙本後,可提供人類直接閱讀,但非作為資訊系統處理使用,因而電子檔案本身並未規劃訊息建置指引,在考量閱讀方便性下,還加入許多無意義的排版及美化作業,倘若能從這些檔案中擷取有價資料,皆需針對每種電子檔案開發出對應的剖析程式,相當耗費企業成本。目前業界針對文件的剖析,通常是利用訊息建置指引(MIG)開發剖析程式(Parser),或者是針對每一種電子檔案開發出對應的剖析程式,然上述剖析程式缺少共用性及欠缺工
作效率。
由上可知,有關電子檔案內部資料擷取,現行僅能透過特定剖析程式來完成,隨著電子檔案多元變化,致使剖析程序無法完成電子檔案,因而找出一種資料擷取方式,特別是,適用於各類電子檔案,以達到電子檔案的資料擷取,實為目前本技術領域人員急迫解決之技術問題。
鑒於上述習知技術之缺點,本發明之目的係提供一種結合關鍵字定位概念之資料擷取技術,透過定位電子檔案內關鍵字位置和範圍,以於該範圍內進行資料擷取。
為達成前述目的及其他目的,本發明係提出一種電子檔案資料擷取系統,用於擷取電子檔案內之目標資料,該電子檔案資料擷取系統包含:接收模組,係用於接收搜尋指令;指令解析模組,係用於解析該搜尋指令,以由該搜尋指令得到階層關鍵字和欄位關鍵字以及由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍;階層搜尋模組,係用於依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案中擷取出階層區塊;以及欄位搜尋模組,係用於依據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得該目標資料。
於一實施例中,以該階層關鍵字或該欄位關鍵字為第一定位點,由該第一定位點朝一指定方向移動一指定距離
後所在位置為第二定位點,俾以該第一定位點和該第二定位點所劃分出的封閉區域為該區塊範圍。
於另一實施例中,該指令解析模組復包括指令檢核單元,係用於檢核該搜尋指令是否符合預定指令規則,若是,由該指令解析模組執行解析,若否,則由該指令檢核單元輸出不合法資訊。
於又一實施例中,該階層搜尋模組復包括階層檢核單元,係用於檢核該階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則,若是,將該階層搜尋模組所產生之該階層區塊傳送至該欄位搜尋模組,若否,則由該階層檢核單元輸出不合法資訊。
於再一實施例中,該欄位搜尋模組復包括欄位檢核單元,係用於檢核該欄位區塊出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算是否符合預定欄位規則,若是,令該欄位搜尋模組產生該目標資料,若否,則由該欄位檢核單元輸出不合法資訊。
另外,該電子檔案內之該階層區塊或該階層區塊內之該欄位區塊為多個。
本發明另提出一種電子檔案資料擷取方法,包括:接收有關電子檔案之搜尋指令;解析該搜尋指令,以由該搜尋指令得到階層關鍵字和欄位關鍵字以及由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍;依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案中擷取出階層區塊;以及依
據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得目標資料。
於一實施例中,於解析該搜尋指令之步驟中,更包括檢核該搜尋指令是否符合預定指令規則。
於另一實施例中,於該電子檔案中擷取出該階層區塊之步驟中,更包括檢核該階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則。
於又一實施例中,於該階層區塊中擷取出該欄位區塊之步驟中,更包括檢核該欄位區塊出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算是否符合預定欄位規則。
另外,該電子檔案內之該階層區塊或該階層區塊內之該欄位區塊為多個。
相較於習知技術,本發明提出之電子檔案資料擷取系統及其方法,主要利用關鍵字定位的概念,從電子檔案中擷取出所需資料內容,其中,先由電子檔案的電子資料中擷取出階層區塊,接著再由階層區塊中擷取出欄位區塊,最後從欄位區塊內取得所需資料內容,階層區塊和欄位區塊都是透過關鍵字來定義其位置和區塊大小,故可準確執行資料擷取。由上可知,透過本發明提出之擷取方式,可針對不同類型電子檔案進行資料擷取,僅須預先定義出對應此電子檔案之擷取指令,即可準確且快速地得到各種電子檔案內的所需資料內容。
1、3‧‧‧電子檔案資料擷取系統
11、31‧‧‧接收模組
12、32‧‧‧指令解析模組
13、33‧‧‧階層搜尋模組
14、34‧‧‧欄位搜尋模組
100‧‧‧電子檔案
101‧‧‧階層A
1011、1021、1031、1041‧‧‧欄位1
1012、1022、1032、1042‧‧‧欄位2
102‧‧‧階層B
103‧‧‧階層C
104‧‧‧階層D
200‧‧‧搜尋指令
300‧‧‧目標資料
321‧‧‧指令檢核單元
331‧‧‧階層檢核單元
341‧‧‧欄位檢核單元
70‧‧‧電子資料
71、72、73、75、76‧‧‧箭頭
74、74'、74"、74'''‧‧‧階層區塊
77‧‧‧公司名稱欄位區塊
78‧‧‧聯絡人欄位區塊
80‧‧‧電子資料
81、82‧‧‧階層區塊
83、84、85、86‧‧‧欄位區塊
S41~S49‧‧‧流程
S51~S55‧‧‧流程
S61~S64‧‧‧步驟
第1圖係本發明之電子檔案資料擷取系統的系統方塊圖;第2圖係本發明之電子檔案資料擷取系統中階層與欄位關係的方塊圖;第3圖係本發明之電子檔案資料擷取系統具體實施例的系統方塊圖;第4圖係本發明之電子檔案資料擷取系統執行階層區塊定義的流程圖;第5圖係本發明之電子檔案資料擷取系統執行欄位區塊定義的流程圖;第6圖係本發明之電子檔案資料擷取方法的步驟圖;第7A-7H圖係本發明之電子檔案資料擷取系統單一階層執行資料擷取的示意圖;以及第8A-8D圖係本發明之電子檔案資料擷取系統執行多階層執行資料擷取的示意圖。
以下藉由特定的具體實施形態說明本發明之技術內容,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。
請參照第1圖,係為本發明之電子檔案資料擷取系統的系統方塊圖。如圖所示,電子檔案資料擷取系統1可設置於電腦內,透過電腦處理器、暫存器執行運算,或透過
儲存器儲存相關資料,電子檔案資料擷取系統1用於擷取電子檔案100內之目標資料300,其包含:接收模組11、指令解析模組12、階層搜尋模組13以及欄位搜尋模組14。
接收模組11用於接收外部輸入之搜尋指令200。本發明係提出擷取電子檔案100內電子資料的所需內容,因而接收模組11將接收使用者所輸入之搜尋指令200,包括例如關鍵字為何以及所需內容與關鍵字位置關係為何。
於一實施例中,該電子檔案100為數位文件、數位影像、數位音訊、數位圖像等數位內容,亦即為數位化內容的電子資料。
於一實施例中,該搜尋指令200包含欲搜尋的關鍵字,以及從關鍵字所在位置劃分的區塊方向與長度,其中,關鍵字可為自然語言、符號或其他具邏輯意義的字樣,以此作為從電子檔案中搜尋出定位點的依據。
指令解析模組12用於解析該搜尋指令200,以由該搜尋指令200得到階層關鍵字和欄位關鍵字,並由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍。簡言之,搜尋指令200透過指令解析模組12進行解析,經解析後,可由搜尋指令200得到關鍵字和由該關鍵字所在位置劃分出之區塊範圍,即從關鍵字所在位置劃分的區塊方向與長度,例如以關鍵字為定位點,向右移動10個字元,向下移動5個字元,所涵蓋範圍可稱之為區塊範圍。
搜尋指令200可用文字或符號來表示,搜尋指令200之指令內容為具有語意或者特殊邏輯的可辨識格式,搜尋
指令200傳送至指令解析模組12處理後,將會產生一組關鍵字以及一組表示定位點(來自關鍵字)位移的數值與字符,其中,位移的數值與字符即例如向右移動10個字元或向左移動10公分等。
須說明者,基於數位檔案內容多元,故本發明所提出資料擷取技術中,包括從電子檔案100中擷取階層區塊,接著再從階層區塊中擷取欄位區塊,最後再由欄位區塊取得所需資料等兩階段。因而,指令解析模組12將解析出階層用的階層關鍵字與由階層關鍵字所在位置劃分出之區塊範圍,以及欄位關鍵字與由欄位關鍵字所在位置劃分出之區塊範圍。
階層搜尋模組13用於依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案100中擷取出階層區塊。本實施例所述第一階段是定義出各階層所在區塊,因而階層搜尋模組13透過經指令解析模組12解析後之階層關鍵字及其區塊範圍定位各階層範圍,藉此由電子檔案100中擷取出階層區塊。
欄位搜尋模組14用於依據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得該目標資料300。本實施例所述第二階段是定義出各欄位所在區塊,因而欄位搜尋模組14透過經指令解析模組12解析後之欄位關鍵字及其區塊範圍定位各欄位範圍,藉此由階層區塊中擷取出欄位區塊。
最後,可由該些欄位區塊內取得所需資料,即目標資料300。
本實施例所述之階層和欄位並未限定僅能一個。具體來說,階層區塊可被定義為電子檔案中可能重覆出現的一至多次的資料所在處,用於限制欄位出現的位置,換言之,一個搜尋指令可從一個電子檔案中定位出一至多個階層區塊,階層區塊的形狀、大小則視搜尋指令之設定而有所不同。
同理,欄位區塊被定義為階層區塊內可能重覆出現一至多個的資料所在處,是搜尋找最終需要的資料內容,換言之,一個搜尋指令可從一個階層區塊中定位出一至多個欄位區塊,欄位區塊的形狀、大小則視指令的設定而有所不同,即欄位區塊的定位是根據所在階層計算出相對位置。
關於定位與區塊範圍的劃分,可以階層關鍵字或欄位關鍵字為第一定位點,接著,由第一定位點朝一指定方向移動一指定距離後,此時所在位置可稱之為第二定位點,最後,以該第一定位點和該第二定位點所劃分出的封閉區域即是該區塊範圍。
如前所述,搜尋指令經解析後將得到一組關鍵字以及一組表示定位點位移的數值與字符,其做法為:從電子檔案或階層區塊中搜尋出與關鍵字匹配的位置,以關鍵字所在位置作為第一定位點,接著,從第一定位點往某一方向(即指定方向)移動至指定的單位距離(即指定距離),到
達的位置即為第二定位點。換言之,除了第一定位點之外,至少需再定位出一點定位點,使得第一定位點可與其他定位點的連結線,可劃分出一個封閉區域,此封閉區域即為欲擷取的資料所在處。由上可知,當關鍵字於電子資料或階層區塊中重覆出現時,則依照搜尋指令之設定,可執行單次或反覆擷取以得到符合搜尋指令定位的資料所在處。
前述之搜尋出與關鍵字匹配的位置所採用之判斷方法,係包括字符編碼的比對或其他表示式規則的比對,例如正則表示式。
前述之往指定方向移動包括橫向、縱向或斜向等方向移動。
前述之單位距離,其單位可為字元數、位元組數、實際度量所採用的公定刻度等。
請參照第2圖,係為本發明之電子檔案資料擷取系統中階層與欄位關係的方塊圖。如前所述,電子檔案100可包括一至多個階層,而一個階層內可包括至少一個欄位,故第2圖係繪示電子檔案100內包括多個階層和多個欄位的型態。
如圖所示,電子檔案100內可包括標號為101的階層A、標號為102的階層B、標號為103的階層C以及標號為104的階層D,其中,各階層可單獨存在、與其階層部分重疊或與其階層完全重疊。舉例來說,階層B 102、階層C 103與階層D 104都在階層A 101的範圍內,另外,階層B 102與階層C 103所包含範圍為部分重疊。
階層A 101內可包括欄位1(標號1011)和欄位2(標號1012),階層B 102內可包括欄位1(標號1021)和欄位2(標號1022),階層C 103內可包括欄位1(標號1031)和欄位2(標號1032),階層D 104內可包括欄位1(標號1041)和欄位2(標號1042)。
由此可知,一個階層內可有多個欄位,且各欄位之間是不相互干擾,也就是說,欄位是根據其所在階層而被定義,與其他階層無關。因此,本發明提出之兩階段定義區塊的方法中,是先定義出階層區塊,接著才是定義出欄位區塊,當選定階層區塊後,僅能從中找尋欄位區塊,且基於欄位區塊限定與關鍵字所在位置延伸出的範圍有關,故即一個階層範圍內有多個欄位,但因為無法與關鍵字位置匹配,故不會有誤判的行為。舉例來說,階層B 102因為有關鍵字的位置關係,故僅會得到欄位1 1021和欄位2 1022,但不會得欄位1 1031和欄位2 1032(該些欄位與階層C 103有關)。
請參照第3圖,係為本發明之電子檔案資料擷取系統具體實施例的系統方塊圖。於本實施例中,電子檔案資料擷取系統3根據搜尋指令200從電子檔案100中擷取出目標資料300,其中,電子檔案資料擷取系統3中的接收模組31、指令解析模組32、階層搜尋模組33以及欄位搜尋模組34與第1圖所述相似,故不再贅述。
於本實施例中,該指令解析模組32復包括指令檢核單元321,該階層搜尋模組33復包括階層檢核單元331,以
及該欄位搜尋模組34復包括欄位檢核單元341。
指令檢核單元321用於檢核搜尋指令是否符合預定指令規則,若是,由指令解析模組32執行解析,若否,則由指令檢核單元321輸出不合法資訊,即告知指令檢核結果不通過。指令解析模組32提供以特定規則或運算邏輯執行解析搜尋指令的功能,當使用者輸入欲解析的搜尋指令後,搜尋指令會先經過指令檢核單元321處理,檢核搜尋指令的格式是否符合預定指令規則,若檢核出搜尋指令不合法,則直接輸出不合法資訊,若檢核出搜尋指令為合法,則會將指令交由指令解析單元32執行解析作業,解析完成後將輸出一組要搜尋的關鍵字以及一組表示定位點位移的數值與字符。
階層檢核單元331用於檢核階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則,若是,將階層搜尋模組33所產生之階層區塊傳送至欄位搜尋模組34,若否,則由階層檢核單元331輸出不合法資訊,即告知階層區塊檢核結果不通過,階層區塊取得有誤。具體來說,階層搜尋單元33提供搜尋關鍵字所在位置以及計算定位點位移的功能,階層檢核單元331提供檢核階層區塊出現次數、出現位置或區塊大小等的檢核功能,若檢核出階層區塊不合法,則直接輸出不合法資訊。
欄位檢核單元341用於檢核欄位區塊出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算是否符合預定欄位規則,若是,令欄位搜尋模組34產生目標資料300,
若否,則由欄位檢核單元341輸出不合法資訊,即告知欄位區塊檢核結果不通過,欄位區塊取得有誤。欄位搜尋單元34提供搜尋關鍵字所在位置以及計算定位點位移的功能,欄位檢核單元341提供檢核欄位出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算等的檢核功能,若檢核出欄位區塊不合法,則直接輸出不合法資訊。
請參照第4圖,係為本發明之電子檔案資料擷取系統執行階層區塊定義的流程圖。如圖所示,係說明以關鍵字作為搜尋條件,定位出階層區塊的步驟流程圖。於流程S41中,輸入電子檔案與搜尋指令。本流程即輸入欲解析的電子檔案以及用於執行搜尋之搜尋指令,搜尋指令包含欲搜尋的關鍵字,以及從關鍵字所在位置劃分的區塊方向與長度。
舉例來說,關鍵字可為自然語言、符號或其他具邏輯意義的字樣,以此作為從電子檔案中搜尋出定位點的依據,另外,搜尋指令可用文字或符號來表示,搜尋指令之指令內容為具有語意或者特殊邏輯的可辨識格式。
於流程S42中,啟動指令解析模組。基於搜尋指令為採用文字或符號來描述關鍵字和其位置關係,故需要指令解析模組來執行解析。
於流程S43中,檢核指令格式。為確保使用者輸入的指令無誤,在執行指令解析前,將先進行指令格式檢核。若檢核結果為不合法,則前進流程S44,即輸出檢核不合法資訊,若檢核結果為合法,則前進流程S45。
於流程S45中,解析搜尋指令,輸出要搜尋的關鍵字,以及表示定位點位移的數值與字符。此流程即是在指令格式檢核通過下,執行搜尋指令解析,搜尋指令解析後將產生要搜尋的關鍵字以及有關定位點位移的相關資訊。
於流程S46中,啟動階層搜尋模組,從電子檔案中搜尋出與關鍵字匹配的位置,以此為定位點劃分出階層區塊。在前一個流程得到階層關鍵字和定位點位移資訊後,可由階層搜尋模組來找出階層關鍵字所在位置,並搭配定位點以取得階層區塊包含範圍。
於流程S47中,檢核階層區塊。為確保所取得之階層區塊無誤,此流程即執行階層區塊的檢核。若檢核結果為不合法,則前進流程S48,即輸出檢核不合法資訊,若檢核結果為合法,則前進流程S49。
於流程S49中,輸出階層區塊。亦即,透過階層搜尋模組搜尋後找到對應之階層區塊,再經檢核後,輸出符合規定之階層區塊。
請參照第5圖,係為本發明之電子檔案資料擷取系統執行欄位區塊定義的流程圖。如圖所示,係說明以關鍵字作為搜尋條件,定位出欄位區塊的步驟流程圖。於流程S51中,輸入階層區塊與拆解後的搜尋指令。在電子檔案找到階層區塊後,於本流程中,接著會以階層區塊為範圍,再依具拆解後的搜尋指令來執行欄位區塊的搜尋。
於流程S52中,啟動欄位搜尋模組,從階層區塊中搜尋與關鍵字匹配的位置,以此為定位點劃分出欄位區塊。
同樣地,透過欄位關鍵字和定位點位移資訊等,由欄位搜尋模組找出欄位關鍵字所在位置,並搭配定位點以取得欄位區塊包含範圍。
於流程S53中,檢核欄位區塊。為確保所取得之欄位區塊無誤,此流程即執行欄位區塊的檢核。若檢核結果為不合法,則前進流程S54,即輸出檢核不合法資訊,若檢核結果為合法,則前進流程S55。
於流程S45中,輸出欄位區塊。亦即,透過欄位搜尋模組搜尋後找到對應之欄位區塊,再經檢核後,輸出符合規定之欄位區塊。
請參照第6圖,係為本發明之電子檔案資料擷取方法的步驟圖。具體來說,電子檔案資料擷取方法可用於自電子檔案中執行資料內容的擷取,詳細步驟如下所述。
於步驟S61中,係接收外部輸入有關電子檔案之搜尋指令。電子檔案為數位文件、數位影像、數位音訊、數位圖像等數位內容,使用者將輸入有關欲擷取資料內容之搜尋指令,以執行搜尋動作。
於步驟S62中,係解析該搜尋指令,以由該搜尋指令得到階層關鍵字和欄位關鍵字以及由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍。詳言之,先對搜尋指令進行解析,藉此得到關鍵字和關鍵字所在位置所劃分出的區塊範圍,其中,關鍵字包含階層關鍵字和欄位關鍵字,因而對應階層關鍵字和欄位關鍵字將劃分出各自的區塊範圍。
於解析搜尋指令之步驟中,更包括檢核該搜尋指令是否符合預定指令規則。當使用者輸入欲解析的搜尋指令後,搜尋指令會先經過檢核,確認搜尋指令的格式是否符合預定指令規則,若檢核出搜尋指令不合法,則直接輸出不合法資訊,若檢核出搜尋指令為合法,則執行解析作業。
於步驟S63中,係依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案中擷取出階層區塊。本步驟係透過階層關鍵字和其定位出的各階層所在區塊,由電子檔案中找出階層區塊。
於該電子檔案中擷取出階層區塊之步驟中,更包括檢核該階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則。為了確保取得之階層區塊無誤,於取得階層區塊後,將進行階層區塊的檢核確認,若符合,則前進自下一步驟,若否,則告知階層區塊檢核結果不通過,階層區塊取得有誤。
於步驟S64中,係依據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得目標資料。具體來說,在取得階層區塊,本步驟將於階層區塊中找尋欄位區塊,其透過欄位關鍵字和其定位出的各欄位所在區塊,由階層區塊中找出欄位區塊,最後將可由該欄位區塊取得目標資料,即來自電子檔案中的欲擷取資料內容。
於該階層區塊中擷取出該欄位區塊之步驟中,更包括檢核該欄位區塊出現次數、出現位置、區塊大小、欄位值
格式或欄位值驗算是否符合預定欄位規則。為了確保取得之欄位區塊無誤,於取得欄位區塊後,將進行欄位區塊的檢核確認,若符合,則前進自資料擷取,若否,則告知欄位區塊檢核結果不通過,欄位區塊取得有誤。
另外,電子檔案內的階層區塊數量,或是階層區塊內的欄位區塊數量並非限制僅能一個,亦即電子檔案內可有多個階層區塊,階層區塊內可有多個欄位區塊。
請參照第7A-7H圖,係為本發明之電子檔案資料擷取系統單一階層執行資料擷取的示意圖。如第7A圖所示,係顯示一份電子檔案之電子資料70,假設要從中取出所有公司名稱(Company Name)和聯絡人(Contact Name)的欄位值,即取得公司名稱為關鍵字“Company Name:”後方的所有內容,以及聯絡人為關鍵字“Contact Name:”後方的所有內容。
首先使用階層的搜尋指令來搜尋階層區塊,可使用『SEARCH'Company Name:';(ROW+0)(COL-13)』的搜尋指令以表示階層開始位置,以及可使用『SEARCH'Company Name:';(ROW+2)(COL+15)』的搜尋指令以表示階層結束位置。
以階層開始位置的搜尋指令為例,『SEARCH'Company Name:'』是表示要搜尋關鍵字“Company Name:”,並且定位在關鍵字的結尾處,『(ROW+0)(COL-13)』表示定位點的位移量,ROW+0表示列(Row)不動,COL-13表示行(Column)往左邊移13個字元。
以第一個搜尋到的階層為例,階層開始位置先定位在“Company Name:”關鍵字結尾處,列(Row)不移動,行(Column)往左移動13個字元,因為階層開始位置希望定位在關鍵字出現的開始處,而關鍵字“Company Name:”本身佔了13個字元,所以定位點需往左移動13個字元,如第7B圖所示,箭頭71即表示定位點(關鍵字的結尾處),箭頭72即為階層開始位置。
階層結束位置也是先定位在“Company Name:”關鍵字結尾處,列(Row)往下移2個字元,行(Column)往右移15個字元,如第7C圖所示,箭頭71表示定位點,箭頭73即為階層結束位置。
之後,箭頭72表示的階層開始位置以及箭頭73表示的階層結束位置,以此兩點所劃分出之封閉區域是階層區塊74,如第7D圖所示。
另外,還可使用同一組階層指令,以此類推搜尋出所有的階層區塊。如第7E圖所示,使用相同搜尋指定,以“Company Name:”為關鍵字,因而除了階層區塊74外,還可找出階層區塊74'、74"、74'''。
接著使用欄位的搜尋指令來搜尋欄位區塊,其將在既有階層區塊下進行搜尋。假設需要公司名稱(Company Name)與聯絡人(Contact Name)兩個欄位,可使用『SEARCH'Company Name:';(ROW+0)(COL+0);(ROW+0)(COL+11)』的搜尋指令來表示公司名稱,以及可使用『SEARCH'Contact Name:
';(ROW+0)(COL+0);(ROW+0)(COL+5)』的搜尋指令來表示聯絡人。
以公司名稱為例,『SEARCH'Company Name:'』表示要搜尋關鍵字“Company Name:”,並且定位在關鍵字的結尾處,『(ROW+0)(COL+0);(ROW+0)(COL+11)』以分號區隔,分別代表欄位開始位置與結束位置的定位點位移量,皆是從關鍵字結尾處開始計算,搜尋階層區塊的指令其開始與結束位置是分開的兩段指令,搜尋欄位區塊的指令則是在同一段指令中。
以公司名稱欄位搜尋指令為例,首先定位出開始位置,開始位置定位在“Company Name:”關鍵字之後,列(Row)與行(Column)不移動,如第7F圖所示,箭頭75即為欄位開始位置,結束位置一樣定位在“Company Name:”關鍵字之後,列(Row)不移動,行(Column)往右移動11個字元,第7F圖中箭頭76即為欄位結束位置。
因而,在階層區塊74中,箭頭75表示的欄位開始位置以及箭頭76表示的欄位結束位置,兩點劃分出的封閉區域即是公司名稱欄位區塊77,如第7G圖所示。
同理,也可以上述方式找出同一階層區塊74內聯絡人欄位,例如第7H圖中聯絡人欄位區塊78所示。
另外,不同的階層區塊皆可以上述方式,找出該階層區塊內的公司名稱欄位區塊以及聯絡人欄位區塊。
請參照第8A-8D圖,係為本發明之電子檔案資料擷取系統執行多階層執行資料擷取的示意圖。如第8A圖所示,
係顯示一份電子檔案之電子資料80,假設要從中取出報表代號(Report ID)與製表人(Contact Name)姓名,以及所有公司名稱和聯絡人的資料,即取得報表代號為關鍵字“Report ID:”後方的所有內容,以及製表人姓名為關鍵字“Trading Partner List”下兩列,且關鍵字“Contact Name:”後方的所有內容。
須注意到,製表人姓名與聯絡人皆為關鍵字“Contact Name:”後方的內容,但兩個欄位不可混淆,因此,需要分別劃分出不同階層,例如階層A與階層B,製表人姓名限制在階層A內,聯絡人則限制在階層B內。
使用階層的搜尋指令來定位出階層A的區塊,可使用『SEARCH'Trading Partner List';(ROW+0)(COL-20)』的搜尋指令以表示階層開始位置,另可使用『@END』的搜尋指令以表示階層結束位置,其中,『@END』指令代表定位在文件最底部。
階層區塊定位方式如第7A-7H圖範例所示,於此將不再贅述。如第8B圖所示,可定義出階層A的區塊範圍,如圖中階層區塊81所示。
接著,還使用階層的搜尋指令定位出階層B的區塊,其使用『SEARCH'Company Name:';(ROW+0)(COL-13)』的搜尋指令以表示階層開始位置,另可使用『SEARCH'Company Name:';(ROW+2)(COL+15)』的搜尋指令以表示階層結束位置。如第8C圖所示,可定義出階層B的區塊範圍,如圖中多個階層區塊82所示。
最後,使用欄位的搜尋指令個別定位出每一個階層底下的欄位,其中,製表人姓名只會從階層A的階層區塊81中搜尋,聯絡人只會從階層B的階層區塊82的區塊中搜尋。
最終,如第8D圖所示,可由階層區塊81內定位出表示報表代號的欄位區塊83以及表示製表人的欄位區塊84。另外,可由階層區塊82內定位出表示公司名稱的欄位區塊85以及表示聯絡人的欄位區塊86。
由上可知,在多個階層下,各階層是不相互影響,亦即欄位是跟隨在某一個階層下,故定位出階層區塊後,在由該階層區塊內找尋欄位區塊,因而即便其他階層區塊有相同欄位名稱,也不會造成判斷錯誤問題。
綜上所述,本發明之電子檔案資料擷取系統及其方法,主要利用關鍵字定位的概念,從電子檔案中擷取出所需資料內容,其中,先由電子檔案中擷取出階層區塊,接著再由階層區塊中擷取出欄位區塊,最後從欄位區塊內取得所需資料內容。因此,透過本發明提出之擷取方式,即便是不同類型電子檔案,僅須預先定義出對應此電子檔案之擷取指令,即可準確且快速地得到各種電子檔案內的所需資料內容。
上述實施形態僅例示性說明本發明之原理及其功效,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。因此,本發明之權利保護範圍,應如後述之申請專
利範圍所列。
1‧‧‧電子檔案資料擷取系統
11‧‧‧接收模組
12‧‧‧指令解析模組
13‧‧‧階層搜尋模組
14‧‧‧欄位搜尋模組
100‧‧‧電子檔案
200‧‧‧搜尋指令
300‧‧‧目標資料
Claims (10)
- 一種電子檔案資料擷取系統,用於擷取電子檔案內之目標資料,該電子檔案資料擷取系統包含:接收模組,係用於接收搜尋指令;指令解析模組,係用於解析該搜尋指令,以由該搜尋指令得到階層關鍵字和欄位關鍵字以及由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍;階層搜尋模組,係用於依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案中擷取出階層區塊;以及欄位搜尋模組,係用於依據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得該目標資料,其中,以該階層關鍵字或該欄位關鍵字為第一定位點,由該第一定位點朝一指定方向移動一指定距離後所在位置作為區塊起始位置,並以同一階層或欄位關鍵字或另一個階層或欄位關鍵字作為第二定位點,由該第二定位點朝一指定方向移動一指定距離後所在位置為區塊結束位置,利用該區塊起始位置及該區塊結束位置所劃分出的封閉區域為所選圈之該區塊範圍。
- 如申請專利範圍第1項所述之電子檔案資料擷取系統,其中,該指令解析模組復包括指令檢核單元,係用於檢 核該搜尋指令是否符合預定指令規則,若是,由該指令解析模組執行解析,若否,則由該指令檢核單元輸出不合法資訊。
- 如申請專利範圍第1項所述之電子檔案資料擷取系統,其中,該階層搜尋模組復包括階層檢核單元,係用於檢核該階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則,若是,將該階層搜尋模組所產生之該階層區塊傳送至該欄位搜尋模組,若否,則由該階層檢核單元輸出不合法資訊。
- 如申請專利範圍第1項所述之電子檔案資料擷取系統,其中,該欄位搜尋模組復包括欄位檢核單元,係用於檢核該欄位區塊出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算是否符合預定欄位規則,若是,令該欄位搜尋模組產生該目標資料,若否,則由該欄位檢核單元輸出不合法資訊。
- 如申請專利範圍第1項所述之電子檔案資料擷取系統,其中,該電子檔案內之該階層區塊或該階層區塊內之該欄位區塊為多個。
- 一種電子檔案資料擷取方法,包括:接收有關電子檔案之搜尋指令;解析該搜尋指令,以由該搜尋指令得到階層關鍵字和欄位關鍵字以及由該階層關鍵字和該欄位關鍵字各別所在位置劃分出之區塊範圍,其中,以該階層關鍵字或該欄位關鍵字為第一定位點,由該第一定位點朝一指 定方向移動一指定距離後所在位置作為區塊起始位置,並以同一階層或欄位關鍵字或另一個階層或欄位關鍵字作為第二定位點,由該第二定位點朝一指定方向移動一指定距離後所在位置為區塊結束位置,利用該區塊起始位置及該區塊結束位置所劃分出的封閉區域為所選圈之該區塊範圍;依據該階層關鍵字及該階層關鍵字劃分出之區塊範圍定位出各階層所在區塊,以於該電子檔案中擷取出階層區塊;以及依據該欄位關鍵字及該欄位關鍵字劃分出之區塊範圍定位出各欄位所在區塊,以於該階層區塊中擷取出欄位區塊,俾由該欄位區塊內取得目標資料。
- 如申請專利範圍第6項所述之電子檔案資料擷取方法,其中,於解析該搜尋指令之步驟中,更包括檢核該搜尋指令是否符合預定指令規則。
- 如申請專利範圍第6項所述之電子檔案資料擷取方法,其中,於該電子檔案中擷取出該階層區塊之步驟中,更包括檢核該階層區塊出現次數、出現位置或區塊大小是否符合預定階層規則。
- 如申請專利範圍第6項所述之電子檔案資料擷取方法,其中,於該階層區塊中擷取出該欄位區塊之步驟中,更包括檢核該欄位區塊出現次數、出現位置、區塊大小、欄位值格式或欄位值驗算是否符合預定欄位規則。
- 如申請專利範圍第6項所述之電子檔案資料擷取方法, 其中,該電子檔案內之該階層區塊或該階層區塊內之該欄位區塊為多個。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105139219A TWI608415B (zh) | 2016-11-29 | 2016-11-29 | 電子檔案資料擷取系統及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105139219A TWI608415B (zh) | 2016-11-29 | 2016-11-29 | 電子檔案資料擷取系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI608415B true TWI608415B (zh) | 2017-12-11 |
TW201820121A TW201820121A (zh) | 2018-06-01 |
Family
ID=61230828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105139219A TWI608415B (zh) | 2016-11-29 | 2016-11-29 | 電子檔案資料擷取系統及其方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI608415B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043769A1 (en) * | 2007-08-10 | 2009-02-12 | Fujitsu Limited | Keyword extraction method |
TW201027375A (en) * | 2008-10-20 | 2010-07-16 | Ibm | Search system, search method and program |
TW201501016A (zh) * | 2013-06-18 | 2015-01-01 | Acer Inc | 資料搜尋方法與其電子裝置 |
-
2016
- 2016-11-29 TW TW105139219A patent/TWI608415B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090043769A1 (en) * | 2007-08-10 | 2009-02-12 | Fujitsu Limited | Keyword extraction method |
TW201027375A (en) * | 2008-10-20 | 2010-07-16 | Ibm | Search system, search method and program |
TW201501016A (zh) * | 2013-06-18 | 2015-01-01 | Acer Inc | 資料搜尋方法與其電子裝置 |
Also Published As
Publication number | Publication date |
---|---|
TW201820121A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2643467C1 (ru) | Сопоставление разметки для похожих документов | |
US8468167B2 (en) | Automatic data validation and correction | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20140304579A1 (en) | Understanding Interconnected Documents | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
Carrasco | An open-source OCR evaluation tool | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
US20140348400A1 (en) | Computer-readable recording medium storing program for character input | |
US11520835B2 (en) | Learning system, learning method, and program | |
CN113419721B (zh) | 基于web的表达式编辑方法、装置、设备和存储介质 | |
CN111857688A (zh) | Sql代码自动补全方法、系统及存储介质 | |
JP2010267083A (ja) | 帳票検索装置、帳票検索プログラムおよび帳票検索方法 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
TWI608415B (zh) | 電子檔案資料擷取系統及其方法 | |
CN107145947B (zh) | 一种信息处理方法、装置及电子设备 | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
JPWO2014171519A1 (ja) | 誤記検出装置及び記録媒体 | |
JP7034426B2 (ja) | 図形内文字列一覧表抽出管理ソフトウェア | |
Alzuru et al. | Cooperative human-machine data extraction from biological collections | |
JP2006209399A (ja) | 文書検索装置および方法 | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
Flynn | Document classification in support of automated metadata extraction form heterogeneous collections | |
Shere et al. | Identifying and Extracting Hierarchical Information from Business PDF Documents |