TW466426B - System and method for extracting data from semi-structured text - Google Patents

System and method for extracting data from semi-structured text Download PDF

Info

Publication number
TW466426B
TW466426B TW088120033A TW88120033A TW466426B TW 466426 B TW466426 B TW 466426B TW 088120033 A TW088120033 A TW 088120033A TW 88120033 A TW88120033 A TW 88120033A TW 466426 B TW466426 B TW 466426B
Authority
TW
Taiwan
Prior art keywords
token
tokens
attribute
context
subset
Prior art date
Application number
TW088120033A
Other languages
English (en)
Inventor
Chun-Nan Hsu
Chian-Chi Chang
Original Assignee
Academia Sinica
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academia Sinica filed Critical Academia Sinica
Application granted granted Critical
Publication of TW466426B publication Critical patent/TW466426B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

A7 4 6 6 4 2 6 _________B7____ 五、發明說明(1 ) 發明背景: 本發明係有關自文字文件摘取資訊。 許多組織都有大量且數量愈來愈多的電子檔案,而且這 些電子檔案包含有重要價值的資訊。全球資訊網 (WorldWideWeb)本身就是此類資訊的一巨型儲存場所。目 t 前已開發出可讓電腦搜尋並分析此種大量資訊的工具程 式。然而’通常儲存在資料庫的表格式資訊不同,許多文 件只有有限的内部結構’因而被稱為“半結構化文 字”(“ semi-structured text ”)。例如,與全體教職員資訊有 關的一份文件可能包含一具有諸如教職員名稱、個人網 * 址、連絡地址' 及學術頭銜等某些屬性的單字或字孝所構 成之資料項清單。可將該資訊格式化成一表格式清單,以 便易於閱覽。 半結構化文字的一個例子是以超文件標注語言 (HyperText Markup Language ·’ 簡稱 HTML)撰窝的網頁。 HTML利用標記(tag )來規定網頁中各圖形及字元之格式及 特徵。例如,位於一對標記“ <B>,,與“</B>,,之間的文字 規定要以粗體字顯示該文字。文件内的這些html標記之 主要目的在於將輸出式樣格式化,但是這些標記本身並未 將這些標記之間的文字是何種内容的訊息告知*電腦。例 如,若有一輸入字串“ < B > ” J 〇 h η “ < / B > ”,則標記“ < β > ” 及“</B>”並未向電腦指示“John”是對應於一名稱、一連 絡地址、或一學術頭銜 為自文件或文字序列摘取資訊而撰寫的程式被稱為資訊 "4 - >紙張又度適用中國國家標準(CNS)Al規烙(210 X --- (諳先閱讀背面之沒意事項再填寫本頁) f —訂---1-----· I; 經濟部智慧財產局員工消費合作社印*''农 A7 經濟部智慧財產局員工消費合作社印制农 E7— ....... _ l_,五、發明說明(2 ) 摘取程式(informationextractor) 或“包裹程式” + (‘‘ wrapper ”)。一資訊摘取程式適於自有一特定結構的文 件或文字序列摘取具有某些屬性的一組特定單字或字串。 例如,一資訊摘取程式適於處理諸如圖1 ( a)所示具有四個 資料項的一網頁。請參閱圖1 ( b ),該網頁的HTML齐字序 列具有四個資料項,每一資料項包含若干具有屬性的文字 字串:“URL(U)”’、“名稱(N)”、“學術頭銜(A)”、及 “行政管理頭銜(Μ )”之一組合。請參閱圖1 ( c ),自第一資 料項摘取的第一資料重元组(tuple )包含四個具有屬性U、 N、A、及Μ的文字字串。第二及第三資料重元組分別包 含三個具有屬性U、Ν、及Α的文字字串。第四資料重元組 包含若干具有屬性A的文字字串。為了簡化說明,將 只把一個“具有屬性U的文字字串”稱為“屬性U ”。因此, 術語“屬性”(“ attribute ”)將意指一個具有一特定屬性之文 字序列。 為了自一網頁的文字序列摘取屬性,一預先處理程式首-先將該文字序列分割成若干符記(token)。一符記可包含若 干字詞、數字、HTML標記等。例如,在圖i (b )中, “<H1>”可以是一符記,而字詞“Faculty”可代表另一符 記。一屬性可包含數個符記。例如,名*稱屬性 “ ManiChandy ”可包含兩個符記“ Mani ’,及“ chandy ” °資訊 摘取程式讀取該等符記,並使用一组預定的摘取規則,以 便自這些符記摘取屬性。例如,一個可能的規則可以/是: 當碰到一對HTML標記“ < B > ”及“ </ B > ”時,則摘取該等 -5- 本紙張尺度適用中國固家標準(CNS)A4規格(210 X 297公釐) (靖先閱讀背面之注意事項再填寫本頁)
J -丨tri 線11·i.---------- 4 b 6 4 2 6 A7 * B7___ 五、發明說明(3 ) 標記間之文字作為名稱屬性。 通常係由一種被稱為學習程式(learning program )的獨立 程式產生摘取規則(extraction ruIe )。學習程式讀取具有使 用者所標示的若干屬性之訓練樣本(training sample )(來自 目標網頁的一短文字序列)。例如,使用者可利用圖形使 ? 用者介面(GraphicsUserlnterface ;簡稱GUI)來反白或標示 該樣本文字序列内對應於”名稱”屬性的這些部分。該學習 程式然後找出該反白或標示部分出現在該樣本文字序列的 位置模式。該模式然後成為用來摘取該"名稱,,屬性之規 則0 * 在產生一組摘取規則之後,一使用者可針對一第二樣本 文字序列測試這些規則,以便檢驗該資訊摘取程式是否可 正確地摘取所有的屬性。如果並非如此,則可再度呼叫該 學習程式,且該使用者標示先前被錯誤識別但具有正確屬 性名稱的那些屬性。該學習程式然後修改該等摘取規則, 使該等摘取規則可正確地識別該第—及第二樣本文字序列 中的各屬性。當一目標網頁改變其格式或資料結構時,也 利用該學習程式v來更新該等摘取規則。因為經常修改網頁 是常見的現象,所以需要一種只須一組最少的訓練樣本之 學習程式。 · 其他不同類型的資訊摘取程式可能用到不同的摘取規 則。例如,一種被稱為“ L R資訊搜尋程式”的資訊摘取程 式用到尋找具有左右對結構的符記之規則。另一個通'常被 稱為“潛行資訊搜尋程式”“ stalker-wrapper ”)的資訊摘取 -6- 本紙張尺度適用中國國家標準(C'NS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 』--------訂----------線 { 經濟部智慧財產局員工消費合作社印制衣 46 642 6 A7 _ B7 五、發明說明(4 ) 程式可能有一些用來跳過某些類型的符記且搜尋某些類型 的“地標”符記之規則。 ’土 發明概述: 本發明係有關一種在一半結構化輸入文字序列内搜尋屬 性之資訊摘取程式。一般而言,該資訊摘取程式類似於一 有限狀悲轉換器,包含若干狀態、以及在該等狀態間之若 干反換路也。每—狀態被界定為與某—屬性的摘取相關 聯。該等狀態之間的各可容許變換路徑係與該等屬性序列 的各可能排列相關聯。對於每一變換路徑而言,都有—個 相關聯的上下文規則(contextualrule )5當輸入文字序列中 ψ 的一模式滿足一特定的上下文規則時,即在狀態之間發生 一變換,因而該資訊摘取程式進入與另一屬性的摘取相關 聯之次一狀態=藉由利用一些也考慮到在現行輸入符記之 前及之後的符記之上下文規則,本發明的資訊摘取程式即 可處理具有不規則配置結構及多種排列的屬性之文件。 本發明之特徵在於一種可自多種文件式樣中自動摘取屬 性並以一種有效率的方式更新各摘取規則之資訊摘取程 式。與使用一组固定規則且只能處理具有按照某一結構而 配置的屬性的文件之其他資訊摘取程式不同,本發明可適 應文件格式式樣的變化。 · 本發明的一項優點在於:縱使有部分屬性遺漏,或者當 屬性的順序發生變化時,本發明的資訊摘取程式也能正確 地識別屬性。 本發明的另一優點在於:本發明的資訊摘取程式適於處 本紙張尺度適用中國國家標準(CNS)A·丨規格(2丨〇χ 297公釐) (諝先閱讀背面之注意事項再填寫本頁) ----,,ϊ I I - If — — — — — — [ 绶濟部智慧財產局員工消費合作社印制^ A7 46642 6 B7_______ 五、發明說明(5 ) (請先閱讀背面之江意事項再填寫本頁) 理一些具有不規則的資料結構或具有表格式配置式樣之文 件。 本發明的一額外優點在於:本發明的資訊摘取程式使用 一種只需/組最少數量的訓練樣本即可產生各摘取規則之 學習程式。 r 附圖簡述: 圖1(a)承出與一全體教職員及研究工作人員有關的一樣 本網頁之輸出° 圖1(b)示出圖1〇)所示網頁之HTML文字序列(原始 碼)。 ψ 圖1(e)示出自圖1(b)所示HTML文字序列摘取的屬性。 圖2是本發明的一資訊摘取程式實施例所用之一例示狀 態變換圖。 圖3示出一可能的變換路徑表。 圖4示出本發明的一資訊摘取程式可使用之例示符記類 型。 經濟部智慧財產局員工消費合作社印製 圖.5示出利用圖4所示各符記類型而被分割成若干符記之 一樣本文字序列。 圖6示出一樣本網頁之HTML文字序列(原始碼)。 圖7是本發明的資訊摘取程式的一替代實施例1狀態變 換圖。 圖8是配合本發明的替代實施例而使用之一例示狀態變 換圖。 圖9 ( a )示出圖1 ( b )中以箭頭指示包含屬性的本體邊界之 -8- 本紙張尺度適用令國國家標準(CNS)A.l規格(210x297公釐) 46 642 6 A7 ________B7 五、發明說明(6 ) HTML文字序列。 <請先閱讀背面之注意事項再填寫本頁) 圖9(b)不出圖1(b)中以箭頭指示屬性邊界之HTML文字 序列。 圖10示出一標'^己表文件實例。 圖Π是自一標記表文件摘取屬性的一本發明實施例所用 ί 之一例示狀態變換圖。 圖12(a)示出自圖10所示標記表文件摘取的_屬性表實 例。 圖12 ( b )示出一資訊摘取程式利用圖1 1所示狀態變換圖 而摘取的標疋及值屬性表之一實例。 4 圖13示出一具有以方框包封的屬性之樣本文字序列a 圖14是產生本發明的資訊摘取程式所用的摘取規則之流 程圖3 圖l5(a)示出一具有符記八1,八2,...八20之樣本文字序 列。 圖15 (b )示出在圖15 (a)所示樣本文字序列内的狀態X及 狀態N之範圍。 ' 經濟部智慧財產局員工消費合作社印製 圖l5(c)示出左及右上下文之定義。
圖16示出根據本發明的一學習程式實施例所用之符記類 別定義。 A S 圖17 ( a )示出一第一組上下文規則。 圖17 ( b )示出一第二組上下文規則。 圖17 ( c )示出一第三組上下文規則。 / 圖18是產生根據本發明一實施例的一上下文規則之流程 _ -9- 私纸張尺度適用中國國家標準(CNS)A4規格(210 x 297公·爱 4 6 6 4 2 6 A7 B7 五、發明說明(7 ) 圖。 圖19示出自一文字序列摘取屬性名稱、學術頭銜、及行 政管理頭銜的一組上下文規則。 圖20示出圖π中具有標示為B1、B2、B3、及B4的每 一資料項的第一屬性的第一符記之樣本文字序列。 f 詳細說明: 請參閱圖2,一狀態變換圖(200 )代表本資訊摘取程式的 一實施例中使用的狀態變换規則。在該實例中,該資訊摘 取程式是一適於自一文字序列摘取屬性U R L ( U )、名稱 (N)、學術頭銜(A)、及行政管理頭銜(M)之單次掃描資訊 , 摘取程式。輸入文字序列可來自諸如圖I (a)所示網頁的一 網頁,或者該輸入文字序列可以是由一具有類似屬性的文 書處理程式所產生的一文件。在將該輸入文字序列傳送到 該資訊摘取程式之前,先將該輸入文字序列分成若干符 記。因此,該資訊摘取程式接收該輸入文字序列、及指示 每一符記的位置之一偏移數目序列。該資訊摘取程式可在 一具有(U,N,A,M)、(U,N,A)、或(N,A)序列的資料錄 内摘取屬性。如果一輸入文字序列具有不同的屬性,或者 具有不同的屬性排列,則該單次掃描資訊摘取程式將也具 有一組不同的狀態變換規則= _ 術語“屬性”(“ attribute ”)亦用來意指為具有相同特徵的 符記序列的一子集之一組連續符記=例如,屬性U可代表 用來形成一 URL網址之一組連續符記。是URL網址一/部分 的一符記屬於屬性U。同樣地,屬性N可代表用來形成一 -10 - 本紙張尺度適用十國國家丨票準(CNS)A丨規格(210x297公釐) t请先閱讀背面iA意事读矜填寫本頁) 1^1 -- - XJ— frOJI κ I n I I 1 · 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 五、發明說明(8 ) 個人名稱之一组連續符記^術語》狀態,’(“ state,,)係用來作 為描述一資訊摘取程式的動作之一速記或標籤。術語“摘 取程式”在本文中係用來意指資訊摘取程式。當該摘取程 式係處於狀態U時,意指該摘取程式正在執行與摘取屬性 U相關聯的功能 <=摘取一屬性可包括讀取—序列的符*己並 輸出該等符記序連而形成一單一字串之動作^當該摘取程 式進入狀態U,時,意指該摘取程式正在執行與讀取位於屬 性U與次一屬性間之符記相關聯的功能。虚擬屬性是一種 不屬於任一屬性的符記序列。 當該摘取程式係處於狀態b / e (開始/結束的縮窝)時 # 意指該摘取程式正在讀取在一資料項的最後—個屬性與次 一資料項的第一屬性間之各符記。狀態b / e亦可意指該摘 取程式正在執行與讀取在該輸入文字序列的第—屬性之前 的各虛擬符記相關聯之功能。狀態b / e亦可意指該摘取程 式正在執行與讀取在該輸入文字序列的最後—個屬性之後 的各虛擬屬性相關聯之功能。在某些應用中’係將 GB(GlobalBegin(整體性開始)之縮窝)狀態定義為與讀取 該第一屬性之前的各符記之動作相關聯。同樣地’係將 G E ( GlobalEnd (整體性結束)之縮窝)狀態定義為與讀 取文字序列中最後一個屬性之後的各符記之動作釦關聯。 術浩上下文規則”意指將一符記的上下文與一组預定符 1己模式比較而檢查是否有一相符者。一符記的上下文包括 正在考慮的符記、及或有的在該符記之前及(或)之後的 各符記。例如,假設輸入文字序列為: -11 - 本纸張尺度適用ΐ國國家標準(CNS)A,1規格(210 X 297公髮) (請先閲讀背面之注意事項再填寫本頁) '- I ϊ 1 —'* I — 訂---------線! 經濟部智慧財產局員工消費合作社印制π A7 46 642 6 _ B7_____ 五、發明說明(9 ) <DT><A HREF=“http://www.cs.caltech.edu/people/mani.html,,> 且符記“ http ”識別自狀態b / e到狀態υ之變換,則一上下 文規則可以是: 如果左上下文=‘ ‘ HREF = ’ ’,且 右上下文=‘ ^ http : / / ’ ’, ( 則自狀態b / e變換成狀態U。 左及右上下文的基準點是在正在考慮的符記(“ http,,) 之前的位置。因此,“左上下文,,意指在“ http ”之前的一個 或多個付兄,且右上下文意指“ http ’’及一些額外的符記 '、‘/,、及/ 。左上下文及右上下文中含有的符記數 目係隨著上下文規則而變°例如,—上下文規則可能要求 左上下文包含3個符記且右上下文只包含—個符記。另— 上下文規則可能要求右上下文包含兩個符記,而並不要求 對左上下文作比較。 在一資料項内,我們界走一虛擬屬性U,包含在屬性U與 次一屬性之間的所有符記。同樣地’我們界定一虚擬屬性 N,包含在屬性N與屬性A之間的所有虛擬符記。虛擬屬性 A ’包含在屬性A與Μ之間的各虚擬符記。 圖2中之狀態變換圖代表當該摘取程式自輸入文字序列 中的-資料項摘取屬性U、Ν、Α、及(或)摘取程 式可進入的不Μ列之t態。該摘W呈式開始於狀態b/e (2 0 2 ),然後讀取-符記’並決定該符記是否屬於一屬 性。在本實例中,一資料項内的第一屬性必須是σ 。 因此,有—條自狀態b/e (2〇2)至狀態α (2〇4)之變換 ______12_ 紙張尺度適t g g家標準(CNS)Al規格(210 X 297 $餐) ---- ---- (請先閱讀背面之注音?事項再填寫本頁) 訂---------線! 埕濟部智慧时產局員工消費合作.社印製 466426 A7 ---— _________ 五、發明說明(1〇 )
路徑(2 1 8 )、以及另一條自狀態b / e ( 2 〇 2 )至狀態N (2 0 8 )之變換路徑(2 2 0 )。如果該符記並不屬於屬性 U或N,則如路徑(2 2 4 )所示,該摘取程式停留在狀態 b/e ( 2 0 2 )。 請參閱圖3,圖中示出圖2所示狀態變換圖界定的該摘取 程式之可能狀態變換。對於圖3中列出的每一可能狀賤變 換而言,都有一個圖2所示之一對應變換路徑。自狀態u (2 0 4 )至狀態U ( 2 0 6 )的變換意指:偵測到屬性口的 結尾,且現行符記(及或有的在其後的各符記)是一個不 屬於任何屬性的虚擬符記。自狀態U’( 2 0 6 )至狀態Ν (2 0 8 )的變換意指:偵測到狀態ν ( 2 0 8 )的開始,且 現行符記(及或有的在其後的各符記)屬於屬性Ν。當該 貪訊摘取程式自圖1 (b)所示的第二資料項摘取屬性υ、 N、及A時,該資訊摘取程式進入各狀態13/6_1;_1;,->^ N ’ - A - b / e =在摘取一資料項内的最後一個屬性(a )之 後’違摘取程式轉移到狀態b / e ( 2 0 2 ),意指現行符記 是一個位於該次一資料項的第一屬性之前虛擬符記。 有兩個離開圖2所示狀態b / e ( 2 0 2 )之變換路徑。該摘 取程式利用上下文規則決定要採取哪—條路徑。每一路捏 都有一對應的上下文規則。如果一符記的上下文*符合—變 換路徑之上下文規則,則根據該上下文規則而轉移到該狀 態。例如,與狀態b / e ( 2 0 2 )至狀態U ( 2 0 4 )的變換相 關聯的上下文規則可以是 規則 1 :如果左上下文= Calph(HREF)Punc(=)punc(,,),且 -13- 本紙張尺度適用中國國家標準(CNSM4規格(2丨0 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) -----h---訂---------線. 經濟部智慧財產局員工消費合作钍印製
466426 五、發明說明) 上下文=〇dPh(h«P)Punc(:)Punc(/)Punc(/), 則自狀態b / e轉移到狀態u ^ —(請注意,符記類別Calph()代表具有所有大寫字母的 平串。符記類別Punc〇R表標點符號。符記類別〇alph() 代表具有所m字母的字卜這些情形詳述於圖4 〇 — 卜又為子串href = ”,,,且右上下文為 串http,// 。與狀赵b/e (2〇2)至狀態n (2〇8)的 變換相關聯之上下文規則可以是 規則2:如果左上不文= Html(<B>),且 右上下文= CUlph〇, 則自狀態b / e轉移到狀態n。 ’ (清汪意,符記類別Html()代表所有的HTML標記, 且符記類別Cla丨ph()代表以一個大寫字母開始且具有至 少一個小寫字母之字串。符號“ —,,代表萬用字元’因而以 一大寫字母開始並具有至少一個小寫字母的任何字串都將 符合符記模式C 1 a 1 p h (—)-) 如果一符記的上下文滿足規則丨,則將採用自狀態b/e (2 02)至狀態U (204)之變換路徑。另—方面,如果 一符記的上下文滿足規則2,則將採用自狀態b / e ( 2 〇 2 ) 至狀態N ( 2 0 8 )之變換路徑。否則,該摘取程*式停留在 狀態b / e ( 2 0 2 ),並繼績讀取符記,直到滿足兩個規則 中的一個規則為止。 在某些應用中,在第一個b/e狀態之前加上一個g B_J"狀態 且在瑕後一個b / e啤.恐之後加上一個g e狀態是可行的。這 -14 - 本紙張尺度適用中國國家標準(CNS)A-l規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) -----1— 訂---------線, 經濟部智慧財產局員工消費合作社印製 46 642 6 Λ7 E7 經濟部智慧財產局員工消費合作社印製 五、發明說明(12 ) 是因為第一資料項中的第-屬性的第—符記之左/右上下 文可以不同於第二資料項中的第一屬性的第一符記之左/ 右上下文。同樣地,最後-個資料受中的最後—個屬性的 最後-個符記之左/右上下文可以不同於第二至最後一個 資料項中的最後一個屬性的最後—個符記之左/右上下 . Γ 又。 請參閱圖4,現在將說明用來將一文字序列符記化所用 之符記類別。第一行列出符記類別的名稱,第二行列出符 記的模式’第三行描述符記類型,而最後一行列出符記的 長度。可根據特定的應用而界定其他的符記類別。將於後 文中說明的學習程式可利用不同的符記類別來產生左/右 上下文模式。 請參閱圖5,圖1 ( b )所示Η T M L原始碼的第二行之文字 序列被分割成若千符記。第一符記是一 Η T M L標記 “<DT>”,第二符記是一空白字元“”,且第三符記是一 Η T M L標記“ < A ”,依此類推。第七符記是標點符號“ / ”, 第十二符記是字_ “www”,且第十三符記是標點符號 “”,依此類推。 符記1 ( “ < D T > ”)的左上下文是一新行的字元(該字 元是圖1(b)所示前一行的結尾,且並未示於圖5)。因 此,符記1並不滿足規則1或規則2。符記2、3、4 ' 5、 6、及7並不滿足規則1或規則2。符記8滿足規則1 ,因為 符記8的左上下文是“ H R E F = ” ”,且符記8的右上下文是 “ h 11 ρ : / /,,。因此,在符記8上,該摘取程式自狀態b / e -15_-_ 本紙張尺度適用中S國家標準(CNS)A-l規格(210 χ 297公.¾ ) (請先閱讀背面之涑意事痏再填寫本頁) I — ---- I I ^ ---------. A7 4 6 6 4 2 6 五、發明說明(13 ) (2 0 2 )轉移到狀態N ( 2 〇 8 )。於:士 下,符記8的左/右上下文之隔 卢、在我們的疋義 f ^離點係在引號(“)與字元 上下文規則要求該摘取程式向 —、 仗子並颉取一些額外的 付兄,以便比較右上下文。例如 风⑴1要求菽摘取程 讀取額外的三個符記,以便比較右 , 杈右上下又,這是因為 “ h 11 p : / / ”包含四個符記。需要诗饱 而要讀取的特定數目之額外符 記係取決於該组特定的上下女掘目,丨—上、 卜又規則。该摘取程式開始時可 謂取咸等上下文規則所需的某一數目之符^己。 識別自任何其他狀態變換成狀態A的—上下文規則之另 一實例可以是: ^ 規則3 :如果左上下文= Html(<DD>)Html(<I>),且 右上下文= Clalph(_), 則轉移到狀態A。 規則3要求左上下文是一 Η T M L標記“ < D D > 及接續的 另一 Η T M L標記“ < I > ”。此外’右上下文必須是以一大寫 字母開始並具有至少一個小寫字母的一字串。 請參閱圖6 ,具有與圖1 ( a)所示網頁稍微不同的内容及 配置格式的一網頁具有與圖1 ( b )所示Η T M L文字序列稍微 不同的一 Η T M L文字序列(或原始碼)。因此’Λ-摘取程 式將利用不同的上下文規則來識別在與自該網頁摘取不同 屬性相關聯的各狀態間之變換。在該實例中,自任何其他 狀態變換成狀態Α的上下文規則可以是: 規則4 :如果左上下文^HtmlG/AyPuncOSpcOHtmlCci〉) -16- _ k纸張尺度適用令國國家標準(CNS)A4規格(210 X 297公釐) f請先間讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制衣 -^1 AT I '^OJ» I . u n n 1^1 I n i n m n ϊϋ ϊ l^i 1 經濟部智慧財產局員工消費合作社印製 Α7 Β7______ 五、發明說明(14 ) 或
Punc(_)NL(_)Spc(_)Html(<I>)或
Punc(,)Spc(_)Html(<[>)及 右上下文= Clalph(_), 則轉移到狀態A。 f 規則4要求左上下文是(i ) 一 Η τ M L標記“ < / a >,’及接 續的一逗號、任何數目的空白、及一 HTML標記“<ι>” ; 或(i i )任何標點符號及接績的一行新的字元、任何數目 的空白、及一'^丁^^!>標記“<1>” ;或(in) —返號及接續 的任何數目的空白及一 Η τ M L標記“ ·< I > ”。規則4要求右 9 上下文必須是以一大寫字母開始並具有至少一個小寫字母 的一字串。 請參閱圖7,狀態變換圖(7 0 0 )代表本發明資訊摘取程 式的另一實施例所使用的狀態變換規則。該資訊摘取程式 是一具有狀態b/e、U、N、A、Μ、及D。該資訊摘取程 式適於自一輸入文字序列摘取屬性U、Ν、A、及Μ。該輸 入文字序列可來自諸如圖i(a)或圖6所示之一網頁,也可 以是由一具有類似屬性的文書處理程式所產生之一文件。 該摘取程式可處理具有以任何排列序列出現的屬性U、 N、A、及Μ之文件。例如,該摘取程式可處理*一具有屬 性(M,A,U,N)之資料項。根據圖2而說明之該單次掃描摘 取程式無法處理該序列°圖7所示之圖示只是作為一個例 子"如果一輸入文字序列具有不同的屬性,則該通用/單次 掃描資訊摘取程式將也具有一組不同的狀態變換規則。 -17- 本紙張尺度適用中國國家標準(CNS)iY1規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ► 0 I I a^i 1 n H 一aJ n I - 4 b 6 4 2 6 A7 ___B7_______ 五、發明說明(15 ) (請先閱讀背面之注意事項再填寫本頁) 該摘取程式通過狀態b/e-U-D-N-D-M-b/e,即可處 理一具有屬性(U , N , Μ )之資料項。當該摘取程式處於狀態 D時,該摘取程式正在讀取位於各屬性間之虛擬符記。該 摘取程式開始於狀態b / e ( 7 0 2 )。該摘取程式讀取各循 序之符.記,並經由路徑(7 2 6 )而停留在狀態b/e
I 線! 經濟部智慧財產局員工消費合作社印製 (7 0 2 ),直到識別一個屬於屬性U之符記為止。該摘取 程式然後經由路徑(7 0 4 )而轉移到狀態U ( 7 0 4 )»該 摘取程式讀取符記,並經由路徑(7 2 8 )而停留在狀態 (704),直到識別一個不屬於屬性U的符記為止。該摘 取程式儲存(或輸出)所摘取的屬性U ,然後經由路徑 C 7 1 4 )而轉移到狀態D ( 7 1 2 )。該摘取程式讀取符 記,並經由路徑(7 3 0 )而停留在狀態D ( 7 1 2 ),直到 識別一個屬於屬性N的符記為止。該摘取程式經由路徑 (7 1 6 )而轉移到狀態n ( 7 0 6 ),摘取屬性N,然後經由 路徑(7 1 8 )而再度轉移到狀態〇 ( 7丨2 )。該摘取程式 然後經由路徑(7 2 2 )而進入狀態Μ ( 7 1 0 ),摘取屬性 Μ,然後經由路徑(724 )而進入狀態b/e ( 7〇2 ),至此 終止了該資料項的摘取週期。 請參閱圖8,一狀態變換圖(8 0 0 )代表本發明資訊摘取 程式的另—實施例所使用之狀態變換規則=該資*訊摘取程 式是適於摘取—輸入文字序列中的屬性U、N、A、及Μ之 多’入知疮#訊摘取程式。如果一輸入文字序列具有不同 的屬性,則該多次掃描資訊摘取程式機也具有一組不同的 狀態變換規則。 ___ -18 - 本纸張尺度適用中國^^準(CN5A ⑵Q χ 297公楚) ~ ~ 4 b 〇 ^ 2 6 a? ______ B7 --------- —--- 五、發明說明(16 ) 採用圖8所示變換規則的—資訊摘取程式具有相同的六 個資訊摘取程式(8 02 ) 、 ( 8 04 ) 、 ( 8〇6 )、 (808) 、(81〇)、及(812),每一資訊摘取程式對 輸入文字序列執行部分的摘取。摘取程式(8 〇 2 )掃描輸 入文字序列,並找出輸入文件中被稱為“本體”的部产,該 本體部分以第一屬性開始並以最後一個屬性終止。 請參閱圖9(a),指向第2行的“h”之第一箭頭示出第一屬 性的開始,而指向第1 〇行的“ e ”之箭頭示出最後一個屬性 的終止。摘取程式(802)找出圖9(a)中的該第一及第二 箭頭所指示之偏移值,並將這兩個偏移值連同該輸入文字 序列傳送到摘取程式(8 0 4 ) 。 · 圖8中之狀態g B ( 8 1 4 )代表摘取程式正在執行與讀取 第一屬性之如的各虛擬符記相關聯的功能之狀態=狀態本 體(816)代表該摘取程式正在執行與讀取該本體部分内 的各符記相關聯的功能之狀態,其中該本體部分包含第一 及最後一個屬性、以及在上述兩個屬性之間的文字序列。 在讀取了最後一個屬性的最後一個符記之後,該摘取程式 即進入狀態GE (818)。一個標示為(GB,本體)的上下 文規則係與自狀態G B ( 8 1 4 )至本體(8 1 6 )的變換路徑 (824)相關聯。另一個標不為(衣體,ge)的上下文規 則係與自本體(8 1 6 )至狀態G E ( 8 1 8 )的變換路徑 (8 2 〇相關聯。 圖8所示之摘取程式(8 0 2 )開始於狀態G B ( 81 4)。 該摘取程式讀取一符記,並將該符記的上下文與上下文規 -19- 本纸張尺度適用中國因家標準(CNSM-1規格(210 X 297公f ) (請先閱if背面之注意事項再填寫本頁) -n I 1 r— · J.T a =0 -線— 經濟部智慧財產局員工消費合作社印製 五、發明說明(17 ) 貝|J ( G B,本體)比較。因為該輸入文字序列的第一屬性是 屬性U或屬性N ,所以上下文規則(G B ,本體)實際上包 含規則(G B,U )及(G B,N )。該規則(G B,U )識別狀態g B (814)至狀態U之變換(圖中未示出)。該規則(G B,N ) 識別自狀態G B ( 8 1 4 )至狀態N之變換(圖中未示出)。 如果滿足了規則(G B,U )或規則(G B,N ),則摘取程式 ( 8 02 )進入狀態本體(8 1 6 );否則,摘取程式 (8 0 2 )停留在狀態G B ( 8 1 4 )。在該摘取程式進入狀態 本體(816)之後,該摘取程式儲存第一符記、及該第一 符記的開始處之偏移值。該摘取程式然後讀取次一符記, 並將該符記之上下文與上下文規則(本體,G E )比較。如 果並不符合規則(本體,G E ),則摘取程式(8 0 2 )儲存 該符記,停留在狀態本體(8 1 6 ),並繼績讀取次一符 記。如果滿足規則(本體,G E ),則摘取程式(8 0 2 )進 入狀態G E ( 8 1 8 ),儲存最後一個屬性的終止處之偏移 值。並終止摘取程式(802)之處理。摘取程式(804) 然後繼續進行摘取處理。 請參閱圖9 ( b ),各箭頭指示用來代表摘取程式(8 0 4 ) 產生的各偏移值之各屬性開始及終止處。當摘取程式 (8 0 4 )處於狀態T u p 1 e ( 8 2 0 )時,即摘取該萼屬性。 狀態Tuple’(822)意指摘取程式(8〇4)正在讀取位於 各屬性間之各虛擬符記時之狀態。摘取程式(8 〇 4 )接收 輸入文字序列、及由摘取程式(802)產生的兩個偏移 值,並重複摘取該等屬性,而無須識別該屬性是屬性U、 -20- 本纸張尺度適用中國圉家標準(CN'S)A.l規恪(210 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) "'----r---訂---------線 — 經濟部智慧財產局員工消費合作社印製 A7 B7_^ 4 6 b42 β 五、發明說明(18 ) (請先閱讀背面之注意事項再填寫本頁) N、A、或Μ。摘取程式(8 0 4 )的輸出是所有屬性的開始 處及終止處之偏移值。在找到該等偏移值之後,呼叫四個 摘取程式(806) 、(808) ' (810)、及(812),以 便分別摘取屬性U、Ν、A、及Μ。 本發明_的單次掃描及多次掃描資訊摘取私式可處亨具有 資料項缺少某些屬性之文件°例如,某一教職員可能没有 一行政管理頭銜,而另一教職員可能沒有一 URL網址=本 發明之摘取程式也可處理具有多個屬性(例如某一教職員 可能具有兩個或更多個行政管理頭銜)之文件。該等摘取 程式亦可處理具有不同的屬性順序之文件。例如,一網頁 Ψ 可以有學術頭銜出現在行政管理頭銜之前的數個資料項, 但是也有學術頭銜出現在行政管理頭銜之後的—個資料 項。 經 濟 部 智 慧 財 產 局 員 X 消 費 合 社 印 製 請參閱圖10* —標記表文字序列(1000)具有五個資 料項。每一資料項包含屬性“名稱”、“電子郵件,,' “上次 更新曰,,、“別名”、“組織”、及(或)“服務提供者,,。文 字序列(1000)不同於圖1(b)所示之文字序列,這是因 為文字序列(1 0 0 0 )包含每—屬性(此處稱為“標記 值”)之属性名#(此處稱為“標記,,)。—摘取程式 取屬性名稱及屬性(“標記及值對,,),然後進行 步驟,以便將該標記及值對轉換成屬性值之資料重元舍 請參閱圖1 1 , 一狀態變換圖(} 0 0) 兀組。 摘取程式的一實施例摘取一標記表文 :、讯 7以所用疋般能镒 換規則。該摘取程式適於摘取Μ地押— '^ 心兒及值(Val 。# 本紙張足度適用中國國家標準(CNS)A4現烙(210 X 297¾- 4 〇 〇42 〇 A7 ___B7 五、發明說明(19 ) (請先閱讀背面之>i意事項再填寫本頁) 該摘取程式處於狀態T a g ( 1 1 〇 2 )時,該摘取程式正在摘 取屬於屬性T a g的各符記,例如“名稱”或“電子郵件”。當 該摘取程式處於狀態V a 1 ( 1 1 〇 6 )時,該摘取程式正在摘 取屬於屬性Value的各符記,例如“‘Lithlum,j smith”、或 “aulmer@u.washmgton,edu”等。當該摘取程式處;^狀態 丁 ag' (1104)及狀態Val1 (11〇8)時,該摘取程式正在 摘取虛擬符記。 請參閱圖12(a),試圖自圖10所示文字序列中的第一資 料項摘取的屬性為《名稱,,、“電子郵件,,、“上次更新 曰’’、及“組織”。圖1 2 (b)示出一資訊摘取程式利用圖1 1 9 所示狀態變換圖摘取的標記及值屬性。請注意,該摘取程 式並不能區分具有不同内容的各標記屬性和值屬性間之差 異。一後處理程式然後可將圖i 2(b)所示之標記及值輸出 轉換成圖12(a)中之屬性表格式。 產生變換路徑: 經濟部智慧財產局員工消費合作社印製 根據本發明,提供了一學習程式,用以產生一資訊摘取 程式所用之變換路徑。在一實施例中,首先將代表一目標 文件之樣本文字序列提供給該學習程式。一使用者將該樣 本文字序列内的各屬性反白,然後識別哪一反白部分與哪 一屬性相關聯。在後文的說明中,將使用圖1 ( ί)所示之 Η T M L序列作為樣本文字序列。 請參閱圖13,一使用者利用一GUI將一顯示營幕上的各 屬性反白3此處,係以方框包封這些屬性。然後該學習程 式以互動方式提示該使用者輸入每一反白部分的屬性名 -22 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 4 6 6 42 6 A7 ------ B7 五、發明說明(2〇 ) 稱。該學習程式可利用該使用者所提供的這些反白部分及 屬性名稱來識別一資料項内的不同屬性組合。例如,該學 習程式可識別具有四個資料項且# —資料項分別具有資料 重元組(U,N,A,M)、(U,N,A) ' (U,N,A)、及(N,幻之 樣本文字序列。可利用其他標示屬性的方法來適應梦定的 GUI或其他類型的輸入裝置, ' 請參閱圖1 4 ’ 一流程圖(丨4 〇 〇 )代表用來產生—組變 換路徑之程序。該學習程式開始於步驟(14〇2) d在步 驟(1404)中,該學習程式檢查每一資料重元組之第一 屬性。在該實例中,該第一屬性是U或n。為是—資料重 元組的第一屬性之每—此類屬性丨產生一條自狀態b / e至狀 態ί的變換路徑。因此,產生變換路徑(b/e —u )及 (b / e ^.N )。 在步驟(1 4 0 6 )中,該學習程式找出接續發生的所有可 能之屬性對。可能的屬性對是dN)、(N,a)、及 (A,Μ )。在步驟(1 4 〇 6 )中,為每一接續發生的屬性對 (j,k )產生一條自狀態j至狀態j ’之變換路徑;並產生一條 自狀態j ’至狀態k之變換路徑》狀態j,是一假狀態,且代 表該摘取程式正在讀取屬性j之後的一虚擬符記之狀態。 在步驟(1 4 0 6 )中產生各變換路徑(U —U ’)、( ll· —N )、 (Ν —Ν’)、(Ν’ —A)、(A—A’)、(A,->M)。 在步驟(1 4 0 8 )中,該學習程式檢查以便確定哪一屬性 是每一資料重元组的最後一個屬性。此處,該最後一個屬 性可以是A或Μ。在步騾(1408)中,為每一此類最後一 -23- _ 本纸張尺度適用中國國家標準(CNS)A4覘恪(210 X 297公釐) t請先閱讀背面之注意事項爯填寫本頁)
% -----Jr II ^ ·11111---I 經濟部智慧財產局員工消費合作社印*1衣 4 b t> 42 6 A7 B7 五、發明說明(21 ) 個屬性m產生一條自狀態111至狀態b/e的變換路徑。在步騾 ( 1408)中,產生變換路徑(A—b/e)&(M—b/e)。在步 驟(I 4 1 0 )中終止了該變換路徑產生程序。在本實例中 共產生了 10條變換路徑。這些變換路徑與圖3所示之變換 路徑一致。 t 產生上下文規則: 根據本發明,該學習程式可進一步產生用來決定何時進 入或離開一狀態的上下文規則。當自一狀態分支出多條變 換路徑時,亦利用該等上下文規則來決定採取哪一條變換 路徑。將一個具有一使用者正確標示的屬性之樣本文字序 列供給遠學習程式》該學習程式然後利用一 “設定涵蓋” 演算法來涵蓋所有的“肯定符記實例”,並排除所有的“否 定符記實例”,而產生上下文規則。肯定符記實例是其上 下文符合上下文規則的符記。否定符記實例是其上下文不 符合上下文規則的符記。 請參閱圖1 5 (a ),現在利用一個具有符記a 1 、 A2、...A20的樣本文字序列來說明用來產生一上下文規 則之方法。該文字序列具有一個包含符記A 1 6至A 1 8之名 稱屬性 “YaserAbu-Mostafa”。符記 A1 至 A15、及 A 1 9、A 2 0是虚擬符記。 · 請參閱圖15(b),當讀取屬性名稱之前的各虛擬符記 時,界定該摘取程式係處於狀態X ;且當讀取屬於屬性名 稱的各符記時,界定該摘取程式係處於狀態N。可將·用來 識別自狀態X變換成狀態N的上下文規則窝為如下: -24- 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公楚) <諳先閱讀背面之注意事項再填寫本頁) 於----- 訂---------線- 經濟部智慧財產局員工消費合作杜印製 >46642 6 A7 ______B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(22 ) 規則5 :如果左上下文=Lp (左上下文模式)且 右上下文=RP (右上下文模式), 則自狀態X轉移到狀態N。 目標是找到左上下文模式(Lp)及右上下文模式 (RP) 。LP/RP只應符合符記A16的左/右上下冬,且 不應符合符記A1至Al5之左/.右上下文。符記AI6是一 “肯定樣本’’的一實例,且符記A i至A丨5是“否定樣本,,的 實例。肯定樣本是上下文規則應正確符合的一符記,而否 定樣本是上下文規則不應符合的一符記。一般而言,可以 有一個以上的肯定樣本。上下文規則應符合每一肯定樣 本,且不應符合任一否定樣本。在該實例中,目標是找到 L P / R P ,使該摘取程式將規則5應用於符記a丨至a 1 6時, 該摘取程式可在符記A 1 6上正確識別自狀態X至狀態n的 變換。 請參閱圖15(c),符記A16的右上下文之第一符記是 A16,A16的右上下文之第二符記是ai7,其他依此類 推°符記A 1 6的左上下文之第一符記是a 1 5,A 1 6的左上 下文之第二符記是A14,其他依此類推。 这學習程式開始時採取A 1 6的左上下文之第一符記,—以 便產生一左上下文模式。該左上下文模式是包含\丨6的左 上下文的第一符記之一符記類別。因為A 1 5是一 Η T M L標 記“ < β > ”,所以該左上下文的第—符記之左上下文模式可 以是Html (一)或ptag(_)。圖i 6中列出該學習程式所使用 的各符記類別= -25- (請先閲讀背面之注意事項再填寫本頁) n ϋ n 訂· --------線— 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) A ο u42 6 a? ___B7 ___ 五、發明說明(23 ) 請參閱圖1 7 ( a), —試驗性上下文規則可以是: 規則6 :如果左上下文=H t m 1 ( _ ), 則自狀態X轉移到狀態N。 具有一 Η T M L標記作為左上下文的第一符記之任何符記 將滿足規則6。將規則6應用於符記A i至A I 5時,带記模 式Html(_)符合否定樣本A2、A10、A13、及A15之左 上下文=將肯定符合計數(p)定義為符合的肯定樣本數, 並將否定符合計數(η)定義為符合的否定樣本數。此處, p = 1 且 η = 4。 因為“<Β>”也是符記類別ptag(_)的一成員,所以另一 試驗性上下文規則可以是: 規則7 :如果左上下文= ptag(), 則自狀態X轉移到狀態N。 符記模式Ptag(_)符合否定樣本A2、A10、A13、及 A15之左上下文。因此,p=1且n = 4。 該學習程式然後採取A 1 6的右上下文之第一符記,以便 產生一右上下文模式。在該實例中,A16是一字 “Yaser”,因而該右上下文的第一符記之右上下文模式可 以是 Word(_)、CNalph(_)、或 cialph(_)。這三個符 記類別都符合符記“ Y a s e r ”。 * 規則8利用W〇rd(_)作為右上下文模式。將评(^(1(_)與 符記A1至A15的右上下文比較時,w〇rd(_;)符合否定樣 本A2、A4、A6、及A8之右上下文。因此,口=1且11 = 4。 對於規則9而言,CNalph(_)亦符合四個否定樣本的右上 -26 - 本紙張尺度適用中國國家標準(CNS)A4規烙(210 X 297公釐) (靖先閱讀背面之注意事項再填寫木頁) %---- 訂---------線— 經濟部智慧財產局員工消費合作社印製 經濟部智慧財產局—工消費合作社印製 A7 B7 五、發明說明(24 ) 下文,因此,P=1且n = 4。對於規則10而言,Claiph(」 符合否定樣本A2、A6、及A8的右上下文,因此,p=l且 n = 3。 將規則6與規則1 〇比較時,規則1 〇得到最少的不正確比 對(符合一個否定樣本)。該學習程式通常選擇可得到最 t 大(p - n ) / ( p + η )值的試驗性上下文規則。如果將兩個規則 應用於各相關符記時可得到相同的(p - n ) / ( ρ + η )值,則將 選擇具有含蓋範圍較大的一符記類別之規則作為找出完整 的上下文規則之基礎。例如,該學習程式將選擇規則8而 不選擇規則9,這是因為w〇rd(_)有比CNalph(_)更寬廣 的範圍。規則1 0所用的上下文模式是不完整的,因為該規 則仍然符合某些否定樣本。 請參閱圖17(b),該學習程式利用CIalph(_)作為基 礎,並將一個符記模式加入左或右上下文模式,而找出次 一组的試驗性上下文規則。對於規則1〖而言,係將 H t m 1 (—)加入規則1 0的左上下文模式=因此,規則1 1變 為: 規則I 1 :如果左上下文=H t m 1 ( _)且 右上下文= Clalph(_), 則自狀態X轉移到狀態N。 " 此時,只需要將與符記A2、A6、及A8的左上 下文之第一符記比較。此處,符合A2的左上下 文之第一符記,因此,p=l且n=l。 對於規則1 3至1 5而言,該學習程式加入一個符合A 1 6的 -27- 本紙張尺度適用中國國家揲準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^---- 訂---------線— 4b 〇 A2 ό A7 B7 五、發明說明(25 ) 右上下文的第二符記之符記模式,而擴展右上下文模式。 A 1 6的右上下文之第二符記是屬於符記類別 Nonword(_)、Ctrl(_)、及Spc(一)之空白字元°對於規 則1 3而言,係將Ν ο n w 〇 r d (_)加入規則1 〇的右上下文模 式。因此,規則1 3變成: r 規則13 :如果右上下文= Clalph(_)Nonword(一), 則自狀態X轉移到狀態N。 該學習程式將Nonword(_)與符合規則1 〇的各否定樣本 的右上下文之第二符記比較。此處,Nonw〇rd(_)符合 A2及A6的右上下文之第二符記,因此,ρ=1且n = 2。對 t 於規則14而言,Ctrl(_)符合A2及A6的右上下文之第二 符記,因此,p = 1且η = 2。對於規則1 5而言,S p c ( _)亦符 合Α2及Α6的右上下文之第二符記,因此’ ρ=ι且η = 2。 比較規則1 1至1 5時,規則1 1及1 2可得到最少的不正確符 合。因為H t m 1 (」是一種比P t a g (_)更寬廣的類別,所以 該學習程式選擇規則1 1作為基礎,以便找出上下文規則的 完整上下文模式。 請參閱圖1 7 ( C ),該學習程式利用L p = H t ra 1 (_)且 RP = Clalph(_)作為基礎,並將一個符記模式加入左或右 上下文模式,而找出次一組的試驗性上下文規則' A丨6的 左 上下文 之第二 符記是 <AHREF=“http://electra.caltech.edu/EE/Faculty/Abu-Mostafa.htmr>。 該符記屬於符記類別H tm 1 ( _)及P t a g ( _)。將η t m 1 ()加 入規則1 1之左上下文模式,即可產生規則16 .將ptag(_) _ -28- 本紙張尺度過用中國國家標準(CNS)A4規格(210x 297公釐) f請先閱讀背面之注意事項再填寫本頁) 仅-----.----訂---------線丨 經濟部智慧財產局員工消費合作社印製 A7 46 B42 6 ___B7___ 五、發明說明(26 ) 加入規則I 1之左上下文模式,即可產生規則1 7。規則1 6 & · 疋 規則16 *如果左上下文= Html(_)Html(_)且 右上下文= Clalph(_), 則自狀態X轉移到狀態N。 該學習程式將H t m 1 (_)與符合規則1的各否定樣本的左 上下文之第二符記比較。此處,Html(_)並不符合各否定 樣本的左上下文之任何第二符記。因此,p==l且11 = 0。對 於規則17而言,Ptag(_)也不符合各否定樣本的左上下文 之任何第二符記。因此,p=l且n = 〇 -應用規則18—20 ♦ 時,皆將得到p = 1且n = I。因此,規則1 6及1 7係優於規則 1 8 - 2 0。選擇規則1 6作為最後的上下文規則,這是因為 是一個比Ptag(_)更寬廣的類別。因此,用來識 別自狀態X至狀態A的變換之上下文規則是規則1 6 = 圖18示出根據本發明一實施例而產生一上下文規則之流 程圖。該學習程式開始於步驟(1 8 〇 2 ),並在步騾 (1 8 0 4 )中自一使用者接收輸入,以便識別自一個狀態 至另一個狀態的變換之肯定樣本及否定樣本。自狀態X變 換成狀態N的一肯定樣本實例是圖1 5 ( c )中之符記A 1 6, 且否定樣本的實例是符記Al至A15。在步驟(1806) 中,該學習程式產生一系列符合該等肯定樣本的左上下文 的第一符記之左上下文模式。此種左上下文模式的例子有 及Ptag(_)。在步驟(1808)中,該學習程/式產 生一系列符合該等肯定樣本的右上下文的第—符記之右上 -29- 本紙張尺度適用中國國家標準(CNS)A4規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^*i I — ί I I .訂 ---------'5^ — 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(27 下文模式。此種右上下文模式的例子有Word(_)、 CNaIph(_)、及 CUlph〇。 在步驟(1 8 1 〇 )中,該學習程式將步驟(丨8 〇 6 )中產 生的左上下文模式與該等否定樣本的左上下文之第一符記 較’並決疋用來代表符合否定樣本的數目之η值。該學 Τ 丁 習程式然後將步騾(18〇8)申產生的右上下文模式與該 争否定樣本的右上下文之第一符記比較,並決定用來代表 符合否Α樣本的數目之η值。該學習程式選擇可得到最大 (Ρ-η)/(Ρ + η)值之上下文模式。該數目ρ代表肯定樣本的 數目。 在步驟(I 8 1 2 )中,該學習程式決定至此所產生的上下 文模式是否為完整的。如果步騾(18丨〇)中選擇的左/ 右上下文模式並不符合任何否定樣本,則該上下文模式是 完整的’且將程序的控制轉移到步騾(1 8 1 6 ),並利用 至此所產生的左/右上下文模式來輸出上下文規則。在步 驟(1812)中,如果在步驟(丨81〇)中選擇的左/右上 下又模式仍然符合任何否定樣本,則將程序的控制轉移到 步驟(1 8 1 4 )。增加一個符合該等肯定樣本的左(或 右)上下文的次一符記之符記模式,即可擴展該左(或 右)上下文模式。類似於步驟(18〇6)、(丨8“)、及 ¢1810)中所執行的動作,步驟(1814)通常需要產生 系列的上下文模式’並找出一個可得到最大(p . η)/(Ρ + ιι)值的上下文模式。重複步驟(丨812 )、 (1 8 1 4 )、及(丨8 1 0 ),直到產生一個並不符合任何否 k紙張尺度適用中國國家標準(CNS)A4規格(21〇χϋ_7公餐 (請先閱讀背面之注意事項再填寫本頁) ----訂---------線—
• ft— n tr ί ϋ n .^1 1 I 642 6 Α7 Β7 五、發明說明(28 ) 定樣本的左/右上下文模式為止。 請參閱圖1 9,規則2 1 - 2 8形成一组樣本上下文規則 且 一資訊摘取程式可利用該組樣本上下文規則自—類似於圖 1 ( b )所示文字序列的一文字序列摘取屬性“名稱,,、“學術 頭銜”、.及“行政管理頭銜”。利用規則2 1來識別自狀態 G B至狀態b / e之變換。利用規則2 2來識別自狀態b / e至狀 態N a m e之變換,其他依此類推。利用規則2 1 - 2 8之資訊 摘取程式具有八個狀態:G B、b / e、N a m e、@ n a m e A c a d e m i c _ t i 11 e 、 @Academic_title
Admin_title、及GE。狀態@Name意指摘取程式正在讀 ♦ 取屬性N a m e與次一屬性間的虛擬符記之一種假狀態。該 學習程式可根據圖1 8所示之流程圖而產生規則2 1 - 2 8中之 每一規則3 請參閱圖20,圖中示出已將圖13所示的每一屬性反白之 樣本文字序列。為便於解說,將四個資料項的第一屬性之 第一符記分別標示為B 1、B 2、B 3、及B 4。請注意,業 已識別符記B 1、B 2、及B 3屬於屬性U ,且B 4屬於屬性 N。下文的說明解說了用來產生一個具有圖2所示狀態變 換圖的資訊摘取程式的上下文規則之程序。在圖2中,.有 下列離開狀態b/e之路徑··變換路徑(b/S aU)及 (b / e ->N )。 為了產生變換路徑(b / e ->U ),該學習程式將符記B 1、 B2、及B3識別為肯定樣本,這是因為這些符記屬於·屬性 U。所有其他的符記都是否定樣本。該學習程式產生只符 -31 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ,4-----Γ — I·訂 i !-線丨 經濟部智慧財產局員工消費合作社印製 46642 6 A7 _____B7 —__ 五、發明說明(29 ) 合件記Bl、B2、及B3但並不符合其他符記的左/右上下 文模式。為了產生變換路徑(b/e—N)的上下文規則,該學 習私式首先將符記B 4識別為肯定樣本,這是因為該符記 屬於屬性N。將所有其他的符記識別為否定樣本。該學習 程式然後產生只符合符記B 4但不符合任何其他符記之左 » /右上下文模式。可以一類似方式產生具有其他變換路徑 之上下文規則。 本又所揭不的各實施例在各方面上都是作為舉例,而並 非對本發明加以限制。並非由前文的說明而是由最後的申 請專利範圍指示本發明之範圍,且本發明將包含在本發明 的等效權項的意義及範圍内之所有改鍵。 (請先閲讀背面之注意事項再填寫本頁) ---*訂---------線· 經濟部智慧財產局員X消費合作杜印製 32 n n n n n I I I HI— n n n _ 本紙張尺度適用ΐ國國豕標準(CNS)A4規格(210 X 297公釐)

Claims (1)

  1. A8 B8 C8 D8 〇 〇 4 2 〇 第88120033號專利申請案 中文申請專利範圍修正本(90年8月) 六、申請專利範圍 90. 8. 02 1. 一種自一符記序列摘取屬性之方法,該方法包含下列步 驟: 將第一組上下文規則應用於該符記序列的各循序符 記’而自該符記序列識別出一第一屬性之開始處,其中 該第一組上下文規則包括將該符記序列的一符記之一左 上下文及一右上下文與一組預定符記模式比較,以便決 定是否滿足該組預定符記模式中的—個預定符記模式; 以及 於識別出該第一屬性的該開始處時,儲存在識別該第 一屬性的終止處之前且接績在與該第一屬性的該開始處 相關聯的符記之後的各循序符記。 2. 如申請專利範圍第i項之方法,其中識別該第一屬性的 終止處之該步驟包含下列步驟:將第二組上下文規則應 用於該符記序列中在與該第一屬性的該開始處相關聯的 符記之後的各循序符記。 3. 如申請專利範圍第2項之方法,在識別該第一屬性的終 止處的該步驟之後,進一步包含下列步驟: 將第三組上下文規則應用於該符記序列中在與該第一 屬性的該終止處相關聯的符务之後的各循序符記,而自 該符記序列識別出一第二屬性之開始處,其中該第三組 上下文規則包括將該符記序列的一符記之一左上下文及 一右上下文與一组預定符記模式比較,以便決定是否滿 足該組預定符記模式中的一個預定符記模式; 於識別出該第二屬性的該開始處時,儲存在識別該第 C許先聞讀背面之注意事項再填寫本頁) 裝· •訂 經濟部中央標準局員工消費合作社印装 本紙張尺度適用中國國家標车(€呢)六4規格(21〇/297公董) A846 642 6 b| __ D8 經濟部中央榡隼局員工消費合作衽印策 六、申請專利範圍 即.8‘ 02 二屬性的終止處之前且接續在與該第二屬性的該開始處 相關聯的符記之後的各循序符記;以及 識別該第二屬性的終止處之該步驟包含下列步驟:將 第四組上下文規則應用於該符記序列中在與該第二屬性 的該開始處相關聯的符記之後的各循序符記。 4. 如申請專利範圍第3項之方法,其中該第一及第二屬性 屬於具有一預定數目的排列順序之一組預定屬性,且用 於該第三組上下文規則之該组預定符記模式包含根據該 組預定排列順序而識別自一個不與任何屬性相關聯的一 符記至一個與可能接續在該第一屬性之後的一屬性相關 聯的符記的一變換之若干符記模式D 5. 如申請專利範圍第3項之方法,其中該第一及第二屬性 屬於具有一預定數目的排列順序之一組預定屬性,JL用 於該第三組上下文規則之該組預定符記模式包含用來識 別自一個不與任何屬性相關聯的一符記至一個與屬於該 組預定屬性的任何屬性相關聯的一符記的一變換之若干 符記模式。 6. —種自一符記序列摘取具有一第一屬性的第一子集的符 記及具有一第二屬性的第二集的符記之方法,該方法 包含下列步驟: 將第一組上下文規則應用於該符記序列的各循序符 1己,而識別出該第一予集的符記之第一符記,其中該第 一组上下文規則包括將該符記序列的一符記之左及右上 下文與一組預定符記模式比較,以便決定是否滿足該組 -Γ-~~:----24--- 紙 本 释 冢 國 0 Τ 用 通 * 公 * . (請先Η讀背面之注意事項再填寫本頁) •V5 A8 6S C8 D8 90. 8. 466426 六、申請專利範圍 預定符記模式中的一個預定符記模式;以及 於識別出該第一子集的符記之該第一屬性時,儲存在 識別該第一子集的符記的最後一個符記之前且接續在該 第一子集的符記的第一符記之後的各循序符記。 7_如申請專利範圍第6項之方法,其中識別該第一子集的 符記的最後一個符記之該步驟包含下列步驟:將第二組 上下文規則應用於該符記序列中在該第一子集的符記的 最後一個符記之後的各循序符記。 8. 如申請專利範圍第7項之方法,在識別該第一子集的符 記的最後一個符記的該步驟之後,進一步包含下列步 驟: 將第三組上下文規則應用於該符記序列中在該第一子 集的符記的最後一個符記之後的各循序符記,而識別該 第二子集的符記之第一符記,其中該第三組上下文規則 包括將該符記序列的一符記之左及右上下文與一組預定 符記模式比較,以便決定是否滿足該组預定左及右符記 模式中的一個預定左及右符記模式;以及 於識別出該第二子集的符記之第一符記時,儲存在識 別該第二子集的符記的最彳象二' 個符記之前且接續在與該 第二子集的符記的該第一符記之後的各循序符記。 9. 一種自一符記序列摘取具有一第一屬性的第一予集的符 記及具有一第二屬性的第二子集的符記之方法,該第二 子集的符"I己出現在該第一子集的符記之後,該第一及第 二屬性係選自一組預定屬性,該方法包含下列步驟: 本紙張尺度逋用中國國家揉準(CNS ) A4規路(2丨0X297公釐) --;1!----t.----.---訂------^ {請先閲讀背面之注意事項再填寫本頁) 經濟部中央搮隼局負工消費合作社印裝 Α8 Β8 C8 D8 90. 8. 02 46 642 6 申請專利範圍 各循序符記,而識 符記的第一符記之 集的符記之最後一 符記的第一符記之 集的符記之最後一 符記的最後一個符 二子集的符記之第 (請先Μ讀背面之注$項再填寫本頁) .裝. 將第一組規則應用於該符記序列的 別出該第一子集的符記之第一符記; 將第二組規則應用於該第一子集的 後的各循序符記,而識別出該第二子 個符記; 將第三組規則應用於該第一子集的 後的各循序符記,而識別出該第—子 個符記; 將第四組規則應用於該第一予集的 記之後的各循序符記,而識別出該第 一 1己; '订 識別與該第一子集的符記相關聯之屬性;以及 識別與該第二子集的符記相關聯之屬性。 線 經濟部中央標準局員工消費合作社印製 10.如申請專利範圍第9項之方法,其中用來識別該第一子 集的符記的第一符記之該第一組規則包含:將一符記的 一左上下文及一右上下文與一組預定左及右符記模式比 較以便決定是否滿足該組預定左及右符記模式中的一左 及右符記模式之規則。 1L 一種自一符記序列摘取屬性方法,每一屬性包含至少 一個符記,該方法包含下列步驟: 接受複數個特徵在於根據一符記的左上下文及右上下 文而自該符記序列的一第一屬性變換成一第二屬性之規 則; 接受該符記序列:以及 本紙張尺度適用中國國家梯準(CNS ) Α4規格(210Χ297公釐) 經濟部中央梂隼局員工消費合作杜印*. 46 642 6 bs 「 ______ D8 六、申請專利範国 90. 8. 02 將該等複數個規則應用於該符記序列,而識別該符記 序列中各屬性間之邊界。 12. 如申請專利範圍第1 1項之方法,其中自該第—屬性至該 第二屬性之該變換包含自該第一屬性至一虛擬屬性之一 第一變換、及自該虛擬屬性至該第二屬性之一第二變 換。 13. 如申請專利範圍第丨1項之方法’其中該符記序列内的該 寺屬性屬於一组預定屬性,且該等複數個規則包含:特 徵在於一種自該組屬性内的一屬性變換成該組屬性内的 任何其他屬性之規則。 14,如申請專利範圍第1 1項之方法,其中該符記序列内的該 等屬性屬於一組預定屬性,且該等複數個規則包含:特 徵在於一種自該組屬性内的一屬性變換成該組屬性内的 一有限數目的其他屬性之規則。 15. —種自一符記序列摘取若干子集的符記之方法,每一子 集的符記具有選自一组屬性的一屬性,該方法包含下列 步驟: 接受複數個將一符記的左上下文及右上下文與—组預 疋左及右付記模式比對而赛_及|丨具有不同屬性的不同子集 的符記之邊界之規則; 接受該符記序列; 將該等複數個規則應用於該符記序列之各循序符記, 而識別該等子集的符記之開始處及終止處;以及 儲存該等子集的符記'及與該等子集的符記相關聯之 本紙用中® g)家揉率(CNS )从祕(210X297公ϋ ----- — i-1 — i----參-------ίτ------^ (錆先$讀背面之注意事項再填寫本頁) 466^26六、申請專利範圍 A8 B8 CS D8 如· 8. 〇2 經濟部中失棵準局負工消费合作社印装 08- 屬性 16.如申請專利範圍第1 5項之方法,其中識別該等子集的符 記的開始處及終止處之該步鄉包含下列步驟: 將一第一子集的該等複數個規則應用於該符記序列中 之各循序符記,以便識別該第一子集的符記之開始處、 及最後一個子集的符記之終止處; 將一第二子集的該等複數個規則應用於該符記序列中 在該第一子集的符記的開始處之後且在該最後一個子集 的符記的終止處之前的各循序符記,以便識別每一子集 的符記之開始處及終止處;以及 應用一第三子集的該等複數個規則,以便識別與每一 子集的符記相關聯之屬性。 17_ —種識別一符記序列中的屬性之系統,包含: 一儲存裝置,用以儲存複數個特徵在於根據一符記的 左上下文及右上下文而自該符記序列的一第一屬性變換 成一第二屬性之規則;以及 一處理器,用以接受該符記序列,並將該等複數個規 則應用於該符記序列,而識別該符記序列中各屬性的第 一及最後一個符記。 .- 18.如申請專利範圍第1 7項之系統,其中該等複數個規則之 特徵在於自一第一屬性至一第二屬性的所有可能變換, 且該處理器將該等複數個規則應用於該符記序列之各循 序符記,以便在讀取該符記序列的一單次掃描内識別該 符記序列中每一屬性之第一及最後一個符記。 本纸張尺度適用t國國家標率(CNS ) A4说格(210X297公釐) in-----¾-------..IT------^ (請先閩讀背面之注意事項再填寫本頁) 4 b ο 42 6 bs V C8 _ D8 六、申請專利範圍 8. 〇2 19. 如申請專利範圍第1 7項之系統,其中該等複數個規則包 含三個子集的規則: 一第一子集的規則,用以識別該符記序列中第一屬性 的第一符記、及最後一個屬性的最後一個符記; 一第二子集的規則,用以在無須實際識別個別屬性的 情形下識別所有屬性的第一及最後一個符記;以及 一第三子集的規則,用以識別每一個別屬性。 20. —種產生一摘取程式用來識別具有不同屬性的各子集的 符記間的變換的一上下文規則之方法,包含下列步驟: 接收一樣本符記序列,該樣本符記序列包含一具有一 第一屬性的第一子集的符記、及不與該第一屬性相關聯 的一第二子集的符記,且在該符記序列中,該第二子集 的符記係在該第一子集的符記之前; 識別該第一子集的符記之第一符記; 產生一對符合該第一子集的符記的第一符記的左及右 上下文但並不符合屬於該第一子集的符記的各符記的左 及右上下文之左及右上下文模式, 因而該左及右上下文模式形成用來識別自該第二子集 的付記至該第一子集的符年―为變換的上下文規則之比對 準則。 21. 如申請專利範圍第2 0項之方法,其中產生該對左及右上 下文模式之該步驟包含下列步驟: 找出符合該第一子集的符記的第一符記的右上下文的 第一符記之第一組符記類別; _______________ 本紙張尺度逍用中國國家橾準(CNS) A4規格(21〇><297公憂^ ------ ---------t----.---.11------0 (請先«讀背面之注意事項再填寫本頁) 經濟部中央標準局貝工消費合作社印製 A8 B8 C8 D8 穴、申請專利範圍 ' — 90- 8. 〇2 找出符合該第一子集的符記的第一符記的左上下文的 第—符記之第二组符記類別; (請先閑讀背面之注意事項再填寫本頁} 在該第一組及第二組符記類別中選擇一符記類別,使 該第二子集的符記中符合該符記類別的符記數為最少; 如果該符記類別付合該第一予集的符記的第一符記之 左上下文,則指定該符記類別作為該左上下文模式之一 部分;以及 如果該符記類別符合該第一子集的符記的第一符記之 右上下文,則指定該符記類別作為該右上下文模式之— 部分。 22.如申請專利範圍第2 1項之方法,進一步包含下列步驟: 找出符合該第一子集的符記的第一符記的左上下文中 業已不符合該左上下文模式或右上下文模式的一額外符 記之第三組符記類別; 找出符合該第一子集的符記的第一符記的右上下文中 業已不符合該左上下文模式或右上下文模式的一額外符 記之第四組符記類別; 經濟部中央標準局員工消背合作社印装 在該第三組及第四組符記類別中選擇一符記類別,使 該第二子集的符記中符合轉記類別的符記數為最少; 如果該符記類別符合該第一子集的符記的第一符記之 左上下文,則加入該符記類別作為該左上下文模式之一 部分;以及 如果該符記類別符合該第一子集的符記的第一符記之 右上下文,則加入該符記類別作為該右上下文模式之— ___—4β--- 本紙張尺度逍用中國國家樣率(CNS 規格(210 X 297公釐) ~~ A8 B8 C8 D8 466426 申請專利範圍 9ft 8. 02 部分。 23. —種產生一摘取程式用來識別具有不同屬性的各子集的 符記間的變換的一組上下文規則之方法,該等子集的符 記被分組成複數個資料項,該方法包含下列步鄉: 接收一樣本符記序列; 以對應的屬性名稱識別每一子集的符記; 將该等子集的符記分组成若干獨立的資料項;以及 為各屬性之間每一可能的變換產生一上下文規則; 其中該上下文規則包含將一符記的左及右上下文與一 對預定的左及右上下文模式比較,且當發現一相符時即 識別一^變換。 24. —種產生用來識別一符記序列中的屬性的上下文規則之 系統,包含: 一記憶體,用以儲存一樣本符記序列; 一使用者介面,用以讓一使用者在識別自一第一屬性 至一第二屬性的變換的該樣本符記序列内識別至少一個 符記; 一處理器,用以接收該樣本符記序列,並產生一對符 合用來識別該屬性的變換等至少一個符記的左及右 上下文之左及右上下文模式,因而該左及右上下文模式 形成用來識別自該第一屬性至該第二屬性的變換的上下 文規則之比對準則》 25. —種自一文字序列產生一單次掃描摘取程式的變換規則 之方法,該文字序列具有複數個資料項,每一該等複數 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公漦) ---—I----^----:---、訂------it • « (請先閲讀背面之注$項再填寫本頁) 經濟部中央揉率局員工消費合作社印製 ABCD 466426 夂、申請專利範圍 〜 90. 8. 02 個資料項具有一组屬性'及一組對應於該組屬性之〜級 標籤,該方法包含下列步驟: (a) 利用該文字序列中之該组屬性及該組標籤決定〜 資料項内的屬性序列之所有可能排列;以及 (b) 產生用來識別步驟(a)決定的各屬性間的所有可能 變換的變換規則之一資料庫,每一變換規則包含自—第 —屬性至一虛擬屬性然後至一第二屬性之變換。 26. —種產生用來識別自一符記序列内的—第一子集的符記 至一第二子集的符記的變換的上下文規則之方法,該方 法包含下列步驟: (a)識別該符記序列内的各肯定符記樣本; (b )識別該符記序列内的各否定符記樣本; (C)應用一設定涵蓋演算法,以便產生一組符合所有 肯定符記樣本的左及右上下文但不符合任何否定符記樣 本的左及右上下文之左及右上下文模式。 i |~I----¾----τ——ΪΤ------^ • · f靖先間讀背西之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装 本紙張尺度適用中國國家標率(CNS ) A4規格(2丨0X297公釐)
TW088120033A 1999-07-30 1999-11-17 System and method for extracting data from semi-structured text TW466426B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14662199P 1999-07-30 1999-07-30

Publications (1)

Publication Number Publication Date
TW466426B true TW466426B (en) 2001-12-01

Family

ID=22518201

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088120033A TW466426B (en) 1999-07-30 1999-11-17 System and method for extracting data from semi-structured text

Country Status (2)

Country Link
EP (1) EP1072986A3 (zh)
TW (1) TW466426B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2821186B1 (fr) * 2001-02-20 2003-06-20 Thomson Csf Dispositif d'extraction d'informations d'un texte a base de connaissances
AU2002307847A1 (en) * 2001-02-22 2002-10-21 Volantia Holdings Limited System and method for extracting information
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US9208179B1 (en) * 2012-05-25 2015-12-08 Narus, Inc. Comparing semi-structured data records

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524227A (en) * 1994-07-29 1996-06-04 U S West Technologies, Inc. Method and system for formatting address strings into recognizable token sequences

Also Published As

Publication number Publication date
EP1072986A2 (en) 2001-01-31
EP1072986A3 (en) 2004-10-27

Similar Documents

Publication Publication Date Title
US8140468B2 (en) Systems and methods to extract data automatically from a composite electronic document
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US7958444B2 (en) Visualizing document annotations in the context of the source document
TW576992B (en) Extensible stylesheet designs using meta-tag information
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP4150452B2 (ja) フォントの取得方法、登録方法および印刷方法
US8954839B2 (en) Contract authoring system and method
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
KR20080100179A (ko) 벡터 그래픽 문서 내 리스트 인식 방법, 벡터 그래픽 문서해석 방법 및 컴퓨터 판독가능 매체
US10699112B1 (en) Identification of key segments in document images
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
JP2010108208A (ja) 文書処理装置
TW466426B (en) System and method for extracting data from semi-structured text
CN112069296B (zh) 一种对pdf文件的合同要素的识别方法
CN113850056A (zh) 一种基于关键词拆分技术的文档关键信息提取方法和系统
US20120054605A1 (en) Electronic document conversion system
Klindt PDF/A considered harmful for digital preservation.
CN115983202A (zh) 一种数据处理方法、装置、设备及存储介质
US20100023517A1 (en) Method and system for extracting data-points from a data file
CN114090630A (zh) 基于分布式微服务集群商品数据整合方法
CN112906359A (zh) 基于人机交互的叠加信息处理方法及相关装置
Yang et al. Bio2X: a rule-based approach for semi-automatic transformation of semi-structured biological data to XML
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP5707937B2 (ja) 電子文書変換装置及び電子文書変換方法
Kwok et al. An automatic method to extract data from an electronic contract composed of a number of documents in PDF format

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent