TW466426B

TW466426B - System and method for extracting data from semi-structured text

Info

Publication number: TW466426B
Application number: TW088120033A
Authority: TW
Inventors: Chun-Nan Hsu; Chian-Chi Chang
Original assignee: Academia Sinica
Priority date: 1999-07-30
Filing date: 1999-11-17
Publication date: 2001-12-01
Also published as: EP1072986A3; EP1072986A2

Description

A7 4 6 6 4 2 6 _________B7____ 五、發明說明（1 ) 發明背景：本發明係有關自文字文件摘取資訊。許多組織都有大量且數量愈來愈多的電子檔案，而且這些電子檔案包含有重要價值的資訊。全球資訊網 (WorldWideWeb)本身就是此類資訊的一巨型儲存場所。目 t 前已開發出可讓電腦搜尋並分析此種大量資訊的工具程式。然而’通常儲存在資料庫的表格式資訊不同，許多文件只有有限的内部結構’因而被稱為“半結構化文字”（“ semi-structured text ”）。例如，與全體教職員資訊有關的一份文件可能包含一具有諸如教職員名稱、個人網 * 址、連絡地址' 及學術頭銜等某些屬性的單字或字孝所構成之資料項清單。可將該資訊格式化成一表格式清單，以便易於閱覽。半結構化文字的一個例子是以超文件標注語言 (HyperText Markup Language ·’ 簡稱 HTML)撰窝的網頁。 HTML利用標記（tag )來規定網頁中各圖形及字元之格式及特徵。例如，位於一對標記“ ，，與“，，之間的文字規定要以粗體字顯示該文字。文件内的這些html標記之主要目的在於將輸出式樣格式化，但是這些標記本身並未將這些標記之間的文字是何種内容的訊息告知*電腦。例如，若有一輸入字串“ ” J 〇 h η “ ”，則標記“ < β > ” 及“”並未向電腦指示“John”是對應於一名稱、一連絡地址、或一學術頭銜為自文件或文字序列摘取資訊而撰寫的程式被稱為資訊 "4 - >紙張又度適用中國國家標準（CNS)Al規烙（210 X --- (諳先閱讀背面之沒意事項再填寫本頁) f —訂---1-----· I; 經濟部智慧財產局員工消費合作社印*''农 A7 經濟部智慧財產局員工消費合作社印制农 E7— ....... _ l_,五、發明說明（2 ) 摘取程式（informationextractor) 或“包裹程式” + (‘‘ wrapper ”）。一資訊摘取程式適於自有一特定結構的文件或文字序列摘取具有某些屬性的一組特定單字或字串。例如，一資訊摘取程式適於處理諸如圖1 ( a)所示具有四個資料項的一網頁。請參閱圖1 ( b )，該網頁的HTML齐字序列具有四個資料項，每一資料項包含若干具有屬性的文字字串：“URL(U)”’、“名稱（N)”、“學術頭銜（A)”、及 “行政管理頭銜（Μ )”之一組合。請參閱圖1 ( c )，自第一資料項摘取的第一資料重元组（tuple )包含四個具有屬性U、 N、A、及Μ的文字字串。第二及第三資料重元組分別包含三個具有屬性U、Ν、及Α的文字字串。第四資料重元組包含若干具有屬性A的文字字串。為了簡化說明，將只把一個“具有屬性U的文字字串”稱為“屬性U ”。因此，術語“屬性”（“ attribute ”）將意指一個具有一特定屬性之文字序列。為了自一網頁的文字序列摘取屬性，一預先處理程式首-先將該文字序列分割成若干符記（token)。一符記可包含若干字詞、數字、HTML標記等。例如，在圖i (b )中， “<H1>”可以是一符記，而字詞“Faculty”可代表另一符記。一屬性可包含數個符記。例如，名*稱屬性 “ ManiChandy ”可包含兩個符記“ Mani ’，及“ chandy ” °資訊摘取程式讀取該等符記，並使用一组預定的摘取規則，以便自這些符記摘取屬性。例如，一個可能的規則可以/是：當碰到一對HTML標記“ ”及“ ”時，則摘取該等 -5- 本紙張尺度適用中國固家標準（CNS)A4規格（210 X 297公釐） (靖先閱讀背面之注意事項再填寫本頁)

J -丨tri 線11·i.---------- 4 b 6 4 2 6 A7 * B7___ 五、發明說明（3 ) 標記間之文字作為名稱屬性。通常係由一種被稱為學習程式（learning program )的獨立程式產生摘取規則（extraction ruIe )。學習程式讀取具有使用者所標示的若干屬性之訓練樣本（training sample )(來自目標網頁的一短文字序列）。例如，使用者可利用圖形使 ? 用者介面（GraphicsUserlnterface ;簡稱GUI)來反白或標示該樣本文字序列内對應於”名稱”屬性的這些部分。該學習程式然後找出該反白或標示部分出現在該樣本文字序列的位置模式。該模式然後成為用來摘取該"名稱，，屬性之規則0 * 在產生一組摘取規則之後，一使用者可針對一第二樣本文字序列測試這些規則，以便檢驗該資訊摘取程式是否可正確地摘取所有的屬性。如果並非如此，則可再度呼叫該學習程式，且該使用者標示先前被錯誤識別但具有正確屬性名稱的那些屬性。該學習程式然後修改該等摘取規則，使該等摘取規則可正確地識別該第—及第二樣本文字序列中的各屬性。當一目標網頁改變其格式或資料結構時，也利用該學習程式v來更新該等摘取規則。因為經常修改網頁是常見的現象，所以需要一種只須一組最少的訓練樣本之學習程式。 · 其他不同類型的資訊摘取程式可能用到不同的摘取規則。例如，一種被稱為“ L R資訊搜尋程式”的資訊摘取程式用到尋找具有左右對結構的符記之規則。另一個通'常被稱為“潛行資訊搜尋程式”“ stalker-wrapper ”）的資訊摘取 -6- 本紙張尺度適用中國國家標準（C'NS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) 』--------訂----------線 { 經濟部智慧財產局員工消費合作社印制衣 46 642 6 A7 _ B7 五、發明說明（4 ) 程式可能有一些用來跳過某些類型的符記且搜尋某些類型的“地標”符記之規則。 ’土發明概述：本發明係有關一種在一半結構化輸入文字序列内搜尋屬性之資訊摘取程式。一般而言，該資訊摘取程式類似於一有限狀悲轉換器，包含若干狀態、以及在該等狀態間之若干反換路也。每—狀態被界定為與某—屬性的摘取相關聯。該等狀態之間的各可容許變換路徑係與該等屬性序列的各可能排列相關聯。對於每一變換路徑而言，都有—個相關聯的上下文規則（contextualrule )5當輸入文字序列中 ψ 的一模式滿足一特定的上下文規則時，即在狀態之間發生一變換，因而該資訊摘取程式進入與另一屬性的摘取相關聯之次一狀態=藉由利用一些也考慮到在現行輸入符記之前及之後的符記之上下文規則，本發明的資訊摘取程式即可處理具有不規則配置結構及多種排列的屬性之文件。本發明之特徵在於一種可自多種文件式樣中自動摘取屬性並以一種有效率的方式更新各摘取規則之資訊摘取程式。與使用一组固定規則且只能處理具有按照某一結構而配置的屬性的文件之其他資訊摘取程式不同，本發明可適應文件格式式樣的變化。 · 本發明的一項優點在於：縱使有部分屬性遺漏，或者當屬性的順序發生變化時，本發明的資訊摘取程式也能正確地識別屬性。本發明的另一優點在於：本發明的資訊摘取程式適於處本紙張尺度適用中國國家標準（CNS)A·丨規格（2丨〇χ 297公釐） (諝先閱讀背面之注意事項再填寫本頁) ----,,ϊ I I - If — — — — — — [ 绶濟部智慧財產局員工消費合作社印制^ A7 46642 6 B7_______ 五、發明說明（5 ) (請先閱讀背面之江意事項再填寫本頁) 理一些具有不規則的資料結構或具有表格式配置式樣之文件。本發明的一額外優點在於：本發明的資訊摘取程式使用一種只需/組最少數量的訓練樣本即可產生各摘取規則之學習程式。 r 附圖簡述：圖1(a)承出與一全體教職員及研究工作人員有關的一樣本網頁之輸出° 圖1(b)示出圖1〇)所示網頁之HTML文字序列（原始碼）。 ψ 圖1(e)示出自圖1(b)所示HTML文字序列摘取的屬性。圖2是本發明的一資訊摘取程式實施例所用之一例示狀態變換圖。圖3示出一可能的變換路徑表。圖4示出本發明的一資訊摘取程式可使用之例示符記類型。經濟部智慧財產局員工消費合作社印製圖.5示出利用圖4所示各符記類型而被分割成若干符記之一樣本文字序列。圖6示出一樣本網頁之HTML文字序列（原始碼）。圖7是本發明的資訊摘取程式的一替代實施例1狀態變換圖。圖8是配合本發明的替代實施例而使用之一例示狀態變換圖。圖9 ( a )示出圖1 ( b )中以箭頭指示包含屬性的本體邊界之 -8- 本紙張尺度適用令國國家標準（CNS)A.l規格（210x297公釐） 46 642 6 A7 ________B7 五、發明說明（6 ) HTML文字序列。 <請先閱讀背面之注意事項再填寫本頁) 圖9(b)不出圖1(b)中以箭頭指示屬性邊界之HTML文字序列。圖10示出一標'^己表文件實例。圖Π是自一標記表文件摘取屬性的一本發明實施例所用 ί 之一例示狀態變換圖。圖12(a)示出自圖10所示標記表文件摘取的_屬性表實例。圖12 ( b )示出一資訊摘取程式利用圖1 1所示狀態變換圖而摘取的標疋及值屬性表之一實例。 4 圖13示出一具有以方框包封的屬性之樣本文字序列a 圖14是產生本發明的資訊摘取程式所用的摘取規則之流程圖3 圖l5(a)示出一具有符記八1，八2，...八20之樣本文字序列。圖15 (b )示出在圖15 (a)所示樣本文字序列内的狀態X及狀態N之範圍。 ' 經濟部智慧財產局員工消費合作社印製圖l5(c)示出左及右上下文之定義。

圖16示出根據本發明的一學習程式實施例所用之符記類別定義。 A S 圖17 ( a )示出一第一組上下文規則。圖17 ( b )示出一第二組上下文規則。圖17 ( c )示出一第三組上下文規則。 / 圖18是產生根據本發明一實施例的一上下文規則之流程 _ -9- 私纸張尺度適用中國國家標準（CNS)A4規格（210 x 297公·爱 4 6 6 4 2 6 A7 B7 五、發明說明（7 ) 圖。圖19示出自一文字序列摘取屬性名稱、學術頭銜、及行政管理頭銜的一組上下文規則。圖20示出圖π中具有標示為B1、B2、B3、及B4的每一資料項的第一屬性的第一符記之樣本文字序列。 f 詳細說明：請參閱圖2，一狀態變換圖（200 )代表本資訊摘取程式的一實施例中使用的狀態變换規則。在該實例中，該資訊摘取程式是一適於自一文字序列摘取屬性U R L ( U )、名稱 (N)、學術頭銜（A)、及行政管理頭銜（M)之單次掃描資訊，摘取程式。輸入文字序列可來自諸如圖I (a)所示網頁的一網頁，或者該輸入文字序列可以是由一具有類似屬性的文書處理程式所產生的一文件。在將該輸入文字序列傳送到該資訊摘取程式之前，先將該輸入文字序列分成若干符記。因此，該資訊摘取程式接收該輸入文字序列、及指示每一符記的位置之一偏移數目序列。該資訊摘取程式可在一具有（U，N，A，M)、（U，N，A)、或（N，A)序列的資料錄内摘取屬性。如果一輸入文字序列具有不同的屬性，或者具有不同的屬性排列，則該單次掃描資訊摘取程式將也具有一組不同的狀態變換規則= _ 術語“屬性”（“ attribute ”）亦用來意指為具有相同特徵的符記序列的一子集之一組連續符記=例如，屬性U可代表用來形成一 URL網址之一組連續符記。是URL網址一/部分的一符記屬於屬性U。同樣地，屬性N可代表用來形成一 -10 - 本紙張尺度適用十國國家丨票準（CNS)A丨規格（210x297公釐) t请先閱讀背面iA意事读矜填寫本頁) 1^1 -- - XJ— frOJI κ I n I I 1 · 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 五、發明說明（8 ) 個人名稱之一组連續符記^術語》狀態，’（“ state，，）係用來作為描述一資訊摘取程式的動作之一速記或標籤。術語“摘取程式”在本文中係用來意指資訊摘取程式。當該摘取程式係處於狀態U時，意指該摘取程式正在執行與摘取屬性 U相關聯的功能 <=摘取一屬性可包括讀取—序列的符*己並輸出該等符記序連而形成一單一字串之動作^當該摘取程式進入狀態U，時，意指該摘取程式正在執行與讀取位於屬性U與次一屬性間之符記相關聯的功能。虚擬屬性是一種不屬於任一屬性的符記序列。當該摘取程式係處於狀態b / e (開始/結束的縮窝）時 # 意指該摘取程式正在讀取在一資料項的最後—個屬性與次一資料項的第一屬性間之各符記。狀態b / e亦可意指該摘取程式正在執行與讀取在該輸入文字序列的第—屬性之前的各虛擬符記相關聯之功能。狀態b / e亦可意指該摘取程式正在執行與讀取在該輸入文字序列的最後—個屬性之後的各虛擬屬性相關聯之功能。在某些應用中’係將 GB(GlobalBegin(整體性開始）之縮窝）狀態定義為與讀取該第一屬性之前的各符記之動作相關聯。同樣地’係將 G E ( GlobalEnd (整體性結束）之縮窝）狀態定義為與讀取文字序列中最後一個屬性之後的各符記之動作釦關聯。術浩上下文規則”意指將一符記的上下文與一组預定符 1己模式比較而檢查是否有一相符者。一符記的上下文包括正在考慮的符記、及或有的在該符記之前及（或）之後的各符記。例如，假設輸入文字序列為： -11 - 本纸張尺度適用ΐ國國家標準（CNS)A,1規格（210 X 297公髮） (請先閲讀背面之注意事項再填寫本頁) '- I ϊ 1 —'* I — 訂---------線！經濟部智慧財產局員工消費合作社印制π A7 46 642 6 _ B7_____ 五、發明說明（9 ) <DT><A HREF=“http://www.cs.caltech.edu/people/mani.html，，> 且符記“ http ”識別自狀態b / e到狀態υ之變換，則一上下文規則可以是：如果左上下文=‘ ‘ HREF = ’ ’，且右上下文=‘ ^ http : / / ’ ’， ( 則自狀態b / e變換成狀態U。左及右上下文的基準點是在正在考慮的符記（“ http，，）之前的位置。因此，“左上下文，，意指在“ http ”之前的一個或多個付兄，且右上下文意指“ http ’’及一些額外的符記 '、‘/，、及/ 。左上下文及右上下文中含有的符記數目係隨著上下文規則而變°例如，—上下文規則可能要求左上下文包含3個符記且右上下文只包含—個符記。另— 上下文規則可能要求右上下文包含兩個符記，而並不要求對左上下文作比較。在一資料項内，我們界走一虛擬屬性U，包含在屬性U與次一屬性之間的所有符記。同樣地’我們界定一虚擬屬性 N，包含在屬性N與屬性A之間的所有虛擬符記。虛擬屬性 A ’包含在屬性A與Μ之間的各虚擬符記。圖2中之狀態變換圖代表當該摘取程式自輸入文字序列中的-資料項摘取屬性U、Ν、Α、及（或）摘取程式可進入的不Μ列之t態。該摘W呈式開始於狀態b/e (2 0 2 )，然後讀取-符記’並決定該符記是否屬於一屬性。在本實例中，一資料項内的第一屬性必須是σ 。因此，有—條自狀態b/e (2〇2)至狀態α (2〇4)之變換 ______12_ 紙張尺度適t g g家標準（CNS)Al規格（210 X 297 $餐) ---- ---- (請先閱讀背面之注音？事項再填寫本頁) 訂---------線！埕濟部智慧时產局員工消費合作.社印製 466426 A7 ---— _________ 五、發明說明（1〇 )

路徑（2 1 8 )、以及另一條自狀態b / e ( 2 〇 2 )至狀態N (2 0 8 )之變換路徑（2 2 0 )。如果該符記並不屬於屬性 U或N，則如路徑（2 2 4 )所示，該摘取程式停留在狀態 b/e ( 2 0 2 )。請參閱圖3，圖中示出圖2所示狀態變換圖界定的該摘取程式之可能狀態變換。對於圖3中列出的每一可能狀賤變換而言，都有一個圖2所示之一對應變換路徑。自狀態u (2 0 4 )至狀態U ( 2 0 6 )的變換意指：偵測到屬性口的結尾，且現行符記（及或有的在其後的各符記）是一個不屬於任何屬性的虚擬符記。自狀態U’（ 2 0 6 )至狀態Ν (2 0 8 )的變換意指：偵測到狀態ν ( 2 0 8 )的開始，且現行符記（及或有的在其後的各符記）屬於屬性Ν。當該貪訊摘取程式自圖1 (b)所示的第二資料項摘取屬性υ、 N、及A時，該資訊摘取程式進入各狀態13/6_1;_1；，->^ N ’ - A - b / e =在摘取一資料項内的最後一個屬性（a )之後’違摘取程式轉移到狀態b / e ( 2 0 2 )，意指現行符記是一個位於該次一資料項的第一屬性之前虛擬符記。有兩個離開圖2所示狀態b / e ( 2 0 2 )之變換路徑。該摘取程式利用上下文規則決定要採取哪—條路徑。每一路捏都有一對應的上下文規則。如果一符記的上下文*符合—變換路徑之上下文規則，則根據該上下文規則而轉移到該狀態。例如，與狀態b / e ( 2 0 2 )至狀態U ( 2 0 4 )的變換相關聯的上下文規則可以是規則 1 :如果左上下文= Calph(HREF)Punc(=)punc(，，），且 -13- 本紙張尺度適用中國國家標準（CNSM4規格（2丨0 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) -----h---訂---------線. 經濟部智慧財產局員工消費合作钍印製

466426 五、發明說明) 上下文=〇dPh(h«P)Punc(:)Punc(/)Punc(/)，則自狀態b / e轉移到狀態u ^ —(請注意，符記類別Calph()代表具有所有大寫字母的平串。符記類別Punc〇R表標點符號。符記類別〇alph() 代表具有所m字母的字卜這些情形詳述於圖4 〇 — 卜又為子串href = ”，，，且右上下文為串http,// 。與狀赵b/e (2〇2)至狀態n (2〇8)的變換相關聯之上下文規則可以是規則2:如果左上不文= Html()，且右上下文= CUlph〇，則自狀態b / e轉移到狀態n。 ’ (清汪意，符記類別Html()代表所有的HTML標記，且符記類別Cla丨ph()代表以一個大寫字母開始且具有至少一個小寫字母之字串。符號“ —，，代表萬用字元’因而以一大寫字母開始並具有至少一個小寫字母的任何字串都將符合符記模式C 1 a 1 p h (—)-) 如果一符記的上下文滿足規則丨，則將採用自狀態b/e (2 02)至狀態U (204)之變換路徑。另—方面，如果一符記的上下文滿足規則2，則將採用自狀態b / e ( 2 〇 2 ) 至狀態N ( 2 0 8 )之變換路徑。否則，該摘取程*式停留在狀態b / e ( 2 0 2 ),並繼績讀取符記，直到滿足兩個規則中的一個規則為止。在某些應用中，在第一個b/e狀態之前加上一個g B_J"狀態且在瑕後一個b / e啤.恐之後加上一個g e狀態是可行的。這 -14 - 本紙張尺度適用中國國家標準（CNS)A-l規烙（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) -----1— 訂---------線，經濟部智慧財產局員工消費合作社印製 46 642 6 Λ7 E7 經濟部智慧財產局員工消費合作社印製五、發明說明（12 ) 是因為第一資料項中的第-屬性的第—符記之左/右上下文可以不同於第二資料項中的第一屬性的第一符記之左/ 右上下文。同樣地，最後-個資料受中的最後—個屬性的最後-個符記之左/右上下文可以不同於第二至最後一個資料項中的最後一個屬性的最後—個符記之左/右上下 . Γ 又。請參閱圖4,現在將說明用來將一文字序列符記化所用之符記類別。第一行列出符記類別的名稱，第二行列出符記的模式’第三行描述符記類型，而最後一行列出符記的長度。可根據特定的應用而界定其他的符記類別。將於後文中說明的學習程式可利用不同的符記類別來產生左/右上下文模式。請參閱圖5，圖1 ( b )所示Η T M L原始碼的第二行之文字序列被分割成若千符記。第一符記是一 Η T M L標記 “<DT>”，第二符記是一空白字元“”，且第三符記是一 Η T M L標記“ < A ”，依此類推。第七符記是標點符號“ / ”，第十二符記是字_ “www”，且第十三符記是標點符號 “”，依此類推。符記1 ( “ < D T > ”）的左上下文是一新行的字元（該字元是圖1(b)所示前一行的結尾，且並未示於圖5)。因此，符記1並不滿足規則1或規則2。符記2、3、4 ' 5、 6、及7並不滿足規則1或規則2。符記8滿足規則1 ,因為符記8的左上下文是“ H R E F = ” ”，且符記8的右上下文是 “ h 11 ρ : / /，，。因此，在符記8上，該摘取程式自狀態b / e -15_-_ 本紙張尺度適用中S國家標準（CNS)A-l規格（210 χ 297公.¾ ) (請先閱讀背面之涑意事痏再填寫本頁) I — ---- I I ^ ---------. A7 4 6 6 4 2 6 五、發明說明（13 ) (2 0 2 )轉移到狀態N ( 2 〇 8 )。於：士下，符記8的左/右上下文之隔卢、在我們的疋義 f ^離點係在引號（“）與字元上下文規則要求該摘取程式向 —、仗子並颉取一些額外的付兄，以便比較右上下文。例如风⑴1要求菽摘取程讀取額外的三個符記，以便比較右，杈右上下又，這是因為 “ h 11 p : / / ”包含四個符記。需要诗饱而要讀取的特定數目之額外符記係取決於該组特定的上下女掘目,丨—上、卜又規則。该摘取程式開始時可謂取咸等上下文規則所需的某一數目之符^己。識別自任何其他狀態變換成狀態A的—上下文規則之另一實例可以是： ^ 規則3 :如果左上下文= Html(<DD>)Html()，且右上下文= Clalph(_), 則轉移到狀態A。規則3要求左上下文是一 Η T M L標記“ < D D > 及接續的另一 Η T M L標記“ ”。此外’右上下文必須是以一大寫字母開始並具有至少一個小寫字母的一字串。請參閱圖6 ,具有與圖1 ( a)所示網頁稍微不同的内容及配置格式的一網頁具有與圖1 ( b )所示Η T M L文字序列稍微不同的一 Η T M L文字序列（或原始碼）。因此’Λ-摘取程式將利用不同的上下文規則來識別在與自該網頁摘取不同屬性相關聯的各狀態間之變換。在該實例中，自任何其他狀態變換成狀態Α的上下文規則可以是：規則4 :如果左上下文^HtmlG/AyPuncOSpcOHtmlCci〉） -16- _ k纸張尺度適用令國國家標準（CNS)A4規格（210 X 297公釐） f請先間讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制衣 -^1 AT I '^OJ» I . u n n 1^1 I n i n m n ϊϋ ϊ l^i 1 經濟部智慧財產局員工消費合作社印製 Α7 Β7______ 五、發明說明（14 ) 或

Punc(_)NL(_)Spc(_)Html()或

Punc(，）Spc(_)Html(<[>)及右上下文= Clalph(_)，則轉移到狀態A。 f 規則4要求左上下文是（i ) 一 Η τ M L標記“ < / a >，’及接續的一逗號、任何數目的空白、及一 HTML標記“<ι>” ；或（i i )任何標點符號及接績的一行新的字元、任何數目的空白、及一'^丁^^!>標記“<1>” ；或（in) —返號及接續的任何數目的空白及一 Η τ M L標記“ · ”。規則4要求右 9 上下文必須是以一大寫字母開始並具有至少一個小寫字母的一字串。請參閱圖7，狀態變換圖（7 0 0 )代表本發明資訊摘取程式的另一實施例所使用的狀態變換規則。該資訊摘取程式是一具有狀態b/e、U、N、A、Μ、及D。該資訊摘取程式適於自一輸入文字序列摘取屬性U、Ν、A、及Μ。該輸入文字序列可來自諸如圖i(a)或圖6所示之一網頁，也可以是由一具有類似屬性的文書處理程式所產生之一文件。該摘取程式可處理具有以任何排列序列出現的屬性U、 N、A、及Μ之文件。例如，該摘取程式可處理*一具有屬性（M，A，U，N)之資料項。根據圖2而說明之該單次掃描摘取程式無法處理該序列°圖7所示之圖示只是作為一個例子"如果一輸入文字序列具有不同的屬性，則該通用/單次掃描資訊摘取程式將也具有一組不同的狀態變換規則。 -17- 本紙張尺度適用中國國家標準（CNS)iY1規烙（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) ► 0 I I a^i 1 n H 一aJ n I - 4 b 6 4 2 6 A7 ___B7_______ 五、發明說明（15 ) (請先閱讀背面之注意事項再填寫本頁) 該摘取程式通過狀態b/e-U-D-N-D-M-b/e，即可處理一具有屬性（U , N , Μ )之資料項。當該摘取程式處於狀態 D時，該摘取程式正在讀取位於各屬性間之虛擬符記。該摘取程式開始於狀態b / e ( 7 0 2 )。該摘取程式讀取各循序之符.記，並經由路徑（7 2 6 )而停留在狀態b/e

I 線！經濟部智慧財產局員工消費合作社印製 (7 0 2 )，直到識別一個屬於屬性U之符記為止。該摘取程式然後經由路徑（7 0 4 )而轉移到狀態U ( 7 0 4 )»該摘取程式讀取符記，並經由路徑（7 2 8 )而停留在狀態 (704)，直到識別一個不屬於屬性U的符記為止。該摘取程式儲存（或輸出）所摘取的屬性U ,然後經由路徑 C 7 1 4 )而轉移到狀態D ( 7 1 2 )。該摘取程式讀取符記，並經由路徑（7 3 0 )而停留在狀態D ( 7 1 2 )，直到識別一個屬於屬性N的符記為止。該摘取程式經由路徑 (7 1 6 )而轉移到狀態n ( 7 0 6 ),摘取屬性N，然後經由路徑（7 1 8 )而再度轉移到狀態〇 ( 7丨2 )。該摘取程式然後經由路徑（7 2 2 )而進入狀態Μ ( 7 1 0 )，摘取屬性 Μ，然後經由路徑（724 )而進入狀態b/e ( 7〇2 )，至此終止了該資料項的摘取週期。請參閱圖8，一狀態變換圖（8 0 0 )代表本發明資訊摘取程式的另—實施例所使用之狀態變換規則=該資*訊摘取程式是適於摘取—輸入文字序列中的屬性U、N、A、及Μ之多’入知疮#訊摘取程式。如果一輸入文字序列具有不同的屬性，則該多次掃描資訊摘取程式機也具有一組不同的狀態變換規則。 ___ -18 - 本纸張尺度適用中國^^準（CN5A ⑵Q χ 297公楚） ~ ~ 4 b 〇 ^ 2 6 a? ______ B7 --------- —--- 五、發明說明（16 ) 採用圖8所示變換規則的—資訊摘取程式具有相同的六個資訊摘取程式（8 02 ) 、（ 8 04 ) 、（ 8〇6 )、 (808) 、（81〇)、及（812)，每一資訊摘取程式對輸入文字序列執行部分的摘取。摘取程式（8 〇 2 )掃描輸入文字序列，並找出輸入文件中被稱為“本體”的部产，該本體部分以第一屬性開始並以最後一個屬性終止。請參閱圖9(a)，指向第2行的“h”之第一箭頭示出第一屬性的開始，而指向第1 〇行的“ e ”之箭頭示出最後一個屬性的終止。摘取程式（802)找出圖9(a)中的該第一及第二箭頭所指示之偏移值，並將這兩個偏移值連同該輸入文字序列傳送到摘取程式（8 0 4 ) 。 · 圖8中之狀態g B ( 8 1 4 )代表摘取程式正在執行與讀取第一屬性之如的各虛擬符記相關聯的功能之狀態=狀態本體（816)代表該摘取程式正在執行與讀取該本體部分内的各符記相關聯的功能之狀態，其中該本體部分包含第一及最後一個屬性、以及在上述兩個屬性之間的文字序列。在讀取了最後一個屬性的最後一個符記之後，該摘取程式即進入狀態GE (818)。一個標示為（GB,本體）的上下文規則係與自狀態G B ( 8 1 4 )至本體（8 1 6 )的變換路徑 (824)相關聯。另一個標不為（衣體，ge)的上下文規則係與自本體（8 1 6 )至狀態G E ( 8 1 8 )的變換路徑 (8 2 〇相關聯。圖8所示之摘取程式（8 0 2 )開始於狀態G B ( 81 4)。該摘取程式讀取一符記，並將該符記的上下文與上下文規 -19- 本纸張尺度適用中國因家標準（CNSM-1規格（210 X 297公f ) (請先閱if背面之注意事項再填寫本頁) -n I 1 r— · J.T a =0 -線— 經濟部智慧財產局員工消費合作社印製五、發明說明（17 ) 貝|J ( G B，本體）比較。因為該輸入文字序列的第一屬性是屬性U或屬性N ,所以上下文規則（G B ,本體）實際上包含規則（G B，U )及（G B，N )。該規則（G B，U )識別狀態g B (814)至狀態U之變換（圖中未示出）。該規則（G B，N ) 識別自狀態G B ( 8 1 4 )至狀態N之變換（圖中未示出）。如果滿足了規則（G B，U )或規則（G B，N )，則摘取程式 ( 8 02 )進入狀態本體（8 1 6 );否則，摘取程式 (8 0 2 )停留在狀態G B ( 8 1 4 )。在該摘取程式進入狀態本體（816)之後，該摘取程式儲存第一符記、及該第一符記的開始處之偏移值。該摘取程式然後讀取次一符記，並將該符記之上下文與上下文規則（本體，G E )比較。如果並不符合規則（本體，G E )，則摘取程式（8 0 2 )儲存該符記，停留在狀態本體（8 1 6 )，並繼績讀取次一符記。如果滿足規則（本體，G E )，則摘取程式（8 0 2 )進入狀態G E ( 8 1 8 )，儲存最後一個屬性的終止處之偏移值。並終止摘取程式（802)之處理。摘取程式（804) 然後繼續進行摘取處理。請參閱圖9 ( b ),各箭頭指示用來代表摘取程式（8 0 4 ) 產生的各偏移值之各屬性開始及終止處。當摘取程式 (8 0 4 )處於狀態T u p 1 e ( 8 2 0 )時，即摘取該萼屬性。狀態Tuple’（822)意指摘取程式（8〇4)正在讀取位於各屬性間之各虛擬符記時之狀態。摘取程式（8 〇 4 )接收輸入文字序列、及由摘取程式（802)產生的兩個偏移值，並重複摘取該等屬性，而無須識別該屬性是屬性U、 -20- 本纸張尺度適用中國圉家標準（CN'S)A.l規恪（210 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) "'----r---訂---------線 — 經濟部智慧財產局員工消費合作社印製 A7 B7_^ 4 6 b42 β 五、發明說明（18 ) (請先閱讀背面之注意事項再填寫本頁) N、A、或Μ。摘取程式（8 0 4 )的輸出是所有屬性的開始處及終止處之偏移值。在找到該等偏移值之後，呼叫四個摘取程式（806) 、（808) ' (810)、及（812),以便分別摘取屬性U、Ν、A、及Μ。本發明_的單次掃描及多次掃描資訊摘取私式可處亨具有資料項缺少某些屬性之文件°例如，某一教職員可能没有一行政管理頭銜，而另一教職員可能沒有一 URL網址=本發明之摘取程式也可處理具有多個屬性（例如某一教職員可能具有兩個或更多個行政管理頭銜）之文件。該等摘取程式亦可處理具有不同的屬性順序之文件。例如，一網頁 Ψ 可以有學術頭銜出現在行政管理頭銜之前的數個資料項，但是也有學術頭銜出現在行政管理頭銜之後的—個資料項。經濟部智慧財產局員 X 消費合社印製請參閱圖10* —標記表文字序列（1000)具有五個資料項。每一資料項包含屬性“名稱”、“電子郵件，，' “上次更新曰，，、“別名”、“組織”、及（或）“服務提供者，，。文字序列（1000)不同於圖1(b)所示之文字序列，這是因為文字序列（1 0 0 0 )包含每—屬性（此處稱為“標記值”）之属性名#(此處稱為“標記，，）。—摘取程式取屬性名稱及屬性（“標記及值對，，），然後進行步驟，以便將該標記及值對轉換成屬性值之資料重元舍請參閱圖1 1 , 一狀態變換圖（} 0 0) 兀組。摘取程式的一實施例摘取一標記表文：、讯 7以所用疋般能镒換規則。該摘取程式適於摘取Μ地押— '^ 心兒及值（Val 。# 本紙張足度適用中國國家標準（CNS)A4現烙（210 X 297¾- 4 〇〇42 〇 A7 ___B7 五、發明說明（19 ) (請先閱讀背面之>i意事項再填寫本頁) 該摘取程式處於狀態T a g ( 1 1 〇 2 )時，該摘取程式正在摘取屬於屬性T a g的各符記，例如“名稱”或“電子郵件”。當該摘取程式處於狀態V a 1 ( 1 1 〇 6 )時，該摘取程式正在摘取屬於屬性Value的各符記，例如“‘Lithlum，j smith”、或 “aulmer@u.washmgton，edu”等。當該摘取程式處；^狀態丁 ag' (1104)及狀態Val1 (11〇8)時，該摘取程式正在摘取虛擬符記。請參閱圖12(a)，試圖自圖10所示文字序列中的第一資料項摘取的屬性為《名稱，，、“電子郵件，，、“上次更新曰’’、及“組織”。圖1 2 (b)示出一資訊摘取程式利用圖1 1 9 所示狀態變換圖摘取的標記及值屬性。請注意，該摘取程式並不能區分具有不同内容的各標記屬性和值屬性間之差異。一後處理程式然後可將圖i 2(b)所示之標記及值輸出轉換成圖12(a)中之屬性表格式。產生變換路徑：經濟部智慧財產局員工消費合作社印製根據本發明，提供了一學習程式，用以產生一資訊摘取程式所用之變換路徑。在一實施例中，首先將代表一目標文件之樣本文字序列提供給該學習程式。一使用者將該樣本文字序列内的各屬性反白，然後識別哪一反白部分與哪一屬性相關聯。在後文的說明中，將使用圖1 ( ί)所示之 Η T M L序列作為樣本文字序列。請參閱圖13，一使用者利用一GUI將一顯示營幕上的各屬性反白3此處，係以方框包封這些屬性。然後該學習程式以互動方式提示該使用者輸入每一反白部分的屬性名 -22 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 4 6 6 42 6 A7 ------ B7 五、發明說明（2〇 ) 稱。該學習程式可利用該使用者所提供的這些反白部分及屬性名稱來識別一資料項内的不同屬性組合。例如，該學習程式可識別具有四個資料項且# —資料項分別具有資料重元組（U，N，A，M)、（U，N，A) ' (U，N，A)、及（N，幻之樣本文字序列。可利用其他標示屬性的方法來適應梦定的 GUI或其他類型的輸入裝置， ' 請參閱圖1 4 ’ 一流程圖（丨4 〇〇 )代表用來產生—組變換路徑之程序。該學習程式開始於步驟（14〇2) d在步驟（1404)中，該學習程式檢查每一資料重元組之第一屬性。在該實例中，該第一屬性是U或n。為是—資料重元組的第一屬性之每—此類屬性丨產生一條自狀態b / e至狀態ί的變換路徑。因此，產生變換路徑（b/e —u )及 (b / e ^.N )。在步驟（1 4 0 6 )中，該學習程式找出接續發生的所有可能之屬性對。可能的屬性對是dN)、（N，a)、及 (A，Μ )。在步驟（1 4 〇 6 )中，為每一接續發生的屬性對 (j，k )產生一條自狀態j至狀態j ’之變換路徑；並產生一條自狀態j ’至狀態k之變換路徑》狀態j，是一假狀態，且代表該摘取程式正在讀取屬性j之後的一虚擬符記之狀態。在步驟（1 4 0 6 )中產生各變換路徑（U —U ’）、（ ll· —N )、 (Ν —Ν’）、（Ν’ —A)、（A—A’）、（A，->M)。在步驟（1 4 0 8 )中，該學習程式檢查以便確定哪一屬性是每一資料重元组的最後一個屬性。此處，該最後一個屬性可以是A或Μ。在步騾（1408)中，為每一此類最後一 -23- _ 本纸張尺度適用中國國家標準（CNS)A4覘恪（210 X 297公釐） t請先閱讀背面之注意事項爯填寫本頁)

% -----Jr II ^ ·11111---I 經濟部智慧財產局員工消費合作社印*1衣 4 b t> 42 6 A7 B7 五、發明說明（21 ) 個屬性m產生一條自狀態111至狀態b/e的變換路徑。在步騾 ( 1408)中，產生變換路徑（A—b/e)&(M—b/e)。在步驟（I 4 1 0 )中終止了該變換路徑產生程序。在本實例中共產生了 10條變換路徑。這些變換路徑與圖3所示之變換路徑一致。 t 產生上下文規則：根據本發明，該學習程式可進一步產生用來決定何時進入或離開一狀態的上下文規則。當自一狀態分支出多條變換路徑時，亦利用該等上下文規則來決定採取哪一條變換路徑。將一個具有一使用者正確標示的屬性之樣本文字序列供給遠學習程式》該學習程式然後利用一 “設定涵蓋” 演算法來涵蓋所有的“肯定符記實例”，並排除所有的“否定符記實例”，而產生上下文規則。肯定符記實例是其上下文符合上下文規則的符記。否定符記實例是其上下文不符合上下文規則的符記。請參閱圖1 5 (a )，現在利用一個具有符記a 1 、 A2、...A20的樣本文字序列來說明用來產生一上下文規則之方法。該文字序列具有一個包含符記A 1 6至A 1 8之名稱屬性 “YaserAbu-Mostafa”。符記 A1 至 A15、及 A 1 9、A 2 0是虚擬符記。 · 請參閱圖15(b)，當讀取屬性名稱之前的各虛擬符記時，界定該摘取程式係處於狀態X ;且當讀取屬於屬性名稱的各符記時，界定該摘取程式係處於狀態N。可將·用來識別自狀態X變換成狀態N的上下文規則窝為如下： -24- 本紙張尺度適用中國國家標準（CNS)A4規格（210 x 297公楚) <諳先閱讀背面之注意事項再填寫本頁) 於----- 訂---------線- 經濟部智慧財產局員工消費合作杜印製 >46642 6 A7 ______B7 經濟部智慧財產局員工消費合作社印製五、發明說明（22 ) 規則5 :如果左上下文=Lp (左上下文模式）且右上下文=RP (右上下文模式），則自狀態X轉移到狀態N。目標是找到左上下文模式（Lp)及右上下文模式 (RP) 。LP/RP只應符合符記A16的左/右上下冬，且不應符合符記A1至Al5之左/.右上下文。符記AI6是一 “肯定樣本’’的一實例，且符記A i至A丨5是“否定樣本，，的實例。肯定樣本是上下文規則應正確符合的一符記，而否定樣本是上下文規則不應符合的一符記。一般而言，可以有一個以上的肯定樣本。上下文規則應符合每一肯定樣本，且不應符合任一否定樣本。在該實例中，目標是找到 L P / R P ,使該摘取程式將規則5應用於符記a丨至a 1 6時，該摘取程式可在符記A 1 6上正確識別自狀態X至狀態n的變換。請參閱圖15(c)，符記A16的右上下文之第一符記是 A16，A16的右上下文之第二符記是ai7,其他依此類推°符記A 1 6的左上下文之第一符記是a 1 5，A 1 6的左上下文之第二符記是A14，其他依此類推。这學習程式開始時採取A 1 6的左上下文之第一符記，—以便產生一左上下文模式。該左上下文模式是包含\丨6的左上下文的第一符記之一符記類別。因為A 1 5是一 Η T M L標記“ < β > ”，所以該左上下文的第—符記之左上下文模式可以是Html (一）或ptag(_)。圖i 6中列出該學習程式所使用的各符記類別= -25- (請先閲讀背面之注意事項再填寫本頁) n ϋ n 訂· --------線— 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱） A ο u42 6 a? ___B7 ___ 五、發明說明（23 ) 請參閱圖1 7 ( a), —試驗性上下文規則可以是：規則6 :如果左上下文=H t m 1 ( _ ), 則自狀態X轉移到狀態N。具有一 Η T M L標記作為左上下文的第一符記之任何符記將滿足規則6。將規則6應用於符記A i至A I 5時，带記模式Html(_)符合否定樣本A2、A10、A13、及A15之左上下文=將肯定符合計數（p)定義為符合的肯定樣本數，並將否定符合計數（η)定義為符合的否定樣本數。此處， p = 1 且 η = 4。因為“<Β>”也是符記類別ptag(_)的一成員，所以另一試驗性上下文規則可以是：規則7 :如果左上下文= ptag(), 則自狀態X轉移到狀態N。符記模式Ptag(_)符合否定樣本A2、A10、A13、及 A15之左上下文。因此，p=1且n = 4。該學習程式然後採取A 1 6的右上下文之第一符記，以便產生一右上下文模式。在該實例中，A16是一字 “Yaser”，因而該右上下文的第一符記之右上下文模式可以是 Word(_)、CNalph(_)、或 cialph(_)。這三個符記類別都符合符記“ Y a s e r ”。 * 規則8利用W〇rd(_)作為右上下文模式。將评(^(1(_)與符記A1至A15的右上下文比較時，w〇rd(_；)符合否定樣本A2、A4、A6、及A8之右上下文。因此，口=1且11 = 4。對於規則9而言，CNalph(_)亦符合四個否定樣本的右上 -26 - 本紙張尺度適用中國國家標準（CNS)A4規烙（210 X 297公釐） (靖先閱讀背面之注意事項再填寫木頁) %---- 訂---------線— 經濟部智慧財產局員工消費合作社印製經濟部智慧財產局—工消費合作社印製 A7 B7 五、發明說明（24 ) 下文，因此，P=1且n = 4。對於規則10而言，Claiph(」符合否定樣本A2、A6、及A8的右上下文，因此，p=l且 n = 3。將規則6與規則1 〇比較時，規則1 〇得到最少的不正確比對（符合一個否定樣本）。該學習程式通常選擇可得到最 t 大（p - n ) / ( p + η )值的試驗性上下文規則。如果將兩個規則應用於各相關符記時可得到相同的（p - n ) / ( ρ + η )值，則將選擇具有含蓋範圍較大的一符記類別之規則作為找出完整的上下文規則之基礎。例如，該學習程式將選擇規則8而不選擇規則9，這是因為w〇rd(_)有比CNalph(_)更寬廣的範圍。規則1 0所用的上下文模式是不完整的，因為該規則仍然符合某些否定樣本。請參閱圖17(b)，該學習程式利用CIalph(_)作為基礎，並將一個符記模式加入左或右上下文模式，而找出次一组的試驗性上下文規則。對於規則1〖而言，係將 H t m 1 (—)加入規則1 0的左上下文模式=因此，規則1 1變為：規則I 1 :如果左上下文=H t m 1 ( _)且右上下文= Clalph(_), 則自狀態X轉移到狀態N。 " 此時，只需要將與符記A2、A6、及A8的左上下文之第一符記比較。此處，符合A2的左上下文之第一符記，因此，p=l且n=l。對於規則1 3至1 5而言，該學習程式加入一個符合A 1 6的 -27- 本紙張尺度適用中國國家揲準（CNS)A4規格（210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^---- 訂---------線— 4b 〇 A2 ό A7 B7 五、發明說明（25 ) 右上下文的第二符記之符記模式，而擴展右上下文模式。 A 1 6的右上下文之第二符記是屬於符記類別 Nonword(_)、Ctrl(_)、及Spc(一）之空白字元°對於規則1 3而言，係將Ν ο n w 〇 r d (_)加入規則1 〇的右上下文模式。因此，規則1 3變成： r 規則13 :如果右上下文= Clalph(_)Nonword(一），則自狀態X轉移到狀態N。該學習程式將Nonword(_)與符合規則1 〇的各否定樣本的右上下文之第二符記比較。此處，Nonw〇rd(_)符合 A2及A6的右上下文之第二符記，因此，ρ=1且n = 2。對 t 於規則14而言，Ctrl(_)符合A2及A6的右上下文之第二符記，因此，p = 1且η = 2。對於規則1 5而言，S p c ( _)亦符合Α2及Α6的右上下文之第二符記，因此’ ρ=ι且η = 2。比較規則1 1至1 5時，規則1 1及1 2可得到最少的不正確符合。因為H t m 1 (」是一種比P t a g (_)更寬廣的類別，所以該學習程式選擇規則1 1作為基礎，以便找出上下文規則的完整上下文模式。請參閱圖1 7 ( C ),該學習程式利用L p = H t ra 1 (_)且 RP = Clalph(_)作為基礎，並將一個符記模式加入左或右上下文模式，而找出次一組的試驗性上下文規則' A丨6的左上下文之第二符記是 <AHREF=“http://electra.caltech.edu/EE/Faculty/Abu-Mostafa.htmr>。該符記屬於符記類別H tm 1 ( _)及P t a g ( _)。將η t m 1 ()加入規則1 1之左上下文模式，即可產生規則16 .將ptag(_) _ -28- 本紙張尺度過用中國國家標準（CNS)A4規格（210x 297公釐） f請先閱讀背面之注意事項再填寫本頁) 仅-----.----訂---------線丨經濟部智慧財產局員工消費合作社印製 A7 46 B42 6 ___B7___ 五、發明說明（26 ) 加入規則I 1之左上下文模式，即可產生規則1 7。規則1 6 & · 疋規則16 *如果左上下文= Html(_)Html(_)且右上下文= Clalph(_), 則自狀態X轉移到狀態N。該學習程式將H t m 1 (_)與符合規則1的各否定樣本的左上下文之第二符記比較。此處，Html(_)並不符合各否定樣本的左上下文之任何第二符記。因此，p==l且11 = 0。對於規則17而言，Ptag(_)也不符合各否定樣本的左上下文之任何第二符記。因此，p=l且n = 〇 -應用規則18—20 ♦ 時，皆將得到p = 1且n = I。因此，規則1 6及1 7係優於規則 1 8 - 2 0。選擇規則1 6作為最後的上下文規則，這是因為是一個比Ptag(_)更寬廣的類別。因此，用來識別自狀態X至狀態A的變換之上下文規則是規則1 6 = 圖18示出根據本發明一實施例而產生一上下文規則之流程圖。該學習程式開始於步驟（1 8 〇 2 ),並在步騾 (1 8 0 4 )中自一使用者接收輸入，以便識別自一個狀態至另一個狀態的變換之肯定樣本及否定樣本。自狀態X變換成狀態N的一肯定樣本實例是圖1 5 ( c )中之符記A 1 6，且否定樣本的實例是符記Al至A15。在步驟（1806) 中，該學習程式產生一系列符合該等肯定樣本的左上下文的第一符記之左上下文模式。此種左上下文模式的例子有及Ptag(_)。在步驟（1808)中，該學習程/式產生一系列符合該等肯定樣本的右上下文的第—符記之右上 -29- 本紙張尺度適用中國國家標準（CNS)A4規烙（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) ^*i I — ί I I .訂 ---------'5^ — 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（27 下文模式。此種右上下文模式的例子有Word(_)、 CNaIph(_)、及 CUlph〇。在步驟（1 8 1 〇 )中，該學習程式將步驟（丨8 〇 6 )中產生的左上下文模式與該等否定樣本的左上下文之第一符記較’並決疋用來代表符合否定樣本的數目之η值。該學 Τ 丁習程式然後將步騾（18〇8)申產生的右上下文模式與該争否定樣本的右上下文之第一符記比較，並決定用來代表符合否Α樣本的數目之η值。該學習程式選擇可得到最大 (Ρ-η)/(Ρ + η)值之上下文模式。該數目ρ代表肯定樣本的數目。在步驟（I 8 1 2 )中，該學習程式決定至此所產生的上下文模式是否為完整的。如果步騾（18丨〇)中選擇的左/ 右上下文模式並不符合任何否定樣本，則該上下文模式是完整的’且將程序的控制轉移到步騾（1 8 1 6 )，並利用至此所產生的左/右上下文模式來輸出上下文規則。在步驟（1812)中，如果在步驟（丨81〇)中選擇的左/右上下又模式仍然符合任何否定樣本，則將程序的控制轉移到步驟（1 8 1 4 )。增加一個符合該等肯定樣本的左（或右）上下文的次一符記之符記模式，即可擴展該左（或右）上下文模式。類似於步驟（18〇6)、（丨8“）、及 ¢1810)中所執行的動作，步驟（1814)通常需要產生系列的上下文模式’並找出一個可得到最大（p . η)/(Ρ + ιι)值的上下文模式。重複步驟（丨812 )、 (1 8 1 4 )、及（丨8 1 0 )，直到產生一個並不符合任何否 k紙張尺度適用中國國家標準（CNS)A4規格（21〇χϋ_7公餐 (請先閱讀背面之注意事項再填寫本頁) ----訂---------線—

• ft— n tr ί ϋ n .^1 1 I 642 6 Α7 Β7 五、發明說明（28 ) 定樣本的左/右上下文模式為止。請參閱圖1 9，規則2 1 - 2 8形成一组樣本上下文規則且一資訊摘取程式可利用該組樣本上下文規則自—類似於圖 1 ( b )所示文字序列的一文字序列摘取屬性“名稱，，、“學術頭銜”、.及“行政管理頭銜”。利用規則2 1來識別自狀態 G B至狀態b / e之變換。利用規則2 2來識別自狀態b / e至狀態N a m e之變換，其他依此類推。利用規則2 1 - 2 8之資訊摘取程式具有八個狀態：G B、b / e、N a m e、@ n a m e A c a d e m i c _ t i 11 e 、 @Academic_title

Admin_title、及GE。狀態@Name意指摘取程式正在讀 ♦ 取屬性N a m e與次一屬性間的虛擬符記之一種假狀態。該學習程式可根據圖1 8所示之流程圖而產生規則2 1 - 2 8中之每一規則3 請參閱圖20,圖中示出已將圖13所示的每一屬性反白之樣本文字序列。為便於解說，將四個資料項的第一屬性之第一符記分別標示為B 1、B 2、B 3、及B 4。請注意，業已識別符記B 1、B 2、及B 3屬於屬性U ,且B 4屬於屬性 N。下文的說明解說了用來產生一個具有圖2所示狀態變換圖的資訊摘取程式的上下文規則之程序。在圖2中，.有下列離開狀態b/e之路徑··變換路徑（b/S aU)及 (b / e ->N )。為了產生變換路徑（b / e ->U )，該學習程式將符記B 1、 B2、及B3識別為肯定樣本，這是因為這些符記屬於·屬性 U。所有其他的符記都是否定樣本。該學習程式產生只符 -31 - 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） (請先閱讀背面之注意事項再填寫本頁) ,4-----Γ — I·訂 i !-線丨經濟部智慧財產局員工消費合作社印製 46642 6 A7 _____B7 —__ 五、發明說明（29 ) 合件記Bl、B2、及B3但並不符合其他符記的左/右上下文模式。為了產生變換路徑（b/e—N)的上下文規則，該學習私式首先將符記B 4識別為肯定樣本，這是因為該符記屬於屬性N。將所有其他的符記識別為否定樣本。該學習程式然後產生只符合符記B 4但不符合任何其他符記之左 » /右上下文模式。可以一類似方式產生具有其他變換路徑之上下文規則。本又所揭不的各實施例在各方面上都是作為舉例，而並非對本發明加以限制。並非由前文的說明而是由最後的申請專利範圍指示本發明之範圍，且本發明將包含在本發明的等效權項的意義及範圍内之所有改鍵。 (請先閲讀背面之注意事項再填寫本頁) ---*訂---------線· 經濟部智慧財產局員X消費合作杜印製 32 n n n n n I I I HI— n n n _ 本紙張尺度適用ΐ國國豕標準（CNS)A4規格（210 X 297公釐）

Claims

A8 B8 C8 D8 〇〇 4 2 〇第88120033號專利申請案中文申請專利範圍修正本(90年8月）六、申請專利範圍 90. 8. 02 1. 一種自一符記序列摘取屬性之方法，該方法包含下列步驟：將第一組上下文規則應用於該符記序列的各循序符記’而自該符記序列識別出一第一屬性之開始處，其中該第一組上下文規則包括將該符記序列的一符記之一左上下文及一右上下文與一組預定符記模式比較，以便決定是否滿足該組預定符記模式中的—個預定符記模式；以及於識別出該第一屬性的該開始處時，儲存在識別該第一屬性的終止處之前且接績在與該第一屬性的該開始處相關聯的符記之後的各循序符記。 2. 如申請專利範圍第i項之方法，其中識別該第一屬性的終止處之該步驟包含下列步驟：將第二組上下文規則應用於該符記序列中在與該第一屬性的該開始處相關聯的符記之後的各循序符記。 3. 如申請專利範圍第2項之方法，在識別該第一屬性的終止處的該步驟之後，進一步包含下列步驟：將第三組上下文規則應用於該符記序列中在與該第一屬性的該終止處相關聯的符务之後的各循序符記，而自該符記序列識別出一第二屬性之開始處，其中該第三組上下文規則包括將該符記序列的一符記之一左上下文及一右上下文與一组預定符記模式比較，以便決定是否滿足該組預定符記模式中的一個預定符記模式；於識別出該第二屬性的該開始處時，儲存在識別該第 C許先聞讀背面之注意事項再填寫本頁) 裝· •訂經濟部中央標準局員工消費合作社印装本紙張尺度適用中國國家標车（€呢）六4規格（21〇/297公董） A846 642 6 b| __ D8 經濟部中央榡隼局員工消費合作衽印策六、申請專利範圍即.8‘ 02 二屬性的終止處之前且接續在與該第二屬性的該開始處相關聯的符記之後的各循序符記；以及識別該第二屬性的終止處之該步驟包含下列步驟：將第四組上下文規則應用於該符記序列中在與該第二屬性的該開始處相關聯的符記之後的各循序符記。 4. 如申請專利範圍第3項之方法，其中該第一及第二屬性屬於具有一預定數目的排列順序之一組預定屬性，且用於該第三組上下文規則之該组預定符記模式包含根據該組預定排列順序而識別自一個不與任何屬性相關聯的一符記至一個與可能接續在該第一屬性之後的一屬性相關聯的符記的一變換之若干符記模式D 5. 如申請專利範圍第3項之方法，其中該第一及第二屬性屬於具有一預定數目的排列順序之一組預定屬性，JL用於該第三組上下文規則之該組預定符記模式包含用來識別自一個不與任何屬性相關聯的一符記至一個與屬於該組預定屬性的任何屬性相關聯的一符記的一變換之若干符記模式。 6. —種自一符記序列摘取具有一第一屬性的第一子集的符記及具有一第二屬性的第二集的符記之方法，該方法包含下列步驟：將第一組上下文規則應用於該符記序列的各循序符 1己，而識別出該第一予集的符記之第一符記，其中該第一组上下文規則包括將該符記序列的一符記之左及右上下文與一組預定符記模式比較，以便決定是否滿足該組 -Γ-~~：----24--- 紙本释冢國 0 Τ 用通 * 公 * . (請先Η讀背面之注意事項再填寫本頁) •V5 A8 6S C8 D8 90. 8. 466426 六、申請專利範圍預定符記模式中的一個預定符記模式；以及於識別出該第一子集的符記之該第一屬性時，儲存在識別該第一子集的符記的最後一個符記之前且接續在該第一子集的符記的第一符記之後的各循序符記。 7_如申請專利範圍第6項之方法，其中識別該第一子集的符記的最後一個符記之該步驟包含下列步驟：將第二組上下文規則應用於該符記序列中在該第一子集的符記的最後一個符記之後的各循序符記。 8. 如申請專利範圍第7項之方法，在識別該第一子集的符記的最後一個符記的該步驟之後，進一步包含下列步驟：將第三組上下文規則應用於該符記序列中在該第一子集的符記的最後一個符記之後的各循序符記，而識別該第二子集的符記之第一符記，其中該第三組上下文規則包括將該符記序列的一符記之左及右上下文與一組預定符記模式比較，以便決定是否滿足該组預定左及右符記模式中的一個預定左及右符記模式；以及於識別出該第二子集的符記之第一符記時，儲存在識別該第二子集的符記的最彳象二' 個符記之前且接續在與該第二子集的符記的該第一符記之後的各循序符記。 9. 一種自一符記序列摘取具有一第一屬性的第一予集的符記及具有一第二屬性的第二子集的符記之方法，該第二子集的符"I己出現在該第一子集的符記之後，該第一及第二屬性係選自一組預定屬性，該方法包含下列步驟：本紙張尺度逋用中國國家揉準（CNS ) A4規路（2丨0X297公釐） --;1!----t.----.---訂------^ {請先閲讀背面之注意事項再填寫本頁) 經濟部中央搮隼局負工消費合作社印裝 Α8 Β8 C8 D8 90. 8. 02 46 642 6 申請專利範圍各循序符記，而識符記的第一符記之集的符記之最後一符記的第一符記之集的符記之最後一符記的最後一個符二子集的符記之第 (請先Μ讀背面之注$項再填寫本頁) .裝. 將第一組規則應用於該符記序列的別出該第一子集的符記之第一符記；將第二組規則應用於該第一子集的後的各循序符記，而識別出該第二子個符記；將第三組規則應用於該第一子集的後的各循序符記，而識別出該第—子個符記；將第四組規則應用於該第一予集的記之後的各循序符記，而識別出該第一 1己； '订識別與該第一子集的符記相關聯之屬性；以及識別與該第二子集的符記相關聯之屬性。線經濟部中央標準局員工消費合作社印製 10.如申請專利範圍第9項之方法，其中用來識別該第一子集的符記的第一符記之該第一組規則包含：將一符記的一左上下文及一右上下文與一組預定左及右符記模式比較以便決定是否滿足該組預定左及右符記模式中的一左及右符記模式之規則。 1L 一種自一符記序列摘取屬性方法，每一屬性包含至少一個符記，該方法包含下列步驟：接受複數個特徵在於根據一符記的左上下文及右上下文而自該符記序列的一第一屬性變換成一第二屬性之規則；接受該符記序列：以及本紙張尺度適用中國國家梯準（CNS ) Α4規格（210Χ297公釐）經濟部中央梂隼局員工消費合作杜印*. 46 642 6 bs 「 ______ D8 六、申請專利範国 90. 8. 02 將該等複數個規則應用於該符記序列，而識別該符記序列中各屬性間之邊界。 12. 如申請專利範圍第1 1項之方法，其中自該第—屬性至該第二屬性之該變換包含自該第一屬性至一虛擬屬性之一第一變換、及自該虛擬屬性至該第二屬性之一第二變換。 13. 如申請專利範圍第丨1項之方法’其中該符記序列内的該寺屬性屬於一组預定屬性，且該等複數個規則包含：特徵在於一種自該組屬性内的一屬性變換成該組屬性内的任何其他屬性之規則。 14，如申請專利範圍第1 1項之方法，其中該符記序列内的該等屬性屬於一組預定屬性，且該等複數個規則包含：特徵在於一種自該組屬性内的一屬性變換成該組屬性内的一有限數目的其他屬性之規則。 15. —種自一符記序列摘取若干子集的符記之方法，每一子集的符記具有選自一组屬性的一屬性，該方法包含下列步驟：接受複數個將一符記的左上下文及右上下文與—组預疋左及右付記模式比對而赛_及|丨具有不同屬性的不同子集的符記之邊界之規則；接受該符記序列；將該等複數個規則應用於該符記序列之各循序符記，而識別該等子集的符記之開始處及終止處；以及儲存該等子集的符記'及與該等子集的符記相關聯之本紙用中® g)家揉率（CNS )从祕（210X297公ϋ ----- — i-1 — i----參-------ίτ------^ (錆先$讀背面之注意事項再填寫本頁) 466^26六、申請專利範圍 A8 B8 CS D8 如· 8. 〇2 經濟部中失棵準局負工消费合作社印装 08- 屬性 16.如申請專利範圍第1 5項之方法，其中識別該等子集的符記的開始處及終止處之該步鄉包含下列步驟：將一第一子集的該等複數個規則應用於該符記序列中之各循序符記，以便識別該第一子集的符記之開始處、及最後一個子集的符記之終止處；將一第二子集的該等複數個規則應用於該符記序列中在該第一子集的符記的開始處之後且在該最後一個子集的符記的終止處之前的各循序符記，以便識別每一子集的符記之開始處及終止處；以及應用一第三子集的該等複數個規則，以便識別與每一子集的符記相關聯之屬性。 17_ —種識別一符記序列中的屬性之系統，包含：一儲存裝置，用以儲存複數個特徵在於根據一符記的左上下文及右上下文而自該符記序列的一第一屬性變換成一第二屬性之規則；以及一處理器，用以接受該符記序列，並將該等複數個規則應用於該符記序列，而識別該符記序列中各屬性的第一及最後一個符記。 .- 18.如申請專利範圍第1 7項之系統，其中該等複數個規則之特徵在於自一第一屬性至一第二屬性的所有可能變換，且該處理器將該等複數個規則應用於該符記序列之各循序符記，以便在讀取該符記序列的一單次掃描内識別該符記序列中每一屬性之第一及最後一個符記。本纸張尺度適用t國國家標率（CNS ) A4说格（210X297公釐） in-----¾-------..IT------^ (請先閩讀背面之注意事項再填寫本頁) 4 b ο 42 6 bs V C8 _ D8 六、申請專利範圍 8. 〇2 19. 如申請專利範圍第1 7項之系統，其中該等複數個規則包含三個子集的規則：一第一子集的規則，用以識別該符記序列中第一屬性的第一符記、及最後一個屬性的最後一個符記；一第二子集的規則，用以在無須實際識別個別屬性的情形下識別所有屬性的第一及最後一個符記；以及一第三子集的規則，用以識別每一個別屬性。 20. —種產生一摘取程式用來識別具有不同屬性的各子集的符記間的變換的一上下文規則之方法，包含下列步驟：接收一樣本符記序列，該樣本符記序列包含一具有一第一屬性的第一子集的符記、及不與該第一屬性相關聯的一第二子集的符記，且在該符記序列中，該第二子集的符記係在該第一子集的符記之前；識別該第一子集的符記之第一符記；產生一對符合該第一子集的符記的第一符記的左及右上下文但並不符合屬於該第一子集的符記的各符記的左及右上下文之左及右上下文模式，因而該左及右上下文模式形成用來識別自該第二子集的付記至該第一子集的符年―为變換的上下文規則之比對準則。 21. 如申請專利範圍第2 0項之方法，其中產生該對左及右上下文模式之該步驟包含下列步驟：找出符合該第一子集的符記的第一符記的右上下文的第一符記之第一組符記類別； _______________ 本紙張尺度逍用中國國家橾準（CNS) A4規格（21〇><297公憂^ ------ ---------t----.---.11------0 (請先«讀背面之注意事項再填寫本頁) 經濟部中央標準局貝工消費合作社印製 A8 B8 C8 D8 穴、申請專利範圍 ' — 90- 8. 〇2 找出符合該第一子集的符記的第一符記的左上下文的第—符記之第二组符記類別； (請先閑讀背面之注意事項再填寫本頁} 在該第一組及第二組符記類別中選擇一符記類別，使該第二子集的符記中符合該符記類別的符記數為最少；如果該符記類別付合該第一予集的符記的第一符記之左上下文，則指定該符記類別作為該左上下文模式之一部分；以及如果該符記類別符合該第一子集的符記的第一符記之右上下文，則指定該符記類別作為該右上下文模式之— 部分。 22.如申請專利範圍第2 1項之方法，進一步包含下列步驟：找出符合該第一子集的符記的第一符記的左上下文中業已不符合該左上下文模式或右上下文模式的一額外符記之第三組符記類別；找出符合該第一子集的符記的第一符記的右上下文中業已不符合該左上下文模式或右上下文模式的一額外符記之第四組符記類別；經濟部中央標準局員工消背合作社印装在該第三組及第四組符記類別中選擇一符記類別，使該第二子集的符記中符合轉記類別的符記數為最少；如果該符記類別符合該第一子集的符記的第一符記之左上下文，則加入該符記類別作為該左上下文模式之一部分；以及如果該符記類別符合該第一子集的符記的第一符記之右上下文，則加入該符記類別作為該右上下文模式之— ___—4β--- 本紙張尺度逍用中國國家樣率（CNS 規格（210 X 297公釐） ~~ A8 B8 C8 D8 466426 申請專利範圍 9ft 8. 02 部分。 23. —種產生一摘取程式用來識別具有不同屬性的各子集的符記間的變換的一組上下文規則之方法，該等子集的符記被分組成複數個資料項，該方法包含下列步鄉：接收一樣本符記序列；以對應的屬性名稱識別每一子集的符記；將该等子集的符記分组成若干獨立的資料項；以及為各屬性之間每一可能的變換產生一上下文規則；其中該上下文規則包含將一符記的左及右上下文與一對預定的左及右上下文模式比較，且當發現一相符時即識別一^變換。 24. —種產生用來識別一符記序列中的屬性的上下文規則之系統，包含：一記憶體，用以儲存一樣本符記序列；一使用者介面，用以讓一使用者在識別自一第一屬性至一第二屬性的變換的該樣本符記序列内識別至少一個符記；一處理器，用以接收該樣本符記序列，並產生一對符合用來識別該屬性的變換等至少一個符記的左及右上下文之左及右上下文模式，因而該左及右上下文模式形成用來識別自該第一屬性至該第二屬性的變換的上下文規則之比對準則》 25. —種自一文字序列產生一單次掃描摘取程式的變換規則之方法，該文字序列具有複數個資料項，每一該等複數本纸張尺度適用中國國家標準（CNS ) A4規格（210X297公漦） ---—I----^----：---、訂------it • « (請先閲讀背面之注$項再填寫本頁) 經濟部中央揉率局員工消費合作社印製 ABCD 466426 夂、申請專利範圍〜 90. 8. 02 個資料項具有一组屬性'及一組對應於該組屬性之〜級標籤，該方法包含下列步驟： (a) 利用該文字序列中之該组屬性及該組標籤決定〜資料項内的屬性序列之所有可能排列；以及 (b) 產生用來識別步驟（a)決定的各屬性間的所有可能變換的變換規則之一資料庫，每一變換規則包含自—第 —屬性至一虛擬屬性然後至一第二屬性之變換。 26. —種產生用來識別自一符記序列内的—第一子集的符記至一第二子集的符記的變換的上下文規則之方法，該方法包含下列步驟： (a)識別該符記序列内的各肯定符記樣本； (b )識別該符記序列内的各否定符記樣本； (C)應用一設定涵蓋演算法，以便產生一組符合所有肯定符記樣本的左及右上下文但不符合任何否定符記樣本的左及右上下文之左及右上下文模式。 i |~I----¾----τ——ΪΤ------^ • · f靖先間讀背西之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装本紙張尺度適用中國國家標率（CNS ) A4規格（2丨0X297公釐）