TW466426B - System and method for extracting data from semi-structured text - Google Patents
System and method for extracting data from semi-structured text Download PDFInfo
- Publication number
- TW466426B TW466426B TW088120033A TW88120033A TW466426B TW 466426 B TW466426 B TW 466426B TW 088120033 A TW088120033 A TW 088120033A TW 88120033 A TW88120033 A TW 88120033A TW 466426 B TW466426 B TW 466426B
- Authority
- TW
- Taiwan
- Prior art keywords
- token
- tokens
- attribute
- context
- subset
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
A7 4 6 6 4 2 6 _________B7____ 五、發明說明(1 ) 發明背景: 本發明係有關自文字文件摘取資訊。 許多組織都有大量且數量愈來愈多的電子檔案,而且這 些電子檔案包含有重要價值的資訊。全球資訊網 (WorldWideWeb)本身就是此類資訊的一巨型儲存場所。目 t 前已開發出可讓電腦搜尋並分析此種大量資訊的工具程 式。然而’通常儲存在資料庫的表格式資訊不同,許多文 件只有有限的内部結構’因而被稱為“半結構化文 字”(“ semi-structured text ”)。例如,與全體教職員資訊有 關的一份文件可能包含一具有諸如教職員名稱、個人網 * 址、連絡地址' 及學術頭銜等某些屬性的單字或字孝所構 成之資料項清單。可將該資訊格式化成一表格式清單,以 便易於閱覽。 半結構化文字的一個例子是以超文件標注語言 (HyperText Markup Language ·’ 簡稱 HTML)撰窝的網頁。 HTML利用標記(tag )來規定網頁中各圖形及字元之格式及 特徵。例如,位於一對標記“ <B>,,與“</B>,,之間的文字 規定要以粗體字顯示該文字。文件内的這些html標記之 主要目的在於將輸出式樣格式化,但是這些標記本身並未 將這些標記之間的文字是何種内容的訊息告知*電腦。例 如,若有一輸入字串“ < B > ” J 〇 h η “ < / B > ”,則標記“ < β > ” 及“</B>”並未向電腦指示“John”是對應於一名稱、一連 絡地址、或一學術頭銜 為自文件或文字序列摘取資訊而撰寫的程式被稱為資訊 "4 - >紙張又度適用中國國家標準(CNS)Al規烙(210 X --- (諳先閱讀背面之沒意事項再填寫本頁) f —訂---1-----· I; 經濟部智慧財產局員工消費合作社印*''农 A7 經濟部智慧財產局員工消費合作社印制农 E7— ....... _ l_,五、發明說明(2 ) 摘取程式(informationextractor) 或“包裹程式” + (‘‘ wrapper ”)。一資訊摘取程式適於自有一特定結構的文 件或文字序列摘取具有某些屬性的一組特定單字或字串。 例如,一資訊摘取程式適於處理諸如圖1 ( a)所示具有四個 資料項的一網頁。請參閱圖1 ( b ),該網頁的HTML齐字序 列具有四個資料項,每一資料項包含若干具有屬性的文字 字串:“URL(U)”’、“名稱(N)”、“學術頭銜(A)”、及 “行政管理頭銜(Μ )”之一組合。請參閱圖1 ( c ),自第一資 料項摘取的第一資料重元组(tuple )包含四個具有屬性U、 N、A、及Μ的文字字串。第二及第三資料重元組分別包 含三個具有屬性U、Ν、及Α的文字字串。第四資料重元組 包含若干具有屬性A的文字字串。為了簡化說明,將 只把一個“具有屬性U的文字字串”稱為“屬性U ”。因此, 術語“屬性”(“ attribute ”)將意指一個具有一特定屬性之文 字序列。 為了自一網頁的文字序列摘取屬性,一預先處理程式首-先將該文字序列分割成若干符記(token)。一符記可包含若 干字詞、數字、HTML標記等。例如,在圖i (b )中, “<H1>”可以是一符記,而字詞“Faculty”可代表另一符 記。一屬性可包含數個符記。例如,名*稱屬性 “ ManiChandy ”可包含兩個符記“ Mani ’,及“ chandy ” °資訊 摘取程式讀取該等符記,並使用一组預定的摘取規則,以 便自這些符記摘取屬性。例如,一個可能的規則可以/是: 當碰到一對HTML標記“ < B > ”及“ </ B > ”時,則摘取該等 -5- 本紙張尺度適用中國固家標準(CNS)A4規格(210 X 297公釐) (靖先閱讀背面之注意事項再填寫本頁)
J -丨tri 線11·i.---------- 4 b 6 4 2 6 A7 * B7___ 五、發明說明(3 ) 標記間之文字作為名稱屬性。 通常係由一種被稱為學習程式(learning program )的獨立 程式產生摘取規則(extraction ruIe )。學習程式讀取具有使 用者所標示的若干屬性之訓練樣本(training sample )(來自 目標網頁的一短文字序列)。例如,使用者可利用圖形使 ? 用者介面(GraphicsUserlnterface ;簡稱GUI)來反白或標示 該樣本文字序列内對應於”名稱”屬性的這些部分。該學習 程式然後找出該反白或標示部分出現在該樣本文字序列的 位置模式。該模式然後成為用來摘取該"名稱,,屬性之規 則0 * 在產生一組摘取規則之後,一使用者可針對一第二樣本 文字序列測試這些規則,以便檢驗該資訊摘取程式是否可 正確地摘取所有的屬性。如果並非如此,則可再度呼叫該 學習程式,且該使用者標示先前被錯誤識別但具有正確屬 性名稱的那些屬性。該學習程式然後修改該等摘取規則, 使該等摘取規則可正確地識別該第—及第二樣本文字序列 中的各屬性。當一目標網頁改變其格式或資料結構時,也 利用該學習程式v來更新該等摘取規則。因為經常修改網頁 是常見的現象,所以需要一種只須一組最少的訓練樣本之 學習程式。 · 其他不同類型的資訊摘取程式可能用到不同的摘取規 則。例如,一種被稱為“ L R資訊搜尋程式”的資訊摘取程 式用到尋找具有左右對結構的符記之規則。另一個通'常被 稱為“潛行資訊搜尋程式”“ stalker-wrapper ”)的資訊摘取 -6- 本紙張尺度適用中國國家標準(C'NS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 』--------訂----------線 { 經濟部智慧財產局員工消費合作社印制衣 46 642 6 A7 _ B7 五、發明說明(4 ) 程式可能有一些用來跳過某些類型的符記且搜尋某些類型 的“地標”符記之規則。 ’土 發明概述: 本發明係有關一種在一半結構化輸入文字序列内搜尋屬 性之資訊摘取程式。一般而言,該資訊摘取程式類似於一 有限狀悲轉換器,包含若干狀態、以及在該等狀態間之若 干反換路也。每—狀態被界定為與某—屬性的摘取相關 聯。該等狀態之間的各可容許變換路徑係與該等屬性序列 的各可能排列相關聯。對於每一變換路徑而言,都有—個 相關聯的上下文規則(contextualrule )5當輸入文字序列中 ψ 的一模式滿足一特定的上下文規則時,即在狀態之間發生 一變換,因而該資訊摘取程式進入與另一屬性的摘取相關 聯之次一狀態=藉由利用一些也考慮到在現行輸入符記之 前及之後的符記之上下文規則,本發明的資訊摘取程式即 可處理具有不規則配置結構及多種排列的屬性之文件。 本發明之特徵在於一種可自多種文件式樣中自動摘取屬 性並以一種有效率的方式更新各摘取規則之資訊摘取程 式。與使用一组固定規則且只能處理具有按照某一結構而 配置的屬性的文件之其他資訊摘取程式不同,本發明可適 應文件格式式樣的變化。 · 本發明的一項優點在於:縱使有部分屬性遺漏,或者當 屬性的順序發生變化時,本發明的資訊摘取程式也能正確 地識別屬性。 本發明的另一優點在於:本發明的資訊摘取程式適於處 本紙張尺度適用中國國家標準(CNS)A·丨規格(2丨〇χ 297公釐) (諝先閱讀背面之注意事項再填寫本頁) ----,,ϊ I I - If — — — — — — [ 绶濟部智慧財產局員工消費合作社印制^ A7 46642 6 B7_______ 五、發明說明(5 ) (請先閱讀背面之江意事項再填寫本頁) 理一些具有不規則的資料結構或具有表格式配置式樣之文 件。 本發明的一額外優點在於:本發明的資訊摘取程式使用 一種只需/組最少數量的訓練樣本即可產生各摘取規則之 學習程式。 r 附圖簡述: 圖1(a)承出與一全體教職員及研究工作人員有關的一樣 本網頁之輸出° 圖1(b)示出圖1〇)所示網頁之HTML文字序列(原始 碼)。 ψ 圖1(e)示出自圖1(b)所示HTML文字序列摘取的屬性。 圖2是本發明的一資訊摘取程式實施例所用之一例示狀 態變換圖。 圖3示出一可能的變換路徑表。 圖4示出本發明的一資訊摘取程式可使用之例示符記類 型。 經濟部智慧財產局員工消費合作社印製 圖.5示出利用圖4所示各符記類型而被分割成若干符記之 一樣本文字序列。 圖6示出一樣本網頁之HTML文字序列(原始碼)。 圖7是本發明的資訊摘取程式的一替代實施例1狀態變 換圖。 圖8是配合本發明的替代實施例而使用之一例示狀態變 換圖。 圖9 ( a )示出圖1 ( b )中以箭頭指示包含屬性的本體邊界之 -8- 本紙張尺度適用令國國家標準(CNS)A.l規格(210x297公釐) 46 642 6 A7 ________B7 五、發明說明(6 ) HTML文字序列。 <請先閱讀背面之注意事項再填寫本頁) 圖9(b)不出圖1(b)中以箭頭指示屬性邊界之HTML文字 序列。 圖10示出一標'^己表文件實例。 圖Π是自一標記表文件摘取屬性的一本發明實施例所用 ί 之一例示狀態變換圖。 圖12(a)示出自圖10所示標記表文件摘取的_屬性表實 例。 圖12 ( b )示出一資訊摘取程式利用圖1 1所示狀態變換圖 而摘取的標疋及值屬性表之一實例。 4 圖13示出一具有以方框包封的屬性之樣本文字序列a 圖14是產生本發明的資訊摘取程式所用的摘取規則之流 程圖3 圖l5(a)示出一具有符記八1,八2,...八20之樣本文字序 列。 圖15 (b )示出在圖15 (a)所示樣本文字序列内的狀態X及 狀態N之範圍。 ' 經濟部智慧財產局員工消費合作社印製 圖l5(c)示出左及右上下文之定義。
圖16示出根據本發明的一學習程式實施例所用之符記類 別定義。 A S 圖17 ( a )示出一第一組上下文規則。 圖17 ( b )示出一第二組上下文規則。 圖17 ( c )示出一第三組上下文規則。 / 圖18是產生根據本發明一實施例的一上下文規則之流程 _ -9- 私纸張尺度適用中國國家標準(CNS)A4規格(210 x 297公·爱 4 6 6 4 2 6 A7 B7 五、發明說明(7 ) 圖。 圖19示出自一文字序列摘取屬性名稱、學術頭銜、及行 政管理頭銜的一組上下文規則。 圖20示出圖π中具有標示為B1、B2、B3、及B4的每 一資料項的第一屬性的第一符記之樣本文字序列。 f 詳細說明: 請參閱圖2,一狀態變換圖(200 )代表本資訊摘取程式的 一實施例中使用的狀態變换規則。在該實例中,該資訊摘 取程式是一適於自一文字序列摘取屬性U R L ( U )、名稱 (N)、學術頭銜(A)、及行政管理頭銜(M)之單次掃描資訊 , 摘取程式。輸入文字序列可來自諸如圖I (a)所示網頁的一 網頁,或者該輸入文字序列可以是由一具有類似屬性的文 書處理程式所產生的一文件。在將該輸入文字序列傳送到 該資訊摘取程式之前,先將該輸入文字序列分成若干符 記。因此,該資訊摘取程式接收該輸入文字序列、及指示 每一符記的位置之一偏移數目序列。該資訊摘取程式可在 一具有(U,N,A,M)、(U,N,A)、或(N,A)序列的資料錄 内摘取屬性。如果一輸入文字序列具有不同的屬性,或者 具有不同的屬性排列,則該單次掃描資訊摘取程式將也具 有一組不同的狀態變換規則= _ 術語“屬性”(“ attribute ”)亦用來意指為具有相同特徵的 符記序列的一子集之一組連續符記=例如,屬性U可代表 用來形成一 URL網址之一組連續符記。是URL網址一/部分 的一符記屬於屬性U。同樣地,屬性N可代表用來形成一 -10 - 本紙張尺度適用十國國家丨票準(CNS)A丨規格(210x297公釐) t请先閱讀背面iA意事读矜填寫本頁) 1^1 -- - XJ— frOJI κ I n I I 1 · 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 五、發明說明(8 ) 個人名稱之一组連續符記^術語》狀態,’(“ state,,)係用來作 為描述一資訊摘取程式的動作之一速記或標籤。術語“摘 取程式”在本文中係用來意指資訊摘取程式。當該摘取程 式係處於狀態U時,意指該摘取程式正在執行與摘取屬性 U相關聯的功能 <=摘取一屬性可包括讀取—序列的符*己並 輸出該等符記序連而形成一單一字串之動作^當該摘取程 式進入狀態U,時,意指該摘取程式正在執行與讀取位於屬 性U與次一屬性間之符記相關聯的功能。虚擬屬性是一種 不屬於任一屬性的符記序列。 當該摘取程式係處於狀態b / e (開始/結束的縮窝)時 # 意指該摘取程式正在讀取在一資料項的最後—個屬性與次 一資料項的第一屬性間之各符記。狀態b / e亦可意指該摘 取程式正在執行與讀取在該輸入文字序列的第—屬性之前 的各虛擬符記相關聯之功能。狀態b / e亦可意指該摘取程 式正在執行與讀取在該輸入文字序列的最後—個屬性之後 的各虛擬屬性相關聯之功能。在某些應用中’係將 GB(GlobalBegin(整體性開始)之縮窝)狀態定義為與讀取 該第一屬性之前的各符記之動作相關聯。同樣地’係將 G E ( GlobalEnd (整體性結束)之縮窝)狀態定義為與讀 取文字序列中最後一個屬性之後的各符記之動作釦關聯。 術浩上下文規則”意指將一符記的上下文與一组預定符 1己模式比較而檢查是否有一相符者。一符記的上下文包括 正在考慮的符記、及或有的在該符記之前及(或)之後的 各符記。例如,假設輸入文字序列為: -11 - 本纸張尺度適用ΐ國國家標準(CNS)A,1規格(210 X 297公髮) (請先閲讀背面之注意事項再填寫本頁) '- I ϊ 1 —'* I — 訂---------線! 經濟部智慧財產局員工消費合作社印制π A7 46 642 6 _ B7_____ 五、發明說明(9 ) <DT><A HREF=“http://www.cs.caltech.edu/people/mani.html,,> 且符記“ http ”識別自狀態b / e到狀態υ之變換,則一上下 文規則可以是: 如果左上下文=‘ ‘ HREF = ’ ’,且 右上下文=‘ ^ http : / / ’ ’, ( 則自狀態b / e變換成狀態U。 左及右上下文的基準點是在正在考慮的符記(“ http,,) 之前的位置。因此,“左上下文,,意指在“ http ”之前的一個 或多個付兄,且右上下文意指“ http ’’及一些額外的符記 '、‘/,、及/ 。左上下文及右上下文中含有的符記數 目係隨著上下文規則而變°例如,—上下文規則可能要求 左上下文包含3個符記且右上下文只包含—個符記。另— 上下文規則可能要求右上下文包含兩個符記,而並不要求 對左上下文作比較。 在一資料項内,我們界走一虛擬屬性U,包含在屬性U與 次一屬性之間的所有符記。同樣地’我們界定一虚擬屬性 N,包含在屬性N與屬性A之間的所有虛擬符記。虛擬屬性 A ’包含在屬性A與Μ之間的各虚擬符記。 圖2中之狀態變換圖代表當該摘取程式自輸入文字序列 中的-資料項摘取屬性U、Ν、Α、及(或)摘取程 式可進入的不Μ列之t態。該摘W呈式開始於狀態b/e (2 0 2 ),然後讀取-符記’並決定該符記是否屬於一屬 性。在本實例中,一資料項内的第一屬性必須是σ 。 因此,有—條自狀態b/e (2〇2)至狀態α (2〇4)之變換 ______12_ 紙張尺度適t g g家標準(CNS)Al規格(210 X 297 $餐) ---- ---- (請先閱讀背面之注音?事項再填寫本頁) 訂---------線! 埕濟部智慧时產局員工消費合作.社印製 466426 A7 ---— _________ 五、發明說明(1〇 )
路徑(2 1 8 )、以及另一條自狀態b / e ( 2 〇 2 )至狀態N (2 0 8 )之變換路徑(2 2 0 )。如果該符記並不屬於屬性 U或N,則如路徑(2 2 4 )所示,該摘取程式停留在狀態 b/e ( 2 0 2 )。 請參閱圖3,圖中示出圖2所示狀態變換圖界定的該摘取 程式之可能狀態變換。對於圖3中列出的每一可能狀賤變 換而言,都有一個圖2所示之一對應變換路徑。自狀態u (2 0 4 )至狀態U ( 2 0 6 )的變換意指:偵測到屬性口的 結尾,且現行符記(及或有的在其後的各符記)是一個不 屬於任何屬性的虚擬符記。自狀態U’( 2 0 6 )至狀態Ν (2 0 8 )的變換意指:偵測到狀態ν ( 2 0 8 )的開始,且 現行符記(及或有的在其後的各符記)屬於屬性Ν。當該 貪訊摘取程式自圖1 (b)所示的第二資料項摘取屬性υ、 N、及A時,該資訊摘取程式進入各狀態13/6_1;_1;,->^ N ’ - A - b / e =在摘取一資料項内的最後一個屬性(a )之 後’違摘取程式轉移到狀態b / e ( 2 0 2 ),意指現行符記 是一個位於該次一資料項的第一屬性之前虛擬符記。 有兩個離開圖2所示狀態b / e ( 2 0 2 )之變換路徑。該摘 取程式利用上下文規則決定要採取哪—條路徑。每一路捏 都有一對應的上下文規則。如果一符記的上下文*符合—變 換路徑之上下文規則,則根據該上下文規則而轉移到該狀 態。例如,與狀態b / e ( 2 0 2 )至狀態U ( 2 0 4 )的變換相 關聯的上下文規則可以是 規則 1 :如果左上下文= Calph(HREF)Punc(=)punc(,,),且 -13- 本紙張尺度適用中國國家標準(CNSM4規格(2丨0 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) -----h---訂---------線. 經濟部智慧財產局員工消費合作钍印製
466426 五、發明說明) 上下文=〇dPh(h«P)Punc(:)Punc(/)Punc(/), 則自狀態b / e轉移到狀態u ^ —(請注意,符記類別Calph()代表具有所有大寫字母的 平串。符記類別Punc〇R表標點符號。符記類別〇alph() 代表具有所m字母的字卜這些情形詳述於圖4 〇 — 卜又為子串href = ”,,,且右上下文為 串http,// 。與狀赵b/e (2〇2)至狀態n (2〇8)的 變換相關聯之上下文規則可以是 規則2:如果左上不文= Html(<B>),且 右上下文= CUlph〇, 則自狀態b / e轉移到狀態n。 ’ (清汪意,符記類別Html()代表所有的HTML標記, 且符記類別Cla丨ph()代表以一個大寫字母開始且具有至 少一個小寫字母之字串。符號“ —,,代表萬用字元’因而以 一大寫字母開始並具有至少一個小寫字母的任何字串都將 符合符記模式C 1 a 1 p h (—)-) 如果一符記的上下文滿足規則丨,則將採用自狀態b/e (2 02)至狀態U (204)之變換路徑。另—方面,如果 一符記的上下文滿足規則2,則將採用自狀態b / e ( 2 〇 2 ) 至狀態N ( 2 0 8 )之變換路徑。否則,該摘取程*式停留在 狀態b / e ( 2 0 2 ),並繼績讀取符記,直到滿足兩個規則 中的一個規則為止。 在某些應用中,在第一個b/e狀態之前加上一個g B_J"狀態 且在瑕後一個b / e啤.恐之後加上一個g e狀態是可行的。這 -14 - 本紙張尺度適用中國國家標準(CNS)A-l規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) -----1— 訂---------線, 經濟部智慧財產局員工消費合作社印製 46 642 6 Λ7 E7 經濟部智慧財產局員工消費合作社印製 五、發明說明(12 ) 是因為第一資料項中的第-屬性的第—符記之左/右上下 文可以不同於第二資料項中的第一屬性的第一符記之左/ 右上下文。同樣地,最後-個資料受中的最後—個屬性的 最後-個符記之左/右上下文可以不同於第二至最後一個 資料項中的最後一個屬性的最後—個符記之左/右上下 . Γ 又。 請參閱圖4,現在將說明用來將一文字序列符記化所用 之符記類別。第一行列出符記類別的名稱,第二行列出符 記的模式’第三行描述符記類型,而最後一行列出符記的 長度。可根據特定的應用而界定其他的符記類別。將於後 文中說明的學習程式可利用不同的符記類別來產生左/右 上下文模式。 請參閱圖5,圖1 ( b )所示Η T M L原始碼的第二行之文字 序列被分割成若千符記。第一符記是一 Η T M L標記 “<DT>”,第二符記是一空白字元“”,且第三符記是一 Η T M L標記“ < A ”,依此類推。第七符記是標點符號“ / ”, 第十二符記是字_ “www”,且第十三符記是標點符號 “”,依此類推。 符記1 ( “ < D T > ”)的左上下文是一新行的字元(該字 元是圖1(b)所示前一行的結尾,且並未示於圖5)。因 此,符記1並不滿足規則1或規則2。符記2、3、4 ' 5、 6、及7並不滿足規則1或規則2。符記8滿足規則1 ,因為 符記8的左上下文是“ H R E F = ” ”,且符記8的右上下文是 “ h 11 ρ : / /,,。因此,在符記8上,該摘取程式自狀態b / e -15_-_ 本紙張尺度適用中S國家標準(CNS)A-l規格(210 χ 297公.¾ ) (請先閱讀背面之涑意事痏再填寫本頁) I — ---- I I ^ ---------. A7 4 6 6 4 2 6 五、發明說明(13 ) (2 0 2 )轉移到狀態N ( 2 〇 8 )。於:士 下,符記8的左/右上下文之隔 卢、在我們的疋義 f ^離點係在引號(“)與字元 上下文規則要求該摘取程式向 —、 仗子並颉取一些額外的 付兄,以便比較右上下文。例如 风⑴1要求菽摘取程 讀取額外的三個符記,以便比較右 , 杈右上下又,這是因為 “ h 11 p : / / ”包含四個符記。需要诗饱 而要讀取的特定數目之額外符 記係取決於該组特定的上下女掘目,丨—上、 卜又規則。该摘取程式開始時可 謂取咸等上下文規則所需的某一數目之符^己。 識別自任何其他狀態變換成狀態A的—上下文規則之另 一實例可以是: ^ 規則3 :如果左上下文= Html(<DD>)Html(<I>),且 右上下文= Clalph(_), 則轉移到狀態A。 規則3要求左上下文是一 Η T M L標記“ < D D > 及接續的 另一 Η T M L標記“ < I > ”。此外’右上下文必須是以一大寫 字母開始並具有至少一個小寫字母的一字串。 請參閱圖6 ,具有與圖1 ( a)所示網頁稍微不同的内容及 配置格式的一網頁具有與圖1 ( b )所示Η T M L文字序列稍微 不同的一 Η T M L文字序列(或原始碼)。因此’Λ-摘取程 式將利用不同的上下文規則來識別在與自該網頁摘取不同 屬性相關聯的各狀態間之變換。在該實例中,自任何其他 狀態變換成狀態Α的上下文規則可以是: 規則4 :如果左上下文^HtmlG/AyPuncOSpcOHtmlCci〉) -16- _ k纸張尺度適用令國國家標準(CNS)A4規格(210 X 297公釐) f請先間讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印制衣 -^1 AT I '^OJ» I . u n n 1^1 I n i n m n ϊϋ ϊ l^i 1 經濟部智慧財產局員工消費合作社印製 Α7 Β7______ 五、發明說明(14 ) 或
Punc(_)NL(_)Spc(_)Html(<I>)或
Punc(,)Spc(_)Html(<[>)及 右上下文= Clalph(_), 則轉移到狀態A。 f 規則4要求左上下文是(i ) 一 Η τ M L標記“ < / a >,’及接 續的一逗號、任何數目的空白、及一 HTML標記“<ι>” ; 或(i i )任何標點符號及接績的一行新的字元、任何數目 的空白、及一'^丁^^!>標記“<1>” ;或(in) —返號及接續 的任何數目的空白及一 Η τ M L標記“ ·< I > ”。規則4要求右 9 上下文必須是以一大寫字母開始並具有至少一個小寫字母 的一字串。 請參閱圖7,狀態變換圖(7 0 0 )代表本發明資訊摘取程 式的另一實施例所使用的狀態變換規則。該資訊摘取程式 是一具有狀態b/e、U、N、A、Μ、及D。該資訊摘取程 式適於自一輸入文字序列摘取屬性U、Ν、A、及Μ。該輸 入文字序列可來自諸如圖i(a)或圖6所示之一網頁,也可 以是由一具有類似屬性的文書處理程式所產生之一文件。 該摘取程式可處理具有以任何排列序列出現的屬性U、 N、A、及Μ之文件。例如,該摘取程式可處理*一具有屬 性(M,A,U,N)之資料項。根據圖2而說明之該單次掃描摘 取程式無法處理該序列°圖7所示之圖示只是作為一個例 子"如果一輸入文字序列具有不同的屬性,則該通用/單次 掃描資訊摘取程式將也具有一組不同的狀態變換規則。 -17- 本紙張尺度適用中國國家標準(CNS)iY1規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ► 0 I I a^i 1 n H 一aJ n I - 4 b 6 4 2 6 A7 ___B7_______ 五、發明說明(15 ) (請先閱讀背面之注意事項再填寫本頁) 該摘取程式通過狀態b/e-U-D-N-D-M-b/e,即可處 理一具有屬性(U , N , Μ )之資料項。當該摘取程式處於狀態 D時,該摘取程式正在讀取位於各屬性間之虛擬符記。該 摘取程式開始於狀態b / e ( 7 0 2 )。該摘取程式讀取各循 序之符.記,並經由路徑(7 2 6 )而停留在狀態b/e
I 線! 經濟部智慧財產局員工消費合作社印製 (7 0 2 ),直到識別一個屬於屬性U之符記為止。該摘取 程式然後經由路徑(7 0 4 )而轉移到狀態U ( 7 0 4 )»該 摘取程式讀取符記,並經由路徑(7 2 8 )而停留在狀態 (704),直到識別一個不屬於屬性U的符記為止。該摘 取程式儲存(或輸出)所摘取的屬性U ,然後經由路徑 C 7 1 4 )而轉移到狀態D ( 7 1 2 )。該摘取程式讀取符 記,並經由路徑(7 3 0 )而停留在狀態D ( 7 1 2 ),直到 識別一個屬於屬性N的符記為止。該摘取程式經由路徑 (7 1 6 )而轉移到狀態n ( 7 0 6 ),摘取屬性N,然後經由 路徑(7 1 8 )而再度轉移到狀態〇 ( 7丨2 )。該摘取程式 然後經由路徑(7 2 2 )而進入狀態Μ ( 7 1 0 ),摘取屬性 Μ,然後經由路徑(724 )而進入狀態b/e ( 7〇2 ),至此 終止了該資料項的摘取週期。 請參閱圖8,一狀態變換圖(8 0 0 )代表本發明資訊摘取 程式的另—實施例所使用之狀態變換規則=該資*訊摘取程 式是適於摘取—輸入文字序列中的屬性U、N、A、及Μ之 多’入知疮#訊摘取程式。如果一輸入文字序列具有不同 的屬性,則該多次掃描資訊摘取程式機也具有一組不同的 狀態變換規則。 ___ -18 - 本纸張尺度適用中國^^準(CN5A ⑵Q χ 297公楚) ~ ~ 4 b 〇 ^ 2 6 a? ______ B7 --------- —--- 五、發明說明(16 ) 採用圖8所示變換規則的—資訊摘取程式具有相同的六 個資訊摘取程式(8 02 ) 、 ( 8 04 ) 、 ( 8〇6 )、 (808) 、(81〇)、及(812),每一資訊摘取程式對 輸入文字序列執行部分的摘取。摘取程式(8 〇 2 )掃描輸 入文字序列,並找出輸入文件中被稱為“本體”的部产,該 本體部分以第一屬性開始並以最後一個屬性終止。 請參閱圖9(a),指向第2行的“h”之第一箭頭示出第一屬 性的開始,而指向第1 〇行的“ e ”之箭頭示出最後一個屬性 的終止。摘取程式(802)找出圖9(a)中的該第一及第二 箭頭所指示之偏移值,並將這兩個偏移值連同該輸入文字 序列傳送到摘取程式(8 0 4 ) 。 · 圖8中之狀態g B ( 8 1 4 )代表摘取程式正在執行與讀取 第一屬性之如的各虛擬符記相關聯的功能之狀態=狀態本 體(816)代表該摘取程式正在執行與讀取該本體部分内 的各符記相關聯的功能之狀態,其中該本體部分包含第一 及最後一個屬性、以及在上述兩個屬性之間的文字序列。 在讀取了最後一個屬性的最後一個符記之後,該摘取程式 即進入狀態GE (818)。一個標示為(GB,本體)的上下 文規則係與自狀態G B ( 8 1 4 )至本體(8 1 6 )的變換路徑 (824)相關聯。另一個標不為(衣體,ge)的上下文規 則係與自本體(8 1 6 )至狀態G E ( 8 1 8 )的變換路徑 (8 2 〇相關聯。 圖8所示之摘取程式(8 0 2 )開始於狀態G B ( 81 4)。 該摘取程式讀取一符記,並將該符記的上下文與上下文規 -19- 本纸張尺度適用中國因家標準(CNSM-1規格(210 X 297公f ) (請先閱if背面之注意事項再填寫本頁) -n I 1 r— · J.T a =0 -線— 經濟部智慧財產局員工消費合作社印製 五、發明說明(17 ) 貝|J ( G B,本體)比較。因為該輸入文字序列的第一屬性是 屬性U或屬性N ,所以上下文規則(G B ,本體)實際上包 含規則(G B,U )及(G B,N )。該規則(G B,U )識別狀態g B (814)至狀態U之變換(圖中未示出)。該規則(G B,N ) 識別自狀態G B ( 8 1 4 )至狀態N之變換(圖中未示出)。 如果滿足了規則(G B,U )或規則(G B,N ),則摘取程式 ( 8 02 )進入狀態本體(8 1 6 );否則,摘取程式 (8 0 2 )停留在狀態G B ( 8 1 4 )。在該摘取程式進入狀態 本體(816)之後,該摘取程式儲存第一符記、及該第一 符記的開始處之偏移值。該摘取程式然後讀取次一符記, 並將該符記之上下文與上下文規則(本體,G E )比較。如 果並不符合規則(本體,G E ),則摘取程式(8 0 2 )儲存 該符記,停留在狀態本體(8 1 6 ),並繼績讀取次一符 記。如果滿足規則(本體,G E ),則摘取程式(8 0 2 )進 入狀態G E ( 8 1 8 ),儲存最後一個屬性的終止處之偏移 值。並終止摘取程式(802)之處理。摘取程式(804) 然後繼續進行摘取處理。 請參閱圖9 ( b ),各箭頭指示用來代表摘取程式(8 0 4 ) 產生的各偏移值之各屬性開始及終止處。當摘取程式 (8 0 4 )處於狀態T u p 1 e ( 8 2 0 )時,即摘取該萼屬性。 狀態Tuple’(822)意指摘取程式(8〇4)正在讀取位於 各屬性間之各虛擬符記時之狀態。摘取程式(8 〇 4 )接收 輸入文字序列、及由摘取程式(802)產生的兩個偏移 值,並重複摘取該等屬性,而無須識別該屬性是屬性U、 -20- 本纸張尺度適用中國圉家標準(CN'S)A.l規恪(210 X 297公t ) (請先閱讀背面之注意事項再填寫本頁) "'----r---訂---------線 — 經濟部智慧財產局員工消費合作社印製 A7 B7_^ 4 6 b42 β 五、發明說明(18 ) (請先閱讀背面之注意事項再填寫本頁) N、A、或Μ。摘取程式(8 0 4 )的輸出是所有屬性的開始 處及終止處之偏移值。在找到該等偏移值之後,呼叫四個 摘取程式(806) 、(808) ' (810)、及(812),以 便分別摘取屬性U、Ν、A、及Μ。 本發明_的單次掃描及多次掃描資訊摘取私式可處亨具有 資料項缺少某些屬性之文件°例如,某一教職員可能没有 一行政管理頭銜,而另一教職員可能沒有一 URL網址=本 發明之摘取程式也可處理具有多個屬性(例如某一教職員 可能具有兩個或更多個行政管理頭銜)之文件。該等摘取 程式亦可處理具有不同的屬性順序之文件。例如,一網頁 Ψ 可以有學術頭銜出現在行政管理頭銜之前的數個資料項, 但是也有學術頭銜出現在行政管理頭銜之後的—個資料 項。 經 濟 部 智 慧 財 產 局 員 X 消 費 合 社 印 製 請參閱圖10* —標記表文字序列(1000)具有五個資 料項。每一資料項包含屬性“名稱”、“電子郵件,,' “上次 更新曰,,、“別名”、“組織”、及(或)“服務提供者,,。文 字序列(1000)不同於圖1(b)所示之文字序列,這是因 為文字序列(1 0 0 0 )包含每—屬性(此處稱為“標記 值”)之属性名#(此處稱為“標記,,)。—摘取程式 取屬性名稱及屬性(“標記及值對,,),然後進行 步驟,以便將該標記及值對轉換成屬性值之資料重元舍 請參閱圖1 1 , 一狀態變換圖(} 0 0) 兀組。 摘取程式的一實施例摘取一標記表文 :、讯 7以所用疋般能镒 換規則。該摘取程式適於摘取Μ地押— '^ 心兒及值(Val 。# 本紙張足度適用中國國家標準(CNS)A4現烙(210 X 297¾- 4 〇 〇42 〇 A7 ___B7 五、發明說明(19 ) (請先閱讀背面之>i意事項再填寫本頁) 該摘取程式處於狀態T a g ( 1 1 〇 2 )時,該摘取程式正在摘 取屬於屬性T a g的各符記,例如“名稱”或“電子郵件”。當 該摘取程式處於狀態V a 1 ( 1 1 〇 6 )時,該摘取程式正在摘 取屬於屬性Value的各符記,例如“‘Lithlum,j smith”、或 “aulmer@u.washmgton,edu”等。當該摘取程式處;^狀態 丁 ag' (1104)及狀態Val1 (11〇8)時,該摘取程式正在 摘取虛擬符記。 請參閱圖12(a),試圖自圖10所示文字序列中的第一資 料項摘取的屬性為《名稱,,、“電子郵件,,、“上次更新 曰’’、及“組織”。圖1 2 (b)示出一資訊摘取程式利用圖1 1 9 所示狀態變換圖摘取的標記及值屬性。請注意,該摘取程 式並不能區分具有不同内容的各標記屬性和值屬性間之差 異。一後處理程式然後可將圖i 2(b)所示之標記及值輸出 轉換成圖12(a)中之屬性表格式。 產生變換路徑: 經濟部智慧財產局員工消費合作社印製 根據本發明,提供了一學習程式,用以產生一資訊摘取 程式所用之變換路徑。在一實施例中,首先將代表一目標 文件之樣本文字序列提供給該學習程式。一使用者將該樣 本文字序列内的各屬性反白,然後識別哪一反白部分與哪 一屬性相關聯。在後文的說明中,將使用圖1 ( ί)所示之 Η T M L序列作為樣本文字序列。 請參閱圖13,一使用者利用一GUI將一顯示營幕上的各 屬性反白3此處,係以方框包封這些屬性。然後該學習程 式以互動方式提示該使用者輸入每一反白部分的屬性名 -22 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 4 6 6 42 6 A7 ------ B7 五、發明說明(2〇 ) 稱。該學習程式可利用該使用者所提供的這些反白部分及 屬性名稱來識別一資料項内的不同屬性組合。例如,該學 習程式可識別具有四個資料項且# —資料項分別具有資料 重元組(U,N,A,M)、(U,N,A) ' (U,N,A)、及(N,幻之 樣本文字序列。可利用其他標示屬性的方法來適應梦定的 GUI或其他類型的輸入裝置, ' 請參閱圖1 4 ’ 一流程圖(丨4 〇 〇 )代表用來產生—組變 換路徑之程序。該學習程式開始於步驟(14〇2) d在步 驟(1404)中,該學習程式檢查每一資料重元組之第一 屬性。在該實例中,該第一屬性是U或n。為是—資料重 元組的第一屬性之每—此類屬性丨產生一條自狀態b / e至狀 態ί的變換路徑。因此,產生變換路徑(b/e —u )及 (b / e ^.N )。 在步驟(1 4 0 6 )中,該學習程式找出接續發生的所有可 能之屬性對。可能的屬性對是dN)、(N,a)、及 (A,Μ )。在步驟(1 4 〇 6 )中,為每一接續發生的屬性對 (j,k )產生一條自狀態j至狀態j ’之變換路徑;並產生一條 自狀態j ’至狀態k之變換路徑》狀態j,是一假狀態,且代 表該摘取程式正在讀取屬性j之後的一虚擬符記之狀態。 在步驟(1 4 0 6 )中產生各變換路徑(U —U ’)、( ll· —N )、 (Ν —Ν’)、(Ν’ —A)、(A—A’)、(A,->M)。 在步驟(1 4 0 8 )中,該學習程式檢查以便確定哪一屬性 是每一資料重元组的最後一個屬性。此處,該最後一個屬 性可以是A或Μ。在步騾(1408)中,為每一此類最後一 -23- _ 本纸張尺度適用中國國家標準(CNS)A4覘恪(210 X 297公釐) t請先閱讀背面之注意事項爯填寫本頁)
% -----Jr II ^ ·11111---I 經濟部智慧財產局員工消費合作社印*1衣 4 b t> 42 6 A7 B7 五、發明說明(21 ) 個屬性m產生一條自狀態111至狀態b/e的變換路徑。在步騾 ( 1408)中,產生變換路徑(A—b/e)&(M—b/e)。在步 驟(I 4 1 0 )中終止了該變換路徑產生程序。在本實例中 共產生了 10條變換路徑。這些變換路徑與圖3所示之變換 路徑一致。 t 產生上下文規則: 根據本發明,該學習程式可進一步產生用來決定何時進 入或離開一狀態的上下文規則。當自一狀態分支出多條變 換路徑時,亦利用該等上下文規則來決定採取哪一條變換 路徑。將一個具有一使用者正確標示的屬性之樣本文字序 列供給遠學習程式》該學習程式然後利用一 “設定涵蓋” 演算法來涵蓋所有的“肯定符記實例”,並排除所有的“否 定符記實例”,而產生上下文規則。肯定符記實例是其上 下文符合上下文規則的符記。否定符記實例是其上下文不 符合上下文規則的符記。 請參閱圖1 5 (a ),現在利用一個具有符記a 1 、 A2、...A20的樣本文字序列來說明用來產生一上下文規 則之方法。該文字序列具有一個包含符記A 1 6至A 1 8之名 稱屬性 “YaserAbu-Mostafa”。符記 A1 至 A15、及 A 1 9、A 2 0是虚擬符記。 · 請參閱圖15(b),當讀取屬性名稱之前的各虛擬符記 時,界定該摘取程式係處於狀態X ;且當讀取屬於屬性名 稱的各符記時,界定該摘取程式係處於狀態N。可將·用來 識別自狀態X變換成狀態N的上下文規則窝為如下: -24- 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公楚) <諳先閱讀背面之注意事項再填寫本頁) 於----- 訂---------線- 經濟部智慧財產局員工消費合作杜印製 >46642 6 A7 ______B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(22 ) 規則5 :如果左上下文=Lp (左上下文模式)且 右上下文=RP (右上下文模式), 則自狀態X轉移到狀態N。 目標是找到左上下文模式(Lp)及右上下文模式 (RP) 。LP/RP只應符合符記A16的左/右上下冬,且 不應符合符記A1至Al5之左/.右上下文。符記AI6是一 “肯定樣本’’的一實例,且符記A i至A丨5是“否定樣本,,的 實例。肯定樣本是上下文規則應正確符合的一符記,而否 定樣本是上下文規則不應符合的一符記。一般而言,可以 有一個以上的肯定樣本。上下文規則應符合每一肯定樣 本,且不應符合任一否定樣本。在該實例中,目標是找到 L P / R P ,使該摘取程式將規則5應用於符記a丨至a 1 6時, 該摘取程式可在符記A 1 6上正確識別自狀態X至狀態n的 變換。 請參閱圖15(c),符記A16的右上下文之第一符記是 A16,A16的右上下文之第二符記是ai7,其他依此類 推°符記A 1 6的左上下文之第一符記是a 1 5,A 1 6的左上 下文之第二符記是A14,其他依此類推。 这學習程式開始時採取A 1 6的左上下文之第一符記,—以 便產生一左上下文模式。該左上下文模式是包含\丨6的左 上下文的第一符記之一符記類別。因為A 1 5是一 Η T M L標 記“ < β > ”,所以該左上下文的第—符記之左上下文模式可 以是Html (一)或ptag(_)。圖i 6中列出該學習程式所使用 的各符記類別= -25- (請先閲讀背面之注意事項再填寫本頁) n ϋ n 訂· --------線— 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) A ο u42 6 a? ___B7 ___ 五、發明說明(23 ) 請參閱圖1 7 ( a), —試驗性上下文規則可以是: 規則6 :如果左上下文=H t m 1 ( _ ), 則自狀態X轉移到狀態N。 具有一 Η T M L標記作為左上下文的第一符記之任何符記 將滿足規則6。將規則6應用於符記A i至A I 5時,带記模 式Html(_)符合否定樣本A2、A10、A13、及A15之左 上下文=將肯定符合計數(p)定義為符合的肯定樣本數, 並將否定符合計數(η)定義為符合的否定樣本數。此處, p = 1 且 η = 4。 因為“<Β>”也是符記類別ptag(_)的一成員,所以另一 試驗性上下文規則可以是: 規則7 :如果左上下文= ptag(), 則自狀態X轉移到狀態N。 符記模式Ptag(_)符合否定樣本A2、A10、A13、及 A15之左上下文。因此,p=1且n = 4。 該學習程式然後採取A 1 6的右上下文之第一符記,以便 產生一右上下文模式。在該實例中,A16是一字 “Yaser”,因而該右上下文的第一符記之右上下文模式可 以是 Word(_)、CNalph(_)、或 cialph(_)。這三個符 記類別都符合符記“ Y a s e r ”。 * 規則8利用W〇rd(_)作為右上下文模式。將评(^(1(_)與 符記A1至A15的右上下文比較時,w〇rd(_;)符合否定樣 本A2、A4、A6、及A8之右上下文。因此,口=1且11 = 4。 對於規則9而言,CNalph(_)亦符合四個否定樣本的右上 -26 - 本紙張尺度適用中國國家標準(CNS)A4規烙(210 X 297公釐) (靖先閱讀背面之注意事項再填寫木頁) %---- 訂---------線— 經濟部智慧財產局員工消費合作社印製 經濟部智慧財產局—工消費合作社印製 A7 B7 五、發明說明(24 ) 下文,因此,P=1且n = 4。對於規則10而言,Claiph(」 符合否定樣本A2、A6、及A8的右上下文,因此,p=l且 n = 3。 將規則6與規則1 〇比較時,規則1 〇得到最少的不正確比 對(符合一個否定樣本)。該學習程式通常選擇可得到最 t 大(p - n ) / ( p + η )值的試驗性上下文規則。如果將兩個規則 應用於各相關符記時可得到相同的(p - n ) / ( ρ + η )值,則將 選擇具有含蓋範圍較大的一符記類別之規則作為找出完整 的上下文規則之基礎。例如,該學習程式將選擇規則8而 不選擇規則9,這是因為w〇rd(_)有比CNalph(_)更寬廣 的範圍。規則1 0所用的上下文模式是不完整的,因為該規 則仍然符合某些否定樣本。 請參閱圖17(b),該學習程式利用CIalph(_)作為基 礎,並將一個符記模式加入左或右上下文模式,而找出次 一组的試驗性上下文規則。對於規則1〖而言,係將 H t m 1 (—)加入規則1 0的左上下文模式=因此,規則1 1變 為: 規則I 1 :如果左上下文=H t m 1 ( _)且 右上下文= Clalph(_), 則自狀態X轉移到狀態N。 " 此時,只需要將與符記A2、A6、及A8的左上 下文之第一符記比較。此處,符合A2的左上下 文之第一符記,因此,p=l且n=l。 對於規則1 3至1 5而言,該學習程式加入一個符合A 1 6的 -27- 本紙張尺度適用中國國家揲準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^---- 訂---------線— 4b 〇 A2 ό A7 B7 五、發明說明(25 ) 右上下文的第二符記之符記模式,而擴展右上下文模式。 A 1 6的右上下文之第二符記是屬於符記類別 Nonword(_)、Ctrl(_)、及Spc(一)之空白字元°對於規 則1 3而言,係將Ν ο n w 〇 r d (_)加入規則1 〇的右上下文模 式。因此,規則1 3變成: r 規則13 :如果右上下文= Clalph(_)Nonword(一), 則自狀態X轉移到狀態N。 該學習程式將Nonword(_)與符合規則1 〇的各否定樣本 的右上下文之第二符記比較。此處,Nonw〇rd(_)符合 A2及A6的右上下文之第二符記,因此,ρ=1且n = 2。對 t 於規則14而言,Ctrl(_)符合A2及A6的右上下文之第二 符記,因此,p = 1且η = 2。對於規則1 5而言,S p c ( _)亦符 合Α2及Α6的右上下文之第二符記,因此’ ρ=ι且η = 2。 比較規則1 1至1 5時,規則1 1及1 2可得到最少的不正確符 合。因為H t m 1 (」是一種比P t a g (_)更寬廣的類別,所以 該學習程式選擇規則1 1作為基礎,以便找出上下文規則的 完整上下文模式。 請參閱圖1 7 ( C ),該學習程式利用L p = H t ra 1 (_)且 RP = Clalph(_)作為基礎,並將一個符記模式加入左或右 上下文模式,而找出次一組的試驗性上下文規則' A丨6的 左 上下文 之第二 符記是 <AHREF=“http://electra.caltech.edu/EE/Faculty/Abu-Mostafa.htmr>。 該符記屬於符記類別H tm 1 ( _)及P t a g ( _)。將η t m 1 ()加 入規則1 1之左上下文模式,即可產生規則16 .將ptag(_) _ -28- 本紙張尺度過用中國國家標準(CNS)A4規格(210x 297公釐) f請先閱讀背面之注意事項再填寫本頁) 仅-----.----訂---------線丨 經濟部智慧財產局員工消費合作社印製 A7 46 B42 6 ___B7___ 五、發明說明(26 ) 加入規則I 1之左上下文模式,即可產生規則1 7。規則1 6 & · 疋 規則16 *如果左上下文= Html(_)Html(_)且 右上下文= Clalph(_), 則自狀態X轉移到狀態N。 該學習程式將H t m 1 (_)與符合規則1的各否定樣本的左 上下文之第二符記比較。此處,Html(_)並不符合各否定 樣本的左上下文之任何第二符記。因此,p==l且11 = 0。對 於規則17而言,Ptag(_)也不符合各否定樣本的左上下文 之任何第二符記。因此,p=l且n = 〇 -應用規則18—20 ♦ 時,皆將得到p = 1且n = I。因此,規則1 6及1 7係優於規則 1 8 - 2 0。選擇規則1 6作為最後的上下文規則,這是因為 是一個比Ptag(_)更寬廣的類別。因此,用來識 別自狀態X至狀態A的變換之上下文規則是規則1 6 = 圖18示出根據本發明一實施例而產生一上下文規則之流 程圖。該學習程式開始於步驟(1 8 〇 2 ),並在步騾 (1 8 0 4 )中自一使用者接收輸入,以便識別自一個狀態 至另一個狀態的變換之肯定樣本及否定樣本。自狀態X變 換成狀態N的一肯定樣本實例是圖1 5 ( c )中之符記A 1 6, 且否定樣本的實例是符記Al至A15。在步驟(1806) 中,該學習程式產生一系列符合該等肯定樣本的左上下文 的第一符記之左上下文模式。此種左上下文模式的例子有 及Ptag(_)。在步驟(1808)中,該學習程/式產 生一系列符合該等肯定樣本的右上下文的第—符記之右上 -29- 本紙張尺度適用中國國家標準(CNS)A4規烙(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^*i I — ί I I .訂 ---------'5^ — 經濟部智慧財產局員工消費合作社印製 466426 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明(27 下文模式。此種右上下文模式的例子有Word(_)、 CNaIph(_)、及 CUlph〇。 在步驟(1 8 1 〇 )中,該學習程式將步驟(丨8 〇 6 )中產 生的左上下文模式與該等否定樣本的左上下文之第一符記 較’並決疋用來代表符合否定樣本的數目之η值。該學 Τ 丁 習程式然後將步騾(18〇8)申產生的右上下文模式與該 争否定樣本的右上下文之第一符記比較,並決定用來代表 符合否Α樣本的數目之η值。該學習程式選擇可得到最大 (Ρ-η)/(Ρ + η)值之上下文模式。該數目ρ代表肯定樣本的 數目。 在步驟(I 8 1 2 )中,該學習程式決定至此所產生的上下 文模式是否為完整的。如果步騾(18丨〇)中選擇的左/ 右上下文模式並不符合任何否定樣本,則該上下文模式是 完整的’且將程序的控制轉移到步騾(1 8 1 6 ),並利用 至此所產生的左/右上下文模式來輸出上下文規則。在步 驟(1812)中,如果在步驟(丨81〇)中選擇的左/右上 下又模式仍然符合任何否定樣本,則將程序的控制轉移到 步驟(1 8 1 4 )。增加一個符合該等肯定樣本的左(或 右)上下文的次一符記之符記模式,即可擴展該左(或 右)上下文模式。類似於步驟(18〇6)、(丨8“)、及 ¢1810)中所執行的動作,步驟(1814)通常需要產生 系列的上下文模式’並找出一個可得到最大(p . η)/(Ρ + ιι)值的上下文模式。重複步驟(丨812 )、 (1 8 1 4 )、及(丨8 1 0 ),直到產生一個並不符合任何否 k紙張尺度適用中國國家標準(CNS)A4規格(21〇χϋ_7公餐 (請先閱讀背面之注意事項再填寫本頁) ----訂---------線—
• ft— n tr ί ϋ n .^1 1 I 642 6 Α7 Β7 五、發明說明(28 ) 定樣本的左/右上下文模式為止。 請參閱圖1 9,規則2 1 - 2 8形成一组樣本上下文規則 且 一資訊摘取程式可利用該組樣本上下文規則自—類似於圖 1 ( b )所示文字序列的一文字序列摘取屬性“名稱,,、“學術 頭銜”、.及“行政管理頭銜”。利用規則2 1來識別自狀態 G B至狀態b / e之變換。利用規則2 2來識別自狀態b / e至狀 態N a m e之變換,其他依此類推。利用規則2 1 - 2 8之資訊 摘取程式具有八個狀態:G B、b / e、N a m e、@ n a m e A c a d e m i c _ t i 11 e 、 @Academic_title
Admin_title、及GE。狀態@Name意指摘取程式正在讀 ♦ 取屬性N a m e與次一屬性間的虛擬符記之一種假狀態。該 學習程式可根據圖1 8所示之流程圖而產生規則2 1 - 2 8中之 每一規則3 請參閱圖20,圖中示出已將圖13所示的每一屬性反白之 樣本文字序列。為便於解說,將四個資料項的第一屬性之 第一符記分別標示為B 1、B 2、B 3、及B 4。請注意,業 已識別符記B 1、B 2、及B 3屬於屬性U ,且B 4屬於屬性 N。下文的說明解說了用來產生一個具有圖2所示狀態變 換圖的資訊摘取程式的上下文規則之程序。在圖2中,.有 下列離開狀態b/e之路徑··變換路徑(b/S aU)及 (b / e ->N )。 為了產生變換路徑(b / e ->U ),該學習程式將符記B 1、 B2、及B3識別為肯定樣本,這是因為這些符記屬於·屬性 U。所有其他的符記都是否定樣本。該學習程式產生只符 -31 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ,4-----Γ — I·訂 i !-線丨 經濟部智慧財產局員工消費合作社印製 46642 6 A7 _____B7 —__ 五、發明說明(29 ) 合件記Bl、B2、及B3但並不符合其他符記的左/右上下 文模式。為了產生變換路徑(b/e—N)的上下文規則,該學 習私式首先將符記B 4識別為肯定樣本,這是因為該符記 屬於屬性N。將所有其他的符記識別為否定樣本。該學習 程式然後產生只符合符記B 4但不符合任何其他符記之左 » /右上下文模式。可以一類似方式產生具有其他變換路徑 之上下文規則。 本又所揭不的各實施例在各方面上都是作為舉例,而並 非對本發明加以限制。並非由前文的說明而是由最後的申 請專利範圍指示本發明之範圍,且本發明將包含在本發明 的等效權項的意義及範圍内之所有改鍵。 (請先閲讀背面之注意事項再填寫本頁) ---*訂---------線· 經濟部智慧財產局員X消費合作杜印製 32 n n n n n I I I HI— n n n _ 本紙張尺度適用ΐ國國豕標準(CNS)A4規格(210 X 297公釐)
Claims (1)
- A8 B8 C8 D8 〇 〇 4 2 〇 第88120033號專利申請案 中文申請專利範圍修正本(90年8月) 六、申請專利範圍 90. 8. 02 1. 一種自一符記序列摘取屬性之方法,該方法包含下列步 驟: 將第一組上下文規則應用於該符記序列的各循序符 記’而自該符記序列識別出一第一屬性之開始處,其中 該第一組上下文規則包括將該符記序列的一符記之一左 上下文及一右上下文與一組預定符記模式比較,以便決 定是否滿足該組預定符記模式中的—個預定符記模式; 以及 於識別出該第一屬性的該開始處時,儲存在識別該第 一屬性的終止處之前且接績在與該第一屬性的該開始處 相關聯的符記之後的各循序符記。 2. 如申請專利範圍第i項之方法,其中識別該第一屬性的 終止處之該步驟包含下列步驟:將第二組上下文規則應 用於該符記序列中在與該第一屬性的該開始處相關聯的 符記之後的各循序符記。 3. 如申請專利範圍第2項之方法,在識別該第一屬性的終 止處的該步驟之後,進一步包含下列步驟: 將第三組上下文規則應用於該符記序列中在與該第一 屬性的該終止處相關聯的符务之後的各循序符記,而自 該符記序列識別出一第二屬性之開始處,其中該第三組 上下文規則包括將該符記序列的一符記之一左上下文及 一右上下文與一组預定符記模式比較,以便決定是否滿 足該組預定符記模式中的一個預定符記模式; 於識別出該第二屬性的該開始處時,儲存在識別該第 C許先聞讀背面之注意事項再填寫本頁) 裝· •訂 經濟部中央標準局員工消費合作社印装 本紙張尺度適用中國國家標车(€呢)六4規格(21〇/297公董) A846 642 6 b| __ D8 經濟部中央榡隼局員工消費合作衽印策 六、申請專利範圍 即.8‘ 02 二屬性的終止處之前且接續在與該第二屬性的該開始處 相關聯的符記之後的各循序符記;以及 識別該第二屬性的終止處之該步驟包含下列步驟:將 第四組上下文規則應用於該符記序列中在與該第二屬性 的該開始處相關聯的符記之後的各循序符記。 4. 如申請專利範圍第3項之方法,其中該第一及第二屬性 屬於具有一預定數目的排列順序之一組預定屬性,且用 於該第三組上下文規則之該组預定符記模式包含根據該 組預定排列順序而識別自一個不與任何屬性相關聯的一 符記至一個與可能接續在該第一屬性之後的一屬性相關 聯的符記的一變換之若干符記模式D 5. 如申請專利範圍第3項之方法,其中該第一及第二屬性 屬於具有一預定數目的排列順序之一組預定屬性,JL用 於該第三組上下文規則之該組預定符記模式包含用來識 別自一個不與任何屬性相關聯的一符記至一個與屬於該 組預定屬性的任何屬性相關聯的一符記的一變換之若干 符記模式。 6. —種自一符記序列摘取具有一第一屬性的第一子集的符 記及具有一第二屬性的第二集的符記之方法,該方法 包含下列步驟: 將第一組上下文規則應用於該符記序列的各循序符 1己,而識別出該第一予集的符記之第一符記,其中該第 一组上下文規則包括將該符記序列的一符記之左及右上 下文與一組預定符記模式比較,以便決定是否滿足該組 -Γ-~~:----24--- 紙 本 释 冢 國 0 Τ 用 通 * 公 * . (請先Η讀背面之注意事項再填寫本頁) •V5 A8 6S C8 D8 90. 8. 466426 六、申請專利範圍 預定符記模式中的一個預定符記模式;以及 於識別出該第一子集的符記之該第一屬性時,儲存在 識別該第一子集的符記的最後一個符記之前且接續在該 第一子集的符記的第一符記之後的各循序符記。 7_如申請專利範圍第6項之方法,其中識別該第一子集的 符記的最後一個符記之該步驟包含下列步驟:將第二組 上下文規則應用於該符記序列中在該第一子集的符記的 最後一個符記之後的各循序符記。 8. 如申請專利範圍第7項之方法,在識別該第一子集的符 記的最後一個符記的該步驟之後,進一步包含下列步 驟: 將第三組上下文規則應用於該符記序列中在該第一子 集的符記的最後一個符記之後的各循序符記,而識別該 第二子集的符記之第一符記,其中該第三組上下文規則 包括將該符記序列的一符記之左及右上下文與一組預定 符記模式比較,以便決定是否滿足該组預定左及右符記 模式中的一個預定左及右符記模式;以及 於識別出該第二子集的符記之第一符記時,儲存在識 別該第二子集的符記的最彳象二' 個符記之前且接續在與該 第二子集的符記的該第一符記之後的各循序符記。 9. 一種自一符記序列摘取具有一第一屬性的第一予集的符 記及具有一第二屬性的第二子集的符記之方法,該第二 子集的符"I己出現在該第一子集的符記之後,該第一及第 二屬性係選自一組預定屬性,該方法包含下列步驟: 本紙張尺度逋用中國國家揉準(CNS ) A4規路(2丨0X297公釐) --;1!----t.----.---訂------^ {請先閲讀背面之注意事項再填寫本頁) 經濟部中央搮隼局負工消費合作社印裝 Α8 Β8 C8 D8 90. 8. 02 46 642 6 申請專利範圍 各循序符記,而識 符記的第一符記之 集的符記之最後一 符記的第一符記之 集的符記之最後一 符記的最後一個符 二子集的符記之第 (請先Μ讀背面之注$項再填寫本頁) .裝. 將第一組規則應用於該符記序列的 別出該第一子集的符記之第一符記; 將第二組規則應用於該第一子集的 後的各循序符記,而識別出該第二子 個符記; 將第三組規則應用於該第一子集的 後的各循序符記,而識別出該第—子 個符記; 將第四組規則應用於該第一予集的 記之後的各循序符記,而識別出該第 一 1己; '订 識別與該第一子集的符記相關聯之屬性;以及 識別與該第二子集的符記相關聯之屬性。 線 經濟部中央標準局員工消費合作社印製 10.如申請專利範圍第9項之方法,其中用來識別該第一子 集的符記的第一符記之該第一組規則包含:將一符記的 一左上下文及一右上下文與一組預定左及右符記模式比 較以便決定是否滿足該組預定左及右符記模式中的一左 及右符記模式之規則。 1L 一種自一符記序列摘取屬性方法,每一屬性包含至少 一個符記,該方法包含下列步驟: 接受複數個特徵在於根據一符記的左上下文及右上下 文而自該符記序列的一第一屬性變換成一第二屬性之規 則; 接受該符記序列:以及 本紙張尺度適用中國國家梯準(CNS ) Α4規格(210Χ297公釐) 經濟部中央梂隼局員工消費合作杜印*. 46 642 6 bs 「 ______ D8 六、申請專利範国 90. 8. 02 將該等複數個規則應用於該符記序列,而識別該符記 序列中各屬性間之邊界。 12. 如申請專利範圍第1 1項之方法,其中自該第—屬性至該 第二屬性之該變換包含自該第一屬性至一虛擬屬性之一 第一變換、及自該虛擬屬性至該第二屬性之一第二變 換。 13. 如申請專利範圍第丨1項之方法’其中該符記序列内的該 寺屬性屬於一组預定屬性,且該等複數個規則包含:特 徵在於一種自該組屬性内的一屬性變換成該組屬性内的 任何其他屬性之規則。 14,如申請專利範圍第1 1項之方法,其中該符記序列内的該 等屬性屬於一組預定屬性,且該等複數個規則包含:特 徵在於一種自該組屬性内的一屬性變換成該組屬性内的 一有限數目的其他屬性之規則。 15. —種自一符記序列摘取若干子集的符記之方法,每一子 集的符記具有選自一组屬性的一屬性,該方法包含下列 步驟: 接受複數個將一符記的左上下文及右上下文與—组預 疋左及右付記模式比對而赛_及|丨具有不同屬性的不同子集 的符記之邊界之規則; 接受該符記序列; 將該等複數個規則應用於該符記序列之各循序符記, 而識別該等子集的符記之開始處及終止處;以及 儲存該等子集的符記'及與該等子集的符記相關聯之 本紙用中® g)家揉率(CNS )从祕(210X297公ϋ ----- — i-1 — i----參-------ίτ------^ (錆先$讀背面之注意事項再填寫本頁) 466^26六、申請專利範圍 A8 B8 CS D8 如· 8. 〇2 經濟部中失棵準局負工消费合作社印装 08- 屬性 16.如申請專利範圍第1 5項之方法,其中識別該等子集的符 記的開始處及終止處之該步鄉包含下列步驟: 將一第一子集的該等複數個規則應用於該符記序列中 之各循序符記,以便識別該第一子集的符記之開始處、 及最後一個子集的符記之終止處; 將一第二子集的該等複數個規則應用於該符記序列中 在該第一子集的符記的開始處之後且在該最後一個子集 的符記的終止處之前的各循序符記,以便識別每一子集 的符記之開始處及終止處;以及 應用一第三子集的該等複數個規則,以便識別與每一 子集的符記相關聯之屬性。 17_ —種識別一符記序列中的屬性之系統,包含: 一儲存裝置,用以儲存複數個特徵在於根據一符記的 左上下文及右上下文而自該符記序列的一第一屬性變換 成一第二屬性之規則;以及 一處理器,用以接受該符記序列,並將該等複數個規 則應用於該符記序列,而識別該符記序列中各屬性的第 一及最後一個符記。 .- 18.如申請專利範圍第1 7項之系統,其中該等複數個規則之 特徵在於自一第一屬性至一第二屬性的所有可能變換, 且該處理器將該等複數個規則應用於該符記序列之各循 序符記,以便在讀取該符記序列的一單次掃描内識別該 符記序列中每一屬性之第一及最後一個符記。 本纸張尺度適用t國國家標率(CNS ) A4说格(210X297公釐) in-----¾-------..IT------^ (請先閩讀背面之注意事項再填寫本頁) 4 b ο 42 6 bs V C8 _ D8 六、申請專利範圍 8. 〇2 19. 如申請專利範圍第1 7項之系統,其中該等複數個規則包 含三個子集的規則: 一第一子集的規則,用以識別該符記序列中第一屬性 的第一符記、及最後一個屬性的最後一個符記; 一第二子集的規則,用以在無須實際識別個別屬性的 情形下識別所有屬性的第一及最後一個符記;以及 一第三子集的規則,用以識別每一個別屬性。 20. —種產生一摘取程式用來識別具有不同屬性的各子集的 符記間的變換的一上下文規則之方法,包含下列步驟: 接收一樣本符記序列,該樣本符記序列包含一具有一 第一屬性的第一子集的符記、及不與該第一屬性相關聯 的一第二子集的符記,且在該符記序列中,該第二子集 的符記係在該第一子集的符記之前; 識別該第一子集的符記之第一符記; 產生一對符合該第一子集的符記的第一符記的左及右 上下文但並不符合屬於該第一子集的符記的各符記的左 及右上下文之左及右上下文模式, 因而該左及右上下文模式形成用來識別自該第二子集 的付記至該第一子集的符年―为變換的上下文規則之比對 準則。 21. 如申請專利範圍第2 0項之方法,其中產生該對左及右上 下文模式之該步驟包含下列步驟: 找出符合該第一子集的符記的第一符記的右上下文的 第一符記之第一組符記類別; _______________ 本紙張尺度逍用中國國家橾準(CNS) A4規格(21〇><297公憂^ ------ ---------t----.---.11------0 (請先«讀背面之注意事項再填寫本頁) 經濟部中央標準局貝工消費合作社印製 A8 B8 C8 D8 穴、申請專利範圍 ' — 90- 8. 〇2 找出符合該第一子集的符記的第一符記的左上下文的 第—符記之第二组符記類別; (請先閑讀背面之注意事項再填寫本頁} 在該第一組及第二組符記類別中選擇一符記類別,使 該第二子集的符記中符合該符記類別的符記數為最少; 如果該符記類別付合該第一予集的符記的第一符記之 左上下文,則指定該符記類別作為該左上下文模式之一 部分;以及 如果該符記類別符合該第一子集的符記的第一符記之 右上下文,則指定該符記類別作為該右上下文模式之— 部分。 22.如申請專利範圍第2 1項之方法,進一步包含下列步驟: 找出符合該第一子集的符記的第一符記的左上下文中 業已不符合該左上下文模式或右上下文模式的一額外符 記之第三組符記類別; 找出符合該第一子集的符記的第一符記的右上下文中 業已不符合該左上下文模式或右上下文模式的一額外符 記之第四組符記類別; 經濟部中央標準局員工消背合作社印装 在該第三組及第四組符記類別中選擇一符記類別,使 該第二子集的符記中符合轉記類別的符記數為最少; 如果該符記類別符合該第一子集的符記的第一符記之 左上下文,則加入該符記類別作為該左上下文模式之一 部分;以及 如果該符記類別符合該第一子集的符記的第一符記之 右上下文,則加入該符記類別作為該右上下文模式之— ___—4β--- 本紙張尺度逍用中國國家樣率(CNS 規格(210 X 297公釐) ~~ A8 B8 C8 D8 466426 申請專利範圍 9ft 8. 02 部分。 23. —種產生一摘取程式用來識別具有不同屬性的各子集的 符記間的變換的一組上下文規則之方法,該等子集的符 記被分組成複數個資料項,該方法包含下列步鄉: 接收一樣本符記序列; 以對應的屬性名稱識別每一子集的符記; 將该等子集的符記分组成若干獨立的資料項;以及 為各屬性之間每一可能的變換產生一上下文規則; 其中該上下文規則包含將一符記的左及右上下文與一 對預定的左及右上下文模式比較,且當發現一相符時即 識別一^變換。 24. —種產生用來識別一符記序列中的屬性的上下文規則之 系統,包含: 一記憶體,用以儲存一樣本符記序列; 一使用者介面,用以讓一使用者在識別自一第一屬性 至一第二屬性的變換的該樣本符記序列内識別至少一個 符記; 一處理器,用以接收該樣本符記序列,並產生一對符 合用來識別該屬性的變換等至少一個符記的左及右 上下文之左及右上下文模式,因而該左及右上下文模式 形成用來識別自該第一屬性至該第二屬性的變換的上下 文規則之比對準則》 25. —種自一文字序列產生一單次掃描摘取程式的變換規則 之方法,該文字序列具有複數個資料項,每一該等複數 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公漦) ---—I----^----:---、訂------it • « (請先閲讀背面之注$項再填寫本頁) 經濟部中央揉率局員工消費合作社印製 ABCD 466426 夂、申請專利範圍 〜 90. 8. 02 個資料項具有一组屬性'及一組對應於該組屬性之〜級 標籤,該方法包含下列步驟: (a) 利用該文字序列中之該组屬性及該組標籤決定〜 資料項内的屬性序列之所有可能排列;以及 (b) 產生用來識別步驟(a)決定的各屬性間的所有可能 變換的變換規則之一資料庫,每一變換規則包含自—第 —屬性至一虛擬屬性然後至一第二屬性之變換。 26. —種產生用來識別自一符記序列内的—第一子集的符記 至一第二子集的符記的變換的上下文規則之方法,該方 法包含下列步驟: (a)識別該符記序列内的各肯定符記樣本; (b )識別該符記序列内的各否定符記樣本; (C)應用一設定涵蓋演算法,以便產生一組符合所有 肯定符記樣本的左及右上下文但不符合任何否定符記樣 本的左及右上下文之左及右上下文模式。 i |~I----¾----τ——ΪΤ------^ • · f靖先間讀背西之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印装 本紙張尺度適用中國國家標率(CNS ) A4規格(2丨0X297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14662199P | 1999-07-30 | 1999-07-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW466426B true TW466426B (en) | 2001-12-01 |
Family
ID=22518201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW088120033A TW466426B (en) | 1999-07-30 | 1999-11-17 | System and method for extracting data from semi-structured text |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP1072986A3 (zh) |
TW (1) | TW466426B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2821186B1 (fr) * | 2001-02-20 | 2003-06-20 | Thomson Csf | Dispositif d'extraction d'informations d'un texte a base de connaissances |
WO2002082318A2 (en) * | 2001-02-22 | 2002-10-17 | Volantia Holdings Limited | System and method for extracting information |
US20030149562A1 (en) * | 2002-02-07 | 2003-08-07 | Markus Walther | Context-aware linear time tokenizer |
US9208179B1 (en) * | 2012-05-25 | 2015-12-08 | Narus, Inc. | Comparing semi-structured data records |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5524227A (en) * | 1994-07-29 | 1996-06-04 | U S West Technologies, Inc. | Method and system for formatting address strings into recognizable token sequences |
-
1999
- 1999-10-14 EP EP99308130A patent/EP1072986A3/en not_active Withdrawn
- 1999-11-17 TW TW088120033A patent/TW466426B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1072986A3 (en) | 2004-10-27 |
EP1072986A2 (en) | 2001-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8140468B2 (en) | Systems and methods to extract data automatically from a composite electronic document | |
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
TW576992B (en) | Extensible stylesheet designs using meta-tag information | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
US8954839B2 (en) | Contract authoring system and method | |
JP4150452B2 (ja) | フォントの取得方法、登録方法および印刷方法 | |
US20070294614A1 (en) | Visualizing document annotations in the context of the source document | |
CN110083805A (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
KR20080100179A (ko) | 벡터 그래픽 문서 내 리스트 인식 방법, 벡터 그래픽 문서해석 방법 및 컴퓨터 판독가능 매체 | |
CN102402604A (zh) | 搜索引擎的有效前向排序 | |
CN113850056A (zh) | 一种基于关键词拆分技术的文档关键信息提取方法和系统 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
JP2010108208A (ja) | 文書処理装置 | |
TW466426B (en) | System and method for extracting data from semi-structured text | |
CN112069296B (zh) | 一种对pdf文件的合同要素的识别方法 | |
CN112906359A (zh) | 基于人机交互的叠加信息处理方法及相关装置 | |
US20120054605A1 (en) | Electronic document conversion system | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
US20100023517A1 (en) | Method and system for extracting data-points from a data file | |
CN114090630A (zh) | 基于分布式微服务集群商品数据整合方法 | |
CN111125381B (zh) | 参考文献关键信息的识别方法、装置、设备及存储介质 | |
Yang et al. | Bio2X: a rule-based approach for semi-automatic transformation of semi-structured biological data to XML | |
JP4047417B2 (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 | |
JP5707937B2 (ja) | 電子文書変換装置及び電子文書変換方法 | |
Kwok et al. | An automatic method to extract data from an electronic contract composed of a number of documents in PDF format |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MK4A | Expiration of patent term of an invention patent |