TWI237780B

TWI237780B - Online extraction rule analysis for semi-structured documents

Info

Publication number: TWI237780B
Application number: TW93110811A
Authority: TW
Inventors: Chia-Hui Chang; Shih-Chien Kuo
Original assignee: Univ Nat Central
Priority date: 2004-04-19
Filing date: 2004-04-19
Publication date: 2005-08-11
Also published as: TW200535641A

Description

1237780 五、發明說明（1) 發明所屬之技術領-域本發明是有關於一種資況擷取方法，且特別是有關於一種半結構化文件的線上資訊擷取方法。先前技術隨著網際網路的發展，愈來愈多的資訊以超文字標示語言（HTML)的格式來呈現’有用與無用的資訊摻雜其中，使用者往往可花上大筆的時間在找尋資料。因此，如何透過資訊擷取系統的設計，將輸入的資料以結構化的方式呈現，進而整合資料，建構豐富的搜尋引擎，使得擷取作業自動化且提高搜尋效率及精準度，是線上資訊擷取的重要課題。 f 設計資訊擷取系統最直接的方法是對各個網站利用人工撰寫擷取資料的包覆程式（W r a p p e r )，但是由於網站的格式隨時有可能發生更改，因此如何快速並且自動地產生擷取程式是設計擷取系統最大的挑戰。從1997年開始，Wrapper Induction的方法被提出，利用標示範例網頁，告訴系統要擷取的資訊，讓系統產生擷取規則，接著利用規則來擷取網站的資訊（請參照C. -N. Hsu and C.-C. Chang. Finite-state transducers for semi-structured text mining. In Proceedings of I J CA I - 9 9 Workshop on Text mining: Foundations, ^ Techniques and Applications， pp. 3 8 - 4 9，

Stockholm， Sweden, 1 9 9 9; C. -N. Hsu and Dung. Generating Finite-state transducers for

12652TWF.PTD 第5頁 1237780 五、發明說明（2) semi-structured data extraction from the web. Information Systems, 23(8):521-538, 1998; N.

Kushmerick, D. Weld, and R. Doorenbos. Wrapper induction for information extraction. In Proceedings of the 15th International Joint Conference on Artificial Intelligence ( I J C A I ), p p. 7 2 9 - 7 3 7， Japan, 1 9 9 7; I . Muslea， S. Minton, and C. K η o b 1 o c k. A hierarchical approach to wrapper induction. In Proceedings o f the 3rd International Conference on Autonomous Agents, p p . 1 9 0 - 1 9 7， S e a 11 1 e， W A， 1 9 9 9 )這類利用標示範例網頁的方式（稱之為supervised approaches )，雖然有不錯的擷取率，但是必須經過十分繁複的標示，才能產生擷取規則，對使用者來說並不是那麼便利，因此如何能減少使用者標示的資訊擷取系統是系統設計的一大挑戰。目前不需使用者標示的方法（稱之為unsupervised approaches)包括如IEPAD(請參照C· - Η· Chang and S. - C. Lui. Iepad: Information extraction based on pattern discovery. In Proceedings of the 10th International Conference on World Wide Web, pages 6 8 1 - 6 8 8， Hong-Kong， 2 0 0 1 )係假設所擷取的資料在文件 _ 存在多筆資料，故能利用重複性型樣探勘方法做為可能 > 擷取對象的猜測，因此對於單一記錄網頁尚無解決辦法。又如現有的RoadRunner(請參照V. Crescenzi， G.

I2652TWF.PTD 第6頁 1237780 五、發明說明（3) Mecca, and automatic In Proceed on Very La E X A L G (請參 Extracting Proceeding Conference 2 0 0 3 .)係假希望將整個開來，然而樣板中也可入，尚需要發明則是採計，兼具二發明内容有鑑於的方法來完 Extraction 可將資料完記錄的網頁本發明文件的資訊域，並針對 P. Merialdo. Roadrunner: Towards data extraction from large web sites, i n g s of 2 7th International Conference rge Data Base，pp. 1 0 9 - 1 1 8, 2 0 0 1.)及照A. A r a s u and H. Garcia-Mol ina. structured data from web pages. In s of ACM SIGMOD International on Management o f Data, pages 3 3 7 - 3 4 8, 設所擷取的資料是以整個網頁的資料為主，網頁的樣板（t e m p 1 a t e )和資料（d a t a )能區分每個人所需要的資料可能不儘相同，即使是能有其想要的資料，因此少了使用者的介後置處理擷取出使用者所需要的資料。而本取介於supervised及unsupervised之間的設者之長，並有很好的效能。以上所述之先前技術，本發明提出一個有效成自動化的資訊擷取系統（I n f 〇 r m a t; i ο η S y s t em )，讓使用者不必經過繁複的標示便整的擷取到手，同時解決單一記錄以及多筆擷取問題。提供一種資訊擷取方法，適用於一半結構化取。使用者於半結構化文件内框選目標區目標資訊作細部分析，使半結構化文件結構

12652TWF.PTD 第7頁 1237780 五、發明說明（4) 化。最後指定屬性，以提高該資訊擷取方法的擷取率。前述細部分析的步驟包括：（一）下探（d r i 1 1 - d 〇 w η )，係對資料做較細部分析；（二）上合（r 〇 U - u ρ )，係整合資料為屬性較上位的資料；（三）指定屬性，係決定一綱目 (s c h e m a )並依據該綱目擷取整合。此種資訊擷取方法亦配合階層編碼、近似型樣配對、以及字串對齊的方法實施上述步驟。其中，近似型樣配對的步驟例如以類似字串對齊方式實施（請參照D. Gus field. Efficient methods for multiple sequence alignment with guaranteed error bounds. Bull. Math. Biol., 5 5 ·· 1 4 1 - 1 5 4， 1 9 9 3 ·)。其中，字串對齊的步驟例如以多重字串對齊實施。其中，目標資訊例如以超文字標示語言（Hypertext Markup Language， HTML)記載。又者，目標資訊係可以例如是單記錄頁或多記錄頁構成。另一方面，擷取規則分析的步驟更包括（一）以定義符號為根據 (D e 1 i m i t e r - b a s e d )，係憑藉分界符號，根據欲擷取屬性其前後文格式來擷取；（二）以内容為根據 (C ο n t e n t - b a s e d )，係憑藉資料内容來榻取；（三）以上兩種方法兼施。本發明中的資訊擷取方法的結果例如以可延伸性標示語言（Extensible Markup Language， XML)格式儲存，所以可搭配XML相關的應用。另外，框選該目標區域時，例如以多重框選的操作進行，以解決網頁中屬性排列不規則的情形。本發明亦提供一種資訊擷取規則產生方法，適用於

12652TWF.PTD 第8頁 1237780 五、發明說明（5) 針對一個或多數個記錄頁進行訓練，以產生擷取規則。此種資訊擷取規則產生方法包括使用者於該些記錄頁内框選一目標區域，其中至少包括一目標資訊，並且針對該目標資訊做一細部資料指定。在此所述之擷取規則產生方法，其中的細部分析步驟包括：（一）下探 (d r 1 1 1 - d 〇 w η )，係對該目標資料做較細部分析；（二）上合（r ◦ Π - u ρ )，係整合該目標資料為屬性較上位的資料；以及（三）指定屬性，係決定一綱目（s c h e m a )並依據該綱目擷取整合。本發明的資訊擷取規則產生方法，在實施時更包括圖樣比對、字串對齊、以及加入純文字内容比對步驟。另一方面，前述的下探步驟以分界標記為根據進一步擷取出屬性值。上合的步驟以該目標區域中的一部分區塊的作整合。最後的指定屬性步驟則是使用者點擊滑鼠以及輸入屬性名字而完成。本發明又提供一種資訊擷取規則產生方法，以處理一個或多數個記錄頁訓練，產生資訊擷取規則。首先將該些記錄頁處理為結構化文件，再針對結構化文件作細部資料指定以擷取屬性值。本發明中，例如以階層編碼、近似型樣配對、以及字串對齊等方法的處理先產生結構化文件。再針對該結構化文件作細部資料指定以擷取屬性值，步驟包括（一）下探（d r i 1 1 - d 〇 w η )，係對該目標資料做較細部分析；（二）上合（r ο 1 1 - u ρ )，係整合該目標資料為屬性較上位的資料；（三）指定屬性，係決定一綱目（s c h e m a )並依據該綱目擷取整合。

12652TWF.PTD 第9頁 1237780 五、發明說明（6) 為讓本發明顯易懂，下作詳細說明如實施方式本發明提 extraction r 複雜的標示讓的滑鼠點擊，屬性標示簡化 (enc 1 os i ng) 點擊拖髮框選擷取，並比對明之上述和其他目的、特徵、和優點能更文特舉一較佳實施例，並配合所附圖式，下：出的線上擷取規則分析（0 η 1 i n e ule analysis， OLERA)系統主要針對避免使用者在擷取的過程中只需透過幾個簡單以WYSIWYG(所見即所得）的觀念，將繁複的成三步驟的操作。（1 )採用目標區域框選，讓使用者對要擷取的目標透過簡單的滑鼠，使系統以聰明的方式直覺地進行資料的其它可能的記錄；（2 )區塊的下探

Drill-down)或上合（Roll-up)，根據第一步的記錄進步擷取，透過對齊（S t r i n g 定（Speci fy) 擷取系統的成或者多記錄頁動化的理想，一般來說域及使用者不重要資料顯不示著作者、出興趣的區域則近似型樣配對（Pattern Matching)及字串 A 1 i g n m e n t)建立擷取規則；（3 )相關屬性指，係利用加入純文字内容的比對來加強整個功率，不論對於單記錄頁（Singular Page) (Multi-Record Page)，其結果皆完成了自也有很高的擷取率。，網頁可將其内容分成使用者感興趣的區感興趣的區域，而用者感興趣的區域便是的地方。以介紹書本的網頁為例，可能顯版社、出版日期等等的資訊；使用者不感是網站上給瀏覽者便於操作的按鈕或者琳

12652TWF.PTD 第10頁 1237780 五、發明說明（7) 瑯滿目的廣告，對不同使用者而言，所需要的資料其實不盡相同，因此必需透過框選步驟，讓使用者告訴系統其所感與趣的區域。在這裡目標區域框選後，系統處理的方法主要是透過一個改良式的對齊（a 1 i g n m e n t)演算法。在此針對此種對齊演算法加以說明。首先對目標區域框選的内容作網頁編碼；由於目標件係以Η TM L格式建構而成，解讀此網頁内容時以HTML的標籤為定義符號（delimiter)，而兩相鄰的定義符號之間，内容均予以忽略，因而定義兩相鄰定義符號之間的該些内容為一單位。為了要執行本發明所使用的對齊演算法，需應用上述之網頁編碼方法將目標區域框選的内容作階層編碼。例如通常可將階層編碼依包含範圍大小分為三層考慮：審查階層 (markup-level)、本文階層（text-level)、以及字元階層（w 〇 r d - 1 e v e 1 )。由下表所列可瞭解此三種階層的意涵，要聲明的是此表所列示僅為舉例目的，所有同級的定義符號均可依類似的階層編碼方法區分。至此產生配對型樣，亦可稱為在訓練程序中產生參考的擷取規則，用以作後續的資料測試與擷取。

12652TWF.PTD 第 11 頁 1237780

五、發明說明（8) 階層編碼方定義符號級標裁 —---- 區塊級標簸 (block-level tags) 審査（markup) 本文（text) 段落句子 __ NL，CR，Tab ?! 字元（word) 片語 1贫空白（B1 ank)@$-/ 經過階層編碼之後’則執行近似配對’係利用在訓練網頁中比較框選區塊中的類似記錄。凡與框選區塊相似度小於一臨界者皆符合認定標準。經由近似配對的網頁記錄内容’便可以多重字串對齊演算法處理。此演算法以動態程式共執行n k次而得到對齊結果，係針對k個長度n的字串計算。例如針對下列三個字串B 1 , B 2， B 3，執行此演算法後得到以下對齊結果··

此法已應用到I EPAD中，可彌補PAT樹演算法的不足’且特別適用於字串長度相似的狀況下。處理的字串數目甚鉅，可利用已知的c e n t e r s t a r (請參照D · G u s i i e 1 d · Efficient methods for multiple sequence alignment

12652TWF.PTD 第12頁 1237780 架構須進提，經過得這標示也就字内些文本的結構化資料竟目前為止一定義符號（De 1 只能榻取出一取屬性值，所，這就是細部可以分成三個，Drill-down bounds 演算法輸入的資料。定的目書的作五、發明說明（9) with guaranteed error 5 5 : 1 4 卜 1 5 4， 1 9 9 3 ·)近似至此，一開始使用者將其轉換成結構化的一步正確掘取出所指它可能是價格處理轉換而得些屬性值，畢語言（HTML)為是說目前頂多容包含著欲擷字内容做擷取細部資料指定 R〇 1 1 -up 及Spec i f y

Bull. Math. Biol., 加快計算速度。網頁，已經透過系統的雖然如此，本發明還必標，可以一個屬性值粹者名稱、或者日期，而，並不代表著就已經取切的方法都是以超文字 i m i t e r )的基礎來設想，段文字内容，而這段文以必須再進一步的對這資料指定的目的。咅P 分，Drill— down 、與Roll-up的主要觀念來自於0LAP多維度資料模型，標準的0LAP亦包含 Drill-d〇wn和R〇ll-up ，其中Drill-down是對資料再做較細部的分析，R ο 1 1 - u p則是整合資料較高層次的概念，在細部資料指定的方面也是同樣的道理，D r i 1 1 - d 〇 w η將純文字内容作更細部的分析，將純文字内容再以一些如標點符號或者換行等當作D e 1 i m i t e r分隔，進一步地擷取出屬性值，R ο 1 1 - up則將某一區塊的資料作一整合，像是作者的資料整合成作者列表或者書本的出版日期與出版商的資料整合成出版相關資料等，這部分可依照使用者的需求來進行。不論是D r i 1 1 - d 〇 w η亦或R ο 1 1 - u p ，均經由以

12652TWF.PTD 第13頁 1237780 五、發明說明（10) 下兩個步驟實施：網頁編碼以及多重字串對齊演算法。此二個步驟與區塊框選步驟中所敘述者相同，在此不贄述。

Drill-down與R〇11-up提供一個很彈性的方式來讓使用者擷取出屬性值，接著就是另一個功能S p e c i f y， S p e c i f y即是決定綱目（S c h e m a )的一個重要工作，決定綱目之後便依此綱目進行擷取整合。在習知的資訊擷取系統中，綱目通常在一開始就決定，而在0 LERA系統中則是最後一個步驟，並且只需要簡單的幾個滑鼠點擊及輸入屬性名稱的名稱便可以完成。本發明所提出的系統中，以所見即所得（What You See Is What You Get， WYSIWYG)的觀點，將繁複的屬性標示簡化成依序三步簡單的操作。請參照圖1 ，其繪示依照本發明一較佳實施例的目標區域框選方法。使用者以一簡單滑鼠點擊及拖曳，或經由其它同樣功能的使用者週邊介面（例如滑鼠板，決定目標網頁中欲加以擷取資訊的内容，該内容包括例如純文字，更包括例如圖像，且以超文字標示語言（HTML)格式表示。在圖1中以BARNES & N 0 B L E網路書店的網站為例，在搜尋到的J + +參考書籍網頁中，使用者選取有興趣的内容包括書名、作者、格式 (format)、國際標準圖書編號（International Standard Book Number, ISBN)、出版商（Publisher)、出版日期 (Pub. Date)、版本（Edition Desc.)等資料（102)，而此頁中未選取的部分包括位於版面右側的一段文字聲明

12652TWF.PTD 第14頁 1237780 五、發明說明（11) (104)° 接著參考圖2，其繪示依照本發明一較佳實施例的細部資料指定互動式介面示意圖。經過0 L E R A系統執行網頁編碼、近似型樣配對、以及多重字串對齊演算等步驟之後，得到如圖2所示的表格形式的資料2 1 0 ，而圖中的陰影部分2 2 0係經OELRA演算後產生的擷取規則，其它類似的書籍查詢網頁可依此法則將選取區塊内的貧料結構化。接下來欲實施資料擷取，需利用以下的擷取規則。擷取規則的表示法大致上可分成三種，（1 )以定義符號為根據（D e 1 i m i t e r - b a s e d ) ··憑藉分界符號，根據欲擷取屬性其前後文格式來擷取，例如圖3所示，在跳出的互動視窗3 3 0中輸入之符號” $，· ”等；（2 )以内容為根據 (Content-based):憑藉資料内容來擷取，例如本發明一較佳實施例中的書名、作者、版式、出版商、國際標準圖書編號、出版曰期、版本等特殊格式；（3 )以前後文為根據（Context-based):同時採用（1)、（2)兩者的做法。圖3所示為執行下探（D r i 1 1 - d 〇 w η )的例子，本實施例中係針對包含格式（f 〇 r m a t )資訊的一欄執行下探，依據互動視窗3 3 0中鍵入的分隔符號（此處鍵入3個符號，但發生作用的是逗號π，M )，將版式資料向π下"再解析為 "Format:n 、nPaperback" 、nlst ed.n 、π992ρρ·π 等四搁’得到表格形式的貢料3 1 0。參考圖4，係描述上轉的一實施例。其作業係可視為

12652TWF.PTD 第15頁 1237780 五、發明說明（12) 下探的逆向操作，意即將數欄細分的資料統合為一較為上位的資料，例如圖4中陰影的部分4 2 0中，各欄的資料如’’平裝本"、"第1版”、”總頁數"等資料統整為”版式"一筆資料。使用者可依其需要在4 3 0中填入所要加入的分隔符號。接下來參考圖5 ，係描述相關屬性指定（S p e c i f y )，如圖5中使用者輸入n Book Title"， "Author", π P u b 1 l s h e r，丨在所要的資料欄上° 參考圖6，係本發明0LERA系統架構的流程示意圖。根據此示意圖所繪示，OLE RA系統操作方法係分為兩個部分：如圖左半部所示之訓練程序6 1 0及右半部所示之測試 /擷取程序6 2 0。其中在訓練程序中，一範本文件6 0 2例如為單一記錄網頁或多重錄網頁，首先經過使用者操作區塊選取6 1 2、再經由下探/上合6 1 4、以及屬性指定6 1 6的步驟得到擷取型樣6 0 4。而在測試/擷取程序6 2 0方面，將標的文件以步驟6 2 6處理，引入擷取出的型樣6 0 4化的資料6 0 8。要注意的事，在此流程圖中，所有以橢圓形標示的步驟係使用者操作，例如以滑鼠點擊拖曳或以其它介面執行類似效果，而所有矩形標示的步驟係本發明之 0 L E R A系統所對應的操作。在使用者框選區塊（步驟6 1 2 ) 時，系統所對應執行的步驟6 2 2包括記錄頁編碼、近似型樣配對、以及多重字串對齊。而對應於使用者下探/上合步驟（6 1 4 )的系統操作包括記錄頁編碼以及多重字串對齊。另一方面於測試/擷取程序步驟中，測試標的文件或

12652TWF.PTD 第16頁 1237780 五、發明說明（13) 擷取標的文件6 0 6經過包括記錄頁編碼以及多重字串對齊的步驟而得到結構化資料6 0 8。雖然本發明已以一較佳實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍内，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。 i

12652TWF.PTD 第17頁 1237780 圖式簡單說明圖1是依照本發明中一較佳實施例所繪示之目標區域框選方法示意圖。圖2是依照本發明中一較佳實施例所繪示之細部資料指定互動式介面示意圖。圖3是依照本發明中一較佳實施例所繪示針對資料下探（D r i 1 1 - d 〇 w η )做較細部的分析的介面示意圖。圖4是依照本發明中一較佳實施例所繪示整合資料成較高層次的上合（Roll-up)介面示意圖圖5是依照本發明中一較佳實施例所繪示之細部資料指定互動式介面示意圖。圖6是依照本發明中一較佳實施例所繪示之0LERA系統資料擷取流程示意圖。圖式標記說明 602 文件 604 擷取型樣 606 文件 608 結構化資料 6 10 訓練程序 612 區塊框選 614 下探/上合 6 16 指定屬性 620 測試/擷取

12652TWF.PTD 第18頁

Claims

1237780 六、申請專利範圍 1. 一種資訊擷取規則產生方法，適用於處理一個或多數個記錄頁’包括· 使用者於該些記錄頁内框選一目標區域，其中至少包括一目標資訊；針對該目標資訊做一細部資料指定以產生一結構化貢料，以及根據該結構化資料產生一資訊擷取規則作為擷取一後續記錄頁之用。 2 .如申請專利範圍第1項所述之資訊擷取規則產生方法，其中該細部資料指定的步驟包括：下探（d r i 1 1 - d 〇 w η )，係對該目標資料做較細部分 f 析；上合（r ο 1 ；l - u p )，係整合該目標資料為屬性較上位的貢料，以及指定屬性，係決定一綱目（s c h e m a )並依據該綱目操取整合。 3 .如申請專利範圍第1項所述之資訊擷取規則產生方法，更包括圖樣比對、字串對齊、以及加入純文字内容比對步驟。 4.如申請專利範圍第1項所述之資訊擷取規則產生方法，其中下探的步驟包括以一分界標記為根據進一步擷取出屬性值。 5 .如申請專利範圍第1項所述之資訊擷取規則產生方法，其中上合的步驟包括以該目標區域中的一部分區塊

12652TWF.PTD 第19頁 1237780 六、申請專利範圍作整合。 6 ,如申請專利範圍第1項所述之資訊擷取規則產生方法，其中指定屬性的步驟包括使用者點擊滑鼠以及輸入純文字資料。 7 .如申請專利範圍第1項所述之資訊擷取規則產生方法，其中指定屬性的步驟係最後一個步驟。 8 . —種資訊擷取規則產生方法，適用於處理一個或多數個記錄頁，包括：將該些記錄頁處理為一結構化文件，以及對該結構化文件作一細部資料指定以擷取屬性值。 9 .如申請專利範圍第8項所述之資訊擷取規則產生方法，其中將該些記錄頁處理為該結構化文件的步驟包括：階層編碼；近似型樣配對；以及字串對齊。 1 0.如申請專利範圍第8項所述之資訊擷取規則產生方法，其中對該結構化文件作一細部資料指定以擷取屬性值的步驟包括：下探（d r i 1 1 - d 〇 w η )，係對該目標資料做較細部分析；上合（r ο 1 1 - u ρ )，係整合該目標資料為屬性較上位的貢料，以及

12652TWF.PTD 第20頁 1237780 六、申請專利範圍指定屬性，係決定一綱目（s c h e m a )並依據該綱目擷取整合。 1 1 . 一種資訊擷取規則產生方法，包括：使用者於一記錄頁上框選一目標區域：自動根據該目標區域内之一旗標，將該目標區域之内容分割為多個資料部分；顯示該些資料部分；使用者決定該些資料部分的處理方式以取得所想要的結果，以及根據使用者的決定過程，產生相應之一資訊擷取規則以為擷取後續記錄頁之用。 1 2.如申請專利範圍第1 1項所述之資訊擷取規則產生方法，其中使用者決定該些資料部分的處理方式包括上合、下探、及指定屬性至少其中之一。 1 3. —種資訊擷取規則產生方法，包括：使用於一記錄頁上框選一目標區域：產生一使用者視窗介面以提供處理該目標區域之内容的選項；以及根據該使用者視窗介面的選項選擇過程，產生相對應的資訊擷取規則。 1 4.如申請專利範圍第1 3項所述之資訊擷取規則產生方法，其中處理該目標區域之内容的選項包括上合、下 > 探、及指定屬性至少其中之一。 1 5.如申請專利範圍第1 3項所述之資訊擷取規則產生

12652TWF.PTD 第頁 1237780 六、申請專利範圍方法，其中該使用者視窗界面的選項選擇過程包括選擇一分界符號，作為處理該目標區域之内容的依據。 1 6.如申請專利範圍第1 3項所述之資訊擷取規則產生方法，其中該使用者視窗界面的選項選擇過程包括該使用者輸入一^純文字串’作為處理該目標區域之内容的依據。

12652TWF.PTD 第22頁