TWI237780B - Online extraction rule analysis for semi-structured documents - Google Patents

Online extraction rule analysis for semi-structured documents Download PDF

Info

Publication number
TWI237780B
TWI237780B TW93110811A TW93110811A TWI237780B TW I237780 B TWI237780 B TW I237780B TW 93110811 A TW93110811 A TW 93110811A TW 93110811 A TW93110811 A TW 93110811A TW I237780 B TWI237780 B TW I237780B
Authority
TW
Taiwan
Prior art keywords
patent application
data
scope
information extraction
item
Prior art date
Application number
TW93110811A
Other languages
English (en)
Other versions
TW200535641A (en
Inventor
Chia-Hui Chang
Shih-Chien Kuo
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW93110811A priority Critical patent/TWI237780B/zh
Application granted granted Critical
Publication of TWI237780B publication Critical patent/TWI237780B/zh
Publication of TW200535641A publication Critical patent/TW200535641A/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1237780 五、發明說明(1) 發明所屬之技術領-域 本發明是有關於一種資況擷取方法,且特別是有關 於一種半結構化文件的線上資訊擷取方法。 先前技術 隨著網際網路的發展,愈來愈多的資訊以超文字標 示語言(HTML)的格式來呈現’有用與無用的資訊摻雜其 中,使用者往往可花上大筆的時間在找尋資料。因此, 如何透過資訊擷取系統的設計,將輸入的資料以結構化 的方式呈現,進而整合資料,建構豐富的搜尋引擎,使 得擷取作業自動化且提高搜尋效率及精準度,是線上資 訊擷取的重要課題。 f 設計資訊擷取系統最直接的方法是對各個網站利用 人工撰寫擷取資料的包覆程式(W r a p p e r ),但是由於網站 的格式隨時有可能發生更改,因此如何快速並且自動地 產生擷取程式是設計擷取系統最大的挑戰。 從1997年開始,Wrapper Induction的方法被提出, 利用標示範例網頁,告訴系統要擷取的資訊,讓系統產 生擷取規則,接著利用規則來擷取網站的資訊(請參照C. -N. Hsu and C.-C. Chang. Finite-state transducers for semi-structured text mining. In Proceedings of I J CA I - 9 9 Workshop on Text mining: Foundations, ^ Techniques and Applications, pp. 3 8 - 4 9,
Stockholm, Sweden, 1 9 9 9; C. -N. Hsu and Dung. Generating Finite-state transducers for
12652TWF.PTD 第5頁 1237780 五、發明說明(2) semi-structured data extraction from the web. Information Systems, 23(8):521-538, 1998; N.
Kushmerick, D. Weld, and R. Doorenbos. Wrapper induction for information extraction. In Proceedings of the 15th International Joint Conference on Artificial Intelligence ( I J C A I ), p p. 7 2 9 - 7 3 7, Japan, 1 9 9 7; I . Muslea, S. Minton, and C. K η o b 1 o c k. A hierarchical approach to wrapper induction. In Proceedings o f the 3rd International Conference on Autonomous Agents, p p . 1 9 0 - 1 9 7, S e a 11 1 e, W A, 1 9 9 9 )這類利用標示範例網 頁的方式(稱之為supervised approaches ),雖然有不 錯的擷取率,但是必須經過十分繁複的標示,才能產生 擷取規則,對使用者來說並不是那麼便利,因此如何能 減少使用者標示的資訊擷取系統是系統設計的一大挑 戰。目前不需使用者標示的方法(稱之為unsupervised approaches)包括如IEPAD(請參照C· - Η· Chang and S. - C. Lui. Iepad: Information extraction based on pattern discovery. In Proceedings of the 10th International Conference on World Wide Web, pages 6 8 1 - 6 8 8, Hong-Kong, 2 0 0 1 )係假設所擷取的資料在文件 _ 存在多筆資料,故能利用重複性型樣探勘方法做為可能 > 擷取對象的猜測,因此對於單一記錄網頁尚無解決辦 法。又如現有的RoadRunner(請參照V. Crescenzi, G.
I2652TWF.PTD 第6頁 1237780 五、發明說明(3) Mecca, and automatic In Proceed on Very La E X A L G (請參 Extracting Proceeding Conference 2 0 0 3 .)係假 希望將整個 開來,然而 樣板中也可 入,尚需要 發明則是採 計,兼具二 發明内容 有鑑於 的方法來完 Extraction 可將資料完 記錄的網頁 本發明 文件的資訊 域,並針對 P. Merialdo. Roadrunner: Towards data extraction from large web sites, i n g s of 2 7th International Conference rge Data Base,pp. 1 0 9 - 1 1 8, 2 0 0 1.)及 照A. A r a s u and H. Garcia-Mol ina. structured data from web pages. In s of ACM SIGMOD International on Management o f Data, pages 3 3 7 - 3 4 8, 設所擷取的資料是以整個網頁的資料為主, 網頁的樣板(t e m p 1 a t e )和資料(d a t a )能區分 每個人所需要的資料可能不儘相同,即使是 能有其想要的資料,因此少了使用者的介 後置處理擷取出使用者所需要的資料。而本 取介於supervised及unsupervised之間的設 者之長,並有很好的效能。 以上所述之先前技術,本發明提出一個有效 成自動化的資訊擷取系統(I n f 〇 r m a t; i ο η S y s t em ),讓使用者不必經過繁複的標示便 整的擷取到手,同時解決單一記錄以及多筆 擷取問題。 提供一種資訊擷取方法,適用於一半結構化 取。使用者於半結構化文件内框選目標區 目標資訊作細部分析,使半結構化文件結構
12652TWF.PTD 第7頁 1237780 五、發明說明(4) 化。最後指定屬性,以提高該資訊擷取方法的擷取率。 前述細部分析的步驟包括:(一)下探(d r i 1 1 - d 〇 w η ),係 對資料做較細部分析;(二)上合(r 〇 U - u ρ ),係整合資料 為屬性較上位的資料;(三)指定屬性,係決定一綱目 (s c h e m a )並依據該綱目擷取整合。此種資訊擷取方法亦 配合階層編碼、近似型樣配對、以及字串對齊的方法實 施上述步驟。其中,近似型樣配對的步驟例如以類似字 串對齊方式實施(請參照D. Gus field. Efficient methods for multiple sequence alignment with guaranteed error bounds. Bull. Math. Biol., 5 5 ·· 1 4 1 - 1 5 4, 1 9 9 3 ·)。其中,字串對齊的步驟例如以多 重字串對齊實施。其中,目標資訊例如以超文字標示語 言(Hypertext Markup Language, HTML)記載。又者,目 標資訊係可以例如是單記錄頁或多記錄頁構成。另一方 面,擷取規則分析的步驟更包括(一)以定義符號為根據 (D e 1 i m i t e r - b a s e d ),係憑藉分界符號,根據欲擷取屬性 其前後文格式來擷取;(二)以内容為根據 (C ο n t e n t - b a s e d ),係憑藉資料内容來榻取;(三)以上兩 種方法兼施。本發明中的資訊擷取方法的結果例如以可 延伸性標示語言(Extensible Markup Language, XML)格 式儲存,所以可搭配XML相關的應用。另外,框選該目標 區域時,例如以多重框選的操作進行,以解決網頁中屬 性排列不規則的情形。 本發明亦提供一種資訊擷取規則產生方法,適用於
12652TWF.PTD 第8頁 1237780 五、發明說明(5) 針對一個或多數個記錄頁進行訓練,以產生擷取規則。 此種資訊擷取規則產生方法包括使用者於該些記錄頁内 框選一目標區域,其中至少包括一目標資訊,並且針對 該目標資訊做一細部資料指定。在此所述之擷取規則產 生方法,其中的細部分析步驟包括:(一)下探 (d r 1 1 1 - d 〇 w η ),係對該目標資料做較細部分析;(二)上 合(r ◦ Π - u ρ ),係整合該目標資料為屬性較上位的資料; 以及(三)指定屬性,係決定一綱目(s c h e m a )並依據該綱 目擷取整合。本發明的資訊擷取規則產生方法,在實施 時更包括圖樣比對、字串對齊、以及加入純文字内容比 對步驟。另一方面,前述的下探步驟以分界標記為根據 進一步擷取出屬性值。上合的步驟以該目標區域中的一 部分區塊的作整合。最後的指定屬性步驟則是使用者點 擊滑鼠以及輸入屬性名字而完成。 本發明又提供一種資訊擷取規則產生方法,以處理 一個或多數個記錄頁訓練,產生資訊擷取規則。首先將 該些記錄頁處理為結構化文件,再針對結構化文件作細 部資料指定以擷取屬性值。本發明中,例如以階層編 碼、近似型樣配對、以及字串對齊等方法的處理先產生 結構化文件。再針對該結構化文件作細部資料指定以擷 取屬性值,步驟包括(一)下探(d r i 1 1 - d 〇 w η ),係對該目 標資料做較細部分析;(二)上合(r ο 1 1 - u ρ ),係整合該目 標資料為屬性較上位的資料;(三)指定屬性,係決定一 綱目(s c h e m a )並依據該綱目擷取整合。
12652TWF.PTD 第9頁 1237780 五、發明說明(6) 為讓本發 明顯易懂,下 作詳細說明如 實施方式 本發明提 extraction r 複雜的標示讓 的滑鼠點擊, 屬性標示簡化 (enc 1 os i ng) 點擊拖髮框選 擷取,並比對 明之上述和其他目的、特徵、和優點能更 文特舉一較佳實施例,並配合所附圖式, 下: 出的線上擷取規則分析 (0 η 1 i n e ule analysis, OLERA)系統主要針對避免 使用者在擷取的過程中只需透過幾個簡單 以WYSIWYG(所見即所得)的觀念,將繁複的 成三步驟的操作。(1 )採用目標區域框選 ,讓使用者對要擷取的目標透過簡單的滑鼠 ,使系統以聰明的方式直覺地進行資料的 其它可能的記錄;(2 )區塊的下探
Drill-down)或上合(Roll-up),根據第一步的記錄進 步擷取,透過 對齊(S t r i n g 定(Speci fy) 擷取系統的成 或者多記錄頁 動化的理想, 一般來說 域及使用者不 重要資料顯不 示著作者、出 興趣的區域則 近似型樣配對(Pattern Matching)及字串 A 1 i g n m e n t)建立擷取規則;(3 )相關屬性指 ,係利用加入純文字内容的比對來加強整個 功率,不論對於單記錄頁(Singular Page) (Multi-Record Page),其結果皆完成了自 也有很高的擷取率。 ,網頁可將其内容分成使用者感興趣的區 感興趣的區域,而用者感興趣的區域便是 的地方。以介紹書本的網頁為例,可能顯 版社、出版日期等等的資訊;使用者不感 是網站上給瀏覽者便於操作的按鈕或者琳
12652TWF.PTD 第10頁 1237780 五、發明說明(7) 瑯滿目的廣告,對不同使用者而言,所需要的資料其實 不盡相同,因此必需透過框選步驟,讓使用者告訴系統 其所感與趣的區域。 在這裡目標區域框選後,系統處理的方法主要是透 過一個改良式的對齊(a 1 i g n m e n t)演算法。在此針對此種 對齊演算法加以說明。首先對目標區域框選的内容作網 頁編碼;由於目標件係以Η TM L格式建構而成,解讀此網 頁内容時以HTML的標籤為定義符號(delimiter),而兩相 鄰的定義符號之間,内容均予以忽略,因而定義兩相鄰 定義符號之間的該些内容為一單位。為了要執行本發明 所使用的對齊演算法,需應用上述之網頁編碼方法將目 標區域框選的内容作階層編碼。例如通常可將階層編碼 依包含範圍大小分為三層考慮:審查階層 (markup-level)、本文階層(text-level)、以及字元階 層(w 〇 r d - 1 e v e 1 )。由下表所列可瞭解此三種階層的意 涵,要聲明的是此表所列示僅為舉例目的,所有同級的 定義符號均可依類似的階層編碼方法區分。至此產生配 對型樣,亦可稱為在訓練程序中產生參考的擷取規則, 用以作後續的資料測試與擷取。
12652TWF.PTD 第 11 頁 1237780
五、發明說明(8) 階層 編碼方 定義符號 級標裁 —---- 區塊級標簸 (block-level tags) 審査(markup) 本文(text) 段落 句子 __ NL,CR,Tab ?! 字元(word) 片語 1贫 空白(B1 ank)@$-/ 經過階層編碼之後’則執行近似配對’係利用在訓 練網頁中比較框選區塊中的類似記錄。凡與框選區塊相 似度小於一臨界者皆符合認定標準。 經由近似配對的網頁記錄内容’便可以多重字串對 齊演算法處理。此演算法以動態程式共執行n k次而得到 對齊結果,係針對k個長度n的字串計算。例如針對下列 三個字串B 1 , B 2, B 3,執行此演算法後得到以下對齊結 果··
此法已應用到I EPAD中,可彌補PAT樹演算法的不足’且 特別適用於字串長度相似的狀況下。處理的字串數目甚 鉅,可利用已知的c e n t e r s t a r (請參照D · G u s i i e 1 d · Efficient methods for multiple sequence alignment
12652TWF.PTD 第12頁 1237780 架構 須進 提, 經過 得這 標示 也就 字内 些文 本 的結構化資料 竟目前為止一 定義符號(De 1 只能榻取出一 取屬性值,所 ,這就是細部 可以分成三個 ,Drill-down bounds 演算法 輸入的 資料。 定的目 書的作 五、發明說明(9) with guaranteed error 5 5 : 1 4 卜 1 5 4, 1 9 9 3 ·)近似 至此,一開始使用者 將其轉換成結構化的 一步正確掘取出所指 它可能是價格 處理轉換而得 些屬性值,畢 語言(HTML)為 是說目前頂多 容包含著欲擷 字内容做擷取 細部資料指定 R〇 1 1 -up 及Spec i f y
Bull. Math. Biol., 加快計算速度。 網頁,已經透過系統的 雖然如此,本發明還必 標,可以一個屬性值粹 者名稱、或者日期,而 ,並不代表著就已經取 切的方法都是以超文字 i m i t e r )的基礎來設想, 段文字内容,而這段文 以必須再進一步的對這 資料指定的目的。 咅P 分,Drill— down 、 與Roll-up的主要觀念來 自於0LAP多維度資料模型,標準的0LAP亦包含 Drill-d〇wn和R〇ll-up ,其中Drill-down是對資料再做較 細部的分析,R ο 1 1 - u p則是整合資料較高層次的概念,在 細部資料指定的方面也是同樣的道理,D r i 1 1 - d 〇 w η將純 文字内容作更細部的分析,將純文字内容再以一些如標 點符號或者換行等當作D e 1 i m i t e r分隔,進一步地擷取出 屬性值,R ο 1 1 - up則將某一區塊的資料作一整合,像是作 者的資料整合成作者列表或者書本的出版日期與出版商 的資料整合成出版相關資料等,這部分可依照使用者的 需求來進行。不論是D r i 1 1 - d 〇 w η亦或R ο 1 1 - u p ,均經由以
12652TWF.PTD 第13頁 1237780 五、發明說明(10) 下兩個步驟實施:網頁編碼以及多重字串對齊演算法。 此二個步驟與區塊框選步驟中所敘述者相同,在此不贄 述。
Drill-down與R〇11-up提供一個很彈性的方式來讓使 用者擷取出屬性值,接著就是另一個功能S p e c i f y, S p e c i f y即是決定綱目(S c h e m a )的一個重要工作,決定綱 目之後便依此綱目進行擷取整合。在習知的資訊擷取系 統中,綱目通常在一開始就決定,而在0 LERA系統中則是 最後一個步驟,並且只需要簡單的幾個滑鼠點擊及輸入 屬性名稱的名稱便可以完成。 本發明所提出的系統中,以所見即所得(What You See Is What You Get, WYSIWYG)的觀點,將繁複的屬性 標示簡化成依序三步簡單的操作。請參照圖1 ,其繪示依 照本發明一較佳實施例的目標區域框選方法。使用者以 一簡單滑鼠點擊及拖曳,或經由其它同樣功能的使用者 週邊介面(例如滑鼠板,決定目標網頁中欲加以擷取資訊 的内容,該内容包括例如純文字,更包括例如圖像,且 以超文字標示語言(HTML)格式表示。在圖1中以BARNES & N 0 B L E網路書店的網站為例,在搜尋到的J + +參考書籍網 頁中,使用者選取有興趣的内容包括書名、作者、格式 (format)、國際標準圖書編號(International Standard Book Number, ISBN)、出版商(Publisher)、出版日期 (Pub. Date)、版本(Edition Desc.)等資料(102),而此 頁中未選取的部分包括位於版面右側的一段文字聲明
12652TWF.PTD 第14頁 1237780 五、發明說明(11) (104)° 接著參考圖2,其繪示依照本發明一較佳實施例的細 部資料指定互動式介面示意圖。經過0 L E R A系統執行網頁 編碼、近似型樣配對、以及多重字串對齊演算等步驟之 後,得到如圖2所示的表格形式的資料2 1 0 ,而圖中的陰 影部分2 2 0係經OELRA演算後產生的擷取規則,其它類似 的書籍查詢網頁可依此法則將選取區塊内的貧料結構 化。 接下來欲實施資料擷取,需利用以下的擷取規則。 擷取規則的表示法大致上可分成三種,(1 )以定義符號為 根據(D e 1 i m i t e r - b a s e d ) ··憑藉分界符號,根據欲擷取屬 性其前後文格式來擷取,例如圖3所示,在跳出的互動視 窗3 3 0中輸入之符號” $,· ”等;(2 )以内容為根據 (Content-based):憑藉資料内容來擷取,例如本發明一 較佳實施例中的書名、作者、版式、出版商、國際標準 圖書編號、出版曰期、版本等特殊格式;(3 )以前後文為 根據(Context-based):同時採用(1)、(2)兩者的做法。 圖3所示為執行下探(D r i 1 1 - d 〇 w η )的例子,本實施例中係 針對包含格式(f 〇 r m a t )資訊的一欄執行下探,依據互動 視窗3 3 0中鍵入的分隔符號(此處鍵入3個符號,但發生作 用的是逗號π,M ),將版式資料向π下"再解析為 "Format:n 、nPaperback" 、nlst ed.n 、π992ρρ·π 等四 搁’得到表格形式的貢料3 1 0。 參考圖4,係描述上轉的一實施例。其作業係可視為
12652TWF.PTD 第15頁 1237780 五、發明說明(12) 下探的逆向操作,意即將數欄細分的資料統合為一較為 上位的資料,例如圖4中陰影的部分4 2 0中,各欄的資料 如’’平裝本"、"第1版”、”總頁數"等資料統整為”版式"一 筆資料。使用者可依其需要在4 3 0中填入所要加入的分隔 符號。 接下來參考圖5 ,係描述相關屬性指定(S p e c i f y ), 如圖5中使用者輸入n Book Title", "Author", π P u b 1 l s h e r,丨在所要的資料欄上° 參考圖6,係本發明0LERA系統架構的流程示意圖。 根據此示意圖所繪示,OLE RA系統操作方法係分為兩個部 分:如圖左半部所示之訓練程序6 1 0及右半部所示之測試 /擷取程序6 2 0。其中在訓練程序中,一範本文件6 0 2例如 為單一記錄網頁或多重錄網頁,首先經過使用者操作區 塊選取6 1 2、再經由下探/上合6 1 4、以及屬性指定6 1 6的 步驟得到擷取型樣6 0 4。而在測試/擷取程序6 2 0方面,將 標的文件以步驟6 2 6處理,引入擷取出的型樣6 0 4化的資 料6 0 8。要注意的事,在此流程圖中,所有以橢圓形標示 的步驟係使用者操作,例如以滑鼠點擊拖曳或以其它介 面執行類似效果,而所有矩形標示的步驟係本發明之 0 L E R A系統所對應的操作。在使用者框選區塊(步驟6 1 2 ) 時,系統所對應執行的步驟6 2 2包括記錄頁編碼、近似型 樣配對、以及多重字串對齊。而對應於使用者下探/上合 步驟(6 1 4 )的系統操作包括記錄頁編碼以及多重字串對 齊。另一方面於測試/擷取程序步驟中,測試標的文件或
12652TWF.PTD 第16頁 1237780 五、發明說明(13) 擷取標的文件6 0 6經過包括記錄頁編碼以及多重字串對齊 的步驟而得到結構化資料6 0 8。 雖然本發明已以一較佳實施例揭露如上,然其並非 用以限定本發明,任何熟習此技藝者,在不脫離本發明 之精神和範圍内,當可作些許之更動與潤飾,因此本發 明之保護範圍當視後附之申請專利範圍所界定者為準。 i
12652TWF.PTD 第17頁 1237780 圖式簡單說明 圖1是依照本發明中一較佳實施例所繪示之目標區域 框選方法示意圖。 圖2是依照本發明中一較佳實施例所繪示之細部資料 指定互動式介面示意圖。 圖3是依照本發明中一較佳實施例所繪示針對資料下 探(D r i 1 1 - d 〇 w η )做較細部的分析的介面示意圖。 圖4是依照本發明中一較佳實施例所繪示整合資料成 較高層次的上合(Roll-up)介面示意圖 圖5是依照本發明中一較佳實施例所繪示之細部資料 指定互動式介面示意圖。 圖6是依照本發明中一較佳實施例所繪示之0LERA系 統資料擷取流程示意圖。 圖式標記說明 602 文 件 604 擷 取型 樣 606 文 件 608 結 構化 資料 6 10 訓 練程 序 612 區 塊框 選 614 下 探/上合 6 16 指 定屬 性 620 測 試/擷取
12652TWF.PTD 第18頁

Claims (1)

1237780 六、申請專利範圍 1. 一種資訊擷取規則產生方法,適用於處理一個或 多數個記錄頁’包括· 使用者於該些記錄頁内框選一目標區域,其中至 少包括一目標資訊; 針對該目標資訊做一細部資料指定以產生一結構 化貢料,以及 根據該結構化資料產生一資訊擷取規則作為擷取 一後續記錄頁之用。 2 .如申請專利範圍第1項所述之資訊擷取規則產生方 法,其中該細部資料指定的步驟包括: 下探(d r i 1 1 - d 〇 w η ),係對該目標資料做較細部分 f 析; 上合(r ο 1 ;l - u p ),係整合該目標資料為屬性較上位 的貢料,以及 指定屬性,係決定一綱目(s c h e m a )並依據該綱目操取整 合。 3 .如申請專利範圍第1項所述之資訊擷取規則產生方 法,更包括圖樣比對、字串對齊、以及加入純文字内容 比對步驟。 4.如申請專利範圍第1項所述之資訊擷取規則產生方 法,其中下探的步驟包括以一分界標記為根據進一步擷 取出屬性值。 5 .如申請專利範圍第1項所述之資訊擷取規則產生方 法,其中上合的步驟包括以該目標區域中的一部分區塊
12652TWF.PTD 第19頁 1237780 六、申請專利範圍 作整合。 6 ,如申請專利範圍第1項所述之資訊擷取規則產生方 法,其中指定屬性的步驟包括使用者點擊滑鼠以及輸入 純文字資料。 7 .如申請專利範圍第1項所述之資訊擷取規則產生方 法,其中指定屬性的步驟係最後一個步驟。 8 . —種資訊擷取規則產生方法,適用於處理一個或 多數個記錄頁,包括: 將該些記錄頁處理為一結構化文件,以及 對該結構化文件作一細部資料指定以擷取屬性 值。 9 .如申請專利範圍第8項所述之資訊擷取規則產生方 法,其中將該些記錄頁處理為該結構化文件的步驟包 括: 階層編碼; 近似型樣配對;以及 字串對齊。 1 0.如申請專利範圍第8項所述之資訊擷取規則產生 方法,其中對該結構化文件作一細部資料指定以擷取屬 性值的步驟包括: 下探(d r i 1 1 - d 〇 w η ),係對該目標資料做較細部分 析; 上合(r ο 1 1 - u ρ ),係整合該目標資料為屬性較上位 的貢料,以及
12652TWF.PTD 第20頁 1237780 六、申請專利範圍 指定屬性,係決定一綱目(s c h e m a )並依據該綱目 擷取整合。 1 1 . 一種資訊擷取規則產生方法,包括: 使用者於一記錄頁上框選一目標區域: 自動根據該目標區域内之一旗標,將該目標區域 之内容分割為多個資料部分; 顯示該些資料部分; 使用者決定該些資料部分的處理方式以取得所想 要的結果,以及 根據使用者的決定過程,產生相應之一資訊擷取 規則以為擷取後續記錄頁之用。 1 2.如申請專利範圍第1 1項所述之資訊擷取規則產生 方法,其中使用者決定該些資料部分的處理方式包括上 合、下探、及指定屬性至少其中之一。 1 3. —種資訊擷取規則產生方法,包括: 使用於一記錄頁上框選一目標區域: 產生一使用者視窗介面以提供處理該目標區域之 内容的選項;以及 根據該使用者視窗介面的選項選擇過程,產生相 對應的資訊擷取規則。 1 4.如申請專利範圍第1 3項所述之資訊擷取規則產生 方法,其中處理該目標區域之内容的選項包括上合、下 > 探、及指定屬性至少其中之一。 1 5.如申請專利範圍第1 3項所述之資訊擷取規則產生
12652TWF.PTD 第頁 1237780 六、申請專利範圍 方法,其中該使用者視窗界面的選項選擇過程包括選擇 一分界符號,作為處理該目標區域之内容的依據。 1 6.如申請專利範圍第1 3項所述之資訊擷取規則產生 方法,其中該使用者視窗界面的選項選擇過程包括該使 用者輸入一^純文字串’作為處理該目標區域之内容的依 據。
12652TWF.PTD 第22頁
TW93110811A 2004-04-19 2004-04-19 Online extraction rule analysis for semi-structured documents TWI237780B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW93110811A TWI237780B (en) 2004-04-19 2004-04-19 Online extraction rule analysis for semi-structured documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW93110811A TWI237780B (en) 2004-04-19 2004-04-19 Online extraction rule analysis for semi-structured documents

Publications (2)

Publication Number Publication Date
TWI237780B true TWI237780B (en) 2005-08-11
TW200535641A TW200535641A (en) 2005-11-01

Family

ID=36929938

Family Applications (1)

Application Number Title Priority Date Filing Date
TW93110811A TWI237780B (en) 2004-04-19 2004-04-19 Online extraction rule analysis for semi-structured documents

Country Status (1)

Country Link
TW (1) TWI237780B (zh)

Also Published As

Publication number Publication date
TW200535641A (en) 2005-11-01

Similar Documents

Publication Publication Date Title
US9323731B1 (en) Data extraction using templates
US7958444B2 (en) Visualizing document annotations in the context of the source document
US7739257B2 (en) Search engine
US10423697B2 (en) User interface with navigation controls for the display or concealment of adjacent content
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2024091709A (ja) 文作成装置、文作成方法および文作成プログラム
EP3553696A1 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
CN106168947A (zh) 一种相关实体挖掘方法和系统
Ishihara et al. Analyzing visual layout for a non-visual presentation-document interface
CN114238735B (zh) 一种互联网数据智能采集方法
TWI237780B (en) Online extraction rule analysis for semi-structured documents
Yoon et al. A conference paper exploring system based on citing motivation and topic
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Adefowoke Ojokoh et al. Automated document metadata extraction
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Thottempudi A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition
Kolkur et al. Web Data Extraction Using Tree Structure Algorithms-A Comparison
KR102685135B1 (ko) 영상 편집 자동화 시스템
TWI813028B (zh) 文字資料之篩選關聯方法及系統
Zhou et al. Efficient web page main text extraction towards online news analysis
Rastan Towards generic framework for tabular data extraction and management in documents
De Oliveira Santarosa Martins Metadata Extraction and Digital News Preservation

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees