TWI423053B

TWI423053B - Domain Interpretation Data Retrieval Method and Its System

Info

Publication number: TWI423053B
Application number: TW99106440A
Authority: TW
Original assignee: Univ Nat Chi Nan
Priority date: 2010-03-05
Filing date: 2010-03-05
Publication date: 2014-01-11
Also published as: TW201131388A

Description

領域詮釋資料擷取方法及其系統

本發明是有關於一種用於網路資料挖掘(data mining)的相關技術，特別是指一種領域詮釋資料(domain metadata)擷取方法及其系統。

隨著網路的技術快速發展與普及化，使得網路上的資訊量呈現爆炸性的成長，而網路上的資訊包羅萬象，儼然像是一個龐大的分散式資料庫，要如何快速而正確地於網路上找到所需資訊是現階段網路知識工程中非常重要的一項研究課題。

當使用者想要搜尋某一領域或主題的相關資訊時，可先於搜尋網站(例如，Google、Yahoo、Bing、Openfind)輸入與領域或主題相關的關鍵字(keywords)，並藉由其搜尋引擎(search engines)送出關鍵字進行搜尋，以得到大量與關鍵字相關的網頁資料之搜尋結果。然後，使用者可於找回的大量網頁資料中，進行瀏覽並判斷是否符合自己的需求；若找回的網頁資料不符合需求，則重複地進行輸入關鍵字與瀏覽搜尋結果之動作。一般而言，使用者為了找到符合自己的需求之資訊，往往需要多次進行上述動作，此種方式不但耗時、缺乏效率，也容易令人感到厭煩。

當使用者所輸入的關鍵字不夠精確時，搜尋結果中往往缺乏實際上可用的資訊，雖然，使用者可藉由在不斷的搜尋過程中累積相關的領域知識，以期提昇下次遇到相同領域或主題時所輸入之關鍵字的精確度，但是，當使用者想要搜尋另一新的領域或主題時，仍需花費不少的時間來建立相關的領域知識。再者，現有的網站為了要服務不同需求的使用者，後端常藉由資料庫系統管理結構化資料，根據不同的資訊需求，以程式作動態呈現，例如，CGI(Common Gateway Interface)程式；此種網站後端的資料庫，無法以一般的搜尋引擎透過超鏈結(hyperlink)的方式來抓取資料，因此，尚有許多有用的隱藏網路資訊，稱為隱藏網路(Hidden Web)或深層網路(Deep Web)，以現有的搜尋引擎，未必能分析取得。

有鑑於此，本發明旨在自領域相關(domain-related)的網路(包含隱藏網路及深層網路)中，擷取出對應的領域詮釋資料，以提供給使用者，並提供給網路知識工程相關應用。

因此，本發明之目的，即在提供一種領域詮釋資料擷取方法。

於是，本發明領域詮釋資料擷取方法，適於藉由一系統執行，該方法包含下列步驟：A)接收與一領域相關的複數個領域相關網頁；B)分析該等領域相關網頁之網頁語法，以得到複數個第一詮釋資料屬性；C)基於一統計式語言模型，自該等領域相關網頁得到複數個關鍵片語，並以該等關鍵片語作為複數個第二詮釋資料屬性；D)根據該等第一、二詮釋資料屬性對應至一組都柏林核心集欄位的結果，由該等領域相關網頁擷取出複數筆領域相關的詮釋資料；以及E)將該等領域相關的詮釋資料輸出至一載體。

本發明之另一目的，即在提供一種領域詮釋資料擷取系統。

於是，本發明領域詮釋資料擷取系統包含一記憶單元，及一領域詮釋資料擷取單元。該記憶單元儲存有與一領域相關的複數個領域相關網頁。該領域詮釋資料擷取單元係與該記憶單元連接；該領域詮釋資料擷取單元包括一語法分析模組、一關鍵片語統計模組，及一詮釋資料擷取模組；該語法分析模組用以分析該等領域相關網頁之網頁語法，以得到複數個第一詮釋資料屬性；該關鍵片語統計模組用以基於一統計式語言模型，自該等領域相關網頁得到複數個關鍵片語，並以該等關鍵片語作為複數個第二詮釋資料屬性；該詮釋資料擷取模組用以根據該等第一、二詮釋資料屬性對應至一組都柏林核心集欄位的結果，由該等領域相關網頁擷取出複數筆領域相關的詮釋資料。

本發明的功效在於：藉由將該等第一、二詮釋資料屬性對應到該組都柏林核心集欄位後，對該等領域相關網頁之內容進行搜尋，不但可以取得隱藏網路或深層網路的有用資訊，亦可提高搜尋之效率以及結果的準確度，而搜尋出來的該等詮釋資料更可用於建構領域知識。

有關本發明之前述及其他技術內容、特點與功效，在以下配合參考圖式之一個較佳實施例的詳細說明中，將可清楚的呈現。

參閱圖1，本發明領域詮釋資料擷取系統1之較佳實施例包含一使用者介面單元11、與該使用者介面單元11連接的一領域資料收集單元12、與該使用者介面單元11及該領域資料收集單元12連接的一資料庫13，以及與該使用者介面單元11及該資料庫13連接的一領域詮釋資料擷取單元14。

該使用者介面單元11包括一關鍵字輸入介面111、一收集結果選取介面112、一都柏林核心集(Dublin Core)標示介面113，及一領域詮釋資料擷取結果顯示介面114；其中，該關鍵字輸入介面111、該收集結果選取介面112、該都柏林核心集標示介面113，及該領域詮釋資料擷取結果顯示介面114之實施態樣為互動式網頁，用以供使用者操作該領域詮釋資料擷取系統1並將其執行結果呈現給使用者。該領域資料收集單元12包括一網頁取得模組121，及一歸納與排序(ranking)模組122。該資料庫13為記憶單元的一種實施態樣。該領域詮釋資料擷取單元14包括一語法分析模組141、一關鍵片語統計模組142，及一詮釋資料擷取模組143。

參閱圖1與圖2，對應上述領域詮釋資料擷取系統1之較佳實施例，本發明領域詮釋資料擷取方法係藉由該領域詮釋資料擷取系統1執行，其包含下列步驟。

當使用者想要搜尋並彙整某一領域的資料時，可透過該使用者介面單元11之該關鍵字輸入介面111輸入對應該領域之至少一關鍵字；舉例來說，使用者想要搜尋旅遊領域相關的資料時，即可透過該關鍵字輸入介面111輸入「旅遊」作為該關鍵字。

在步驟S301中，該領域資料收集單元12之該網頁取得單元121根據該關鍵字進行搜尋，並取得網站2中與該關鍵字相關之該等網頁，並將該等網頁儲存於該資料庫13中。在本較佳實施例中，該網頁取得單元121係以現有的元搜尋引擎(metasearch engine)，例如，WebCrawler，來自該等網站2搜尋並取得與該關鍵字相關之超文字標記語言(Hypertext Markup Language，以下簡稱HTML)網頁。由於以關鍵字搜尋並取得網頁之技術係為習知技術，且非本發明之重點，故不在此贅述其實施細節。

在步驟S302中，該領域詮釋資料擷取單元14之該語法分析模組141分析該等網頁之網頁語法，以得到對應每一網頁之一文件物件模型(Document Object Model，以下簡稱DOM)樹，並利用習知的語彙分析(lexical analysis)及索引(indexing)方法建立對應每一網頁的標記(token)及反索引(inverted index)，並將標記及反索引儲存於該資料庫13。其中，語彙分析及索引方法之細節可參考S. Deerwester等人提出的「”Indexing by latent Semantic Analysis,”J. Amer. Soc. Info. Sci., vol. 41,pp. 391-407,1990.」,以及G. Salton等人提出的「”A Vector Space Model for Automatic Indexing,”Communications of the ACM, vol. 18,no. 11,pp. 613-620,1975.」。

在步驟S303中，該領域資料收集單元12之該歸納與排序模組122先將步驟S301所取得之網頁進行歸納，以將該等網頁歸納成三種階層粒度(3-level granularities)之概念物件(conceptual object)，分別是「網站階層」之概念物件、「目錄階層」之概念物件，及「網頁階層」之概念物件；然後，該歸納與排序模組122再將該等「網站階層」、「目錄階層」，及「網頁階層」之概念物件進行排序，以形成對應該關鍵字之一領域資料收集結果。其中，步驟S303進一步描述如下。

首先，該歸納與排序模組122係依下列定義進行歸納。「網站階層」之概念物件係指網站主頁(homepage)之一致資源定址器(Uniform Resource Locator，以下簡稱URL)，其係由註冊到網際網路領域名稱伺服器(Domain Name Server，以下簡稱DNS)之主機名稱所指示者，舉例來說，「http://travel.network.com.tw/」即屬於「網站階層」之概念物件。「目錄階層」之概念物件係指包含複數個領域相關網頁者，一般而言，網站中往往可以再分為幾個領域相關的目錄，這些目錄即屬於「目錄階層」之概念物件，舉例來說，「http://travel.network.com.tw/tourguide/」即屬於「目錄階層」之概念物件。「網頁階層」之概念物件係指單一領域相關網頁，此單一領域相關網頁通常內含領域相關資訊，或內含可鏈結到更多領域相關資訊之網頁鏈結。

然後，該歸納與排序模組122再根據下列參數對該等「網站階層」、「目錄階層」，及「網頁階層」之概念物件進行排序：一群集(cluster)大小、一詞彙頻率-反文件頻率(Term Frequency-Inverse Document Frequency，以下簡稱TF-IDF)相似度，及一權威(Authority)與發散(Hub)值；在本較佳實施例中，對於該等「網站階層」、「目錄階層」，及「網頁階層」之概念物件其中任一者，該歸納與排序模組122係將其對應之該群集大小、該TF-IDF相似度，及該權威與發散值分別乘上其等各別的權重，然後總合起來作為一排序積分，排序積分越大者，其出現的順序越前面。其中，該群集大小係指概念物件內含的網頁數；該TF-IDF相似度係利用一種習知的統計技術，並配合使用者定義的關鍵字及網頁的標記計算而得，用以評估某一詞彙對於一個文件集或一個語料庫(corpus)其中一份文件的重要程度，其細節可參考「http://en-wikipedia.org/wiki/Tf-idf」；該權威與發散值係利用一習知的超鏈結導引主題搜尋(Hyperlink-Induced Topic Search，以下簡稱HITS)演算法求得，其細節可參考「http://en-wikipedia.org/wiki/HITS-algorithm」；而在此步驟S303所使用的權重整理如表1所示。

在步驟S304中，為了使後續領域詮釋資料之擷取結果更為準確且具有實質意義，該使用者介面單元11藉由該收集結果選取介面112將該領域資料收集結果呈現給使用者，而使用者可透過該收集結果選取介面112進一步地篩選出後續用於擷取領域詮釋資料之複數個領域相關網頁，並將該等領域相關網頁傳送給該領域詮釋資料擷取單元14並儲存於該資料庫13，其中，該等領域相關網頁屬於該等網頁。由於，經過上述步驟S301~S303處理後，該領域資料收集結果係以歸納與排序後之方式呈現，故使用者可輕易且快速地篩選出該等領域相關網頁。

值得一提的是，雖然，經由使用者篩選出該等領域相關網頁，可大幅提昇後續處理的精確度；但，本發明亦可自動將該領域資料收集結果中，排序在前N名的概念物件(「網站階層」、「目錄階層」，或「網頁階層」之概念物件)對應的網頁，直接作為該等領域相關網頁，以繼續進行後續之處理。

在步驟S305中，該領域詮釋資料擷取單元14得到該等領域相關網頁。

在步驟S306中，該領域詮釋資料擷取單元14之該語法分析模組141還分析該等領域相關網頁之網頁語法，以取得複數個第一詮釋資料屬性(attribute)。一般而言，由於網站中與搜尋服務相關的區域，係被嵌入(embedded)於HTML的<form>子句中，在本較佳實施例中，該語法分析模組141分析該等領域相關網頁之HTML<form>子句中的屬性-值對(attribute-value pair)，以取得該等第一詮釋資料屬性。其中，屬性與值的關係可為1對1(1-to-1 mapping)、N對1(N-to-1 mapping)，或1對N(1-to-N mapping)，該語法分析模組141僅使用關係為1對1(1-to-1 mapping)及1對N(1-to-N mapping)的屬性-值對，來取得該等第一詮釋資料屬性。

在步驟S307中，該領域詮釋資料擷取單元14之該關鍵片語統計模組142根據步驟S302中建立之該等領域相關網頁的標記，並基於一統計式語言模型，配合該等領域相關網頁之標記，以自該等領域相關網頁得到複數個關鍵片語(keyphrases)，並以該等關鍵片語作為複數個第二詮釋資料屬性。在本較佳實施例中，係採用n-gram語言模型進行統計，其細節可參考W. B. Cavnar等人所提出之「”N-Gram-Based Text Categorization,”Proc. 3 ^rd Symp. On Document Analysis and Information Retrieval, pp. 161-175,1994.」，以及L. F. Chien提出的「”PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval,”Proc. 24^th ACM SIGIR Int’l Conf. Research and Development in Information Retrieval,pp. 50-58,1997.」。

在步驟S308中，該使用者介面單元11藉由該都柏林核心集標示介面113，以供使用者將該等第一、二詮釋資料屬性對應至一組都柏林核心集欄位(Dublin Core Field)，其中，都柏林核心集是一種廣泛被運用於網路資源、政府出版品、圖書館典藏、博物館典藏的詮釋資料格式，將該等第一、二詮釋資料屬性對應至該組都柏林核心集欄位之目的是為了使各類詮釋資料的格式得以互通(interoperability)，以增進在跨各個不同網站間擷取詮釋資料的互通性；該組都柏林核心集欄位包括15個欄位，分別是：title、subject、description、type、date、publisher、creator、contributor、format、identifier、source、language、relation、coverage，及rights。

類似地，以旅遊領域為例，該都柏林核心集標示介面113如圖3所示，透過該都柏林核心集標示介面113標示後的對應結果整理如表2所示。

值得一提的是，當在同一領域的第一個網站經由步驟S308標示後，其他同一領域的網站可以根據累積的對應資訊做自動判斷；判斷方式是：以字為單位做序列比對或相同字分數(identity score)計算。另以圖書館領域為例，假設已將詮釋資料屬性為「書/刊名」，對應到都柏林核心集欄位為「Title」，對於其他同屬圖書館領域的網站，則將其等之詮釋資料屬性與之前已建立好的對應結果，以字為單位做序列比對或相同字分數(identity score)計算，以「自動地」對應至該組都柏林核心集欄位中。同一領域累計的資料愈多，其對應的結果也愈齊備，而且在此過程中，還可依實際情況進行人工修正，以逐步改善對應的準確率。

在步驟S309~S310中，該領域詮釋資料擷取單元14之該詮釋資料擷取模組141先根據對應至該等都柏林核心集欄位的第一、二詮釋資料屬性，自動地由該等領域相關網頁中擷取多筆領域相關的詮釋資料(例如，擷取出所有對應的屬性-值對)；然後，將該等詮釋資料輸出至一載體，例如，儲存至該資料庫13以供後續建構領域知識所用，或者藉由該使用者介面單元11之該領域詮釋資料擷取結果顯示介面114呈現給使用者。

綜上所述，本發明藉由將該等第一、二詮釋資料屬性對應到該組都柏林核心集欄位後，對該等領域相關網頁之內容進行搜尋，不但可以透過各網站本身的搜尋服務以取得隱藏網路或深層網路的有用資訊，亦可提高搜尋之效率以及結果的準確度，而搜尋出來的該等詮釋資料更可用於建構專業的領域知識，故確實能達成本發明之目的。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

1．．．領域詮釋資料擷取系統

11．．．使用者介面單元

111．．．關鍵字輸入介面

112．．．收集結果選取介面

113．．．都柏林核心集標示介面

114．．．領域詮釋資料擷取結果顯示介面

12．．．領域資料收集單元

121．．．網頁取得模組

122．．．歸納與排序模組

13．．．資料庫

14．．．領域詮釋資料擷取單元

141．．．語法分析模組

142．．．關鍵片語統計模組

143．．．詮釋資料擷取模組

2．．．網站

S301~S310．．．步驟

圖1是一方塊圖，說明本發明領域詮釋資料擷取系統之一較佳實施例；

圖2是一流程圖，說明本發明領域詮釋資料擷取方法；及

圖3是一示意圖，說明一使用者介面單元之一都柏林核心集標示介面。

S301~S310．．．步驟

Claims

一種領域詮釋資料擷取方法，適於藉由一系統執行，該方法包含下列步驟：A)接收與一領域相關的複數個領域相關網頁；B)分析該等領域相關網頁之網頁語法，以得到複數個第一詮釋資料屬性；C)基於一統計式語言模型，自該等領域相關網頁得到複數個關鍵片語，並以該等關鍵片語作為複數個第二詮釋資料屬性；D)根據該等第一、二詮釋資料屬性對應至一組都柏林核心集欄位的結果，由該等領域相關網頁擷取出複數筆領域相關的詮釋資料；以及E)將該等領域相關的詮釋資料輸出至一載體。
依據申請專利範圍第1項所述之領域詮釋資料擷取方法，其中，在步驟B)中，係分析該等領域相關網頁對應的複數屬性-值對，來取得該等第一詮釋資料屬性。
依據申請專利範圍第1項所述之領域詮釋資料擷取方法，其中，在步驟C)中，係基於n-gram語言模型進行統計，以得到該等關鍵片語。
依據申請專利範圍第1項所述之領域詮釋資料擷取方法，還包含步驟A)之前的下列步驟：F)根據與該領域相關的至少一關鍵字於複數個網站中進行搜尋，以取得與該關鍵字相關的複數個網頁；G)將每一網頁歸納成一網站階層之概念物件、一目錄階層之概念物件，及一網頁階層之概念物件其中一者；H)將該等網站階層、目錄階層，及網頁階層之概念物件進行排序；以及I)根據步驟H)之排序結果得到該等領域相關網頁。
依據申請專利範圍第4項所述之領域詮釋資料擷取方法，其中，在步驟H)中，對於該等網站階層、目錄階層，及網頁階層之概念物件其中任一者，係根據其對應之一群集大小、一詞彙頻率-反文件頻率相似度，及一權威與發散值進行排序。
依據申請專利範圍第5項所述之領域詮釋資料擷取方法，其中，在步驟H)中，對於該等網站階層、目錄階層，及網頁階層之概念物件其中任一者，係將其對應之該群集大小、該詞彙頻率-反文件頻率相似度，及該權威與發散值分別乘上各別的權重，然後總合成一排序積分，並以該排序積分進行排序。
一種領域詮釋資料擷取系統，包含：一記憶單元，儲存有與一領域相關的複數個領域相關網頁；以及一領域詮釋資料擷取單元，與該記憶單元連接，該領域詮釋資料擷取單元包括一語法分析模組、一關鍵片語統計模組，及一詮釋資料擷取模組，該語法分析模組用以分析該等領域相關網頁之網頁語法，以得到複數個第一詮釋資料屬性，該關鍵片語統計模組用以基於一統計式語言模型，自該等領域相關網頁得到複數個關鍵片語，並以該等關鍵片語作為複數個第二詮釋資料屬性，該詮釋資料擷取模組用以根據該等第一、二詮釋資料屬性對應至一組都柏林核心集欄位的結果，由該等領域相關網頁擷取出複數筆領域相關的詮釋資料。
依據申請專利範圍第7項所述之領域詮釋資料擷取系統，其中，該語法分析模組係分析該等領域相關網頁對應的複數屬性-值對，來取得該等第一詮釋資料屬性。
依據申請專利範圍第7項所述之領域詮釋資料擷取系統，其中，該關鍵片語統計模組係基於n-gram語言模型進行統計，以得到該等關鍵片語。
依據申請專利範圍第7項所述之領域詮釋資料擷取系統，還包含與該記憶單元及該領域詮釋資料擷取單元連接的一使用者介面單元，該使用者介面單元包括一都柏林核心集標示介面，該都柏林核心集標示介面用以供使用者將該等第一、二詮釋資料屬性對應至該組都柏林核心集欄位。
依據申請專利範圍第10項所述之領域詮釋資料擷取系統，其中，該使用者介面單元還包括一領域詮釋資料擷取結果顯示介面，用以將該等領域相關的詮釋資料呈現給使用者。
依據申請專利範圍第10項所述之領域詮釋資料擷取系統，還包含與該記憶單元及該領域詮釋資料擷取單元連接的一領域資料收集單元，該領域資料收集單元包括一網頁取得模組，及一歸納與排序模組，該網頁取得模組用以根據與該領域相關的至少一關鍵字於複數個網站中進行搜尋，以取得與該關鍵字相關的複數個網頁，該歸納與排序模組用以將每一網頁歸納成一網站階層之概念物件、一目錄階層之概念物件，及一網頁階層之概念物件其中一者，並將該等網站階層、目錄階層，及網頁階層之概念物件進行排序，以形成對應該關鍵字之一領域資料收集結果。
依據申請專利範圍第12項所述之領域詮釋資料擷取系統，其中，對於該等網站階層、目錄階層，及網頁階層之概念物件其中任一者，該歸納與排序模組係根據其對應之一群集大小、一詞彙頻率-反文件頻率相似度，及一權威與發散值，進行該等網站階層、目錄階層，及網頁階層之概念物件的排序。
依據申請專利範圍第13項所述之領域詮釋資料擷取系統，其中，對於該等網站階層、目錄階層，及網頁階層之概念物件其中任一者，該歸納與排序模組係將其對應之該群集大小、該詞彙頻率-反文件頻率相似度，及該權威與發散值分別乘上各別的權重，然後總合成一排序積分，並以該等網站階層、目錄階層，及網頁階層之概念物件各別的排序積分進行其等之排序。
依據申請專利範圍第12項所述之領域詮釋資料擷取系統，其中，該使用者介面單元還包括一關鍵字輸入介面，用以供使用者輸入與該領域相關的該關鍵字。
依據申請專利範圍第12項所述之領域詮釋資料擷取系統，其中，該使用者介面單元還包括一收集結果選取介面，用以供使用者自該領域資料收集結果選擇出該等領域相關網頁，該使用者介面單元還將該等領域相關網頁儲存於該記憶單元。