TW201333728A - 資料擷取方法與系統 - Google Patents
資料擷取方法與系統 Download PDFInfo
- Publication number
- TW201333728A TW201333728A TW101103298A TW101103298A TW201333728A TW 201333728 A TW201333728 A TW 201333728A TW 101103298 A TW101103298 A TW 101103298A TW 101103298 A TW101103298 A TW 101103298A TW 201333728 A TW201333728 A TW 201333728A
- Authority
- TW
- Taiwan
- Prior art keywords
- target
- sample
- range
- distribution
- database
- Prior art date
Links
Abstract
一種資料擷取方法與系統,適用於電子裝置。在獲得初始化屬性字在樣本領域資料庫中的標準分布範圍之後,再針對目標領域資料庫來預估一估計分布範圍。據此,可藉由估計分布範圍自目標領域資料庫中獲得候選屬性字。
Description
本發明是有關於一種資料挖掘方法,包括有關於一種可推論出特定領域的潛在屬性字集合的資料擷取方法。
隨著電腦相關應用的日漸普及,不論對於個人、組織、或是企業而言,電子化的資料儲存媒體,取代傳統的實體儲存媒介(如紙張),成為最主要也最重要的儲存方式。也因此,資料的有效管理與使用,一直是使用者、資料內容管理者、以及開發者所關注的問題。
對於使用者來說,使用者使用巨量資訊查詢的介面就是基於資訊檢索(information retrieval)技術的網際網路搜尋引擎(search engine)。而提供使用者在網際網路中尋找問題解答的機制,則是線上知識庫的機制。此種方式將某物件事實或是實例的知識以半結構化(semi-structured)的方式直接呈現成為專業度高的文件,提供使用者閱讀,因此當使用者搜尋關於某物件事實或是實例的知識,使用者可以直接閱讀關於此類知識的相關資訊,包括屬性(attributes)與值(values)等等。在知識建構過程中,以目前的現況來看,知識庫內容的建立,絕大部分取決於領域專家或是貢獻者的主動知識貢獻與知識內容審核的機制。
然而,以現今資訊內容不斷推陳出新的速度而言,目前文件數量越來越大、所跨越的領域越來越多、或是新概念與更新屬性的出現速度越來越快的狀況之下,使用者的持續貢獻,不一定能確保知識庫中的資訊能夠以最具有即時性的方式存在,不論在事前知識的完整性或是及時性,或是處理使用者貢獻資訊的錯誤與過期等問題,已經慢慢難以跟上資訊膨脹的速度。
本發明一實施例中提供一種資料擷取方法及系統,可在缺乏完整事前知識的情況下,擷取出潛在於目標領域中的屬性字。
本發明一實施例中提出一種資料擷取方法,適用於電子裝置。在本方法中,獲得樣本領域資料庫與目標領域資料庫。其中,樣本領域資料庫包括具有多個樣本文字的多個樣本文件,而目標領域資料庫包括具有多個目標文字的多個目標文件。計算多個初始化屬性字在樣本領域資料庫中的標準分布範圍,其中這些初始化屬性字對應至上述樣本文件所屬之領域。並且,計算上述目標文字在目標領域資料庫的目標分布程度。然後,依據目標分布程度與標準分布範圍,獲得估計分布範圍。據此,便可自目標領域資料庫中取出統計量落在估計分布範圍的目標文字,以獲得目標領域資料庫的多個候選屬性字。
在本發明之一實施例中,在上述獲得樣本領域資料庫與目標領域資料庫的步驟包括:提供一全域資料庫,全域資料庫包括多個領域文件;依據第一關鍵字查詢全域資料庫,以自上述領域文件中取出符合第一關鍵字的樣本文件;並且,依據第二關鍵字查詢全域資料庫,以自上述領域文件中取出符合第二關鍵字的目標文件。
在本發明之一實施例中,上述資料擷取方法更包括依據各候選屬性字在全域資料庫中的全域普遍度指標以及在目標領域資料庫中的目標普遍度指標,計算每一候選屬性字的相關度權重。並且,依據相關度權重來排序這些候選屬性字。
在本發明之一實施例中,在上述計算上述初始化屬性字在樣本領域資料庫中的標準分布範圍的步驟中,計算上述樣本文字在樣本領域資料庫中各自的樣本統計量,以獲得樣本分布程度;計算上述初始化屬性字在樣本領域資料庫中的多個屬性統計量,以獲得屬性分布範圍;並且依據樣本分布程度與屬性分布範圍,獲得標準分布範圍。
在本發明之一實施例中,在上述計算標準分布範圍的步驟包括:計算上述樣本文字在樣本領域資料庫中的多個樣本出現頻率,以獲得第一樣本分布程度,並且計算上述初始化屬性字在樣本領域資料庫中的多個屬性出現頻率,以獲得屬性出現頻率範圍,藉以依據第一樣本分布程度與屬性出現頻率範圍,獲得標準出現頻率範圍。之後,計算上述目標文字在目標領域資料庫中的多個目標出現頻率,以獲得第一目標分布程度。再依據第一目標分布程度與標準出現頻率範圍,獲得估計出現頻率範圍。其中,上述標準分布範圍包括標準出現頻率範圍,目標分布程度包括第一目標分布程度,估計分布範圍包括估計出現頻率範圍。
在本發明之一實施例中,在上述計算標準分布範圍的步驟包括:計算上述樣本文字在樣本領域資料庫中的多個樣本普遍度指標,以獲得第二樣本分布程度;並且,計算上述初始化屬性字在樣本領域資料庫中的多個屬性普遍度指標,以獲得屬性普遍度範圍,藉以依據第二樣本分布程度與屬性普遍度範圍,獲得標準普遍度範圍。之後,計算上述目標文字在目標領域資料庫中的多個目標普遍度指標,以獲得第二目標分布程度。再依據第二目標分布程度與標準普遍度範圍,獲得估計普遍度範圍。其中,標準分布範圍包括標準普遍度範圍,目標分布程度包括第二目標分布程度,估計分布範圍包括估計普遍度範圍。
在本發明之一實施例中,當樣本文件包括第一樣本領域與第二樣本領域時,資料擷取方法更包括分別計算屬於第一樣本領域與第二樣本領域各自的初始化屬性字分別在第一樣本領域與第二樣本領域的標準分布範圍。並且,由第一樣本領域與第二樣本領域各自的標準分布範圍計算平均分布範圍,藉以依據目標分布程度與平均分布範圍,獲得估計分布範圍。
本發明一實施例中,資料擷取系統包括處理單元及儲存單元,其中儲存單元耦接至處理單元。儲存單元包括樣本領域資料庫與目標領域資料庫以及多個程式常式(program routine),而由處理單元來執行這些程式常式。樣本領域資料庫包括具有多個樣本文字的多個樣本文件,而目標領域資料庫包括具有多個目標文字的多個目標文件。上述程式常式包括樣本預測模型建立模組、目標估計模型建立模組以及屬性字擷取與排序模組。樣本預測模型建立模組用以計算多個初始化屬性字在樣本領域資料庫中的標準分布範圍,其中這些初始化屬性字對應至上述樣本文件所屬之領域。目標估計模型建立模組用以計算上述目標文字在目標領域資料庫的目標分布程度,並且依據目標分布程度與標準分布範圍,獲得估計分布範圍。屬性字擷取與排序模組用以自目標領域資料庫中取出統計量落在估計分布範圍的目標文字,以獲得目標領域資料庫的候選屬性字。
基於上述,本發明可發掘潛在的未知知識並以屬性值組對應的形式輸出,並充實、更新、或是修正現有知識庫的內容,讓知識庫的完整性與即時性獲得基本的保證。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
由人為在知識工程中所提供之事前知識,很難保證其完整性。為此,本發明提出一種資料擷取方法及系統,可從跨領域的全域資料庫中,在缺乏完整事前知識的情況下,建立一機制以擷取出潛在於目標領域的特化屬性(Attribute information specific to a concept),也就是與某概念、事實、或實例高度關聯的屬性資訊。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例之一種資料擷取系統架構的示意圖。請參照圖1,資料擷取系統100包括樣本預測模型建立模組110、目標估計模型建立模組120、屬性字擷取與排序模組130、查詢處理模組140、樣本領域資料庫C以及目標領域資料庫D。其中,樣本領域資料庫C與目標領域資料庫D是由全域資料庫U取樣所獲得。樣本領域資料庫C包括具有多個樣本文字的多個樣本文件,而目標領域資料庫D包括具有多個目標文字的多個目標文件。
資料擷取系統100還提供一個應用程式介接介面150,將屬性資訊的相關程度列表以預定的格式化內容傳遞給其他的外部屬性發掘工具170進行後續屬性發掘處理。這些屬性發掘工具可能包括了知識管理工具、知識發掘工具、或是網際網路搜尋引擎的查詢擴展(query expansion)功能等等。並且,資料擷取系統100更提供使用者查詢介面160,以供使用者查詢。
上述樣本預測模型建立模組110用以計算初始化屬性字集合101中的多個初始化屬性字在樣本領域資料庫C中的標準分布範圍111。即,以統計方法描述初始化屬性字在樣本領域資料庫中之樣本預測模型,並以量化範圍描述之而獲得標準分布範圍111。在此,樣本預測模型建立模組110的輸入是一組隨機抽取的樣本領域資料庫C以及在樣本領域資料庫C中預先定義之初始化屬性字集合101,輸出則是一組標準分布範圍111,其是經過標準化之後對樣本領域資料庫C的初始化屬性字分布的範圍描述。
而目標估計模型建立模組120用以計算各目標文字在目標領域資料庫D的目標分布程度,並且依據目標分布程度與標準分布範圍111,獲得估計分布範圍121。即,針對特定的目標領域資料庫D,而推估出一目標估計模型以預測目標領域資料庫D中具有特化屬性的候選屬性字。目標估計模型建立模組120的輸入為一組任意的目標領域資料庫D,而輸出為一估計分布範圍121,代表可能為目標領域資料庫D之特化屬性的候選屬性字分布的範圍描述。
屬性字擷取與排序模組130用以自目標領域資料庫D中取出統計量落在估計分布範圍121的目標文字,以獲得目標領域資料庫D中具有特化屬性的的候選屬性字。並且,屬性字擷取與排序模組130篩選出符合估計分布範圍121的候選屬性字,排序這些候選屬性字。屬性字擷取與排序模組130的輸入為目標領域資料庫D以及根據樣本領域資料庫C所預估的估計分布範圍121,而輸出則為依據相關度權重進行排序的多個候選屬性字,藉以透過查詢處理模組140供使用者查詢介面160來進行查詢之用,或是供外部屬性發掘工具170進行後續屬性挖掘機制之用。
在本實施例中,可利用一個類似屬性資訊檢索引擎的方式來設計資料擷取系統100。使用者可透過使用者查詢介面160來對於某概念、物件、事實、或是實例進行查詢,而查詢處理模組140可以回傳目標領域中的可能為特化屬性之候選屬性字的相關程度列表讓使用者進行參考。另外,此資料擷取系統100也可以是其他屬性發掘(attribute extraction)工具的預先處理引擎。
底下即搭配上述資料擷取系統來詳細說明資料擷取方法的各步驟。圖2是依照本發明一實施例之一種資料擷取方法的流程圖。請同時參照圖1及圖2,在步驟S205中,獲得樣本領域資料庫C與目標領域資料庫D。
舉例來說,可依據所接收的關鍵字來查詢包括多個領域文件的全域資料庫U,以獲得具有此關鍵字的文件。例如,依據第一關鍵字查詢全域資料庫U,以自這些領域文件中取出符合第一關鍵字的文件來作為樣本文件。並且,依據第二關鍵字查詢全域資料庫U,以自這些領域文件中取出符合第二關鍵字的文件來作為目標文件。此全域資料庫U例如為存在於網際網路中的所有文件資料。而利用搜尋引擎來接收關鍵字,以搜尋符合關鍵字的文件。並且,還可進一步設定只取前幾筆(例如前50筆)文件作為樣本文件或目標文件。
從全域資料庫U中,任抽取k個樣本領域的文件,成為一組樣本領域資料庫C={c1,c2,...,ck},其中c1~ck代表分屬於不同樣本領域的樣本文件。並且,對每一個樣本領域定義一組已知的初始化屬性字attr(ch)={wh1,wh2,...,whk},作為初始化屬性字集合101。另外,從全域資料庫U中取出一組數量為p的目標領域資料庫D={d1,d2,...,dp}。
接著,在步驟S210中,計算多個初始化屬性字在樣本領域資料庫C中的標準分布範圍111。在此,這些初始化屬性字是對應至樣本文件所屬之樣本領域。也就是說,利用樣本預測模型建立模組110依據樣本領域資料庫C來建立一個樣本預測模型。在此,可定義或引用與樣本領域資料庫C相關的一組初始化屬性字集合101,而初始化屬性字集合101包括多個初始化屬性字。假設樣本領域資料庫C是由關鍵字“Linux”所獲得之,則可由使用者自行定義出一組初始化屬性字,或者直接引用已建立好的初始化屬性字,如“version”、“kernel”、“creator”、“author”、“license”、“language”及“platform”這7個初始化屬性字。在定義好這些初始化屬性字之後,便可計算這些初始化屬性字在樣本領域資料庫C中的標準分布範圍111。
具體而言,先計算各樣本文字在樣本領域資料庫C中的統計量(樣本統計量),並依此統計量之觀察值計算而獲得一樣本分布程度。例如,可利用標準差(standard deviation)來作為統計分布程度(statistical dispersion)上的測量。也就是計算出這些樣本統計量的標準差以作為樣本分布程度。之後,計算各初始化屬性字在樣本領域資料庫U中的統計量(屬性統計量),以在這些屬性統計量中取出最大值與最小值來作為屬性分布範圍。之後,依據樣本分布程度與屬性分布範圍,獲得標準分布範圍111。例如,將屬性分布範圍的最大值與最小值分別除以樣本分布程度而獲得標準分布範圍111。
上述統計量例如為出現頻率或普遍度指標。出現頻率例如為詞頻(term frequency,TF),普遍度指標例如為逆向文件頻率(inverse document frequency,IDF)。在一份給定的文件裡,詞頻指的是某一個給定的詞語在此文件中出現的頻率。而逆向文件頻率則是一個詞語普遍重要性的度量。為求精準度,在本實施例中,可以出現頻率與普遍度指標同時作為統計量以建立目標估計模型,即,會獲得2個估計分布範圍121(估計出現頻率範圍以及估計普遍度範圍)。然,在其他實施例中,亦可單獨使用出現頻率或普遍度指標其中一個統計量來建立目標估計模型,在此並不限制同時使用出現頻率以及普遍度指標。
在獲得初始化屬性字在樣本領域資料庫C中的標準分布範圍111之後,便可進一步利用目標估計模型建立模組120依據目標領域資料庫D與上述標準分布範圍111來建立目標估計模型,以獲得一估計分布範圍121。
在步驟S215中,計算目標文字在目標領域資料庫D的目標分布程度。在此,目標分布標準程度是由各目標文字在目標領域資料庫D中的統計量(目標統計量),並依此統計量之觀察值計算而獲得目標分布程度。然後,在步驟S220中,依據目標分布程度與標準分布範圍111,獲得估計分布範圍121。例如,將標準分布範圍111的最大值與最小值分別乘上目標分布程度而獲得估計分布範圍121。然,在此僅為舉例說明,並不以此為限。
假設以出現頻率以及普遍度指標作為統計量,則依據上述兩個統計量的計算會獲得2個標準分布範圍111(標準出現頻率範圍以及標準普遍度範圍)、2個目標分布程度(第一目標分布程度以及第二目標分布程度)以及2個估計分布範圍121(估計出現頻率範圍以及估計普遍度範圍)。底下即分別就出現頻率以及普遍度指標來說明如何獲得估計出現頻率範圍以及估計普遍度範圍。
以出現頻率而言,計算各樣本文字在樣本領域資料庫C中的樣本出現頻率TF(C),以獲得第一樣本分布程度σ TF ( C )。並且,計算各初始化屬性字attr在樣本領域資料庫C中的屬性出現頻率TF(attr),以獲得屬性出現頻率範圍。例如,以取出最大值TFmax(attr)與最小值TFmin(attr)來作為屬性出現頻率範圍。之後,依據上述第一樣本分布程度σ TF ( C )與屬性出現頻率範圍TFmin(attr)~TFmax(attr),便可獲得標準出現頻率範圍。例如,最簡單的作法即是將屬性出現頻率範圍的最大值TFmax(attr)與最小值TFmin(attr)除以第一樣本分布程度σ TF ( C )而獲得標準出現頻率範圍。然後,計算目標文字在目標領域資料庫D中的目標出現頻率TF(d),以獲得第一目標分布程度σ TF ( d )。再依據第一目標分布程度σ TF ( d )與標準出現頻率範圍,獲得估計出現頻率範圍,即
以普遍度指標而言,計算樣本文字在樣本領域資料庫C中的樣本普遍度指標IDF(C),以獲得第二樣本分布程度σ IDF ( C )。並且,計算初始化屬性字attr在樣本領域資料庫C中的屬性普遍度指標IDF(attr),以獲得屬性普遍度範圍IDFmin(attr)~IDFmax(attr)。接著,依據第二樣本分布程度σ IDF ( C )與屬性普遍度範圍,獲得標準普遍度範圍。例如,將屬性普遍度範圍除以第二樣本分布程度σ IDF ( C )而獲得標準普遍度範圍。然後,計算目標文字在目標領域資料庫D中的目標普遍度指標IDF(d),以獲得第二目標分布程度σ IDF ( d )。再依據第二目標分布程度σ IDF ( d )與標準普遍度範圍,獲得估計普遍度範圍,即
另外,倘若樣本領域資料庫C中包括第一樣本領域與第二樣本領域的樣本文件,則分別計算屬於第一樣本領域與第二樣本領域各自的初始化屬性字分別在第一樣本領域與第二樣本領域的標準分布範圍。之後,由第一樣本領域與第二樣本領域各自的標準分布範圍計算一平均分布範圍。然後,依據目標分布程度與平均分布範圍,獲得估計分布範圍。
在求得估計分布範圍121之後,在步驟S225中,自目標領域資料庫D中取出統計量落在估計分布範圍121的目標文字,以獲得目標領域資料庫D的候選屬性字。也就是說,利用屬性字擷取與排序模組130自目標領域資料庫D中篩選出符合估計分布範圍121的候選屬性字。另外,還可透過屬性字擷取與排序模組130進一步對這些候選屬性字進行排序。例如,依據各候選屬性字在全域資料庫U中的全域普遍度指標以及在目標領域資料庫D中的目標普遍度指標,計算各候選屬性字的相關度權重。然後,再依據相關度權重來排序這些候選屬性字。相關度權重例如為:
W(tn)=IDF(tn|‧)-IDF(tn|dj);
其中,W(tn)為候選屬性字tn的相關度權重,IDF(tn|‧)為候選屬性字tn在全域資料庫中的全域普遍度指標,IDF(tn|dj)為候選屬性字tn在目標領域資料庫{dj}中的目標普遍度指標。相關度權重越高,代表此候選屬性字與目標領域的相關度越高。
以下以TF與IDF兩個統計量為例,再舉一實施例說明。
從全域資料庫U中任取兩個領域的樣本文件來作為樣本領域資料庫C,以在求出樣本預測模型之後用來預測另一領域的候選屬性字(特化屬性資訊)。在此,假設以“Linux”以及“Android”兩個關鍵字來搜尋全域資料庫U,而獲得第一樣本領域“Linux”以及第二樣本領域“Android”的樣本文件。並且,假設以“Dog”作為關鍵字來搜尋全域資料庫U,而獲得目標領域“Dog”的目標文件。在此,可利在搜尋引擎以上述關鍵字來搜尋各領域文件,並且取出前50筆網頁做為樣本領域資料庫以及目標領域資料庫的來源。
接著,定義樣本領域資料庫C的初始化屬性資訊。第一樣本領域“Linux”的初始化屬性字包括“version”、“kernel”、“creator”、“author”、“license”、“language”及“platform”。第二樣本領域“Android”的初始化屬性字包括“version”、“kernel”、“company”、“license”、“platform”、“website”及“package”。
圖3A~圖3D是依照本發明一實施例之各種統計量表格的示意圖。圖3A所示為由樣本領域資料庫C所獲得之統計量,圖3B為樣本預測模型的量化描述,圖3C為由目標領域資料庫D所獲得的統計量,圖3D為目標預測模型的量化描述。
在圖3A中,以第一樣本領域而言,計算第一樣本領域的樣本TF標準差(第一樣本分布程度)以及樣本IDF標準差(第二樣本分布程度)。也就是說,計算第一樣本領域中各個樣本文字的TF與IDF,而再由這些TF與IDF計算出樣本TF標準差與樣本IDF標準差。並且,計算第一樣本領域“Linux”的初始化屬性字“version”、“kernel”、“creator”、“author”、“license”、“language”及“platform”各自的屬性TF與屬性IDF,藉以求出屬性TF最小值、屬性TF最大值、屬性IDF最小值以及屬性IDF最大值。在此,可先將不合理的離群值(outlier)去除之後,再找出適當的範圍。
接著,將屬性TF最小值與屬性TF最大值分別除以樣本TF標準差,藉以獲得標準出現頻率範圍,並且屬性IDF最小值以及屬性IDF最大值分別除以樣本IDF標準差,藉以獲得標準普遍度範圍。具體而言,第一樣本領域的標準化TF最小值0.7243740871為屬性TF最小值0.0016536除以樣本TF標準差0.0022827984所獲得;第一樣本領域的標準化TF最大值1.3163041962則為屬性TF最大值0.0030048571除以樣本TF標準差0.0022827984所獲得。另外,第一樣本領域的標準化IDF最小值0.9320706879為屬性IDF最小值0.7339691749除以樣本IDF標準差0.7874608486所獲得,標準化IDF最大值2.4967753757則為屬性IDF最大值1.9661128563除以樣本IDF標準差0.7874608486所獲得。
而第二樣本領域的統計量求得方法與第一樣本領域相同,不再贅述。
在分別獲得第一樣本領域與第二樣本領域的標準出現頻率範圍與標準普遍度範圍之後,取第一樣本領域與第二樣本領域的標準出現頻率範圍的平均值,並且取第一樣本領域與第二樣本領域的標準普遍度範圍的平均值。例如,將第一樣本領域與第二樣本領域兩者的標準化TF最小值相加除以2,並且第一樣本領域與第二樣本領域兩者的標準化TF最大值相加除以2。另外,將第一樣本領域與第二樣本領域兩者的標準化IDF最小值相加除以2,並且第一樣本領域與第二樣本領域兩者的標準化IDF最大值相加除以2。據此,獲得如圖3B所示的樣本預測模型。
另外,在圖3C中,計算目標領域“Dog”的目標TF標準差(第一目標分布程度)以及目標IDF標準差(第二目標分布程度)。也就是說,計算目標領域中各個目標文字的TF與IDF,而再由這些TF與IDF計算出目標TF標準差與目標IDF標準差。
然後,由圖3B的樣本預測模型與圖3C的目標分布程度來獲得圖3D的目標估計模型。將標準出現頻率範圍乘上目標TF標準差而獲得估計出現頻率範圍,並且將標準普遍度範圍乘上目標IDF標準差而獲得估計普遍度範圍。
上述方法是從全域涵括的全域資料庫中,任抽取數個領域的文件作為樣本領域資料庫,並且每一樣本領域資料庫定義一組已知的初始化屬性字,作為初始化的特化屬性集合。之後,計算樣本領域資料庫中,各統計量(如,出現頻率或普通度指標)的的離散程度統計量(如變異數或是標準差),以求出初始化屬性字在樣本領域資料庫之合理的標準分布範圍。據此,依據標準分布範圍來推估出任意一目標領域資料庫中,特化屬性資訊可能出現之估計分布範圍。之後,便可藉由估計分布範圍來判斷目標領域資料庫D中的各目標文字的TF與IDF是否分別落在估計出現頻率範圍與估計普遍度範圍。若是,便將此目標文字作為候選屬性字。之後,再進一步計算這些候選屬性字的相關度權重,藉以來排序這些候選屬性字。
另外,上述資料擷取方法可應用於具有處理單元的電子裝置中,例如以程式語言撰寫一電腦軟體,並將此電腦軟體安裝於電子裝置的儲存單元中,而儲存單元耦接至處理單元,藉以透過處理單元執行此電腦軟體來實現上述資料擷取方法的各步驟。例如,此電腦軟體包括多個程式常式(program routine)。以圖1的資料擷取系統架構,儲存單元中還包括樣本領域資料庫C與目標領域資料庫D。而程式常式則包括樣本預測模型建立模組110、目標估計模型建立模組120以及屬性字擷取與排序模組130。另外,這些程式常式還可包括查詢處理模組140、應用程式介接介面150以及使用者查詢介面160。在此,並不限定樣本領域資料庫C與目標領域資料庫D的語言,樣本領域資料庫C與目標領域資料庫D適用於各種語言。
綜上所述,上述資料擷取架構可分為兩部分,包括樣本預測模型的建立與維護,以及候選屬性字的擷取方法。在樣本預測模型的建立與維護中,利用樣本領域資料庫建立一樣本預測模型,以統計方法描述初始化屬性字在樣本領域資料庫中的標準分布範圍。再針對目標領域資料庫,利用目標領域資料庫之分布程度,求出一估計分布範圍。然後,在候選屬性字的擷取方法中,利用估計分布範圍來求出候選屬性字。據此,可在缺乏完整事前知識的情況下,擷取出潛在於未知知識中的屬性資訊,並以屬性值對應的形式輸出,進一步充實、更新、或是修正現有知識庫的內容,讓知識庫的完整性與即時性獲得基本的保證。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100...資料擷取系統
110...樣本預測模型建立模組
111...標準分布範圍
120...目標估計模型建立模組
121...估計分布範圍
130...屬性字擷取與排序模組
140...查詢處理模組
150...應用程式介接介面
160...使用者查詢介面
170...外部屬性發掘工具
C...樣本領域資料庫
D...目標領域資料庫
U...全域資料庫
S205~S225...本發明一種資料擷取方法各步驟
圖1是依照本發明一實施例之一種資料擷取系統架構的示意圖。
圖2是依照本發明一實施例之一種資料擷取方法的流程圖。
圖3A~圖3D是依照本發明一實施例之各種統計量表格的示意圖。
S205~S225...本發明一種資料擷取方法各步驟
Claims (11)
- 一種資料擷取方法,適用於一電子裝置,該方法包括:獲得一樣本領域資料庫與一目標領域資料庫,其中該樣本領域資料庫包括具有多個樣本文字的多個樣本文件,而該目標領域資料庫包括具有多個目標文字的多個目標文件;計算多個初始化屬性字在該樣本領域資料庫中的一標準分布範圍,其中該些初始化屬性字對應至該些樣本文件所屬之領域;計算該些目標文字在該目標領域資料庫的一目標分布程度;依據該目標分布程度與該標準分布範圍,獲得一估計分布範圍;以及自該目標領域資料庫中取出一統計量落在該估計分布範圍的目標文字,以獲得該目標領域資料庫的多個候選屬性字。
- 如申請專利範圍第1項所述之資料擷取方法,其中獲得該樣本領域資料庫與該目標領域資料庫的步驟包括:提供一全域資料庫,該全域資料庫包括多個領域文件;依據一第一關鍵字查詢該全域資料庫,以自該些領域文件中取出符合該第一關鍵字的該些樣本文件;以及依據一第二關鍵字查詢該全域資料庫,以自該些領域文件中取出符合該第二關鍵字的該些目標文件。
- 如申請專利範圍第1項所述之資料擷取方法,更包括:依據該些候選屬性字各自在一全域資料庫中的一全域普遍度指標以及在該目標領域資料庫中的一目標普遍度指標,計算每一候選屬性字的一相關度權重;以及依據該相關度權重來排序該些候選屬性字。
- 如申請專利範圍第1項所述之資料擷取方法,其中計算該些初始化屬性字在該樣本領域資料庫中的該標準分布範圍的步驟包括:計算該些樣本文字在該樣本領域資料庫中各自的樣本統計量,以獲得一樣本分布程度;計算該些初始化屬性字在該樣本領域資料庫中的多個屬性統計量,以獲得一屬性分布範圍;以及依據該樣本分布程度與該屬性分布範圍,獲得該標準分布範圍。
- 如申請專利範圍第1項所述之資料擷取方法,其中該標準分布範圍包括一標準出現頻率範圍,而計算該些初始化屬性字在該樣本領域資料庫中的該標準分布範圍的步驟包括:計算該些樣本文字在該樣本領域資料庫中的多個樣本出現頻率,以獲得一第一樣本分布程度;計算該些初始化屬性字在該樣本領域資料庫中的多個屬性出現頻率,以獲得一屬性出現頻率範圍;以及依據該第一樣本分布程度與該屬性出現頻率範圍,獲得該標準出現頻率範圍。
- 如申請專利範圍第5項所述之資料擷取方法,其中該目標分布程度包括一第一目標分布程度,該估計分布範圍包括一估計出現頻率範圍,其中,計算該些目標文字在該目標領域資料庫的該目標分布程度的步驟包括:計算該些目標文字在該目標領域資料庫中的多個目標出現頻率,以獲得一第一目標分布程度;依據該目標分布程度與該標準分布範圍,獲得該估計分布範圍的步驟包括:依據該第一目標分布程度與該標準出現頻率範圍,獲得該估計出現頻率範圍。
- 如申請專利範圍第1項所述之資料擷取方法,其中該標準分布範圍包括一標準普遍度範圍,而計算該些初始化屬性字在該樣本領域資料庫中的該標準分布範圍的步驟包括:計算該些樣本文字在該樣本領域資料庫中的多個樣本普遍度指標,以獲得一第二樣本分布程度;計算該些初始化屬性字在該樣本領域資料庫中的多個屬性普遍度指標,以獲得一屬性普遍度範圍;以及依據該第二樣本分布程度與該屬性普遍度範圍,獲得該標準普遍度範圍。
- 如申請專利範圍第7項所述之資料擷取方法,其中該目標分布程度包括一第二目標分布程度,該估計分布範圍包括一估計普遍度範圍,其中,計算該些目標文字在該目標領域資料庫的該目標分布程度的步驟包括:計算該些目標文字在該目標領域資料庫中的多個目標普遍度指標,以獲得一第二目標分布程度;依據該目標分布程度與該標準分布範圍,獲得該估計分布範圍的步驟包括:依據該第二目標分布程度與該標準普遍度範圍,獲得該估計普遍度範圍。
- 如申請專利範圍第1項所述之資料擷取方法,其中該統計量包括一出現頻率指標及一普遍度指標至少其中之一。
- 如申請專利範圍第1項所述之資料擷取方法,其中當該些樣本文件包括一第一樣本領域與一第二樣本領域時,更包括:分別計算屬於該第一樣本領域與該第二樣本領域各自的該些初始化屬性字分別在該第一樣本領域與該第二樣本領域的該標準分布範圍;由該第一樣本領域與該第二樣本領域各自的該標準分布範圍計算一平均分布範圍;以及依據該目標分布程度與該平均分布範圍,獲得該估計分布範圍。
- 一種資料擷取系統,包括一處理單元;一儲存單元,耦接至該處理單元,該儲存單元包括一樣本領域資料庫與一目標領域資料庫以及多個程式常式,其中該樣本領域資料庫包括具有多個樣本文字的多個樣本文件,而該目標領域資料庫包括具有多個目標文字的多個目標文件,而該些程式常式是由該處理單元來執行,該些程式常式包括:一樣本預測模型建立模組,計算多個初始化屬性字在該樣本領域資料庫中的一標準分布範圍,其中該些初始化屬性字對應至該些樣本文件所屬之領域;一目標估計模型建立模組,計算該些目標文字在該目標領域資料庫的一目標分布程度,並且依據該目標分布程度與該標準分布範圍,獲得一估計分布範圍;以及一屬性字擷取與排序模組,自該目標領域資料庫中取出一統計量落在該估計分布範圍的目標文字,以獲得該目標領域資料庫的多個候選屬性字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101103298A TW201333728A (zh) | 2012-02-01 | 2012-02-01 | 資料擷取方法與系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101103298A TW201333728A (zh) | 2012-02-01 | 2012-02-01 | 資料擷取方法與系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201333728A true TW201333728A (zh) | 2013-08-16 |
Family
ID=49479524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101103298A TW201333728A (zh) | 2012-02-01 | 2012-02-01 | 資料擷取方法與系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW201333728A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI507902B (zh) * | 2013-10-25 | 2015-11-11 | Rakuten Inc | A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium |
-
2012
- 2012-02-01 TW TW101103298A patent/TW201333728A/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI507902B (zh) * | 2013-10-25 | 2015-11-11 | Rakuten Inc | A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rusyn et al. | Model and architecture for virtual library information system | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
WO2021218322A1 (zh) | 段落搜索方法、装置、电子设备及存储介质 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111026671A (zh) | 测试用例集构建方法和基于测试用例集的测试方法 | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
US8606780B2 (en) | Image re-rank based on image annotations | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN112231494A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Haghani | What makes an informative and publication-worthy scientometric analysis of literature: a guide for authors, reviewers and editors | |
Joshi et al. | Auto-grouping emails for faster e-discovery | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
Chawla et al. | Performance evaluation of vsm and lsi models to determine bug reports similarity | |
CN117056392A (zh) | 一种基于动态超图技术的大数据检索服务系统及方法 | |
TW201333728A (zh) | 資料擷取方法與系統 | |
Ma et al. | API prober–a tool for analyzing web API features and clustering web APIs | |
Cohen et al. | Normalized google distance of multisets with applications | |
Lemmens et al. | Querying VGI by semantic enrichment | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 |