TW201316185A

TW201316185A - 製作知識地圖的方法

Info

Publication number: TW201316185A
Application number: TW100136817A
Authority: TW
Inventors: Yang-Cheng Lu; Jen-Nan Chen; Yu-Chen Wei
Original assignee: Univ Ming Chuan
Priority date: 2011-10-11
Filing date: 2011-10-11
Publication date: 2013-04-16
Also published as: TWI456412B; CN103106232A

Abstract

本發明係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙，而該方法包含下列步驟：建立一詞彙關聯知識集{(t,si,wi)|i=1,…,n}，其中si代表與該詞彙配對的關聯詞彙，wi代表(t,si)的權重；提供一使用者介面，以供查詢該詞彙；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；將該等關聯詞彙共現配對依K-means演算法分成複數群組；輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現；以及調整該知識地圖的複數參數。

Description

製作知識地圖的方法

本發明係關於一種製作知識地圖的方法，尤指一種製作廣度與深度可供調整的知識地圖的方法。

知識地圖(Knowledge Map)是一個廣泛運用於知識經濟與知識管理的工具。知識地圖包括知識與地圖兩部分，其中知識是加值過的資料與資訊，地圖則是知識內容的視覺化與圖表化呈現模式。

關於知識地圖的先前技術，中華民國專利公開號200523782揭露了一種知識地圖，該知識地圖的概念是利用線條和圖形來表現計畫元素間的關係，而表現方式也則以環狀圖呈現。然而對於文章撰寫工作者如記者來說，有興趣的是不同詞彙間連結的關係，藉由了解不同詞彙間連結的關係有利於新聞文章的撰寫，因此該知識地圖並無法一個以特定字串的關聯詞資料庫中進行查詢，亦無法提供一個以特定字串相關的關聯詞網。另外，中華民國專利公告號520484是使用一個圖形介面樹元件顯示物件間的邏輯關聯性，該樹狀圖僅呈現上下關係，並無法呈現深度與廣度，使用者亦無法自行調整深度或廣度的參數值，以呈現客製化之知識地圖。

職是之故，發明人鑑於習知技術之缺失，乃經悉心試驗與研究，並一本鍥而不捨之精神，發明出本案「製作知識地圖的方法」，以下為本案之簡要說明。

本發明係提供一種知識地圖的製作方法，其特徵在於使用者輸入字串時，再透過一個以特定字串的關聯詞資料庫來進行查詢，以提供一個以特定字串相關的關聯詞網。關聯詞網的產生在網絡之深度與廣度係由系統就關聯詞的重要性依比率原則自動篩選。

本發明之一面向係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙，而該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；提供一使用者介面，以供查詢該詞彙；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；將該等關聯詞彙共現配對依K-means演算法分成複數群組；輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現；以及調整該知識地圖的複數參數。

詞彙共現配對之意涵指任一分句中任兩中文詞的組合，假設分句有n個中文詞{w_i∣i=1,...,n}，則任兩中文詞的詞彙共現配對以{(w_i,w_j)∣i＜j且i,j=1,...,n}表示。例如「發生跳票擠兌」分句，有三個中文詞分別為「發生」、「跳票」、「擠兌」，則該分句之詞彙共現配對包括(發生，跳票)、(發生，擠兌)、(跳票，擠兌)。

本發明之另一面向係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙，而該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)∣i=1,…,n}，其中s_i代表與該詞彙的關聯詞彙，w_i代表該等詞彙共現配對(t,s_i)的權重；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。

本發明之又一面向係提供一種調整一知識地圖的方法。該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，而該方法包含下列步驟：由一詞彙關聯知識集{(t,s_i,w_i)|i=1,…,n}輸出該知識地圖，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；以及在滿足w_i a的條件下，由一使用者調整該廣度a。

本發明之再一面向係提供一知識地圖，該知識地圖具有一可調整之一深度b，該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。

本發明之再一面向係提供一知識地圖，其係由一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}所衍生，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重，其中該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，且在滿足w_i a的條件下，該廣度a係可調整的。

為了易於說明，本發明得藉由下述之實施例及圖示而得到充分瞭解，並使得熟習本技藝之人士可以據以完成之，然本發明之實施型態並不限制於下列實施例中。

請參閱第一圖，其係為本發明之知識地圖的製作方法之流程圖。製作知識地圖，首先輸入文件集(步驟1)，其資料來自於任一大型語料(corpus)，所謂語料是指為特定目的所蒐集之文件資料。由於語詞是中文語意的單位，因此所蒐集之文件需進行前處理(步驟2)，以將文件分解成有意義之語詞。前處理的工作分兩部分，分別為分句切割(步驟21)及斷詞(步驟22)，其操作如表一至表三所示。分句切割(步驟21)是將文章內容的每一個句子進行拆解，拆解的方法是以標點符號，如「，」、「。」、「；」、「！」、「？」等作為拆解之標記符號。斷詞(步驟22)是將每一分句再進行語詞的分割。

以上為前處理之操作實例：

接著依據前處理的結果，就每一分句的語詞建立詞彙關聯知識集(步驟3)。詞彙關聯知識集(步驟3)之建立分成二部分，包括蒐集詞彙共現配對(步驟31)以及計算詞彙共現配對權重(步驟32)。依據前處理之之示範資料，表四為詞彙共現配對之清單，在計算詞彙共現配對權重方面，採用熵(entropy)。以熵模型產生權重，熵值權重法是引用熵值觀念來求取各詞彙共現配對間的相對權重。首先經由每一個詞彙共現配對對各文件之頻次值求算出的熵值，來說明該詞彙共現配對對整個語料集所能傳遞(Transmit)之詞彙共現配對資訊的程度。在說明熵值計算步驟前，先定義文件詞彙共現配對矩陣X_ij，如表五所示，其中Di為語料集之第i篇文件，A_j為第j組詞彙共現配對，假設D1之文件名稱為甲、D2之文件名稱為乙、D3之文件名稱為丙、D4之文件名稱為丁。矩陣內之數字表詞彙共現配對在各文件出現次數，如第一組詞彙共現配對(A₁)在文件名稱為甲之出現次數共有75次。

熵值權重計算步驟如下：

步驟一：計算詞彙共現配對矩陣表中X_ij的接近程度d_ij。(本步驟即對第i篇文件第j組詞彙共現配對進行正規化)。

步驟二：將d_ij轉化成發生機率P_ij。

步驟三：由P_ij計算各準則之熵值e_j。

，其中

k=1/ln(m)

i=1,2,3,...,m(文件)

j=1,2,3,...,n(詞彙共現)

以表五之詞彙共現配對矩陣X_ij為例,步驟一請見表六：

步驟二請見表七：

表七(a)：計算P_ij

步驟三請見表八：

表八(b)：計算e_j

最後各詞彙共現配對之權重分別為A₁(0.9947)，A₂(0.9829)，A₃(0.9995)，A₄(0.9421)，A₅(0.9830)，A₆(0.9319)。

經由上述之計算，可建立資料庫中所有詞彙知識集之量化指標，並提供使用者查詢某一詞彙之關聯詞(步驟4)，在查詢時使用者可輸入完整之詞彙(步驟41)或輸入部分詞彙(步驟42)，再搭配萬用字元即可篩選具關聯之詞彙(步驟5)。篩選的準則是詞彙共現知識集中若含有欲查詢之詞彙，則將該詞彙共現抽出並依權重由大至小順序排序。接著採用K-means分割式叢集技術(K-means演算法)將所篩選之詞彙共現進行分群，使每群權重值相近。K-means分割式叢集技術之原理簡述如下：

1.隨機選K個詞彙共現，每一個詞彙共現均當成K組之初始質心(initial center)。

2.將其他詞彙共現分配至某個群組，此群組質心與其距離最近。

3.重新計算質心。

4.重複步驟2，直到不再重新分配詞彙共現或利用條件函數收斂為止。

以{2,4,10,12,3,20,30,11,25},k=2為例，隨機篩選2個質心m₁=3,m₂=4

經過4階段處理後，原始集合{2,4,10,12,3,20,30,11,25}可分成兩個群集K₁={2,3,4,10,11,12},K₂={20,30,25}，中間過程如下：

K₁={2,3},K₂={4,10,12,20,30,11,25},m₁=2.5,m₂=16

K₁={2,3,4},K₂={10,12,20,30,11,25},m₁=3,m₂=18

K₁={2,3,4,10},K₂={12,20,30,11,25},m₁=4.75,m₂=19.6

K₁={2,3,4,10,11,12},K₂={20,30,25},m₁=7,m₂=25

對一個詞彙t，其所有潛在詞彙共現配對假設有n個，以{(t,s_i,w_i)|i=1,...,n}表示，其中詞彙s_i為詞彙t之共現配對，w_i為(t,s_i)共現配對之權重，因權重值介於0與1之間，權重值愈大者表示配對間的詞彙相關性愈高。在呈現詞彙t之知識地圖時，其呈現方式為一種圖形結構，為避免圖形之呈現內容過於龐雜與閱讀困難，本案提出二個參數，分別為「廣度」(簡稱a)與「深度」(簡稱b)，來規範圖形之呈現內容，其中a,b介於0與1之間。「廣度」是指詞彙t分支度，其分支度數目需滿足w_i a。「深度」是指詞彙與共現詞彙S_i延伸之層級數，如(t,s_i),(s_i,u_k),(u_k,v_j)表示詞彙t之深度為3。

欲查詢某個詞彙x之知識地圖，須先輸入詞彙x，然後再以詞彙x為中心，分別就「廣度」與「深度」展開。第二圖(a)有斜線標示之方塊，表示欲查詢之詞彙(如「成長」)，網狀之方塊為「成長」之廣度，以第二圖(a)為例「成長」之廣度展開後共有13個關聯詞，此為第一層深度。然後再依據此13個關聯詞分別逐一展開，此為第二層深度，如此遞迴延伸，可建置不同「廣度」與「深度」之知識網。

在輸出以查詢詞彙為中心之知識地圖時，各關聯詞彙之呈現依據每一分群之屬性給予不同顏色(步驟6)。第二圖(a)是以「成長」為例之知識地圖，而第二圖(b)是當使用者點選第二圖中之「升值」時，顯示出與「升值」的關聯詞彙。為使知識地圖可彈性呈現詞彙關聯內容之寬廣度，互動式之人機對話框的建置是有其必要性的，此人機對話框包含地圖深廣度參數可供調整(步驟7)。此一對話框在廣度之內定值為0(亦即k=0)，深度的內定值為1，使用者可自行調整上述參數值，以呈現客製化之知識地圖(步驟8)。

實施例：

1.　一種製作一知識地圖的方法，該知識地圖包含一詞彙(t)以及複數關聯詞彙，該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}，其中s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；提供一使用者介面，以供查詢該詞彙；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；將該等關聯詞彙共現配對依K-means演算法分成複數群組；輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現；以及調整該知識地圖的複數參數。

2.　根據實施例1所述的方法，其中w_i的值介於0至1，該等參數包含該知識地圖的一廣度a與一深度b，該廣度a與該深度b的值介於0至1。

3.　根據實施例1-2所述的方法，其中該廣度a代表該詞彙的一分支度數目，該分支度數目滿足w_i a，該深度b代表該詞彙t與s_i延伸之層級數。

4.　一種製作一知識地圖的方法，該知識地圖包含一詞彙(t)以及複數關聯詞彙，該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}，其中s_i代表與該詞彙的關聯詞彙，w_i代表該等詞彙共現配對(t,s_i)的權重；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。

5.　根據實施例4所述的方法，更包含下列步驟：提供一使用者介面，以供查詢該詞彙；調整該知識地圖的複數參數，其中該等參數包含一廣度a與一深度b，該廣度a與該深度b的值介於0至1；以及輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現。

6.　根據實施例4-5所述的方法，其中w_i的值介於0至1，該等參數包含該知識地圖的一廣度a與一深度b，該廣度a與該深度b的值介於0至1。

7.　一種調整一知識地圖的方法，該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，該方法包含下列步驟：由一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}輸出該知識地圖，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；以及在滿足w_i a的條件下，由一使用者調整該廣度a。

8.　根據實施例7所述的方法，該知識地圖具有一深度b，更包含下列步驟：其中該深度b代表該詞彙t與s_i延伸之層級數。

9.　一知識地圖，該知識地圖具有一可調整之一深度b，該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。

10.一知識地圖，其係由一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}所衍生，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重，其中該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，且在滿足w_i a的條件下，該廣度a係可調整的。

1、2、21、22、3、31、32、4、41、42、5、6、7、8．．．步驟

第一圖：本發明知識地圖製作方法之流程圖。

第二圖(a)(b)：本發明知識地圖呈現方式。

1、2、21、22、3、31、32、4、41、42、5、6、7、8．．．步驟

Claims

一種製作一知識地圖的方法，該知識地圖包含一詞彙(t)以及複數關聯詞彙，該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}，其中s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；提供一使用者介面，以供查詢該詞彙；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；將該等關聯詞彙共現配對依K-means演算法分成複數群組；輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現；以及調整該知識地圖的複數參數。
如申請專利範圍第1項的方法，其中w_i的值介於0至1，該等參數包含該知識地圖的一廣度a與一深度b，該廣度a與該深度b的值介於0至1。
如申請專利範圍第2項的方法，其中該廣度a代表該詞彙的一分支度數目，該分支度數目滿足w_i a，該深度b代表該詞彙t與s_i延伸之層級數。
一種製作一知識地圖的方法，該知識地圖包含一詞彙(t)以及複數關聯詞彙，該方法包含下列步驟：建立一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}，其中s_i代表與該詞彙的關聯詞彙，w_i代表該等詞彙共現配對(t,s_i)的權重；從該詞彙關聯知識集篩選出複數關聯詞彙共現配對；以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。
如申請專利範圍第4項的方法，更包含下列步驟：提供一使用者介面，以供查詢該詞彙；調整該知識地圖的複數參數，其中該等參數包含一廣度a與一深度b，該廣度a與該深度b的值介於0至1；以及輸出該知識地圖，該知識地圖以該詞彙為中心，該等關聯詞彙以該等群組呈現。
如申請專利範圍第5項的方法，其中w_i的值介於0至1，該等參數包含該知識地圖的一廣度a與一深度b，該廣度a與該深度b的值介於0至1。
一種調整一知識地圖的方法，該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，該方法包含下列步驟：由一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}輸出該知識地圖，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重；以及在滿足w_i a的條件下，由一使用者調整該廣度a。
如申請專利範圍第7項的方法，該知識地圖具有一深度b，更包含下列步驟：其中該深度b代表該詞彙t與s_i延伸之層級數。
一知識地圖，該知識地圖具有一可調整之一深度b，該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。
一知識地圖，其係由一詞彙關聯知識集{(t,s_i,w_i)|i=1,...,n}所衍生，其中t代表該詞彙，s_i代表與該詞彙配對的關聯詞彙，w_i代表(t,s_i)的權重，其中該知識地圖具有一廣度a，該廣度a代表一詞彙的一分支度數目，且在滿足w_i a的條件下，該廣度a係可調整的。