TW201316185A - 製作知識地圖的方法 - Google Patents
製作知識地圖的方法 Download PDFInfo
- Publication number
- TW201316185A TW201316185A TW100136817A TW100136817A TW201316185A TW 201316185 A TW201316185 A TW 201316185A TW 100136817 A TW100136817 A TW 100136817A TW 100136817 A TW100136817 A TW 100136817A TW 201316185 A TW201316185 A TW 201316185A
- Authority
- TW
- Taiwan
- Prior art keywords
- vocabulary
- knowledge map
- knowledge
- breadth
- depth
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
- Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本發明係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙,而該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,…,n},其中si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;提供一使用者介面,以供查詢該詞彙;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;將該等關聯詞彙共現配對依K-means演算法分成複數群組;輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現;以及調整該知識地圖的複數參數。
Description
本發明係關於一種製作知識地圖的方法,尤指一種製作廣度與深度可供調整的知識地圖的方法。
知識地圖(Knowledge Map)是一個廣泛運用於知識經濟與知識管理的工具。知識地圖包括知識與地圖兩部分,其中知識是加值過的資料與資訊,地圖則是知識內容的視覺化與圖表化呈現模式。
關於知識地圖的先前技術,中華民國專利公開號200523782揭露了一種知識地圖,該知識地圖的概念是利用線條和圖形來表現計畫元素間的關係,而表現方式也則以環狀圖呈現。然而對於文章撰寫工作者如記者來說,有興趣的是不同詞彙間連結的關係,藉由了解不同詞彙間連結的關係有利於新聞文章的撰寫,因此該知識地圖並無法一個以特定字串的關聯詞資料庫中進行查詢,亦無法提供一個以特定字串相關的關聯詞網。另外,中華民國專利公告號520484是使用一個圖形介面樹元件顯示物件間的邏輯關聯性,該樹狀圖僅呈現上下關係,並無法呈現深度與廣度,使用者亦無法自行調整深度或廣度的參數值,以呈現客製化之知識地圖。
職是之故,發明人鑑於習知技術之缺失,乃經悉心試驗與研究,並一本鍥而不捨之精神,發明出本案「製作知識地圖的方法」,以下為本案之簡要說明。
本發明係提供一種知識地圖的製作方法,其特徵在於使用者輸入字串時,再透過一個以特定字串的關聯詞資料庫來進行查詢,以提供一個以特定字串相關的關聯詞網。關聯詞網的產生在網絡之深度與廣度係由系統就關聯詞的重要性依比率原則自動篩選。
本發明之一面向係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙,而該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,…,n},其中si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;提供一使用者介面,以供查詢該詞彙;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;將該等關聯詞彙共現配對依K-means演算法分成複數群組;輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現;以及調整該知識地圖的複數參數。
詞彙共現配對之意涵指任一分句中任兩中文詞的組合,假設分句有n個中文詞{wi∣i=1,...,n},則任兩中文詞的詞彙共現配對以{(wi,wj)∣i<j且i,j=1,...,n}表示。例如「發生跳票擠兌」分句,有三個中文詞分別為「發生」、「跳票」、「擠兌」,則該分句之詞彙共現配對包括(發生,跳票)、(發生,擠兌)、(跳票,擠兌)。
本發明之另一面向係提供一種製作一知識地圖的方法。該知識地圖包含一詞彙(t)以及複數關聯詞彙,而該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)∣i=1,…,n},其中si代表與該詞彙的關聯詞彙,wi代表該等詞彙共現配對(t,si)的權重;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。
本發明之又一面向係提供一種調整一知識地圖的方法。該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,而該方法包含下列步驟:由一詞彙關聯知識集{(t,si,wi)|i=1,…,n}輸出該知識地圖,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;以及在滿足wi a的條件下,由一使用者調整該廣度a。
本發明之再一面向係提供一知識地圖,該知識地圖具有一可調整之一深度b,該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。
本發明之再一面向係提供一知識地圖,其係由一詞彙關聯知識集{(t,si,wi)|i=1,...,n}所衍生,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重,其中該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,且在滿足wi a的條件下,該廣度a係可調整的。
為了易於說明,本發明得藉由下述之實施例及圖示而得到充分瞭解,並使得熟習本技藝之人士可以據以完成之,然本發明之實施型態並不限制於下列實施例中。
請參閱第一圖,其係為本發明之知識地圖的製作方法之流程圖。製作知識地圖,首先輸入文件集(步驟1),其資料來自於任一大型語料(corpus),所謂語料是指為特定目的所蒐集之文件資料。由於語詞是中文語意的單位,因此所蒐集之文件需進行前處理(步驟2),以將文件分解成有意義之語詞。前處理的工作分兩部分,分別為分句切割(步驟21)及斷詞(步驟22),其操作如表一至表三所示。分句切割(步驟21)是將文章內容的每一個句子進行拆解,拆解的方法是以標點符號,如「,」、「。」、「;」、「!」、「?」等作為拆解之標記符號。斷詞(步驟22)是將每一分句再進行語詞的分割。
以上為前處理之操作實例:
接著依據前處理的結果,就每一分句的語詞建立詞彙關聯知識集(步驟3)。詞彙關聯知識集(步驟3)之建立分成二部分,包括蒐集詞彙共現配對(步驟31)以及計算詞彙共現配對權重(步驟32)。依據前處理之之示範資料,表四為詞彙共現配對之清單,在計算詞彙共現配對權重方面,採用熵(entropy)。以熵模型產生權重,熵值權重法是引用熵值觀念來求取各詞彙共現配對間的相對權重。首先經由每一個詞彙共現配對對各文件之頻次值求算出的熵值,來說明該詞彙共現配對對整個語料集所能傳遞(Transmit)之詞彙共現配對資訊的程度。在說明熵值計算步驟前,先定義文件詞彙共現配對矩陣Xij,如表五所示,其中Di為語料集之第i篇文件,Aj為第j組詞彙共現配對,假設D1之文件名稱為甲、D2之文件名稱為乙、D3之文件名稱為丙、D4之文件名稱為丁。矩陣內之數字表詞彙共現配對在各文件出現次數,如第一組詞彙共現配對(A1)在文件名稱為甲之出現次數共有75次。
熵值權重計算步驟如下:
步驟一:計算詞彙共現配對矩陣表中Xij的接近程度dij。(本步驟即對第i篇文件第j組詞彙共現配對進行正規化)。
步驟二:將dij轉化成發生機率Pij。
步驟三:由Pij計算各準則之熵值ej。
,其中
k=1/ln(m)
i=1,2,3,...,m(文件)
j=1,2,3,...,n(詞彙共現)
以表五之詞彙共現配對矩陣Xij為例,步驟一請見表六:
步驟二請見表七:
表七(a):計算Pij
步驟三請見表八:
表八(b):計算ej
最後各詞彙共現配對之權重分別為A1(0.9947),A2(0.9829),A3(0.9995),A4(0.9421),A5(0.9830),A6(0.9319)。
經由上述之計算,可建立資料庫中所有詞彙知識集之量化指標,並提供使用者查詢某一詞彙之關聯詞(步驟4),在查詢時使用者可輸入完整之詞彙(步驟41)或輸入部分詞彙(步驟42),再搭配萬用字元即可篩選具關聯之詞彙(步驟5)。篩選的準則是詞彙共現知識集中若含有欲查詢之詞彙,則將該詞彙共現抽出並依權重由大至小順序排序。接著採用K-means分割式叢集技術(K-means演算法)將所篩選之詞彙共現進行分群,使每群權重值相近。K-means分割式叢集技術之原理簡述如下:
1.隨機選K個詞彙共現,每一個詞彙共現均當成K組之初始質心(initial center)。
2.將其他詞彙共現分配至某個群組,此群組質心與其距離最近。
3.重新計算質心。
4.重複步驟2,直到不再重新分配詞彙共現或利用條件函數收斂為止。
以{2,4,10,12,3,20,30,11,25},k=2為例,隨機篩選2個質心m1=3,m2=4
經過4階段處理後,原始集合{2,4,10,12,3,20,30,11,25}可分成兩個群集K1={2,3,4,10,11,12},K2={20,30,25},中間過程如下:
K1={2,3},K2={4,10,12,20,30,11,25},m1=2.5,m2=16
K1={2,3,4},K2={10,12,20,30,11,25},m1=3,m2=18
K1={2,3,4,10},K2={12,20,30,11,25},m1=4.75,m2=19.6
K1={2,3,4,10,11,12},K2={20,30,25},m1=7,m2=25
對一個詞彙t,其所有潛在詞彙共現配對假設有n個,以{(t,si,wi)|i=1,...,n}表示,其中詞彙si為詞彙t之共現配對,wi為(t,si)共現配對之權重,因權重值介於0與1之間,權重值愈大者表示配對間的詞彙相關性愈高。在呈現詞彙t之知識地圖時,其呈現方式為一種圖形結構,為避免圖形之呈現內容過於龐雜與閱讀困難,本案提出二個參數,分別為「廣度」(簡稱a)與「深度」(簡稱b),來規範圖形之呈現內容,其中a,b介於0與1之間。「廣度」是指詞彙t分支度,其分支度數目需滿足wi a。「深度」是指詞彙與共現詞彙Si延伸之層級數,如(t,si),(si,uk),(uk,vj)表示詞彙t之深度為3。
欲查詢某個詞彙x之知識地圖,須先輸入詞彙x,然後再以詞彙x為中心,分別就「廣度」與「深度」展開。第二圖(a)有斜線標示之方塊,表示欲查詢之詞彙(如「成長」),網狀之方塊為「成長」之廣度,以第二圖(a)為例「成長」之廣度展開後共有13個關聯詞,此為第一層深度。然後再依據此13個關聯詞分別逐一展開,此為第二層深度,如此遞迴延伸,可建置不同「廣度」與「深度」之知識網。
在輸出以查詢詞彙為中心之知識地圖時,各關聯詞彙之呈現依據每一分群之屬性給予不同顏色(步驟6)。第二圖(a)是以「成長」為例之知識地圖,而第二圖(b)是當使用者點選第二圖中之「升值」時,顯示出與「升值」的關聯詞彙。為使知識地圖可彈性呈現詞彙關聯內容之寬廣度,互動式之人機對話框的建置是有其必要性的,此人機對話框包含地圖深廣度參數可供調整(步驟7)。此一對話框在廣度之內定值為0(亦即k=0),深度的內定值為1,使用者可自行調整上述參數值,以呈現客製化之知識地圖(步驟8)。
1. 一種製作一知識地圖的方法,該知識地圖包含一詞彙(t)以及複數關聯詞彙,該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,...,n},其中si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;提供一使用者介面,以供查詢該詞彙;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;將該等關聯詞彙共現配對依K-means演算法分成複數群組;輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現;以及調整該知識地圖的複數參數。
2. 根據實施例1所述的方法,其中wi的值介於0至1,該等參數包含該知識地圖的一廣度a與一深度b,該廣度a與該深度b的值介於0至1。
3. 根據實施例1-2所述的方法,其中該廣度a代表該詞彙的一分支度數目,該分支度數目滿足wi a,該深度b代表該詞彙t與si延伸之層級數。
4. 一種製作一知識地圖的方法,該知識地圖包含一詞彙(t)以及複數關聯詞彙,該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,...,n},其中si代表與該詞彙的關聯詞彙,wi代表該等詞彙共現配對(t,si)的權重;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。
5. 根據實施例4所述的方法,更包含下列步驟:提供一使用者介面,以供查詢該詞彙;調整該知識地圖的複數參數,其中該等參數包含一廣度a與一深度b,該廣度a與該深度b的值介於0至1;以及輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現。
6. 根據實施例4-5所述的方法,其中wi的值介於0至1,該等參數包含該知識地圖的一廣度a與一深度b,該廣度a與該深度b的值介於0至1。
7. 一種調整一知識地圖的方法,該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,該方法包含下列步驟:由一詞彙關聯知識集{(t,si,wi)|i=1,...,n}輸出該知識地圖,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;以及在滿足wi a的條件下,由一使用者調整該廣度a。
8. 根據實施例7所述的方法,該知識地圖具有一深度b,更包含下列步驟:其中該深度b代表該詞彙t與si延伸之層級數。
9. 一知識地圖,該知識地圖具有一可調整之一深度b,該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。
10.一知識地圖,其係由一詞彙關聯知識集{(t,si,wi)|i=1,...,n}所衍生,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重,其中該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,且在滿足wi a的條件下,該廣度a係可調整的。
1、2、21、22、3、31、32、4、41、42、5、6、7、8...步驟
第一圖:本發明知識地圖製作方法之流程圖。
第二圖(a)(b):本發明知識地圖呈現方式。
1、2、21、22、3、31、32、4、41、42、5、6、7、8...步驟
Claims (10)
- 一種製作一知識地圖的方法,該知識地圖包含一詞彙(t)以及複數關聯詞彙,該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,...,n},其中si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;提供一使用者介面,以供查詢該詞彙;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;將該等關聯詞彙共現配對依K-means演算法分成複數群組;輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現;以及調整該知識地圖的複數參數。
- 如申請專利範圍第1項的方法,其中wi的值介於0至1,該等參數包含該知識地圖的一廣度a與一深度b,該廣度a與該深度b的值介於0至1。
- 如申請專利範圍第2項的方法,其中該廣度a代表該詞彙的一分支度數目,該分支度數目滿足wi a,該深度b代表該詞彙t與si延伸之層級數。
- 一種製作一知識地圖的方法,該知識地圖包含一詞彙(t)以及複數關聯詞彙,該方法包含下列步驟:建立一詞彙關聯知識集{(t,si,wi)|i=1,...,n},其中si代表與該詞彙的關聯詞彙,wi代表該等詞彙共現配對(t,si)的權重;從該詞彙關聯知識集篩選出複數關聯詞彙共現配對;以及將該等關聯詞彙共現配對依K-means演算法分成複數群組。
- 如申請專利範圍第4項的方法,更包含下列步驟:提供一使用者介面,以供查詢該詞彙;調整該知識地圖的複數參數,其中該等參數包含一廣度a與一深度b,該廣度a與該深度b的值介於0至1;以及輸出該知識地圖,該知識地圖以該詞彙為中心,該等關聯詞彙以該等群組呈現。
- 如申請專利範圍第5項的方法,其中wi的值介於0至1,該等參數包含該知識地圖的一廣度a與一深度b,該廣度a與該深度b的值介於0至1。
- 一種調整一知識地圖的方法,該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,該方法包含下列步驟:由一詞彙關聯知識集{(t,si,wi)|i=1,...,n}輸出該知識地圖,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重;以及在滿足wi a的條件下,由一使用者調整該廣度a。
- 如申請專利範圍第7項的方法,該知識地圖具有一深度b,更包含下列步驟:其中該深度b代表該詞彙t與si延伸之層級數。
- 一知識地圖,該知識地圖具有一可調整之一深度b,該深度b代表一詞彙以及與該詞彙配對的關聯詞彙延伸之層級數。
- 一知識地圖,其係由一詞彙關聯知識集{(t,si,wi)|i=1,...,n}所衍生,其中t代表該詞彙,si代表與該詞彙配對的關聯詞彙,wi代表(t,si)的權重,其中該知識地圖具有一廣度a,該廣度a代表一詞彙的一分支度數目,且在滿足wi a的條件下,該廣度a係可調整的。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100136817A TWI456412B (zh) | 2011-10-11 | 2011-10-11 | 製作知識地圖的方法 |
CN2012103830293A CN103106232A (zh) | 2011-10-11 | 2012-10-11 | 制作知识地图的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100136817A TWI456412B (zh) | 2011-10-11 | 2011-10-11 | 製作知識地圖的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201316185A true TW201316185A (zh) | 2013-04-16 |
TWI456412B TWI456412B (zh) | 2014-10-11 |
Family
ID=48314090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100136817A TWI456412B (zh) | 2011-10-11 | 2011-10-11 | 製作知識地圖的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103106232A (zh) |
TW (1) | TWI456412B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309979A (zh) * | 2013-06-15 | 2013-09-18 | 昆明能讯科技有限责任公司 | 一种基于图论的知识立方体模型算法 |
CN104462227A (zh) * | 2014-11-13 | 2015-03-25 | 中国测绘科学研究院 | 一种图形化知识谱系自动构建方法 |
CN105447104A (zh) * | 2015-11-12 | 2016-03-30 | 中国建设银行股份有限公司 | 一种知识地图生成方法及装置 |
CN106874695B (zh) * | 2017-03-22 | 2019-10-25 | 北京大数医达科技有限公司 | 医疗知识图谱的构建方法和装置 |
CN108776684B (zh) * | 2018-05-25 | 2021-01-01 | 华东师范大学 | 知识图谱中边权重的优化方法、装置、介质、设备及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1448863A (zh) * | 2002-04-04 | 2003-10-15 | 迪吉科技有限公司 | 知识地图的建立、编辑、检索与对应网络上信息内容的编辑方法 |
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
TWI290684B (en) * | 2003-05-09 | 2007-12-01 | Webgenie Information Ltd | Incremental thesaurus construction method |
TWI254880B (en) * | 2004-10-18 | 2006-05-11 | Avectec Com Inc | Method for classifying electronic document analysis |
JP3917648B2 (ja) * | 2005-01-07 | 2007-05-23 | 松下電器産業株式会社 | 連想辞書作成装置 |
US7945576B2 (en) * | 2007-05-29 | 2011-05-17 | Microsoft Corporation | Location recognition using informative feature vocabulary trees |
US8332439B2 (en) * | 2007-10-05 | 2012-12-11 | Fujitsu Limited | Automatically generating a hierarchy of terms |
TW201118603A (en) * | 2009-11-30 | 2011-06-01 | Yu-Chieh Wu | A computer system of template-based term entity-relation mining algorithm |
TWI433037B (zh) * | 2009-12-25 | 2014-04-01 | Ind Tech Res Inst | 用以感知使用者意圖的方法、電子裝置及資料運算系統 |
-
2011
- 2011-10-11 TW TW100136817A patent/TWI456412B/zh active
-
2012
- 2012-10-11 CN CN2012103830293A patent/CN103106232A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
TWI456412B (zh) | 2014-10-11 |
CN103106232A (zh) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary | |
CN105843897B (zh) | 一种面向垂直领域的智能问答系统 | |
CN107644062B (zh) | 一种基于知识图谱的知识内容权重分析系统及方法 | |
CN102567304B (zh) | 一种网络不良信息的过滤方法及装置 | |
WO2014160379A1 (en) | Dimensional articulation and cognium organization for information retrieval systems | |
CN103699525A (zh) | 一种基于文本多维度特征自动生成摘要的方法和装置 | |
WO2014160309A1 (en) | Method and apparatus for human-machine interaction | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
CN104809142A (zh) | 商标查询系统和方法 | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
Ahmad et al. | Tools and techniques for lexicon driven sentiment analysis: a review | |
CN109635102B (zh) | 基于用户交互的主题模型提升方法 | |
CN102955848A (zh) | 一种基于语义的三维模型检索系统和方法 | |
CN105389344A (zh) | 一种自助式查新方法及系统 | |
CN102955853B (zh) | 一种跨语言文摘的生成方法及装置 | |
TW201316185A (zh) | 製作知識地圖的方法 | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
CN111626050B (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
CN104778201A (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
CN109800305A (zh) | 基于自然标注的微博情绪分类方法 | |
CN108038204A (zh) | 针对社交媒体的观点检索系统及方法 | |
CN103336803B (zh) | 一种嵌名春联的计算机生成方法 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 |