TW200419386A - System and method for showing correlation degree between words and documents on information map - Google Patents
System and method for showing correlation degree between words and documents on information map Download PDFInfo
- Publication number
- TW200419386A TW200419386A TW92106994A TW92106994A TW200419386A TW 200419386 A TW200419386 A TW 200419386A TW 92106994 A TW92106994 A TW 92106994A TW 92106994 A TW92106994 A TW 92106994A TW 200419386 A TW200419386 A TW 200419386A
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- scope
- vector
- item
- patent application
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
200419386 五、發明說明(l) 發明領域 本發明係關於一種顯示字詞與文件地圖上之文件間相 關&度之系統與方法,可應用於文件分類或搜尋等資料挖 掘之技術’特別可應用於文件投影於二維平面上以顯示文 件間相關程度與位置之分析技術。 登明背景 在文件檢索及搜尋技術的發展當中,傳統上使用者輸 入關鍵字詞之後,搜尋系統以文字敘述及排列來展現檢索 結果及數據於電腦上,但由於文字及數據的編排並無比較 基礎亦缺乏全面性的觀察,使得使用者僅能針對排名較前 面的賫料進行選擇性地閱讀,而讓文件的管理與檢索的價 值大為減低;時至今日,以視覺化的圖形方式來分析文件 及其數據所代表的意義,使得觀察的角度越見全面性, 於數據的解讀也越見客觀,已然漸漸取代傳統式的文字描 若要一次觀察搜尋結果或所有文件間的相 組分類關係、’、以圖形化的文件地圖最為方便,其中文件: 點」的方式投影於二維平面i,於是有「位 關係,可以用來辨識文件間的相 ,對 性或分類傾向。 關位f «集關係、相似 然而文件分佈於文件地圖,僅顯示文件 性,並不針對使用者所輸入的指定字詞二5集特 關性顯示;故& ’本發明透過計算使用者的指詞::
第4頁 五、發明說明(2) = = r目關性,再將這些相關性做等級區 刀 同,員色或線條標示於文件區段,使用者可直接萨 由辨別顏色達到快速掌握相關度高低的資訊。 9 明另二=:1 :汁算指定字詞與節點間的相似度,為本發 田本發明利用文件向量在降維時所使用的 6旦,、佳&伽= 1,使得指定字詞亦能轉換為 °里 /、郎點之參考向量進行相似性運算。 發明之簡要說明 本發明之主要目的在於提供一種可顯示文 1 使用者所指定的字詞的相關程度之系統與方法。回/、/、
f 了達到上述目的,本發明必須先將指定字詞韓拖A 二向,之特徵縮減(feature reducti〇n)方式一致的…、 口 f,才能將指定字詞向量與文件向量進行相關性、 然後再將與該字詞之文件相關性分為數個等級,以不^顏 色或線條標示於文件上。 以不冋顏 ^下來簡單說明文件向量、向量特 ΐ所::文:原始向量大部份由不具意義或數Cl分 里斤、、、成’只際維度數目可能達到萬維或以 一 不Ϊ ί :減」,保留文件原始向量中具意義的特徵: j 影至二維平…而形成文件地圖7:發=利: 3 口口 忍索引(Latent Semantic Indexing; LSI)來進行用^ 200419386 L、發明說明(3) " -----* 一 件向量之特徵縮減;而投射於二維平面時,本發明採用自 組織映像(Self-organizing map; s〇 來展現文件地 圖。 ’ ^ 接下來,將組成所有文件的字詞轉換為向量,指定字 凋必然包含於其中;在使用隱含語意索引的過程中,將所 有原始向量排列向量矩陣,再利用奇點數值分解 (Slngular Value Decomp〇sition; SVD)分解為三個向量 矩陣’可利用其中兩矩陣内積形成各該字詞的向量,並能 與文件向量特徵縮減方式保持一致。
由於指定字詞必然包含於所有字詞中,系統須挑出指 定字詞的向量。 、 接著計算節點的參考向量,我們以鄰近函數計算之, 以後計算指定字詞與所有節點的相似度,相似度以兩向量 ^内積值表示,再將這些相似度做等級區分,以不同顏 色、背景圖案或線條標示於節點區段。 少 詳細說明 _ 本發明須搭配電腦或計算機系統等硬體裂置以 行,其中網路裝置為一種選擇,其說明如下: 1執 如圖1所示,為本發明應用於電腦架構之其中 種首先將本發明以程式設計成包含但不限於可乂 骗指令之軟體並安裝於電腦1 〇 1上,電腦可為伺 /亍的電 t型電腦或筆記型電腦;電腦之軟體102中可為器:桌 、、先、應用軟體、各式元件、資料庫及資料、〃業系 轉案或資料,
第6頁 200419386 五、發明說明(4) 本發明之系統亦屬於雷^ ^ ^ 及~愔辦1 fU笠φ 、電細軟體之一,放置於儲存設備1 03 隐體4電腦可讀取媒冑,執行期多置於硬碑機105 r:憶體1〇?;使用者於本機透過輸出裝置m如鍵:或 /月鼠,進入電腦中之輪出入埠108, 之軟體、:透過主機板為介面109與其他硬體組件 並达入达出中央處理單元(Central processing Uni卜 m〇以運算各項機器指令,本電腦指令之軟體經過處 理後將結果送至顯示介面卡丨丨〗以顯示於螢幕丨丨2上。 系統使用者可選擇在本端電腦操作本系統,亦可透過 =路操作;若使用者來自區域網路(LAN)113,可透過網路 设備114進入本機網路介面卡115,以執行本電腦指 體0 若使用者來自廣域網路(WAN)116 (或是網際網路), 可透過網路設備114進入本機網路介面卡115,或透過數據 機117登入另一輸出入埠118,以執行本電腦指令之軟體。 如上所述,本發明之應用可存在於各式電腦可讀取媒體, 包括但不限於軟碟磁片、硬碟、光碟片、快閃記憶體 (Flash ROMS)、非揮發性記憶體(n〇nv〇latUe R〇M)及各 種存取§己憶體(RAM)中;安裝上不限於單一電腦,以數台 電腦做負荷平衡之運算亦可。 如圖2所示,為本發明之系統與網路連線方式之其中 之種首先將本發明设计電腦糸統2 0 6並安裝於飼服端 的電腦上,使用者可藉由網際網路或由内部區域網路連線 至伺服端’其中網際網路使用者2 0 1透過公眾網際網路
200419386 五、發明說明(5) internet)系統20 2與伺服端之網站伺服器(ψ^ Serve〇 203連線’再進入伺服端、網路系統2〇5 ;此網站伺服器— 為伺服端與網際網路用戶端201之間的介面,透過此一介 ^網際網路用戶端2()1可執行伺服端之電腦指令,飼服 執行結果傳回用…當區域網路使用者204或 使用者20 1進入伺服端網路系統2〇5之後,與飼服 =線:並可執行本發明之電腦系統2〇6,當電腦系統2〇6 祖執仃4,可存取資料庫系統2〇7之文件資料或字詞資 科0 、 tί件在投影至文件地圖前,須先轉換成文件向量, 文件向量說明如下: 电可Ϊ;件中所有出現的常用㈣(字組)加以排列,字 二了為雙字母組(blgram),如常用字詞「專利」、「商 rt」.、著作」,亦可為單字(unigram)、三字母組 基^:^或田以上之長㈣’本發明以雙字母組做為示範的 二Lm定其應用的範圍;•著,計算每-字組 文件的二旦:i=的分量值,組合所有字組的分量值為該 中k 列為(專利,商標,*作),在該篇文件 :欠、二現的次Ϊ為7次、出現「商標」的次數為3 3 5) & & 的次數為5次,則該篇文件之向量為(7, 心tL)為具有三個維度的向量(3_d— 接下來說明本發明之整體流程,如圖3所示,步驟
200419386 五、發明說明(6) 3 01,接收指定字詞;即接收使用者所輸入的指定字詞; 系統可選擇確認該指定字詞是否為文件原始向量中任一分 量所代表之字詞,如果使用者所輪入的指定字詞不在其 間,系統可尋找最相近之字詞,來代表該指定字詞,系統 亦可選擇不接受或忽略該指定字詞;另外一種情形是使用 者先不指定所欲標示之字詞,等到所有字詞之向量計算 出’再行指定所欲標示字詞。 步驟3 0 2,計算該指定字詞與文件地圖上的每一節點 的相似度;在計算相似度之前需將該指定字詞轉換為與文 件之特徵縮減方式相同的向量,本發明所使用特徵縮減的 方式為隱含語意索引(LS I);其詳細步驟如圖四所示,步 驟4 0 1 ’將所有文件向虿’列成[T,D ]矩陣,並設定特徵 縮減後的維度數目R,使得降維後的維度數目確定,其中T 為文件向量之字詞數目’亦即維度數目、分量數目,D為 文件數目,該矩陣排列舉例說明如下:例如,三文件向量 有四個維度,文件D1其向量為(tldl,t2dl, t3dl, t4dl)、D2 其向量為(tld2, t2d2, t3d2, t4d2)、D3 其向 量為(tld3, t2d3, t3d3, t4d3),則此為[4, 3]矩陣如圖 5a所示。 步驟402,利用奇點數值分解(Singular Value Decomposition; SVD)將原矩陣分解為[T,R]、[R, R]、 [R,D]三矩陣,即a = USVt,如圖5b所示,此「奇點數值分 解」為熟於此項技術者所熟悉,此處不再贅述;R為先前 所設定降維後之維度數目,於本例中r = 2 ;步驟40 3,循序
第9頁 200419386 五、發明說明(7) 计鼻每一字斧1T + &田 進行運笪 "里,需使用[T, R]與[R, R]兩矩陣來 相;C J如字詞t2之新向量為[t2“]與。矩陣
⑴之乘積合第Λ為,故第1分量為[t2,⑴與[A 類推循序計曾每二ff[t2, Γ2]與[r2’ r2]之乘積,以此 2 I所=述步驟401〜403在於f十算所有字詞的向 指定字1的::會包含使用者的指定字詞,系統只須要將 疋子相向量挑出,就可以確認指定字詞的向量。 接下來回到主要流程,步驟3〇2,得到 向量之後,就可以計算盥文件地圖上 曰疋子^的 此相似产之钟筲士二2 卩點間的相似度, 又 。异方式為指定字詞之向量與節點參考向量之 魏?值/丨1、内積值越大代表該指定字詞與該節點間相似度 算,Α ^ t若—指定字詞為Τ,一節點為D,内積值的運 异為即點間的個別對應的分量值分別相乘,然後 總;例如:字詞為T,其向量為= (tl,t2,…···, tm),另
節點D向里為= (dl,d2, ......, dm),m為維度數目,T 之相似度,其内積值=τ · D=tlx dl + t2x d2+ .····. + tmx dm。 至於節點參考向量與文件地圖之計算方式,說明如 下:由於在文件地圖方面,本發明採用隱含語意索引 (LSI)以及自組織映像(s〇M)技術來處理;首先,使用隱含 語意索引(LS I)來進行文件特徵縮減,將文件原向量中不 具意義的分量或雜訊去除並將維度縮減,以利於加速投影 運算;接下來,使用自組織映像(s〇M)來展現文件顯示於 二維平面之技術,將文件以點的方式投影於平面上,以形
第10頁 200419386 五、發明說明(8) - 成文件地圖’藉以觀察文件相關位置、叢集關係、相似性 或分類傾向,其過程說明如下: 首先,使用隱含語意索引(LSI)將文件向量維卢縮 減: 又、、、 第:j設定降維後的維度數目R,使得降維後的維度 數目確定; 第二,將所有文件向量排列成[T,D]矩陣,1 斷詞後之詞彙數目,亦即維度數目,D為文件數目〃 · ^ 第三,利用奇點數值分解將原矩陣分解 ’ [R, R] 、[R, D]三矩陣; …、Ll’ K」、 第四,循序計算每一文件之新向量,若一 m選取做為訓練LSI之文件’則該文件量之 為[R,R]與[R,D]矩陣相乘後,位於[r,d]之值, R ’ d為1到d ;另一方面,甚一令杜卢木、 、、、 練LSI之♦ &日丨# 文件在备初未被選取做為訓 冰LSI之文件,則該文件第^分量之值為該 [τ’ R]矩陣中的[T,r]之内 件之原向里與 每一文侔鉍&曰· 1檟r為1到R,如此循序計算 文件新向s,隱含語意索引完成。 維平來,使用自組織映像(S0M)將文件向量投射於二 射於Ϊ::預先設定調,半徑及調整平衡條件,讓文件投 次數已達:i::i 變動在一門播值以内或調整 第-’將-固定平面上分配均勻節點,其節點分佈可
第11頁 五、發明說明(9) 為四方形排列或六角形排列如圖7a 7h讲-· 第三,賦予每一節點_ ,斤不, 為經由隱含語意索引(LSI)降維^始/維考向量,其維度數= 亂數產生,其分量值範圍為 '、、度數目R,分量值 為亂數區間; 口疋只數區間,本例以0~1 第四’循序將每一文件定a 歸屬於與參考向量最近的節,就是當每一文件向重 之參考向量内積值最大:::稱:即文件向量與該節點 winning nQde在預設調整半_ ^ηηΐηδ n〇de,將此 u _軟^ ^ : 门正牛徑之内的它節點之參考向量加 # ^从二、> 仫内=匕即點,如圖7 a所示之虛線圓内之 郴近即點,這些鄰近節點的調整· mi(t⑴、⑴+hci(t)[x⑴⑴]式為· 曰其中niiU + l)代表該鄰近節點在第t + 1次被調整的參考 向里’ IDi ( t )代表該鄰近節點在第t次被調整的參考向量,χ (t)為該文件的向量,Mt)為鄰近函數(neighb〇r function),可代表參考向量被調整的比例,也是預設的 機率分佈型態; 第五’觀察是否達到平衡條件,若是則自組織映像結 束’否則回到上一步驟,繼續調整文件歸屬及節點參考向 量。 接下來回到主要流程,步驟3 〇 3,將該指定字詞與節 點間的相似度分為數個等級;數個等級之間的數值範圍可 為連續性或不連續性,選取的規則可為規律或不規律;例 如’相似度0 %〜1 0 0 %,分為1 〇個等級,第1等級為1 〇 〇 〇/〇〜
第12頁 200419386
第、2等級為9〇% 8〇%......,第9等級為20%〜10%、第 、級為1 0/。〜0%,每一等級包含丨〇%的範圍,此為連續 =、規律性的數值範圍;若將其分為第丨等級為ι〇〇%~ !/榮第2等級為9〇%〜88%......,第9等級為20%〜18%、第 專級為10%〜8%,即每-等級僅選取其中2%,此為不連續 性但規律性的數值範圍;若將其區分為如下等級·· 等級 相似度範圍 級距 1 100%〜85% 15% 2 85%〜70% 15% 3 70%〜60% 10% 4 60%〜55% 5°/〇 5 55%〜50% 5% 6 50〇/〇 〜45% 5°/〇 7 45%〜40% 5% 8 40%〜30% 10% 9 30%〜15% 15% 10 15%〜0% 15% 每一等級僅選取的級距不同,有15%,1〇%,5%,此雖為 續的數值範圍,但其級距各有不同;等級區分數值範圍 方式可以彈性設定,端視使用者需求。 有時候使用者並不要求所有的節點都需要標示出來, 200419386
而1 ϊί t取代表性的節點,加以標示即可,選取的方式可 先片算每一等級内的節點相關度之平均數,然後取其相關 度在該平均數加減某個特定百分比範圍内的節·點,範圍以 不超過該等級為準; 步驟304不同等級的節點賦與不同的顏色、圖案或線 條’顏色方面’於電腦顯示時,以RGB(Red,Green, B1 ue)二色為基本原色加以組合為顏色向量,灰階顏色亦 可以RGB呈現;例如,純紅色的向量為(255, 〇, 〇),純 色的向量為(0, 255, 0),純藍色的向量為(〇, 〇, 25 μ 白色為( 255, 25 5, 255 ),黑色為(〇, 〇, 〇);在指a〜二 與節點之相似度劃分等級後,不同等級可賦予不同曰^字詞 顏色以深淺不同、層次不同為設計方向;例如,第^色’ 第1 0級’以綠色為主但層次深淺不同繪出,列表於、、及到 _ __ 一一一 一 __ _ _ 一 — · ~~ - — - _ 等級 顏色 1 (〇,〇,〇) 2 (0,15,〇) 3 (〇,31,〇) 4 (〇,63,〇) 5 (〇,95,〇) 6 (0,127,〇) 7 (〇,159,〇) 8 (〇,191,〇 )
第14頁 200419386 五、發明說明(12) 9 (0,2 23,0) 10 (0, 255, 0) 在圖案方面,可以不同的背景圖 各有其獨立之規律性,可供無限延展 >、:不,母一圖案皆 條方面,每一個位於文件地圖上^點;:6所示;在線 ..的即點需與相同等級巾 離敢接近的節點相連,連接的線條可以實線、線、 等處理,亦可將曲折的線條加以平虛、f ^線 以標示出相似度接近的節點區塊。 ☆ 就可 綜合以上所述,本發明之重點說明如下. 1太文件地圖為一群以點及位置為特徵的文件之 本上使用者無從得知文件地圖 ^ 土 绚右打立, η . 國對於使用者所輸入的關鍵字 3有何思義,但是透過本發 埏子 度高低的文件立分佈狀$ 2 I用者可輕易辨識出相似 2 ·然而’正確顯示出使用去扣β , 仵 點間相關程度,我們#用a /疋子岡,、文件地圖上的節 件新向量的特徵縮減方式 以异,其透過與文 換為向量。 U的°十异方式,將指定字詞轉 3·顯示相關程度可以顏色、圖安由以 利於使用者快速辨識其相關程产、八佑=、聲音區分,有 搜尋更特定範圍之文件。 又刀月况,再深入判斷或 本發明可應用於電腦次μ ^ 革月自貝訊糸統,其傳輪 7八包括但尤 200419386 五、發明說明(13) 限於任何媒介,如網路、無線傳輸裝置等皆可。 本發明之技術内容及技術特點巳揭示如上,然而熟悉 本項技術之人士仍可能基於本發明之教示及揭示而作種種 不背離本發明精神之替換及修飾;因此,本發明之保護範 圍應不限於實施例所揭示者,而應包括各種不背離本發明 之替換及修飾,並為以下之申請專利範圍所涵蓋。
第16頁 200419386 圖式簡單說明 圖1為本發明應用於電腦之架構圖; 圖2為本發明之系統與網路連線圖; 圖3為本發明之主要流程圖; 圖4為指定字詞轉換為向量之流程圖; 圖5 a為一向量矩陣之例示; 圖5b為一向量矩陣經奇點數值分解成為三個矩陣之例示; 圖6為不同背景圖案之例示; 圖7 a為四方排列之節點位置圖;及 圖7 a為六方排列之節點位置圖。
第17頁 200419386 六、申請專利範圍 1. 一種顯示字詞與文件地圖上之文件間相關程度之方 法,包括以下步驟: (a) 接收一指定字詞; (b) 計算該指定字詞與文件地圖上的每一節點的相似 度; (c) 將該指定字詞與節點間的相似度分為數個等級; (d) 不同相關度等級的節點賦予不同的顏色、圖案或 線條。 2. 如申請專利範圍第1項所述之方法,其中字詞為單字、 雙字母組、三字母組或長詞。 3. 如申請專利範圍第1項所述之方法,其中文件地圖為自 組織映像。 4. 如申請專利範圍第1項所述之方法,其中步驟(b )中計 算該相似度之前,需將指定字詞轉換為與文件特徵相同的 向量。 5. 如申請專利範圍第4項所述之方法,其中將指定字詞轉 換成向量,其步驟如下: (a )將所有文件向量,列成[T,D ]矩陣,其中T為所有 字詞所代表的維度數目,D為文件數目; (b) [T,D]矩陣依奇點數值分解為[T,R]、[R,R]、 [R,D]三矩陣; (c) 循序計算每一字詞之向量,字詞t之新向量其第r 分量值為[T, R]中的[t, r]與[R,R]中的[r, r]相乘之 值,r為1到R,t為1到T ;及
第18頁 200419386 六、申請專利範圍 (d )確認指定字詞的向量值。 6 ·如申請專利範圍第1項所述之方法,其中步驟(c )之後 尚包括選取每一等級之代表性節點,然後再進行步驟 (d)。 7 ·如申請專利範圍第6項所述之方法,其選取每一等級之 代表性節點之方式為計算每一等級内的文件相關度之平均 數’然後取其相關度在該平均數加減某個特定百分比範圍 内的文件,範圍以不超過該等級為準。 8·如申請專利範圍第1項所述之方法,其中步驟(c)中等 級之區分,每一等級之相似度數值範圍可為連續或不連 續。 9 ·如申請專利範圍第1項所述之方法,其中步驟(c )中等 級之區分,每一等級之級距可為相同或不相同。 10·如申請專利範圍第1項所述之方法,其中步驟(d)中之 顏色以顏色向量RGB或灰階計算之。 11·如申凊專利範圍第1項所述之方法,其中步驟(d)中之 線條’為以該文件為端點,與相同等級中距離最接近的文 件相連之線條。 1 2 · 一種電腦系統用以顯示字詞與文件地圖上之文件間相 關程度,包括以下模組: 一輸入裝置模組,用以接收使用者資訊,送至中央處理 模組; 中央處理模組,用以接收輸入裝置模組傳入資訊,並 執行以下步驟··
200419386 六 度 申請專利範圍 (a)接收一指定字詞; ⑻計算該指定字詞與文件地圖上的每一節· 的相似 級 (c)將該指定字詞與節點間的相 U)不同相關度等級的節點歟 =、固 線條;及 卞不同的顏色、圖案或 一輸出顯示模組,將中央處理模 輸出裝置。 、所運异之結果顯示於 其中字詞為單 ?,專利範圍第12項所述之系統 子、雙子母組、三字母組或長詞。 其中文件地圖為 1 4·如申請專利範圍第1 2項所述之系统 自組織映像。 其中步驟(b)中 ^十5·算利範圍第12項所述之系統’…η 的向=。l又之前,需將指定字詞轉換為與文件特徵相同 2·施Ϊ I ΐ專利範圍第1 5項所述之系、统,其中將指定字詞 轉換成向量,其步驟如下·· 宝约n將所有文件向量’列成[τ,d ]矩陣,其中τ為所有 #斤代表的維度數目,D為文件數目; rD =) [τ’ D]矩陣依奇點數值分解為[T,R]、[R,R]、 LK,D]三矩陣; 八旦2 盾序計算每一字詞之向量’字詞t之新向量其第r 二里^ [T, R]中的[t,r]與[R,R]中的[r, r]相乘之 值,到R到τ ;及
第20頁 200419386 六、申請專利範圍 (d)確認指定字詞的向量值。 17·如申請專利範圍第1 2項所述之系統,其 後尚包括選取每一等級之代表性節點,然後 ⑷° 18·如申請專利範圍第丨7項所述之系統,其 之代表性節點之方式為計算每一等級内的文 均數,然後取其相關度在該平均數加減某個 圍内的文件,範圍以不超過該等級為準。 ·如申請專利範圍第丨2項所述之系統,其 f、及之區分’每一等級之相似度數值範圍可 續。 U·纟如Ϊ請專利範圍第1 2項所述之系統,其 21及之區为,每一等級之級距可為相同或不 夕·姑t申請專利範圍第1 2項所述之系統,其 1以顏色向量RGB或灰階計算之。 之娩放辱利範圍第12項所述之系統,盆 I綠條,為IV # ,、 文侏知4 該文件為端點,與相同等級中 又仵相連之線條。 τ 2 3· 雷η似 體,並搭配ΐι讀取媒體,可儲存電腦指令 文件間相關r ΐ裴置用以執行並顯示字詞與 %度之方法,包括以下步驟: :接收1定字詞; 度; 4 4指定字詞與文件地圖上的每_ 中步驟(C)之 再進行步驟 選取每一等級 件相關度之平 特定百分比範 中步驟(C)中 為連續或不連 中步驟(C )中 相同。 中步驟(d)中 中步驟(d)中 距離最接近的 、程式或軟 文件地圖上之 郎點的相似
第21頁 200419386
(c) 將該指定字詞與節點間的相似 (d) 不同相關度等級的節點賦予不 度分為數個 同的顏色、 等級; 圖案或 24·如申請專利範圍第23項所述之
2字A為”母組、三字母組或長詞……T •如甲凊專利範圍第2 3項所述之電腦w t 2 文件地圖為自組織映:。 μ可項取媒體’其中 2j.如申請專利範圍第23項所述之電腦 :驟α)中計算該相 之前,需將 字:媒體,其中 件特徵相同的向量。 疋予d轉換為與文 Ϊ·扣ί ί請專利範圍第26項所述之電腦可讀取媒體,直中 、才日疋予詞轉換成向量,其步驟如下: 、 ’、 ^ (a)將所有文件向量,列成[T, D]矩陣,就 子同所代表的維度數目,D為文件數目; ^ " (b)[T,D]矩陣依奇點數值分解為[Τ,μ [R,D]三矩陣; [R,R]、 (〇循序計算每一字詞之向量,字詞t之新向 刀量值為[T, m中的[t, r]與[尺,R]中的[r 1」相果之 值’ r為1到R,t為1到Τ ;及 (d)確認指定字詞的向量值。 28·如申請專利範圍第23項所述之電腦可讀取媒體,复 步驟(c)之後尚包括選取每/等級之代表性節點,然徭、 進行步驟(d)。 29·如申請專利範圍第28項所述之電腦可讀取媒體,其選
200419386 六、申請專利範圍 取每一等級之代表性節點之方式為計算每一等級内的文件 相關度之平均數,然後取其相關度在該平均數加減某個特 定百分比範圍内的文件,範圍以不超過該等級為準。 30. 如申請專利範圍第23項所述之電腦可讀取媒體,其中 步驟(c )中等級之區分,每一等級之相似度數值範圍可為 連續或不連續。 31. 如申請專利範圍第2 3項所述之電腦可讀取媒體,其中 步驟(c)中等級之區分,每一等級之級距可為相同或不相 同。
32. 如申請專利範圍第2 3項所述之電腦可讀取媒體,其中 步驟(d)中之顏色以顏色向量RGB或灰階計算之。 33. 如申請專利範圍第23項所述之電腦可讀取媒體,其中 步驟(d)中之線條,為以該文件為端點,與相同等級中距 離最接近的文件相連之線條。
第23頁 200419386 圖式 中央處理單元 丨作業丨 i應用i 丨功能丨 丨資料庫丨 |檔案及1 丨系統i 丨軟體丨 丨元件丨 i及資料i 1資料ϋ j
116 廣域網路
200419386
第;^頁 200419386 圖式 301 302 303 304
第邓頁 200419386 圖式 401 402 403 404 405
200419386 圖式 tldl tldl tld3 tld\ tldl t2d3 t3dl t3d2 t3d3 t4dl t4d2 t4d3 [T, D]矩陣 S 5 a
tlrl t\r2 t2rl tlrl t3r\ t3r2 tAr\ t4r2 [T, R]矩陣 rlrl rlrl rldl rldl rld3 r2r\ rlrl r2d\ rldl r2d3 [R,R]矩陣 [R, D]矩陣
b
第狀頁 200419386
200419386 圖式 -縱向度格點數-
200419386
中文 顯示字贿文 發明專利 發明名稱
發明人 (共1人) I.中華民國TW Γ台北市民生東路5段69巷4弄12號4樓一
國籍 (中英文).
1·碩網資訊股份有限公司 1. Intumit, inc. 三 申請人 (共1人)
1·中華民國TW 所所文 居業 住營中 •台北縣新店市民權路96號3樓(本地址與前向貴局申請者相同) 所所文 居業 住營英 代表人L林邦彥 (中文) 代表人 1· BanS—Yen Lin (英文)
第1頁 200419386 中文發月摘要~i明名稱·顯示字詞與文件地圖上之文件間相赚度之祕與方法)- 本發明提供一種顯示字詞與文件地圖上之 程度之系統與方法;1牛驟氧參验 ^ ^ ^ 牛]相關 具步驟為先將一字詞轉換為與文件具 有相同向罝特徵的向| 旦斗管命Α» 卜卜 笞山„ Μ Μ 再计异與母一節點相關性,將計 鼻出相關性之郎點區分袁童}柄莖你 .@ 1 &匕刀為數個專級,母個等級各以不同顏 色圖案或線條連結顯示於文件地圖上;如此,可使立易 於辨識出與該字詞相關招疮、专、*认士 μ 丁』和關%度:^a近的文件位置與數晉多寡, 也易於搜尋同類或異類文件内容。 、
五 301 302 303 304 感I 、(一)、本案代表圖為:第 三 圖 接收指定字詞。 計算節點相似度。 將相似度分等級。 不同等級賦與不同 •(二)、本案代表圖之元件代表符號簡單說 •本發明之主要流程之第一步驟 本發明之主要流程之第二步驟 本發明之主要流程之第三步驟 本發明之主要流程之第四步驟 特性。 六、英文發明摘要~S明名稱了
200419386 一、本案已向 國家(地區)申請專利 申請日期 案號 主張專利法第二十四條第一項優先權 無 二、 □主張專利法第二十五條之一第一項優先權: 申請案號: 無 曰期: 三、 主張本案係符合專利法第二十條第一項□第一款但書或□第二款但書規定之期間 曰期: 四、 □有關微生物已寄存於國外: 寄存國家: 寄存機構: $ 寄存曰期: 寄存號碼: □有關微生物已寄存於國内(本局所指定之寄存機構)·. 寄存機構: 寄存曰期: 無 寄存號碼: □熟習該項技術者易於獲得,不須寄存。
IIIII 第3頁 五、發明說明(1) 發明所屬之括输領❺ 本發明係關於一種顯示字詞與文件地 關程度之系統與方法,可應用於文件分 ===間相 掘之技術,特別可應用於文件投影於 i 貧料挖 件間相關程度與位置之分析技術。、··千面上以顯不文 先前技術 在文件檢索及搜尋技術的發展當中 入關鍵字詞之德,拙;&„ 中傳統上使用者輸 :鍵子d ,搜哥糸,统以文字敘 ==康於電腦上,於文字及 =見: ΐϋί時至今曰’以視覺化的圖形方式來分析文件 於i攄的::表的意義:使得觀察的角度越見全面性,對 述。、肖也越見客觀,已然漸漸取代傳、统式的文字描 植分ί =次觀察搜尋結果或所有文件間的相對關係、群 π:,“圖形化的文件地圖最為方便,其中文“ 關係」,可以平面上’於是有「位置」的相對 性或分類傾= 件間的相關位置、叢集關係、相似 性,並:f件'刀佈於文件地圖’僅顯示文件間之叢集特 關性顯;:t用ί所輪入的指定字詞(關鍵字詞)做相 ·,,“,故此,本發明透過計算使用者的指定字詞與文 200419386 五、發明說明(2) 件地圖上之節點間之相關性, * 分,以不同顏色或線條標示於文件::目:性做等級區 由辨別顏色達到快速掌握相關度高低ς =用者可直接藉 然而要如何計算指定字詞與節點門二: 明另-關鍵所在,本發明利内:太:似纟’為本發 特徵縮減方法套用於指定字詞,以2維時所使用的 向夏’進而與節點之參考向量進行相似亦此轉換為 發明內g 本發明之主要目的在於提供一種可 使用者所指定的字詞的相關程度之系統與方法。%、與 與文:2 = =^:本發明必須先將指定字詞轉換為 ^ ΐ 1 Γ特被縮減(f eature reduct i〇n)方式一致的 '里,才忐將指定字詞向量與文件向量進行相、 m將與該字詞之文件相關性分為數;顏 色或線條標示於文件上。 以不冋顏 圖.ί:來簡單說明文件向量、向量特徵縮減與文件地 υ:文件原始向量大部份由不具意義或數值甚小 咸實際維度數目可能達到萬維或以上,故須經過 ,^ ^減」,保留文件原始向量中具意義的特徵、去 =具思義的特徵,藉此降低維度數目並濃縮成為文件向 :件二不:可以增快運算速度、保持低失真率,還能利: 文件杈衫至一維平面,進而形成文件地圖;本發明 含語意索引(Latent Semantic Indexing; LSI)來進行文 200419386
件向量之特徵縮減;而投射於二維平面時,本發明採用自 組織映像(Self-organizing map; s〇M),來展現文件地 圖。 接下來,將組成所有文件的字詞轉換為向量,指定字 詞必然包含於其中;在使用隱含語意索引的過程中,將所 有原始向量排列向量矩陣,再利用奇點數值分解 (Singular Value Decomposition; SVD)分解為三個向量 矩陣,可利用其中兩矩陣内積形成各該字詞的向量,並能 與文件向量特徵縮減方式保持一致。 由於指定字詞必然包含於所有字詞中,系統須挑出指 定字詞的向量。 接著計算節點的參考向量,我們以鄰近函數計算之, 然後計算指定字詞與所有節點的相似度,相似度以兩向量 之内積值表示,再將這些相似度做等級區分,以不同顏 色、背景圖案或線條標示於節點區段。 實施方式 本發明須搭配電腦或計算機系統等硬體裝置以利執 行,其中網路裝置為一種選擇,其說明如下: 如圖1所示,為本發明應用於電腦架構之其中之一 種,首先將本發明以程式設計成包含但不限於可執行的電 腦指令之軟體並安裝於電腦1 〇 1上,電腦可為伺服器、桌 上型電腦或筆記型電腦;電腦之軟體1 0 2中可為作業系 統、應用軟體、各式元件、資料庫及資料、檔案或資料,
200419386
本發明之系統亦屬於電腦軟體之一,放置於儲存設備103 ϋϊ ^電腦可讀取媒體’執行期多置於硬碟機105 滑m電腦中之輸出人埠i G 8,^行本發明電腦指·^ 之軚體,透過主機板為介面丨〇9與其他硬體組件間溝 並送入送出中央處理單元(Central pr〇cessi CPU) 11 0以運算各頂撼哭社八 士兩邮上卜人 it i ^々,本電 令之軟體經過處 理後將π果迗至顯不介面卡ln以顯示於螢幕112上。
系統使用者可選擇在本端電腦操作本系統,亦可透過 網路操作;若使用者來自區域網路(LAN)113,可 設備m進人本機網路介面卡115,以執行本電腦指令之 體0 若使用者來自廣域網路(WAN)116 (或是網際網路 可透過網路設備114進入本機網路介面卡115,或透過數$ 機117登入另一輸出入埠118,以執行本電腦指令之軟體’ 如上所述,本發明之應用可存在於各式電腦可讀取媒體 包括但不限於軟碟磁片、硬碟、光碟片、快閃記憶體 (Flash ROMS)、非揮發性記憶體(n〇nv〇latUe r〇m)及各
種存取記憶體(RAM)中;安裝上不限於單一電腦,以數台 電腦做負荷平衡之運算亦可。 ϋ 如圖2所示,為本發明之系統與網路連線方式之其中 之一種,首先將本發明設計電腦系統2〇6並安裝於伺服端 的電腦上,使用者可藉由網際網路或由内部區域網路連線 至伺服端,其中網際網路使用者2〇 1透過公眾網際網路
^ ^ '^2;5 ; ^ ^ 11203 面,網際網路用戶端2〇1而如之間的介面’透過此一介 端亦可將執行結果傳回用灯伺^服端之電腦指令,伺服 網際網路使用^?ηι ★ 端,當區域網路使用者204或 端連後:ί 词服端網路系統205之後,與飼朋 =日亚:;行本發明之電腦系謂,當電腦系讓 :執…可存取資料庫系統m之文件資料或字詞資 須先轉換成文件向量 當文件在投影至文件地圖前 文件向量說明如下: 細:件中所有出現的常用字㈣(字組)加以排列,字 J可為雙字母組(big—,如常用字詞「專利」、「商予 」.、者作」,亦可為單字(unigram)、三字母組 』i^gram)或以上之長詞,本發明以雙字母組做為示範的 土石,並非用以限定其應用的範圍;接著,計算每一字 出現的次f為向量的分量值,組合所有字組的分量值為該 文件的向1 ;其中向量的型態舉例說明以下,例如,一群 文件其所有字組排列為(專利,商標,著作),在該篇文件 :出現「專利」的次數為7次、出現「商標」的次數為3 -人、出現「著作」的次數為5次,則該篇文件之向量為(7, 3,5) ’為具有三個維度的向量(3 —dimensi〇nal ’ vector) 〇 接下來說明本發明之整體流程,如圖3所示,步驟
第8頁 200419386 301 ,接收指定字詞;即接收使用者所輸入的指定字詞; ,統可選擇確認該指定字詞是否為文件原始向量中任一分 量所代表之字詞,如果使用者所輸入的指定字詞不在其 間,系統可哥找最相近之字詞,來代表該指定字詞,系統 亦可選擇不接受或忽略該指定字詞;另外一種情形是使用 者先不h疋所欲標示之字詞,等到所有字詞之向量計算 出,再行指定所欲標示字詞。 步驟302 ’計算該指定字詞與文件地圖上的每一節點 的相似度;在計算相似度之前需將該指定字詞轉換為與文 件之特被縮減方式相同的向量,本發明所使用特徵縮減的 方式為隱含語意索引(LSI );其詳細步驟如圖四所示,步 = 401,,將所有文件向量,列成[T,D]矩陣,並設定特徵 縮減後的維度數目R,使得降維後的維度數目確定,其中τ 為文件向量之字詞數目,亦即維度數目、分量數目,〇為 文件數目;該矩陣排列舉例說明如下:例如,三文件向量 有四個維度,文件D1其向量為(tldl,t2dl,t3dl, tjdl)、D2 其向量為(tld2, t2d2, t3d2, t4d2)、D3 其向 里為(Ud3, t2d3, t3d3, t4d3),則此為[4, 3]矩陣如圖 ッ驟402 ’利用奇點數值分解(singular Value ^ec〇mpo_sition; SVD)將原矩陣分解為[T,R]、[R,R]、 [R,D],矩陣,即A = USVT,如圖5b所示,此「奇點數值分 ^,熟於此項技術者所熟悉,此處不再贅述;R為先前 所汉疋降維後之維度數目,於本例中R = 2 ;步驟4〇3,循序
第9頁 zuu419386 五、發明說明(7) 字Γ如之字向ft2’需使用[T,R]與[R,"]兩矩陣來 相乘值之叙合,rAStl之新向量為[t2, r]A,r]矩陣 Π]之乘積,第2分為,故第1分量為[t2,⑴與[H, 類推循序計算每—t2,r2]與[r2,r2]之乘積,以此 向量值;由於上向量;步驟4〇4,確認指定字詞的 量,而所有丰叫Ϊ 卜403在於計算所有字詞的向 ^ ^ 凋a包含使用者的指定字詞,系統只須要Μ 向量挑出,就可以確認指定字詞的向量 向量之後,:驟3〇2 ’得到了指定字詞的 此相似度之計;文件地圖上之節點間的相似度, 内積值,*内式為指定字詞之向量與節點參考向量之 越大;例:,該指定气詞與該節點間相似度 隻 ί狄 曰疋子一為Τ,一郎點為D,内積值的運 ^ 的個別對應的分量值分別相乘,然後再加 二:例如:子詞為Τ,其向量為=⑴,t2,……,tm),另 即點D向量為= (dl,d2,……,dm),m為維度數目,?與1) 之目似度,其内積值=τ · D = tl X dl+t2 X d2+......+ tmx dm c •至於節點參考向量與文件地圖之計算方式,說明如 下:由於在文件地圖方面,本發明採用隱含語意索引 (ϋ)以及自組織映像(S〇M)技術來處理;首先,使用隱含 語$索引(LSI)來進行文件特徵縮減,將文件原向量中不 具,義的分量或雜訊去除並將維度縮減,以利於加速投影 運算;接下來,使用自組織映像(s〇M)來展現文件顯示於 二維平面之技術,將文件以點的方式投影於平面上,以形
第10頁 200419386 五、發明說明(8) 成文件地圖,藉以觀察文件相關位置、叢集關係、相似性 或分類傾向,其過程說明如下·· 首先,使用隱含語意索引(LSI)將文件向量維度縮 減: ' X、、 汉疋降維 數目確定 第二,將所有文件向量排列成[T,D]矩陣,盆中^為 斷詞詞彙數g ,亦即維度數g ,D為文件數目〃; ^三,利用奇點數值分解將原矩陣分解為[T,R]、 LK,R]、[R,D]三矩陣; 資料】U fδ:异母-文件之新向量’若-文件為原有 卜…到D[;R,/一]=相ΐ後,位於k。之值,…到 練LSI之文件 ,右一文件在當初未被選取做為訓 每一;;牛新向量;,隱引如此循序計算 維平面上來’使用自組織映像(_)將文件向量投射於二 射於預先设定調整半徑及調整平衡鉻彼- 平衡條件可為每個朱件位置直至平衡條件,該 次數,達一定之次數,· π里良動在—門檻值以内或調整 第二,將一固定平面上分配均勻節點,其節點分佈可 200419386 五、發明說明(9) 為四方形排列或六角形排列如圖以,7b所示; 第三,賦予每一節點一個初始參考向量’其維度數目 為經由隱含語意索引(LSI )降維後之維度數目R ’分量值由 亂數產生,其分量值範圍為一固定實數區間,本例以〇〜1 為亂數區間;
第四,循序將每一文件定位,也就是當每一文件向量 歸屬於與參考向量最近的節點時,亦即文件向量與該節點 之參考向量内積值最大,此節點稱winning node,將此 winning node在預設調整半徑之内的它節點之參考向量加 以調整,所謂半徑内之它節點,如圖7a所示之虛線圓内之 鄰近節點;這些鄰近節點的調整公式為: mi ( t + 1 )=mi (t)+hci (t)[x(t)-mi(t)] 其中^(ΐ + Ι)代表該鄰近節點在第t + i次被調整的參考 向量,mi(t)代表該鄰近節點在第t次被調整的參考向量,x (t)為該文件的向量,hci(t)為鄰近函數(neighb〇r function),可代表參考向量被調整的比例,也是預設的 機率分佈型態; 束
量 點門的::到主要"IL耘’步驟30 3,將該指定字詞與節 = 等級;數個等級之間的數值範園< 两逆,性或不連績性,撰兩 如,相似度心%,分= 個寺級,第i等級為1〇〇%〜
第12頁 200419386 五、發明說明(ίο) 90%、第2等級為90%〜80%......,第9等級為20%〜10%、第 1 0等級為1 0 %〜0 %,每一等級包含1 〇 %的範圍,此為連續 性、規律性的數值範圍;若將其分為第1等級為1〇〇%〜 98%、第2等級為90%〜88%......,第9等級為20%〜18%、第 10等級為10%〜8%,即每一等級僅選取其中2%,此為不連續 性但規律性的數值範圍;若將其區分為如下等級: 等級 相似度範圍 級 1 100%〜85% 15% 2 85%〜70% 15% 3 70%〜60% 10% 4 60%〜55% 5% 5 55%〜50% 5°/〇 6 50%〜45% 5% 7 45%〜40% 5% 8 40%〜30% 10% 9 30%〜15% 15% 10 15%〜0% 15% 每一等級僅選取的級距不同’有15%,1〇%,5%,此雖 續的數值範圍’但其級距各有不肖;等級區分數值範圍 方式可以彈性設定,端視使用者需长。 有時候使用者並不要求所有的節點都需要標示出來,
200419386 五、發明說明(11) 而僅!ί選取代表性的節點,加以標示即可,選取的方式可 Ϊ计f母一等級内的節點相關度之平均數,然後取其相關 又在该平均數加減某個特定百分比範圍内的節點, 不超過該等級為準; 靶w以 •步驟304不同等級的節點賦與不同的顏色、圖案或線 條;顏色方面,於電腦顯示時,以RGB(Red,Green 、
Blue)三色為基本原色加以組合為顏色向量,灰階顏 可以R G B呈現;例如,純紅色的向量為(2 5 5, q q ^么亦 色的向量為(0, 255, 0),純藍色的向量為(〇, ’ 〇 &’純綠 白色為( 25 5, 255, 255 ),黑色為(0, 0, 〇);’ 在’於 與節點之相似度劃分等級後,不同等級可賦二定字詞 顏色以深淺不同、層次不同為設計方向;例如,*"邑’ 第10級,以綠色為主但層次深淺不同繪出,别主1級到 1衣於下· 等級 顏 色 1 (〇, 0,0) 2 (〇, 15, 〇) 3 (〇, 31, 0) 4 (〇, 63, 0) 5 (〇, 95, 0) 6 (〇, 127, 0) 7 (〇, 159, 0) 8 (〇, 191, 0) 一 —— 一 I «
第14頁 200419386
9 (〇,223, 0 ) 10 (0, 255, 0) 在圖案方面’可以不同的背景圖案顯示,每一 各有其獨立之規律性,可供無限延展,如圖6所示 條方面,每一個位於文件地圖上的節點需與相同等 離最接近的節點相連,連接的線條可以實線、虛線 等處理,亦可將曲折的線條加以平滑化;如此一來 以標示出相似度接近的節點區塊。 綜合以上所述,本發明之重點說明如下: 圖案皆 在線 級中足巨 點線 ,就可 1 ·文件地圖為一群以點及位置為特徵的文件之集合, 本上使用者無從得知文件地圖對於使用者所輸入的關基 詞有何意義,但是透過本發明,使用者可輕易辨識★字 度高低的文件其分佈狀態,從而搜尋適當之文件。相似 2·然而,正確顯示出使用者指定字詞與文件地圖 點間相關程度,我們使用向量的相關性運算,其的節 件新向量的特徵縮減方式相同的計算方式,二〜=與文 換為向量。 、肘知疋字詞轉 3·顯示相關程度可以顏色、圖案、線條、聲立 利於使用者快速辨識其相關程度分佈情況,曰y刀,有 搜尋更特定範圍之文件。 /米入判斷或 本發明可應用於電腦資訊系統,其傳輪 别方式包括但不
200419386 五、發明說明(13) 限於任何媒介,如網路、無線傳輸裝置等皆可。 本發明之技術内容及技術特點巳揭示如上,然而熟悉 本項技術之人士仍可能基於本發明之教示及揭示而作種種 不背離本發明精神之替換及修飾;因此,本發明之保護範 圍應不限於實施例所揭示者,而應包括各種不背離本發明 之替換及修飾,並為以下之申請專利範圍所涵蓋。
第16頁 200419386 圖式簡單說明 圖1為本發明應用於電腦之架構圖; 圖2為本發明之系統與網路連線圖; 圖3為本發明之主要流程圖; 圖4為指定字詞轉換為向量之流程圖; 圖5 a為一向量矩陣之例示; 圖5b為一向量矩陣經奇點數值分解成為三個矩陣之例示; 圖6為不同背景圖案之例示; 圖7a為四方排列之節點位置圖;及 圖7b為六方排列之節點位置圖。
第17頁
Claims (1)
- 200419386 六、申請專利範圍 法 1. 一種顯示字詞與文件地圖上之文件間相關程 ,包括以下步驟: 又之方 (a)接收一指定字詞; 度 ;⑻計算該指定字詞與文件地圖上的每一節點的相似 ^將該指定字詞與節點間的相似度分為數個等級; 線條 。不同相關度等級的節點賦予不同的顏色、圖案或 其中字詞為單字、 其中文件地圖為自 其中步驟(b)中計 t —如申請專利範圍第1項所述之方法 雙子母組、三字母組或長詞。 3.如申請專利範圍第】項所述之方法 組織映像。 算誃相申專利範圍第1項所述之方法,具〒步驟(b)中計 向量。U度之前,需將指定字詞轉換為與文件特徵相同的 換成★向申旦清專<利範圍第4項所述之方法,其中將指定字詞轉 J里,其步驟如下: 字詞所)存將主所有文件向*,列成[T,D]矩陣,其中τ為所有 代表的維度數目,D為文件數目; [ )_[T,D]矩陣依奇點數值分解為[T,r] ]、 U」二矩陣; 分量每一字詞之向量,字詞t之新向量其第r 值 ”、1[T,R]中的[t,r]與[R,R]中的 ^為1到R,t &到τ ;及第18頁 200419386 六、申請專利範圍 ^ ' ' ------ (d )確認指定字詞的向量值。 H申^專利範圍第1項所述之方法,其中步驟(C)之後 (尚d)包括遙取母一等級之代表性節點,然後再進行步驟 7获矣如工:青專利範圍第6項所述之方法,其選取每-等級之 式為計算每一等級内的文件相關度之平均 内的;1 』關度在該平均數加減某個特定百分比範圍 鬥的文件’靶圍以不超過該等級為準。 8級Λ申請專利範圍第1項所述之方法,其中步驟(c)中等 續。區刀,每一等級之相似度數值範圍可為連續或不連 9妓Λ申請專範圍第1項所述之方法,其中步驟(c)中等 10 Q^母一等級之級距可為相同或不相同。 如申明專利範圍第i項所述之方法,其中步驟(d)中之 ^色以顏色向量RGB或灰階計算之。 線條如申句專利範圍第1項所述之方法,其中步驟中之 件:1為以該文件為端‘點,與相同等級中距離最接近的文 「今目連之線條。 1關2程;種::系統用以顯示字詞與文件地圖上之文件間相 狂度,包括以下模組: 楔:輸入裝置模組,用以接收使用者資訊,送至中央處理 執二mr莫組’用以接收輸入裝置模組傳入資訊,並第19頁 200419386 六、申請專利範圍 ' " (a)接收一指定字詞; ⑻計算該指定字詞與文件地圖上的每一節點的相似 度, (C)將該指定字詞與節點間的相似度分為數個等级; (d)不同相關度等級的節點賦予不同的顏色、圖案或 線條;及 、 一輸出顯示模組,將中央處理模組所運算 輸出裝置。 果顯π於 =·如申請專利範圍第i 2項所述之系統,其中字詞為單 字、雙字母組、三字母組或長詞。 14·如申明專利範圍第1 2項所述之系統,其中文件地圖為 自組織映像。 U二如申請專利範圍第12項所述之系統,其中步驟(b)中 計算該相似度之前,需將指定字詞轉換為與文件特徵相同 的向量。 1 6 ·如申請專利範圍第1 5項所述之系統,其中將指定字詞 轉換成向量,其步驟如下: —、(a)將所有文件向量,列成[T, D]矩陣,其中τ為所有 子3所代表的維度數目,D為文件數目; 「n (b)[T,D]矩陣依奇點數值分解為[T,R]、[R,R]、 [R,D]三矩陣; 八曰(c)循序計算每一字詞之向量,字詞t之新向量其第Γ :里值為[τ, R]中的[t, r]與[R, R]中的[r, r]相乘之 ,Γ為1到R,t為1到T ;及第20頁 200419386 六、申請專利範圍 (d)確認指定字詞的向量值。 17·如申請專利範園第1 2項所述之系統,其中步驟(c)之 後尚包括選取每一等級之代表性節點,然後再進行步驟 (d)。 18·如申請專利範圍第丨7項所述之系統,其選取每一等級 之代表性節點之方式為計算每一等級内的文件相關度之平 均數’然後取其相關度在該平均數加減某個特定百分比範 圍内的文件,範圍以不超過該等級為準。 7·如申請專利範圍第12項所述之系統,其中步驟(c)中 =級之區分,每一等級之相似度數值範圍可為連續或不連 2〇·如申請專利範圍第12項所述之系統,其中步驟中 •^級之區分,每一等級之級距可為相同或不相同。 •如申請專利範圍第12項所述之系統,其中步驟(d)中 〈顏色以顏色向量RGB或灰階計算之。 =·如申請專利範圍第12項所述之系統,其中步驟(d)中 文該文件為端點’與相同等級中距離最接近的 1午相連之線條。 2:,可讀取媒體枯可儲存電腦指令、程式或軟 =電腦裝置用以執行並顯示字詞與文件地圖上之 件間相關程度之方法,包括以 (a)接收—指定字詞; ^驟. 度;⑻計算該指定字詞與文件地圖上的每一節點的相似200419386 六、申請專利範圍 ____ (c) 將該指定字詞與節點間的相似度分為數個· (d) 不同相關度等級的節點賦予不同的顏 闽、f ’ 線條。 〇、圖案或 24·如申請專利範圍第23項所述之電腦可讀取姐辦 字詞為單字、雙字母組、三字母組或長詞。體’其中 25.如申請專利範圍第23項所述之電腦可讀取媒體,豆 文件地圖為自組織映像。 - 26·如申請專利範圍第23項所述之電腦可讀取 步驟(b)中計算該相似度之前,需將指定字換為盥、 件特徵相同的向量。 轉換為與文 27·如申請專利範圍第26項所述之電腦可讀取婼舻甘心 將指定字詞轉換成向量,其步驟如下:取媒體,其中 (a) 將所有文件向量,列成[T, D ]矩陣,其中τ 字詞所代表的維度數目,D為文件數目; … (b) [T,D]矩陣依奇點數值分解為[T,r]、[R [R,D ]三矩陣; 八曰(C)循序計算每一字詞之向量,字詞t之新向量复M 值為[T,R]中的[t,Γ]與[R,R]中的[r, ^ 值,r為1到R,到τ ;及 」和孓之 (d )確認指定字詞的向量值。 2』·睞,申請專利範圍第23項所述之電腦可讀取媒體,盆中 二驟(C)之後尚包括選取每一等級之代表性 進行步驟(d)。 …、傻再 29.如申請專利範圍第28項所述之電腦可讀取媒體,其選第22頁 200419386六、申請專利範圍 取每一等級之代表性節點之方式為計算每一等級内的文件 相關度之平均數,然後取其相關度在該平均數加減某個特 定百分比範圍内的文件,範阛以不超過該等級為準。 3 0·如申請專利範圍第2 3項所述之電腦可讀取媒體,其中 步驟(c)中等級之區分,每〆等級之相似度數值範圍可為 連續或不連續。 “ 31·如申請^專利範圍第23項所述之電腦可讀取媒體,其中 步驟(c)中等級之區分,每一等級之級距可為相同或不相 3 2.如申睛專利範圍第2 3項所述之電腦可讀取 步驟(d) 之顏色以顏色向量RGb或灰階計算之。 3W申^專利範圍第23項所述之電腦可讀取媒體,盆中 步雜⑷中之線條,為以該文件為端體中、中 離最接近的文件相連之線條。 Π核中距
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW92106994A TW200419386A (en) | 2003-03-27 | 2003-03-27 | System and method for showing correlation degree between words and documents on information map |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW92106994A TW200419386A (en) | 2003-03-27 | 2003-03-27 | System and method for showing correlation degree between words and documents on information map |
Publications (1)
Publication Number | Publication Date |
---|---|
TW200419386A true TW200419386A (en) | 2004-10-01 |
Family
ID=52340916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW92106994A TW200419386A (en) | 2003-03-27 | 2003-03-27 | System and method for showing correlation degree between words and documents on information map |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW200419386A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101889196B (zh) * | 2007-12-05 | 2012-07-04 | 芝浦机械电子装置股份有限公司 | 特征分析装置 |
-
2003
- 2003-03-27 TW TW92106994A patent/TW200419386A/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101889196B (zh) * | 2007-12-05 | 2012-07-04 | 芝浦机械电子装置股份有限公司 | 特征分析装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020182019A1 (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
WO2020108608A1 (zh) | 搜索结果处理方法、装置、终端、电子设备及存储介质 | |
WO2019105432A1 (zh) | 文本推荐方法、装置及电子设备 | |
CN103914504B (zh) | 信息处理装置和用于生成图表的方法 | |
US7962500B2 (en) | Digital image retrieval by aggregating search results based on visual annotations | |
WO2020073664A1 (zh) | 指代消解方法、电子装置及计算机可读存储介质 | |
WO2019140863A1 (en) | Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium | |
WO2021012793A1 (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
WO2021155682A1 (zh) | 一种多模态数据检索方法、系统、终端及存储介质 | |
WO2021098794A1 (zh) | 文本搜索方法、装置、服务器及存储介质 | |
US11615263B2 (en) | Content prediction based on pixel-based vectors | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
CN112528315B (zh) | 识别敏感数据的方法和装置 | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN114936623A (zh) | 一种融合多模态数据的方面级情感分析方法 | |
WO2021189908A1 (zh) | 基于深度学习的图像分类方法、装置、服务器及介质 | |
CN109992676B (zh) | 一种跨媒体资源检索方法及检索系统 | |
Dong et al. | Cross-media similarity evaluation for web image retrieval in the wild | |
WO2017203672A1 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
CN111858947A (zh) | 自动知识图谱嵌入方法和系统 | |
CN109190615A (zh) | 形近字识别判定方法、装置、计算机设备和存储介质 | |
US20220383204A1 (en) | Ascertaining and/or mitigating extent of effective reconstruction, of predictions, from model updates transmitted in federated learning | |
JP6433270B2 (ja) | コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法 | |
CN110377819A (zh) | 基于大数据的仲裁员推荐方法、装置和计算机设备 | |
US20200143143A1 (en) | Signature match system and method |