TWI733453B

TWI733453B - 集群分析方法、集群分析系統、及集群分析程式

Info

Publication number: TWI733453B
Application number: TW109116289A
Authority: TW
Inventors: 山邦利; 細谷龍一
Original assignee: 日商愛酷賽股份有限公司
Priority date: 2019-05-17
Filing date: 2020-05-15
Publication date: 2021-07-11
Also published as: CN114911935A; JP2021099847A; TW202139053A; US20230119422A1; CN113015971A; EP3882786A4; JPWO2020235468A1; WO2020235468A1; TW202044101A; US20220043851A1; CN113015971B; TWI806069B; US11636144B2; EP3882786A1; JP6852941B1; JP7490241B2

Abstract

本發明係提供一種集群分析方法、集群分析系統、及集群分析程式，並由伺服器4執行下述步驟：相似度算出步驟(S2)，算出一個文件的內容與其他文件的內容之相似度；集群分類步驟(S3)，依據所算出之相似度將文件作為節點，生成將相似之節點間以邊連結之網路，並以相似之文件進行集群分類；第1指標算出步驟(S4)，算出顯示網路中的文件的中心性之第1指標；第2指標算出步驟(S5)，算出與網路中的第1指標相異而顯示文件的重要性之第2指標；以及表示數據生成步驟(S6)，關於文件，藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、及與文件間之相似度大小相應之表現，而生成顯示網路之第1表示數據。

Description

集群分析方法、集群分析系統、及集群分析程式

本發明係關於一種集群分析方法、集群分析系統、及集群分析程式，其係將複數個文件依其內容分類成集群，並且生成顯示文件之關聯之表示數據。

一直以來，於分析許多的學術論文或文獻等文件之情形，皆是由人來閱讀文件並依照內容進行分類，或製作摘要。由人工進行分析，不僅耗費時間，由複數個人進行分析之情形，更有因作業人員的經驗及知識而致分類或摘要製作的精度參差不齊之傾向。

此外，如學術論文之情形，複雜且專業性高的文件，必須有高度的專業知識以理解內容。然而，即使是不具有如此之專業知識的人亦有希望能容易取得並理解最新資訊，進而將其活用之請求。

例如，已提案有一種集群分析方法，其係對於由概念檢索搜尋而得之技術文獻進行語素分析，並對由語素分析所得之各單字附加權重，而將各技術文獻向量化，並將向量方向彼此相近之技術文獻匯集成一個集群(例如「專利文獻1」。)。

藉由如此之技術雖可將資訊分類成集群，但其並未達到可理解文件間的關係或集群間的關係等的境界。

【先前技術文獻】

【專利文獻】

【專利文獻1】日本特開2005-92443號公報

本發明之目的在於：提供一種集群分析方法、集群分析系統、及集群分析程式，其係藉由將許多的文件，特別是龐大數量的文件分類成由相似之文件所構成之集群，並且使其可俯瞰文件間之關聯，從而可在更短的時間內有效率地理解許多文件的要旨。

亦即，本發明係一種集群分析方法，其係電腦將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析方法，其特徵係具備：相似度算出步驟，係算出一個文件的內容與其他文件的內容之相似度；集群分類步驟，係依據所算出之相似度將文件作為節點，生成將相似之節點間以邊(edge)連結之網路，並分類成由相似之文件所構成之集群；第1指標算出步驟，係算出顯示前述網路中的文件的中心性之第1指標；第2指標算出步驟，係算出與前述網路中的前述第1指標相異之第2指標；以及表示數據生成步驟，係關於文件，藉由與前述第1指標相應之節點的物件(object)大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規(gauge)及前述量規的長度之表現、與前述集群的種類相應之表現、及與文件間之相似度大小相應之表現，而生成顯示前述網路之第1表示數據。

此外，本發明係一種集群分析系統，其係將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析系統，其特徵係具備：相似度算出部，係算出一個文件的內容與其他文件的內容之相似度；集群分類部，係依據所算出之相似度將文件作為節點，生成將相似之節點間以邊連結之網路，並將相似之文件分類成集群；第1指標算出部，係算出顯示網路中的文件的中心性之第1指標；第2指標算出部，係算出與網路中的第1指標相異而顯示文件的重要性之第2指標；以及表示數據生成部，係對於文件，藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、與文件間之相似度大小相應之表現，而生成顯示網路之第1表示數據。

此外，本發明係一種集群分析程式，其係使電腦將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析程式，其特徵係使下述步驟被執行：相似度算出步驟，係算出一個文件的內容與其他文件的內容之相似度；集群分類步驟，係依據所算出之相似度將文件作為節點，生成將相似之節點間以邊連結之網路，並將相似之文件分類成集群；第1指標算出步驟，係算出顯示網路中的文件的中心性之第1指標；

第2指標算出步驟，係算出與網路中的第1指標相異之第2指標；以及表示數據生成步驟，係對於文件，藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、與文件間之相似度大小相應之表現，而生成顯示網路之第1表示數據。

根據本發明，達成藉由將許多的文件，特別是龐大數量的文件分類成由相似之文件所構成之集群，並且使其可俯瞰文件間之關聯，從而可在更短的時間內有效率地理解許多文件(特別是龐大數量的文件)的要旨。

1:集群分析系統

2:文件DB

3:資訊終端裝置

4:伺服器

10:輸出部

11:輸入部

20:文件記憶部

21:相似度算出部

22:集群分類部

23:第1指標算出部

24:第2指標算出部

25:表示數據統合部(表示數據生成部)

25a:第1表示數據生成部

25b:第2表示數據生成部

25c:第3表示數據生成部

26:學習系統

30(30a~30j):節點

31(31a~31j):圓弧

32:邊

N:通訊網

A:第1範圍

B:第2範圍

C:第3範圍

a:第4範圍

【圖1】為本發明之一實施型態之集群分析系統的整體構成圖。

【圖2】為資訊終端裝置之輸出部所表示之集群分析結果的表示例。

【圖3】為第1表示數據之說明圖。

【圖4】為顯示本發明之一實施型態中於集群分析系統之伺服器執行之集群分析控制常式(control routine)之流程圖。

【圖5】為顯示本發明之一實施型態中於集群分析系統之伺服器執行之集群分析控制常式之流程圖。

以下依據圖式說明本發明之一實施型態。

圖1係顯示本發明之一實施型態之集群分析系統的整體構成圖，依據同圖對本實施型態之構成進行說明。

如圖1所示，本實施型態之集群分析系統1，係透過通訊網N連接文件資料庫2(以下將資料庫記載為「DB」。)、資訊終端裝置3、及伺服器4。通訊網N，例如為網際網路、內部網路、VPN(Virtual Private Network)等，為使用有線或無線之通信手段可雙向傳遞資訊之通訊網。此外，圖1中，為了簡化說明而為一個文件DB2及一個資訊終端裝置3連接至一個伺服器4，惟伺服器4係可與複數個文件DB及複數個資訊終端裝置3連接。

文件DB2，例如為儲存有學術論文、專利文獻、雜誌、書籍、新聞報導等文件的資訊的資料庫，並向限定人士或非限定人士公開所儲存之文件。本實施型態中，文件DB2，以儲存有醫學文獻的資訊的文件DB為例進行說明。然而，可儲存於本發明之文件DB之文件的內容、領域、及種類並無限制。本實施型態中，醫學文獻的資訊係包含：作者名稱或出版年、作者的所屬機構等之書目性事項，論文的題目、要旨及本文等之論文的內容性事項，引用、被引用的件數或文獻名稱等之引用、被引用資訊，刊載文獻的學會名稱、雜誌名稱、或出版社名稱等之刊載資訊等。

本說明書中，「文件」(a document)係由「文章」(sentences)所構成，而「文章」係由二個以上的「句子」(a sentence)所構成，而「句子」係由二個以上的「單字」(a word)所構成。本說明書中，「要旨」(abstract)係預先配置於一個文件的開頭或結尾處，以表現該文件的概要或特徵之文章。本說明書中，「摘要」或「摘要句」(皆為summary)係從某個對象中抽出之表現該對象的概要或特徴之一個以上的句子。在此，對象可為文章、文件、或集群。

此外，文件DB2可為可透過通訊網N而瀏覽的網路上的網站；文件記憶部20亦可取得記載於可瀏覽的網站上的文本以作為文件。

將網站作為文件取得之情形，可以以指定件數為上限，取得網路搜尋引擎之搜尋結果。例如，可對於指定的搜尋查詢取得前500件的網站。

資訊終端裝置3，例如為個人電腦(以下稱為「PC」。)、或智慧型手機、平板PC、以及行動電話之類的行動終端裝置，並具有輸出部10、及輸入部11。

輸出部10，例如為顯示器或印表機之類的裝置，並以可目視確認的方式表示伺服器4所生成之表示數據。

輸入部11，例如為鍵盤或滑鼠之類的裝置，可進行資訊的輸入或操作。輸出部10與輸入部11，亦可形成為一體，例如可構成觸控面板。

使用資訊終端裝置3的人(使用者)，可在輸出部10確認伺服器4所生成之表示數據，並且可透過輸入部11對伺服器4發出各種指示。

伺服器4，由一個或複數個伺服器(電腦)所構成，且前述一個或複數個伺服器(電腦)，係對於複數個文件，依文件之內容分類成集群(集群分類)，並且生成顯示各文件之關聯之表示數據。伺服器4係具有各種演算部及記憶部，例如具有文件記憶部20、相似度算出部21、集群分類部22、第1指標算出部23、第2指標算出部24、表示數據統合部25(表示數據生成部)、學習系統26。

詳細而言，文件記憶部20，係透過通訊網N與文件DB2連接，並且從文件DB2中取得並儲存必要之文件資訊的記憶部。例如於本實施型態中，係從文件DB2中取得並儲存醫學文獻。此外，文件記憶部20係具有搜尋功能，藉由從所儲存之文件中抽出包含特定關鍵字的文件，或者依日期抽出特定的文件，從而可取得要分類成集群的文件的母體。文件記憶部20，亦具有當在文件DB2中進行文件的追加或刪除等之更新時，與此同步，自動地進行文件記憶部20內的文件更新之功能。

相似度算出部21，係具有對於文件記憶部20所儲存之文件或所生成之文件的母體，算出一個文件的內容與其他文件的內容之相似度之功能。相似度之算出，例如可使用TF-IDF或餘弦相似度。亦即，相似度算出部21，係對各文件的內容抽出所使用之單字，並根據文件內的出現頻率(TF：Term Frequency)與相對於其他文件中所使用的單字的稀有度(IDF：Inverse Document Frequency)的積，對各單字進行單字的加權，並進行文件的向量化。接著，相似度算出部21，算出向量化後之文件間的餘弦(cos)值以作為該文件間之相似度的值。例如第1文件與第2文件之相似度為0.856，第1文件與第3文件之相似度為0.732般，相似度係以0至1之間的值表示，越接近1表示文件越相似。

集群分類部22，係依據相似度算出部21所算出之相似度，生成包含各文件並以線(以下稱為「邊」。)連結之網路，並以相似之文件分類成集群。集群分類的演算法並無特別限定，例如可使用一種藉由反覆性的計算特定出即使將邊切開亦可極力保持節點彼此間的連接性的集群之演算法(所謂的Girvan-Newman演算法)。

第1指標算出部23，係具有算出第1指標之功能，且前述第1指標係顯示集群分類部22所生成之網路中的各文件的中心性。算出中心性之演算法並無特別限定，例如可使用固有向量中心性(eigenvector centrality)、PageRank、及中介中心性(betweeness centrality)、程度中心性(degree centrality)等。本實施型態中係使用固有向量中心性。固有向量中心性係以下述機率表示：關於網路上的一個文件(以下稱為「節點」。)，於從該網路中的任意節點出發並反覆沿著邊前進之情形，通過該節點的機率。

第2指標算出部24，係具有從文件記憶部20，對於各文件算出與第1指標相異之第2指標之功能。第2指標，例如為依據基於引用、被引用資訊之被引用件數、或基於刊載資訊之刊載文件的學會等之等級等而算出，即所謂的影響因素。如此，第2指標可為顯示文件的絕對重要性而與網路無關之指標，例如，據科睿唯安(clarivate)公司的網站(https：//clarivate.jp/products/journal-citation-reports/impact-factor/)所刊載之說明，影響因素，係為了將刊載文件的期刊(學術雜誌)的影響度數值化並進行評價，從而將該期刊所刊載之所有論文的被引用次數的合計值(=論文群的總影響度)除以論文的刊載篇數而算出者。又，第2指標可為對於該文件所示之重要性個別賦予者，例如可為依據文件的引用資訊而算出者。

用以算出第2指標之引用資訊，可參照文件所含之資訊而取得。此外，亦可以刊載文件之學術雜誌之資訊為基礎，從其他資訊來源獲取如影響因素這類的已知指標。

此外，於文件為網站而非學術論文之情形，作為第2指標，可使用網站瀏覽數等作為顯示文件的重要性的指標。

表示數據統合部25，係具有生成與各文件相關之各種表示數據之功能，並依照表示數據而具有第1表示數據生成部25a、第2表示數據生成部25b、及第3表示數據生成部25c。

圖2為資訊終端裝置之輸出部所表示之集群分析結果的表示例。如同圖所示，第1範圍A所示之表示數據為第1表示數據，第2範圍B所示之表示數據為第2表示數據，及第3範圍C所示之表示數據為第3表示數據。

第1表示數據生成部25a，係具有對於各文件，藉由與第1指標相應之表現、與第2指標相應之表現、與集群的種類相應之表現、及與文件間之相似度大小相應之表現，生成顯示前述網路之第1表示數據之功能。

具體而言，如圖3所示，第1表示數據生成部25a，係以一個圓表示網路上的一個文件(以下稱為「節點」。)，以圓之大小表現第1指標，以顏色表現集群的種類，並以邊的粗細表現相似度大小。此外，第1表示數據生成部25a，係以圓弧的長度表現第2指標。

又，節點並不限於僅包含一個文件者，亦可為包含有複數個文件之節點。例如，一個節點亦可為由相似度高之複數個文件彼此合併而成之節點。

又，表示節點形狀的物件並不限於圓，例如亦可為三角形、四角形、五角形等之多角形，橢圓等比照圓的形狀，心形、星形等常被用作記號的形狀。第1指標的大小亦可用物件的大小表現。

第2指標的大小，可係藉由配置於表示節點之物件的外側的量規、及量規的長度而表現。較佳為可藉由對應於物件形狀之量規、量規的長度來顯示第2指標的大小。例如，於表示節點之物件為圓之情形，對應於圓的形狀之量規的形狀為圓弧，量規則如上所述可用圓弧的長度顯示第2指標。於此情形之作為量規的圓弧的長度，例如可表現為：以網路中的節點中具有第2指標的最大值之節點為基準，使作為最大值之節點的第2指標的量規表現為圓，使與之相比第2指標較小的節點的量規表現為與第2指標的大小相應之圓弧的長度。

圖3中，表示有10個節點30a至30j(以下亦統稱為「節點30」。)，且左上的4個節點30a至30d隸屬於第1集群，右下的6個節點30e至30j隸屬於第2集群。又，第1集群與第2集群，雖於第1範圍A中以相異顏色表示，惟於圖3中以影線(hatching)的不同表示顏色的不同。

節點30的大小係顯示中心性的大小，圖3中節點30a、節點30e比其他節點大，可知其為中心性較高之文件。此外，於節點30，係藉由同心的圓弧31的長度顯示第2指標(例如影響因素)。因此，於圖3中，由於節點30a的圓弧31a、節點30g的圓弧31g為較長的圓弧，故可知其為影響因素較大之文件。

此外，連結節點30之邊32的粗細顯示以該邊32連結之文件間的相似度大小。因此，於圖3中，由於節點30a與節點30c之間的邊32、及節點30e與節點30h之間的邊32較粗，故可知此等節點間的相似度較高。

進一步地，第1表示數據生成部25a，係可將網路放大表示及縮小表示，並依照該放大表示及縮小表示，增減所表示之邊的數量，並生成第1表示數據。例如，第1表示數據生成部25a，係設定一越是縮小表示值越高的閾值，並且僅表示相似度在該閾值以上的邊。藉此，越是將網路縮小表示，相對於所表示之節點的數量增加，連接於一個節點的邊的表示數量則越是減少。

此外，於將網路放大表示及縮小表示時，亦可將相似度高且鄰接的複數個節點合併表示。藉此，可在即使縮小表示亦不會增加節點的數量的情況下表示網路。

此外，第1表示數據生成部25a，係使用基於力學模型的繪圖演算法決定各節點的位置、及間隔，即邊的長度。例如，第1表示數據生成部25a，係使連接有許多邊的節點、及與該節點直接連接的節點受引力作用，並繪圖以形成就近集結的島。另一方面，使島彼此間產生斥力，並繪圖以將其配置於互相遠離的位置。藉由使用如此之力學模型來決定各節點的位置、及間隔，而使各節點在不發生重複的情形下以適度的間隔被配置。

進一步地，第1表示數據生成部25a，如圖2之第4範圍a所示，作為凡例，表示各集群的顏色及該集群的摘要句。具體而言，第1表示數據生成部25a，係例如對於同一集群內的文件，將其分解成構成醫學文獻中各項目(研究的定位、研究背景、先前研究的課題、研究目的、研究貢獻、研究意義等)的文章，並抽出一個或複數個構成特定項目(研究目的、研究意義)的文章作為摘要要素。接著，第1表示數據生成部25a，依據所抽出之摘要要素製作摘要句。此將各文件分解成各項目之處理，可使用已機器學習將各文件分解成各項目之處理的AI。此外，依據摘要要素製作摘要句之處理，可使用依據摘要要素製作摘要句的AI。

此外，於文件為網站之情形，亦可依據刊載於網站上的文本製作摘要句。由於亦存在網站為複數個文件的集合體之情形，因此亦可將由複數個文件所構成之一個網站當作一個集中一處的節點。

第2表示數據生成部25b，係具有將屬於一個集群的文件的題目、要旨、本文之至少一個中所含之出現頻率高的單字抽出，並生成以與該出現頻率相應的大小表示該單字之第2表示數據之功能。具體而言，如圖2之第2範圍B所示，於圓形框內，在第1範圍A中所指定之一個集群內越頻繁出現的單字，以越大的字型表現。例如，於圖2中，「clinical」這個文字被顯示得最大，接著是「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」被放大顯示。各個單字，為了不使其與其他單字重疊，可以橫方向或縱方向等任意的位置關係被配置。

第3表示數據生成部25c，係具有將屬於一個集群的文件的前述題目、要旨、本文之至少一個中所含之出現頻率高的單字抽出，並生成依照該出現頻率依序表示該單字之第3表示數據之功能。亦即，第3表示數據生成部25c，係依照出現頻率表示(即所謂的排名表示)在第2表示數據生成部25b中亦被抽出的在所指定之一個集群內頻繁出現的單字。例如，於圖2中，係將「clinical」配置於最上方，接著於其下配置「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」。進一步地，第3表示數據生成部25c，可如「clinical 100%」、「Vedolizumab 88%」般，將所指定之集群內的文件中的單字使用率亦包含於表示數據中。

此外，相似度算出部21、及集群分類部22，係具有將包含特定單字之文件從分析中去除，並輸出再度分析之分析結果，使其反映於第1表示數據、第2表示數據、第3表示數據之功能，且前述特定單字為所抽出之出現頻率高的單字等。

此外，相似度算出部21、及集群分類部22，係具有將顯示包含特定單字之文件的節點，於第1表示數據所顯示之網路上醒目表示之功能，且前述特定單字為所抽出之出現頻率高的單字等。

使節點醒目的方法，可藉由變換節點的色彩或者添加視覺效果等之各種方法，表示其包含所選擇之單字。

表示數據統合部25，係將生成於此等第1表示數據生成部25a、第2表示數據生成部25b、第3表示數據生成部25c之各表示數據統合至如圖2所示的一個畫面而生成表示數據，並發送至透過伺服器4與通訊網N連接之資訊終端裝置3。

學習系統26，係具有供給將上述第1表示數據生成部25a中的各文件分解成各項目的AI、依據摘要要素製作摘要句的AI之功能。詳細而言，學習系統26，係藉由將事先已弄清各項目之文件的數據作為學習用數據(教師數據)進行機器學習(例如深度學習或類神經網路)，而生成將文件分解成其構成要素之項目的AI(已完成學習的模型)；藉由將事先已使用摘要要素之摘要句作為學習用數據進行機器學習(例如深度學習或類神經網路)，而生成依據摘要要素製作摘要句的AI(已完成學習的模型)。

如此構成之集群分析系統1中，例如當使用者透過資訊終端裝置3的輸入部11對伺服器4輸入特定的疾病名稱等之資訊時，將與輸入資訊相應之如圖2所示之各表示數據由伺服器4輸出至資訊終端裝置3的輸出部10。

圖4為顯示於集群分析系統1之伺服器4執行之集群分析控制常式之流程圖。以下，依據同流程圖對本實施型態之集群分析方法進行詳細說明。

伺服器4，當從資訊終端裝置3接收到特定的疾病名稱等之輸入資訊時，作為步驟S1，從文件記憶部20取得對應於該輸入資訊之文件的母體。

接著於步驟S2中，相似度算出部21，算出構成母體之文件間的相似度。

此外，於步驟S3中，集群分類部22，依據步驟S2所算出之相似度生成文件間的網路，並進行分類使相似之文件的集合構成集群。

於步驟S4中，第1指標算出部23，算出顯示步驟S3所生成之網路中的文件的中心性之第1指標。

於步驟S5中，第2指標算出部24算出第2指標。第2指標，例如為期刊的影響因素。

於步驟S6中，分別由第1表示數據生成部25a生成第1表示數據，第2表示數據生成部25b生成第2表示數據，第3表示數據生成部25c生成第3表示數據，並由表示數據統合部25生成將此等之各表示數據統合後之表示數據。接著，表示數據統合部25將統合後之表示數據發送至資訊終端裝置3，並結束該常式。

圖5為顯示在去除特定單字後進行再度分析之情形下，於集群分析系統1之伺服器4執行之集群分析控制常式之流程圖。又，省略與上述相同之流程的說明。

伺服器4，作為步驟S9，將第3表示數據中所含之出現頻率高的單字等，應自文件的母體中去除之文件所含的單字的候選字，表示於資訊終端裝置3的輸出部10等。

作為步驟S10，使用者使用資訊終端裝置3的輸入部11等輸入或選擇應去除之單字。伺服器4，受理單字之輸入或選擇。

作為步驟S11，在步驟S10中選擇應去除之單字後，取得將包含應去除之單字的文件除去後的文件的母體。在此之後的步驟S12~S16之處理流程，由於與上述所說明之步驟S2~S6之處理流程相同，故省略說明。

如以上所述，於本實施型態之集群分析系統1中，依據僅由對文件內容的自然語言處理而得之文件間之相似度而形成網路，形成相似之文件的集群，並以與顯示中心性之第1指標相應之表現、與集群的種類相應之表現、及與相似度大小相應之表現，生成顯示該網路之第1表示數據，從而可藉由一個表示對各文件的資訊至文件間的關聯性進行掌握。亦即，本實施型態之第1表示數據之網路，係於未使用文件之引用、被引用資訊之情況下，僅依據除去此等資訊之文件內容而形成，因此可形成與文件內容之相似度相應之集群。

進一步地，藉由於第1表示數據中一併顯示與基於文件內容之第1指標相異之影響因素等的第2指標，可容易且多方面地掌握文件的定位及重要性。

此外，於第1表示數據中，藉由以顯示文件之節點的物件大小表現第1指標，並依與物件的形狀相應之形狀的量規、及量規的長度來表現第2指標，從而可同時且直觀地掌握文件的中心性及重要性。

此外，藉由從分析對象中去除包含指定單字(從文件中所含之出現頻率高的單字中指定之單字)之文件，並進行再度分析，從而可將出現頻率雖高但較不感興趣的文件去除，以抽出更加感興趣的文件進行掌握。

此外，藉由將顯示包含指定單字(從文件中所含之出現頻率高的單字中指定之單字)之文件的節點於網路中醒目表示，可掌握包含感興趣的單字之文件位於網路上的哪個位置。

此外，於第1表示數據中，藉由使用力學模型決定網路上各文件的配置，使複數個文件不會以重疊的方式顯示，從而可提升視認性。

進一步地，於第1表示數據中，可將網路放大表示及縮小表示，並依照該放大表示及縮小表示來增減表示之邊的數量。藉此，依網路之放大表示及縮小表示，避免邊被繁雜地表示，而可提升閱覽性。此外，藉此，由於依網路之放大表示及縮小表示，資訊量被最佳化，因此可減輕伺服器4處理的負擔及削減送往資訊終端裝置3的資訊量，並可順暢地進行表示變更。

此外，於生成第1表示數據的同時，生成將屬於集群的文件中所含之出現頻率高的單字抽出，並以與該出現頻率相應之大小表示該單字之第2表示數據，以及依照該出現頻率依序表示該單字之第3表示數據，從而可更容易地掌握各集群的內容。特別是於第2表示數據及第3表示數據中，藉由以文件之至少題目、要旨、本文中的一個為對象抽出出現頻率，例如即使是只能取得題目及要旨的文件、或者沒有題目及要旨而只有本文的文件，亦可抽出出現頻率，從而可抽出更適合用以表示集群的單字。

如此，根據本實施型態，藉由將許多的文件，特別是龐大數量的文件分類成由相似之文件所構成之集群，並且使其可俯瞰文件間之關聯，從而可在更短的時間內有效率地理解許多文件的要旨。

以上，具體說明本發明之一實施型態，惟本發明並不限於該實施型態，可以理解到本案所屬技術領域中具有通常知識者，可在不脫離本案申請專利範圍所界定之本發明之範圍或旨趣之情況下，執行其等中之各種變更及改變。

上述實施型態中，第1表示數據生成部25a係如圖3所示，以圓的大小表現第1指標，並以圓弧的長度表現第2指標。第1指標及第2指標之表現並不限於此，例如，亦可將以一個顏色顯示之第1指標配置於內側，並將以其他顏色顯示之第2指標配置於外側，而顯示為兩層同心圓。

此外，上述實施型態中，於算出相似度時使用TF-IDF及餘弦相似度；作為集群分類之演算法，使用Girvan-Newman演算法；及作為算出中心性之演算法，使用固有向量中心性。相似度、集群分類、及中心性之各自的算出手法，並不限於此等演算法，例如：可分別使用其他的演算法，亦可相似度、集群分類、及中心性統一使用一個演算法進行處理。

Claims

一種集群分析方法，其係電腦將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析方法，其特徵係具備：相似度算出步驟，係算出一個文件的內容與其他文件的內容之相似度；集群分類步驟，係依據所算出之相似度將文件或集群作為節點，生成將相似之節點間以邊(edge)連結之網路，並分類成由相似之文件所構成之集群；第1指標算出步驟，係算出顯示前述網路中的文件的中心性之第1指標；第2指標算出步驟，係算出與前述網路中的前述第1指標相異而顯示文件的重要性之第2指標；以及表示數據生成步驟，係關於文件，藉由與前述第1指標相應之節點的物件(object)大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規(gauge)及前述量規的長度之表現、與前述集群的種類相應之表現、及與文件間之相似度大小相應之表現，而生成顯示前述網路之第1表示數據。
如申請專利範圍第1項所記載之集群分析方法，其中，前述表示數據生成步驟中，係以圓表現第1指標的物件，並以與前述第1指標之圓為同心之圓弧、及前述圓弧的長度表現前述第2指標的量規而生成表示數據。
如申請專利範圍第1或2項所記載之集群分析方法，其中，前述文件，作為其構成要素係具有題目、要旨、及本文中的至少一個；前述表示數據生成步驟，係進一步將屬於一個集群的文件的題目、要旨、及本文之至少一個中所含之出現頻率高的單字抽出，並生成以與前述出現頻率相應的大小表示前述單字之第2表示數據。
如申請專利範圍第1項所記載之集群分析方法，其中，前述文件，作為其構成要素係具有題目、要旨、及本文中的至少一個；前述表示數據生成步驟，係進一步將屬於一個集群的文件的題目、要旨、及本文之至少一個中所含之出現頻率高的單字抽出，並生成依照前述出現頻率依序表示前述單字之第3表示數據。
如申請專利範圍第1項所記載之集群分析方法，其中，前述文件係刊載於學術雜誌之文件，前述第2指標係依前述文件之引用而算出者。
如申請專利範圍第1項所記載之集群分析方法，其中，前述文件，係以指定件數為上限並藉由網路搜尋而取得之網站上所記載的文件。
如申請專利範圍第6項所記載之集群分析方法，其中，前述第2指標係依前述網站的瀏覽數而算出者。
如申請專利範圍第6或7項所記載之集群分析方法，其中，抽出前述文件中所含之出現頻率高的單字，並生成以與前述出現頻率相應的大小表示前述單字之第2表示數據。
如申請專利範圍第6或7項所記載之集群分析方法，其中，抽出前述文件中所含之出現頻率高的單字，並生成依照前述出現頻率依序表示前述單字之第3表示數據。
如申請專利範圍第1項所記載之集群分析方法，其中，進一步具備：從分析對象中去除包含指定單字之文件，並進行再度分析之步驟，且前述指定單字係從前述文件中所含之出現頻率高的單字中指定。
如申請專利範圍第1項所記載之集群分析方法，其中，進一步具備：將顯示包含指定單字之文件或集群的節點於網路中醒目表示而生成第1表示數據之步驟，且前述指定單字係從前述文件中所含之出現頻率高的單字中指定。
如申請專利範圍第1項所記載之集群分析方法，其中，前述表示數據生成步驟，係使用力學模型決定前述網路上文件的配置，使複數個文件不會以重疊的方式被表示。
如申請專利範圍第1項所記載之集群分析方法，其中，前述表示數據生成步驟，係以連結文件與文件的前述邊的粗細，表現與前述文件間之相似度大小相應之表現，並且可將前述網路放大及縮小表示，並依照前述放大及縮小表示來增減前述邊的表示數量，而生成前述第1表示數據。
一種集群分析系統，其係將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析系統，其特徵係具備：相似度算出部，係算出一個文件的內容與其他文件的內容之相似度；集群分類部，係依據所算出之相似度將文件作為節點，生成將相似之節點間以邊連結之網路，並將相似之文件分類成集群；第1指標算出部，係算出顯示前述網路中的文件的中心性之第1指標；第2指標算出部，係算出與前述網路中的前述第1指標相異而顯示文件的重要性之第2指標；以及表示數據生成部，係對於文件，藉由與前述第1指標相應之節點的物件大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規及前述量規的長度之表現、與前述集群的種類相應之表現、與文件間之相似度大小相應之表現，而生成顯示前述網路之第1表示數據。
一種集群分析程式，其係使電腦將複數個文件依其內容分類成集群，並且生成顯示文件間之關聯之表示數據的集群分析程式，其特徵係使下述步驟被執行：相似度算出步驟，係算出一個文件的內容與其他文件的內容之相似度；集群分類步驟，係依據所算出之相似度將文件作為節點，生成將相似之節點間以邊連結之網路，並將相似之文件分類成集群；第1指標算出步驟，係算出顯示前述網路中的文件的中心性之第1指標；第2指標算出步驟，係算出與前述網路中的前述第1指標相異之第2指標；以及表示數據生成步驟，係對於文件，藉由與前述第1指標相應之節點的物件大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規及前述量規的長度之表現、與前述集群的種類相應之表現、與文件間之相似度大小相應之表現，而生成顯示前述網路之第1表示數據。