TWI733453B - 集群分析方法、集群分析系統、及集群分析程式 - Google Patents

集群分析方法、集群分析系統、及集群分析程式 Download PDF

Info

Publication number
TWI733453B
TWI733453B TW109116289A TW109116289A TWI733453B TW I733453 B TWI733453 B TW I733453B TW 109116289 A TW109116289 A TW 109116289A TW 109116289 A TW109116289 A TW 109116289A TW I733453 B TWI733453 B TW I733453B
Authority
TW
Taiwan
Prior art keywords
aforementioned
documents
index
document
cluster
Prior art date
Application number
TW109116289A
Other languages
English (en)
Other versions
TW202044101A (zh
Inventor
山邦利
細谷龍一
Original Assignee
日商愛酷賽股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商愛酷賽股份有限公司 filed Critical 日商愛酷賽股份有限公司
Publication of TW202044101A publication Critical patent/TW202044101A/zh
Application granted granted Critical
Publication of TWI733453B publication Critical patent/TWI733453B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Generation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本發明係提供一種集群分析方法、集群分析系統、及集群分析程式,並由伺服器4執行下述步驟:相似度算出步驟(S2),算出一個文件的內容與其他文件的內容之相似度;集群分類步驟(S3),依據所算出之相似度將文件作為節點,生成將相似之節點間以邊連結之網路,並以相似之文件進行集群分類;第1指標算出步驟(S4),算出顯示網路中的文件的中心性之第1指標;第2指標算出步驟(S5),算出與網路中的第1指標相異而顯示文件的重要性之第2指標;以及表示數據生成步驟(S6),關於文件,藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、及與文件間之相似度大小相應之表現,而生成顯示網路之第1表示數據。

Description

集群分析方法、集群分析系統、及集群分析程式
本發明係關於一種集群分析方法、集群分析系統、及集群分析程式,其係將複數個文件依其內容分類成集群,並且生成顯示文件之關聯之表示數據。
一直以來,於分析許多的學術論文或文獻等文件之情形,皆是由人來閱讀文件並依照內容進行分類,或製作摘要。由人工進行分析,不僅耗費時間,由複數個人進行分析之情形,更有因作業人員的經驗及知識而致分類或摘要製作的精度參差不齊之傾向。
此外,如學術論文之情形,複雜且專業性高的文件,必須有高度的專業知識以理解內容。然而,即使是不具有如此之專業知識的人亦有希望能容易取得並理解最新資訊,進而將其活用之請求。
例如,已提案有一種集群分析方法,其係對於由概念檢索搜尋而得之技術文獻進行語素分析,並對由語素分析所得之各單字附加權重,而將各技術文獻向量化,並將向量方向彼此相近之技術文獻匯集成一個集群(例如「專利文獻1」。)。
藉由如此之技術雖可將資訊分類成集群,但其並未達到可理 解文件間的關係或集群間的關係等的境界。
【先前技術文獻】
【專利文獻】
【專利文獻1】日本特開2005-92443號公報
本發明之目的在於:提供一種集群分析方法、集群分析系統、及集群分析程式,其係藉由將許多的文件,特別是龐大數量的文件分類成由相似之文件所構成之集群,並且使其可俯瞰文件間之關聯,從而可在更短的時間內有效率地理解許多文件的要旨。
亦即,本發明係一種集群分析方法,其係電腦將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析方法,其特徵係具備:相似度算出步驟,係算出一個文件的內容與其他文件的內容之相似度;集群分類步驟,係依據所算出之相似度將文件作為節點,生成將相似之節點間以邊(edge)連結之網路,並分類成由相似之文件所構成之集群;第1指標算出步驟,係算出顯示前述網路中的文件的中心性之第1指標;第2指標算出步驟,係算出與前述網路中的前述第1指標相異之第2指 標;以及表示數據生成步驟,係關於文件,藉由與前述第1指標相應之節點的物件(object)大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規(gauge)及前述量規的長度之表現、與前述集群的種類相應之表現、及與文件間之相似度大小相應之表現,而生成顯示前述網路之第1表示數據。
此外,本發明係一種集群分析系統,其係將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析系統,其特徵係具備:相似度算出部,係算出一個文件的內容與其他文件的內容之相似度;集群分類部,係依據所算出之相似度將文件作為節點,生成將相似之節點間以邊連結之網路,並將相似之文件分類成集群;第1指標算出部,係算出顯示網路中的文件的中心性之第1指標;第2指標算出部,係算出與網路中的第1指標相異而顯示文件的重要性之第2指標;以及表示數據生成部,係對於文件,藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、與文件間之相似度大小相應之表現,而生成顯示網路之第1表示數據。
此外,本發明係一種集群分析程式,其係使電腦將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析程式,其特徵係使下述步驟被執行:相似度算出步驟,係算出一個文件的內容與其他文件的內容之相似度;集群分類步驟,係依據所算出之相似度將文件作為節點,生成將相似之節點間以邊連結之網路,並將相似之文件分類成集群;第1指標算出步驟,係算出顯示網路中的文件的中心性之第1指標;
第2指標算出步驟,係算出與網路中的第1指標相異之第2指標;以及表示數據生成步驟,係對於文件,藉由與第1指標相應之節點的物件大小之表現、與第2指標相應之對應於物件的形狀之形狀的量規及量規的長度之表現、與集群的種類相應之表現、與文件間之相似度大小相應之表現,而生成顯示網路之第1表示數據。
根據本發明,達成藉由將許多的文件,特別是龐大數量的文件分類成由相似之文件所構成之集群,並且使其可俯瞰文件間之關聯,從而可在更短的時間內有效率地理解許多文件(特別是龐大數量的文件)的要旨。
1:集群分析系統
2:文件DB
3:資訊終端裝置
4:伺服器
10:輸出部
11:輸入部
20:文件記憶部
21:相似度算出部
22:集群分類部
23:第1指標算出部
24:第2指標算出部
25:表示數據統合部(表示數據生成部)
25a:第1表示數據生成部
25b:第2表示數據生成部
25c:第3表示數據生成部
26:學習系統
30(30a~30j):節點
31(31a~31j):圓弧
32:邊
N:通訊網
A:第1範圍
B:第2範圍
C:第3範圍
a:第4範圍
【圖1】為本發明之一實施型態之集群分析系統的整體構成圖。
【圖2】為資訊終端裝置之輸出部所表示之集群分析結果的表示例。
【圖3】為第1表示數據之說明圖。
【圖4】為顯示本發明之一實施型態中於集群分析系統之伺服器執行之集群分析控制常式(control routine)之流程圖。
【圖5】為顯示本發明之一實施型態中於集群分析系統之伺服器執行之集群分析控制常式之流程圖。
以下依據圖式說明本發明之一實施型態。
圖1係顯示本發明之一實施型態之集群分析系統的整體構成圖,依據同圖對本實施型態之構成進行說明。
如圖1所示,本實施型態之集群分析系統1,係透過通訊網N連接文件資料庫2(以下將資料庫記載為「DB」。)、資訊終端裝置3、及伺服器4。通訊網N,例如為網際網路、內部網路、VPN(Virtual Private Network)等,為使用有線或無線之通信手段可雙向傳遞資訊之通訊網。此外,圖1中,為了簡化說明而為一個文件DB2及一個資訊終端裝置3連接至一個伺服器4,惟伺服器4係可與複數個文件DB及複數個資訊終端裝置3連接。
文件DB2,例如為儲存有學術論文、專利文獻、雜誌、書籍、新聞報導等文件的資訊的資料庫,並向限定人士或非限定人士公開所儲存之文件。本實施型態中,文件DB2,以儲存有醫學文獻的資訊的文件DB為例進行說明。然而,可儲存於本發明之文件DB之文件的內容、領域、及種類並無限制。本實施型態中,醫學文獻的資訊係包含:作者名稱或出版年、作者的所屬機構等之書目性事項,論文的題目、要旨及本文等之論文的內容性事項,引用、被引用的件數或文獻名稱等之引用、被引用資訊,刊載文獻的學會名稱、雜誌名稱、或出版社名稱等之刊載資訊等。
本說明書中,「文件」(a document)係由「文章」(sentences)所構成,而「文章」係由二個以上的「句子」(a sentence)所構成,而「句子」係由二個以上的「單字」(a word)所構成。本說明書中,「要旨」(abstract)係預先配置於一個文件的開頭或結尾處,以表現該文件的概要或特徵之文 章。本說明書中,「摘要」或「摘要句」(皆為summary)係從某個對象中抽出之表現該對象的概要或特徴之一個以上的句子。在此,對象可為文章、文件、或集群。
此外,文件DB2可為可透過通訊網N而瀏覽的網路上的網站;文件記憶部20亦可取得記載於可瀏覽的網站上的文本以作為文件。
將網站作為文件取得之情形,可以以指定件數為上限,取得網路搜尋引擎之搜尋結果。例如,可對於指定的搜尋查詢取得前500件的網站。
資訊終端裝置3,例如為個人電腦(以下稱為「PC」。)、或智慧型手機、平板PC、以及行動電話之類的行動終端裝置,並具有輸出部10、及輸入部11。
輸出部10,例如為顯示器或印表機之類的裝置,並以可目視確認的方式表示伺服器4所生成之表示數據。
輸入部11,例如為鍵盤或滑鼠之類的裝置,可進行資訊的輸入或操作。輸出部10與輸入部11,亦可形成為一體,例如可構成觸控面板。
使用資訊終端裝置3的人(使用者),可在輸出部10確認伺服器4所生成之表示數據,並且可透過輸入部11對伺服器4發出各種指示。
伺服器4,由一個或複數個伺服器(電腦)所構成,且前述一個或複數個伺服器(電腦),係對於複數個文件,依文件之內容分類成集群(集群分類),並且生成顯示各文件之關聯之表示數據。伺服器4係具有各種演算部及記憶部,例如具有文件記憶部20、相似度算出部21、集群分類部22、第1指標算出部23、第2指標算出部24、表示數據統合部25(表示數據生 成部)、學習系統26。
詳細而言,文件記憶部20,係透過通訊網N與文件DB2連接,並且從文件DB2中取得並儲存必要之文件資訊的記憶部。例如於本實施型態中,係從文件DB2中取得並儲存醫學文獻。此外,文件記憶部20係具有搜尋功能,藉由從所儲存之文件中抽出包含特定關鍵字的文件,或者依日期抽出特定的文件,從而可取得要分類成集群的文件的母體。文件記憶部20,亦具有當在文件DB2中進行文件的追加或刪除等之更新時,與此同步,自動地進行文件記憶部20內的文件更新之功能。
相似度算出部21,係具有對於文件記憶部20所儲存之文件或所生成之文件的母體,算出一個文件的內容與其他文件的內容之相似度之功能。相似度之算出,例如可使用TF-IDF或餘弦相似度。亦即,相似度算出部21,係對各文件的內容抽出所使用之單字,並根據文件內的出現頻率(TF:Term Frequency)與相對於其他文件中所使用的單字的稀有度(IDF:Inverse Document Frequency)的積,對各單字進行單字的加權,並進行文件的向量化。接著,相似度算出部21,算出向量化後之文件間的餘弦(cos)值以作為該文件間之相似度的值。例如第1文件與第2文件之相似度為0.856,第1文件與第3文件之相似度為0.732般,相似度係以0至1之間的值表示,越接近1表示文件越相似。
集群分類部22,係依據相似度算出部21所算出之相似度,生成包含各文件並以線(以下稱為「邊」。)連結之網路,並以相似之文件分類成集群。集群分類的演算法並無特別限定,例如可使用一種藉由反覆性的計算特定出即使將邊切開亦可極力保持節點彼此間的連接性的集群之演算 法(所謂的Girvan-Newman演算法)。
第1指標算出部23,係具有算出第1指標之功能,且前述第1指標係顯示集群分類部22所生成之網路中的各文件的中心性。算出中心性之演算法並無特別限定,例如可使用固有向量中心性(eigenvector centrality)、PageRank、及中介中心性(betweeness centrality)、程度中心性(degree centrality)等。本實施型態中係使用固有向量中心性。固有向量中心性係以下述機率表示:關於網路上的一個文件(以下稱為「節點」。),於從該網路中的任意節點出發並反覆沿著邊前進之情形,通過該節點的機率。
第2指標算出部24,係具有從文件記憶部20,對於各文件算出與第1指標相異之第2指標之功能。第2指標,例如為依據基於引用、被引用資訊之被引用件數、或基於刊載資訊之刊載文件的學會等之等級等而算出,即所謂的影響因素。如此,第2指標可為顯示文件的絕對重要性而與網路無關之指標,例如,據科睿唯安(clarivate)公司的網站(https://clarivate.jp/products/journal-citation-reports/impact-factor/)所刊載之說明,影響因素,係為了將刊載文件的期刊(學術雜誌)的影響度數值化並進行評價,從而將該期刊所刊載之所有論文的被引用次數的合計值(=論文群的總影響度)除以論文的刊載篇數而算出者。又,第2指標可為對於該文件所示之重要性個別賦予者,例如可為依據文件的引用資訊而算出者。
用以算出第2指標之引用資訊,可參照文件所含之資訊而取得。此外,亦可以刊載文件之學術雜誌之資訊為基礎,從其他資訊來源獲取如影響因素這類的已知指標。
此外,於文件為網站而非學術論文之情形,作為第2指標, 可使用網站瀏覽數等作為顯示文件的重要性的指標。
表示數據統合部25,係具有生成與各文件相關之各種表示數據之功能,並依照表示數據而具有第1表示數據生成部25a、第2表示數據生成部25b、及第3表示數據生成部25c。
圖2為資訊終端裝置之輸出部所表示之集群分析結果的表示例。如同圖所示,第1範圍A所示之表示數據為第1表示數據,第2範圍B所示之表示數據為第2表示數據,及第3範圍C所示之表示數據為第3表示數據。
第1表示數據生成部25a,係具有對於各文件,藉由與第1指標相應之表現、與第2指標相應之表現、與集群的種類相應之表現、及與文件間之相似度大小相應之表現,生成顯示前述網路之第1表示數據之功能。
具體而言,如圖3所示,第1表示數據生成部25a,係以一個圓表示網路上的一個文件(以下稱為「節點」。),以圓之大小表現第1指標,以顏色表現集群的種類,並以邊的粗細表現相似度大小。此外,第1表示數據生成部25a,係以圓弧的長度表現第2指標。
又,節點並不限於僅包含一個文件者,亦可為包含有複數個文件之節點。例如,一個節點亦可為由相似度高之複數個文件彼此合併而成之節點。
又,表示節點形狀的物件並不限於圓,例如亦可為三角形、四角形、五角形等之多角形,橢圓等比照圓的形狀,心形、星形等常被用作記號的形狀。第1指標的大小亦可用物件的大小表現。
第2指標的大小,可係藉由配置於表示節點之物件的外側的量規、及量規的長度而表現。較佳為可藉由對應於物件形狀之量規、量規的 長度來顯示第2指標的大小。例如,於表示節點之物件為圓之情形,對應於圓的形狀之量規的形狀為圓弧,量規則如上所述可用圓弧的長度顯示第2指標。於此情形之作為量規的圓弧的長度,例如可表現為:以網路中的節點中具有第2指標的最大值之節點為基準,使作為最大值之節點的第2指標的量規表現為圓,使與之相比第2指標較小的節點的量規表現為與第2指標的大小相應之圓弧的長度。
圖3中,表示有10個節點30a至30j(以下亦統稱為「節點30」。),且左上的4個節點30a至30d隸屬於第1集群,右下的6個節點30e至30j隸屬於第2集群。又,第1集群與第2集群,雖於第1範圍A中以相異顏色表示,惟於圖3中以影線(hatching)的不同表示顏色的不同。
節點30的大小係顯示中心性的大小,圖3中節點30a、節點30e比其他節點大,可知其為中心性較高之文件。此外,於節點30,係藉由同心的圓弧31的長度顯示第2指標(例如影響因素)。因此,於圖3中,由於節點30a的圓弧31a、節點30g的圓弧31g為較長的圓弧,故可知其為影響因素較大之文件。
此外,連結節點30之邊32的粗細顯示以該邊32連結之文件間的相似度大小。因此,於圖3中,由於節點30a與節點30c之間的邊32、及節點30e與節點30h之間的邊32較粗,故可知此等節點間的相似度較高。
進一步地,第1表示數據生成部25a,係可將網路放大表示及縮小表示,並依照該放大表示及縮小表示,增減所表示之邊的數量,並生成第1表示數據。例如,第1表示數據生成部25a,係設定一越是縮小表示值越高的閾值,並且僅表示相似度在該閾值以上的邊。藉此,越是將網路縮小表 示,相對於所表示之節點的數量增加,連接於一個節點的邊的表示數量則越是減少。
此外,於將網路放大表示及縮小表示時,亦可將相似度高且鄰接的複數個節點合併表示。藉此,可在即使縮小表示亦不會增加節點的數量的情況下表示網路。
此外,第1表示數據生成部25a,係使用基於力學模型的繪圖演算法決定各節點的位置、及間隔,即邊的長度。例如,第1表示數據生成部25a,係使連接有許多邊的節點、及與該節點直接連接的節點受引力作用,並繪圖以形成就近集結的島。另一方面,使島彼此間產生斥力,並繪圖以將其配置於互相遠離的位置。藉由使用如此之力學模型來決定各節點的位置、及間隔,而使各節點在不發生重複的情形下以適度的間隔被配置。
進一步地,第1表示數據生成部25a,如圖2之第4範圍a所示,作為凡例,表示各集群的顏色及該集群的摘要句。具體而言,第1表示數據生成部25a,係例如對於同一集群內的文件,將其分解成構成醫學文獻中各項目(研究的定位、研究背景、先前研究的課題、研究目的、研究貢獻、研究意義等)的文章,並抽出一個或複數個構成特定項目(研究目的、研究意義)的文章作為摘要要素。接著,第1表示數據生成部25a,依據所抽出之摘要要素製作摘要句。此將各文件分解成各項目之處理,可使用已機器學習將各文件分解成各項目之處理的AI。此外,依據摘要要素製作摘要句之處理,可使用依據摘要要素製作摘要句的AI。
此外,於文件為網站之情形,亦可依據刊載於網站上的文本製作摘要句。由於亦存在網站為複數個文件的集合體之情形,因此亦可將由 複數個文件所構成之一個網站當作一個集中一處的節點。
第2表示數據生成部25b,係具有將屬於一個集群的文件的題目、要旨、本文之至少一個中所含之出現頻率高的單字抽出,並生成以與該出現頻率相應的大小表示該單字之第2表示數據之功能。具體而言,如圖2之第2範圍B所示,於圓形框內,在第1範圍A中所指定之一個集群內越頻繁出現的單字,以越大的字型表現。例如,於圖2中,「clinical」這個文字被顯示得最大,接著是「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」被放大顯示。各個單字,為了不使其與其他單字重疊,可以橫方向或縱方向等任意的位置關係被配置。
第3表示數據生成部25c,係具有將屬於一個集群的文件的前述題目、要旨、本文之至少一個中所含之出現頻率高的單字抽出,並生成依照該出現頻率依序表示該單字之第3表示數據之功能。亦即,第3表示數據生成部25c,係依照出現頻率表示(即所謂的排名表示)在第2表示數據生成部25b中亦被抽出的在所指定之一個集群內頻繁出現的單字。例如,於圖2中,係將「clinical」配置於最上方,接著於其下配置「Vedolizumab」、「infliximab」、「remission」、「endoscopic」、「Cohort」。進一步地,第3表示數據生成部25c,可如「clinical 100%」、「Vedolizumab 88%」般,將所指定之集群內的文件中的單字使用率亦包含於表示數據中。
此外,相似度算出部21、及集群分類部22,係具有將包含特定單字之文件從分析中去除,並輸出再度分析之分析結果,使其反映於第1表示數據、第2表示數據、第3表示數據之功能,且前述特定單字為所抽出之出現頻率高的單字等。
此外,相似度算出部21、及集群分類部22,係具有將顯示包含特定單字之文件的節點,於第1表示數據所顯示之網路上醒目表示之功能,且前述特定單字為所抽出之出現頻率高的單字等。
使節點醒目的方法,可藉由變換節點的色彩或者添加視覺效果等之各種方法,表示其包含所選擇之單字。
表示數據統合部25,係將生成於此等第1表示數據生成部25a、第2表示數據生成部25b、第3表示數據生成部25c之各表示數據統合至如圖2所示的一個畫面而生成表示數據,並發送至透過伺服器4與通訊網N連接之資訊終端裝置3。
學習系統26,係具有供給將上述第1表示數據生成部25a中的各文件分解成各項目的AI、依據摘要要素製作摘要句的AI之功能。詳細而言,學習系統26,係藉由將事先已弄清各項目之文件的數據作為學習用數據(教師數據)進行機器學習(例如深度學習或類神經網路),而生成將文件分解成其構成要素之項目的AI(已完成學習的模型);藉由將事先已使用摘要要素之摘要句作為學習用數據進行機器學習(例如深度學習或類神經網路),而生成依據摘要要素製作摘要句的AI(已完成學習的模型)。
如此構成之集群分析系統1中,例如當使用者透過資訊終端裝置3的輸入部11對伺服器4輸入特定的疾病名稱等之資訊時,將與輸入資訊相應之如圖2所示之各表示數據由伺服器4輸出至資訊終端裝置3的輸出部10。
圖4為顯示於集群分析系統1之伺服器4執行之集群分析控制常式之流程圖。以下,依據同流程圖對本實施型態之集群分析方法進行詳細 說明。
伺服器4,當從資訊終端裝置3接收到特定的疾病名稱等之輸入資訊時,作為步驟S1,從文件記憶部20取得對應於該輸入資訊之文件的母體。
接著於步驟S2中,相似度算出部21,算出構成母體之文件間的相似度。
此外,於步驟S3中,集群分類部22,依據步驟S2所算出之相似度生成文件間的網路,並進行分類使相似之文件的集合構成集群。
於步驟S4中,第1指標算出部23,算出顯示步驟S3所生成之網路中的文件的中心性之第1指標。
於步驟S5中,第2指標算出部24算出第2指標。第2指標,例如為期刊的影響因素。
於步驟S6中,分別由第1表示數據生成部25a生成第1表示數據,第2表示數據生成部25b生成第2表示數據,第3表示數據生成部25c生成第3表示數據,並由表示數據統合部25生成將此等之各表示數據統合後之表示數據。接著,表示數據統合部25將統合後之表示數據發送至資訊終端裝置3,並結束該常式。
圖5為顯示在去除特定單字後進行再度分析之情形下,於集群分析系統1之伺服器4執行之集群分析控制常式之流程圖。又,省略與上述相同之流程的說明。
伺服器4,作為步驟S9,將第3表示數據中所含之出現頻率高的單字等,應自文件的母體中去除之文件所含的單字的候選字,表示於資訊 終端裝置3的輸出部10等。
作為步驟S10,使用者使用資訊終端裝置3的輸入部11等輸入或選擇應去除之單字。伺服器4,受理單字之輸入或選擇。
作為步驟S11,在步驟S10中選擇應去除之單字後,取得將包含應去除之單字的文件除去後的文件的母體。在此之後的步驟S12~S16之處理流程,由於與上述所說明之步驟S2~S6之處理流程相同,故省略說明。
如以上所述,於本實施型態之集群分析系統1中,依據僅由對文件內容的自然語言處理而得之文件間之相似度而形成網路,形成相似之文件的集群,並以與顯示中心性之第1指標相應之表現、與集群的種類相應之表現、及與相似度大小相應之表現,生成顯示該網路之第1表示數據,從而可藉由一個表示對各文件的資訊至文件間的關聯性進行掌握。亦即,本實施型態之第1表示數據之網路,係於未使用文件之引用、被引用資訊之情況下,僅依據除去此等資訊之文件內容而形成,因此可形成與文件內容之相似度相應之集群。
進一步地,藉由於第1表示數據中一併顯示與基於文件內容之第1指標相異之影響因素等的第2指標,可容易且多方面地掌握文件的定位及重要性。
此外,於第1表示數據中,藉由以顯示文件之節點的物件大小表現第1指標,並依與物件的形狀相應之形狀的量規、及量規的長度來表現第2指標,從而可同時且直觀地掌握文件的中心性及重要性。
此外,藉由從分析對象中去除包含指定單字(從文件中所含之出現頻率高的單字中指定之單字)之文件,並進行再度分析,從而可將出 現頻率雖高但較不感興趣的文件去除,以抽出更加感興趣的文件進行掌握。
此外,藉由將顯示包含指定單字(從文件中所含之出現頻率高的單字中指定之單字)之文件的節點於網路中醒目表示,可掌握包含感興趣的單字之文件位於網路上的哪個位置。
此外,於第1表示數據中,藉由使用力學模型決定網路上各文件的配置,使複數個文件不會以重疊的方式顯示,從而可提升視認性。
進一步地,於第1表示數據中,可將網路放大表示及縮小表示,並依照該放大表示及縮小表示來增減表示之邊的數量。藉此,依網路之放大表示及縮小表示,避免邊被繁雜地表示,而可提升閱覽性。此外,藉此,由於依網路之放大表示及縮小表示,資訊量被最佳化,因此可減輕伺服器4處理的負擔及削減送往資訊終端裝置3的資訊量,並可順暢地進行表示變更。
此外,於生成第1表示數據的同時,生成將屬於集群的文件中所含之出現頻率高的單字抽出,並以與該出現頻率相應之大小表示該單字之第2表示數據,以及依照該出現頻率依序表示該單字之第3表示數據,從而可更容易地掌握各集群的內容。特別是於第2表示數據及第3表示數據中,藉由以文件之至少題目、要旨、本文中的一個為對象抽出出現頻率,例如即使是只能取得題目及要旨的文件、或者沒有題目及要旨而只有本文的文件,亦可抽出出現頻率,從而可抽出更適合用以表示集群的單字。
如此,根據本實施型態,藉由將許多的文件,特別是龐大數量的文件分類成由相似之文件所構成之集群,並且使其可俯瞰文件間之關聯,從而可在更短的時間內有效率地理解許多文件的要旨。
以上,具體說明本發明之一實施型態,惟本發明並不限於該實施型態,可以理解到本案所屬技術領域中具有通常知識者,可在不脫離本案申請專利範圍所界定之本發明之範圍或旨趣之情況下,執行其等中之各種變更及改變。
上述實施型態中,第1表示數據生成部25a係如圖3所示,以圓的大小表現第1指標,並以圓弧的長度表現第2指標。第1指標及第2指標之表現並不限於此,例如,亦可將以一個顏色顯示之第1指標配置於內側,並將以其他顏色顯示之第2指標配置於外側,而顯示為兩層同心圓。
此外,上述實施型態中,於算出相似度時使用TF-IDF及餘弦相似度;作為集群分類之演算法,使用Girvan-Newman演算法;及作為算出中心性之演算法,使用固有向量中心性。相似度、集群分類、及中心性之各自的算出手法,並不限於此等演算法,例如:可分別使用其他的演算法,亦可相似度、集群分類、及中心性統一使用一個演算法進行處理。

Claims (15)

  1. 一種集群分析方法,其係電腦將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析方法,其特徵係具備:相似度算出步驟,係算出一個文件的內容與其他文件的內容之相似度;集群分類步驟,係依據所算出之相似度將文件或集群作為節點,生成將相似之節點間以邊(edge)連結之網路,並分類成由相似之文件所構成之集群;第1指標算出步驟,係算出顯示前述網路中的文件的中心性之第1指標;第2指標算出步驟,係算出與前述網路中的前述第1指標相異而顯示文件的重要性之第2指標;以及表示數據生成步驟,係關於文件,藉由與前述第1指標相應之節點的物件(object)大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規(gauge)及前述量規的長度之表現、與前述集群的種類相應之表現、及與文件間之相似度大小相應之表現,而生成顯示前述網路之第1表示數據。
  2. 如申請專利範圍第1項所記載之集群分析方法,其中,前述表示數據生成步驟中,係以圓表現第1指標的物件,並以與前述第1指標之圓為同心之圓弧、及前述圓弧的長度表現前述第2指標的量規而生成表示數據。
  3. 如申請專利範圍第1或2項所記載之集群分析方法,其中,前述文件,作為其構成要素係具有題目、要旨、及本文中的至少一個;前述表示數據生成步驟,係進一步將屬於一個集群的文件的題目、要旨、 及本文之至少一個中所含之出現頻率高的單字抽出,並生成以與前述出現頻率相應的大小表示前述單字之第2表示數據。
  4. 如申請專利範圍第1項所記載之集群分析方法,其中,前述文件,作為其構成要素係具有題目、要旨、及本文中的至少一個;前述表示數據生成步驟,係進一步將屬於一個集群的文件的題目、要旨、及本文之至少一個中所含之出現頻率高的單字抽出,並生成依照前述出現頻率依序表示前述單字之第3表示數據。
  5. 如申請專利範圍第1項所記載之集群分析方法,其中,前述文件係刊載於學術雜誌之文件,前述第2指標係依前述文件之引用而算出者。
  6. 如申請專利範圍第1項所記載之集群分析方法,其中,前述文件,係以指定件數為上限並藉由網路搜尋而取得之網站上所記載的文件。
  7. 如申請專利範圍第6項所記載之集群分析方法,其中,前述第2指標係依前述網站的瀏覽數而算出者。
  8. 如申請專利範圍第6或7項所記載之集群分析方法,其中,抽出前述文件中所含之出現頻率高的單字,並生成以與前述出現頻率相應的大小表示前述單字之第2表示數據。
  9. 如申請專利範圍第6或7項所記載之集群分析方法,其中,抽出前述文件中所含之出現頻率高的單字,並生成依照前述出現頻率依序表示前述單字之第3表示數據。
  10. 如申請專利範圍第1項所記載之集群分析方法,其中,進一步具備:從分析對象中去除包含指定單字之文件,並進行再度分析之步驟,且前述指定單字係從前述文件中所含之出現頻率高的單字中指定。
  11. 如申請專利範圍第1項所記載之集群分析方法,其中,進一步具備:將顯示包含指定單字之文件或集群的節點於網路中醒目表示而生成第1表示數據之步驟,且前述指定單字係從前述文件中所含之出現頻率高的單字中指定。
  12. 如申請專利範圍第1項所記載之集群分析方法,其中,前述表示數據生成步驟,係使用力學模型決定前述網路上文件的配置,使複數個文件不會以重疊的方式被表示。
  13. 如申請專利範圍第1項所記載之集群分析方法,其中,前述表示數據生成步驟,係以連結文件與文件的前述邊的粗細,表現與前述文件間之相似度大小相應之表現,並且可將前述網路放大及縮小表示,並依照前述放大及縮小表示來增減前述邊的表示數量,而生成前述第1表示數據。
  14. 一種集群分析系統,其係將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析系統,其特徵係具備:相似度算出部,係算出一個文件的內容與其他文件的內容之相似度;集群分類部,係依據所算出之相似度將文件作為節點,生成將相似之節點間以邊連結之網路,並將相似之文件分類成集群;第1指標算出部,係算出顯示前述網路中的文件的中心性之第1指標;第2指標算出部,係算出與前述網路中的前述第1指標相異而顯示文件的重要性之第2指標;以及表示數據生成部,係對於文件,藉由與前述第1指標相應之節點的物件大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規及前述量規的長度之表現、與前述集群的種類相應之表現、與文件間 之相似度大小相應之表現,而生成顯示前述網路之第1表示數據。
  15. 一種集群分析程式,其係使電腦將複數個文件依其內容分類成集群,並且生成顯示文件間之關聯之表示數據的集群分析程式,其特徵係使下述步驟被執行:相似度算出步驟,係算出一個文件的內容與其他文件的內容之相似度;集群分類步驟,係依據所算出之相似度將文件作為節點,生成將相似之節點間以邊連結之網路,並將相似之文件分類成集群;第1指標算出步驟,係算出顯示前述網路中的文件的中心性之第1指標;第2指標算出步驟,係算出與前述網路中的前述第1指標相異之第2指標;以及表示數據生成步驟,係對於文件,藉由與前述第1指標相應之節點的物件大小之表現、與前述第2指標相應之對應於前述物件的形狀之形狀的量規及前述量規的長度之表現、與前述集群的種類相應之表現、與文件間之相似度大小相應之表現,而生成顯示前述網路之第1表示數據。
TW109116289A 2019-05-17 2020-05-15 集群分析方法、集群分析系統、及集群分析程式 TWI733453B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
WOPCT/JP2019/19715 2019-05-17
JP2019019715 2019-05-17

Publications (2)

Publication Number Publication Date
TW202044101A TW202044101A (zh) 2020-12-01
TWI733453B true TWI733453B (zh) 2021-07-11

Family

ID=73459424

Family Applications (2)

Application Number Title Priority Date Filing Date
TW110121513A TWI806069B (zh) 2019-05-17 2020-05-15 集群分析方法、集群分析系統、及集群分析程式
TW109116289A TWI733453B (zh) 2019-05-17 2020-05-15 集群分析方法、集群分析系統、及集群分析程式

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW110121513A TWI806069B (zh) 2019-05-17 2020-05-15 集群分析方法、集群分析系統、及集群分析程式

Country Status (6)

Country Link
US (2) US11636144B2 (zh)
EP (1) EP3882786A4 (zh)
JP (2) JP6852941B1 (zh)
CN (2) CN114911935A (zh)
TW (2) TWI806069B (zh)
WO (1) WO2020235468A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667810B (zh) * 2020-12-25 2024-07-23 平安科技(深圳)有限公司 文献聚类、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009093564A (ja) * 2007-10-11 2009-04-30 Fuji Xerox Co Ltd 文書抽出装置および文書抽出プログラム
TWI598755B (zh) * 2015-03-31 2017-09-11 Ubic股份有限公司 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469302B2 (ja) * 1993-09-08 2003-11-25 株式会社東芝 テキスト選定装置
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6256648B1 (en) * 1998-01-29 2001-07-03 At&T Corp. System and method for selecting and displaying hyperlinked information resources
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP4025443B2 (ja) 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
JP4128431B2 (ja) 2002-11-27 2008-07-30 富士通株式会社 有向グラフ解析方法、解析装置及びそのプログラム
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
JP2005092443A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
EP2487599A1 (en) * 2004-05-04 2012-08-15 Boston Consulting Group, Inc. Method and apparatus for selecting, analyzing and visualizing related database records as a network
US7356777B2 (en) * 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
JPWO2006112507A1 (ja) * 2005-04-20 2008-12-11 株式会社アイ・ピー・ビー 調査対象文書の索引語抽出装置及び文書特徴分析装置
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
NO323257B1 (no) * 2005-10-28 2007-02-19 Telenor Asa Fremgangsmater for a analysere strukturen av et nettverk
JP2008052494A (ja) 2006-08-24 2008-03-06 Sony Corp ネットワーク分析支援装置および方法、プログラム並びに記録媒体
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US8122026B1 (en) * 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
WO2009018223A1 (en) * 2007-07-27 2009-02-05 Sparkip, Inc. System and methods for clustering large database of documents
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest
US8224848B2 (en) * 2009-03-16 2012-07-17 Guidance Software, Inc. System and method for entropy-based near-match analysis
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US8713018B2 (en) * 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
JP5533091B2 (ja) * 2010-03-18 2014-06-25 株式会社リコー 座標平面におけるデータ点分布領域の識別方法及びその識別プログラム
US8359279B2 (en) * 2010-05-26 2013-01-22 Microsoft Corporation Assisted clustering
GB2486490A (en) * 2010-12-17 2012-06-20 Royal Holloway & Bedford New College Method for structuring a network
JP2014191757A (ja) 2013-03-28 2014-10-06 Fujitsu Ltd 情報処理方法、装置及びプログラム
JP5813052B2 (ja) 2013-05-14 2015-11-17 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム
US20150066933A1 (en) * 2013-09-03 2015-03-05 String Enterprises, Inc. Computer-implemented methods and systems for generating visual representations of complex and voluminous marketing and sales and other data
CN107077465A (zh) * 2015-02-20 2017-08-18 惠普发展公司,有限责任合伙企业 引用解释
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN105589948B (zh) * 2015-12-18 2018-10-12 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
WO2017214266A1 (en) * 2016-06-07 2017-12-14 Panoramix Solutions Systems and methods for identifying and classifying text
JP6794162B2 (ja) * 2016-07-25 2020-12-02 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
US9836183B1 (en) * 2016-09-14 2017-12-05 Quid, Inc. Summarized network graph for semantic similarity graphs of large corpora
US9911211B1 (en) * 2017-04-13 2018-03-06 Quid, Inc. Lens-based user-interface for visualizations of graphs
US10956790B1 (en) * 2018-05-29 2021-03-23 Indico Graphical user interface tool for dataset analysis
CA3046020A1 (en) * 2018-06-14 2019-12-14 Zero31Skytech Inc. Apparatus, system and method to limit access to open networks by requiring the consensus of pre-existing nodes to admit candidate nodes
CN109376236B (zh) * 2018-07-27 2021-10-26 中山大学 一种基于聚类分析的学术论文作者权重分析方法
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN109376238B (zh) * 2018-09-14 2021-01-05 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法
US11113327B2 (en) * 2019-02-13 2021-09-07 Optum Technology, Inc. Document indexing, searching, and ranking with semantic intelligence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059442A (ja) * 2006-09-01 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2009093564A (ja) * 2007-10-11 2009-04-30 Fuji Xerox Co Ltd 文書抽出装置および文書抽出プログラム
TWI598755B (zh) * 2015-03-31 2017-09-11 Ubic股份有限公司 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體

Also Published As

Publication number Publication date
CN114911935A (zh) 2022-08-16
JP2021099847A (ja) 2021-07-01
TW202139053A (zh) 2021-10-16
US20230119422A1 (en) 2023-04-20
CN113015971A (zh) 2021-06-22
EP3882786A4 (en) 2022-03-23
JPWO2020235468A1 (ja) 2021-06-10
WO2020235468A1 (ja) 2020-11-26
TW202044101A (zh) 2020-12-01
US20220043851A1 (en) 2022-02-10
CN113015971B (zh) 2022-06-07
TWI806069B (zh) 2023-06-21
US11636144B2 (en) 2023-04-25
EP3882786A1 (en) 2021-09-22
JP6852941B1 (ja) 2021-03-31
JP7490241B2 (ja) 2024-05-27

Similar Documents

Publication Publication Date Title
US9552412B1 (en) Boolean-query composer
Fried et al. Maps of computer science
US20120221553A1 (en) Methods for electronic document searching and graphically representing electronic document searches
JP6646184B2 (ja) 検索用資料情報記憶装置
JP6555704B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Cao et al. Overview of text visualization techniques
JP2024041946A (ja) クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP2021086580A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
TWI733453B (zh) 集群分析方法、集群分析系統、及集群分析程式
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
JP2023162306A (ja) 要約作成方法、要約作成システム、及び要約作成プログラム
JP2021086592A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
JP7549977B2 (ja) テキストマイニング装置およびテキストマイニング方法
JP2021128620A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
van Hoek et al. Assessing visualization techniques for the search process in digital libraries
Izo et al. Named entities as a metadata resource for indexing and searching information
JP7193890B2 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP7324577B2 (ja) テキスト処理方法及び、テキスト処理装置
Geng et al. Visualizing translation variation of othello: a survey of text visualization and analysis tools
CN115206533B (zh) 基于知识图谱健康管理方法、装置及电子设备
Hoque An analytical approach to analyze the popular word search from nineteen-year news dataset using Natural language processing technique
Pagliosa et al. MIST: multiscale information and summaries of texts
JP2020173759A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2024092973A (ja) 表示制御システム、表示制御方法、及びプログラム