TW202341003A - 文本探勘方法、文本探勘程式及文本探勘裝置 - Google Patents
文本探勘方法、文本探勘程式及文本探勘裝置 Download PDFInfo
- Publication number
- TW202341003A TW202341003A TW112100950A TW112100950A TW202341003A TW 202341003 A TW202341003 A TW 202341003A TW 112100950 A TW112100950 A TW 112100950A TW 112100950 A TW112100950 A TW 112100950A TW 202341003 A TW202341003 A TW 202341003A
- Authority
- TW
- Taiwan
- Prior art keywords
- index
- emotional
- document
- feature
- words
- Prior art date
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005065 mining Methods 0.000 title claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims description 101
- 238000000605 extraction Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 32
- 238000012552 review Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本發明可以較少之計算量,根據文件中之感情語的適當評價而可在複數文件間比較感情之傾向。
本發明之文本探勘方法中,受理將應比較感情極性之傾向的複數文件作為指定對象文件的指示,並且受理對來自對象文件中應擷取之特徵語的範圍進行指定的指示以及對表示感情極性之強度的感情指數之範圍進行指定的指示,根據該等指示,在指定範圍內,自該等複數文件中擷取特徵語,並在擷取之特徵語中,對於指定範圍內被給予感情指數的感情語且被登錄於既定之感情語辭典的特徵語,賦予該感情指數。其後,被顯示成,可在該等複數文件間對擷取之特徵語與被賦予之感情指數進行比較。在該顯示中,例如,對被賦予感情指數之特徵語被附加與該感情指數相對應之背景顏色。
Description
本發明係關於文本探勘(text mining),尤其是關於用以對複數文件之感情極性的傾向進行比較之文本探勘方法、文本探勘程式及文本探勘裝置。
近年來,對自由敘述之文本資料進行解析,而自解析結果求出有用資訊的文本探勘受到矚目。於該文本探勘之領域中,已知有一種技術,其係自文件之文本資料中,對於與該文件相關聯之物、人、內容等判定肯定性或否定性之感情極性的傾向(以下稱為「感情傾向」)。
例如,已知有一種方法,其使用預先登錄有單詞與該單詞所表現之感情(表示肯定性或否定性之感情極性等)間的對應關係之感情語辭典,而對文件所含單詞中感情極性為肯定性的單詞數量與否定性的單詞數量進行比較,因應該比較結果而判定該文件之感情極性(該文件為肯定性、否定性、或中立性)(參照日本專利特開2011-204226號公報之段落[0009])。
(發明所欲解決之問題)
在上述習知方法中,對文件所含單詞是否登錄在感情語辭典進行調查,於被登錄之情況下,依照感情語辭典而將該單詞分類為肯定性或否定性等兩種類。因此,對於感情強度(感情極性)較弱之單詞即接近中性之單詞,並未確立其適當之處置。此外,對於如此之單詞的感情極性,雖有需要依據對象之文件內容而進行調整,但尚未得知有可用於此情形之簡易方法。
此外,上述習知方法中,在複數文件間比較感情傾向時,對於各文件所含單詞中被登錄於感情語辭典的單詞即感情語全部進行統計,並比較該統計結果。因此,亦存在有用於該比較之計算量變多,或者,相較於其他文件,於某文件中更常出現之感情語被賦予過小評價之情形。
因此,有需要提供一種文本探勘方法或文本探勘裝置等,可以較少之計算量,根據文件中之感情語的適當評價而在複數文件間比較感情傾向。
(解決問題之技術手段)
本發明之第一態樣係一種文本探勘方法,其係用於在複數文件間比較感情極性之傾向者;其具備有如下步驟:
指示輸入步驟,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示;
特徵語擷取步驟,其根據被指定為上述對象文件之上述複數文件的文本資料,而自上述複數文件各者中擷取特徵語;
感情指數取得步驟,其對由上述特徵語擷取步驟所擷取之特徵語中已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值給予該特徵語者,賦予感情指數;及
顯示步驟,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取步驟所擷取之特徵語、與由上述感情指數取得步驟所賦予之感情指數一起顯示。
本發明之第二態樣係於本發明之第一態樣中,
上述指示輸入步驟進而包含有:受理對自上述對象文件中應擷取之特徵語的範圍進行指定之指示的步驟;
在上述特徵語擷取步驟中,擷取在上述指示輸入步驟所指定範圍內的特徵語。
本發明之第三態樣係於本發明之第一或第二態樣中,
上述指示輸入步驟進而包含有:受理對表示感情極性之強度的指數即感情指數之範圍進行指定之指示的步驟;
在上述感情指數取得步驟中,對於由上述特徵語擷取步驟所擷取之特徵語中,對在上述指示輸入步驟所指定之範圍內被給予感情指數的單詞且被登錄於上述感情語辭典的特徵語,賦予該感情指數。
本發明之第四態樣係於本發明之第三態樣中,
上述指示輸入步驟進而包含有:於上述擷取之特徵語與上述賦予之感情指數一起藉由上述顯示步驟而被顯示時,受理對上述感情指數之範圍變更進行指定之指示的步驟。
本發明之第五態樣係於本發明之第一至第四態樣任一者中,進而具備有:
文件感情指數計算步驟,其對於被指定為上述對象文件之上述複數文件各者,根據藉由上述特徵語擷取步驟而自該文件所擷取的特徵語中,藉由上述感情指數取得步驟而被賦予感情指數的特徵語,計算出該文件之感情指數以作為文件感情指數;
在上述顯示步驟中,顯示藉由上述文件感情指數計算步驟所計算出之上述文件感情指數。
本發明之第六態樣係一種文本探勘程式,其係用於在複數文件間比較感情極性之傾向者;其在電腦中使CPU利用記憶體執行如下步驟:
指示輸入步驟,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示;
特徵語擷取步驟,其根據被指定為上述對象文件之上述複數文件的文本資料,自上述複數文件各者中擷取特徵語;
感情指數取得步驟,其對由上述特徵語擷取步驟所擷取之特徵語中,已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值給予該特徵語者,賦予感情指數;及
顯示步驟,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取步驟所擷取之特徵語、與由上述感情指數取得步驟所賦予之感情指數一起顯示。
本發明之第七態樣係一種文本探勘裝置,其係用於在複數文件間比較感情極性之傾向者;其係具備有:
指示輸入部,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示;
特徵語擷取部,其根據被指定為上述對象文件之上述複數文件的文本資料,自上述複數文件各者中擷取特徵語;
感情指數取得部,其對由上述特徵語擷取部所擷取之特徵語中,已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值給予該特徵語者,賦予感情指數;及
顯示部,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取部所擷取之特徵語、與由上述感情指數取得部所賦予之感情指數一起顯示。
本發明之其他態樣可從本發明之上述態樣以及後述實施形態及其變形例相關之說明而清楚瞭解,因此省略其說明。
(對照先前技術之功效)
根據上述第一、第六或第七態樣,對被指定為對象文件之複數文件各者擷取特徵語,對於所擷取之特徵語即對象特徵語中,對感情語而被登錄於感情語辭典的特徵語,賦予在該感情語辭典中所給予該特徵語的感情指數。如此,對於該等複數文件,將對象特徵語及該等對象特徵語所含之感情語所賦予的感情指數進行顯示,以作為對於該等複數文件之感情傾向分析的結果。藉由如此之顯示,即使於應比較感情傾向的複數文件中含有感情極性較弱之特徵語的情況下,仍可藉由一起觀察所擷取之特徵語與該等特徵語所被賦予之感情指數,而在該等複數文件間確實地掌握該等之感情傾向。
根據上述第二態樣,可指定自作為對象文件之複數文件各者中應擷取之特徵語的範圍,因此,藉由僅將更具特徵之單詞擷取為對象特徵語,其相較於習知技術,可以較少之計算量,在上述複數文件間對反映上述複數文件各者之特徵的感情傾向進行比較。此外,亦可避免上述複數文件中某文件相較於其他文件更常出現之特徵性感情語被賦予過小評價之問題。
根據上述第三態樣,藉由對賦予對象特徵語之感情指數的範圍進行指定,可在包含感情極性較弱之特徵語的複數文件間確實比較該等之感情傾向,該對象特徵語係自作為對象文件之複數文件各者中所擷取的特徵語。
根據上述第四態樣,於如上述擷取之特徵語與如上述賦予之感情指數一起作為對於對象文件之複數文件的感情傾向分析之結果而進行顯示時,當受理對感情指數之範圍變更進行指定之指示,則根據變更後之感情指數的範圍,對上述複數文件各者擷取特徵語而作為對象特徵語,並對該對象特徵語中之感情語而被登錄於感情語辭典的特徵語賦予感情指數,其後,對於上述複數文件,顯示對象特徵語與該等對象特徵語所含之感情語所被賦予的感情指數,而作為對上述複數文件進行感情傾向分析之結果。藉此,使用者當對上述複數文件之感情傾向分析的結果被暫時顯示後,可一面觀察該顯示,一面調整感情指數之指定範圍,藉此,其可更確實比較上述複數文件之感情傾向。
根據上述第五態樣,對於對象文件之複數文件各者,根據賦予感情指數之對象特徵語而計算文件感情指數,因此,除了在上述複數文件間對該等特徵語所被賦予之感情指數進行比較以外,還可在上述複數文件間對文件感情指數進行比較。藉此,其可更確實且容易地比較上述複數文件之感情傾向。
對於本發明之其他態樣的效果,從本發明之上述態樣的效果以及後述之實施形態及其變形例的效果之說明中可清楚瞭解,因此省略其說明。
以下,參照圖式,對於本發明一實施形態的文本探勘裝置進行說明。該文本探勘裝置係用於實施文本探勘方法之裝置,其中,該文本探勘方法係用於在複數文件間對感情傾向(感情極性之傾向)進行比較者,該文本探勘裝置係藉由電腦執行後述之文本探勘程式所實現。再者,於以下內容中,所謂「感情極性」係表示於文件中陳述有肯定性意見或陳述有否定性意見之資訊。
<1. 文本探勘裝置之功能性構成>
圖1係表示本實施形態的文本探勘裝置10之功能性構成的方塊圖。該文本探勘裝置10係具備有:作為指示輸入部及顯示部而發揮功能之GUI(Graphical User Interface,圖形化使用者介面)部11、文本資料記憶部12、特徵語擷取部13、記憶附帶有感情指數之感情語辭典的辭典記憶部14、特徵語感情指數取得部15、文件感情指數計算部16、顯示資料處理部17。再者,該文本探勘裝置10亦可不具備有文本資料記憶部12及辭典記憶部14之一者或雙方,而被構成為,經由網路並利用記憶在外部記憶部之文本資料及附帶有感情指數之感情語辭典之一者或雙方。
在本實施形態中,將複數文件之文本資料預先記憶在文本資料記憶部12,其中,該等複數文件包含有由應比較感情傾向之複數文件所構成的對象文件。於進行對象文件之指定等感情傾向分析處理時,使用者為此而下達之指示(對象文件之指定等)係由GUI部11所受理。根據該指示,特徵語擷取部13首先自文本資料記憶部12讀出被指定為對象文件之複數文件的文本資料,並擷取於該等複數文件各者所含之特徵語。特徵語感情指數取得部15係對擷取之特徵語即對象特徵語中作為感情語而被登錄於辭典記憶部14中之附帶有感情指數之感情語辭典的特徵語,賦予在該感情語辭典中給予該特徵語之感情指數。再者,該感情指數係表示感情極性之強度的數值,在應與後述之文件感情指數進行區別時,將其稱為「單詞感情指數」。文件感情指數計算部16使用如此被賦予感情指數之特徵語,藉由後述之數式而對該等複數文件各者計算出感情指數(文件感情指數)。如此,對被指定為對象文件之複數文件各者,得到對象特徵語及於該等對象特徵語所含之感情語所被賦予的感情指數(單詞感情指數)、及文件感情指數。顯示資料處理部17生成顯示資料,該顯示資料係用以顯示在該等複數文件間可對該等對象特徵語、單詞感情指數、及文件感情指數進行比較之資料。GUI部11係作為顯示部而進行顯示,該顯示係用以根據該顯示資料來對該等複數文件之感情傾向進行比較。其係表示對於對象文件進行感情傾向分析的結果。使用者觀察該顯示,可掌握對象文件之複數文件間之感情傾向的差異,此外,因應需要,亦可對於指示輸入部之GUI部11,限縮應賦予特徵語之感情指數的範圍,並再次進行上述之感情傾向分析。
<2. 文本探勘裝置之硬體構成>
圖2係表示本實施形態中藉由後述之文本探勘程式作為文本探勘裝置10之電腦20的構成,即表示本實施形態的文本探勘裝置10之硬體構成的方塊圖。圖2所示之電腦20具備有CPU(Central Processing Unit,中央處理單元) 21、主記憶體22、輔助記憶裝置23、輸入操作部24、顯示裝置25、通信介面裝置26、及記錄媒體讀取裝置27。主記憶體22例如使用DRAM(Dynamic Random Access Memory,隨機存取記憶體)。輔助記憶裝置23例如使用硬碟或固態硬碟。輸入操作部24例如含有鍵盤28或滑鼠29。顯示裝置25例如使用液晶顯示器。通信介面裝置26係有線通信或無線通信之介面電路。記錄媒體讀取裝置27係記憶有程式等之記錄媒體30的介面電路。記錄媒體30例如使用CD-ROM、DVD-ROM、USB記憶體等非暫時性之記錄媒體。
於如上述構成之電腦20中,輔助記憶裝置23除了本實施形態的文本探勘程式31以外,還記憶有對象文件之文本資料32與附帶有感情指數之感情語辭典即感情語辭典34,藉此而實現文本資料記憶部12及辭典記憶部14。文本探勘程式31與文本資料32例如可為使用通信介面裝置26而自伺服器或其他電腦接收,亦可為使用記錄媒體讀取裝置27而自記錄媒體30讀出。此外,感情語辭典34亦可存放在伺服器或其他電腦,於此情況下,被作為文本探勘裝置10之電腦20係經由網路及通信介面裝置26來使用感情語辭典34。
於電腦20中,在執行文本探勘程式31時,文本探勘程式31與文本資料32被載入至主記憶體22。CPU 21係將主記憶體22作為作業用記憶體來使用,藉由執行記憶在主記憶體22之文本探勘程式31,而對於對象文件進行感情傾向分析處理。在該感情傾向分析處理中,對於被指定為對象文件之複數文件各者,進行特徵語之擷取、或特徵語的感情指數之取得、文件感情指數之計算等(詳細內容如後述)。於CPU 21進行感情傾向分析處理時,電腦20作為文本探勘裝置10而發揮功能。再者,以上所述之電腦20的構成僅為一例,其可使用各種電腦來實現文本探勘裝置10。
<3. 附帶有感情指數之感情語辭典>
在上述感情傾向分析處理中,使用存放在輔助記憶裝置23之附帶有感情指數之感情語辭典即感情語辭典34。圖3係用於說明本實施形態中所使用之附帶有感情指數之感情語辭典的圖。在該感情語辭典中,表示肯定性或否定性之感情極性之單詞被收集並登錄為感情語,進而,對於被登錄之各感情語,表示該感情極性之強度的數值被表示為感情指數。該感情指數係-1.00至+1.00之範圍內的數值,肯定性之感情語被賦予正數值,否定性之感情語被賦予負數值。例如,如圖3所示,具有較強之肯定性語意的「優良」單詞(感情語)被賦予+1.00之感情指數,具有較強之否定性語意的「兇惡」單詞(感情語)被賦予-1.00之感情指數。附帶有感情指數之感情語辭典的製作方法已知有,將單詞向量化(數值化)後再計算出與已知之感情語的類似度等幾種方法。在本實施形態中,藉由已知之任一方法而製作出附帶有感情指數之感情語辭典的資料係作為感情語辭典34而預先被記憶在輔助記憶裝置23。
<4. 感情傾向分析處理>
如上述般,於電腦20中,藉由CPU 21執行文本探勘程式31而對於對象文件進行感情傾向分析處理。圖4係表示該感情傾向分析處理之程序的流程圖。在本實施形態中,藉由CPU 21執行文本探勘程式31,電腦20如圖4所示般運作。
首先,受理用於指定對象文件、特徵語之範圍、及感情指數(單詞感情指數)之範圍的指示(步驟S10)。具體而言,顯示裝置25例如顯示於圖5所示之操作畫面,使用者對於該操作畫面使用輸入操作部24中之鍵盤28或滑鼠29,進行指定對象文件、特徵語之範圍、及感情指數之範圍的操作,並點擊操作畫面中的「OK」按鈕260。藉此,作為文本探勘裝置10之電腦20接收表示有指定之對象文件、特徵語之範圍、及感情指數之範圍的輸入資訊。在圖5所示之例中,藉由操作具有第一滑標251與第二滑標252的滑桿250,而可指定感情指數之範圍。即,藉由設定滑桿250中第一滑標251及第二滑標252的位置,而可將由自「-1.00」起至表示第一滑標251的位置之負值為止的否定性感情指數之範圍(負感情指數之範圍)、與自表示第二滑標252的位置之正值起至「+1.00」為止的肯定性感情指數之範圍(正感情指數之範圍)所構成的兩個範圍,設為感情指數之指定範圍。再者,指定應比較感情傾向之複數文件,作為對象文件。於此,將某製品之機種A、機種B、及機種C的評論文件(記載有使用者對於該製品之各機種的感想或批評、意見等的文件)指定為對象文件,以進行以下說明。
於上述步驟S10中,特徵語之範圍的指定係以如下為前提:自被指定為對象文件之各文件中擷取特徵語時,使用表示各單詞之特徵度的數值(詳細內容如後所述)。特徵語之範圍的指定係藉由如下方式所進行:於被指定為對象文件之各文件中,以特徵度大的單詞起算之順序指定要擷取幾個單詞作為特徵語。
如此,當受理指定對象文件、特徵語之範圍、及感情指數之範圍的指示後,首先,將被指定為對象文件之複數文件的文本資料32自輔助記憶裝置23讀入至主記憶體22(步驟S12)。接著,使用該文本資料32,自作為對象文件之複數文件各者中擷取指定範圍內的特徵語,以作為對象特徵語(步驟S14)。
圖6係示出,當將某製品之機種A、機種B、及機種C的評論文件指定為對象文件,並以特徵度大者起算之順序將前面10個指定為特徵語之範圍時之特徵語的擷取例。在圖6中,對於機種A、機種B、及機種C之評論文件各者,以特徵度大者起算之順序將10個特徵語與表示該等之特徵度的數值一起顯示。
在圖6之示例中,使用雅卡爾係數(Jaccard係數)作為表示單詞之特徵度的數值。當將作為對象文件之機種A、機種B、及機種C的評論文件分別以符號Da、Db、Dc表示時,則文件Dx中之單詞w的雅卡爾係數Jxw係藉由下述(p1)~(p4)之順序所計算出(x=a、b、c)。
(p1) 求出文件Da、Db、Dc所含之全部句子(sentence)中含有單詞w之句子的數量Nw。
(p2) 求出文件Dx所含之句子的數量Nx。
(p3) 求出文件Dx所含之句子中含有單詞w之句子的數量Nxw。
(p4) 藉由下述數式而求出文件Dx中之單詞w的雅卡爾係數Jxw。
Jxw=Nxw/(Nw+Nx-Nxw) …(1)
一般而言,於複數文件D1、D2、…、Dn被指定為對象文件時,在該等文件中,文件Dk(1≦k≦n)中之單詞w的雅卡爾係數Jkw係由下述數式所表現。
Jkw=|Sw∩Sk|/|Sw∪Sk| …(2)
於此,Sw表示將文件D1、D2、…、Dn所含之全部句子中含有單詞w之句子作為要素的集合,Sk表示將文件Dk所含之全部句子作為要素的集合。
對於作為對象文件之複數文件D1、D2、…、Dn中,表示文件Dk(1≦k≦n)中單詞之特徵度的數值,可想到使用文件Dk中含有該單詞之句子數量(以下稱為「文件內出現數」)來替代如上述之雅卡爾係數。當使用該文件內出現數時,將產生如下述之不便。即,於文件D1、D2、…、Dn任一者中均多次出現的單詞wp雖不能被稱為在任一文件Dk(1≦k≦n)中其特徵度均較高,但其文件內之出現數較大。此外,單詞wq雖包含在某文件Dk(1≦k≦n)中,但在其他文件Dj(j≠k且1≦j≦n)中幾乎不存在,則即便在文件Dk中含有該單詞wq之句子數量(文件內出現數)並非較大,仍有特徵度為較高之情形,但若在此文件內出現數小於某程度,則在文件Dk中不能將其稱為特徵語。相對於此,當使用雅卡爾係數時,在文件Dk中,對此該等兩個單詞wp、wq,藉由上述數式(2)所計算出之雅卡爾係數變得非常小,此等兩個單詞wp、wq均未被擷取為特徵語。
如上述般,自作為對象文件之複數文件各者擷取對象特徵語時,接著,注目於對象文件中未注目之任一個文件(步驟S15)。再者,當感情傾向分析處理開始後,在最初執行步驟S15時,被指定為對象文件之複數文件均為未注目狀態。如上述般,當某製品之機種A、機種B、及機種C的評論文件被指定為對象文件時,機種A、機種B、及機種C的評論文件中之任一者則成為注目文件。
接著,以附帶有感情指數之感情語辭典34對注目文件中被擷取之特徵語即對象特徵語各者進行檢索,對於該對象特徵語,在感情語辭典34中具有指定範圍內之感情指數而被登錄為單詞(感情語)的特徵語,則賦予該感情指數(步驟S16)。圖7係表示自被指定為對象文件之機種A、機種B、及機種C的評論文件各者中擷取之特徵語的感情傾向顯示例。此係為便於說明之顯示例,其構成後述圖8所示之實際顯示例的主要部分。在此顯示例中,對被賦予感情指數之特徵語賦予背景色,該背景色係根據該特徵語為肯定性或否定性(賦予之感情指數為正或負)而顏色不同,且具有與賦予給該特徵語之感情指數相對應的濃度。例如,對肯定性之特徵語被附加與該感情指數相對應之濃度的藍色背景色,對否定性之特徵語被附加與該感情指數相對應之濃度的紅色背景色。如上述般,當機種A的評論文件成為注目文件時,圖7中「機種A」所示之特徵語的背景色係表示,根據感情語辭典34所被賦予之感情指數。但對象特徵語中未被登錄於感情語辭典34之特徵語則未被附加背景色。
接著,根據自注目文件擷取之對象特徵語中已賦予感情指數的特徵語,求出注目文件之感情指數(步驟S18)。即,藉由下述數式而計算出注目文件之感情指數即文件感情指數Ctx。
Ctx=(Naf-Nng)/(Naf+Nng) …(3)
於此,Naf為自注目文件擷取之特徵語中被賦予正感情指數之特徵語的個數,即注目文件中肯定性特徵語的出現數。Nng為自注目文件擷取之特徵語中被賦予負感情指數之特徵語的個數,即注目文件中否定性特徵語的出現數。自上述數式(3)可知,文件感情指數Ctx為-1至+1之範圍內的值。
接著,判定於對象文件中是否含有未注目之文件(步驟S20),當含有未注目之文件時,則返回步驟S15。之後,重複執行步驟S15~S20,直至對象文件中不再含有未注目之文件,當在步驟S20中判定為對象文件中不再含有未注目之文件時,則前進至步驟S22。如所述般,當將某製品之機種A、機種B、及機種C的評論文件指定為對象文件時,對於機種A、機種B、及機種C的評論文件各者執行步驟S15~S20,其後,前進至步驟S22。
在前進至步驟S22之時間點,對於被指定為對象文件之機種A、機種B、及機種C的評論文件各者,擷取指定範圍內之特徵語作為對象特徵語(參照圖6),對於對象特徵語中在感情語辭典34中具有指定範圍內之感情指數而被登錄為感情語的特徵語,被賦予該感情指數(參照圖7),根據被賦予感情指數之對象特徵語以計算出文件感情指數Ctx。在步驟S22中,對用以顯示在該等複數文件間,對如此由作為對象文件之複數文件所得到之對象特徵語、於該等對象特徵語所包含之感情語所賦予的感情指數、及文件感情指數Ctx,生成可在該等複數文件間進行比較之顯示用資料(步驟S22)。即,根據由作為對象文件之機種A、機種B、及機種C的評論文件各者所得到之對象特徵語、於該等對象特徵語所包含之感情語所賦予的感情指數、及文件感情指數Ctx,而生成用以對該等評論文件之感情傾向進行比較的顯示用資料。
接著,使用如此所生成之顯示用資料,將其顯示於顯示裝置25上,而對被指定為對象文件之複數文件的感情傾向進行比較(步驟S24)。此係顯示對於對象文件進行感情傾向分析之結果。例如,圖8所示之顯示係對由機種A、機種B、及機種C的評論文件所構成之對象文件進行感情傾向分析之結果。在圖8之顯示例中,賦予有感情指數(單詞感情指數)之對象特徵語被附加與該感情指數相對應之顏色及濃度的背景色,除此之外,被指定為對象文件之文件名稱所示的「機種A」、「機種B」、及「機種C」各者亦被附加與該文件感情指數Ctx相對應之顏色及濃度的背景色。進而,在該顯示例中,其與步驟S10中用以指定感情指數之範圍所顯示之滑桿250(參照圖5)相同,滑桿250被與對於對象文件進行感情傾向分析之結果一起顯示。
圖8所示之滑桿250亦被構成為可由使用者利用滑鼠29來操作。使用者觀察圖8所示之對於對象文件進行感情傾向分析的結果顯示,而藉由操作該滑桿250,可變更自對象文件中應擷取之特徵語的感情指數之範圍。即,電腦20係在對於對象文件進行感情傾向分析之結果的顯示中,待機至該滑桿250被操作為止(步驟S26),當該滑桿250被使用者操作時,則被指定為對象文件之全部文件(機種A、機種B、及機種C的全部評論文件)返回未注目狀態(步驟S28),而返回至步驟S15。
之後,在感情指數之指定範圍被變更的狀態下,與上述內容同樣地,對於被指定為對象文件之複數文件(此處為機種A、機種B、及機種C的評論文件)各者執行步驟S15~S20,其後,前進至步驟S22。其後,在執行步驟S22及S24之時間點,對感情指數在變更後之指定範圍其對於對象文件進行感情傾向分析之結果,被與圖8所示之形態相同之形態顯示。與上述同樣地,電腦20係於該顯示狀態中待機至滑桿250被操作為止。於該待機中,當藉由滑桿250之操作而進一步變更感情指數之範圍時,則返回至步驟S15,而進行與上述相同之處理。再者,於該待機中,當因中斷處理而收到結束之指示時,則使圖4所示之感情傾向分析處理結束。
由以上說明可知,在本實施形態中,藉由進行與輸入操作部24及顯示裝置25相關處理之步驟S10、S24、S26,則可被實現作為指示輸入部及顯示部之GUI部11,藉由步驟S14則可被實現特徵語擷取部13,藉由步驟S16則可被實現特徵語感情指數取得部15,藉由步驟S18則可被實現文件感情指數計算部16。
<5. 效果>
根據上述之本實施形態,針對應比較感情傾向之複數文件(對象文件)各者擷取特徵語,並對擷取之特徵語即對象特徵語中作為感情語而被登錄於感情語辭典34之特徵語,被賦予在該感情語辭典34中給予該特徵語之感情指數。如此,對於該等複數文件各者,將對象特徵語與該等對象特徵語所含之感情語所被賦予的感情指數進行顯示,以作為對被指定為對象文件之該等複數文件進行感情傾向分析的結果。藉由如此之顯示(參照圖4之步驟S22、S24、圖7、圖8),即使應比較感情傾向之複數文件中含有感情極性較弱之特徵語的情況,仍可與被擷取之特徵語一起,觀察該等特徵語所賦予之感情指數即-1至+1之範圍的數值,藉此可在該等複數文件間確實地掌握該等特徵語之感情傾向。
此外,根據本實施形態,可對自上述複數文件各者擷取之特徵語即對象特徵語所賦予的感情指數之範圍進行指定(參照圖4之步驟S10、圖5)。即,藉由操作圖5所示之滑桿250,如上述將由否定性感情指數之範圍與肯定性感情指數之範圍所構成的兩個範圍作為感情指數之指定範圍,而可不將感情指數賦予給對象特徵語中感情極性較弱之中立性特徵語。藉此,其可在含有感情極性較弱之特徵語的複數文件間對該等之感情傾向進行確實之比較。在本實施形態中,對於上述複數文件各者,根據被賦予指定範圍內之感情指數的對象特徵語,藉由上述數式(3)以計算出文件感情指數Ctx(參照圖4之步驟S16),因此,除了在上述複數文件間對該等特徵語所賦予之感情指數進行比較以外,還可在上述複數文件間對文件感情指數Ctx進行比較(參照圖8)。藉此,可對複數文件之感情傾向進行更確實且容易之比較。
進而,根據本實施形態,可指定自作為對象文件之複數文件各者中應擷取之特徵語的範圍(參照圖4之步驟S10、S14、圖5),因此,藉由僅將更具特徵性之單詞(例如以特徵度大者起算之順序的前面10個單詞)擷取為對象特徵語,其相較於習知技術,可以更少之計算量,在上述複數文件間,對反映上述複數文件各者的特徵之感情傾向進行比較。此外,亦可避免於上述複數文件中某文件相較於其他文件更常出現之特徵性感情語被賦予過小評價的問題。
更進而,根據本實施形態,在顯示出對於上述複數文件進行感情傾向分析之結果的顯示裝置25上,亦顯示有用於對感情指數之範圍進行指定的滑桿250(圖8),因此,使用者可觀察該感情傾向之分析結果來變更感情指數之範圍,根據變更後之感情指數的範圍使顯示對於上述複數文件之感情傾向分析的結果(圖4之步驟S26→S28→S15→…→S24)。藉此,使用者於暫時使顯示出對上述複數文件之感情傾向分析的結果後,其可一面觀察該顯示,一面調整感情指數之指定範圍,藉此而可對上述複數文件之感情傾向進行更確實之比較。
<6. 變形例>
本發明不受限於上述實施形態,只要不脫離本發明之範圍,其可實施各種變形。
例如,在上述實施形態中,當自被指定為應比較感情傾向之對象文件的複數文件各者中擷取特徵語時,自對象文件中應擷取之特徵語的範圍係藉由表示特徵度之數值的雅卡爾係數之範圍(最小值及最大值)所指定,但其不受限於雅卡爾係數(Jaccard係數),亦可使用表示特徵語之特徵度的其他數值來指定特徵語之範圍。例如,亦可使用戴斯係數(Dice係數)或辛普森係數(Simpson係數)來取代雅卡爾係數,此外,亦可藉由根據TF-IDF(Term Frequency-Inverse Document Frequency)方法表示特徵度之數值,以指定應擷取之特徵語的範圍。
此外,在上述實施形態中,對於被指定為對象文件之複數文件之感情傾向分析的結果顯示係如圖8所示般,示出對該等複數文件各者擷取之特徵語與表示該等特徵語之特徵度的數值,並且特徵語之感情指數(單詞感情指數)及文件之感情指數(文件感情指數)Ctx係由與該感情指數所對應之顏色及濃度的背景色來表示。但是,該感情傾向分析之結果的顯示形態並不受限於此,亦可以數值或棒狀圖等其他形態來顯示特徵語之感情指數或文件之感情指數。
10:文本探勘裝置
11:GUI部
12:文本資料記憶部
13:特徵語擷取部
14:辭典記憶部
15:特徵語感情指數取得部
16:文件感情指數計算部
17:顯示資料處理部
20:電腦
21:CPU
22:主記憶體
23:輔助記憶裝置
24:輸入操作部
25:顯示裝置
26:通信介面裝置
27:記錄媒體讀取裝置
28:鍵盤
29:滑鼠
30:記錄媒體
31:文本探勘程式
32:文本資料
34:感情語辭典
250:滑桿
251:第一滑標
252:第二滑標
260:「OK」按鈕
圖1係表示本發明一實施形態的文本探勘裝置之構成的方塊圖。
圖2係表示作為上述一實施形態的文本探勘裝置之電腦構成的方塊圖。
圖3係用於說明附帶有感情指數之感情語辭典的圖。
圖4係表示用於使電腦作為上述一實施形態的文本探勘裝置,其所執行之感情傾向分析處理之程序的流程圖。
圖5係表示上述一實施形態的文本探勘裝置之操作畫面的圖。
圖6係用於說明上述一實施形態中特徵語之擷取的圖。
圖7係表示上述一實施形態中對於對象文件各者擷取之特徵語的感情傾向之顯示例的圖。
圖8係表示上述一實施形態的文本探勘裝置中感情傾向分析結果之顯示例的圖。
250:滑桿
251:第一滑標
252:第二滑標
Claims (18)
- 一種文本探勘方法,其係用於在複數文件間比較感情極性之傾向者;其具備有如下步驟: 指示輸入步驟,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示; 特徵語擷取步驟,其根據被指定為上述對象文件之上述複數文件的文本資料,自上述複數文件各者中擷取特徵語; 感情指數取得步驟,其對由上述特徵語擷取步驟所擷取之特徵語中已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值所給予該特徵語者,賦予感情指數;及 顯示步驟,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取步驟擷取之特徵語、與由上述感情指數取得步驟所賦予之感情指數一起顯示。
- 如請求項1之文本探勘方法,其中, 上述指示輸入步驟進而包含有:受理對自上述對象文件中應擷取之特徵語的範圍進行指定之指示的步驟; 在上述特徵語擷取步驟中,擷取在上述指示輸入步驟所指定範圍內的特徵語。
- 如請求項1之文本探勘方法,其中, 上述指示輸入步驟進而包含有:受理對表示感情極性之強度的指數即感情指數之範圍進行指定之指示的步驟; 在上述感情指數取得步驟中,對於由上述特徵語擷取步驟所擷取之特徵語中,對在上述指示輸入步驟中所指定之範圍內被給予感情指數的單詞且被登錄於上述感情語辭典的特徵語,賦予該感情指數。
- 如請求項3之文本探勘方法,其中, 上述指示輸入步驟進而包含有:於上述擷取之特徵語與上述賦予之感情指數一起藉由上述顯示步驟而被顯示時,受理對上述感情指數之範圍變更進行指定之指示的步驟。
- 如請求項1之文本探勘方法,進而具備有: 文件感情指數計算步驟,其對於被指定為上述對象文件之上述複數文件各者,根據藉由上述特徵語擷取步驟而自該文件所擷取的特徵語中,藉由上述感情指數取得步驟而被賦予感情指數的特徵語,計算出該文件之感情指數以作為文件感情指數; 在上述顯示步驟中,顯示藉由上述文件感情指數計算步驟所計算出之上述文件感情指數。
- 如請求項5之文本探勘方法,其中, 在上述文件感情指數計算步驟中,對於被指定為上述對象文件之上述複數文件各者,藉由下述數式而計算出上述文件感情指數Ctx: Ctx=(Naf-Nng)/(Naf+Nng) 其中,Naf為該文件中之肯定性特徵語的出現數,Nng為該文件中之否定性特徵語的出現數。
- 如請求項5之文本探勘方法,其中, 在上述顯示步驟中,被指定為上述對象文件之上述複數文件各者的名稱係被附加背景色來進行顯示,該背景色係根據該文件之上述感情指數為肯定性或否定性而顏色不同,且該背景色具有與該文件之上述感情指數相對應的濃度。
- 如請求項1之文本探勘方法,其中, 在上述顯示步驟中,藉由上述感情指數取得步驟而被賦予感情指數之特徵語係被附加背景色來進行顯示,該背景色係根據該特徵語之感情指數為肯定性或否定性而顏色不同,且該背景色具有與該特徵語之感情指數相對應的濃度。
- 一種文本探勘程式,其係用於在複數文件間比較感情極性之傾向者;其在電腦中使CPU利用記憶體執行如下步驟: 指示輸入步驟,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示; 特徵語擷取步驟,其根據被指定為上述對象文件之上述複數文件的文本資料,自上述複數文件各者中擷取特徵語; 感情指數取得步驟,其對由上述特徵語擷取步驟所擷取之特徵語中已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值給予該特徵語者,賦予感情指數;及 顯示步驟,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取步驟所擷取之特徵語、與由上述感情指數取得步驟所賦予之感情指數一起顯示。
- 如請求項9之文本探勘程式,其中, 上述指示輸入步驟進而包含有:受理對自上述對象文件中應擷取之特徵語的範圍進行指定之指示的步驟; 在上述特徵語擷取步驟中,擷取在上述指示輸入步驟所指定範圍內的特徵語。
- 如請求項9之文本探勘程式,其中, 上述指示輸入步驟進而包含有:受理對表示感情極性之強度的指數即感情指數之範圍進行指定之指示的步驟; 在上述感情指數取得步驟中,對於由上述特徵語擷取步驟所擷取之特徵語中,對在上述指示輸入步驟中所指定之範圍內被給予感情指數的單詞且被登錄於上述感情語辭典的特徵語,賦予該感情指數。
- 如請求項11之文本探勘程式,其中, 上述指示輸入步驟進而包含有:於上述擷取之特徵語與上述賦予之感情指數一起藉由上述顯示步驟而進行顯示時,受理對上述感情指數之範圍變更進行指定之指示的步驟。
- 如請求項9之文本探勘程式,進而具備有: 文件感情指數計算步驟,其對被指定為上述對象文件之上述複數文件各者,根據藉由上述特徵語擷取步驟而自該文件所擷取的特徵語中藉由上述感情指數取得步驟而被賦予感情指數的特徵語,計算出該文件之感情指數以作為文件感情指數; 在上述顯示步驟中,顯示出由上述文件感情指數計算步驟所計算出之上述文件感情指數。
- 一種文本探勘裝置,其係用於在複數文件間比較感情極性之傾向者;其係具備有: 指示輸入部,其受理將應比較感情極性之傾向的複數文件指定為對象文件的指示; 特徵語擷取部,其根據被指定為上述對象文件之上述複數文件的文本資料,自上述複數文件各者中擷取特徵語; 感情指數取得部,其對由上述特徵語擷取部所擷取之特徵語中,已被登錄於既定之感情語辭典的特徵語,依該感情語辭典中表示感情極性之強度的數值給予該特徵語者,賦予感情指數;及 顯示部,其對於被指定為上述對象文件之上述複數文件,將由上述特徵語擷取部所擷取之特徵語、與由上述感情指數取得部所賦予之感情指數一起顯示。
- 如請求項14之文本探勘裝置,其中, 上述指示輸入部進而受理對自上述對象文件中應擷取之特徵語的範圍進行指定的指示, 上述特徵語擷取部係擷取由上述指示輸入部所指定範圍內的特徵語。
- 如請求項14之文本探勘裝置,其中, 上述指示輸入部進而受理對表示感情極性之強度的指數即感情指數之範圍進行指定的指示, 上述感情指數取得部係對於由上述特徵語擷取部所擷取之特徵語中,對由上述指示輸入部所指定之範圍內所賦予感情指數的單詞且被登錄於上述感情語辭典的特徵語,賦予該感情指數。
- 如請求項16之文本探勘裝置,其中, 上述指示輸入部於上述擷取之特徵語與上述賦予之感情指數一起藉由上述顯示部而進行顯示時,進而受理對上述感情指數之範圍變更進行指定的指示。
- 如請求項14之文本探勘裝置,進而具備有: 文件感情指數計算部,其對被指定為上述對象文件之上述複數文件各者,根據藉由上述特徵語擷取部而自該文件所擷取的特徵語中藉由上述感情指數取得部所賦予感情指數的特徵語,計算出該文件之感情指數以作為文件感情指數; 上述顯示部顯示出由上述文件感情指數計算部所計算出之上述文件感情指數。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-015493 | 2022-02-03 | ||
JP2022015493A JP2023113268A (ja) | 2022-02-03 | 2022-02-03 | テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202341003A true TW202341003A (zh) | 2023-10-16 |
Family
ID=87456661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112100950A TW202341003A (zh) | 2022-02-03 | 2023-01-10 | 文本探勘方法、文本探勘程式及文本探勘裝置 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2023113268A (zh) |
KR (1) | KR20230118030A (zh) |
CN (1) | CN116541518A (zh) |
TW (1) | TW202341003A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669566B (zh) * | 2024-01-30 | 2024-04-09 | 北京点聚信息技术有限公司 | 一种版式文件的实时数据在线智能处理方法 |
-
2022
- 2022-02-03 JP JP2022015493A patent/JP2023113268A/ja active Pending
-
2023
- 2023-01-10 TW TW112100950A patent/TW202341003A/zh unknown
- 2023-01-31 KR KR1020230012981A patent/KR20230118030A/ko unknown
- 2023-02-01 CN CN202310119160.7A patent/CN116541518A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116541518A (zh) | 2023-08-04 |
KR20230118030A (ko) | 2023-08-10 |
JP2023113268A (ja) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hellendoorn et al. | Will they like this? evaluating code contributions with language models | |
JP5775466B2 (ja) | 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム | |
US9904798B2 (en) | Focused personal identifying information redaction | |
WO2018184518A1 (zh) | 微博数据处理方法、装置、计算机设备及存储介质 | |
JP2009122851A (ja) | データを分類する技術 | |
SG192380A1 (en) | Social media data analysis system and method | |
US20130268475A1 (en) | Information processing apparatus, a method and a non-transitory computer readable medium thereof, and an information communication terminal, a control method and a non-transitory computer readable medium thereof | |
JP2016099741A (ja) | 情報抽出支援装置、方法およびプログラム | |
TW202341003A (zh) | 文本探勘方法、文本探勘程式及文本探勘裝置 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Gillies et al. | Theme and topic: How qualitative research and topic modeling can be brought together | |
US20220004885A1 (en) | Computer system and contribution calculation method | |
US20170242851A1 (en) | Non-transitory computer readable medium, information search apparatus, and information search method | |
Decorte et al. | Career path prediction using resume representation learning and skill-based matching | |
JP2012093966A (ja) | 文書分析装置およびプログラム | |
CN109815391A (zh) | 基于大数据的新闻数据分析方法及装置、电子终端 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
JP6048691B2 (ja) | 不満抽出装置,不満抽出方法および不満抽出プログラム | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
JP6178480B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
US11514060B2 (en) | Support system, storage medium, and method for presenting relationships of items | |
JP7427510B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JPWO2023037398A5 (zh) | ||
JP6676792B2 (ja) | レビュア管理システムおよび方法 | |
JP2009199576A (ja) | 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 |