TW201715420A

TW201715420A - 評估文章權重的方法及其系統

Info

Publication number: TW201715420A
Application number: TW104135756A
Authority: TW
Inventors: 禹良治; 吳家豪; 沈育儒; 李怡慧; 袁鳳清; 賴國華
Original assignee: 元智大學
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-01

Abstract

一種評估文章權重的系統，適用於評估文章的情緒值-期望值的權重組合表。首先，由編譯者定義字詞權重資料庫，包括複數個資料字詞，其中各該資料字詞有關於情緒值-期望值的權重組合。評估文章權重的系統包括搜尋伺服器以及計算伺服器。搜尋伺服器更包括接收模組與檢索模組。計算伺服器則包括計算模組。接收模組用以接收關鍵字、時段區間以及文章類別。檢索模組用以根據關鍵字、時段區間以及文章類別檢索出複數個相關參考文章。計算模組用以根據各該相關參考文章計算出權重組合表。

Description

評估文章權重的方法及其系統

一種評估文章權重的方法及其系統，尤指一種利用關鍵字、時間區段以及文章類別評估文章權重的方法及其系統。

在資訊爆炸的時代中，利用電子裝置並透過網際網路可以接收到來自於世界各地的資訊。然而，透過一般搜尋引擎所搜尋到的文章可謂是紊亂無章，在輸入關鍵字後，僅能選擇限定時間以及語言種類而搜尋出相關文章，接著，使用者仍須一一點擊文章並閱讀後才能了解文章的內容。因此，如何有效的整理大量文章，以利使用者快速獲得資訊仍是個需要被克服的課題。

本發明之實施例提供一種評估文章權重的方法，適用於評估文章的情緒值-期望值的權重組合表，定義一字詞權重資料庫，該字詞權重資料庫包括複數個資料字詞，其中各該資料字詞有關於情緒值-期望值的權重組合，該方法的步驟流程為：接收關鍵字；接收時段區間；接收文章類別；根據關鍵字、時段區間以及該文章類別檢索出複數個相關參考文章；根據各該相關參考文章計算出情緒值-期望值的權重組合表；以及重覆上述步驟，用以根據關鍵字、時段區間以及文章類別，計算出該些相關參考文章的情緒值-期望值的權重組合表。

本發明之實施例提供一種評估文章權重的方法，適用於評估文章的情緒值-期望值的權重組合表，定義一字詞權重資料庫，該字詞權重資料庫包括複數個資料字詞，其中各該資料字詞有關於情緒值-期望值的權重組合，該方法的步驟流程為：接收關鍵字；接收時段區間；接收文章類別；根據關鍵字、時段區間以及文章類別檢索出而檢索出關連於關鍵字、時段區間以及文章類別的一個或多個相關字詞；根據該些相關字詞而檢索出複數個相關參考文章；根據各該相關參考文章計算出情緒值-期望值的權重組合表；以及重覆上述步驟，用以根據關鍵字、時段區間、文章類別以及該些相關字詞，計算出該些相關參考文章的情緒值-期望值的權重組合表。

本發明之實施例提供一種評估文章權重的方法，適用於評估文章的情緒值-期望值的權重組合表，定義一字詞權重資料庫，該字詞權重資料庫包括複數個資料字詞，其中各該資料字詞有關於情緒值-期望值的權重組合，該方法的步驟流程為：接收一文章；根據此文章檢索出一或多個相關評論；根據該些評論計算出情緒值-期望值的權重組合表；以及重覆上述步驟，用以根據此文章，計算出該些相關評論的情緒值-期望值的權重組合表。

本發明之實施例提供一種評估文章權重的系統，適用於評估文章的情緒值-期望值的權重組合表，定義一字詞權重資料庫，該字詞權重資料庫包括複數個資料字詞，其中各該資料字詞有關於情緒值-期望值的權重組合，評估文章權重的系統包括搜尋伺服器以及計算伺服器。搜尋伺服器更包括接收模組與檢索模組，計算伺服器則包括計算模組。接收模組用以接收關鍵字、時段區間以及文章類別。檢索模組用以根據關鍵字、時段區間以及文章類別檢索出複數個相關參考文章。計算模組，用以根據各該相關參考文章計算出情緒值-期望值的權重組合表。

為使能更進一步瞭解本發明之特徵及技術內容，請參閱以下有關本發明之詳細說明與附圖，但是此等說明與所附圖式僅係用來說明本發明，而非對本發明的權利範圍區間作任何的限制。

S105、S205‧‧‧接收關鍵字

S110、S210‧‧‧接收時段區間

S115、S215‧‧‧接收文章類別

S120‧‧‧根據關鍵字、時段區間以及文章類別檢索出相關參考文章

S125‧‧‧根據相關參考文章計算出情緒值-期望值的權重組合表

S217‧‧‧根據關鍵字、時段區間以及文章類別檢索出相關字詞

S219‧‧‧根據相關字詞檢索出相關參考文章

S225‧‧‧根據相關參考文章計算出情緒值-期望值的權重組合表

S305‧‧‧接收一文章

S310‧‧‧根據該文章檢索出相關評論

S315‧‧‧根據相關評論計算出情緒值-期望值的權重組合表

203~227‧‧‧端點

4‧‧‧評估文章權重的系統

405‧‧‧字詞權重資料庫

410‧‧‧搜尋伺服器

4101‧‧‧接收模組

4103‧‧‧檢索模組

415‧‧‧計算伺服器

4151‧‧‧計算模組

9‧‧‧評估文章權重的使用者介面

901‧‧‧關鍵字輸入框

903‧‧‧時間區段框

905‧‧‧文章類別框

9051~9058‧‧‧文章類別

907‧‧‧相關字詞框

909‧‧‧情緒值-期望值的權重組合表

圖1為本發明實施例之評估文章權重的方法流程圖。

圖2為本發明另一實施例之評估文章權重的方法流程圖。

圖3為本發明另一實施例之評估文章權重的方法流程圖。

圖4為本發明另一實施例之評估文章權重的系統架構圖。

圖5為本發明另一實施例之編譯者A~E編譯中文文字的情緒值-期望值的平均絕對值誤差、平均絕對值誤差百分比、均方根誤差、均方根誤差百分比的數據分析表。

圖6為本發明另一實施例之文章類別、文章數目、文章字數的數據表。

圖7A為本發明另一實施例之字詞權重資料庫內中文文字的情緒值-期望值的權重組合表。

圖71B為本發明另一實施例之參考文章的情緒值-期望值的權重組合表。

圖8為本發明另一實施例之皮爾森相關係數的數據分析表。

圖9為本發明另一實施例之評估文章權重的使用者介面。

請參閱圖1，圖1為本發明實施例之評估文章權重的方法流程圖。本發明之一實施例的評估文章權重的方法適用於評估文章的情緒值-期望值的權重組合表。其中，本發明特別針對中文文字以及中文文章的情緒值-期望值作進一步的分析。因為，在習知技術或是文獻回顧的探討中，鮮少有針對中文文字以及中文文章的情緒值以及期望值作深入分析，因此本發明特別針對習知技術以及歷史文獻中無法對中文文章作情緒值以及期望值作預測分析的缺憾，而設計出快速且準確的方法來分析中文文章所表現出的情緒與期望值。

首先，從字詞權重資料庫的內容為出發點，進一步對中文文章的情緒值-期望值作分析。字詞權重資料庫包括複數個資料字詞，各資料字詞為經由人工方式定義出有關於期望值與情緒值的權重組合。由於每個人的學歷、經歷或是人生遭遇的異同，而造成每個人對文字、詞、句子以及文章有不同的喜好感覺，在此利用問卷方式請多位受測者對字詞權重資料庫中的文字作期望值與情緒值的評分，取得所有受測者對文字的評分後，並不予計算離群之數據，為增加整體數據的準確性。接著，再以平均的方式計算出資料字詞的期望值與情緒值的權重組合。

情緒值(valence，簡稱val)，即代表文字的情緒程度，情緒值的範圍區間為0~9，例如越悲傷就越靠近0，越高興就越靠近9，若對文字沒什麼特別情緒反應，則越靠近5。期望值(arousal，簡稱aro)即代表文字的期望程度，期望值的範圍區間為0~9，例如越冷漠就越靠近0，越熱心就越靠近9，若對文字沒什麼特別想深入探討的，則越靠近5。

在步驟S105中，利用搜尋伺服器來接收關鍵字，換句話說，即使用者透過電子裝置如桌上型電腦、平板電腦、筆記型電腦、智慧型手機等等，來輸入欲查詢之關鍵字，本發明不以電子裝置的種類為限。

在步驟S110中，利用搜尋伺服器來接收時段區間，換言之，即使用者透過電子裝置來輸入欲查詢之關鍵字。進一步說明，此時段區間可設定為3天、1周、1個月、3個月、6個月、1年等等，本發明並不以時間範圍為限。由於人們對文字或是文章的感覺會隨著時間的演進而產生變化，因此，不同的時間範圍對相同的文字或是相同的文章可能會表現出不同的情緒值以及期望值。舉例來說，近年來在娛樂性文章常出現「牛逼」二字，此為表示此人物或是此事件非常的厲害或是極度的驚人，而在情緒值以及期望值的權重組合中，即表現出開心且熱心的感覺。相較之下，在數十年前，人們對「牛逼」二字並不會產生特別的感覺，單看「牛」字，只會接收到動物的資訊，單看「逼」字，只會接受到強迫他人的資訊。

在步驟S115中，利用搜尋伺服器來接收文章類別。進一步說明，若使用者輸入相同的關鍵字以及相同的時段區間，但輸入不同的文章類別後，則可能產生不同的結果。舉例來說，某家醫療器材公司多為生產醫療注射器商品，某使用者若輸入相同的關鍵字如胰島素注射器，輸入相同的時段區間為1個月，但輸入不同的文章類別，在醫療文章可能多為報導該醫療器材公司在醫療產業的貢獻或是在醫療研究的卓越，相較之下，在經濟文章可能多為報導該醫療器材公司的營收表現。

在步驟S120中，利用搜尋伺服器來根據步驟S105~115所接收到的關鍵字、時段區間以及文章類別檢索出複數個相關參考文章。其中，關鍵字對應相關參考文章的關連性可利用相似度關係來檢索出，相似度關係的計算方式可以為自然語言處理(pointwise mutual information,PMI)或餘弦定理(cosine theory)，本發明並不以相似度關係的計算方式為限。

自然語言處理之計算公式為PMI(x,y)，PMI(x,y)之公式如下： p(x)代表x文字在文章出現的機率，意即在一篇文章內x文字出現的次數除以文章總共的字數，p(y)代表y文字在文章出現的機率，P(x,y)代表x文字與y文字同時出現的機率。

餘弦定理為cos(θ)=cos(a．b)，其中a、b字句各自代表向量之字詞組合，a=(x1,y1)，b=(x2,y2)，cos(θ)則如下列公式：餘弦值為由0到1，越接近1則代表a字句與b的字句越相關，反之，若餘弦值為0，則代表a字句與b的字句並不相關。

在步驟S125中，根據各該相關參考文章並利用計算伺服器來計算出該些相關參考文章的情緒值-期望值的權重組合表。使用者透過搜尋伺服器來輸入關鍵字、時間區段以及文章類別，並進一步經由網際網路來檢索出關連於關鍵字、時間區段以及文章類別的相關參考文章。接著，再利用計算伺服器計算出該些相關參考文章所表現出的情緒值以及期望值的權重組合表。其中，由各相關參考文章所包括的文字中，對應字詞權重資料庫的各資料字詞，而計算出該些相關參考文章的情緒值-期望值的權重組合表。其中，利用k-平均演算法(k-means clustering)計算該些相關參考文章的情緒值-期望值的權重組合表，k-平均演算法屬於分割式分群法，主要運算方式是在大量的資料點中找出具有代表性的資料點，並且除去離群值。

重覆上述步驟S105~S125，用以根據關鍵字、時段區間以及文章類別，計算出該些相關參考文章的情緒值-期望值的權重組合表。利用本發明之一實施例所提供之評估文章權重的方法，可有效減少使用者以傳統方式一一審視每篇文章所耗費的大量時間，才能了解到檢索出的文章所表現出的綜合涵意。

請參閱圖2所示，圖2為本發明另一實施例之評估文章權重的方法流程圖。在步驟S205中，利用搜尋伺服器來接收關鍵字，換言之，即使用者透過電子裝置來輸入欲查詢之關鍵字，本發明不以電子裝置的種類為限。

在步驟S210中，利用搜尋伺服器來接收時段區間，即使用者透過電子裝置來輸入欲查詢之關鍵字。在步驟S215中，利用搜尋伺服器來接收文章類別。

在步驟S217中，利用搜尋伺服器並根據關鍵字、時段區間以及文章類別檢索出相關字詞。其中，根據關鍵字檢索出相關字詞為利用相似度關係，相似度關係的計算方式可以為自然語言處理或餘弦定理，在此不再贅述。

在步驟S219中，利用搜尋伺服器並根據相關字詞檢索出相關參考文章。須說明的是，相關字詞的數量可能為一個或是多個，因此，搜尋伺服器可以根據一個相關字詞檢索出相關參考文章，搜尋伺服器也可以跟至少兩個相關字詞來進一步檢索出相關參考文章。

在步驟S225中，利用計算伺服器並根據相關參考文章計算出情緒值-期望值的權重組合。其中，由各相關參考文章所包括的文字中，對應字詞權重資料庫的各資料字詞，而計算出該些相關參考文章的情緒值-期望值的權重組合表。

重覆上述步驟S205~S225，用以根據關鍵字、時段區間、文章類別以及相關字詞，計算出該些相關參考文章的情緒值-期望值的權重組合表。利用本發明之一實施例所提供之評估文章權重的方法，透過搜尋伺服器接收一個或多個相關字詞後，並檢索出相關參考文章，可有效減少習知技術僅以關鍵字搜尋相關文章的方式所耗費的大量時間，使用者須再經由一一閱讀才能了解到檢索出的文章所表現出的綜合涵意。

請參閱圖3所示，圖3為本發明另一實施例之評估文章權重的方法流程圖。在步驟S305中，由搜尋伺服器接收一文章，換言之，此文章可依使用者的喜好而自由選擇輸入搜尋伺服器中。接著，在步驟S310中，透過搜尋伺服器而根據該文章檢索出相關評論，其中，可利用相似度關係來檢索出關連於該文章的相關評論，由各相關評論所包括的文字中，對應字詞權重資料庫的各資料字詞，而計算出該些相關評論的情緒值-期望值的權重組合表。在步驟S315中，利用計算伺服器並根據該些相關評論而計算出情緒值 -期望值的權重組合表。

由圖3的實施例即可表現出，當使用者選取欲分析的特定文章後，經由搜尋伺服器透過網際網路檢索到相對應的相關評論後，由計算伺服器計算出該些相關評論所表現出的情緒值-期望值的權重組合表，由本發明之一實施例所提出之評估文章權重的方法可快速且準確對特定文章做出性質分析。

請參閱圖4所示，圖4為本發明另一實施例之評估文章權重的系統架構圖。評估文章權重的系統4包括搜尋伺服器410以及計算伺服器415。搜尋伺服器410更進一步包括接收模組4101以及檢索模組4103，計算伺服器415則包括計算模組4151。接收模組4101，用以接收關鍵字、時段區間以及文章類別，換言之，即由使用者輸入所欲查詢的關鍵字、時段區間以及文章類別。計算模組4151用以根據接收模組4101所接收到的關鍵字、時段區間以及文章類別檢索出複數個相關參考文章。接著，計算模組4151用以根據各該相關參考文章計算出情緒值-期望值的權重組合表。

在圖4之實施例即說明，透過接收模組來接收使用者所欲輸入之關鍵字、時間區間以及文章類別，再由檢索模組透過網際網路檢索出相關參考文章，最後，由計算模組計算出相關參考文章所代表之情緒值-期望值的權重分配表，用以達成快速分辨文章所屬性質的功效。

請同時參照圖5與圖6。圖5為本發明另一實施例之編譯者A~E編譯中文文字的情緒值-期望值的平均絕對值誤差、平均絕對值誤差百分比、均方根誤差、均方根誤差百分比的數據分析表。圖6為本發明另一實施例之文章類別、文章數目、文章字數的數據表。由圖5所示，由5位編譯員對1693個中文文字作情緒值以及期望值的定義，其中，每位編譯者所定義出的數據相對於平均數據的平均絕對值誤差、平均絕對值誤差百分比、均方根誤差、均方根誤差百分比。本實施力之數據分析方法有平均絕對值誤差(mean absolute error,MAE)以及均方根誤差(root mean square error,RMSE)，Ai代表每位編譯者所定義出的數據，Ai表示平均數據，公式分別如下：

由圖5可知，期望值的平均誤差值百分比與均方根誤差百分比皆大於期望值的平均誤差值百分比與均方根誤差百分比，表示出人們對於中文文字的期望程度相異較大。

由圖6可知，本實施例納入了539篇文章作進一步關於情緒值與期望值的分析，其中文章數最多的是汽車類，文章數最少的是政治類。

請同時參閱圖5、圖6、圖7A、圖7B。圖7A為本發明另一實施例之字詞權重資料庫內中文文字的情緒值-期望值的權重組合表。圖7B為本發明另一實施例之參考文章的情緒值-期望值的權重組合表。圖7A即表示出由編譯者A~E針對1653個中文文字定義出的權重組合表。端點203表示激進；端點206表示狂熱；端點209表示痛苦；端點212表示憂鬱；端點215表示無聊；端點218表示放鬆；端點221表示舒適；端點224表示信任；端點227表示榮譽感。圖7B即表示由編譯者A~E對此539篇文章作情緒值-期望值分析後所形成的權重組合表。由圖7A以及圖7B的圖形分佈即可觀察出，編譯者A~E對中文文字以及中文文章的看法相似。

請參閱圖8所示，圖8為本發明另一實施例之皮爾森相關係數的數據分析表。皮爾森相關係數(Pearson correlation coefficient)是用以表現出變數之間相關密切程度的統計指標，範圍在-1~1，越接近1代表相關程度越高，越接近-1代表相關程度越低。英文文字對應於英文文章是由Gokcay et al.，在2012年所發表，中文文字對應於中文文章是利用本發明之評估文章權重的方法所完成的，由圖8之數據分析表可明顯得知，本發明所提出之評估文章權重的方法可有效提升中文文字對應於中文文章相關程度。

請參閱圖9所示，圖9為本發明另一實施例之評估文章權重的使用者介面。評估文章權重的使用者介面9包括有關鍵字輸入框901、時間區段框903、文章類別框905、相關字詞框907以及情緒值-期望值的權重組合表909。文章類別框905更包括文章類別9051~9058，其中文章類別可如圖6所提及。使用者利用關鍵字輸入框901、時間區段框903、文章類別框905輸入所欲了解之資訊後，即會透過相關字詞框907顯示相關字詞，以及透過情緒值-期望值的權重組合表909顯示該些參考文章的權重組合表。

綜上所述，本發明透過關鍵字、時間區段以及文章類別經由相似度分析而檢索出相關參考文章，並對該些相關參考文章中所包含的文字對應於字詞權重資料庫內的資料字詞，進一步計算出相關參考文章的情緒值以及期望值，用以準確並快速分析文章的性質。

以上所述僅為本發明的實施例，其並非用以限定本發明的專利保護範圍區間。任何熟習相像技藝者，在不脫離本發明的精神與範圍區間內，所作的更動及潤飾的等效替換，仍為本發明的專利保護範圍區間內。