TW201740293A - 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 - Google Patents

資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 Download PDF

Info

Publication number
TW201740293A
TW201740293A TW105114981A TW105114981A TW201740293A TW 201740293 A TW201740293 A TW 201740293A TW 105114981 A TW105114981 A TW 105114981A TW 105114981 A TW105114981 A TW 105114981A TW 201740293 A TW201740293 A TW 201740293A
Authority
TW
Taiwan
Prior art keywords
word
words
emotional
program
feature
Prior art date
Application number
TW105114981A
Other languages
English (en)
Other versions
TWI582627B (zh
Inventor
黃純敏
江易麇
李督尉
洪煒倫
Original Assignee
國立雲林科技大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立雲林科技大學 filed Critical 國立雲林科技大學
Priority to TW105114981A priority Critical patent/TWI582627B/zh
Application granted granted Critical
Publication of TWI582627B publication Critical patent/TWI582627B/zh
Publication of TW201740293A publication Critical patent/TW201740293A/zh

Links

Abstract

本發明提出一種資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體。資訊分析的方法包括以下步驟:取得複數文字檔案;對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性;進行一合併詞處理程序;進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞;進行一主題模型分析程序,以得到複數個主題;以及進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。

Description

資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
本發明係關於一種資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體。
科技發展日新月異,醫療技術隨之大幅提升,現代人對於營養與醫療的重視,使得人類壽命較過去延長許多,間接影響社會人口結構,造成平均年齡的提高及人口老化的現象。同樣的症狀,不同的醫生也有不同處理方式,但「什麼樣的醫生才是我現在想要找的?」---相信這是不少病患心中的疑慮,矛盾的是,待真正得病、迫在眉睫之時,其實並無太多時間與心力去打聽醫生的評價,且病患在就醫時,也多少會依自身狀況而有不同的需求。
目前有關醫療查詢,大多僅於掛號及醫療院所、醫生的基本資料,有關就診經驗及醫生的評論卻僅是零星分散各處,即使網路上不乏不錯的醫療網站,如良醫健康網,但是此類網站中,大部分的評論皆取自自家平台使用者的經驗,資料蒐集的範圍難免過於狹隘,且對於醫生評論仍多為零星散置,缺乏公正客觀的整合平台,而且醫生評論皆未加以整理,使用者必須逐一檢視,其中或許有些具參考價值,惟因數量甚少,信度難以認定,在資訊不足的情況下,甚且可能產生誤導使用者的可能。
一般而言,病患們對於同一位醫生的評價可能不盡相同,有些難免過於主觀,流於情緒化的恭維或貶抑,有些是同業競爭惡意中傷,這些未必經過查證的內容,一經發出,正向評論對求醫者可能造成一窩蜂 慕名掛號;負向評論則成為眾矢之的,避之唯恐不及。二者都可能影響特定醫師在短期內掛號量爆增或門可羅雀的窘境。此類言論若言之確鑿,對醫生確有正向鼓勵及反向警惕的作用,對要就醫的民眾也有協尋良醫的參考價值。然而,對於因惡意中傷或浮誇事實者,卻將嚴重影響醫生形象,可能造成被汙名的醫生身心俱疲而影響其後看診專業水平,對醫師和病患顯然都不是好的現象。因此,多數醫療網站多選擇公布整體或部門滿意度,並不提供個別醫生的評量資料,有些醫療網站,對於民眾的發言內容進行篩選把關,因而也降低病患表達意見的意願。
本發明提供一種資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體。本發明可將一般大眾對於特定議題的看法,有效地萃取出潛在主題及特徵值,並且辨識出主題文章當中的情緒特徵,使使用者可很快速取得民眾對於某一特定議題的看法。
本發明所提供的一種資訊分析的方法,包括以下步驟:取得複數文字檔案、對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性、進行一合併詞處理程序、進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞、進行一主題模型分析程序,以得到複數個主題、以及對經斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。
本發明另提供一種資訊分析的裝置,包括一或多個處理單元以及一記憶單元。記憶單元電性連接一或多個處理單元,記憶單元儲存一或多個程式指令,當一或多個程式指令被一或多個處理單元執行時,一或多個處理單元進行以下步驟:取得複數文字檔案、對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性、進行一合併詞處理程序、進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞、進行一主題模型分析程序,以得到複數個主題、及對經斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。
在一實施例中,於進行合併詞處理程序的步驟中,一個單詞保留或刪除,是依據文字檔案中,單詞及與該單詞直接連接之複合詞的詞頻來決定。
在一實施例中,特徵詞辨識程序是依據一特徵詞句法規則辨識出特徵詞,且特徵詞句法規則包含單詞中,以普通名詞加專有名稱、專有名稱加專有名稱、專有名稱加動詞與連接詞為主的規則來訂定。
在一實施例中,於進行特徵詞辨識程序的步驟中,若一單詞的詞性為專有名稱,且於文字檔案中,該單詞與其後連接的一個字的詞頻大於該單詞與其後連接的二個字的詞頻時,則特徵詞為該單詞與該單詞後連接的一個字。
在一實施例中,主題模型分析程序是對經合併詞處理程序與特徵詞辨識程序之各該些文字檔案進行LDA主題模型分析,以計算出各個主題內相關的字詞,且各個主題內相關的字詞包含單詞或複合詞。
在一實施例中,情緒分析程序包含一情緒極性轉換規則,且在情緒極性轉換規則中,評論文章具有一否定語或一問號以及一情緒詞時,否定語或問號將反轉情緒詞的情緒;當評論文章中描述數量或頻率的一負向詞與一正向詞連接時,負向詞將反轉正向詞的情緒。
在一實施例中,情緒分析程序更包含一情緒程度加權規則,且在情緒程度加權規則中,評論文章具有一程度級別詞與一情緒詞時,程度級別詞將對情緒詞產生加權作用。
在一實施例中,該方法更包括以下步驟:依據一使用者選定的特徵詞顯示對應的主題內容。
在一實施例中,情緒傾向分析結果包含一正向情緒、一負向情緒或一中性情緒,且該方法更包括以下步驟:依據一使用者選定的特徵詞顯示對應的正向情緒、負向情緒或中性情緒的文字檔案。
本發明又提供一種內儲用於資訊分析之應用軟體,當一裝置載入該應用軟體並執行後,可完成上述的方法。
本發明又提供一種內儲應用軟體之電腦可讀取儲存媒體,當 一裝置載入該應用軟體並執行後,可完成上述的方法。
承上所述,於本發明的資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體中,藉由取得複數文字檔案、對各該些文字檔案進行斷詞程序、合併詞處理程序與特徵詞辨識程序等步驟,可得到各該些文字檔案中對應的特徵詞,之後,再藉由主題模型分析程序可得到複數個主題,而由這些主題內容中可看出,其與特徵詞的關聯性很強,可有效提高主題詞的可讀性與凝聚力。另外,對經斷詞程序處理後的各該些文字檔案進行情緒分析程序,可得到各該些文字檔案對應的情緒傾向分析結果。因此,本發明可將一般大眾對於特定議題的看法,有效地萃取出潛在主題及特徵值,並且辨識出主題文章當中的情緒特徵,使使用者可很快速地取得一般民眾對於某一特定議題的看法。
1‧‧‧資料分析裝置
11‧‧‧處理單元
12‧‧‧記憶單元
K‧‧‧主題數量
M‧‧‧文章的總數量
N0、N1、N2、N3‧‧‧節點
Nd‧‧‧第d篇文字檔案的長度
S01~S06‧‧‧步驟
W1~Wn‧‧‧單詞
Z1~Zk‧‧‧主題
α、β‧‧‧參數
θ‧‧‧機率
圖1A為本發明較佳實施例之一種資訊分析方法的步驟流程示意圖。
圖1B為本發明較佳實施例之一種資訊分析裝置的功能方塊示意圖。
圖2為圖1A之資訊分析方法的另一步驟流程示意圖。
圖3為本發明一實施例之LDA主題模型示意圖。
圖4為應用本發明的分析方法所得到的一實施例之視覺化結果呈現示意圖。
以下將參照相關圖式,說明依本發明較佳實施例的資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體,其中相同的元件將以相同的參照符號加以說明。
請參照圖1A及圖1B所示,其中,圖1A為本發明較佳實施例之一種資訊分析方法的步驟流程示意圖,而圖1B為本發明較佳實施例之一種資訊分析裝置的功能方塊示意圖。
如圖1A所示,本發明之資訊分析方法包括以下步驟:取得 複數文字檔案(步驟S01)、對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性(步驟S02)、進行一合併詞處理程序(步驟S03)、進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞(步驟S04)、進行一主題模型(Topic Model)分析程序,以得到複數個主題(步驟S05)、以及對經斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果(步驟S06)。要注意的是,上述由步驟S01到步驟S06的順序,並不是一定依照步驟S01、步驟S02~步驟S05、步驟S06的順序進行,也就是說,如圖1A所示,完成步驟S01與步驟S02後,可先進行步驟S03~步驟S05,之後再進行步驟S06;或者,完成步驟S01與步驟S02後,先進行步驟S06,之後再進行步驟S03~步驟S05,並不限制。
另外,如圖1B所示,資訊分析裝置1(以下簡稱裝置1)包括一或多個處理單元11以及一記憶單元12,記憶單元12可透過例如匯流排電性連接該一或多個處理單元11。於此,圖1B是以顯示一個處理單元11與一個記憶單元12為例。
處理單元11可存取記憶單元12所儲存的資料。其中,處理單元11可包含裝置1之核心控制組件,例如可包含至少一中央處理器(CPU)及一記憶體,或包含其它控制硬體、軟體或韌體。另外,記憶單元12儲存至少一應用軟體,該應用軟體例如但不限於為一APP軟體,或一電腦可執行的應用軟體,並可包含一或多個程式指令,當應用軟體的該一或多個程式指令被該一或多個處理單元11執行時,該一或多個處理單元11可執行至少以下步驟:取得複數文字檔案、對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性、進行一合併詞處理程序、進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞、進行一主題模型分析程序,以得到複數個主題、以及對經斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。
本實施例的記憶單元12可為一非暫態電腦可讀取記錄媒體 (non-transitory computer readable storage medium),例如可包含至少一記憶體、一記憶卡、一光碟片、一錄影帶、一電腦磁帶,或其任意組合。記憶體可包含唯讀記憶體(ROM)、快閃(Flash)記憶體、或可程式化邏輯閘陣列(Field-Programmable Gate Array,FPGA),或其他形式的記憶體,或其組合。於此,記憶單元12是以手機的內部記憶體為例。不過,在不同的實施例中,記憶單元12亦可為一雲端記憶體而位於雲端裝置中,故應用軟體也可儲存於雲端裝置,使用者再由雲端裝置載入裝置1中即可執行。
以下,是以網際網路中對醫生的評論文章為例來說明本發明的分析方法。在不同的實施例中,也可將本發明的分析方法應用於其他的領域,例如應用於物品的滿意度調查、政治民調、圖書館或書店的書本調查、...,於此,並不限定其應用範圍。以圖書為例,藉由本發明的分析方法得到對某一書本的評價,可以協助圖書館或書店進書,也使書店可避免評價或銷量較差的書籍;此外,本分析方法也能協助其他使用者,例如教師選用課本、使用者購書、選書等方面,或應用於其他方面。
請再參照圖1A並配合圖2所示,以詳細說明本實施例的資訊(對醫生的評論文章)分析方法。其中,圖2為圖1A之資訊分析方法的另一步驟流程示意圖。
如圖2的流程所示,首先,可藉由例如網路爬蟲程式,廣泛地收集網際網路上對醫生的評論文章(文字檔案),例如由各大社群網站、論壇、專業醫療網站及電子佈告欄(如批踢踢實業坊醫療看板)進行資料蒐集,以取得複數篇的評論文章(步驟S01)。
接著,對每一篇評論文章進行中文斷詞程序(步驟S02)。於此,例如但不限於以中研院的中文斷詞系統:CKIP(Chinese Knowledge and Information Processing)對每一篇評論文章進行斷詞處理,以分別得到每一篇評論文章中的單詞(word,又稱為單字詞)及這些單詞對應的詞性。單詞是能獨立運用並含有語義內容或用語內容的最小單位。以中文字來說,單詞至少為一個字。
舉一例子來說,一篇評論文章經中文斷詞後可得到如下表1 的字詞及對應的詞性。其中,英文簡化標記及所代表的詞性內容可查閱中研院平衡語料庫詞類標記集(例如Na代表普通名詞,Nh代表代名詞,...)。
另外,由於文章中常會有無意義的符號,因此,在一些實施例中,可剔除每一篇評論文章中無意義的符號,例如將HTML標籤、英文字串、數學運算符號或其他特殊符號刪除。
接著,可先進行合併詞處理程序(步驟S03)以及特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞(步驟S04)。
於句法結構中觀察可發現,相連接的單詞經過適當合併後,所呈現的意義大於個別的單詞總和,而且比起單詞更具有意義,以此可作為步驟S05的主題特徵詞。比起傳統的單詞來說,相連的字詞(稱為複合詞或合併詞)有時更能凝聚相關主題。例如,「林醫師」的意義,大於林(Na)和醫師(Na)的總和,因此須保留複合詞:「林醫師」而去除單詞:林(Na)、醫師(Na)。
以表1的文章例句來說,「台大醫院」經過斷詞後,為「台大(Nc)」與「醫院(Nc)」兩個單詞,但評論內容所指的其實是具體的「台大醫院」。因此,於進行合併詞處理程序的步驟S03中,某一單詞保留或刪除,是依據該文字檔案中,該單詞及與該單詞直接連接之複合詞的詞頻(詞頻 就是該詞於文章中出現的次數)來決定。於此,係以估測意義(Significance Estimation,SE)作為單詞、複合詞是否留存的考量,藉由計算單詞、複合詞間最大子字串的詞頻來評斷兩個詞的重要性,如以下公式(1)所示:SEC=fc÷(fa+fb-fc)。
其中,fc為c字詞在文字檔案中的詞頻,fa與fb分別為單詞a與單詞b的詞頻。SEC的值越大,表示c字詞在文字檔案中具有較大的意義。以複合詞:「台大醫院」為例,fc為複合詞:「台大醫院」在評論文章中的詞頻,假設fc=3,而fa與fb則分別代表單詞:「台大」與「醫院」的詞頻,假設分別為fa=3、fb=5,經公式(1)計算得到SEC等於0.6,表示「台大醫院」的重要性是0.6。另外,某一單詞的詞頻大於其合併詞的詞頻,表示該單詞仍有單獨存在的空間,需予以保留。例如「醫院」的詞頻5,高於「台大醫院」的3,表示「醫院」除了包括在「台大醫院」外,仍有單獨存在的必要,因此「醫院」與「台大醫院」這兩個詞都要保留;另外,某一單詞的詞頻與合併詞的詞頻相同,表示該單詞僅依存於其合併詞,故移除該單詞。例如「台大」與「台大醫院」的詞頻相同,表示「台大」僅依存於「台大醫院」,故可移除「台大」,保留「台大醫院」。
此外,合併詞處理程序只針對文字檔案的單詞中,詞性為動詞、名詞與形容詞的組合來進行,其所使用的詞性列表如下表2所示。因此,經合併詞處理程序後,可得到每一個文字檔案中較為重要(出現頻率較多)的單詞與複合詞,可能會刪去部份的單詞。
另外,在特徵詞辨識程序的步驟S04中,本實施例辨識出的特徵詞就是人名(醫師姓名)。在人名辨識程序中,是依據一人名句法規則辨識出該些人名(特徵詞)。其中,人名句法規則包含單詞中,以普通名詞加專有名稱、專有名稱加專有名稱、專有名稱加動詞與連接詞為主的規則來訂定。
如下表3所示,本實施例之人名規則可歸納為四大組合,分別是:以普通名詞(Na)+專有名稱(Nb)為中心者共有4條;以專有名稱(Nb)+專有名稱(Nb)為中心者共有4條;以專有名稱(Nb)+動詞(V)為中心者共有45條,另外有1條為連接詞之組合。其中,"( )"內表示詞性,"+"表示單詞的連接。
以表3的Na+Nb→Nb為例,Na為普通名詞,Nb為專有名稱,當Na直接接續Nb時,Na大多是身分或職稱,而Nb則為人名。例如:「總統(Na)馬英九(Nb)」,可取得「馬英九」為人名(特徵值)。在基本的Na+Nb組合之外,前後可有多種延伸的可能,可視為人名註解,藉此可辨別同名不同人,或同一人職位的更迭。例如,當Na+Nb組合之前有Nc時,此時Nc多為職稱的所在,其重點在描述人名而非地名,例如:「總統府(Nc)發言人(Na)陳以信(Nb)」中之「總統府(Nc)」,僅為描述「陳以信(Nb)」工作的組織,因此,此處的Nc不列入地名考量。相反的,當Nc接在Nb之後時,絕大多數為組織名,如:「甘迺迪(Nb)國際(Nc)機場(Nc)」,但少數為人名的姓氏,如「陳(Nb)雲林(Nc)」。此外,由於Nb可扮演多種角色,可能是人名或人名的一部分,或為部落名、或是歷史事件等,透過上述所提出的人名命名規則搭配人名組合的上述公式(1)可有效辨識。例如:李大雄(Nb)獨(D)愛(VL)哈士奇(Nb)玩偶(Na),當中的「哈士奇」雖為Nb,但不符合人名句法規則,因此不會將之認定為人名。
因此,藉由上述的特徵詞辨識程序與規則可辨識出人名,藉此使每一篇評論可與其評論的醫生姓名做連結。在本實施例訂定的人名句法規則中,每一項規則的詞性組合皆有其指向意涵,透過多重詞性組合比對,不但可有效萃取其工作崗位、職稱組合等等,更能提升萃取人名特徵字詞的準確率。
不過,鑒於社群網路對醫生的評論文章撰寫方式十分隨興,其間可能包含許多錯字及雜訊,雖經剔除無意義的符號,但是在CKIP斷詞結果中,對於人名可能還是無法有效辨識。因此,於上述的特徵詞辨識程序的步驟S04中,若文字檔案的某一單詞的詞性為專有名稱,且於文字檔案中,該單詞與其後連接的一個字的詞頻大於該單詞與其後連接的二個字 的詞頻時,則特徵詞為該單詞與該單詞後連接的一個字。反之,該單詞與其後連接的一個字的詞頻小於或等於該單詞與其後連接的二個字的詞頻時,則特徵詞為該單詞與該單詞後連接的二個字。
以上述的人名為範例:「賴向華」被斷詞為「賴(Nb)」、「向(P)」、「華(Nc)」三個單詞。有些斷詞錯誤的人名組成,通常以(Nb)為姓加上後續字元為名。由於人名命名有很大的彈性空間,沒有任何人名辭典可將全部姓名全部囊括,通常以百大姓氏開頭,連接一至二個名字,如:李鵬、湯民國。一般而言,姓名的字數集中在2個~4個字之間,少數為5~6個字,逾6字者僅有千餘人(內政部2014年資料)。因此,本實施例在特徵詞辨識程序中,人名部分僅考量2~4個字為對象,利用如下的姓名鏈結機率公式(2)進行合併及判斷,藉此推導出人名可能的組合。公式(2)如以下所示:
其中,P(PER)為人名組成的機率(可能性),Freq Lc(i,i+1)代表長度為單一或二個字的專有名稱(Nb),與其後接續第一個字結合之詞頻,Freq Lc(i,i+2)表示長度為單一或二個字的專有名稱(Nb),與其後接續的二個字結合之詞頻。其中,當Freq Lc(i,i+2)小於Freq Lc(i,i+1)時,則P(PER)<1,表示人名為該專有名稱(Nb)結合相連後的一個字;反之,若P(PER)≧1,就表示人名為該專有名稱(Nb)結合相連後兩個字,以此類推。
例如:「賴(Nb)向(P)華(Nc)」,透過公式(2)計算在評論文章中,其後接續的一個字與接續兩個字的頻率。當三個字:「賴向華」出現的頻率小於「賴向」時,人名較有可能是「賴向」。反之,當「賴向華」出現詞頻大於或等於「賴向」時,則人名較有可能是「賴向華」。其中,人名為三個字時,其人名組合可能為單姓+雙字名,或是複姓+單字名的組合,藉此辨識出人名,使得後續分析出的主題可更為準確。人名組合範例可如下表4所示:
在資訊檢索、分析的領域中,精確(Precision)率與召回(recall)率為最被廣泛使用的評估方法。其中,精確率是指在回傳的結果中正確的比例佔了多少,精確率愈高表示所提出的方法在檢出及辨識能力愈好;而召回率指能找出所有正確的人名比率,如果召回率很高,則表示設計考量很周全,不輕易漏掉正確的資訊。在本發明一實施例中,人名辨識的精確率與召回率可分別達到97.29%及94.98%,值相當的高,表示本發明所提出的方法在檢出及辨識能力相當好,而且可找出正確的人名比率也相當高。
接著,如圖2所示,進行主題模型分析程序,以得到複數個主題(步驟S05)。其中,主題可包含單詞與合併字詞(複合詞)。於主題模型分析中,潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是繼潛在語意分析(Latent Semantic Analysis,LSA)以及機率潛在語意分析(Probability Latent Semantic Analysis,PLSA)之後,最受到矚目的語意處理及主題模型建構方法之一。透過LDA主題模型分析,可解決同型異義與異型同義字的問題,有效提高查詢準確率。
本實施例是對經合併詞處理程序與特徵詞辨識程序之各評論文章進行LDA主題模型分析,以計算出各個主題內相關的字詞。有別於以往的LDA處理中,將字詞視為無順序關聯的詞袋(bag-of-words)觀念,本實施例的LDA主題模型擷取相對重要的單詞與語意較豐富的複合詞作為主題詞。換言之,本實施例之LDA主題模型分析所計算出各個主題內相關的字詞(主題詞)可包含單詞及/或複合詞,並加入人名辨識規則與姓名鍊 結公式,可有效提高主題詞的可讀性與凝聚力。
請參照圖3所示,其為本實施例之LDA主題模型示意圖。其中,α與β為超參數(Hyper-parameter)值,α是文章中主題的分佈,而β是主題中詞的分佈;每一篇評論文章對應一個θ,也就是每篇文章產生出主題Z的機率。另外,Z1~Zk表示文章中隱含的主題,而W1~Wn是文章中可見的單詞,藉由θ可求出Z。參數值α與β的設定將決定主題分佈的集中程度以及單詞在主題中的分佈狀況。本實施例採用的預設值α=0.5、β=0.1,而主題數量K值則採用困惑值(Perplexity)來決定,如以下公式(3)所示:
於公式(3)中,M為評論文章的總數量,Nd為第d篇評論文章的長度,P(Wd)表示該評論的概率,而困惑值(Perplexity(D))越低,表示該主題數量越適切。在本發明的一實施例中,共進行200次的迭代計算而達到了穩定狀態,並發現在全部的評論文章中,主題數量K為120時,其困惑值(Perplexity)最低。換言之,在收集到的全部醫師評論文章中,只要120個主題大概就可概括全部的評論(其餘困惑值偏高的主題,可捨去)。在一實施例中,得到的主題範例可如下表5所示:
以表5為例,每個主題(Topic)只列出5個詞,詞的位置越在上面者表示評論文章中出現的頻率越高。例如:「李威德醫師」出現的頻率高於「看診親切」、「看診親切」出現的頻率高於「專業的醫師」等等。另外,以分佈率最高的五個詞進行觀察,可發現主題的內容多集中於醫生的專業技術及看診態度方面。例如Topic 1誇讚李威德醫師看診親切,仔細且專業等;Topic 3指出王醫師和藹親切且看診認真仔細。藉由上述主題模型所產出的主題,可看出內容關聯性很強,亦可將醫生與其專長有效結合,未來建構醫療檢索系統,在查詢時輸入欲查詢的主題關鍵字(如醫師姓名),即可擷取該主題關鍵字所有相關評論,藉此可提昇查詢的準確率。
另外,請再參照圖2所示,對經斷詞程序處理後的各篇評論文章進行情緒分析,以得到各評論文章對應的情緒傾向分析結果(步驟S05)。在情緒分析程序中,本方法應用了情緒標記、情緒極性轉換規則及情緒程度加權規則來對每一篇評論文章進行情緒分類。不過,在不同的實施例中,也可只應用情緒標記、或者情緒極性轉換規則、或者情緒程度加權規則,或者其任意組合,來對每一篇評論文章進行情緒分類,本發明並不限制。
於情緒標記中,參考了台灣大學編輯的情緒字典(NTUSD)對每一篇評論文章進行評論內文的正向(正面)、負向(負面)情緒標記。不過,由於中文的敘述中常以懷疑、諷刺的說法,或是加上疑問號的結尾方式表達修飾或限制中心語的反向情緒,而否定中心語常用「不」、「不是」、「不會」等表達。而兩個負向情緒(如害怕、厭惡、不喜歡)可能因負負得正而產生正向情緒(贊揚、喜歡)。因此,本發明再建立情緒極性轉換規則,以避免對評論文章進行評論內文的正、負向情緒標記的結果失真。此外,考量一般人為表達喜怒哀樂的程度,常以形容詞與副詞加諸於情緒詞 之前,用以表示當下的心情的程級(ranking),如:「親切」和「十分親切」,在程級(程度)上,後者比前者更具有強烈的正向情緒。因此,在情緒分析的程序的情緒極性轉換規則上,更加入情緒程度加權規則,以正確地將每篇評論文章標記為正向、負向或是中立的情緒。其中,正向表示該評論對醫生是肯定的(贊揚、喜歡),而負向表示該評論對醫生是否定的(差勁、討厭),而中性表示該評論對醫生不肯定也不否定。
於情緒極性轉換規則中,評論者使用否定語或問號將對情緒詞有反轉的效果。例如:「從小我就覺得看牙醫是一件令人害怕的事,但是經過陳醫師細心的看診後我就『不會害怕』了」,「害怕」與「不會」本身都是屬於負向詞,不過,「不會」雖為負向詞,但是在意義上卻帶有否定的意思,因此與否定詞相連時,反轉了「害怕」本身的負向情緒,進而轉換成正向情緒,轉換過程及結果例如下表6所示。其中,正向情緒為+1、中立情緒為0、負向情緒為-1(正的值代表正向,負的值代表負向)。
另外,當描述數量、頻率的負向詞,例如「沒有」、「很少」、「從來不」等與正向詞連接時,也會反轉正向詞的情緒。例如:「在友人的介紹下找到了這位醫師,但是在治療過後情況卻『沒有改善』」。其中,「改 善」屬於正向詞,但與屬於負向詞的「沒有」相連後,「改善」的正向情緒被「沒有」的否定轉換為負向情緒,使得結果呈現負向情緒的表達,其轉換過程及結果例如下表7所示。
此外,於情緒程度加權規則中,一般人常在情緒用詞之前加上程度級別,以表達內心更強烈的感受。例如:「親切」和「十分親切」,在情緒上「十分親切」帶有比「親切」更具有強烈的正向情緒。因此,本實施例加入情緒程度加權規則以協助情緒的判斷,該規則分為六種程度級別,如下表8所示。因此,若程度級別詞附加於情緒詞時,則進行程度級別加權處理。
以「很親切」為例,「很」的程度級別為4,而「親切」為正向情緒詞,因此加權處理為4(+1)=+4。再將加權處理後的結果套入上述的情緒極性轉換規則中,以得到每一篇評論文章中的情緒傾向結果。
因此,藉由上述的情緒分析程序,可得到每一篇評論文章對應的情緒傾向分析結果:正向情緒、負向情緒或中性情緒。在本發明一實施例中,情緒分析結果的精確率高達95.83%,召回率亦達93.16%,可見得本發明的情緒分析程序在情緒傾向檢出及辨識能力相當好,而且找出正確的情緒傾向的比率也相當高。
因此,得到上述的人名(特徵詞)、主題內容與每一篇評論文章的情緒傾向分析結果後,可呈現其結果。例如可依據一使用者選定的特徵詞顯示對應的主題內容;或者可依據使用者選定的特徵詞顯示對應的正向情緒、負向情緒或中性情緒的文字檔案。
具體來說,上述得到的情緒分析結果可例如以視覺化的結果展現,如圖4所示,其為應用本發明的分析方法所得到的一實施例之視覺化結果呈現示意圖。其中,中間的節點N0代表醫師,節點N0之外包含有很多的節點,例如156點,代表該名醫師的評論有156篇。其中,節點N1代表負向評論,節點N2代表中性評論,節點N3代表正向評論(N0、N1、N2與N3可以不同的顏色來呈現)。
舉例來說,當有人想要查詢某一位醫生的評價時可輸入該名醫師的姓名,例如輸入「李威德」時可得到如圖4的視覺化結果。其中,依據此姓名可搜尋出該名醫生對應的主題內容(可能包含有複數個主題內容)。例如當要查詢「李威德」醫師的主題內容時,則可點選中間的節點N0,即可以另一畫面呈現對應的主題內容,其可例如包含:看診親切、專業的醫師、親切專業、親切仔細等,以提供使用者就醫時的參考。
另外,由圖4中也可發現,「李威德」醫師的正向評論遠多 於負向與中性評論,表示該名醫師的看診態度與醫術是獲得大多數人的肯定。另外,使用者只要點選對應的節點就可顯示「李威德」醫師對應評論文章的內容。例如點選某一節點N3可得到該正向評論對應的評論內容,點選另一節點N3可得到另一正向評論對應的評論內容,點選節點N1可得到該負向評論對應的評論內容,以此類推。
承上,於上述針對醫生評論文章的分析方法當中,可歸納本發明有以下的幾點貢獻與結論:第1、結合主題模型以及情感分析可有效整理網路使用者所發表的評論;第2、可建置公平客觀醫療平台提供使用者方便表達評論,當資料量逐漸成長時,可逐漸稀釋極端言論立場,使得評論達到客觀性;第3、對於院方高階管理者可透過數據分析結果了解病患需求以作為決策方針,醫療專業人員亦可藉此砥礪以提升醫療品質,普羅大眾也能夠透過公正平台獲悉醫生評論,做為尋醫的參考;第4、本實施例納入人名辨識規則與姓名鍊結公式,由實驗結果來看可成功提高人名的辨識率,也使得LDA主題分析結果品質有顯著的提升。
綜上所述,於本發明的資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體中,藉由取得複數文字檔案、對各該些文字檔案進行斷詞程序、合併詞處理程序與特徵詞辨識程序等步驟,可得到各該些文字檔案中對應的特徵詞,之後,再藉由主題模型分析程序可得到複數個主題,而由這些主題內容中可看出,其與特徵詞的關聯性很強,可有效提高主題詞的可讀性與凝聚力。另外,對經斷詞程序處理後的各該些文字檔案進行情緒分析程序,可得到各該些文字檔案對應的情緒傾向分析結果。因此,本發明可將一般大眾對於特定議題的看法,有效地萃取出潛在主題及特徵值,並且辨識出主題文章當中的情緒特徵,使使用者可很快速地取得一般民眾對於某一特定議題的看法。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
S01~S06‧‧‧步驟

Claims (20)

  1. 一種資訊分析的方法,包括以下步驟:取得複數文字檔案;對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性;進行一合併詞處理程序;進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞;進行一主題模型分析程序,以得到複數個主題;以及對經該斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。
  2. 如申請專利範圍第1項所述的方法,其中於進行該合併詞處理程序的步驟中,一個單詞保留或刪除,是依據該文字檔案中,該單詞及與該單詞直接連接之複合詞的詞頻來決定。
  3. 如申請專利範圍第1項所述的方法,其中該特徵詞辨識程序是依據一特徵詞句法規則辨識出該特徵詞,且該特徵詞句法規則包含單詞中,以普通名詞加專有名稱、專有名稱加專有名稱、專有名稱加動詞與連接詞為主的規則來訂定。
  4. 如申請專利範圍第1項所述的方法,其中於進行該特徵詞辨識程序的步驟中,若一單詞的詞性為專有名稱,且於該文字檔案中,該單詞與其後連接的一個字的詞頻大於該單詞與其後連接的二個字的詞頻時,則該特徵詞為該單詞與該單詞後連接的一個字。
  5. 如申請專利範圍第1項所述的方法,其中該主題模型分析程序是對經該合併詞處理程序與該特徵詞辨識程序之各該些文字檔案進行LDA主題模型分析,以計算出各個主題內相關的字詞,且該各個主題內相關的字詞包含單詞或複合詞。
  6. 如申請專利範圍第1項所述的方法,其中該情緒分析程序包含一情緒極性轉換規則,在該情緒極性轉換規則中,該評論文章具有一否定語或一問號以及一情緒詞時,該否定語或該問號將反轉該情緒詞的情緒;當該 評論文章中描述數量或頻率的一負向詞與一正向詞連接時,該負向詞將反轉該正向詞的情緒。
  7. 如申請專利範圍第6項所述的方法,其中該情緒分析程序更包含一情緒程度加權規則,在該情緒程度加權規則中,該評論文章具有一程度級別詞與一情緒詞時,該程度級別詞將對該情緒詞產生加權作用。
  8. 如申請專利範圍第1項所述的方法,更包括以下步驟:依據一使用者選定的特徵詞顯示對應的主題內容。
  9. 如申請專利範圍第1項所述的方法,其中該情緒傾向分析結果包含一正向情緒、一負向情緒或一中性情緒,該方法更包括以下步驟:依據一使用者選定的特徵詞顯示對應的該正向情緒、該負向情緒或該中性情緒的文字檔案。
  10. 一種資訊分析的裝置,包括:一或多個處理單元;以及一記憶單元,電性連接該一或多個處理單元,該記憶單元儲存一或多個程式指令,當該一或多個程式指令被該一或多個處理單元執行時,該一或多個處理單元進行以下步驟:取得複數文字檔案;對各該些文字檔案進行一斷詞程序,以得到各該些文字檔案中的單詞及其對應詞性;進行一合併詞處理程序;進行一特徵詞辨識程序,以得到各該些文字檔案中對應的特徵詞;進行一主題模型分析程序,以得到複數個主題;及對經該斷詞程序處理後的各該些文字檔案進行一情緒分析程序,以得到各該些文字檔案對應的一情緒傾向分析結果。
  11. 如申請專利範圍第10項所述的裝置,其中於進行該合併詞處理程序的步驟中,一個單詞保留或刪除,是依據該文字檔案中,該單詞及與該單詞直接連接之複合詞的詞頻來決定。
  12. 如申請專利範圍第10項所述的裝置,其中該特徵詞辨識程序是依據一 特徵詞句法規則辨識出該特徵詞,且該特徵詞句法規則包含單詞中,以普通名詞加專有名稱、專有名稱加專有名稱、專有名稱加動詞與連接詞為主的規則來訂定。
  13. 如申請專利範圍第10項所述的裝置,其中於進行該特徵詞辨識程序的步驟中,若一單詞的詞性為專有名稱,且於該文字檔案中,該單詞後連接的一個字的詞頻大於該單詞後連接的二個字的詞頻時,則該特徵詞為該單詞與該單詞後連接的一個字。
  14. 如申請專利範圍第10項所述的裝置,其中該主題模型分析程序是對經該合併詞處理程序與該特徵詞辨識程序之各該些文字檔案進行LDA主題模型分析,以計算出各個主題內相關的字詞,且該各個主題內相關的字詞包含單詞或複合詞。
  15. 如申請專利範圍第10項所述的裝置,其中該情緒分析程序包含一情緒極性轉換規則,且在該情緒極性轉換規則中,該評論文章具有一否定語或一問號,以及一情緒詞時,該否定語或該問號將反轉該情緒詞的情緒;當該評論文章中描述數量或頻率的一負向詞與一正向詞連接時,該負向詞將反轉該正向詞的情緒。
  16. 如申請專利範圍第15項所述的裝置,其中該情緒分析程序更包含一情緒程度加權規則,且在該情緒程度加權規則中,該評論文章具有一程度級別詞與一情緒詞時,該程度級別詞將對該情緒詞產生加權作用。
  17. 如申請專利範圍第10項所述的裝置,其中該一或多個處理單元更進行以下步驟:依據一使用者選定的特徵詞顯示對應的主題內容。
  18. 如申請專利範圍第10項所述的裝置,其中該情緒傾向分析結果包含一正向情緒、一負向情緒或一中性情緒,該一或多個處理單元更進行以下步驟:依據一使用者選定的特徵詞顯示對應的該正向情緒、該負向情緒或該中性情緒的文字檔案。
  19. 一種內儲用於資訊分析之應用軟體,當一裝置載入該應用軟體並執行 後,可完成申請專利範圍第1項至第9項的其中任一項所述的方法。
  20. 一種內儲應用軟體之電腦可讀取儲存媒體,當一裝置載入該應用軟體並執行後,可完成申請專利範圍第1項至第9項的其中任一項所述的方法。
TW105114981A 2016-05-13 2016-05-13 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 TWI582627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105114981A TWI582627B (zh) 2016-05-13 2016-05-13 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105114981A TWI582627B (zh) 2016-05-13 2016-05-13 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體

Publications (2)

Publication Number Publication Date
TWI582627B TWI582627B (zh) 2017-05-11
TW201740293A true TW201740293A (zh) 2017-11-16

Family

ID=59367675

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105114981A TWI582627B (zh) 2016-05-13 2016-05-13 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體

Country Status (1)

Country Link
TW (1) TWI582627B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
TWI813028B (zh) * 2021-09-23 2023-08-21 飛資得資訊股份有限公司 文字資料之篩選關聯方法及系統

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955748B (zh) * 2018-09-26 2022-10-28 华硕电脑股份有限公司 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI286697B (en) * 2005-02-23 2007-09-11 Hsin-Hsi Chen Chinese opinion retrieval and extraction systems
US20110112995A1 (en) * 2009-10-28 2011-05-12 Industrial Technology Research Institute Systems and methods for organizing collective social intelligence information using an organic object data model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
TWI813028B (zh) * 2021-09-23 2023-08-21 飛資得資訊股份有限公司 文字資料之篩選關聯方法及系統

Also Published As

Publication number Publication date
TWI582627B (zh) 2017-05-11

Similar Documents

Publication Publication Date Title
Bickmore et al. Improving access to online health information with conversational agents: a randomized controlled experiment
Brooks et al. The utility of template analysis in qualitative psychology research
Coughlan et al. Doing a Literature Review in Nursing, Health and Social Care: SAGE Publications
Barry Choosing qualitative data analysis software: Atlas/ti and Nudist compared
US8453044B2 (en) Collections of linked databases
Hasan et al. Using hashtags as labels for supervised learning of emotions in twitter messages
US9619481B2 (en) Method and apparatus for generating ordered user expert lists for a shared digital document
McDonald et al. Member roles and identities in online support groups: Perspectives from corpus and systemic functional linguistics
WO2013024338A1 (en) System and method for managing opinion networks with interactive opinion flows
Samuel et al. MedFact: towards improving veracity of medical information in social media using applied machine learning
Wang et al. Leverage social media for personalized stress detection
TWI582627B (zh) 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
Rivas et al. Automated analysis of free-text comments and dashboard representations in patient experience surveys: a multimethod co-design study
Yang Developing of an ontological interface agent with template-based linguistic processing technique for FAQ services
Han et al. Examining Engagement and Usability in an Online Discussion Platform for Older Adults: Findings From Pilot Studies
Topac et al. Patient empowerment by increasing the understanding of medical language for lay users
Barbour Acquiring qualitative skills for primary care research. Review and reflections on a three-stage workshop. Part 2: analysing interview data
Abbas et al. Proficient Annotation Recommendation in a Biomedical Content Authoring Environment
JP2021056857A (ja) 情報処理システム、情報処理方法、プログラム
Woldemariam Expertise detection in crowdsourcing forums using the composition of latent topics and joint syntactic–semantic cues
WO2006036216A2 (en) Collections of linked databases
Clifton Jr et al. Interpreting conjoined noun phrases and conjoined clauses: Collective versus distributive preferences
Mitiagina et al. Russian text corpus of intimate partner violence: Annotation through crowdsourcing
Murthy Comparative process-oriented research using social media and historical text
Pradyumn Systematic review of literature using Twitter as a tool

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees