TWI395201B - 情緒語音辨識方法及系統 - Google Patents
情緒語音辨識方法及系統 Download PDFInfo
- Publication number
- TWI395201B TWI395201B TW99114815A TW99114815A TWI395201B TW I395201 B TWI395201 B TW I395201B TW 99114815 A TW99114815 A TW 99114815A TW 99114815 A TW99114815 A TW 99114815A TW I395201 B TWI395201 B TW I395201B
- Authority
- TW
- Taiwan
- Prior art keywords
- emotional
- acoustic
- keywords
- acoustic features
- feature value
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明是有關於一種語音辨識方法及系統,且特別是有關於一種情緒語音辨識方法及系統。
情緒辨識技術係藉由分析說話者說話時的特徵,幫助聽者了解說話者的情緒變化,以做出適當回應。目前現有情緒辨識技術著重在語音、影像、生理訊號或是文字等特徵來進行分析,而藉由這些特徵的交叉比對,即可提供準確性較高的情緒偵測結果。
圖1為傳統情緒辨識技術的示意圖。請參照圖1,當情緒辨識系統100接收到語音訊號的輸入時,即會藉由特徵擷取模組110擷取語音訊號中的聲學特徵,並提供給情緒辨識器120進行分析。情緒辨識器120即根據這些聲學特徵的特性及內容,判斷此語音訊號中夾帶的情緒特徵,最終輸出說話者的情緒判斷結果。
然而,傳統情緒辨識技術對於情緒的定義非常模糊,對於情緒特徵也沒有一種較準確的量化方法。若是單從語音和影像之特徵來看,無法同時達到情緒類別的多樣性和準確性;若單從文字分析來看,目前尚無一種標準來分析說話者想表達之情緒,而且使用上必須輔以文字輸入,對於使用者來說並不方便。
本發明提供一種情緒語音辨識方法,綜合分析語音訊號中的語意及語氣特徵,可提供較準確的情緒辨識結果。
本發明提供一種情緒語音辨識系統,結合聲學模型的比對以及監督式學習演算法的分類,可較精準地辨識出語音訊號中夾帶的情緒。
本發明提出一種情緒語音辨識方法,其係擷取語音訊號中的多個聲學特徵,而將這些聲學特徵與聲學模型比對,找出相對應的多個情緒關鍵詞,並將這些情緒關鍵詞輸入情緒知識網路,以計算這些情緒關鍵詞的情緒特徵值。然後,利用監督式學習演算法的多個分類器辨識這些聲學特徵,並根據各個分類器的辨識結果計算這些聲學特徵的語氣特徵值。最後,依據情緒特徵值及語氣特徵值,判斷這些聲學特徵所屬的情緒類別。
在本發明之一實施例中,上述將聲學特徵與聲學模型比對,找出相對應的情緒關鍵字的步驟包括將聲學特徵與聲學模型中的多個音節網路比對,找出最匹配的音節網路,以將這些聲學特徵辨識為關鍵語句,然後利用多個填充模型來過濾關鍵語句中的非關鍵詞部分,以獲得相對應的情緒關鍵詞。
在本發明之一實施例中,上述將聲學特徵與聲學模型中的多個音節網路比對,找出最匹配的音節網路,以將聲學特徵辨識為關鍵語句的步驟包括將聲學特徵轉換為多個特徵向量,而利用搜尋演算法在聲學模型所構成之辨識網路中搜尋最匹配於這些特徵向量的關鍵語句。
在本發明之一實施例中,上述利用搜尋演算法在聲學模型所構成之辨識網路中搜尋最匹配於特徵向量的關鍵語句的步驟包括利用高斯混合模型表示聲學模型中的多個機率函數,然後計算各個特徵向量在混合高斯模型中的機率值,最後則依據這些特徵向量的機率值決定最匹配於這些特徵向量的關鍵語句。
在本發明之一實施例中,上述之搜尋演算法包括維特比搜尋演算法、光速搜尋演算法或表徵傳遞搜尋演算法,而上述之聲學模型為隱藏式馬可夫模型。
在本發明之一實施例中,上述之情緒語音辨識方法更包括訓練情緒知識網路,此步驟包括輸入一個語意資料庫,其中包括定義多個關鍵詞對應的語意標籤,接著從這些語意標籤中挑選具有情緒意含的多個情緒標籤,然後利用這些情緒標籤及對應的關鍵詞來建立所述的情緒知識網路。
在本發明之一實施例中,上述訓練情緒知識網路的步驟更包括分析一個詞彙資料庫中的多個詞彙,找出具有情緒意含的多個情緒詞彙,接著定義這些情緒詞彙的情緒標籤,最後則將這些情緒詞彙匯入情緒知識網路。
在本發明之一實施例中,上述將情緒關鍵詞輸入情緒知識網路,以計算這些情緒關鍵詞的情緒特徵值的步驟包括標注各個關鍵詞對應的語意標籤,並將各個關鍵詞與情緒知識網路中的關鍵詞比對,以分析這些關鍵詞的語意內容,然後依照一情緒規則及各個語意標籤對應的權重,計算所述語意內容對應的情緒特徵值。
在本發明之一實施例中,上述利用監督式學習演算法的分類器辨識聲學特徵,並根據各個分類器的辨識結果計算聲學特徵的語氣特徵值的步驟包括利用監督式學習演算法的分類器辨識聲學特徵,以找出辨識效果最佳的分類器及各個分類器的權重,然後將各個分類器的辨識結果乘上對應之權重,並加總運算結果以作為語氣特徵值。
在本發明之一實施例中,上述之監督式學習演算法包括AdaBoost演算法或Bagging演算法,而上述的分類器則包括高斯混合模型分類器、支援向量機分類器或最近鄰居分類器。
在本發明之一實施例中,上述依據情緒特徵值及語氣特徵值,判斷聲學特徵所屬的情緒類別的步驟包括將這些聲學特徵的情緒特徵值及語氣特徵值作為座標,搜尋一情緒類別分佈圖上此座標所對應的情緒類別,以作為這些聲學特徵所屬的情緒類別。
本發明提出情緒語音辨識系統,其包括特徵值擷取模組、語意偵測模組、語氣偵測模組及情緒類別判斷模組。其中,特徵值擷取模組係用以擷取語音訊號中的多個聲學特徵;語意偵測模組係用以將所述的聲學特徵與聲學模型比對,找出相對應的多個情緒關鍵詞,並將這些情緒關鍵詞輸入情緒知識網路,以計算這些情緒關鍵詞的情緒特徵值;語氣偵測模組係利用一監督式學習演算法的多個分類器辨識所述的聲學特徵,並根據各個分類器的辨識結果計算這些聲學特徵的語氣特徵值;情緒類別判斷模組係依據情緒特徵值及語氣特徵值,判斷所述聲學特徵所屬的情緒類別。
在本發明之一實施例中,上述之語意偵測模組包括關鍵語句辨識單元及非關鍵詞過濾單元。其中,關鍵語句辨識單元係用以將所述的聲學特徵與聲學模型中的多個音節網路比對,找出最匹配的音節網路,以將這些聲學特徵辨識為關鍵語句;非關鍵詞過濾單元係利用多個填充模型過濾關鍵語句中的非關鍵詞部分,以獲得相對應的情緒關鍵詞。
在本發明之一實施例中,上述之關鍵語句辨識單元包括將所述的聲學特徵轉換為多個特徵向量,而利用一搜尋演算法在聲學模型所構成之辨識網路中搜尋最匹配於所述特徵向量的關鍵語句。其中,所述之搜尋演算法包括維特比搜尋演算法、光速搜尋演算法或表徵傳遞搜尋演算法。
在本發明之一實施例中,上述之關鍵語句辨識單元更包括利用高斯混合模型表示聲學模型中的多個機率函數,並計算各個特徵向量在混合高斯模型中的機率值,而依據這些特徵向量的機率值決定最匹配於這些特徵向量的關鍵語句。
在本發明之一實施例中,上述之語意偵測模組更包括語意標籤標注單元、關鍵詞比對單元及情緒特徵值計算單元。其中,語意標籤標注單元係用以標注各個關鍵詞對應的語意標籤;關鍵詞比對單元係用以將各個關鍵詞與情緒知識網路中的關鍵詞比對,以分析這些關鍵詞的語意內容;情緒特徵值計算單元係依照一情緒規則及各個語意標籤對應的權重,計算語意內容對應的情緒特徵值。
在本發明之一實施例中,上述之語氣偵測模組包括聲學特徵分類單元及語氣特徵值計算單元。其中,聲學特徵分類單元係利用監督式學習演算法的分類器辨識所述聲學特徵,以找出辨識效果最佳的分類器及各個分類器的權重;語氣特徵值計算單元則用以將各個分類器的辨識結果乘上對應之權重,並加總運算結果以作為語氣特徵值。其中,所述的分類器包括高斯混合模型分類器、支援向量機分類器或最近鄰居分類器。
在本發明之一實施例中,上述之情緒類別判斷模組包括將所述聲學特徵的情緒特徵值及語氣特徵值作為座標,並搜尋一情緒類別分佈圖上此座標所對應的情緒類別,以作為這些聲學特徵所屬的情緒類別。
基於上述,本發明之情緒語音辨識方法及系統係藉由將語音訊號中的聲學特徵與聲學模型比對以找出其中的情緒特徵,另外以監督式學習演算法的分類器辨識此聲學特徵以找出其中的語氣特徵,而結合兩種辨識結果來判斷聲學特徵所屬的情緒類別,可提供較準確的情緒辨識結果。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明嘗試以人類的角度來思考情緒的變化,透過分析人類說話的內容和語氣來判斷其所欲表達的情緒。在語音偵測部分,透過語意關鍵詞的辨識以預測或了解說話者想要表達的內容,再利用事先已訓練好的情緒知識網路找出此內容所傳達的情緒狀態。在語氣偵測部份,根據人類在表達不同情緒時發聲上的差異,分析語音的韻律並找出在辨識情緒效果方面較佳的聲學特徵,以建立情緒語氣的模型來辨識說話者在語氣上的情緒。在取得語意關鍵詞和語氣的說話韻律之後,本發明即依照人類大腦的思考方式將情緒做分類,依據語意關鍵詞來預測說話內容的情緒正反面程度,並依據說話的韻律來反應說話者的激動程度,最後綜合判斷出說話者說話時的情緒。
圖2是依據本發明一實施例所繪示之情緒語音辨識系統架構的示意圖。請參照圖2,本實施例之辨識系統200基本上可分為特徵值擷取部分210、語意偵測部分220、語氣偵測部分230及情緒類別判斷部分240。其中,特徵值擷取部分210係從語音訊號中擷取多個聲學特徵。語意偵測部分220係將語音訊號中的多個聲學特徵與音節字典321、文法網路322以及聲學模型323中的音節網路比對,並透過隱藏式馬可夫模型(Hidden Markov Model,HMM)的網路搜尋324及高斯混和模型的機率評估325,找出最匹配的音節網路以將這些聲學特徵辨識為關鍵語句。之後,再利用多個填充模型(Filler Model)過濾此關鍵語句中的非關鍵詞部分,進而找出相對應的情緒關鍵詞。另一方面,語氣偵測部分230則透過挑選具鑑別性的特徵參數來辨識說話者目前的講話語氣,再利用事先訓練好的情緒模組231執行語氣偵測232,而找出最相近的語氣類別。最後,情緒類別判斷部分240即透過將語意偵測部分220與語氣偵測部分230之辨識結果進行交互比對,而找出一組同時符合語氣和語意特徵的情緒類別。
詳細地說,圖3是依據本發明一實施例所繪示之情緒語音辨識系統方塊圖,圖4則是依據本發明一實施例所繪示之情緒語音辨識方法流程圖。請同時參照圖3及圖4,本實施例之辨識系統300包括特徵值擷取模組310、語意偵測模組320、語氣偵測模組330及情緒類別判斷模組340,以下即搭配圖3中的各項元件說明圖4之情緒語音辨識方法的詳細流程。
首先,由特徵值擷取模組310擷取語音訊號中的多個聲學特徵(步驟S410)。其中,由於情緒特徵的鑑別度對情緒辨識的準確率會有很大的影響,而根據統計,使用鑑別度高的特徵可提高辨識率,所以藉由事先訓練以決定用來辨識的特徵是很重要的。而透過特徵值擷取模組310擷取語音訊號中的聲學特徵,可得線性預測倒頻譜係數(Linear Predictive Cepstral Coefficient,LPCC)、梅爾倒頻譜係數(Mel Frequency Cepstral Coefficient,MFCC)、MPEG7及對數能量(Log Energy)等參數,而作為後續辨識步驟的依據。
接著,由語意偵測模組320將聲學特徵與預先訓練好的聲學模型比對,找出相對應的多個情緒關鍵詞,並將這些情緒關鍵詞輸入情緒知識網路,以計算這些情緒關鍵詞的情緒特徵值(步驟S420)。其中,語意偵測模組320例如是基於隱藏式馬可夫模型之架構所建立,此架構做為關鍵字辨識將具有較佳之彈性與功能。
然後,由語氣偵測部份230利用監督式學習演算法的多個分類器來辨識由特徵值擷取模組310擷取的聲學特徵,並根據各個分類器的辨識結果來計算這些聲學特徵的語氣特徵值(步驟S430)。其中,所述的監督式學習演算法例如是AdaBoost演算法或Bagging演算法,而所述的分類器例如是高斯混合模型分類器、支援向量機分類器或最近鄰居分類器,本實施例不限制其範圍。
最後,由情緒類別判斷模組340依據上述語意偵測模組320所計算的情緒特徵值及語氣偵測部份230所計算的語氣特徵值,判斷出語音訊號中之聲學特徵所屬的情緒類別(步驟S440)。
藉由上述方法,本實施例的辨識系統300即可結合其對於使用者說話中之語意和語氣的辨識結果,透過其互補的特性,達到較佳的辨識結果,並可辨識出更多樣的情緒類別。
需說明的是,上述語意偵測模組320的運算還可進一步區分為「情緒關鍵詞辨識」以及「情緒特徵值計算」兩部分,而在使用情緒知識網路來計算情緒特徵值之前,還
需先進行「情緒知識網路訓練」。對此,本發明分別提供實施例說明「情緒關鍵詞辨識」、「情緒知識網路訓練」以及「情緒特徵值計算」的實施方式,茲分述如下:
圖5是依據本發明一實施例所繪示之語意偵測模組的方塊圖。請參照圖5,語意偵測模組320係區分為關鍵語句辨識單元321、非關鍵詞過濾單元322、語意標籤標注單元323、關鍵詞比對單元324及情緒特徵值計算單元325,其功能分述如下:當語意偵測模組320接收到由特徵值擷取模組310擷取的聲學特徵後,即由其中的關鍵語句辨識單元321將這些聲學特徵與聲學模型中的多個音節網路比對,找出最匹配的音節網路,以將這些聲學特徵辨識為關鍵語句。其中,關鍵語句辨識單元321更進一步將這些聲學特徵轉換為特徵向量,而根據文法網路、預先訓練好的聲學模型以及音節字典等資訊,進行辨識網路的搜尋演算法,藉以在聲學模型所構成之辨識網路中搜尋最匹配於這些特徵向量的關鍵語句。上述的聲學模型例如是隱藏式馬可夫模型。
需注意的是,一句關鍵語句可視為關鍵詞以及非關鍵詞的組合,而為避免關鍵詞的辨識會與非關鍵詞產生混淆,因此在辨識過程中除了預設的關鍵詞外,語意偵測模組320更由非關鍵詞過濾單元322使用多個填充模型(Filler Model)來過濾關鍵語句中的非關鍵詞部分,藉以建構具有填充模型之關鍵詞萃取系統的文法網路。同時藉由填充模型將非關鍵詞與關鍵詞明顯區隔出來,使兩者不易造成混淆,進而提升辨識率。
以隱藏式馬可夫模型做為聲學模型的辨識系統在辨識階段必須將語音信號中的聲學特徵轉換為特徵向量,以評估語音信號所表示之特徵向量序列(Feature Vector Sequence),之後再利用一套文法網路之搜尋演算法,例如維特比搜尋(Viterbi Search)演算法,光束搜尋(Beam Search)演算法或表徵傳遞搜尋(Token Passing)演算法,在此隱藏式馬可夫模型所構成的辨識網路中搜尋最匹配於上述特徵向量序列的關鍵語句。
需注意的是,在連續隱藏式馬可夫(Continuous Hidden Markov Model,CHMM)網路搜尋的過程中,會伴隨大量的高斯混合模型機率評估計算。對此,本實施例採用平行處理及管線化之概念設計一套高斯混合模型評估(GMM Estimation)單元,以加速計算特徵向量在混合高斯模型之機率值。
詳細地說,高斯混合模型是單一高斯機率密度函數的延伸,其為利用多個高斯模型,搭配各自權重係數做為機率密度函數,而混合出的模型。若混合的數目夠多,則此高斯混合模型能夠可表示任何機率分佈之情形,因此適於做為連續式隱藏式馬可夫模型之狀態觀測機率函數。本實施例的關鍵語句辨識單元321即利用高斯混合模型來表示聲學模型中的多個機率函數,並計算語音信號中多個聲學特徵轉換後之特徵向量在此混合高斯模型中的機率值,據以決定最匹配於這些特徵向量的關鍵語句。
考量一段語句中的語音至少包含一百至三百個語音特徵向量,若辨識網路複雜時,則辨識一段語音所需進行的高斯混合模型評估機率次數將非常驚人,而一般聲學模型之設定至少需要八個混合高斯。由於每個高斯之維度必須為語音特徵向量之維度,大部分都從數十到三十幾維,故每次處理高斯混合模型評估都會伴隨著可觀的運算量。
若選擇以高斯函數來實現,則依據高斯混合矩陣公式,在計算最大概似機率前,必須事先取得高斯模型的三種參數值:μ、Σ
和權重。其中,μ代表密度函數的中心點,而Σ
則代表此密度函數的共變異矩陣(Covariance Matrix),這些參數決定了密度函數的特性,如函數形狀的中心點、寬窄及走向等,根據這三種參數值即可計算最大概似機率。
所以在實現高斯模型的對數概似(Log-Likelihood)機率計算時,本實施例係在高斯混合模型評估單元中加入純量加法、純量乘法、平方根運算、指數運算、矩陣乘法和對數運算等運算單元,並利用控制單元完成對數概似機率的運算。
音節字典和文法網路是根據情緒知識網路訓練而成,其中記錄了口語上常出現具有情緒意含的關鍵詞,統計所有情緒詞彙並歸納辭意相通的語句,建構和情緒相關聯之語意標籤以和現有的中文知識網路做結合,採用自動歸納的方式並輔以人工調整,而完成一套可以分析中文語意內容和情緒關聯之中文語意分析器。
詳細地說,圖6是依據本發明一實施例所繪示之情緒知識網路訓練方法的流程圖。請參照圖6,本實施例的訓練方法係先輸入具有分析關鍵詞語意走向之語意資料庫,並定義多個關鍵詞對應的語意標籤(步驟S610),其中所述的語音資料庫例如是知識網路。詳細地說,本實施例例如是由中文知識網路資料庫中查詢多個關鍵詞和語意標籤之間的對應關係。
接著,從這些語意標籤中挑選具有情緒意含的多個情緒標籤(步驟S620),其包括取出和情緒有直接或間接關聯的語意標籤,而透過問卷的方式統計出語意標籤和情緒狀態之間的關係,據以定義每個語意標籤的情緒類別和分數,以便往後進行語意的分析。
最後,利用上述情緒標籤及對應的些關鍵詞建立一個具有辨識少量情緒詞彙的情緒知識網路(步驟S630)。需注意的是,上述的情緒知識網路僅具有少量的情緒詞彙,而這些情緒詞彙並不足以代表所有使用者透過語音所表達之具有情緒語意的語句。因此,本實施例還另提供一種情緒知識網路的擴充方式,以增加情緒知識網路中的情緒詞彙。
圖7是依據本發明一實施例所繪示之語意關鍵詞擴充方法的流程圖。請參照圖7,本實施例的擴充方法係分析詞彙資料庫中的多個詞彙,找出具有情緒意含的多個情緒詞彙(步驟S710)。其中,由於情緒詞彙的數量過於龐大,無法使用人工的方式予以定義,因此本實施例係利用其他的詞彙資料庫的中的情緒詞彙來擴充情緒知識網路中的語意關鍵詞,而無論這些情緒詞彙是否存在於情緒知識網路,都可以透過文字的分析及情緒詞彙的分析,找出情緒詞彙和情緒的對應關係,以定義這些情緒詞彙的情緒標籤(步驟S720)。最後,即將已定義情緒標籤的情緒詞彙匯入情緒知識網路(步驟S730),以擴充情緒知識網路中情緒詞彙。藉由上述自動分類的方式來歸納新加入的情緒詞彙,可大幅降低新增詞彙所花費的時間,並進而提昇情緒語音辨識系統300的效能。
藉由上述方法即可使用其他資料庫中的常用情緒詞彙來擴充情緒知識網路,使得情緒知識網路具有處理新增情緒詞彙和分析語意走向的能力。
在情緒知識網路訓練完成後,語意偵測模組320即可利用此情緒知識網路計算情緒關鍵詞的情緒特徵值。圖8則是依據本發明一實施例所繪示之情緒特徵值計算方法的流程圖。請同時參照圖5及圖8,本實施例的計算方法係針對非關鍵詞過濾單元322過濾後之關鍵語句中剩餘的關鍵詞,由語意標籤標注單元323標注各個關鍵詞對應的語意標籤(步驟S810),使得每個關鍵詞都有對應的語音標籤。這些語意標籤例如是程度詞標籤、情緒詞標籤、否定詞標籤或轉折詞標籤,本實施例不限制其範圍。
接著,由關鍵詞比對單元324將各個關鍵詞與情緒知識網路中的關鍵詞比對,以分析這些關鍵詞的語意內容(步驟S820)。其中,各個關鍵詞的語音標籤內容可透過語意分層的機制,經由第一層的關鍵詞比對以及第二層的語意內容分析,而分析出關鍵詞直接或間接的意義。
然後,由情緒特徵值計算單元325依照情緒規則及各個語意標籤對應的權重,計算出語意內容對應的情緒特徵值(步驟S830)。其中,情緒特徵值計算單元325係透過情緒知識網路訓練時所歸納的情緒規則將語意記錄予以評分,而配合各式語意標籤所代表的不同意義進行評分。舉例來說,程度詞標籤可以加強或降低後面情緒詞彙所代表的意義;否定詞標籤可以反轉整句內容所代表的意義;轉折詞標籤則代表句子後的意義是相反的。
藉由上述情緒規則的評分以及語意標籤的加乘,情緒特徵值計算單元325即可計算出一個能夠反應說話者正、反面情緒的情緒特徵值,而用以作為後續判斷情緒類別的依據。
相對於上述的語意偵測模組320,本實施例整語氣偵測模組330的運算可區分為「聲學特徵分類」以及「語氣特徵值計算」,以下則提供一實施例詳細說明。
圖9是依據本發明一實施例所繪示之語氣偵測模組的方塊圖。請參照圖9,語氣偵測模組330係區分為聲學特徵分類單元331及語氣特徵值計算單元332,其功能分述如下:由於情緒語氣辨識所需的運算量相當龐大,花費時間也最久,故本實施例係針對帶入辨識器的聲學特徵進行鑑別度分析,並根據分類效果選取用來辨識的特徵,藉以提高辨識系統300的運算速度及辨識效率。
詳細地說,本實施例提出一個適用於語音情緒的監督式學習演算法(例如Adaboost演算法),而透過此學習演算法盡可能地將分類錯誤發生的機率減少到最小。其中,每增加一個假說(Hypothesis)到整體學習中,分類錯誤發生的機率就會相對降低,而重複此步驟並逐次累積假說,最後即可建立一個經由加權總數所得到的整體假說。透過權重來分析特徵向量的鑑別度,並選取辨識結果較佳的特徵,藉此在辨識時只需讀取特徵鑑別度資料庫,即可減少特徵值的運算並增加分類結果的準確率。
此外,根據情緒心理學描述,人類情緒保持在較為激動時,說話速度、基頻變化程度以及能量的變異程度較為明顯。有鑑於此,本發明使用統計的概念和觀察,選出大部分人在表達相同情緒時所出現的共通聲學特徵,而利用這些易於分辨的聲學特徵來分辨情緒。
而由於每個人的情緒表達皆不相同,因此本實施例的聲學特徵分類單元331即使用監督式學習演算法的多個分類器,針對特徵值擷取模組310所擷取的聲學特徵進行辨識及學習,藉以找出辨識效果最佳的分類器及各個分類器的權重,而提昇分類器的辨識率。
需說明的是,由於學習演算法需要重複計算最大相似度,因此本實施例還利用對數概似估測(Log-likelihood Estimation)演算法來辨識情緒,並使用高斯混合模型(Gaussian Mixture Model,GMM)機率評估來增加運算速度。
詳細地說,為了降低運算複雜度,本發明選擇將高斯模型公式的資訊存在高斯混合模型資料庫中,並根據情緒特性將高斯混合模型資料庫分成三個部份:第一部份為平均值記憶單元,其係用以存取各種類別之密度函數的中心點;第二部份為變異數記憶單元,其係用以存取密度函數的共變異矩陣(Covariance Matrix);第三部份為純量陣列記憶體單元,其係用以存取機率密度函數中的純量部份。採用高斯混合模型之對數概似估測演算法的運算中包含了純量的加法、純量的乘法、平方根運算、指數運算、矩陣乘法和對數運算。
在聲學特徵分類單元331找出辨識效果最佳的分類器及各個分類器的權重之後,則可由語氣特徵值計算單元332將各個分類器的辨識結果乘上對應之權重,並將這些運算結果加總而作為語氣特徵值。
透過上述情緒關鍵詞偵測和語音情緒語氣的偵測,可以得到一組語意特徵值和語氣特徵值。而根據情緒心理學的分析,語意的部份較能反應說話者的正、負面情緒,語氣的部份較能顯示說話者說話的激動程度,因此本實施例即將上述求得的語意特徵值代表正、負面情緒,將語氣特徵值代表情緒的激動程度。而根據心理學的分類,可透過一個二維的情緒類別分佈圖來區分大部分的情緒,而根據上述正、負面情緒及激動程度在此情緒類別分佈圖中所對應的區域,即可推斷出說話者的情緒。
舉例來說,圖10是依據本發明一實施例所繪示之情緒類別分佈圖。請參照圖10,本實施例的情緒類別分佈圖10中的橫軸代表情緒的正負程度,而縱軸則代表的情緒的激動程度。因此,若將所求得的語意特徵值對應至橫軸(正、負面情緒),將語氣特徵值對應至縱軸(情緒激動程度),而透過將此語意特徵值及語氣特徵值作為座標,在情緒類別分佈圖10上搜尋此座標所對應的落點,即可以找出對應的情緒類別,而作為語音訊號中聲學特徵所屬的情緒類別。
綜上所述,本發明之情緒語音辨識方法及系統係結合語意及語氣的偵測結果判斷語音訊號中夾帶的情緒特徵,並判斷出說話者的情緒。藉由本發明技術即可針對使用者說話的內容,講話的速度或語調,甚至是發音的抑揚頓挫,分析使用者在接觸到外界的刺激時當下心境之變化,藉以給予適當之回饋。因此,本發明可用於電話客戶服務系統,使得客服人員在提供客戶服務的過程中,可透過本發明的情緒語音辨識系統瞭解客戶在電話另一端的心情變化或是滿意度,並可將辨識結果提供給主管或是行銷人員參考並改進。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100...情緒辨識系統
110...特徵擷取模組
120...情緒辨識器
200...辨識系統
210...特徵值擷取部分
220...語音偵測部分
321...音節字典
322...文法網路
323...聲學模型
324...隱藏式馬可夫模型的網路搜尋
325...高斯混和模型的機率評估
230...語氣偵測部分
231...情緒模組
232...語氣偵測
240...情緒類別判斷部分
300...辨識系統
310...特徵值擷取模組
320...語意偵測模組
321...關鍵語句辨識單元
322...非關鍵詞過濾單元
323...語意標籤標注單元
324...關鍵詞比對單元
325...情緒特徵值計算單元
330...語氣偵測模組
331...聲學特徵分類單元
332...語氣特徵值計算單元
340...情緒類別判斷模組
S410~S440...本發明一實施例之情緒語音辨識方法的步驟
S610~S630...本發明一實施例之情緒知識網路訓練方法的步驟
S710~S730...本發明一實施例之語意關鍵詞擴充方法的步驟
S810~S830...本發明一實施例之情緒特徵值計算方法的步驟
圖1為傳統情緒辨識技術的示意圖。
圖2是依據本發明一實施例所繪示之情緒語音辨識系統架構的示意圖。
圖3是依據本發明一實施例所繪示之情緒語音辨識系統方塊圖。
圖4則是依據本發明一實施例所繪示之情緒語音辨識方法流程圖。
圖5是依據本發明一實施例所繪示之語意偵測模組的方塊圖。
圖6是依據本發明一實施例所繪示之情緒知識網路訓練方法的流程圖。
圖7是依據本發明一實施例所繪示之語意關鍵詞擴充方法的流程圖。
圖8則是依據本發明一實施例所繪示之情緒特徵值計算方法的流程圖。
圖9是依據本發明一實施例所繪示之語氣偵測模組的方塊圖。
圖10是依據本發明一實施例所繪示之情緒類別分佈圖。
S410~S440...本發明一實施例之情緒語音辨識方法的步驟
Claims (22)
- 一種情緒語音辨識方法,包括:擷取一語音訊號中的多個聲學特徵;將該些聲學特徵與一聲學模型比對,找出相對應的多個情緒關鍵詞,並將該些情緒關鍵詞輸入一情緒知識網路,以計算該些情緒關鍵詞的一情緒特徵值;利用一監督式學習演算法的多個分類器辨識該些聲學特徵,並根據各該些分類器的一辨識結果計算該些聲學特徵的一語氣特徵值;以及依據該情緒特徵值及該語氣特徵值,判斷該些聲學特徵所屬的一情緒類別。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中將該些聲學特徵與該聲學模型比對,找出相對應的該些情緒關鍵字的步驟包括:將該些聲學特徵與該聲學模型中的多個音節網路比對,找出最匹配的一音節網路,以辨識該些聲學特徵為一關鍵語句;以及利用多個填充模型過濾該關鍵語句中的非關鍵詞部分,以獲得相對應的該些情緒關鍵詞。
- 如申請專利範圍第2項所述之情緒語音辨識方法,其中將該些聲學特徵與該聲學模型中的多個音節網路比對,找出最匹配的一音節網路,以辨識該些聲學特徵為一關鍵語句的步驟包括:轉換該些聲學特徵為多個特徵向量;利用一搜尋演算法在該聲學模型所構成之一辨識網路中搜尋最匹配於該些特徵向量的該關鍵語句。
- 如申請專利範圍第3項所述之情緒語音辨識方法,其中利用該搜尋演算法在該聲學模型所構成之該辨識網路中搜尋最匹配於該些特徵向量的該關鍵語句的步驟包括:利用一高斯混合模型表示該聲學模型中的多個機率函數;計算各該些特徵向量在該混合高斯模型中的一機率值;以及依據該些特徵向量的該些機率值決定最匹配於該些特徵向量的該關鍵語句。
- 如申請專利範圍第3項所述之情緒語音辨識方法,其中該搜尋演算法包括維特比搜尋演算法、光速搜尋演算法或表徵傳遞搜尋演算法。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中該聲學模型為一隱藏式馬可夫模型。
- 如申請專利範圍第1項所述之情緒語音辨識方法,更包括:訓練該情緒知識網路,包括:輸入一語意資料庫,其中包括定義多個關鍵詞對應的語意標籤;挑選該些語意標籤中具有情緒意含的多個情緒標籤;以及利用該些情緒標籤及對應的該些關鍵詞建立該情緒知識網路。
- 如申請專利範圍第7項所述之情緒語音辨識方法,其中訓練該情緒知識網路的步驟更包括:分析一詞彙資料庫中的多個詞彙,找出具有情緒意含的多個情緒詞彙;定義該些情緒詞彙的情緒標籤;以及匯入該些情緒詞彙於該情緒知識網路。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中將該些情緒關鍵詞輸入該情緒知識網路,以計算該些情緒關鍵詞的該情緒特徵值的步驟包括:標注各該些關鍵詞對應的一語意標籤;將各該些關鍵詞與該情緒知識網路中的關鍵詞比對,以分析該些關鍵詞的一語意內容;以及依照一情緒規則及各該些語意標籤對應的權重,計算該語意內容對應的該情緒特徵值。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中利用該監督式學習演算法的該些分類器辨識該些聲學特徵,並根據各該些分類器的該辨識結果計算該些聲學特徵的該語氣特徵值的步驟包括:利用該監督式學習演算法的該些分類器辨識該些聲學特徵,以找出辨識效果最佳的該些分類器及各該些分類器的一權重;以及將各該些分類器的該辨識結果乘上對應之該權重,並加總運算結果以作為該語氣特徵值。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中該監督式學習演算法包括AdaBoost演算法或Bagging演算法,而該些分類器包括高斯混合模型分類器、支援向量機分類器或最近鄰居分類器。
- 如申請專利範圍第1項所述之情緒語音辨識方法,其中依據該情緒特徵值及該語氣特徵值,判斷該些聲學特徵所屬的該情緒類別的步驟包括:將該些聲學特徵的該情緒特徵值及該語氣特徵值作為一座標,搜尋一情緒類別分佈圖上該座標所對應的一情緒類別,以作為該些聲學特徵所屬的該情緒類別。
- 一情緒語音辨識系統,包括:一特徵值擷取模組,擷取一語音訊號中的多個聲學特徵;一語意偵測模組,將該些聲學特徵與一聲學模型比對,找出相對應的多個情緒關鍵詞,並將該些情緒關鍵詞輸入一情緒知識網路,以計算該些情緒關鍵詞的一情緒特徵值;一語氣偵測模組,利用一監督式學習演算法的多個分類器辨識該些聲學特徵,並根據各該些分類器的一辨識結果計算該些聲學特徵的一語氣特徵值;以及一情緒類別判斷模組,依據該情緒特徵值及該語氣特徵值,判斷該些聲學特徵所屬的一情緒類別。
- 如申請專利範圍第13項所述之情緒語音辨識系統,其中該語意偵測模組包括:一關鍵語句辨識單元,將該些聲學特徵與該聲學模型中的多個音節網路比對,找出最匹配的一音節網路,以辨識該些聲學特徵為一關鍵語句;以及一非關鍵詞過濾單元,利用多個填充模型過濾該關鍵語句中的非關鍵詞部分,以獲得相對應的該些情緒關鍵詞。
- 如申請專利範圍第14項所述之情緒語音辨識系統,其中該關鍵語句辨識單元包括將該些聲學特徵轉換為多個特徵向量,而利用一搜尋演算法在該聲學模型所構成之一辨識網路中搜尋最匹配於該些特徵向量的該關鍵語句。
- 如申請專利範圍第15項所述之情緒語音辨識系統,其中該關鍵語句辨識單元更包括利用一高斯混合模型表示該聲學模型中的多個機率函數,並計算各該些特徵向量在該混合高斯模型中的一機率值,而依據該些特徵向量的該些機率值決定最匹配於該些特徵向量的該關鍵語句。
- 如申請專利範圍第15項所述之情緒語音辨識系統,其中該搜尋演算法包括維特比搜尋演算法、光速搜尋演算法或表徵傳遞搜尋演算法。
- 如申請專利範圍第14項所述之情緒語音辨識系統,其中該語意偵測模組更包括:一語意標籤標注單元,標注各該些關鍵詞對應的一語意標籤;一關鍵詞比對單元,將各該些關鍵詞與該情緒知識網路中的關鍵詞比對,以分析該些關鍵詞的一語意內容;以及一情緒特徵值計算單元,依照一情緒規則及各該些語意標籤對應的權重,計算該語意內容對應的該情緒特徵值。
- 如申請專利範圍第13項所述之情緒語音辨識系統,其中該語氣偵測模組包括:一聲學特徵分類單元,利用該監督式學習演算法的該些分類器辨識該些聲學特徵,以找出辨識效果最佳的該些分類器及各該些分類器的一權重;以及一語氣特徵值計算單元,將各該些分類器的該辨識結果乘上對應之該權重,並加總運算結果以作為該語氣特徵值。
- 如申請專利範圍第19項所述之情緒語音辨識系統,其中該些分類器包括高斯混合模型分類器、支援向量機分類器或最近鄰居分類器。
- 如申請專利範圍第13項所述之情緒語音辨識系統,其中該情緒類別判斷模組包括將該些聲學特徵的該情緒特徵值及該語氣特徵值作為一座標,搜尋一情緒類別分佈圖上該座標所對應的一情緒類別,以作為該些聲學特徵所屬的該情緒類別。
- 如申請專利範圍第13項所述之情緒語音辨識系統,其中該聲學模型為一隱藏式馬可夫模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW99114815A TWI395201B (zh) | 2010-05-10 | 2010-05-10 | 情緒語音辨識方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW99114815A TWI395201B (zh) | 2010-05-10 | 2010-05-10 | 情緒語音辨識方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201140559A TW201140559A (en) | 2011-11-16 |
TWI395201B true TWI395201B (zh) | 2013-05-01 |
Family
ID=46760356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW99114815A TWI395201B (zh) | 2010-05-10 | 2010-05-10 | 情緒語音辨識方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI395201B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI602174B (zh) * | 2016-12-27 | 2017-10-11 | 李景峰 | 基於聲音辨識的情緒紀錄與管理裝置、系統以及方法 |
TWI671739B (zh) * | 2017-07-10 | 2019-09-11 | 香港商阿里巴巴集團服務有限公司 | 會話資訊處理方法、裝置、電子設備 |
TWI704555B (zh) * | 2018-11-27 | 2020-09-11 | 誠屏科技股份有限公司 | 情緒辨識裝置與方法 |
US11087520B2 (en) | 2018-09-19 | 2021-08-10 | XRSpace CO., LTD. | Avatar facial expression generating system and method of avatar facial expression generation for facial model |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI498886B (zh) * | 2012-12-20 | 2015-09-01 | Univ Southern Taiwan Sci & Tec | An automatic emotion classification system with no sound |
JP6866715B2 (ja) * | 2017-03-22 | 2021-04-28 | カシオ計算機株式会社 | 情報処理装置、感情認識方法、及び、プログラム |
TWI650719B (zh) * | 2018-02-12 | 2019-02-11 | 中華電信股份有限公司 | 從文字內容評核客戶服務品質之系統及方法 |
CN110489517B (zh) * | 2018-05-09 | 2023-10-31 | 鼎捷软件股份有限公司 | 虚拟助理的自动学习方法及系统 |
TWI681308B (zh) * | 2018-11-01 | 2020-01-01 | 財團法人資訊工業策進會 | 文章的回應預測裝置及方法 |
CN111583968A (zh) * | 2020-05-25 | 2020-08-25 | 桂林电子科技大学 | 一种语音情感识别方法和系统 |
CN113113047A (zh) * | 2021-03-17 | 2021-07-13 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN114417868B (zh) * | 2022-03-15 | 2022-07-01 | 云天智能信息(深圳)有限公司 | 一种智能负面情绪测评方法和系统 |
TWI830385B (zh) * | 2022-09-16 | 2024-01-21 | 中華電信股份有限公司 | 用於語音語句之情緒預測裝置、方法以及其電腦程式產品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
TW200506657A (en) * | 2003-08-11 | 2005-02-16 | Univ Nat Cheng Kung | Semantic emotion classifying system |
-
2010
- 2010-05-10 TW TW99114815A patent/TWI395201B/zh not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
TW200506657A (en) * | 2003-08-11 | 2005-02-16 | Univ Nat Cheng Kung | Semantic emotion classifying system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI602174B (zh) * | 2016-12-27 | 2017-10-11 | 李景峰 | 基於聲音辨識的情緒紀錄與管理裝置、系統以及方法 |
TWI671739B (zh) * | 2017-07-10 | 2019-09-11 | 香港商阿里巴巴集團服務有限公司 | 會話資訊處理方法、裝置、電子設備 |
US11087520B2 (en) | 2018-09-19 | 2021-08-10 | XRSpace CO., LTD. | Avatar facial expression generating system and method of avatar facial expression generation for facial model |
TWI704555B (zh) * | 2018-11-27 | 2020-09-11 | 誠屏科技股份有限公司 | 情緒辨識裝置與方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201140559A (en) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI395201B (zh) | 情緒語音辨識方法及系統 | |
US11475881B2 (en) | Deep multi-channel acoustic modeling | |
An et al. | Deep CNNs with self-attention for speaker identification | |
Yeh et al. | An interaction-aware attention network for speech emotion recognition in spoken dialogs | |
US9600231B1 (en) | Model shrinking for embedded keyword spotting | |
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
Zhuang et al. | Real-world acoustic event detection | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Khan et al. | An intelligent system for spoken term detection that uses belief combination | |
Mangalam et al. | Learning spontaneity to improve emotion recognition in speech | |
Praksah et al. | Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Konangi et al. | Emotion recognition through speech: A review | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
US11551666B1 (en) | Natural language processing | |
US11817090B1 (en) | Entity resolution using acoustic data | |
CN114495990A (zh) | 一种基于特征融合的语音情感识别方法 | |
Iloanusi et al. | Voice recognition and gender classification in the context of native languages and lingua franca | |
Vasudev et al. | Query-by-example spoken term detection using bessel features | |
Fan et al. | Automatic emotion variation detection in continuous speech | |
Weninger et al. | Speaker trait characterization in web videos: Uniting speech, language, and facial features | |
Manor et al. | Voice trigger system using fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |