TWI629680B - Voice confidence assessment method and system - Google Patents
Voice confidence assessment method and system Download PDFInfo
- Publication number
- TWI629680B TWI629680B TW106119947A TW106119947A TWI629680B TW I629680 B TWI629680 B TW I629680B TW 106119947 A TW106119947 A TW 106119947A TW 106119947 A TW106119947 A TW 106119947A TW I629680 B TWI629680 B TW I629680B
- Authority
- TW
- Taiwan
- Prior art keywords
- syllable
- speech
- confidence
- important factor
- feature
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明係揭露一種語音信心評估方法及系統,可抓出音節的重要因子成份及使用韻律特徵參數當作輔助,並使用類神經模型對聲調音節作深度學習,學習一音節前後文與韻律的關聯性,語音信心評估輸出累計每一音節的信心分數,此方法能夠提升語音信心評估的可靠度。
Description
本發明屬於一種語音信心評估方法及系統,是屬於一種智慧客服語音應用系統的前端技術。
過往語音信心評估問題,僅注重於以短期音框來建立相對可靠的音節之技術,也並未強調降低通道雜訊為主要的考量,此外,亦很少考量高層次資訊韻律聲學作輔助,以至於雜訊影響語音信心評估之技術。
前案以音節為基礎的信心評估方法是累計一個音節範圍內的每一個音框事後機率來建構一音節信心分數,並且沒有降低通道/雜訊的考量,本案採取因素分析於一個完整音節,再以少數因素表示一個音節的結構,此法有別於以音框事後機率來建構一音節信心分數,此分析法亦可以降低通道/雜訊的功效。此外,前案亦沒有使用高層次資訊韻律聲學作輔助,本案具備聲學、韻律同時考量的深度類神經網路的學習。
本案發明人鑑於上述習用方式所衍生的各項缺點,乃亟思加以改良創新,並經多年苦心孤詣潛心研究後,終於成功研發完成本語音信心評估方法及系統。
為達上述目的,本發明提出提供一種語音信心評估方法及系統,其係利用音節重要因子向量、輔助音節的韻律特徵參數及聲調音節深度類神經模型來做到強健性的聲調音節信心評估,使在音節信心評估時不易受環境不匹配而降低效能,能提升語音信心評估的可靠度,提供可靠的辨識結果供後級使用,亦可藉由這可靠信心評估作未標註語音資料的選取,有效率增加語音資料供聲學模型的訓練。
一種語音信心評估系統,其包括:音節特徵參數抽取單元,係為接收語音及音節切割資訊產生之音節特徵參數組,並包含語音及音節切割資訊,其連接該音節特徵參數抽取,依據語音及音節切割資訊,抽取音節重要因子向量,係為M個重要因子向量,並以此為核心參數;信心評估模型單元,係提供深度類神經網路當作信心評估模型;信心評估單元,係依據一音節特徵參數組及一信心評估模型,可計算出每一音節的信心分數,再將一語音的所有音節信心分數累加起來得到該一語音的信心分數。
其中該音節特徵參數抽取單元,係包含語音及音節切割資訊,其連接該音節特徵參數抽取,依據語音及音節切割資訊,抽取音節重要因子向量,係為M個重要因子向量,並以此為核心參數,另有輔助的韻律參數,包含一聲調特徵參數,其為一四維正交化係數用以表達,一音長特徵參數,其係為音節長度用以表達,一能量特徵參數,其係為平均分成三段的平均值用以表達,一停頓特徵參數,其係為短停頓長度用以表達,其重要因子向量以一音節重要因子向量為主,韻律特徵參數為輔佐,將一音節表示成一固定長度的音節特
徵參數組,藉以提升語音信心評估的可靠度。
抽取音節重要因子向量主要為音節和通道相依的高斯混合模型(Gaussian Mixture Model,GMM),超向量s可表示成下列式(1)所示:s=m+Tw (1)
其中m為一通用背景模型(Universal Background Model,UBM)平均值超向量,T為一低維度矩陣,由M個重要因子視作總變異數所生成出來的子空間處於UBM平均值超向量空間之中,其係為一重要因子向量抽取器。w為M個重要因子其可被定義為一事後機率分佈呈標準常態N(0,I),例如本案採用300個重要因子。最終目標是利用簡單的因子分析法將一個音節語音投影至低維度總變異數空間,進而過濾掉通道的影響。
對於一音節語音其特徵向量序列X=x 1 x 2 x τ ,其相應的重要因子向量w X 可由計算事後機率分佈的平均值而得到,如下列式(2)所示:
其中為事後機率分佈的精準
度矩陣(precision matrix),為屬於Ω(其中Ω為UBM,而一個Ω是由C個高斯成份所建構而成,每個高斯成份為F維度特徵空間)第c個高斯成份的零階(zero-order)統計值Σ為以Σ(C)組成的方塊對角矩陣(block diagonal matrix),Σ(C)-1為UBM的第c個高斯成份的精準度矩陣,T(C)為T的F×M子矩陣對應到第c個高斯成份,F為語音特徵參數的維度,M為重要因子向量的大小,因此T=(T (1)*,...,T (C)*)*,而T
可以按照特徵聲音(eigenvoice)的訓練程序求得,fx為一階(first-order)統計值fx (c)所堆疊起來的超向量,,mc為UBM第c個高斯成份的平均值。
一種語音信心評估方法,其包括:步驟一、於電子運算設備上取得一語音資料;步驟二、透過語音辨識,取得該語音資料之音節切割資訊;步驟三、利用音節特徵參數抽取方法及音節切割資訊,抽取出每一音節的重要因子向量及輔助音節的韻律特徵;步驟四、將長度不一的每一音節切割資訊投影轉換成固定長度的音節特徵參數組;步驟五、將每一固定長度的音節特徵參數組輸入至音節深層類神經網路模型,運算得到一音節事後機率結果,此結果當作每一音節的信心分數;以及步驟六、將每一音節的信心分數累計起來,得到該語音資料的信心分數。
其中該取得一語音資料,係為透過網路或資料傳輸取得語音資料檔、透過設備上之麥克風來錄製語音資料。
音節特徵參數抽取方法,係包含語音及音節切割資訊,其連接該音節特徵參數抽取,依據語音及音節切割資訊,抽取音節重要因子向量,係為M個重要因子向量,並以此為核心參數。
語音信心評估,係包含音節特徵參數抽取、信心評估模型、信心評估,其中:該音節特徵參數抽取,係包含音節重要因子向量、聲調特徵參數、音長特徵參數、能量特
徵參數、停頓特徵參數,以產生音節特徵參數組;該信心評估模型,係提供深度類神經網路當作信心評估模型;該信心評估,係依據一音節特徵參數組及一信心評估模型,可計算出每一音節的信心分數,再將一語音的所有音節信心分數累加起來得到該一語音的信心分數。
其中該音節重要因子向量,其步驟包含:步驟一、依據語音及音節切割資訊作語音特徵抽取;步驟二、利用語音特徵及UBM計算統計值;步驟三、使用重要因子向量抽取器及統計值,抽取重要因子向量。
本發明所提供一種語音信心評估方法及系統,與其他習用技術相互比較時,更具備下列優點:
1.本發明可抓出音節的重要因子成份,具有消除通道功效。
2.本發明可輔以韻律資訊,學習語音上的韻律。
3.本發明可藉由深度學習,學習前後文與韻律的關聯性。
110‧‧‧音節特徵參數抽取單元
120‧‧‧信心評估單元
121‧‧‧信心分數
130‧‧‧信心評估模型單元
210‧‧‧語音及音節切割資訊
220‧‧‧音節特徵參數抽取
221‧‧‧音節重要因子向量
222‧‧‧聲調特徵參數
223‧‧‧音長特徵參數
224‧‧‧能量特徵參數
225‧‧‧停頓特徵參數
310‧‧‧音節語音
320‧‧‧語音特徵抽取
330‧‧‧統計值產生
331‧‧‧UBM
340‧‧‧抽取重要因子向量
341‧‧‧重要因子向量抽取T
350‧‧‧音節重要因子向量
S410~S460‧‧‧流程
510‧‧‧輸入層
520‧‧‧隱藏層
530‧‧‧輸出層
請參閱有關本發明之詳細說明及其附圖,將可進一步瞭解本發明之技術內容及其目的功效;有關附圖為:圖1為本發明語音信心評估方法及系統之架構圖;圖2為本發明語音信心評估方法及系統之音節特徵參數抽取架構圖;圖3為本發明語音信心評估方法及系統之音節重要因子抽取架構圖;圖4為本發明語音信心評估方法及系統之流程圖;
圖5為本發明語音信心評估方法及系統之實施例圖。
為了使本發明的目的、技術方案及優點更加清楚明白,下面結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,但並不用於限定本發明。
以下,結合附圖對本發明進一步說明:請參閱圖1所示,為一種語音信心評估方法及系統之架構圖,其包括音節特徵參數抽取單元110,為接收語音及音節切割資訊產生之音節特徵參數組,並包含語音及音節切割資訊,其連接該音節特徵參數抽取,依據語音及音節切割資訊,抽取音節重要因子向量,為M個重要因子向量,並以此為核心參數;信心評估模型單元130,提供深度類神經網路當作信心評估模型;信心評估單元120,依據一音節特徵參數組及一信心評估模型,可計算出每一音節的信心分數,再將一語音的所有音節信心分數累加起來得到該一語音的信心分數121。
請參閱圖2所示,為一種語音信心評估方法及系統之音節特徵參數抽取架構圖,其音節特徵參數抽取單元,包含語音及音節切割資訊210,其連接音節特徵參數抽取220,依據語音及音節切割資訊,抽取音節重要因子向量221,為M個重要因子向量,並以此為核心參數,另有輔助的韻律參數,包含一聲調特徵參數222,其為一四維正交化數用以表達,一音長特徵參數223,其為音節長度用以表達,一能量特徵參數224,其為平均分成三段的平均值用以表達,一停頓特徵參數225,其為短停頓長度用以表達,其重要因子向量以一音節重
要因子向量221為主,韻律特徵參數為輔佐,將一音節表示成一固定長度的音節特徵參數組,藉以提升語音信心評估的可靠度。
抽取音節重要因子向量主要為音節和通道相依的高斯混合模型(Gaussian Mixture Model,GMM),超向量s可表示成下列式(1)所示:s=m+Tw (1)
其中m為一通用背景模型(Universal Background Model,UBM)平均值超向量,T為一低維度矩陣,由M個重要因子視作總變異數所生成出來的子空間處於UBM平均值超向量空間之中,其為一重要因子向量抽取器。w為M個重要因子其可被定義為一事後機率分佈呈標準常態N(0,I),例如本案採用300個重要因子。最終目標是利用簡單的因子分析法將一個音節語音投影至低維度總變異數空間,進而過濾掉通道的影響。
對於一音節語音其特徵向量序列X=x 1 x 2 x τ ,其相應的重要因子向量w X 可由計算事後機率分佈的平均值而得到,如下列式(2)所示:
其中為事後機率分佈的精準
度矩陣(precision matrix),為屬於Ω(其中Ω為UBM,而一個Ω是由C個高斯成份所建構而成,每個高斯成份為F維度特徵空間)第c個高斯成份的zero-order統計值Σ為以Σ(C)組成的方塊對角矩陣(block diagonal matrix),Σ(C)-1為UBM的第c個高斯成份的精準度矩陣,T(C)為T的F×M子
矩陣對應到第c個高斯成份,F為語音特徵參數的維度,M為重要因子向量的大小,因此T=(T (1)*,...,T (C)*)*,而T可以按照eigenvoice的訓練程序求得,fx為first-order統計值fx (c)所堆
疊起來的超向量,,mc為UBM第c個高斯成份的平均值。
請參閱圖3所示,為一種語音信心評估方法及系統之音節重要因子抽取架構圖,輸入一音節語音310,其取得於音節切割資訊,連接一語音特徵抽取320,抽取出梅爾倒頻譜(mel-frequency cepstral coefficients,MFCC)及其差量(delta coefficients),加速度(acceleration coefficients)共39維,一UBM 331,為一2048個高斯成份的GMM,語音特徵抽取320和UBM 331皆連接一統計值產生330,產生出zero-order,first-order統計值;一重要因子向量抽取T 341和一統計值產生330皆連接一抽取重要因子向量340,依據上述式(2)可實現之,最終抽取一音節重要因子向量350為一音節重要因子向量w X ,其300個重要因子,具有降低通道影響的效果,幫助強健性語音信心評估的重要參數。
請參閱圖4所示,為一種語音信心評估方法及系統之流程圖,其包括:步驟一、S410於電子運算設備上取得一語音資料;步驟二、S420透過語音辨識,取得該語音資料之音節切割資訊;步驟三、S430利用音節特徵參數抽取方法及音節切割資訊,抽取出每一音節的重要因子向量及輔助音節的韻律特徵;步驟四、S440將長度不一的每一音節切割資訊投影轉換
成固定長度的音節特徵參數組;步驟五、S450將每一固定長度的音節特徵參數組輸入至音節深層類神經網路模型,運算得到一音節事後機率結果,此結果當作每一音節的信心分數;以及步驟六、S460將每一音節的信心分數累計起來,得到該語音資料的信心分數。
其中該取得一語音資料,為透過網路或資料傳輸取得語音資料檔、透過設備上之麥克風來錄製語音資料。
音節特徵參數抽取方法,包含語音及音節切割資訊,其連接該音節特徵參數抽取,依據語音及音節切割資訊,抽取音節重要因子向量,為M個重要因子向量,並以此為核心參數。
語音信心評估,包含音節特徵參數抽取、信心評估模型、信心評估,其中:該音節特徵參數抽取,包含音節重要因子向量、聲調特徵參數、音長特徵參數、能量特徵參數、停頓特徵參數,以產生音節特徵參數組;該信心評估模型,提供深度類神經網路當作信心評估模型;該信心評估,依據一音節特徵參數組及一信心評估模型,可計算出每一音節的信心分數,再將一語音的所有音節信心分數累加起來得到該一語音的信心分數。
其中該音節重要因子向量,其步驟包含:步驟一、依據語音及音節切割資訊作語音特徵抽取;步驟二、利用語音特徵及UBM計算統計值;步驟三、使用重要因子向量抽取器及統計值,抽取重要因子向量。
請參閱圖5所示,為一種語音信心評估方法及系統之實施例圖,其詳述本實施例之一信心評估模型,其實施例採用深度類神經網路當作信心評估模型,其輸入層510採取3個音節當作輸入參數,共309*3個特徵參數,類神經模型隱藏層520,本實施例中採用5層,每一層為1024個結點,最後輸出層530,本發明採用411音節*5個聲調=2055個聲調音節,此聲調音節類神經模型可使用反向傳遞演算法(Back Propagation)求得。
最後,將固定長度的音節特徵參數組及深層類神經網路模型連接一信心評估,其根據深層類神經網路模型及其輸入層的特徵參數可計算出每一聲調音節的事後機率,將此事後機率當作信心分數,此信心評估將一語音中的每一個音節的信心分數累加在一起,即取得一語音的信心分數。
上列詳細說明乃針對本發明之一可行實施例進行具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
綜上所述,本案不僅於技術思想上確屬創新,並具備習用之傳統方法所不及之上述多項功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出申請,懇請 貴局核准本件發明專利申請案,以勵發明,至感德便。
Claims (8)
- 一種語音信心評估方法,其包括:步驟一、於電子運算設備上取得一語音資料;步驟二、透過語音辨識,取得該語音資料之音節切割資訊;步驟三、利用音節特徵參數抽取方法及音節切割資訊,抽取出每一音節的重要因子向量及輔助音節的韻律特徵,其中,該重要因子向量表徵為,其中X為一個音節的特徵向量序 列,為事後機率分佈的精準 度矩陣(precision matrix),為屬於Ω第c個高斯成份的零階(zero-order)統計值,Ω為通用背景模型(UBM),而一個Ω是由C個高斯成份所建構而成,每個高斯成份為F維度特徵空間,Σ為以Σ(C)組成的方塊對角矩陣(block diagonal matrix),Σ(C)-1為UBM的第c個高斯成份的精準度矩陣,T(C)為T的F×M子矩陣對應到第c個高斯成份,F為語音特徵參數的維度,M為重要因子向量的大小,T=(T (1)*,...,T (C)*)*,而T係按照特徵聲音(eigenvoice)的訓練程序求得,fx為一階(first-order)統計值fx (c)所堆疊起 來的超向量,,mc為UBM第c個高斯成份的平均值;步驟四、將長度不一的每一音節切割資訊投影轉換成固定長度的音節特徵參數組;步驟五、將每一固定長度的音節特徵參數組輸入至音節 深層類神經網路模型,運算得到一音節事後機率結果,此結果當作每一音節的信心分數;以及步驟六、將每一音節的信心分數累計起來,得到該語音資料的信心分數。
- 如申請專利範圍第1項所述之語音信心評估方法,其中該取得一語音資料,係為透過網路或資料傳輸取得語音資料檔、透過設備上之麥克風來錄製語音資料。
- 如申請專利範圍第1項所述之語音信心評估方法,其中該音節特徵參數抽取方法,係依據該語音資料及其音節切割資訊抽取每一音節的重要因子向量,其中該重要因子向量係包括M個重要因子。
- 如申請專利範圍第1項所述之語音信心評估方法,其中該音節特徵參數組係包含音節重要因子向量、聲調特徵參數、音長特徵參數、能量特徵參數、及停頓特徵參數。
- 如申請專利範圍第4項所述之語音信心評估方法,其中利用該音節特徵參數抽取方法抽取該重要因子向量的步驟包含:依據語音及音節切割資訊作語音特徵抽取;利用語音特徵及UBM計算統計值;使用重要因子向量抽取器及統計值,抽取重要因子向量。
- 一種語音信心評估系統,其包括:音節特徵參數抽取單元,係為接收語音及音節切割資訊產生之音節特徵參數組,其中,該音節特徵參數組包括每一音節的重要因子向量及輔助音節的韻律特徵,該重要因子向量表徵為,其中X為一個音節的 特徵向量序列,為事後機率分佈的 精準度矩陣(precision matrix),為屬於Ω第c個高斯成份的零階(zero-order)統計值,Ω為通用背景模型(UBM),而一個Ω是由C個高斯成份所建構而成,每個高斯成份為F維度特徵空間,Σ為以Σ(C)組成的方塊對角矩陣(block diagonal matrix),Σ(C)-1為UBM的第c個高斯成份的精準度矩陣,T(C)為T的F×M子矩陣對應到第c個高斯成份,F為語音特徵參數的維度,M為重要因子向量的大小,T=(T (1)*,...,T (C)*)*,而T係按照特徵聲音(eigenvoice)的訓練程序求得,fx為一階(first-order)統計值fx (c)所堆疊起來的超向量, ,mc為UBM第c個高斯成份的平均值;信心評估模型單元,係提供深度類神經網路當作信心評估模型;信心評估單元,係依據一音節特徵參數組及一信心評估模型,可計算出每一音節的信心分數,再將一語音的所有音節信心分數累加起來得到該一語音的信心分數。
- 如申請專利範圍第6項所述之語音信心評估系統,其中該音節特徵參數抽取單元係依據該語音資料及其音節切割資訊抽取每一音節的重要因子向量,其中該重要因子向量係包括M個重要因子。
- 如申請專利範圍第6項所述之語音信心評估系統,其中該重要因子向量,係以一音節表示成一固定長度的音節特徵參數組,藉以提升語音信心評估的可靠度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106119947A TWI629680B (zh) | 2017-06-15 | 2017-06-15 | Voice confidence assessment method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106119947A TWI629680B (zh) | 2017-06-15 | 2017-06-15 | Voice confidence assessment method and system |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI629680B true TWI629680B (zh) | 2018-07-11 |
TW201905896A TW201905896A (zh) | 2019-02-01 |
Family
ID=63640414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106119947A TWI629680B (zh) | 2017-06-15 | 2017-06-15 | Voice confidence assessment method and system |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI629680B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004111999A1 (en) * | 2003-06-13 | 2004-12-23 | Kwangwoon Foundation | An amplitude warping approach to intra-speaker normalization for speech recognition |
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
-
2017
- 2017-06-15 TW TW106119947A patent/TWI629680B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004111999A1 (en) * | 2003-06-13 | 2004-12-23 | Kwangwoon Foundation | An amplitude warping approach to intra-speaker normalization for speech recognition |
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
Non-Patent Citations (2)
Title |
---|
「一種韻律輔助中文語音辨認系統及其應用」,楊智合,國立交通大學電信工程研究所,中華民國106年6月 * |
「一種韻律輔助中文語音辨認系統及其應用」,楊智合,國立交通大學電信工程研究所,中華民國106年6月。 |
Also Published As
Publication number | Publication date |
---|---|
TW201905896A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
Sinith et al. | Emotion recognition from audio signals using Support Vector Machine | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
Shaw et al. | Emotion recognition and classification in speech using artificial neural networks | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Sinith et al. | A novel method for text-independent speaker identification using MFCC and GMM | |
Kuamr et al. | Continuous Hindi speech recognition using Gaussian mixture HMM | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
Jain et al. | Speech Recognition Systems–A comprehensive study of concepts and mechanism | |
KR20180057970A (ko) | 음성감성 인식 장치 및 방법 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
Shen et al. | RARS: Recognition of audio recording source based on residual neural network | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
Sher et al. | TESPAR feature based isolated word speaker recognition system | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Koolagudi et al. | Speaker recognition in the case of emotional environment using transformation of speech features | |
Geiger et al. | Learning new acoustic events in an hmm-based system using map adaptation | |
Kurian et al. | Development & evaluation of different acoustic models for Malayalam continuous speech recognition | |
TWI629680B (zh) | Voice confidence assessment method and system | |
Shan et al. | Speaker identification under the changed sound environment | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization |