TW201419270A

TW201419270A - 詞語驗證的方法及裝置

Info

Publication number: TW201419270A
Application number: TW101141672A
Authority: TW
Inventors: Shih-Chieh Chien
Original assignee: Ind Tech Res Inst
Priority date: 2012-11-08
Filing date: 2012-11-08
Publication date: 2014-05-16
Also published as: CN103811001B; US20140129224A1; CN103811001A; US8972264B2; TWI475558B

Abstract

一種詞語驗證的方法及裝置，用於驗證語音辨識所輸出的辨識詞彙。詞語驗證的裝置包括：參考分數累積器、驗證分數產生器以及決策裝置。本揭露根據語音辨識時的相似度分數，對相似度分數進行處理，而相似度分數是在每一模型詞彙的狀態之一的條件下，輸入語音的特徵向量之一的機率函數值再取對數而獲得。本揭露又根據處理後的結果來產生驗證分數，且將驗證分數與預設門檻值比較，以拒絕或接受辨識詞彙。

Description

詞語驗證的方法及裝置

本揭露是有關於一種詞語驗證的技術。

語音辨識(speech recognition)的應用層面相當廣泛，例如電話查詢系統、大樓門禁管制系統、汽車電腦系統、聲控玩具、以及近年來最熱門的無線通訊裝置等。現今語音辨識系統的架構主要是以隱藏式馬可夫模型(Hidden Markov Model,HMM)最具代表性。雖然語音辨識的應用如此廣泛，但其辨識的正確性卻實際影響了使用的普及性。基於此，目前多數語音辨識的研究仍著眼於正確率的提升。

詞語驗證(utterance verification)功能是語音辨識系統中不可或缺的一部份，其能夠有效拒絕集合外詞彙(out of vocabulary)的語音或噪音雜訊所造成錯誤的語音辨識結果，以提升語音辨識的正確性與可靠度。常見的技術例如是以類神經網路模型(Neural Network Model)、垃圾正規化(garbage normalization)或是N最佳信心度(N-best based confidence)等來對辨識出的詞彙進行詞語驗證。

然而，上述詞語驗證的技術需要有額外的運算以及足夠的記憶體空間來儲存模型，或是需要因應不同的環境而改變設定。有鑑於此，提供一個效果良好且不耗費過大運算與記憶體空間的詞語驗證的方法，已成為當務之急。

本揭露提出一種詞語驗證的方法，用於驗證語音辨識所輸出的辨識詞彙，其中辨識詞彙是根據聲學模型與模型詞彙資料庫對特徵向量序列進行語音辨識後所獲得，前述特徵向量序列包括多個音框的特徵向量，前述聲學模型與模型詞彙資料庫包括多個模型詞彙，每一模型詞彙包括多個狀態。此詞語驗證的方法根據語音辨識時的相似度分數，並對相似度分數進行處理，其中前述相似度分數是在每一模型詞彙的這些狀態之一的條件下，由這些音框的特徵向量之一的機率函數值再取對數而獲得，此詞語驗證的方法再根據處理後的結果來產生驗證分數，且將驗證分數與預設門檻值比較，以對辨識詞彙拒絕與接受二者擇一。

本揭露提出一種詞語驗證的裝置，用於驗證語音辨識裝置所輸出的辨識詞彙，其中辨識詞彙是根據聲學模型與模型詞彙資料庫對特徵向量序列進行語音辨識後所獲得，前述特徵向量序列包括多個音框的特徵向量，前述聲學模型與模型詞彙資料庫包括多個模型詞彙，每一模型詞彙又包括多個狀態。此詞語驗證的裝置包括：參考分數累積器、驗證分數產生器以及決策裝置。參考分數累積器耦接至語音辨識裝置，用以根據語音辨識裝置進行語音辨識時的相似度分數，並對相似度分數進行處理，其中前述相似度分數是在每一模型詞彙的這些狀態之一的條件下，由這些音框的特徵向量之一的機率函數值再取對數而獲得。驗證分數產生器耦接至參考分數累積器，用以根據參考分數累積器處理後的結果來產生驗證分數。決策裝置耦接至驗證分數產生器，決策裝置將驗證分數與預設門檻值比較，以對辨識詞彙拒絕與接受二者擇一。

為讓本揭露之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本揭露的部份實施例接下來將會配合附圖來詳細描述。這些實施例只是本揭露的一部份，並未揭示所有本揭露的可實施方式。更確切的說，這些實施例只是本揭露的專利申請範圍中的裝置與方法的範例。

圖1繪示依據本揭露一實施例之一種語音辨識系統的方塊示意圖，圖2繪示依據本揭露一實施例之一種語音辨識方法的流程圖，但此僅是為了方便說明，並不用以限制本揭露。請先參照圖1，本實施例的語音辨識系統100包括：語音訊號接收單元110、語音訊號處理單元120、語音辨識裝置130、聲學模型與模型詞彙資料庫132以及詞語驗證的裝置102。此詞語驗證的裝置102包括：參考分數累積器140、驗證分數產生器150以及決策裝置160。

首先簡單介紹前述各構件，詳細內容將配合圖2中的語音辨識方法流程圖一併揭露。當語音訊號輸入至語音辨識系統100後，會依序經過語音訊號接收單元110、語音訊號處理單元120以及語音辨識裝置130。語音辨識裝置130會根據聲學模型與模型詞彙資料庫132辨識出一個辨識詞彙，並且輸出一個或多個相似度分數而傳送至分別與其耦接的參考分數累積器140與驗證分數產生器150。參考分數累積器140用以處理上述相似度分數，並將處理結果傳送至與其耦接的驗證分數產生器150。驗證分數產生器150根據上述處理結果來產生驗證分數，並傳送至與其耦接的決策裝置160。決策裝置160會對驗證分數與預設門檻值進行比較，以接受或拒絕上述辨識詞彙。

請同時參照圖1與圖2，以下即圖1中語音辨識系統100的各項元件搭配圖2說明本實施例語音辨識方法的詳細步驟：

首先，由語音訊號接收單元110接收語者輸入的語音訊號並傳送至語音訊號處理單元120(步驟S201)。接著，語音訊號處理單元120將語音訊號切割成多個連續的音框(frame)(步驟S202)。每一個音框可表示成例如是多維的梅爾倒頻譜係數(Mel-frequency cepstral coefficients)以及其一階(first-order)與二階(second-order)的時間差量(time derivative)的特徵向量，其中取時間差量的因素主要是為了獲得語音音框的特徵在時間上的相關資訊。語音訊號處理單元120會接著擷取這些特徵向量，並傳送至語音辨識裝置130(步驟S203)。接著，語音辨識裝置130將根據擷取後的特徵向量序列以及包含多個模型詞彙的聲學模型與模型詞彙資料庫132，來辨識出一個辨識詞彙，並分別輸出一個或多個相似度分數、此辨識詞彙與最佳路徑分數至參考分數累積器140與驗證分數產生器150(步驟S204)。

為了處理語音訊號在時域上的變化，一般而言例如是由多個左到右(left-to-right)的隱藏式馬可夫模型(Hidden Markov Model,HMM)來作為聲學模型與模型詞彙資料庫132中的模型詞彙，其中每個模型詞彙包含多個狀態(state)，而每個狀態內則利用例如是多個高斯混合分佈(Gaussian Mixture Distribution)來表示。舉例來說，以「前進」這個詞彙而言，它可以由「靜音」、「ㄑ」、「ㄧㄢ」、「ㄐ」、「ㄧㄣ」以及「靜音」等聲韻母所組成，而每個聲韻母可使用不同的狀態數目來進行描述。例如：「靜音」是以1個狀態來描述，「ㄑ」、「ㄧㄢ」、「ㄐ」、「ㄧㄣ」等模型是以2個狀態來描述，因此一個詞彙就能組合出一種由不同聲韻母所描述的狀態序列，其中每個狀態則利用多個高斯混合分佈來描述。這些高斯分佈是事先藉由訓練(training)語音所對應的特徵向量估測而得到的。因此，藉由語音訊號而取得的各個特徵向量與前述狀態序列所對應的高斯分佈，就能夠計算得到各個特徵向量在狀態序列中之一狀態的條件下的機率函數值和相似度分數(likelihood score)，其中相似度分數是機率函數值再取對數而獲得。

再者，狀態序列同時也限制了與特徵向量序列比對的順序。例如，特徵向量序列的第1個音框的特徵向量必須由狀態序列中的第1個狀態開始進行比對，不可以由第3個狀態開始比對起。此外，在特徵向量序列中，前一個音框的特徵向量所得到的相似度分數也將做為下一個音框特徵向量的基底，與下一個音框的特徵向量計算所獲得的相似度分數進行加總，得到一路徑分數。因此，依照這樣的順序，當特徵向量序列中的所有音框的特徵向量與每個模型詞彙的狀態序列完成比對後，就可以得到多個路徑分數，其中最大值即為前述之最佳路徑分數，而其所對應之模型詞彙為前述之辨識詞彙。

最佳路徑分數為特徵向量序列在前述狀態序列的限制下，所求得的相似度分數總和為最大值的路徑分數。若無此限制，亦即，特徵向量序列中的每個音框的特徵向量可以與狀態序列裡的每個狀態進行比對，以產生多個相似度分數，並且一併傳送至參考分數累積器140。接著，參考分數累積器140會對這些相似度分數進行處理(步驟S205)，並且將處理後的結果傳送至驗證分數產生器150，以產生驗證分數(步驟S206)。以下實施例中，會針對步驟S205與步驟S206進行更詳盡的說明。

在本實施例中，每個音框的特徵向量將分別在辨識詞彙中的各個狀態條件下計算其相似度分數，再取所計算出的相似度分數中的最大值，亦即每個音框的特徵向量之最大相似度分數。接著，參考分數累積器140會對每一音框的最大相似度分數進行加總，以取得對應於辨識詞彙的最大參考分數。取得最大參考分數的目的在於，若輸入的語音內容與辨識詞彙是一致，將每個音框的特徵向量的最大相似度分數所對應的狀態連結成一路徑時，此路徑必定能與最佳路徑有高度的重疊。也就是說，若將每個音框的特徵向量的最大相似度分數進行加總，其得到的最大參考分數會與最佳路徑分數的數值相近。因此，最佳路徑分數與最大參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150，以產生驗證分數。

詳言之，若最大參考分數與最佳路徑分數相近，兩者的差值將會接近0；反之，則遠離0。此外，由於輸入的語音訊號的長度並非一致，因此需要對此差值做分數正規化處理(score normalization)。在本實施例中的正規化處理法是取特徵向量的總數做為正規化常數(normalization constant)，然而此並非用以限定本揭露。在其它實施例中，亦可採用極值正規化等處理方式。上述產生的驗證分數可以數學式表示如下：其中t為特徵向量在特徵向量序列中的音框序號，o_t為序號t音框的特徵向量，T為特徵向量的音框總數，s_i為模型詞彙m的狀態之一，為模型詞彙m之狀態所組成的集合，log(Pr(o _t | s _i))為特徵向量o_t在狀態s_i的條件下所取得的相似度分數，為對應於模型詞彙m的最大參考分數，為最佳路徑分數。

上述實施例中，步驟S205與步驟S206所得到的最大相似度分數與最大參考分數僅是針對語音辨識裝置所辨識出的特定辨識詞彙來取得。在本揭露之另一實施例中，則無此限制，也就是說每個音框的特徵向量將會與聲學模型與模型詞彙資料庫132中的所有模型詞彙所對應的狀態進行比對，而每個音框的特徵向量將分別在所有模型詞彙中的各個狀態條件下計算其相似度分數，再取所計算出的相似度分數中的最大值，亦即每個特徵向量之最大相似度分數。接著，參考分數累積器140會對每一最大相似度分數進行加總，以取得對應於該辨識詞彙的總最大參考分數。同樣地，若輸入的語音內容與辨識詞彙是一致，將每個音框的特徵向量的最大相似度分數所對應的狀態連結成一路徑時，此路徑必定能與最佳路徑有高度的重疊。也就是說，若將每個音框的特徵向量的最大相似度分數進行加總，其得到的總最大參考分數會與最佳路徑分數的數值相近。最佳路徑分數與總最大參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150，以產生驗證分數用以對辨識詞彙進行驗證。產生的驗證分數可以數學式表示如下：其中t為特徵向量在特徵向量序列中的音框序號，o_t為序號t音框的特徵向量，T為特徵向量的音框總數，s_i為模型詞彙m的狀態之一，為模型詞彙m之狀態所組成的集合，M為模型詞彙的總數，log(Pr(o _t | s _i))為特徵向量o_t 在狀態s_i的條件下所取得之相似度分數，為總最大參考分數，為最佳路徑分數。

上述兩個實施例中是以最佳路徑分數與最大參考分數以及總最大參考分數進行比對，而在本揭露之另一實施例中，步驟S205與步驟S206亦可以將最佳路徑分數與垃圾模型(garbage model)進行比對。所謂垃圾模型可以例如是將所有中文的聲韻母的狀態重新訓練成單一狀態。也就是說，每個音框的特徵向量將會在垃圾模型的單一狀態的條件下計算其相似度分數，並傳輸至參考分數累積器140進行加總，以取得垃圾分數。最佳路徑分數與垃圾分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150。此外，在本實施例中，分數正規化的處理方式是將前一實施例中的總最大參考分數與垃圾分數的差值做為正規化常數。因此，參考分數累積器140亦會對每一音框所得的最大相似度分數進行加總以取得總最大參考分數並傳輸至驗證分數產生器150，其中，產生總最大參考分數的方法已在前一實施例中說明，在此不再贅述。驗證分數產生器150產生的驗證分數可以數學式表示如下：其中t為特徵向量在特徵向量序列中的音框序號，o_t為序號t音框的特徵向量，T為特徵向量的音框總數，s_i為模型詞彙m的狀態之一，λ_g為垃圾模型的狀態，為模型詞彙m之狀態所組成的集合，M為模型詞彙的總數，log(Pr(o _t | s _i))為特徵向量o_t在狀態s_i的條件下所取得之相似度分數，log(Pr(o _t | λ _g))為特徵向量o_t於垃圾模型的狀態條件下所取得之相似度分數，為總最大參考分數，為最佳路徑分數，為垃圾分數。

在本揭露另一實施例中，步驟S205與步驟S206亦可以將每個特徵向量與聲學模型與模型詞彙資料庫132中的所有模型詞彙所對應的狀態進行比對，而每個音框的特徵向量將分別在所有模型詞彙中的各個狀態條件下計算其相似度分數，再取所計算出的相似度分數中的最小值，亦即每個音框的特徵向量之最小相似度分數。接著，參考分數累積器140會對每一最小相似度分數進行加總，以取得對應於該辨識詞彙的總最小參考分數。最佳路徑分數與總最小參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150。此外，參考分數累積器140亦會對每一最大相似度分數進行加總以取得最大參考分數並傳輸至驗證分數產生器150，其中，產生總最大參考分數的方法已在前一實施例中說明，在此不再贅述。產生的驗證分數可以數學式表示如下：，其中t為特徵向量在特徵向量序列中的音框序號，o_t為序號t音框的特徵向量，T為特徵向量的音框總數，s_i為模型詞彙m的狀態之一，為模型詞彙m之狀態所組成的集合，M為模型詞彙的總數，log(Pr(o _t | s _i))為特徵向量o_t於狀態s_i的條件下所取得之相似度分數，為總最大參考分數，為最佳路徑分數，為總最小參考分數。

當驗證分數產生器150產生驗證分數例如是上述的CM₀、CM₁、CM₂與CM₃時，會將結果傳輸至決策模組160用以對辨識詞彙進行驗證。將此驗證分數與預設門檻值比較，以拒絕或接受辨識詞彙(步驟S207)。在本揭露中，若是此驗證分數小於預設門檻值，則接受該辨識結果，並且將辨識結果例如是從語音辨識系統100輸出；反之，則拒絕該辨識結果，並且例如是請語者重新輸入一次語音訊號。

以下模擬測試結果為利用本揭露之方法與裝置，並且將對本揭露與習知技術，例如垃圾正規化(garbage normalization)與N最佳信心度(N-best based confidence)進行比較。必須先說明的是，不同的預設門檻值將會影響決策結果，並且具有不同的錯誤拒絕率(False Rejection Rate,FRR)與錯誤接受率(False Acceptance Rate,FAR)。

在此，所謂的錯誤拒絕率是指當語者輸入的語音訊號之詞彙為模型詞彙之一來進行衡量，這部份的詞彙為集合內詞彙(in-vocabulary set,IV)。衡量的方式為：反之，錯誤接受率是指當語者輸入的語音訊號之詞彙為非模型詞彙之一來進行衡量，這部份的詞彙為集合外詞彙(out-of-vocabulary set,OOV)。衡量的方式為： FRR與FAR的值皆以越小越佳，然而這兩者的值會因預設門檻值的不同而產生變化。當降低預設門檻值時，會使得FAR升高而FRR降低；反之，當升高預設門檻值時，會使得FRR升高而FAR降低。因此，門檻值的設定存在一個取捨關係(trade-off)。在實際操作上，往往會以應用產品的屬性來進行設定。在本實施例中，將對FRR的數值進行控制，用以對本揭露與先前技術來進行比較。設定的FRR數值為20%，且於安靜環境與噪音環境之下分別做測試，並將測試結果來取平均值。以下是針對上述兩個習知技術與本揭露之四種驗證分數CM₀、CM₁、CM₂與CM₃來進行比較的結果：

當使用垃圾正規化時，FAR的平均數為26.45%，預設門檻值的平均數為3163，預設門檻值的標準差為820。

當使用N最佳信心度時，FAR的平均數為51.14%，預設門檻值的平均數為348，預設門檻值的標準差為72。

當驗證分數為CM₀時，FAR的平均數為34.90%，預設門檻值的平均數為983，預設門檻值的標準差為40。

當驗證分數為CM₁時，FAR的平均數為10.40%，預設門檻值的平均數為310，預設門檻值的標準差為39。

當驗證分數為CM₂時，FAR的平均數為6.15%，預設門檻值的平均數為920，預設門檻值的標準差為14。

當驗證分數為CM₃時，FAR的平均數為5.49%，預設門檻值的平均數為970，預設門檻值的標準差為3。

經過以上模擬結果顯示，在安靜與噪音環境的條件與設定FRR為20%的情況下，除了驗證分數為CM₀時的FAR高於垃圾正規化的FAR之外，驗證分數為CM₁、CM₂與CM₃時的FAR皆低於習知方法。此外，本揭露所提出的驗證分數使得預設門檻值的標準差遠低於習知技術所得到的預設門檻值的標準差，其中以驗證分數為CM₃時的效果最為顯著。也就是說，不同的測試環境對門檻值設定的影響差異不大。

綜上所述，本揭露所提出的詞語驗證的方法及裝置，將參考分數累積器耦接至語音辨識裝置，以對語音辨識裝置所輸出的辨識詞彙進行驗證。上述實施例提出的驗證分數CM₀、CM₁、CM₂與CM₃所得出的驗證效果較習知的技術來得優越，在不同的環境條件下的預設門檻值的變異度也較小。此外，除了驗證分數CM₂需要額外付出垃圾模型的儲存空間與運算時間之外，其餘的方式皆是應用語音辨識過程中所產生的相似度分數來產生，不需要大量的儲存與運算。因此，此技術不僅適用於例如是個人電腦或高效的運算處理器等一般運算平台，更可應用於例如是具有語音辨識功能的積體電路(IC)或數位訊號處理器(DSP)整合到嵌入式系統中的資源受限平台。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露之精神和範圍內，當可作些許之更動與潤飾，故本揭露之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧語音辨識系統

102‧‧‧詞語驗證的裝置

110‧‧‧語音訊號接收單元

120‧‧‧語音訊號處理單元

130‧‧‧語音辨識裝置

132‧‧‧聲學模型與模型詞彙資料庫

140‧‧‧參考分數累積器

150‧‧‧驗證分數產生器

160‧‧‧決策裝置

S201~S207‧‧‧語音辨識方法的流程

圖1繪示依據本揭露一實施例之一種語音辨識系統的方塊示意圖。

圖2繪示依據本揭露一實施例之一種語音辨識方法的流程圖。