TW201419270A - 詞語驗證的方法及裝置 - Google Patents
詞語驗證的方法及裝置 Download PDFInfo
- Publication number
- TW201419270A TW201419270A TW101141672A TW101141672A TW201419270A TW 201419270 A TW201419270 A TW 201419270A TW 101141672 A TW101141672 A TW 101141672A TW 101141672 A TW101141672 A TW 101141672A TW 201419270 A TW201419270 A TW 201419270A
- Authority
- TW
- Taiwan
- Prior art keywords
- score
- feature vector
- model
- vocabulary
- verification
- Prior art date
Links
- 238000012795 verification Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000001143 conditioned effect Effects 0.000 abstract 1
- 238000010606 normalization Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
一種詞語驗證的方法及裝置,用於驗證語音辨識所輸出的辨識詞彙。詞語驗證的裝置包括:參考分數累積器、驗證分數產生器以及決策裝置。本揭露根據語音辨識時的相似度分數,對相似度分數進行處理,而相似度分數是在每一模型詞彙的狀態之一的條件下,輸入語音的特徵向量之一的機率函數值再取對數而獲得。本揭露又根據處理後的結果來產生驗證分數,且將驗證分數與預設門檻值比較,以拒絕或接受辨識詞彙。
Description
本揭露是有關於一種詞語驗證的技術。
語音辨識(speech recognition)的應用層面相當廣泛,例如電話查詢系統、大樓門禁管制系統、汽車電腦系統、聲控玩具、以及近年來最熱門的無線通訊裝置等。現今語音辨識系統的架構主要是以隱藏式馬可夫模型(Hidden Markov Model,HMM)最具代表性。雖然語音辨識的應用如此廣泛,但其辨識的正確性卻實際影響了使用的普及性。基於此,目前多數語音辨識的研究仍著眼於正確率的提升。
詞語驗證(utterance verification)功能是語音辨識系統中不可或缺的一部份,其能夠有效拒絕集合外詞彙(out of vocabulary)的語音或噪音雜訊所造成錯誤的語音辨識結果,以提升語音辨識的正確性與可靠度。常見的技術例如是以類神經網路模型(Neural Network Model)、垃圾正規化(garbage normalization)或是N最佳信心度(N-best based confidence)等來對辨識出的詞彙進行詞語驗證。
然而,上述詞語驗證的技術需要有額外的運算以及足夠的記憶體空間來儲存模型,或是需要因應不同的環境而改變設定。有鑑於此,提供一個效果良好且不耗費過大運算與記憶體空間的詞語驗證的方法,已成為當務之急。
本揭露提出一種詞語驗證的方法,用於驗證語音辨識所輸出的辨識詞彙,其中辨識詞彙是根據聲學模型與模型詞彙資料庫對特徵向量序列進行語音辨識後所獲得,前述特徵向量序列包括多個音框的特徵向量,前述聲學模型與模型詞彙資料庫包括多個模型詞彙,每一模型詞彙包括多個狀態。此詞語驗證的方法根據語音辨識時的相似度分數,並對相似度分數進行處理,其中前述相似度分數是在每一模型詞彙的這些狀態之一的條件下,由這些音框的特徵向量之一的機率函數值再取對數而獲得,此詞語驗證的方法再根據處理後的結果來產生驗證分數,且將驗證分數與預設門檻值比較,以對辨識詞彙拒絕與接受二者擇一。
本揭露提出一種詞語驗證的裝置,用於驗證語音辨識裝置所輸出的辨識詞彙,其中辨識詞彙是根據聲學模型與模型詞彙資料庫對特徵向量序列進行語音辨識後所獲得,前述特徵向量序列包括多個音框的特徵向量,前述聲學模型與模型詞彙資料庫包括多個模型詞彙,每一模型詞彙又包括多個狀態。此詞語驗證的裝置包括:參考分數累積器、驗證分數產生器以及決策裝置。參考分數累積器耦接至語音辨識裝置,用以根據語音辨識裝置進行語音辨識時的相似度分數,並對相似度分數進行處理,其中前述相似度分數是在每一模型詞彙的這些狀態之一的條件下,由這些音框的特徵向量之一的機率函數值再取對數而獲得。驗證分數產生器耦接至參考分數累積器,用以根據參考分數累積
器處理後的結果來產生驗證分數。決策裝置耦接至驗證分數產生器,決策裝置將驗證分數與預設門檻值比較,以對辨識詞彙拒絕與接受二者擇一。
為讓本揭露之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本揭露的部份實施例接下來將會配合附圖來詳細描述。這些實施例只是本揭露的一部份,並未揭示所有本揭露的可實施方式。更確切的說,這些實施例只是本揭露的專利申請範圍中的裝置與方法的範例。
圖1繪示依據本揭露一實施例之一種語音辨識系統的方塊示意圖,圖2繪示依據本揭露一實施例之一種語音辨識方法的流程圖,但此僅是為了方便說明,並不用以限制本揭露。請先參照圖1,本實施例的語音辨識系統100包括:語音訊號接收單元110、語音訊號處理單元120、語音辨識裝置130、聲學模型與模型詞彙資料庫132以及詞語驗證的裝置102。此詞語驗證的裝置102包括:參考分數累積器140、驗證分數產生器150以及決策裝置160。
首先簡單介紹前述各構件,詳細內容將配合圖2中的語音辨識方法流程圖一併揭露。當語音訊號輸入至語音辨識系統100後,會依序經過語音訊號接收單元110、語音訊號處理單元120以及語音辨識裝置130。語音辨識裝置130會根據聲學模型與模型詞彙資料庫132辨識出一個辨
識詞彙,並且輸出一個或多個相似度分數而傳送至分別與其耦接的參考分數累積器140與驗證分數產生器150。參考分數累積器140用以處理上述相似度分數,並將處理結果傳送至與其耦接的驗證分數產生器150。驗證分數產生器150根據上述處理結果來產生驗證分數,並傳送至與其耦接的決策裝置160。決策裝置160會對驗證分數與預設門檻值進行比較,以接受或拒絕上述辨識詞彙。
請同時參照圖1與圖2,以下即圖1中語音辨識系統100的各項元件搭配圖2說明本實施例語音辨識方法的詳細步驟:
首先,由語音訊號接收單元110接收語者輸入的語音訊號並傳送至語音訊號處理單元120(步驟S201)。接著,語音訊號處理單元120將語音訊號切割成多個連續的音框(frame)(步驟S202)。每一個音框可表示成例如是多維的梅爾倒頻譜係數(Mel-frequency cepstral coefficients)以及其一階(first-order)與二階(second-order)的時間差量(time derivative)的特徵向量,其中取時間差量的因素主要是為了獲得語音音框的特徵在時間上的相關資訊。語音訊號處理單元120會接著擷取這些特徵向量,並傳送至語音辨識裝置130(步驟S203)。接著,語音辨識裝置130將根據擷取後的特徵向量序列以及包含多個模型詞彙的聲學模型與模型詞彙資料庫132,來辨識出一個辨識詞彙,並分別輸出一個或多個相似度分數、此辨識詞彙與最佳路徑分數至參考分數累積器140與驗證分數產生器150(步驟S204)。
為了處理語音訊號在時域上的變化,一般而言例如是由多個左到右(left-to-right)的隱藏式馬可夫模型(Hidden Markov Model,HMM)來作為聲學模型與模型詞彙資料庫132中的模型詞彙,其中每個模型詞彙包含多個狀態(state),而每個狀態內則利用例如是多個高斯混合分佈(Gaussian Mixture Distribution)來表示。舉例來說,以「前進」這個詞彙而言,它可以由「靜音」、「ㄑ」、「ㄧㄢ」、「ㄐ」、「ㄧㄣ」以及「靜音」等聲韻母所組成,而每個聲韻母可使用不同的狀態數目來進行描述。例如:「靜音」是以1個狀態來描述,「ㄑ」、「ㄧㄢ」、「ㄐ」、「ㄧㄣ」等模型是以2個狀態來描述,因此一個詞彙就能組合出一種由不同聲韻母所描述的狀態序列,其中每個狀態則利用多個高斯混合分佈來描述。這些高斯分佈是事先藉由訓練(training)語音所對應的特徵向量估測而得到的。因此,藉由語音訊號而取得的各個特徵向量與前述狀態序列所對應的高斯分佈,就能夠計算得到各個特徵向量在狀態序列中之一狀態的條件下的機率函數值和相似度分數(likelihood score),其中相似度分數是機率函數值再取對數而獲得。
再者,狀態序列同時也限制了與特徵向量序列比對的順序。例如,特徵向量序列的第1個音框的特徵向量必須由狀態序列中的第1個狀態開始進行比對,不可以由第3個狀態開始比對起。此外,在特徵向量序列中,前一個音框的特徵向量所得到的相似度分數也將做為下一個音框特
徵向量的基底,與下一個音框的特徵向量計算所獲得的相似度分數進行加總,得到一路徑分數。因此,依照這樣的順序,當特徵向量序列中的所有音框的特徵向量與每個模型詞彙的狀態序列完成比對後,就可以得到多個路徑分數,其中最大值即為前述之最佳路徑分數,而其所對應之模型詞彙為前述之辨識詞彙。
最佳路徑分數為特徵向量序列在前述狀態序列的限制下,所求得的相似度分數總和為最大值的路徑分數。若無此限制,亦即,特徵向量序列中的每個音框的特徵向量可以與狀態序列裡的每個狀態進行比對,以產生多個相似度分數,並且一併傳送至參考分數累積器140。接著,參考分數累積器140會對這些相似度分數進行處理(步驟S205),並且將處理後的結果傳送至驗證分數產生器150,以產生驗證分數(步驟S206)。以下實施例中,會針對步驟S205與步驟S206進行更詳盡的說明。
在本實施例中,每個音框的特徵向量將分別在辨識詞彙中的各個狀態條件下計算其相似度分數,再取所計算出的相似度分數中的最大值,亦即每個音框的特徵向量之最大相似度分數。接著,參考分數累積器140會對每一音框的最大相似度分數進行加總,以取得對應於辨識詞彙的最大參考分數。取得最大參考分數的目的在於,若輸入的語音內容與辨識詞彙是一致,將每個音框的特徵向量的最大相似度分數所對應的狀態連結成一路徑時,此路徑必定能與最佳路徑有高度的重疊。也就是說,若將每個音框的特
徵向量的最大相似度分數進行加總,其得到的最大參考分數會與最佳路徑分數的數值相近。因此,最佳路徑分數與最大參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150,以產生驗證分數。
詳言之,若最大參考分數與最佳路徑分數相近,兩者的差值將會接近0;反之,則遠離0。此外,由於輸入的語音訊號的長度並非一致,因此需要對此差值做分數正規化處理(score normalization)。在本實施例中的正規化處理法是取特徵向量的總數做為正規化常數(normalization constant),然而此並非用以限定本揭露。在其它實施例中,亦可採用極值正規化等處理方式。上述產生的驗證分數可以數學式表示如下:
其中t為特徵向量在特徵向量序列中的音框序號,ot為序號t音框的特徵向量,T為特徵向量的音框總數,si為模型詞彙m的狀態之一,為模型詞彙m之狀態所組成的集合,log(Pr(o t | s i ))為特徵向量ot在狀態si的條件下所取得的相似度分數,為對應於模型詞彙m的最大參考分數,為最佳路徑分數。
上述實施例中,步驟S205與步驟S206所得到的最大
相似度分數與最大參考分數僅是針對語音辨識裝置所辨識出的特定辨識詞彙來取得。在本揭露之另一實施例中,則無此限制,也就是說每個音框的特徵向量將會與聲學模型與模型詞彙資料庫132中的所有模型詞彙所對應的狀態進行比對,而每個音框的特徵向量將分別在所有模型詞彙中的各個狀態條件下計算其相似度分數,再取所計算出的相似度分數中的最大值,亦即每個特徵向量之最大相似度分數。接著,參考分數累積器140會對每一最大相似度分數進行加總,以取得對應於該辨識詞彙的總最大參考分數。同樣地,若輸入的語音內容與辨識詞彙是一致,將每個音框的特徵向量的最大相似度分數所對應的狀態連結成一路徑時,此路徑必定能與最佳路徑有高度的重疊。也就是說,若將每個音框的特徵向量的最大相似度分數進行加總,其得到的總最大參考分數會與最佳路徑分數的數值相近。最佳路徑分數與總最大參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150,以產生驗證分數用以對辨識詞彙進行驗證。產生的驗證分數可以數學式表示如下:
其中t為特徵向量在特徵向量序列中的音框序號,ot為序號t音框的特徵向量,T為特徵向量的音框總數,si為模型詞彙m的狀態之一,為模型詞彙m之狀態所組成的集合,M為模型詞彙的總數,log(Pr(o t | s i ))為特徵向量ot
在狀態si的條件下所取得之相似度分數,為總最大參考分數,為最佳路徑分數。
上述兩個實施例中是以最佳路徑分數與最大參考分數以及總最大參考分數進行比對,而在本揭露之另一實施例中,步驟S205與步驟S206亦可以將最佳路徑分數與垃圾模型(garbage model)進行比對。所謂垃圾模型可以例如是將所有中文的聲韻母的狀態重新訓練成單一狀態。也就是說,每個音框的特徵向量將會在垃圾模型的單一狀態的條件下計算其相似度分數,並傳輸至參考分數累積器140進行加總,以取得垃圾分數。最佳路徑分數與垃圾分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150。此外,在本實施例中,分數正規化的處理方式是將前一實施例中的總最大參考分數與垃圾分數的差值做為正規化常數。因此,參考分數累積器140亦會對每一音框所得的最大相似度分數進行加總以取得總最大參考分數並傳輸至驗證分數產生器150,其中,產生總最大參考分數的方法已在前一實施例中說明,在此不再贅述。驗證分數產生器150產生的驗證分數可以數學式表示如下:
其中t為特徵向量在特徵向量序列中的音框序號,ot為序號t音框的特徵向量,T為特徵向量的音框總數,si為模型詞彙m的狀態之一,λg為垃圾模型的狀態,為模型詞彙m之狀態所組成的集合,M為模型詞彙的總數,log(Pr(o t | s i ))為特徵向量ot在狀態si的條件下所取得之相似度分數,log(Pr(o t | λ g ))為特徵向量ot於垃圾模型的狀態條件下所取得之相似度分數,為總最大參考分數,為最佳路徑分數,為垃圾分數。
在本揭露另一實施例中,步驟S205與步驟S206亦可以將每個特徵向量與聲學模型與模型詞彙資料庫132中的所有模型詞彙所對應的狀態進行比對,而每個音框的特徵向量將分別在所有模型詞彙中的各個狀態條件下計算其相似度分數,再取所計算出的相似度分數中的最小值,亦即每個音框的特徵向量之最小相似度分數。接著,參考分數累積器140會對每一最小相似度分數進行加總,以取得對應於該辨識詞彙的總最小參考分數。最佳路徑分數與總最小參考分數會分別自語音辨識裝置130與參考分數累積器140傳輸至驗證分數產生器150。此外,參考分數累積器140亦會對每一最大相似度分數進行加總以取得最大參考分數並傳輸至驗證分數產生器150,其中,產生總最大參
考分數的方法已在前一實施例中說明,在此不再贅述。產生的驗證分數可以數學式表示如下:,其中t為特徵向量在特徵向量序列中的音框序號,ot為序號t音框的特徵向量,T為特徵向量的音框總數,si為模型詞彙m的狀態之一,為模型詞彙m之狀態所組成的集合,M為模型詞彙的總數,log(Pr(o t | s i ))為特徵向量ot於狀態si的條件下所取得之相似度分數,為總最大參考分數,為最佳路徑分數,為總最小參考分數。
當驗證分數產生器150產生驗證分數例如是上述的CM0、CM1、CM2與CM3時,會將結果傳輸至決策模組160用以對辨識詞彙進行驗證。將此驗證分數與預設門檻值比較,以拒絕或接受辨識詞彙(步驟S207)。在本揭露中,若是此驗證分數小於預設門檻值,則接受該辨識結果,並且將辨識結果例如是從語音辨識系統100輸出;反之,則拒絕該辨識結果,並且例如是請語者重新輸入一次語音訊號。
以下模擬測試結果為利用本揭露之方法與裝置,並且
將對本揭露與習知技術,例如垃圾正規化(garbage normalization)與N最佳信心度(N-best based confidence)進行比較。必須先說明的是,不同的預設門檻值將會影響決策結果,並且具有不同的錯誤拒絕率(False Rejection Rate,FRR)與錯誤接受率(False Acceptance Rate,FAR)。
在此,所謂的錯誤拒絕率是指當語者輸入的語音訊號之詞彙為模型詞彙之一來進行衡量,這部份的詞彙為集合內詞彙(in-vocabulary set,IV)。衡量的方式為:
反之,錯誤接受率是指當語者輸入的語音訊號之詞彙為非模型詞彙之一來進行衡量,這部份的詞彙為集合外詞彙(out-of-vocabulary set,OOV)。衡量的方式為:
FRR與FAR的值皆以越小越佳,然而這兩者的值會因預設門檻值的不同而產生變化。當降低預設門檻值時,會使得FAR升高而FRR降低;反之,當升高預設門檻值時,會使得FRR升高而FAR降低。因此,門檻值的設定存在一個取捨關係(trade-off)。在實際操作上,往往會以應用產品的屬性來進行設定。在本實施例中,將對FRR的數值進行控制,用以對本揭露與先前技術來進行比較。設定的FRR數值為20%,且於安靜環境與噪音環境之下分別做測試,並將測試結果來取平均值。以下是針對上述兩個習知技術與本揭露之四種驗證分數CM0、CM1、CM2與CM3來進行
比較的結果:
當使用垃圾正規化時,FAR的平均數為26.45%,預設門檻值的平均數為3163,預設門檻值的標準差為820。
當使用N最佳信心度時,FAR的平均數為51.14%,預設門檻值的平均數為348,預設門檻值的標準差為72。
當驗證分數為CM0時,FAR的平均數為34.90%,預設門檻值的平均數為983,預設門檻值的標準差為40。
當驗證分數為CM1時,FAR的平均數為10.40%,預設門檻值的平均數為310,預設門檻值的標準差為39。
當驗證分數為CM2時,FAR的平均數為6.15%,預設門檻值的平均數為920,預設門檻值的標準差為14。
當驗證分數為CM3時,FAR的平均數為5.49%,預設門檻值的平均數為970,預設門檻值的標準差為3。
經過以上模擬結果顯示,在安靜與噪音環境的條件與設定FRR為20%的情況下,除了驗證分數為CM0時的FAR高於垃圾正規化的FAR之外,驗證分數為CM1、CM2與CM3時的FAR皆低於習知方法。此外,本揭露所提出的驗證分數使得預設門檻值的標準差遠低於習知技術所得到的預設門檻值的標準差,其中以驗證分數為CM3時的效果最為顯著。也就是說,不同的測試環境對門檻值設定的影響差異不大。
綜上所述,本揭露所提出的詞語驗證的方法及裝置,將參考分數累積器耦接至語音辨識裝置,以對語音辨識裝置所輸出的辨識詞彙進行驗證。上述實施例提出的驗證分
數CM0、CM1、CM2與CM3所得出的驗證效果較習知的技術來得優越,在不同的環境條件下的預設門檻值的變異度也較小。此外,除了驗證分數CM2需要額外付出垃圾模型的儲存空間與運算時間之外,其餘的方式皆是應用語音辨識過程中所產生的相似度分數來產生,不需要大量的儲存與運算。因此,此技術不僅適用於例如是個人電腦或高效的運算處理器等一般運算平台,更可應用於例如是具有語音辨識功能的積體電路(IC)或數位訊號處理器(DSP)整合到嵌入式系統中的資源受限平台。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露之精神和範圍內,當可作些許之更動與潤飾,故本揭露之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧語音辨識系統
102‧‧‧詞語驗證的裝置
110‧‧‧語音訊號接收單元
120‧‧‧語音訊號處理單元
130‧‧‧語音辨識裝置
132‧‧‧聲學模型與模型詞彙資料庫
140‧‧‧參考分數累積器
150‧‧‧驗證分數產生器
160‧‧‧決策裝置
S201~S207‧‧‧語音辨識方法的流程
圖1繪示依據本揭露一實施例之一種語音辨識系統的方塊示意圖。
圖2繪示依據本揭露一實施例之一種語音辨識方法的流程圖。
100‧‧‧語音辨識系統
102‧‧‧詞語驗證的裝置
110‧‧‧語音訊號接收單元
120‧‧‧語音訊號處理單元
130‧‧‧語音辨識裝置
132‧‧‧聲學模型與模型詞彙資料庫
140‧‧‧參考分數累積器
150‧‧‧驗證分數產生器
160‧‧‧決策裝置
Claims (18)
- 一種詞語驗證的方法,用於驗證一辨識詞彙,其中該辨識詞彙是根據一聲學模型與模型詞彙資料庫對一特徵向量序列進行語音辨識後所得,該特徵向量序列包括多個音框的特徵向量,該聲學模型與模型詞彙資料庫包括多個模型詞彙,每一模型詞彙包括多個狀態,該詞語驗證的方法包括:根據語音辨識時的一相似度分數,對該相似度分數進行處理,其中該相似度分數是在每一模型詞彙的該些狀態之一的條件下,該些音框的特徵向量之一的機率函數值再取對數而獲得;根據處理後的結果來產生一驗證分數;以及將該驗證分數與一預設門檻值比較,以對該辨識詞彙拒絕與接受二者擇一。
- 如申請專利範圍第1項所述之詞語驗證的方法,其中,進行語音辨識時還輸出一最佳路徑分數,而根據語音辨識時的該相似度分數,對該相似度分數進行處理的步驟,包括:分別針對每一模型詞彙計算一最大參考分數,其中該最大參考分數是每一音框的特徵向量於某一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值進行加總而得,其中,根據處理後的結果來產生該驗證分數的步驟包括: 根據該最佳路徑分數以及對應於該辨識詞彙的該最大參考分數來計算該驗證分數。
- 如申請專利範圍第2項所述之詞語驗證的方法,其中計算該驗證分數之公式為:
- 如申請專利範圍第1項所述之詞語驗證的方法,其中,進行語音辨識時還輸出一最佳路徑分數,而根據語音辨識時的該相似度分數,對該相似度分數進行處理的步驟,包括:計算一總最大參考分數,其中該總最大參考分數是每一音框的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值進行加總而得,其中,根據處理後的結果來產生該驗證分數的步驟包 括:根據該最佳路徑分數以及該總最大參考分數來計算該驗證分數。
- 如申請專利範圍第4項所述之詞語驗證的方法,其中計算該驗證分數之公式為:
- 如申請專利範圍第1項所述之詞語驗證的方法,其中,進行語音辨識時還輸出一最佳路徑分數,而根據語音辨識時的該相似度分數,對該相似度分數進行處理的步驟,包括:計算一總最大參考分數以及根據一垃圾模型來計算一垃圾分數,其中,該總最大參考分數是每一音框的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值進行加 總而得,而該垃圾分數是該些特徵向量之一於該垃圾模型的條件下的機率函數值再取對數後加總而獲得,其中,根據處理後的結果來產生該驗證分數的步驟包括:根據該最佳路徑分數、該垃圾分數以及該總最大參考分數來計算該驗證分數。
- 如申請專利範圍第6項所述之詞語驗證的方法,其中計算該驗證分數之公式為:
- 如申請專利範圍第1項所述之詞語驗證的方法,其中,進行語音辨識時還輸出一最佳路徑分數,而根據語音辨識時的該相似度分數,對該相似度分數進行處理的步驟,包括:計算一總最大參考分數以及一總最小參考分數,其中,該總最大參考分數與總最小參考分數分別是每一音框的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值與最小值分別進行加總而得,其中,根據處理後的結果來產生該驗證分數的步驟包括:根據該最佳路徑分數、該總最大參考分數以及該總最小參考分數來計算該驗證分數。
- 如申請專利範圍第8項所述之詞語驗證的方法,其中該驗證分數之公式為:
- 一種詞語驗證的裝置,用於驗證一語音辨識裝置所輸出的一辨識詞彙,其中該辨識詞彙是根據一聲學模型與模型詞彙資料庫對一特徵向量序列進行語音辨識後所得,該特徵向量序列包括多個音框的特徵向量,該聲學模型與模型詞彙資料庫包括多個模型詞彙,每一模型詞彙包括多個狀態,該詞語驗證的裝置包括:一參考分數累積器,耦接至該語音辨識裝置,用以根據該語音辨識裝置進行語音辨識時的一相似度分數,對該相似度分數進行處理,其中該相似度分數是在每一模型詞彙的該些狀態之一的條件下,該些音框的特徵向量之一的機率函數值再取對數而獲得;一驗證分數產生器,耦接至該參考分數累積器,用以根據該參考分數累積器處理後的結果來產生一驗證分數;以及一決策裝置,耦接至該驗證分數產生器,該決策裝置將該驗證分數與一預設門檻值比較,以對該辨識詞彙拒絕與接受二者擇一。
- 如申請專利範圍第10項所述之詞語驗證的裝置,其中,該語音辨識裝置還輸出一最佳路徑分數,該參 考分數累積器分別針對每一模型詞彙計算一最大參考分數,該最大參考分數是每一音框的特徵向量於某一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值進行加總而得,該驗證分數產生器根據該最佳路徑分數以及對應於該辨識詞彙的該最大參考分數來計算該驗證分數。
- 如申請專利範圍第11項所述之詞語驗證的裝置,其中計算該驗證分數之公式為:
- 如申請專利範圍第10項所述之詞語驗證的裝置,其中,該語音辨識裝置還輸出一最佳路徑分數,該參考分數累積器計算一總最大參考分數,該總最大參考分數是每一音框的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分 數中的最大值進行加總而得,該驗證分數產生器根據該最佳路徑分數以及該總最大參考分數來計算該驗證分數。
- 如申請專利範圍第13項所述之詞語驗證的裝置,其中計算該驗證分數之公式為:
- 如申請專利範圍第10項所述之詞語驗證的裝置,其中,該語音辨識裝置還輸出一最佳路徑分數,該參考分數累積器計算一總最大參考分數以及根據一垃圾模型來計算一垃圾分數,該總最大參考分數是每一音框的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值進行加總而得,該垃圾分數是該些特徵向量之一於該垃圾模型的條件下的機率函數值再取對數後加總而獲得,該驗證分 數產生器根據該最佳路徑分數、該垃圾分數以及該總最大參考分數來計算該驗證分數。
- 如申請專利範圍第15項所述之詞語驗證的裝置,其中計算該驗證分數之公式為:
- 如申請專利範圍第10項所述之詞語驗證的裝置,其中,該語音辨識裝置還輸出一最佳路徑分數,該參考分數累積器計算一總最大參考分數以及一總最小參考分數,該總最大參考分數與總最小參考分數分別是每一音框 的特徵向量於每一模型詞彙中的各個狀態的條件下分別計算其相似度分數,再取所計算出的該相似度分數中的最大值與最小值分別進行加總而得,該驗證分數產生器根據該最佳路徑分數、該總最大參考分數以及該總最小參考分數來計算該驗證分數。
- 如申請專利範圍第17項所述之詞語驗證的裝置,其中計算該驗證分數之公式為:
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101141672A TWI475558B (zh) | 2012-11-08 | 2012-11-08 | 詞語驗證的方法及裝置 |
US13/717,645 US8972264B2 (en) | 2012-11-08 | 2012-12-17 | Method and apparatus for utterance verification |
CN201210586693.8A CN103811001B (zh) | 2012-11-08 | 2012-12-28 | 词语验证的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101141672A TWI475558B (zh) | 2012-11-08 | 2012-11-08 | 詞語驗證的方法及裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201419270A true TW201419270A (zh) | 2014-05-16 |
TWI475558B TWI475558B (zh) | 2015-03-01 |
Family
ID=50623176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101141672A TWI475558B (zh) | 2012-11-08 | 2012-11-08 | 詞語驗證的方法及裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8972264B2 (zh) |
CN (1) | CN103811001B (zh) |
TW (1) | TWI475558B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009044B1 (en) * | 2012-07-10 | 2015-04-14 | Google Inc. | Multiple subspace discriminative feature training |
US9466286B1 (en) * | 2013-01-16 | 2016-10-11 | Amazong Technologies, Inc. | Transitioning an electronic device between device states |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9443507B2 (en) * | 2013-07-15 | 2016-09-13 | GM Global Technology Operations LLC | System and method for controlling a speech recognition system |
GB2523353B (en) * | 2014-02-21 | 2017-03-01 | Jaguar Land Rover Ltd | System for use in a vehicle |
US10157620B2 (en) * | 2014-03-04 | 2018-12-18 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation |
PT3065131T (pt) * | 2015-03-06 | 2020-08-27 | Zetes Ind S A | Método e sistema de pós-tratamento de um resultado de reconhecimento vocal |
US20170300618A1 (en) * | 2015-10-28 | 2017-10-19 | Michael J O'Leary | Collecting and Processing Medical Imagery |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
CN108320752B (zh) * | 2018-01-26 | 2020-12-15 | 青岛易方德物联科技有限公司 | 应用于社区门禁的云声纹识别系统及其方法 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675706A (en) | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
DE69613556T2 (de) * | 1996-04-01 | 2001-10-04 | Hewlett Packard Co | Schlüsselworterkennung |
CN1061451C (zh) * | 1996-09-26 | 2001-01-31 | 财团法人工业技术研究院 | 隐藏式马可夫模型的中文词音识别方法 |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
KR100406307B1 (ko) | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
TW517221B (en) | 2001-08-24 | 2003-01-11 | Ind Tech Res Inst | Voice recognition system |
US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
TWI223791B (en) | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
CN1262989C (zh) * | 2003-04-17 | 2006-07-05 | 财团法人工业技术研究院 | 语言验证方法及系统 |
US7720683B1 (en) | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
CN1835076B (zh) | 2006-04-07 | 2010-05-12 | 安徽中科大讯飞信息科技有限公司 | 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法 |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
TW200926142A (en) | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
WO2010086925A1 (ja) * | 2009-01-30 | 2010-08-05 | 三菱電機株式会社 | 音声認識装置 |
TWI402824B (zh) * | 2009-10-15 | 2013-07-21 | Univ Nat Cheng Kung | 中文自發性語音合成中發音變異產生之方法 |
TWI409802B (zh) * | 2010-04-14 | 2013-09-21 | Univ Da Yeh | 音頻特徵處理方法及其裝置 |
JP5672309B2 (ja) * | 2010-12-10 | 2015-02-18 | 富士通株式会社 | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム |
-
2012
- 2012-11-08 TW TW101141672A patent/TWI475558B/zh active
- 2012-12-17 US US13/717,645 patent/US8972264B2/en active Active
- 2012-12-28 CN CN201210586693.8A patent/CN103811001B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103811001B (zh) | 2016-12-28 |
US20140129224A1 (en) | 2014-05-08 |
CN103811001A (zh) | 2014-05-21 |
US8972264B2 (en) | 2015-03-03 |
TWI475558B (zh) | 2015-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
US10553218B2 (en) | Dimensionality reduction of baum-welch statistics for speaker recognition | |
US11056118B2 (en) | Speaker identification | |
CA2643481C (en) | Speaker authentication | |
KR20200012963A (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
JP2007249179A (ja) | バイオメトリック特徴の変化に基づいてバイオメトリックモデルを更新するためのシステム、方法、およびコンピュータプログラム | |
US9153235B2 (en) | Text dependent speaker recognition with long-term feature based on functional data analysis | |
US20060143010A1 (en) | Method, medium, and apparatus recognizing speech | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US20150206527A1 (en) | Feature normalization inputs to front end processing for automatic speech recognition | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
US7050973B2 (en) | Speaker recognition using dynamic time warp template spotting | |
US11081115B2 (en) | Speaker recognition | |
WO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
US7509257B2 (en) | Method and apparatus for adapting reference templates | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
EP2867890B1 (en) | Meta-data inputs to front end processing for automatic speech recognition | |
Dey et al. | Content normalization for text-dependent speaker verification | |
KR101304127B1 (ko) | 음성 신호를 이용한 화자 인식 장치 및 그 방법 | |
Murali Karthick et al. | Speaker adaptation of convolutional neural network using speaker specific subspace vectors of SGMM | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
Wang et al. | Combining MAP and MLLR approaches for SVM based speaker recognition with a multi-class MLLR technique | |
Hussain et al. | Speaker Recognition with Emotional Speech | |
JP6451171B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム |