TWI421857B - 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 - Google Patents

產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 Download PDF

Info

Publication number
TWI421857B
TWI421857B TW098145666A TW98145666A TWI421857B TW I421857 B TWI421857 B TW I421857B TW 098145666 A TW098145666 A TW 098145666A TW 98145666 A TW98145666 A TW 98145666A TW I421857 B TWI421857 B TW I421857B
Authority
TW
Taiwan
Prior art keywords
word
speech
threshold
voice
confirmation
Prior art date
Application number
TW098145666A
Other languages
English (en)
Other versions
TW201123170A (en
Inventor
Jeng Shien Lin
Sen Chia Chang
Chi Tien Chiu
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW098145666A priority Critical patent/TWI421857B/zh
Priority to US12/822,188 priority patent/US20110161084A1/en
Publication of TW201123170A publication Critical patent/TW201123170A/zh
Application granted granted Critical
Publication of TWI421857B publication Critical patent/TWI421857B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
本發明是有關於一種語音辨識系統,且特別是有關於一種適用於語音辨識系統的詞語確認臨界值產生裝置與方法。
詞語確認(或稱為詞語驗證,utterance verification)功能是語音辨識系統中不可或缺的一部份,其能夠有效的拒絕集合外詞彙(Out of vocabulary)所造成的辨識誤動作產生。而現今的詞語確認演算法在計算出一詞語確認分數後,會與一臨界值相比對,當分數超越臨界值時代表詞語確認成功,反之代表確認失敗。在實際的應用中,可藉由額外收集語料並針對預期的確認效果分析出最佳的臨界值,而大部分的解決方案也都是針對這樣的架構試圖找出最好的語詞確認效果。
例如圖1A所示,傳統的語音辨識系統包括語音辨識引擎110與語詞確認器120。在接收到語音指令輸入時,例如收到電視、電影或是音樂播放的要求,或是非語音輸入的指令,例如電燈或是遊戲的操作等等,語音辨識引擎110會根據辨識指令集112與語音模型114進行判斷。在此辨識指令集112是針對電視、電影或是音樂播放要求動作的指令進行判斷,而語音模型114則是提供針對這些動作的指令所建立的語音模型給語音辨識引擎110作為判斷的依據。而辨識的結果將輸出到語詞確認器120,經過計算後得到一個信心分數,並且將對應語音輸入的信心分數與一臨界值進行比較,如130所示的判斷步驟。當信心分數大於臨界值時,也就是語音輸入的要求是屬於辨識指令集112內的指令,則會做出對應的反應,例如輸入電視、電影或是音樂播放等等。但若是語音輸入並非屬於辨識指令集112內的指令時,例如電燈或是遊戲的操作,則不會做出對應的反應。
而臨界值的產生,請參照圖1B所示,是針對辨識指令集112內的指令,收集大量的語音資料進行分析後產生最佳的臨界值,如指令集1產生最佳臨界值1,而指令集2則是產生最佳臨界值2。而這些語音資料都是透過大量的人工輸入方式進行,因此,當辨識詞彙改變,上述工作就必須重複進行一次。而另外,當原來設定的臨界值不如預期時,另一個方式是將此臨界值讓使用者自行調整,如圖1C所示,可調高或是調低臨界值,以便找出最滿意的設定點。
上述的方式,會限制語音辨識系統的運用範圍,而使其實用度大大的降低。例如,此語音辨識系統若是運用在某些嵌入式系統當中時,例如系統單晶片(System-on-a-chip,簡稱SoC),在考慮成本的問題無法設計臨界值調整的方式,這樣的問題就必須解決。例如圖2所示,當積體電路(IC)供應商提供具有語音辨識功能的IC給系統製造商時,系統製造商將這些具有語音辨識功能的IC整合到嵌入式系統中。在這樣的架構下,除非從IC供應商進行臨界值的調整後再重新出貨給系統製造商,否則將面臨無法調整臨界值的問題。
在許多關於詞語確認系統的專利中,關於討論臨界值調整的解決方案,如以下美國專利所述。
在美國第5,675,706號專利中提出一種“Vocabulary Independent Discriminative Utterance Verification For Non-Keyword Rejection In Subword Based Speech Recognition”,在此專利中所揭露的內容中,臨界值是一個預先定義好的數值,而此數值的改變將牽扯到兩種錯誤,包括錯誤接受率(False Alarm Rate)與錯誤拒絕率(False Reject Rate)的變化,系統設計者得自行調整並從中找到權衡之處。而本案的方法是根據至少一個辨識目標與一預期詞語確認效果(如錯誤接受率或錯誤拒絕率),接著得到對應的該確認效果的臨界值,並非由使用者進行手動調整。
而另一美國第5,737,489號專利中提出一種“Discriminative Utterance Verification For Connected Digits Recognition”,進一步提到此臨界值可透過線上蒐集資料的方式動態計算出來,解決當辨識環境改變時,臨界值的設定問題。此案雖然有提到臨界值的計算方式,不過此案裡線上蒐集的方式係指在語音辨識與詞語確認系統運作當中,透過新環境的測試資料先經過語音辨識得到辨識結果,再對其分析後針對先前預設的詞語確認臨界值進行更新的動作。
綜合許多前案的說明,發現透過額外的資料蒐集與分析找到最佳的臨界值,是最常見到的作法;其次便是將臨界值開放給使用者自行調整。但上述的方法都不外乎透過新環境的測試資料先經過語音辨識得到辨識結果,再對其分析後針對先前預設的詞語確認臨界值進行更新的動作。
本發明提供一種詞語確認臨界值產生裝置,適用於一語音辨識系統。此詞語確認臨界值產生裝置包括一數值計算模組、一目標分數產生器與一臨界值決定器。此數值計算模組用以計算並儲存多個辨識目標所對應的多個數值資料。目標分數產生器至少接收其中一個辨識目標所組成的一語音單元序列,並從數值計算模組中選取此語音單元序列所對應的數值資料組成至少一數值分佈。而臨界值決定器,用以接收上述的數值分佈,並根據一預期語詞確認效果與數值分佈,產生一建議臨界值輸出。
本發明提供一種詞語確認臨界值產生方法,適用於一語音辨識系統。在此方法中,計算並儲存多個辨識目標所對應的多個數值資料。在接收至少其中一個辨識目標所組成的語音單元序列,並選取此語音單元序列所對應的數值資料組成數值分佈。根據一預期語詞確認效果與此數值分佈,產生一建議臨界值輸出。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本實施例提出一個計算詞語確認臨界值的方法,當辨識目標確定之後,即可依照預期詞語確認效果得到一建議臨界值,除此之外,無須額外收集語料或訓練模型。
請參照圖3,當辨識的目標確定為一指令集310時,透過自動分析工具320,採用全自動而非人工離線(Offline)處理的方式,根據一預設條件分析得到建議之臨界值。此實施例並非透過在新環境經過語音辨識得到辨識結果,再對其分析後針對先前預設的詞語確認,並更新臨界值。在本實施例中,在語音辨識系統開始使用前,已經經由針對特定的辨識目標進行了詞語確認的效果的調整,而可動態得到一個建議臨界值,以便輸出讓語詞確認器加以判斷,而得到確認的結果。
對於IC設計的業者來說,本實施例的方法將使語音辨識的解決方案更為完整,其下游廠商可迅速的開發出語音辨識相關產品,不必擔心收集語料的問題。這對語音辨識技術的推廣有相當大的幫助。
本實施的構想是在語音辨識與詞語確認運作之前,針對目前的辨識目標預測出詞語確認臨界值,而前案中先使用預設臨界值,其後在語音辨識系統與詞語確認模組運作當中一邊收集語料一邊更新該預設臨界值,與本案的實施過程有很大的差異。再者,本案也沒有在語音辨識與詞語確認系統運作中蒐集任何資料來進行分析,而僅使用一預先存在之語音資料,如語音辨識系統或詞語確認系統之訓練語料。本案提出的創新方法,認為詞語確認的臨界值可在辨識詞彙決定後,並在語音辨識系統或詞語確認模組運作前預先統計出來,無須額外的資料蒐集,此架構明顯與前案不同。
請參照圖4A,為說明本發明一實施例的語音辨識系統方塊示意圖。在此語音辨識系統400中,包括一語音辨識器410、一辨識目標儲存單元420、一詞語確認臨界值產生器430與一語詞確認器440。輸入的語音訊號則是傳送到語音辨識器410與詞語確認器440。而辨識目標儲存單元420則是儲存各種辨識的目標,輸出到語音辨識器410與詞語確認臨界值產生器430。
而語音辨識器410分別根據所接收的語音訊號以及辨識目標422進行判斷,而後輸出辨識結果412到詞語確認器440。同時,詞語確認臨界值產生器430也針對辨識目標422對應產生一臨界值432,並且輸出到詞語確認器440,而此詞語確認器440則可根據辨識結果412與臨界值432進行確認,以驗證辨識結果412是否正確,也就是是否高於產生的臨界值432。
本實施提出詞語確認臨界值產生器430,如圖所示,語音辨識器410的辨識目標為一組預設詞彙(如N個中文詞組),可經由辨識目標儲存單元420進行讀取。當語音訊號通過此辨識器後,接著將辨識結果送至詞語確認器440。
另一方面,將辨識目標也輸入詞語確認臨界值產生器430,並給定預期的詞語確認效果,如10%錯誤拒絕比例,可得到一建議之臨界值θ UV
在詞語確認臨界值產生器430中,在一實施範例,可採用統計學上常見的假設檢定(Hypothesis Testing)方法,來計算詞語確認分數,但不以此為限。
針對每個語音單元存在一組正向模型與一組反向模型(分別以H0、H1表示)。將辨識結果轉化為語音單元序列後,利用對應的正向模型與反向模型,對每個單元分別算出一個正向與反向確認分數,並各自加總得到正向確認分數(H0 score)與反向確認分數(H1 score),最後得到詞語確認分數(簡稱UV score),其算式如下:
最後將詞語確認分數UV score與臨界值θ UV 比較,如果UV score大於θ UV ,則表示確認成功,則將辨識結果輸出。
上述的實施例請參照圖4B,為詞語確認器440針對第一個語詞“前一項”所進行的假設檢定(Hypothesis Testing)方法說明示意圖。在從t1、t2~t8總共有八個音框段落(Frame segments)下,可分為為八個不同的假設檢定區域,而語音訊號則以強制對準(Forced Alignment)的方式對準這八個音框段落,分別切為對應聲音訊號的語音單元“sil”(代表Silence沒有聲音)、“ㄑ”、“ㄧ”、“ㄢ”、“null”、“ㄧ”、“ㄒ”、“ㄧㄤ”與“sil”。而對於每個語音單元分別算出一個正向與反向確認分數,例如圖示的H0_sil與H1_sil、H0_ㄑ與H1_ㄑ、H0_ㄧ與H1_ㄧ、H0_ㄢ與H1_ㄢ、H1_null與H1_null、H0_ㄧ與H1_ㄧ、H0_ㄒ與H1_ㄒ、H0_ㄧㄤ與H1_ㄧㄤ、H0_sil與H1_sil。
最後,各自加總得到正向確認分數(H0 score)與反向確認分數(H1 score),最後得到詞語確認分數(簡稱UV score)。
上述詞語確認臨界值產生器,在一實施例中,例如圖5所示的方塊示意圖。
此詞語確認臨界值產生器500包括一處理目標轉語音單元處理器520、目標分數產生器540與臨界值決定器550(麻煩修改圖五對應方塊名稱)。而詞語確認臨界值產生器500更包括一數值計算模組530。此數值計算模組530用以產生數值提供給目標分數產生器540。此數值計算模組530在一實施例中,可以包括一語音單元確認模組532與一語音資料庫534。此語音資料庫534用以儲存一預先存在之語料,可為內建訓練語料的資料庫,或是一儲存媒體,而由使用者輸入相關的訓練用語料。而儲存的資料,可以包括聲音原始檔或者是語音特徵參數等等。而語音單元確認模組532從語音資料庫534中計算每一語音單元的詞語確認分數,並以一個或多個數值形式提供給目標分數產生器540。
目標分數產生器540根據所接收的一語音單元序列,並從數值計算模組530接收對應此語音單元序列中每一個語音單元的一個或多個數值,組合形成對應此語音單元序列的數值分佈,提供給臨界值決定器550。
臨界值決定器550根據一預期詞語確認效果560以及所接收的語音單元序列之數值分佈,產生一建議臨界值輸出。在一實施例中,例如給定10%錯誤拒絕比。而臨界值決定器550,則是根據預期語詞確認效果所定義的條件,從數值分佈中,找出對應的一處,並將對應的數值輸出作為此建議臨界值。
此數值計算模組530係蒐集對某個語音單元所對應的多個分數樣本。例如對語音單元phoi 存有X個分數樣本,並且將其對應的數值儲存。在此仍以前述實施例所採用的假設檢定(Hypothesis Testing)方法為最佳實施例,但不以此為限。
針對語音單元phoi 而言,存在針對不同樣本(Sample)所對應的正向與反向確認分數(分別以H0score、H1score表示)。
其中H0 scorepho i,sample 1 表示為phoi 的第一個正向分數樣本,H1 scorepho i,sample 1 表示為phoi 的第一個反向分數樣本,T pho i,sample 1 表示為phoi 的第一個樣本之音框長度。
詞語確認臨界值產生器500收到辨識目標(假設W個中文單詞)後,將所有單詞經過處理目標轉語音單元處理器520的中文字轉音處理,轉換為語音單元序列(Sequence)Seqi ={pho1 ,…,phok ),其中i為第i個中文單詞,k為此中文單詞的語音單元數目。
接著將產生的語音單元序列,輸入目標分數產生器540。
在目標分數產生器540中,針對語音單元序列的內容,在數值計算模組530中,根據一挑選方式(例如隨機挑選),取出對應的正向模型與反向模型的分數,並組合為一個分數樣本X如下:
其中係指在數值計算模組530中針對第一個語音單元(pho1 )所挑出的第N個H0與H1的分數樣本。同理,H0 scorepho k ,sample M 係指在統計資料庫中針對第k個語音單元(phok )所挑出的第M個H0與H1的分數樣本。
對每個中文單詞產生P個詞語確認分數(簡稱UV score)樣本{x1 ,x2 …,xp }形成此單詞的分數樣本集合,再將所有單詞的分數樣本集中成為整體辨識目標的分數集合,並輸入臨界值決定器550。
在臨界值決定器550中,將整體辨識目標的分數集合經過直方圖(histogram)統計後,轉換為累積機率分佈,即可從中找出合適的臨界值之處θ UV 。例如,輸出對應累積機率分佈為0.1時的臨界值。
上述實施例中,數值計算模組530是此採用語音單元確認模組532與一語音資料庫534進行,此為可即時計算處理的實施範例。但上述的數值計算模組530可採用具有完成詞語確認功能的任何不同技術,皆屬於本實施例的範疇,例如在中華民國第200421261號專利公開案所提到的「詞語驗證方法及系統」所揭露的內容,或是在"Confidence measures for speech recognition:A survey"by Hui Jiang,Speech communication,2005的文獻中所提到的技術等等。在另外一實施例中,可採用語音單元分數資料庫,直接根據選擇而輸出對應的數值,但並非以此為限制。而這些儲存在語音單元分數資料庫的數值,則是經由接收一預先存在之語音資料,並且經由切音處理與語音單元分數產生器而產生對應的分數,並加以儲存在語音單元分數資料庫內。此實施例則底下說明。
請參照圖6A與6B,分別為說明數值計算模組的實施範例示意圖。圖6A為數值計算模組的實施範例的方塊示意圖,而圖6B為一產生數值的示意圖。此數值計算模組600包括切音處理器610與語音單元分數產生器620,經過處理後輸出資料到語音單元分數統計資料庫650。
上述作為訓練語料的語音資料602,可以從既有的語音資料庫中取得,例如500-People TRSC(Telephone Read Speech Corpus)語音資料庫或Shanghai Mandarin ELDA FDB 1000語音資料庫即屬於可得來源之一。
這樣的架構,即可在辨識目標確定之後,依照預期詞語確認效果得到建議臨界值,除此之外,無須額外收集語料或訓練模型。此實施例並不需要在新環境經過語音辨識得到辨識結果,再對其分析後針對先前預設的詞語確認效果更新臨界值。在本實施例中,在語音辨識系統開始使用前,已經經由針對特定的辨識目標進行了詞語確認的效果的調整,而可動態得到一個建議臨界值,以便輸出讓語詞確認器加以判斷,而得到確認的結果。對於IC設計的業者來說,本實施例的方法將使語音辨識的解決方案更為完整,其下游廠商可迅速的開發出語音辨識相關產品,不必擔心收集語料的問題。這對語音辨識技術的推廣有相當大的幫助。
在此方法中,首先,將語音資料602經過切音處理器610變成一個個語音單元。在一實施例中,使用的切音模型630與詞語確認器中用來進行強制對準(Forced Alignment)所用之模型相同。
接著,每個語音單元由語音單元分數產生器620之運算而得到對應的結果。上述的語音單元分數產生器620,其分數產生是透過一組詞語確認模型640運算所得。此詞語確認模型640與辨識系統中所用的詞語確認模型一致。語音單元分數620的組成可依語音辨識系統中所用的詞語確認方式不同而有不同的呈現方式。例如,在一實施例中,如詞語確認方式使用假設檢定(Hypothesis Testing)的方式時,語音單元分數620的組成即為一使用該語音單元所屬之正向模型對此單元所計算出的正向分數與一使用該語音單元所屬反向模型對此單元所計算出的反向分數。在不同實施例中,可將針對每個語音單元的所有語料對應段落的正向分數與反向分數,連同單元長度全部存入語音單元分數統計資料庫650中,此可稱為第一種實施型態。在另一實施例中,可將針對每個語音單元的所有語料對應段落的正向分數與反向分數,只存入這兩個分數相減除以長度以及其長度的統計值,例如平均值與變異數等等,存入語音單元分數統計資料庫650中,此為第二種實施型態。
依照詞語確認方式的不同,語音單元分數組成也可包含一使用此語音單元所屬正向模型對此語音單元所算出的正向分數,與使用此語音單元所屬正向模型在此語料庫中針對此語音單元之外的所有單元所算出的許多正向競爭分數。可針對每個單元,將所有語料對應的段落的正向分數與其所有對應的正向競爭分數,連同單元長度全部存入語音單元分數統計資料庫650中,此可稱為第三種實施型態,其中此對應的正向競爭分數可儲存全部或僅為其中之一子集合。另外,也可只儲存上述正向分數與其對應的許多正向競爭分數,經過數學運算後相減除以其長度以及此長度的統計值,如平均值與變異數等等,其中所述數學運算包括如算數平均與幾何平均等等,存入語音單元分數統計資料庫650中,此可稱為第四種實施型態。
在圖5中的目標分數產生器540的運算方法,可依照語音單元分數統計資料庫650所儲存內容的不同,而有不同的產生方式。如當語音單元分數統計資料庫650儲存的是第一或第三實施型態時,可根據語音單元序列內容在語音單元分數統計資料庫650中,透過隨機挑選組合成樣本分數,並形成此語音單元序列分數之分佈。如為第二或第四實施型態時,根據單元序列內容在語音單元分數統計資料庫650中直接透過平均值與變異數的運算組合,形成語音單元序列分數分佈之平均值與變異數。
底下就圖6B說明其中一種實施範例之運算方法。請參照圖6B,,針對語詞“前一項”所進行的假設檢定方法中,對於語音單元“ㄑ”而言,經由語音單元“ㄑ”的正向模型(H0)652與反向模型(H1)654,取得對於語音單元“ㄑ”的詞語確認分數(UV score)為
每個語音單元經過語音單元分數產生器620處理後,利用詞語確認模型640對其計算出正向(H0)與反向(H1)分數,以及連同此語音單元的長度存入語音單元分數統計資料庫650內。
請參照圖7,是說明儲存在語音單元分數統計資料庫內的資料如何運用在假設檢定方法中。如圖所示,如以語詞“前一項”的語音單元“sil”、“ㄑ”與“一”為例說明,但不以此為限。每個語音單元都有其對應的不同語音單元序列(Sequence),如語音單元“sil”所對應的第一序列到第N1序列,語音單元“ㄑ”所對應的第一序列到第N2序列,以及語音單元“一”所對應的第一序列到第N3序列。
當進行計算詞語確認分數(UV score)時,將會從對應的語音單元序列中,隨機選擇(Randomly Select)其中一個作為計算的依據,包括正向(H0)、反向(H1)分數與此語音單元的長度。最後,各自加總得到正向確認分數(H0 score)與反向確認分數(H1 score),並得到詞語確認分數(簡稱UV score)。
接著,底下將舉幾個實際驗證例說明。
使用現有的語音資料庫進行驗證,在此以500-People TRSC(Telephone Read Speech Corpus)語音資料庫為例。從這個TRSC資料庫中抽出9006句,當作切音模型及詞語確認模型(請參照圖6A中的詞語確認模型640與切音模型630)的訓練語句。使用如圖6A的實施例流程做切音處理與語音單元分數產生(請參照圖6A中的切音處理器610與語音單元分數產生器620處理的操作),最後產生語音單元分數資料庫。
模擬測試語音資料,使用Shanghai Mandarin ELDA FDB 1000語音資料庫,共取出三組測試詞彙組。
詞彙組(1)內容為「前一項、訊息盒、接線員、應答設備、緊急電話」五個單詞,共有4865句;詞彙組(2)內容為「井號、內部、外部、打電話、目錄、列表」六個單詞,共有5235句;詞彙組(3)內容為「向前、回電、刪除、改變、取消、服務」六個單詞,共有5755句。
三組詞彙組分別依例如圖5所示的詞語確認臨界值產生器進行操作。經由處理目標轉語音單元處理器520與目標分數產生器540,配合數值計算模組530,最後經臨界值決定器550將找到的臨界值輸出。
最後的結果可參照圖8A到8E圖示。在圖8A中,可以瞭解根據預期語詞確認效果的要求,而得到不同的臨界值,並且具有不同的錯誤拒絕率(False Rejection Rate)與錯誤接受率(False Alarm Rate)。測試集合內詞彙的詞語確認分數分佈如圖示中的標號810所標示的結果,其可以測試語料所分析得之。為了說明,在此採用第二套測試語料來分析集合外詞彙的詞語確認分數分佈,如圖示中的標號820所標示的結果,其中第二套測試語料之辨識詞彙與第一套並無重複。例如圖示中的臨界值在0.0時,錯誤拒絕率為2%,而錯誤接受率則為0.2%。另外,臨界值在4.1時,錯誤拒絕率為10%,而錯誤接受率則為0%。從圖示中可以知道,可根據集合內詞彙的詞語確認分數分佈810,在橫軸上選擇一個數值當作確認分數的臨界值,並獲得相對應的錯誤拒絕與錯誤接受率。事實上,由本方法即可產生模擬的集合內詞彙的詞語確認分數分佈,經由直方圖統計再轉為累積機率分部後,便能從中找出合適的詞語確認分數臨界值,而其對應的累積機率值乘以100%即為錯誤拒絕比例(%)。
圖8B中,標號830所標示的實線,為對於詞彙1使用實際測試語料經過辨識器與詞語確認器統計出之詞語確認分數分佈,而標號840所標示的虛線,則是表示使用測試語料集合外之語料(如前述之TRSC)並經過本方法所模擬出之詞語確認分數分佈。圖8C中的標號832所標示的實線,為表示對於詞彙2使用實際測試語料經過辨識器與詞語確認器統計出之詞語確認分數分佈,而標號842所標示的虛線,則是表示使用測試語料集合外之語料(如前述之TRSC)並經過本方法所模擬出之詞語確認分數分佈。圖8D中標號834所標示的實線,為表示對於詞彙3使用實際測試語料經過辨識器與詞語確認器統計出之詞語確認分數分佈,而標號844所標示的虛線,則是表示使用測試語料集合外之語料(如前述之TRSC)並經過本方法所模擬出之詞語確認分數分佈。
將上述不同的標號830、832、834及840、842、844所得到的結果分別轉換為累積機率統計分佈後,針對詞語確認分數與錯誤拒絕比例可轉換為三組不同操作性能曲線,如圖8E所示。橫軸為詞語確認分數(UV score)值,而縱軸為錯誤拒絕率(如圖中的FR%)。從圖中可看出此三組詞彙組實施後的效能,其中實線為實際資料所描繪的分佈,虛線為模擬所描繪的分佈。由圖8E可以得知,在錯誤拒絕率為0%~20%時,各組詞彙組模擬曲線與實際曲線的誤差小於6%,已在實用可接受的範圍之內。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾。
如:本發明亦可單獨與詞語確認器結合使用,如圖9所示,說明本發明另一實施例的語音辨識系統方塊示意圖。在此語音辨識系統中,詞語確認臨界值產生器910接收一詞語確認目標後產生一建議臨界值912至詞語確認器920。一語音訊號即可輸入此詞語確認器920,並針對此確認目標進行詞語確認動作而得到確認結果輸出。
綜合上述可能實施方式,我們將辨識目標或詞語確認目標統稱為處理目標,本發明提出之詞語確認臨界值產生器接收一個或多個該處理目標,並輸出對應該或該些處理目標的建議臨界值。
故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
110‧‧‧語音辨識引擎
120‧‧‧詞語確認器
112‧‧‧辨識指令集
114‧‧‧語音模型
310‧‧‧指令集
320‧‧‧自動分析工具
400‧‧‧語音辨識系統
410‧‧‧語音辨識器
420‧‧‧辨識目標儲存單元
430‧‧‧語詞確認臨界值產生器
440‧‧‧語詞確認器
510‧‧‧辨識目標
520‧‧‧字轉音處理器
530‧‧‧數值計算模組
540‧‧‧目標分數產生器
550‧‧‧臨界值決定器
560‧‧‧預期語詞確認效果
600‧‧‧數值計算模組
602‧‧‧語音資料
610‧‧‧切音處理器
620‧‧‧語音單元分數產生器
630‧‧‧切音模型
640‧‧‧詞語確認模型
650‧‧‧語音單元分數統計資料庫
652‧‧‧語音單元“ㄑ”的正向模型(H0)
654‧‧‧語音單元“ㄑ”的反向模型(H0)
910‧‧‧詞語確認臨 界值產生器
920‧‧‧詞語確認器
圖1A是說明傳統語音辨識系統的系統架構示意圖。
圖1B與1C為說明圖1A的語音辨識系統中臨界值的產生或調整方法示意圖。
圖2是說明具有語音辨識功能的IC的從製造商到系統整合業者的處理流程示意簡圖。
圖3是說明本實施例所提出自動計算詞語確認臨界值的方法示意圖。
圖4A是說明本發明一實施例的語音辨識系統方塊示意圖。
圖4B是詞語確認器針對語詞所進行的假設檢定方法說明示意圖。
圖5是說明本發明一實施例的詞語確認臨界值產生器之方塊示意圖。
圖6A是說明本發明一實施例的數值計算模組的實施範例的方塊示意圖,而圖6B為一產生數值的示意圖。圖7是說明儲存在語音單元分數統計資料庫內的資料如何運用在假設檢定方法之示意圖。
圖8A~8E圖示是說明本實施例所提出自動計算詞語確認臨界值方法之驗證圖示。
圖9是說明本發明另一實施例的語音辨識系統方塊示意圖。
510‧‧‧辨識目標
520‧‧‧字轉音處理器
530‧‧‧數值計算模組
540‧‧‧目標分數產生器
550‧‧‧臨界值決定器
560‧‧‧預期語詞確認效果

Claims (18)

  1. 一種產生詞語確認臨界值的裝置,該裝置包括:一數值計算模組,用以計算產生至少一個語音單元所對應的一個或多個數值資料;一目標分數產生器,接收至少一語音單元序列,並從該數值計算模組中,取出該至少一語音單元序列中每一該至少一語音單元所對應的該或該些數值資料,並且據以組合成該至少一語音單元序列所對應的一個或多個數值分佈;以及一臨界值決定器,連接到該目標分數產生器,用以接收該或該些數值分佈,並根據一預期語詞確認效果與該或該些數值分佈,產生一建議臨界值輸出。
  2. 如申請專利範圍第1項所述之產生詞語確認臨界值的裝置,其中更包括一處理目標轉語音單元處理器,用以接收處理目標,並將該處理目標轉為該至少一語音單元序列輸出到該目標分數產生器。
  3. 如申請專利範圍第1項所述之產生詞語確認臨界值的裝置,其中該目標分數產生器以線性組合的方式將該至少一語音單元序列中每一該至少一語音單元所對應的該或該些數值資料,組合成為該至少一語音單元序列所對應的該或該些數值分佈。
  4. 如申請專利範圍第1項所述之產生詞語確認臨界值的裝置,其中該臨界值決定器根據該預期語詞確認效果的一輸入條件,對應到該或該些數值分佈之一對應值,則該 對應值則為輸出的該建議臨界值。
  5. 如申請專利範圍第4項所述之產生詞語確認臨界值的裝置,其中該預期語詞確認效果的一輸入條件為錯誤拒絕率。
  6. 如申請專利範圍第1項所述之產生詞語確認臨界值的裝置,其中該數值計算模組包括:一語音資料庫,用以儲存該至少一個語音單元所對應的一筆或多筆語音資料;一語音單元確認模組,接收該語音資料庫中的該或該些語音資料,並計算該至少一語音單元所對應的一個或多個語詞確認分數,並以數值資料形式提供給該目標分數產生器。
  7. 如申請專利範圍第6項所述之產生詞語確認臨界值的裝置,其中該語音資料庫所儲存的該些語音資料的形式包括聲音原始檔或語音特徵參數其中之一,或聲音原始檔及語音特徵參數兩者。
  8. 一種產生詞語確認臨界值的方法,該方法包括:計算至少一個語音單元所對應的一個或多個數值資料;接收至少一語音單元序列,並接收該至少一語音單元序列中每一該至少一語音單元所對應的該或該些數值資料,並且據以組合成該至少一語音單元序列所對應的一個或多個數值分佈;以及根據一預期語詞確認效果與該或該些數值分佈,產生 一建議臨界值輸出。
  9. 如申請專利範圍第8項所述之產生詞語確認臨界值的方法,其中更包括將處理目標轉為該至少一語音單元序列,以便據以做為選取該至少一語音單元序列所對應的該些數值資料,而組成該或該些數值分佈。
  10. 如申請專利範圍第8項所述之產生詞語確認臨界值的方法,其中當接收到該至少一語音單元序列後,利用線性組合的方式將對應該至少一語音單元序列中每一該至少一語音單元的一個或多個數值組合成對應該至少一語音單元序列的該或該些數值分佈。
  11. 如申請專利範圍第8項所述之產生詞語確認臨界值的方法,其中根據該預期語詞確認效果的一輸入條件,對應到該或該些數值分佈之一對應值,則該對應值則為輸出的該建議臨界值。
  12. 如申請專利範圍第11項所述之產生詞語確認臨界值的方法,其中該預期語詞確認效果的一輸入條件為錯誤拒絕率。
  13. 如申請專利範圍第8項所述之產生詞語確認臨界值的方法,其中計算該至少一語音單元所對應的一個或多個數值資料的步驟,包括:計算儲存在一語音資料庫的該至少一語音單元的語音資料,產生每一該該至少一語音單元的詞語確認分數,並以一個或多個數值形式提供該些數值資料。
  14. 如申請專利範圍第13項所述之產生詞語確認臨界 值的方法,其中在該語音資料庫所儲存的該些語音資料的形式包括聲音原始檔或語音特徵參數其中之一,或聲音原始檔及語音特徵參數兩者。
  15. 一種語音辨識系統,包括如申請專利範圍第1項所述之一詞語確認臨界值產生器,用以產生一建議臨界值,而據以讓該語音辨識系統進行確認,並據以輸出確認結果。
  16. 如申請專利範圍第15項所述之語音辨識系統,更包括一語音辨識器,用以接收一語音訊號;一處理目標儲存單元,儲存多個處理目標,其中,該語音辨識器讀取該些處理目標,並根據該語音訊號與讀取的該些處理目標進行判斷,而後輸出一辨識結果;以及一詞語確認器,用以接收該辨識結果與該建議臨界值進行確認,並據以輸出確認結果。
  17. 一種詞語確認系統,包括如申請專利範圍第1項所述之一詞語確認臨界值產生器,用以產生一建議臨界值,而據以讓該詞語確認系統進行確認,並據以輸出確認結果。
  18. 如申請專利範圍第17項所述之詞語確認系統,更包括一處理目標儲存單元,儲存一個處理目標;以及一詞語確認器,用以接收一語音訊號,並讀取該處理目標,並根據該語音訊號與讀取的該處理目標進行比對後,與該建議臨界值進行確認,並據以輸出確認結果。
TW098145666A 2009-12-29 2009-12-29 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統 TWI421857B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW098145666A TWI421857B (zh) 2009-12-29 2009-12-29 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US12/822,188 US20110161084A1 (en) 2009-12-29 2010-06-24 Apparatus, method and system for generating threshold for utterance verification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW098145666A TWI421857B (zh) 2009-12-29 2009-12-29 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統

Publications (2)

Publication Number Publication Date
TW201123170A TW201123170A (en) 2011-07-01
TWI421857B true TWI421857B (zh) 2014-01-01

Family

ID=44188570

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098145666A TWI421857B (zh) 2009-12-29 2009-12-29 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統

Country Status (2)

Country Link
US (1) US20110161084A1 (zh)
TW (1) TWI421857B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
JP5814700B2 (ja) 2011-08-25 2015-11-17 キヤノン株式会社 画像処理システム及び画像処理方法
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
CN111357015B (zh) * 2019-12-31 2023-05-02 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
CN111415684B (zh) * 2020-03-18 2023-12-22 歌尔微电子股份有限公司 语音模组的测试方法、装置及计算机可读存储介质
CN112581981B (zh) * 2020-11-04 2023-11-03 北京百度网讯科技有限公司 人机交互方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138265A1 (en) * 2000-05-02 2002-09-26 Daniell Stevens Error correction in speech recognition
WO2005034082A1 (en) * 2003-09-29 2005-04-14 Motorola, Inc. Method for synthesizing speech
TWI281657B (en) * 2003-10-23 2007-05-21 Nokia Corp Method and system for speech coding
TWI286738B (en) * 2001-12-14 2007-09-11 Qualcomm Inc Voice recognition system method and apparatus
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
TWI299854B (en) * 2006-10-12 2008-08-11 Inventec Besta Co Ltd Lexicon database implementation method for audio recognition system and search/match method thereof
TWI308740B (en) * 2007-01-23 2009-04-11 Ind Tech Res Inst Method of a voice signal processing
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US20090182559A1 (en) * 2007-10-08 2009-07-16 Franz Gerl Context sensitive multi-stage speech recognition

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US20080154601A1 (en) * 2004-09-29 2008-06-26 Microsoft Corporation Method and system for providing menu and other services for an information processing system using a telephone or other audio interface
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20060222210A1 (en) * 2005-03-31 2006-10-05 Hitachi, Ltd. System, method and computer program product for determining whether to accept a subject for enrollment
GB2426368A (en) * 2005-05-21 2006-11-22 Ibm Using input signal quality in speeech recognition
US20070219792A1 (en) * 2006-03-20 2007-09-20 Nu Echo Inc. Method and system for user authentication based on speech recognition and knowledge questions
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
WO2008022157A2 (en) * 2006-08-15 2008-02-21 Vxv Solutions, Inc. Adaptive tuning of biometric engines
US20090063148A1 (en) * 2007-03-01 2009-03-05 Christopher Nelson Straut Calibration of word spots system, method, and computer program product
US8024188B2 (en) * 2007-08-24 2011-09-20 Robert Bosch Gmbh Method and system of optimal selection strategy for statistical classifications
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
US8266078B2 (en) * 2009-02-06 2012-09-11 Microsoft Corporation Platform for learning based recognition research
US8374868B2 (en) * 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138265A1 (en) * 2000-05-02 2002-09-26 Daniell Stevens Error correction in speech recognition
TWI286738B (en) * 2001-12-14 2007-09-11 Qualcomm Inc Voice recognition system method and apparatus
WO2005034082A1 (en) * 2003-09-29 2005-04-14 Motorola, Inc. Method for synthesizing speech
TWI281657B (en) * 2003-10-23 2007-05-21 Nokia Corp Method and system for speech coding
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
WO2007118020A2 (en) * 2006-04-07 2007-10-18 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
TWI299854B (en) * 2006-10-12 2008-08-11 Inventec Besta Co Ltd Lexicon database implementation method for audio recognition system and search/match method thereof
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
TWI308740B (en) * 2007-01-23 2009-04-11 Ind Tech Res Inst Method of a voice signal processing
US20090182559A1 (en) * 2007-10-08 2009-07-16 Franz Gerl Context sensitive multi-stage speech recognition

Also Published As

Publication number Publication date
US20110161084A1 (en) 2011-06-30
TW201123170A (en) 2011-07-01

Similar Documents

Publication Publication Date Title
TWI421857B (zh) 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
TWI466101B (zh) 語音識別方法及系統
KR101262812B1 (ko) 음성 인식 에러 예측자로서의 문법 적합성 평가를 위한 방법들 및 시스템
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
CN106611604B (zh) 一种基于深度神经网络的自动语音叠音检测方法
WO2008033095A1 (en) Apparatus and method for speech utterance verification
CN111429912B (zh) 关键词检测方法、系统、移动终端及存储介质
KR20070060581A (ko) 화자적응 방법 및 장치
Takamichi et al. JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP2015049254A (ja) 音声データ認識システム及び音声データ認識方法
US20110218802A1 (en) Continuous Speech Recognition
US20090037176A1 (en) Control and configuration of a speech recognizer by wordspotting
US9922643B2 (en) User-aided adaptation of a phonetic dictionary
CN113299278B (zh) 一种声学模型性能评估的方法、装置和电子设备
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
CN111199750B (zh) 一种发音评测方法、装置、电子设备及存储介质
US20130268271A1 (en) Speech recognition system, speech recognition method, and speech recognition program
JP2013214016A (ja) 音響モデル性能評価装置とその方法とプログラム
Han et al. Phone mismatch penalty matrices for two-stage keyword spotting via multi-pass phone recognizer.
CA2896801C (en) False alarm reduction in speech recognition systems using contextual information
EP1688914A1 (en) Method and apparatus relating to searching of spoken audio data
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置