TW577043B

TW577043B - Voice recognition system using implicit speaker adaptation

Info

Publication number: TW577043B
Application number: TW091105907A
Authority: TW
Inventors: Narendranath Malayath; Chienchung Chang; Ning Bi; Andrew P Dejaco; Suhail Jalil
Original assignee: Qualcomm Inc
Priority date: 2001-03-28
Filing date: 2002-03-26
Publication date: 2004-02-21
Also published as: EP1850324B1; DK1374223T3; EP1628289A3; KR20070106809A; US20020143540A1; CN1531722B; KR100933109B1; KR100933108B1; HK1117260A1; KR20090106628A; JP4546555B2; DE60222249T2; JP2008077099A; AU2002255863A1; KR100933107B1; ATE525719T1; JP4546512B2; EP1850324A1; KR20090106630A; ATE372573T1

Description

577043 A7 __ B7____ 五、發明説明（1 ) 背景發明領域本發明是有關於語音訊號處理。更特別是，本發明是有關於經由未監督訓練（unsupervised training)而達成改善效能之新的聲音辨識方法及裝置。發明背景聲音辨識為賦予機器模擬智慧之最重要的技術之一，以辨識使用者的聲音命令及使人機介面更加便利。使用恢復來自聲學語音訊號之語言訊息的技術之系統稱為聲音辨識 (voice recognition，簡稱VR)系統。圖1顯示的是具有預先強調（preemphasis)滤波器 102、聲學特徵選取（acoustic feature extraction，簡稱AFE)單元104、以及樣本匹配引擎110之基本的VR系統。AFE單元104會將一連串的數位聲音樣本轉換成稱為聲學特徵向量之一組測量值（例如，選取的頻率元件 )。樣本匹配引擎110會使一連事的聲學特徵向量與VR聲學模型112中所包含的樣板匹配。VR樣本匹配引擎通常會使用動態時間歪曲（Dynamic Time Warping，簡稱DTW)或隱藏式馬克沃夫模型（Hidden Markov Model，簡稱HMM)技術。 DTW及HMM為此技術中所熟知的，並且詳細說明於1993年，由 Prentice Hall所出版之 Rabiner，L. R.及 Juang，Β· H.的「語音辨識基礎」（FUNDAMENTALS OF SPEECH RECOGNITION) 。當一連串的聲學特徵匹配於聲學模型112中的樣板時，識別的樣板會用來使輸出產生所希望的格式，如相對應於輸入語音之一語音談話的識別序列。 -5 - 本紙張尺度適用中國國家揉準(CNS) A4規格(210 X 297公釐)

訂

k 577043 A7 ________ B7 五、發明説明（2 1 如以上所楗到的，聲學模型U2通常為模型或DTW 模土 DTW聲學模型可視為相關於需要辨識的每一段談話之隸的資料庫。一般而言，DTW樣板包含一序列的特徵向量其已於相關談話的許多樣本上平均化。DTW樣本匹配通常需要找出-種儲存的樣板，其到表示輸入語音的輸入特欲向I序列义距離最小。基於聲學模型之用於中的樣板包s相關語音語調的詳細統計說明。一般而言， HMM樣板會儲存一序列的平均向量、變異向量及一組轉變機率。這些參數係用來說明語音單元的統計結果，並且會從語音單元的許多樣本中評估出這些參數。hmm樣本匹配通常需要產生模型中之每-種樣板的機率，其基於相關於輸入語音之一系列的輸入特徵向量。具有最高機率的樣板會選擇用來當作最適當的輸入語調。「訓練」係有關於採集一個或更多說話者之特定語音片段或音節的語音樣本之過程，以產生聲學模型112中的樣板。聲學模型中的每一種樣板係相關於特定的談話或稱為聲階（utterance class)的語音片段。在聲學模型中，可能有多種樣板相關於相同的聲階。「測試」係有關於使聲學模型中的樣板與自輸入語音選取的一序列特徵向量匹配之程序。已知系統的效能係大大地取決於末端使用者的輸入語音與資料庫的内容之間的匹配程度，因此會使經由訓練所^生的參考樣板與用於VR測試的語音樣本匹配。訓練之兩種一般的形式為監督訓練（supervised的比比幻及未監督訓練。在監督訓練中，相關於每組訓練特徵向量的 -6- 577043

聲階已知為先驗，提供輸人語音的說話者時常會提供對應於預定聲階之談話或語音片段的腳本。然而產生的特徵向量會併人相關於正確聲階的聲學之中。在未監督訓練中’相關於—組训練特徵向量的聲階不是已知為j驗。在一組訓練特徵向量可併入正確的聲學模担樣板之前’必須正確地識別出聲階。在未監督.丨練巾，: ㈣練特徵向量之聲階的識別錯誤，會導致在錯誤的聲學模型樣板中做修飾.這樣的錯誤通常會降低，而不是提昇聲音辨識效能。為了避免這樣的錯誤，基於未監督訓練之聲學模型的任何修飾通常必須非常謹慎地施行。一旦相當確信已正確識別聲階，一組訓練特徵向量會併入聲學模= 。這種必要的謹慎會使得經由未監督訓練而建造sd聲學^ 型的過程非常緩慢。直到以此方式建造出SD聲學模型，大部分的使用者可能不會接受這樣的VR效能。最佳而言，在訓練及測試期間，末端使用者會提供語音聲學特徵向量，以致於聲學模型112會與末端使用者的語音非常匹配。適合單一說話者之個別的聲學模型也稱為說話者相依（speaker dependent，簡稱SD)聲學模型。產生SD聲學模型通常會要求末端使用者提供大量的監督訓練樣本。首先’使用者必須提供很多不同聲階的訓練樣本。再者，為了達成最佳的效能，末端使用者必須提供用於每種聲階之代表不同可能的聲音環境之多種樣板。因為大部分的使用者不此或不願意提供必要的輸入語音來產生SD聲學模刑，本紙張尺度適用中國國家標準(CNS) A4規格(21〇x 297公釐)

装訂

577043 A7 B7 五、發明説明（4 )

所以會訓練取代一般使用的聲學模型之許多存在的VR系統，使用許多「典型」說話者的語音。這樣的聲學模型稱為說話者獨立（speaker independent，簡稱SI)聲學模型，並且設計成對於廣泛範圍的使用者都具有最佳的效能。然而，SI 聲學模型對於任意單一的使用者不會最佳化。使用SI聲學模型的VR系統與使用適合於使用者之SD聲學模型的VR系統一樣’對於特定使用者的執行都不佳。對於一些使用者而言，如具有濃厚外國口音的使用者，使用SI聲學模型的 VR系統之效能很差，以致於其一點也不能有效地使用VR的月良務。最佳而言，對於每一個個別的使用者會產生一種SD聲學模型。如上所討論，使用監督訓練所建造的SD聲學模型是不切實際的。但是使用未監督訓練來產生SD聲學模型會花長的時間，在此期間，基於部分SD聲學模型的VR效能會非常差。在使用未監督訓練來產生SD聲學模型之前及期間，使VR系統的技術執行的相當好是需要的。發明概要在此所揭露的方法及裝置係針對使用說話者獨立（SI)及說話者相依（SD)聲學模型的結合之創新的及改善的聲音辨識（VR)系統。使用至少一種SI聲學模型與至少一種SD聲學模型結合，以提供一種層級的語音辨識效能，其至少與純

粹的SI聲學模型之語音辨識效能相同。所揭露的混合SI/SD VR系統係連續使用未監督訓練，以更新一種或更多種SD聲學模型中的聲學樣板。然後，混合VR系統會使用更新過的 -8 - 本紙張尺度適用中國國家橾準(CNS) A4規格(210 X 297公釐) 577043 A7 B7 _ 五、發明説明（5 ) SD聲學模型，單獨或結合至少一種SI聲學模型，用以在VR 測試期間，提供改善的VR效能。在此使用字「示範性（exemplary)」，以表示「用來當作一種範例（example)、例子（instance)或實例（illustration)」。敘述為一「示範性具體實施例」之任何的具體實施例對於另一具體實施例，不需要視為較佳或有助益的。圖式簡單說明從下文中參考附圖解說的詳細說明，將可更明白本發明的特徵、目的及優點，整份圖式中相同的參考文字視為對應的相同事物，其中：圖1顯示的是基本的聲音辨識系統；圖2顯示的是根據一示範性具體實施例之聲音辨識系統；圖3顯示的是執行未監督訓練的方法。圖4顯示的是產生用於未監督訓練的結合匹配分數之一示範性方法。圖5顯示的是執行使用說話者獨立（SI)及說話者相依（SD) 匹配分數的聲音辨識（測試）之流程圖；圖6顯示的是從說話者獨立（SI)及說話者相依（SD)匹配分數中產生結合匹配分數的一種方法；以及發明詳細說明圖2顯示的是如可於無線遠端台202中實施的混合聲音辨識（VR)系統之一示範性具體實施例。在一示範性具體實施例中，無線遠端台202係經由無線頻道（圖中未顯示）而與無線通訊網路（圖中未顯示）做通訊。例如，遠端台202可以是 -9 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐.)

裝訂

577043 A7 B7 五、發明説明（6 ) 與無線電話系統通訊的無線電話。熟習此項技術者將會了解到，在此所敘述的技術可同樣應用於固定（不可攜帶）或不需要無線頻道的VR系統。在所顯示的具體實施例中，來自使用者的聲音訊號會轉換成麥克風（microphone，簡稱MIC)210中的電子訊號，並且會轉換成類比至數位轉換器（analog-to-digital converter，簡稱ADC) 212中的數位語音樣本。然後，數位樣本流會使用預先強調（preemphasis，簡稱PE)滤波器214〉慮波，例如有限脈衝響應（finite impulse response，簡稱FIR);慮波器會使低頻訊號成份哀減。然後，濾波過的樣本會於聲學特徵選取（acoustic feature extraction，簡稱AFE)單元216中做分析。AFE單元216會將數位聲音樣本轉換成聲學特徵向量。在一示範性具體實施例中，AFE單元216會於連續數位樣本的片段上，執行傅立葉轉換，以產生對應於不同頻率儲存格（bin)之訊號強度的向量。在一示範性具體實施例中，頻率儲存格具有根據聲響比例（bark scale)之變化的頻寬。在聲響比例中，每個頻率儲存格的頻寬會與此儲存格的中心頻率產生關聯，致使較高頻率儲存格具有比較低頻率儲存格更寬的頻帶。聲響比例係敘述於1993年，由Prentice Hall所出版之Rabiner，L.R.及 Juang，B.H.的「語音辨識基礎」之中，並且為此技術中所熟知0 在一示範性具體實施例中，每個聲學特徵向量係選自於固定時間區間所採集之一連串的語音樣本。在一示範性具 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）裝訂

k 577043 A7 B7 五、發明説明（7 ) 體貧施例中’這些時間區間會重叠。例如，聲學特徵可以從每10毫秒開始之語音資料的20毫秒區間中得到，以致於每二個連續區間會共有一個1 〇亳秒片段。熟習此項技術者將會了解到的是’時間區間可取代為非重疊或具有非固定持續時間，而不達反在此所敘述之具體實施例的範圍。藉由AFE單元216所產生的聲學特徵向量會送到vr引擎 220，其會執行樣本匹配，以使基於一種或更多種聲學模型 230、232、以及234的内容之聲學特徵向量特徵化。在圖2之示範性具體實施例中，三種聲學模型係顯示為 :說話者相依（SI)隱藏式馬克沃夫模型（HMM)模型230、說話者獨互動態時間歪曲（DTW)模型232、以及說話者相依 (SD)聲學模型234。熟習此項技術者將會了解到的是，31聲學模型的不同結合可用於另一種具體實施例中。例如，遠端台202可能只包括SIHMM聲學模型230及SD聲學模型234 , 而忽略SIDTW聲學模型232。另一種為，遠端台202可能包括單一 SIHMM聲學模型230、SD聲學模型234及兩種不同的 SIDTW聲學模型232。除此之外，熟習此項技術者將會了解到的是’ SD聲學模型234可能為HMM型式或DTW型式或這兩種的結合。在一示範性具體實施例中，SD聲學模型234為 DTW聲學模型。如上所述，VR引擎220係執行樣本匹配，以決定聲學特徵向量與一種或更多種聲學模型230、232、以及234的内容之間的匹配程度。在一示範性具體實施例中，VR引擎220 會產生基於聲學特徵向量與在聲學模型230、232、以及234 -11 - 本紙伕尺度適用中國國家操準(CNS) A4規格(210X297公釐) 577043 A7 B7 五、發明説明（8 ) 之每一種中的不同聲學樣板匹配的匹配分數。例如，VR引擎220會產生基於一組聲學特徵向量與在SIHMM聲學模型 230中的多種HMM樣板匹配的HMM匹配分數。同樣地，VR 引擎220會產生基於聲學特徵向量與在SIDTW聲學模型232中的多種DTW樣板匹配的DTW匹配分數。VR引擎220會產生基於聲學特徵向量與在SD聲學模型234中的樣板匹配的匹配分數。如上所述，在聲學模型中的每一種樣板係相關於聲階。在一示範性具體實施例中，VR引擎220會將相關於相同聲階的樣板之分數結合，以產生結合的匹配分數，其係用於未監督訓練中。例如，VR引擎220會結合從互相關聯的一輸入組之聲學特徵向量獲得之SIHMM及SIDTW分數，以產生結合的SI分數。基於結合的匹配分數，VR引擎220會決定是否將輸入組之聲學特徵向量儲存為SD聲學模型234中的 SD樣板。在一示範性具體實施例中，執行更新SD聲學模型 234的未監督訓練係使用獨有的SI匹配分數。這樣可避免可能在其他方面，起因於將推斷出的SD聲學模型234來用於本身的未監督訓練所產生的附加錯誤。執行此未監督訓練的一種示範性方法詳細說明如下。除了未監督訓練之外，在測試期間，VR引擎220會使用各種不同的聲學模型（230，232，234)。在一示範性具體實施例中，VR引擎220會從聲學模型（ 230，232，234)中得到匹配分數，並且會產生用於每種聲階之結合的匹配分數。結合的匹配分數會用來選擇與輸入語音最佳匹配之聲階。 -12- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）

訂

線 577043 A7 B7 五、發明説明（9 ) 當需要辨識整個談話或詞組時，VR引擎220會把連續的聲階聚集在一起。然後，VR引擎220會提供關於辨識過的談話或詞組之資訊到控制處理器222，其使用此資訊來決定語音資訊或命令之合適的回應。例如，回應於辨識過的談話或詞組，控制處理器222會經由顯示器或其他的使用者介面而提供回授給使用者。在另一個例子中，控制處理器222會經由無線數據機（modem) 218及天線224而傳送訊息至無線網路（圖中未顯示），開始打行動電話到相關於已說出名字且已完全辨識的個人之目的地電話號碼。無線數據機218可以經由包括CDMA、TDMA、或FDM A 之多種的無線頻道型式的任何一種來傳送訊號。除此之外，無線數據機218可以不達反已敘述的具體實施例之範圍之能於非無線頻道上傳輸的通訊介面型式取代。例如，遠端台202可經由包括地線（land-line)數據機、T1/E1、ISDN、DSL 、乙太網路，或甚至印刷電路板（printed circuit board，簡稱 PCB)上的走線（trace)之多種型式的通訊頻道之任何一種來傳送訊號資訊。圖3顯示的是執行未監督訓練之一示範性方法的流程圖。在步驟302，類比語音資料會於類比至數位轉換器（ADC) 中取樣（圖2中的212)。然後，數位樣本流在步驟304，會使用預先強調（PE)濾波器（圖2中的214)來濾波。在步驟306，在聲學特徵選取（AFE)單元（圖2中的216)中，會從濾波過的樣本中選取聲學特徵向量。VR引擎（圖2中的220)會接收來自AFE單元216的輸入聲學特徵向量，並且會對SI聲學模型 -13- 本紙張尺度逋用中國國家搮準(CNS) A4規格(210X297公釐）

裝訂

k 577043 A7 _ _ B7 五、發明説明（10 ) (圖2中的230及232)的内容執行輸入聲學特徵向量的樣本匹配。在步驟308，VR引擎220會從樣本匹配的結果中產生匹配分數。VR引擎220會藉由匹配具有SIHMM聲學模型230的輸入聲學特徵向量而產生SIHMM匹配分數，並且會藉由匹配具有SIDTW聲學模型232的輸入聲學特徵向量而產生 SIDTW匹配分數。在SIHMM及SIDTW聲學模型（230及232)中的每種聲學樣板係與特定的聲階相關。在步驟310，會結合 SIHMM及SIDTW分數，以組成結合匹配分數。圖4顯示的是產生用於未監督訓練的結合匹配分數。在所顯示之示範性具體實施例中，用於特定聲階的說話者獨立結合匹配分數SC0MB__SI為根據如所顯示的EQN.1之權重和，其中： SIHMMT為用於目標聲階的SIHMM匹配分數； SIHMMnt為用於相關於非目標聲階（為目標聲階之外的一種聲階）之SIHMM聲學模型中的樣板之下一個最佳匹配分數； SIHMMG為用於「無用（garbage)」聲階的SIHMM匹配分數； SIDTWt為用於目標聲階的SIDTW匹配分數； SIDTWnt為用於相關於非目標聲階之SIDTW聲學模型中的樣板之下一個最佳匹配分數；以及 SIDTWg為用於「無用」聲階的SIDTW匹配分數。各種不同的個別匹配分數SIHMMn& SIDTWn可視為表示出一連串的輸入聲學特徵向量與聲學模型中的樣板之間的距離值。在輸入聲學特徵向量與樣板之間的距離愈大，匹配 -14- 紙伕尺度適用中國國家棣準(CNS) A4規格(210 X 297公釐) ~ 裝訂

五、

發明説明（W 分數愈大。在樣板與輸人聲學特產生非常低的匹配分數“ I《間的匹配會量與相關於不同聲階的/將一連宰的輸入聲學特徵向個匹配分數，二:Γ板比較而產生幾乎相同的兩階。 JVR系統會不能辨識哪—個為「正確」聲 SIHMMg及 SIDTWg為用於「如奶认A m # 、 ”、、用」采隖的Sl〇TW匹配分數。相關於然用聲階的樣板有對應於特定的雙…，，為，用樣板’並且沒 H…組。由於這個原因，其與全部的輸入語音同樣沒有關 ^ ^ 1 外。拌用匹配分數可用來當作VR系統 :的一種雜訊層測量。-般而言，在聲階可確信地辨識之則’一連串的輸入聲學特徵向量與相關於目標聲階的樣板〈匹配應該比相關於無用樣板的匹配具有更佳的程度。 *在VR系統可確信，識聲階為「正確」聲階之前，輸入聲學特徵向量與相關於此聲階的樣板之匹配，應該比相關於無用樣板或相關於其他聲階的樣板之匹配具有更高的程度。從多種聲學模型中產生的結合匹配分數比只基於一種聲學模型的匹配分數可在聲階之間’做更確信的辨識。在一·^ $(L性具體實施例中，VR#、統係使用這樣的結合匹配分數，以決定是否取代具有從新組的輸入聲學特徵向量中得到的一個輸入聲學特徵向量之SD聲學模型中的樣板（圖2中的 234)。會選擇權重因子（Wl…w6)，以提供全部聲學環境之最佳的訓練效能。在一示範性具體實施例中，權重因子 (Wi.·· WO為用於全部聲階的常數。換句話說，用來產生用 -15 577043 A7 B7 _ 五、發明説明（12 ) 於第一目標聲階的結合匹配分數之Wn與用來產生用於另一種目標聲階的結合匹配分數之wn值是相同的。在另一種具體實施例中，權重因子會基於目標聲階而變化。圖4中所顯示之其他方式的結合對於熟習此項技術者將是顯然可知的，並且視為在此所敘述之具體實施例的範圍内。例如，也可以使用超過六個或少於六個的權重輸入。另一種顯然可知的變化將會產生基於一種型式的聲學模型之結合匹配分數。例如，結合匹配分數可基於SIHMMT、SIHMMNT、以及SIHMMG而產生。或者，結合匹配分數可基於SIDTWt、 SIDTWnt、以及 SIDTWG* 產生。在一示範性具體實施例中，Wi及W4為負數，而Sc〇MB 之較大（或較小之負的）值係表示在目標聲階與一連串的輸入聲學特徵向量之間的匹配（較小距離）具有較大的程度。熟習此項技術者將會顯然可知，權重因子的符號可輕易地重新安排，以致於對應於較小值的匹配具有較大的程度，而不會達反所揭露的具體實施例之範圍。回到圖3，在步驟310，會產生用於相關於HMM及DTW聲學模型（ 230及232)中的樣板之聲階的結合匹配分數。在一示範性具體實施例中，只會產生用於相關於最佳n SIHMM 匹配分數的聲階及用於相關於最佳m SIDTW匹配分數的聲階之結合匹配分數。這種限制可適合用來節省計算資源，即使當產生個別的匹配分數時，會消耗非常大量的計算電源。例如，如果n = m = 3，會產生用於相關於頂端三個 SIHMM的聲階及相關於頂端三個SIDTW匹配分數的聲階之 -16- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

裝訂

線 577043 A7 B7 ___ 五、發明説明（13 ) 結合匹配分數。取決於相關於頂端三個SIHMM匹配分數的聲階與相關於頂端三個SIDTW匹配分數的聲階是否相同，這種方法將會產生三種到六種不同的結合匹配分數。在步驟3 12，遠端台202會將結合匹配分數與以相對應的樣板（相關於相同的聲階）儲存於SD聲學模型中的結合匹配分數做比較。如果新的一連串的輸入聲學特徵向量比用於相同聲階之儲存於SD模型中之較舊樣板之一連_的輸入聲學特徵向量具有較大的匹配程度，則會從新的一連串的輸入聲學特徵向量中產生新的SD樣板。在一具體實施例中，其中SD聲學模型為DTW聲學模型，一連串的輸入聲學特徵向量本身會產生新的SD樣板。然後，較舊的樣板會以新的樣板取代，並且相關於新的樣板之結合匹配分數會儲存於 SD聲學模型中，以在未來的比較中使用。在另一種具體實施例中，未監督訓練係用來更新說話者相依隱藏式馬克沃夫模型（SDHMM)聲學模型中的一種或更多種的樣板。SDHMM聲學模型可用來取代SDDTW模型或除了 SD聲學模型234内的SDDTW聲學模型。在一示範性具體實施例中，在步驟312的比較也包括將未來新的SD樣板與常數訓練臨界值（threshold)的結合匹配分數做比較。即使還沒有任何樣板為了特定聲階儲存於SD聲學模型之中，新樣板將不會儲存於SD聲學模型之中，除非其具有的結合匹配分數比訓練臨界值更佳（表示較大的匹配程度）。在另一種具體實施例中，在已取代SD聲學模型中的任一 -17- 本紙張尺度逋用中國國家標準(CNS) A4規格(210 X 297公釐）裝訂

線 A7 B7 五、發明説明（14 ) 種樣板之前，預設的SD聲學模型係具有來自SI聲學模型的樣板。這樣的初始值可提供另一種方法，以確定使用犯聲學模型的VR效能與只使用SI聲學模型的vr效能至少開始時是一樣好的。當愈來愈多之SD聲學模型中的樣板已更新，使用SD聲學模型的VR效能將會超越只使用SI聲學模型的VR 效能。在另一種具體實施例中，VR系統允許使用者執行監督訓練。使用者必須在執行這樣的監督訓練之前，將VR系統放入監督訓練模式之中。在監督訓練期間，VR系統具有一種正確聲階的先驗知識。如果輸入語音的結合匹配分數比此 ’ 1¾先如所儲存之SD樣板的結合匹配分數更佳，則會使用輸入浯音來組成一種取代SD樣板。在另一種具體實施例中 ,VR系統允許使用者在監督訓練期間，強制取代存在的sd 樣板。 SD聲學模型可設計成對於單一聲階，具有多種（兩種或更多種）樣板的空間。在一示範性具體實施例中，對於每種聲階，SD聲學模型中會儲存兩種樣板。因此，在步驟3丨2的比較，對於相同的聲階需要將以新樣板所得到的匹配分數與以SD聲學模型中的兩種樣板所得到的匹配分數做比較。如果新樣板比SD聲學模型中的任一種舊樣板具有更佳的匹配刀數，則在步驟3 14，具有最差匹配分數的SD聲學模型樣板會以新樣板來取代。如果新樣板的匹配分數並沒有比任種舊樣板更佳，則會跳過步驟3 14。此外，在步驟3 12，以新樣板所得到的匹配分數會與匹配分數臨界做比較。所 -18 -

577043

'直到新樣板具有比儲存於SD聲學模型中的臨界更佳之匹配刀數’在其用來覆寫SD聲學模型的先前内容之前，新篆板a /、I界值做比較。顯然可知的變化，如根據結合匹配刀數及只比較新匹配分數與最低匹配分數之以排序順序所儲存的SD聲學模型樣板，可預期及視為在此所揭露的具也貫施例之範圍内。對於每種聲階，儲存於聲學模型中之樣板的數目之顯然可知的變化也可以預期。例如，SD聲學換型對於每種聲階，可包含超過兩種樣板，或者對於不同聲階’可包含不同數目的樣板。圖5顯示的是執行使用“及SD聲學模型的結合之vr測試之示範性方法的流程圖。步驟3〇2、304、306、以及308與圖 3中所敘述的相同。示範性方法在步騾51〇係不同於圖3中所顯示的方法。在步驟51〇，VR引擎22〇會產生基於輸入聲學特徵向量與SD聲學模型中的樣板之比較的sd匹配分數。在一示範性具體實施例中，所產生的SD匹配分數只會用於相關於最佳n SIHMM匹配分數及最佳m SIDTW匹配分數之聲階。在一示範性具體實施例中，n = m = 3。取決於兩組聲階之間的重疊程度，這將會導致產生用於三種到六種聲階的SD匹配分數。如上所討論的，對於單一聲階，sd聲學模

型可包含多種樣板。在步驟512，VR引擎220會產生用於VR 測試之混合結合匹配分數。在一示範性具體實施例中，這些混合結合匹配分數係基於個別的SI及個別的SD匹配分數。在步驟5 14，會選擇具有最佳結合匹配分數之談話或話語 ’並且會與測試臨界值做比較。如果一種聲階的結合匹配 -19 - 本紙張尺度逋用中國國家標準(CNS) A4規格(210 X 297公釐) 577043 A7 B7 五、發明説明（16 ) 分數超過此測試臨界，才會視為辨識到此種聲階。在一示範性具體實施例中，用來產生訓練的結合分數之權重 [W!…W6](如圖4所顯示）係與用來產生測試的結合分數之權重值[1…W6](如圖6所顯示）相同，但是訓練臨界值與測試臨界並不相同。圖6顯示的是執行步驟512而產生的混合結合匹配分數。所顯示之示範性具體實施例之運作係與圖4所顯示的結合相同，除了權重因子W4係用於DTWT，來取代SIDTWT，以及權重因子W5係用於DTWnt，來取代SIDTWnt之外。DTWT ( 用於目標聲階的動態時間歪曲匹配分數）係選自相關於目標聲階之最佳的SIDTW及SDDTW分數。同樣地，DTWnt (用於非目標聲階的動態時間歪曲匹配分數）係選自相關於非目標聲階之最佳的SIDTW及SDDTW分數。用於特定聲階的SI/SD混合分數SC0MB_H為根據如所顯示之 EQN.2 之權重和，其中 SIHMMT、SIHMMNT、SIHMMG、以及 SIDTWg與EQN.1相同。特別而言，在EQN.2中： SIHMMT為用於目標聲階的SIHMM匹配分數； SIHMMNT為用於相關於非目標聲階（為目標聲階之外的一種聲階)之SIHMM聲學模型中的樣板之下一個最佳匹配分數； SIHMMG為用於「無用」聲階的SIHMM匹配分數； DTWt為對應於目標聲階之用於SI及SD樣板之最佳DTW匹配分數； DTWnt為對應於非目標聲階之用於SI及SD樣板之最佳 DTW匹配分數；以及 -20- 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 裝訂

線 577043 A7 B7 五、發明説明（17 ) SIDTWG為用於「無用」聲階的SIDTW匹配分數。因此，SI/SD混合分數SC0MB_H為個別的SI及SD匹配分數之結合。所產生的結合匹配分數不完全依賴SI或SD聲學模型。如果匹配分數SIDTWT比任何的SDDTWt分數更佳，則會從較佳的SIDTWT分數中計算SI/SD混合分數。同樣地，如果匹配分數SDDTWT比任何的SIDTWT更佳，則會從較佳的SDDTWt分數中計算SI/SD混合分數。因此，如果SD聲學模型中的樣板產生差的匹配分數，VR系統仍然會基於 SI/SD混合分數的SI部分而辨識出輸入語音。這種差的SD匹配分數可能有多種原因，包括在訓練及測試期間，聲學環境之間的差異，或者也許是用於訓練的輸入品質很差。在另一種具體實施例中，SI分數的權重與SD分數比較起來係非常的小，或者甚至可以完全忽視。例如，DTWT係選自相關於目標聲階之最佳的SDDTW分數，而忽視用於目標聲階的SIDTW分數。再者，DTWnt可選自相關於非目標聲階之最佳的SIDTW或SDDTW分數，來取代使用兩組的分數。雖然所敘述之示範性具體實施例係只使用說話者相依模型化的SDDTW聲學模型，但是在此所敘述的混合方法同樣可應用到使用SDHMM聲學模型的VR系統或甚至SDDTW及 SDHMM聲學模型的結合。例如，藉由修改圖6所顯示的方法，權重因子I可用於選自最佳的SIHMMT及SDHMMT之匹配分數。權重因子W2可用於選自最佳的SIHMMNT及 SDHMMNT之匹配分數。

因此，在此所揭露的為使用si及SD聲學模型的結合之VR -21 - 本紙張尺度適用中國國家操準(CNS) A4規格(210X297公釐) 裝訂

577043 A7 B7五、發明説明（18 ) 方法及裝置，用以改善在未監督訓練及測試期間的V R效能。熟習此項技術者將會了解到的是，資訊及訊號可使用任何變化的不同科技及技術來表示。例如，以上全部敘述會提及到的資料、指令、命令、資訊、訊號、位元、符號、以及晶片可藉由電壓、電流、電磁波、磁場或粒子、光學場或微粒、或者是其任何的結合來表示。再者，雖然具體實施例主要是就動態時間歪曲（DTW)或隱藏式馬克沃夫模型（HMM)聲學模型的方面來做說明，但是所敘述的技術可應用於如神經網路聲學模型之其他型式的聲學模型。熟習者將會進一步了解到，配合在此揭露的具體實施例而敘述的各種顯示的邏輯方塊、模組、電路、以及演算法步驟可以電子硬體、電腦軟體、或兩者的結合來實施。為了清楚表示硬體及軟體的可交換性，就其功能而言，各種顯示的元件、方塊、模組、電路、以及步騾已敘述如上。這樣的功能是否以硬體或軟體來實施係取決於加諸於全部系統的特定應用及設計限制。熟習的技術者對於每種特定的應用，可以變化的方式來實施所敘述的功能，但是這樣的實施決定應該不能解釋為產生達反本發明的範圍。配合在此揭露的具體實施例而敘述的各種顯示的邏輯方塊、模組、以及電路可以一般用途的處理器、數位訊號處理器（digital signal processor，簡稱DSP)、特定應用積體電路 (application specific integrated circuit，簡稱 ASIC)、場域可程式閘極陣列（field programmable gate array，簡稱 FPGA)或其他可程式的邏輯裝置、分離閘或電晶體邏輯、分離硬體元 -22- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）

裝訂

k 577043 A7 B7 五、發明説明（19 ) 件、或其設計用來執行功能的任意結合來實施或執行。一般用途的處理器可以是微處理器，但是另一方面，處理器可以是任何傳統的處理器、控制器、微控制器、或狀態機器。處理器也可以實施為計算裝置的結合，例如，DSP及微處理器、多個微處理器、結合DSP核心之一個或更多個微處理器、或者是這樣配置之結合。配合在此揭露的具體實施例而敘述的方法或演算法之步驟可直接以硬體、以藉由處理器來執行的軟體模組、或以兩者的結合來具體實施。軟體模組可存在於RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可抽取磁碟、CD-ROM、或在此技術中所熟知之任何其他型式的儲存媒體。一種示範性儲存媒體係耦接至處理器，以致於處理器可自儲存媒體中讀取資訊，以及寫入資訊到儲存媒體。在另一方面，可整合儲存媒體到處理器。處理器及儲存媒體可存在於ASIC中。在另一方面，處理器及儲存媒體可存在於使用者終端中，當作分離元件。揭露的具體實施例之先前的說明係用以使熟習此項技術的任何人能實施或使用本發明。這些具體實施例的各種修改對於熟習此項技術者，將能立即顯然可知，並且在此所定義的通則可應用於其他的具體實施例，而不達反本發明的精神或範圍。因此，本發明並不是意圖限制在此所顯示的具體實施例，而是使本發明的之最廣的範圍與在此所揭露的原理及新穎性符合。 -23- 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐）

Claims

Α8 Β8 C8 D8 十s I鄕10〇7號專利申請案 …一一·…史土 έ：請蓴利範圍替換本(92年10月）六、申請專利範圍 1. 一種聲音辨識裝置，包括：一說話者獨立聲學模型；一說話者相依聲學模型；一聲音辨識引擎；以及一電腦可讀媒體，用以具體實施執行未監督聲音辨識訓練及測試的一方法，該方法包括執行具有該說話者獨立聲學模型的内容之輸入語音的樣本匹配，以產生說話者獨立樣本匹配分數、將說話者獨立樣本匹配分數與相關於儲存於該說話者相依聲學模型中的樣板之分數做比較、以及基於該比較的結果而更新該說話者相依聲學模型中的至少一樣板。 2 .如申請專利範圍第1項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一隱藏式馬克沃夫模型（ΗΜΜ)聲學模型。 3 ·如申請專利範圍第1項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一動態時間歪曲（DTW)聲學模型。 4 .如申請專利範圍第1項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一隱藏式馬克沃夫模型（ΗΜΜ)聲學模型及至少一動態時間歪曲（DTW)聲學模型。 5 .如申請專利範圍第1項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一無用樣板，其中該比較包括比較該至少一無用樣板的輸入語音。 6 .如申請專利範圍第1項之聲音辨識裝置，其中該說話者相 O:\77\77378-921002.DOC - 1 · 本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐）六、申請專利範圍依聲學模型包括至少一動態時間歪曲（DTW)聲學模型。 7. —種聲音辨識裝置，包括：一說話者獨立聲學模型；一說話者相依聲學模型；一聲音辨識引擎；以及一電腦可讀媒體，用以具體實施執行未監督聲音辨識訓練及測試的一方法’該方法包括執行具有該說話者獨立聲學模型的内容之一第一輸入語音片段之樣本匹配，以產生說話者獨立樣本匹配分數；將說話者獨立樣本匹配分數與相關於儲存於該說話者相依聲學模型中的樣本之分數做比較；基於該比較的結果而更新該說話者相依聲學模型中的至少一樣板；配置該聲音辨識引擎，用以將一第二輸入語音片段與該說話者獨立聲學模型及該說話者相依聲學模型的内容做比較，以產生至少一結合的說話者相依及說話者獨立匹配分數；以及識別具有最佳結合的說話者相依及說話者獨立匹配分數的一聲階。 8 .如申請專利範圍第7項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一隱藏式馬克沃夫模型（HMM)聲學模型。 9 .如申請專利範圍第7項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一動態時間歪曲（DTW)聲學模型。 10.如申請專利範圍第7項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一隱藏式馬克沃夫模型（HMM)聲 O:\77\77378-921002.DOC - 2 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐）六、申請專利範圍學杈型及至少一動態時間歪曲（DTW)聲學模型。 11·如申請專利範圍第7項之聲音辨識裝置，其中該說話者相依聲學模型包括至少一動態時間歪曲（DTW)聲學模型。 12·—種聲音辨識裝置，包括·· 土一說洁者獨立聲學模型；一說洁者相依聲學模型；以及一聲音辨識引擎，用以執行具有該說話者獨立聲學棱型的内容之輸入語音的樣本匹配，以產生說話者獨立樣本匹配分數’以及用以執行具有該說話者相依聲學= 型的内容之輸人語音的樣本匹配，以產生說話者相依樣本匹配分數，以及用以產生基㈣些說話者獨立樣本匹配分數及該些說話者相依樣本匹配分數之複數個聲階結合匹配分數。 13. 如申請專利範圍第丨2項之聲音辨識裝置，其中該說咭者獨立聲學模型包括至少-隱藏式馬克沃夫模型_M) 聲學模型。 14. 如申請專利範圍第12項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少一動態時間歪曲(dtw)聲學模型 15. 如申請專利範圍第12項之聲音辨識裝置，其中該說話者獨立聲學模型包括至少-隱藏式馬克沃夫模型（hmm)聲學模型及至少一動態時間歪曲（DTW)聲學模型。 16. 如申請專利範圍第12項之聲音辨識裝置，其中該說話 O:\77\77378-921002.DOC -3 - 六、申請專利範圍者相依聲學模型包括至少一動態時間歪曲（DTW)聲學模型。 17. —種執行聲音辨識的方法，包括：執行具有至少一說話者獨立聲學樣板之一第一輸入語音片段的樣本匹配，以產生至少一輸入樣本匹配分數；將該至少一輸入樣本匹配分數與相關於一儲存聲學樣板的一儲存分數做比較；以及基於該比較的結果而取代該儲存聲學樣板。 18. 如申請專利範圍第17項之方法，其中該執行樣本匹配進一步包括：執行具有至少一 HMM樣板之該第一输入語音片段的隱藏式馬克沃夫模型（HMM)樣板樣本匹配，以產生至少一 HMM匹配分數；執行具有至少一 DTW樣板之該第一輸入語音片段的動態時間歪曲（DTW)樣本匹配，以產生至少一 DTW匹配分數；以及執行該至少一 HMM匹配分數及該至少一 DTW匹配分數之至少一權重和，以產生該至少一輸入樣本匹配分數。 19. 如申請專利範圍第17項之方法，進一步包括：執行具有至少一說話者獨立聲學樣板之一第二輸入語音片段的樣本匹配，以產生至少一說話者獨立匹配分數；執行具有該儲存聲學樣板之該第二輸入語音片段的 O:\77\77378-921002.DOC - 4 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）樣本匹配，以產生一有相依匹配分數；以及將孩至少一說話者配分數結合，以產生至少數與該說話者相依匹 y 、結合匹配分數。 2〇·如申請專利範圍第19項之 ,JL ^ Εη ^ ^ 、去，進一步包括識別一聲階肩於取佳的至少'结合匹配分數。 21· 一種執行聲音辨識的方法，包括：執行具有至少一說話者獨立聲學樣板之立片段的樣本匹配，以產輸入 ^ 玍至^ 一說話者獨立匹配分數· 的：IT: —說話者相依聲學樣板之該輸入語音片段將^以產生至少—說話者相依匹配分數；以及將孩至少-說話者獨立匹配分數與該至少 2/目依匹配分數結合’以產生至少-結合匹配分數。 •種執行聲音辨識的方法，包括· 型將-组輸入聲學特徵向量與在一說話者獨立聲學模样太樣板做比較，以產生—說話者獨立 =配分數’其中該說話者獨立樣板係相關於-第一刑:該组輸入聲學特徵向量與在一說話者相依聲學模土的至少—說話者相依樣板做比較，以產生—說話分數，其中該說話者相依樣㈣相關於該將該說話者獨立樣本匹配分數與該說話者相依樣本匹配分數結合，以產生一結合樣本匹配分數=樣本 O:\77\77378-921002.DOC -5- A BCD 5ΊΊ胸、六、申請專利範圍將該結合樣本匹配分數與相關於一第二聲階之至少一其他的結合樣本匹配分數做比較。 23. —種執行聲音辨識的裝置，包括：執行具有至少一說話者獨立聲學樣板之一第一輸入語音片段的樣本匹配，以產生至少一輸入樣本匹配分數之裝置；將該至少一輸入樣本匹配分數與相關於一儲存聲學樣板的一儲存分數做比較之裝置；以及基於該比較的結果而取代該儲存聲學樣板之裝置。 24. —種執行聲音辨識的裝置，包括：執行具有至少一說話者獨立聲學樣板之一輸入語音片段的樣本匹配，以產生至少一說話者獨立匹配分數之裝置；執行具有一說話者相依聲學樣板之該輸入語音片段的樣本匹配，以產生至少一說話者相依匹配分數之裝置 ;以及將該至少一說話者獨立匹配分數與該至少一說話者相依匹配分數結合，以產生至少一結合匹配分數之裝置。 O:\77\77378-921002.DOC - 6 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 x 297公釐）