TWI610294B

TWI610294B - 語音辨識系統及其方法、詞彙建立方法與電腦程式產品

Info

Publication number: TWI610294B
Application number: TW105141155A
Authority: TW
Inventors: 簡世杰; 郭志忠
Original assignee: 財團法人工業技術研究院
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2018-01-01
Also published as: CN108231066A; US20180166069A1; US10224023B2; CN108231066B; TW201822190A

Abstract

本揭露提出一種語音辨識系統及其方法、詞彙建立方法以及電腦程式產品。語音辨識方法包括：儲存語音辨識模型，此語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一所述語音單元具有至少一時態，每一所述時態對應到基本成分聲學模型的至少其中之一；輸入第一語音訊號與第二語音訊號；從分析擴充模組取得母語/非母語詞彙的語音單元序列；根據語音辨識模型與母語/非母語詞彙的語音單元序列，對第一語音訊號進行辨識並輸出辨識結果；以及根據語音辨識模型以及第二語音訊號從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元。

Description

語音辨識系統及其方法、詞彙建立方法與電腦程式產品

本揭露是有關於一種可以根據非母語的語音詞彙產生語音單元並且使用此語音單元進行辨識的語音辨識系統及其方法、詞彙建立方法與電腦程式產品。

現有的語音辨識系統多以辨識單一語言為主。在多語言或混合語言的語音辨識中，通常需要建立第一語言(例如，中文)以外的第二語言(例如，英文)的語音辨識模型，或者建立第一語言的語音單元與第二語言的語音單元之間的對應關係。之後，才可以使用單一語言的語音辨識模型進行多語言或混合語言的語音辨識。然而，上述情況往往會造成許多問題。

以母語為中文(第一語言)、第二語言為英文的中英雙語混合語音辨識為例，上述的做法往往需要取得大量的英文語料以進行語音辨識模型的訓練。由於英文語料通常較容易透過以英文為母語的人所錄製而得到，但因為腔調的差異，英文的語料與中文的語料兩者在腔調上是不匹配的。當個別訓練兩者的語音辨識模型時，會造成此兩個語音辨識模型也不相匹配，使得中英雙語混合語音辨識的辨識率不佳，而難以應用。再者，以中文為母語的人所錄製的英文語料也不容易蒐集與校對，且各個以中文為母語的人對同一英文詞彙的發音歧異度也大，故通常也不容易訓練出在效能可趕得上中文語音辨識的中文腔英文語音辨識模型(Chinese-accented-English acoustic-model)。因此，實施多語言或混合語言的語音辨識，所付出的資源與努力將遠遠超出單一語言的辨識。

須注意的是，在一個多以母語為溝通的應用環境下，相對於母語，其他語言的使用頻率通常是較低的。唯一較廣泛使用的是所謂的「非母語詞彙」(non-native word)或「外來語」(foreign-word or loan-blends)。隨著時間推進，上述的非母語詞彙或外來語也會不斷地更新。另外，可以注意到的是，這裡的使用族群，通常是以母語口音為主。若以前述多語言或混合語言的實施做法，所需要取得的是這些以母語口音為主的其他語言的大量語料。例如，取得中文口音的英文語料。然而，這些語料並不易於取得。

因此，如何提供一個適切的作法，以在不付出大量的資源下，建構可辨識非母語詞彙的語音辨識系統，甚至可提供母語、非母語夾雜的語音辨識系統，以讓語音辨識系統可更為廣泛的應用，是本領域技術人員所致力研究的議題之一。

本揭露提供一種根據非母語的語音詞彙產生語音單元並且使用此語音單元進行辨識的語音辨識系統及其方法、詞彙建立方法與電腦程式產品。

本揭露提出一種語音辨識系統。此系統包括儲存單元以及處理單元。儲存單元用以儲存語音辨識模型。語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一所述語音單元具有至少一時態，每一所述時態對應到基本成分聲學模型的至少其中之一。處理單元用以運行多個模組，此些模組包括：分析擴充模組、輸入模組、母語/非母語辨識詞彙功能模組以及語音辨識器。輸入模組用以輸入第一語音訊號。母語/非母語辨識詞彙功能模組用以從分析擴充模組取得母語/非母語詞彙的語音單元序列。語音辨識器用以根據語音辨識模型與母語/非母語詞彙的語音單元序列，對第一語音訊號進行辨識並輸出辨識結果。分析擴充模組用以根據語音辨識模型以及由輸入模組所輸入的第二語音訊號與對應於該第二語音訊號的一詞彙，從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元。

本揭露提出一種語音辨識方法，此方法包括：儲存語音辨識模型，此語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一所述語音單元具有至少一時態，每一所述時態對應到所述基本成分聲學模型的至少其中之一；輸入第一語音訊號；從分析擴充模組取得母語/非母語詞彙的語音單元序列；根據語音辨識模型與母語/非母語詞彙的語音單元序列，對第一語音訊號進行辨識並輸出辨識結果；根據語音辨識模型以及第二語音訊號與對應於該第二語音訊號的一詞彙，從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元。

本揭露提出一種詞彙建立方法，此方法包括：儲存語音辨識模型，此語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一所述語音單元具有至少一時態，每一所述時態對應到所述基本成分聲學模型的至少其中之一；輸入語音訊號與對應於語音訊號的詞彙；根據語音辨識模型以及語音訊號與對應於語音訊號的詞彙，從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元。

本揭露提出一種用於語音辨識之電腦程式產品，當電腦載入此電腦程式並執行後，可完成如上述的語音辨識方法。

基於上述，本揭露的語音辨識系統及其方法、詞彙建立方法與電腦程式產品可以在不錄製大量非母語語料以及不重新訓練聲學模型的情況下來辨識非母語的詞彙。特別是，在新增用於辨識非母語的詞彙的語音單元時，所新增的語音單元並不會影響原本母語的辨識效能。

為讓本揭露的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

1000‧‧‧語音辨識系統

100‧‧‧處理單元

120‧‧‧輸入單元

130‧‧‧儲存單元

132‧‧‧輸入模組

134‧‧‧語音辨識模型

136‧‧‧分析擴充模組

136a‧‧‧語音單元序列產生模組

136b‧‧‧語音訊號時態切割模組

136c‧‧‧時態基本成分挑選模組

136d‧‧‧語音單元擴充模組

136e‧‧‧迭代處理控制模組

136f‧‧‧品質檢驗模組

136g‧‧‧基本成分組成更新模組

136h‧‧‧詞彙之語音單元序列記錄更新模組

136i‧‧‧詞彙之語音單元序列記錄表

138‧‧‧母語/非母語辨識詞彙功能模組

140‧‧‧文法/語言模型

142‧‧‧語音辨識器

200‧‧‧基本成分聲學模型

40‧‧‧語音訊號

41‧‧‧詞彙

42‧‧‧音標

500‧‧‧轉換表

510‧‧‧語音單元辨識器

520‧‧‧語音單元

530‧‧‧語音單元序列

60‧‧‧語音特徵參數抽取模組

61‧‧‧切割模組

601‧‧‧切割結果

t、τ‧‧‧時間

701‧‧‧比對結果

90‧‧‧大詞彙語音辨識器

92‧‧‧語音單元序列分數估算模組

94‧‧‧語音辨識模型還原模組

1001‧‧‧基本成分分數正規化模組

1003‧‧‧基本成分正規化分數累積與更新模組

1005‧‧‧語音辨識模型更新模組

11111‧‧‧記錄表

1101、1102、1103、1104、1105、1106、1107‧‧‧子表格

步驟S1401‧‧‧儲存語音辨識模型，語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一語音單元具有至少一時態，每一時態對應到基本成分聲學模型的至少其中之一的步驟

步驟S1403‧‧‧輸入第一語音訊號的步驟

步驟S1405‧‧‧取得母語/非母語詞彙的語音單元序列的步驟

步驟S1407‧‧‧根據語音辨識模型與母語/非母語詞彙的語音單元序列，對第一語音訊號進行辨識並輸出辨識結果的步驟

步驟S1409‧‧‧根據語音辨識模型以及一第二語音訊號從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元的步驟

步驟S1501‧‧‧根據語音單元產生對應於第二語音訊號的第一語音單元序列，其中第一語音單元序列包括語音單元中的第一語音單元的步驟

步驟S1503‧‧‧根據第二語音訊號的特徵與第一語音單元序列對第二語音訊號進行切割以產生多個子語音訊號，其中此些子語音訊號中的第一子語音訊號對應至第一語音單元的時態中的第一時態，且第一時態對應至基本成分聲學模型中的第一基本成分聲學模型的步驟

步驟S1505‧‧‧將第一子語音訊號與基本成分聲學模型進行比對，當第一子語音訊號與基本成分聲學模型中的第二基本成分聲學模型的匹配程度大於第一子語音訊號與第一基本成分聲學模型的匹配程度時，選擇第二基本成分聲學模型為最佳基本成分聲學模型的步驟

步驟S1507‧‧‧判斷第一語音單元是母語語音單元或新語音單元的步驟

步驟S1509‧‧‧當第一語音單元是母語語音單元時，新增第二語音單元至語音單元中，其中第二語音單元的時態包括第二時態以及第三時態，第二時態對應至最佳基本成分聲學模型且第三時態對應至第一語音單元的時態中的第四時態所對應的第三基本成分聲學模型的步驟

步驟S1511‧‧‧當第一語音單元是新語音單元時，根據最佳基本成分聲學模型更新上述語音單元中的第一語音單元為第二語音單元的步驟

步驟S1513‧‧‧根據更新後的語音單元產生對應於第二語音訊號的第二語音單元序列，根據第二語音單元序列進行迭代操作以更新語音單元，其中第二語音單元序列包括第二語音單元的步驟

步驟S1515‧‧‧根據第二語音單元序列計算對應於第二語音訊號的第一分數，並判斷第一分數是否小於第二語音訊號的最佳辨識結果的第二分數的步驟

步驟S1517‧‧‧刪除語音單元中的第二語音單元的步驟

步驟S1519‧‧‧保留語音單元中的第二語音單元，根據第二時態所對應的第一基本成分聲學模型排序結果計算對應於第二時態的多個第一基本成分正規化分數，根據第三時態所對應的第二基本成分聲學模型排序結果計算對應於第三時態的多個第二基本成分正規化分數，根據第一基本成分正規化分數更新第二時態與基本成分聲學模型之間的對應關係，以及根據第二基本成分正規化分數更新第三時態與基本成分聲學模型之間的對應關係的步驟

圖1是依據一範例實施例所繪示之語音辨識系統的示意圖。

圖2是依據一範例實施例所繪示之語音辨識模型的示意圖。

圖3是依據一範例實施例所繪示之基本成分聲學模型的示意圖。

圖4A是依據一範例實施例所繪示之語音辨識系統中各個模組的運作方式的示意圖。

圖4B是依據另一範例實施例所繪示之語音辨識系統中各個模組的運作方式的示意圖。

圖5A是依據一範例實施例所繪示之語音單元序列產生模組的取代轉換功能的示意圖。

圖5B是依據一範例實施例所繪示之僅根據語音訊號來產生語音單元序列的示意圖。

圖6是依據一範例實施例所繪示之對語音訊號進行切割的示意圖。

圖7是依據一範例實施例所繪示之選擇最佳基本成分聲學模型的示意圖。

圖8A是依據一範例實施例所繪示之新增語音單元至語音辨識模型的示意圖。

圖8B是依據一範例實施例所繪示之更新語音辨識模型中的新語音單元的示意圖。

圖9是依據一範例實施例所繪示之品質檢驗模組的運作的示意圖。

圖10是依據一範例實施例所繪示之基本成分組成更新模組的運作的示意圖。

圖11是依據一範例實施例所繪示之基本成分組成記錄表的運作的示意圖。

圖12是依據一範例實施例所繪示之語音辨識模型更新模組的運作的示意圖。

圖13是依據一範例實施例所繪示之語音辨識的運作的示意圖。

圖14是依據一範例實施例所繪示之語音辨識方法的流程圖。

圖15是依據一範例實施例所繪示之應用於分析擴充模組的方法的流程圖。

圖1是依據一範例實施例所繪示之語音辨識系統的示意圖。請參照圖1，在本範例實施例中，語音辨識系統1000包括處理單元100、輸入單元120以及儲存單元130。其中，輸入單元120耦接至儲存單元130。儲存單元130耦接至處理單元100。語音辨識系統1000例如是行動裝置、個人數位助理(Personal Digital Assistant，PDA)、筆記型電腦、平板電腦、一般桌上型電腦等，或是其他的電子裝置，在此並不設限。

處理單元100例如可以是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路(Application Specific Integrated Circuit，ASIC)、場可程式閘陣列電路(Field Programmable Gate Array，FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine，ARM)的處理器以及類似品。

輸入單元120例如是用以接收語音訊號以及語音訊號的音標或詞彙並且提供所接收的語音訊號以及語音訊號的音標或詞彙給儲存單元130的裝置或元件。舉例來說，輸入單元120例如可以包括用以採集語音訊號的麥克風以及用以輸入語音訊號的音標或詞彙的裝置。或者，輸入單元120也可以是用以從其他來源(例如，其他裝置或儲存媒體)接收語音訊號以及語音訊號的音標或詞彙的裝置。

儲存單元130例如可以是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。

在本範例實施例中，儲存單元130儲存有輸入模組132、語音辨識模型134、分析擴充模組136、母語/非母語辨識詞彙功能模組138、文法/語言模型140以及語音辨識器142。特別是，分析擴充模組136包括語音單元序列產生模組136a、語音訊號時態切割模組136b、時態基本成分挑選模組136c、語音單元擴充模組136d、迭代處理控制模組136e、品質檢驗模組136f、基本成分組成更新模組136g、詞彙之語音單元序列記錄更新模組136h以及詞彙之語音單元序列記錄表136i。其中，上述各個模組分別具有一或多個程式碼片段，在上述程式碼片段被安裝後，會由處理單元100來執行。例如，處理單元100會藉由這些模組來分別執行本揭露的語音辨識方法的各個運作。

特別是，語音辨識模型134具有多個語音單元以及多個基本成分聲學模型。其中每一個語音單元具有至少一時態，且每一時態會對應到上述的多個基本成分聲學模型的至少其中之一。

圖2是依據一範例實施例所繪示之語音辨識模型的示意圖。

請參照圖2，語音辨識模型134包括多個語音單元。例如，語音單元P0至語音單元P49。特別是，在本範例實施例中，一個語音單元可以代表中文的一個單音段。例如，語音單元P0代表中文的空聲母/

/(國際音標IPA標為[

])，語音單元P1代表中文聲母/ㄅ/也就是子音[p]，語音單元P2代表中文聲母/ㄆ/也就是子音[p^h]，語音單元P49代表中文雙母音/ㄠ/中的第二母音[

]，以此類推。

此外，每一個語音單元可以具有一到多個時態(state)。在本範例實施例中，每一個語音單元會具有三個時態。例如，語音單元P0包含了語音單元P0的第0個時態、第1個時態以及第2個時態；語音單元P1包含了語音單元P1的第0個時態、第1個時態以及第2個時態，以此類推。此外，語音辨識模型134還包含了多個基本成分聲學模型。為了簡潔起見，圖2繪示基本成分聲學模型200來代表語音辨識模型134所具有的多個基本成分聲學模型。

特別是，一個語音單元的一個時態可以對應至一或多個基本成分聲學模型。在本範例實施例中，一個時態是對應至一個基本成分聲學模型。以語音單元P0為例，語音單元P0的第0個時態會對應至基本成分聲學模型200中的基本成分聲學模型M3，基本成分聲學模型M3可以用來描述語音單元P0的第0個時態的訊號的特徵。語音單元P0的第1個時態會對應至基本成分聲學模型200中的基本成分聲學模型M4，基本成分聲學模型M4可以用來描述語音單元P0的第1個時態的訊號的特徵。語音單元P0的第2個時態會對應至基本成分聲學模型200中的基本成分聲學模型M5，基本成分聲學模型M5可以用來描述語音單元P0的第2個時態的訊號的特徵。

簡單來說，在本範例實施例中，一個中文單音段可以被記錄為一個語音單元，而語音單元可以包括第0個時態、第1個時態以及第2個時態。而每一個時態可以藉由一個基本成分聲學模型來做描述。

在本範例實施例中，語音辨識模型134所具有的語音單元還可以再細分為母語語音單元以及新語音單元。在語音辨識系統1000運作的初期，語音辨識系統1000僅會包括用以描述母語的特性的母語語音單元(例如，中文的語音單元)。在經過本揭露的語音辨識方法的處理之後，語音辨識模型134將增加出許多上述的新語音單元(例如，中文沒有而英文才有的語音單元)，此些新語音單元用以描述非母語的語音特性。

請參照圖3，圖3是用以描述圖2中基本成分聲學模型200的態樣，它可以以高斯混合模型(Gaussian Mixture Model，GMM)組成或以類神經網路(Neural Networks，NN或Deep Neural Networks，DNN)輸出層(output layer)中的某一個輸出來代表。並且以自我轉移(self-transition)與輸出轉移(transition-out)等兩個轉移機率(transition probability)來描述停留或離開該基本成分聲學模型的機率。關於語音辨識模型以GMM或NN/DNN的訓練、實施等更細部的實作細節可以由習知技術所得知，在此便不再贅述。

圖4A是依據一範例實施例所繪示之語音辨識系統中各個模組的運作方式的示意圖。圖4B是依據另一範例實施例所繪示之語音辨識系統中各個模組的運作方式的示意圖。

請參照圖4A，首先，輸入模組132可以接收一個新的詞彙41的語音訊號40(亦稱為，第二語音訊號)與對應此語音訊號的音標42。在本範例實施例中，所述新的詞彙41是「today」。而對應此詞彙41的音標42是/t

d'e/(註：為方便解說此處以一般人熟悉之KK音標表示，實作上可使用各種適當的音標符號或代號系統，只要能精確標記該發音即可)。之後，輸入模組132會將「today」的語音訊號40以及「today」這個詞彙41與所對應的音標42輸入至語音單元序列產生模組136a中。然而須注意的是，請參照圖4B，在另一範例實施例中，當輸入模組132僅接收到語音訊號40與詞彙41時，輸入模組132也可以僅將此語音訊號40與詞彙41輸入至語音單元序列產生模組136a中。此時，語音辨識系統1000可以僅根據語音訊號40來執行語音單元序列產生模組136a的運作，而不會使用詞彙41的音標42來執行語音單元序列產生模組136a的運作。而僅根據語音訊號40與詞彙41來執行語音單元序列產生模組136a的運作的詳細流程請容後詳述。

請再次參照圖4A，語音單元序列產生模組136a會接收上述的語音訊號40、語音訊號40的詞彙41與音標42。語音單元序列產生模組136a會先根據一已預先建立的詞彙之語音單元序列記錄表136i，尋找詞彙41是否已有對應的語音單元序列，若詞彙之語音單元序列記錄表136i存在有詞彙41「today」對應的語音單元序列，且是單一一個語音單元序列，則直接取用該語音單元序列，並進入語音訊號時態切割模組136b進行處理。若詞彙之語音單元序列記錄表136i存在有多個語音單元序列與詞彙41「today」對應，則將依照語音單元序列存放於語音單元序列記錄表136i的順序，循序取用，並進入語音訊號時態切割模組136b進行處理。之後，語音訊號時態切割模組136b會根據語音訊號40進行切割以產生多個子語音訊號。然而，倘若詞彙之語音單元序列記錄表136i不存在詞彙41「today」對應的語音單元序列，語音單元序列產生模組136a將根據語音辨識模型134中的語音單元P0~P49產生對應於音標42的語音單元序列。

舉例來說，語音單元序列產生模組136a可以包括取代(substitution)轉換功能、插入轉換(Insertion)功能以及刪除(Deletion)轉換功能。

請參照圖5A，語音單元序列產生模組136a可以接收音標42並根據轉換表500來輸出一或多個語音單元序列。其中，語音單元序列產生模組136a所輸出的語音單元序列是使用中文的語音單元來描述(或近似)上述英文詞彙「today」的發音。

例如，轉換表500可以預先儲存中文音標與英文KK音標的對應關係。語音單元序列產生模組136a可以根據音標/t

d'e/來輸出以中文語音單元所表示的語音單元序列[P6 P31 P5 P32]；或方便一般人閱讀，可大略以中文注音/ㄊㄜㄉㄝ/表示。此外，語音單元序列產生模組136a也可以輸出語音單元序列[P6 P31 P5 P35 P46]，或以中文注音/ㄊㄜㄉㄟ/表示，其發音也是相近於KK音標中的/t

d'e/。須注意的是，不管是注音或KK音標符號，都只是為了方便一般人閱讀的簡略標示；真正精確的標示主要以國際音標IPA為準，或是以對應IPA的X-SAMPA符號標示。例如轉換表500中P48與P49其實分別只代表雙母音/ㄞ/與/ㄠ/的第二母音[

]與[

](IPA國際音標)。因此，前述範例中之中文注音/ㄟ/的精確音標是對應至語音單元P35(雙母音/ㄟ/的第一母音IPA[e])以及語音單元P46(雙母音/ㄟ/的第二母音IPA[

])。

此外，本揭露並不用於限定中文音標與英文音標的人工對應方式。兩者之間的對應方式可以使用多種方法來實現。在一範例實施例中，可以預先儲存中文音標所對應的語音單元以及英文音標所對應的語音單元。中文音標所對應的語音單元以及英文音標所對應的語音單元可以分別用區辨特徵(Distinctive Features)向量表示。中文音標所對應的語音單元以及英文音標所對應的語音單元之間的近似程度可計算向量距離而得知。在另一實施例中，還可透過中文跟英文兩套語料庫，來計算兩語言各別的語音單元之間的混淆矩陣(confusion matrix)，並藉以得到兩語言語音單元間的距離。在另一實施例中，還可以透過中文跟英文兩套語音辨識器的聲學模型，透過計算模型間的距離來得到兩語言的語音單元間的距離。藉由上述方式，可以得出與所輸入的詞彙的發音相接近的語音單元序列。

此外，在經由上述的取代轉換功能產生語音單元序列後，語音單元序列產生模組136a還可以使用插入轉換功能或刪除轉換功能來對所產生的語音單元序列進行修正。

例如，語音單元序列產生模組136a可以使用插入轉換功能在所產生的語音單元序列中特定類型的連續語音單元之間，插入一特定類型的語音單元。舉例來說，在一範例實施例中，語音單元序列產生模組136a可以根據母語的語音組合法(Phonotactics)來決定轉換規則。以中文為例，中文的音節結構為「IGVC」。其中，「I」為「Initial」的縮寫，代表聲母子音。「G」為「Glide」的縮寫，代表介音子音。例如中文音標中的/一/、/ㄨ/或/ㄩ/。「V」為「Vowel」的縮寫，代表母音。「C」為「Coda」的縮寫，代表音節尾子音。例如：[

]、[

]、[

]、[

]、[n]或[

]。

以英文詞彙「yesterday」為例，其可以經由上述的取代轉換功能來產生語音單元序列[P41 P38 P21 P6 P33 P5 P35 P46]，以注音簡略表示為/一ㄝㄙㄊㄦㄉㄟ/。之後，可以再經由插入轉換以產生新的語音單元序列[P41 P38 P21 P40 P6 P33 P5 P35 P46]，以注音簡略表示為/一ㄝㄙ帀ㄊㄦㄉㄟ/。由於中文的音節結構中，連續的子音只能有聲母子音以及介音子音，因此在此範例中，連續子音/ㄙ/跟/ㄊ/之間需插入一個母音/帀/。換句話說，基於中文的自然發音習慣，子音/ㄙ/(語音單元P21)跟/ㄊ/(語音單元P6)之間可能會多一個母音/帀/(語音單元P40)(註：注音符號/帀/是/ㄓ/的顛倒符號，是/ㄙ/後面沒有接其他韻母符號時的韻母，在習慣寫法裡面都被省略。正如「桑」的注音是/ㄙㄤ/，而「斯」的注音原本應該是/ㄙ帀/，但習慣上省略其韻母符號/帀/而簡寫為/ㄙ/)。

此外，語音單元序列產生模組136a也可以使用刪除轉換功能在所產生的語音單元序列中特定類型的連續語音單元之間，刪除一特定類型的語音單元。其中，刪除轉換功能的實作方法相類似於上述的插入轉換功能。舉例來說，由於中文的音節結構中，音節尾子音的種類有限，只有[

]、[

]、[

]、[

]、[n]、[

]六種；但是英文音節尾子音的種類比較多，因此不屬中文音節尾子音可能在發音中被忽略，故可以刪除對應的語音單元。

以英文詞彙「word」為例，可以經由上述的取代轉換功能來產生語音單元序列[P42 P33 P5]，注音簡略表示為/ㄨㄦㄉ/。之後可再經由刪除轉換功能產生新的語音單元序列[P42 P33]，注音簡略表示為/ㄨㄦ/。因為在中文音節中，子音/ㄉ/不會出現在音節尾，故許多以中文為母語的人在發音上自然會忽略上述/ㄉ/的音，故在此範例中，音節尾子音/ㄉ/可以刪除。也就是原始語音單元序列[P42 P33 P5]中的語音單元P5會被刪除。

值得一提的是，在圖4B的範例實施例中，語音單元序列產生模組136a是不使用音標來進行辨識。也就是說，輸入模組132可以不用輸入對應於語音訊號40的音標42，語音單元序列產生模組136a可以直接根據所輸入的語音訊號40來進行語音辨識以產生對應於語音訊號40的語音單元序列。

例如，圖5B是依據一範例實施例所繪示之僅根據語音訊號來產生語音單元序列的示意圖。

請參照圖5B，在本範例實施例中，語音單元序列產生模組136a會包括語音單元辨識器510。當語音單元序列產生模組136a僅接收到來自輸入模組的語音訊號40與詞彙41時，語音單元辨識器510會分析語音訊號40以判斷組成詞彙41的語音單元序列。舉例來說，在一範例實施例中，由於語音辨識模型134中會儲存多個語音單元(例如，語音單元P0至語音單元P49以及語音單元sil，圖5B以語音單元520表示)，語音單元辨識器510會將語音訊號40與所述多個語音單元重複地比對以找出語音訊號40中多個子語音訊號所對應的語音單元，藉以將所找出的語音單元組成一個語音單元序列。或者，在另一範例實施例中，語音辨識系統1000可以預先儲存多個不同詞彙所對應的語音單元序列(例如，圖5B中的多個語音單元序列530，亦稱為預設語音單元序列)。語音單元辨識器510可以從此些預設語音單元序列中挑選出最近似於語音訊號40的語音單元序列。

特別是，由於以中文音標來描述(或近似)一個英文詞彙的發音時可能有多種的描述方式，故語音單元序列產生模組136a(或語音單元辨識器510)所產生的語音單元序列可以有一或多個。例如，圖5B中經由語音單元辨識器510所取得的語音單元序列[P6 P31 P5 P32]與語音單元序列[P6 P31 P5 P35 P46]。當語音單元序列產生模組136a產生對應於語音訊號40的多個語音單元序列時，語音辨識系統1000可以從所產生的多個語音單元序列中擇一來進行後續的流程。此外，語音辨識系統1000也可以重複地從所產生的多個語音單元序列中選擇一個不同的語音單元序列來重複地執行圖4B中各個模組的運作。

請再次參照圖4A與圖4B，假設語音單元序列產生模組136a產生對應於「today」的語音單元序列[P6 P31 P5 P32](亦稱為，第一語音單元序列)。之後，語音訊號時態切割模組136b會根據語音訊號40以及語音單元序列[P6 P31 P5 P32]進行切割以產生多個子語音訊號。

請參照圖6，語音訊號時態切割模組136b可以包括語音特徵參數抽取模組60和切割模組61。語音特徵參數抽取模組60可以抽取語音訊號40以得到多個的語音特徵參數。之後，切割模組61會根據語音單元序列產生模組136a所產生的語音單元序列[P6 P31 P5 P32]，來對語音訊號40進行比對切割。一般來說，對語音訊號40進行比對切割又稱之為強制校準(force alignment)，也就是找出語音訊號40與所給定的語音單元序列所對應的各個基本成分聲學模型之間最佳的對應位置。

由於在實際的語音信號中，可能存在靜音(silence，圖6以sil表示)於語音單元序列的之前與之後，因此在習知技術中，常加入一個可有可無的語音單元sil(optional silence)，於語音單元序列的前、後以吸收可能出現的靜音段落。也就是說，切割模組 61將會根據語音單元序列[P6 P31 P5 P32]、語音單元序列[sil P6 P31 P5 P32]、語音單元序列[P6 P31 P5 P32 sil]、語音單元序列[sil P6 P31 P5 P32 sil]等這幾組可能出現的語音單元序列，對語音訊號40進行切割(或稱強制校準)，以取得其中較佳的一組為結果輸出。詳細來說，以語音單元序列[sil P6 P31 P5 P32 sil]這組語音單元序列為例，切割模組61將會對語音單元sil的第0個時態、第1個時態以及第2個時態所對應的基本成分聲學模型M0、基本成分聲學模型M1以及基本成分聲學模型M2、語音單元P6的第0個時態、第1個時態以及第2個時態所對應的基本成分聲學模型M10、基本成分聲學模型M11以及基本成分聲學模型M12、語音單元P31的第0個時態、第1個時態以及第2個時態所對應的基本成分聲學模型M91、基本成分聲學模型M92以及基本成分聲學模型M93、以及其他語音單元每個時態所對應的基本成分聲學模型與語音訊號40進行強制校準，以得到每個基本成分聲學模型與語音訊號40最佳的對應位置，從而可得到每個基本成分聲學模型對應於語音訊號40的子語音訊號的切割結果601。其中，每一個子語音訊號會對應至一個語音單元的時態所對應的基本成分聲學模型。

接著，請再次參考圖4A與圖4B，在語音訊號時態切割模組136b產生切割結果601之後，時態基本成分挑選模組136c，會將切割結果601中的每一個子語音訊號與語音辨識模型134中的基本成分聲學模型200進行比對。

請參照圖7，接續圖6的範例，以切割結果601中時間間隔介於時間t與時間τ的子語音訊號(亦稱為，第一子語音訊號)為例，第一子語音訊號對應至語音單元P31(亦稱為，第一語音單元)的第1個時態(亦稱為，第一時態)，且語音單元P31的第1個時態對應至基本成分聲學模型M92(亦稱為，第一基本成分聲學模型)。時態基本成分挑選模組136c會根據第一子語音訊號的特徵以及語音辨識模型134來進行比對，以從語音辨識模型134中尋找是否有匹配度比基本成分聲學模型M92更佳的基本成分聲學模型，並且從語音辨識模型134中選擇最佳基本成分聲學模型。

特別是，時態基本成分挑選模組136c可以根據下述方程式(1)來找出第一子語音訊號所對應的最佳基本成分聲學模型m ^*。

其中，o為觀測序列，即前述的語音特徵參數。λ為語音辨識模型134。m _t為語音辨識模型134的基本成分聲學模型。N為語音辨識模型134中所有基本成分聲學模型個數。由於本方法是在既有的語音辨識模型134的基本成分聲學模型中，選取最佳的基本成分聲學模型，故在此階段，語音辨識模型134的基本成分聲學模型是不改變的。也就是說，在此階段中方程式(1)中的N是不變的。

在圖7的範例實施例中，時態基本成分挑選模組136c可以根據切割結果601中所切割出的子語音訊號來與語音辨識模型 134的基本成分聲學模型進行比對。以語音單元P31為例，在切割結果601中，語音單元P31的第1時態是對應至基本成分聲學模型M92。語音單元P31的第1個時態所對應的子語音訊號(即，第一子語音訊號)的時間起點為時間t，而語音單元P31的第1個時態所對應的子語音訊號的時間終點為時間τ。透過上述方程式(1)，時態基本成分挑選模組136c會將第一子語音訊號與語音辨識模型134中的基本成分聲學模型進行比對。時態基本成分挑選模組136c會從語音辨識模型134尋找與第一子語音訊號具有最大相似度或匹配度的最佳基本成分聲學模型。在本範例實施例中，假設第一子語音訊號與基本成分聲學模型M115(亦稱為，第二基本成分聲學模型)的匹配程度大於第一子語音訊號與基本成分聲學模型M92的匹配程度。此時，時態基本成分挑選模組136c會選擇基本成分聲學模型M115為第一子語音訊號的最佳基本成分聲學模型，如圖7中的比對結果701所示。

請再次參照圖4A與圖4B，當時態基本成分挑選模組136c執行完上述的比對操作時，語音單元擴充模組136d會判斷語音單元是母語語音單元或新語音單元，並且根據判斷的結果執行不同的運作。

請參照圖8A，接續圖7，當時態基本成分挑選模組136c選擇基本成分聲學模型M115為第一子語音訊號的最佳基本成分聲學模型時，語音單元擴充模組136d會判斷第一子語音訊號所對應的語音單元P31是母語語音單元或是新語音單元。

當語音單元P31原本就是一母語語音單元時，語音單元擴充模組136d會新增一個語音單元P50(亦稱為，第二語音單元)至語音辨識模型134的語音單元中。其中，語音單元P50的第0個時態以及第2個時態會分別對應至語音單元P31的第0時態與第2時態所對應的基本成分聲學模型M91與基本成分聲學模型M93。而語音單元P50的第1個時態會對應至上述所選出的最佳基本成分聲學模型(也就是，基本成分聲學模型M115)。特別是，上述語音單元P50的第1個時態可以稱為「第二時態」，語音單元P50的第0個時態以及第2個時態可以稱為「第三時態」。語音單元P31的第0個時態與第2個時態可以稱為「第四時態」。基本成分聲學模型M91與基本成分聲學模型M93可以稱為「第三基本成分聲學模型」。此外，所新增的語音單元P50是被歸類為新語音單元。

然而，假設語音單元P31是之前新增的一新語音單元時，語音單元擴充模組136d會根據所選出的最佳基本成分聲學模型更新語音單元P31使得該語音單元P31的一時態被更新以對應至所選擇的最佳基本成分聲學模型。根據最佳基本成分聲學模型來更新新語音單元的實施例請容後詳述。

之後，請再次參照圖4A與圖4B，語音辨識系統1000在經語音單元擴充模組136d新增語音單元P50至語音辨識模型134 之後，迭代處理控制模組136e可以根據更新後的語音辨識模型134的語音單元對語音訊號40產生新的語音單元序列[P6 P50 P5 P32]。須注意的是，不同於原先語音單元序列產生模組136a所產生的語音單元序列[P6 P31 P5 P32]，語音單元P31已被取代為語音單元P50。之後，語音訊號時態切割模組136b、時態基本成分挑選模組136c以及語音單元擴充模組136d會根據新產生的語音單元序列[P6 P50 P5 P32]進行迭代操作。其中迭代操作例如是語音訊號時態切割模組136b、時態基本成分挑選模組136c以及語音單元擴充模組136d重複地執行上述語音訊號時態切割模組136b、時態基本成分挑選模組136c以及語音單元擴充模組136d的各個運作，以再次新增語音單元至語音辨識模型134或更新語音辨識模型134中的語音單元，藉以得到最佳的結果。

詳細來說，在迭代操作中，語音辨識系統1000會透過語音訊號時態切割模組136b來根據語音單元序列[P6 P50 P5 P32]的各個時態對語音訊號40切割以產生多個子語音訊號。之後，再透過時態基本成分挑選模組136c再次對切割結果中的每個子語音訊號進行最佳基本成分聲學模型的挑選。此時，可能還會改變語音單元序列[P6 P50 P5 P32]中的語音單元的基本成分聲學模型。

請參照圖8B，以語音單元P50為例，語音單元P50的第0個時態是對應至基本成分聲學模型M91。假設在執行上述的迭代操作中，當經由時態基本成分挑選模組136c執行完上述的比對操作時，語音單元P50的第0個時態所對應的最佳基本成分聲學模型是基本成分聲學模型M101。此時，由於語音單元P50是新語音單元，故語音單元擴充模組136d會根據所選出的最佳基本成分聲學模型更新語音單元P50使得語音單元P50的第0個時態對應至所選出的最佳基本成分聲學模型(即，基本成分聲學模型M101)。

此外，假設此時語音單元序列[P6 P50 P5 P32]中的語音單元P6、語音單元P5以及語音單元P32的其中之一的基本成分聲學模型改變時，由於語音單元P6、語音單元P5以及語音單元P32皆為母語語音單元，故此時語音單元擴充模組136d將需再次新增新語音單元至語音辨識模型134中。

之後，請再次參照圖4A與圖4B，假設在經由上述的迭代操作後，語音單元序列[P6 P50 P5 P32]中的語音單元的基本成分聲學模型已不會再改變時，則語音辨識系統1000會執行品質檢驗模組136f。

請參照圖9，品質檢驗模組136f包括大詞彙語音辨識器90、語音單元序列分數估算模組92以及語音辨識模型還原模組94。

大詞彙語音辨識器90具有大量的詞彙，例如20萬個詞彙。而當語音訊號40的「today」輸入至大詞彙語音辨識器90時，大詞彙語音辨識器90可以輸出對應於語音訊號40的最佳辨識結果的詞彙(假定為中文的「土地」)、對應的語音單元序列(亦稱為，第三語音單元序列，假定為[P6 P27 P5 P26])、與對應的分數(亦稱為，第二分數)，此第二分數代表從大詞彙語音辨識器90所具有的詞彙中辨識出語音訊號40所得的最佳分數。語音單元序列分數估算模組92用以根據語音單元序列[P6 P50 P5 P32]以及語音訊號40計算對應於語音訊號40的分數(亦稱為，第一分數)。此第一分數代表使用語音單元序列[P6 P50 P5 P32]來辨識出語音訊號40所獲得的分數。當上述的第一分數小於第二分數時，代表使用語音單元序列[P6 P50 P5 P32]來表示語音訊號40是不合適的，也表示新產生的語音單元P50有可能有品質不佳的問題，品質檢驗模組136f的語音辨識模型還原模組94會刪除語音辨識模型134中的語音單元P50。此時，會返回執行語音單元序列產生模組136a。語音單元序列產生模組136a會先確認詞彙之語音單元序列記錄表136i中是否有與詞彙41對應的其他語音單元序列可用。倘若詞彙之語音單元序列記錄表136i中沒有與詞彙41對應的其他語音單元序列可用，則取用根據音標42轉換所產生的其他語音單元序列中(或藉由語音辨識對語音訊號40進行辨識所產生的其他語音單元序列中)，未曾被使用過的語音單元序列的其中之一。之後，再度執行前述語音訊號時態切割模組136b、時態基本成分挑選模組136c、語音單元擴充模組136d、迭代處理控制模組136e、品質檢驗模組136f等模組的運作。

倘若語音單元序列產生模組136a已無任何其他語音單元序列可取用，或其所產生的其他語音單元序列皆已被使用過，則表示大詞彙語音辨識器90所輸出對應於語音訊號40的最佳辨識結果的第三語音單元序列[P6 P27 P5 P26]，為語音訊號40最佳的表示。換句話說，可使用此第三語音單元序列[P6 P27 P5 P26]來做為語音訊號40的標示。之後，詞彙之語音單元序列記錄更新模組136h會將詞彙41「today」與所對應的第三語音單元序列[P6 P27 P5 P26]儲存至詞彙之語音單元序列記錄表136i中並且結束圖4A與圖4B的運作。

然而，當上述的第一分數大於第二分數時，代表語音單元序列[P6 P50 P5 P32]對於語音訊號40來說，可以得到較大詞彙語音辨識器90所辨識出之結果更佳的分數，也表示「today」以語音單元序列[P6 P50 P5 P32]表示不會與大詞彙語音辨識器90所具有的多個詞彙混淆，因此則可以結束品質檢驗模組136f的運作。

在執行完上述品質檢驗模組136f的運作後，請再次參照圖4A與圖4B，若第一分數大於第二分數時，語音辨識系統1000才會執行基本成分組成更新模組136g。詳細來說，上述分析程序會根據語音訊號40產生新的語音單元P50。然而，語音辨識系統1000還可以蒐集多個由同一人或不同人所錄製的關於詞彙41「today」的語音訊號以進行上述的分析。因此，在辨識由同一人或不同人所錄製的關於詞彙41「today」的語音訊號後，可能會分別地新增一個語音單元P50至語音辨識模型134。此時，可以藉由基本成分組成更新模組136g來對多個語音單元P50來進行正規化以產生一個正規化後的語音單元P50。

請參照圖10，基本成分組成更新模組136g包括基本成分分數正規化模組1001、基本成分正規化分數累積與更新模組1003以及語音辨識模型更新模組1005。

詳細來說，對於每一個語音單元P50，基本成分組成更新模組136g的基本成分分數正規化模組1001會根據語音單元P50中各個時態所對應的基本成分聲學模型來計算對應於語音單元P50中各個時態的基本成分正規化分數。

例如，以圖8A中右側的語音單元P50為例，基本成分分數正規化模組1001會根據語音單元P50的第1個時態所對應的基本成分聲學模型排序結果(亦稱為，第一基本成分聲學模型排序結果)計算對應於語音單元P50的第1個時態的多個第一基本成分正規化分數。其中，「基本成分聲學模型排序結果」代表在時態基本成分挑選模組136b的比對過程中，語音辨識模型134中的多個基本成分聲學模型與語音單元P50的第1個時態的子語音訊號的匹配程度的排序。例如，與語音單元P50的第1個時態的子語音訊號的匹配程度最高的基本成分聲學模型會被排列在基本成分聲學模型排序結果的第一個。與語音單元P50的第1個時態的子語音訊號的匹配程度次高的基本成分聲學模型被排列在基本成分聲學模型排序結果的第二個。與語音單元P50的第1個時態的子語音訊號的匹配程度為第三高的基本成分聲學模型被排列在基本成分聲學模型排序結果的第三個，以此類推。

特別是，被排列在基本成分聲學模型排序結果的第一個的基本成分聲學模型會被給予一個基本成分正規化分數「N/N」。N代表語音辨識模型134中基本成分聲學模型的個數。也就是說，被排列在基本成分聲學模型排序結果的第一個的基本成分聲學模型的基本成分正規化分數的數值是等於「1」。

此外，被排列在基本成分聲學模型排序結果的第二個的基本成分聲學模型會被給予一個基本成分正規化分數「(N-1)/N」。被排列在基本成分聲學模型排序結果的第三個的基本成分聲學模型會被給予一個基本成分正規化分數「(N-2)/N」，以此類推。而被排列在基本成分聲學模型排序結果的最後一個的基本成分聲學模型會被給予一個基本成分正規化分數「1/N」。

類似地，基本成分分數正規化模組1001會根據語音單元P50的第0個時態的基本成分聲學模型排序結果計算對應於語音單元P50的第0個時態的多個基本成分正規化分數，且基本成分分數正規化模組1001也會根據語音單元P50的第2個時態的基本成分聲學模型排序結果計算對應於語音單元P50的第2個時態的多個基本成分正規化分數。而根據基本成分聲學模型排序結果計算對應於語音單元P50的第0個時態與第2個時態的多個基本成分正規化分數的方式可以相同於前述計算語音單元P50的第1個時態的多個第一基本成分正規化分數的方法，故在此並不再贅述。特別是，對應於語音單元P50的第0個時態的多個基本成分正規化分數以及對應於語音單元P50的第2個時態的多個基本成分正規化分數可以統稱為「第二基本成分正規化分數」。

之後，基本成分組成更新模組136g更用以根據上述的第一基本成分正規化分數更新所述第二時態與基本成分聲學模型之間的對應關係，以及根據第二基本成分正規化分數更新第三時態與基本成分聲學模型之間的對應關係。

具體來說，在基本成分分數正規化模組1001的運作之後，基本成分正規化分數累積與更新模組1003會產生一個基本成分組成記錄表。

請參照圖11，假設基本成分組成記錄表11111中的子表格1101是記錄根據語音訊號Utt-1所產生的語音單元P50的第0個時態的基本成分聲學模型排序結果(由大到小)以及基本成分聲學模型排序結果中各個基本成分聲學模型所對應的基本成分正規化分數。例如，子表格1101記錄根據語音訊號Utt-1所產生的語音單元P50的第0個時態中，與該時態的匹配度最高的基本成分聲學模型是基本成分聲學模型M101，而基本成分聲學模型M101的正規化分數的數值為「1」。此外，子表格1101還記錄根據語音訊號Utt-1所產生的語音單元P50的第0個時態中，與該時態的匹配度是次高的基本成分聲學模型是基本成分聲學模型M90，而基本成分聲學模型M90的正規化分數的數值為「0.9935」。以此類推。

類似地，子表格1103中是記錄語音訊號Utt-1所產生的語音單元P50的第1個時態的基本成分聲學模型排序結果以及基本成分聲學模型排序結果中各個基本成分聲學模型所對應的基本成分正規化分數。子表格1104中是記錄語音訊號Utt-1所產生的語音單元P50的第2個時態的基本成分聲學模型排序結果以及基本成分聲學模型排序結果中各個基本成分聲學模型所對應的基本成分正規化分數。

此外，基本成分分數正規化模組1001也會根據語音訊號Utt-2產生語音單元P50的第0個時態的基本成分聲學模型排序結果以及各個基本成分聲學模型所對應的基本成分正規化分數。此時，基本成分正規化分數累積與更新模組1003會為每一個基本成分聲學模型計算一個新的正規化分數，並根據新的正規化分數來來重新排序以產生一個新的基本成分聲學模型排序結果。其中，所述新的正規化分數是將一個基本成分聲學模型根據語音訊號Utt-1所產生的基本成分正規化分數加上此基本成分聲學模型根據語音訊號Utt-2所產生的基本成分正規化分數。

舉例來說，假設在語音訊號Utt-1的第0個時態中，基本成分聲學模型M101的正規化分數的數值為「1」，而在語音訊號Utt-2的第0個時態中，基本成分聲學模型M101的正規化分數的數值為「0.9804」。此時，基本成分聲學模型M101的新的正規化分數的數值會被記錄為「1.9804」。類似地，假設在語音訊號Utt-1的第0個時態中，基本成分聲學模型M90的正規化分數的數值為「0.9935」，而在語音訊號Utt-2的第0個時態中，基本成分聲學模型M90的正規化分數的數值為「1」。此時，基本成分聲學模型M90的新的正規化分數的數值會被記錄為「1.9935」。以此類推。

當經由上述方式計算完各個基本成分聲學模型的新的正規化分數後，基本成分正規化分數累積與更新模組1003會根據此些新的正規化分數進行排序並將排序後的結果紀錄於子表格1102中。可以看到的是，子表格1102中的基本成分聲學模型M90是語音單元P50的第0個時態在正規化後匹配度最高的基本成分聲學模型。

此外，基本成分正規化分數累積與更新模組1003可以根據語音訊號Utt-3、語音訊號Utt-4以及語音訊號Utt-5重複的進行上述的運算。在完成上述的運算後，最後可以看到的是，在子表格1105中，語音單元P50的第0個時態在正規化後匹配度最高的基本成分聲學模型是基本成分聲學模型M101。

此外，語音單元P50的第1個時態以及語音單元P50的第2個時態也可以根據語音訊號Utt-2、語音訊號Utt-3、語音訊號Utt-4以及語音訊號Utt-5重複的進行上述的運算。在完成上述的運算後，最後可以看到的是，在子表格1106中，語音單元P50的第1個時態在正規化後匹配度最高的基本成分聲學模型是基本成分聲學模型M41。在子表格1107中，語音單元P50的第2個時態在正規化後匹配度最高的基本成分聲學模型是基本成分聲學模型M93。

請參照圖12，語音辨識模型更新模組1005會根據上述基本成分正規化分數累積與更新模組1003的正規化的結果，將語音單元P50的第0個時態對應至基本成分聲學模型M101，將語音單元P50的第1個時態對應至基本成分聲學模型M41以及將語音單元P50的第2個時態對應至基本成分聲學模型M93。之後，語音辨識模型更新模組1005會將語音單元P50正規化後的各個時態的對應關係儲存至語音辨識模型134中。接著，詞彙之語音單元序列記錄更新模組136h會將詞彙41「today」與所對應的語音單元序列儲存至詞彙之語音單元序列記錄表136i中。之後結束圖4A與圖4B中各個模組的運作。

詳細來說，透過上述運作，由於藉由同一人或不同人所錄製的關於詞彙41「today」的語音訊號40可能有腔調與發音的差異，亦可能產生不相同的語音單元序列，因此，詞彙之語音單元序列記錄更新模組136h還可以儲存這些相異的語音單元序列至詞彙之語音單元序列記錄表136i之中。換句話說，同一詞彙可以對應到多個不同的語音單元序列，即所謂的多重發音(multi-pronunciation)。

在經過前述非母語的詞彙的新增之後，即可定義外來語的語音單元序列，並建構其所需的新語音單元，因此，除了可辨識母語詞彙，圖1的語音辨識系統1000也可以應用於辨識新增的外來語的詞彙。

請參照圖13，在圖13中，語音辨識系統1000中的分析擴充模組136可以執行上述圖4A與圖4B中各個模組的運作。在經由前述圖4A與圖4B中各個模組的運作之後，可在語音辨識系統1000的語音辨識模型134中新增可描述外來語詞彙或非母語詞彙所需的新語音單元，並可由新增的過程中，將非母語詞彙加入至分析擴充模組136中的詞彙之語音單元序列記錄表136i。因此，可由非母語的語音單元序列來辨識非母語詞彙。

特別是，母語/非母語辨識詞彙功能模組138可由詞彙之語音單元序列記錄表136i中抽取(或取得)母語或非母語詞彙的語音單元序列來辨識母語或非母語的詞彙。此外，語音辨識系統1000中的語音辨識器142可以藉由母語/非母語辨識詞彙功能模組138以及語音辨識模型134來執行語音辨識的功能。也就是說，語音辨識系統1000可以接收語音訊號(亦稱為，第一語音訊號)來進行語音辨識。例如，語音辨識器142會透過母語/非母語辨識詞彙功能模組138從詞彙之語音單元序列記錄表136i取得母語/非母語詞彙的語音單元序列。之後，語音辨識器142會結合語音辨識模型134與從語音單元序列記錄表136i中所取得的母語/非母語詞彙的語音單元序列，建構語音辨識器142所需要的「辨識搜尋網路(search-networks)」。之後，再進行語音辨識並且輸出對應的辨識結果。在另一實施例中，語音辨識器142可進一步結合文法/語言模型140、語音辨識模型134與從語音單元序列記錄表136i中所取得的母語/非母語詞彙的語音單元序列，建構語音辨識器142所需要的「辨識搜尋網路(search-networks)」。至於如何透過母語/非母語辨識詞彙功能模組138、文法/語言模型140與語音辨識模型134來執行語音辨識功能的實作細節可以由習知技術所得知，在此便不再贅述。

圖14是依據一範例實施例所繪示之語音辨識方法的流程圖。

請參照圖14，在步驟S1401中，儲存單元130會儲存語音辨識模型，此語音辨識模型具有多個語音單元以及多個基本成分聲學模型，其中每一語音單元具有至少一時態，每一時態對應到所述基本成分聲學模型的至少其中之一。在步驟S1403中，輸入模組132輸入第一語音訊號。在步驟S1405中，母語/非母語辨識詞彙功能模組138從分析擴充模組136取得母語/非母語詞彙的語音單元序列。在步驟S1407中，語音辨識器142根據語音辨識模型134與母語/非母語詞彙的語音單元序列，對第一語音訊號進行辨識並輸出辨識結果。在步驟S1409中，分析擴充模組136根據語音辨識模型134以及由輸入模組137所輸入的一第二語音訊號與對應於該第二語音訊號的一詞彙從基本成分聲學模型中選擇最佳基本成分聲學模型，並根據此最佳基本成分聲學模型更新語音單元。在此須說明的是，圖14中並不用於限定步驟S1403、步驟S1405、步驟S1407以及步驟S1409之間的執行順序。在一範例實施例中，也可以先執行步驟S1409，之後再執行步驟S1403、步驟S1405以及步驟S1407。

圖15是依據一範例實施例所繪示之應用於分析擴充模組的方法的流程圖。其中，圖14的步驟S1409的實施細節可以由圖15來進行說明。

請參照圖15，首先在步驟S1501中，語音單元序列產生模組136a會根據語音辨識模型的語音單元產生對應於所輸入的第二語音訊號的第一語音單元序列，其中此第一語音單元序列包括上述語音單元中的第一語音單元。接著，在步驟S1503中，語音訊號時態切割模組136b會根據上述第二語音訊號的多個特徵與第一語音單元序列對第二語音訊號進行切割以產生多個子語音訊號，其中此些子語音訊號中的第一子語音訊號對應至第一語音單元的時態中的第一時態，且第一時態對應至基本成分聲學模型中的第一基本成分聲學模型。之後，在步驟S1505中，時態基本成分挑選模組136c用以將第一子語音訊號與基本成分聲學模型進行比對，當第一子語音訊號與基本成分聲學模型中的第二基本成分聲學模型的匹配程度大於第一子語音訊號與第一基本成分聲學模型的匹配程度時，選擇第二基本成分聲學模型為最佳基本成分聲學模型。在步驟S1507中，語音單元擴充模組136d判斷第一語音單元是母語語音單元或新語音單元。

當第一語音單元是母語語音單元時，在步驟S1509中，語音單元擴充模組136d會新增第二語音單元至上述的語音單元中，其中此第二語音單元的時態包括第二時態以及第三時態，第二時態對應至最佳基本成分聲學模型且第三時態對應至第一語音單元的時態中的第四時態所對應的第三基本成分聲學模型。

當第一語音單元是新語音單元時，在步驟S1511中，語音單元擴充模組136d更用以根據最佳基本成分聲學模型更新上述語音單元中的第一語音單元為第二語音單元，其中此第二語音單元的時態包括第二時態以及第三時態，第二時態對應至最佳基本成分聲學模型且第三時態對應至第一語音單元的時態中的第四時態所對應的第三基本成分聲學模型。

之後，在步驟S1513中，迭代處理控制模組136e根據更新後的語音單元產生對應於第二語音訊號的第二語音單元序列，其中此第二語音單元序列包括第二語音單元，其中語音訊號時態切割模組136b、時態基本成分挑選模組136c以及語音單元擴充模組136d會根據此第二語音單元序列進行迭代操作以更新語音單元。

之後，在步驟S1515中，品質檢驗模組136f根據第二語音單元序列計算對應於第二語音訊號的第一分數，並判斷第一分數是否小於第二語音訊號的最佳辨識結果的第二分數。

當第一分數小於第二分數時，在步驟S1517中，品質檢驗模組136f會刪除語音單元中的第二語音單元。

當第一分數非小於第二分數時，在步驟S1519中，品質檢驗模組136f會保留語音單元中的第二語音單元，且基本成分組成更新模組136g會根據第二語音單元的第二時態所對應的第一基本成分聲學模型排序結果計算對應於第二時態的多個第一基本成分正規化分數以及根據第二語音單元的第三時態所對應的第二基本成分聲學模型排序結果計算對應於第三時態的多個第二基本成分正規化分數。基本成分組成更新模組136g根據第一基本成分正規化分數更新第二語音單元的第二時態與基本成分聲學模型之間的對應關係，以及根據第二基本成分正規化分數更新第二語音單元的第三時態與基本成分聲學模型之間的對應關係。

綜上所述，本揭露的語音辨識系統、語音辨識方法與電腦程式產品可以在不錄製大量非母語語料以及不重新訓練聲學模型的情況下來辨識非母語的詞彙。特別是，在新增用於辨識非母語的詞彙的語音單元時，所新增的語音單元並不會影響原本母語的辨識效能。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。