TWI441163B

TWI441163B - 中文語音辨識裝置及其辨識方法

Info

Publication number: TWI441163B
Application number: TW100142341A
Authority: TW
Inventors: Jyh Her Yang; Chen Yu Chang; Ming Chieh Liu; Yih Ru Wang; Yuan Fu Liao; Sin Horng Chen
Original assignee: Univ Nat Chiao Tung
Priority date: 2011-05-10
Filing date: 2011-11-18
Publication date: 2014-06-11
Also published as: TW201246185A; US9190051B2; US20120290302A1

Description

中文語音辨識裝置及其辨識方法

本發明係有關一種辨識技術，特別是關於一種中文語音辨識裝置及其辨識方法。

韻律輔助語音辨認是近幾年來重要的研究議題。韻律是指在連續語音中的超音段(suprasegmental)的特徵現象，如重音、聲調、停頓、語調及節奏等；如果將韻律現象以物理特性表現出，通常會出現在語音中音高軌跡、能量強度、語音長度及停頓的變化之中。而且韻律與各種層次的語言特徵參數有高度的關聯性，從音素(phone)、音節(syllable)、詞(word)、片語(phrase)到句子(sentence)甚至是更高層次的語言參數，由於它們之間的關係，所以韻律資訊對於提升語音辨認的準確度是會有幫助的。

從過去韻律輔助語音辨認的文獻中，歸納出如第1圖的語音模型產生裝置方塊圖，其包含一韻律模式訓練器10、一特徵參數抽取器12與一人工標記韻律語料庫14。運作上，人工標記韻律語料庫14是輸入語音資料，然後請專家標記韻律標籤；特徵參數抽取器12是根據人工標記韻律語料庫14抽取出頻譜特徵參數、各種層次之語言特徵參數及韻律聲學特徵參數；韻律模式訓練器10是根據特徵參數抽取器12的各種輸出特徵參數，與人工標記韻律語料庫14中找出的韻律線索或事件，如音高重音(pitch accent)及語調短語(intonational phrase)邊界等韻律線索，建立韻律相依聲學模型、韻律相依語言模型及韻律模型，以描述不同層次之語言特徵參數上的韻律線索與及其韻律聲學特徵參數的關係。

上述這些方法主要的限制在於缺乏大量具可靠及多元韻律標記的大型語料庫，因此只能使用一些少量且十分明顯的韻律線索，因而導致對語音辨認效能的改善十分有限。

因此，本發明係在針對上述之困擾，提出一種中文語音辨識裝置及其辨識方法，以解決習知所產生的問題。

本發明之主要目的，在於提供一種中文語音辨識裝置及其辨識方法，其係利用韻律狀態模型、韻律停頓模型、音節韻律模型及音節間韻律模型，來改善中文搶詞及聲調的問題，並同時提升中文字、詞、基本音節的辨識率，亦標記出詞類、標點符號、韻律停頓及韻律狀態等標籤，日後可供後級語音轉換及語音合成所需的韻律結構與語言資訊。

為達上述目的，本發明提供一種中文語音辨識裝置，包含存有一因子化語言模型(Factored Language Model)之一語言模型儲存器、產生一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型與一音節間韻律聲學模型之一階層式韻律模型產生器與一語音辨識器，語音辨識器係接收一語音訊號，以對其進行辨識後，輸出一格狀詞組(word lattice)。上述元件皆連接一重新計分器，其係接收格狀詞組，且重新計分器根據韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與因子化語言模型，重新計算格狀詞組中詞弧上的分數，將其重新排名，以輸出語音訊號對應之一語言標籤、一韻律標籤與一音段標記。

本發明亦提供一種中文語音辨識方法，首先，接收一語音訊號，以對其進行辨識後，輸出一格狀詞組。接著，接收格狀詞組，且根據一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型、一音節間韻律聲學模型與一因子化語言模型，重新計算格狀詞組中詞弧上的分數，將其重新排名，以輸出語音訊號對應之一語言標籤、一韻律標籤與一音段標記，便完成辨識方法。

茲為使貴審查委員對本發明之結構特徵及所達成之功效更有進一步之瞭解與認識，謹佐以較佳之實施例圖及配合詳細之說明，說明如後：

為了介紹本發明之最佳實施例，以式(1)來表示，此式(1)是用來解碼出最佳的語言標籤Λ_l ={W,POS,PM}、韻律標籤Λ_p ={B,P}，與音段標記γ _S ：

式(1)中的P (B | Λ_l )、P (P|B)、P (X |γ _S ,Λ_p ,Λ_l )、P (Y,Z |γ _S ,Λ_p ,Λ_l )分別表示韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型。其中，為詞序列，為詞類序列，為標點符號序列，M 為語音訊號之詞之總數量，為韻律停頓序列，P={p,q,r}為韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為語音訊號之音節之總數量，韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數。

以下請參閱第1圖，本發明包含一語言模型儲存器16，其係存有複數型態的語言模型，包含一因子化語言模型(Factored Language Model)，其係模擬詞、詞類及標點符號，以提供不同層次的語言參數來幫助預估韻律模型。另有一階層式韻律模型產生器18，其係產生複數型態的韻律模型，包含上述之韻律停頓模型、韻律狀態模型、音節韻律聲學模型與音節間韻律聲學模型，以改善中文搶詞及聲調之問題。此外，更利用一語音辨識器20接收一語音訊號。由於語音辨識器20存有一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model)，因此可藉此對語音訊號進行辨識，以輸出一格狀詞組(word lattice)。語言模型儲存器16、階層式韻律模型產生器18與語音辨識器20皆連接一重新計分器22，其係接收格狀詞組，且重新計分器22根據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型、因子化語言模型與式(2)，重新計算格狀詞組中詞弧上的分數，將其重新排名，以輸出語音訊號對應之上述之語言標籤Λ_l 、韻律標籤Λ_p 與音段標記γ _S ，此不但可提升中文字、詞、基本音節的辨識率，亦標記出詞類、標點符號、韻律停頓及韻律狀態等標籤，日後可供後級語音轉換及語音合成所需的韻律結構與語言資訊。

其中S =[p ₁ ,...,p ₁₆ ]是一個向量，p ₁ ~p ₁₆ 為依據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與因子化語言模型所構成之16個機率，Λ_a =[α ₁ ,...,α ₁₆ ]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。

請同時參閱第3圖與第4圖。階層式韻律模型產生器更包含一原始語料庫24，其係存有複數聲音檔及其文字內容。原始語料庫24連接一特徵參數抽取器26，其係依據聲音檔與文字內容，抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量之相關複數韻律聲學參數輸出之，其中低層次語言參數包含聲調t、基本音節s與韻母f；高層次語言參數則包含詞序列W、詞類序列POS與標點符號序列PM。另有一中文韻律階層結構儲存器28，其係存有複數種韻律成分與複數種韻律停頓標籤，每一韻律停頓標籤係區分每一韻律成分。在此實施例中，韻律停頓標籤以四種為例，如第4圖所示，即第一類韻律停頓B0/B1、第二類韻律停頓B2、第三類韻律停頓B3、第四類韻律停頓B4，又韻律成分包含音節SYL、韻律詞PW、韻律片語PPh與呼吸群組BG或韻律片語群組PG兩者之其一者。特徵參數抽取器26與中文韻律階層結構儲存器28連接一韻律模式訓練器32，其係擷取韻律停頓標籤、低層次語言參數、高層次語言參數、音高、音節長度與韻律能量之相關韻律聲學參數，以藉此預估韻律聲學特徵參數序列Xp、韻律狀態序列P與韻律停頓序列B，並使韻律狀態序列P與韻律停頓序列B藉由相關之韻律聲學特徵參數序列Xp強化之。韻律模式訓練器32以最大似然性原則(maximum likelihood criterion)調整韻律狀態序列P與韻律停頓序列B，以藉此與韻律聲學特徵參數序列Xp、以依次序最佳化演算法(sequential optimal algorithm)訓練出韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型輸出之，且自動標記韻律狀態序列P與韻律停頓序列B於語音訊號上。本發明利用大型未標記韻律的原始語料庫24，進行韻律標記及建立韻律模式，不但省時間又省成本。

以下介紹各模型，首先介紹因子化語言模型，其係以式(3)表示：

其中w _i 為第i 個詞，pos _i 為第i 個詞類標籤，pm _i 為第i 個標點符號標籤。

韻律停頓模型以式(4)表示：

其中L _n 為第n個音節的文本相關的語言特徵參數。

韻律狀態模型以式(5)表示：

其中p _n 、q _n 、r _n 分別為第n個音節的音節音高層次、音節長度層次與音節能量層次。

音節韻律聲學模型以式(6-1)表示：

其中sp為音高輪廓，sd為音節長度，se為音節能量，sp _n 、sd _n 、se _n 、t _n 、s _n 、f _n 分別為第n個音節的音高輪廓、音節長度、音節能量、聲調、基本音節與韻母。

、P (sd _n |q _n ,s _n ,t _n )、P (se _n |r _n ,f _n ,t _n )分別為第n個音節的音高輪廓、音節長度、音節能量之子模型。；和。在本實施例中，這三個子模型各考慮了多個影響因子，這些影響因子並以加成方式去結合一塊，以第n 個音節的音高輪廓為例，可得式(6-2)：

其中sp _n 為一四維正交化係數用以表達第n 個音節觀察到的音高輪廓，為正規化的sp _n ，和分別為聲調和韻律狀態的影響因子，和為向前及向後連音影響因子，μ _sp 為音高的全域平均值。基於假設為零平均值和正規分佈，所以以常態分佈來表示，可得式(6-3)：音節長度P (sd _n |q _n ,s _n ,t _n )及能量層次P (se _n |r _n ,f _n ,t _n )亦是以此方式去實現。

音節間韻律聲學模型以式(7-1)表示：

其中pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序，dl、df皆為正規化音高拉長因子，且pd _n 、ed _n 、pj _n 分別為在第n個音節所跟隨的接合點(juncture)的短停頓長度、能量下降程度、正規化音高差序，dl _n 、df _n 皆為在第n個音節所跟隨的接合點的正規化音高拉長因子。pj _n 、dl _n 、df _n 分別以式(7-2)、(7-3)、(7-4)定義之：

其中sp _n (1)為sp _n 的第一維度(即音節音高平均值)；為聲調影響因子的第一維度。

上述pd _n 以Gamma分佈模擬外，其他四種模型皆以常態分佈模擬；因為對韻律停頓而言，Λ_l,n 的空間仍是太大，所以將Λ_l,n 分成幾類，然後同時估計Gamma及常態分佈的參數。

上述四種韻律模型所使用的分佈及方法可視實際情況調整，而非用來限制本發明之範圍。

以下介紹本發明之兩階段式運作過程，請參閱第2圖。首先，語音辨認器20接收語音訊號，以利用基礎聲學模型與雙連文語言模型對其進行辨識後，輸出格狀詞組。接著，重新計分器22接收格狀詞組，且根據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型、因子化語言模型與式(2)，重新計算格狀詞組中詞弧上的分數，將其重新排名，以輸出語音訊號對應之語言標籤Λ_l 、韻律標籤Λ_p 與音段標記γ _S 。

以下介紹階層式韻律模組產生器18產生韻律停頓模型、韻律狀態模型、音節韻律聲學模型與音節間韻律聲學模型之過程，請繼續參閱第3圖。首先，特徵參數抽取器26依據原始語料庫24中的複數聲音檔及其文字內容，抽取低層次語言參數、高層次語言參數、音高、音節長度與韻律能量輸出之。接著，韻律模式訓練器32從中文韻律階層結構儲存器28與特徵參數抽取器26擷取韻律停頓標籤、低層次語言參數、高層次語言參數、音高、音節長度與韻律能量，以藉此預估韻律聲學特徵參數序列Xp、韻律狀態序列P與韻律停頓序列B，並使韻律狀態序列P與韻律停頓序列B藉由相關之韻律聲學特徵參數序列Xp強化之。最後，韻律模式訓練器32以最大似然性原則調整韻律狀態序列P與韻律停頓序列B，以藉此與韻律聲學特徵參數序列Xp、以依次序最佳化演算法訓練出韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型輸出之，且自動標記韻律狀態序列P與韻律停頓序列B於語音訊號上。

當韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型皆被訓練出來後，其係與低層次語言參數、高層次語言參數、韻律狀態序列P、韻律停頓序列B、音節韻律聲學特徵參數X、音節間之韻律聲學特徵參數Y、音節間之差分特徵參數Z所建立的關係如第5圖所示。由圖可知，高層次語言參數係藉式(4)之韻律停頓模型得到韻律停頓序列B；韻律停頓序列B與高層次語言參數藉由式(7-1)之音節間韻律聲學模型係得到音節間之韻律聲學特徵參數Y、音節間之差分特徵參數Z；韻律停頓序列B藉由式(5)之韻律狀態模型係得到韻律狀態序列P；以及韻律狀態序列P、韻律停頓序列B與低層次語言參數藉由式(6)之音節韻律聲學模型得到音節韻律聲學特徵參數X。

下表一為語音辨認的實驗結果，它是在多語者中文連續語音資料庫中，實地測試第2圖實施例之語者不相關辨認結果。此資料庫包含303個語者，隨機從中挑選約90%其包含274個語者約23小時的語料來訓練系統，剩餘約10%的部分其包含29個語者約2.43小時當作測試語料，但是為了觀察豐富標記輸出的結果，本發明挑選出長文部分其包含19個語者約2小時來做系統測試。由表一看出本發明比只使用因子化語言模型的基礎系統有更好的效能，本發明在詞、字和基本音節的錯誤率分別是20.7%、14.4%和9.6%，當此結果與基礎系統作比較時，其絕對的錯誤下降率分別為3.7%、3.7%和2.4%(或相對錯誤下降為15.2%、20.4%和20%)。

表二為詞類解碼的實驗結果，其基礎系統的精確度、召回率及F量測分別為93.4%、76.4%及84.0%；而本發明分別為93.4%、80.0%及86.2%。表三為標點符號解碼的實驗結果，其基礎系統的精確度、召回率及F量測分別為55.2%、37.8%及44.8%；而本發明分別為61.2%、53.0%及56.8%。表四為聲調解碼的實驗結果，其基礎系統的精確度、召回率及F量測分別為87.9%、87.5%及87.7%；而本案發明分別為91.9%、91.6%及91.7%。

本發明之聲音波形及其對應之各種語音標記結果範例如第6圖所示。在第6圖中，由上依序而下分別為範例音檔之聲音波形、音高層次之韻律狀態、音節長度層次之韻律狀態、音節能量層次之韻律狀態、韻律停頓的標記(不含B0與B1，為簡潔表示)、範例音檔之正確內容文字、根據韻律停頓的標記所建構出來的範例音檔之語法片語結構、解碼出的詞彙、解碼出的詞類及標點符號及符號意義表示。

此聲音波形的時間單位為秒，其中表示三角形的符號為短停頓(short pause,sp)，由波形可以觀察出有四個韻律片語(PPh)，而本實施例也確實解碼出四個PPh由B3所分開出來，每一個PPh甚至解碼出韻律詞的結果(PW)是由B2所區分出來，如語法片語結構所示；從音高層次之韻律狀態中可以觀察出，在B3位置時出現重大的音高重置現象；在音節長度層次之韻律狀態中，B2-3的位置顯示出前一個音節長度有拉長現象，由這些標記結果顯示韻律停頓與韻律狀態呈現出階層式韻律結構。

綜上所述，本發明利用兩階段方式重新計分，不但能提升基本語音辨識率，更標記出語言、韻律、音段等標籤，以供後續使用。

以上所述者，僅為本發明一較佳實施例而已，並非用來限定本發明實施之範圍，故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾，均應包括於本發明之申請專利範圍內。

10‧‧‧韻律模式訓練器

12‧‧‧特徵參數抽取器

14‧‧‧人工標記韻律語料庫

16‧‧‧語言模型儲存器

18‧‧‧階層式韻律模型產生器

20‧‧‧語音辨識器

22‧‧‧重新計分器

24‧‧‧原始語料庫

26‧‧‧特徵參數抽取器

28‧‧‧中文韻律階層結構儲存器

32‧‧‧韻律模式訓練器

第1圖為先前技術之語音模型產生裝置方塊圖

第2圖為本發明之裝置方塊圖。

第3圖為本發明之階層式韻律模型產生器方塊圖。

第4圖為本發明之韻律成分與韻律停頓標籤之示意圖。

第5圖為本發明之韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與各種語音參數關係示意圖。

第6圖為本發明之聲音波形及其對應之各種語音標記示意圖。

16．．．語言模型儲存器

18．．．階層式韻律模型產生器

20．．．語音辨識器

22．．．重新計分器

Claims

一種中文語音辨識裝置，包含：一語言模型儲存器，可存放複數型態的語言模型，包含一因子化語言模型(Factored Language Model)；一階層式韻律模型產生器，可產生複數型態的韻律模型，包含一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型與一音節間韻律聲學模型；一語音辨識器，接收一語音訊號，以對其進行辨識後，輸出一格狀詞組(word lattice)；以及一重新計分器，連接該語言模型儲存器、該階層式韻律模型產生器與該語音辨識器，以接收該格狀詞組，且該重新計分器根據該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型，重新計算該格狀詞組中詞弧上的分數，將其重新排名，以輸出該語音訊號對應之一語言標籤、一韻律標籤與一音段標記。
如請求項1所述之中文語音辨識裝置，其中該階層式韻律模型產生器更包含：一原始語料庫，存有複數聲音檔及其文字內容；一特徵參數抽取器，連接該原始語料庫，並依據該些聲音檔與該文字內容，抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量之相關複數韻律聲學參數輸出之；一中文韻律階層結構儲存器，其係存有複數種韻律成分與複數種韻律停頓標籤，該些韻律停頓標籤係區分每一該韻律成分；以及一韻律模式訓練器，連接該特徵參數抽取器與該中文韻律階層結構儲存器，並擷取該些韻律停頓標籤、該些低層次語言參數、該些高層次語言參數、該音高、該音節長度與該韻律能量之相關該些韻律聲學參數，以藉此預估一韻律聲學特徵參數序列Xp、一韻律狀態序列P與一韻律停頓序列B，該韻律模式訓練器更調整該韻律狀態序列P與該韻律停頓序列B，以藉此與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型輸出之，且自動標記該韻律狀態序列P與該韻律停頓序列B於該語音訊號上。
如請求項2所述之中文語音辨識裝置，其中該些韻律成分包含音節、韻律詞、韻律片語與呼吸群組或韻律片語群組兩者之其一者。
如請求項2所述之中文語音辨識裝置，其中該韻律模式訓練器以最大似然性原則(maximum likelihood criterion)調整該韻律狀態序列P與該韻律停頓序列B。
如請求項2所述之中文語音辨識裝置，其中該韻律模式訓練器以依次序最佳化演算法(sequential optimal algorithm)，並藉該韻律狀態序列P、該韻律停頓序列B與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型。
如請求項2所述之中文語音辨識裝置，其中該因子化語言模型係以下列公式表示：，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，w _i 為第i 個該詞，pos _i 為第i 個詞類標籤，pm _i 為第i 個標點符號標籤。
如請求項2所述之中文語音辨識裝置，其中該韻律停頓模型，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，L _n 為第n個該音節的文本相關的語言特徵參數。
如請求項2所述之中文語音辨識裝置，其中該韻律狀態模型P (P|B)=P (p|B)P (q|B)P (r|B)=，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，p _n 、q _n 、r _n 分別為第n個該音節的該音節音高層次、該音節長度層次與該音節能量層次。
如請求項8所述之中文語音辨識裝置，其中該音節韻律聲學模型P (X |γ _S ,Λ_p ,Λ_l )=P (sp|γ _S ,B,p,t)P (sd|γ _S ,B,q,t,s)P (se|γ _S ,B,r,t,f)，其中該些低層次語言參數包含聲調t、基本音節s與韻母f，該些高層次語言參數包含該詞序列W、該詞類序列POS與該標點符號序列PM，sp為音高輪廓，sd為音節長度，se為音節能量，sp _n 、sd _n 、se _n 、t _n 、s _n 、f _n 分別為第n個該音節的該音高輪廓、該音節長度、該音節能量、該聲調、該基本音節與該韻母。
如請求項2所述之中文語音辨識裝置，其中該音節間韻律聲學模型P (Y,Z |γ _S ,Λ_p ,Λ_l )=P (pd,ed,pj,dl,df||γ _S ,Λ_p ,Λ_l )=，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序，dl、df皆為正規化音高拉長因子，且pd _n 、ed _n 、pj _n 分別為在第n個該音節所跟隨的接合點的該短停頓長度、該能量下降程度、該正規化音高差序，dl _n 、df _n 皆為在第n個該音節所跟隨的接合點的該正規化音高拉長因子。
如請求項1所述之中文語音辨識裝置，其中該語音辨識器存有一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model)，並藉此對該語音訊號進行辨識，以輸出該格狀詞組。
如請求項11所述之中文語音辨識裝置，其中該重新計分器係利用下列公式重新計算該分數：，其中S =[p ₁ ,...,p ₁₆ ]是一個向量，p ₁ ~p ₁₆ 為依據該基礎聲學模型、該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型所構成16個機率，Λ_a =[α ₁ ,...,α ₁₆ ]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。
一種中文語音辨識方法，包含下列步驟：接收一語音訊號，以對其進行辨識後，輸出一格狀詞組(word lattice)；以及接收該格狀詞組，且根據一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型、一音節間韻律聲學模型與一因子化語言模型，重新計算該格狀詞組中詞弧上的分數，將其重新排名，以輸出該語音訊號對應之一語言標籤、一韻律標籤與一音段標記。
如請求項13所述之中文語音辨識方法，其中該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型與該音節間韻律聲學模型之產生方法，包含下列步驟：依據複數聲音檔及其文字內容，抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量輸出之；擷取區隔複數種韻律成分之複數種韻律停頓標籤、該些低層次語言參數、該些高層次語言參數、該音高、該音節長度與該韻律能量，以藉此預估一韻律聲學特徵參數序列Xp、一韻律狀態序列P與一韻律停頓序列B；以及調整該韻律狀態序列P與該韻律停頓序列B，以藉此與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型輸出之，且自動標記該韻律狀態序列P與該韻律停頓序列B於該語音訊號上。
如請求項14所述之中文語音辨識方法，其中該些韻律成分包含音節、韻律詞、韻律片語與呼吸群組或韻律片語群組兩者之其一者。
如請求項14所述之中文語音辨識方法，其中在調整該韻律狀態序列P與該韻律停頓序列B之步驟中，係以最大似然性原則(maximum likelihood criterion)實行之。
如請求項14所述之中文語音辨識方法，其中在藉該韻律狀態序列P、該韻律停頓序列B與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型之步驟中，係以依次序最佳化演算法(sequential optimal algorithm)訓練之。
如請求項14所述之中文語音辨識方法，其中該因子化語言模型係以下列公式表示：，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，w _i 為第i 個該詞，pos _i 為第i 個詞類標籤，pm _i 為第i 個標點符號標籤。
如請求項14所述之中文語音辨識方法，其中該韻律停頓模型，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，L _n 為第n個該音節的文本相關的語言特徵參數。
如請求項14所述之中文語音辨識方法，其中該韻律狀態模型P (P|B)=P (p|B)P (q|B)P (r|B)=，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，p _n 、q _n 、r _n 分別為第n個該音節的該音節音高層次、該音節長度層次與該音節能量層次。
如請求項20所述之中文語音辨識方法，其中該音節韻律聲學模型P (X |γ _S ,Λ_p ,Λ_l )=P (sp|γ _S ,B,p,t)P (sd|γ _S ,B,q,t,s)P (se|γ _S ,B,r,t,f)，其中該些低層次語言參數包含聲調t、基本音節s與韻母f，該些高層次語言參數包含該詞序列W、該詞類序列POS與該標點符號序列PM，sp為音高輪廓，sd為音節長度，se為音節能量，sp _n 、sd _n 、se _n 、t _n 、s _n 、f _n 分別為第n個該音節的該音高輪廓、該音節長度、該音節能量、該聲調、該基本音節與該韻母。
如請求項14所述之中文語音辨識方法，其中該音節間韻律聲學模型P (Y,Z |γ _S ,Λp ,Λl )=P (pd,ed,pj,dl,df||γ _S ,Λ_p ,Λ_l )=，其中該語言標籤Λ_l ={W,POS,PM}，該韻律標籤Λ_p ={B,P}，該音段標記γ _S ，且為詞序列，為詞類序列，為標點符號序列，M 為該語音訊號之詞之總數量，為該韻律停頓序列，P={p,q,r}為該韻律狀態序列，p為音節音高層次，q為音節長度層次，r為音節能量層次，N 為該語音訊號之音節之總數量，該韻律聲學特徵參數序列Xp={X,Y,Z}，X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數，pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序，dl、df皆為正規化音高拉長因子，且pd _n 、ed _n 、pj _n 分別為在第n個該音節所跟隨的接合點的該短停頓長度、該能量下降程度、該正規化音高差序，dl _n 、df _n 皆為在第n個該音節所跟隨的接合點的該正規化音高拉長因子。
如請求項13所述之中文語音辨識方法，其中在對該語音訊號進行辨識之步驟中，係藉一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model)辨識之。
如請求項23所述之中文語音辨識方法，其中在重新計算該分數之步驟中，係利用下列公式：，其中S =[p ₁ ,...,p ₁₆ ]是一個向量，p ₁ ~p ₁₆ 為依據該基礎聲學模型、該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型所構成16個機率，Λ_a =[α ₁ ,...,α ₁₆ ]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。