TWI441163B - 中文語音辨識裝置及其辨識方法 - Google Patents
中文語音辨識裝置及其辨識方法 Download PDFInfo
- Publication number
- TWI441163B TWI441163B TW100142341A TW100142341A TWI441163B TW I441163 B TWI441163 B TW I441163B TW 100142341 A TW100142341 A TW 100142341A TW 100142341 A TW100142341 A TW 100142341A TW I441163 B TWI441163 B TW I441163B
- Authority
- TW
- Taiwan
- Prior art keywords
- prosody
- sequence
- syllable
- model
- acoustic
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000033764 rhythmic process Effects 0.000 claims description 68
- 239000000284 extract Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims 2
- 239000011295 pitch Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 235000015096 spirit Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
本發明係有關一種辨識技術,特別是關於一種中文語音辨識裝置及其辨識方法。
韻律輔助語音辨認是近幾年來重要的研究議題。韻律是指在連續語音中的超音段(suprasegmental)的特徵現象,如重音、聲調、停頓、語調及節奏等;如果將韻律現象以物理特性表現出,通常會出現在語音中音高軌跡、能量強度、語音長度及停頓的變化之中。而且韻律與各種層次的語言特徵參數有高度的關聯性,從音素(phone)、音節(syllable)、詞(word)、片語(phrase)到句子(sentence)甚至是更高層次的語言參數,由於它們之間的關係,所以韻律資訊對於提升語音辨認的準確度是會有幫助的。
從過去韻律輔助語音辨認的文獻中,歸納出如第1圖的語音模型產生裝置方塊圖,其包含一韻律模式訓練器10、一特徵參數抽取器12與一人工標記韻律語料庫14。運作上,人工標記韻律語料庫14是輸入語音資料,然後請專家標記韻律標籤;特徵參數抽取器12是根據人工標記韻律語料庫14抽取出頻譜特徵參數、各種層次之語言特徵參數及韻律聲學特徵參數;韻律模式訓練器10是根據特徵參數抽取器12的各種輸出特徵參數,與人工標記韻律語料庫14中找出的韻律線索或事件,如音高重音(pitch accent)及語調短語(intonational phrase)邊界等韻律線索,建立韻律相依聲學模型、韻律相依語言模型及韻律模型,以描述不同層次之語言特徵參數上的韻律線索與及其韻律聲學特徵參數的關係。
上述這些方法主要的限制在於缺乏大量具可靠及多元韻律標記的大型語料庫,因此只能使用一些少量且十分明顯的韻律線索,因而導致對語音辨認效能的改善十分有限。
因此,本發明係在針對上述之困擾,提出一種中文語音辨識裝置及其辨識方法,以解決習知所產生的問題。
本發明之主要目的,在於提供一種中文語音辨識裝置及其辨識方法,其係利用韻律狀態模型、韻律停頓模型、音節韻律模型及音節間韻律模型,來改善中文搶詞及聲調的問題,並同時提升中文字、詞、基本音節的辨識率,亦標記出詞類、標點符號、韻律停頓及韻律狀態等標籤,日後可供後級語音轉換及語音合成所需的韻律結構與語言資訊。
為達上述目的,本發明提供一種中文語音辨識裝置,包含存有一因子化語言模型(Factored Language Model)之一語言模型儲存器、產生一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型與一音節間韻律聲學模型之一階層式韻律模型產生器與一語音辨識器,語音辨識器係接收一語音訊號,以對其進行辨識後,輸出一格狀詞組(word lattice)。上述元件皆連接一重新計分器,其係接收格狀詞組,且重新計分器根據韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與因子化語言模型,重新計算格狀詞組中詞弧上的分數,將其重新排名,以輸出語音訊號對應之一語言標籤、一韻律標籤與一音段標記。
本發明亦提供一種中文語音辨識方法,首先,接收一語音訊號,以對其進行辨識後,輸出一格狀詞組。接著,接收格狀詞組,且根據一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型、一音節間韻律聲學模型與一因子化語言模型,重新計算格狀詞組中詞弧上的分數,將其重新排名,以輸出語音訊號對應之一語言標籤、一韻律標籤與一音段標記,便完成辨識方法。
茲為使 貴審查委員對本發明之結構特徵及所達成之功效更有進一步之瞭解與認識,謹佐以較佳之實施例圖及配合詳細之說明,說明如後:
為了介紹本發明之最佳實施例,以式(1)來表示,此式(1)是用來解碼出最佳的語言標籤Λ l
={W,POS,PM}、韻律標籤Λ p
={B,P},與音段標記γ S
:
式(1)中的P
(B | Λ l
)、P
(P|B)、P
(X |γ S
,Λ p
,Λ l
)、P
(Y,Z |γ S
,Λ p
,Λ l
)分別表示韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型。其中,為詞序列,為詞類序列,為標點符號序列,M
為語音訊號之詞之總數量,為韻律停頓序列,P={p,q,r}為韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N
為語音訊號之音節之總數量,韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲
學特徵參數、Z為一音節間之差分特徵參數。
以下請參閱第1圖,本發明包含一語言模型儲存器16,其係存有複數型態的語言模型,包含一因子化語言模型(Factored Language Model),其係模擬詞、詞類及標點符號,以提供不同層次的語言參數來幫助預估韻律模型。另有一階層式韻律模型產生器18,其係產生複數型態的韻律模型,包含上述之韻律停頓模型、韻律狀態模型、音節韻律聲學模型與音節間韻律聲學模型,以改善中文搶詞及聲調之問題。此外,更利用一語音辨識器20接收一語音訊號。由於語音辨識器20存有一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model),因此可藉此對語音訊號進行辨識,以輸出一格狀詞組(word lattice)。語言模型儲存器16、階層式韻律模型產生器18與語音辨識器20皆連接一重新計分器22,其係接收格狀詞組,且重新計分器22根據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型、因子化語言模型與式(2),重新計算格狀詞組中詞弧上的分數,將其重新排名,以輸出語音訊號對應之上述之語言標籤Λ l
、韻律標籤Λ p
與音段標記γ S
,此不但可提升中文字、詞、基本音節的辨識率,亦標記出詞類、標點符號、韻律停頓及韻律狀態等標籤,日後可供後級語音轉換及語音合成所需的韻律結構與語言資訊。
其中S
=[p 1
,...,p 16
]是一個向量,p 1
~p 16
為依據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與
因子化語言模型所構成之16個機率,Λ a
=[α 1
,...,α 16
]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。
請同時參閱第3圖與第4圖。階層式韻律模型產生器更包含一原始語料庫24,其係存有複數聲音檔及其文字內容。原始語料庫24連接一特徵參數抽取器26,其係依據聲音檔與文字內容,抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量之相關複數韻律聲學參數輸出之,其中低層次語言參數包含聲調t、基本音節s與韻母f;高層次語言參數則包含詞序列W、詞類序列POS與標點符號序列PM。另有一中文韻律階層結構儲存器28,其係存有複數種韻律成分與複數種韻律停頓標籤,每一韻律停頓標籤係區分每一韻律成分。在此實施例中,韻律停頓標籤以四種為例,如第4圖所示,即第一類韻律停頓B0/B1、第二類韻律停頓B2、第三類韻律停頓B3、第四類韻律停頓B4,又韻律成分包含音節SYL、韻律詞PW、韻律片語PPh與呼吸群組BG或韻律片語群組PG兩者之其一者。特徵參數抽取器26與中文韻律階層結構儲存器28連接一韻律模式訓練器32,其係擷取韻律停頓標籤、低層次語言參數、高層次語言參數、音高、音節長度與韻律能量之相關韻律聲學參數,以藉此預估韻律聲學特徵參數序列Xp、韻律狀態序列P與韻律停頓序列B,並使韻律狀態序列P與韻律停頓序列B藉由相關之韻律聲學特徵參數序列Xp強化之。韻律模式訓練器32以最大似然性原則(maximum likelihood criterion)調整韻律狀態序列P與韻律停頓序列B,以藉此與韻律聲學特徵參數序列Xp、以依次序最佳化演算法(sequential optimal algorithm)訓練出韻律停頓模型、韻律狀態模型、音節韻律聲學模
型、音節間韻律聲學模型輸出之,且自動標記韻律狀態序列P與韻律停頓序列B於語音訊號上。本發明利用大型未標記韻律的原始語料庫24,進行韻律標記及建立韻律模式,不但省時間又省成本。
以下介紹各模型,首先介紹因子化語言模型,其係以式(3)表示:
其中w i
為第i
個詞,pos i
為第i
個詞類標籤,pm i
為第i
個標點符號標籤。
韻律停頓模型以式(4)表示:
其中L n
為第n個音節的文本相關的語言特徵參數。
韻律狀態模型以式(5)表示:
其中p n
、q n
、r n
分別為第n個音節的音節音高層次、音節長度層次與音節能量層次。
音節韻律聲學模型以式(6-1)表示:
其中sp為音高輪廓,sd為音節長度,se為音節能量,sp n
、sd n
、se n
、t n
、s n
、f n
分別為第n個音節的音高輪廓、音節長度、音節能量、聲調、基本音節與韻母。
、P
(sd n
|q n
,s n
,t n
)、P
(se n
|r n
,f n
,t n
)分別為第n個音節的音高輪廓、音節長度、音節能量之子模型。;和。在本實施例中,這三個子模型各考慮了多個影響因子,這些影響因子並以加成方式去結合一塊,以第n
個音節的音高輪廓為例,可得式(6-2):
其中sp n
為一四維正交化係數用以表達第n
個音節觀察到的音高輪廓,為正規化的sp n
,和分別為聲調和韻律狀態的影響因子,和為向前及向後連音影響因子,μ sp
為音高的全域平均值。基於假設為零平均值和正規分佈,所以以常態分佈來表示,可得式(6-3):
音節長度P
(sd n
|q n
,s n
,t n
)及能量層次P
(se n
|r n
,f n
,t n
)亦是以此方式去實現。
音節間韻律聲學模型以式(7-1)表示:
其中pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序,dl、df皆為正規化音高拉長因子,且pd n
、ed n
、pj n
分別為在第n個音節所跟隨的接合點(juncture)的短停頓長度、能量下降程度、正規化音高差序,dl n
、df n
皆為在第n個音節所跟隨的接合點的正規化音高拉長因子。pj n
、dl n
、df n
分別以式(7-2)、(7-3)、(7-4)定義之:
其中sp n
(1)為sp n
的第一維度(即音節音高平均值);為聲調影響因子的第一維度。
上述pd n
以Gamma分佈模擬外,其他四種模型皆以常態分佈模擬;因為對韻律停頓而言,Λ l,n
的空間仍是太大,所以將Λ l,n
分成幾類,然後同時估計Gamma及常態分佈的參數。
上述四種韻律模型所使用的分佈及方法可視實際情況調整,而非用來限制本發明之範圍。
以下介紹本發明之兩階段式運作過程,請參閱第2圖。首先,語音辨認器20接收語音訊號,以利用基礎聲學模型與雙連文語言模型對其進行辨識後,輸出格狀詞組。接著,重新計分器22接收格狀詞組,且根據基礎聲學模型、韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型、因子化語言模型與式(2),重新計算格狀詞組中詞弧上的分數,
將其重新排名,以輸出語音訊號對應之語言標籤Λ l
、韻律標籤Λ p
與音段標記γ S
。
以下介紹階層式韻律模組產生器18產生韻律停頓模型、韻律狀態模型、音節韻律聲學模型與音節間韻律聲學模型之過程,請繼續參閱第3圖。首先,特徵參數抽取器26依據原始語料庫24中的複數聲音檔及其文字內容,抽取低層次語言參數、高層次語言參數、音高、音節長度與韻律能量輸出之。接著,韻律模式訓練器32從中文韻律階層結構儲存器28與特徵參數抽取器26擷取韻律停頓標籤、低層次語言參數、高層次語言參數、音高、音節長度與韻律能量,以藉此預估韻律聲學特徵參數序列Xp、韻律狀態序列P與韻律停頓序列B,並使韻律狀態序列P與韻律停頓序列B藉由相關之韻律聲學特徵參數序列Xp強化之。最後,韻律模式訓練器32以最大似然性原則調整韻律狀態序列P與韻律停頓序列B,以藉此與韻律聲學特徵參數序列Xp、以依次序最佳化演算法訓練出韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型輸出之,且自動標記韻律狀態序列P與韻律停頓序列B於語音訊號上。
當韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型皆被訓練出來後,其係與低層次語言參數、高層次語言參數、韻律狀態序列P、韻律停頓序列B、音節韻律聲學特徵參數X、音節間之韻律聲學特徵參數Y、音節間之差分特徵參數Z所建立的關係如第5圖所示。由圖可知,高層次語言參數係藉式(4)之韻律停頓模型得到韻律停頓序列B;韻律停頓序列B與高層次語言參數藉由式(7-1)之音節間韻律聲學模型係得到音節間之韻律聲學特徵參數Y、音節間之差分特徵參數Z;韻律停
頓序列B藉由式(5)之韻律狀態模型係得到韻律狀態序列P;以及韻律狀態序列P、韻律停頓序列B與低層次語言參數藉由式(6)之音節韻律聲學模型得到音節韻律聲學特徵參數X。
下表一為語音辨認的實驗結果,它是在多語者中文連續語音資料庫中,實地測試第2圖實施例之語者不相關辨認結果。此資料庫包含303個語者,隨機從中挑選約90%其包含274個語者約23小時的語料來訓練系統,剩餘約10%的部分其包含29個語者約2.43小時當作測試語料,但是為了觀察豐富標記輸出的結果,本發明挑選出長文部分其包含19個語者約2小時來做系統測試。由表一看出本發明比只使用因子化語言模型的基礎系統有更好的效能,本發明在詞、字和基本音節的錯誤率分別是20.7%、14.4%和9.6%,當此結果與基礎系統作比較時,其絕對的錯誤下降率分別為3.7%、3.7%和2.4%(或相對錯誤下降為15.2%、20.4%和20%)。
表二為詞類解碼的實驗結果,其基礎系統的精確度、召回率及F量測分別為93.4%、76.4%及84.0%;而本發明分別為93.4%、80.0%及86.2%。表三為標點符號解碼的實驗結果,其基礎系統的精確度、召回率及F量測分別為55.2%、37.8%及44.8%;而本發明分別為61.2%、53.0%及56.8%。表四為聲調解碼的實驗結果,其基礎系統的精確度、召回率及F量測分別為87.9%、87.5%及87.7%;而本案發明分別為91.9%、91.6%及91.7%。
本發明之聲音波形及其對應之各種語音標記結果範例如第6圖所示。在第6圖中,由上依序而下分別為範例音檔之聲音波形、音高層次之韻律狀態、音節長度層次之韻律狀態、音節能量層次之韻律狀態、韻律停頓的標記(不含B0與B1,為簡潔表示)、範例音檔之正確內容文字、根據韻律停頓的標記所建構出來的範例音檔之語法片語結構、解碼出的詞彙、解碼出的詞類及標點符號及符號意義表示。
此聲音波形的時間單位為秒,其中表示三角形的符號為短停頓(short pause,sp),由波形可以觀察出有四個韻律片語(PPh),而本實施例也確實解碼出四個PPh由B3所分開出來,每一個PPh甚至解碼出韻律詞的結果(PW)是由B2所區分出來,如語法片語結構所示;從音高層次之韻律狀態中可以觀察出,在B3位置時出現重大的音高重置現象;在音節長度層次之韻律狀態中,B2-3的位置顯示出前一個音節長度有拉長現象,由這些標
記結果顯示韻律停頓與韻律狀態呈現出階層式韻律結構。
綜上所述,本發明利用兩階段方式重新計分,不但能提升基本語音辨識率,更標記出語言、韻律、音段等標籤,以供後續使用。
以上所述者,僅為本發明一較佳實施例而已,並非用來限定本發明實施之範圍,故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾,均應包括於本發明之申請專利範圍內。
10‧‧‧韻律模式訓練器
12‧‧‧特徵參數抽取器
14‧‧‧人工標記韻律語料庫
16‧‧‧語言模型儲存器
18‧‧‧階層式韻律模型產生器
20‧‧‧語音辨識器
22‧‧‧重新計分器
24‧‧‧原始語料庫
26‧‧‧特徵參數抽取器
28‧‧‧中文韻律階層結構儲存器
32‧‧‧韻律模式訓練器
第1圖為先前技術之語音模型產生裝置方塊圖
第2圖為本發明之裝置方塊圖。
第3圖為本發明之階層式韻律模型產生器方塊圖。
第4圖為本發明之韻律成分與韻律停頓標籤之示意圖。
第5圖為本發明之韻律停頓模型、韻律狀態模型、音節韻律聲學模型、音節間韻律聲學模型與各種語音參數關係示意圖。
第6圖為本發明之聲音波形及其對應之各種語音標記示意圖。
16...語言模型儲存器
18...階層式韻律模型產生器
20...語音辨識器
22...重新計分器
Claims (24)
- 一種中文語音辨識裝置,包含:一語言模型儲存器,可存放複數型態的語言模型,包含一因子化語言模型(Factored Language Model);一階層式韻律模型產生器,可產生複數型態的韻律模型,包含一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型與一音節間韻律聲學模型;一語音辨識器,接收一語音訊號,以對其進行辨識後,輸出一格狀詞組(word lattice);以及一重新計分器,連接該語言模型儲存器、該階層式韻律模型產生器與該語音辨識器,以接收該格狀詞組,且該重新計分器根據該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型,重新計算該格狀詞組中詞弧上的分數,將其重新排名,以輸出該語音訊號對應之一語言標籤、一韻律標籤與一音段標記。
- 如請求項1所述之中文語音辨識裝置,其中該階層式韻律模型產生器更包含:一原始語料庫,存有複數聲音檔及其文字內容;一特徵參數抽取器,連接該原始語料庫,並依據該些聲音檔與該文字內容,抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量之相關複數韻律聲學參數輸出之; 一中文韻律階層結構儲存器,其係存有複數種韻律成分與複數種韻律停頓標籤,該些韻律停頓標籤係區分每一該韻律成分;以及一韻律模式訓練器,連接該特徵參數抽取器與該中文韻律階層結構儲存器,並擷取該些韻律停頓標籤、該些低層次語言參數、該些高層次語言參數、該音高、該音節長度與該韻律能量之相關該些韻律聲學參數,以藉此預估一韻律聲學特徵參數序列Xp、一韻律狀態序列P與一韻律停頓序列B,該韻律模式訓練器更調整該韻律狀態序列P與該韻律停頓序列B,以藉此與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型輸出之,且自動標記該韻律狀態序列P與該韻律停頓序列B於該語音訊號上。
- 如請求項2所述之中文語音辨識裝置,其中該些韻律成分包含音節、韻律詞、韻律片語與呼吸群組或韻律片語群組兩者之其一者。
- 如請求項2所述之中文語音辨識裝置,其中該韻律模式訓練器以最大似然性原則(maximum likelihood criterion)調整該韻律狀態序列P與該韻律停頓序列B。
- 如請求項2所述之中文語音辨識裝置,其中該韻律模式訓練器以依次序最佳化演算法(sequential optimal algorithm),並藉該韻律狀態序列P、該韻律停頓序列B與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型。
- 如請求項2所述之中文語音辨識裝置,其中該因子化語言模型係以下列公式表示:
- 如請求項2所述之中文語音辨識裝置,其中該韻律停頓模型,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,L n 為第n個該音節的文本相關的語言特徵參數。
- 如請求項2所述之中文語音辨識裝置,其中該韻律狀態模型P (P|B)=P (p|B)P (q|B)P (r|B)=,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,p n 、q n 、r n 分別為第n個該音節的該音節音高層次、該音節長度層次與該音節能量層次。
- 如請求項8所述之中文語音辨識裝置,其中該音節韻律聲學模型P (X |γ S ,Λ p ,Λ l )=P (sp|γ S ,B,p,t)P (sd|γ S ,B,q,t,s)P (se|γ S ,B,r,t,f),其中該些低層次語言參數包含聲調t、基本音節s與韻母f,該些高層次語言參數包含該詞序列W、該詞類序列POS與該標點符號序列PM,sp為音高輪廓,sd為音節長度,se為音節能量,sp n 、sd n 、se n 、t n 、s n 、f n 分別為第n個該音節的該音高輪廓、該音節長度、該音節能量、該聲調、該基本音節與該韻母。
- 如請求項2所述之中文語音辨識裝置,其中該音節間韻律聲學模型P (Y,Z |γ S ,Λ p ,Λ l )=P (pd,ed,pj,dl,df||γ S ,Λ p ,Λ l )=,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序,dl、df皆為正規化音高拉長因子,且pd n 、ed n 、pj n 分別為在第n個該音節所跟隨的接合點的該短停頓長度、該能量下降程度、該正規化音高差序,dl n 、df n 皆為在第n個該音節所跟隨的接合點的該正規化音高拉長因子。
- 如請求項1所述之中文語音辨識裝置,其中該語音辨識器存有一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model),並藉此對該語音訊號進行辨識,以輸出該格狀詞組。
- 如請求項11所述之中文語音辨識裝置,其中該重新計分器係利用下列公式重新計算該分數:,其中S =[p 1 ,...,p 16 ]是一個向量,p 1 ~p 16 為 依據該基礎聲學模型、該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型所構成16個機率,Λ a =[α 1 ,...,α 16 ]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。
- 一種中文語音辨識方法,包含下列步驟:接收一語音訊號,以對其進行辨識後,輸出一格狀詞組(word lattice);以及接收該格狀詞組,且根據一韻律停頓模型、一韻律狀態模型、一音節韻律聲學模型、一音節間韻律聲學模型與一因子化語言模型,重新計算該格狀詞組中詞弧上的分數,將其重新排名,以輸出該語音訊號對應之一語言標籤、一韻律標籤與一音段標記。
- 如請求項13所述之中文語音辨識方法,其中該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型與該音節間韻律聲學模型之產生方法,包含下列步驟:依據複數聲音檔及其文字內容,抽取複數種低層次語言參數、複數種高層次語言參數、一音高(pitch)、一音節長度(syllable duration)與一韻律能量輸出之;擷取區隔複數種韻律成分之複數種韻律停頓標籤、該些低層次語言參數、該些高層次語言參數、該音高、該音節長度與該韻律能量,以藉此預估一韻律聲學特徵參數序列Xp、一韻律狀態序列P與一韻律停頓序列B;以及調整該韻律狀態序列P與該韻律停頓序列B,以藉此與該韻律聲學特徵 參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型輸出之,且自動標記該韻律狀態序列P與該韻律停頓序列B於該語音訊號上。
- 如請求項14所述之中文語音辨識方法,其中該些韻律成分包含音節、韻律詞、韻律片語與呼吸群組或韻律片語群組兩者之其一者。
- 如請求項14所述之中文語音辨識方法,其中在調整該韻律狀態序列P與該韻律停頓序列B之步驟中,係以最大似然性原則(maximum likelihood criterion)實行之。
- 如請求項14所述之中文語音辨識方法,其中在藉該韻律狀態序列P、該韻律停頓序列B與該韻律聲學特徵參數序列Xp訓練出該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型之步驟中,係以依次序最佳化演算法(sequential optimal algorithm)訓練之。
- 如請求項14所述之中文語音辨識方法,其中該因子化語言模型係以下列公式表示:
- 如請求項14所述之中文語音辨識方法,其中該韻律停頓模型,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,L n 為第n個該音節的文本相關的語言特徵參數。
- 如請求項14所述之中文語音辨識方法,其中該韻律狀態模型P (P|B)=P (p|B)P (q|B)P (r|B)=,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層 次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,p n 、q n 、r n 分別為第n個該音節的該音節音高層次、該音節長度層次與該音節能量層次。
- 如請求項20所述之中文語音辨識方法,其中該音節韻律聲學模型P (X |γ S ,Λ p ,Λ l )=P (sp|γ S ,B,p,t)P (sd|γ S ,B,q,t,s)P (se|γ S ,B,r,t,f),其中該些低層次語言參數包含聲調t、基本音節s與韻母f,該些高層次語言參數包含該詞序列W、該詞類序列POS與該標點符號序列PM,sp為音高輪廓,sd為音節長度,se為音節能量,sp n 、sd n 、se n 、t n 、s n 、f n 分別為第n個該音節的該音高輪廓、該音節長度、該音節能量、該聲調、該基本音節與該韻母。
- 如請求項14所述之中文語音辨識方法,其中該音節間韻律聲學模型P (Y,Z |γ S ,Λp ,Λl )=P (pd,ed,pj,dl,df||γ S ,Λ p ,Λ l )=,其中該語言標籤Λ l ={W,POS,PM},該韻律標籤Λ p ={B,P},該音段標記γ S ,且為詞序列,為詞類序列,為標點符號序列,M 為該語音訊號之詞之總數量,為該韻律停頓序列,P={p,q,r}為該韻 律狀態序列,p為音節音高層次,q為音節長度層次,r為音節能量層次,N 為該語音訊號之音節之總數量,該韻律聲學特徵參數序列Xp={X,Y,Z},X為一音節韻律聲學特徵參數、Y為一音節間之韻律聲學特徵參數、Z為一音節間之差分特徵參數,pd、ed、pj分別為短停頓長度、能量下降程度、正規化音高差序,dl、df皆為正規化音高拉長因子,且pd n 、ed n 、pj n 分別為在第n個該音節所跟隨的接合點的該短停頓長度、該能量下降程度、該正規化音高差序,dl n 、df n 皆為在第n個該音節所跟隨的接合點的該正規化音高拉長因子。
- 如請求項13所述之中文語音辨識方法,其中在對該語音訊號進行辨識之步驟中,係藉一基礎聲學模型(acoustic model)與一雙連文語言模型(bigram language model)辨識之。
- 如請求項23所述之中文語音辨識方法,其中在重新計算該分數之步驟中,係利用下列公式:,其中S =[p 1 ,...,p 16 ]是一個向量,p 1 ~p 16 為依據該基礎聲學模型、該韻律停頓模型、該韻律狀態模型、該音節韻律聲學模型、該音節間韻律聲學模型與該因子化語言模型所構成16個機率,Λ a =[α 1 ,...,α 16 ]為利用鑑別式模型組合(discriminative model combination)演算法決定之權重向量。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100142341A TWI441163B (zh) | 2011-05-10 | 2011-11-18 | 中文語音辨識裝置及其辨識方法 |
US13/446,663 US9190051B2 (en) | 2011-05-10 | 2012-04-13 | Chinese speech recognition system and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100116350 | 2011-05-10 | ||
TW100142341A TWI441163B (zh) | 2011-05-10 | 2011-11-18 | 中文語音辨識裝置及其辨識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201246185A TW201246185A (en) | 2012-11-16 |
TWI441163B true TWI441163B (zh) | 2014-06-11 |
Family
ID=47142469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100142341A TWI441163B (zh) | 2011-05-10 | 2011-11-18 | 中文語音辨識裝置及其辨識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9190051B2 (zh) |
TW (1) | TWI441163B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI755328B (zh) * | 2021-05-24 | 2022-02-11 | 中華電信股份有限公司 | 孩童聲音偵測系統、方法及電腦可讀媒介 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US9507852B2 (en) * | 2013-12-10 | 2016-11-29 | Google Inc. | Techniques for discriminative dependency parsing |
CN105632499B (zh) | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN106326303B (zh) * | 2015-06-30 | 2019-09-13 | 芋头科技(杭州)有限公司 | 一种口语语义解析系统及方法 |
CN105185374B (zh) * | 2015-09-11 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
US9754580B2 (en) | 2015-10-12 | 2017-09-05 | Technologies For Voice Interface | System and method for extracting and using prosody features |
CN108415898B (zh) * | 2018-01-19 | 2021-09-24 | 思必驰科技股份有限公司 | 深度学习语言模型的词图重打分方法和系统 |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
TWI721516B (zh) * | 2019-07-31 | 2021-03-11 | 國立交通大學 | 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN114005438B (zh) * | 2021-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、语音识别模型的训练方法以及相关装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW325556B (en) | 1995-05-19 | 1998-01-21 | Shinn-Horng Chen | Chinese speech recognition system and method thereof |
US7761296B1 (en) | 1999-04-02 | 2010-07-20 | International Business Machines Corporation | System and method for rescoring N-best hypotheses of an automatic speech recognition system |
TW508564B (en) | 2000-05-16 | 2002-11-01 | Jia-Chi Feng | Method and system for phonetic recognition |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US7542903B2 (en) * | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US7433820B2 (en) * | 2004-05-12 | 2008-10-07 | International Business Machines Corporation | Asynchronous Hidden Markov Model method and system |
US7409346B2 (en) | 2004-11-05 | 2008-08-05 | Microsoft Corporation | Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction |
US7747437B2 (en) | 2004-12-16 | 2010-06-29 | Nuance Communications, Inc. | N-best list rescoring in speech recognition |
TWI319152B (en) | 2005-10-04 | 2010-01-01 | Ind Tech Res Inst | Pre-stage detecting system and method for speech recognition |
TWI319563B (en) | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
-
2011
- 2011-11-18 TW TW100142341A patent/TWI441163B/zh not_active IP Right Cessation
-
2012
- 2012-04-13 US US13/446,663 patent/US9190051B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI755328B (zh) * | 2021-05-24 | 2022-02-11 | 中華電信股份有限公司 | 孩童聲音偵測系統、方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
TW201246185A (en) | 2012-11-16 |
US9190051B2 (en) | 2015-11-17 |
US20120290302A1 (en) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI441163B (zh) | 中文語音辨識裝置及其辨識方法 | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
CN104464751B (zh) | 发音韵律问题的检测方法及装置 | |
Ananthakrishnan et al. | An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model | |
US20080046247A1 (en) | System And Method For Supporting Text-To-Speech | |
Jiang et al. | The ustc system for Blizzard Challenge 2010 | |
Conkie et al. | Prosody recognition from speech utterances using acoustic and linguistic based models of prosodic events | |
Koriyama et al. | On the use of extended context for HMM-based spontaneous conversational speech synthesis | |
CN113593522B (zh) | 一种语音数据标注方法和装置 | |
TW201411602A (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
Mumtaz et al. | Multitier annotation of Urdu speech corpus | |
CN111862939B (zh) | 一种韵律短语标注方法和装置 | |
Hitchcock et al. | Vowel height is intimately associated with stress accent in spontaneous american English discourse. | |
Sitaram et al. | Text to speech in new languages without a standardized orthography | |
Greenberg et al. | The relation between stress accent and vocalic identity in spontaneous American English discourse | |
Lai et al. | A hierarchical approach to automatic stress detection in English sentences | |
Hou et al. | Using cepstral and prosodic features for chinese accent identification | |
Tepperman et al. | A text-free approach to assessing nonnative intonation. | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
Braunschweiler | The prosodizer-automatic prosodic annotations of speech synthesis databases | |
Mehrabani et al. | Nativeness Classification with Suprasegmental Features on the Accent Group Level. | |
Adeeba et al. | Comparison of Urdu text to speech synthesis using unit selection and HMM based techniques | |
Li et al. | Tone Labeling by Deep Learning-based Tone Recognizer for Mandarin Speech | |
Yang et al. | Automatic phrase boundary labeling for Mandarin TTS corpus using context-dependent HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |