TWI503813B - 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 - Google Patents
可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 Download PDFInfo
- Publication number
- TWI503813B TWI503813B TW101133059A TW101133059A TWI503813B TW I503813 B TWI503813 B TW I503813B TW 101133059 A TW101133059 A TW 101133059A TW 101133059 A TW101133059 A TW 101133059A TW I503813 B TWI503813 B TW I503813B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech rate
- prosody
- speech
- pause
- rhythm
- Prior art date
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係關於一種韻律訊息產生裝置,尤指一種以語速相依之階層式韻律模組為基礎之韻律訊息產生裝置。
目前對於相異語速語音合成之討論不少,但始終不能達成一流暢的自然合成語音。其中有以每個語音音框的時間軸進行伸張及壓縮,藉以調整說話速度慢及快之研究,但並未考慮到語速對於韻律結構的影響;以線性預估的方式對輸入語音進行語速修正,對輸入的語音信號以線性插入或移除信號本身之研究,該方法雖簡易有效率,但對於語速的考量過於粗糙;以清化元音(devoiced vowel)的決定中考慮了語速影響,有效地改進清化元音在慢語速的退化程度之研究,但其韻律的產生方法並未考量語速的影響;以對不同語速語料庫建立韻律結構的轉換關係,藉以達到語速轉換的目的之研究,但該方法並不能掌握到連續語速的轉換變化;雖有文獻實現了可控制語速之TTS,首先對三種速度(快、正常、慢)各自建立音長模型,對三個音長模型以內插方式來產生目標語速所需之音長,最後結合於HMM為基礎之語音合成器,此方法僅考慮韻律之中的音長部份,並未對其他韻律參數進行語速影響調整,且由於不同語速需各自建立自己的音長模型,會使得模型參數量大增;再則它使用內插法去產生音長,無法獲得準確的語速控制;另有文獻對正常及快速語料分別建立HSMM模型,再以CMLLR對音長模型進行音長平均值的語速調適,該方法僅考慮韻律之中的音長部份,且由於不同語速需各自建立自己的音長模型,會使得模型參數量大增;及有進行大規模主觀測試三種語速控制的方法研究,分別為:(1)針對目標語速選取相近語速之語料來訓練HMM模型,(2)依比例去伸縮合成語句的發音長度,及(3)基於ML準則去決定狀態長度(state duration),這些方法都是建立於HMM-based的語音合成系統,實驗結果發現方法(2)
最適合用於快語速合成語音,而方法(1)較適合慢速語音,不同的語速控制方法都只適於某種語速,並沒有一種方法能掌握所有語速的控制。
因此,可知習知技術大多以等比例拉長或縮短各個合成單元(如音節、詞)之長度來達到語速控制,而於韻律結構、音高軌跡、停頓時間長度及停頓出現頻率方面較少著墨,並無考慮聲學韻律訊息其背後的產生模型,因此並不能以系統化的方式掌握語速對於韻律多層面的影響,進而用以產生韻律訊息;這些韻律訊息可充分應用於語音合成之語速控制,使各種語速之合成語音應用在語音合成之領域聽起來都很流利自然。
爰是之故,申請人有鑑於習知技術之缺失,乃經悉心試驗與研究,並一本鍥而不捨的精神,終發明出本案「語速相依之韻律訊息產生器及語速相依之階層式韻律模組」,用以改善上述習用手段之缺失。
本案之一面向係提供一韻律訊息產生裝置,包含一第一輸入端,用以接收一語速;一第二輸入端,用以接收一語言參數;一語速相依之韻律生成模組,用以配合該語言參數及該語速,以產生該語速相依之一韻律聲學特徵參數;及一輸出端,用以輸出與該語速相依之韻律聲學特徵參數。
本案之另一面向係提供一種語速相依之階層式韻律模組,包含至少二模型,其中各該模型係選自由一音節韻律聲學模型、一停頓聲學模型、一韻律狀態模型、一停頓語法模型及其組合之一,俾與一語速相依。
本案之又一面向係提供一種語速相依之階層式韻律模組,包含至少二參數,其中各該參數係選自由一停頓類型、一韻律狀態、一音節韻律聲學特徵參數、一音節間韻律聲學特徵參數及一音節差分韻律聲學特徵參數及其組合之一,俾該模組與一語速相依。
本發明將可由以下的實施例說明而得到充分瞭解,使得熟習本技藝之人士可以據以完成之,然本案之實施並非可由下列實施案例而被限制其實施型態。
本發明建立一個可應用於電子有聲書、手機、PDA及電腦等裝置上之考慮語速對於音長、音高軌跡、停頓時機、停頓出現頻率、停頓時長所造成的影響之語速相依之階層式韻律模組;以及基於語速相依之階層式韻律模組,可以產生出各種語速的韻律聲學特徵參數,幫助語音合成達到良好的語速控制效果。其步驟包含兩個階段:模組建立及韻律合成。模組建立階段請參閱第一圖,其中是以階層式韻律模型為基礎建立語速相依之階層式韻律模組。請參閱第二圖,韻律合成階段是語速相依之韻律聲學特徵參數產生方法階段,其中是以語速相依之階層式韻律模組為基礎,產生語音合成所需要的各種韻律聲學特徵參數,且滿足不同語速之要求。
如前所述之模組建立階段之步驟包含對語音語料庫101中的每一句話,先做音節切割,再由每一音節抽取韻律聲學特徵參數;接著由語速估計102求取音節平均長度做為語速SR;然後由語速正規化函式之建構103依據整個語音資料庫各句話的韻律聲學特徵參數對語速的統計分布來求取正規化函式;接著由韻律聲學特徵參數之語速正規化104來將韻律聲學特徵參數做正規化而獲得正規化韻律聲學特徵參數,再由修正型階層式韻律模型訓練演算法105使用整個語音語料庫每一句話的語速、語言參數、及正規化韻律聲學特徵參數來訓練獲得語速相依之階層式韻律模組106,其中修正型階層式韻律模型訓練演算法,考慮語速之進一步影響,修正原本的階層式韻律模型訓練演算法,將其中兩個子模型:停頓語法模型及韻律狀態模型,加入語速考量,藉此補償語速對停頓時機(或出現頻率)、以及韻律狀態轉移所造成之影響。
如前所述之韻律合成階段之步驟包含:首先由文字分析器201將輸入文字做斷詞及詞類標記分析,獲得語言參數,再由語速相
依之韻律聲學特徵參數產生方法202使用語言參數、語速、語速相依之階層式韻律模組204、以及語速正規化函式203來產生四種韻律聲學特徵參數。語速相依之階層式韻律模組204主要是決定整個語句的韻律架構(依據語速)及基本韻律參數合成,而語速正規化函式203是將基本韻律參數的統計特性調到指定語速的統計特性。
請參閱表一及第三圖,其分別為本發明中使用語料庫大小之統計資訊及語料庫語速之統計分佈圖。該語料庫是以一女性專業播音員依四種語速所錄製之平行語音資料庫當作實施目標,由該圖中可知四種語速所錄製之平行語音資料語速分佈在0.15-0.3second/syllable之間。
對於韻律聲學特徵參數的正規化函式建構方法,其中一般正規化方法是對每個語句各自的資料統計參數做正規化,該方法簡易且具有效率,但可能造成過度正規化,導致除了語速之外的其它影響因素亦被調整而扭曲,進而使模組建造錯誤。本發明採用一較合理之正規化方法,即使用平滑曲線去模擬每個語句的正規化參數與語速的關係,藉由這些平滑曲線來形成語速正規化函式。
對於韻律聲學特徵參數中的音節長度,採取高斯正規化的方法,並使用二階多項式曲線來模擬音節長度的標準差,如下列式子所示:
其中
為平滑化後的標準差,為語句k之音節平均長度(也就是語速),sd n 和分別代表原始音節長度和語速正規化之音節長度;和為語料庫整體的音節長度平均值與標準差。
對於停頓長度,使用Gamma分佈來表示其分佈,同樣使用二階多項式曲線來模擬語句之停頓長度平均值與標準差對語速SR的關係,其數學式子如下:
接著利用平滑化的平均值和標準差去對停頓長度pd n 做分佈正規化,其使用之公式為:
其中G(pd,α,β)為Gamma分佈的累積分佈函數(cumulative distribution function),G -1為G的反函數;
和
為Gamma函數的兩個參數的平滑值,和為由語料庫整體的停頓長度平均值和標準差所計算的Gamma函數參數。
對於音節音高軌跡,先進行正交展開(orthogonal expansion),使用四個Legendre多項式為基底,用所得到的四維正交參數來表示基頻軌跡,即,接著依每一音節聲調(lexical tone)之每一維度來正規化SR
對sp n 的影響,公式如下:
其中
分別為sp第i維、第t聲調的平滑化平均值與標準差,它們都以一階函數來表示;和為整個語料庫的sp第i維、第t聲調的平均值與標準差。
對於音節能量位階,由於它與錄音條件有很大的相關性,包含麥克風與語者距離、麥克風本身的錄音品質、錄音的環境等等因素之影響遠遠大於語速所造成的,因此本實施案例採取非語速相依的高斯正規化。
在完成參數正規化後,再對所有訓練語句以實施方塊105修正型階層式韻律模型訓練演算法來自動產生一個語速相依之階層式韻律模組,該模組包括四個子模型,用來描述觀察到的韻律聲學特徵參數、語言參數及韻律階層架構標記之間的關係。雖然我們在之前參數正規化時已把語速對韻律聲學特徵參數之影響做適當補償消除,但停頓出現的頻率及韻律狀態的轉移仍與語速有很大的相關性,因此我們以決策樹描述七種停頓類型(請參閱第四圖)出現頻率與語言參數之間的關係來修正停頓語法子模型;以及使用一階馬可夫模型來描述前一個韻律狀態和目前韻律狀態之間的轉移關係來修正韻律狀態子模
型,使所述之二個子模型與語速相依。修正型韻律模型訓練演算法為一參數最佳化問題求解的方法,在已知正規化韻律聲學特徵參數{X,Y,Z}、語言參數{L}及語速SR之情況下找到最佳的韻律標記序列T={B,PS},即下列數學式子:
其中B代表停頓標記序列,PS={p,q,r}分別為音節基頻、長度及能量位階的韻律狀態標記序列,此兩類韻律標記是用來描述第四圖所考量的中文韻律階層結構,此結構包含四種韻律成分:音節、韻律詞、韻律片語、及呼吸或韻律片語群組;韻律停頓B n 是用來描述音節n和音節n+1之間的停頓狀態,共使用七種韻律停頓狀態來描述此四種韻律成分的邊界;A={X,Y,Z}為韻律聲學特徵參數序列,其中X={sp,sd,se}、Y={pd,ed}和Z={pj,dl,df}分別代表與音節相關的韻律聲學特徵參數、音節間及差分之韻律聲學特徵參數序列;L={POS,PM,WL,t,s,f}為語言參數序列,其中{POS,PM,WL}為高階語言參數序列,POS、PM及WL分別為詞類序列、標點符號序列及詞長序列,而{t,s,f}為低階語言參數序列,t、s及f分別為聲調、基本音節類別及韻母類別序列;SR為語句之語速。詳細符號定義請參閱表二。
語速相依之階層式韻律模組可以下列方程式表示P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,SR)P(B|L,SR)。該模組包含四個子模型:音節韻律聲學模型P(X|B,PS,L)、停頓聲學模型P(Y,Z|B,L)、韻律狀態模型P(PS|B,SR)以及停頓語法模型P(B|L,SR):
如下式所示,它再以三個子模型來近似:
其中子模型、P(sd n |q n ,s n ,t n )以及P(se n |r n ,f n ,t n )分別代表第n個音節的音高軌跡、音節長度、能量位階之模型,t n 、s n 及f n 分別表示第n個音節的聲調、基本音節、及韻母類型;;和。
在本實施例中,這三個子模型各考慮了多個影響因子(Affecting Factors,AFs),這些影響因子以加成方式結合,以第n個音節的音高軌跡為例,我們可得:
其中sp n =[α 0,n ,α 1,n ,α 2,n ,α 3,n ] T 為一四維正交化係數向量,用以表示第n個音節觀察到的音高軌跡,為正規化後的殘餘值,和分別為聲調和韻律狀態兩影響因子(AF)的影響數值(Affecting Pattern,AP),和為向前及向後連音兩AF的影響數值;;μ sp 為音高的全域平均值。基於假設為零平均值之高斯常態分佈,我們可以高斯常態分佈來表示sp n 如下所示
其中N(x;μ,R)表示向量x為mean vector μ及covariance matrix R之常態分佈。
音節長度P(sd n |q n ,s n ,t n )及能量位階P(se n |r n ,f n ,t n )亦是以此方式去實現:
其中γ x 及ω x 分別代表音節長度以及音節能量位階受影響因素x的影響數值(AP)。
音節間韻律聲學模型則以五個子模型近似之,如下式所示:
其中在第n個音節所跟隨的接合點(juncture n,之後以第n個接合點表示)的停頓長度pd n 以Gamma分佈模擬,ed n 為第n個接合點的能量低點位階;pj n 為跨越第n個接合點的正規化音高差,其定義如下:
其中sp n (1)為sp n 的第一維度(即音節音高平均值),χ t 為聲調t平均音高位階;dl n 及df n 分別為跨越第n-1及第n個接合點的兩個正規化的音節拉長因子,其定義如下:
其中π x 代表影響因素x的平均音長。除了pd n 以Gamma分佈模擬外,其他四種模型皆以常態分佈模擬;因為對韻律停頓而言L n 的參數空間仍是太大,可以使用CART(Classification And Regression Trees)決策樹分類法將L n 分成幾類,然後同時估計Gamma及常態分佈的參數。
韻律狀態模型P(PS|B,SR)以三個子模型近似之,分別用來模擬音節音高、長度及能量三種韻律狀態,並以語速等分成小段bin來區
分不同語速所造成的影響,如下式所示:
其中,p n ,q n ,r n 表示音節n的音高、長度及能量韻律狀態;bin(SR(k))為語句k的語速SR(k)所屬的小段(bin)。
停頓語法模型P(B|L,SR) P(B n |L n ,SR(k))由的個步驟建構成,第一步先由CART決策樹分析演算法來估計P(B n |L n ),第二步再使用多項式曲線來模擬7種停頓類型在每個決策樹子結點的出現頻率和語速SR的關係,最後估計出P(B n |L n ,SR),其公式如下所示:
其中B n 為第k個語句第n個音節後的停頓類型,j為決策樹子結點的索引值,L n 為對應的語言參數向量,c m,j 和d m,j 為停頓類型m、子結點j的線性迴歸係數。
此修正型階層式韻律模式訓練演算法,在適當的韻律斷點和韻律狀態初始化後,是以依序最佳化程序(sequential optimization procedure)來訓練韻律模型,同時對於訓練語料以最大似然性法則(maximum likelihood criterion)來產生韻律標記及獲得語速相依之
階層式韻律模式之參數。
下列為該模組訓練之實驗結果。請參閱表三,其列出在使用不同影響因子組合下,各韻律聲學參數重建之總殘餘誤差值(Total Residual Error,TRE),即扣除各種影響因子之AP組合後,韻律聲學特徵參數殘餘值變異數與原始韻律聲學特徵參數變異數之比值,其中,加入韻律狀態之AP後,各韻律聲學特徵參數之TRE都變得非常小。
停頓時長為音節間韻律聲學子模型最重要的參數,請參閱第五圖,其顯示出七種停頓類別的平均值對語速的關係,其中在B0、B1、B2-1及B2-3四種不明顯停頓時長的類別,它們與語速相關性甚小,其餘停頓類別之停頓時長皆隨著SR呈非線性增加。而表四為對每種停頓類別計算重建停頓時長的均方根誤差,發現只有B2-2、B3及B4之誤差會比較大,這是因為這些停頓類別通常發生在MINOR BREAK或MAJOR BREAK位置,因其變異較大所以重建誤差也自然較大,此結果是在合理的範圍。
請參閱第六圖,其是用聲調AP來產生快、慢兩種語速的音高軌跡,可觀察到每一聲調的基頻軌跡受語速的影響程度皆不盡相同。
請參閱表五,其顯示一個停頓類別的標記例子,此例子對四個不同語速(由上往下語速漸慢)的平行語料標記,在此只標示出B4(@)、B3(/)及B2-2(*)三種具明顯停頓時長之類別,其顯示出語速越慢時越容易出現明顯類別的停頓,符合預期之結果。
上述各項實驗數據顯示該模組可有效地描述漢語語音韻律參數之各種變化。
對於可控制語速之韻律聲學特徵參數產生方法可經由參閱第七圖得到進一步瞭解,
其為第二圖的較詳細圖示,其是基於訓練出來的語速相依之階層式韻律模組701之可控制語速之漢語韻律聲學特徵參數產生法流程圖。方塊702為停頓標記預估器,其使用該韻律模型中的停頓語法模型來做停頓標記預估的方法:
其中L n 為輸入的語言參數,SR為指定的語速。
方塊703為韻律狀態標記預估器,其使用此韻律模型中的韻律狀態模型搭配一組額外的韻律狀態語法模型705,以維特比演算法(Viterbi algorithm)來預估之,如以下數學式所示:
其中p(p n |L n )、p(q n |L n )、p(r n |L n )為韻律狀態語法模型,它們係使用做完韻律標記之訓練語料以CART演算法實現之,為停頓標記預估結果。
有了韻律標記預估結果後,可利用韻律模型中的的音節韻律聲學模型P(PS|B,L)和停頓聲學模型P(X,Y|B,L)來產生語速正規化之韻律聲學特徵參數,再藉由語速正規化函式704之反函式來還原產生指定語速之韻律聲學特徵參數,各韻律聲學特徵參數之產生說明如下:
語速控制的停頓時長產生方法為
其中
為語速正規化之停頓時長,它使用停頓聲學模型中由和前後文參數L n 所找到的節點的Gamma分布的參數及去計算的平均值來估計;語速控制的音節音高軌跡產生方法為
其中語速正規化之基頻軌跡的預估如下面數學式所示,它是以預估之韻律標記和聲調語言參數來挑選對應的AP所疊加產生:
語速控制的音節長度產生方法如下:
其中語速正規化之音節長度是以對應的AP所疊加產生:
最後音節能量位階的產生方法為
以下為語音合成範例。本發明所產生的韻律聲學特徵參數能結合於任何語音合成器,以達到語速控制之語音合成。在此以一隱藏式馬可夫為基礎之語音合成技術
(HMM-based speech synthesis)為例將語音合成出來,此技術為習知技術,在此簡短說明其參數設定:中文的21個聲母及39個韻母都各以一個HMM表示,每個HMM包含5個HMM狀態,每一個狀態內的觀察向量包含兩個類別串:一個為維度75的頻譜參數,另一個為離散的事件來表示清音(unvoiced)或濁音(voiced)的狀態,每一個狀態皆以多變量單一高斯函數(multi-variate single Gaussian)表示其觀察機率。訓練HMM模型的方法是以習知方法(embedded-trained及決策樹方法對HMM狀態分群)訓練其參數,上述之參數設定及訓練方法可視實際情況而調整,其並非用以限制本發明之範圍。
請參閱表六,其為MOS主觀聽覺評估結果,其係經由十五位測試者聆聽三種語速各十句所做主觀音質評定的MOS分數平均,由該表中可看出合成語音在不同語速皆有不錯的聲音品質。
雖然本發明已以較佳實施例揭露如上,然其並非用以限定本發明之範圍,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者
為準。
1.一種可控制語速的韻律訊息產生裝置,包含:一第一輸入端,用以接收一語速;一第二輸入端,用以接收一語言參數;一文字分析器,用以接收一文字,以產生一語言參數;一語速相依之韻律生成模組,用以配合該語言參數及該語速,以產生該語速相依之一韻律聲學特徵參數;及一輸出端,用以輸出與該語速相依之該韻律聲學特徵參數。
2.如實施例1所述的裝置,其中根據所產生的語速相依之韻律聲學特徵參數,可使用習知之語音合成器來合成出相對應之任一指定語速之合成語音。
3.如實施例1-2所述的裝置,其中該語言參數至少包含兩參數,其中各該參數係選自由包含詞類、標點符號、詞長、聲調、基本音節類型及韻母類型及其組合之一。
4.如實施例1-3所述的裝置生,其中該語速相依之韻律生成模組包含一語速相依之階層式韻律模組、一語速相依之韻律訊息產生器、以及至少一個預估器,其中各該預估器係選自由包含一停頓標記預估器及一韻律狀態預估器。
5.如實施例1-4所述的裝置,其中該語速相依之韻律訊息產生器,根據一語速正規化函式、該語速相依之階層式韻律模組之音節
韻律聲學模型及停頓聲學模型、該韻律狀態預估結果、該停頓標記預估結果、該輸入語速及語言參數,以產生對應語速之韻律聲學特徵參數。
6.如實施例1-5所述的裝置,其中該語速正規化函式用以調整韻律聲學特徵參數的統計特性成任一語速的統計特性;其所使用的正規化參數係採用整體語料的統計分佈經平滑化而得到。
7.如實施例1-6所述的裝置,其中該語速相依之階層式韻律模組包含一音節韻律聲學模型、一停頓聲學模型、一韻律狀態模型、一停頓語法模型,俾與一語速相依。
8.如實施例1-7所述的裝置,其中該停頓標記預估器,根據該語速、該語言參數和該語速相依之階層式韻律模組之停頓語法模型而執行一停頓標記預估操作,以產生一停頓標記預估結果。
9.如實施例1-8所述的裝置,其中該韻律狀態預估器,根據該語速、該語速相依之階層式韻律模組之韻律狀態模型、一韻律狀態語法模型和該停頓標記預估結果而執行一韻律狀態預估操作,以產生一韻律狀態預估結果。
10.一種語速相依之階層式韻律模組,包含至少二子模型,其中各該子模型係選自由一音節韻律聲學模型、一停頓聲學模型、一韻律狀態模型、一停頓語法模型及其組合之一,俾與一語速相依。
11.如實施例10所述的模組,其中該語速相依之階層式韻律模組根據一漢語語音資料庫之語言參數、正規化韻律聲學參數及各
語句的語速,再以一修正型階層式韻律模型訓練演算法來建構。
12.如實施例10-11所述的模組,其中該音節韻律聲學模型、該停頓聲學模型、該韻律狀態模型及該停頓語法模型各包含至少兩種的子模型來建構。
13.如實施例10-12所述的模組,其中該正規化韻律聲學參數根據各語句之語速,使用語速正規化函式對韻律聲學參數做一正規化操作所產生。
14.如實施例10-13所述的模組,其中該修正型階層式韻律模型訓練演算法亦施用於至少一停頓語法子模型與一韻律狀態子模型。
15.如實施例10-14所述的模組,該語速相依之階層式韻律模組根據一輸入語速、一輸入語言參數於該模組中,以產生相對應之一停頓類型機率用以協助停頓標記之預估、一韻律狀態機率用以協助韻律狀態之預估、一音節韻律聲學特徵參數機率及一音節間停頓時長之機率用以協助產生一語速相依之韻律聲學特徵參數。
16.一種語速相依之階層式韻律模組,包含至少二參數,其中各該參數係選自由一停頓類型、一韻律狀態、一音節韻律聲學特徵參數、一音節間韻律聲學特徵參數及一音節差分韻律聲學特徵參數及其組合之一,俾該模組與一語速相依。
17.如實施例16所述的模組,其中該韻律狀態包含基頻韻律狀態、時長韻律狀態及能量位階韻律狀態。
18.如實施例16-17所述的模組,其中該音節韻律聲學特徵參數包含音節基頻軌跡、音節時長及音節能量位階;該音節間韻律聲學特徵參數包含停頓時長及能量低點位階;及該音節差分韻律聲學特徵參數包含基頻跳躍、時長拉長因子1及時長拉長因子2。
101‧‧‧語音資料庫
102‧‧‧語速估計
103‧‧‧語速正規化函式之建構
104‧‧‧韻律聲學特徵參數之語速正規化
105‧‧‧修正型階層式韻律模型訓練演算法
106‧‧‧語速相依之階層式韻律模組
201‧‧‧文字分析器
202‧‧‧語速相依之韻律參數產生方法
203‧‧‧語速正規化函式
204‧‧‧語速相依之階層式韻律模組
701‧‧‧語速相依之階層式韻律模組
702‧‧‧停頓標記預估器
703‧‧‧韻律狀態預估器
704‧‧‧語速正規化函式
705‧‧‧韻律狀態語法模型
706‧‧‧語速相依之韻律訊息產生器
707‧‧‧語速相依之韻律生成模組
第一圖:本案一較佳實施例之架構語速相依之階層式韻律模組流程圖。
第二圖:本案一較佳實施例之產生語速相依之韻律聲學特徵參數簡易流程圖。
第三圖:本案一較佳實施例之語料庫語速統計圖。
第四圖:本案一較佳實施例之漢語語音階層式韻律結構示意圖。
第五圖:本案一較佳實施例之七種停頓類別的停頓時長平均值對語速之關係圖。
第六圖(a)~(b):本案一較佳實施例之不同聲調之基頻軌跡於不同語速之差異圖。
第七圖:本案一較佳實施例之產生語速相依之韻律聲學特徵參數流程圖。
701‧‧‧語速相依之階層式韻律模組
702‧‧‧停頓標記預估器
703‧‧‧韻律狀態預估器
704‧‧‧語速正規化函式
705‧‧‧韻律狀態語法模型
706‧‧‧語速相依之韻律訊息產生器
707‧‧‧語速相依之韻律生成模組
Claims (18)
- 一種可控制語速的韻律訊息產生裝置,包含:一第一輸入端,用以接收一欲由一目標語句產生語音之語速;一第二輸入端,用以接收一該目標語句之語言參數;一語速相依之韻律生成模組,用以配合該語言參數及該語速,以產生該語速相依之一韻律聲學特徵參數;及一輸出端,用以輸出與該語速相依之該韻律聲學特徵參數。
- 如申請專利範圍第1項所述的裝置,其中根據所產生的語速相依之韻律聲學特徵參數,可使用習知之語音合成器來合成出相對應之任一指定語速之合成語音。
- 如申請專利範圍第1項所述的裝置,其中該語言參數至少包含兩參數,其中各該參數係選自由包含詞類、標點符號、詞長、聲調、基本音節類型及韻母類型及其組合之一。
- 如申請專利範圍第1項所述的裝置,其中該語速相依之韻律生成模組包含一語速相依之階層式韻律模組、一語速相依之韻律訊息產生器、以及至少一個預估器,其中各該預估器係選自由包含一停頓標記預估器及一韻律狀態預估器。
- 如申請專利範圍第4項所述的裝置,其中該語速相依之韻律訊息產生器,根據一語速正規化函式、該語速相依之階層式韻律模組之音節韻律聲學模型及停頓聲學模型、該韻律狀態預估結果、該停頓標記預估結果、該輸入語速及該語言參數,以產生一對應語速之韻律聲學特徵參數。
- 如申請專利範圍第5項所述的裝置,其中該語速正規化函式用以調整韻律聲學特徵參數的統計特性成任一語速的統計特性;其所使用的正規化參數係採用整體語料的統計分佈經平滑化而得到。
- 如申請專利範圍第4項所述的裝置,其中該語速相依之階層式韻律模組包含一音節韻律聲學模型、一停頓聲學模型、一韻律狀態模型、一停頓語法模型,俾與一語速相依。
- 如申請專利範圍第4項所述的裝置,其中該停頓標記預估器,根據該語速、該語言參數和該語速相依之階層式韻律模組之停頓語法模型而執行一停頓標記預估操作,以產生一停頓標記預估結果。
- 如申請專利範圍第4項所述的裝置,其中該韻律狀態預估器,根據該語速、該語速相依之階層式韻律模組之韻律狀態模型、一韻律狀態語法模型和該停頓標記預估結果而執行一韻律狀態預估操作,以產生一韻律狀態預估結果。
- 一種語速相依之階層式韻律模組,包含至少二子模型,其中各該子模型係選自由一音節韻律聲學模型、一停頓聲學模型、一韻律狀態模型、一停頓語法模型及其組合之一,俾與一語速相依。
- 如申請專利範圍第10項所述的模組,其中該語速相依之階層式韻律模組根據一漢語語音資料庫之語言參數、一正規化韻律聲學參數及各語句的語速,再以一修正型階層式韻律模型訓練 演算法來建構。
- 如申請專利範圍第10項所述的模組,其中該音節韻律聲學模型、該停頓聲學模型、該韻律狀態模型及該停頓語法模型各包含至少兩種的子模型來建構。
- 如申請專利範圍第11項所述的模組,其中該正規化韻律聲學參數根據各語句之語速,使用語速正規化函式對韻律聲學參數做一正規化操作所產生。
- 如申請專利範圍第11項所述的模組,其中該修正型階層式韻律模型訓練演算法亦施用於至少一停頓語法子模型與一韻律狀態子模型。
- 如申請專利範圍第11項所述的模組,該語速相依之階層式韻律模組根據一輸入語速、一輸入語言參數於該模組中,以產生相對應之一停頓類型機率用以協助停頓標記之預估、一韻律狀態機率用以協助韻律狀態之預估、一音節韻律聲學特徵參數機率及一音節間停頓時長之機率用以協助產生一語速相依之韻律聲學特徵參數。
- 一種語速相依之階層式韻律模組,包含至少二參數,其中各該參數係選自由一停頓類型、一韻律狀態、一音節韻律聲學特徵參數、一音節間韻律聲學特徵參數及一音節差分韻律聲學特徵參數及其組合之一,俾該模組與一語速相依。
- 如申請專利範圍第16項所述的模組,其中該韻律狀態包含基頻韻律狀態、時長韻律狀態及能量位階韻律狀態。
- 如申請專利範圍第16項所述的模組,其中該音節韻律聲學特徵參數包含音節基頻軌跡、音節時長及音節能量位階;該音節間韻律聲學特徵參數包含停頓時長及能量低點位階;及該音節差分韻律聲學特徵參數包含基頻跳躍、時長拉長因子1及時長拉長因子2。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101133059A TWI503813B (zh) | 2012-09-10 | 2012-09-10 | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 |
CN201310066969.4A CN103680491B (zh) | 2012-09-10 | 2013-03-01 | 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101133059A TWI503813B (zh) | 2012-09-10 | 2012-09-10 | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201411602A TW201411602A (zh) | 2014-03-16 |
TWI503813B true TWI503813B (zh) | 2015-10-11 |
Family
ID=50317846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101133059A TWI503813B (zh) | 2012-09-10 | 2012-09-10 | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103680491B (zh) |
TW (1) | TWI503813B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551481B (zh) * | 2015-12-21 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN105632484B (zh) * | 2016-02-19 | 2019-04-09 | 云知声(上海)智能科技有限公司 | 语音合成数据库停顿信息自动标注方法及系统 |
TWI595478B (zh) * | 2016-04-21 | 2017-08-11 | 國立臺北大學 | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 |
CN107767869B (zh) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN109036375B (zh) | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN112641535B (zh) * | 2020-12-17 | 2024-06-11 | 北京城市系统工程研究中心 | 基频可变式发声方法及自适应可变基频式电子人工喉 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994009485A1 (en) * | 1992-10-22 | 1994-04-28 | Hirsh Hanavi M | Apparatus and method for continuous speech recognition |
GB2388286A (en) * | 2002-05-01 | 2003-11-05 | Seiko Epson Corp | Enhanced speech data for use in a text to speech system |
WO2006104988A1 (en) * | 2005-03-28 | 2006-10-05 | Lessac Technologies, Inc. | Hybrid speech synthesizer, method and use |
US20100161327A1 (en) * | 2008-12-18 | 2010-06-24 | Nishant Chandra | System-effected methods for analyzing, predicting, and/or modifying acoustic units of human utterances for use in speech synthesis and recognition |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0231885A (ja) * | 1988-07-21 | 1990-02-01 | Sony Corp | 無菌超純水供給システム |
JPH06214585A (ja) * | 1993-01-18 | 1994-08-05 | Toshiba Corp | 音声合成装置 |
JPH0876782A (ja) * | 1994-09-02 | 1996-03-22 | Toshiba Corp | 音声合成装置 |
JPH11231885A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | 音声合成装置 |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
CN101051459A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
-
2012
- 2012-09-10 TW TW101133059A patent/TWI503813B/zh active
-
2013
- 2013-03-01 CN CN201310066969.4A patent/CN103680491B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994009485A1 (en) * | 1992-10-22 | 1994-04-28 | Hirsh Hanavi M | Apparatus and method for continuous speech recognition |
GB2388286A (en) * | 2002-05-01 | 2003-11-05 | Seiko Epson Corp | Enhanced speech data for use in a text to speech system |
WO2006104988A1 (en) * | 2005-03-28 | 2006-10-05 | Lessac Technologies, Inc. | Hybrid speech synthesizer, method and use |
US20100161327A1 (en) * | 2008-12-18 | 2010-06-24 | Nishant Chandra | System-effected methods for analyzing, predicting, and/or modifying acoustic units of human utterances for use in speech synthesis and recognition |
Also Published As
Publication number | Publication date |
---|---|
TW201411602A (zh) | 2014-03-16 |
CN103680491A (zh) | 2014-03-26 |
CN103680491B (zh) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
TWI595478B (zh) | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 | |
US6101470A (en) | Methods for generating pitch and duration contours in a text to speech system | |
TWI573129B (zh) | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 | |
TWI503813B (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
CN105374350B (zh) | 语音标注方法及装置 | |
CN102201234B (zh) | 一种基于音调自动标注及预测的语音合成方法 | |
CN103928023A (zh) | 一种语音评分方法及系统 | |
KR100932538B1 (ko) | 음성 합성 방법 및 장치 | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
Qian et al. | Improved prosody generation by maximizing joint probability of state and longer units | |
CN105654939A (zh) | 一种基于音向量文本特征的语音合成方法 | |
KR20170107683A (ko) | 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법 | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和系统 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
CN101178895A (zh) | 基于生成参数听感误差最小化的模型自适应方法 | |
TWI721516B (zh) | 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法 | |
Chen et al. | An investigation of implementation and performance analysis of DNN based speech synthesis system | |
CN104376850A (zh) | 一种汉语耳语音的基频估计方法 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
CN104318920A (zh) | 具有谱稳定边界的跨音节中文语音合成基元构建方法 | |
CN102122505A (zh) | 一种提高语音合成系统表现力的建模方法 | |
Wang et al. | Speaker adaptation of speaking rate-dependent hierarchical prosodic model for Mandarin TTS | |
Pitrelli et al. | Expressive speech synthesis using American English ToBI: questions and contrastive emphasis |