TWI402824B - 中文自發性語音合成中發音變異產生之方法 - Google Patents
中文自發性語音合成中發音變異產生之方法 Download PDFInfo
- Publication number
- TWI402824B TWI402824B TW98134883A TW98134883A TWI402824B TW I402824 B TWI402824 B TW I402824B TW 98134883 A TW98134883 A TW 98134883A TW 98134883 A TW98134883 A TW 98134883A TW I402824 B TWI402824 B TW I402824B
- Authority
- TW
- Taiwan
- Prior art keywords
- pronunciation
- model
- variation
- conversion
- conversion function
- Prior art date
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Description
本發明係有關於一種中文自發性語音合成中發音變異產生之方法,尤指涉及一種導入轉換函式於隱藏式馬可夫模型建立發音變異模型,並以構音特性參數運用分類迴歸樹預測發音變異種類,特別係指藉由產生發音變異現象,用以增進基於隱藏式馬可夫模型之合成語音之自然度者。
隨著科技之進步,電腦不僅已經融入人類之生活,同時更朝向人工智慧與自動化之方向發展,因此人機互動係一個相當重要之課題。由於語音係人類溝通最直接之媒介,因此以語音來作為人機互動之媒介十分重要。其中已有許多基於語音合成技術之產品應運而生。例如手機之聲控撥號、微軟之語音合成(Text-To-Speech,TTS)系統、及即時語音導航系統等許多已經實際應用之商品。目前語音合成系統大多應用在朗讀式(Read Speech)語音合成上,如運用於朗讀報紙新聞及電子書上皆有不錯之表現,可擁有不錯之音質、清晰之發音與通暢之語流。然而,合成器若應用在人機互動之溝通時,雖然清晰易懂,不過合成之語音卻只能發出一成不變之機械式發音。這與一般自然語音(Spontaneous Speech)在發音自然度上仍然具有相當大之差距。朗讀式語音之特性在於它是逐稿平念之語音,其發音速度(Speaking Rate)會受到所閱讀文字之速度所限制,語速較為平順固定,因而在發音上具有較為清楚之表現。反觀一般自然語音在發音上係依照說話者之意志,故所受
到之發音限制較少,所以在語速上經常並不一致,同時在發音上也比較不具有固定之模式,因此於自然語音中發音變異之現象係影響語音自然度之重要因素。
語言學家根據中文自發性口語之語音所產生之口語發音現象,定義有幾個特殊音韻現象,包含音節合併現象(Syllable Contraction)、鼻音化現象(Nasalized)、音節同化現象(Assimilation)及音節拉長現象(Lengthening)。其中該音節合併現象在現代漢語連續口語對話語音語料庫(Mandarin Conversational Dialogue Corpus,MCDC)中,佔了變異現象中最大之部分,約84%,其次為該音節同化現象佔了約11%,至於該鼻音化與該音節延長現象則為少數,故對自然式語音與朗讀式語音來說,差異最明顯即為音節合併之發音變異現象。在自然語音合成之研究上,有一些藉由解決發音變異現象來提高合成語音自然度之研究,可分為增加發音字典(Pronunciation Dictionary Extension)與增加聲學模型(Acoustic Model Extension)兩方面。其中增加發音字典之部分,係包含有:
(1)將以詞為單位之發音變異部分利用辨識結果在發音字典中增加發音可能,合成時再利用分類回歸樹(Classification And Regression Tree,CART)去挑選適合之發音方式。
(2)利用辨識結果建立發音網路(Pronunciation Network)去決定發音方式。
(3)利用隱藏式馬可夫模型中狀態自由轉移之方式,嘗試去對發音變異現象做描述,來達到提高合成語音自然度之研究。
另一方面在增加聲學模型之研究上,針對標記為音節合併
現象之部分,額外訓練音節聲學模型(Syllable Pair Acoustic Model,SPAM),利用這些額外訓練之聲學模型去做音節合併現象之辨識。將口語化語音視為另一個語者特性之語料特性,利用調適之方式來調適模型。
然而,上述該些方法幾乎都建構在語音辨識之結果之後,合成之語音係由事先定義之模型組成,並非所有變異之語音都可由事先定義之模型來組成,而在發音字典之擴充上,有鑑於中文一般自發性口語語音中,發生發音變異現象之文字組成具有大量之不同組合,不可能針對發生發音變異之文字分別進行處理,因此無法用上述之方式來收集全部帶有變異現象之語料,所以當要合成出訓練語料以外之文字時,將無法找出相對應之發音變異現象來進行合成之動作。故,一般習用者係無法符合使用者於實際使用時之所需。
本發明之主要目的係在於,克服習知技藝所遭遇之上述問題並提供一種導入轉換函式於隱藏式馬可夫模型建立發音變異模型,並以構音特性參數運用分類迴歸樹預測發音變異種類,從而可藉由產生發音變異現象,用以增進基於隱藏式馬可夫模型之合成語音之自然度者。
為達以上之目的,本發明係一種中文自發性語音合成中發音變異產生之方法,首先係找出自發性語音與朗讀式語音間之轉換關係,接著依照發音方式不同對轉換函式做分類;藉由線性轉換函式產生發音變異之模型,利用新產生之模型合成出帶有發音變異現象之語音。並且使用語音之構音特徵參數將發音
變異做分類,利用分類回歸樹模型歸納出不同發音方式下之變異特性,藉以預測訓練語料以外之發音變異。另外,在語音訊號參數化、取得頻譜及音高之參數分析上,係使用直行分析及合成演算法,可得到精確之基頻參數及頻譜參數。先對平行語料找出發音變異音素與正常音素間相對應關係,接著對成對之音素利用線性關係訓練發音變異之轉換函式,接著將發音變異轉換函式中之參數與音長資訊以頻譜轉換模型記錄下來,並配合發音參數使用分類回歸樹模型做分類。最後在合成時利用欲合成文字之發音參數,預測所需之轉換函式,配合基於隱藏式馬可夫模型之語音合成器(HMM-based Speech Synthesis System,HTS)之合成結果,將合成語音參數轉換,透過一梅爾對數頻譜近似濾波器(Mel-log Spectrum Approximation Filter,MLSA Filter)合成一般自然語音輸出。
本發明乃針對自發性語音中,發音變異之特性及發音方式建立一套中文字轉音系統,提供國內相關人機雙向溝通、電腦輔助教學及電腦對人之單向訊息傳遞系統進行整合應用,以改善人類與機器之間之溝通環境,讓電腦可以產生出更接近真實、豐富且多樣化之語音,並能在任意系統平台上使用。有鑑於此,本發明藉由產生發音變異現象之自然語音合成以改善合成語音之自然度及流暢性,同時可結合應用於具備可攜性(Portable)與可調適性(Flexibility)等特點之人機溝通介面系統,可創造更有價值之人機溝通環境與資訊教育之內容,從而有更大之彈性及發展空間。
在本發明中,利用線性轉換函式找出將朗讀式語音轉換成自發性語音之變異特性,並且利用分類回歸樹模型歸納出不同發音方式下之變異特性,藉以預測訓練語料以外之變異。最後希望能夠將一般藉由朗讀式語音所訓練出來之語音合成(Text-To-Speech,TTS)系統,藉由找出自發性語音與朗讀式語音間之轉換關係後,透過語音轉換技術,合成出具有自發性語音效果之合成語音。據此,本發明乃以線性轉換函式作為轉換並合成出發音變異現象之方法,不僅符合人類自然對話上之發音方式,更可產生發音變異之特殊音韻現象;再者,本發明亦考慮構音特性參數,運用分類迴歸樹做發音變異現象之預測;如是,可透過轉換函式產生新之音韻模型,藉以改善在傳統合成方法中,僅利用固定數量音韻模型合成之不足,並以構音特性參數達到對發音變異作聲學特性上之分類,以彌補訓練語料不足之問題,使音韻轉換更加準確,再藉由產生發音變異現象,用以增進基於隱藏式馬可夫模型之合成語音之自然度者。本方法適合應用於多語者或含有情緒之電腦自然語音合成,利用分類迴歸樹預測發音變異種類可減低收集訓練語料之需求,並可以結合數位學習、資訊交換與行動裝置,進而可創造出更有商業價值之資訊產品。
請參閱『第1圖~第3圖』所示,係分別為本發明之基本流程示意圖、本發明於訓練階段之流程示意圖、及本發明於合成階段之流程示意圖。如圖所示:本發明係一種中文自發性語音合成中發音變異產生之方法,係包含一訓練階段(Training Phase)1與一合成階段(Synthesis Phase)2,該訓練階段1中包含下列步驟:
(A)發音變異轉換函式模型建立步驟11:首先係將一平行語料(Parallel Corpus)111及對應之文字於前端進行前處理,其中平行語料部分係將經由頻譜參數擷取112後得到平滑之頻譜參數(Smoothed Spectrum)及音韻參數,使用動態時間校正(Dynamic Time Warping,DTW)113將其變成長度一致之平行參數,藉此路徑結果建立發音變異音素與正常音素資料間之對應關係,得到成對之音素單元(Phone Pair),而文字部分係經過文字分析與根據人工預先標記好之韻律邊界,得到對應之文字標記,繼之,針對標記為發音變異之部分進行發音變異轉換函式模型之訓練,將該頻譜參數經過梅爾倒頻譜(Mel-cepstrum)之轉換,提取25階之梅爾倒頻譜係數,結合該音韻參數及該文字標記作為一隱藏式馬可夫模型訓練(HMM Training)114,藉由訓練線性轉換函式產生一頻譜轉換模型(HMM Models)115,並以此新產生之模型115合成帶有發音變異現象之語音,得到頻譜轉換函式與音長資訊;(B)發音變異預測模型回歸樹分類步驟12:藉由前端語音之構音特徵參數(Articulatory Feature)121將發音變異作分類,根據語言學與聲學上之發音參數進行轉換函式之歸群與訓練,利用一分類回歸樹模型(Classification and Regression Trees,CART),將上述頻譜轉換函式與音長資訊,與分別根據文字標記求得對應之語言學上之資訊,進行該分類回歸樹模型中轉換函式之分類回歸樹之訓練(F-CART Training)122與音長之分類回歸樹之訓練(D-CART Training)123,以分別得到頻譜轉換預測模型124(Transformation Function
Model)與音長預測模型(Duration Model)125;該合成階段2中包含下列步驟:(C)HTS合成步驟21:係於前端先輸入欲合成文字之發音參數211,透過文字分析處理,經構音特性參數212得到語言學上之資訊而產生文字標記檔,繼之,進行發音變異現象之預測,使用基於隱藏式馬可夫模型之語音合成(HMM-based Speech Synthesis System,HTS)搭配文字標記檔,經由聲學模型213之辨識,並透過狀態選擇214進行頻譜、音長及音高(Pitch)參數之預測;以及(D)變異轉換步驟22:係針對預測發生發音變異現象之部分,依據該文字標記檔資訊從上述頻譜轉換預測模型124與音長預測模型125中,挑選適合之頻譜轉換函式221與音長轉換函式222,分別將頻譜與音長進行轉換223而產生新之頻譜與音長參數。最後,於後端將該些轉換過後新產生之參數經過一梅爾對數頻譜近似濾波器(Mel-log Spectrum Approximation Filter,MLSA Filter)224合成為一般自然語音(Spontaneous Speech)後輸出。
上述步驟(A)發音變異轉換函式模型中資料對應關係之建立,請進一步參閱『第4圖』所示,係本發明以動態時間校正結果對應之音節斷點位置示意圖。如圖所示:基於聲音資料之長度不一,因此本發明乃利用動態時間校正找尋音節合併現象之語音資料與一般正常朗讀式語音資料之間對應之關係。如第4圖所示,其中縱軸為朗讀式語音頻譜資料序列,橫軸為發生音節合併之語音頻譜資料序列,且圖中顯示顏色之深淺係表示上述兩筆資料之間歐式距離(Euclidean distance)之差異大
小,其顏色越深表示差異越大,並以圖中之線段表示此兩筆資料間最佳對應關係之動態時間校正路徑3。於其中,線段31為兩筆資料具有較恰當之一對一對應部分,可視為兩筆資料較相近之部分;線段32表示之動態時間校正路徑3較為垂直,代表較多數之朗讀式語音資料之音框對應到較少數之變異語音資料之音框。若以朗讀式語料為基準,則可視為有部分音段被刪除(Deletion);線段33表示之動態時間校正路徑3較為水平,代表較少數之朗讀式資料之音框對應到較多數之變異語音資料之音框,可視為有音段插入(Insertion)。據此,上述兩筆資料之間係可以由此方式找到相對應之關係。
再者,本發明亦將正常語音之音節斷點位置,利用動態時間校正之結果找出自發性口語化語音中音節斷點之位置。藉由圖中動態時間校正結果對應之音節斷點位置之端點(Boundary)對應,可以得到相對應正常音段與變異音段之對應關係。
上述步驟(A)發音變異轉換函式模型中線性轉換函式與隱藏式馬可夫模型資之建立,請進一步參閱『第5圖及第6圖』所示,係分別為本發明之線性轉換關係示意圖及本發明之頻譜轉換模型示意圖。如圖所示:針對產生發音變異之音素單元部分,經過上述動態時間校正處理,找出正確發音與變異發音之間之對應關係,得到成對之音素單元後,係採用線性之假設關係訓練發音變異之轉換函式,將發生變異之語音段視為正常語音段之線性組合與轉換,將成對之音素單元利用線性轉換之方式描述平行之正常與變異音段間之關係,利用定義正常語音段(source,X(x1..xn))可經由式子Y=f(x)之線性轉換函式轉換成
為目標之變異語音段(Target,Y(y1..yn))。其轉換關係如第5圖所示,藉以找出一線性轉換之關係,可將來源正常音素之資料,透過該線性轉換關係後,產生成為變異之目標音素,藉此訓練出一個與語者無關之轉換關係,能將任意語者之正常音素,轉換成該語者之變異音素。如是,利用正常語音資料X透過旋轉矩陣A之轉換後,以R作為旋轉誤差,其線性轉換函式表示為:Y=AX+R (公式1)
藉由隱藏式馬可夫模型,利用STRAIGHT分析演算法所取出之聲學參數,可在時間軸上之變化做有效之描述。在發音變異之轉換模型之訓練上,採用隱藏式馬可夫模型,藉由其時間軸上可考慮前後關聯之特性,使描述出來之聲學模型更具有連慣性。在此為更仔細地描述轉換之函式,除了引入隱藏式馬可夫模型,並同時考慮正常語音與變異語音資料間之關聯性,亦即最大化之機率。其定義為:
其中λ為初始機率;a為轉移機率;以及b為觀察機率。在此將線性轉換關係考慮進來,於求取隱藏馬可夫模型參數之同時,亦考慮在模型中同一個轉移狀態下之最佳轉換結果。將觀察機率定義成兩項,分別為正常語音X之高斯分佈與變異語音Y之高斯分佈,其中Y之分佈係利用上述公式1將平均值以y=Ajx+R取代,將此式帶入公式2,則原本b可以重新定義為:
接著利用最大化期望值估計(Expectation-Maximization,EM)演算法求解,首先將預估(E-step)中之期望值之輔助函數(Q-function)定義為:
其中可將公式四視為初始機率(Initial probability)、轉移機率(Transition probability)與觀察機率(Observation probability)三部分。重新整理為:Q(λ'|λ)=Q π (λ'|λ)+Q a (λ'|λ)+Q b (λ'|λ) (公式5)
其中初始機率部分為:
轉移機率部分為:
觀察機率部分為:
然後使用最佳化(M-step)估算模型參數,以期得到最大
化期望值,即估測參數讓Q-function最大化,利用多項式內插(Lagrange)方法得到各參數估測之式子,其中需要估測之參數分別為初始狀態為i之初始機率π i ';由第i狀態轉移到j狀態之轉移機率a ij ';來源資料X之平均數;來源資料X之變異數;線性轉換矩陣A j ';線性轉換後與目標資料Y之殘差平均數R';以及目標資料Y之變異數。利用EM演算法得出最後所估測出最後之參數為:
其中由最大化期望值演算法估算出之A j '與即為發音變
異轉換函式中所需之參數。每組語音段經過上述隱藏式馬可夫模型之訓練後,可得到如第6圖之頻譜轉換模型之狀態形式。其中各狀態有各自之線性轉換函式Y=AX+R、正常語音段長度資訊LX與自發性口語語音段長度資訊LY。藉由透過此多線性轉換函式之頻譜轉換模型,本發明可以將朗讀式語音框,透過轉換函式轉換成發音變異之語音段。朗讀式語音與自發性語音間之差異,可以透過LX與LY資訊對音長做調整,達到音素長度變異之效果。在音長調整之動作上,輸入一個正常音素,將音素依照音長轉換模型中各個狀態中LX之比例做切割,每個區塊透過所屬之線性轉換函式轉換,接著利用LX與LY之比例去增加或縮減原始音長之長度。
上述步驟(B)發音變異預測模型回歸樹分類,為本發明另一個重點,為有助於發音變異現象之預測,乃利用發音參數之擷取,先將發音變異現象進行分類。繼之,選用分類回歸樹將發音變異特性做分類之動作,將具有同樣之發音特性變化之資料點,分到同一個類別中,於其中,在同一個類別中之資料點帶有相同之發音特性變化。本發明使用分類回歸樹作為預測模型之優點在於,以樹狀之結構來表現資料之分佈,其建立出來之模型容易瞭解,並且能追蹤每節點上使用之變數進而瞭解資料真正之特性。發音變異現象主要在於聲音頻譜上之變化與音素長度上之變化。因此發音變異現象之預測,可分成頻譜轉換預測與音長預測兩部分,兩者預測模型之建立,與定義分類回歸樹所使用之問題集將被定義,請進一步參閱『第7圖』所示,係本發明分類回歸樹之架構示意圖。如圖所示:首先將以隱藏式馬可夫模型為基礎之發音變異轉換函式模型,分別透過
轉換函式之分類回歸樹與音長之分類回歸樹,將頻譜轉換函式與音長資訊依照上述所提之發音參數作分類回歸樹之建置與分類。其中,最後分類得到之每一個樹葉節點係代表一種類別之轉換模型,並用其預測正常音素與變異音素間頻譜上之變化與音素長度上之差異。
上述步驟(B)發音變異預測模型回歸樹分類中頻譜轉換預測模型之建立,請進一步參閱『第8圖』所示,係本發明之頻譜轉換F-CART預測模型示意圖。如圖所示:正常發音之音素經由頻譜轉換後變成發音變異之音素,利用上述所提之分類回歸樹執行預測時,係以預測之結果與目標之音素在聲學上之差異越小越好。亦即來源音素經過分類後,根據所在類別選取之轉換函式來進行頻譜特性之轉換,其轉換後之結果(Converted)與變異之目標音素越相似越好。本發明模型係採用分類回歸樹,在分裂之條件上係設定為分裂後之轉換誤差(Generation Error)小於分裂前之轉換誤差,其轉換之誤差計算公式表示為:
其中ym為目標音素Y中第m個音框;xm為來源音素X中第m個音框;AiXm+R為第i個狀態中之線性轉換函式;以及M為音框總數。
欲得到最佳之分裂結果,亦即欲最大化減少之轉換誤差量,減少之誤差量計算方式為母節點之轉換誤差扣除分裂後子節點轉換誤差。其定義為:
其中GenErrp為母節點之轉換誤差;GenErri為第i個子節點之轉換誤差;以及Wi為子節點i之資料量。其分類到同一個節點之資料將以下述公式18及公式19重新計算轉換函式中旋轉矩陣與平移量之部分,其計算方式為:
據此,該頻譜轉換預測模型之建置,係包括下列步驟:(a)產生包含所有資料之根節點(Root)S0,並建立候選節點集合U={S0},以及葉節點集合V=;(b)從U中取出節點Sm,從Sm之資料點中產生所有可能之問題集之集合Q={q1,...,qt,...},並對所有qt試做一次分裂;(c)選擇在步驟(b)中能使得RGE最大之問題集qt,作為分裂之問題集,並記錄RGE;(d)若步驟(c)中之RGE>0,係分裂此候選節點,將Sm之資料根據qt分到左右子節點Sml及Smr中,並將Sml及Smr加入集合U,若RGE<0,則將Sm加入集合V;以及(e)將Sm移出U,若U≠係回至步驟(b),若U=,係完成分類回歸樹之建置,並對所有葉節點(即V中之所有元素)作模型之訓練,藉以計算各節點中之轉換函式。
上述每個資料點參數包含訓練語料中頻譜參數與發音參數A,其中頻譜參數包含轉換函式中之來源頻譜參數X與目
標頻譜參數Y,皆為25維之頻譜參數,所有資料點從根節點(Root)出發,分裂時由方框內之問題,決定資料點要被分到左子節點或右子節點。以圖中斜線之資料點為例,考慮完分裂之條件後,在Root分裂時之問題係「Previous LW length=4」,與該資料點發音參數吻合,答案為Yes,故分到左子節點,於其中,若答案為No,則分到右子節點。最後,在葉節點(Leaf)利用在葉節點中之X與Y得到轉換函式之參數。
上述步驟(B)發音變異預測模型回歸樹分類中音長預測模型之建立,請進一步參閱『第9圖』所示,係本發明之音長D-CART預測模型示意圖。如圖所示:在音長之預測上係採用分類回歸樹與發音參數資訊作為分類預測之模型,以狀態內之資料長度變化作為改變音長之資訊,同時並考慮來源資料之音長長度與目標資料之音長長度。其中,本發明係使用HMM為單位之資料長度向量,即為將每一個狀態中之音長資訊結合,作為分類回歸樹之資料。
在音長預測中,係利用發音參數預測音長之變化。因此在分類之準則上,欲使擁有類似之音長變化資訊之資料點,得以分類到同一個分群中,乃利用均方誤差(Mean Square Error,MSE),將資料點與其平均數之誤差平方之總和,定義以每筆資料x j 扣除平均值之平方合,其表示為:
其中MSEi為第i個葉節點之均方誤差MSE;x j 為此節點中第j筆資料;ni為此節點中資料量;以及為此節點中所有資料之平均值。於此採用分裂前之均方誤差值大於分裂後之均
方誤差值作為分裂之條件,亦即所減少之均方誤差(Reduced Mean Square Error,RMSE)係大於0。其中RMSE之算法表示為:
其中MSEparent代表分裂前母節點之MSE值;MSEi代表分裂後第i個子節點中MSE值;以及Wi為子節點i之資料數量比值(Weight),其計算方式為:
其中M p 為母節點p中資料數量;以及M i 為第i個子節點中資料數量。
由此可知,音長預測模型之建置步驟,與頻譜轉換預測模型之建置步驟相似,不同之地方在於分裂之條件係以RMSE作替換,目標在於讓分裂後之節點能夠有最大之RMSE,其中之資料點為音長資訊,即原始音長與變異後之音長。最後,於分裂後結果之葉節點求取該節點之統計參數,作為預測之音長資訊。以圖中每個資料點參數皆包含音長資訊參數L與發音參數A,其中音長參數,維度=2n,且該n為HMM中狀態之數量;為狀態i中來源音素X之音長參數;以及為狀態i中目標音素Y之音長參數。藉此於葉節點中求出統計量(Mean與Variance)作為代表此分類音長之資訊。
上述步驟(B)發音變異預測模型回歸樹分類中轉換函式之驗證,對於為選擇挑選出真正需要轉換之音素模型與其對應之轉換函式,本發明亦對轉換函式做驗證(Validation)之動作。
由於平行之朗讀式語音(Read speech)與自發式語音(Spontaneous speech)在語料之收集上很不容易,用以訓練轉換函式之訓練語料,係以所收集到少量之平行語料來訓練,為避免因為少量語料下造成之分類結果不具代表性,本發明尚利用另一組訓練語料外之平行語料對分類後訓練所得之轉換函式做驗證之動作。其驗證之方法為,將在訓練語料外之平行語料經由F-CART挑選出最適當之轉換函式後,將正常之音素資料透過被挑選出之轉換函式得到預測之轉換結果,觀察轉換結果是否比未轉換之朗讀式語音音素模型,即來源音素模型(Source)更接近發音變異音素模型(Target),而距離大小之估測標準係利用頻譜之歐式距離,當轉換函試驗證後,發現轉換後之距離還比未轉換來得大時,則代表此轉換函式驗證失敗,亦即經過這個轉換函式轉換後所得之結果不會比未轉換之來源音素模型更接近發音變異模型,所以必須將該挑選出之轉換函式之轉換動作忽略,亦即當挑選到這個轉換函式時,資料不進行轉換之動作。藉此,可將分類回歸樹之預測誤差與錯誤所導致之轉換函式挑選錯誤,經由此驗證之動作,修正轉換函式挑選錯誤之部分,進而能以挑選最適合之轉換函式進行轉換。
為評估本發明所提之方法,本發明於一較佳實施例中,如第1圖所示,其發音變異轉換模型係由平行之訓練語料,基於線性轉換函式所估算而得,且在本實施例中,頻譜之轉換模型也同時建立以處理頻譜之轉換,而音長模型也經由等比例縮放之方式進行調整。輸入之語句經由文字分析內容與音節段點,擷取音韻參數與發音參數以及文字資訊,藉由語音之構音特徵
參數將發音變異做分類,利用分類回歸樹模型歸納出不同發音方式下之變異特性,藉以預測訓練語料以外之發音變異,依據文字標記檔資訊從頻譜轉換預測模型與音長預測模型中,挑選適合之頻譜轉換函式與音長轉換函式,分別將頻譜與音長進行轉換。如是,本發明之發展平台可建置於Pentium-IV 3.2GHz個人電腦、2GB RAM、及Windows XP作業系統之環境使用,於其中系統開發工具為Microsoft Visual C++ 6.0。
請參閱『第10圖及第11圖』所示,係分別為本發明以MCDC中統計前25常產生發音變異現象之詞之示意圖、及本發明之語料字長度分布示意圖。如圖所示:本發明在語音資料庫中係採用兩組語料,第一組為訓練線性轉換函式所使用之語料,為自行收集之中文朗讀式語音與一般自發式口語語音之平行語料。該平行語料係由三名語者進行錄製,針對所設計之句子,以模仿實際對話之方式分別錄製一般口語語音、以及照稿朗讀之語音。此語料之設計準則,其一為針對在現代漢語連續口語對話語音語料庫中,統計前25個經常出現發音變異現象之詞來加以設計,如第10圖所示,其中括弧內為所設計語料出現之次數;其二為為求語料之平衡性,考慮到中文之所有音素,對於107個音素模型至少出現一次。至於第二組則為訓練中文合成器所使用之語料,係採用北京清華大學之語音合成語料庫(TsingHua-Corpus of Speech Synthesis,TH-CoSS),此語料庫主要係針對漢語普通話語音合成之研究、開發與評測,以及語音學研究而設計之漢語語料庫,其語料文本主要選自新聞。請參第11圖所示,係本發明語音資料庫之特性統計,圖中格狀直條為TH-CoSS,斜狀直條為一般朗讀語料,空白直
條為自發性語音。如圖顯示,一般朗讀語料之平均字長度大約落在350至400毫秒(ms)之間,而自發性語音之平均字長度大約落在200ms。
請參閱『第12圖~第14圖』所示,係分別為本發明發音變異模型平均主觀值分數(Mean Opinion Score,MOS)之測試結果示意圖、本發明發音變異模型之客觀評估結果示意圖、及本發明自然度評比MOS之測試結果示意圖。如圖所示:根據上述本發明所提之方法,以該實施例中針對發音變異模型之評估、發音變異模型之客觀評估、以及整體自然度之評估等相關實驗作探討,其中:
該發音變異模型之評估:比較一僅使用音長資訊來調整(Duration)、一個以音素為基礎使用一個GMM模型來描述一個音素層級轉換(Phone-base)、以及本發明所提出之使用一個HMM模型來描述一個音素狀態層級轉換(State-base),比較這三者之間之差異,證明本發明提出之方法-利用HMM模型描述一個音素,係具有較好之效果,如第12圖所示,在使用HMM對一個音素做發音變異模型之描述(State-base)時,因為考慮時間上之關係與前後發音之連續性,在相似度上係有較好之表現,而且合成之音質也在可接受之程度,故證明利用HMM去描述發音變異上,確實係有較佳之效果。
該發音變異模型之客觀評估:本發明採用均方誤差量測發音變異轉換出來之音韻參數與目標音韻參數之差異,作為客觀評估之準則,該均方誤差之計算表示為:
如第13圖所示,所提出之轉換函式所得到之結果,在聲學參數上與目標變異之資料間,可以得到較相近之結果,而利用較小單位State-base之轉換函式所得之結果比利用Phone-base之轉換結果來的好,故此結果可與MOS測試結果相呼應。
該整體自然度之評估:比較在傳統HTS系統合成與利用本發明所提之方法改良之系統合成之實驗結果,討論包含使用傳統HTS合成器、使用調適之方法(MLLR Adaptation)與利用本發明所得到之合成結果。如第14圖所示,本發明提出之方法所建置之系統,雖然在經過線性轉換之過程中損失一些語音上之品質,但在語音之流暢度達到與傳統HTS系統差不多之表現,而在口語化程度之評估上,更在大部分受測之結果中,達到最佳之表現。
至此顯現以本發明之方法具體整合為一中文自發性語音合成系統具實用性與穩定性。
本發明基於隱藏式馬可夫模型之語音合成器並加以改良,已經可合成出流暢及清晰之語音,其系統之可攜性及適應性更是其發展優勢,並且在合成語音之自然度上可達到大幅改善之效果。藉此,本發明可具體整合各式人機雙向溝通系統、行動裝置、資訊查詢服務系統及資訊教育系統,應用在各種大眾服務窗口、手機及PDA上;或整合其他資訊傳播技術,應用在各式服務系統、導覽系統或建構於居家看護環境等,例如電子地圖有聲導覽系統、隨身電子故事書、即時語音教學、線上航空訂票系統、火車查詢服務與氣象查詢服務之資訊檢索查詢系統、股市電子交易系統、及居家看護系統等。
綜上所述,本發明係一種中文自發性語音合成中發音變異產生之方法,可有效改善習用之種種缺點,係導入轉換函式於隱藏式馬可夫模型建立發音變異模型,並運用分類迴歸樹預測發音變異種類,可透過轉換函式產生新之音韻模型,藉以改善僅利用固定數量音韻模型合成之不足,並以構音特性參數對發音變異作聲學特性上之分類,以彌補訓練語料不足之問題,再藉由產生發音變異現象,用以增進基於隱藏式馬可夫模型之合成語音之自然度者,進而使本發明之產生能更進步、更實用、更符合使用者之所須,確已符合發明專利申請之要件,爰依法提出專利申請。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍;故,凡依本發明申請專利範圍及發明說明書內容所作之簡單的等效變化與修飾,皆應仍屬本發明專利涵蓋之範圍內。
1‧‧‧訓練階段
11‧‧‧步驟(A)發音變異轉換函式模型建立
111‧‧‧平行語料
112‧‧‧頻譜參數擷取
113‧‧‧動態時間校正
114‧‧‧隱藏式馬可夫模型訓練
115‧‧‧頻譜轉換模型
12‧‧‧步驟(B)發音變異預測模型回歸樹分類
121‧‧‧構音特徵參數
122‧‧‧轉換函式之分類回歸樹之訓練
123‧‧‧音長之分類回歸樹之訓練
124‧‧‧頻譜轉換預測模型
125‧‧‧音長預測模型
2‧‧‧合成階段
21‧‧‧步驟(C)HTS合成
211‧‧‧輸入欲合成文字之發音參數
212‧‧‧構音特性參數
213‧‧‧聲學模型
214‧‧‧狀態選擇
22‧‧‧步驟(D)變異轉換
221‧‧‧頻譜轉換函式
222‧‧‧音長轉換函式
223‧‧‧轉換
224‧‧‧梅爾對數頻譜近似濾波器
3‧‧‧動態時間校正路徑
31~33‧‧‧線段
第1圖,係本發明之基本流程示意圖。
第2圖,係本發明於訓練階段之流程示意圖。
第3圖,係本發明於合成階段之流程示意圖。
第4圖,係本發明以動態時間校正結果對應之音節斷點位置示意圖。
第5圖,係本發明之線性轉換關係示意圖。
第6圖,係本發明之頻譜轉換模型示意圖。
第7圖,係本發明分類回歸樹之架構示意圖。
第8圖,係本發明之頻譜轉換F-CART預測模型示意圖。
第9圖,係本發明之音長D-CART預測模型示意圖。
第10圖,係本發明以MCDC中統計前25常產生發音變異現象之詞之示意圖。
第11圖,係本發明之語料字長度分布示意圖。
第12圖,係本發明發音變異模型MOS之測試結果示意圖。
第13圖,係本發明發音變異模型之客觀評估結果示意圖。
第14圖,係本發明自然度評比MOS之測試結果示意圖。
1‧‧‧訓練階段
11‧‧‧步驟(A)發音變異轉換函式模型建立
111‧‧‧平行語料
12‧‧‧步驟(B)發音變異預測模型回歸樹分類
2‧‧‧合成階段
21‧‧‧步驟(C)HTS合成
211‧‧‧輸入欲合成文字之發音參數
212‧‧‧構音特性參數
222‧‧‧音長轉換函式
223‧‧‧轉換
224‧‧‧梅爾對數頻譜近似濾波器
Claims (10)
- 一種中文自發性語音合成中發音變異產生之方法,係提供於各式人機單/雙向溝通及電腦輔助教學系統進行整合應用,其包含一訓練階段(Training Phase)與一合成階段(Synthesis Phase),該訓練階段中包含下列步驟:(A)發音變異轉換函式模型建立步驟:係先將一平行語料(Parallel Corpus)及對應之文字進行前處理,其中平行語料部分係將經由頻譜參數擷取後得到之頻譜參數(Spectrum)及音韻參數,使用動態時間校正(Dynamic Time Warping,DTW)之路徑結果建立發音變異音素與正常音素資料間之對應關係,得到成對之音素單元(Phone Pair),而文字部分係經過文字分析與根據人工預先標記好之韻律邊界,得到對應之文字標記,繼之,針對標記為發音變異之部分進行發音變異轉換函式模型之訓練,經提取該頻譜參數結合該音韻參數及該文字標記作為一隱藏式馬可夫模型(HMM)訓練,訓練線性轉換函式,得到一具頻譜轉換函式與音長資訊之頻譜轉換模型(HMM Models);(B)發音變異預測模型回歸樹分類步驟:藉由語音之構音特徵參數(Articulatory Feature)將發音變異作分類,根據語言學與聲學上之發音參數進行轉換函式之歸群與訓練,再利用一分類回歸樹模型(Classification and Regression Trees,CART),將上述頻譜轉換模型中頻譜轉換函式與音長資訊,分別根據文字標記求得對應之語言學上之資訊,進行該分類回歸樹模型之訓練,分別得到頻譜轉換預測模型(Transformation Function Model)與音長預測模型(Duration Model);該合成階段中包含下列步驟:(C)HTS合成步驟:係輸入欲合成文字之發音參數,經前端之文字分析處理,得到語言學上之資訊而產生文字標記檔,並進行發音變異現象之預測,使用基於隱藏式馬可夫模型之語音合成器(HMM-based Speech Synthesis System,HTS)搭配文字標記檔進行頻譜、音長及音高(Pitch)參數之預測;以及(D)變異轉換步驟:係針對預測發生發音變異現象之部分,依據該文字標記檔資訊從上述頻譜轉換預測模型與音長預測模型中,挑選適合之頻譜轉換函式與音長轉換函式,分別將頻譜與音長進行轉換,並將轉換過後新產生之參數經過一梅爾對數頻譜近似濾波器(Mel-log Spectrum Approximation Filter,MLSA Filter)合成一般自然語音輸出。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(A)提取之頻譜參數係經過梅爾倒頻譜(Mel-cepstrum)之轉換,提取25階之梅爾倒頻譜係數者。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(A)係採用線性之假設關係訓練發音變異之轉換函式,將發生變異之語音段視為正常語音段之線性組合與轉換,將成對之音素單元利用線性轉換之方式描述平行之正常與變異音段間之關係。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(A)之線性轉換函式係採 用正常語音資料X,透過旋轉矩陣A之轉換後,並以R作為旋轉誤差,其線性轉換函式表示為:Y=AX+R。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(B)之分類回歸樹模型在分裂之條件上係設定為分裂後之轉換誤差(Generation Error)小於分裂前之轉換誤差,其轉換之誤差計算公式表示為:,其中ym為目標音素Y中第m個音框、xm為來源音素X中第m個音框、AiXm+R為第i個狀態中之線性轉換函式、以及M為音框總數。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(B)之分類回歸樹模型係包含轉換函式之分類回歸樹(Transformation Function CART)與音長之分類回歸樹(Duration CART),用以將該頻譜轉換函式與音長資訊依據該發音參數作分類回歸樹之建置與分類,且最後分類得到之每一個樹葉節點係代表一種類別之轉換模型,俾利以其預測正常音素與變異音素間頻譜上之變化與音素長度上之差異。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(B)之頻譜轉換預測模型之建置,係包括下列步驟:(a)產生包含所有資料之根節點(Root)S0,並建立候選節點集合U={S0},以及葉節點集合V=;(b)從U中取出節點Sm,從Sm之資料點中產生所有 可能之問題集之集合Q={q1,...,qt,...},並對所有qt試做一次分裂;(c)選擇在步驟(b)中能使得RGE最大之問題集qt,作為分裂之問題集,並記錄RGE;(d)若步驟(c)中之RGE>0,係分裂此候選節點,將Sm之資料根據qt分到左右子節點Sml及Smr中,並將Sml及Smr加入集合U,若RGE<0,則將Sm加入集合V;以及(e)將Sm移出U,若U≠係回至步驟(b),若U=,係完成分類回歸樹之建置,並對所有葉節點作模型之訓練,藉以計算各節點中之轉換函式。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該步驟(B)之音長預測模型係採用均方誤差(Mean Square Error,MSE)。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該方法係適用於多語者或含有情緒之電腦自然語音合成,並可結合數位學習、資訊交換與行動裝置者。
- 依據申請專利範圍第1項所述之中文自發性語音合成中發音變異產生之方法,其中,該方法係可建置於Pentium-IV 3.2GHz個人電腦、2GB RAM、及Windows XP作業系統之平台上使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98134883A TWI402824B (zh) | 2009-10-15 | 2009-10-15 | 中文自發性語音合成中發音變異產生之方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98134883A TWI402824B (zh) | 2009-10-15 | 2009-10-15 | 中文自發性語音合成中發音變異產生之方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201113869A TW201113869A (en) | 2011-04-16 |
TWI402824B true TWI402824B (zh) | 2013-07-21 |
Family
ID=44909831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW98134883A TWI402824B (zh) | 2009-10-15 | 2009-10-15 | 中文自發性語音合成中發音變異產生之方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI402824B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI475558B (zh) | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
CN111128122B (zh) * | 2019-12-31 | 2022-08-16 | 思必驰科技股份有限公司 | 韵律预测模型的优化方法及系统 |
TWI746138B (zh) * | 2020-08-31 | 2021-11-11 | 國立中正大學 | 構音異常語音澄析裝置及其方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI269191B (en) * | 2005-07-27 | 2006-12-21 | Ren-Yuan Lyu | Method of synchronizing speech waveform playback and text display |
TW200721108A (en) * | 2005-11-18 | 2007-06-01 | Tze-Fen Li | Apparatus and method for normalizing and converting speech waveforms into equal sized patterns of linear predict code vectors using elastic frames and classification by bayesian classifier |
US7406415B1 (en) * | 2000-03-04 | 2008-07-29 | Georgia Tech Research Corporation | Phonetic searching |
-
2009
- 2009-10-15 TW TW98134883A patent/TWI402824B/zh not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7406415B1 (en) * | 2000-03-04 | 2008-07-29 | Georgia Tech Research Corporation | Phonetic searching |
TWI269191B (en) * | 2005-07-27 | 2006-12-21 | Ren-Yuan Lyu | Method of synchronizing speech waveform playback and text display |
TW200721108A (en) * | 2005-11-18 | 2007-06-01 | Tze-Fen Li | Apparatus and method for normalizing and converting speech waveforms into equal sized patterns of linear predict code vectors using elastic frames and classification by bayesian classifier |
Also Published As
Publication number | Publication date |
---|---|
TW201113869A (en) | 2011-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
CN101751922B (zh) | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 | |
Mu et al. | Review of end-to-end speech synthesis technology based on deep learning | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
CN102254554B (zh) | 一种对普通话重音进行层次化建模和预测的方法 | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Agrawal et al. | Analysis and modeling of acoustic information for automatic dialect classification | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
Lee et al. | Pronunciation variation generation for spontaneous speech synthesis using state-based voice transformation | |
TWI402824B (zh) | 中文自發性語音合成中發音變異產生之方法 | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
Huang et al. | Personalized spectral and prosody conversion using frame-based codeword distribution and adaptive CRF | |
Wang et al. | CE-Tacotron2: end-to-end emotional speech synthesis | |
Sawada et al. | The nitech text-to-speech system for the blizzard challenge 2016 | |
Rebai et al. | Arabic speech synthesis and diacritic recognition | |
Zangar et al. | Duration modelling and evaluation for Arabic statistical parametric speech synthesis | |
Hsia et al. | Conversion function clustering and selection using linguistic and spectral information for emotional voice conversion | |
Cahyaningtyas et al. | Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN | |
Sisman | Machine learning for limited data voice conversion | |
Gibson | Two-pass decision tree construction for unsupervised adaptation of HMM-based synthesis models | |
Houidhek et al. | Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic | |
Formiga et al. | Adaptation of the URL-TTS system to the 2010 Albayzin Evaluation Campaign |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |