TWI413104B - 可調控式韻律重估測系統與方法及電腦程式產品 - Google Patents

可調控式韻律重估測系統與方法及電腦程式產品 Download PDF

Info

Publication number
TWI413104B
TWI413104B TW099145318A TW99145318A TWI413104B TW I413104 B TWI413104 B TW I413104B TW 099145318 A TW099145318 A TW 099145318A TW 99145318 A TW99145318 A TW 99145318A TW I413104 B TWI413104 B TW I413104B
Authority
TW
Taiwan
Prior art keywords
prosody
corpus
input
speech
estimation
Prior art date
Application number
TW099145318A
Other languages
English (en)
Other versions
TW201227714A (en
Inventor
Cheng Yuan Lin
Chien Hung Huang
Chih Chung Kuo
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW099145318A priority Critical patent/TWI413104B/zh
Priority to CN201110039235.8A priority patent/CN102543081B/zh
Priority to US13/179,671 priority patent/US8706493B2/en
Publication of TW201227714A publication Critical patent/TW201227714A/zh
Application granted granted Critical
Publication of TWI413104B publication Critical patent/TWI413104B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

可調控式韻律重估測系統與方法及電腦程式產品
本揭露係關於一種可調控式韻律重估測(controllable prosody re-estimation)系統與方法及電腦程式產品。
韻律預測在文字轉語音(Text-To-Speech,TTS)系統上,對語音合成的自然性有很大的影響。文字轉語音合成系統主要有基於大語料庫(Corpus-based)之最佳單元選取合成方法以及隱藏式馬可夫(HMM-based)統計模型方法。隱藏式馬可夫模型統計方法的合成效果比較有一致性,不會因為輸入的句子不同而有明顯差異性。而訓練出的語音模型檔案通常都很小(例如3MB),這些特點都優於大語料庫的方法,所以此HMM-based的語音合成最近變得很普及。然而,利用此方法在產生韻律時,似乎存在著過度平滑化(over-smoothing)的問題。雖然有文獻提出全域變異數的方法(global variance method)來改善(ameliorate)此問題,使用此方法去調整頻譜有明顯正向效果,但用於調整基頻(F0)則無聽覺上的偏好效果,有時候似乎會因為伴隨產生的副效應(side effect)而降低語音品質。
最近一些關於TTS的文獻也提出加強TTS之豐富表現的技術,這些技術通常需要大量收集多樣式的語料庫(corpora),因此往往需要很多的後製處理。然而,建構一個韻律豐富性的TTS系統是十分耗時的,因此有部分的文獻提出採用外部工具的方式提供TTS產生更多樣化的韻律資訊。例如,基於工具(tool-based)的系統提供使用者多種更新韻律的可行方案,像是提供使用者一個圖形使用者介面(GUI)工具,來調整音高曲線(pitch contour)以改變韻律,並且根據新韻律重新合成語音;或是使用標記語言(markup language)來調整韻律等。然而,多數使用者無法正確地透過圖形使用者介面來修改音高曲線,同樣地,一般人並不熟悉如何撰寫標記語言,所以,基於工具的系統在實際使用上也是不方便的。
關於TTS的專利文獻有很多,例如可控制TTS輸出品質、控制TTS不同速度輸出的、用於電腦合成語音的中文語音音韻轉換、使用韻律控制的中文文本至語音拼接合成、TTS韻預測方法、以及語音合成系統及其韻律控制方法等。
舉例來說,如第一圖所揭露的中文語音音韻轉換系統100,是利用一個音韻分析單元130,接收一來源語音及相對應的文字,透過此分析單元裡面的階層拆解模組131、音韻轉換函式選擇模組132、音韻轉換模組133擷取音韻資訊,最後套用到語音合成單元150以產生合成語音(synthesized speech)。
如第二圖所揭露的語音合成系統與方法是一種針對外來語的TTS技術,以語言分析模組(language analysis module)204分析文字資料(text data)200而得之語言資訊(language information)204a,透過韻律預測模組(prosody prediction module)209產生韻律資訊(prosody information)209a,接著由語音單元挑選模組(speech-unit selection module)208至特徵參數資料庫(characteristic parameter database)206中,挑選一序列較符合文字內容與預測韻律資訊的語音資料,最後由語音語合成模組(speech synthesis module)210合成出語音211。
本揭露實施的範例可提供一種可調控式韻律重估測系統與方法及電腦程式產品。
在一實施範例中,所揭露者是關於一種可調控式韻律重估測系統。此系統包含一個可調控式韻律參數介面以及一個語音或文字轉語音(Speech-To-Speech or Text-To-Speech,STS/TTS)的核心引擎。此可調控式韻律參數介面用來輸入一可調控參數組。此核心引擎由一韻律預測或估算模組(prosody predict/estimation module)、一韻律重估測模組(prosody re-estimation module)、以及一語音合成模組(speech synthesis module)所組成。此韻律預測或估算模組根據輸入文稿或輸入語音來預測出或估算出韻律資訊,並傳送至此韻律重估測模組。此韻律重估測模組根據輸入的可調控參數組及收到的韻律資訊,將此韻律資訊重估測後,產生新的韻律資訊,再提供給此語音合成模組以產生合成語音。
在另一實施範例中,所揭露者是關於一種可調控式韻律重估測系統,此韻律重估測系統係執行於一電腦系統中。此電腦系統備有一記憶體裝置,用來儲存一原始錄音語料庫與一合成之語料庫。此韻律重估測系統可包含一可調控式韻律參數介面及一處理器。此處理器備有一韻律預測或估算模組、一韻律重估測模組、以及一語音合成模組。此韻律預測或估算模組根據輸入文稿或輸入語音來預測出或估算出韻律資訊,並傳送至此韻律重估測模組,此韻律重估測模組根據輸入的可調控參數組及收到的韻律資訊,將此韻律資訊重估測後,產生新的韻律資訊,再套用至此語音合成模組以產生合成語音。其中,此處理器統計此兩語料庫之韻律差異來建構一韻律重估測模型,以提供給此韻律重估測模組使用。
在又一實施範例中,所揭露者是關於一種可調控式韻律重估測方法。此方法包含:準備一個可調控式韻律參數介面,以供輸入一可調控參數組;根據輸入文稿或輸入語音來預測出或估算出韻律資訊;建構一韻律重估測模型,並根據此可調控參數組及預測出或估算出的韻律資訊,藉由此韻律重估測模型來調整出新的韻律資訊;以及將此新的韻律資訊提供給一語音合成模組以產生合成語音。
在又一實施範例中,所揭露者是關於一種可調控式韻律重估測的電腦程式產品。此電腦程式產品包含一記憶體以及儲存於此記憶體的一可執行的電腦程式。此電腦程式藉由一處理器來執行:準備一個可調控式韻律參數介面,以供輸入一可調控參數組;根據輸入文稿或輸入語音來預測出或估算出韻律資訊;建構一韻律重估測模型,並根據此可調控參數組及預測出或估算出的韻律資訊,藉由此韻律重估測模型來調整出新的韻律資訊;以及將此新的韻律資訊提供給一語音合成模組以產生合成語音。
茲配合下列圖示、實施範例之詳細說明及申請專利範圍,將上述及本發明之其他目的與優點詳述於後。
本揭露實施的範例是要提供一個基於韻律重估測之可調控式的系統與方法及電腦程式產品,來提升韻律豐富性以更貼近原始錄音的韻律表現,以及提供可控制的多樣式韻律調整功能來區別單一種韻律的TTS系統。因此,本揭露中,利用系統先前所估測的韻律資訊當作初始值,經過一個韻律重估測模組後求得新的韻律資訊,並且提供一個可調控韻律參數的介面,使其調整後韻律具有豐富性。而此核心的韻律重估測模組是統計兩份語料庫的韻律資訊差異而求得,此兩份語料庫分別是原始錄音的訓練語句以及文字轉語音系統的合成語句的語料庫。
在說明如何利用可調控韻律參數來產生具有豐富性的韻律之前,先說明韻律重估測的建構。第三圖是一範例示意圖,說明多樣式韻律分佈的表示法,與所揭露的某些實施範例一致。第三圖的範例中,X tts 代表TTS系統所產生的韻律資訊,並且X tts 的分佈是由它的平均數μ tts 以及標準差σ tts 來規範,表示為(μ tts ,σ tts )。X tar 代表目標韻律(target pitch),並且X tar 的分佈是由(μ tar ,σ tar )來規範。如果(μ tts ,σ tts )與(μ tar ,σ tar )都為已知的話,則根據兩分佈,(μ tts ,σ tts )與(μ tar ,σ tar ),之間的統計差異(statistical difference),X tar 可以被重估測而得出。正規化後之統計上的均等(normalized statistical equivalent)公式如下:
(X tar tar )/σ tar =(X tts tts )/σ tts  (1)
將韻律重估測的觀念延伸,則如第三圖所示,可以在(μ tts ,σ tts )與(μ tar ,σ tar )之間使用內插法(interpolation),計算出多樣式之調整後的韻律分佈()。依此,就容易產生出豐富的(rich)調整後的韻律以提供給TTS系統。
無論使用何種訓練方法,來自TTS系統的合成語音與來自它的訓練語料庫(training corpus)的錄音(recorded speech)之間始終存在著韻律差異(prosody difference)。換句話說,如果有一個TTS系統的韻律補償機制可以減少韻律差異的話,就可以產生出更自然的合成語音。所以,本揭露實施的範例所要提供的一種有效的系統,係以基於一種重估測的模式,來改善韻律預測(pitch prediction)。
第四圖是一種可調控式韻律重估測系統的一個範例示意圖,與所揭露的某些實施範例一致。第四圖的範例中,韻律重估測系統400可包含一個可調控式韻律參數介面410以及一個語音或文字轉語音(Speech-To-Speech or Text-To-Speech,STS/TTS)的核心引擎420。可調控式韻律參數介面410用來輸入一可調控參數組412。核心引擎420可由一韻律預測或估算模組422、一韻律重估測模組424、以及一語音合成模組426所組成。韻律預測或估算模組422根據輸入文稿422a或輸入語音422b來預測出或估算出韻律資訊X src ,並傳送至韻律重估測模組424。韻律重估測模組424根據輸入的可調控參數組412以及收到的韻律資訊X src ,將韻律資訊X src 重估測後,產生新的韻律資訊,也就是調整後的韻律資訊,再套用至語音合成模組426以產生合成語音428。
在本揭露實施的範例中,韻律資訊X src 的求取方式是根據輸入資料的型態來決定,假如是一段語音,則採用韻律估算模組進行韻律萃取,假如是一段文字,則是採用韻律預測模組。可調控參數組412至少包括有三個參數,彼此是獨立的。此三個參數可由外部輸入0個或1個或2個,其餘未輸入者可採用系統預設值。韻律重估測模組424可根據如公式(1)的韻律調整公式來重估測韻律資訊X src 。可調控參數組412裡的參數可採用兩個平行語料庫的方式統計而得。兩個平行語料庫分別是前述提及的原始錄音的訓練語句以及文字轉語音系統的合成語句的語料庫。而統計方式則分為靜態分佈法(static distribution method)及動態分佈法(dynamic distribution method)。
第五圖與第六圖是韻律重估測系統400分別應用在TTS與STS上的範例示意圖,與所揭露的某些實施範例一致。第五圖的範例中,當韻律重估測系統400應用在TTS上時,第四圖中的STS/TTS的核心引擎420扮演TTS核心引擎520的角色,而第四圖中的韻律預測或估算模組422扮演韻律預測模組522的角色,根據輸入文稿422a來預測出韻律資訊。而第六圖的範例中,當韻律重估測系統400應用在STS上時,第四圖中的STS/TTS的核心引擎420扮演STS核心引擎620的角色,而第四圖中的韻律預測或估算模組422扮演韻律估算模組622的角色,根據輸入語音422b來估算出韻律資訊。
承上述,第七圖與第八圖是當韻律重估測系統400分別應用在TTS與STS上時,韻律重估測模組與其他模組的關聯示意圖,與所揭露的某些實施範例一致。第七圖的範例中,當韻律重估測系統400應用在TTS上時,韻律重估測模組424接收韻律預測模組522預測出的韻律資訊X src ,及參考可調控參數組412中的三個可調控參數,記為(μ shift ,μ center ,γσ ),然後採用一韻律重估測模型,來調整韻律資訊X src ,產生新的韻律資訊,即調整後的韻律資訊,並傳送至語音合成模組426。
第八圖的範例中,當韻律重估測系統400應用在STS上時,與第七圖不同的是,韻律重估測模組424所接收的韻律資訊X src 是韻律估算模組622根據輸入語音422b估算出的韻律資訊。而韻律重估測模組424後續的運作與第七圖中所載相同,不再重述。關於三個可調控參數(μ shift ,μ center ,γσ )與韻律重估測模型將再詳細說明。
以下以應用在TTS為例,先以第九圖的範例示意圖來說明如何建構韻律重估測模型,與所揭露的某些實施範例一致。在韻律重估測模型建構的階段,需要有兩份平行的語料庫,也就是句子內容相同的兩份語料庫,一個定義為來源語料庫(source corpus),另一個定義為目標語料庫(target corpus)。在第九圖的範例中,目標語料庫是根據一個給定的(given)文字語料庫(text corpus)910而錄製(record)的原始錄音語料庫(recorded speech corpus)920,是作TTS訓練之用。然後,可利用一種訓練方法,例如HMM-based,來建構TTS系統930。一旦TTS系統930建立後,根據相同的文字語料庫910輸入的文稿內容,可使用此訓練出的TTS系統930來產生一個合成之語料庫(synthesized speech corpus)940,此即來源語料庫。
因為原始錄音語料庫920與合成之語料庫940是兩份平行的語料庫,可直接經由簡單的統計來估測此兩平行語料庫之韻律差異950。在本揭露實施的範例中,利用韻律差異950,提供兩種統計法來獲得一韻律重估測模型960,其中一種是全域統計法,另一種是單句統計法。全域統計法是一靜態分佈法(static distribution method),而單句統計法是動態分佈法(dynamic distribution method)。此兩種統計法說明如下。
全域統計法是以全體語料為統計單位,統計原始錄音語料庫與合成語音語料庫的方式,並以整體語料庫的韻律來衡量彼此之間的差異,而希望文字轉語音系統所產生之合成語音韻律可以盡量近似於原始錄音的自然韻律,因此對於原始錄音語料庫整體之平均數μ rec 和標準差σ rec ,以及合成語音語料庫整體之平均數μ tts 和標準差σ tts 而言,這兩者之間存在一個正規化統計均等(Normalized Statistical Equivalent)關係,如下式。
其中,X tts 表示由TTS系統所預測的韻律,而X rec 表示原始錄音的韻律。換句話說,假設給予一個X tts ,則應該依下式來修正:
才能使得修正後的韻律有機會近似於原先錄音的韻律表現。
單句統計法是以一個句子當作基本的統計單位。並以原始錄音語料庫及合成語料庫的每一句子為基本單位,比較該兩語料庫的每一句的韻律差異性來觀察與統計彼此的差異,做法說明如下:(1)對於每一平行序列對,亦即每一合成語句及每一原始錄音語句,計算其韻律分佈(μ tts ,σ tts )及(μ rec ,σ rec )。(2)假設共計算出K對韻律分佈,標記為(μ tts ,σ tts )1 及(μ rec ,σ rec )1 至(μ tts ,σ tts )K 及(μ rec ,σ rec )K ,則可利用一回歸法(regression method),例如最小平方誤差法、高斯混合模型法、支持向量機方法、類神經方法等,建立一回歸模型(regression model)RM。(3)在合成階段(synthesis stage)時,由TTS系統先預測出輸入語句的初始韻律統計(μ s ,σ s ),爾後套用回歸模型RM就可得出新的韻律統計(),即輸入語句的目標韻律分佈。第十圖是產生回歸模型RM的一個範例示意圖,與所揭露的某些實施範例一致。其中,回歸模型RM採用最小平方誤差法而建立,所以套用時只需將初始韻律資訊乘上RM即可,此回歸模型RM是用來預測任一輸入語句的目標韻律分佈。
當韻律重估測模型建構完成後(不論是採用全域統計法或是單句統計法),本揭露實施的範例還提供一個可由參數調控(parameter controllable)的方式,來讓TTS或STS系統能夠產生更豐富的韻律。其原理先說明如下。
將方程式(1)中的tts 替換成src ,並且引入參數α及β,在(μ src ,σ src )與(μ tar ,σ tar )之間使用插入法,如下列方程式。
其中,μ src 與σ src 分別是來源語料庫的韻律平均值μ src 以及韻律標準差σ src 。所以,欲計算出多樣式之調整後的韻律分佈,韻律重估測模型可用下列的形式來表達,X src 是來源語音。
韻律重估測模型也可用下列的另一形式來表達。
其中,μ center 就是上一形式中的μ src ,也就是所有X src 的平均值,μ shift 就是上一形式中的,γσ 就是上一形式中的 src 。當韻律重估測模型採用此種表達形式時,共有三種參數(μ shift ,μ center ,γσ )可調整。透過此三種參數(μ shift ,μ center ,γσ )的調整,可使調整後的韻律更具有豐富性。以γσ 值的變化說明如下。
當γσ =0時,調整後的韻律等於參數μ shift 的值,表示調整後的韻律等於一個輸入的常數值,例如合成之機器人的聲音(synthetic robotic voice)。當γσ <0時,即 src <0,表示調整後的韻律是特殊韻律的調整,例如外國腔調的語音(foreign accented speech)。當γσ >0時,表示調整後的韻律是正規韻律的調整,其中,當γσ =1時, src ;當γσ >1時,1<γσ <σ tar src ;當γσ <1時,σ tar src <γσ <1。
因此,透過適當參數的調控,可適合某些情境或語氣或不同語言的表達,可視終端需求而定。而本揭露實施的範例中,韻律重估測系統400只需開放一個可調控式韻律參數介面410供終端輸入此三個參數即可。當此三個參數有未輸入者時,也可採用系統預設值。此三個參數的系統預設值可設定如下。
μ center src shift tar σ tar src
而這些μ src 、μ tar 、σ tar 、σ src 的值可透過前述所提的兩個平行語料庫的方式統計而得。也就是說,本揭露中的系統也提供參數未輸入者的預設值。因此,在本揭露實施的範例中,此可調控參數組412,例如μ shift ,μ center ,γσ ),是可彈性調控的(flexible control)。
承上述,第十一圖是一範例流程圖,說明一種可調控式韻律重估測方法的運作,與所揭露的某些實施範例一致。第十一圖的範例中,首先,準備一個可調控式韻律參數介面,以供輸入一可調控參數組,如步驟1110所示。然後,根據輸入文稿或輸入語音來預測出或估算出韻律資訊,如步驟1120所示。建構一韻律重估測模型,並根據此可調控參數組及預測出或估算出的韻律資訊,藉由此韻律重估測模型來調整出新的韻律資訊,如步驟1130所示。最後,將此新的韻律資訊提供給一語音合成模組以產生合成語音,如步驟1140所示。
在第十一圖的範例中,各步驟之實施細節,例如步驟1110之可調控參數組的輸入與調控、步驟1120之韻律重估測模型的建構與表達形式、步驟1130之韻律重估測等,如同上述所載,不再重述。
本揭露實施之韻律重估測系統也可執行於一電腦系統上。此電腦系統(未示於圖示)備有一記憶體裝置,用來儲存原始錄音語料庫920與合成之語料庫940。如第十二圖的範例所示,韻律重估測系統1200包含可調控式韻律參數介面410及一處理器1210。處理器1210裡可備有韻律預測或估算模組422、韻律重估測模組424、以及語音合成模組426,來執行韻律預測或估算模組422、韻律重估測模組424、以及語音合成模組426之上述功能。處理器1210可經由統計記憶體裝置1290中此兩語料庫之韻律差異,來建構上述之韻律重估測模型,以提供給韻律重估測模組424使用。處理器1210可以是電腦系統中的處理器。
本揭露之實施範例也可以用一電腦程式產品(computer program product)來實現。此電腦程式產品至少包含一記憶體以及儲存於此記憶體的一可執行的電腦程式(executable computer program)。此電腦程式可藉由一處理器或電腦系統來執行第十一圖之可調控式韻律重估測方法的步驟1110至步驟1140。此處理器還可韻律預測或估算模組422、韻律重估測模組424、以及語音合成模組426、及透過可調控式韻律參數介面410輸入可調控式韻律參數,來執行韻律預測或估算模組422、韻律重估測模組424、以及語音合成模組426之上述功能。藉由這些模組來執行步驟1110至步驟1140。當前述三個參數(μ shift ,μ center ,γσ )有未輸入者時,也可採用前述之預設值。各實施細節如同上述所載,不再重述。
在本揭露中,進行一系列的實驗來證明其實施範例的可行性。首先,以全域統計法以及單句統計法來進行音高準位(pitch level)的驗證實驗,例如可採用音素、韻母(final)、或音節(syllable)等當作基本單位來求取音高曲線(pitch contour)後再求其平均數。這裡採用音高作為實驗的依據是因為韻律的變化與音高變化是十分密切相關,所以可以透過觀察音高的預測結果來驗證所提的方法可行性。另外,以微觀的方式進一步作比較,來觀察比較音高曲線的預測差異程度。例如,以韻母當作基本單位為例,先以2605個中文句子(Chinese Mandarin sentence)的語料庫並採用基於HMM之TTS方法來建構一TTS系統。然後,建立韻律重估測模型。再給予前述可調控參數組,並觀察有使用與無使用其韻律重估測模型之TTS系統之間的效能差異(performance difference)。
第十三圖是對一句子之四種音高曲線的範例示意圖,包括原始錄音語料、採用HTS方法的TTS、採用靜態分佈法的TTS、及採用動態分佈法的TTS,其中橫軸代表句子的時間長度(單位為秒),縱軸代表韻母的音高曲線(Final’s pitch contour),其單位為log Hz。從第十三圖的範例可以看出,在基於HTS方法(基於HMM的其中一種方法)的TTS之音高曲線1310中,有明顯之過度平滑化的現象。第十四圖是8個相異句子在第十三圖所示四種情況下之音高平均值及標準差的範例示意圖,其中橫軸代表句子的號碼(sentence number),縱軸代表平均值±標準差,其單位為log Hz。從第十三圖及第十四圖的範例可以看出,相較於採用傳統HTS方法的TTS,本揭露實施範例之TTS(無論是採用動態或靜態分佈法)可以產生與原始錄音語料更具相似韻律的結果。
在本揭露中,分別進行兩項聽覺測試(listening test),包括偏好度測試(preference test)及相似度測試(similarity test)。相較於傳統基於HMM之TTS方法,其測試結果顯示本揭露之經重估測後的合成語音有非常好的效果,特別是偏好度測試的結果。主要是因為本揭露之重估測後的合成語音已經妥善補償原始之TTS系統所產生之過度平滑的韻律,而產生更逼真的韻律。
在本揭露中,也進行另一實驗來觀察給予前述可調控參數組後,其實施範例中的TTS的韻律是否變得更豐富。第十五圖是給予不同的三組可調控參數所產生之三種音高曲線的範例示意圖,這三種音高曲線分別由三種合成聲音所估算而得,包括原始HTS方法的合成聲音、合成之機器人的聲音、及外國腔調的語音,其中橫軸代表句子的時間長度(單位為秒),縱軸代表韻母的音高曲線,其單位為log Hz。從第十五圖的範例可以看出,對於合成之機器人的聲音,經重估測後的音高曲線是幾乎接近於平坦(flat);至於外國腔調的語音,經重估測之音高曲線的形狀(pitch shape)與HTS方法所產生之音高曲線相較,是呈現相反方向(opposite direction)。經過非正式的語音聽測實驗,多數聽者認為,提供這些特殊的合成語音對目前TTS系統韻律表現上有加分的效果。
所以,從實驗與量測顯示本揭露實施的範例都有優異的實現結果。本揭露實施的範例在TTS或STS的應用上,可提供豐富的韻律及更貼近原始錄音的韻律表現,也可提供可控制的多樣式韻律調整功能。從本揭露實施的範例中,也觀察到當給予某些值的可調控參數後,經重估測後的合成語音,例如機器人的聲音或外國腔調的語音,會有特殊的效果。
綜上所述,本揭露實施的範例可提供一種有效率的可調控式韻律重估測系統與方法,可應用於語音合成。本揭露之實施範例利用先前所估測的韻律資訊當作初始值,經過一個重估測模型後求得新的韻律資訊,並且提供一個可調控式韻律參數介面,使其調整後韻律具有豐富性。重估測模型可藉由統計兩平行語料庫的韻律資訊差異而求得,此兩平行語料庫分別是原始錄音的訓練語句以及文字轉語音系統的合成語句。
以上所述者僅為本揭露實施的範例,當不能依此限定本揭露實施之範圍。即大凡本發明申請專利範圍所作之均等變化與修飾,皆應仍屬本發明專利涵蓋之範圍。
100...中文語音音韻轉換系統
130...音韻分析單元
131...階層拆解模組
132...音韻轉換函式選擇模組
133...音韻轉換模組
150...語音合成單元
200...文字資料
204...語言分析模組
204a...語言資訊
206...特徵參數資料庫
208...語音單元挑選模組
209...韻律預測模組
209a...韻律資訊
210...語音合成模組
211...合成語音
X tts ...TTS系統所產生的韻律資訊
X tar ...目標韻律
...調整後的韻律
tts ,σtts )...X tts 的分佈
tar ,σtar )...X tar 的分佈
()...調整後的韻律分佈
400...韻律重估測系統
410...可調控式韻律參數介面
412...可調控參數組
420...STS/TTS的核心引擎
422...韻律預測或估算模組
422a...輸入文稿
422b...輸入語音
424...韻律重估測模組
426...語音合成模組
428...合成語音
X src ...韻律資訊
...調整後的韻律資訊
520...TTS核心引擎
522...韻律預測模組
620...STS核心引擎
622...韻律估算模組
shift ,σ center ,γσ )...三個可調控參數
910...文字語料庫
920...原始錄音語料庫
930...TTS系統
940...合成之語料庫
950...韻律差異
960...韻律重估測模型
1110...準備一個可調控式韻律參數介面,以供輸入一可調控參數組
1120...根據輸入文稿或輸入語音來預測出或估算出韻律資訊
1130...建構一韻律重估測模型,並根據此可調控參數組及預測出或估算出的韻律資訊,藉由此韻律重估測模型來調整出新的韻律資訊
1140...將此新的韻律資訊提供給一語音合成模組以產生合成語音
1200...韻律重估測系統
1210...處理器
1290...記憶體裝置
1310...基於HMM之TTS方法的TTS的音高曲線
第一圖是一種中文語音音韻轉換系統的一個範例示意圖。
第二圖是語音合成系統與方法的一個範例示意圖。
第三圖是一範例示意圖,說明多樣式韻律分佈的表示法,與所揭露的某些實施範例一致。
第四圖是一種可調控式韻律重估測系統的一個範例示意圖,與所揭露的某些實施範例一致。
第五圖是第四圖之韻律重估測系統應用在TTS上的一個範例示意圖,與所揭露的某些實施範例一致。
第六圖是第四圖之韻律重估測系統應用在STS上的一個範例示意圖,與所揭露的某些實施範例一致。
第七圖是當韻律重估測系統應用在TTS上時,韻律重估測模組與其他模組的一個關聯示意圖,與所揭露的某些實施範例一致。
第八圖是當韻律重估測系統應用在STS上時,韻律重估測模組與其他模組的一個關聯示意圖,與所揭露的某些實施範例一致。
第九圖是一範例示意圖,以應用在TTS上為例,說明如何建構一韻律重估測模型,與所揭露的某些實施範例一致。
第十圖是產生回歸模型的一個範例示意圖,與所揭露的某些實施範例一致。
第十一圖是一範例流程圖,說明一種可調控式韻律重估測方法的運作,與所揭露的某些實施範例一致。
第十二圖是韻律重估測系統執行於一電腦系統中的一範例流程圖,與所揭露的某些實施範例一致。
第十三圖是對一句子之四種音高曲線的範例示意圖,與所揭露的某些實施範例一致。
第十四圖是8個相異句子在第十三圖所示四種情況下之音高平均值及標準差的範例示意圖,與所揭露的某些實施範例一致。
第十五圖是給予不同的三組可調控參數所產生之三種音高曲線的範例示意圖,與所揭露的某些實施範例一致。
400...韻律重估測系統
410...可調控式韻律參數介面
412...可調控參數組
420...STS/TTS的核心引擎
422...韻律預測或估算模組
422a...輸入文稿
422b...輸入語音
424...韻律重估測模組
426...語音合成模組
428...合成語音
X src ...韻律資訊
...調整後的韻律資訊

Claims (30)

  1. 一種可調控式韻律重估測系統,該系統包含:一個可調控式韻律參數介面,用來輸入一可調控參數組;以及一個語音或文字轉語音的核心引擎,該核心引擎至少由一韻律預測或估算模組、一韻律重估測模組、及一語音合成模組所組成,其中該韻律預測或估算模組根據輸入文稿或輸入語音來預測出或估算出韻律資訊,並傳送至該韻律重估測模組,該韻律重估測模組根據輸入的該可調控參數組及收到的韻律資訊,將該韻律資訊重估測後,產生新的韻律資訊,再提供給該語音合成模組以產生合成語音;其中,該可調控參數組包括多個可調控參數,並且當其中至少一可調控參數未被輸入時,該系統根據不同的情況,來設定該至少一可調控參數的一或多個值。
  2. 如申請專利範圍第1項所述之系統,其中該可調控參數組中的參數彼此是獨立的。
  3. 如申請專利範圍第1項所述之系統,該韻律重估測系統應用在文字轉語音上時,該韻律預測或估算模組扮演一韻律預測模組的角色,根據該輸入文稿來預測出該韻律資訊。
  4. 如申請專利範圍第1項所述之系統,該韻律重估測系統應用在語音轉語音上時,該韻律預測或估算模組扮演一韻律估算模組的角色,根據該輸入語音來估算出該韻律資訊。
  5. 如申請專利範圍第1項所述之系統,該系統還建構一韻律重估測模型,並且該韻律重估測模組採用該韻律重估測模型來將該韻律資訊重估測,以產生該新的韻律資訊。
  6. 如申請專利範圍第5項所述之系統,該系統係透過一原始錄音語料庫以及一合成之語料庫來建構該韻律重估測模型。
  7. 如申請專利範圍第1項所述之系統,其中該可調控參數組包括多個可調控參數,並且當其中至少一參數未輸入時,該系統提供該未輸入之至少一參數的預設值。
  8. 如申請專利範圍第5項所述之系統,其中該韻律重估測模型以下列的形式來表達: 其中,X src 代表由一來源語音所產生的韻律資訊,代表該新的韻律資訊,μ center ,、μ shift ,、及γ σ 是三個可調控參數。
  9. 如申請專利範圍第8項所述之系統,其中當μ center 未輸入時,該系統設定μ center 的預設值為一來源語料庫的韻律平均值,當μ shift 未輸入時,該系統設定μ shift 的預設值為一目標語料庫的韻律平均值,當γ σ 未輸入時,該系統設定γ σ 的預設值為σ tar /σ src σ tar 為一目標語料庫的韻律標準差,σ src 為一來源語料庫的韻律標準差。
  10. 一種可調控式韻律重估測系統,係執行於一電腦系統中,該電腦系統備有一記憶體裝置,用來儲存一原始錄 音語料庫與一合成之語料庫,該韻律重估測系統包含:一可調控式韻律參數介面,用來輸入一可調控參數組;以及一處理器,該處理器備有一韻律預測或估算模組、一韻律重估測模組、及一語音合成模組,該韻律預測或估算模組根據輸入文稿或輸入語音來預測出或估算出韻律資訊,並傳送至該韻律重估測模組,該韻律重估測模組根據輸入的該可調控參數組及收到的韻律資訊,將該韻律資訊重估測後,產生新的韻律資訊,再提供給該語音合成模組以產生合成語音;其中,該處理器統計該兩語料庫之韻律差異來建構一韻律重估測模型,以提供給該韻律資訊重估測模組使用,該可調控參數組包括多個可調控參數,並且當其中至少一可調控參數未被輸入時,該系統根據不同的情況,來設定該至少一可調控參數的一或多個值。
  11. 如申請專利範圍第10項所述之系統,該電腦系統包括該處理器。
  12. 如申請專利範圍第10項所述之系統,其中該韻律重估測模型以下列的形式來表達: 其中,X src 代表由一來源語音所產生的韻律資訊,代表該新的韻律資訊,μ center ,、μ shift ,、及γ σ 是三個可調控參數。
  13. 如申請專利範圍第12項所述之系統,其中當μ center 未輸 入時,該系統設定μ center 的預設值為一來源語料庫的韻律平均值,當μ shift 未輸入時,該系統設定μ shift 的預設值為一目標語料庫的韻律平均值,當γ σ 未輸入時,該系統設定γ σ 的預設值為σ tar /σ src σ tar 為一目標語料庫的韻律標準差,σ src 為一來源語料庫的韻律標準差。
  14. 如申請專利範圍第10項所述之系統,該系統利用一單句統計法來獲得該韻律重估測模型。
  15. 一種可調控式韻律重估測方法,係執行於一可調控式韻律重估測系統或一電腦系統中,該方法包含:準備一個可調控式韻律參數介面,以供輸入一可調控參數組;根據輸入文稿或輸入語音來預測出或估算出韻律資訊;建構一韻律重估測模型,並根據該可調控參數組及該預測出或估算出的韻律資訊,藉由該韻律重估測模型來調整出新的韻律資訊;以及將該新的韻律資訊套用至一語音合成模組以產生合成語音;其中,該可調控參數組包括多個可調控參數,並且當其中至少一可調控參數未被輸入時,該方法根據不同的情況,來設定該至少一可調控參數的一或多個值。
  16. 如申請專利範圍第15項所述之方法,其中該可調控參數組包括多個可調控參數,並且當其中至少一參數未輸入時,該方法還包括設定該未輸入之至少一參數的預設值,並且該至少一參數的預設值係統計兩平行語料庫的韻律分佈而得出,該兩平行語料庫為一原始錄音語料庫 以及一合成之語料庫。
  17. 如申請專利範圍第15項所述之方法,其中該韻律重估測模型係經由統計兩平行語料庫的韻律差異而建構,該兩平行語料庫為一原始錄音語料庫以及一合成之語料庫。
  18. 如申請專利範圍第17項所述之方法,其中該原始錄音語料庫是根據一個給定的文字語料庫而錄製的原始錄音語料庫,而該合成之語料庫是經由該原始錄音語料庫訓練出的一文字轉語音系統所合成語句的語料庫。
  19. 如申請專利範圍第15項所述之方法,該方法係利用一靜態分佈法來獲得該韻律重估測模型。
  20. 如申請專利範圍第17項所述之方法,該方法係利用一單句統計法來獲得該韻律重估測模型。
  21. 如申請專利範圍第15項所述之方法,其中該韻律重估測模型以下列的形式來表達: 其中,X src 代表由一來源語音所產生的韻律資訊,代表該新的韻律資訊,μ center ,、μ shift ,、及γ σ 是三個可調控參數。
  22. 如申請專利範圍第20項所述之方法,其中該單句統計法還包括:以該原始錄音語料庫及該合成語料庫的每一句子為基本單位,比較該兩語料庫的每一句子間的韻律差異性並統計彼此的差異; 根據該統計出的差異,利用一回歸法,建立一回歸模型;以及在合成語音時,以該回歸模型來預測一輸入語句的目標韻律分佈。
  23. 如申請專利範圍第21項所述之方法,其中當μ center 未輸入時,該方法設定μ center 的預設值為一來源語料庫的韻律平均值,當μ shift 未輸入時,該方法設定μ shift 的預設值為一目標語料庫的韻律平均值,當γ σ 未輸入時,該方法設定γ σ 的預設值為σ tar /σ src σ tar 為一目標語料庫的韻律標準差,σ src 為一來源語料庫的韻律標準差。
  24. 一種可調控式韻律重估測的電腦程式產品,該電腦程式產品包含一記憶體以及儲存於該記憶體的一可執行的電腦程式,該電腦程式藉由一處理器來執行:準備一個可調控式韻律參數介面,以供輸入一可調控參數組;根據輸入文稿或輸入語音來預測出或估算出韻律資訊;建構一韻律重估測模型,並根據該可調控參數組及預測出或估算出的韻律資訊,藉由一韻律重估測模型來調整出新的韻律資訊;以及將該新的韻律資訊提供給一語音合成模組以產生合成語音;其中,該可調控參數組包括多個可調控參數,並且當其中至少一可調控參數未被輸入時,根據不同的情況,來設定該至少一可調控參數的一或多個值。
  25. 如申請專利範圍第24項所述之電腦程式產品,其中該 韻律重估測模型係經由統計兩平行語料庫的韻律差異而建構,該兩平行語料庫為一原始錄音語料庫以及一合成之語料庫。
  26. 如申請專利範圍第25項所述之電腦程式產品,其中該韻律重估測模型係利用一單句統計法來獲得。
  27. 如申請專利範圍第24項所述之電腦程式產品,其中該韻律重估測模型以下列的形式來表達: 其中,X src 代表由一來源語音所產生的韻律資訊,代表該新的韻律資訊,μ center ,、μ shift ,、及γ σ 是三個可調控參數。
  28. 如申請專利範圍第26項所述之電腦程式產品,其中該單句統計法還包括:以該原始錄音語料庫及該合成語料庫的每一句子為基本單位,比較該兩語料庫的每一句子間的韻律差異性並統計彼此的差異;根據該統計出的差異,利用一回歸法,建立一回歸模型;以及在合成語音時,以該回歸模型來預測一輸入語句的目標韻律分佈。
  29. 如申請專利範圍第28項所述之電腦程式產品,其中當μ center 未輸入時,該方法設定μ center 的預設值為一來源語料庫的韻律平均值,當μ shift 未輸入時,該方法設定μ shift 的預設值為一目標語料庫的韻律平均值,當γ σ 未輸入 時,該方法設定γ σ 的預設值為σ tar /σ src σ tar 為一目標語料庫的韻律標準差,σ src 為一來源語料庫的韻律標準差。
  30. 如申請專利範圍第25項所述之電腦程式產品,其中該韻律重估測模型係利用一靜態分佈法來獲得。
TW099145318A 2010-12-22 2010-12-22 可調控式韻律重估測系統與方法及電腦程式產品 TWI413104B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW099145318A TWI413104B (zh) 2010-12-22 2010-12-22 可調控式韻律重估測系統與方法及電腦程式產品
CN201110039235.8A CN102543081B (zh) 2010-12-22 2011-02-15 可调控式韵律重估测系统与方法及计算机程序产品
US13/179,671 US8706493B2 (en) 2010-12-22 2011-07-11 Controllable prosody re-estimation system and method and computer program product thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099145318A TWI413104B (zh) 2010-12-22 2010-12-22 可調控式韻律重估測系統與方法及電腦程式產品

Publications (2)

Publication Number Publication Date
TW201227714A TW201227714A (en) 2012-07-01
TWI413104B true TWI413104B (zh) 2013-10-21

Family

ID=46318145

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099145318A TWI413104B (zh) 2010-12-22 2010-12-22 可調控式韻律重估測系統與方法及電腦程式產品

Country Status (3)

Country Link
US (1) US8706493B2 (zh)
CN (1) CN102543081B (zh)
TW (1) TWI413104B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
TWI471854B (zh) * 2012-10-19 2015-02-01 Ind Tech Res Inst 引導式語者調適語音合成的系統與方法及電腦程式產品
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
CN106803422B (zh) * 2015-11-26 2020-05-12 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3767547B1 (en) 2016-09-06 2024-08-21 DeepMind Technologies Limited Processing sequences using convolutional neural networks
EP3822863B1 (en) 2016-09-06 2022-11-02 DeepMind Technologies Limited Generating audio using neural networks
JP6756916B2 (ja) 2016-10-26 2020-09-16 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したテキストシーケンスの処理
WO2019191251A1 (en) 2018-03-28 2019-10-03 Telepathy Labs, Inc. Text-to-speech synthesis system and method
CN110010136B (zh) * 2019-04-04 2021-07-20 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
KR20210072374A (ko) * 2019-12-09 2021-06-17 엘지전자 주식회사 발화 스타일을 제어하여 음성 합성을 하는 인공 지능 장치 및 그 방법
US11978431B1 (en) * 2021-05-21 2024-05-07 Amazon Technologies, Inc. Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
US20040172255A1 (en) * 2003-02-28 2004-09-02 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US20070260461A1 (en) * 2004-03-05 2007-11-08 Lessac Technogies Inc. Prosodic Speech Text Codes and Their Use in Computerized Speech Systems
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
US20090234652A1 (en) * 2005-05-18 2009-09-17 Yumiko Kato Voice synthesis device
US7765101B2 (en) * 2004-03-31 2010-07-27 France Telecom Voice signal conversation method and system

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW275122B (en) 1994-05-13 1996-05-01 Telecomm Lab Dgt Motc Mandarin phonetic waveform synthesis method
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
US6101470A (en) 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
CN1259631A (zh) 1998-10-31 2000-07-12 彭加林 一种在头部开关的陶瓷芯片水嘴
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6847931B2 (en) * 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US6856958B2 (en) 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
WO2002073595A1 (fr) 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
GB0113583D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
US7136816B1 (en) 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US20050119890A1 (en) 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
TW200620239A (en) * 2004-12-13 2006-06-16 Delta Electronic Inc Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system
CN1825430A (zh) * 2005-02-23 2006-08-30 台达电子工业股份有限公司 可调适韵律的语音合成方法、装置及其对话系统
JP4684770B2 (ja) * 2005-06-30 2011-05-18 三菱電機株式会社 韻律生成装置及び音声合成装置
JP4559950B2 (ja) 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4539537B2 (ja) 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
TW200725310A (en) * 2005-12-16 2007-07-01 Univ Nat Chunghsing Method for determining pause position and type and method for converting text into voice by use of the method
CN101064103B (zh) * 2006-04-24 2011-05-04 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
CN101452699A (zh) 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
TW200935399A (en) 2008-02-01 2009-08-16 Univ Nat Cheng Kung Chinese-speech phonologic transformation system and method thereof
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
US8321225B1 (en) * 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
WO2010119534A1 (ja) * 2009-04-15 2010-10-21 株式会社東芝 音声合成装置、方法およびプログラム
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
US20040172255A1 (en) * 2003-02-28 2004-09-02 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US20070260461A1 (en) * 2004-03-05 2007-11-08 Lessac Technogies Inc. Prosodic Speech Text Codes and Their Use in Computerized Speech Systems
US7765101B2 (en) * 2004-03-31 2010-07-27 France Telecom Voice signal conversation method and system
US20090234652A1 (en) * 2005-05-18 2009-09-17 Yumiko Kato Voice synthesis device
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof

Also Published As

Publication number Publication date
TW201227714A (en) 2012-07-01
CN102543081B (zh) 2014-04-09
US20120166198A1 (en) 2012-06-28
CN102543081A (zh) 2012-07-04
US8706493B2 (en) 2014-04-22

Similar Documents

Publication Publication Date Title
TWI413104B (zh) 可調控式韻律重估測系統與方法及電腦程式產品
Toda et al. A speech parameter generation algorithm considering global variance for HMM-based speech synthesis
WO2018192424A1 (zh) 统计参数模型建立方法、语音合成方法、服务器和存储介质
US20190130894A1 (en) Text-based insertion and replacement in audio narration
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
CN108831435B (zh) 一种基于多情感说话人自适应的情感语音合成方法
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
López et al. Speaking style conversion from normal to Lombard speech using a glottal vocoder and Bayesian GMMs
Wang et al. Campnet: Context-aware mask prediction for end-to-end text-based speech editing
Norrenbrock et al. Instrumental assessment of prosodic quality for text-to-speech signals
CN109036370B (zh) 一种说话人语音自适应训练方法
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
Astrinaki et al. MAGE-A Platform for Tangible Speech Synthesis.
Oshima et al. Non-native speech synthesis preserving speaker individuality based on partial correction of prosodic and phonetic characteristics
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
Wutiwiwatchai et al. Accent level adjustment in bilingual Thai-English text-to-speech synthesis
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
Qian et al. Improved prosody generation by maximizing joint likelihood of state and longer units
Sulír et al. Development of the Slovak HMM-based tts system and evaluation of voices in respect to the used vocoding techniques
JPH0580791A (ja) 音声規則合成装置および方法
Liou et al. Estimation of hidden speaking rate
Li et al. A lyrics to singing voice synthesis system with variable timbre
Tanaka et al. A vibration control method of an electrolarynx based on statistical f 0 pattern prediction
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
Liu Fundamental frequency modelling: An articulatory perspective with target approximation and deep learning