TWI605350B

TWI605350B - 文字轉語音方法以及多語言語音合成裝置

Info

Publication number: TWI605350B
Application number: TW104137212A
Authority: TW
Inventors: 劉訓甫; 潘迪阿布舍克; 許晋誠
Original assignee: 華碩電腦股份有限公司
Priority date: 2015-07-21
Filing date: 2015-11-11
Publication date: 2017-11-11
Also published as: TW201705019A

Description

文字轉語音方法以及多語言語音合成裝置

本揭示文件係有關文字轉語音方法，特別是一種文字轉語音方法和一種將多語言文字訊息處理成多語言語音音訊的合成裝置。

隨著全球化市場的發展，在日常生活的用語或文章中經常會使用多種語言混雜的表達方式。尤其是當提到專業領域的專有名詞、外文人名、外文地名、外國獨有特色字彙時，將無法用翻譯名詞表達。

一般的文字轉語音(Text-To-Speech,TTS)方法通常僅能處理單一種語言，依文字內容在該種語言的資料庫中尋找相對應的語音訊息，藉此合成對應特定文字內容的發音音訊。然而，當文字訊息中存在另一種語言時，由於資料庫中無法找到相符的語音訊息，因此傳統的文字轉語音方法將難以處理。

本發明提供一種文字轉語音方法，藉由一處理器來執行，用以將具有一第一語言及一第二語言的多語言文字訊息轉換為一多語言語音音訊，並且搭配一具有多數個第一語言音位標籤和第一語言的同語言連接音調資訊的第一語言模型資料庫，以及一具有多數個第二語言音位標籤和第二語言的同語言連接音調資訊的第二語言模型資料庫，該文字轉語音方法包含：將該多語言文字訊息區分為至少一個第一語言段落及至少一個第二語言段落；轉換該第一語言段落為至少一個第一語言音位標籤及轉換至少一個第二語言段落為至少一個第二語言音位標籤；利用該至少一個第一語言音位標籤查找第一語言模型資料庫以獲得至少一個第一語言音位標籤串列，以及利用該至少一個第二語言音位標籤查找第二語言模型資料庫以獲得至少一個第二語言音位標籤串列；依據該多語言文字訊息的文字順序，將該至少一個第一語言音位標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列；在每二個相鄰的音位標籤串列的交界處產生一跨語言連接音調資料，其中每二個相鄰的音位標籤串列包含該至少一個第一語言音位標籤串列中的一個第一語言音位標籤串列及該至少一個第二語言音位標籤串列中的一個第二語言音位標籤串列；合併該多語言音位標籤串列、在該至少一個第一語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第一語言的同語言連接音調資料、在該至少一個第二語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第二語言的同語言連接音調資料以及該跨語言連接音調資料以產生該多語言語音音訊；以及輸出該多語言語音音訊。

本發明更提供一種多語言語音合成裝置，用以將具有第一語言和第二語言的多語言文字訊息處理為多語言語音音訊，該合成裝置包括：儲存模組，儲存具有多數個第一語言音位標籤和第一語言的同語言連接音調資訊的第一語言模型資料庫以及具有多數個第二語言音位標籤和第二語言的同語言連接音調資訊的第二語言模型資料庫；播音模組，播放該多語言語音音訊；處理器，與該儲存模組和該播音模組連接，以將該多語言文字訊息區分為至少一個第一語言段落及至少一個第二語言段落；轉換該第一語言段落為至少一個第一語言音位標籤及轉換至少一個第二語言段落為至少一個第二語言音位標籤；利用該至少一個第一語言音位標籤查找第一語言模型資料庫以獲得至少一個第一語言音位標籤串列，以及利用該至少一個第二語言音位標籤查找第二語言模型資料庫以獲得至少一個第二語言音位標籤串列；依據該多語言文字訊息的文字順序，將該至少一個第一語言音位標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列；在每二個相鄰的音位標籤串列的交界處產生一跨語言連接音調資料，其中每二個相鄰的音位標籤串列包含該至少一個第一語言音位標籤串列中的一個第一語言音位標籤串列及該至少一個第二語言音位標籤串列中的一個第二語言音位標籤串列；合併該多語言音位標籤串列、在該至少一個第一語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第一語言的同語言連接音調資料、在該至少一個第二語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第二語言的同語言連接音調資料以及該跨語言連接音調資料以產生該多語言語音音訊；以及將該多語言語音音訊輸出至該播音模組。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

100‧‧‧文字轉語音系統

120‧‧‧儲存模組

140‧‧‧播音模組

160‧‧‧處理器

180‧‧‧收音模組

200‧‧‧文字轉語音方法

LMD1~LMD2‧‧‧語言模型資料庫

PU1~PU3‧‧‧發音單元

AU1a~AU3c‧‧‧候選聲頻資訊

L1、L2‧‧‧連接路徑

Pavg1、Pavg2‧‧‧基準平均頻率

PAU、PAU1~PAU820‧‧‧語調頻率資料

PCAND‧‧‧候選頻率資料

ML‧‧‧訓練語音

SAM、SAM1、SAM2‧‧‧取樣錄音

LAN1、LAN2‧‧‧語言

P1、P2‧‧‧語調

T1、T2‧‧‧節律

F1、F2‧‧‧音色

S210~S270、S241~S244、S246~S247‧‧‧步驟

S251~S252、S310~S330‧‧‧步驟

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖為根據本揭示文件之一實施例中一種多語言語音合成裝置的功能方塊圖；第2圖繪示根據本案之一實施例中一種文字轉語音方法的流程圖；第3圖和第4圖繪示根據本案之一實施例中步驟S204的流程圖；第5圖繪示根據本案之一實施例中步驟S250的流程圖；第6A圖至第6B圖繪示根據本揭示文件之一實施例的候選聲頻資訊的計算方法；第7圖是繪示根據本案之一實施例的確定發音單元的連接路徑的示意圖；第8圖是繪示根據本案之一實施例中一種文字轉語音方法的訓練程式的訓練方法的流程圖；以及第9A圖至第9C圖繪示根據本案之一實施例中混合語言的訓練語音ML、取樣語音SAM以及分析到的混合語言的語調、節律與音色的示意圖。

下文係舉實施例配合所附圖式作詳細說明，但所提供之實施例並非用以限制本案所涵蓋的範圍，而結構運作之描述非用以限制其執行之順序，任何由元件重新組合之結構，所產生具有均等功效的裝置，皆為本案所涵蓋的範圍。此外，圖式僅以說明為目的，並未依照原尺寸作圖。

關於本文中所使用之『第一』、『第二』、...等，並非特別指稱次序或順位的意思，亦非用以限定本案，其僅僅是為了區別以相同技術用語描述的元件或操作而已。其次，在本文中所使用的用詞「包含」、「包括」、「具有、「含有」等等，均為開放性的用語，即意指包含但不限於此。

請參閱第1圖，其為根據本揭示文件之一實施例中多語言語音合成裝置的功能方塊圖。如第1圖所示，一種多語言語音合成裝置100包含儲存模組120、播音模組140以及處理器160。

多語言語音合成裝置100用以將文字訊息處理/轉換為相對應的多語言語音音訊，播音模組140用以輸出此多語言語音音訊。在一個實施例中，多語言語音合成裝置100可以處理同時包含多種語言的文字訊息。

在一個實施例中，儲存模組120用以儲存多數個語言模型資料庫，例如LMD1以及LMD2等，多個語言模型資料庫各自對應單一種語言(例如中文、英文、日文、德文、法文、西班牙文等等各種世界上流通的語言)。每一個語言模型資料庫包含單一種語言的多數個音位標籤(phoneme label)以及該些音位標籤之間的同語言連接音調資訊。在一個實施例中，儲存模組120儲存一組中文的語言模型資料庫LMD1以及另一組英文的語言模型資料庫LMD2作為例示性說明。然而，在本文中，語言的種類並不局限於此。在一個實施例中，不需要同時供中文與英文兩種語言的混合多語言模型資料庫。

音位標籤(phoneme label)是能夠區別發音的最小聲音單位。在一個實施例中，一個字或詞可由一至數個音節組成，一個音節可由一至數個音位組成。在一個實施例中，以中文來為例，每一個中文字(character)僅包含一個音節，而這一個音節通常由一至三個音位組成(每個音位類似一個注音符號)。在一個實施例中，對英文來說，每一個英文單詞(word)包含至少一個音節，每個音節包含由一至多個音位(每個音位類似一個英文音標)。在一個實施例中，為了達到合適的發音效果，每一個語言模型資料庫除了儲存每一個音位本身的發音方式，更儲存有連接音調資訊。其中，連接音調資訊是相鄰音位之間連續發音時，用來連接(或是字詞與字詞之間)前後音位的音調(Tone)。

音位標籤是方便系統進行處理時使用的代表符號，實際上，語言模型資料庫LMD1~LMD2更進一步儲存有每一個音位標籤在發音合成時所需的語調(pitch)、節律(tempo)、音色(timbre)等聲頻資訊。在一個實施例中，舉例來說，語調包含但不限於發聲的頻率高低；節律包含但不限於發聲的速度、間隔與韻律；音色包含但不限於發聲的品質、口形、發聲部位等。

參閱第2圖，其繪示根據本案之一實施例中一種一種文字轉語音方法的流程圖。多語言文字轉語音方法200用以將同時包含相異的多數種語言的文字訊息處理/轉換為多語言語音音訊。在一個實施例中，處理器160用以執行多語言文字轉語音的方法，處理器160例如可為，但不限於，中央處理器(central processing unit,CPU)、系統單晶片(System on Chip,SoC)、應用處理器、音訊處理器、數位訊號處理器(digital signal processor)或特定功能的處理晶片或控制器。

在一個實施例中，多語言文字訊息可以是，但不限於，文稿中的段落、使用者輸入的指令、網頁上圈選的文字或是其他各種來源輸入的文字。在一個實施例中，第一語言模型資料庫具有多數個第一語言音位標籤和第一語言的同語言連接音調資訊，第二語言模型資料庫具有多數個第二語言音位標籤和第二語言的同語言連接音調資訊。

如第2圖中所示，多語言文字轉語音方法200包含以下步驟。在步驟S210中，將多語言文字訊息區分為至少一個第一語言段落以及至少一個第二語言段落。在一個實施例中，由處理器160將多語言文字訊息依據不同語言區分為多數個語言段落。在一個實施例中，文字訊息「放個Jason Mraz來聽」將被分為三個語言段落，分別是「放個」(中文語言段落)、「來聽」(中文語言段落)以及「Jason Mraz」(英文語言段落)。

在步驟S220中，將至少一個第一語言段落轉換成至少一個第一語言音位標籤，將至少一個第二語言段落轉換成至少一個第二語言音位標籤。在一個實施例中，每一個音位標籤可以包含，但不限於，音位的語調(pitch)、節律(tempo)、音色(timbre)等聲頻資訊。

在步驟S230中，利用至少一個第一語言音位標籤查找第一語言模型資料庫以獲得至少一個第一語言音位標籤串列，利用至少一個第二語言音位標籤查找第二語言模型資料庫以獲得至少一個第二語言音位標籤串列。

在一個實施例中，M代表為中文(Mandarin)的音位，數字代表中文裡不同音位的編號。在一個實施例中，中文字「放」對應到兩個音位標籤[M04]與[M29]，中文字「個」對應到另兩個音位標籤[M09]與[M25]。因此，中文語言段落「放個」所轉換而成的音位標籤串列則為[M04 M29 M09 M25]；同理，語言段落「來聽」亦可轉換為相對應的另一組音位標籤串列，為[M08 M29 M41 M44]。另一方面，英文語言段落「Jason Mraz」則依照英文的語言模型資料庫LMD2轉換為對應的另一組音位標籤串列，為[E19 E13 E37 E01 E40]。

在步驟S240中，依據該多語言文字訊息的文字順序，將至少一個第一語言音位標籤串列與至少一個第二語言音位標籤串列組合為一多語言音位標籤串列。

換而言之，處理器160依據最初的多語言文字訊息的順序對不同語言段落的多個音位標籤串列進行排列，並將排列的音位標籤串列組合為多語言音位標籤串列。於此例中，文字訊息「放個Jason Mraz來聽」所轉換的三個音位標籤串列，也就是，[M04 M29 M09 M25]、[E19 E13 E37 E01 E40]以及[M04 M29 M09 M25]，依據最初的多語言文字訊息的順序被組合成多語言音位標籤串列[M04 M29 M09 M25 E19 E13 E37 E01 E40 M08 M29 M41 M44]。

在步驟S250中，處理器160在每二個相鄰的音位標籤串列的交界處產生一跨語言連接音調資料，其中每二個相鄰的音位標籤串列包含至少一個第一語言音位標籤串列中的一個第一語言音位標籤串列以及至少一個第二語言音位標籤串列中的一個第二語言音位標籤串列。在一個實施例中，處理器160查找語言模型資料庫LMD1和LMD2以獲得每二個相鄰的音位標籤串列的跨語言連接音調資料。下文中特舉一實施例加以說明。

在步驟S260中，處理器160合併多語言音位標籤串列、在至少一個第一語言音位標籤串列中每兩個相鄰的音位標籤之間交界處的第一語言的同語言連接音調資料、在至少一個第二語言音位標籤串列中每兩個相鄰的音位標籤之間交界處的第二語言的同語言連接音調資料以及跨語言連接音調資料以產生多語言語音音訊。在步驟S270中，輸出多語言語音音訊。

為了達到較好的發音效果，在一個實施例中，圖2中的文字轉語音方法的步驟S240進一步包含如第3圖中所示之步驟S241-S245。

如第3圖所示，在步驟S241中，處理器160將組合的多語言音位標籤串列分成多數個第一發音單元，每一個發音單元同屬單一種語言，並且包含至少一個第一語言音位標籤串列和至少一個第二語言音位標籤串列中相應的一個語言音位標籤串列的連續的音位標籤。

接著，對每個第一發音單元執行步驟S242。在步驟S242中，處理器160確定在第一語言模型資料庫和第二語言模型資料庫其中一個對應於第一發音單元的語言模型資料庫中，第一發音單元所對應的候選數目是否大於等於該第一發音單元所對應的一預定數目。當第一語言模型資料庫和第二語言模型資料庫中所對應的語言模型資料庫中的每一個第一發音單元的候選數目均大於等於相應的預定數目時，該處理器160執行步驟S243來計算每一個候選路徑的加入代價值，其中每一個候選路徑經過每個第一發音單元的一個候選。在步驟S244中，該處理器160依據每個候選路徑的加入代價值確定每兩個相鄰第一發音單元之間的連接路徑。

在一個實施例中，在步驟S244中，處理器160進一步確定在相鄰兩個第一發音單元中前一個第一發音單元中所選的一個候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的一個候選之間的連接路徑，其中相鄰兩個第一發音單元中前一個第一發音單元中所選的候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的候選都位於最低加入代價值的候選路徑之一。

然而，在步驟242之後，當第一語言模型資料庫和第二語言模型資料庫其中一個對應的語言模型資料庫中任何一個或多個第一發音單元的候選數目小於相應的預定數目時，執行如第4圖所示的本發明一實施例中的子步驟S246和S247(如第3圖中示出為A)。

在第4圖中的步驟S246中，處理器160進一步將一個或多個第一發音單元分成多數個第二發音單元，其中任一一個第二發音單元的長度均小於相應的其中一個第一發音單元的長度。在步驟S247中，對於每個第二發音單元，處理器160進一步確定第一語言模型資料庫和第二語言模型資料庫中一個對應於第一發音單元的語言模型資料庫中，第二發音單元所對應的候選數目是否大於等於該第二發音單元所對應的一預定數目。

換而言之，在步驟S242中，如果第一語言模型資料庫和第二語言模型資料庫其中一個對應的語言模型資料庫中任何一個或多個第一發音單元(或第二發音單元等)的候選數目被確定為小於相應的預定數目時，則重複子步驟S246和S247，直至候選數目被確定為大於等於相應的預定數目，接著在步驟S243中，計算每個候選路徑的加入代價值。

在一個實施例中，多語言文字訊息「我們下個星期一起去Boston University參加畢業典禮」被分成多個第一發音單元，例如聲頻資訊「我們」、「下個星期」、「一起」、「去」、「Boston University」、「參加畢業典禮」。處理器160確定在第一語言模型資料庫和第二語言模型資料庫其中一個對應語言模型資料庫中這些第一發音單元的候選數目是否大於等於該第一發音單元所對應的一預定數目。

在一個實施例中，假定第一發音單元「參加畢業典禮」候選的預定數目是十，如果在第一語言模型資料庫LMD1中只有五個第一發音單元「參加畢業典禮」的候選，這意味著第一語言模型資料庫LMD1中的候選數目小於相應的預定數目。然後，將第一發音單元「參加畢業典禮」分成比第一發音單元「參加畢業典禮」長度小的第二發音單元，如圖4中的步驟S246所示。

在一個實施例中，每個第二發音單元的預定數目與相應的第一發音單元的預定數目相同。在另一個實施例中，每個第二發音單元的預定數目設定為與相應的第一發音單元的預定數目不相同。在本實施例中，將第一發音單元「參加畢業典禮」分成兩個第二發音單元：「參加」和「畢業典禮」，以「參加」以及「畢業典禮」兩個詞分別查找第一語言模型資料庫LMD1中得到280筆以及56筆的候選數目。例如，在本實施例中，第二發音單元「參加」和「畢業典禮」的候選的預定數目均為十。這意味著，第二發音單元「參加」和「畢業典禮」所對應的候選數目均大於相應的預定數目。接著，執行步驟S243。為了獲得較好的發音效果，將第一發音單元進一步分成長度較短的第二發音單元直至相應的語言資料庫中能夠找到足夠數目的候選。

如第5圖中所示，在一個實施例中，在每兩個相鄰音位標籤串之間的交界處產生跨語言連接音調資料的步驟S250，進一步包含子步驟。將同一種語言的發音單元的音位標籤之間的連接關係分別儲存在語言模型資料庫LMD1和LMD2中。再次以文字訊息「放個Jason Mraz來聽」的多語言音位標籤串列[M04 M29 M09 M25 E19 E13 E37 E01 E40 M08 M29 M41 M44]作為例子，將用以連接的同語言連接音調資訊[M04 M29]儲存在中文模型資料庫LMD1中，以L[M04，M29]表示，[M29 M09]的同語言連接音調資訊以L[M29，M09]表示，以此類推。將中文的任何兩個相鄰的音位標籤的同語言連接音調資訊都儲存在語言模型資料庫LMD1中。在一個實施例中，將相鄰音位標籤的同語言連接音調資訊[E19 E13]預先儲存在英文模型資料庫LMD2，以此類推。

由於每個語言模型資料庫LMD1和LMD2分別儲存有同一種語言訊息的資料，傳統的文字轉語音方法中不能找到多語言音位標籤串列[M04 M29 M09 M25 E19 E13 E37 E01 E40 M08 M29 M41 M44]的跨兩種語言的跨語言連接音調資料(例如[M25 E19]的跨語言連接音調資料以及[E40 M08]的跨語言連接音調資料)。

音位標籤之間的連接音調資料使語音具有流暢性、一致性以及連續性。因此，在一個實施例中，根據步驟S250，處理器160在兩種不同的語言之間任何兩個音位標籤的交界處產生跨語言連接音調資料，這將在後文中詳細描述。

第5圖是在第一語言和第二語言之間的交界處產生跨語言連接音調資料的方法的流程圖。在一個實施例中，如第5圖所示，步驟S250進一步包含子步驟S251-S252。

在第5圖的步驟S251中，處理器將與至少一個第二語言音位標籤串列的首位音位標籤具有近似發音的相應的第一語言音位標籤的音位標籤替換至少一個第二語言音位標籤串列的該首位音位標籤。

在一個實施例中，在多語言文字訊息「放個Jason Mraz來聽」中，第一語言和第二語言之間的第一交界處是在「個」和「Jason」之間。在本實施例中，中文是第一語言，英文是第二語言，中文文字「個」(對應音位標籤[M09 M25])出現在英文文字「Jason」(對應音位標籤[E19 E13])前面。也就是說，在本實施例中，第一語言語言段落的末位元音位標籤與第二語言語言段落的首位音位標籤的第一交界處，是在音位標籤[M25]和[E19]之間。

依據步驟S251，將第二語言(在本實施例中是英文)語言段落中的首位音位標籤[E19]替換為具有近似發音的第一語言(在本實施例中是中文)的音位標籤。在一個實施例中，將英文中的音位「Ja」(對應音位標籤[E19])替換為中文中的音位「ㄐ」(發音為「Ji」，對應音位標籤[M12])。在本實施例中，將英文中的音位「Ja」的音位標籤[E19]替換為中文中的音位「ㄐ」的音位標籤[M12]。

進一步地，在相同的示例文字(「放個Jason Mraz來聽」)中，第二跨語言交界處是「Mraz」(對應音位標籤[E37 E01 E40])和「來」(對應音位標籤[M08 M29])之間的交界處。也就是說，第二交界處是在第二語言語言段落的末位元音位標籤與第一語言語言段落首位音位標籤之間。在本實施例中，第二交界處存在於音位標籤[E40]和[M08]之間。接著，將中文中的音位「來」的音位標籤[M08]替換為英文中的音位「le」的音位標籤[E21](與中文中的音位「來」的音位標籤[M08]近似)。

接著，在步驟S252中，處理器160利用第一語言音位標籤中相應的音位標籤查找第一語言模型資料庫LDM1以獲得第一語言模型資料庫LDM1中在至少一個第一語言音位標籤串列的末位音位標籤和第一語言音位標籤中該相應的音位標籤之間的相應的同語言連接音調資訊，其中第一語言模型資料庫LDM1中該相應的同語言連接音調資訊用作為至少一個第一語言音位標籤串列中的該個第一語言音位標籤以及至少一個第二語言音位標籤串列中的該個第二語言音位標籤之間交界處的跨語言連接音調資料。

在上一個實施例中，對於第一交界處來說，依據第一語言在第一交界處的末位音位標籤和替換的音位標籤[M25 M12]，在第一語言模型資料庫LMD1中找到第一交界處的同語言連接音調資訊L[M25 M12]。接著，同語言連接音調資訊L[M25 M12]被視作第一交界處的跨語言連接音調資料。對於第二交界處來說，依據第二語言在第二交界處的末位音位標籤以及最近似的替換音位標籤[E40 E21]，也能夠在第二語言模型資料庫LMD2中找到同語言連接音調資訊[E40 E21]。接著，同語言連接音調資訊L[E40 E21]被視作第二交界處的跨語言連接音調資料。

以下透過第6A圖與第6B圖提出一個實施例來說明如何計算目標聲頻資訊的候選數目多寡。

如第6A圖所示，假設目前選擇的發音單元為「參加畢業典禮」，便由第一語言模型資料庫LMD1中找到「參加畢業典禮」每個字所對應的語調、節律或音色。語調(pitch)包含發聲的頻率高低；節律包含發聲的音長(duration)、速度、間隔與饋律；音色包含發聲的品質、口形、發聲部位等。第6B圖的例子中示意性提出以語調作比對基準進行說明。

在本實施例中，發音單元的語調(pitch)與節律(如音長duration)可以分別由一維度的高斯模型代表其分布曲線。例如語調(pitch)的一維度的高斯模型便為該發音單元在不同頻率(單位如赫茲Hz)下的統計分佈；音長(duration)的一維度的高斯模型便為發音單元在不同時間長度(單位如毫秒ms)下的統計分佈。

於此實施例中，代表音色的口形可採用多個多維度的高斯混和模型所建立。在一個實施例中，可以利用語者調適(Speaker Adaptation)來建立這樣的多維度的高斯混和模型，以記錄代表音色的口形。使用語者調適(Speaker Adaptation)技術可以為輸入的文字訊息建立較為可靠的口形。語者調適(Speaker Adaptation)技術的實行方法包含：利用同語言但是不同語者的大量語料先建立那個語言裡所有音位(phoneme)的通用模型；在建立該語言的所有音位的通用模型後，再利用原先錄製的混和語言音檔中抽出的符合其語言的聲音片段，對其抽取口形參數；然後將先前已經有的各個音位的通用模型，移動到抽取的口形參數樣本中，移動後的新模型就是調適過的模型(adapted model)。語者調適技術的詳細步驟與原理在Reynolds,Douglas A.在2000年發表於Digital Signal Processing的期刊文章「Speaker Verification Using Adapted Gaussian Mixture Models」中有詳細的解釋與說明。實際上，語者調適技術僅為本案建立口腔模型的其中一種實施方式，但本揭示文件並不以此為限。

於此例中，先找出語言模型資料庫LMD1中「參加畢業典禮」的各別的語調的基準平均頻率Pavg1，如此例中，參加畢業典禮這六個中文字的平均頻率依序為100Hz、140Hz、305Hz、203Hz、150Hz以及143Hz。此一組基準平均頻率Pavg1便作為目標聲頻資訊，即為後續挑選的標準。

隨後找出語言模型資料庫LMD1中所有符合「參加畢業典禮」此一發音單元的168組語調頻率資料PAU，如圖6A中所示為PAU1~PAU168。在一個實施例中，語調頻率資料與目標聲頻(也就是基準平均頻率Pavg1)所選組別的差異量被設定為預定範圍內，如一基準平均頻率Pavg1的20%以內。在本實施例中，這六個中文字的目標聲頻資訊的預定範圍是分別是：100Hz±20%、146Hz±20%、305Hz±20%、230Hz±20%、150Hz±20%以及143Hz±20%。集合中所有這六個字的聲頻資訊均在預定範圍內的即為候選(PCAND)。例如，在第一組語調頻率資料PAU1中，這六個中文字的頻率依序為175Hz、179Hz、275Hz、300Hz、120Hz以及150Hz，均在基準平均頻率Pavg1的20%的預定範圍之外。於此例子中，168組中僅有兩組候選頻率資料PCAND，分別是語調頻率資料PAU63與PAU103，差異量在預定範圍以內。然而，假定第一發音單元的預定數目是10，候選數目(即為2組，PAU63和PAU103)小於該預定數目(即為10)。因此，第一發音單元需要被分成多數個比第一發音單元長度短的第二發音單元以獲得更多的候選。

接著，將第一發音單元「參加畢業典禮」分成多數個第二發音單元，「參加」和「畢業典禮」。以其中一個第二發音單元「畢業典禮」作為例子來作進一步說明。在第6B圖中，在一實施例中，找出第一語言模型資料庫LMD1中第二發音單元「畢業典禮」的各個語調平均頻率Pavg2。在一個實施例中，第二發音單元「畢業典禮」的平均頻率依序為305Hz、230Hz、150Hz以及143Hz。此一組基準平均頻率Pavg2便作為目標聲頻資訊，即為後續挑選的標準。

隨後找出第一語言模型資料庫LMD1中符合第二發音單元「畢業典禮」的所有語調頻率資料PAU，共包含820組語調頻率資料PAU1~PAU820。在一個實施例中，在第一組語調頻率資料PAU1中，這六個中文字的頻率依序為275Hz、300Hz、120Hz以及150Hz。接著，從語調頻率資料組PAU1~PAU820中間挑選出與目標聲頻(也就是基準平均頻率Pavg)的差異量在預定範圍內(即，基準平均頻率Pavg2的20%以內)的組別。於此例子中，语调頻率資料差異量在預定範圍內的組別有340組候選頻率資料PCAND。此時目標聲頻資訊的候選數目充足，因此第二發音單元長度是合適的。因此，不需要再將第二發音單元分成更小長度的發音單元。預定範圍並不以20%為限，亦可調整為在基準平均頻率上下其它合理範圍。

上述第6A圖與第6B圖的實施例中僅示意性繪示以語調頻率資料挑選候選聲頻資訊的作法。在另一個實施例中，依據語調(pitch)、節律(tempo)與音色(timbre)的權重加成選擇候選聲頻資訊。

舉例來說，目標聲頻資訊AUavg表示為：AUavg=αPavg+βTavg+γFavg

其中，Pavg為語調的平均頻率，Tavg為節律的平均音長，Favg為音色的平均口形。在一個實施例中，口形可由多維度的矩陣所表示。在一個實施例中，可用梅爾頻率倒頻譜係數(Mel-frequency cepstral coefficient,MFCC)加以表示口形，此為習知技藝之人所熟知，並非本案的主要討論範圍，在此不另贅述。α、β、γ為Pavg、Tavg以及Favg三者各自的權重。α、β、γ均大於0且三者相加為1。在一個實施例中，同時參照目標聲頻資訊AUavg與語言模型資料庫LMD1個別聲訊資料的語調(pitch)、節律(tempo)與音色(timbre)權重加成結果來挑選候選聲頻資訊。

第7圖繪示決定本發明一個實施例的發音單元的連接路徑的操作實例示意圖。

如第7圖所示，在一個實施例中，文字訊息最後被區分為發音單元PU1(例如一中文字)、發音單元PU2(例如一英文片語)以及發音單元PU3(例如一英文片語)。在本實施例中，在查找語言模型資料庫LMD1~LMD2時，針對發音單元PU1找到四筆的不同的候選聲頻資訊AU1a~AU1d；針對發音單元PU2找到兩筆的不同的候選聲頻資訊AU2a~AU2b；針對發音單元PU3找到三筆的不同的候選聲頻資訊AU3a~AU3c。

並且，由語言模型資料庫LMD1~LMD2得到候選聲頻資訊AU1a~AU1d至候選聲頻資訊AU2a~AU2b之間的連接路徑L1，以及候選聲頻資訊AU2a~AU2b至候選聲頻資訊AU3a~AU3c之間的連接音調資訊L2。

每一條候選路徑包含流暢性代價，每一條連接路徑也包含流暢性代價(cost)。步驟S254用以在連接路徑L1與連接路徑L2的組合中找出一條流暢性代價最小的連接路徑，使得三個發音單元PU1~PU3以及兩個連接路徑L1和L2加總的流暢性代價最小，如此一來，該所選的連接路徑的發音方式其整體的流暢性最高。

計算流暢性代價之最小值的計算公式，如下所示：其中，代表每一發音單元的所有候選聲頻資訊，代表與相鄰的另一發音單元的所有候選聲頻資訊。加總的流暢性代價等於每一個發音單元各個候選聲頻資訊本身的目標代價值(如式中C_Target())、兩個相鄰發音單元之間候選聲頻資訊彼此連接的音譜代價值(如式中C_Spectrum(,))、兩個相鄰發音單元之間候選聲頻資訊彼此連接的聲調代價值(如式中C_Pitch(,))、兩個相鄰發音單元之間候選聲頻資訊彼此連接的節律代價值(如式中C_Duration(,))以及兩個相鄰發音單元之間候選聲頻資訊彼此連接的強度代價值(如式中C_Intensity(,))的加權總和來求得，於算式中α、β、γ、δ與ε分別代表目標代價值、音譜代價值、聲調代價值、節律代價值以及強度代價值各自的權重。把沿L1和L2不同路徑組合的加權總和得到的流暢性代價相比較，其中加權總和最低的路徑便作為最終合成用的種子聲頻。

透過上述加權計算，可以得出每一條路徑上的加總的流暢性代價，並找出整體流暢性代價最低的一條路徑。在一個實施例中，候選聲頻資訊AU1c至候選聲頻資訊AU2b至候選聲頻資訊AU3a路徑的加總的流暢性代價最小，則選取這一條路徑上的候選聲頻資訊AU1c、候選聲頻資訊AU2b以及候選聲頻資訊AU3a作為文字轉語音方法中最終合成用的種子聲頻。

接著，執行第2圖中的步驟S260，由處理器160，將串連拼接各發音單元的聲頻資訊(如聲頻資訊AU1c、AU2b以及AU3a)，產生多語言語音音訊。多語言語音音訊可以透過播音模組140播放，如第2圖中步驟S270所示，便達成本案的文字轉語音方法200中的聲音輸出。在本實施例中，播音模組140可為，但不限於揚聲器和/或電話聽筒。

此外，在上述實施例中，語言模型資料庫LMD1~LMD2是透過一訓練程序預先建立的。在一個實施例中，本案所提出的文字轉語音方法200除了上述發音程序之外，亦包含如何建立/訓練適當的語言模型資料庫LMD1~LMD2的訓練程序。

如第1圖所示，多語言語音合成裝置100更包含一收音模組180。在本實施例中，收音模組180可以內建於文字轉語音系統100中，或者獨立外設於多語言語音合成裝置100。在一個實施例中，收音模組180可為，但不限於，麥克風或錄音單元。

在一個實施例中，收音模組180用以取樣至少一訓練語音以進行語言模型資料庫LMD1~LMD2的訓練程序。將訓練產生之語言模型資料庫LMD1~LMD2提供給文字轉語音系統100使用。

第8圖繪示根據本揭示文件之一實施例文字轉語音方法200有關訓練程序的訓練方法的流程圖。參閱第8和9A-9C圖，在第8圖中的文字轉語音方法200的訓練程序中，首先執行步驟S310，利用收音模組180接收至少一個單一種語言的訓練語音。第9A圖至第9C繪示混合語言的訓練語音ML、取樣錄音SAM以及分析到的混合語言的語調(pitch)、節律(tempo)與音色(timbre)資訊的示意圖。語調(pitch)包含，但不限於，發聲的頻率高低；節律包含，但不限於發聲的音長(duration)、速度、間隔與韻律；音色包含，但不限於，發聲的品質、口形(如MFCC)以及發聲部位等。

於一實施例中，如第9A圖所示，這一段訓練語音ML的取樣錄音SAM取自以中文為母語人士，並且這位以中文為母語人士能順暢地使用中英文兩種語言。這樣便能取得中英文混雜的語音，並且中英文之間的銜接是順暢的。同理，若以英文為母語人士進行錄音，亦需能順暢地使用中英文兩種語言。

於另一實施例中，該訓練語音包含純中文的第一取樣錄音以及純英文的第二取樣錄音，分別由中文為母語人士以及英文為母語人士分別錄製。接著，執行步驟S320，分析訓練語音的樣本中的兩種不同種語言各自的語調(pitch)、節律(tempo)或音色(timbre)。如第9B圖所示，首先將第9A圖中混合語言的訓練語音ML分為第一語言LAN1的取樣錄音SAM1與第二語言LAN2的取樣錄音SAM2。接著，如第9C圖所示，對第一語言L1的取樣錄音SAM1與第二語言L2的取樣錄音SAM2分別分析語調(pitch)、節律(tempo)或音色(timbre)，得到如頻率、音長、口形等聲頻資訊。之後，得到取樣錄音SAM1的語調P1、節律T1與音色F1及取樣錄音SAM2的語調P2、節律T2與音色F2。

其中，語調P1與語調P2分別為取樣錄音SAM1與取樣錄音SAM2中所有發音單元的頻率分佈，橫軸為不同的頻段(其單位為赫茲Hz)，縱軸為取樣點統計個數。節律T1與節律T2分別為取樣錄音SAM1與取樣錄音SAM2中所有發音單元的音長分佈，橫軸為不同的時間長度(其單位為毫秒ms)，縱軸為取樣點統計個數。單個取樣點為取樣錄音SAM1或取樣錄音SAM2中每一個音素的單一個音訊框(frame)。

於此實施例中，音色F1與音色F2分別為取樣錄音SAM1與取樣錄音SAM2中所有發音單元的口形，如第9C圖所示，分別採用多個多維度的高斯混和模型表示。

不同語音L1與L2的取樣錄音SAM1/取樣錄音SAM2各自得到的語調P1、節律T1與音色F1以及語調P2、節律T2與音色F2將分別儲存到相對應的語言模型資料庫LMD1~LMD2。

接著，執行步驟S330，將語調、節律和音色落在預定範圍內的訓練語音進行儲存。將訓練語音的語調、節律或音色與一基準範圍作比較。在一個實例中，基準範圍可以是過去錄音所得聲音的中位範圍(middle range)，例如在高於或低於語調、節律或音色的平均值兩個標準差的範圍內屬於基準範圍。該步驟包含將訓練語音的樣本中語調、節律或音色落在該基準範圍外的部份排除。如此一來，便可以將極端的語調、節律或音色排除，或是將取樣錄音中明顯不一致(例如中文為母語人士以及英文為母語人士兩者語調差異過大的部份)的內容加以濾除，藉以確保資料庫中兩種語言之間語調、節律或音色的一致性。

也就是說，若是新錄得的訓練語音的語調、節律與音色其中一者明顯偏離過去錄音所得資料的統計分佈模型的中間值時(例如語調、節律與音色落在原統計分佈模型的兩倍標準差之外，或是落在一定累積分佈如10%~90%的範圍之外)便將新錄得的訓練語音濾除，以避免變異過大的語調、節律與音色(例如發聲者突然採用較尖銳或較激昂的發音方式)影響語言模型資料庫中候選聲頻資訊的一致性。將訓練語音依照不同種語言分別儲存入語言模型資料庫LMD1或LMD2中。

如以上實施例所描述的，多語言文字訊息被轉換成多語言語音訊息，從而改善了語音的流暢性、一致性與連續性。

雖然本案已以實施方式揭露如上，然其並非用以限定本案，任何本領域具通常知識者，在不脫離本案之精神和範圍內，當可作各種之更動與潤飾，因此本案之保護範圍當視後附之申請專利範圍所界定者為準。

200‧‧‧文字轉語音方法

S210~S270‧‧‧步驟

Claims

一種文字轉語音方法，藉由一處理器來執行，用以將具有一第一語言及一第二語言的多語言文字訊息轉換為一多語言語音音訊，並且搭配一具有多數個第一語言音位標籤和第一語言的同語言連接音調資訊的第一語言模型資料庫，以及一具有多數個第二語言音位標籤和第二語言的同語言連接音調資訊的第二語言模型資料庫，其中該第一語言及該第二語言來自一同一語者，該文字轉語音方法包含：將該多語言文字訊息區分為至少一個第一語言段落及至少一個第二語言段落；轉換該第一語言段落為至少一個第一語言音位標籤及轉換至少一個第二語言段落為至少一個第二語言音位標籤；利用該至少一個第一語言音位標籤查找該第一語言模型資料庫以獲得至少一個第一語言音位標籤串列，以及利用該至少一個第二語言音位標籤查找該第二語言模型資料庫以獲得至少一個第二語言音位標籤串列；依據該多語言文字訊息的文字順序，將該至少一個第一語言音位、標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列；將該至少一個第二語言音位標籤串列的首位音位標籤替代為與該至少一個第二語言音位標籤串列的首位音位標籤具有近似發音的相應的該第一語言音位標籤中的一音位標籤；利用相應的該第一語言音位標籤中的該音位標籤查找該第一語言模型資料庫以獲得在至少一個第一語言音位標籤串列的一末位音位標籤和相應的該第一語言音位標籤中的該音位標籤之間的該第一語言模型資料庫中一相應的同語言連接音調資訊；在每二個相鄰的音位標籤串列的交界處產生一跨語言連接音調資料，其中該每二個相鄰的音位標籤串列包含該至少一個第一語言音位標籤串列中的一個第一語言音位標籤串列及該至少一個第二語言音位標籤串列中的一個第二語言音位標籤串列；合併該多語言音位標籤串列、在該至少一個第一語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第一語言的同語言連接音調資料、在該至少一個第二語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第二語言的同語言連接音調資料以及該跨語言連接音調資料以產生該多語言語音音訊；以及輸出該多語言語音音訊。
如請求項1所述之文字轉語音方法，其中該第一語言模型資料庫中該相應的同語言連接音調資訊用作該至少一個第一語言音位標籤串列中的該第一語言音位標籤串列和該至少一個第二語言音位標籤串列中的該第二語言音位標籤串列之間的交界處的該跨語言連接音調資料。
如請求項1所述之文字轉語音方法，其中該第一語言模型資料庫和該第二語言模型資料庫各自還包含由連續的音位標籤形成的片語(phrase)、詞(word)、字(character)、音節(syllable)或音位(phonemes)中的一個或其組合的聲頻資訊，並且該些連續的音位標籤所形成的片語、詞、字、音節或音位中的一個或其組合是單個發音單元。
如請求項3所述之文字轉語音方法，在依據該多語言文字訊息的文字順序，將該至少一個第一語言音位標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列的步驟之後，該文字轉語音方法還包含以下步驟：將該多語言音位標籤串列分成多數個第一發音單元，每一個第一發音單元同屬單一種語言，並且每一個第一發音單元包含該至少一個第一語言音位標籤串列和該至少一個第二語言音位標籤串列中相應的一個語言音位標籤串列的連續的音位標籤；對於每一個第一發音單元，確定在該第一語言模型資料庫和該第二語言模型資料庫中一個相應的語言模型資料庫中，其中一個第一發音單元所對應的候選數目是否大於或等於該第一發音單元所對應的一預定數目；當該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的語言模型資料庫中每一個該第一發音單元的候選數目均大於等於相應的該預定數目，計算每一個該候選路徑的加入代價值，其中每一個該候選路徑經過每一個該第一發音單元的其中一個候選；以及依據每一個候選路徑的加入代價值確定每兩個相鄰的該第一發音單元之間的連接路徑。
如請求項4所述之文字轉語音方法，其中，確定每兩個相鄰的該第一發音單元之間的該連接路徑的步驟包括：確定在相鄰兩個第一發音單元中前一個第一發音單元中所選的一個候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的一個候選之間的該連接路徑；其中相鄰兩個第一發音單元中前一個第一發音單元中所選的該候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的該候選都位於其中一個最低加入代價值的該候選路徑。
如請求項4所述之文字轉語音方法，當該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的語言模型資料庫中任何一個或多個第一發音單元的該候選數目小於相應的該預定數目時，該文字轉語音方法還包含：將該一個或多個第一發音單元中的每一個該發音單元分成多數個第二發音單元，其中任一個該第二發音單元的長度小於相應的該第一發音單元的長度；對於每個該第二發音單元，確定該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的該語言模型資料庫中，其中一個該第二發音單元所對應的該候選數目是否大於等於該第二發音單元所對應的一預定數目。
如請求項4所述之文字轉語音方法，其中每個候選路徑的加入代價值是每個第一發音單元中的每個候選聲頻資訊的目標代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的聲譜代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的音調代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的節律代價值、以及連接每兩個相鄰第一發音單元中的候選聲頻資訊的強度代價值的加權和。
如請求項1所述之文字轉語音方法，其中該第一語言模型資料庫和該第二語言模型資料庫均由訓練程式預先建立，其中該訓練程式包括：接收至少一個單一種語言的訓練語音；分析該訓練語音的語調、節律和音色；以及儲存該語調、該節律和該音色均在一相應預定範圍內的該訓練語音。
一種多語言語音合成裝置，用以將具有第一語言和第二語言的多語言文字訊息處理為多語言語音音訊，其中該第一語言及該第二語言來自一同一語者，該合成裝置包括：儲存模組，儲存具有多數個第一語言音位標籤和第一語言的同語言連接音調資訊的第一語言模型資料庫以及具有多數個第二語言音位標籤和第二語言的同語言連接音調資訊的第二語言模型資料庫；播音模組，播放該多語言語音音訊；處理器，與該儲存模組和該播音模組連接，用以：將該多語言文字訊息區分為至少一個第一語言段落及至少一個第二語言段落；轉換該第一語言段落為至少一個第一語言音位標籤及轉換至少一個第二語言段落為至少一個第二語言音位標籤；利用該至少一個第一語言音位標籤查找該第一語言模型資料庫以獲得至少一個第一語言音位標籤串列，以及利用該至少一個第二語言音位標籤查找該第二語言模型資料庫以獲得至少一個第二語言音位標籤串列；依據該多語言文字訊息的文字順序，將該至少一個第一語言音位標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列；將該至少一個第二語言音位標籤串列的首位音位標籤替代為與該至少一個第二語言音位標籤串列的首位音位標籤具有近似發音的相應的該第一語言音位標籤中的一音位標籤；利用相應的該第一語言音位標籤中的該音位標籤查找該第一語言模型資料庫以獲得在至少一個第一語言音位標籤串列的一末位音位標籤和相應的該第一語言音位標籤中的該音位標籤之間的該第一語言模型資料庫中一相應的同語言連接音調資訊；在每二個相鄰的音位標籤串列的交界處產生一跨語言連接音調資料，其中每二個相鄰的音位標籤串列包含該至少一個第一語言音位標籤串列中的一個第一語言音位標籤串列及該至少一個第二語言音位標籤串列中的一個第二語言音位標籤串列；合併該多語言音位標籤串列、在該至少一個第一語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第一語言的同語言連接音調資料、在該至少一個第二語言音位標籤串列中的每兩個相鄰的音位標籤之間的一交界處的該第二語言的同語言連接音調資料以及該跨語言連接音調資料以產生該多語言語音音訊；以及將該多語言語音音訊輸出至該播音模組。
如請求項9所述之多語言語音合成裝置，其中該第一語言模型資料庫中該相應的同語言連接音調資訊用作至少一個第一語言音位標籤串列中的該第一語言音位標籤串列和至少一個第二語言音位標籤串列中的該第二語言音位標籤串列之間的交界處的該跨語言連接音調資料。
如請求項9所述之多語言語音合成裝置，其中該第一語言模型資料庫和該第二語言模型資料庫各自還包含由連續的音位標籤形成的片語(phrase)、詞(word)、字(character)、音節(syllable)或音位(phonemes)中的一個或其組合的聲頻資訊，並且該些連續的音位標籤所形成的片語、詞、字、音節或音位中的一個或其組合是單個發音單元。
如請求項11所述之多語言語音合成裝置，其中在依據該多語言文字訊息的文字順序，將該至少一個第一語言音位標籤串列與該至少一個第二語言音位標籤串列組合為一多語言音位標籤串列的步驟之後，該處理器更用以：將該多語言音位標籤串列分成多數個第一發音單元，每一個第一發音單元同屬單一種語言，並且包含該至少一個第一語言音位標籤串列和該至少一個第二語言音位標籤串列中相應的一個語言音位標籤串列的連續的音位標籤；對於每一個第一發音單元，確定在該第一語言模型資料庫和第二語言模型資料庫其中一個相應的語言模型資料庫中，其中一個第一發音單元所對應的候選數目是否大於或等於該第一發音單元所對應的一預定數目；當該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的語言模型資料庫中每一個該第一發音單元的候選數目均大於等於相應的該預定數目，計算每一個該候選路徑的加入代價值，其中每一個該候選路徑經過每一個該第一發音單元的其中一個候選；以及依據每一個候選路徑的加入代價值確定每兩個相鄰的該第一發音單元之間的連接路徑。
如請求項12所述之多語言語音合成裝置，當確定每兩個相鄰的該第一發音單元之間的該連接路徑時，該處理器更用以：確定在相鄰兩個第一發音單元中前一個第一發音單元中所選的一個候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的一個候選之間的該連接路徑；其中相鄰兩個第一發音單元中前一個第一發音單元中所選的該候選和相鄰兩個第一發音單元中後一個第一發音單元中所選的該候選都位於其中一個最低加入代價值的該候選路徑。
如請求項12所述之多語言語音合成裝置，當該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的語言模型資料庫中任何一個或多個第一發音單元的該候選數目小於相應的該預定數目時，該處理器更用以：將該一個或多個第一發音單元中的每一個該發音單元分成多數個第二發音單元，其中任一個該第二發音單元的長度小於相應的該第一發音單元的長度；對於每個該第二發音單元，確定該第一語言模型資料庫和該第二語言模型資料庫其中一個相應的該語言模型資料庫中，其中一個該第二發音單元所對應的該候選數目是否大於等於該第二發音單元所對應的一預定數目。
如請求項12所述之多語言語音合成裝置，其中每個候選路徑的加入代價值是每個第一發音單元中的每個候選聲頻資訊的目標代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的聲譜代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的音調代價值、連接每兩個相鄰第一發音單元中的候選聲頻資訊的節律代價值、以及連接每兩個相鄰第一發音單元中的候選聲頻資訊的強度代價值的加權和。
如請求項9所述之多語言語音合成裝置，其中該第一語言模型資料庫和該第二語言模型資料庫均由訓練程式預先建立，其中該訓練程式包括：接收至少一個單一種語言的訓練語音；分析該訓練語音的語調、節律和音色；以及儲存該語調、該節律和該音色均在一相應預定範圍內的該訓練語音。