TWI765541B

TWI765541B - 語音合成配音系統

Info

Publication number: TWI765541B
Application number: TW110102530A
Authority: TW
Inventors: 柳有駿; 蔡芳升
Original assignee: 賽微科技股份有限公司
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-05-21
Also published as: TW202230330A; CN114822486A; US20220238095A1

Abstract

一種語音合成配音系統，包括一語音輸入單元，係取得一語音資訊；一輸入單元，係取得一目標文字資訊及一參數調整指令；一處理單元，包括：一聲學模組，取得該語音資訊之一語音特徵向量及一聲學參數；一文字音素分析模組，依據該目標文字資訊以分析對應該目標文字資訊之一音素序列；一音訊合成單元，係依據該參數調整指令以調整該語音資訊之該聲學參數，並將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。

Description

語音合成配音系統

本發明是有關於一種將未知語者的音檔提取出其語者向量的演算法，並分離出聲學參數且將糾纏的聲學參數分離量化的演算法，並對聲學參數做可人為控制的語音合成配音系統。

現今的語音合成(Text-To-Speech,TTS)系統，在多語者方面，為了讓合成的語音能盡量與原語者相同，需要提取語者的語音特徵，如：音色、韻律、情緒、語速…等，其提取方式大致分為兩種，一種是利用長時間訓練完成的語者辨識模型，將其把語者的語音特徵編碼為一個語音特徵向量(Speaker Vector,SV)的演算法直接拿來使用。另一種則是將語者編號，透過長時間訓練語言模型後生成一個語者表格(speaking embedding lookup table)，以查詢表格的形式，找到相對應的語者並取出其語音特徵向量(Speaker Vector,SV)。

其中第一種方法，由於語者辨識強調不論語者們的音色再相近，都要有能夠分辨語者的能力，因此利用此方法獲得的語音特徵向量(Speaker Vector,SV)即使是人耳分辨不出差異的聲音，都會被分類成截然不同的語音特徵向量(Speaker Vector,SV)，這便不利於語音合成的使用，因為要合成出相似的語者的聲音，所需要的語音特徵向量(Speaker Vector,SV)也該是相近的，這也代表此方法所得到的語音特徵向量(Speaker Vector,SV)並不完全包含這個語者的所有特徵。

第二種方法，由於訓練後的模型其表格是固定的，所以模型的擴充性非常低，只能合成出表格中已存在的語者的語音，如果需要有新的語者加入，則需再收集新語者的語音資料，並將整個模型重新訓練，這將會非常耗時，阻礙了客製化語音合成(Text-To-Speech,TTS)模型的發展。

另外現今客製化語音合成(Text-To-Speech,TTS)模型都是建立在神經網路之上，因為神經網路的自適應性，在語音資料沒有提供確切相對應的物理量的情況下，所得到的語音特徵參數是糾纏在一起的，亦即無法針對特定特徵(音色、韻律、情緒、語速…等)做個別調整。而其相對應的物理量又較難以量化，或者量化方式存在一定的誤差，故難以達成可調控的客製化語音合成(Text-To-Speech,TTS)模型系統。

本發明提供一種語音合成配音系統，透過固定的語音合成模型減少了收集語音資料已經訓練模型的時間和金錢成本並提高模型的泛用性。

本發明提出一種語音合成配音系統，包括：一語音輸入單元，係取得一語音資訊；一輸入單元，係取得一目標文字資訊及一參數調整指令；一處理單元，包括：一聲學模組，取得該語音資訊之一語音特徵向量及一聲學參數；一文字音素分析模組，依據該目標文字資訊以分析對應該目標文字資訊之一音素序列；一音訊合成單元，係依據該參數調整指令以調整該語音資訊之該聲學參數，並將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。

在本發明之一實施例中，上述之處理單元更包括一語音特徵擷取模組、一語音狀態分析模組及一語音匹配模組。

在本發明之一實施例中，上述之語音特徵擷取模組依據該語音資訊，將對應該語音資訊的一語音特徵轉換為一語音特徵向量。

在本發明之一實施例中，上述之語音狀態分析模組係用以取得該聲學參數。

在本發明之一實施例中，上述之音訊合成單元導入一神經網路模型，並依據該語音特徵向量及該聲學參數，以訓練該神經網路模型，以建立一語音合成模型。

在本發明之一實施例中，上述之音訊合成單元將一語音資料庫之一目標語音檔案輸入該聲學模組中，並透過該神經網路模型正向傳播取得一目標語音特徵向量及一目標聲學參數。

在本發明之一實施例中，上述之音訊合成單元依據該目標語音特徵向量及該目標聲學參數，正向傳播一預測目標音檔。

在本發明之一實施例中，上述之處理單元計算該預測目標音檔及該目標語音檔案之一誤差值。

在本發明之一實施例中，上述之神經網路模型依據該誤差值以反向傳播該誤差值並依據該誤差值以調整該神經網路模型之該音訊合成單元及該聲學模組。

本發明提出一種語音合成配音系統，包括：一語音輸入單元，係取得一語音資訊；一輸入單元，係取得一目標文字資訊及一參數調整指令；一處理單元，包括：一聲學模組，取得該語音資訊之一語音特徵向量及一聲學參數；一文字音素分析模組，依據該目標文字資訊以分析對應該目標文字資訊之一音素序列；一音訊合成單元，係將該參數調整指令導入一語音合成模型以調整該語音資訊之該聲學參數，並結合該目標文字資訊形成一合成音訊。

本發明僅需訓練一個固定的語音合成模型，給予指定語者的少量語音資料(1至10句)或是自行設定一個語者語音特徵向量(Speaker Vector,SV)及相對應的語音特徵參數，就可在所有情境中使用，大量減少了收集語音資料已經訓練模型的時間和金錢成本並提高模型的泛用性，也提供語者做跨語言轉換的方式。

110:語音輸入單元

120:輸入單元

130:處理單元

140:音訊合成單元

141:合成語音

150:聲學模組

160:文字音素分析模組

211:音檔文字

270:資料庫

S310~S330:步驟流程

S410~S480:步驟流程

圖1是本發明之元件方塊示意圖。

圖2是本發明之語音合成模型之訓練架構示意圖。

圖3是本發明之聲學模組的步驟流程圖。

圖4是本發明之語音合成配音系統的較佳實施例之步驟流程圖。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式，作詳細說明如下。

圖1是本發明之元件方塊示意圖。在圖1中，語音合成配音系統，包括：一語音輸入單元110、一輸入單元120、一處理單元130及一音訊合成單元140。

語音輸入單元110透過音訊收集裝置以取得語者的語音資訊。輸入單元120可以是鍵盤、滑鼠、手寫板或其他各種可輸入文字之裝置，主要是用以取得一目標文字資訊以及在音訊合成最後階段時的一參數調整指令。

處理單元130至少包括：一聲學模組150及一文字音素分析模組160。聲學模組150更包括一語音特徵擷取模組、一語音狀態分析模組及一語音匹配模組，聲學模組150取得該語音資訊之一語音特徵向量及一聲學參數，更進一步來說，語音特徵擷取模組主要依據該語音資訊，將對應該語音資訊的一語音特徵轉換為該語音特徵向量；語音狀態分析模組係用以取得該聲學參數；文字音素分析模組160依據目標文字資訊以分析對應目標文字資訊之一音素序列。

請同時參閱圖2，圖2是本發明之語音合成模型之訓練架構示意圖。音訊合成單元140係導入一神經網路模型，並依據語音特徵向量及聲學參數，訓練神經網路模型，以建立一語音合成模型，在該神經網路模型的訓練過程中，音訊合成單元140將一資料庫270之一目標語音檔案輸入聲學模組150中，並透過該神經網路模型正向傳播取得一目標語音特徵向量及一目標聲學參數，音訊合成單元140依據目標語音特徵向量、目標聲學參數及對應的音檔文字211，正向傳播一合成語音141，這裡的合成語音是一個預測目標音檔，處理單元130計算預測目標音檔及目標語音檔案之一誤差值，神經網路模型依據該誤差值以反向傳播該誤差值並依據該誤差值以調整音訊合成單元140及聲學模組150，更進一步來說，透過誤差值以在訓練神經網路模型的過程中調整各項參數，使訓練後的語音合成模型能將誤差降到最低。藉此，當音訊合成單元140所導入的語音資訊依據該參數調整指令調整該語音資訊之該聲學參數後，將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。

訓練完成後語音合成器之接受語者特徵及聲學特徵包含：語音特徵提取模型之輸出特徵；語音特徵提取模型之輸出特徵以需求微調；依需求自訂義特徵。

圖3是本發明之聲學模組的音訊分析步驟流程圖。

步驟S310：取得語音音檔；

步驟S320：導入語音特徵模型；

步驟S330：取得聲學參數及聲音特徵向量；

於本實施例中，聲學模組也可以透過導入神經網路模型的方式來進行聲音特徵擷取的模型，依據聲學參數及聲音特徵向量，以訓練深層神經網路模型，以建立語音特徵模型。

其中，聲學模組獲得訓練資料，包含大量的語者音檔；以其音檔資訊進行一機器學習程序，以訓練出一語音特徵提取模型；以及利用該語音特徵提取模型，針對一輸入音檔進行語音特徵提取，以提取出語者特徵及該音檔對應聲學特徵。其中該語音特徵提取模型包含複數個權重之摺積(Convolution)運算及注意力模型(Attention Model)，訓練資料之語者音檔包含一種或以上的語言。

於本實施例中，語者音檔特徵為可分離獨立參數，語者音檔特徵包含但不限於，性別、音色、高亢程度、低沉程度、甜美程度、磁性程度、渾厚程度、頻譜包絡(Spectral Envelope)、平均頻率、頻譜質心(Spectral Centroid)、頻譜散布度(Spectral Spread)、頻譜平坦度(Spectral flatness)、頻譜滑動(Spectral rolloff)、頻譜變遷(Spectral flux)，調音部位：唇、舌冠、舌背、喉音，調音方式：雙唇、唇齒、舌唇、齒、齒齦、齒後、捲舌、齦齶、硬齶、軟齶、小舌、咽、會厭、聲門等使用方式。

於本實施例中，聲學特徵為可分離獨立參數，聲學特徵包含但不限於音量、音高、語速、音長(duration)、速度、間隔、韻律、開心程度、難過程度、生氣程度、疑問程度、喜悅程度、憤怒程度、悲傷程度、恐懼程度、厭惡程度、驚奇程度、羨慕程度。

圖4是本發明之語音合成配音系統的較佳實施例之步驟流程圖。當模型已訓練完成後，僅需要單句音檔即可透過聲學處理器得到語音特徵向量(Speaker Vector,SV)和聲學參數，此時可以選擇使用音檔的聲學狀態或是自行設定參數，便能以該音檔之語者的聲音，合成出任意情緒、速度、音高…等等的句子且此音檔不須是屬於已知的語者。其主要步驟如下：

合成範例如：若想以第1位語者的聲音，以較慢的速度講出“防疫期間請確實遵守各項防疫措施”時，須包含下列步驟；

步驟S410：取得欲合成之音檔，即錄製一段第1位語者任意語言和句子的語音，如：“今天天氣很好”。

步驟S420：利用聲學處理器分析，即將語音轉換為頻譜或直接輸入至聲學處理器提取各項特徵；

步驟S430：取得第1位語者聲音的聲學參數；

步驟S450：調降速度項參數，其餘參數不變；

步驟S460：將欲合成文字轉換為音素(phone)的形式；

步驟S470：將步驟S450之參數及步驟S460之音素輸入至TTS合成器中；

步驟S480：輸出合成語音。意即輸出一段以第1位語者的語音說(唸)出“防疫期間請確實遵守各項防疫措施”的標語。

綜上所述，本發明具有下列優點：

1.透過新型的語者編碼技術，從而得到可泛用的語音特徵向量(Speaker Vector,SV)，並應用於語音合成(Text-To-Speech,TTS)模型，使語音合成(Text-To-Speech,TTS)模型可適應未知的語者，甚至可自行生成語者。

2.可使原始音檔與生成語音間做跨語言輸出。

3.可量化各項聲學特徵且可控制的語音合成(Text-To-Speech,TTS)模型。

雖然本發明以前述實施例揭露如上，然其並非用以限定本發明，任何熟習相像技藝者，在不脫離本發明之精神和範圍內，所作更動與潤飾之等效替換，仍為本發明之專利保護範圍內。