TW202309875A

TW202309875A - 透過歌聲轉換設計個人化虛擬歌手的方法及裝置

Info

Publication number: TW202309875A
Application number: TW110130295A
Authority: TW
Inventors: 蘇豐文; 甘霖江; 蘇時頤
Original assignee: 國立清華大學
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-03-01

Abstract

一種透過歌聲轉換設計個人化虛擬歌手的方法。此方法包括：解析使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符；從一音頻資料庫載入所擷取的各音符的音頻資料；使用聲碼器對音頻資料進行聲學建模，以調整各音頻資料並拼接調整後的音頻資料以產生歌聲資料；以及利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據語音轉換模型的多種損失訓練語音轉換模型，以獲得輸出特徵最佳化的合成歌聲資料。這種方法可由一個固定音色虛擬歌手來客製化產生多個個人化音色的虛擬歌手。

Description

透過歌聲轉換設計個人化虛擬歌手的方法及裝置

本發明是有關於一種歌聲合成方法及裝置，且特別是有關於一種透過歌聲轉換設計個人化虛擬歌手的方法及裝置。

歌聲合成是一種產生人的歌聲的技術。長久以來，人們嘗試使用不同方法來實現歌聲合成，例如將語音對談轉換為依歌譜與歌詞唱出一首歌。然而，歌聲的音色轉換大多在於一對一的轉換，因此僅限於單一歌手，或是用指定的個人化音色唱出指定的任一首歌。

也就是說，若欲將某A的音色轉換成某B，必須某B已經說過或唱過某首歌，無法將一首某B未唱過的歌，使用某A的音色唱出。

本發明提供一種透過歌聲轉換設計個人化虛擬歌手的方法及裝置，能夠讓虛擬歌手用特定人的音色依照歌譜與歌詞唱出任一首歌，也就是將特定人的音色轉換到虛擬歌手所唱出的歌上。

本發明提供一種透過歌聲轉換設計個人化虛擬歌手的方法，適用於具備處理器的電子裝置。此方法包括下列步驟：解析（parse）使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符；從一音頻資料庫載入所擷取的各音符的音頻資料；使用聲碼器（vocoder）對音頻資料進行聲學建模，以調整各音頻資料並拼接調整後的音頻資料以產生歌聲資料；以及利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據語音轉換模型的多種損失訓練語音轉換模型，以獲得輸出特徵最佳化的合成歌聲資料。

本發明提供一種透過歌聲轉換設計個人化虛擬歌手的裝置，其包括連接裝置、儲存裝置及處理器。其中，儲存裝置用以儲存電腦程式。處理器耦接連接裝置及儲存裝置，經配置以載入並執行儲存裝置中的電腦程式以：解析使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符；從一音頻資料庫載入所擷取的各音符的音頻資料；使用聲碼器對音頻資料進行聲學建模，以調整各音頻資料並拼接調整後的音頻資料以產生歌聲資料；以及利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據語音轉換模型的多種損失訓練語音轉換模型，以獲得輸出特徵最佳化的合成歌聲資料。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明實施例主要結合拼接法（concatenative）歌聲合成器以及多說話者聲音轉換模型，其中包括使用拼接法歌聲合成器解析音樂的資料表示（例如MusicXML）檔案以合成一個虛擬歌聲。之後，再用聲音轉換模型把此虛擬歌聲轉換成不同的音色。本發明實施例是藉由預先錄好所有中文單字的發音，來實現拼接法歌聲合成器。對於聲音轉換模型，本發明實施例使用了對抗式深層網路（Generative adversarial network，GAN）的語音轉換（Voice convert，VC）模型來實現各個說話者之間的聲音轉換，使得該模型可以實現多個可區分音色的聲音的生成。

圖1是根據本發明一實施例所繪示的透過歌聲轉換設計個人化虛擬歌手的裝置的方塊圖。請參照圖1，本發明實施例的透過歌聲轉換設計個人化虛擬歌手的裝置10（以下簡稱裝置10）例如是具有運算能力的檔案伺服器、資料庫伺服器、應用程式伺服器、工作站或個人電腦等計算機裝置，其中包括連接裝置11、儲存裝置12及處理器13等元件，其功能分述如下：

連接裝置12例如是任意的有線或無線的介面裝置，其可用以連接並存取位於遠端或本地端（即，儲存於儲存裝置12中）的音訊資料庫，以查詢並接收音訊資料。對於有線方式而言，連接裝置12可以是通用序列匯流排（universal serial bus，USB）、RS232、通用非同步接收器/傳送器（universal asynchronous receiver/transmitter，UART）、內部整合電路（I2C）、序列周邊介面（serial peripheral interface，SPI）、顯示埠（display port）或雷電埠（thunderbolt）等介面，但不限於此。對於無線方式而言，連接裝置12可以是支援無線保真（wireless fidelity，Wi-Fi）、RFID、藍芽、紅外線、近場通訊（near-field communication，NFC）或裝置對裝置（device-to-device，D2D）等通訊協定的裝置，但不限於此。在一些實施例中，連接裝置12亦可以是支援乙太網路（Ethernet）或是支援802.11g、802.11n、802.11ac等無線網路標準的網路卡，亦不限於此。

儲存裝置14例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或類似元件或上述元件的組合，而用以儲存可由處理器16執行的電腦程式。在一實施例中，儲存裝置14亦可儲存由裝置10所建構的音訊資料庫或從遠端的音訊資料庫下載的音頻資料，在此不設限。

處理器16例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、微控制器（Microcontroller）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合，但本實施例不限於此。在本實施例中，處理器16可從儲存裝置14載入電腦程式，以執行本發明實施例的多說話者的歌聲合成方法。

圖2是依照本發明一實施例所繪示的透過歌聲轉換設計個人化虛擬歌手的方法的流程圖。請同時參照圖1及圖2，本實施例的方法適用於圖1的裝置10。以下即搭配裝置10的各項裝置及元件說明本實施例的多說話者的歌聲合成方法的詳細步驟。

在步驟S202中，裝置10是由處理器16解析（parse）使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符。在一實施例中，處理器16還可從歌譜文件解析出歌唱表達資訊（連音、抖音）等，在此不設限。所述的符號表示例如是MusicXML，但不限於此。

在步驟S202中，由處理器16利用連接裝置12從音頻資料庫載入所擷取的各音符的音頻資料。所述音頻資料庫例如是位於遠端的伺服器或是儲存在本地端的儲存裝置14中，但不限於此。

在步驟S204中，由處理器16使用聲碼器（vocoder）對音頻資料進行聲學建模，以調整各音頻資料並拼接調整後的音頻資料以產生歌聲資料。所述的聲碼器例如是WORLD聲碼器，但不限於此。

在步驟S206中，由處理器16利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據語音轉換模型的多種損失訓練語音轉換模型，以獲得輸出特徵最佳化的合成歌聲資料。所述的語音轉換模型例如是基於星狀生成對抗網路（Star Generative adversarial network，StarGAN）-語音轉換（Voice conversion，VC）架構的模型，而所述的損失例如包括對抗性損失（adversarial loss）、分類損失（classification loss）、周期一致性損失（cycle-consistency loss）、身份映射損失（identity-mapping loss）其中之一或其組合，但不限於此。

詳細而言，圖3是根據本發明一實施例所繪示的歌聲合成器的系統架構圖。請參照圖3，本發明實施例揭露包括歌聲合成器40的系統30，此歌聲合成器40例如是拼接法（concatenative）歌聲合成器，其是基於預先錄製的音頻資料庫33中的樣本來進行拼接。因此，針對每個單字，需預先錄製大量發音的音頻資料，以構建音頻資料庫33。

在一實施例中，歌聲合成器40是用中文實現的，因此需要錄製大量的音頻資料才能覆蓋所有漢字。而在歌唱的過程中，由於音符的音高（pitch）會發生變化，因此單字的音調較不重要，只需要錄製413個發音，即可覆蓋所有漢字。

歌聲合成器40的輸入資料是採用音樂符號表示的歌譜31，此音樂符號表示例如為MusicXML，其是用以表示西方音樂符號的基於XML的文件格式，被超過250種符號程式支持，其中包括一些圖形化使用者介面程式，例如MuseScore。由於本實施例的歌聲合成器所採用的MusicXML是基於XML的文件格式，其可以添加其他標籤來表示歌唱表達技巧，例如連音（legato）、抖音（vibrato）等。

在合成過程的步驟S1中，系統30會先把MusicXML的輸入解析為歌詞和音符32（包括音高、音符值及/或音符持續時間）。在一實施例中，系統30還會把MusicXML的輸入解析為歌唱表達資訊（連音、抖音）等，在此不設限。對於歌詞中的每個單字，在步驟S2中，系統30會從音頻資料庫33中載入這些單字的預錄製的音頻資料34。然後，在步驟S3中，由歌聲合成器40使用聲碼器（vocoder）41（例如WORLD聲碼器）對單字的音頻資料34進行聲學建模，其中包括根據基本頻率42，將音頻訊號34解析為諧波頻譜包絡（envelope）43和非週期性包絡44，並在步驟S4中，對各個音符的音調頻率應用基本頻率特徵作音高調整45，以及對音頻資料34進行修整（trim），以匹配該音符的持續時間46。此外，可在漢字之間加入連音（legato）、抖音（vibrato）、淡入（fade-in）淡出（fade-out）等歌唱表達47的效果，以使所拼接的聲音更加平滑。最後，上述所有資料以及所有單字的調整後音頻資料會送入語音轉換模型48以進行轉及拼接，最終在步驟S5中，由歌聲合成器40輸出具所選個人音色的合成歌聲資料35。

在語音轉換部分，本發明實施例使用基於StarGAN-VC架構的模型。StarGAN-VC是一種非平行的多對多語音轉換模型，是原始對抗生成網路（Generative adversarial network，GAN）的一種變形（稱為StarGAN），其能夠使用單編碼器類型的生成器（generator）網路，同時學習多對多映射，此生成器輸出的屬性是由輔助輸入控制。StarGAN-VC還使用對抗性損失（adversarial loss）進行生成器的訓練，以促使生成器的輸出變得和真實語音無法區分，並確保每對屬性域（domain）之間的映射可保留語言資訊（linguistic information）。StarGAN-VC的優點是在測試時，不需要任何與輸入音頻屬性相關的資訊。

詳細而言，圖4是根據本發明一實施例所繪示的StarGAN-VC模型的示意圖。請參照圖4，本發明實施例StarGAN-VC模型400的目標是獲得一個能夠學習多個域/說話者之間的映射關係的生成器 G，其中包括將輸入的聲學特徵 x以目標域屬性

為條件轉換為輸出特徵

：

其中，

為聲學特徵序列，其中Q為特徵維度、T為特徵序列長度，

和

分別是來源和目標說話者對應的域碼（domain code），其中

， N為域/說話者的數目。

所述的語音轉換模型可依據對抗性損失、分類損失、周期一致性損失、身份映射損失來解決最佳化問題，茲分述如下：

對抗性損失是用以描述轉換後特徵與真實特徵的區別程度，其定義如下：

其中， D為目標條件的鑑別器（discriminator）。藉由最大化此對抗性損失，鑑別器 D能夠學習到以目標域屬性碼 c’為條件的介於轉換後特徵與真實特徵之間的最佳決策邊界。相對地，生成器 G可藉由使對抗性損失最小化，來使以目標域屬性碼 c’為條件的轉換後特徵無法與真實特徵區別。

分類損失可使語音轉換模型能夠合成出屬於目標域的聲學特徵。其中，分類器 C可訓練為真實聲學特徵：

其中，分類器 C可藉由使分類損失最小化，來將真實聲學特徵分類到對應的目標域 c。

此外，生成器 G可對分類器 C最佳化：

其中，分類器 C可藉由使分類損失最小化來產生可被分類為目標域 c’的聲學特徵。

雖然上述的對抗性損失和分類損失能分別促使轉換後的聲學特徵變得真實且可被分類，但其並不能夠保證轉換後的聲學特徵能保留輸入成分。為了彌補此缺陷，可採用下列的週期一致性損失：

上述的周期限制可促使生成器 G去找出不會損害成分的最佳來源和目標配對。

為了進一步限制輸入的保留，可採用下列的身份映射損失：

綜上，StarGAN-VC的最小化目標，依生成器 G、鑑別器 D和分類器 C，列示如下：

其中，

、

、

，其是規則化參數，分別用以加權分類損失、週期一致性損失、身份映射損失相對於對抗性損失的重要性。

在合成過程中，聲音合成器是根據歌譜中的歌詞，從預先建立的音頻資料庫中選擇單字的音頻資料，然後使用聲碼器將音頻的波形分解成三個主要特徵：基本頻率、頻譜包絡和非週期性包絡。接著，使用基本頻率特徵來將旋律和上述包絡建模為語音轉換模型的聲學特徵。

基於使用StarGAN-VC作為語音轉換模型，該模型包含三個要訓練的部分，即上述的生成器 G、鑑別器 D和分類器 C。其中，對於生成器G，例如可採用二維卷積神經網路（Convolutional Neural Networks，CNN）。在此模型中，例如是將輸入的聲學特徵序列視為一個通道的二維影像。對於用以於鑑別真/假的鑑別器 D，例如可使用PatchGAN的概念，其是用以解決影像對影像問題，而嘗試去分辨影像中的每一個

補丁（patch）是否為真或假。此鑑別器 D例如是在整個影像上卷積執行，對所有響應求平均，以供作為鑑別器 D的最終輸出。在語音轉換模型中，鑑別器 D例如會對音頻的補丁或片段進行分類，而不是對整個音頻進行分類。藉此，雖然增加了分類器 C的難度，但能夠有效提高鑑別器在語音轉換中的效能。最後，對於域的分類器 C，例如使用門控卷積神經網路（Gated CNN），其是使用門控機制，而能夠以更快的速度達到與長短期記憶（Long short term memory，LSTM）網路相近的結果。上述的網路可以使用亞當優化器（Adam optimizer）對網路訓練200k步，其中，批次（batch）大小為8，生成器 G和鑑別器 D的學習率可分別設為0.0001，且動量項可設為0.5。此外，上述的

、

、

例如可均設為10，但不限於此。本領域技術人員可視實際需要，修改為其他值。

綜上所述，本發明實施例的透過歌聲轉換設計個人化虛擬歌手的方法及裝置利用單音選擇（unit selection）拼接方法，對文字的多種發音進行預錄，設計成虛擬歌手，而能夠將任一首有歌譜與歌詞的歌曲精準唱出。此外，利用Star-GAN演算法將多個說話者的音色轉換與虛擬歌手音色一同訓練，彼此的音色可以互換。藉此，針對選定的某個說話者，本發明實施例的歌聲合成裝置能夠將該說話者的音色與虛擬歌手的歌唱能力結合，而唱出具有該說話者音色的任一首歌。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:透過歌聲轉換設計個人化虛擬歌手的裝置 12:連接裝置 14:儲存裝置 16:處理器 30:系統 31:歌譜 32:歌詞+音符 33:音頻資料庫 34:預錄製的音符音頻資料 35:合成歌聲資料 40:歌聲合成器 41:聲碼器 42:基本頻率 43:音高調整 44:持續時間 45:歌唱表達 46:頻譜包絡 47:非週期性包絡 48:語音轉換模型 400:StarGAN-VC模型 S202~S206、S1~S4:步驟

圖1是根據本發明一實施例所繪示的透過歌聲轉換設計個人化虛擬歌手的裝置的方塊圖。圖2是依照本發明一實施例所繪示的透過歌聲轉換設計個人化虛擬歌手的方法的流程圖。圖3是根據本發明一實施例所繪示的歌聲合成器的系統架構圖。圖4是根據本發明一實施例所繪示的StarGAN-VC模型的示意圖。

S202~S208:步驟

Claims

一種透過歌聲轉換設計個人化虛擬歌手的方法，適用於具備處理器的電子裝置，所述方法包括下列步驟：解析（parse）使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符；從一音頻資料庫載入所擷取的各所述音符的音頻資料；使用聲碼器（vocoder）對所述音頻資料進行聲學建模，以調整各所述音頻資料並拼接調整後的所述音頻資料以產生歌聲資料；以及利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據所述語音轉換模型的多種損失訓練所述語音轉換模型，以獲得所述輸出特徵最佳化的合成歌聲資料。
如請求項1所述的方法，更包括：錄製所選語言的多個單字中的每一個的多個音頻資料，並記錄於音頻資料庫。
如請求項1所述的方法，其中使用聲碼器對所述音頻資料進行聲學建模，以調整各所述音頻資料的步驟包括：使用所述聲碼器將所述音頻資料的波形分解為基本頻率、頻譜包絡和非週期性包絡；以及對各所述音符的音調頻率應用所述基本頻率，以根據各所述音符的值調整對應的所述音頻資料的音高（pitch）及節拍。
如請求項3所述的方法，其中使用聲碼器對所述音頻資料進行聲學建模，以調整各所述音頻資料的步驟更包括：使用所述所述基本頻率特徵將所述頻譜包絡和所述非週期性包絡建模為所述語音轉換模型的所述聲學特徵。
如請求項1所述的方法，其中根據所述語音轉換模型的多種損失訓練所述語音轉換模型的步驟包括：計算用以描述轉換後的所述輸出特徵與真實的所述聲學特徵的區別程度的對抗性損失；以及藉由最大化所述對抗性損失，以使所述語音轉換模型的鑑別器學習以目標域屬性碼為條件的介於轉換後的所述輸出特徵與真實的所述聲學特徵之間的最佳決策邊界。
如請求項1所述的方法，其中根據所述語音轉換模型的多種損失訓練所述語音轉換模型的步驟包括：計算用以描述所述語音轉換模型合成出屬於一目標域的所述聲學特徵的分類損失；以及訓練所述語音轉換模型的分類器，藉由最小化所述分類損失，以使真實的所述聲學特徵被分類到對應的所述目標域。
如請求項1所述的方法，其中根據所述語音轉換模型的多種損失訓練所述語音轉換模型的步驟包括：計算用以描述轉換後的所述輸出特徵與真實的所述聲學特徵的語言一致性（linguistic consistency）的週期一致性損失；以及藉由最小化所述週期一致性損失，以確保所述輸出特徵與真實的所述聲學特徵的語言一致。
如請求項1所述的方法，其中根據所述語音轉換模型的多種損失訓練所述語音轉換模型的步驟包括：計算用以描述轉換後的所述輸出特徵保留輸入特徵的成分的身份映射損失；以及藉由最小化所述身份映射損失，以保留所述輸出特徵中的所述輸入特徵的成分。
如請求項1所述的方法，其中所述多種損失包括對抗性損失、分類損失、週期一致性損失及身份映射損失，且根據所述語音轉換模型的多種損失訓練所述語音轉換模型的步驟包括：分別將所計算的所述分類損失、所述週期一致性損失及所述身份映射損失乘上對應權重，以加權所述分類損失、所述週期一致性損失及所述身份映射損失相對於所述對抗性損失的重要性。
一種透過歌聲轉換設計個人化虛擬歌手的裝置，包括：連接裝置；儲存裝置，儲存電腦程式；以及處理器，耦接所述連接裝置及所述儲存裝置，經配置以載入並執行所述儲存裝置中的所述電腦程式以：解析使用一符號表示的歌譜文件，以擷取出多個歌詞及多個音符；利用所述連接裝置連結一音頻資料庫，以載入所擷取的各所述音符的音頻資料；使用聲碼器對所述音頻資料進行聲學建模，以調整各所述音頻資料並拼接調整後的所述音頻資料以產生歌聲資料；以及利用一語音轉換模型的生成器將歌聲資料中的多個聲學特徵轉換為以目標屬性為條件的輸出特徵，並根據所述語音轉換模型的多種損失訓練所述語音轉換模型，以獲得所述輸出特徵最佳化的合成歌聲資料。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器更錄製所選語言的多個單字中的每一個的多個音頻資料，並記錄於音頻資料庫。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器包括使用所述聲碼器將所述音頻資料的波形分解為基本頻率、頻譜包絡和非週期性包絡，以及對各所述音符的音調頻率應用所述基本頻率，以根據各所述音符的值調整對應的所述音頻資料的音高及節拍。
如請求項12所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器更使用所述所述基本頻率特徵將所述頻譜包絡和所述非週期性包絡建模為所述語音轉換模型的所述聲學特徵。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器包括計算用以描述轉換後的所述輸出特徵與真實的所述聲學特徵的區別程度的對抗性損失，以及藉由最大化所述對抗性損失，以使所述語音轉換模型的鑑別器學習以目標域屬性碼為條件的介於轉換後的所述輸出特徵與真實的所述聲學特徵之間的最佳決策邊界。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器包括計算用以描述所述語音轉換模型合成出屬於一目標域的所述聲學特徵的分類損失，以及訓練所述語音轉換模型的分類器，藉由最小化所述分類損失，以使真實的所述聲學特徵被分類到對應的所述目標域。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器包括計算用以描述轉換後的所述輸出特徵與真實的所述聲學特徵的語言一致性的週期一致性損失，以及藉由最小化所述週期一致性損失，以確保所述輸出特徵與真實的所述聲學特徵的語言一致。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述處理器包括計算用以描述轉換後的所述輸出特徵保留輸入特徵的成分的身份映射損失，以及藉由最小化所述身份映射損失，以保留所述輸出特徵中的所述輸入特徵的成分。
如請求項10所述的透過歌聲轉換設計個人化虛擬歌手的裝置，其中所述多種損失包括對抗性損失、分類損失、週期一致性損失及身份映射損失，且所述處理器包括分別將所計算的所述分類損失、所述週期一致性損失及所述身份映射損失乘上對應權重，以加權所述分類損失、所述週期一致性損失及所述身份映射損失相對於所述對抗性損失的重要性。