TW202006534A

TW202006534A - 音頻合成方法、裝置、儲存媒體和計算機設備

Info

Publication number: TW202006534A
Application number: TW108123649A
Authority: TW
Inventors: 崔凌睿; 蘆藝; 周怡婷; 吳歆婉; 梁藝東; 梅曉; 馮啟航; 王方曉; 江會福; 鄭尚鎮; 余樂; 夏勝飛; 王敬軒; 張然; 郭藝帆; 張震雲
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2018-07-05
Filing date: 2019-07-04
Publication date: 2020-02-01
Also published as: US12046225B2; TWI774967B; US20200372896A1; JP2021516787A; CN110189741B; CN110189741A; JP7317850B2; EP3736806A4; EP3736806A1; KR102500087B1; WO2020007148A1; KR20200115588A

Abstract

本發明涉及一種音頻合成方法、裝置、儲存媒體和計算機設備，該方法包括：獲取目標文件；確定透過選擇指令所選中的目標歌曲；獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，所述自製歌曲以所述目標文件為歌詞；以及播放所述自製歌曲。本申請提供的方案提高了音頻播放的效果。

Description

音頻合成方法、裝置、儲存媒體和計算機設備

本發明涉及計算機技術領域，特別是涉及一種音頻合成方法、裝置、儲存媒體和計算機設備。

隨著計算機技術的發展，越來越多的計算機設備都具有音頻播放功能，比如智慧手機以及平板電腦等。這樣用戶為了緩解緊張的工作情緒並增加生活樂趣，越來越普遍地選擇在閒暇時聆聽歌曲，或者視頻剪輯過程中使用歌曲等。

目前，用戶通常會從歌曲庫中選擇歌曲來播放。但是，由於版權等問題導致歌曲庫中可選的歌曲數量有限，用戶難以從這些歌曲中選中符合自己期望的歌曲來播放，從而導致音頻播放的用戶體驗較差。

基於此，有必要針對目前音頻播放的用戶體驗較差的問題，提供一種音頻合成方法、裝置、儲存媒體和計算機設備。

一種音頻合成方法，包括：

獲取目標文件；

確定透過選擇指令所選中的目標歌曲；以及

獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，所述自製歌曲以所述目標文件為歌詞；

播放所述自製歌曲。

一種音頻合成裝置，包括：

獲取模組，用於獲取目標文件；

確定模組，用於確定透過選擇指令所選中的目標歌曲，獲取模組還用於獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲；所述自製歌曲以所述目標文件為歌詞；

播放模組，用於播放所述自製歌曲。

一種計算機可讀儲存媒體，所述計算機可讀儲存媒體上儲存有計算機程式，所述計算機程式被處理器執行時，使得所述處理器執行以下步驟：

獲取目標文件；

確定透過選擇指令所選中的目標歌曲；以及

播放所述自製歌曲。

一種計算機設備，包括儲存器和處理器，所述儲存器中儲存有計算機程式，所述計算機程式被所述處理器執行時，使得所述處理器執行以下步驟：

獲取目標文件；

確定透過選擇指令所選中的目標歌曲；以及

播放所述自製歌曲。

上述音頻合成方法、裝置、儲存媒體和計算機設備，在獲取到目標文件，並確定透過選擇指令所選中的目標歌曲後，即可獲取到透過曲調控制模型將目標文件作為歌詞，並結合目標歌曲的曲調訊息合成自製歌曲。這樣用戶即可自主選擇歌詞和曲調，自定義符合自己期望的歌曲，以播放符合自己期望的歌曲，極大地提高了音頻播放的效果。

為了使本發明的目的、技術方案及優點更加清楚明白，以下結合圖式及實施例，對本發明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本發明，並不用於限定本發明。

第1圖為本發明一個實施例中音頻合成方法的應用環境圖。參照第1圖，該音頻合成方法應用於音頻合成系統。該音頻合成系統包括終端110和伺服器120。其中，終端110和伺服器120透過網路連接。終端110具體可以是桌上型終端或移動終端，移動終端具體可以手機、平板電腦、筆記型電腦等中的至少一種。伺服器120具體可以是獨立的伺服器，也可以是多個獨立的伺服器組成的伺服器集群。

終端110可用於執行該音頻合成方法。具體地，終端110可獲取目標文件，並確定透過選擇指令所選中的目標歌曲；然後在本地根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲；其中，該自製歌曲以獲取的目標文件為歌詞。終端110便可播放該自製歌曲，還可將該自製歌曲配置為背景音頻，基於該背景音頻錄製視頻。這裡的曲調控制模型可以是由伺服器120訓練完成後下發至終端110的，也可以是終端110在本地訓練得到的。終端110也可將目標文件和目標歌曲的歌曲標識發送至伺服器120，由伺服器120來根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲後反饋至終端110。

第2圖為本發明一個實施例中音頻合成方法的流程示意圖。本實施例主要以該音頻合成方法應用於第1圖中的終端110來舉例說明。參照第2圖，該方法具體包括如下步驟：

S202，獲取目標文件。

其中，目標文件是待作為歌詞合成新歌曲的文件。具體地，目標文件可以是用戶透過終端提供的文件輸入框輸入的文件，也可以是用戶透過選擇指令從終端提供的文件模板列表中選中的文件，還可以是其他計算機設備傳遞的文件。當然，目標文件也可以是其他來源的文件，本發明的實施例中不對目標文件的來源和獲取方式進行限定。

舉例說明，第3圖示出了本發明一個實施例中獲取目標文件的界面示意圖。參考第3圖，該界面包括文件輸入框310和文件模板列表320。用戶可在文件輸入框310中輸入文件311，終端從而獲取用戶在文件輸入框310中輸入的文件311作為目標文件。用戶也可在文件模板列表320中進行文件選擇，終端從而獲取用戶從文件模板列表320中選中的文件321作為目標文件。

S204，確定透過選擇指令所選中的目標歌曲。

其中，目標歌曲是待合成的新歌曲的曲調所選擇的歌曲。比如，用戶想要以“我愛北京天安門”這首歌的曲調作為新歌曲的曲調來合成歌曲，那麼“我愛北京天安門”即為目標歌曲。再比如，用戶想要以“兩隻老虎”這首歌的曲調作為新歌曲的曲調來合成歌曲，那麼“兩隻老虎”即為目標歌曲。

在一個實施例中，終端可提供候選歌曲，並接收用戶對候選歌曲的選擇指令，從而獲取選擇指令所選中的候選歌曲作為目標歌曲。

具體地，終端可在界面上展示候選歌曲，繼而檢測對於展示的候選歌曲的預定義的觸發操作，在檢測到該觸發操作時觸發相應的選擇指令。觸發操作可以是對界面中展示的候選歌曲的觸控操作或者游標點擊操作等。觸發操作也可以是對預定義的物理按鈕的點擊，或者在逐一顯示候選歌曲時觸發的晃動操作。

在另外的實施例中，終端也可從候選歌曲中隨機選取一首歌曲作為目標歌曲。用戶也可從候選歌曲中挑選出與目標文件匹配的歌曲作為目標歌曲。

舉例說明。繼續參考第3圖，該界面還包括候選歌曲列表330。用戶可在候選歌曲列表330中進行歌曲選擇，終端從而獲取用戶從候選歌曲列表330中選中的歌曲331作為目標歌曲。

S206，獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；自製歌曲以目標文件為歌詞。

其中，曲調控制模型是經過訓練後具有曲調控制能力的機器學習模型。機器學習英文全稱為Machine Learning，簡稱ML。機器學習模型可透過樣本學習具備曲調控制能力。機器學習模型可採用神經網路模型、支持向量機或者邏輯回歸模型等。神經網路模型比如卷積神經網路、反向傳播神經網路、反饋神經網路、徑向基神經網路或者自組織神經網路等。本發明的實施例中對機器學習模型的類型不作限定，能實現曲調控制功能的機器學習模型均可。

曲調訊息是可反映出歌曲的音高隨時間變化的趨勢的資料。曲調有兩個基本要素，即旋律（或稱音高）和節奏。終端可透過一系列音高和相應的時間訊息的對應關係來表示曲調訊息。這裡的時間訊息用於反映節奏，比如音高的開始時間，或者音高的持續時間長度，或者不同音高之間的停頓時間長度等。一個音高代表一個音符。一個音符的聲學參數包括基頻和強度等。

可以理解，歌曲是由歌詞和曲調相結合的一種藝術表現形式。目標歌曲是歌曲演唱者按照歌曲創作者創作的歌詞和曲調演唱得到的音頻資料。本實施例中，透過保持目標歌曲的曲調不變，更換歌詞以合成曲調不變的自製歌曲。當然，本發明實施例中也可根據更換的歌詞調整目標歌曲的曲調來合成自製歌曲。

其中，自製歌曲是自定義歌詞的歌曲。自製歌曲的曲調沿用已有歌曲的曲調。當然，自製歌曲也可以自定義曲調。終端根據原有歌詞和自定義曲調合成自製歌曲，或者根據自定義歌詞和自定義曲調合成自製歌曲。根據自定義歌詞和自定義曲調合成的自製歌曲即為原創歌曲。

在一個實施例中，目標歌曲的曲調訊息可以是從目標歌曲的歌曲檔案中提取的資料。比如，從目標歌曲的歌曲檔案中提取MIDI（Musical Instrument Digital Interface，樂器數位連接埠）檔案作為目標歌曲的曲調訊息。可以理解，由於MIDI檔案本身包括音高和相應的時間訊息，而曲調訊息可以由一系列音高和相應的時間訊息的對應關係來表示，因此MIDI檔案本身所包括的音高和相應的時間訊息就可以構成曲調訊息。

在一個實施例中，目標歌曲的曲調訊息是從歌曲演唱者演唱的音頻資料中提取的。歌曲演唱者演唱的音頻資料可以是攜帶背景伴奏的音頻資料，也可以是清唱的音頻資料，清唱的音頻資料是記錄了歌曲演唱者的演唱聲音但沒有背景音樂的資料，終端可錄製與目標歌曲對應的歌曲演唱者演唱的音頻資料，再從中提取曲調訊息。其中，曲調訊息可以是透過構建好的模型來提取。當然，目標歌曲的曲調訊息也可以透過其他方式得到，在本發明的實施例中不作限定。

具體地，終端在確定透過選擇指令所選中的目標歌曲後，可查詢該選中的目標歌曲的曲調訊息，繼而將目標文件和查詢到的曲調訊息共同輸入曲調控制模型，以透過曲調控制模型輸出以目標文件為歌詞、且以目標歌曲的曲調為曲調的自製歌曲。

在一個實施例中，S206包括：將目標文件和目標歌曲的歌曲標識發送至伺服器；目標文件和歌曲標識，用於指示伺服器在查找到與歌曲標識對應的曲調訊息後，根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲；接收伺服器所反饋的自製歌曲。

其中，歌曲標識用於唯一標識一個歌曲。具體地，終端在確定透過選擇指令所選中的目標歌曲後，可將該目標歌曲的歌曲標識和獲取的目標文件一起發送至伺服器。這樣，伺服器在接收到歌曲標識後即查找與該歌曲標識對應的曲調訊息，將該曲調訊息和目標文件輸入曲調控制模型，透過曲調控制模型輸出以目標文件為歌詞、且曲調與目標歌曲一致的自製歌曲。伺服器便可將該自製歌曲反饋至終端。

其中，自製歌曲可以是自製清唱歌曲，也可以是攜帶背景伴奏的自製歌曲。當自製歌曲為自製清唱歌曲時，伺服器直接將自製清唱歌曲反饋至終端，也可將自製清唱歌曲與背景伴奏混音後得到的自製歌曲反饋至終端，也可將兩者均反饋至終端，供終端展示給用戶選擇。

在本實施例中，在伺服器側實現音頻合成的步驟，利用伺服器強大和高速的計算能力，提高了音頻合成的效率。

S208，播放自製歌曲。

具體地，終端在合成自製歌曲或者接收到伺服器反饋的自製歌曲後，可播放該自製歌曲，用戶即可透過收聽播放的自製歌曲，判斷是否符合自己的預期，以在自製歌曲符合自己預期時進行後續的操作。

上述音頻合成方法，在獲取到目標文件，並確定透過選擇指令所選中的目標歌曲後，即可獲取到透過曲調控制模型將目標文件作為歌詞，並結合目標歌曲的曲調訊息合成自製歌曲。這樣用戶即可自主選擇歌詞和曲調，自定義符合自己期望的歌曲，以播放符合自己期望的歌曲，極大地提高了音頻播放的效果。

在一個實施例中，該音頻合成方法還包括：將自製歌曲配置為背景音頻，基於該背景音頻錄製視頻。

具體地，終端可在合成自製歌曲，或者接收到伺服器反饋的自製歌曲後，可自動將該自製歌曲配置為背景音頻，並調用本地的圖像採集設備以準備錄製視頻。終端也可根據用戶觸發的指令將合成的自製歌曲配置為背景音頻，再調用本地的圖像採集設備以準備錄製視頻。這樣，終端可在合成的自製歌曲作為背景音頻下錄製視頻。

在一個具體的實施例中，終端上安裝有視頻錄製應用。終端可根據用戶指令運行該視頻錄製應用，並繼續根據用戶指令進入背景音頻配置界面（例如，可以是如第3圖所示的界面）。終端可再獲取用戶輸入的目標文件以及用戶選取的目標歌曲，進而確定目標歌曲的曲調訊息，將目標文件作為歌詞，並結合確定的曲調訊息合成自製歌曲，終端可再配置合成的制歌曲為背景音頻，進入視頻錄製頁面，並根據用戶指令播放配置的背景音頻並採集圖像錄製視頻。

在本實施例中，用戶自主選擇歌詞和曲調，自定義符合自己期望的歌曲，進而將自定義的歌曲作為背景音頻來錄製視頻，極大地豐富了背景音頻的來源，且提高了視頻錄製的效率。

在一個實施例中，S206包括：查詢與目標歌曲匹配的曲調訊息；將目標文件和曲調訊息輸入曲調控制模型，透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵；透過曲調控制模型的輸出層，輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。

具體地，終端確定透過選擇指令所選中的目標歌曲後，查詢事先得到的該目標歌曲的曲調訊息，再將目標文件和曲調訊息共同輸入訓練完成的曲調控制模型，透過曲調控制模型的隱藏層對目標文件中的各字元進行曲調匹配，確定目標文件中的各字元各自相應的曲調特徵，再透過曲調控制模型的輸出層，輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。

在一個實施例中，該音頻合成方法還包括訓練曲調控制模型的步驟。訓練曲調控制模型包括：收集候選歌曲所對應的候選歌曲音頻；根據收集的候選歌曲音頻，確定各候選歌曲所對應的候選歌曲曲調；獲取文件樣本；根據文件樣本和候選歌曲曲調訓練得到所述曲調控制模型。

具體地，終端可對各候選歌曲分別錄製歌曲演唱者演唱的音頻資料，對音頻資料進行曲調特徵標註，得到相應候選歌曲的曲調訊息；或者，獲取各候選歌曲的MIDI檔案作為相應候選歌曲的曲調訊息。終端可再隨機選取字串作為文件樣本，將文件樣本和候選歌曲的曲調訊息共同作為曲調控制模型的訓練樣本，透過曲調控制模型中的各層對文件樣本和候選歌曲進行處理，以輸出以文件樣本為歌詞、且曲調符合輸入的曲調訊息的歌曲樣本。終端可再根據輸出的歌曲樣本與期望結果的差異來調整曲調控制模型的模型參數，及作為輸入的候選歌曲的曲調訊息。終端在調整參數後，可繼續訓練，直至曲調控制模型訓練完成。終端在訓練得到曲調控制模型後，可將該曲調控制模型保存在本地，以在需要使用曲調控制模型時獲取並使用。

在一個實施例中，曲調控制模型輸出的歌曲樣本與期望結果的差異可透過人工判斷。曲調控制模型是對各候選歌曲通用的模型。

在一個實施例中，模型訓練的過程也可以在伺服器上進行，伺服器在訓練完成曲調控制模型後，將曲調控制模型下發至終端使用。

上述實施例中，透過機器學習模型強大的學習能力學習曲調控制的能力，透過訓練完成的曲調控制模型進行語音合成，相較於傳統的語音合成方式，提高了語音合成效率，而且提高了語音合成的準確性。

在一個實施例中，該音頻合成方法還包括：確定目標說話對象。S206包括：查詢與目標說話對象對應的曲調控制模型；根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲；自製歌曲的音色符合目標說話對象。

其中，目標說話對象是目標音色所屬的對象。目標音色是用戶意圖合成的自製歌曲或者自製語音的聲音特徵。目標說話對象可以是虛擬對象，也可以是真實對象。虛擬對象比如遊戲中的虛擬角色或者動漫中的虛擬角色等。真實對象比如現實場景中的歌唱家或者演員等。

可以理解，不同的發聲體由於材料或者結構不同，導致發出的聲音的音色也不同。例如鋼琴、小提琴和人的音色不一樣，發出的聲音也就不一樣。每個人的音色也會不一樣。音色是聲音的特點。不同的音色，即使在同一音高和同一聲音強度下，也有所區別。

需要說明的是，目標說話對象對應的曲調控制模型，是根據由目標說話人演唱的音頻資料訓練得到的曲調控制模型，這樣訓練得到的曲調控制模型所輸出的自製歌曲的音色符合目標說話對象。而前述實施例中所提到的曲調控制模型不限制訓練使用的音頻資料的演唱者，這樣即不對音色作出限定。

具體地，終端可確定透過選擇指令繼續選中的目標說話對象，終端也可獲取目標歌曲的演唱者作為目標說話對象。進一步地，終端再將目標文件和目標歌曲的曲調訊息輸入與目標說話對象對應的曲調控制模型合成自製歌曲。

可以理解，與目標說話對象對應的曲調控制模型，即為與目標說話對象的音色訊息匹配的曲調控制模型，終端將目標文件和曲調訊息共同輸入訓練完成的、且與目標說話對象的音色訊息匹配曲調控制模型，透過曲調控制模型的隱藏層對目標文件中的各字元進行曲調匹配，確定各字元各自相應的曲調特徵，透過曲調控制模型的輸出層，輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的、且符合目標說話對象音色的自製歌曲。

當然，終端在透過模型實現該過程時，可以透過一個模型實現端到端（目標文件到自製歌曲）的轉換，也可以透過多個模型實現，各模型分工合作，各自實現一個功能。比如，先透過音色控制模型將目標文件轉化為音色符合目標說話對象的自製語音，再透過曲調控制模型將自製語音轉化為曲調符合目標歌曲的自製歌曲。這裡的音色控制模型可參考後文描述，這裡的曲調控制模型訓練輸入資料不再是目標文件和曲調訊息，而是音色控制模型輸出的自製語音和曲調訊息。

可以理解，本實施例可以合成透過用戶選擇的聲音唱出用戶自定義歌詞的歌曲。比如某個明星的聲音唱出用戶自製歌曲，以完成歌曲創作。

在一個實施例中，終端還可對獲取的目標文件進行安全檢測，在目標文件符合規定時，繼續後續的操作；在目標文件不符合規定時，則反饋錯誤提示。其中，目標文件的安全檢測步驟也可由伺服器進行。

舉例說明，第4圖本發明示出了一個實施例中合成自製歌曲的原理方塊圖。參考第4圖，伺服器（或終端）可事先收集聲音素材（候選說話對象的音頻資料），對收集的聲音素材進行標註（音節、基頻、聲音強度以及時間訊息等），並根據收集的聲音素材和標註資料訓練模型。這裡的模型可以是音色控制模型，或者通用的曲調控制模型，或者與各候選說話對象對應的曲調控制模型等；根據從聲音素材選取的作為模型輸入的資料和標註資料的不同，可訓練出不同的模型。伺服器（或終端）可保存訓練得到的模型以備使用，伺服器也可將模型下發到終端使用。

終端在獲取目標文件後，可將該目標文件上傳至伺服器，終端還可將用戶選中的目標歌曲或者目標說話對象的標識上傳至伺服器。由伺服器對目標文件進行安全檢查。在安全檢查透過後，在用戶選取的目標說話對象時，透過訓練得到的音色控制模型根據目標文件的音節序列得到目標文件對應的自製語音；或者在用戶選取的目標歌曲時，透過訓練得到的曲調控制模型根據目標歌曲的曲調訊息得到以目標文件為歌詞的自製歌曲，或者在用戶選取目標歌曲和目標說話對象時，透過訓練得到的曲調控制模型根據目標文件的音節序列和目標歌曲的曲調訊息得到以目標文件為歌詞的自製歌曲。伺服器在透過模型得到自製歌曲或者自製語音後下發至終端，或者將自製歌曲或者自製語音與伴奏混音後再下發至終端。終端也可以在本地完成上述過程。

上述實施例中，用戶可自主選擇歌詞、曲調和音色，自定義符合自己期望的歌曲，進而將自定義的歌曲作為背景音頻來錄製視頻，極大地豐富了背景音頻的來源，且提高了視頻錄製的效率。

在一個實施例中，該音頻合成方法還包括：接收選擇指令；當選擇指令選中目標歌曲時，則執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟；當選擇指令選中目標說話對象時，則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻；音色控制模型與目標說話對象匹配。

其中，選擇指令是根據用戶操作觸發的計算機可讀指令。選擇指令用於對目標進行選取。目標可以是目標歌曲或者目標說話對象。音色控制模型是經過訓練後具有音色控制能力的機器學習模型。

具體地，終端可在界面上提供候選歌曲列表或者候選說話對象列表，繼而檢測對於展示的候選歌曲或者候選說話對象的預定義的觸發操作，在檢測到該觸發操作時觸發相應的選擇指令。終端在確定透過選擇指令指向目標歌曲後，執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟。

終端在確定透過選擇指令指向目標說話對象後，則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻；其中，音色控制模型與目標說話對象匹配。可以理解，本實施例可以實現，用戶選擇透過某個虛擬角色或者真實人物的聲音說出自己想說的話。

在一個實施例中，獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻，包括：查詢與目標說話對象匹配的音色控制模型；確定目標文件所對應的音節序列；透過音色控制模型根據音節序列合成自製語音；根據自製語音和背景伴奏合成自製音頻。

其中，與目標說話對象匹配的音色控制模型，是根據目標說話對象的音頻資料訓練得到的音色控制模型，透過該音色控制模型輸出的語音的音色與目標說話對象的音色一致。

音節是根據語音的自然屬性劃分出的最小語音單元。以漢語音節舉例說明：ā（啊）只有一個音節，ài（愛）有兩個音節，dāi（呆）則有三個音節等。終端中可儲存有字元與音節的對應關係。

具體地，終端在獲取目標文件後，可根據字元與音節的對應關係，確定目標文件所對應的音節序列終端可，再將目標文件所對應的音節序列輸入訓練完成的音色控制模型，透過音色控制模型的隱藏層確定各音節各自對應的聲學參數，繼而透過音色控制模型的隱藏層根據各音節各自對應的聲學參數，確定各音節各自對應的語音波形單元，從而透過音色控制模型的輸出層根據各音節各自對應的語音波形單元，輸出目標文件所對應的語音波形，得到自製語音。

其中，音色控制模型輸出的自製語音是沒有背景伴奏的目標說話對象的說話聲，終端可將自製語音和背景伴奏混音，得到自製音頻。

在本實施例中，透過機器學習模型強大的學習能力學習音色控制的能力，透過訓練完成的音色控制模型進行語音合成，相較於傳統的語音合成方式，提高了語音合成效率，而且提高了語音合成的準確性。

在一個實施例中，該音頻合成方法還包括訓練與各候選說話對象匹配的音色控制模型的步驟；目標說話對象選擇候選說話對象；訓練與各候選說話對象匹配的音色控制模型，包括：收集各候選說話對象相應的音頻素材；根據各音頻素材確定相應候選說話對象所相應的音節素材序列；採用各候選說話對象所相應的音節素材序列，訓練得到各候選說話對象匹配的音色控制模型。

具體地，終端可收集各候選說話對象相應的音頻素材。對於每個候選說話對象，對該候選說話對象相應的音頻素材進行音頻切分，得到音頻素材對應的音節序列樣本，將音節序列樣本作為輸入資料訓練音色控制模型，以輸出符合該候選說話對象的音色的音頻。終端可再根據輸出的音頻與輸入的音節序列樣本所來自的音頻素材的差異來調整音色控制模型的模型參數。終端在調整參數後，可繼續訓練，直至音色控制模型訓練完成。這樣，終端即對每個候選說話對象分別訓練了相匹配的音色控制模型。

終端在訓練得到音色控制模型後，可將該音色控制模型保存在本地，以在需要使用音色控制模型時獲取並使用。音色控制模型訓練的過程也可在伺服器上進行，伺服器在訓練完成音色控制模型後，將音色控制模型下發至終端使用。

在一個實施例中，終端可對自製語音進行音節劃分，通常一個音節表示一個字元。這樣，終端可調整各音節的時間訊息，如開始時間、持續時間長度及不同音節之間的停頓時間長度等，使得自製語音的節奏符合曲調訊息；終端可再調整各音節的音高，如基頻和聲音強度等，使得自製語音的旋律符合曲調訊息；從而得到以目標文件為歌詞、曲調與目標歌曲一致、且音色與目標說話對象一致的自製歌曲。

上述本實施例中，用戶可以自主選擇歌詞和曲調，自定義符合自己期望的歌曲，進而將自定義的歌曲作為背景音頻來錄製視頻；或者自主選擇目標音色，以得符合自己選中的音色的語音。

在一個實施例中，接收選擇指令，包括：接收對應於虛擬對象附加元素的選擇指令；確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。該音頻合成方法還包括：將自製音頻配置為背景音頻；將虛擬對象附加元素疊加至採集的圖像得到視頻幀；基於背景音頻和疊加得到的視頻幀生成錄製的視頻。

其中，虛擬對象附加元素是可視內容為虛擬對象形象的資料。虛擬對象附加元素可以用於額外添加在圖像中來修飾圖像內容。比如虛擬對象外掛程式等。虛擬對象附加元素可以是動態資料，比如動態圖片；也可以是靜態資料，比如靜態圖片。

具體地，終端可在界面上提供虛擬對象附加元素列表，繼而檢測對於展示的虛擬對象附加元素的預定義的觸發操作，在檢測到該觸發操作時觸發相應的選擇指令，並選中選擇指令指向的虛擬對象附加元素。終端繼而將選中虛擬對象附加元素所對應的虛擬對象作為目標說話對象。進一步地，終端可獲取目標文件，根據該目標說話對象匹配的音色控制模型，將目標文件轉換為自製音頻，再透過圖像採集裝置採集圖像，將虛擬對象附加元素疊加至採集的圖像得到視頻幀。終端也可渲染得到的視頻幀形成預覽畫面，基於自製音頻錄製視頻。

舉例說明，第5圖示出了本發明一個實施例中錄製視頻的界面示意圖。參考第5圖左圖，該界面包括虛擬對象附加元素列表510和文件輸入框入口520。用戶可在虛擬對象附加元素列表510中進行選擇，終端從而獲取用戶從虛擬對象附加元素列表510中選中的虛擬對象附加元素511，將虛擬對象附加元素所對應的虛擬對象作為目標說話對象。用戶可透過文件輸入框入口520開啟文件輸入框530，如第5圖中圖所示，在文件輸入框中輸入目標文件，或者如第5圖右圖所示，在候選文件模板中選擇目標文件。

在具體的場景下，終端可在視頻錄製應用的拍攝界面上，提供遊戲的英雄外掛程式，並可以讓用戶自定義一段文件，然後就可以用這個英雄的聲音把用戶自定義的文件念出來，達到用戶直接指揮遊戲英雄說出想說的話的效果。在合成自製語音後，在以自製語音為背景音頻錄製視頻時，用戶可以透過對口型表演，從裝扮、聲音和口型等多個方位，達到模仿的效果。

在一個實施例中，接收選擇指令，包括：接收用於進行模擬視頻通話的選擇指令；確定選擇指令選中的目標說話對象所對應的圖片。該音頻合成方法還包括：將自製音頻配置為背景音頻；根據圖片和採集的圖像生成通話視頻幀；基於背景音頻和生成的通話視頻幀生成錄製的視頻。

具體地，終端可在視頻播放界面提供互動入口。終端可根據用戶指令透過該互動入口進行互動界面。終端可在互動界面提供模擬視頻通話入口並，在接收到作用於模擬視頻通話入口的選擇指令後，確定選擇指令選中的目標說話對象為當前播放的視頻中的對象，或者發佈該視頻的用戶；再確定目標說話對象所對應的圖片，根據確定的圖片和採集的圖像生成通話視頻幀，基於背景音頻和生成的通話視頻幀生成與目標說話對象的進行視頻通話的視頻。

終端還可在互動界面提供文件輸入框，獲取輸入的目標文件，根據確定的目標說話對象的音色訊息，將目標文件轉換為自製語音，以該自製語音和生成的通話視頻幀生成錄製的視頻。這樣，即可達到用戶直接可控制通話視頻對象說出用戶想要視頻通話對象對自己說的話的效果。

舉例說明，第6圖示出了本發明一個實施例中提供互動入口的界面示意圖。參考第6圖左圖，該界面包括當前播放視頻的視頻幀610和互動入口620。終端可根據用戶指令透過該互動入口620進行如第6圖右圖所示的互動界面。該互動界面中包括文件輸入框631和模擬視頻通話入口632。用戶可透過模擬視頻通話入口632模擬與視頻幀610中的對象進行視頻通話。用戶可透過文件輸入框631輸入文件，終端則獲取用戶輸入的文件為目標文件，來合成自製語音，將該自製語音在模擬視頻通話時播放，作為模擬視頻通話內容。

第7圖示出了本發明一個實施例中模擬視頻通話的界面示意圖。參考第7圖左圖，為視頻通話邀請界面。視頻通話邀請界面中包括目標說話對象所對應的圖片711。用戶可透過視頻通話接聽入口進行模擬視頻通話。終端也可在渲染視頻通話邀請界面預設時間長度後進入視頻通話界面。再參考第7圖右圖，為視頻通話界面，該界面包括目標說話對象（視頻對象）所對應的圖片721，和採集的圖像722，模擬與目標說話對象進行視頻通話的場景。

在具體的場景下，終端可在視頻錄製應用提供“明星說出你的名字”的玩法。用戶在看視頻時，會出現引導輸入名字的彈窗，根據指引可以輸入2-4個字的文件，輸入的文件會先給到伺服器做安全鑒定，文件符合規定，則將用戶輸入的文件和明星語料庫做語音合成處理，合成好的自製語音返回到終端，終端響應跳轉行為，跳到拍攝頁，加載明星打電話的素材（視頻通話邀請界面）。素材加載成功後，就可以看到明星來電的頁面，明星會在視頻中念出剛輸入的文件（即播放自製語音），同時用戶會以小窗的形式，出現在拍攝界面的右上方，達到跟明星同屏的效果，按下拍攝按鈕，就可以獲得一條獨一無二的明星同屏視頻。

應該理解的是，雖然上述各實施例的流程圖中的各個步驟按照箭頭的指示依次顯示，但是這些步驟並不是必然按照箭頭指示的順序依次執行。除非本文中有明確的說明，這些步驟的執行並沒有嚴格的順序限制，這些步驟可以以其它的順序執行。而且，上述各實施例中的至少一部分步驟可以包括多個子步驟或者多個階段，這些子步驟或者階段並不必然是在同一時刻執行完成，而是可以在不同的時刻執行，這些子步驟或者階段的執行順序也不必然是依次進行，而是可以與其它步驟或者其它步驟的子步驟或者階段的至少一部分輪流或者交替地執行。

如第8圖所示，在一個實施例中，提供了一種音頻合成裝置800。參照第8圖，該音頻合成裝置800包括：獲取模組801、確定模組802和播放模組803。

獲取模組801，用於獲取目標文件。

確定模組802，用於確定透過選擇指令所選中的目標歌曲。

獲取模組801還用於獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；自製歌曲以目標文件為歌詞。

播放模組803，用於播放自製歌曲。

在一個實施例中，獲取模組801還用於將目標文件和目標歌曲的歌曲標識發送至伺服器；目標文件和歌曲標識，用於指示伺服器在查找到與歌曲標識對應的曲調訊息後，根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲；接收伺服器所反饋的自製歌曲。

在一個實施例中，獲取模組801還用於查詢與目標歌曲匹配的曲調訊息；將目標文件和曲調訊息輸入曲調控制模型，透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵；透過曲調控制模型的輸出層，輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。

在一個實施例中，音頻合成裝置800還包括訓練模組804用於訓練曲調控制模型；具體用於收集候選歌曲所對應的候選歌曲音頻；根據收集的候選歌曲音頻，確定各候選歌曲所對應的候選歌曲曲調；獲取文件樣本；根據文件樣本和候選歌曲曲調訓練得到曲調控制模型。其中，目標歌曲選自候選歌曲。

在一個實施例中，確定模組802還用於確定目標說話對象；獲取模組801還用於查詢與目標說話對象對應的曲調控制模型；根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲；自製歌曲的音色符合目標說話對象。

如第9圖所示，在一個實施例中，音頻合成裝置800還包括訓練模組804和錄製模組805。

錄製模組805用於將自製歌曲配置為背景音頻；基於背景音頻錄製視頻。

在一個實施例中，獲取模組801還用於接收選擇指令；當選擇指令選中目標歌曲時，獲取模組801還用於獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；當選擇指令選中目標說話對象時，獲取模組801還用於獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻；音色控制模型與目標說話對象匹配。

在一個實施例中，訓練模組804還用於訓練與各候選說話對象匹配的音色控制模型；具體用於收集各候選說話對象相應的音頻素材；根據各音頻素材確定相應候選說話對象所相應的音節素材序列；採用各候選說話對象所相應的音節素材序列，訓練得到各候選說話對象匹配的音色控制模型。其中，目標說話對象選自候選說話對象。

在一個實施例中，獲取模組801還用於查詢與目標說話對象匹配的音色控制模型；確定目標文件所對應的音節序列；透過音色控制模型根據音節序列合成自製語音；根據自製語音和背景伴奏合成自製音頻。

在一個實施例中，獲取模組801還用於接收對應於虛擬對象附加元素的選擇指令；確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。錄製模組805還用於將自製音頻配置為背景音頻；將虛擬對象附加元素疊加至採集的圖像得到視頻幀；基於背景音頻和疊加得到的視頻幀生成錄製的視頻。

在一個實施例中，獲取模組801還用於接收用於進行模擬視頻通話的選擇指令；確定選擇指令選中的目標說話對象所對應的圖片。錄製模組805還用於將自製音頻配置為背景音頻；根據圖片和採集的圖像生成通話視頻幀；基於背景音頻和生成的通話視頻幀生成錄製的視頻。

第10圖示出了本發明一個實施例中計算機設備的內部結構圖。該計算機設備具體可以是第1圖中的終端110。如第10圖所示，該計算機設備包括透過系統匯流排連接的處理器、儲存器、網路連接埠、輸入設備和顯示螢幕。其中，儲存器包括非揮發性儲存媒體和記憶體。該計算機設備的非揮發性儲存媒體儲存有操作系統，還可儲存有計算機程式，該計算機程式被處理器執行時，可使得處理器實現音頻合成方法。該記憶體中也可儲存有計算機程式，該計算機程式被處理器執行時，可使得處理器執行音頻合成方法。計算機設備的顯示螢幕可以是液晶顯示螢幕或者電子墨水顯示螢幕等，輸入裝置可以是顯示螢幕上覆蓋的觸摸層，也可以是計算機設備外殼上設置的按鍵、軌跡球或觸控板，也可以是外接的鍵盤、觸控板或滑鼠等。所屬技術領域具有通常知識者可以理解，第10圖中示出的結構，僅僅是與本申請方案相關的部分結構的方塊圖，並不構成對本申請方案所應用於其上的計算機設備的限定，具體的計算機設備可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件佈置。

在一個實施例中，本申請提供的音頻合成裝置可以實現為一種計算機程式的形式，計算機程式可在如第10圖所示的計算機設備上運行，計算機設備的非揮發性儲存媒體可儲存組成該音頻合成裝置的各個程式模組，比如，第8圖所示的獲取模組801、確定模組802、合成模組803、配置模組804和錄製模組805等。各個程式模組組成的計算機程式使得處理器執行本說明書中描述的本申請各個實施例的音頻合成方法中的步驟。

例如，第10圖所示的計算機設備可以透過如第8圖所示的音頻合成裝置800中的獲取模組801獲取目標文件。透過確定模組802確定透過選擇指令所選中的目標歌曲。透過獲取模組801獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；自製歌曲以目標文件為歌詞。透過播放模組803播放自製歌曲。

在一個實施例中，提供了一種計算機可讀儲存媒體，該計算機可讀儲存媒體上儲存有計算機程式，該計算機程式被處理器執行時，使得處理器執行以下步驟：獲取目標文件；確定透過選擇指令所選中的目標歌曲；獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；自製歌曲以目標文件為歌詞；播放自製歌曲。

在一個實施例中，獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲，包括：將目標文件和目標歌曲的歌曲標識發送至伺服器；目標文件和歌曲標識，用於指示伺服器在查找到與歌曲標識對應的曲調訊息後，根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲；接收伺服器所反饋的自製歌曲。

在一個實施例中，獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲，包括：查詢與目標歌曲匹配的曲調訊息；將目標文件和曲調訊息輸入曲調控制模型，透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵；透過曲調控制模型的輸出層，輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。

在一個實施例中，該計算機程式還使得處理器執行以下步驟：訓練曲調控制模型；其中，目標歌曲選自候選歌曲。訓練曲調控制模型，包括：收集候選歌曲所對應的候選歌曲音頻；根據收集的候選歌曲音頻，確定各候選歌曲所對應的候選歌曲曲調；獲取文件樣本；根據文件樣本和候選歌曲曲調訓練得到曲調控制模型。

在一個實施例中，該計算機程式還使得處理器執行以下步驟：確定目標說話對象。獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲，包括：查詢與目標說話對象對應的曲調控制模型；根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲；自製歌曲的音色符合目標說話對象。

在一個實施例中，該計算機程式還使得處理器執行以下步驟：將自製歌曲配置為背景音頻；基於背景音頻錄製視頻。

在一個實施例中，該計算機程式還使得處理器執行以下步驟：接收選擇指令；當選擇指令選中目標歌曲時，則執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟；當選擇指令選中目標說話對象時，則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻；音色控制模型與目標說話對象匹配。

在一個實施例中，該計算機程式還使得處理器執行以下步驟：訓練與各候選說話對象匹配的音色控制模型；其中，目標說話對象選自候選說話對象。訓練與各候選說話對象匹配的音色控制模型，包括：收集各候選說話對象相應的音頻素材；根據各音頻素材確定相應候選說話對象所相應的音節素材序列；採用各候選說話對象所相應的音節素材序列，訓練得到各候選說話對象匹配的音色控制模型。

在一個實施例中，接收選擇指令，包括：接收對應於虛擬對象附加元素的選擇指令；確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。該計算機程式還使得處理器執行以下步驟：將自製音頻配置為背景音頻；將虛擬對象附加元素疊加至採集的圖像得到視頻幀；基於背景音頻和疊加得到的視頻幀生成錄製的視頻。

在一個實施例中，接收選擇指令，包括：接收用於進行模擬視頻通話的選擇指令；確定選擇指令選中的目標說話對象所對應的圖片。該計算機程式還使得處理器執行以下步驟：將自製音頻配置為背景音頻；根據圖片和採集的圖像生成通話視頻幀；基於背景音頻和生成的通話視頻幀生成錄製的視頻。

在一個實施例中，提供了一種計算機設備，包括儲存器和處理器，儲存器中儲存有計算機程式，計算機程式被處理器執行時，使得處理器執行以下步驟：獲取目標文件；確定透過選擇指令所選中的目標歌曲；獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲；自製歌曲以目標文件為歌詞；播放自製歌曲。

所屬技術領域具有通常知識者可以理解實現上述實施例方法中的全部或部分流程，是可以透過計算機程式來指令相關的硬體來完成，所述的程式可儲存於一非揮發性計算機可讀取儲存媒體中，該程式在執行時，可包括如上述各方法的實施例的流程。其中，本申請所提供的各實施例中所使用的對儲存器、儲存、資料庫或其它媒體的任何引用，均可包括非揮發性和/或揮發性記憶體。非揮發性記憶體可包括唯讀記憶體(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、電可擦除可編程ROM(EEPROM)或快閃記憶體。揮發性記憶體可包括隨機存取記憶體(RAM)或者外部高速緩沖記憶體。作為說明而非局限，RAM以多種形式可得，諸如靜態RAM(SRAM)、動態RAM(DRAM)、同步DRAM(SDRAM)、雙資料率SDRAM(DDRSDRAM)、增強型SDRAM(ESDRAM)、同步鏈路(Synchlink) DRAM(SLDRAM)、記憶體匯流排(Rambus)直接RAM(RDRAM)、直接記憶體匯流排(Rambus)動態RAM(DRDRAM)、以及記憶體匯流排(Rambus)動態RAM(RDRAM)等。

以上實施例的各技術特徵可以進行任意的組合，為使描述簡潔，未對上述實施例中的各個技術特徵所有可能的組合都進行描述，然而，只要這些技術特徵的組合不存在矛盾，都應當認為是本說明書記載的範圍。

以上實施例僅表達了本發明的幾種實施方式，其描述較為具體和詳細，但並不能因此而理解為對本發明專利範圍的限制。應當指出的是，對於所屬技術領域具有通常知識者來說，在不脫離本發明構思的前提下，還可以做出各種變形和改進，這些都屬本發明的保護範圍。因此，本發明專利的保護範圍應以所附申請專利範圍為準。

110‧‧‧終端 120‧‧‧伺服器 310‧‧‧文件輸入框 311‧‧‧文件 320‧‧‧文件模板列表 321‧‧‧文件 330‧‧‧候選歌曲列表 331‧‧‧歌曲 510‧‧‧虛擬對象附加元素列表 511‧‧‧虛擬對象附加元素 520‧‧‧文件輸入框入口 530‧‧‧文件輸入框 610‧‧‧視頻幀 620‧‧‧互動入口 631‧‧‧文件輸入框 632‧‧‧模擬視頻通話入口 711‧‧‧圖片 721‧‧‧圖片 722‧‧‧採集的圖像 800‧‧‧音頻合成裝置 801‧‧‧獲取模組 802‧‧‧確定模組 803‧‧‧播放模組 804‧‧‧錄製模組 805‧‧‧訓練模組 S202~S208‧‧‧步驟

[第1圖]為本發明一個實施例中音頻合成方法的應用環境圖； [第2圖]為本發明一個實施例中音頻合成方法的流程示意圖； [第3圖]為本發明一個實施例中獲取目標文件的界面示意圖； [第4圖]為本發明一個實施例中合成自製歌曲的原理方塊圖； [第5圖]為本發明一個實施例中錄製視頻的界面示意圖； [第6圖]為本發明一個實施例中提供互動入口的界面示意圖； [第7圖]為本發明一個實施例中模擬視頻通話的界面示意圖； [第8圖]為本發明一個實施例中音頻合成裝置的模組結構圖； [第9圖]為本發明另一個實施例中音頻合成裝置的模組結構圖； [第10圖]為本發明一個實施例中計算機設備的內部結構圖。

S202~S208‧‧‧步驟

Claims

一種音頻合成方法，包括：獲取目標文件；確定透過選擇指令所選中的目標歌曲；獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，所述自製歌曲以所述目標文件為歌詞；以及播放所述自製歌曲。
如請求項1所述的方法，其中所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，包括：將所述目標文件和所述目標歌曲的歌曲標識發送至伺服器，所述目標文件和所述歌曲標識用於指示伺服器在查找到與所述歌曲標識對應的曲調訊息後，根據訓練完成的曲調控制模型、所述目標文件和所述曲調訊息合成自製歌曲；以及接收所述伺服器所反饋的自製歌曲。
如請求項1所述的方法，其中所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，包括：查詢與所述目標歌曲匹配的曲調訊息；將所述目標文件和所述曲調訊息輸入曲調控制模型，透過所述曲調控制模型的隱藏層根據所述曲調訊息確定所述目標文件中各字元各自相應的曲調特徵；以及透過所述曲調控制模型的輸出層，輸出將所述目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
如請求項1所述的方法，還包括：訓練曲調控制模型的步驟，所述目標歌曲選自候選歌曲，所述訓練曲調控制模型，包括：收集候選歌曲所對應的候選歌曲音頻；根據收集的候選歌曲音頻，確定各候選歌曲所對應的候選歌曲曲調；獲取文件樣本；以及根據所述文件樣本和所述候選歌曲曲調訓練得到所述曲調控制模型。
如請求項1所述的方法，還包括：確定目標說話對象，所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，包括：查詢與所述目標說話對象對應的曲調控制模型；以及根據查詢到的所述曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息合成自製歌曲，所述自製歌曲的音色符合所述目標說話對象。
如請求項1至5中任一項所述的方法，還包括：將所述自製歌曲配置為背景音頻；以及基於所述背景音頻錄製視頻。
如請求項1所述的方法，還包括：接收選擇指令；當所述選擇指令選中目標歌曲時，則執行所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲的步驟；以及當所述選擇指令選中目標說話對象時，則獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻，所述音色控制模型與所述目標說話對象匹配。
如請求項7所述的方法，還包括：訓練與各候選說話對象匹配的音色控制模型的步驟，所述目標說話對象選自候選說話對象，所述訓練與各候選說話對象匹配的音色控制模型，包括：收集各候選說話對象相應的音頻素材；根據各音頻素材確定相應候選說話對象所相應的音節素材序列；以及採用各候選說話對象所相應的音節素材序列，訓練得到各候選說話對象匹配的音色控制模型。
如請求項7所述的方法，其中所述獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻，包括：查詢與所述目標說話對象匹配的音色控制模型；確定所述目標文件所對應的音節序列；透過所述音色控制模型根據所述音節序列合成自製語音；以及根據所述自製語音和背景伴奏合成自製音頻。
如請求項7所述的方法，其中所述接收選擇指令，包括：接收對應於虛擬對象附加元素的選擇指令；以及確定所述選擇指令選中的虛擬對象附加元素所對應的目標說話對象，所述方法還包括：將所述自製音頻配置為背景音頻；將所述虛擬對象附加元素疊加至採集的圖像得到視頻幀；以及基於所述背景音頻和疊加得到的所述視頻幀生成錄製的視頻。
如請求項6所述的方法，其中所述接收選擇指令，包括：接收用於進行模擬視頻通話的選擇指令；以及確定所述選擇指令選中的目標說話對象所對應的圖片，所述方法還包括：將所述自製音頻配置為背景音頻；根據所述圖片和採集的圖像生成通話視頻幀；以及基於所述背景音頻和生成的所述通話視頻幀生成錄製的視頻。
一種音頻合成裝置，包括：獲取模組，用於獲取目標文件；確定模組，用於確定透過選擇指令所選中的目標歌曲，獲取模組還用於獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲，所述自製歌曲以所述目標文件為歌詞；以及播放模組，用於播放所述自製歌曲。
如請求項12所述的裝置，其中所述獲取模組還用於接收選擇指令，當所述選擇指令選中目標說話對象時，獲取模組還用於獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻，所述音色控制模型與所述目標說話對象匹配。
一種計算機可讀儲存媒體，所述計算機可讀儲存媒體上儲存有計算機程式，所述計算機程式被處理器執行時，使得所述處理器執行如請求項1至11中任一項所述的方法。
一種計算機設備，包括儲存器和處理器，所述儲存器中儲存有計算機程式，所述計算機程式被所述處理器執行時，使得所述處理器執行如請求項1至11中任一項所述的方法。