TW202247144A

TW202247144A - 圖像生成方法、裝置、設備以及儲存媒體

Info

Publication number: TW202247144A
Application number: TW111115986A
Authority: TW
Inventors: 吳潛溢; 吳文岩; 戴勃; 王宇欣; 高娜; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2021-05-21
Filing date: 2022-04-27
Publication date: 2022-12-01
Also published as: CN113299312A; WO2022242381A1; CN113299312B

Abstract

本公開提出一種圖像生成方法、裝置、設備以及儲存媒體。其中，所述方法可以包括：接收音頻數據和人臉圖像；提取所述音頻數據包括的音頻序列對應的文本特徵。所述文本特徵表徵所述音頻序列的文本內容。基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。所述臉部特徵表徵所述音頻序列對應的發音動作。根據所述音頻序列對應的臉部特徵以及人臉圖像，生成與所述音頻序列對應的發音人臉圖像。

Description

圖像生成方法、裝置、設備以及儲存媒體

本公開涉及計算機技術領域，具體涉及一種圖像生成方法、裝置、設備以及儲存媒體。

發音人臉圖像的生成是語音驅動人物、虛擬數位人等應用中非常關鍵的一項技術。

生成發音人臉圖像是指根據接收的音頻數據和人臉圖像，生成說話時呈現發音動作的發音人臉圖像的過程。

如果發音人臉圖像中體現的發音動作不準確，可能會影響觀感效果。

有鑑於此，本公開提供一種圖像生成方法。該方法可以包括：接收音頻數據和人臉圖像；提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵所述音頻序列對應的文本內容；基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作；根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。

在一些實施例中，所述基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，包括：根據所述音頻序列，得到所述音頻序列對應的聲音特徵；其中，所述聲音特徵表徵所述音頻序列對應的音色、響度、音調中的至少一種特徵；將所述音頻序列對應的文本特徵和聲音特徵進行融合，得到所述音頻序列對應的融合特徵；利用臉部特徵映射網路，對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；所述利用臉部特徵映射網路，對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，包括：將所述音頻序列，以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的融合特徵作為輸入，利用所述臉部特徵映射網路，得到所述音頻序列對應的臉部特徵。

在一些實施例中，所述臉部特徵包括臉部區域的多個關鍵點的三維坐標；所述根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像，包括：根據所述人臉圖像確定投影矩陣；其中，所述投影矩陣表徵所述人臉圖像中的人臉關鍵點的坐標從三維到二維的映射關係；通過所述投影矩陣，將所述音頻序列對應的多個關鍵點的三維坐標投影為二維坐標；獲取將所述人臉圖像中目標臉部區域遮擋之後的遮擋圖像；利用生成網路，根據所述遮擋圖像與所述音頻序列對應的多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；在利用生成網路，根據所述遮擋圖像與所述音頻序列對應的多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像之前，所述方法還包括：基於所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的多個關鍵點的二維坐標，對所述音頻序列對應的多個關鍵點的二維坐標進行平滑處理。

在一些實施例中，所述目標臉部區域包括以下中的至少一項：嘴部；下顎；鼻子；眼睛；眉毛；耳朵。

在一些實施例中，所述音頻數據包括多個連續音頻序列；所述方法還包括：針對所述連續的多個音頻序列中的每個音頻序列，生成與該音頻序列對應的發音人臉圖像；根據所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻。

在一些實施例中，所述根據生成的各發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻，包括：獲取與所述人臉圖像對應的背景圖像；將所述背景圖像與所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像融合以得到多個融合圖像；根據所述多個融合圖像生成與所述音頻數據對應的發音人臉視頻。

在一些實施例中，所述提取所述音頻數據包括的音頻序列對應的文本特徵，包括：獲取所述音頻序列對應的音頻訊號特徵；對所述音頻序列對應的音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵。

在一些實施例中，所述獲取所述音頻序列對應的音頻訊號特徵，包括：通過音頻訊號分析算法獲取所述音頻數據對應的音頻訊號特徵；從所述音頻數據對應的音頻訊號特徵中截取出與所述音頻序列對應的音頻訊號特徵。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；所述對所述音頻序列對應的音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵，包括：根據所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的音頻訊號特徵，生成輸入特徵；利用文本特徵提取網路，對所述輸入特徵進行文本特徵提取，得到與所述音頻序列對應的文本特徵。

在一些實施例中，所述音頻序列對應的音頻訊號特徵，包括以下中的至少一項：梅爾倒頻譜特徵；梅爾特徵；線性預測特徵；線性預測倒頻譜特徵；線譜頻率特徵；小波變換特徵。

本公開還提出一種圖像生成裝置，包括：接收與提取模組，用於接收音頻數據和人臉圖像，並且提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵所述音頻序列對應的文本內容；臉部特徵映射模組，用於基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作；圖像生成模組，根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。

在一些實施例中，所述裝置還包括：視頻生成模組，用於生成與所述音頻數據所包括的連續的多個音頻序列對應的多個發音人臉圖像；根據所述多個發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻。

本公開還提出一種電子設備，包括：處理器；以及用於儲存處理器可執行指令的儲存器；其中，所述處理器通過運行所述可執行指令以實現如前述任一實施例示出的圖像生成方法。

本公開還提出一種計算機可讀儲存媒體，所述儲存媒體儲存有計算機程式，所述計算機程式用於使處理器執行如前述任一實施例示出的圖像生成方法。

在所述方案中，第一，可以根據表徵音頻序列的文本內容的文本特徵，得到表徵音頻序列對應發音動作的臉部特徵，然後再根據所述臉部特徵生成與音頻序列對應的發音人臉圖像。由於同一文本內容具有唯一的發音動作，並且文本內容可以包含語義，且不包含與發聲人員個人有關的特性，因此根據音頻序列對應的文本內容可以獲取準確的表徵發音動作的臉部特徵，可以有助於減少由於諸如發音等與說話人員個人有關的特性帶來的對確定臉部特徵的影響，獲取準確的表徵發音動作的臉部特徵，從而有助於獲得準確表達發音動作的發音人臉圖像，提升觀感效果。

第二，可以將表徵文本內容的文本特徵和表徵音色、響度、音調中至少一種特徵的聲音特徵融合得到融合特徵，並進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，從而可以結合音頻序列對應的聲音特性與文本內容，得到更準確的臉部特徵。

第三，通過在目標臉部區域輪廓上選取的多個關鍵點的三維坐標來表徵臉部特徵，可以準確的表達出音頻序列對應的發音動作，從而可以提升發音人臉圖像表達的發音動作的準確性。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本公開。

本公開要求於2021年05月21日提交的、申請號為202110560359.4的中國專利申請的優先權，該申請以引用的方式併入本文中。

下面將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本公開的一些方面相一致的設備和方法的例子。

在本公開使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本公開。在本公開和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。還應當理解，本文中所使用的詞語“如果”，取決於語境，可以被解釋成為“在……時”或“當……時”或“響應於確定”。

有鑑於此，本公開提出一種圖像生成方法。該方法可以根據表徵音頻序列的文本內容的文本特徵，得到表徵音頻序列對應發音動作的臉部特徵，然後再根據所述臉部特徵生成與音頻序列對應的發音人臉圖像。由於同一文本內容具有唯一的發音動作，並且文本內容可以包含語義，且不包含與發聲人員個人有關的特性，因此根據音頻序列對應的文本內容可以獲取準確的表徵發音動作的臉部特徵，可以有助於減少由於諸如發音等與說話人員個人有關的特性帶來的對確定臉部特徵的影響，獲取準確的表徵發音動作的臉部特徵，從而有助於獲得準確表達發音動作的發音人臉圖像，提升觀感效果。

該方法可以應用於電子設備中。其中，所述電子設備可以通過搭載與圖像生成方法對應的軟體裝置執行所述方法。所述電子設備的類型可以是筆記型電腦，計算機，伺服器，手機，PAD終端等。本公開不對所述電子設備的具體類型進行特別限定。所述電子設備可以是客戶端或服務端一側的設備。所述服務端可以是由伺服器、伺服器集群或分散式伺服器集群提供的服務端或雲端。以下以執行主體為電子設備（以下簡稱設備）為例進行說明。

請參見圖1，圖1為本公開實施例示出的一種圖像生成方法的方法流程圖。

如圖1所示，所述方法可以包括以下步驟S102至S106。

S102，接收音頻數據和人臉圖像，提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵音頻序列對應的文本內容。

S104，基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作。

S106，根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。

在一些實施例中，用戶可以通過所述電子設備提供的客戶端程式，將音頻數據與人臉圖像傳輸至所述電子設備。接收到所述音頻數據後，所述設備可以執行S102。

所述音頻數據，可以包含語音資訊。例如，所述音頻數據可以是說話、唱歌等語音音頻文件。所述音頻數據可以包括單個音頻序列或者多個在時序上連續的音頻序列。本公開可以將所述音頻序列與人臉圖像進行合成，得到與音頻序列一致的發音人臉圖像。

音頻序列通常可以表達一定的文本內容。例如，當音頻數據為“我要去吃飯”時，其包括的首個音頻序列表達的文本內容可能為“wo（我）”的第一個音素“w”。同一文本內容具有唯一的發音動作，並且文本內容可以包含語義，且不包含與發聲人員個人有關的特性，因此根據音頻序列對應的文本內容可以獲取準確的表徵發音動作的臉部特徵，進而獲得準確的發音人臉圖像。

所述文本特徵可以表徵所述音頻序列的文本內容。在一些實施例中，所述文本特徵可以是文本內容的向量表達。

在一些實施例中，在執行S102時，可以利用預先訓練好的第一文本特徵提取網路（以下稱為第一網路），對所述音頻序列進行特徵提取得到音頻序列對應的文本特徵。

所述第一網路可以是基於神經網路構建的迴歸或分類網路。在訓練該網路時，可以獲取標註了文本特徵的若干音頻序列樣本。然後再根據獲取的樣本對所述第一網路進行訓練，直至該第一網路收斂。

在一些實施例中，可以先獲取若干音頻序列，然後可以根據文本特徵與文本內容的對應規則，確定各音頻序列的文本內容對應的文本特徵，並採用諸如人工標註等方式對各音頻序列進行文本特徵的標註，得到若干音頻序列樣本。之後可以採用有監督訓練的方式，利用反向傳播對所述第一網路的網路參數進行多次迭代，直至該網路收斂，完成訓練。

在完成訓練後，可以將接收到的音頻數據包括的音頻序列分別輸入所述第一網路，從而得到與音頻序列對應的文本特徵。

在一些實施例中，為了提升更準確的文本特徵，在執行S102時，可以執行S1022，獲取所述音頻序列對應的音頻訊號特徵。然後執行S1024，對所述音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵。

所述音頻訊號特徵可以表徵聲音特性（如音調，響度，音色等中至少一種）和文本內容等。在一些實施例中，所述音頻訊號特徵可以包括以下中的至少一項：梅爾倒頻譜特徵（Mel-Frequency Cepstral Coefficients，MFCC）；梅爾特徵；線性預測特徵；線性預測倒頻譜特徵；線譜頻率特徵；小波變換特徵。通過所述音頻訊號特徵有助於對音頻訊號資訊進行準確描述，從而有助於得到更準確的文本特徵。

需要說明的是，所述音頻訊號分析方法包括但不限於傅立葉變換，小波變換等。本公開不限定所述音頻訊號分析方法的具體類型。

在一些實施例中，可以根據整個音頻數據對應的音頻訊號特徵，得到音頻序列的音頻訊號特徵，與針對單幀音頻序列確定該單幀音頻序列的音頻訊號特徵相比，可以結合單幀音頻序列前後音頻序列表徵的語義得到該單幀音頻序列更準確的音頻訊號特徵。

在一些實施例中，在執行S1022時，可以通過音頻訊號分析算法獲取所述音頻數據對應的音頻訊號特徵。然後可以從所述音頻數據對應的音頻訊號特徵中截取出與所述音頻序列對應的音頻訊號特徵。

在執行S1024時，可以通過第二文本特徵提取網路（以下稱為第二網路），對所述音頻序列對應的音頻訊號特徵進行特徵提取得到所述音頻序列對應的文本特徵。其中，所述第二網路包括：通過標註了文本特徵的若干音頻訊號特徵樣本進行訓練得到的神經網路。由此根據表徵音頻訊號資訊的音頻訊號特徵進行音頻序列的文本特徵提取，可以直接從與文本內容有關的音頻訊號中提取文本特徵，有助於減少音頻序列包括的其它資訊對提取文本特徵的影響，從而得到更準確的文本特徵。

在一些實施例中，可以結合當前音頻序列與其前後若干連續序列之間的語義，獲取更準確的文本特徵。在執行S1024時，可以執行S1，根據所述音頻序列，以及多個音頻序列中在所述音頻序列之前的至少一個音頻序列和多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的音頻訊號特徵，生成輸入特徵。S2，利用文本特徵提取網路，對所述輸入特徵進行文本特徵提取，得到與所述音頻序列對應的文本特徵。其中，所述文本特徵提取網路包括：通過標註了文本特徵的若干訓練樣本進行訓練得到的神經網路。

請參見圖2，圖2為本公開實施例示出的一種文本特徵提取流程示意圖。

如圖2所示，在執行S1時，可以對所述音頻序列及其之前連續m個音頻序列和之後連續n個音頻序列分別對應的音頻訊號特徵，執行諸如特徵拼接，加權求和等步驟，然後得到所述輸入特徵。其中，所述m和n為預設正整數。由於所述輸入特徵除了包括所述音頻序列的音頻訊號特徵外，還包括所述音頻序列和與其相鄰的音頻序列之間的語義資訊，因此可以得到更準確的文本特徵。

所述文本特徵提取網路，可以是基於神經網路構建的迴歸或分類網路。

在一些實施例中，在訓練該網路時，可以先獲取連續的多個音頻序列的音頻訊號特徵；然後可以將任意連續的三個音頻序列，以中間音頻序列為準，分別確定前後音頻序列與中間音頻序列的音頻訊號特徵的差值，然後將確定的差值與所述中間音頻序列的音頻訊號特徵進行拼接，得到所述中間音頻序列的輸入特徵。然後可以採用諸如人工標註等方式，對各輸入特徵進行標註，得到若干訓練樣本。之後，可以採用有監督訓練的方式，利用反向傳播對所述文本特徵提取網路進行多次迭代，直至該網路收斂，完成訓練。

請繼續參見圖2，在執行S2時，可以根據當前音頻序列以及前後兩個音頻序列各自對應的音頻訊號特徵，採用訓練網路時採用的構建輸入特徵的方法，得到輸入特徵。然後可以將該輸入特徵輸入所述文本特徵提取網路，得到與所述當前音頻序列對應的文本特徵。由此可以利用當前音頻序列與其前後音頻序列之間的語義，得到所述音頻序列更準確的文本特徵。

在得到音頻序列分別對應的文本特徵後，所述設備可以執行S104。

本步驟中的臉部特徵可以表徵音頻序列對應的發音動作。在本公開中，可以利用至少兩種臉部特徵表徵發音動作。其一，所述臉部特徵可以包括目標臉部區域的紋理特徵，通過目標臉部區域的紋理特徵可以表徵發音動作，其二，所述臉部特徵可以包括目標臉部區域的輪廓特徵，通過目標臉部區域的輪廓特徵也可以表徵發音動作。以下以臉部特徵包括目標臉部區域的輪廓特徵為例進行說明。

所述目標臉部區域是指可以表達發音動作的任意區域。所述目標臉部區域可以根據業務需求進行選定。在一些實施例中，所述目標臉部區域包括以下中的至少一項：嘴部；下顎；鼻子；眼睛；眉毛；耳朵。由此可以根據實際要求靈活選擇嘴部，下顎，眉毛等至少一個區域多個來表達說話時的發音動作，從而實現對發音動作更準確的表達，進而提升發音人臉圖像表達發音動作的準確性。

在一些實施例中，所述臉部特徵可以包括針對目標臉部區域選取的多個關鍵點的三維坐標。通過在目標臉部區域輪廓上選取的多個關鍵點的三維坐標來表徵臉部特徵，可以準確的表達出音頻序列對應的發音動作，從而可以提升發音人臉圖像表達的發音動作的準確性。

在一些實施例中，在執行S104時，可以利用臉部特徵映射網路（以下稱為第三網路），對所述音頻序列對應的文本特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。其中，所述臉部特徵包括針對目標臉部區域選取的多個關鍵點的三維坐標。

其中，所述第三網路包括：通過標註了臉部特徵的若干文本特徵樣本進行訓練得到的神經網路。

在一些實施例中，所述第三網路可以是基於神經網路構建的迴歸網路。

在訓練所述第三網路時，可以先獲取若干音頻序列對應的文本特徵，並確定各音頻序列對應的臉部特徵。然後採用諸如人工標註等方式對文本特徵進行標註，得到若干文本特徵樣本。之後可以採用有監督訓練的方式，利用反向傳播對所述第三網路的網路參數進行多次迭代，直至該網路收斂，完成訓練。

完成訓練後，可以將所述音頻序列對應的文本特徵輸入所述第三網路，得到與所述音頻序列對應的臉部特徵。

在一些實施例中，可以利用表徵文本內容的文本特徵與和表徵音色、響度、音調中至少一種特徵的聲音特徵融合得到融合特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，從而可以綜合考慮音頻序列對應的聲音特性與文本內容，得到更準確的臉部特徵。在執行S104時，可以執行S1042，根據所述音頻序列，得到所述音頻序列對應的聲音特徵；所述聲音特徵表徵對應音頻序列的音色、響度、音調中的至少一種特徵。然後執行S1044，將所述音頻序列對應的文本特徵和聲音特徵進行融合，得到所述音頻序列對應的融合特徵。之後執行S1046，利用臉部特徵映射網路（以下稱為第四網路），對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。其中，所述第四網路可以包括：通過標註了臉部特徵的若干融合特徵樣本進行訓練得到的神經網路。

由於音頻訊號特徵可以涵蓋聲音特徵。因此在一些實施例中，在執行S1042時，可以根據所述音頻序列對應的音頻訊號特徵，得到所述聲音特徵。在一些實施例中，可以獲取音頻序列的音頻訊號特徵包括的多維度特徵中，與聲音特徵相關維度的特徵，從而得到聲音特徵。以音頻訊號特徵為梅爾倒頻譜特徵（以下稱為MFCC）為例。所述MFCC包括多維的特徵中的首維特徵表徵與聲音特性有關的特徵，因此可以將MFCC的首維特徵作為所述聲音特徵。

在一些實施例中，在執行S1044時，可以採用特徵拼接或特徵疊加等方式，將文本特徵和聲音特徵進行融合，由此可以得到表徵文本內容與聲音特性的融合特徵，以使在確定臉部特徵時，可以同時兼顧音頻序列的文本內容與聲音特性，從而確定出更準確表達發音動作的臉部特徵。

所述第四網路可以是基於神經網路構建的迴歸網路。

在訓練所述第四網路時，可以先獲取若干音頻序列對應的融合特徵，並確定各音頻序列對應的臉部特徵。然後採用諸如人工標註等方式對融合特徵進行標註，得到若干融合特徵樣本。之後可以採用有監督訓練的方式，利用反向傳播對所述第四網路的網路參數進行多次迭代，直至該網路收斂，完成訓練。

完成訓練後，可以根據所述音頻序列對應的聲音特徵與文本特徵，得到融合特徵，然後輸入所述第四網路，得到臉部特徵。

在一些實施例中，可以結合所述音頻序列以及其前後若干連續音頻序列之間的關聯資訊，獲取更準確的臉部特徵。在執行S1046時，可以執行S3，將所述音頻序列以及多個音頻序列中在所述音頻序列之前的至少一個音頻序列和多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的融合特徵作為輸入，利用臉部特徵映射網路，得到所述音頻序列對應的臉部特徵。其中，臉部特徵映射網路可以基於長短期記憶網路構建。

所述長短期記憶網路（LSTM，Long Short-Term Memory），可以在時序上保留多個音頻序列的融合特徵資訊，進而可以結合當前音頻序列，以及其前後若干連續序列之間的關聯資訊，獲取更準確的臉部特徵。

請參見圖3，圖3為本公開實施例示出的一種臉部特徵映射網路結構示意圖。

圖3示出的臉部特徵映射網路（以下稱為第五網路）可以包括輸入層，LSTM層，全連接層以及輸出層。

其中，所述輸入層包括N個節點31（311，312…）。所述N個節點分別對應LSTM層的N個LSTM處理單元32（321，322…；以下稱為處理單元）。所述N為根據業務需求設定的正整數，所述N通常與輸入的音頻序列個數相同。所述N個節點用於向對應處理單元輸入音頻序列對應的融合特徵。

所述LSTM處理單元可以包括遺忘門，輸入門與輸出門。其中，輸出門可以將當前處理單元的處理結果分為兩份，一份作為當前處理單元的輸出結果；另一份可以作為下一處理單元的輸入。所述遺忘門可以篩選出上一處理單元的輸出結果中有益的資訊。所述輸入門可以篩選出當前處理單元對應節點的輸入資訊中有益的資訊。所述處理單元可以通過所述三個門，對當前節點的輸入與上一處理單元的輸出進行處理，得到處理結果。

所述全連接層33，可以對各LSTM處理單元的輸出結果進行全連接，得到與當前音頻序列對應的輸出與結果。

在執行S3時（以下，將所述音頻序列以及多個音頻序列中在所述音頻序列之前的至少一個音頻序列和多個音頻序列中在所述音頻序列之後的至少一個音頻序列稱為序列集合），可以按照時序，依次將序列集合中的各音頻序列對應的融合特徵按照時序輸入所述輸入層包括的N個節點。

然後經過LSTM層與全連接層處理後，可以得到與所述音頻序列對應的臉部特徵。

其中，在LSTM層處理過程中，除了利用當前節點輸入的融合特徵外，還可以結合之前節點輸入的資訊，從而可以確定出更準確的輸出特徵。所述全連接層處理過程中，可以根據各處理單元輸出的輸出特徵，得到當前音頻序列的臉部特徵，從而可以進一步結合序列集合中各音頻序列之間的關聯資訊，獲得更準確的臉部特徵。

在得到音頻序列對應的臉部特徵後，所述設備可以執行S106。

在一些實施例中，在執行S1062時，可以執行S21，根據接收的人臉圖像確定投影矩陣。然後執行S22，通過所述投影矩陣，將所述音頻序列對應的多個關鍵點的三維坐標投影為二維坐標。之後執行S23，獲取將所述人臉圖像中目標臉部區域遮擋之後的遮擋圖像。最後執行S24，利用生成網路，根據所述遮擋圖像與所述音頻序列對應的多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像。其中，所述生成網路包括通過對抗訓練方式得到神經網路。

所述投影矩陣，可以表徵所述人臉圖像中人臉的多個關鍵點的坐標從三維到二維的映射關係。三維與二維坐標系中的各坐標點存在一定的映射關係。在一些實施例中可以通過投影矩陣表徵時尚映射關係，通過實施投影矩陣可以將三維坐標影射為二維坐標。

接收的所述人臉圖像可以包括人臉。所述人臉可以是側面或正面人臉。在本公開中可以根據所述人臉圖像，生成表達發音動作的發音人臉圖像。

所述多個關鍵點可以用於表徵所述目標臉部區域的臉部輪廓資訊。在一些實施例中，所述多個關鍵點可以是臉部輪廓上的特徵點。例如，所述目標臉部區域為嘴部和下顎時，所述多個關鍵點可以是嘴部和下顎輪廓上的特徵點。

在一些實施例中，在執行S21時，可以先將接收的人臉圖像輸入預先訓練的三維人臉形態模型中，得到與所述人臉圖像對應的投影矩陣。所述三維人臉形態模型用於根據二維圖像生成三維模型。在本公開中可以將所述映射過程中生成的投影矩陣作為所述與所述人臉圖像對應的投影矩陣。

在一些實施例中，在執行S22時，可以利用所述投影矩陣與所述音頻序列對應的多個關鍵點三維坐標矩陣進行矩陣運算，得到當前音頻序列對應的多個關鍵點的二維坐標矩陣。

在一些實施例中，在執行S23時，可以通過人工方式，或基於Faster-Rcnn（Faster Region Convolutional Neural Networks，更快速的區域卷積神經網路）、Mask-Rcnn（Mask Region Convolutional Neural Networks，遮罩區域卷積神經網路）等神經網路構建的遮罩網路，對所述人臉圖像進行遮擋處理，得到遮擋了所述目標臉部區域的人臉圖像。

S24中的生成網路可以是基於神經網路構建的迴歸網路。所述生成網路可以根據表徵預設區域輪廓的多個關鍵點二維坐標，通過像素填充等方式生成預設區域對應的局部圖像，然後再通過圖像扭轉等方式，將局部圖像填充至人臉圖像被掩蓋的區域中，得到完整的發音人臉圖像。

在一些實施例中，可以使用對抗訓練的方式訓練所述生成網路。在訓練該網路時，可以先構建分類網路和生成網路。然後利用若干標註了真實圖像或虛假圖像分類的圖像樣本，對所述分類網路進行訓練，得到對圖像分類比較精准的分類網路。之後，可以獲取若干遮擋圖像和表徵所述目標臉部區域的多個關鍵點的二維坐標，再之後通過調整所述生成網路的參數，使得通過生成網路對所述遮擋圖像與關鍵點坐標進行圖像補充後得到的圖像，可以被訓練完成的所述分類網路判定為真實圖像。至此則完成了對抗訓練的過程。

完成訓練後，可以將所述遮擋圖像與所述音頻序列對應的多個關鍵點的二維坐標輸入所述生成網路，得到所述發音人臉圖像。

在所述例子中，通過多個關鍵點的坐標可以準確的表徵出目標臉部區域輪廓，從而可以提升發音人臉圖像表達的發音動作的準確性。

在一些實施例中，在執行S24之前，可以基於所述音頻序列以及多個音頻序列中在所述音頻序列之前的至少一個音頻序列和多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的多個關鍵點的二維坐標，對所述音頻序列對應的多個關鍵點的二維坐標進行平滑處理。

在一些實施例中，可以通過異常數據排除法與插值法等方法，對所述音頻序列以及所述音頻序列前後多個音頻序列分別對應的多個關鍵點的二維坐標進行修正，達到音頻序列之間發音動作斜街自然的目的，提升基於各音頻序列對應的發音人臉圖像生成的發音人臉視頻所體現的發音動作的連貫性。

在一些實施例中，接收的音頻數據可以包括連續的多個音頻序列。本例中可以根據前述任一實施例示出的圖像生成方法，生成所述音頻數據包括的連續的多個音頻序列分別對應的發音人臉圖像。然後可以根據生成的這些發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻。

所述發音人臉視頻（以下簡稱視頻），可以包括多幀按照時序排列的人臉發音圖像。在一些實施例中，可以將音頻數據分割為多個音頻序列，所述音頻序列的播放時長可以與所述視頻單幀圖像的播放時長相同，由此在確定所述音頻數據包括的各音頻序列對應的發音人臉圖像後，按照時序將各圖形排序即可得到與音頻數據播放時長一致的視頻。

例如，所述音頻數據為5s。所述視頻的幀率為25fps，即單幀圖像的播放時長為40毫秒。此時可以將所述音頻數據劃分為125個播放時長為40毫秒的音頻序列。在得到125個與音頻序列對應的發音人臉圖像後，可以將各人臉圖像按照音頻對應的時序排序，即可得到人臉發音視頻。

在一些實施例中，可以通過將視頻與背景圖像進行融合，生成更真實的發音人臉視頻。

所述背景圖像可以是與人臉圖像對應的背景圖像。在一些實施例中，所述背景圖像與發音環境相關的圖像。例如，在演講場景中，所述背景圖像可以是演講大廳等背景。再例如，在歌唱場景中，所述背景圖像可以是舞臺背景等。

在執行S1064時，可以先獲取與所述人臉圖像對應的背景圖像。然後將所述背景圖像與所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像融合以得到多個融合圖像，根據所述多個融合圖像生成與所述音頻數據對應的發音人臉視頻。

在一些實施例中，可以通過圖像融合技術，將所述背景圖像分別與各發音人臉圖像進行融合，得到融合後的圖像，然後將融合後的圖像作為視頻幀，按照音頻序列的時序進行排列，得到融合背景後的發音人臉視頻，從而更符合真實場景。

以下結合虛擬人物的場景進行實施例說明。

所述虛擬人物用於進行新聞播報。在一些實施例中，所述虛擬人物可以是某位公眾人物。例如，主持人或公司負責人等。

本公開記載的發音視頻生成方法可以應用於雲端。所述雲端可以為用戶提供界面，供用戶上傳待播放的新聞音頻（以下成為音頻）與包括所述虛擬人物的人物圖像。所述發音視頻的幀率為25fps。

所述雲端可以部署預先訓練完成的文本特徵提取網路，用於進行音頻序列的文本特徵提取，部署預先訓練完成的三維關鍵點映射網路，用於進行文本特徵到多個關鍵點三維坐標的映射，部署圖像補全網路，用於根據預算關鍵點坐標，補全遮擋圖像。

請參見圖4，圖4為本公開實施例示出的一種發音人臉視頻生成方法流程示意圖。

如圖4所示，所述雲端在接收到所述新聞與人物圖像後，可以執行S41，獲取所述音頻對應的MFCC，並對MFCC進行分割，得到所述音頻包括的各音頻序列（時長為40ms）分別對應的MFCC。

然後可以執行S42，針對各音頻序列，利用所述文本特徵提取網路，提取各音頻序列對應的文本特徵。由此通過準確表述音頻訊號的MFCC，可以得到準確的文本特徵。

然後可以執行S43，將各音頻序列的MFCC中表徵聲音特性的聲音特徵與文本特徵進行拼接，並針對各音頻序列拼接後的特徵，利用三維關鍵點映射網路，得到表徵虛擬人物嘴部與下顎（目標臉部區域）的多個關鍵點的三維坐標。由此可以得到準確表述音頻序列的發音動作的臉部特徵。

之後可以執行S44，利用接收到的人臉圖像得到表徵三維坐標到二維坐標映射關係的投影矩陣，並利用投影矩陣將所述多個關鍵點的三維坐標映射為二維坐標，並進行各音頻序列對應的多個關鍵點坐標的平滑處理。

再執行S45，根據人臉圖像，生成遮擋了虛擬人物嘴部和下顎的遮擋圖像，然後利用所述圖像補全網路，根據各音頻序列對應的多個關鍵點的二維坐標，對遮擋圖像進行補全，得到與各音頻序列分別對應的完整的虛擬人物發音人臉圖像。

最後可以執行S46，獲取新聞播報背景圖像，並將背景圖像融合至各發音人臉圖像，然後將各發音人臉圖像作為視頻幀，按照對應音頻序列時序，生產虛擬人物發音人臉視頻。

所述雲端可以將生成的發音人臉視頻返回，並向用戶展示。

由此先獲取與錄製所述音頻個人特性無關僅表達音頻文本內容的文本特徵，再將文本特徵與表徵錄音人員聲音特性的聲音特徵拼接，進行嘴部與下顎輪廓的映射，再根據嘴部與下顎輪廓，補全人臉圖像，並生成視頻，可以既考慮音頻的文本內容也考慮聲音特性，得到準確表達虛擬人物發音動作的發音人臉視頻，提升發音人臉視頻觀感效果。

與所述實施例相應的，本公開提出一種圖像生成裝置。

請參見圖5，圖5為本公開實施例示出的一種圖像生成裝置的結構示意圖。

如圖5所示，所述裝置50可以包括：

接收與提取模組51，用於接收音頻數據和人臉圖像，提取所述音頻數據包括的音頻序列對應的文本特徵；所述文本特徵表徵對應音頻序列的文本內容；

臉部特徵映射模組52，用於基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作；

圖像生成模組53，根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。

在一些實施例中，所述臉部特徵映射模組52用於：

根據所述音頻序列，得到所述音頻序列對應的聲音特徵；其中，所述聲音特徵表徵對應音頻序列的音色、響度、音調中的至少一種特徵；

將所述音頻序列對應的文本特徵和聲音特徵進行融合，得到所述音頻序列對應的融合特徵；

利用臉部特徵映射網路，對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；所述臉部特徵映射模組52用於：

將所述音頻序列，以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的融合特徵作為輸入，利用臉部特徵映射網路，得到所述音頻序列對應的臉部特徵。

在一些實施例中，所述臉部特徵包括臉部區域的多個關鍵點的三維坐標；

所述圖像生成模組53用於：

根據所述人臉圖像確定投影矩陣；其中，所述投影矩陣表徵所述人臉圖像中的人臉關鍵點的坐標從三維到二維的映射關係；

通過所述投影矩陣，將所述音頻序列對應的所述多個關鍵點的三維坐標投影為二維坐標；

獲取將所述人臉圖像中目標臉部區域遮擋之後的遮擋圖像；

利用生成網路，根據所述遮擋圖像與所述音頻序列對應的多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；所述裝置50還包括：

平滑處理模組，用於基於所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列之後的至少一個音頻序列分別對應的多個關鍵點的二維坐標，對所述音頻序列對應的多個關鍵點的二維坐標進行平滑處理。

在一些實施例中，所述目標臉部區域包括以下中的至少一項：

嘴部；下顎；鼻子；眼睛；眉毛；耳朵。

視頻生成模組54，用於針對所述連續的多個音頻序列中的每個音頻序列，生成與該音頻序列分別對應的發音人臉圖像；

根據所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻。

在一些實施例中，所述視頻生成模組54用於：

獲取與所述人臉圖像對應的背景圖像；

將所述背景圖像與所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像融合以得到多個融合圖像；根據所述多個融合圖像生成與所述音頻數據對應的發音人臉視頻。

在一些實施例中，所述接收與提取模組51用於：

獲取所述音頻序列對應的音頻訊號特徵；

對所述音頻序列對應的音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵。

在一些實施例中，所述接收與提取模組51用於：

通過音頻訊號分析算法獲取所述音頻數據對應的音頻訊號特徵；

從所述音頻數據對應的音頻訊號特徵中截取出與所述音頻序列對應的音頻訊號特徵。

在一些實施例中，所述音頻數據包括連續的多個音頻序列；所述接收與提取模組51用於：

根據所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的音頻訊號特徵，生成輸入特徵；

利用文本特徵提取網路，對所述輸入特徵進行文本特徵提取，得到與所述音頻序列對應的文本特徵。

在一些實施例中，所述音頻序列對應的音頻訊號特徵，包括以下中的至少一項：

梅爾倒頻譜特徵；梅爾特徵；線性預測特徵；線性預測倒頻譜特徵；線譜頻率特徵；小波變換特徵。

本公開實施例示出的圖像生成裝置可以應用於電子設備上。相應地，本公開提供了一種電子設備，該設備可以包括：處理器；以及用於儲存處理器可執行指令的儲存器。其中，所述處理器被配置為調用所述儲存器中儲存的可執行指令，實現前述任一實施例示出的圖像生成方法。

請參見圖6，圖6為本公開實施例示出的一種電子設備的硬體結構示意圖。

如圖6所示，該電子設備可以包括用於執行指令的處理器，用於進行網路連接的網路介面，用於為處理器儲存運行數據的記憶體，以及用於儲存圖像生成裝置對應指令的非揮發性儲存器。

其中，所述裝置的實施例可以通過軟體實現，也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是通過其所在電子設備的處理器將非揮發性儲存器中對應的計算機程式指令讀取到記憶體中運行形成的。從硬體層面而言，除了圖6所示的處理器、記憶體、網路介面、以及非揮發性儲存器之外，實施例中裝置所在的電子設備通常根據該電子設備的實際功能，還可以包括其他硬體，對此不再贅述。

可以理解的是，為了提升處理速度，圖像生成裝置對應指令也可以直接儲存於記憶體中，在此不作限定。

本公開提出一種計算機可讀儲存媒體，所述儲存媒體儲存有計算機程式，所述計算機程式可以用於使處理器執行如前述任一實施例示出的圖像生成方法。

本領域技術人員應明白，本公開一個或多個實施例可提供為方法、系統或計算機程式產品。因此，本公開一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本公開一個或多個實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體（包括但不限於磁碟儲存器、光學儲存器等）上實施的計算機程式產品的形式。

本公開中記載的“和/或”表示至少具有兩者中的其中一個，例如，“A和/或B”包括三種方案：A、B、以及“A和B”。

本公開中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於數據處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

所述對本公開特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本公開中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的計算機軟體或韌體、包括本公開中公開的結構及其結構性等同物的計算機硬體、或者它們中的一個或多個的組合。本公開中描述的主題的實施例可以實現為一個或多個計算機程式，即編碼在有形非暫時性程式載體上以被數據處理裝置執行或控制數據處理裝置的操作的計算機程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由數據處理裝置執行。計算機儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或串行存取儲存器設備、或它們中的一個或多個的組合。

本公開中描述的處理及邏輯流程可以由執行一個或多個計算機程式的一個或多個可程式計算機執行，以通過根據輸入數據進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可程式話邏輯閘陣列）或ASIC（特殊應用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行計算機程式的計算機包括，例如通用和/或專用微處理器，或任何其他類型的中央處理系統。通常，中央處理系統將從唯讀記憶體和/或隨機存取記憶體接收指令和數據。計算機的基本組件包括用於實施或執行指令的中央處理系統以及用於儲存指令和數據的一個或多個儲存器設備。通常，計算機還將包括用於儲存數據的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者計算機將可操作地與此大容量儲存設備耦接以從其接收數據或向其傳送數據，抑或兩種情況兼而有之。然而，計算機不是必須具有這樣的設備。此外，計算機可以嵌入在另一設備中，例如移動電話、個人數位助理（PDA）、移動音頻或視頻播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用串行匯流排（USB）閃存驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存計算機程式指令和數據的計算機可讀媒體包括所有形式的非揮發性儲存器、媒介和儲存器設備，例如包括半導體儲存器設備（例如EPROM、EEPROM和閃存設備）、磁碟（例如內部硬碟或可移動碟）、磁光碟以及CD_ROM和DVD-ROM。處理器和儲存器可由專用邏輯電路補充或併入專用邏輯電路中。

雖然本公開包含許多具體實施細節，但是這些不應被解釋為限制任何公開的範圍或所要求保護的範圍，而是主要用於描述特定公開的具體實施例的特徵。本公開內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，所述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起整合在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附申請專利範圍的範圍以內。在某些情況下，申請專利範圍中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本公開一個或多個實施例的較佳實施例而已，並不用以限制本公開一個或多個實施例，凡在本公開一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本公開一個或多個實施例保護的範圍之內。

S102:接收音頻數據和人臉圖像，提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵音頻序列對應的文本內容 S104:基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作 S106:根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像 S1、S2:步驟 33:全連接層 311、312、321、322:節點 S41、S42、S43、S44、S45、S46:步驟 50:圖像生成裝置 51:接收與提取模組 52:臉部特徵映射模組 53:圖像生成模組 54:視頻生成模組

圖1為本公開實施例示出的一種圖像生成方法的方法流程圖。圖2為本公開實施例示出的一種文本特徵提取流程示意圖。圖3為本公開實施例示出的一種臉部特徵映射網路結構示意圖。圖4為本公開實施例示出的一種發音人臉視頻生成方法流程示意圖。圖5為本公開實施例示出的一種圖像生成裝置的結構示意圖。圖6為本公開實施例示出的一種電子設備的硬體結構示意圖。

S102:接收音頻數據和人臉圖像，提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵音頻序列對應的文本內容

S104:基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作

S106:根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像

Claims

一種圖像生成方法，包括：接收音頻數據和人臉圖像；提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵所述音頻序列對應的文本內容；基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作；根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。
如請求項1所述的方法，其中，所述基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，包括：根據所述音頻序列，得到所述音頻序列對應的聲音特徵；其中，所述聲音特徵表徵所述音頻序列對應的音色、響度、音調中的至少一種特徵；將所述音頻序列對應的文本特徵和聲音特徵進行融合，得到所述音頻序列對應的融合特徵；利用臉部特徵映射網路，對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵。
如請求項2所述的方法，其中，所述音頻數據包括連續的多個音頻序列；所述利用臉部特徵映射網路，對所述音頻序列對應的融合特徵進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵，包括：將所述音頻序列，以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的融合特徵作為輸入，利用所述臉部特徵映射網路，得到所述音頻序列對應的臉部特徵。
如請求項1-3任一項所述的方法，其中，所述音頻序列對應的臉部特徵包括目標臉部區域的多個關鍵點的三維坐標；所述根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像，包括：根據所述人臉圖像確定投影矩陣；其中，所述投影矩陣表徵所述人臉圖像中的人臉關鍵點的坐標從三維到二維的映射關係；通過所述投影矩陣，將所述音頻序列對應的所述多個關鍵點的三維坐標投影為二維坐標；獲取將所述人臉圖像中所述目標臉部區域遮擋之後的遮擋圖像；利用生成網路，根據所述遮擋圖像與所述音頻序列對應的所述多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像。
如請求項4所述的方法，其中，所述音頻數據包括連續的多個音頻序列；在利用生成網路，根據所述遮擋圖像與所述音頻序列對應的所述多個關鍵點的二維坐標，生成所述音頻序列對應的發音人臉圖像之前，所述方法還包括：基於所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的多個關鍵點的二維坐標，對所述音頻序列對應的所述多個關鍵點的二維坐標進行平滑處理。
如請求項1-5任一項所述的方法，其中，所述音頻數據包括連續的多個音頻序列；所述方法還包括：針對所述連續的多個音頻序列中的每個音頻序列，生成與該音頻序列對應的發音人臉圖像；根據所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻。
如請求項6所述的方法，其中，所述根據所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像，生成與所述音頻數據對應的發音人臉視頻，包括：獲取與所述人臉圖像對應的背景圖像；將所述背景圖像與所述連續的多個音頻序列中的每個音頻序列對應的發音人臉圖像融合以得到多個融合圖像；根據所述多個融合圖像生成與所述音頻數據對應的發音人臉視頻。
如請求項1-7任一項所述的方法，其中，所述提取所述音頻數據包括的音頻序列對應的文本特徵，包括：獲取所述音頻序列對應的音頻訊號特徵；對所述音頻序列對應的音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵。
如請求項8所述的方法，其中，所述音頻數據包括連續的多個音頻序列；所述對所述音頻序列對應的音頻訊號特徵進行文本特徵提取，得到所述音頻序列對應的文本特徵，包括：根據所述音頻序列以及所述多個音頻序列中在所述音頻序列之前的至少一個音頻序列和所述多個音頻序列中在所述音頻序列之後的至少一個音頻序列分別對應的音頻訊號特徵，生成輸入特徵；利用文本特徵提取網路，對所述輸入特徵進行文本特徵提取，得到與所述音頻序列對應的文本特徵。
一種圖像生成裝置，包括：接收與提取模組，用於接收音頻數據和人臉圖像，並且提取所述音頻數據包括的音頻序列對應的文本特徵；其中，所述文本特徵表徵所述音頻序列對應的文本內容；臉部特徵映射模組，用於基於所述音頻序列對應的文本特徵，進行臉部特徵映射，得到與所述音頻序列對應的臉部特徵；其中，所述臉部特徵表徵所述音頻序列對應的發音動作；圖像生成模組，根據所述音頻序列對應的臉部特徵以及所述人臉圖像，生成與所述音頻序列對應的發音人臉圖像。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存器；其中，所述處理器通過運行所述可執行指令以實現如請求項1-9任一項所述的圖像生成方法。
一種計算機可讀儲存媒體，其儲存有計算機程式，所述計算機程式用於使處理器執行如請求項1-9任一項所述的圖像生成方法。