TW202139052A

TW202139052A - 互動物件的驅動方法、裝置、設備以及儲存媒體

Info

Publication number: TW202139052A
Application number: TW109145880A
Authority: TW
Inventors: 吳文岩; 吳潛溢; 錢晨; 王宇欣
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-03-31
Filing date: 2020-12-24
Publication date: 2021-10-16
Also published as: CN111459454B; WO2021196646A1; CN113672194A; JP2022530726A; CN111459454A; KR20210124182A

Abstract

公開了一種互動物件的驅動方法、裝置、設備以及儲存媒體，所述方法包括：獲取語音段所包含的語音幀序列；獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數值；根據獲取的所述控制參數值控制所述互動物件的姿態。

Description

互動物件的驅動方法、裝置、設備以及儲存媒體

本公開涉及計算機技術領域，具體涉及一種互動物件的驅動方法、裝置、設備以及儲存媒體。

人機互動的方式大多基於按鍵、觸控、語音進行輸入，通過在顯示螢幕上呈現圖像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的。

本公開實施例提供一種互動物件的驅動方案。

根據本公開的一方面，提供一種互動物件的驅動方法，所述方法包括：獲取語音段所包含的語音幀序列；獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數；根據獲取的所述控制參數控制所述互動物件的姿態。

結合本公開提供的任一實施方式，所述方法還包括：根據所述語音段控制顯示所述互動物件的顯示設備輸出語音和/或顯示文本。

結合本公開提供的任一實施方式，所述互動物件的局部區域的控制參數包括所述局部區域的姿態控制向量；獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數，包括：獲取所述語音幀序列對應的第一聲學特徵序列；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵；獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。

結合本公開提供的任一實施方式，結合本公開提供的任一實施方式，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵，包括：以設定長度的時間視窗和設定步長，對所述第一聲學特徵序列進行滑動視窗，將所述時間視窗內的聲學特徵向量作為對應的所述至少一個語音幀的聲學特徵，並根據完成所述滑動視窗得到的多個所述聲學特徵，獲得第二聲學特徵序列。

結合本公開提供的任一實施方式，根據所述控制參數控制所述互動物件的姿態，包括：獲取與所述第二聲學特徵序列對應的姿態控制向量的序列；根據所述姿態控制向量的序列控制所述互動物件的姿態。

結合本公開提供的任一實施方式，獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量，包括：將所述聲學特徵輸入至預先訓練的循環神經網路，獲得與所述聲學特徵對應的所述互動物件的至少一個局部區域的所述姿態控制向量。

結合本公開提供的任一實施方式，所述循環神經網路通過聲學特徵樣本訓練得到；所述方法還包括：獲取聲學特徵樣本，具體包括：獲取一角色發出語音的視訊段，從所述視訊段中提取相應的的語音段；對所述視訊段進行採樣獲取多個包含所述角色的第一圖像幀；以及，對所述語音段進行採樣，獲得多個語音幀；獲取與所述第一圖像幀對應的所述語音幀的聲學特徵；將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀，獲取所述第二圖像幀對應的至少一個局部區域的姿態控制向量值；根據所述姿態控制向量值，對與所述第一圖像幀對應的所述聲學特徵進行標註，獲得所述聲學特徵樣本。

結合本公開提供的任一實施方式，所述方法還包括：根據所述聲學特徵樣本對初始循環神經網路進行訓練，在網路損失的變化滿足收斂條件後訓練得到所述循環神經網路，其中，所述網路損失包括所述循環神經網路預測得到的所述至少一個局部區域的所述姿態控制向量值與標註的所述姿態控制向量值之間的差異。

根據本公開的一方面，提供一種互動物件的驅動裝置，所述裝置包括：第一獲取單元，用於獲取語音段所包含的語音幀序列；第二獲取單元，用於獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數；驅動單元，用於根據獲取的所述控制參數控制所述互動物件的姿態。

根據本公開的一方面，提供一種電子設備，所述設備包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

根據本公開的一方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述計算機程式程式被處理器執行時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

本公開一個或多個實施例的互動物件的驅動方法、裝置、設備及計算機可讀儲存媒體，通過獲取語音段所包含的語音幀序列，並根據語音幀序列確定互動物件的至少一個局部區域的控制參數值，來控制所述互動物件的姿態，使得所述互動物件做出與所述語音段匹配的姿態，從而使目標物件產生與互動物件正在交流的感覺，提升了目標物件與互動物件的互動體驗。

這裡將詳細地對範例性實施例進行說明，其範例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數位表示相同或相似的要素。以下範例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附請求項中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

本公開至少一個實施例提供了一種互動物件的驅動方法，所述驅動方法可以由終端設備或伺服器等電子設備執行，所述終端設備可以是固定終端或移動終端，例如手機、平板電腦、遊戲機、台式機、廣告機、一體機、車載終端等等，所述伺服器包括本地伺服器或雲端伺服器等，所述方法還可以通過處理器調用記憶體中儲存的計算機可讀指令的方式來實現。

在本公開實施例中，互動物件可以是任意一種能夠與目標物件進行互動的虛擬形象。在一實施例中，互動物件可以是虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象。互動物件的呈現形式即可以是2D形式也可以是3D形式，本公開對此並不限定。所述目標物件可以是使用者，也可以是機器人，還可以是其他智能設備。所述互動物件和所述目標物件之間的互動方式可以是主動互動方式，也可以是被動互動方式。一範例中，目標物件可以通過做出手勢或者肢體動作來發出需求，通過主動互動的方式來觸發互動物件與其互動。另一範例中，互動物件可以通過主動打招呼、提示目標物件做出動作等方式，使得目標物件採用被動方式與互動物件進行互動。

所述互動物件可以通過終端設備進行顯示，所述終端設備可以是電視機、帶有顯示功能的一體機、投影機、虛擬實境（Virtual Reality，VR）設備、擴增實境（Augmented Reality，AR）設備等，本公開並不限定終端設備的具體形式。

圖1繪示本公開至少一個實施例提出的顯示設備。如圖1所示，該顯示設備具有透明顯示螢幕，在透明顯示螢幕上可以顯示立體畫面，以呈現出具有立體效果的虛擬場景以及互動物件。例如圖1中透明顯示螢幕顯示的互動物件包括虛擬卡通人物。在一些實施例中，本公開中所述的終端設備也可以為上述具有透明顯示螢幕的顯示設備，顯示設備中配置有記憶體和處理器，記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開提供的互動物件的驅動方法，以驅動透明顯示螢幕中顯示的互動物件對目標物件進行交流或回應。

在一些實施例中，響應於用於驅動互動物件輸出語音的聲音驅動數據，互動物件可以對目標物件發出指定語音。終端設備可以根據終端設備周邊目標物件的動作、表情、身份、偏好等，生成聲音驅動數據，以驅動互動物件通過發出指定語音進行交流或回應，從而為目標物件提供擬人化的服務。需要說明的是，聲音驅動數據也可以通過其他方式生成，例如，由伺服器生成併發送給終端設備。

在互動物件與目標物件的互動過程中，根據該聲音驅動數據驅動互動物件發出指定語音時，可能無法驅動所述互動物件做出與該指定語音同步的面部動作，使得互動物件在發出語音時呆板、不自然，影響了目標物件與互動物件的互動體驗。基於此，本公開至少一個實施例提出一種互動物件的驅動方法，以提升目標物件與互動物件進行互動的體驗。

圖2繪示根據本公開至少一個實施例的互動物件的驅動方法的流程圖，如圖2所示，所述方法包括步驟201~步驟203。

在步驟201中，獲取語音段所包含的語音幀序列。

所述語音段可以是所述互動物件的聲音驅動數據所對應的語音段，所述聲音驅動數據可以包括音訊數據（語音數據）、文本等等。所述聲音驅動數據可以是伺服器或終端設備根據與互動物件進行互動的目標物件的動作、表情、身份、偏好等生成的驅動數據，也可以是終端設備從內部記憶體調用的聲音驅動數據。本公開對於該聲音驅動數據的獲取方式不進行限制。

在本公開實施例中，可以通過對所述語音段進行分頻處理，得到所述語音段所包含的語音幀序列。對所述語音段進行分頻處理，也即將所述語音段分割為多個語音幀，將各個語音幀按照時間順序排列即形成了語音幀序列。進行分頻處理所得到的語音幀所包含的採樣點數（時長）、幀移（幀與幀之間的重疊程度）可以根據對於互動物件的驅動需求來確定，本公開對此不進行限制。

圖3繪示了本公開至少一個實施例提出的互動物件的驅動方法的示意圖。對於語音段訊號進行分段/分頻處理，所得到的語音幀序列如圖3所示。

在步驟202中，獲取與所述語音幀序列對應的、互動物件的至少一個局部區域的控制參數值。

所述局部區域是對互動物件的整體（包括面部和/或身體）進行劃分而得到的。面部的一個或多個局部區域的控制可以對應於互動物件的一系列面部表情或動作，例如眼部區域的控制可以對應於互動物件睜眼、閉眼、眨眼、視角變換等面部動作；又例如嘴部區域的控制可以對應於互動物件閉嘴、不同程度的張嘴等面部動作。而身體的一個或多個局部區域的控制可以對應於互動物件的一系列肢體動作，例如腿部區域的控制可以對應於互動物件走路、跳躍、踢腿等動作。

所述互動物件的局部區域的控制參數，包括所述局部區域的姿態控制向量。每個局部區域的姿態控制向量用於驅動所述互動物件的所述局部區域進行動作。不同的姿態控制向量值對應於不同的動作或者動作幅度。例如，對於嘴部區域的姿態控制向量，其一組姿態控制向量值可以使所述互動物件的嘴部微張，而另一組姿態控制向量值可以使所述互動物件的嘴部大張。通過以不同的姿態控制向量值來驅動所述互動物件，可以使相應的局部區域做出不同動作或者不同幅度的動作。

局部區域可以根據需要控制的互動物件的動作進行選擇，例如在需要控制所述互動物件面部以及肢體同時進行動作時，可以獲取全部局部區域的姿態控制向量；在需要控制所述互動物件的表情時，則可以獲取所述面部所對應的局部區域的姿態控制向量。

在本公開實施例中，可以根據所述語音幀序列的聲學特徵，確定互動物件的至少一個局部區域的控制參數值，也可以根據所述語音幀序列的其他特徵來確定控制參數值。

在本公開實施例中，可以預先建立語音幀序列的某種特徵與互動物件的控制參數值的對應關係，在獲得了所述語音幀序列的情況下，即可獲得對應的控制參數值。獲取與所述語音幀序列匹配的所述互動物件的控制參數值的具體方法容後詳述。

在步驟203中，根據獲取的所述控制參數值控制所述互動物件的姿態。

其中，所述控制參數值，例如姿態控制向量值，是與所述語音段所包含的語音幀序列相匹配的。例如，在顯示所述互動物件的顯示設備正在輸出所述語音段，或者正在顯示與所述語音段相應的文本時，互動物件所做出的姿態與所輸出的語音和/或所顯示的文本是同步的，從而給目標物件一種所述互動物件正在說話的感覺。

在本公開實施例中，通過獲取語音段所包含的語音幀序列，並根據語音幀序列確定互動物件的至少一個局部區域的控制參數值，來控制所述互動物件的姿態，使得所述互動物件做出與所述語音段匹配的姿態，從而使目標物件產生與互動物件正在交流的感覺，提升了目標物件的互動體驗。

在一些實施例中，所述方法應用於伺服器，包括本地伺服器或雲端伺服器等，所述伺服器對於語音段進行處理，生成所述互動物件的控制參數值，並根據所述控制參數值利用三維渲染引擎進行渲染，得到所述互動物件的動畫。所述伺服器可以將所述動畫發送至終端進行顯示來對目標物件進行交流或回應，還可以將所述動畫發送至雲端，以使終端能夠從雲端獲取所述動畫來對目標物件進行交流或回應。在伺服器生成所述互動物件的控制參數值後，還可以將所述控制參數值發送至終端，以使終端完成渲染、生成動畫、進行顯示的過程。

在一些實施例中，所述方法應用於終端，所述終端對於語音段進行處理，生成所述互動物件的控制參數值，並根據所述控制參數值利用三維渲染引擎進行渲染，得到所述互動物件的動畫，所述終端可以顯示所述動畫以對目標物件進行交流或回應。

在一些實施例中，可以根據所述語音段控制顯示所述互動物件的顯示設備輸出語音和/或顯示文本。並且可以在語音輸出和/或顯示文本的同時，根據所述控制參數值控制所述顯示設備顯示的所述互動物件的姿態。

在本公開實施例中，由於所述控制參數值與所述語音段的語音幀序列相匹配，因此根據所述語音段輸出的語音和/或文本，與根據所述控制參數值控制互動物件的姿態是同步進行的情況下，互動物件所做出的姿態與所輸出的語音和/或所顯示的文本是同步的，給目標物件以所述互動物件正在說話的感覺。

在一些實施例中，在所述互動物件的至少一個局部區域的控制參數包括姿態控制向量的情況下，可以通過以下方式獲得姿態控制向量。

首先，獲取所述語音幀序列對應的聲學特徵序列。此處，為了與後續提到的聲學特徵序列進行區分，將所述語音幀序列對應的聲學特徵序列稱為第一聲學特徵序列。

在本公開實施例中，聲學特徵可以是與語音情感相關的特徵，例如基頻特徵、共峰特徵、梅爾頻率倒譜系數（Mel Frequency Cepstral Cofficient，MFCC）等等。

所述第一聲學特徵序列是對整體的語音幀序列進行處理所得到的，以MFCC特徵為例，可以通過對所述語音幀序列中的各個語音幀進行加窗、快速傅裡葉變換、濾波、對數處理、離散余弦處理，得到各個語音幀對應的MFCC係數。

所述第一聲學特徵序列是針對整體的語音幀序列進行處理所得到的，體現了語音段的整體聲學特徵。

在本公開實施例中，所述第一聲學特徵序列包含與所述語音幀序列中的每個語音幀對應的聲學特徵向量。以MFCC為例，所述第一聲學特徵序列包含了每個語音幀的MFCC係數。根據所述語音幀序列所獲得的第一聲學特徵序列如圖3所示。

接下來，根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵。

在所述第一聲學特徵序列包括了所述語音幀序列中的每個語音幀對應的聲學特徵向量的情況下，可以將所述至少一個語音幀對應的相同數目的特徵向量作為所述語音幀的聲學特徵。其中，上述相同數目的特徵向量可以形成一個特徵矩陣，該特徵矩陣即為所述至少一個語音幀對應的聲學特徵。

以圖3為例，所述第一聲學特徵序列中的N個特徵向量形成了所對應的N個語音幀的聲學特徵；其中，N為正整數。所述第一聲學特徵序列可以包括多個聲學特徵，各個所述聲學特徵所對應的語音幀之間可以是部分重疊的。

最後，獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。

根據所獲得的至少一個語音幀對應的聲學特徵，可以獲取至少一個局部區域的姿態控制向量。局部區域可以根據需要控制的互動物件的動作進行選擇，例如在需要控制所述互動物件面部以及肢體同時進行動作時，可以獲取全部局部區域的姿態控制向量；在需要控制所述互動物件的表情時，則可以獲取所述面部所對應的局部區域的姿態控制向量。

在播放語音段的同時，根據通過所述第一聲學特徵序列所獲得的各個聲學特徵對應的姿態控制向量驅動所述互動物件做出動作，可以實現終端設備在輸出聲音的同時，互動物件能夠做出與所輸出的聲音相配合的動作，該動作包括面部動作、表情以及肢體動作等，從而使目標物件產生該互動物件正在說話的感覺。並且由於所述姿態控制向量是與輸出聲音的聲學特徵相關的，根據所述姿態控制向量進行驅動能夠使得互動物件的表情和肢體動作具有了情感因素，從而使得互動物件的說話過程更加自然、生動，從而提高了目標物件與所述互動物件的互動體驗。

在一些實施例中，可以透過在所述第一聲學特徵序列上進行滑動視窗的方式獲取所述至少一個語音幀對應的聲學特徵。

透過以設定長度的時間視窗和設定步長，對所述第一聲學特徵序列進行滑動視窗，將所述時間視窗內的聲學特徵向量作為對應的相同數目語音幀的聲學特徵，從而獲得這些語音幀共同對應的聲學特徵。在完成滑動視窗後，根據得到的多個聲學特徵，則可以獲得第二聲學特徵序列。

以圖3所示的互動物件的驅動方法為例，所述語音幀序列每秒包括100個語音幀，所述時間視窗的長度為1s，步長為0.04s。由於所述第一聲學特徵序列中的每個特徵向量是與語音幀對應的，相應地，所述第一聲學特徵序列每秒同樣包括100個特徵向量。在所述第一聲學特徵序列上進行滑動視窗過程中，每次獲得所述時間視窗內的100個特徵向量，作為對應的100個語音幀的聲學特徵。通過在所述第一聲學特徵序列上以0.04s的步長移動所述時間視窗，分別獲得第1~100語音幀對應的聲學特徵1、第4~104語音幀所對應的聲學特徵2，以此類推，在遍歷第一聲學特徵後，得到聲學特徵1、聲學特徵2、…、聲學特徵M，從而獲得第二聲學特徵序列，其中，M為正整數，其數值根據語音幀序的幀數（第一聲學特徵序列中特徵向量的數目）、時間視窗的長度以及步長確定。

根據聲學特徵1、聲學特徵2、…、聲學特徵M，分別可以獲得相應的姿態控制向量1、姿態控制向量2、…、姿態控制向量M，從而獲得姿態控制向量的序列。

如圖3所示，所述姿態控制向量的序列與所述第二聲學特徵序列在時間上是對齊的，所述第二聲學特徵序列中的聲學特徵1、聲學特徵2、…、聲學特徵M，分別是根據所述第一聲學特徵序列中的N個特徵向量獲得的，因此，在播放所述語音幀的同時，可以根據所述姿態控制向量的序列驅動所述互動物件做出動作。

假設在第一個時間視窗的設定時刻開始輸出聲學特徵，可以將在所述設定時刻之前的姿態控制向量設置為默認值，也即在剛開始播放語音幀序列時，使所述互動物件做出默認的動作，在所述設定時刻之後開始利用根據第一聲學特徵序列所得到的姿態控制向量的序列驅動所述互動物件做出動作。

以圖3為例，在t0時刻開始輸出聲學特徵1，並以步長對應的時間0.04s為間隔輸出聲學特徵，在t1時刻開始輸出聲學特徵2，t2時刻開始輸出聲學特徵3，直至在t（M-1）時刻輸出聲學特徵M。對應地，在ti~t（i+1）時間段內對應的是特徵向量（i+1），其中，i為小於（M-1）的整數，而在t0時刻之前，姿態控制向量為默認姿態控制向量。

在本公開實施例中，通過在播放所述語音段的同時，根據所述姿態控制向量的序列驅動所述互動物件做出動作，從而使互動物件的動作與所輸出的聲音同步，給目標物件以所述互動物件正在說話的感覺，提升了目標物件與互動物件的互動體驗。

所述時間視窗的長度，與所述聲學特徵所包含的資訊量相關。時間視窗的長度越大，所包含的資訊量越多，驅動所述互動物件所做出的動作與聲音的關聯性越強。時間視窗滑動的步長與獲取姿態控制向量的時間間隔（頻率）相關，也即與驅動互動物件做出動作的頻率相關。可以根據實際的互動場景來設置所述時間視窗的長度以及步長，以使互動物件做出的表情和動作與聲音的關聯性更強，並且更加生動、自然。

在一些實施例中，所述聲學特徵包括L個維度的梅爾頻率倒譜系數MFCC，其中，L為正整數。MFCC表示語音訊號的能量在不同頻率範圍的分佈，可以通過將所述語音幀序列中的多個語音幀數據轉換至頻域，利用包括L個子帶的梅爾濾波器，獲得L個維度的MFCC。通過根據語音段的MFCC來獲取姿態控制向量，以根據所述姿態控制向量驅動所述互動物件進行面部動作和肢體動作，使得互動物件的表情和肢體動作具有了情感因素，使得互動物件的說話過程更加自然、生動，從而提高了目標物件的互動體驗。

在一些實施例中，可以通過將所述聲學特徵輸入至預先訓練的循環神經網路，獲取與所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。由於所述循環神經網路是一種時間遞歸神經網路，其可以學習所輸入的聲學特徵的歷史資訊，根據聲學特徵序列輸出所述至少一個局部區域的姿態控制向量。其中，所述聲學特徵序列包括第一聲學特徵序列和第二聲學特徵序列。

在本公開實施例中，利用預先訓練的循環神經網路獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量，將聲學特徵的歷史特徵資訊和當前特徵資訊進行融合，從而使得歷史姿態控制向量對當前姿態控制向量的變化產生影響，使得互動人物的表情變化和肢體動作更加平緩、自然。

在一些實施例中，可以通過以下方式對所述循環神經網路進行訓練。

首先，獲取聲學特徵樣本，所述聲學特徵樣本標註有真實值，所述真實值為所述互動物件的至少一個局部區域的姿態控制向量值。

在獲得了聲學特徵樣本後，根據所述聲學特徵樣本對初始循環神經網路進行訓練，在網路損失的變化滿足收斂條件後訓練得到所述循環神經網路，其中，所述網路損失包括所述循環神經網路預測得到的所述至少一個局部區域的姿態控制向量值與所述真實值之間的差異。

在一些實施例中，可以通過以下方法獲取聲學特徵樣本。

首先，獲取一角色發出語音的視訊段，並從所述視訊段中提取相應的語音段。例如，可以獲取一真實人物正在說話的視訊段。

接下來，根據第一採樣週期對所述視訊段進行採樣獲取多個包含所述角色的第一圖像幀；根據第二採樣週期對所述語音段進行採樣，獲得多個語音幀。

其中，所述第二採樣週期小於所述第一採樣週期，也即對語音段進行採樣的頻率高於對視訊段採樣的頻率，以使一個第一圖像幀可以對應於至少一個語音幀的聲學特徵。

之後，獲取與所述第一圖像幀對應的至少一個語音幀對應的聲學特徵。需要注意的是，在訓練過程中對應於一個第一圖像幀的語音幀的數目，與前述驅動過程中獲取聲學特徵所對應的語音幀的數目是相同的，並且在訓練過程中獲取聲學特徵的方法與前述驅動過程中也是相同的。

接著，將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀，獲取所述第二圖像幀對應的至少一個局部區域的姿態控制向量值。其中，該姿態控制向量值可以包括所有局部區域的姿態控制向量值，也可以包括其中部分的局部區域的姿態控制向量值。

以所述第一圖像幀為包含真實人物的圖像幀為例，可以將該真實人物的圖像幀轉換為包含互動物件所表示的形象的第二圖像幀，並且所述真實人物的各個局部區域的姿態控制向量與所述互動物件的各個局部區域的姿態控制向量是對應的，從而可以獲取第二圖像幀中互動物件的各個局部區域的姿態控制向量。

最後，根據所述姿態控制向量值，對與所述第一圖像幀對應的聲學特徵進行標註，獲得聲學特徵樣本。

在本公開實施例中，通過將一角色的視訊段，拆分為對應的多個第一圖像幀和多個語音幀，並通過將包含真實人物的第一圖像幀轉化為包含互動物件的第二圖像幀來獲取至少一個語音幀的聲學特徵對應的姿態控制向量，使得聲學特徵與姿態控制向量的對應性較好，從而獲得高質量的聲學特徵樣本，使得互動物件的動作更接近於對應角色的真實動作。

圖4繪示根據本公開至少一個實施例的互動物件的驅動裝置的結構示意圖，如圖4所示，該裝置可以包括：第一獲取單元401，用於獲取語音段所包含的語音幀序列；第二獲取單元402，用於獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數；驅動單元403，用於根據獲取的所述控制參數控制所述互動物件的姿態。

在一些實施例中，所述裝置還包括輸出單元，用於根據所述語音段控制顯示所述互動物件的顯示設備輸出語音和/或顯示文本。

在一些實施例中，所述互動物件的局部區域的控制參數包括所述局部區域的姿態控制向量，所述第二獲取單元具體用於：獲取所述語音幀序列對應的第一聲學特徵序列；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵；獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。

在一些實施例中，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量，在根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵時，所述第二獲取單元具體用於：獲取與所述第二聲學特徵序列對應的姿態控制向量的序列；根據所述姿態控制向量的序列控制所述互動物件的姿態。

在一些實施例中，所述驅動單元具體用於：獲取與所述第二聲學特徵序列對應的姿態控制向量的序列；根據所述姿態控制向量的序列控制所述互動物件的姿態。

在一些實施例中，在獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量時，所述第二獲取單元具體用於：將所述聲學特徵輸入至預先訓練的循環神經網路，獲得與所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。

在一些實施例中，所述循環神經網路通過聲學特徵樣本訓練得到；所述裝置還包括樣本獲取單元，用於：從獲取的視訊段中提取所述角色發出語音的語音段；對所述視訊段進行採樣獲取多個包含所述角色的第一圖像幀；以及，對所述語音段進行採樣，獲得多個語音幀；獲取與所述第一圖像幀對應的所述語音幀的聲學特徵；將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀，獲取所述第二圖像幀對應的至少一個局部區域的姿態控制向量值；根據所述姿態控制向量值，對與所述第一圖像幀對應的聲學特徵進行標註，獲得聲學特徵樣本。

在一些實施例中，所述裝置還包括訓練單元，用於根據所述聲學特徵樣本對初始循環神經網路進行訓練，在網路損失的變化滿足收斂條件後訓練得到所述循環神經網路，其中，所述網路損失包括所述初始循環神經網路預測得到的所述至少一個局部區域的姿態控制向量值與標註的姿態控制向量值之間的差異。

本說明書至少一個實施例還提供了一種電子設備，如圖5所示，所述設備包括記憶體、處理器，記憶體用於儲存可在處理器上運行的計算機指令，處理器用於在執行所述計算機指令時實現本公開任一實施例所述的互動物件的驅動方法。

本說明書至少一個實施例還提供了一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開任一實施例所述的互動物件的驅動方法。

本領域技術人員應明白，本說明書一個或多個實施例可提供為方法、系統或計算機程式產品。因此，本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本說明書一個或多個實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的計算機程式產品的形式。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於數據處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本說明書特定實施例進行了描述。其它實施例在所附請求項的範圍內。在一些情況下，在請求項中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求繪示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本說明書中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的計算機軟體或韌體、包括本說明書中公開的結構及其結構性等同物的計算機硬體、或者它們中的一個或多個的組合。本說明書中描述的主題的實施例可以實現為一個或多個計算機程式，即編碼在有形非暫時性程式載體上以被數據處理裝置執行或控制數據處理裝置的操作的計算機程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由數據處理裝置執行。計算機儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。

本說明書中描述的處理及邏輯流程可以由執行一個或多個計算機程式的一個或多個可編程計算機執行，以通過根據輸入數據進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可編程門陣列）或ASIC（專用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行計算機程式的計算機包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從只讀記憶體和/或隨機存取記憶體接收指令和數據。計算機的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和數據的一個或多個記憶體設備。通常，計算機還將包括用於儲存數據的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者計算機將可操作地與此大容量儲存設備耦接以從其接收數據或向其傳送數據，抑或兩種情況兼而有之。然而，計算機不是必須具有這樣的設備。此外，計算機可以嵌入在另一設備中，例如移動電話、個人數位助理（PDA）、移動音訊或視訊播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存計算機程式指令和數據的計算機可讀媒體包括所有形式的非揮發性記憶體、媒體和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或可移動碟）、磁光碟以及CD ROM和DVD-ROM。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。

雖然本說明書包含許多具體實施細節，但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍，而是主要用於描述特定發明的具體實施例的特徵。本說明書內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變形。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起積體在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附請求項的範圍以內。在某些情況下，請求項中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本說明書一個或多個實施例的較佳實施例而已，並不用以限制本說明書一個或多個實施例，凡在本說明書一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書一個或多個實施例保護的範圍之內。

201:獲取語音段所包含的語音幀序列的步驟 202:獲取與所述語音幀序列對應的、互動物件的至少一個局部區域的控制參數值的步驟 203:根據獲取的所述控制參數值控制所述互動物件的姿態的步驟 401:第一獲取單元 402:第二獲取單元 403:驅動單元

圖1是本公開至少一個實施例提出的互動物件的驅動方法中顯示設備的示意圖；圖2是本公開至少一個實施例提出的互動物件的驅動方法的流程圖；圖3是本公開至少一個實施例提出的對語音幀序列進行特徵編碼的過程示意圖；圖4是本公開至少一個實施例提出的互動物件的驅動裝置的結構示意圖；圖5是本公開至少一個實施例提出的電子設備的結構示意圖。

201:獲取語音段所包含的語音幀序列的步驟

202:獲取與所述語音幀序列對應的、互動物件的至少一個局部區域的控制參數值的步驟

203:根據獲取的所述控制參數值控制所述互動物件的姿態的步驟

Claims

一種互動物件的驅動方法，包括：獲取語音段所包含的語音幀序列；獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數值；根據獲取的所述控制參數值控制所述互動物件的姿態。
如請求項1所述的驅動方法，還包括：根據所述語音段控制顯示所述互動物件的顯示設備輸出語音和/或顯示文本。
如請求項1或2所述的驅動方法，其中，所述互動物件的局部區域的控制參數包括所述局部區域的姿態控制向量；獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數，包括：獲取所述語音幀序列對應的第一聲學特徵序列；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵；獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量。
如請求項3所述的驅動方法，其中，所述第一聲學特徵序列包括與所述語音幀序列中的每個語音幀對應的聲學特徵向量；根據所述第一聲學特徵序列，獲取至少一個語音幀對應的聲學特徵，包括：以設定長度的時間視窗和設定步長，對所述第一聲學特徵序列進行滑動視窗，將所述時間視窗內的聲學特徵向量作為對應的所述至少一個語音幀的聲學特徵，並根據完成所述滑動視窗得到的多個所述聲學特徵，獲得第二聲學特徵序列；根據獲取的所述控制參數控制所述互動物件的姿態，包括：獲取與所述第二聲學特徵序列對應的姿態控制向量的序列；根據所述姿態控制向量的序列控制所述互動物件的姿態。
如請求項3所述的驅動方法，其中，獲取所述聲學特徵對應的所述互動物件的至少一個局部區域的姿態控制向量，包括：將所述聲學特徵輸入至預先訓練的循環神經網路，獲得與所述聲學特徵對應的所述互動物件的至少一個局部區域的所述姿態控制向量。
如請求項5所述的驅動方法，其中，所述循環神經網路通過聲學特徵樣本訓練得到；根據以下方式獲得所述聲學特徵樣本：獲取一角色發出語音的視訊段，從所述視訊段中提取所述角色發出語音的語音段；對所述視訊段進行採樣獲取多個包含所述角色的第一圖像幀；以及，對所述語音段進行採樣，獲得多個語音幀；獲取與所述第一圖像幀對應的所述語音幀的聲學特徵；將所述第一圖像幀轉化為包含所述互動物件的第二圖像幀，獲取所述第二圖像幀對應的至少一個局部區域的姿態控制向量值；根據所述姿態控制向量值，對與所述第一圖像幀對應的所述聲學特徵進行標註，獲得所述聲學特徵樣本。
如請求項6所述的驅動方法，還包括：根據所述聲學特徵樣本對初始循環神經網路進行訓練，在網路損失的變化滿足收斂條件後訓練得到所述循環神經網路，其中，所述網路損失包括所述循環神經網路預測得到的所述至少一個局部區域的所述姿態控制向量值與標註的所述姿態控制向量值之間的差異。
一種互動物件的驅動裝置，包括：第一獲取單元，用於獲取語音段所包含的語音幀序列；第二獲取單元，用於獲取與所述語音幀序列對應的互動物件的至少一個局部區域的控制參數；驅動單元，用於根據獲取的所述控制參數控制所述互動物件的姿態。
一種電子設備，包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現請求項1-7中任一項所述的驅動方法。
一種計算機可讀儲存媒體，其上儲存有計算機程式，其中，所述計算機程式被處理器執行時實現請求項1-7中任一項所述的驅動方法。