TWI759039B

TWI759039B - 互動物件的驅動方法、裝置、設備以及儲存媒體

Info

Publication number: TWI759039B
Application number: TW109146471A
Authority: TW
Inventors: 孫林
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-03-31
Filing date: 2020-12-28
Publication date: 2022-03-21
Also published as: CN111459451A; KR20210124306A; WO2021196647A1; JP2022531056A; TW202138987A; SG11202109201XA

Abstract

一種互動物件的驅動方法、裝置、設備以及儲存媒體，所述方法包括：獲取顯示設備顯示的互動物件的聲音驅動數據；基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列；根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。

Description

互動物件的驅動方法、裝置、設備以及儲存媒體

本公開涉及計算機技術領域，具體涉及一種互動物件的驅動方法、裝置、設備以及儲存媒體。

人機互動的方式大多為：使用者基於按鍵、觸控、語音進行輸入，設備通過在顯示螢幕上呈現圖像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的，使用者與虛擬人物的互動還停留表面上。

本公開實施例提供一種互動物件的驅動方案。

根據本公開的一方面，提供一種互動物件的驅動方法，所述方法包括：獲取顯示設備顯示的互動物件的聲音驅動數據；基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列；根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述方法還包括：根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，和/或，根據所述聲音驅動數據對應的文本資訊顯示文本。

結合本公開提供的任一實施方式，所述根據所獲得的控制參數序列控制所述互動物件執行所述設定動作，包括：確定所述目標數據對應的語音資訊；獲取輸出所述語音資訊的時間資訊；根據所述時間資訊確定所述目標數據對應的設定動作的執行時間；根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述控制參數序列包括一組或多組控制參數所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：以設定速率調用所述控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。

結合本公開提供的任一實施方式，所述控制參數序列包括一組或多組控制參數，所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：根據所述執行時間，確定所述控制參數序列的調用速率；以所述調用速率調用所述控制參數序列中的每組控制參數，使所述互動物件輸出與每組控制參數對應的姿態。

結合本公開提供的任一實施方式，所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：在輸出所述目標數據對應的語音資訊之前的設定時間，開始調用所述目標數據對應的控制參數序列，使所述互動物件開始執行所述設定動作。

結合本公開提供的任一實施方式，所述聲音驅動數據包含多個目標數據，所述根據所獲得的控制參數序列控制所述互動物件執行所述設定動作，包括：響應於檢測到所述多個目標數據中相鄰目標數據存在重疊，根據基於語序排列在前的目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述聲音驅動數據包含多個目標數據，所述根據所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：響應於檢測到所述多個目標數據中相鄰目標數據對應的控制參數序列在執行時間上重疊，對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合。

結合本公開提供的任一實施方式，所述基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，包括：響應於所述聲音驅動數據包括音訊數據，對所述音訊數據進行語音識別，根據所識別出的語音內容，確定所述音訊數據所包含的目標數據；響應於所述聲音驅動數據包括文本數據，根據所述文本數據所包含的文本內容，確定所述文本數據所包含的目標數據。

結合本公開提供的任一實施方式，所述聲音驅動數據包括音節數據，所述基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，包括：確定所述聲音驅動數據所包含的音節數據是否與目標音節數據相匹配，其中，所述目標音節數據屬於預先劃分好的一種音節類型，一種音節類型對應於一種設定嘴型，一種設定嘴型設置有對應的控制參數序列；響應於所述音節數據與所述目標音節數據相匹配，基於匹配的所述目標音節數據所屬的音節類型，獲取與匹配的所述目標音節數據對應的設定嘴型的控制參數序列。

結合本公開提供的任一實施方式，所述方法還包括：獲取所述聲音驅動數據中目標數據以外的第一數據；獲取所述第一數據的聲學特徵；獲取與所述聲學特徵匹配的姿態控制參數；根據所述姿態控制參數控制所述互動物件的姿態。

根據本公開的一方面，提出一種互動物件的驅動裝置，所述裝置包括：第一獲取單元，用於獲取顯示設備顯示的互動物件的聲音驅動數據；第二獲取單元，用於基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列；驅動單元，用於根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述裝置還包括輸出單元，用於根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，和/或，根據所述聲音驅動數據對應的文本資訊顯示文本。

結合本公開提供的任一實施方式，所述驅動單元具體用於：確定所述目標數據對應的語音資訊；獲取輸出所述語音資訊的時間資訊；根據所述時間資訊確定所述目標數據對應的設定動作的執行時間；根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：以設定速率調用所述控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。

結合本公開提供的任一實施方式，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：根據所述執行時間，確定所述控制參數序列的調用速率；以所述調用速率調用所述控制參數序列中的每組控制參數，使所述互動物件輸出與每組控制參數對應的姿態。

結合本公開提供的任一實施方式，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：在輸出所述目標數據對應的語音資訊之前的設定時間，開始調用所述目標數據對應的控制參數序列，使所述互動物件開始執行所述設定動作。

結合本公開提供的任一實施方式，所述聲音驅動數據包含多個目標數據，所述驅動單元具體用於響應於檢測到所述多個目標數據中相鄰目標數據存在重疊，根據基於語序排列在前的目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

結合本公開提供的任一實施方式，所述聲音驅動數據包含多個目標數據，所述驅動單元具體用於：響應於檢測到所述多個目標數據中相鄰目標數據對應的控制參數序列在執行時間上重疊，對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合。

結合本公開提供的任一實施方式，所述第二獲取單元具體用於：響應於所述聲音驅動數據包括音訊數據，對所述音訊數據進行語音識別，根據所述音訊數據所包含的語音內容，確定所述音訊數據所包含的目標數據；響應於所述聲音驅動數據包括文本數據，根據所述文本數據所包含的文本內容，確定所述文本數據所包含的目標數據。

結合本公開提供的任一實施方式，所述聲音驅動數據包括音節數據，所述第二獲取單元具體用於：確定所述聲音驅動數據所包含的音節數據是否與目標音節數據相匹配，其中，所述目標音節數據屬於預先劃分好的一種音節類型，一種音節類型對應於一種設定嘴型，一種設定嘴型設置有對應的控制參數序列；響應於所述音節數據與所述目標音節數據相匹配，基於匹配的所述目標音節數據所屬的音節類型，獲取與匹配的所述目標音節數據對應的設定嘴型的控制參數序列。

結合本公開提供的任一實施方式，所述裝置還包括姿態控制單元，用於：獲取所述聲音驅動數據中目標數據以外的第一數據；獲取所述第一數據的聲學特徵；獲取與所述第一數據的聲學特徵匹配的姿態控制參數；根據所述姿態控制參數控制所述互動物件的姿態。

根據本公開的一方面，提供一種電子設備，所述設備包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

根據本公開的一方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開提供的任一實施方式所述的互動物件的驅動方法。

本公開一個或多個實施例的互動物件的驅動方法、裝置、設備及計算機可讀儲存媒體，根據顯示設備顯示的互動物件的聲音驅動數據中包含的至少一個目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數，以控制所述顯示設備顯示的互動物件的動作，使得互動物件可以做出聲音驅動數據中所包含的目標數據對應的動作，從而使互動物件說話的狀態自然生動，提升了目標物件的互動體驗。

這裡將詳細地對範例性實施例進行說明，其範例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數位表示相同或相似的要素。以下範例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附請求項中所述的、本公開的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

本公開至少一個實施例提供了一種互動物件的驅動方法，所述驅動方法可以由終端設備或伺服器等電子設備執行，所述終端設備可以是固定終端或移動終端，例如手機、平板電腦、遊戲機、台式機、廣告機、一體機、車載終端等等，所述伺服器包括本地伺服器或雲端伺服器等，所述方法還可以通過處理器調用記憶體中儲存的計算機可讀指令的方式來實現。

在本公開實施例中，互動物件可以是任意一種能夠與目標物件進行互動的互動物件，其可以是虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象，虛擬形象的展現形式即可以是2D形式也可以是3D形式，本公開對此並不限定。所述目標物件可以是使用者，也可以是機器人，還可以是其他智能設備。所述互動物件和所述目標物件之間的互動方式可以是主動互動方式，也可以是被動互動方式。一範例中，目標物件可以通過做出手勢或者肢體動作來發出需求，通過主動互動的方式來觸發互動物件與其互動。另一範例中，互動物件可以通過主動打招呼、提示目標物件做出動作等方式，使得目標物件採用被動方式與互動物件進行互動。

所述互動物件可以通過電子設備進行顯示，所述電子設備還可以是電視機、帶有顯示功能的一體機、投影儀、虛擬實境（Virtual Reality，VR）設備、擴增實境（Augmented Reality，AR）設備等，本公開並不限定電子設備的具體形式。

圖1繪示根據本公開實施例提出的顯示設備。如圖1所示，該顯示設備具有顯示螢幕，其可以在顯示螢幕上顯示立體畫面，以呈現出虛擬場景以及互動物件。例如圖1中顯示螢幕顯示的互動物件有虛擬卡通人物。

本公開中所述的電子設備可以包括內置的顯示器或與上述顯示設備集成為一體，通過顯示器或顯示設備，可以顯示立體畫面，以呈現出虛擬場景以及互動物件。在另一些實施例中，本公開中所述的電子設備還可以不包括內置的顯示器，所需顯示的內容可以通過有線或無線的連接通知外接的顯示器呈現出虛擬場景以及互動物件。

在一些實施例中，響應於電子設備接收到用於驅動互動物件輸出語音的聲音驅動數據，互動物件可以對目標物件發出指定語音。可以根據電子設備周邊目標物件的動作、表情、身份、偏好等，生成聲音驅動數據，以驅動互動物件通過發出指定語音進行回應，從而為目標物件提供擬人化的服務。在互動物件與目標物件的互動過程中，存在根據該聲音驅動數據驅動互動物件發出指定語音的同時，無法驅動所述互動物件做出與該指定語音同步的面部動作，使得互動物件在發出語音時呆板、不自然，影響了目標物件與互動體驗。基於此，本公開實施例提出一種互動物件的驅動方法，以提升目標物件與互動物件進行互動的體驗。

圖2繪示根據本公開實施例的互動物件的驅動方法的流程圖，如圖2所示，所述方法包括步驟201~步驟203。

在步驟201中，獲取顯示設備顯示的互動物件的聲音驅動數據。

在本公開實施例中，所述聲音驅動數據可以包括音訊數據（語音數據）、文本數據等等。所述聲音驅動數據可以是電子設備根據與互動物件進行互動的目標物件的動作、表情、身份、偏好等生成的驅動數據，也可以是電子設備直接獲取的，例如從內部記憶體調用的聲音驅動數據等。本公開對於該聲音驅動數據的獲取方式不進行限制。

在步驟202中，基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，所述控制參數序列包括一組或多組控制參數。

在本公開實施例中，目標數據為預先匹配了設定動作的數據，而所述設定動作通過相應的控制參數序列進行控制而實現，因而所述目標數據與所述設定動作的控制參數序列匹配。所述目標數據可以是設置的關鍵字、詞、句等等。以關鍵詞為“揮手”為例，在所述聲音驅動數據中包含了文本數據時，“揮手”對應的目標數據為“揮手”的文本數據，和/或在所述聲音驅動數據中包含了音訊或音節數據時，“揮手”對應的目標數據為“揮手”的語音數據。在所述聲音驅動數據匹配到上述目標數據時，則可以確定所述聲音驅動數據中包含了目標數據。

所述設定動作可以利用通用的單元動畫實現，該單元動畫可以包含圖像幀序列，該序列中的每個圖像幀對應於所述互動物件的一個姿態，通過圖像幀之間對應的姿態的變化即可以使互動物件實現設定動作。其中，一個圖像幀中互動物件姿態可以通過一組控制參數實現，例如多個骨骼點的位移形成的一組控制參數。因此，利用多組控制參數形成的控制參數序列來控制互動物件的姿態變化，能夠控制互動物件實現設定動作。

在一些實施例中，所述目標數據可以包括目標音節數據，所述目標音節數據與設定嘴型的控制參數相對應，一種目標音節數據屬於預先劃分好的一種音節類型，所述一種音節類型對應於一種設定嘴型，一種設定嘴型設置有對應的控制參數序列。

其中，音節數據是由至少一個音素組合形成的語音單位，所述音節數據包括拼音語言的音節數據，和非拼音語言（例如，漢語）的音節數據。一種音節類型是指發音動作一致或者基本一致的音節數據，一種音節類型可與互動物件的一種動作對應，具體的，一種音節類型可與互動物件說話時的一種設定的嘴型對應，即與一種發音動作對應，這樣，同種類型的音節數據可以匹配設定的同種嘴型的控制參數序列，例如，拼音“ma”、“man”、“mang”這類型的音節數據，由於這類音節數據的發音動作基本一致，故可以視為同一類型，均可對應互動物件說話時“嘴巴張開”的嘴型的控制參數序列，這樣，在檢測到聲音驅動數據中包括此類目標音節數據時，可根據該目標音節數據所匹配的嘴型的控制參數序列來控制互動物件做出對應的嘴型。進而，通過多種類型的音節數據，可匹配出多個不同類型的嘴型的控制參數序列，進而可以利用所述多個控制參數序列來控制互動物件的嘴型變化，控制互動物件實現擬人的說話狀態。

在步驟203中，根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。

對於所述聲音驅動數據中所包含的一個或多個目標數據，均可以獲得相應的設定動作的控制參數序列。根據所獲得的控制參數序列控制所述互動物件的動作，即可以實現所述聲時驅動數據中各個目標數據對應的設定動作。

在本公開實施例中，根據顯示設備顯示的互動物件的聲音驅動數據中包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，以控制所述顯示設備顯示的互動物件的動作，使得互動物件可以做出聲音驅動數據中所包含的目標數據對應的動作，從而使互動物件說話的狀態自然生動，提升了目標物件的互動體驗。

圖3繪示了根據本公開實施例的互動物件的驅動方法的流程圖，如圖3所示，所述方法還包括：

步驟204，根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，或者根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，並根據所述聲音驅動數據對應的文本資訊顯示文本。

在控制顯示設備輸出聲音驅動數據對應的語音的同時，根據所述聲音驅動數據中各個目標數據匹配的控制參數序列，依次控制所述互動物件執行相應的動作，使得互動物件能夠在輸出語音的同時，根據聲音所包含的內容做出動作，從而使互動物件說話的狀態自然生動，提升了目標物件的互動體驗。

還可以在控制顯示設備輸出聲音驅動數據對應的語音的同時，在所述顯示設備顯示所述聲音驅動數據對應的文本，再根據所述聲音驅動數據中各個目標數據匹配的控制參數序列，依次控制所述互動物件執行相應的動作，使得互動物件能夠在輸出語音、顯示文本的同時，根據聲音、文本所包含的內容做出動作，從而使互動物件表達的狀態自然生動，提升了目標物件的互動體驗。

在本公開實施例中，由於只需要針對指定動作設置控制參數序列，即可以組成可變內容對應的圖像幀序列，提高了互動物件的驅動效率。此外，目標數據可以根據需要進行增加或者修改，以應對變化的內容，便於對驅動系統的維護和更新。

在一些實施例中，所述方法應用於伺服器，包括本地伺服器或雲端伺服器等，所述伺服器對於互動物件的聲音驅動數據進行處理，生成所述互動物件的姿態參數值，並根據所述姿態參數值利用三維或二維渲染引擎進行渲染，得到所述互動物件的回應動畫。所述伺服器可以將所述回應動畫發送至終端設備進行顯示來對目標物件進行回應，還可以將所述回應動畫發送至雲端，以使終端設備能夠從雲端獲取所述回應動畫來對目標物件進行回應。在伺服器生成所述互動物件的姿態參數值後，還可以將所述姿態參數值發送至終端，以使終端完成渲染、生成回應動畫、進行顯示的過程。

在一些實施例中，所述方法應用於終端設備，所述終端設備對於互動物件的聲音驅動數據進行處理，生成所述互動物件的姿態參數值，並根據所述姿態參數值利用三維或二維渲染引擎進行渲染，得到所述互動物件的回應動畫，所述終端可以顯示所述回應動畫以對目標物件進行回應。

響應於聲音驅動數據包括音訊數據，可以通過對聲音驅動數據進行語音識別，獲得所述音訊數據所包含的語音內容，並確定所述音訊數據所包含的目標數據。通過將語音內容與目標數據進行匹配，可以確定所述聲音驅動數據中所包含的目標數據。

響應于聲音驅動數據包括文本數據，根據所述文本數據所包含的文本內容，確定所述文本數據所包含的目標數據。

在一些實施例中，在所述聲音驅動數據包括音節數據的情況下，對所述聲音驅動數據進行拆分得到至少一個音節數據。本領域技術人員應當理解，對於聲音驅動數據的拆分方式可以不止一種，不同的拆分方式可以得到不同的音節數據組合，可以通過對不同的拆分方式設置優先級，將優先級高的拆分方式所得到的音節數據組合作為拆分結果。

將拆分得到的音節數據與目標音節數據進行匹配，響應於所述音節數據與任一音節類型的目標音節數據匹配，則可以確定所述音節數據與目標音節數據匹配，進而可以確定所述聲音驅動數據包含所述目標數據。例如，目標音節數據可以包括“ma”、“man”、“mang”類型的音節數據，響應於所述聲音驅動數據包含與“ma”、“man”、“mang”中的任一個匹配的音節數據，則確定所述聲音驅動數據包含所述目標音節數據。

在所述聲音驅動數據包含目標音節數據的情況下，根據所述目標音節數據所屬的音節類型，獲取與所述目標音節數據對應的設定嘴型的控制參數序列，控制互動物件做出對應的嘴型。通過上述方式，根據聲音驅動數據所對應的嘴型的控制參數序列能夠控制所述互動物件的嘴型變化，從而使互動物件實現擬人的說話狀態。

拆分得到音節數據可以是多個音節數據。可以針對多個音節數據中的每個音節數據，查找該音節數據是否與某一目標音節數據匹配，當該音節數據與某一目標音節數據匹配時，獲取與該目標音節數據對應的設定嘴型的控制參數序列。

在一些實施例中，如圖4所示，步驟203進一步包括：

步驟2031：確定所述目標數據對應的語音資訊；

步驟2032：獲取輸出所述語音資訊的時間資訊；

步驟2033：根據所述時間資訊確定所述目標數據對應的設定動作的執行時間；以及

步驟2034：根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

在根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音的情況下，可以確定輸出目標數據所對應的語音資訊的時間資訊，例如開始輸出所述目標數據對應的語音資訊的時間、結束輸出的時間以及持續時間。可以根據所述時間資訊確定所述目標數據對應的設定動作的執行時間，在所述執行時內，或者在執行時間的一定範圍內，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

在本公開實施例中，根據聲音驅動數據輸出語音的持續時間，與根據多個控制參數序列控制互動物件執行連續設定動作的持續時間，是一致的或者相近的；並且對於每個目標數據，輸出對應的語音的持續時間，與根據對應的控制參數序列控制互動物件執行設定動作的持續時間，也是一致的或者相近的，以使互動物件說話的時間與進行動作的時間是匹配的，從而使互動物件的語音和動作同步、協調。

在一些實施例中，可以以設定速率調用所述控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。也即，始終以恆定的速度來執行各個目標數據所對應的控制參數序列。

在目標數據對應的音素數目較少，而目標數據所匹配的設定動作的控制參數序列較長的情況下，也即在互動物件說出目標數據的時間較短，而執行動作的時間較長的情況下，可以在輸出語音結束的同時，也停止調用該控制參數序列，停止執行該設定動作。並且，對於該設定動作執行結束的姿態，與下一指定動作開始執行的姿態，進行平滑的過渡，以使所述互動物件的動作流暢、自然，提高目標物件的互動感受。

在一些實施例中，對於每個目標數據，根據該目標數據對應的設定動作的執行時間，確定該目標數據對應的控制參數序列的調用速率，並以所述調用速率調用該目標數據對應的控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。

在執行時間較短時，控制參數序列的調用速率相對較高；反之則較低。而控制參數序列的調用速率決定了互動物件執行動作的速率。例如，在以較高的速度調用控制參數序列的情況下，互動物件的姿態變化速度也相應較快，因而可以在較短的時間裡完成設定動作。

在一些實施例中，可以根據輸出目標數據的語音的時間對執行設定動作的時間進行調整，例如進行壓縮或擴展，使得互動物件執行設定動作的時間與輸出目標數據的語音的時間是匹配的，從而使互動物件的語音和動作同步、協調。

在一個範例中，可以在根據所述目標數據對應的音素輸出語音之前的設定時間，開始調用所述目標數據對應的控制參數序列，使所述互動物件開始執行與控制參數序列對應的設定動作。

例如，在互動物件開始輸出目標數據對應的語音之前的極短時間，例如0.1秒，開始調用目標數據對應的控制參數序列，使互動物件開始執行設定動作，更加符合真實人物說話的狀態，使互動物件的說話更加自然、生動，提高了目標物件的互動體驗。

在一些實施例中，在檢測到多個目標數據中相鄰目標數據存在重疊的情況下，可以根據基於語序（即，接收到的聲音驅動數據的自然排列順序）排列在前的目標數據對應的控制參數序列控制所述互動物件執行對應的設定動作，並忽略與該目標數據重疊的排列在後的目標數據。

可以將所述聲音驅動數據所包含的各個目標數據以數組的形式進行儲存，每個目標數據為其中的元素。應當注意的是，由於語素之間可以通過不同的方式進行組合，而得到不同的目標數據，因此，多個目標數據中相鄰的兩個目標數據之間可能存在重疊部分。例如，在聲音驅動數據對應的文本是“天氣真好”的情況下，其所對應的目標數據分別為：1、天，2、天氣，3、真好。對於相鄰目標數據1和2，它們之間包含了共同的語素“天”，並且目標數據1和2可以匹配相同的指定動作，例如用手指指向上方。

可以通過為各個目標數據分別設置優先級，根據優先級來確定執行重疊的目標數據中的哪一個。

在一個範例中，可以將首先出現的目標數據的優先級設置為高於後面的目標數據。針對以上“天氣真好”的範例，“天”的優先級高於“天氣”，因此，則根據“天”所對應的設定動作的控制參序列來控制所述互動物件執行設定動作，並忽略餘下的語素“氣”（即忽略與目標數據“天”重疊的目標數據“天氣”），接下來直接匹配“真好”。

在本公開實施例中，通過對於相鄰目標數據重疊的情況設置匹配規則，可以避免互動物件重複執行設定動作。

在一些實施例中，在檢測到所述多個目標數據中相鄰目標數據對應的控制參數序列在執行時間上重疊的情況下，可以對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合。

在一個實施例中，可以將控制參數序列的重疊部分進行平均或者加權平均，以實現重疊的控制參數序列的融合。

在另一實施例中，可以利用插值的方法，將上一個動作的某一幀（例如，該動作對應的第一控制參數序列的第N組控制參數n），按照過渡時間向下一個動作插值過渡，直到過渡到與下一個動作中第一幀開始重合（例如，找到下一個動作對應的第二控制參數序列中的第1組控制參數1與所述控制參數n相同，或者，將下一動作插入到所述某一幀處，使得經過插值過渡後兩個動作的總執行時間與相應的語音數據/文本數據的播放或顯示時間相同），則忽略上一個動作中某一幀之後的所有幀，直接執行下一個動作，從而實現了重疊的控制參數序列的融合。

通過對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合，使得互動物件的動作之間可以平滑過渡，以使所述互動物件的動作流暢、自然，提高目標物件的互動感受。

在一些實施例中，對於所述聲音驅動數據中，各個目標數據以外的其他數據，例如將其稱為第一數據，可以根據所述第一數據的聲學特徵匹配的姿態控制參數，並根據所述姿態控制參數控制所述互動物件的姿態。

響應於所述聲音驅動數據包括音訊數據，可以獲取所述第一數據包含的語音幀序列，並獲取至少一個語音幀對應的聲學特徵，根據所述聲學特徵對應的所述互動物件的姿態控制參數，例如姿態控制向量，來控制所述互動物件的姿態。

響應於所述聲音驅動數據包括文本數據，可以根據文本數據中的語素所對應的音素，獲取所述音素對應的聲學特徵，根據所述聲學特徵對應的所述互動物件的姿態控制參數，例如姿態控制向量，來控制所述互動物件的姿態。

在本公開實施例中，聲學特徵可以是與語音情感相關的特徵，例如基頻特徵、共峰特徵、梅爾頻率倒譜系數（Mel Frequency Cofficient，MFCC）等等。

由於所述姿態控制參數值是與所述語音段的語音幀序列是匹配的，因此根據所述第一數據輸出的語音和/顯示的文本，與根據所述姿態參數值控制互動物件的姿態是同步進行的情況下，互動物件所做出的姿態與輸出的語音和/或文本是同步的，給目標物件以所述互動物件正在說話的感覺。並且由於所述姿態控制向量是與輸出聲音的聲學特徵相關的，根據所述姿態控制向量進行驅動使得互動物件的表情和肢體動作具有了情感因素，使得互動物件的說話過程更加自然、生動，從而提高了目標物件的互動體驗。

在一些實施例中，所述聲音驅動數據包括至少一個目標數據，以及所述目標數據以外的第一數據。對於所述第一數據，根據所述第一數據的聲學特徵來確定姿態控制參數，以控制所述互動物件的姿態；對於所述目標數據，則根據與所述目標數據匹配的設定動作的控制參數序列，控制所述互動物件做出所述設定動作。

圖5繪示根據本公開至少一個實施例的互動物件的驅動裝置的結構示意圖，如圖5所示，該裝置可以包括：第一獲取單元301，用於獲取顯示設備顯示的互動物件的聲音驅動數據；第二獲取單元302，用於基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列；驅動單元303，用於根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。

在一些實施例中，所述裝置還包括輸出單元，用於根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，和/或，根據所述聲音驅動數據對應的文本資訊顯示文本。

在一些實施例中，所述驅動單元具體用於：確定所述目標數據對應的語音資訊；獲取輸出所述語音資訊的時間資訊；根據所述時間資訊確定所述目標數據對應的設定動作的執行時間；根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

在一些實施例中，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：以設定速率調用所述控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。

在一些實施例中，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：根據所述執行時間，確定所述控制參數序列的調用速率；以所述調用速率調用所述控制參數序列中的每組控制參數，使所述互動物件輸出與每組控制參數對應的姿態。

在一些實施例中，所述控制參數序列包括一組或多組控制參數；所述驅動單元在用於根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作時，具體用於：在輸出所述目標數據對應的語音資訊之前的設定時間，開始調用所述目標數據對應的控制參數序列，使所述互動物件開始執行所述設定動作。

在一些實施例中，所述聲音驅動數據包含多個目標數據，所述驅動單元具體用於：響應於檢測到所述多個目標數據中相鄰目標數據存在重疊；根據基於語序排列在前的目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。

在一些實施例中，所述聲音驅動數據包含多個目標數據，所述驅動單元具體用於：響應於檢測到所述多個目標數據中相鄰目標數據對應的控制參數序列在執行時間上重疊，對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合。

在一些實施例中，所述第二獲取單元具體用於：響應於所述聲音驅動數據包括音訊數據，對所述音訊數據進行語音識別，根據識別出的語音內容，確定所述音訊數據所包含的目標數據；響應於所述聲音驅動數據包括文本數據，根據所述文本數據所包含的文本內容，確定所述文本數據所包含的目標數據。

在一些實施例中，所述目標數據包括目標音節數據，所述第二獲取單元具體用於：確定所述聲音驅動數據所包含的音節數據是否與目標音節數據相匹配，其中，所述目標音節數據屬於預先劃分好的一種音節類型，一種音節類型對應於一種設定嘴型，一種設定嘴型設置有對應的控制參數序列；響應於所述音節數據與所述目標音節數據相匹配，基於匹配的所述目標音節數據所屬的音節類型，獲取與匹配的所述目標音節數據對應的設定嘴型的控制參數序列。

在一些實施例中，所述裝置還包括姿態控制單元，用於：獲取所述聲音驅動數據中目標數據以外的第一數據；獲取所述第一數據的聲學特徵；獲取與所述聲學特徵匹配的姿態控制參數；根據所述姿態控制參數控制所述互動物件的姿態。

本說明書至少一個實施例還提供了一種電子設備，如圖6所示，所述設備包括記憶體、處理器，記憶體用於儲存可在處理器上運行的計算機指令，處理器用於在執行所述計算機指令時實現本公開任一實施例所述的互動物件的驅動方法。本說明書至少一個實施例還提供了一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現本公開任一實施例所述的互動物件的驅動方法。

本領域技術人員應明白，本說明書一個或多個實施例可提供為方法、系統或計算機程式產品。因此，本說明書一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本說明書一個或多個實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的計算機程式產品的形式。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於數據處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本說明書特定實施例進行了描述。其它實施例在所附請求項的範圍內。在一些情況下，在請求項中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求繪示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本說明書中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的計算機軟體或韌體、包括本說明書中公開的結構及其結構性等同物的計算機硬體、或者它們中的一個或多個的組合。本說明書中描述的主題的實施例可以實現為一個或多個計算機程式，即編碼在有形非暫時性程式載體上以被數據處理裝置執行或控制數據處理裝置的操作的計算機程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由數據處理裝置執行。計算機儲存媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。

本說明書中描述的處理及邏輯流程可以由執行一個或多個計算機程式的一個或多個可編程計算機執行，以通過根據輸入數據進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可編程門陣列）或ASIC（專用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行計算機程式的計算機包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從只讀記憶體和/或隨機存取記憶體接收指令和數據。計算機的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和數據的一個或多個記憶體設備。通常，計算機還將包括用於儲存數據的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者計算機將可操作地與此大容量儲存設備耦接以從其接收數據或向其傳送數據，抑或兩種情況兼而有之。然而，計算機不是必須具有這樣的設備。此外，計算機可以嵌入在另一設備中，例如移動電話、個人數位助理（PDA）、移動音訊或視頻播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存計算機程式指令和數據的計算機可讀媒體包括所有形式的非揮發性記憶體、媒體和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或可移動碟）、磁光碟以及CD ROM和DVD-ROM。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。

雖然本說明書包含許多具體實施細節，但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍，而是主要用於描述特定發明的具體實施例的特徵。本說明書內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起集成在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附請求項的範圍以內。在某些情況下，請求項中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本說明書一個或多個實施例的較佳實施例而已，並不用以限制本說明書一個或多個實施例，凡在本說明書一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書一個或多個實施例保護的範圍之內。

201:獲取顯示設備顯示的互動物件的聲音驅動數據的步驟 202:基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列的步驟 203:根據所獲得的控制參數序列控制所述互動物件執行所述設定動作的步驟 204:根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，和/或，根據所述聲音驅動數據對應的文本資訊顯示文本的步驟 2031:確定所述目標數據對應的語音資訊的步驟 2032:獲取輸出所述語音資訊的時間資訊的步驟 2033:根據所述時間資訊確定所述目標數據對應的設定動作的執行時間的步驟 2034:根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作的步驟 301:第一獲取單元 302:第二獲取單元 303:驅動單元

圖1是根據本公開實施例提出的互動物件的驅動方法中顯示設備的示意圖。圖2是根據本公開實施例提出的互動物件的驅動方法的流程圖。圖3是根據本公開實施例提出的互動物件的驅動方法的流程圖。圖4是根據本公開實施例提出的互動物件的驅動方法的流程圖。圖5是根據本公開實施例提出的互動物件的驅動裝置的結構示意圖。圖6是根據本公開實施例提出的電子設備的結構示意圖。

201:獲取顯示設備顯示的互動物件的聲音驅動數據的步驟

202:基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列的步驟

203:根據所獲得的控制參數序列控制所述互動物件執行所述設定動作的步驟

Claims

一種互動物件的驅動方法，包括：獲取顯示設備顯示的互動物件的聲音驅動數據，其中，所述聲音驅動數據用於驅動互動物件輸出語音；基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，其中，所述目標數據為預先匹配了設定動作的數據，所述目標數據包括設置的關鍵字、關鍵詞、關鍵句中的至少一項；根據所獲得的控制參數序列控制所述互動物件執行所述設定動作。
如請求項1所述的驅動方法，還包括：根據所述聲音驅動數據對應的語音資訊控制所述顯示設備輸出語音，和/或，根據所述聲音驅動數據對應的文本資訊顯示文本。
如請求項1所述的驅動方法，其中，所述根據所獲得的控制參數序列控制所述互動物件執行所述設定動作，包括：確定所述目標數據對應的語音資訊；獲取輸出所述語音資訊的時間資訊；根據所述時間資訊確定所述目標數據對應的設定動作的執行時間；根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。
如請求項3所述的驅動方法，其中，所述控制參數序列包括一組或多組控制參數，所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：以設定速率調用所述控制參數序列中的每組控制參數，使所述互動物件顯示與每組控制參數對應的姿態。
如請求項3所述的驅動方法，其中，所述控制參數序列包括一組或多組控制參數，所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：根據所述執行時間，確定所述控制參數序列的調用速率；以所述調用速率調用所述控制參數序列中的每組控制參數，使所述互動物件輸出與每組控制參數對應的姿態。
如請求項3所述的驅動方法，其中，所述根據所述執行時間，以所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：在輸出所述目標數據對應的語音資訊之前的設定時間，開始調用所述目標數據對應的控制參數序列，使所述互動物件開始執行所述設定動作。
如請求項1所述的驅動方法，其中，所述聲音驅動數據包含多個目標數據，所述根據所獲得的控制參數序列控制所述互動物件執行所述設定動作，包括：響應於檢測到所述多個目標數據中相鄰目標數據存在重疊，根據基於語序排列在前的目標數據對應的控制參數序列控制所述互動物件執行所述設定動作。
如請求項1所述的驅動方法，其中，所述聲音驅動數據包含多個目標數據，所述根據所述目標數據對應的控制參數序列控制所述互動物件執行所述設定動作，包括：響應於檢測到所述多個目標數據中相鄰目標數據對應的控制參數序列在執行時間上重疊，對所述相鄰目標數據對應的控制參數序列的重疊部分進行融合。
如請求項1所述的驅動方法，其中，所述基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，包括：響應於所述聲音驅動數據包括音訊數據，對所述音訊數據進行語音識別，根據所識別出的語音內容，確定所述音訊數據所包含的目標數據；響應於所述聲音驅動數據包括文本數據，根據所述文本數據所包含的文本內容，確定所述文本數據所包含的目標數據。
如請求項1所述的驅動方法，其中，所述聲音驅動數據包括音節數據，所述基於所述聲音驅動數據中所包含的目標數據，獲取與所述目標數據匹配的互動物件的設定動作的控制參數序列，包括：確定所述聲音驅動數據所包含的音節數據是否與目標音節數據相匹配，其中，所述目標音節數據屬於預先劃分好的一種音節類型，一種音節類型對應於一種設定嘴型，一種設定嘴型設置有對應的控制參數序列；響應於所述音節數據與所述目標音節數據相匹配，基於匹配的所述目標音節數據所屬的音節類型，獲取與匹配的所述目標音節數據對應的設定嘴型的控制參數序列。
如請求項1所述的驅動方法，還包括：獲取所述聲音驅動數據中目標數據以外的第一數據；獲取所述第一數據的聲學特徵；獲取與所述聲學特徵匹配的姿態控制參數；根據所述姿態控制參數控制所述互動物件的姿態。
一種電子設備，其中，所述設備包括記憶體、處理器，所述記憶體用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現請求項1至11中任一項所述的驅動方法。
一種計算機可讀儲存媒體，其上儲存有計算機程式，其中，所述程式被處理器執行時實現請求項1至11中任一項所述的驅動方法。