TW202139064A

TW202139064A - 互動物件的驅動方法、裝置、設備以及存儲介質

Info

Publication number: TW202139064A
Application number: TW109145611A
Authority: TW
Inventors: 陳智輝
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-03-31
Filing date: 2020-12-23
Publication date: 2021-10-16
Also published as: SG11202109202VA; JP2022531055A; CN111428672A; KR20210124313A; WO2021196648A1

Abstract

公開了一種互動物件的驅動方法、裝置、設備以及存儲介質，所述方法包括：獲取第一圖像；識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的嘴部的關鍵點資訊；根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態；響應於確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進行回應。

Description

互動物件的驅動方法、裝置、設備以及存儲介質

本公開涉及電腦技術領域，具體涉及一種互動物件的驅動方法、裝置、設備以及存儲介質。

人機互動的方式大多為：使用者基於按鍵、觸摸、語音進行輸入，設備透過在顯示幕上呈現圖像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的，用戶與虛擬人物的互動還停留表面上。

本公開實施例提供一種互動物件的驅動方案。

根據本公開的一方面，提出一種互動物件的驅動方法，所述方法包括：獲取第一圖像；識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的所述嘴部的關鍵點資訊；根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態；以及回應於確定所述第一圖像中的所述目標物件處於說話狀態，驅動互動物件進行回應。

結合本公開提供的任一實施方式，所述嘴部的關鍵點資訊包括位於目標物件的嘴部的多個關鍵點的位置資訊；所述多個關鍵點包括至少一組關鍵點對，每個所述關鍵點對包括分別位於上嘴唇處和下嘴唇處的兩個關鍵點；所述根據所述嘴部的關鍵點資訊，確定所述目標物件是否處於說話狀態，包括：根據所述至少一組關鍵點對的位置資訊，確定每個所述關鍵點對中分別位於所述上嘴唇處和所述下嘴唇處的兩個關鍵點的第一距離；以及根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態。

結合本公開提供的任一實施方式，所述第一圖像為圖像序列中的一幀；所述根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態，包括：在所述圖像序列中，獲取設定數目的待處理圖像，所述待處理圖像包括所述第一圖像以及至少一幀第二圖像；針對每幀第二圖像：獲取所述第二圖像中每個所述關鍵點對的第一距離；根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態。

結合本公開提供的任一實施方式，所述在所述圖像序列中，獲取設定數目的待處理圖像，包括：以設定長度的視窗以及設定步長在所述圖像序列中進行滑窗(sliding window)，每次滑動獲取所述設定數目的待處理圖像，其中，所述第一圖像為所述視窗內的最後一幀圖像。

結合本公開提供的任一實施方式，所述關鍵點對的第一距離包括所述關鍵點對中的兩個關鍵點之間的歐氏距離(Euclidean Distance)，所述根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態，包括：識別所述待處理圖像中的靶心圖表像；確定所述待處理圖像中所包含的靶心圖表像的數目；回應於所述靶心圖表像的數目與所述待處理圖像的所述設定數目之間的比例大於設定比例，確定所述第一圖像中的目標物件處於說話狀態。

結合本公開提供的任一實施方式，所述識別所述待處理圖像中的靶心圖表像包括：將所述各組關鍵點對的歐氏距離的平均值大於第一設定閾值的圖像確定為所述靶心圖表像；或將所述各組關鍵點對的歐氏距離的加權平均值大於第二設定閾值的圖像確定為所述靶心圖表像。

結合本公開提供的任一實施方式，所述第一設定閾值和所述第二設定閾值根據所述待處理圖像的解析度確定。

結合本公開提供的任一實施方式，所述響應於所述目標物件處於說話狀態，驅動互動物件進行回應，包括：在所述互動物件處於待機狀態下，回應於首次確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進入與所述目標物件進行互動的狀態。

根據本公開的一方面，提出一種互動物件的驅動裝置，所述裝置包括：獲取單元，用於獲取第一圖像；識別單元，用於識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的所述嘴部的關鍵點資訊；確定單元，用於根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態；以及驅動單元，用於回應於確定所述第一圖像中的所述目標物件處於說話狀態，驅動互動物件進行回應。

結合本公開提供的任一實施方式，所述嘴部的關鍵點資訊包括位於目標物件的嘴部的多個關鍵點的位置資訊；所述多個關鍵點包括至少一組關鍵點對，每個所述關鍵點對包括分別位於上嘴唇處和下嘴唇處的兩個關鍵點；所述確定模組在根據所述嘴部的關鍵點資訊，確定所述目標物件是否處於說話狀態時，還用於根據所述至少一組關鍵點對的位置資訊，確定每個所述關鍵點對中分別位於所述上嘴唇處和所述下嘴唇處的兩個關鍵點的第一距離；以及根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態。

結合本公開提供的任一實施方式，所述第一圖像為圖像序列中的一幀；所述確定單元在用於根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態時，用於：在所述圖像序列中，獲取設定數目的待處理圖像，所述待處理圖像包括所述第一圖像以及至少一幀第二圖像；針對每幀第二圖像，獲取所述第二圖像中每個所述關鍵點對的第一距離；根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態。

結合本公開提供的任一實施方式，所述確定單元在用於在所述圖像序列中，獲取設定數目的待處理圖像時，用於：以設定長度的視窗以及設定步長在所述圖像序列中進行滑窗，每次滑動獲取設定數目的待處理圖像，其中，所述第一圖像為所述視窗內的最後一幀圖像。

結合本公開提供的任一實施方式，所述關鍵點對的第一距離包括所述關鍵點對中的兩個關鍵點之間的歐氏距離，所述確定單元在根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態時，用於：識別所述待處理圖像中的靶心圖表像；確定所述待處理圖像中所包含的靶心圖表像的數目；回應於所述靶心圖表像的數目與所述待處理圖像的所述設定數目之間的比例大於設定比例，確定所述第一圖像中的目標物件處於說話狀態。

結合本公開提供的任一實施方式，所述確定模組在所述待處理圖像中，確定所述靶心圖表像時，用於將所述各組關鍵點對的歐氏距離的平均值大於第一設定閾值的圖像確定為所述靶心圖表像；或，將所述各組關鍵點對的歐氏距離的加權平均值大於第二設定閾值的圖像確定為所述靶心圖表像。

結合本公開提供的任一實施方式，所述驅動單元具體用於：在所述互動物件處於待機狀態下，回應於首次確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進入與所述目標物件進行互動的狀態。

本公開一個或多個實施例的互動物件的驅動方法、裝置、設備及電腦可讀存儲介質，透過對第一圖像進行識別，獲得所述第一圖像中至少包含所述目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像中的嘴部的關鍵點資訊，根據所述嘴部的關鍵點資訊來確定所述第一圖像中的所述目標物件是否處於說話狀態，以驅動所述互動物件進行回應，透過根據第一圖像即時判斷目標物件是否在說話，可以在目標物件未與展示互動物件的終端設備進行觸摸互動的情況下，使互動物件對於目標物件說話及時做出回應，進入互動狀態，提高了目標物件的互動體驗。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本公開。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所述的、本公開的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

本公開至少一個實施例提供了一種互動物件的驅動方法，所述驅動方法可以由終端設備或伺服器等電子設備執行，所述終端設備可以是固定終端或移動終端，例如手機、平板電腦、遊戲機、桌上型電腦、廣告機、一體機、車載終端等等，所述伺服器包括本機伺服器或雲端伺服器等，所述方法還可以透過處理器調用記憶體中存儲的電腦可讀指令的方式來實現。

在本公開實施例中，互動物件可以是任意一種能夠與目標物件進行互動的互動物件，其可以是虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象，虛擬形象的展現形式即可以是2D形式也可以是3D形式，本公開對此並不限定。所述目標物件可以是使用者，也可以是機器人，還可以是其他智慧設備。所述互動物件和所述目標物件之間的對話模式可以是主動對話模式，也可以是被動對話模式。一示例中，目標物件可以透過做出手勢或者肢體動作來發出需求，透過主動互動的方式來觸發互動物件與其互動。另一示例中，互動物件可以透過主動打招呼、提示目標物件做出動作等方式，使得目標物件採用被動方式與互動物件進行互動。

所述互動物件可以透過電子設備進行展示，所述電子設備還可以是電視機、帶有顯示功能的一體機、投影儀、虛擬實境（Virtual Reality，VR）設備、增強實境（Augmented Reality，AR）設備等，本公開並不限定電子設備的具體形式。

圖1示出根據本公開實施例的顯示裝置。如圖1所示，該顯示裝置具有顯示幕，其可以在顯示幕上顯示立體畫面，以呈現出虛擬場景以及互動物件。例如圖1中顯示幕顯示的互動物件有虛擬卡通人物。

在一些實施例中，本公開中所述的電子設備可以包括內置的顯示器，透過顯示器，可以顯示立體畫面，以呈現出虛擬場景以及互動物件。在另一些實施例中，本公開中所述的電子設備還可以不包括內置的顯示器，所需顯示的內容可以透過有線或無線的連接通知外接的顯示器呈現出虛擬場景以及互動物件。

在一些實施例中，回應於電子設備接收到用於驅動互動物件輸出語音的聲音驅動資料，互動物件可以對目標物件發出指定語音。可以根據電子設備周邊目標物件的動作、表情、身份、偏好等，生成聲音驅動資料，以驅動互動物件透過發出指定語音進行回應，從而為目標物件提供擬人化的服務。基於此，本公開至少一個實施例提出一種互動物件的驅動方法，以提升目標物件與互動物件進行互動的體驗。

圖2示出根據本公開實施例的互動物件的驅動方法的流程圖，如圖2所示，所述方法包括步驟201~步驟204。

在步驟201中，獲取第一圖像。

所述第一圖像可以是展示互動物件的電子設備（例如終端設備、伺服器等）周邊的圖像。該圖像可以透過電子設備的圖像採集模組獲得，例如透過內置攝像頭獲得。電子設備的周邊的圖像包括所述電子設備的一定範圍內任意方向上的圖像，例如可以包括所述電子設備的前向、側向、後方、上方中的一個或多個方向上的圖像。示例性的，該範圍根據用於檢測音訊訊號的聲音檢測模組所能接收到設定強度的音訊訊號的範圍確定。其中，所述聲音檢測模組可以作為所述電子設備的內置模組設置在電子設備中，也可以作為外接設備，獨立於電子設備之外。所述第一圖像還可以是透過網路獲取的圖像採集設備所採集的圖像。所述圖像採集設備可以是獨立於終端設備之外的攝像頭，該攝像頭可以透過有線或無線網路將採集的圖像傳輸給執行本方法的電子設備。所述圖像採集設備的數量可以為一個或多個。例如，目標物件（如使用者）可使用終端設備進行某種操作，如使用終端設備的某個用戶端進行一種涉及與互動物件進行互動的服務，第一圖像可以是由終端設備的攝像頭或外接攝像頭採集的圖像，該圖像可透過網路上傳至伺服器端，由伺服器進行解析並基於解析結果判斷是否需控制互動物件作出回應；或者，該圖像也可直接由該終端設備進行解析，並基於解析結果判斷是否需控制互動物件作出回應。

在步驟202中，識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的所述嘴部的關鍵點資訊。

在一個示例中，可以對第一圖像中包含所述目標物件的嘴部的面部區域圖像進行裁剪，使所述面部區域圖像成為獨立的圖像，以對所述面部區域圖像進行面部關鍵點檢測，確定所述面部區域圖像中的嘴部關鍵點，並獲得所述嘴部的關鍵點資訊，例如位置資訊。

在一個示例中，可以直接對第一圖像中包含目標物件的嘴部的面部區域圖像塊進行面部關鍵點檢測，確定所述第一圖像中所包含的所述嘴部的關鍵點資訊。

在步驟203中，根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態。

在目標物件嘴部處於張開狀態或處於閉合狀態時，所檢測到的嘴部的關鍵點資訊（例如，位置資訊）是不同的。例如，在嘴部處於張開狀態時，位於上唇的關鍵點與位於下唇的關鍵點之間的距離通常大於一定程度；而嘴部處於閉合狀態時，位於上唇的關鍵點和位於下唇的關鍵點之間的距離通常較小。用於判斷嘴部處於張開狀態或閉合狀態的距離閾值，與所選取的上唇關鍵點和下唇關鍵點所處的嘴部位置有關。例如，針對位於上唇中心處的關鍵點與下唇中心處的關鍵點之間的距離的閾值，通常大於針對位於上唇邊緣處的關鍵點與下唇邊緣處的關鍵點之間的距離的閾值。

在一示例中，當在設定時間內，在多張第一圖像中，若超過設定比例的圖像檢測到目標物件的嘴部處於張開狀態時，則可以確定所述目標物件處於說話狀態。反之，如果在設定時間內，若不超過設定比例的圖像檢測到目標物件的嘴部處於閉合狀態，則可以確定所述目標物件未說話。

在步驟204中，響應於所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進行回應。

由於目標物件與展示所述互動物件的終端設備可能不存在觸摸互動，在電子設備或者圖像採集設備周邊的目標物件較多，或者接收到的音訊訊號較多時，在目標物件開始說話或者發出語音指令時，電子設備可能無法及時判斷出有目標物件已經開始與互動物件進行互動。透過檢測電子設備或者圖像採集設備周邊的目標物件是否處於說話狀態，可以在確定一目標物件處於說話狀態時，及時驅動所述互動物件針對該目標物件進行回應，例如做出聆聽目標物件的姿態，或者針對所述目標物件進行特定的回應，例如，在所述目標物件為女士的情況下，可以驅動所述互動物件發出“女士，有什麼可以幫您的？”。

在本公開實施例中，透過根據第一圖像即時判斷目標物件是否在說話，可以在目標物件未與展示互動物件的終端設備進行觸摸互動的情況下，使互動物件對於目標物件說話及時做出回應，進入互動狀態，提高了目標物件的互動體驗。

在本公開實施例中，所述嘴部的關鍵點資訊包括位於目標物件的嘴部的多個關鍵點的位置資訊；所述多個關鍵點包括至少一組關鍵點對，所述關鍵點對至少包括分別位於上嘴唇處和下嘴唇處的兩個關鍵點。

圖3示出根據本公開實施例提供的互動物件的驅動方法中嘴部關鍵點的示意圖。在圖3所示的嘴部關鍵點中，可以獲取至少一組關鍵點對，例如關鍵點對（98，102），其中，關鍵點98位於上嘴唇中間處，關鍵點102位於下嘴唇中間處。

根據嘴部的至少一組關鍵點對的位置資訊，可以確定每個所述關鍵點對中分別位於上嘴唇處和下嘴唇處的兩個關鍵點的第一距離。例如，在獲取了一組關鍵點對（98，102）的情況下，根據關鍵點98和關鍵點102的位置資訊，則可以確定關鍵點98和關鍵點102的第一距離。

根據各組所述關鍵點對的所述第一距離可以確定所述目標物件是否處於說話狀態。

在嘴部的張開狀態和閉合狀態下，關鍵點98和關鍵點102之間的第一距離是不同的。在關鍵點98和關鍵點102之間的第一距離大於距離設定閾值的情況下，可以確定所述第一圖像中的目標物件的嘴部處於張開狀態；反之，在關鍵點98和關鍵點102之間的第一距離小於或等於所述距離設定閾值的情況下，則可以確定所述目標物件的嘴部處於閉合狀態。根據嘴部的閉合或張開的狀態，則可以確定所述目標是否處於說話狀態，也即所述目標物件當前是否正在說話。

本領域具有通常知識者應當理解，關鍵點對的選取不限點於（98，102），也可以其他一個關鍵點於上唇區域，另一個關鍵點位於下唇區域的關鍵點對。在選取了多組關鍵點對的情況下，可以根據多組關鍵點對所對應的第一距離的平均值或者加權平均值，來確定在所述第一圖像中，上唇關鍵點與下唇關鍵點之間的平均距離。而用於判斷嘴部閉合或張開的距離設定閾值，根據所選取的關鍵點對所處的部位確定。

在本公開實施例中，所述第一圖像為圖像序列中的一幀。其中，所述圖像序列可以是透過圖像採集設備獲取的視頻流，或者以設定頻率拍攝的多幀圖像。在所述第一圖像為圖像序列中的一幀的情況下，可以透過在所述圖像序列中，獲取設定數目的待處理圖像，根據各個待處理圖像中所述關鍵點對的第一距離來確定所述目標物件是否處於說話狀態。其中，所述待處理圖像包括所述第一圖像以及所述第一圖像之外的至少一幀第二圖像。對於每幀第二圖像，獲取所述第二圖像中每個關鍵點對的第一距離，根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述目標物件是否處於說話狀態。

例如，對於所述待處理圖像中的兩幀第二圖像，可以是與第一圖像相鄰的連續兩幀，也可以是與第一圖像形成相同間隔幀的兩幀第二圖像。例如，假設所述第一圖像是圖像序列中的第N幀，那麼所述兩幀第二圖像，可以是第N-1幀、第N-2幀；也可以是第N-2幀、第N-4幀，以此類推。

在本實施例中，根據第一圖像和各第二圖像中各關鍵點對的第一距離，能夠確定在設定數目的待處理圖像中目標物件嘴部處於張開狀態還是閉合狀態，從而確定所述目標物件是否處於說話狀態。

在一些實施例中，可以以設定長度的視窗以及設定步長在所述圖像序列中進行滑窗，每次滑動獲取設定數目的待處理圖像，並且，所述第一圖像為所述視窗內的最後一幀圖像。

需要說明的是，本公開所述的方法可以即時檢測目標物件是否處於說話狀態。也就是說所採集的第一圖像可能會一直增加。設置視窗，所述第一圖像可以為最新加入所述視窗的圖像，並且可以在增加第一圖像的同時丟棄最早加入所述視窗的第一幀圖像，也就是丟棄視窗內採集時間最早的一幀圖像。從而可以保證視窗內的多張圖像的採集時間較新。

在一種實現方式中，可以對視窗內所有的待檢測圖像同時進行處理，確定在這些待處理圖像中目標物件嘴部狀態，以判斷目標物件是否處於說話狀態。在另一種實現方式中，可以對視窗內所有的待檢測圖像分別進行處理，也就是說，每當視窗內新增加一幀待檢測圖像，即對該圖像進行檢測，確定該圖像中目標物件的嘴部狀態，並保存該嘴部狀態，在後續判斷目標物件是否處於說話狀態時，使用視窗內保存的當前多幀待檢測圖像中的每幀待檢測圖像的嘴部狀態。

視窗的長度與視窗所包含的待處理圖像的數目相關，視窗的長度越長，包含的待處理圖像的數目越多；進行滑窗的步長與獲取待處理圖像的時間間隔（頻率）相關，也即與對所述目標物件的說話狀態進行判斷的時間間隔相關。視窗的長度以及步長可以根據實際的互動場景進行設置。例如，在視窗的長度為10，步長為2的情況下，表明所述視窗可以包括10個待處理圖像，並且每次滑動在所述圖像序列中移動2幀圖像。

此外，視窗長度的設置與檢測的準確性相關。例如，若根據一張待處理圖像的檢測結果判斷目標物件的狀態，則判斷的準確性可能較低。根據多張待處理的檢測結果判斷目標物件的狀態，可以提高判斷的準確性。但是若窗口的長度過長，則會導致判斷的即時性較差。例如，目標物件對應著第N幀圖像的t1時刻開始說話，但是由於視窗內其他幀圖像（如N-1，N-2，…）的檢測結果仍表示目標物件未說話，因此t1時刻仍會判斷目標物件未開始說話，直到獲取了第N+i幀圖像的t2時刻，也就是視窗內超過設定比例的圖像的檢測結果表示目標物件處於開口狀態，才會判斷目標物件開始說話，其中，i至少取決於視窗的長度、步長、以及設定比例。因此，窗口的長度越長，t2與t1之間的時間差值越大，從而影響檢測的即時性。

在本公開實施例中，透過第一圖像以及所述第一圖像之前的第二圖像中目標物件的嘴部狀態，能夠確定在所述第一圖像中所述目標物件是否處於說話狀態。並且，透過滑窗的方式，每採集到一幀新的圖像，也即第一圖像，將該圖像作為視窗內的最後一幀圖像，從而可以即時檢測目標物件是否處於說話狀態。

在本公開實施例中，所述第一距離包括所述關鍵點對中的兩個關鍵點之間的歐氏距離。對於三維面部圖像而言，所述歐氏距離能夠更準確地衡量兩個關鍵點之間的距離和位置關係。

在一些實施例中，可以透過以下方式根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述目標物件是否處於說話狀態。

首先，確定所述第一圖像和各幀所述第二圖像中，各關鍵點對的歐氏距離的平均值大於第一設定閾值的圖像為靶心圖表像，或，確定各關鍵點對的歐氏距離的加權平均值大於第二設定閾值的圖像為靶心圖表像。也即，將所述待處理圖像中，所述目標物件的嘴部處於張開狀態的圖像確定為靶心圖表像。

之後，確定所述待處理圖像中所包含的靶心圖表像的數目。也即，確定所述待處理圖像中包含嘴部處於張開狀態的圖像（可以是待處理圖像中的第一圖像，也可以是待處理圖像中的第二圖像）的數目。

接下來，根據所述靶心圖表像的數目與所述待處理圖像的所述設定數目之間的比例，確定所述目標物件是否處於說話狀態。

響應於所述比例大於設定比例，確定所述第一圖像中的所述目標物件處於說話狀態；反之，響應於所述比例小於或等於設定比例，則確定所述目標物件當前並未說話。

在一些實施例中，可以根據所述待處理圖像的不同解析度設置不同的歐氏距離設定閾值。也即，所述第一設定閾值和所述第二閾值可以根據所述待處理圖像的解析度確定。

在一個示例中，可以在所述待處理圖像的解析度為720*1080的情況下，將歐氏距離設定閾值設置為9（例如，9個圖元點）。可以將視窗的長度設置為10，也即使所述視窗包括10個待處理圖像，並以步長1移動視窗。在設定比例為0.4的情況下，當所述視窗滑動到當前圖像幀時，如果所包含的10個待處理圖像中包含超過4個處於張嘴狀態的圖像時，則確定所述目標物件正處於說話狀態。

在另一個示例中，若待處理圖像的解析度不是720*1080，則可以透過剪裁、放大或縮小，將待處理圖像的解析度調整為720*1080；也可以根據待處理圖像的解析度，計算出該解析度下相應的歐氏距離設定閾值。

在所述互動物件處於待機狀態下，也即所述互動物件未與所述目標物件進行互動的狀態下，回應於首次確定所述第一圖像中的目標物件處於說話狀態，可以驅動所述互動物件進入與所述目標物件進行互動的狀態。

在目標物件未與展示所述互動物件的終端設備進行觸摸互動的情況下，透過以上方式能夠使互動物件及時對於目標物件處於說話狀態做出回應，進入互動狀態，提高目標物件的互動體驗。

圖4示出根據本公開實施例的互動物件的驅動裝置的結構示意圖，如圖4所示，該裝置可以包括：獲取單元401，用於獲取第一圖像；識別單元402，用於識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的所述嘴部的關鍵點資訊；確定單元403，用於根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態；驅動單元404，用於響應於確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進行回應。

在一些實施例中，所述嘴部的關鍵點資訊包括位於目標物件的嘴部的多個關鍵點的位置資訊；所述多個關鍵點包括至少一組關鍵點對，每個所述關鍵點對包括分別位於上嘴唇處和下嘴唇處的兩個關鍵點；所述確定模組403在根據所述嘴部的關鍵點資訊，確定所述目標物件是否處於說話狀態時，還用於根據所述至少一組關鍵點對的位置資訊，確定每個所述關鍵點對中分別位於所述上嘴唇處和所述下嘴唇處的兩個關鍵點的第一距離；以及根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態。

在一些實施例中，所述第一圖像為圖像序列中的一幀；所述確定單元403在用於根據各組所述關鍵點對的所述第一距離確定所述第一圖像中的所述目標物件是否處於說話狀態時，用於：在所述圖像序列中，獲取設定數目的待處理圖像，所述待處理圖像包括所述第一圖像以及至少一幀第二圖像；針對每幀第二圖像，獲取所述第二圖像中每個所述關鍵點對的第一距離；根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態。

在一些實施例中，所述確定單元403在用於在所述圖像序列中，獲取設定數目的待處理圖像時，用於：以設定長度的視窗以及設定步長在所述圖像序列中進行滑窗，每次滑動獲取設定數目的待處理圖像，其中，所述第一圖像為所述視窗內的最後一幀圖像。

在一些實施例中，所述關鍵點對的第一距離包括所述關鍵點對中的兩個關鍵點之間的歐氏距離，所述確定單元403在根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態時，用於：識別所述待處理圖像中的靶心圖表像；確定所述待處理圖像中所包含的靶心圖表像的數目；回應於所述靶心圖表像的數目與所述待處理圖像的所述設定數目之間的比例大於設定比例，確定所述第一圖像中的目標物件處於說話狀態。

在一些實施例中，所述確定模組403在所述待處理圖像中，確定所述靶心圖表像時，用於將所述各組關鍵點對的歐氏距離的平均值大於第一設定閾值的圖像確定為所述靶心圖表像；或，將所述各組關鍵點對的歐氏距離的加權平均值大於第二設定閾值的圖像確定為所述靶心圖表像。

在一些實施例中，所述第一設定閾值和所述第二設定閾值根據所述待處理圖像的解析度確定。

在一些實施例中，所述驅動單元404用於：在所述互動物件處於待機狀態下，回應於首次確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進入與所述目標物件進行互動的狀態。

本公開實施例還提供了一種電子設備，如圖5所示，所述設備包括記憶體、處理器，記憶體用於存儲可在處理器上運行的電腦指令，處理器用於在執行所述電腦指令時實現本公開任一實施例所述的互動物件的驅動方法。

在一些實施例中，所述設備例如為伺服器或終端設備，所述伺服器或終端設備根據第一圖像中的嘴部的關鍵點資訊確定目標狀態的說話狀態，從而對顯示器展示的互動物件進行控制。在所述終端設備包括顯示器的情況下，所述顯示器還包括顯示幕或者透明顯示幕，用於顯示互動物件的動畫。

本公開實施例還提供了一種電腦可讀存儲介質，其上存儲有電腦程式，所述程式被處理器執行時實現本公開任一實施例所述的互動物件的驅動方法。

本領域具有通常知識者應明白，本公開的一個或多個實施例可提供為方法、系統或電腦程式產品。因此，本公開一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本公開一個或多個實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用存儲介質（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的電腦程式產品的形式。

本公開中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於資料處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本公開特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多工處理和並行處理也是可以的或者可能是有利的。

本公開中描述的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的電腦軟體或固件、包括本文公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本公開中描述的主題的實施例可以實現為一個或多個電腦程式，即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播訊號上，例如機器生成的電、光或電磁訊號，該訊號被生成以將資訊編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦存儲介質可以是機器可讀存放裝置、機器可讀存儲基板、隨機或串列存取記憶體設備、或它們中的一個或多個的組合。

本公開中描述的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式設計電腦執行，以透過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路，例如現場可程式設計閘陣列（FPGA）或專用積體電路（ASIC）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行電腦程式的電腦包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和資料。電腦的基本元件包括用於實施或執行指令的中央處理單元以及用於存儲指令和資料的一個或多個記憶體設備。通常，電腦還將包括用於存儲資料的一個或多個大型存放區設備，例如磁片、磁光碟或光碟等，或者電腦將可操作地與此大型存放區設備耦接以從其接收資料或向其傳送資料，抑或兩種情況兼而有之。然而，電腦不是必須具有這樣的設備。此外，電腦可以嵌入在另一設備中，例如行動電話、個人數位助理（PDA）、行動音訊或影片播放機、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的可擕式存放裝置，僅舉幾例。

適合於存儲電腦程式指令和資料的電腦可讀介質包括所有形式的非揮發性記憶體、媒介和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁片（例如內部硬碟或行動硬碟）、磁光碟以及CD ROM和DVD-ROM硬碟。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。

雖然本公開包含許多具體實施細節，但是這些不應被解釋為限制任何發明的範圍或所要求保護的範圍，而是主要用於描述特定發明的具體實施例的特徵。本公開在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定循序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多工和並行處理可能是有利的。此外，上述實施例中的各種系統模組和元件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式元件和系統通常可以一起集成在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附申請專利範圍的範圍以內。在某些情況下，申請專利範圍中記載的動作可以以不同的循序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多工和並行處理可能是有利的。

以上所述僅為本公開的一個或多個實施例而已，並不用以限制本公開，凡在本公開一個或多個實施例的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本公開一個或多個實施例保護的範圍之內。

201、202、203、204:步驟 84、85、86、87、88、89:關鍵點 90、91、92、93、94、95、96、97、98、99:關鍵點 100、101、102、103:關鍵點 401:獲取單元 402:識別單元 403:確定單元 404:驅動單元

此處的附圖被併入本公開中並構成本公開的一部分，示出了符合本公開的實施例，並與本公開一起用於解釋本公開的原理。圖1是根據本公開實施例的互動物件的驅動方法中顯示器的示意圖。圖2是根據本公開實施例的互動物件的驅動方法的流程圖。圖3是根據本公開實施例的互動物件的驅動方法中嘴部關鍵點的示意圖。圖4是根據本公開實施例的互動物件的驅動裝置的結構示意圖。圖5是根據本公開實施例的電子設備的結構示意圖。

201、202、203、204:步驟

Claims

一種互動物件的驅動方法，包括：獲取第一圖像；識別所述第一圖像中至少包含目標物件的嘴部的面部區域圖像，並確定所述面部區域圖像包含的所述嘴部的關鍵點資訊；根據所述嘴部的關鍵點資訊，確定所述第一圖像中的所述目標物件是否處於說話狀態；回應於確定所述第一圖像中的所述目標物件處於說話狀態，驅動互動物件進行回應。
如請求項1所述的方法，其中所述嘴部的關鍵點資訊包括位於目標物件的嘴部的多個關鍵點的位置資訊；所述多個關鍵點包括至少一組關鍵點對，每組所述關鍵點對包括分別位於上嘴唇處和下嘴唇處的兩個關鍵點；所述根據所述嘴部的關鍵點資訊，確定所述目標物件是否處於說話狀態，包括：根據所述至少一組關鍵點對的位置資訊，確定每組所述關鍵點對中分別位於所述上嘴唇處和所述下嘴唇處的兩個關鍵點的第一距離；以及根據各組所述關鍵點對的所述第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態。
如請求項2所述的方法，其中所述第一圖像為圖像序列中的一幀，所述根據各組所述關鍵點對的所述第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態，包括：在所述圖像序列中，獲取設定數目的待處理圖像，所述待處理圖像包括所述第一圖像以及至少一幀第二圖像；針對每幀第二圖像，獲取所述第二圖像中每組所述關鍵點對的所述第一距離；根據所述第一圖像中各組所述關鍵點對的所述第一距離以及各幀所述第二圖像中各組所述關鍵點對的所述第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態。
如請求項3所述的方法，其中所述在所述圖像序列中，獲取設定數目的待處理圖像，包括：以設定長度的視窗以及設定步長在所述圖像序列中進行滑窗，每次滑動獲取所述設定數目的待處理圖像，其中，所述第一圖像為所述視窗內的最後一幀圖像。
如請求項3所述的方法，其中所述關鍵點對的第一距離包括所述關鍵點對中的兩個關鍵點之間的歐氏距離，所述根據所述第一圖像中各組所述關鍵點對的第一距離以及各幀所述第二圖像中各組所述關鍵點對的第一距離，確定所述第一圖像中的所述目標物件是否處於說話狀態，包括：識別所述待處理圖像中的靶心圖表像；確定所述待處理圖像中包含的所述靶心圖表像的數目；回應於所述靶心圖表像的數目與所述待處理圖像的所述設定數目之間的比例大於設定比例，確定所述第一圖像中的目標物件處於說話狀態。
如請求項5所述的方法，其中所述識別所述待處理圖像中的靶心圖表像，包括：將所述各組關鍵點對的歐氏距離的平均值大於第一設定閾值的圖像確定為所述靶心圖表像；或將所述各組關鍵點對的歐氏距離的加權平均值大於第二設定閾值的圖像確定為所述靶心圖表像。
如請求項6所述的方法，其中所述所述第一設定閾值和所述第二設定閾值根據所述待處理圖像的解析度確定。
如請求項1所述的方法，其中所述響應於所述目標物件處於說話狀態，驅動互動物件進行回應，包括：在所述互動物件處於待機狀態下，回應於首次確定所述第一圖像中的所述目標物件處於說話狀態，驅動所述互動物件進入與所述目標物件進行互動的狀態。
一種電子設備，所述設備包括記憶體、處理器，所述記憶體用於存儲可在處理器上運行的電腦指令，其中所述處理器用於在執行所述電腦指令時實現請求項1至8任一所述的方法。
一種電腦可讀存儲介質，其上存儲有電腦程式，其中所述程式被處理器執行時實現請求項1至8任一所述的方法。