TWI775134B

TWI775134B - 互動方法、裝置、設備以及記錄媒體

Info

Publication number: TWI775134B
Application number: TW109128905A
Authority: TW
Inventors: 張子隆; 孫林; 欒青
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-08-28
Filing date: 2020-08-25
Publication date: 2022-08-21
Also published as: US20220179609A1; TW202109246A; JP7224488B2; JP2022526772A; KR20210131415A; KR102707660B1; CN110716634A; WO2021036624A1

Abstract

本發明涉及互動方法、裝置、設備以及記錄媒體。所述方法之一包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中涉及的一個或多個對象進行檢測；響應於檢測到所述影像中涉及至少兩個對象，根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象；基於對所述目標對象的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標對象進行回應。

Description

互動方法、裝置、設備以及記錄媒體

本發明涉及電腦視覺技術領域，具體涉及一種互動方法、裝置、設備以及記錄媒體。

人機互動的方式大多為：用戶基於按鍵、觸摸、語音進行輸入，設備通過在顯示器上呈現影像、文本進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的，只是對設備的語音進行輸出，用戶與虛擬人物的互動還停留表面上。

本發明實施例提供一種互動方案。

第一方面，提供一種互動方法，所述方法包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中涉及的一個或多個對象進行檢測；響應於檢測到所述影像中涉及至少兩個對象，根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象；基於對所述目標對象的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標對象進行回應。

通過對顯示設備周邊的影像進行對象檢測，並根據對象的特徵資訊選擇目標對象，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標對象進行回應，能夠在多對象場景下選擇適合的目標對象進行互動，提高了互動效率，也能提升互動體驗。

在一個示例中，所述特徵資訊包括對象姿態資訊和/或對象屬性資訊。

在一個示例中，所述根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象，包括：根據所述至少兩個對象中每個對象的對象姿態資訊與設定姿態特徵的姿態匹配程度，或，根據所述至少兩個對象中每個對象的對象屬性資訊與設定屬性特徵的屬性匹配程度，從所述至少兩個對象中選擇所述目標對象。

通過根據各個對象的對象姿態資訊、對象屬性資訊等特徵資訊來從多個對象中選擇目標對象，可以選擇適合的對象作為進行互動的目標對象，從而提高互動效率以及服務體驗。

在一個示例中，所述根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象，包括：根據所述至少兩個對象中每個對象的對象姿態資訊，選取符合設定姿態特徵的一個或多個第一對象；在所述第一對象有至少兩個的情況下，驅動所述互動對象引導所述至少兩個第一對象各自輸出設定資訊，並根據檢測到的所述第一對象各自輸出所述設定資訊的順序，確定所述目標對象。

通過引導第一對象輸出設定資訊，可以從符合設定姿態特徵的對象中，選取出配合意願高的目標對象，可以提高互動效率以及服務體驗。

在一個示例中，所述根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象，包括：根據所述至少兩個對象中每個對象的對象姿態資訊，選取符合設定姿態特徵的一個或多個第一對象；在所述第一對象有至少兩個的情況下，根據所述至少兩個第一對象各自的對象屬性資訊，確定所述至少兩個第一對象各自的互動響應優先級，並根據所述互動響應優先級確定所述目標對象。

通過結合對象屬性資訊、對象姿態資訊、應用場景來從多個檢測到的對象中選擇目標對象，並通過設置不同的互動響應優先級來為目標對象提供相應服務，可以選擇適合的對象作為進行互動的目標對象，從而提高互動效率以及服務體驗。

在一個示例中，所述方法還包括：在從所述至少兩個對象中選擇目標對象後，驅動所述互動對象對所述目標對象輸出確認資訊。

通過向目標對象輸出確認資訊，可以使對象明確當前處於互動狀態，提高了互動效率。

在一個示例中，所述方法還包括：響應於在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中未檢測到對象且未追蹤到對象，確定所述互動對象的待互動對象為空，並使所述顯示設備進入等待對象狀態；響應於在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中檢測到對象或追蹤到對象，確定所述互動對象的待互動對象為最近一次進行互動的對象。

在沒有對象與互動對象進行互動的情況下，通過確定設備當前處於等待對象狀態或對象離開狀態，並驅動所述互動對象進行不同的回應，使所述互動對象的展示狀態更符合實際互動需求、更有針對性。

在一個示例中，所述顯示設備通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。

通過在透明顯示器上顯示立體畫面，並在透明顯示器或底板上形成倒影以實現立體效果，能夠使所顯示的互動對象更加立體、生動。

在一個示例中，所述互動對象包括具有立體效果的虛擬人物。

通過利用具有立體效果的虛擬人物與對象進行互動，可以使互動過程更加自然，提升對象的互動感受。

第二方面，提供一種互動裝置，所述裝置包括：影像獲取單元，用於獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；檢測單元，用於對所述影像中涉及的一個或多個對象進行檢測；對象選擇單元，用於響應於所述檢測單元檢測到所述影像中涉及至少兩個對象，根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象；驅動單元，用於基於對所述目標對象的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標對象進行回應。

在一個示例中，所述對象選擇單元具體用於：根據所述至少兩個對象中每個對象的對象姿態資訊與設定姿態特徵的姿態匹配程度，或，根據所述至少兩個對象中每個對象的對象屬性資訊與設定屬性特徵的屬性匹配程度，從所述至少兩個對象中選擇所述目標對象。

在一個示例中，所述對象選擇單元具體用於：根據所述至少兩個對象中每個對象的對象姿態資訊，選取符合設定姿態特徵的一個或多個第一對象；在所述第一對象有至少兩個的情況下，使所述驅動單元驅動所述互動對象引導所述至少兩個第一對象各自輸出設定資訊，並根據檢測到的所述第一對象各自輸出所述設定資訊的順序，確定所述目標對象。

在一個示例中，所述對象選擇單元具體用於：根據所述至少兩個對象中每個對象的對象姿態資訊，選取符合設定姿態特徵的一個或多個第一對象；在所述第一對象有至少兩個的情況下，根據所述至少兩個第一對象各自的對象屬性資訊，確定所述至少兩個第一對象各自的互動響應優先級，並根據所述互動響應優先級確定所述目標對象。

在一個示例中，所述裝置還包括確認單元，所述確認單元用於：響應於所述對象選擇單元從所述至少兩個對象中選擇了目標對象，使所述驅動單元驅動所述互動對象對所述目標對象輸出確認資訊。

在一個示例中，所述裝置還包括等待狀態單元，所述等待狀態單元用於：響應於所述檢測單元在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中未檢測到對象且未追蹤到對象，確定所述互動對象的待互動對象為空，並使所述顯示設備進入等待對象狀態。

在一個示例中，所述裝置還包括結束狀態單元，所述結束狀態單元用於：響應於所述檢測單元在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中檢測到對象或追蹤到對象，確定所述互動對象的待互動對象為最近一次進行互動的對象。

在一個示例中，所述顯示設備還通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備還在底板上顯示所述互動對象的倒影。

第三方面，提供一種互動設備，所述設備包括處理器；用於儲存可由處理器執行的指令的記憶體，在所述指令被執行時，促使所述處理器實現本發明提供的任一實施方式所述的互動方法。

第四方面，提供一種電腦可讀取記錄媒體，其上儲存有電腦程式，當所述電腦程式被處理器執行時，促使所述處理器實現本發明提供的任一實施方式所述的互動方法。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反，它們僅是與如所附申請權利範圍中所述的、本發明的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

圖1繪示根據本發明的至少一個實施例的互動方法的流程圖，如圖1所示，所述方法包括步驟101~步驟104。

在步驟101中，獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象。

所述顯示設備周邊，包括所述顯示設備的設定範圍內任意方向，例如可以包括所述顯示設備的前向、側向、後方、上方中的一個或多個方向。

用於擷取影像的攝像頭，可以設置在顯示設備上，也可以作為外接設備，獨立於顯示設備之外。並且所述攝像頭擷取的影像，也可以在顯示設備中的透明顯示器上進行顯示。所述攝像頭的數量可以為多個。

可選的，攝像頭所擷取的影像可以是影片流中的一幀，也可以是即時獲取的影像。

在步驟102中，對所述影像中涉及的一個或多個用戶進行檢測。本文所述的影像中的一個或多個用戶是指在對影像的檢測過程中涉及的一個或多個對象。在下文中，“對象”和“用戶”可以互換使用，為了表述方便，統稱為“用戶”。

通過對顯示設備周邊的影像中的用戶進行檢測，獲得檢測結果，例如所述顯示設備周邊是否有用戶、有幾個用戶，也可以獲得關於所檢測到的用戶的資訊，例如通過影像識別技術從所述影像中獲取的特徵資訊，或者根據所述用戶的人臉和/或人體影像在顯示設備端或者雲端進行查詢獲得的特徵資訊，等等。本領域技術人員應當理解，所述檢測結果還可以包括其他資訊。

在步驟103中，響應於檢測到所述影像中涉及至少兩個用戶，根據檢測到的所述至少兩個用戶的特徵資訊，從所述至少兩個用戶中選擇目標用戶。

對於不同的應用場景，可以根據相應的特徵資訊來選擇用戶。

在步驟104中，基於對所述目標用戶的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。

響應於對不同目標用戶的檢測結果，將驅動所述互動對象對所述不同目標用戶進行相應的回應。

本發明實施例中，通過對顯示設備周邊的影像進行用戶檢測，並根據用戶的特徵資訊選擇目標用戶，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標用戶進行回應，能夠在多用戶場景下選擇適合當前場景的目標用戶進行互動，提高了互動效率和服務體驗。

在一些實施例中，所述顯示設備的透明顯示器顯示的互動對象包括具有立體效果的虛擬人物。

通過利用具有立體效果的虛擬人物與用戶進行互動，可以使互動過程更加自然，提升用戶的互動感受。

本領域技術人員應當理解，互動對象並不限於具有立體效果的虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象。

在一些實施例中，可以通過以下方法實現透明顯示器所顯示的互動對象的立體效果。

人眼看到物體是否為立體的觀感，通常由物體本身的外形以及物體的光影效果所決定。該光影效果例如為在物體不同區域的高光和暗光，以及光線照射在物體後在地面的投影（即倒影）。

利用以上原理，在一個示例中，在透明顯示器上顯示出互動對象的立體影片或影像的畫面的同時，還在透明顯示器上顯示出該互動對象的倒影，從而使得人眼可以觀察到立體畫面。

在另一個示例中，所述透明顯示器的下方設置有底板，並且所述透明顯示器與所述底板呈垂直或傾斜狀。在透明顯示器顯示出互動對象的立體影片或影像的畫面的同時，在所述底板上顯示出所述互動對象的倒影，從而使得人眼可以觀察到立體畫面。

在一些實施例中，所述顯示設備還包括箱體，並且所述箱體的正面設置為透明，例如通過玻璃、塑料等材料實現透明設置。透過箱體的正面能夠看到透明顯示器的畫面以及透明顯示器或底板上畫面的倒影，從而使得人眼可以觀察到立體畫面，如圖2所示。

在一些實施例中，箱體內還設有一個或多個光源，以為透明顯示器提供光線以形成倒影。

在本發明實施例中，通過在透明顯示器上顯示互動對象的立體影片或影像的畫面，並在透明顯示器或底板上形成該互動對象的倒影以實現立體效果，能夠使所顯示的互動對象更加立體、生動，提升用戶的互動感受。

在一些實施例中，所述特徵資訊包括用戶姿態資訊和/或用戶屬性資訊，可以根據用戶姿態資訊和/或用戶屬性資訊從檢測到的至少兩個用戶中選擇目標用戶。

其中，所述用戶姿態資訊是指通過在影像中進行影像識別所獲得的特徵資訊，例如用戶的動作、手勢等等。用戶屬性資訊是指關於用戶自身的特徵資訊，包括所述用戶的身份（比如是否為VIP用戶）、服務記錄、到達當前場所的時間等等。所述屬性特徵資訊可以從儲存在顯示設備端或者雲端的用戶歷史記錄中獲得，所述用戶歷史記錄可以通過在所述顯示設備端或者雲端檢索與所述用戶的人臉和/或人體的特徵資訊相匹配的記錄而獲得。

在一些實施例中，可以根據所述至少兩個用戶中每個用戶的用戶姿態資訊與設定姿態特徵的姿態匹配程度，從所述至少兩個用戶中選擇目標用戶。

例如，假設設定姿態特徵為舉手動作，可以通過將所述至少兩個用戶的用戶姿態資訊與舉手動作進行匹配，將所述至少兩個用戶的匹配結果中姿態匹配程度最高的用戶確定為目標用戶。

在一些實施例中，可以根據所述至少兩個用戶中每個用戶的用戶屬性資訊與設定屬性特徵的屬性匹配程度，從所述至少兩個用戶中選擇目標用戶。

例如，假設設定屬性特徵為VIP用戶、女性，可以通過將所述至少兩個用戶的用戶屬性資訊與所述設定屬性特徵進行匹配，將所述至少兩個用戶的匹配結果中屬性匹配程度最高的用戶確定為互動對象。

在本發明實施例中，通過根據各個用戶的用戶姿態資訊、用戶屬性資訊等特徵資訊來從檢測到的至少兩個用戶中選擇目標用戶，可以選擇適合當前應用場景的用戶作為進行互動的目標用戶，從而提高互動效率以及服務體驗。

在一些實施例中，可以通過以下方式從所述至少兩個用戶中選擇目標用戶：

首先，根據所述至少兩個用戶的用戶姿態資訊，選取符合設定姿態特徵的第一用戶。其中，符合設定姿態特徵，是指用戶姿態資訊與所述設定姿態特徵的姿態匹配程度大於設定值，例如大於80%。

舉例來說，假設設定姿態特徵為舉手動作，首先在影像中，選取用戶姿態資訊與舉手動作的姿態匹配程度高於80%（認為該用戶進行了舉手動作）的第一用戶，也即選取所有進行了舉手動作的用戶。

在第一用戶有至少兩個的情況下，可以進一步通過以下方法來確定目標用戶：驅動所述互動對象引導所述至少兩個第一用戶各自輸出設定資訊，並根據檢測到的所述第一用戶各自輸出所述設定資訊的順序，確定所述目標用戶。

在一個示例中，第一用戶輸出的設定資訊可以為動作、表情、語音中的一項或多項。例如，引導至少兩個第一用戶進行跳躍動作，將最先進行跳躍動作的第一用戶確定為目標用戶。

在本發明實施例中，通過引導第一用戶輸出設定資訊，可以從符合設定姿態特徵的用戶中，選取出配合意願高的目標用戶，可以提高互動效率以及服務體驗。

在第一用戶有至少兩個的情況下，還可以進一步通過以下方法來確定目標用戶：

在所述第一用戶有至少兩個的情況下，根據所述至少兩個第一用戶各自的用戶屬性資訊，確定所述至少兩個第一用戶各自的互動響應優先級；並根據所述互動響應優先級確定所述目標用戶。

例如，如果進行舉手動作的第一用戶超過一個，則在這些舉手的第一用戶中，根據各第一用戶的用戶屬性資訊來確定互動響應優先級，並將優先級最高的第一用戶確定為目標用戶。其中，作為選取依據的用戶屬性資訊，可以結合用戶當前的需求、實際的場景綜合判斷。例如，在排隊購票的場景下，可以將到達當前場所的時間作為所依據的用戶屬性資訊，來確定互動優先級。最先到達的用戶具有最高的互動響應優先級，可以將其確定為目標用戶；在其他服務場所，還可以將根據其他用戶屬性資訊確定目標用戶，例如根據用戶在該場所的積分確定互動優先級，使積分最高的用戶具有最高的互動響應優先級。

在一個示例中，在確定了所述至少兩個第一用戶的互動響應優先級後，還可以進一步引導各個用戶輸出設定資訊。如果輸出設定資訊的第一用戶數量仍然多於一個，則可以將其中互動響應優先級最高的用戶確定為目標用戶。

在本公實施例中，結合用戶屬性資訊、用戶姿態資訊、應用場景來從多個檢測到的用戶中選擇目標用戶，並可以通過設置不同的互動響應優先級來為目標用戶提供相應服務，來選擇適合的用戶作為進行互動的目標用戶，提高了互動效率以及服務體驗。

在確定了將某一用戶作為進行互動的目標用戶後，可以通過向該用戶輸出確認資訊，以告知該用戶被選中。例如，可以驅動所述互動對象用手指向該用戶，或者驅動所述互動對象在攝像頭預覽畫面中高亮選中該用戶，或者通過其他方式輸出確認資訊。

在本發明實施例中，通過向目標用戶輸出確認資訊，可以使用戶明確當前處於互動狀態，提高了互動效率。

在某一用戶被選中作為進行互動的目標用戶後，所述互動對象僅響應或者優先響應該目標用戶的指令，直至該目標用戶離開攝像頭的拍攝範圍。

在設備周邊的影像中未檢測到用戶的情況下，表示所述顯示設備周邊沒有用戶，也即該設備當前並未處於與用戶進行互動的狀態。這種狀態包含了在當前時刻之前的設定時間段內都沒有用戶與設備進行互動，也即等待用戶狀態；還包含了用戶在當前時刻之前的設定時間段內與用戶進行了互動，設備正處於用戶離開狀態。對於這兩種不同的狀態，應當驅動所述互動對象進行不同的反應。例如，對於等待用戶狀態，可以驅動所述互動對象結合當前環境做出歡迎用戶的回應；而對於用戶離開狀態，可以驅動所述互動對象對最近一次進行互動的用戶做出結束服務的回應。

在一些實施例中，響應於在當前時刻從所述影像中未檢測到用戶，且在當前時刻之前的設定時間段內，例如5秒鐘內，從所述影像中未檢測到用戶且未追蹤到用戶，確定所述互動對象的待互動用戶為空，並驅動所述顯示設備上的所述互動對象進入等待用戶狀態。

在一些實施例中，響應於當前時刻從所述影像中未檢測到用戶，且在當前時刻之前的設定時間段內從所述影像中檢測到用戶或追蹤到用戶，確定所述互動對象的待互動用戶為最近一次進行互動的用戶。

在本發明實施例中，在沒有用戶與互動對象進行互動的情況下，通過確定設備當前處於等待用戶狀態或用戶離開狀態，並驅動所述互動對象進行不同的回應，使所述互動對象的展示狀態更符合互動需求、更有針對性。

在一些實施例中，所述檢測結果還可以包括所述設備的當前服務狀態，所述當前服務狀態除了等待用戶狀態、用戶離開狀態，還可以包括發現用戶狀態等等。本領域技術人員應當理解，所述設備的當前服務狀態還可以包括其他狀態，不限於以上所述。

在從設備周邊的影像中檢測到了人臉和/或人體的情況下，表示所述顯示設備周邊存在用戶，則可以將檢測到用戶這一時刻的狀態確定為發現用戶狀態。

在發現用戶狀態下，對於所檢測到的用戶，還可以獲取儲存在所述顯示設備中的用戶歷史資訊，和/或，獲取儲存在雲端的用戶歷史資訊，以確定該用戶是否為老顧客，或者是否為VIP客戶。所述用戶歷史資訊還可以包含所述用戶的姓名、性別、年齡、服務記錄、備註等等。該用戶歷史資訊可以包含所述用戶自行輸入的資訊，也可以包括所述顯示設備和/或雲端記錄的資訊。通過獲取用戶歷史資訊，可以驅動所述互動對象更有針對性地對所述用戶進行回應。

在一個示例中，可以根據所檢測到的用戶的人臉和/或人體的特徵資訊去查找與所述用戶相匹配的用戶歷史資訊。

在顯示設備處於發現用戶狀態時，可以根據所述顯示設備的當前服務狀態、從所述影像獲取的用戶屬性資訊、通過查找獲取的用戶歷史資訊，來驅動所述互動對象進行回應。在初次檢測到一個用戶的時候，所述用戶歷史資訊可以為空，也即根據所述當前服務狀態、所述用戶屬性資訊和所述環境資訊來驅動所述互動對象。

在顯示設備周邊的影像中檢測到一個用戶的情況下，可以首先通過影像對該用戶進行人臉和/或人體識別，獲得關於所述用戶的基本用戶屬性資訊，例如該用戶為女性，年齡在20歲~30歲之間；之後根據該用戶的人臉和/或人體特徵資訊，在顯示設備端和/或雲端進行搜索，以查找與所述特徵資訊相匹配的用戶歷史資訊，例如該用戶的姓名、服務記錄等等。之後，在發現用戶狀態下，驅動所述互動對象對該女性用戶作出有針對性的歡迎動作，並向該女性用戶展示可以為其提供的服務。根據用戶歷史資訊中包括的該用戶曾經使用的服務項目，可以調整提供服務的順序，以使用戶能夠更快的發現感興趣的服務項目。

當在設備周邊的影像中檢測到至少兩個用戶的情況下，可以首先獲得所述至少兩個用戶的特徵資訊，該特徵資訊可以包括用戶姿態資訊、用戶屬性資訊中的至少一項，並且所述特徵資訊與用戶歷史資訊對應，其中，所述用戶姿態資訊可以通過對所述影像中所述用戶的動作進行識別而獲得。

接下來，根據所獲得的所述至少兩個用戶的特徵資訊來確定所述至少兩個用戶中的目標用戶。可以結合實際的場景綜合評估各個用戶的特徵資訊，以確定待進行互動的目標用戶。

在確定了目標用戶後，則可以驅動所述顯示設備上顯示的所述互動對象對所述目標用戶進行回應。

在一些實施例中，在發現用戶狀態下，驅動所述互動對象進行回應之後，通過追蹤在顯示設備周邊的影像中所檢測到的用戶，例如可以追蹤所述用戶的面部表情，和/或，追蹤所述用戶的動作，等等，並通過判斷所述用戶有無主動互動的表情和/或動作來判斷是否要使所述顯示設備進入服務啟動狀態。

在一個示例中，在追蹤所述用戶時，可以設置指定觸發資訊，例如眨眼、點頭、揮手、舉手、拍打等常見的人與人之間打招呼的表情和/或動作。為了與下文進行區別，此處不妨將所設置的指定觸發資訊稱為第一觸發資訊。在檢測到所述用戶輸出的所述第一觸發資訊的情況下，則確定所述顯示設備進入服務啟動狀態，並驅動所述互動對象展示所提供的服務，例如可以利用語言展示，也可以用顯示在螢幕上的文字資訊來展示。

目前常見的體感互動需要用戶先舉手一段時間來啟動服務，選中服務後需要保持手部位置不動若干秒後才能完成啟動。本發明實施例所提供的互動方法，無需用戶先舉手一段時間啟動服務，也無需保持手部位置不同完成選擇，通過自動判斷用戶的指定觸發資訊，可以自動啟動服務，使設備處於服務啟動狀態，避免了用戶舉手等待一段時間，提升了用戶體驗。

在一些實施例中，在服務啟動狀態下，可以設置指定觸發資訊，例如特定的手勢動作，和/或特定的語音指令等。為了與上文進行區別，此處不妨將所設置的指定觸發資訊稱為第二觸發資訊。在檢測到所述用戶輸出的所述第二觸發資訊的情況下，則確定所述顯示設備進入服務中狀態，並驅動所述互動對象提供與所述第二觸發資訊匹配的服務。

在一個示例中，通過用戶輸出的第二觸發資訊來執行相應的服務。例如，可以為用戶提供的服務包括：第一服務選項、第二服務選項、第三服務選項等等，可以並且為第一個服務選項配置相應的第二觸發資訊，例如，可以設置語音“一”為第一服務選項相對應的第二觸發資訊，設置語音“二”為與第二服務選項相對應的第二觸發資訊，以此類推。當檢測到所述用戶輸出其中一個語音，則使所述顯示設備進入與第二觸發資訊相應的服務選項，並驅動所述互動對象根據服務選項所設置的內容提供服務。

在本發明實施例中，在所述顯示設備進入發現用戶狀態之後，提供兩種粒度的識別方式。第一粒度（粗粒度）識別方式為在檢測到用戶輸出的第一觸發資訊的情況下，使設備進入服務啟動狀態，並驅動所述互動對象展示所提供的服務；第二粒度（細粒度）識別方式為在檢測到用戶輸出的第二觸發資訊的情況下，使設備進入服務中狀態，並驅動所述互動對象提供相應的服務。通過上述兩種粒度的識別方式，能夠使用戶與互動對象的互動更流暢、更自然。

通過本發明實施例提供的互動方法，用戶無需進行按鍵、觸摸或者語音輸入，僅站在顯示設備的周邊，顯示設備中顯示的互動對象即可以有針對性地做出歡迎的動作，並按照用戶的需求或者興趣展示能夠提供的服務項目，提升用戶的使用感受。

在一些實施例中，可以獲取所述顯示設備的環境資訊，根據所述檢測結果和所述環境資訊，來驅動所述顯示設備上顯示的所述互動對象進行回應。

所述顯示設備的環境資訊可以通過所述顯示設備的地理位置和/或所述顯示設備的應用場景獲取。所述環境資訊例如可以是所述顯示設備的地理位置、網際網路協議（Internet Protocol, IP）地址，也可以是所述顯示設備所在區域的天氣、日期等等。本領域技術人員應當理解，以上環境資訊僅為示例，還可以包括其他環境資訊。

舉例來說，在顯示設備處於等待用戶狀態和用戶離開狀態時，可以根據所述顯示設備的當前服務狀態和環境資訊驅動所述互動對象進行回應。例如，在所述顯示設備處於等待用戶狀態時，環境資訊包括時間、地點、天氣情況，可以驅動顯示設備所顯示的互動對象做出歡迎的動作和手勢，或者做出一些有趣的動作，並輸出語音“現在是X年X月X日XX時刻，天氣XX，歡迎光臨XX城市的XX商場，很高興為您服務”。在通用的歡迎動作、手勢和語音外，還加入了當前時間、地點和天氣情況，不但提供了更多資訊，還使互動對象的反應更符合互動需求、更有針對性。

通過對顯示設備周邊的影像進行用戶檢測，並根據檢測結果和所述顯示設備的環境資訊，來驅動所述顯示設備中顯示的互動對象進行回應，使互動對象的反應更符合互動需求，使用戶與互動對象之間的互動更加真實、生動，從而提升用戶體驗。

在一些實施例中，可以根據所述檢測結果和所述環境資訊，獲得相匹配的、預定的回應標籤；之後根據所述回應標籤來驅動所述互動對象做出相應的回應。本申請對此並不限定。

所述回應標籤可以對應於所述互動對象的動作、表情、手勢、語言中的一項或多項的驅動文本。對於不同的檢測結果和環境資訊，可以根據所確定的回應標籤獲得相應的驅動文本，從而可以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

例如，若當前服務狀態為等待用戶狀態，並且環境資訊指示地點為上海，對應的回應標籤可以是：動作為歡迎動作，語音為“歡迎來到上海”。

再比如，若當前服務狀態為發現用戶狀態，並且環境資訊指示時間為上午，用戶屬性資訊指示女性，並且用戶歷史記錄指示姓氏為張，對應的回應標籤可以是：動作為歡迎動作，語音為“張女士上午好，歡迎光臨，很高興為您提供服務”。

通過對於不同的檢測結果和不同的環境資訊的組合配置相應的回應標籤，並通過所述回應標籤來驅動互動對象輸出相應的動作、表情、語言中的一項或多項，可以驅動互動對象根據設備的不同狀態、不同的場景，做出不同的回應，以使所述互動對象的回應更加多樣化。

在一些實施例中，可以通過將所述回應標籤輸入至預先訓練的神經網路，輸出與所述回應標籤對應的驅動文本，以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

其中，所述神經網路可以通過樣本回應標籤集來進行訓練，其中，所述樣本回應標籤標注了對應的驅動文本。所述神經網路經訓練後，對於所輸出的回應標籤，能夠輸出相應的驅動文本，以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。相較於直接在顯示設備端或雲端搜索對應的驅動文本，採用預先訓練的神經網路，對於沒有預先設置驅動文本的回應標籤，也能夠生成驅動文本，以驅動所述互動對象進行適當的回應。

在一些實施例中，針對高頻、重要的場景，還可以通過人工配置的方式進行優化。也即，對於出現頻次較高的檢測結果與環境資訊的組合，可以為其對應的回應標籤人工配置驅動文本。在該場景出現時，自動調用相應的驅動文本驅動所述互動對象進行回應，以使互動對象的動作、表情更加自然。

在一個實施例中，響應於所述顯示設備處於發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述顯示設備中的互動對象的位置資訊；並根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。

在一些實施例中，所述互動對象的影像是通過虛擬攝像頭擷取的。虛擬攝像頭是應用於3D軟體、用於擷取影像的虛擬軟體攝像頭，互動對象是通過所述虛擬攝像頭擷取的3D影像顯示在螢幕上的。因此用戶的視角可以理解為3D軟體中虛擬攝像頭的視角，這樣就會帶來一個問題，就是互動對象無法實現用戶之間的眼神交流。

為了解決以上問題，在本發明至少一個實施例中，在調整互動對象的身體朝向的同時，還使所述互動對象的視線保持對準所述虛擬攝像頭。由於互動對象的在互動過程中面向用戶，並且視線保持對準虛擬攝像頭，因此用戶會有互動對象正看自己的錯覺，可以提升用戶與互動對象互動的舒適性。

圖3繪示根據本發明至少一個實施例的互動裝置的結構示意圖，如圖3所示，該裝置可以包括：影像獲取單元301、檢測單元302、用戶選擇單元303和驅動單元304。

其中，影像獲取單元301，用於獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；檢測單元302，用於對所述影像中涉及的一個或多個用戶進行檢測；用戶選擇單元303，用於響應於所述檢測單元302檢測到所述影像中涉及至少兩個用戶，根據檢測到的所述至少兩個用戶的特徵資訊，從所述至少兩個用戶中選擇目標用戶；驅動單元304，用於基於對所述目標用戶的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。本文所述的影像中的一個或多個用戶是指在對影像的檢測過程中涉及的一個或多個對象。在下文中，“對象”和“用戶”可以互換使用，為了表述方便，統稱為“用戶”。

在一些實施例中，所述特徵資訊包括用戶姿態資訊和/或用戶屬性資訊。

在一些實施例中，所述用戶選擇單元303具體用於：根據所述至少兩個用戶中每個用戶的用戶姿態資訊與設定姿態特徵的姿態匹配程度，或，根據所述至少兩個用戶中每個用戶的用戶屬性資訊與設定屬性特徵的屬性匹配程度，從所述至少兩個用戶中選擇目標用戶。

在一些實施例中，所述用戶選擇單元303具體用於：根據所述至少兩個用戶中每個用戶的用戶姿態資訊，選取符合設定姿態特徵的一個或多個第一用戶；在所述第一用戶有至少兩個的情況下，使所述驅動單元304驅動所述互動對象引導所述至少兩個第一用戶各自輸出設定資訊；並根據檢測到的所述第一用戶各自輸出所述設定資訊的順序，確定所述目標用戶。

在一些實施例中，所述用戶選擇單元303具體用於：根據所述至少兩個用戶中每個用戶的用戶姿態資訊，選取符合所述設定姿態特徵的一個或多個第一用戶；在所述第一用戶有至少兩個的情況下，根據所述至少兩個第一用戶各自的用戶屬性資訊，確定所述至少兩個第一用戶各自的互動響應優先級；並根據所述互動響應優先級確定所述目標用戶。

在一些實施例中，所述裝置還包括確認單元，所述確認單元用於：響應於所述用戶選擇單元303從所述至少兩個用戶中選擇了目標用戶，使所述驅動單元驅動所述互動對象對所述目標用戶輸出確認資訊。

在一些實施例中，所述裝置還包括等待狀態單元，所述等待狀態單元用於：響應於所述檢測單元302在當前時刻從所述影像中未檢測到用戶，且在當前時刻之前的設定時間段內從所述影像中未檢測到用戶且未追蹤到用戶，確定所述互動對象的待互動用戶為空，並使所述顯示設備進入等待用戶狀態。

在一些實施例中，所述裝置還包括結束狀態單元，所述結束狀態單元用於：響應於所述檢測單元302在當前時刻從所述影像中未檢測到用戶，且在當前時刻之前的設定時間段內從所述影像中檢測到用戶或追蹤到用戶，確定所述互動對象的待互動用戶為最近一次進行互動的用戶。

在一些實施例中，所述顯示設備通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。

在一些實施例中，所述互動對象包括具有立體效果的虛擬人物。

本發明至少一個實施例還提供了一種互動設備，如圖4所示，所述設備包括記憶體401、處理器402。記憶體401用於儲存可由處理器執行的指令，所述指令被執行時，促使處理器402實現本發明任一實施例所述的互動方法。

本發明至少一個實施例還提供了一種電腦可讀取記錄媒體，其上儲存有電腦程式，所述電腦程式被處理器執行時，使所述處理器實現本發明任一實施例所述的互動方法。

本領域技術人員應明白，本發明一個或多個實施例可提供為方法、系統或電腦程式產品。因此，本發明一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本發明一個或多個實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用記錄媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的電腦程式產品的形式。

本發明中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於資料處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本發明特定實施例進行了描述。其它實施例在所附申請權利範圍的範圍內。在一些情況下，在申請權利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求繪示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本發明中的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的電腦軟體或韌體、包括本發明中公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本發明中的主題的實施例可以實現為一個或多個電腦程式，即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播信號上，例如機器生成的電、光或電磁信號，該信號被生成以將資訊編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦記錄媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。

本發明中的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式電腦執行，以通過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可程式閘陣列）或ASIC（專用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行電腦程式的電腦包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和資料。電腦的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和資料的一個或多個記憶體設備。通常，電腦還將包括用於儲存資料的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者電腦將可操作地與此大容量儲存設備耦接以從其接收資料或向其傳送資料，抑或兩種情況兼而有之。然而，電腦不是必須具有這樣的設備。此外，電腦可以嵌入在另一設備中，例如行動電話、個人數位助理（PDA）、移動音頻或影片播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存電腦程式指令和資料的電腦可讀取記錄媒體包括所有形式的非揮發性記憶體、媒介和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或隨身硬碟）、磁光碟以及CD ROM和DVD-ROM碟。處理器和記憶體可由專用邏輯電路補充或並入專用邏輯電路中。

雖然本發明包含許多具體實施細節，但是這些不應被解釋為限制本發明的範圍或所要求保護的範圍，而是主要用於描述本發明的一些實施例的特徵。本發明的多個實施例中的某些特徵也可以在單個實施例中被組合實施。另一方面，在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起集成在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附申請權利範圍的範圍以內。在某些情況下，申請權利範圍中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本發明的一些實施例而已，並不用以限制本發明。凡在本發明的精神和原則之內所做的任何修改、等同替換、改進等，均應包含在本發明的範圍之內。

101~104:步驟 301:影像獲取單元 302:檢測單元 303:用戶選擇單元 304:驅動單元 401:記憶體 402:處理器

圖1繪示根據本發明至少一個實施例的互動方法的流程圖。圖2繪示根據本發明至少一個實施例的顯示互動對象的示意圖。圖3繪示根據本發明至少一個實施例的互動裝置的結構示意圖。圖4繪示根據本發明至少一個實施例的互動設備的結構示意圖。

101~104:步驟

Claims

一種互動方法，所述方法包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中涉及的一個或多個對象進行檢測；響應於檢測到所述影像中涉及至少兩個對象，根據檢測到的所述至少兩個對象的特徵資訊，從所述至少兩個對象中選擇目標對象；基於對所述目標對象的檢測結果，驅動所述顯示設備的透明顯示器上顯示的所述互動對象對所述目標對象進行回應；其中，所述特徵資訊包括對象姿態資訊和/或對象屬性資訊；其中，根據檢測到的所述至少兩個對象的所述特徵資訊，從所述至少兩個對象中選擇所述目標對象的步驟包括：根據所述至少兩個對象中每個對象的所述對象姿態資訊，選取符合設定姿態特徵的一個或多個第一對象；在所述第一對象有至少兩個的情況下，根據所述至少兩個第一對象各自的所述對象屬性資訊，確定所述至少兩個第一對象各自的互動響應優先級，並根據所述互動響應優先級確定所述目標對象。
如請求項1所述的方法，其中，根據檢測到的所述至少兩個對象的所述特徵資訊，從所述至少兩個對象中選擇所述目標對象的步驟包括：根據所述至少兩個對象中每個對象的所述對象姿態資訊與設定姿態特徵的姿態匹配程度，或，根據所述至少兩個對象中每個對象的所述對象屬性資訊與設定屬性特徵的屬性匹配程度，從所述至少兩個對象中選擇所述目標對象。
如請求項1所述的方法，其中，根據檢測到的所述至少兩個對象的所述特徵資訊，從所述至少兩個對象中選擇所述目標對象的步驟包括：在所述第一對象有至少兩個的情況下，驅動所述互動對象引導所述至少兩個第一對象各自輸出設定資訊，並根據檢測到的所述至少兩個第一對象各自輸出所述設定資訊的順序，確定所述目標對象。
如請求項1所述的方法，所述方法還包括：在從所述至少兩個對象中選擇所述目標對象後，驅動所述互動對象對所述目標對象輸出確認資訊。
如請求項1所述的方法，所述方法還包括：響應於在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中未檢測到對象且未追蹤到對象，確定所述互動對象的待互動對象為空，並使所述顯示設備進入等待對象狀態；響應於在當前時刻從所述影像中未檢測到對象，且在當前時刻之前的設定時間段內從所述影像中檢測到對象或追蹤到對象，確定所述互動對象的待互動對象為最近一次進行互動的對象。
如請求項1所述的方法，其中，所述顯示設備通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。
一種互動設備，所述設備包括：處理器；以及用於儲存可由所述處理器執行的指令的記憶體，其中，所述指令在被執行時，促使所述處理器實現如請求項1至6任一項所述的互動方法。
一種電腦可讀取記錄媒體電腦，其上儲存有電腦程式，其中，所述電腦程式被處理器執行時，使所述處理器實現如請求項1至6任一項所述的互動方法。