TWI775135B

TWI775135B - 互動方法、裝置、設備以及記錄媒體

Info

Publication number: TWI775135B
Application number: TW109128919A
Authority: TW
Inventors: 張子隆; 劉暢
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-08-28
Filing date: 2020-08-25
Publication date: 2022-08-21
Also published as: WO2021036622A1; JP2022526511A; CN110716641A; TW202109247A; CN110716641B; US20220300066A1; KR20210129714A

Abstract

本發明涉及互動方法、裝置、設備以及記錄媒體。所述方法之一包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中人臉和人體中的至少一項進行檢測，獲得檢測結果；根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

Description

互動方法、裝置、設備以及記錄媒體

本發明涉及電腦視覺技術領域，具體涉及一種互動方法、裝置、設備以及記錄媒體。

人機互動的方式大多為：用戶基於按鍵、觸摸、語音進行輸入，設備通過在顯示器上呈現影像、文本或虛擬人物進行回應。目前虛擬人物多是在語音助理的基礎上改進得到的，只是對設備輸入的語音進行輸出，用戶與虛擬人物的互動還停留表面上。

本發明實施例提供一種互動方案。

第一方面，提供一種互動方法，所述方法包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果；根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

在本發明實施例中，通過對顯示設備周邊的影像進行檢測，並根據檢測結果驅動顯示設備的所述透明顯示器上顯示的互動對象進行回應，可以使互動對象的回應更符合實際互動需求，並使用戶與所述互動對象之間的互動更加真實、生動，從而提升用戶體驗。

在一個示例中，所述顯示設備通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。

通過在透明顯示器上顯示立體畫面，並在透明顯示器或底板上形成倒影以實現立體效果，能夠使所顯示的互動對象更加立體、生動，提升用戶的互動感受。

在一個示例中，所述互動對象包括具有立體效果的虛擬人物。

通過利用具有立體效果的虛擬人物與用戶進行互動，可以使互動過程更加自然，提升用戶的互動感受。

在一個示例中，所述檢測結果至少包括所述顯示設備的當前服務狀態；所述當前服務狀態包括等待用戶狀態、用戶離開狀態、發現用戶狀態、服務啟動狀態、服務中狀態中的任一種。

通過結合設備的當前服務狀態來驅動所述互動對象進行回應，可以使所述互動對象的回應更符合用戶的互動需求。

在一個示例中，所述對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果，包括：響應於當前時刻未檢測到所述人臉和所述人體，且在當前時刻之前的設定時間段內未檢測到所述人臉和所述人體，確定所述當前服務狀態為所述等待用戶狀態；或者，響應於當前時刻未檢測到所述人臉和所述人體，且在當前時刻之前的設定時間段內檢測到所述人臉和所述人體，確定所述當前服務狀態為所述用戶離開狀態；或者，響應於當前時刻檢測到所述人臉和所述人體中的至少一項，確定所述顯示設備的當前服務狀態為發現用戶狀態。

在沒有用戶與互動對象進行互動的情況下，通過確定顯示設備當前處於等待用戶狀態或用戶離開狀態，並驅動所述互動對象進行不同的回應，使所述互動對象的展示狀態更符合互動需求、更有針對性。

在一個示例中，所述檢測結果還包括用戶屬性資訊和/或用戶歷史操作資訊；所述方法還包括：在確定所述顯示設備的所述當前服務狀態為所述發現用戶狀態之後，通過所述影像獲得所述用戶屬性資訊，和/或，查找與所述用戶的人臉和人體中的至少一項的特徵資訊相匹配的所述用戶歷史操作資訊。

通過獲取用戶歷史操作資訊，並結合所述用戶歷史操作資訊驅動所述互動對象，可以使所述互動對象更有針對性地對所述用戶進行回應。

在一個示例中，所述方法還包括：響應於檢測到至少兩個用戶，獲得所述至少兩個用戶的特徵資訊；根據所述至少兩個用戶的特徵資訊，確定所述至少兩個用戶中的目標用戶；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。

通過根據至少兩個用戶的特徵資訊來確定所述至少兩個用戶中的目標用戶，並驅動所述互動對象對所述目標對象進行回應，能夠在多用戶場景下選擇進行互動的目標用戶，並實現不同目標用戶之間的切換和響應，從而提升用戶體驗。

在一個示例中，所述方法還包括：獲取所述顯示設備的環境資訊；所述根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應，包括：根據所述檢測結果以及所述顯示設備的環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應；所述環境資訊包括所述顯示設備的地理位置、所述顯示設備的網際網路協議（IP）地址以及所述顯示設備所在區域的天氣、日期中的至少一項。

通過獲取所述顯示設備的環境資訊，並結合所述環境資訊來驅動所述互動對象進行回應，可以使所述互動對象的回應更符合實際互動需求，使用戶與互動對象之間的互動更加真實、生動，從而提升用戶體驗。

在一個示例中，根據所述檢測結果以及所述環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應，包括：獲得與所述檢測結果和所述環境資訊相匹配的、預先設定的回應標籤；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應。

在一個示例中，所述驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應，包括：將所述回應標籤輸入至預先訓練的神經網路，由所述神經網路輸出與所述回應標籤對應的驅動內容，所述驅動內容用於驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

通過對不同的檢測結果和不同的環境資訊的組合配置相應的回應標籤，並通過所述回應標籤來驅動互動對象輸出相應的動作、表情、語言中的一項或多項，可以驅動互動對象根據設備的不同狀態、不同的場景，做出不同的回應，以使所述互動對象的回應更加多樣化。

在一個示例中，所述方法還包括：響應於確定所述當前服務狀態為所述發現用戶狀態，在驅動所述互動對象進行回應之後，追蹤所述顯示設備周邊的影像中所檢測到的用戶；在追蹤所述用戶的過程中，響應於檢測到所述用戶輸出的第一觸發資訊，確定所述顯示設備進入所述服務啟動狀態，並驅動所述互動對象展示與所述第一觸發資訊匹配的服務；在所述顯示設備處於所述服務啟動狀態時，響應於檢測到所述用戶輸出的第二觸發資訊，確定所述顯示設備進入服務中狀態，並驅動所述互動對象展示與所述第二觸發資訊匹配的服務。

通過本發明實施例提供的互動方法，用戶無需進行按鍵、觸摸或者語音輸入，僅站在顯示設備的周邊，設備中顯示的互動對象即可以有針對性地做出歡迎的動作，並按照用戶的需求或者興趣展示服務項目，提升用戶的使用感受。

在所述顯示設備進入發現用戶狀態之後，提供兩種粒度的識別方式。第一粒度（粗粒度）識別方式為在檢測到用戶輸出的第一觸發資訊的情況下，使設備進入服務啟動狀態，並驅動所述互動對象展示與所述第一觸發資訊匹配的服務；第二粒度（細粒度）識別方式為在檢測到用戶輸出的第二觸發資訊的情況下，使設備進入服務中狀態，並驅動所述互動對象提供相應的服務。通過上述兩種粒度的識別方式，能夠使用戶與互動對象的互動更流暢、更自然。

在一個示例中，所述方法還包括：響應於確定所述當前服務狀態為發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述透明顯示器中展示的所述互動對象的位置資訊；根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。

通過根據用戶的位置來自動調整互動對象的朝向，使所述互動對象始終保持與用戶面對面，使互動更加友好，提升了用戶的互動體驗。

第二方面，提供一種互動裝置，所述裝置包括：影像獲取單元，用於獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；檢測單元，用於對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果；驅動單元，用於根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

在一個示例中，所述顯示設備還通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備還在底板上顯示所述互動對象的倒影。

在一個示例中，所述檢測單元具體用於：響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間段內未檢測到人臉和人體，確定所述當前服務狀態為等待用戶狀態。

在一個示例中，所述檢測單元用於：響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間內段檢測到人臉和人體，確定所述當前服務狀態為用戶離開狀態。

在一個示例中，所述檢測單元具體用於：響應於當前時刻檢測到所述人臉和所述人體中的至少一項，確定所述顯示設備的當前服務狀態為發現用戶狀態。

在一個示例中，所述檢測結果還包括用戶屬性資訊和/或用戶歷史操作資訊；所述裝置還包括資訊獲取單元，所述資訊獲取單元用於：通過所述影像獲得用戶屬性資訊，和/或，查找與所述用戶的人臉和人體中的至少一項的特徵資訊相匹配的用戶歷史操作資訊。

在一個示例中，所述裝置還包括目標確定單元，所述目標確定單元用於：響應於通過所述檢測單元檢測到至少兩個用戶，獲得所述至少兩個用戶的特徵資訊；根據所述至少兩個用戶的特徵資訊，確定所述至少兩個用戶中的目標用戶，其中，所述驅動單元用於驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。

在一個示例中，所述裝置還包括用於獲取所述顯示設備的環境資訊的環境資訊獲取單元，其中，所述驅動單元用於：根據所述檢測結果以及所述顯示設備的環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

在一個示例中，所述環境資訊至少包括所述顯示設備的地理位置、所述顯示設備的IP地址，以及所述顯示設備所在區域的天氣、日期中的一項或多項。

在一個示例中，所述驅動單元還用於：獲得與所述檢測結果和所述環境資訊相匹配的、預先設定的回應標籤；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應。

在一個示例中，所述驅動單元在用於根據所述回應標籤，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出相應的回應時，具體用於：將所述回應標籤輸入至預先訓練的神經網路，由所述神經網路輸出與所述回應標籤對應的驅動內容，所述驅動內容用於驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

在一個示例中，所述裝置還包括服務啟動單元，所述服務啟動單元用於：響應於所述檢測單元檢測出所述當前服務狀態為發現用戶狀態，在所述驅動單元驅動所述互動對象進行回應之後，追蹤在所述顯示設備周邊的影像中所檢測到的用戶；在追蹤所述用戶的過程中，響應於檢測到所述用戶輸出的第一觸發資訊，確定所述顯示設備進入服務啟動狀態，並使所述驅動單元驅動所述互動對象展示所提供的服務。

在一個示例中，所述裝置還包括服務單元，所述服務單元用於：在所述顯示設備處於所述服務啟動狀態時，響應於檢測到所述用戶輸出的第二觸發資訊，確定所述顯示設備進入服務中狀態，其中，所述驅動單元用於驅動所述互動對象展示與所述第二觸發資訊匹配的服務。

在一個示例中，所述裝置還包括方向調整單元，所述方向調整單元用於：響應於所述檢測單元檢測出所述當前服務狀態為發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述透明顯示器中展示的所述互動對象的位置資訊；根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。

第三方面，提供一種互動設備，所述設備包括處理器；用於儲存可由處理器執行的指令的記憶體，當所述指令被執行時，促使所述處理器實現本發明提供的任一實施方式所述的方法。

第四方面，提供一種電腦可讀取記錄媒體，其上儲存有電腦程式，當所述電腦程式被處理器執行時，使所述處理器實現本發明提供的任一實施方式所述的方法。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反，它們僅是與如所附申請權利範圍中所述的、本發明的一些方面相一致的裝置和方法的例子。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

圖1繪示根據本發明至少一個實施例的互動方法的流程圖，如圖1所示，所述方法包括步驟101~步驟103。

在步驟101中，獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象。

所述顯示設備周邊，包括所述顯示設備的設定範圍內任意方向，例如可以包括所述顯示設備的前向、側向、後方、上方中的一個或多個方向。

用於擷取影像的攝像頭，可以設置在顯示設備上，也可以作為外接設備，獨立於顯示設備之外。並且所述攝像頭擷取的影像可以在顯示設備的透明顯示器上進行顯示。所述攝像頭的數量可以為多個。

可選的，攝像頭所擷取的影像可以是影片流中的一幀，也可以是即時獲取的影像。

在步驟102中，對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果。

通過對顯示設備周邊的影像進行人臉和/或人體檢測，獲得檢測結果，例如所述顯示設備周邊是否有用戶、有幾個用戶，並可以通過人臉和/或人體識別技術從所述影像中獲取關於用戶的相關資訊，或者通過用戶的影像進行查詢以獲得用戶的相關資訊；還可以通過影像識別技術識別用戶的動作、姿勢、手勢等等。本領域技術人員應當理解，以上檢測結果僅為示例，還可以包括其他檢測結果。

在步驟103中，根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

響應於不同的檢測結果，可以驅動所述互動對象進行不同的回應。例如，對於在顯示設備周邊沒有用戶的情況，驅動所述互動對象輸出歡迎的動作、表情、語音等等。

本發明實施例中，通過對顯示設備周邊的影像進行檢測，並根據檢測結果驅動顯示設備的所述透明顯示器上顯示的互動對象進行回應，可以使互動對象的回應更符合用戶的互動需求，並使用戶與所述互動對象之間的互動更加真實、生動，從而提升用戶體驗。

在一些實施例中，所述顯示設備的透明顯示器顯示的互動對象包括具有立體效果的虛擬人物。

本領域技術人員應當理解，互動對象並不限於具有立體效果的虛擬人物，還可以是虛擬動物、虛擬物品、卡通形象等等其他能夠實現互動功能的虛擬形象。

在一些實施例中，可以通過以下方法實現透明顯示器所顯示的互動對象的立體效果。

人眼看到物體是否為立體的觀感，通常由物體本身的外形以及物體的光影效果所決定。該光影效果例如為在物體不同區域的高光和暗光，以及光線照射在物體後在地面的投影（即倒影）。

利用以上原理，在一個示例中，在透明顯示器上顯示出互動對象的立體影片或影像的畫面的同時，還在透明顯示器上顯示出該互動對象的倒影，從而使得人眼可以觀察到立體效果的互動對象。

在另一個示例中，所述透明顯示器的下方設置有底板，並且所述透明顯示器與所述底板呈垂直或傾斜狀。在透明顯示器顯示出互動對象的立體影片或影像的畫面的同時，在所述底板上顯示出所述互動對象的倒影，從而使得人眼可以觀察到立體效果的互動對象。

在一些實施例中，所述顯示設備還包括箱體，並且所述箱體的正面設置為透明，例如通過玻璃、塑料等材料實現透明設置。透過箱體的正面能夠看到透明顯示器的畫面以及透明顯示器或底板上畫面的倒影，從而使得人眼可以觀察到立體效果的互動對象，如圖2所示。

在一些實施例中，箱體內還設有一個或多個光源，為透明顯示器提供光線。

在本發明實施例中，通過在透明顯示器上顯示互動對象的立體影片或影像的畫面，並在透明顯示器或底板上形成該互動對象的倒影以實現立體效果，能夠使所顯示的互動對象更加立體、生動，提升用戶的互動感受。

在一些實施例中，所述檢測結果可以包括所述顯示設備的當前服務狀態，所述當前服務狀態例如包括等待用戶狀態、發現用戶狀態、用戶離開狀態、服務啟動狀態、服務中狀態中的任一種。本領域技術人員應當理解，所述顯示設備的當前服務狀態還可以包括其他狀態，不限於以上所述。

在顯示設備周邊的影像中未檢測到人臉和人體的情況下，表示所述顯示設備周邊沒有用戶，也即該顯示設備當前並未處於與用戶進行互動的狀態。這種狀態包含了在當前時刻之前的設定時間段內都沒有用戶與設備進行互動，也即等待用戶狀態；還包含了用戶在當前時刻之前的設定時間段內與用戶進行了互動，顯示設備正處於用戶離開狀態。對於這兩種不同的狀態，應當驅動所述互動對象進行不同的回應。例如，對於等待用戶狀態，可以驅動所述互動對象結合當前環境進行歡迎用戶的回應；而對於用戶離開狀態，可以驅動所述互動對象對上一個與其互動的用戶進行結束服務的回應。

在一個示例中，可以通過以下方式確定等待用戶狀態。響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間段內，例如5秒鐘，未檢測到人臉和人體，並且也未追蹤到人臉和人體的情況下，確定該顯示設備的當前服務狀態為等待用戶狀態。

在一個示例中，可以通過以下方式確定用戶離開狀態。響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間段內，例如5秒鐘，檢測到了人臉和/或人體，或者追蹤到了人臉和/或人體的情況下，確定該顯示設備的當前服務狀態為用戶離開狀態。

在顯示設備處於等待用戶狀態或用戶離開狀態時，可以根據所述顯示設備的當前服務狀態驅動所述互動對象進行回應。例如，在顯示設備處於等待用戶狀態時，可以驅動顯示設備所顯示的互動對象做出歡迎的動作或手勢，或者做出一些有趣的動作，或者輸出歡迎光臨的語音。在顯示設備處於用戶離開狀態時，可以驅動所述互動對象做出再見的動作或手勢，或者輸出再見的語音。

在從顯示設備周邊的影像中檢測到了人臉和/或人體的情況下，表示所述顯示設備周邊存在用戶，則可以將檢測到用戶這一時刻的當前服務狀態確定為發現用戶狀態。

在檢測到顯示設備周邊存在用戶時，可以通過所述影像獲得所述用戶的用戶屬性資訊。例如，可以通過人臉和/或人體檢測的結果確定設備周邊存在幾個用戶；針對每個用戶，可以通過人臉和/或人體識別技術，從所述影像中獲取關於所述用戶的相關資訊，例如用戶的性別、用戶的大致年齡等等，對於不同性別、不同年齡層次的用戶，可以驅動互動對象進行不同的回應。

在發現用戶狀態下，對於所檢測到的用戶，還可以獲取儲存在所述顯示設備中的用戶歷史操作資訊，和/或，獲取儲存在雲端的用戶歷史操作資訊，以確定該用戶是否為老客戶，或者是否為VIP客戶。所述用戶歷史操作資訊還可以包含所述用戶的姓名、性別、年齡、服務記錄、備註等等。該用戶歷史操作資訊可以包含所述用戶自行輸入的資訊，也可以包括所述顯示設備和/或雲端記錄的資訊。通過獲取用戶歷史操作資訊，可以驅動所述互動對象更有針對性地對所述用戶進行回應。

在一個示例中，可以根據所檢測到的用戶的人臉和/或人體的特徵資訊查找與所述用戶相匹配的用戶歷史操作資訊。

在顯示設備處於發現用戶狀態時，可以根據所述顯示設備的當前服務狀態、從所述影像獲取的用戶屬性資訊、通過查找獲取的用戶歷史操作資訊，來驅動所述互動對象進行回應。在初次檢測到一個用戶的時候，所述用戶歷史操作資訊可以為空，也即根據所述當前服務狀態、所述用戶屬性資訊和所述環境資訊來驅動所述互動對象。

在顯示設備周邊的影像中檢測到一個用戶的情況下，可以首先通過影像對該用戶進行人臉和/或人體識別，獲得關於所述用戶的用戶屬性資訊，比如該用戶為女性，年齡在20歲~30歲之間；之後根據該用戶的人臉和/或人體特徵資訊，在顯示設備中和/或雲端進行搜索，以查找與所述特徵資訊相匹配的用戶歷史操作資訊，例如該用戶的姓名、服務記錄等等。之後，在發現用戶狀態下，驅動所述互動對象對該女性用戶作出有針對性的歡迎動作，並向該女性用戶展示可以為其提供的服務。根據用戶歷史操作資訊中包括的該用戶曾經使用的服務項目，可以調整提供服務的順序，以使用戶能夠更快的發現感興趣的服務項目。

當在設備周邊的影像中檢測到至少兩個用戶的情況下，可以首先獲得所述至少兩個用戶的特徵資訊，該特徵資訊可以包括用戶姿態資訊、用戶屬性資訊中的至少一項，並且所述特徵資訊與用戶歷史操作資訊對應，其中，所述用戶姿態資訊可以通過對所述影像中所述用戶的動作進行識別而獲得。

接下來，根據所獲得的所述至少兩個用戶的特徵資訊來確定所述至少兩個用戶中的目標用戶。可以結合實際的場景綜合評估各個用戶的特徵資訊，以確定待進行互動的目標用戶。

在確定了目標用戶後，則可以驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。

在一些實施例中，在發現用戶狀態下，驅動所述互動對象進行回應之後，通過追蹤在顯示設備周邊的影像中所檢測到的用戶，例如可以追蹤所述用戶的面部表情，和/或，追蹤所述用戶的動作，等等，並通過判斷所述用戶有無主動互動的表情和/或動作來判斷是否要使所述顯示設備進入服務啟動狀態。

在一個示例中，在追蹤所述用戶的過程中，可以設置指定觸發資訊，例如眨眼、點頭、揮手、舉手、拍打等常見的人與人之間打招呼的表情和/或動作。為了與下文進行區別，此處不妨將所設置的指定觸發資訊稱為第一觸發資訊。在檢測到所述用戶輸出的所述第一觸發資訊的情況下，確定所述顯示設備進入服務啟動狀態，並驅動所述互動對象展示與所述第一觸發資訊匹配的服務，例如可以利用語言展示，也可以用顯示在螢幕上的文字資訊來展示。

目前常見的體感互動需要用戶先舉手一段時間來啟動服務，選中服務後需要保持手部位置不動若干秒後才能完成啟動。本發明實施例所提供的互動方法，無需用戶先舉手一段時間啟動服務，也無需保持手部位置不同完成選擇。通過自動判斷用戶的指定觸發資訊，可以自動啟動服務，使設備處於服務啟動狀態，避免了用戶舉手等待一段時間，提升了用戶體驗。

在一些實施例中，在服務啟動狀態下，可以設置指定觸發資訊，例如特定的手勢動作，和/或特定的語音指令等。為了與上文進行區別，此處不妨將所設置的指定觸發資訊稱為第二觸發資訊。在檢測到所述用戶輸出的所述第二觸發資訊的情況下，確定所述顯示設備進入服務中狀態，並驅動所述互動對象展示與所述第二觸發資訊匹配的服務。

在一個示例中，通過用戶輸出的第二觸發資訊來執行相應的服務。例如，可以為用戶提供的服務包括：第一服務選項、第二服務選項、第三服務選項等等，可以並且為第一服務選項配置相應的第二觸發資訊，例如，可以設置語音“一”為與第一服務選項相對應的第二觸發資訊，設置語音“二”為與第二服務選項相對應的第二觸發資訊，以此類推。當檢測到所述用戶輸出其中一個語音，則所述顯示設備進入與第二觸發資訊相應的服務選項，並驅動所述互動對象根據該服務選項所設置的內容提供服務。

在本發明實施例中，在所述顯示設備進入發現用戶狀態之後，提供兩種粒度的識別方式。第一粒度（粗粒度）識別方式為在檢測到用戶輸出的第一觸發資訊的情況下，使設備進入服務啟動狀態，並驅動所述互動對象展示與所述第一觸發資訊匹配的服務；第二粒度（細粒度）識別方式為在檢測到用戶輸出的第二觸發資訊的情況下，使設備進入服務中狀態，並驅動所述互動對象提供相應的服務。通過上述兩種粒度的識別方式，能夠使用戶與互動對象的互動更流暢、更自然。

通過本發明實施例提供的互動方法，用戶無需進行按鍵、觸摸或者語音輸入，僅站在顯示設備的周邊，顯示設備中顯示的互動對象即可以有針對性地做出歡迎的動作，並按照用戶的需求或者興趣展示能夠提供的服務項目，提升用戶的使用感受。

在一些實施例中，可以獲取所述顯示設備的環境資訊，根據所述檢測結果和所述環境資訊，來驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

所述顯示設備的環境資訊可以通過所述顯示設備的地理位置和/或所述顯示設備的應用場景獲取。所述環境資訊例如可以是所述顯示設備的地理位置、網際網路協議（Internet Protocol, IP）地址，也可以是所述顯示設備所在區域的天氣、日期等等。本領域技術人員應當理解，以上環境資訊僅為示例，還可以包括其他環境資訊。

舉例來說，在顯示設備處於等待用戶狀態和用戶離開狀態時，可以根據所述顯示設備的當前服務狀態和環境資訊驅動所述互動對象進行回應。例如，在所述顯示設備處於等待用戶狀態時，環境資訊包括時間、地點、天氣情況，可以驅動顯示設備所顯示的互動對象做出歡迎的動作和手勢，或者做出一些有趣的動作，並輸出語音“現在是X年X月X日XX時刻，天氣XX，歡迎光臨XX城市的XX商場，很高興為您服務”。在通用的歡迎動作、手勢和語音外，還加入了當前時間、地點和天氣情況，不但提供了更多資訊，還使互動對象的回應更符合互動需求、更有針對性。

通過對顯示設備周邊的影像進行用戶檢測，並根據檢測結果和所述顯示設備的環境資訊，來驅動所述顯示設備中顯示的互動對象進行回應，使互動對象的回應更符合互動需求，使用戶與互動對象之間的互動更加真實、生動，從而提升用戶體驗。

在一些實施例中，可以根據所述檢測結果和所述環境資訊，獲得相匹配的、預先設定的回應標籤；之後根據所述回應標籤來驅動所述互動對象做出相應的回應。所述回應標籤可以對應於所述互動對象的動作、表情、手勢、語言中的一項或多項的驅動文本。對於不同的檢測結果和環境資訊，可以根據所確定的回應標籤獲得相應的驅動文本，從而可以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

例如，若當前服務狀態為用戶等待狀態，並且環境資訊指示地點為上海，對應的回應標籤可以是：動作為歡迎動作，語音為“歡迎來到上海”。

再比如，若當前服務狀態為發現用戶狀態，環境資訊指示時間為上午，用戶屬性資訊指示女性，並且用戶歷史記錄指示姓氏為張，對應的回應標籤可以是：動作為歡迎動作，語音為“張女士上午好，歡迎光臨，很高興為您提供服務”。

通過對於不同的檢測結果和不同的環境資訊的組合配置相應的回應標籤，並通過所述回應標籤來驅動互動對象輸出相應的動作、表情、語言中的一項或多項，可以驅動互動對象根據設備的不同狀態、不同的場景，做出不同的回應，以使所述互動對象的回應更加多樣化。

在一些實施例中，可以通過將所述回應標籤輸入至預先訓練的神經網路，輸出與所述回應標籤對應的驅動文本，以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

其中，所述神經網路可以通過樣本回應標籤集來進行訓練，其中，所述樣本回應標籤標注了對應的驅動文本。所述神經網路經訓練後，對於所輸出的回應標籤能夠輸出相應的驅動文本，以驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。相較於直接在顯示設備端或雲端搜索對應的驅動文本，採用預先訓練的神經網路，對於沒有預先設置驅動文本的回應標籤，也能夠生成驅動文本，以驅動所述互動對象進行適當的回應。

在一些實施例中，針對高頻、重要的場景，還可以通過人工配置的方式進行優化。也即，對於出現頻次較高的檢測結果與環境資訊的組合，可以為其對應的回應標籤人工配置驅動文本。在該場景出現時，自動調用相應的驅動文本驅動所述互動對象進行回應，以使互動對象的動作、表情更加自然。

在一個實施例中，響應於所述顯示設備處於發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述透明顯示器中展示的所述互動對象的位置資訊；並根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。

通過根據用戶的位置來自動調整互動對象的身體朝向，使所述互動對象始終保持與用戶面對面，使互動更加友好，提升了用戶的互動體驗。

在一些實施例中，所述互動對象的影像是通過虛擬攝像頭擷取的。虛擬攝像頭是應用於3D軟體、用於擷取影像的虛擬軟體攝像頭，互動對象是通過所述虛擬攝像頭擷取的3D影像顯示在螢幕上的。因此用戶的視角可以理解為3D軟體中虛擬攝像頭的視角，這樣就會帶來一個問題，就是互動對象無法實現用戶之間的眼神交流。

為了解決以上問題，在本發明至少一個實施例中，在調整互動對象的身體朝向的同時，還使所述互動對象的視線保持對準所述虛擬攝像頭。由於互動對象在互動過程中面向用戶，並且視線保持對準虛擬攝像頭，因此用戶會有互動對象正看自己的錯覺，可以提升用戶與互動對象互動的舒適性。

圖3繪示根據本發明至少一個實施例的互動裝置的結構示意圖，如圖3所示，該裝置可以包括：影像獲取單元301、檢測單元302和驅動單元303。

其中，影像獲取單元301，用於獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；檢測單元302，用於對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果；驅動單元303，用於根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

在一些實施例中，所述顯示設備還通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。

在一些實施例中，所述互動對象包括具有立體效果的虛擬人物。

在一些實施例中，所述檢測結果至少包括所述顯示設備的當前服務狀態，所述當前服務狀態包括等待用戶狀態、用戶離開狀態、發現用戶狀態、服務啟動狀態、服務中狀態中的任一種。

在一些實施例中，檢測單元302具體用於：響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間段內未檢測到人臉和人體，確定所述當前服務狀態為等待用戶狀態。

在一些實施例中，檢測單元302具體用於：響應於當前時刻未檢測到人臉和人體，且在當前時刻之前的設定時間段內檢測到人臉和/或人體，確定所述當前服務狀態為用戶離開狀態。

在一些實施例中，檢測單元302具體用於：響應於檢測到所述人臉和所述人體中的至少一項，確定所述顯示設備的當前服務狀態為發現用戶狀態。

在一些實施例中，所述檢測結果還包括用戶屬性資訊和/或用戶歷史操作資訊；所述裝置還包括資訊獲取單元，所述資訊獲取單元用於：通過所述影像獲得用戶屬性資訊，和/或，查找與所述用戶的人臉和人體中的至少一項的特徵資訊相匹配的用戶歷史操作資訊。

在一些實施例中，所述裝置還包括目標確定單元，所述目標確定單元用於：響應於檢測到至少兩個用戶，獲得所述至少兩個用戶的特徵資訊；根據所述至少兩個用戶的特徵資訊，確定所述至少兩個用戶中的目標用戶。所述驅動單元303驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。

在一些實施例中，所述裝置還包括用於獲取環境資訊的環境資訊獲取單元；所述驅動單元303具體用於：根據所述檢測結果以及所述顯示設備的環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。

在一些實施例中，所述環境資訊至少包括所述顯示設備的地理位置、所述顯示設備的IP地址，以及所述顯示設備所在區域的天氣、日期中的一項或多項。

在一些實施例中，驅動單元303具體用於：獲得與所述檢測結果和所述環境資訊相匹配的、預先設定的回應標籤；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應。

在一些實施例中，驅動單元303在用於根據所述回應標籤，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出相應的回應時，具體用於：將所述回應標籤輸入至預先訓練的神經網路，由所述神經網路輸出與所述回應標籤對應的驅動內容，所述驅動內容用於驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。

在一些實施例中，所述裝置還包括服務啟動單元，所述服務啟動單元用於：響應於所述檢測單元302檢測出當前服務狀態為發現用戶狀態，在所述驅動單元303驅動所述互動對象進行回應之後，追蹤在所述顯示設備周邊的影像中所檢測到的用戶；在追蹤所述用戶的過程中，響應於檢測到所述用戶輸出的第一觸發資訊，確定所述顯示設備進入服務啟動狀態，並使所述驅動單元303驅動所述互動對象展示與所述第一觸發資訊匹配的服務。

在一些實施例中，所述裝置還包括服務單元，所述服務單元用於：在所述顯示設備處於所述服務啟動狀態時，響應於檢測到所述用戶輸出的第二觸發資訊，確定所述顯示設備進入服務中狀態，其中，所述驅動單元303用於驅動所述互動對象提供與所述第二觸發資訊匹配的服務。

在一些實施例中，所述裝置還包括方向調整單元，所述方向調整單元用於：響應於所述檢測單元302檢測出當前服務狀態為發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述透明顯示器中展示的所述互動對象的位置資訊；根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。

本發明至少一個實施例還提供了一種互動設備，如圖4所示，所述設備包括記憶體401、處理器402。記憶體401用於儲存可由處理器執行的電腦指令，所述指令被執行時，促使處理器402實現本發明任一實施例所述的方法。

本發明至少一個實施例還提供了一種電腦可讀取記錄媒體，其上儲存有電腦程式，所述電腦程式被處理器執行時，使所述處理器實現本發明任一實施例所述的互動方法。

本領域技術人員應明白，本發明一個或多個實施例可提供為方法、系統或電腦程式產品。因此，本發明一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本發明一個或多個實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用記錄媒體（包括但不限於磁碟記憶體、CD-ROM、光學記憶體等）上實施的電腦程式產品的形式。

本發明中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於資料處理設備實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

上述對本發明特定實施例進行了描述。其它實施例在所附申請權利範圍的範圍內。在一些情況下，在申請權利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求繪示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本發明中的主題及功能操作的實施例可以在以下中實現：數位電子電路、有形體現的電腦軟體或韌體、包括本發明中公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本發明中的主題的實施例可以實現為一個或多個電腦程式，即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地，程式指令可以被編碼在人工生成的傳播信號上，例如機器生成的電、光或電磁信號，該信號被生成以將資訊編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦記錄媒體可以是機器可讀儲存設備、機器可讀儲存基板、隨機或序列存取記憶體設備、或它們中的一個或多個的組合。

本發明中的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式電腦執行，以通過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路—例如FPGA（現場可程式閘陣列）或ASIC（專用積體電路）來執行，並且裝置也可以實現為專用邏輯電路。

適合用於執行電腦程式的電腦包括，例如通用和/或專用微處理器，或任何其他類型的中央處理單元。通常，中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和資料。電腦的基本組件包括用於實施或執行指令的中央處理單元以及用於儲存指令和資料的一個或多個記憶體設備。通常，電腦還將包括用於儲存資料的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟等，或者電腦將可操作地與此大容量儲存設備耦接以從其接收資料或向其傳送資料，抑或兩種情況兼而有之。然而，電腦不是必須具有這樣的設備。此外，電腦可以嵌入在另一設備中，例如行動電話、個人數位助理（PDA）、移動音訊或影片播放器、遊戲操縱臺、全球定位系統（GPS）接收機、或例如通用序列匯流排（USB）快閃記憶體驅動器的便攜式儲存設備，僅舉幾例。

適合於儲存電腦程式指令和資料的電腦可讀取記錄媒體包括所有形式的非揮發性記憶體、媒介和記憶體設備，例如包括半導體記憶體設備（例如EPROM、EEPROM和快閃記憶體設備）、磁碟（例如內部硬碟或隨身硬碟）、磁光碟以及CD ROM和DVD-ROM碟。處理器和記憶體可由專用邏輯電路補充或並入專用邏輯電路中。

雖然本發明包含許多具體實施細節，但是這些不應被解釋為限制本發明的範圍或所要求保護的範圍，而是主要用於描述本發明的一些實施例的特徵。本發明的多個實施例中的某些特徵也可以在單個實施例中被組合實施。另一方面，單個實施例中的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外，雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護，但是來自所要求保護的組合中的一個或多個特徵在一些情況下可以從該組合中去除，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應被理解為要求這些操作以所示的特定順序執行或順次執行、或者要求所有例示的操作被執行，以實現期望的結果。在某些情況下，多任務和並行處理可能是有利的。此外，上述實施例中的各種系統模組和組件的分離不應被理解為在所有實施例中均需要這樣的分離，並且應當理解，所描述的程式組件和系統通常可以一起整合在單個軟體產品中，或者封裝成多個軟體產品。

由此，主題的特定實施例已被描述。其他實施例在所附申請權利範圍的範圍以內。在某些情況下，申請權利範圍中記載的動作可以以不同的順序執行並且仍實現期望的結果。此外，附圖中描繪的處理並非必需所示的特定順序或順次順序，以實現期望的結果。在某些實現中，多任務和並行處理可能是有利的。

以上所述僅為本發明的一些實施例而已，並不用以限制本發明。凡在本發明的精神和原則之內所做的任何修改、等同替換、改進等，均應包含在本發明的範圍之內。

101~103:步驟 301:影像獲取單元 302:檢測單元 303:驅動單元 401:記憶體 402:處理器

圖1繪示根據本發明至少一個實施例的互動方法的流程圖。圖2繪示根據本發明至少一個實施例的顯示互動對象的示意圖。圖3繪示根據本發明至少一個實施例的互動裝置的結構示意圖。圖4繪示根據本發明至少一個實施例的互動設備的結構示意圖。

101~103:步驟

Claims

一種互動方法，所述方法包括：獲取攝像頭擷取的顯示設備周邊的影像，所述顯示設備通過透明顯示器顯示互動對象；對所述影像中的人臉和人體中的至少一項進行檢測，獲得檢測結果；根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應；所述方法還包括：獲取所述顯示設備的環境資訊；其中根據所述檢測結果，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應的步驟包括：根據所述檢測結果以及所述環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應。
如請求項1所述的方法，其中，所述顯示設備通過所述透明顯示器顯示所述互動對象的倒影，或者，所述顯示設備在底板上顯示所述互動對象的倒影。
如請求項1所述的方法，其中，所述檢測結果至少包括所述顯示設備的當前服務狀態；所述當前服務狀態包括等待用戶狀態、用戶離開狀態、發現用戶狀態、服務啟動狀態、服務中狀態中的任一種。
如請求項3所述的方法，其中，對所述影像中的所述人臉和所述人體中的至少一項進行檢測，獲得所述檢測結果的步驟包括：響應於當前時刻未檢測到所述人臉和所述人體，且在當前時刻之前的設定時間段內未檢測到所述人臉和所述人體，確定所述當前服務狀態為所述等待用戶狀態；或者，響應於當前時刻未檢測到所述人臉和所述人體，且在當前時刻之前的設定時間段內檢測到所述人臉和所述人體，確定所述當前服務狀態為所述用戶離開狀態；或者，響應於當前時刻檢測到所述人臉和所述人體中的至少一項，確定所述顯示設備的當前服務狀態為所述發現用戶狀態。
如請求項3所述的方法，其中，所述檢測結果還包括用戶屬性資訊和/或用戶歷史操作資訊；所述方法還包括：在確定所述顯示設備的所述當前服務狀態為所述發現用戶狀態之後，通過所述影像獲得所述用戶屬性資訊，和/或，查找與所述用戶的人臉和人體中的至少一項的特徵資訊相匹配的所述用戶歷史操作資訊。
如請求項1所述的方法，所述方法還包括：響應於檢測到至少兩個用戶，獲得所述至少兩個用戶的特徵資訊；根據所述至少兩個用戶的特徵資訊，確定所述至少兩個用戶中的目標用戶；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象對所述目標用戶進行回應。
如請求項1所述的方法，其中，所述環境資訊包括所述顯示設備的地理位置、所述顯示設備的網際網路協議IP地址以及所述顯示設備所在區域的天氣、日期中的至少一項。
如請求項7所述的方法，其中，根據所述檢測結果以及所述環境資訊，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象進行回應，包括：獲得與所述檢測結果和所述環境資訊相匹配的、預先設定的回應標籤；驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應。
如請求項8所述的方法，其中，驅動所述顯示設備的所述透明顯示器上顯示的所述互動對象做出與所述回應標籤相應的回應的步驟包括：將所述回應標籤輸入至預先訓練的神經網路，由所述神經網路輸出與所述回應標籤對應的驅動內容，所述驅動內容用於驅動所述互動對象輸出相應的動作、表情、語言中的一項或多項。
如請求項3所述的方法，所述方法還包括：響應於確定所述當前服務狀態為所述發現用戶狀態，在驅動所述互動對象進行回應之後，追蹤所述顯示設備周邊的影像中所檢測到的用戶；在追蹤所述用戶的過程中，響應於檢測到所述用戶輸出的第一觸發資訊，確定所述顯示設備進入所述服務啟動狀態，並驅動所述互動對象展示與所述第一觸發資訊匹配的服務；在所述顯示設備處於所述服務啟動狀態時，響應於檢測到所述用戶輸出的第二觸發資訊，確定所述顯示設備進入所述服務中狀態，並驅動所述互動對象展示與所述第二觸發資訊匹配的服務。
如請求項3所述的方法，所述方法還包括：響應於確定所述當前服務狀態為所述發現用戶狀態，根據所述用戶在所述影像中的位置，獲得所述用戶相對於所述透明顯示器中展示的所述互動對象的位置資訊；根據所述位置資訊調整所述互動對象的朝向，使所述互動對象面向所述用戶。
一種互動設備，所述設備包括：處理器；以及用於儲存可由所述處理器執行的指令的記憶體，其中，所述指令在被執行時，促使所述處理器實現如請求項1至11任一項所述的互動方法。
一種電腦可讀取記錄媒體，其上儲存有電腦程式，其中，所述電腦程式被處理器執行時，使所述處理器實現如請求項1至11任一所述的互動方法。