TW201923737A

TW201923737A - 交互方法和設備

Info

Publication number: TW201923737A
Application number: TW107131509A
Authority: TW
Inventors: 吳楠; 雷鳴
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-11-08
Filing date: 2018-09-07
Publication date: 2019-06-16
Also published as: WO2019094204A1; US11056108B2; US20190139547A1; CN109767774A

Abstract

本申請提供了一種交互方法和設備，其中，該方法包括：識別是否有對象面對交互設備且處於發聲狀態；在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；根據所述語音資料建立所述對象與所述交互設備之間的交互。通過上述方式解決了現有的語音交互需要為語音設備設置喚醒詞，通過喚醒詞進行喚醒所存在的喚醒詞數量少，且容易誤喚醒的技術問題，達到了無需喚醒詞即可實現遠場語音交互的技術效果。

Description

交互方法和設備

本發明係有關資料處理技術領域，尤其是一種交互方法和設備。

隨著語音識別技術的不斷發展，越來越多的語音智慧設備被研發和使用。目前語音交互方式主要有：遠程語音交互方式和近場的手動觸發方式。　　其中，遠程語音交互方式一般是通過喚醒詞喚醒設備，從而使得可以被喚醒的設備進行語音交互。例如，如圖1所示，可以為某個設備設置一個喚醒詞為“Miu miu”，那麼當使用者說出“Miu miu”並被該設備識別的時候，該設備就會被喚醒，從而使得使用者可以與該設備進行語音交互，這這個過程中，不需要使用者手動進行操作。　　其中，手動觸發方式一般是在設備上設置一個按鈕或者是觸發按鍵，在使用者點擊該按鈕或者按鍵的情況下，可以觸發該設備開啟語音交互功能，從而使得使用者可以與該設備進行語音交互。　　然而，上述的遠程語音交互方式和近場的手動觸發方式都存在不同程度的問題，例如，遠程語音容易受到環境噪音的干擾，會出現誤喚醒。近場的手動觸發方式每次都需要手動觸發，因此操作不便，需要使用者靠近設備才能操作，使用起來較為麻煩。　　針對上述問題，目前尚未提出有效的解決方案。

本申請目的在於提供一種交互方法和設備，可以實現無需喚醒詞進行設備喚醒即可進行語音交互的目的。　　本申請提供一種交互方法和設備是這樣實現的：　　一種交互方法，所述方法包括：　　識別是否有對象面對交互設備且處於發聲狀態；　　在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　根據所述語音資料建立所述對象與所述交互設備之間的交互。　　一種交互方法，所述方法包括：　　識別是否有對象面對交互設備；　　在確定有對象面對所述交互設備且停留時長超出預設時長的情況下，建立所述對象與所述交互設備之間的交互。　　一種交互方法，所述方法包括：　　識別是否有對象面對交互設備；　　在確定有對象面對所述交互設備的情況下，建立所述對象與所述交互設備之間的交互。　　一種交互設備，包括：攝影鏡頭、麥克風陣列、處理器，其中，　　所述攝影鏡頭，用於獲取圖像；　　所述處理器，用於根據所述圖像識別是否有對象面對交互設備且處於發聲狀態；　　所述麥克風陣列，用於在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　所述處理器，用於根據所述語音資料建立所述對象與所述交互設備之間的交互。　　一種交互設備，包括：攝影鏡頭、麥克風陣列、處理器，其中，　　所述攝影鏡頭，用於獲取圖像；　　所述處理器，用於根據所述圖像識別是否有對象面對交互設備且停留時長超出預設時長；　　所述麥克風陣列，用於在確定有對象面對所述交互設備且停留時長超出預設時長的情況下的情況下，獲取所述對象的語音資料；　　所述處理器，用於根據所述語音資料建立所述對象與所述交互設備之間的交互。　　一種交互設備，包括處理器以及用於儲存處理器可執行指令的儲存器，所述處理器執行所述指令時實現上述方法的步驟。　　一種電腦可讀儲存媒介，其上儲存有電腦指令，所述指令被執行時實現上述方法的步驟。　　本申請提供的交互方法和設備，通過對象是否面向設備來確定使用者的是否有與設備進行語音交互的意圖，從而可以及時發現使用者希望發起交互的意圖，從而觸發目標對象與交互設備之間的交互。通過上述方式解決了現有的交互需要為交互設備設置喚醒詞，通過喚醒詞進行喚醒所存在的喚醒詞數量少，且容易誤喚醒的技術問題，達到了無需喚醒詞即可實現遠場交互的技術效果。

為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施例中的圖式，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本申請保護的範圍。　　考慮到現有的基於喚醒詞的語音交互方式，近似於人與人之間，A叫了B的名字，B通過A叫B名字這個操作，知道A在和他說話，從而觸發語音交互。在B是一個智慧設備的情況下，就需要為該智慧設備設置一下喚醒詞，例如：姓名、或者動作觸發詞等。這樣就需要使用者預先知道針對該智慧設備的喚醒詞，從而觸發與該智慧設備的語音交互。這樣也就容易造成誤喚醒，例如，使用者無意間說了某個詞，這個詞恰好是該智慧設備的喚醒詞，但是使用者並非要喚醒該設備，這樣就會造成誤喚醒。　　針對現有的語音交互方式所存在的需要預先設置喚醒詞，以及會產生誤喚醒風險的問題。考慮到基於人的正常的交流方式，其實並非是必須有喚醒詞才能實現語音對話。採用面對面的方式，就可以自然觸發對話。例如，A面向B，張嘴說話或者停留一段時間，或者打個手勢招呼等，那麼都可以認為A要與B進行對話。或者當使用者站到某個設備前張嘴說話或者是停留一段時間，那麼都可以認為該使用者打算使用該設備所提供的功能。　　基於此，考慮到如果可以結合視覺識別來判斷使用者是否面向設備，那麼可以確定出使用者是否打算與設備進行語音交互，從而使得無需對設備進行喚醒，就可以實現與設備的語音交互。　　如圖2所示，在本例中提供了一種語音交互系統，包括：一個或多個交互設備101、一個或多個使用者202。　　上述語音設備可以是例如：智慧音箱、聊天機器人、帶有服務提供功能的機器人、或者是手機或者電腦等智慧設備中安裝的應用程式等等，具體以何種形式存在，本申請對此不作具體限定。　　如圖3所示為基於圖2的語音交互系統下進行語音交互的業務邏輯實現示意圖，可以包括：　　1）硬體方面，可以包括：攝影鏡頭和麥克風陣列。　　其中，攝影鏡頭和麥克風陣列可以設置在如圖1所示的語音設備101中，通過攝影鏡頭可以獲取人像資訊，基於獲取的人像資訊可以進一步確定出嘴所在的位置，從而可以確定出聲音的來源位置，即，通過人像資訊可以具體確定出發出聲音的嘴的位置，這樣也就確定了哪個方向過來的聲音是需要獲取的聲音。　　在確定出哪個方向的聲音是需要獲取的聲音之後，就可以通過麥克風陣列進行定向消噪，即，可以通過麥克風陣列對聲源方向的聲音進行加強，對非聲源方向的噪聲進行抑制。　　即，通過攝影鏡頭+麥克風陣列進行配合的方式，可以實現對聲音的定向消噪。　　2）本地算法，可以包括基於人臉識別的算法和基於信號處理的算法。　　其中，基於人臉識別的算法可以用於確定出使用者身分，可以用於識別使用者五官的位置，識別使用者是否面向設備，以及使用者支付認證等等，都可以通過攝影鏡頭配合本地的人臉識別算法實現。　　其中，信號處理算法可以是在確定出聲源位置之後，確定出聲源的角度，進而對麥克風陣列的聲音拾取進行控制，以便實現定向消噪。同時還可以對獲取到的語音進行一定的放大、濾波等處理。　　3）雲端處理，即，在雲端實現，也可以是本地實現，這可以根據設備自身的處理能力以及使用環境等確定。當然在雲端實現的話，借助大資料對算法模型進行更新和調整，可以有效提升語音識別、自然語音理解和對話管理的準確性。　　雲端處理主要可以包括：語音識別、自然語言理解、對話管理等等。　　其中，語音識別主要是識別出獲取到的語音的內容，例如，獲取了一段語音資料，需要理解其含義，那麼需要先知道這段語音具體的文字內容，這個過程就需要借助語音識別將語音轉換為文字。　　對於機器而言，文字還是文字本身，需要確定出文字所表達的含義，那麼就需要通過自然語言解釋來確定出文字對應的自然含義，這樣才能識別出使用者語音內容的意圖以及所攜帶的資訊。　　因為是人機交互流程，就涉及到問答的環節，可以通過對話管理單元，即，可以設備主動觸發問答，以及基於使用者的回復繼續產生先的問答。這些問答需要預先設置好問題和所需的答案。例如，購買地鐵票的對話中，就需要設置：請問您需要到哪一站的地鐵票，幾張等等這些問答內容，相應的使用者所需要提供的是：站名和張數。對於在對話過程中出現的，使用者需要更改站名，或者對已經回復的答覆進行修改等等，對話管理都需要提供相應的處理邏輯。　　對於對話管理而言，不僅可是設置習用的對話，也可以針對使用者身分的不同，為使用者個性化定制對話內容，從而使得使用者體驗更高。　　對話管理的目的，就是為了實現與使用者的有效交流，以獲取執行操作所需的資訊。　　對於具體的語音識別、自然語音理解和對話管理，可以在雲端實現，也可以是本地實現，這可以根據設備自身的處理能力以及使用環境等確定。當然在雲端實現的話，借助大資料對算法模型進行更新和調整，可以有效提升語音識別、自然語音理解和對話管理的準確性。且對於各種支付場景和語音交互場景而言，可以對語音處理模型進行多次迭代分析優化，使得使得支付和語音交互的體驗更好。　　4）業務邏輯，即，設備所能提供的服務。　　例如，服務可以包括：支付、購票、問詢、查詢結果展示等等。通過硬體、本地算法、雲端處理的設置，使得設備可以執行所提供的業務。　　舉例而言，可以對於售票設備而言，通過人機交互，使用者通過設備請求買票，設備可以出票。對於服務諮詢設備而言，通過人機交互，使用者可以通過設備獲取所需的資訊等等。這些業務場景往往都是需要付費的，因此，業務邏輯中一般是存在支付流程的，在使用者支付之後，為使用者提供相應的服務。　　通過上述的這種業務邏輯，結合“視覺+語音”的智慧交互方案，可以降低噪聲，提升識別準確度，雙人交談場景可以免受打擾，且可以達到免喚醒的目的，同時對於使用者而言，可以通過自然語音進行交互。　　在一個實施方式中，上述語音設備上設置有攝影鏡頭，通過該攝影鏡頭可以獲取使用者的圖像資訊，從而可以如圖4所示，確定使用者是否面向設備，以及使用者是否站在預設區域內，或者是使用者面對設備的時長和使用者是否開口說話等等。在確定使用者面向設備，且時長超出預設時長，或者是使用者面向設備且張嘴說話的情況下，則可以認為使用者需要與設備進行語音交互。　　在判斷使用者是否面向設備的時候，可以通過人臉識別、人體識別等方式進行，以確定使用者是否面向設備。例如，可以先識別如圖5所示的攝影鏡頭所覆蓋的區域是否有人，在確定有人出現的情況下，通過臉部識別，確定人是否面向設備。具體的，可以識別人的五官（例如：眼睛、嘴巴等），如果識別到眼睛，則可以認為人是面向設備的，如果未識別到眼睛，則可以認為人是背向設備的。　　然而，值得注意的是，上述所列舉通過人臉識別技術確認人是否面向設備的方式僅是一種示例性描述，在實際實現的時候還可以其它的確定人是否面向設備的方式，例如，還可以採用其它的確定是否面向設備的方式，例如，通過結合紅外探測技術和聲音識別技術，通過紅外探測技術檢測到人，然後通過聲音識別技術確定是否在人接近設備的方向上拾取到聲音，從而確定是否有人面向設備。具體的方式本申請對此不作限定，可以根據實際需要和情況選擇。　　進一步的，可以設置一個預設距離，先確定在攝影鏡頭所覆蓋的區域內與該設備之間的距離小於等於該預設距離的範圍是否有人出現，在確定預設距離內有人出現的情況下，再確定該人是否面向設備。例如：可以採用紅外識別、人體感應傳感器、雷達探測等方式，識別在預設距離內是否有人出現，在確定有人之後，才會觸發後續的識別是否面向設備等。這主要是考慮到有時使用者距離設備很遠，即使這個時候，該使用者正在說話且面向該設備，但是一般情況下該使用者的意圖也不是與該設備進行語音交互，且過遠的距離也會導致語音識別準確率的下降，因此，可以設置一個預設距離限制，以保證識別的準確性。　　然而，值得注意的是，上述所列舉的識別是否有人出現的方式僅是一種示例性描述，在實際實現的時候還可以其它的方式，例如：地面壓力傳感器等等，本申請對此不作限定，可以識別人出現的方式都可以應用在此處用於識別是否有人出現，具體採用哪種方式可以根據實際需要選擇，本申請對此不作限定。　　為了提高確定使用者是否說話的準確性，可以設置多角度、多方位的攝影鏡頭來對使用者進行監控，以確定使用者是否說話。在一個實施方式中，考慮到有時雖然使用者是面向設備的，也開口說話了，但是實際上使用者並非是要與設備進行語音交互，也許是與別人進行對話，或者僅僅是自言自語。例如，如果某個智慧設備僅是使用者主動觸發進行掃地的設備。那麼如果人們與該設備進行語音交互，那麼必然是與打掃衛生相關的，或者是進行簡單的打招呼。例如，如圖6所示，使用者說話內容為“麻煩把客廳打掃一下”，那麼設備在確定使用者面向它且嘴在說話的情況下，可以觸發獲取該使用者的語音資料，並從語音資料中識別出，說話的內容為“麻煩把客廳打掃一下”，對該內容進行語義分析可以確定出，該內容是與智慧設備相關的，設備可以做出相應的反應。例如，可以回答“好的，馬上打掃”，然後設備可以執行打掃客廳的操作。　　如果使用者面對著設備說一句：“一會要看本書，再點個外賣”，這時，雖然識別到使用者是面對設備的，且在張嘴說話，但是對識別出的內容“一會要看本書，再點個外賣”進行語義分析後確定出該內容與設備是不相關的，那麼設備可以不做出任何反應。　　即，可以對獲取的使用者的語音內容進行語義分析，以確定出與設備相關的時候，才做出對應的反應，如果與設備無關，那麼可以不作任何反應，即，就當作使用者不是與設備建立語音交互。通過這種方式可以有效避免在嘈雜環境下的聲音干擾。　　即，為了保證語音交互的有效性，可以在確定使用者面對該設備，且嘴部在說話的情況下，或者使用者面向設備的時長超出預設時長的情況下，獲取使用者的語音資料，對語音資料進行語義分析，確定說話的內容是否與設備相關，只有在確定說話內容與設備相關的相關下，才最終確定使用者是與該設備進行語音交互，而不是只要一確定使用者面對該設備，且嘴部在說話，就認為使用者在與設備進行語音交互。通過這種方式，可以有效避免語音交互的誤判。　　在一個實施方式中，考慮到正常的生活場景一般都是有噪音的，為了使得獲取的語音資料較為清晰準確，可以對接收到的使用者語音進行降噪處理。進一步的，為了識別使用者語音的含義，以便使得設備可以作出相應的應答操作。可以將獲取的使用者語音轉換為文字內容，然後通過語義理解模組進行語義解析，從而確定出使用者語音所要表達的內容。　　在進行語義分析的時候，可以是預先設置或者訓練有不同的語義內容所對應的應答操作，一旦匹配到對應的語義內容，就採用該語義內容對應的應答操作進行應答。該應答可以是採用語音對話的方式，也可以是執行某個動作。例如，使用者在觸發語音交互之後，詢問負責問答的設備：今天天氣如何。設備可以通過天氣網站查詢當前的天氣，例如查詢得到今天天氣為：多雲，18到26℃。那麼設備可以回答：今天天氣為：多雲，18到26℃。在實現的時候，問答內容可以以語音的形式呈現，也可以在顯示屏上顯示。或者是，對於智慧設備而言，例如：智慧自動販賣機，使用者與其建立語音交互說：我要一罐XX礦泉水，自動販賣機在獲得該語音並進行語義解析後確定，該使用者想要一瓶XX礦泉水，自動販賣機可以自動彈出一瓶XX礦泉水。　　在實現的時候，智慧設備可以與使用者進行語音交互，並通過解析使用者語音中的語義內容確定出需要執行的操作，從而滿足使用者需要。　　在一個實施方式中，可以通過麥克風陣列接收使用者語音，即，可以在設備中設置麥克風陣列，用於接收使用者語音，也可以是通過啟動設備中預先設置的麥克風陣列接收使用者語音。　　在一個實施方式中，上述語音交互系統還可以包括伺服器，語音設備與伺服器進行通信。對於語音伺服器而言，可以對接收到的使用者語音自己進行處理，也可以是將接收到的使用者語音傳送給伺服器，由伺服器進行處理並產生控制指令，通過產生的控制指令控制語音設備執行語音答覆或者是執行預設的操作等等。具體的，處理過程（即，判斷是否發起語音交互和識別使用者語音的語義的步驟）可以是通過語音設備自身實現，也可以是通過伺服器實現，本申請對此不作限定。　　上述的語音交互系統可以應用在家庭、會場、汽車上、展覽館、地鐵站、火車站等等可以利用語音進行交互的場所和設備上，可以有效提升使用者的交互體驗。　　上述是以為了達到不通過喚醒詞就可以實現遠場語音交互的目的設置的，在實際實現的時候，該方法可以結合基於喚醒詞的遠場語音交互方法實現。即，設備中可以同時使用這兩種方式進行喚醒，即，使用者可以通過喚醒詞喚醒設備，也可以通過上述的結合電腦視覺喚醒設備，從而實現與設備的語音交互。同時也可以在設備上設置喚醒觸發按鈕，從而可以實現基於近場的語音交互。　　下面結合一個具體的使用場景對上述語音交互方法進行說明，以在地鐵的地鐵票售票機上中使用該方法為例。　　如圖7所示，地鐵的售票機上可以設置有攝影鏡頭，通過攝影鏡頭實時監測是否有人面向售票機，那麼就可以建立與該使用者的語音交互。例如，可以但不限於按照以下情景之一處理：情景1：　　檢測到有人面向售票機，且開口說話，那麼在這種情況下，可以直接獲取使用者的語音資料，進行語義分析，確定使用者說話內容是否是希望買票的語音內容，如果確定是，就可以主動建立與使用者的語音交互。　　例如，使用者說的是“我想買到從清河到蘇州街的地鐵票”，那麼售票機在識別到該語音之後，就可以從其中識別出“目的站”，但是還不知道具體的張數，可以再次詢問使用者“您需要幾張地鐵票”，在這些條件都滿足之後，可以提醒使用者付錢確認，從而出票。　　又例如，在識別到有人面向售票機且開口說話的情況下，可以通過語音或者視訊引導使用者如購票，也可以是主動發問“您好，請問您需要買去哪裡的地鐵票”。通過這種方式來獲取所需的購票資訊，在主動詢問完所有的購票資訊之後，可以提醒使用者付錢確認，從而出票。情景2：　　檢測到有人面向售票機，確定該人面向售票機的時長，在時長達到預設時長的情況下，可以確定使用者應該有購票意圖。　　這時可以觸發建立與該使用者的語音交互，例如，可以通過語音或者視訊引導使用者如購票，也可以是主動發問“您好，請問您需要買去哪裡的地鐵票”。通過這種方式來獲取所需的購票資訊，在主動詢問完所有的購票資訊之後，可以提醒使用者付錢確認，從而出票。　　然而，進一步的，考慮到對於類似地鐵站這種比較嘈雜的環境，且人比較多，在獲取語音資料的時候，可以通過定向去噪的方式獲取語音資料。如果識別到有很多人滿足預設的建立語音交互的條件，則可以選擇正面向購票設備，且直線距離最近的使用者作為建立語音交互的使用者，從而避免在有多個使用者的情況下，難以決定與哪個使用者建立語音交互的問題。　　值得注意的是，上述僅是以應用在地鐵站為例進行說明，該方法還可以應用其它的智慧設備上，例如：家用掃地機器人、自助型商店、諮詢設備、火車站、自助販賣機等等都可以。對於具體的場景，本申請不作具體限定，可以根據實際需要選擇和設置。　　圖8是本申請所述一種語音交互方法一個實施例的方法流程圖。雖然本申請提供了如下述實施例或圖式所示的方法操作步驟或裝置結構，但基於習用或者無需進步性的勞動在所述方法或裝置中可以包括更多或者更少的操作步驟或模組單元。在邏輯性上不存在必要因果關係的步驟或結構中，這些步驟的執行順序或裝置的模組結構不限於本申請實施例描述及圖式所示的執行順序或模組結構。所述的方法或模組結構的在實際中的裝置或終端產品應用時，可以按照實施例或者圖式所示的方法或模組結構連接進行順序執行或者並行執行（例如並行處理器或者多線程處理的環境，甚至分布式處理環境）。　　具體的如圖8所示，本申請一種實施例提供的一種交互方法，可以包括：　　步驟701：識別是否有對象面對交互設備且處於發聲狀態；　　在實現的時候，可以是交互設備通過攝影鏡頭實時進行監測，以確定在預設的範圍區間內是否有對象出現。例如，可以通過紅外感應或者是對象識別等手段，確定在預設範圍區間是否有對象出現。在確定有對象出現的情況下，再觸發獲取對象的圖像資料，並進一步判斷該對象是否是面向設備的，在確定是面向設備的情況下，可以進一步確定是否是處於發聲狀態。　　在確定該使用者是面向設備且處於發聲狀態的情況下，確定該使用者是在與該設備進行交互的。這個時候，可以觸發獲取語音資料。　　具體的，在進行對象識別的時候，可以是可以對所述交互設備的攝影鏡頭的覆蓋範圍實時進行對象監測；在監測到所述覆蓋範圍內有對象出現的情況下，對監測到的對象進行人臉識別；根據人臉識別結果確定對象是否面對所述交互設備且處於發聲狀態。對監測到的對象進行人臉識別，可以包括：通過對監測到的對象進行嘴部特徵點檢測，確定所述監測到的對象是否處於發聲狀態。　　步驟702：在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　在獲取語音資料的時候，可以是通過麥克風陣列獲得的，且可以對通過麥克風陣列獲取的語音資料進行去噪處理，以便得到更為清晰和更少噪音的語音資料。　　步驟703：根據所述語音資料建立所述對象與所述交互設備之間的交互。　　圖7所示的是，是以面向設備且張嘴說話為例進行的說明，在實現的時候，還可以以面向設備且停留時長達到預設時長作為觸發條件觸發建立交互。基於此，提供了一種交互方法，如圖9所示，可以包括：　　步驟801：識別是否有對象面對交互設備；　　具體的，在進行對象識別的時候，可以是可以對所述交互設備的攝影鏡頭的覆蓋範圍實時進行對象監測；在監測到所述覆蓋範圍內有對象出現的情況下，對監測到的對象進行人臉識別。以便確定檢測到的對象是否面對所述交互設備。　　在實現的時候，可以通過在所述預設範圍區域中設置的傳感器檢測在所述預設範圍內是否有對象；也可以通過紅外探測儀檢測在所述預設範圍區域內是否有對象，也可以通過攝影鏡頭獲取到的圖像資訊確定在預設範圍區域內是否有對象。在實現的時候，具體選擇哪種方式可以根據實際需要選擇，本申請對此不作限定。可以通過人臉識別確定檢測到的對象是否面對所述交互設備。　　步驟802：在確定有對象面對所述交互設備且停留時長超出預設時長的情況下，建立所述對象與所述交互設備之間的交互。　　考慮到在實現過程中，存在有些人說的話其實是與設備無關的，不需要該設備進行回復或者響應的。為此，可以對所述語音資料進行語義分析；根據語義分析結果確定所述語音資料是否與所述交互設備相關；只有在確定相關的情況下，才建立所述人體與所述交互設備之間的語音交互。　　在一個實施方式中，可以對語音資料進行語義分析，匹配出與語義分析結果匹配的操作指令；根據所述操作指令對所述交互設備進行控制。其中，上述作指令可以包括但不限於以下至少之一：語音應答、介面顯示、動作執行。例如，可以是對使用者語音資料進行語音應答，也可以是響應於使用者的語音資料執行某些操作，或者是使用者希望搜索或者查詢某個東西，可以在介面上顯示查詢或者搜索結果等等，都可以通過上述方式實現。　　以一個具體場景為例，在客廳設置了一個智慧音箱，使用者A走進該音箱且面向該音箱，說到：麻煩給我放一首“我要飛”，音箱在確認使用者A面向它且處於說話狀態的情況下，獲取使用者A所說的“我要飛”的語音內容。然後，可以對該語音內容進行語義分析，確定出使用者A是希望播放“我要飛”這首歌，基於此，音箱響應該指令，可以回答“好的”，然後播放“我要飛”。　　考慮到在喚醒之後，可以設置一個喚醒有效時間，例如，五分鐘，如果五分鐘內，使用者A沒有進一步的指令或者應答，那麼下次說話，音箱可以重新確定在滿足上述面向設備且處於說話狀態的情況下，再次喚醒，以實現遠場語音交互。在喚醒有效時間內，使用者A可以直接與音箱進行語音交互。例如，在歌曲播放後，使用者A感覺音量太大，可以說“音量太大，調小25%”，這時音箱響應於該指令可以降低音量。　　上述是以人面向設備結合是否說話，或者結合停留時長來確定是否觸發建立語音交互，在實現的時候，可以僅以確定是否人面向設備作為觸發判定條件，即，一旦發現有人面向設備，就可以觸發語音交互。之所以加上結合是否說胡，或者是結合停留時長進行判斷，是為了使得判定結果更準確，更符合人們的實際需求。當然，進一步的判定條件也不僅限於是否需要和停留時長，還可以結合其他的條件進行判定，可以根據實際需要和實際使用場景選擇，本申請對此不作限定。　　在另一個具體場景中，以銀行的自助櫃檯機為例，該自助櫃檯機具備語音交互的功能，為了達到不通過喚醒詞就可以喚醒的目的。可以為該自動櫃檯機設置上述喚醒方式。例如，當檢測到有使用者靠近櫃檯機，且面向櫃檯機，處於說話狀態。那麼就可以確定該使用者是打算與該櫃檯機進行語音交互的。這時可以獲取使用者的語音資料，對其進行語義識別。使用者說的是“今天天氣好晴朗，處處好風光”，即，使用者其實是在唱歌，對該內容進行語義分析，確定使用者所說的內容與該櫃檯機是無關的，那麼可以不予回應。再例如，如果檢測到使用者說的是“我要辦一張新的銀行卡，需要怎麼做”，這時通過語義分析，確定是與櫃檯機相關的語音內容，櫃檯機可以進行回復，例如：可以語音告訴該使用者如何辦卡，也可以回答“好的，請看我的顯示屏顯示的操作步驟，按照該步驟辦卡即可”並同時在顯示屏上顯示具體的操作步驟。　　以購買地鐵票時候，不同的問詢場景下的對話為例進行說明：　　對話一（快速購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；（這個招呼和問答方式可以是通過對話管理預先設定好的）。　　使用者：我要一張到人民廣場的票；　　售票機在獲取到使用者發出的“我要一張到人民廣場的票”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出其中已經攜帶有了“目的地”和“張數”資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機可以顯示，或者語音播報：（票務明細）總共5元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票一張到人民廣場的地鐵票。　　對話二（需要詢問張數的購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到人民廣場；　　售票機在獲取到使用者發出的“我要到人民廣場”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出語音資訊中僅攜帶了“目的地”資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：到人民廣場票價5元，請問要買幾張？　　使用者：2張；　　售票機在獲取到使用者發出的“2張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機:（顯示票務明細）總共10元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票2張到人民廣場的地鐵票。　　對話三（對話打斷的購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到人民廣場；　　售票機在獲取到使用者發出的“我要到人民廣場”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出語音資訊中僅攜帶了“目的地”資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：票價5元，請問要買幾張？　　使用者：不對，我還是去陝西南路。　　售票機在獲取到使用者發出的“不對，我還是去陝西南路”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊並不是說明張數的，而是修改目的地的，因此，確定出使用者希望去的不是人民廣場，而是要求陝西南路，因此，可以將目的地修改為“陝西南路”。進一步的，可以將識別到的內容送至對話管理，對話管理確定出目前還是僅有目的地資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：好的，到陝西南路票價6元，請問要買幾張？　　使用者：2張；　　售票機在獲取到使用者發出的“2張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機:（顯示票務明細）總共10元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票2張到陝西南路的地鐵票。　　對話四（紋路和地鐵線路建議）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到地鐵恒通大廈；　　售票機在獲取到使用者發出的“我要到地鐵恒通大廈”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出其中已經攜帶有了“目的地”資訊。在對話管理模組中，設置了路線告知的對話內容，在獲取到目的地之後，可以匹配出該目的地對應的路線資訊匹配給使用者。因此，可以將確定出的地鐵緩衝資訊以對話或者資訊顯示的方式提供給使用者，例如：　　售票機：（展示目標地圖）推薦你乘坐1號線到漢中路站下車2口出。　　使用者：好，買一張。　　售票機在獲取到使用者發出的“好，買一張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機:（顯示票務明細）總共5元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票1張到恒通大廈的地鐵票。　　值得注意的是，上述所列舉的僅是場景對話的示例性描述，在實際實現的可以採用其它的對話模式和流程，本申請對此不作限定。　　在上例中，通過對人體是否面向設備來確定使用者的是否有與設備進行語音交互的意圖，從而可以及時發現使用者希望發起語音交互的意圖，從而觸發目標人體與交互設備之間的語音交互。通過上述方式解決了現有的語音交互需要為交互設備設置喚醒詞，通過喚醒詞進行喚醒所存在的喚醒詞數量少，且容易誤喚醒的技術問題，達到了無需喚醒詞即可實現遠場語音交互的技術效果。　　本申請所提供的方法實施例可以在行動終端、電腦終端或者類似的運算裝置中執行。以運行在電腦終端上為例，圖10是本發明實施例的一種交互方法的設備終端的硬體結構方塊圖。如圖10所示，設備終端10可以包括一個或多個（圖中僅示出一個）處理器102（處理器102可以包括但不限於微處理器MCU或可程式化邏輯器件FPGA等的處理裝置）、用於儲存資料的儲存器104、以及用於通信功能的傳輸模組106。本領域普通技術人員可以理解，圖10所示的結構僅為示意，其並不對上述電子裝置的結構造成限定。例如，設備終端10還可包括比圖10中所示更多或者更少的組件，或者具有與圖10所示不同的配置。　　儲存器104可用於儲存應用軟體的軟體程式以及模組，如本發明實施例中的資料交互方法對應的程式指令/模組，處理器102通過運行儲存在儲存器104內的軟體程式以及模組，從而執行各種功能應用以及資料處理，即實現上述的應用程式的資料交互方法。儲存器104可包括高速隨機儲存器，還可包括非易失性儲存器，如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態儲存器。在一些實例中，儲存器104可進一步包括相對於處理器102遠程設置的儲存器，這些遠程儲存器可以通過網路連接至電腦終端10。上述網路的實例包括但不限於網際網路、企業內部網、區域網路、行動通信網及其組合。　　傳輸模組106用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦終端10的通信供應商提供的無線網路。在一個實例中，傳輸模組106包括一個網路適配器（Network Interface Controller，NIC），其可通過基站與其他網路設備相連從而可與網際網路進行通訊。在一個實例中，傳輸模組106可以為射頻（Radio Frequency，RF）模組，其用於通過無線方式與網際網路進行通訊。　　如圖11所示為交互裝置的結構方塊圖，可以包括：識別模組1001、獲取模組1002和建立模組1003，其中：　　識別模組1001，可以用於識別是否有對象面對交互設備且處於發聲狀態；　　獲取模組1002，可以用於在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　建立模組1003，可以用於根據所述語音資料建立所述對象與所述交互設備之間的交互。　　在一個實施方式中，建立模組1003可以對所述語音資料進行語義分析；根據語義分析結果確定所述語音資料是否與所述交互設備相關；在確定相關的情況下，建立所述對象與所述交互設備之間的交互。　　在一個實施方式中，建立模組1003具體可以對所述語音資料進行語義分析；匹配出與語義分析結果匹配的操作指令；根據所述操作指令對所述交互設備進行控制。　　在一個實施方式中，操作指令可以包括但不限於以下至少之一：語音應答、介面顯示、動作執行。　　在一個實施方式中，識別是否有對象面對交互設備且處於發聲狀態，可以包括：對所述交互設備的攝影鏡頭的覆蓋範圍實時進行對象監測；在監測到所述覆蓋範圍內有對象出現的情況下，對監測到的對象進行人臉識別；根據人臉識別結果確定對象是否面對所述交互設備且處於發聲狀態。　　在一個實施方式中，識別模組1001具體可以通過對所述監測到的對象進行嘴部特徵點檢測，確定所述監測到的對象是否處於發聲狀態。　　在一個實施方式中，獲取模組1002具體可以通過麥克風陣列獲取對象的語音資料。　　對於一些大型的語音交互場景或者是支付場景等等，在本例中，提供了兩種部署方式，如圖12所示為集中部署方式，即，多個人機交互設備都各自連接至同一個處理中心，該處理中心可以是雲端伺服器或者是一種伺服器集群等等都可以，通過該處理中心可以進行資料的處理，或者是對人機交互設備進行集中控制。如圖13所示為大集中小雙活的部署方式，在該方式中，每兩個人機交互設備連接至一個小的處理中心，該小的處理中心對與其連接的兩個人機交互設備進行控制，然後，所有小的處理中心都連接至同一個大的處理中心，通過該大的處理中心進行集中控制。　　然而，值得注意的是，上述所列的部署方式僅是一種示例性描述，在實際實現的時候，還可以採用其它的部署方式，例如，大集中小三活的部署方式等等，或者每個小的處理中心連接的人機交互設備的數量不是等量的等等都可以作為可選的部署方式，可以根據實際需要選擇，本申請對此不作限定。　　本申請所提供的人機交互系統、方法。語音去噪方法等等，可以應用在法庭庭審、客服質檢、視訊直播、記者採訪、會議記錄、醫生問診等等的業務場景，可以應用在客服機器上、智慧金融投資顧問上、各類APP或者而是各類智慧硬體設備，例如：手機、音箱、機上盒、車載設備等上。需要涉及的就是錄音文件識別、實時語音識別、文本大數據分析、短語音識別、語音合成、智慧對話等等。　　本申請提供的交互方法和設備，通過對象是否面向設備來確定使用者的是否有與設備進行語音交互的意圖，從而可以及時發現使用者希望發起交互的意圖，從而觸發目標對象與交互設備之間的交互。通過上述方式解決了現有的交互需要為交互設備設置喚醒詞，通過喚醒詞進行喚醒所存在的喚醒詞數量少，且容易誤喚醒的技術問題，達到了無需喚醒詞即可實現遠場交互的技術效果。　　雖然本申請提供了如實施例或流程圖所述的方法操作步驟，但基於習用或者無進步性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者圖式所示的方法順序執行或者並行執行（例如並行處理器或者多線程處理的環境）。　　上述實施例闡明的裝置或模組，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。為了描述的方便，描述以上裝置時以功能分為各種模組分別描述。在實施本申請時可以把各模組的功能在同一個或多個軟體及/或硬體中實現。當然，也可以將實現某功能的模組由多個子模組或子單元組合實現。　　本申請中所述的方法、裝置或模組可以以電腦可讀程式代碼方式實現控制器按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該（微）處理器執行的電腦可讀程式代碼（例如軟體或韌體）的電腦可讀媒介、邏輯閘、開關、專用積體電路（Application Specific Integrated Circuit，ASIC）、可程式化邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式代碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式化來使得控制器以邏輯閘、開關、專用積體電路、可程式化邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　本申請所述裝置中的部分模組可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構、類等等。也可以在分布式計算環境中實踐本申請，在這些分布式計算環境中，由通過通信網路而被連接的遠程處理設備來執行任務。在分布式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠程電腦儲存媒介中。　　通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的硬體的方式來實現。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式顯示出來，也可以通過資料遷移的實施過程中顯示出來。該電腦軟體產品可以儲存在儲存媒介中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備（可以是個人電腦，行動終端，伺服器，或者網路設備等）執行本申請各個實施例或者實施例的某些部分所述的方法。　　本說明書中的各個實施例採用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。本申請的全部或者部分可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或便攜式設備、平板型設備、行動通信終端、多處理器系統、基於微處理器的系統、可程式化的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分布式計算環境等等。　　雖然通過實施例描繪了本申請，本領域普通技術人員知道，本申請有許多變形和變化而不脫離本申請的精神，希望所附的請求項包括這些變形和變化而不脫離本申請的精神。

202‧‧‧使用者

701‧‧‧步驟

702‧‧‧步驟

703‧‧‧步驟

801‧‧‧步驟

802‧‧‧步驟

102‧‧‧處理器

104‧‧‧儲存器

106‧‧‧傳輸模組

1001‧‧‧識別模組

1002‧‧‧獲取模組

1003‧‧‧建立模組

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本申請中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些圖式獲得其他的圖式。　　圖1是現有的基於喚醒詞的遠場語音交互示意圖；　　圖2是根據本申請實施例的語音交互系統的架構示意圖；　　圖3是根據本申請實施例的人機交互場景的邏輯實現示意圖；　　圖4是根據本申請實施例的確定是否建立語音交互示意圖；　　圖5是根據本申請實施例的預先設置攝影鏡頭覆蓋範圍示意圖；　　圖6是根據本申請實施例的語音交互示意圖；　　圖7是根據本申請實施例的購票場景交互示意圖；　　圖8是根據本申請實施例的交互方法的方法流程圖；　　圖9是根據本申請實施例的交互方法的另一方法流程圖；　　圖10是根據本申請實施例的終端設備的結構示意圖；　　圖11是根據本申請實施例的語音交互裝置的結構方塊圖；　　圖12是根據本申請實施例的集中部署方式的架構示意圖；　　圖13是根據本申請實施例的大集中小雙活的部署方式的架構示意圖。

Claims

一種交互方法，其特徵在於，所述方法包括：　　識別是否有對象面對交互設備且處於發聲狀態；　　在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　根據所述語音資料建立所述對象與所述交互設備之間的交互。
根據請求項1所述的方法，其中，根據所述語音資料建立所述對象與所述交互設備之間的交互，包括：　　對所述語音資料進行語義分析；　　根據語義分析結果確定所述語音資料是否與所述交互設備相關；　　在確定相關的情況下，建立所述對象與所述交互設備之間的交互。
根據請求項1所述的方法，其中，根據所述語音資料建立所述對象與所述交互設備之間的交互，包括：　　對所述語音資料進行語義分析；　　匹配出與語義分析結果匹配的操作指令；　　根據所述操作指令對所述交互設備進行控制。
根據請求項3所述的方法，其中，所述操作指令包括以下至少之一：語音應答、介面顯示、動作執行。
根據請求項1所述的方法，其中，識別是否有對象面對交互設備且處於發聲狀態，包括：　　對所述交互設備的攝影鏡頭的覆蓋範圍實時進行對象監測；　　在監測到所述覆蓋範圍內有對象出現的情況下，對監測到的對象進行人臉識別；　　根據人臉識別結果確定對象是否面對所述交互設備且處於發聲狀態。
根據請求項5所述的方法，其中，對監測到的對象進行人臉識別，包括：　　通過對所述監測到的對象進行嘴部特徵點檢測，確定所述監測到的對象是否處於發聲狀態。
根據請求項1至6中任一項所述的方法，其中，獲取所述對象的語音資料，包括：　　通過麥克風陣列獲取對象的語音資料。
一種交互方法，其特徵在於，所述方法包括：　　識別是否有對象面對交互設備；　　在確定有對象面對所述交互設備且停留時長超出預設時長的情況下，建立所述對象與所述交互設備之間的交互。
根據請求項8所述的方法，其中，識別是否有對象面對交互設備，包括：　　檢測在預設範圍區域內是否有對象；　　在確定所述預設範圍區域內有對象的情況下，確定檢測到的對象是否面對所述交互設備。
根據請求項9所述的方法，其中，檢測在預設範圍區域內是否有對象，包括：　　通過在所述預設範圍區域中設置的傳感器檢測在所述預設範圍內是否有對象；　　及/或，　　通過紅外探測儀檢測在所述預設範圍區域內是否有對象。
根據請求項9所述的方法，其中，確定檢測到的對象是否面對所述交互設備，包括：　　通過人臉識別確定檢測到的對象是否面對所述交互設備。
根據請求項8所述的方法，其中，在確定有對象面對所述交互設備且停留時長超出預設時長的情況下之後，所述方法還包括：　　確定所述對象是否處於發聲狀態；　　在確定所述對象處於發聲狀態的情況下，獲取所述對象的語音資料；　　對所述語音資料進行語義分析；　　根據語義分析結果確定所述語音資料是否與所述交互設備相關；　　在確定相關的情況下，建立所述對象與所述交互設備之間的交互。
一種交互方法，其特徵在於，所述方法包括：　　識別是否有對象面對交互設備；　　在確定有對象面對所述交互設備的情況下，建立所述對象與所述交互設備之間的交互。
一種交互設備，其特徵在於，包括：攝影鏡頭、麥克風陣列、處理器，其中，　　所述攝影鏡頭，用於獲取圖像；　　所述處理器，用於根據所述圖像識別是否有對象面對交互設備且處於發聲狀態；　　所述麥克風陣列，用於在確定有對象面對所述交互設備且處於發聲狀態的情況下，獲取所述對象的語音資料；　　所述處理器，用於根據所述語音資料建立所述對象與所述交互設備之間的交互。
根據請求項14所述的設備，其中，所述處理器根據所述語音資料建立所述對象與所述交互設備之間的交互，包括：　　對所述語音資料進行語義分析；　　根據語義分析結果確定所述語音資料是否與所述交互設備相關；　　在確定相關的情況下，建立所述對象與所述交互設備之間的交互。
根據請求項14所述的設備，其中，所述處理器根據所述語音資料建立所述對象與所述交互設備之間的交互，包括：　　對所述語音資料進行語義分析；　　匹配出與語義分析結果匹配的操作指令；　　根據所述操作指令對所述交互設備進行控制。
根據請求項16所述的設備，其中，所述操作指令包括以下至少之一：語音應答、介面顯示、動作執行。
根據請求項14所述的設備，其中，所述攝影鏡頭具體用於對所述交互設備的攝影鏡頭的覆蓋範圍實時進行對象監測；所述處理器具體用於在監測到所述覆蓋範圍內有對象出現的情況下，對監測到的對象進行人臉識別；根據人臉識別結果確定對象是否面對所述交互設備且處於發聲狀態。
根據請求項18所述的設備，其中，所述處理器對監測到的對象進行人臉識別，包括：　　通過對所述監測到的對象進行嘴部特徵點檢測，確定所述監測到的對象是否處於發聲狀態。
一種交互設備，其特徵在於，包括：攝影鏡頭、麥克風陣列、處理器，其中，　　所述攝影鏡頭，用於獲取圖像；　　所述處理器，用於根據所述圖像識別是否有對象面對交互設備且停留時長超出預設時長；　　所述麥克風陣列，用於在確定有對象面對所述交互設備且停留時長超出預設時長的情況下的情況下，獲取所述對象的語音資料；　　所述處理器，用於根據所述語音資料建立所述對象與所述交互設備之間的交互。
一種交互設備，包括處理器以及用於儲存處理器可執行指令的儲存器，所述處理器執行所述指令時實現請求項1至7中任一項所述方法的步驟。
一種交互設備，包括處理器以及用於儲存處理器可執行指令的儲存器，所述處理器執行所述指令時實現請求項8至12中任一項所述方法的步驟。
一種電腦可讀儲存媒介，其上儲存有電腦指令，所述指令被執行時實現請求項1至7中任一項所述方法的步驟。
一種電腦可讀儲存媒介，其上儲存有電腦指令，所述指令被執行時實現請求項8至12中任一項所述方法的步驟。