TW202008115A - 交互方法及裝置 - Google Patents

交互方法及裝置 Download PDF

Info

Publication number
TW202008115A
TW202008115A TW108120453A TW108120453A TW202008115A TW 202008115 A TW202008115 A TW 202008115A TW 108120453 A TW108120453 A TW 108120453A TW 108120453 A TW108120453 A TW 108120453A TW 202008115 A TW202008115 A TW 202008115A
Authority
TW
Taiwan
Prior art keywords
user
sensing area
users
voice
interactive
Prior art date
Application number
TW108120453A
Other languages
English (en)
Inventor
朱碧軍
陳志遠
俞靜飛
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW202008115A publication Critical patent/TW202008115A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本說明書一個或多個實施例提供一種交互方法及裝置,該方法可以包括:檢測處於感應區域的用戶;向所述感應區域內的用戶提供交互內容;當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。

Description

交互方法及裝置
本說明書一個或多個實施例係有關電子技術領域,尤其是一種交互方法及裝置。
隨著智慧化技術的不斷發展,電子設備所具備的智慧化程度越來越高,能夠在一定程度上與用戶實現交互,並協助用戶完成相關事件。例如,電子設備可以透過在螢幕上顯示相關內容、語音播放相關內容等形式,與用戶完成上述的交互過程。
有鑑於此,本說明書一個或多個實施例提供一種交互方法及裝置。 為實現上述目的,本說明書一個或多個實施例提供技術方案如下: 根據本說明書一個或多個實施例的第一方面,提出了一種交互方法,包括: 檢測處於感應區域的用戶; 向所述感應區域內的用戶提供交互內容; 當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。 根據本說明書一個或多個實施例的第二方面,提出了一種交互裝置,包括: 檢測單元,檢測處於感應區域的用戶; 提供單元,向所述感應區域內的用戶提供交互內容; 展示單元,當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。
這裡將詳細地對示例性實施例進行說明,其示例表示在圖式中。下面的描述涉及圖式時,除非另有表示,不同圖式中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書一個或多個實施例相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本說明書一個或多個實施例的一些方面相一致的裝置和方法的例子。 需要說明的是:在其他實施例中並不一定按照本說明書示出和描述的順序來執行相應方法的步驟。在一些其他實施例中,其方法所包括的步驟可以比本說明書所描述的更多或更少。此外,本說明書中所描述的單個步驟,在其他實施例中可能被分解為多個步驟進行描述;而本說明書中所描述的多個步驟,在其他實施例中也可能被合併為單個步驟進行描述。 在一實施例中,本說明書的交互方案可以應用於交互設備上。該交互設備可以為專用於實現交互功能的電子設備;或者,該交互設備可以為兼具交互功能的多功能電子設備,比如該交互設備可以包括PC、平板設備、筆記型電腦、可穿戴設備(如智慧眼鏡等)等,本說明書一個或多個實施例並不對此進行限制。在運行過程中,該交互設備可以運行交互系統,以實現交互方案。其中,該交互系統的應用程式可以被預先安裝在交互設備上,使其可以在該交互設備上被啟動並運行;當然,當採用諸如HTML5技術時,無需在交互設備上安裝該應用程式,即可獲得並運行上述的交互系統。 在一實施例中,圖1是一示例性實施例提供的一種交互系統的架構示意圖。如圖1所示,該交互系統可以包括伺服器11、網路12、交互設備13。其中,伺服器11在運行過程中,可以運行交互系統的伺服端側的程式,以實現相關的處理等功能;而交互設備13在運行過程中,可以運行交互系統的客戶端側的程式,以實現相關的資訊呈現、人機交互等功能,從而在伺服器11與交互設備13之間配合實現該交互系統。 其中,伺服器11可以為包含一獨立主機的實體伺服器,或者該伺服器11可以為主機叢集承載的虛擬伺服器。交互設備13可以為專用於實現交互功能的電子設備;或者,交互設備13可以為兼具交互功能的多功能電子設備,比如該交互設備可以包括PC、平板設備、筆記型電腦、可穿戴設備(如智慧眼鏡等)等,本說明書一個或多個實施例並不對此進行限制。而對於交互設備13與伺服器11之間進行交互的網路12,可以包括多種類型的有線或無線網路。在一實施例中,該網路12可以包括公共交換電話網路(Public Switched Telephone Network,PSTN)和網際網路。需要指出的是:交互系統的客戶端的應用程式可以被預先安裝在交互設備上,使得該客戶端可以在該交互設備上被啟動並運行;當然,當採用諸如HTML5技術的線上“客戶端”時,無需在交互設備上安裝相應的應用程式,即可獲得並運行該客戶端。 在一實施例中,上述的交互系統可以基於行動化團體辦公平臺而實現。該行動化團體辦公平臺可以實現通訊功能,還可以作為諸多其他功能的整合化功能平臺,比如對於審批事件(如請假、辦公物品申領、財務等審批事件)、考勤事件、任務事件、日誌事件等團體內部事件的處理,再比如訂餐、採購等團體外部事件的處理,本說明書一個或多個實施例並不對此進行限制;類似地,該行動化團體辦公平臺可以實現上述的交互系統。 較為具體地,行動化團體辦公平臺可以承載於相關技術中的即時通訊應用,比如企業即時通訊(Enterprise Instant Messaging,EIM)應用,例如Skype For Business® 、Microsoft Teams® 、Yammer® 、Workplace® 、Slack® 、企業微信® 、紛享銷客® 、企業飛信® 、企業易信® 等。當然,即時通訊功能僅為行動化團體辦公平臺支持的通訊功能之一,該行動化團體辦公平臺還能夠實現更多諸如上述的其他功能,此處不再贅述。其中,本說明書中的“團體”可以包括企業、學校、部隊、醫院、事業單位等各種組織,本申請並不對此進行限制。 在一實施例中,上述交互系統還可以基於其他任意類型的應用而實現,而並不限制於行動化團體辦公平臺或類似場景中,比如普通的即時通訊應用等,本說明書並不對此進行限制。 圖2是一示例性實施例提供的一種交互方法的流程圖。如圖2所示,該方法可以應用於交互設備,可以包括以下步驟: 步驟202,檢測處於感應區域的用戶。 在一實施例中,交互設備具有一定的感應距離,該感應距離的覆蓋區域構成感應區域,比如半徑為3m的扇形(或者其他任意形狀)區域等;透過對該感應區域進行檢測,可以確定是否存在處於該感應區域內的用戶。 在一實施例中,交互設備可以透過任意方式檢測該感應區域內的用戶。例如,交互設備可以透過實施人臉檢測的方式,確定該感應區域內是否存在用戶。 步驟204,向所述感應區域內的用戶提供交互內容。 在一實施例中,交互設備可以透過任意的一種方式或多種組合方式提供交互內容,本說明書並不對此進行限制。例如,交互設備可以包含一顯示螢幕,並將交互內容展示於該顯示螢幕中,從而將該交互內容提供至感應區域內的用戶;再例如,交互設備可以包含一喇叭,並將交互內容透過喇叭進行語音播報,從而將該交互內容提供至感應區域內的用戶;又例如,交互設備可以包含若干指示燈,並透過對指示燈的開關狀態、顏色、閃爍方式等進行控制,從而將該交互內容提供至感應區域內的用戶。 在一實施例中,感應區域可以包括近場感應區域和遠場感應區域,近場感應區域相比於遠場感應區域更加靠近交互設備,即此處的“近場”與“遠場”為相對關係,例如可以將0~1.5m的範圍劃定為近場感應區域、將1.5~3m的範圍劃定為遠場感應區域。 在一實施例中,交互設備可以向所述近場感應區域內的用戶提供交互內容;以及,交互設備可以向所述遠場感應區域內的用戶發出引導資訊,以引導用戶從所述遠場感應區域進入所述近場感應區域,使得該用戶成為近場感應區域內的用戶,從而向該用戶提供交互內容。當用戶處於遠場感應區域時,該用戶具有一定機率希望與交互設備進行交互,那麼由於遠場感應區域可能由於距離較遠而無法提供較好的交互效果,因而可以透過向用戶發出引導資訊,一方面可以甄別該用戶是否確實希望實施交互,另一方面可以使其進入近場感應區域後獲得更佳的交互效果。其中,交互設備可以透過任意的一種方式或多種組合方式發出引導資訊,本說明書並不對此進行限制;例如該交互設備可以透過在顯示螢幕上展示引導資訊,再例如該交互設備可以透過喇叭對引導資訊進行語音播報,又例如該交互設備可以點亮提示燈或使得提示燈發出閃爍,從而引導用戶進入近場感應區域。 在一實施例中,當交互設備可以實施考勤操作時,透過對感應區域內的用戶進行身分識別,可以在考勤時間段內對處於感應區域且尚未考勤的用戶自動實施考勤操作,而無論其是否位於近場感應區域或遠場感應區域。其中,當用戶在遠場感應區域內的停留時長達到第一預設時長,或者該用戶在近場感應區域內的停留時長達到第二預設時長時,交互設備可以判定為該用戶可能需要實施交互操作,從而向該用戶提供交互內容;由於用戶通常只有在希望與交互設備進行交互的情況下,才會接近交互設備,因而第二預設時長可以適當小於第一預設時長,以縮短用戶的等待時間。 在一實施例中,交互設備可以主動向感應區域內的用戶提供交互內容,類似於用戶之間的“打招呼”行為,比如該交互內容可以包括“有什麼可以幫助你”等,從而透過該交互內容對感應區域內的用戶進行引導,以協助其完成相關事件。 進一步地,交互設備可以確定感應區域內的用戶是否滿足預設條件,從而僅向滿足該預設條件的用戶提供交互內容,比如該預設條件可以包括以下至少之一:在遠場感應區域內的停留時長達到第一預設時長、在近場感應區域內的停留時長達到第二預設時長、用戶朝向交互設備處觀看、用戶臉部正對交互設備或兩者之間的夾角小於預設角度等,本說明書並不對此進行限制。 在一實施例中,交互設備可以獲取所述感應區域內的用戶的關聯事件,從而當所述交互內容與所述關聯事件相關時,根據所述關聯事件的狀態資訊,調整向所述感應區域內的用戶提供的交互內容;而當不存在與交互內容相關的關聯事件時,可以提供默認的交互內容。例如,當交互內容與考勤相關時,對於在正常情況下的工作時段檢測到的感應區域內的用戶,交互內容可以為“你確認早退嗎?”;而如果感應區域內的用戶的關聯事件包括病假審批事件,且已經到達該病假審批事件中涉及到的請假時間段,那麼即便仍處於正常情況下的工作時段,交互內容也可以調整為“你確認下班嗎?”。再例如,當交互內容與外部人員的存取相關時,如果感應區域內的用戶為外部人員,且獲取到相應的關聯事件為存取預約事件,那麼交互內容可以為“是否需要幫你接通存取對象?”;而如果不存在相應的存取預約事件,那麼交互內容可以為“請說出你的存取對象”。 在一實施例中,交互設備可以確定所述感應區域內的用戶的身分類型,然後根據所述身分類型,調整向所述感應區域內的用戶提供的交互內容。例如,該身分類型可以包括:感應區域內的用戶屬團體內部成員或團體外部人員、感應區域內的用戶所歸屬的部門等,從而向感應區域內的用戶提供符合於該身分類型的交互內容。 步驟206,當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。 在一實施例中,當感應區域內存在多個用戶時,目標交互對象可以僅為其中的部分用戶(該部分用戶的數量可以為一個,也可以為多個),透過向感應區域內的用戶展示該目標交互對象的資訊,可以確保感應區域內的每個用戶均能夠清楚瞭解自身是否為該交互內容的目標交互對象。 在一實施例中,可以分別獲取感應區域內的每一用戶的圖像資訊,並針對每一用戶產生相應的頭像圖片。然後,在未實施交互時,可以同時示出各個用戶的頭像圖片;而在針對目標交互對象進行交互時,可以僅示出該目標交互對象對應的頭像圖片、屏蔽其他用戶的頭像圖片,或者對該目標交互對象與其他用戶對應的頭像圖片進行區分展示,例如該區分展示可以包括將目標交互對象的頭像圖片展示於中心區域、將其他用戶的頭像圖片展示於邊緣區域,再例如該區分展示可以包括對目標交互對象的頭像圖片進行放大展示、將其他用戶的頭像圖片進行正常或縮小展示,又例如該區分展示可以包括對目標交互對象的頭像圖片進行正常展示(彩色)、對其他用戶的頭像圖片進行灰度化處理後展示等,本說明書並不對此進行限制。 在一實施例中,當交互內容的目標交互對象為感應區域內的所有用戶(該所有用戶的數量可以為一個,也可以為多個)時,無需向感應區域內的用戶展示目標交互對象的資訊,這有助於用戶更加關注於該交互內容本身;當然,即便在該場景下展示了目標交互對象的資訊,也並不影響本說明書技術方案的實施。 在一實施例中,感應區域內的用戶可能不斷發生變化;其中,當所述交互內容的目標交互對象由所述感應區域內的部分用戶變更為所有用戶(比如非目標交互對象的用戶離開了感應區域)時,可以暫停向所述感應區域內的用戶展示所述目標交互對象的資訊,從而由“交互內容的目標交互對象為所述感應區域內的部分用戶”向“交互內容的目標交互對象為感應區域內的所有用戶”實現平滑的場景過渡。 在一實施例中,交互設備可以確定作為所述目標交互對象的用戶的身分資訊,以作為所述目標交互對象的資訊;然後,向所述感應區域內的用戶展示所述身分資訊。例如,交互設備可以在提供交互內容的同時,向感應區域內的用戶展示上述的身分資訊;或者,交互設備提供交互內容與展示身分資訊的操作也可以不同時實施,本說明書並不對此進行限制。 在一實施例中,交互設備可以對處於所述感應區域的用戶進行身分識別,比如該交互設備可以透過人臉識別、指紋識別、虹膜識別、步態識別、聲紋識別等生理特徵識別方式,或者其他任意方式,本說明書並不對此進行限制。當作為目標交互對象的第一用戶的身分被成功識別時,身分資訊可以包括該第一用戶的稱謂(如姓名、花名、職稱或其他類型),比如當第一用戶的稱謂為“小白”時,交互設備可以向該感應區域內的用戶展示“小白,你有什麼需求”,其中“小白”為上述的目標交互對象的資訊、“你有什麼需求”為上述的交互內容。當作為目標交互對象的第二用戶的身分未被成功識別時,身分資訊可以包括針對該第二用戶的視覺特徵描述資訊,比如該視覺特徵描述資訊可以包括以下至少之一:預估性別、預估身高、預估年齡、皮膚顏色、衣著、配飾、與交互設備之間的距離、向交互設備的朝向角度等,例如交互設備可以向該感應區域內的用戶展示“這位穿黑色上衣的男士,你有什麼需求”,其中“穿黑色上衣的男士”將預估性別與衣著作為目標交互對象的資訊、“你有什麼需求”為上述的交互內容。 在一實施例中,交互設備可以展示所述感應區域內的用戶對應的用戶指代資訊;交互設備可以確定作為所述目標交互對象的用戶對應的用戶指代資訊,以作為所述目標交互對象的資訊;然後,交互設備可以向所述感應區域內的用戶突出展示確定的用戶指代資訊。例如,交互設備可以對所述感應區域內的用戶進行圖像採集,以將採集到的用戶圖像作為所述用戶指代資訊進行展示;相應地,交互設備可以對目標交互對象對應的用戶圖像進行視覺效果強化(比如圈出相應的用戶圖像、在相應的用戶圖像附近展示箭頭圖標等)、或者對非目標交互對象對應的用戶圖像進行視覺效果弱化(比如對相應的用戶圖像進行內容遮擋等),以便於感應區域內的用戶瞭解上述的目標交互對象。 在一實施例中,交互設備可以獲取所述感應區域內的用戶發出的事件協助請求,然後響應於所述事件協助請求,以協助完成相應事件。例如,感應區域內的用戶可以向交互設備發出“呼叫員工小黑”的交互語音,交互設備可以明確其事件協助請求為針對“員工小黑”的呼叫請求,從而向該“員工小黑”發起呼叫。當然,除了語音形式之外,感應區域內的用戶還可以透過其他方式發出事件協助請求,比如在空間中做出預設肢體動作等,本說明書並不對此進行限制。 在一實施例中,交互設備可以接收所述感應區域內的用戶針對所述交互內容返回的響應資訊,該響應資訊包含所述事件協助請求。例如,當交互內容為“小白,有什麼可以幫助你的嗎”時,感應區域內的用戶可以回復“呼叫員工小黑”,交互設備可以明確其事件協助請求為針對“員工小黑”的呼叫請求,從而向該“員工小黑”發起呼叫。其中,交互設備提供交互內容的方式,與感應區域內的用戶返回響應資訊的方式並不存在必然關聯,兩者可以相同、也可以不同,本說明書並不對此進行限制。 在一實施例中,當所述感應區域內存在多個用戶時,交互設備可以按照預設順序選取作為協助對象的用戶;然後,交互設備依次向被選取的用戶發出提示,以使所述被選取的用戶發出相應的事件協助請求,從而使得感應區域內的用戶可以依次發出事件協助請求,避免多個用戶同時發出事件協助請求時產生混亂、造成交互設備無法準確獲知各個用戶對應的事件協助請求,從而有助於提升交互設備對各個用戶的協助效率和成功率。 在一實施例中,交互設備可以對採集到的用戶語音進行語義識別,以得到所述事件協助請求;以及,交互設備可以對所述用戶語音進行聲音特徵識別,以確定該用戶語音的來源用戶。那麼,即便感應區域內的多個用戶同時發言,交互設備也可以同時分辨出各個用戶分別對應的發言內容,並對相應的事件協助請求做出響應,提升對各個用戶的協助效率。其中,交互設備可以預先對感應區域內的用戶進行身分識別,得到各個用戶的身分資訊;當所述感應區域內存在多個用戶時,交互設備可以根據識別出的這些用戶對應的聲音特徵,對採集到的用戶語音進行聲音特徵識別,從而確定出用戶語音的來源用戶,相比於用全量的聲音特徵對用戶語音進行聲音特徵識別,可以極大地縮短聲音特徵識別所需佔用的時長。 在一實施例中,當所述感應區域內的用戶為團體內部成員時,交互設備可以響應於所述事件協助請求而協助完成相應的團體管理事件;當所述感應區域內的用戶為團體外部人員時,交互設備可以響應於所述事件協助請求而向相關聯的團體內部成員發送提醒訊息、協助所述團體外部人員與相關聯的團體內部成員建立通訊、或將所述團體外部人員引導至存取事件的處理地點;當所述感應區域內的用戶為管理員時,交互設備可以響應於所述事件協助請求而協助完成相應的設備管理事件。 在一實施例中,交互設備可以接收所述感應區域內的用戶發出的用戶語音,並針對該用戶語音進行響應。例如,感應區域內的用戶可以主動向交互設備發出用戶語音,譬如該用戶語音用於向交互設備發出事件協助請求、向交互設備進行日常問候、向交互設備發出控制指令等,本說明書並不對此進行限制。再例如,感應區域內的用戶可以響應於交互設備實施的交互操作,向該交互設備發出相應的用戶語音,以對該交互操作進行回應,譬如交互設備實施的交互操作為詢問該感應區域內的用戶是否需要幫助時,該用戶發出的用戶語音可以向交互設備告知其需要何種幫助等,本說明書並不對此進行限制。 在一實施例中,交互設備可以對所述用戶語音進行語義識別;由於同一發音可能存在多個對應的字或詞,而交互設備對用戶語音的拾音過程中也可能存在一定的失真或噪聲干擾,使得交互設備對用戶語音進行識別後可能得到多個語義識別結果。交互設備根據預定義的語義識別演算法,可以對各個語義識別結果進行打分,得到相應的置信度;其中,當置信度達到預設值時,表明相應的語義識別結果的可靠度足夠高。進一步地,如果同時存在多個與所述用戶語音的匹配度達到預設值的語義識別結果,交互設備可以向所述感應區域內的用戶展示相應的多個語義識別結果選項,供用戶進行選擇,以準確表達出用戶的真實意圖,然後根據被選中的語義識別結果選項對應的語義識別結果,對所述用戶語音進行響應;其中,用戶在選取過程中,可以讀出希望選取的語義識別結果選項對應的語義識別結果,或者讀出希望選取的語義識別結果選項的順序(如“第一個”、“最左邊的這個”等)等,本說明書並不對此進行限制。 在一實施例中,交互設備可以確定所述用戶語音的來源方向,並向位於所述用戶語音的來源方向的用戶進行響應。在一種情況下,交互設備在確定出用戶語音的來源方向後,直接默認為該來源方向處僅存在發出該用戶語音的用戶,因而可以直接朝向該用戶語音的來源方向進行響應,比如播放交互語音等。在另一種情況下,交互設備可以確定用戶語音的來源方向存在的用戶,如果同時存在多個用戶,交互設備可以進一步確定所述用戶語音的來源用戶,從而針對該來源用戶進行響應。 在一實施例中,交互設備內置有麥克風陣列,可以透過該麥克風陣列接收所述用戶語音,所述麥克風陣列包括相對靠左設置的第一麥克風、相對靠右設置的第二麥克風;根據所述第一麥克風和所述第二麥克風對所述用戶語音的接收時間差,確定所述用戶語音的來源方向。例如,當感應區域內的用戶位於靠左一側時,第一麥克風能夠相比第二麥克風更早接收到用戶語音,而當感應區域內的用戶位於靠右一側時,第二麥克風能夠相比第一麥克風更早接收到用戶語音。其中,關於何如基於接收時間差確定用戶語音的來源方向的具體方案,可以參考現有技術中的相關技術方案,此處不再贅述。 在一實施例中,當存在位於所述用戶語音的來源方向的多個用戶時,交互設備可以根據多個用戶中的每一用戶的面部動作(例如透過交互設備內置的攝影鏡頭進行圖像採集而得到),確定出所述用戶語音的來源用戶,並針對所述來源用戶進行響應。其中,用戶的面部動作可以包括臉頰、嘴部、下巴等一處或多處部位的動作,本說明書並不對此進行限制。以嘴部動作為例,當用戶語音的來源方向存在多個用戶,但僅一個用戶的嘴部發生了開閉動作,可以將該用戶確定為用戶語音的來源用戶;又例如,雖然多個用戶的嘴部都發生了開閉動作,但是只有一個用戶的開閉次數、幅度等匹配於用戶語音,可以將該用戶確定為用戶語音的來源用戶。 在一實施例中,當交互設備被裝配在牆面時,用戶通常僅能夠從該交互設備前方經過並發出用戶語音;而當交互設備採用其他裝配方式時,用戶可能出現在交互設備的前方或後方,使得交互設備採集到的音訊訊息可能來自位於前方或後方的用戶,如果交互設備的感應區域內存在用戶,而其他用戶恰好從交互設備的後方經過時說話,那麼交互設備可能誤認為是感應區域內的用戶發出的用戶語音。因此,當交互設備接收到音訊訊息後,可以基於該音訊訊息的來源方向和感應區域內是否存在用戶,確定該音訊訊息是否為感應區域內的用戶發出的用戶語音。 例如,交互設備內置有麥克風陣列,該麥克風陣列包括相對靠近所述感應區域的第三麥克風、相對遠離所述感應區域的第四麥克風;當透過麥克風陣列接收到音訊訊息時,可以根據所述第三麥克風和所述第四麥克風對所述音訊訊息中的高頻部分的接收情況,確定所述音訊訊息的來源方向;其中,當來源方向相對靠近所述感應區域時,音訊訊息中的高頻部分會受到交互設備外殼的吸收影響,使得第四麥克風收到的音訊訊息的高頻部分相比於第三麥克風收到的音訊訊息的高頻部分更小,而當來源方向相對遠離所述感應區域時,音訊訊息中的高頻部分同樣會受到交互設備外殼的吸收影響,使得第三麥克風收到的音訊訊息的高頻部分相比於第四麥克風收到的音訊訊息的高頻部分更小,因此可以透過第三麥克風和第四麥克風對音訊訊息中的高頻部分的接收情況,準確判定該音訊訊息的來源方向。 其中,當所述來源方向為相對靠近所述感應區域的一側,且所述感應區域內存在用戶時,交互設備可以判定所述音訊訊息為所述感應區域內的用戶發出的用戶語音;否則,譬如當所述來源方向為相對遠離所述感應區域的一側時,或者當所述來源方向為相對靠近所述感應區域的一側但所述感應區域內不存在用戶時,交互設備可以判定所述音訊訊息並非所述感應區域內的用戶發出的用戶語音。 對於上述的第一麥克風、第二麥克風、第三麥克風、第四麥克風,需要指出的是:為了在左右方向上對各個麥克風進行區分,因而將不同麥克風區分為第一麥克風和第二麥克風,以及為了在前後方向上對各個麥克風進行區分,因而將不同麥克風區分為第三麥克風和第四麥克風,但是本說明書並不限制麥克風陣列中實際包含的麥克風數量。例如,麥克風陣列中可以包含一個或多個第一麥克風、一個或多個第二麥克風;再例如,麥克風陣列中可以包含一個或多個第三麥克風、一個或多個第四麥克風。同時,當麥克風陣列需要同時在左右方向和前後方向上分辨來源方向時,該麥克風陣列並不一定需要同時包含四個麥克風;換言之,上述的第一麥克風與第二麥克風、第三麥克風與第四麥克風只是麥克風在實現相關功能時所扮演的角色,實際上麥克風陣列中可以包含更少數量的麥克風,譬如麥克風陣列可以包含三個麥克風,其中麥克風1與麥克風2在前後方向上位於一列、在左右方向上分離設置,而麥克風3位於麥克風1和麥克風2的前方或後方,從而使得麥克風1~3形成類似於“品”字型位置關係,其中:麥克風1與麥克風2可以作為第一麥克風與第二麥克風,以用於在左右方向上區分用戶語音的來源方向;以及,麥克風1與麥克風2可以作為第三麥克風、麥克風3可以作為第四麥克風(麥克風3位於麥克風1和麥克風2的後方),或者麥克風3可以作為第三麥克風、麥克風1與麥克風2可以作為第四麥克風(麥克風3位於麥克風1和麥克風2的前方),以用於在前後方向上區分音訊訊息的來源方向。 在一實施例中,交互設備可以對感應區域內的用戶數量進行檢測,比如透過攝影鏡頭進行採集後進行人臉檢測和計數等,本說明書並不對此進行限制。當所述感應區域內存在多個用戶時,交互設備可以分別展示出對應於各個用戶的頭像圖片,以用於表徵這幾個用戶;當感應區域內的用戶出現增加、減少或更換時,交互設備展示的頭像圖片也可以隨之變化。交互設備在接收到音訊訊息,並且確認該音訊訊息來源於感應區域內的用戶時,可以對該用戶語音的來源用戶的頭像圖片與其他用戶的頭像圖片進行區別展示,使得用戶透過查看頭像圖片的變化,即可確定交互設備已經成功接收到用戶語音並且分辨出其來源用戶,而不必擔心交互設備沒有接收到用戶語音或識別錯誤。可以透過任意方式對用戶語音的來源用戶的頭像圖片與其他用戶的頭像圖片進行區別展示,本說明書並不對此進行限制;例如,可以將用戶語音的來源用戶的頭像圖片展示於中心區域、將其他用戶的頭像圖片展示於邊緣區域;再例如,可以將用戶語音的來源用戶的頭像圖片進行放大展示、將其他用戶的頭像圖片進行正常或縮小展示;又例如,可以將用戶語音的來源用戶的頭像圖片進行正常展示(彩色)、對其他用戶的頭像圖片進行灰度化處理後展示等。 為了便於理解,以企業即時通訊應用“企業微信”為例,對本說明書一個或多個實施例的技術方案進行說明。圖3是一示例性實施例提供的一種交互場景的示意圖;如圖3所示,假定在企業AA的辦公場所設置有交互設備3,該交互設備3上運行有企業微信客戶端,使得該交互設備3可以基於該企業微信客戶端實現本說明書的交互方案。 在一實施例中,交互設備3上裝配有攝影鏡頭31,該攝影鏡頭31可以形成相應的拍攝區域32,以作為該交互設備3對應的感應區域;相應地,交互設備3可以根據攝影鏡頭31對該拍攝區域32進行拍攝得到的圖像,確定進入該拍攝區域32的用戶,比如圖3中進入該拍攝區域32的用戶4等。當然,除了攝影鏡頭31之外,交互設備3還可以透過聲音檢測、紅外檢測或其他方式來確定進入感應區域內的用戶,本說明書並不對此進行限制。 圖4是一示例性實施例提供的一種針對內部員工進行交互的示意圖。如圖4所示,交互設備3可以裝配有螢幕33,該螢幕33可用於顯示攝影鏡頭31採集到的該用戶4對應的用戶圖像41。其中,交互設備3可以對用戶4進行身分識別,比如基於攝影鏡頭31採集到的人臉圖像進行人臉識別等,本說明書並不對此進行限制;假定交互設備3識別出用戶4為內部員工“小白”,螢幕33上可以示出相應的身分資訊42,比如該身分資訊42可以為該用戶4的稱謂“小白”。 當處於考勤時間段時,交互設備3在識別出用戶4為內部員工“小白”後,可以查詢該內部員工“小白”的考勤資料,如果尚未考勤則可以自動實施針對該內部員工“小白”的考勤操作。為了使得用戶4瞭解到考勤操作已經完成,交互設備3可以向該用戶4提供相應的交互內容,比如該交互內容可以包括在螢幕33上示出的標籤43,該標籤43包含的資訊為“上班”,表明考勤操作的類型為“上班打卡”;交互內容還可以採用其他形式提供至用戶4,比如交互設備3包含喇叭34時,可以透過該喇叭34播放諸如“小白,上班打卡成功”等語音資訊。類似地,交互設備3可以對企業AA的其他內部員工實施自動化的上班考勤操作,以及該交互設備3還可以對企業AA的內部員工實施自動化的下班考勤操作,此處不再贅述。 在一實施例中,可以根據與交互設備3之間的距離遠近,將該交互設備3的感應區域劃分為多個子區域,比如圖3中將拍攝區域32劃分為遠場拍攝區域321(與交互設備3的距離為1.5~3.0m)和近場拍攝區域322(與交互設備3的距離為0~1.5m)。其中,如果當前處於考勤時間段,那麼不論處於遠場拍攝區域321或近場拍攝區域322,交互設備3均可以對用戶4實施上述的自動考勤操作。而如果處於考勤時間段但用戶4已經完成考勤,或者處於其他時間段,交互設備3可以在用戶4位於遠場拍攝區域321時,默認為用戶4只是暫時經過、並不存在交互意願,因而可以不主動與用戶4發起交互(即不向用戶4提供交互內容);但是,如果用戶4在遠場拍攝區域321的連續停留時長達到第一預設時長(如3s)時,交互設備3可以判定為用戶4存在交互意願,因而可以向用戶4提供交互內容。類似地,如果處於考勤時間段但用戶4已經完成考勤,或者處於其他時間段,交互設備3可以在用戶4位於近場拍攝區域322時,默認為用戶4只是暫時經過、並不存在交互意願,因而可以不主動與用戶4發起交互(即不向用戶4提供交互內容);但是,如果用戶4在近場拍攝區域322的連續停留時長達到第二預設時長時,交互設備3可以判定為用戶4存在交互意願,因而可以向用戶4提供交互內容。其中,由於近場拍攝區域322相對更加靠近交互設備3,使得用戶4主動進入近場拍攝區域322的行為本身就可能包含一定的交互意願,因而第二預設時長可以適當小於第一預設時長,比如第一預設時長為3s、第二預設時長為1s;在較為特殊的情況下,第二預設時長可以為0,相當於交互設備3默認為進入近場拍攝區域322的用戶4具有交互意願,因而可以無延遲地向用戶4提供交互內容。 當用戶4處於遠場拍攝區域321時,為了確保交互設備3與用戶4之間形成有效溝通、提升交互效率,交互設備3可以透過交互內容引導用戶4從遠場拍攝區域321移動至近場拍攝區域322。例如,圖5是一示例性實施例提供的一種透過交互內容對用戶位置進行引導的示意圖;如圖5所示,交互設備3可以透過在螢幕33上的交互展示區域51示出文字形式的交互內容511,比如該交互內容511為“請走近到1.5米內”,引導用戶4從遠場拍攝區域321移動至近場拍攝區域322。除了文字形式的交互內容511之外,交互設備3還可以透過喇叭34播放語音形式的交互內容,比如“小白,你離我有點遠哦”(其中,“小白”為身分資訊、“你離我有點遠哦”為交互內容),引導用戶4從遠場拍攝區域321移動至近場拍攝區域322。同時,交互設備3還可以控制指示燈35實現諸如呼吸式閃爍,可以吸引用戶4的注意,相當於向用戶4傳達了交互內容,從而引導用戶4從遠場拍攝區域321移動至近場拍攝區域322。當然,交互設備3可以採用上述文字形式、語音形式、燈光形式等多種方式之一來傳達交互內容,本說明書並不對此進行限制。 當用戶4進入近場拍攝區域322(主動進入或者在上述引導下進入)時,交互設備3可以引導用戶4說出自己的交互目的。例如,圖6是一示例性實施例提供的一種交互設備向用戶主動發起交互的示意圖;如圖6所示,交互設備3可以透過喇叭34播放語音形式的交互內容,比如“小白,有什麼可以幫你?”(其中,“小白”為身分資訊、“有什麼可以幫你”為交互內容),同時交互設備3可以在交互展示區域51示出文字形式的交互內容512,比如該交互內容512為“試試這樣說”和“呼叫張三”,以用於引導用戶4透過語音形式向交互設備3表達交互目的。 需要指出的是:交互設備3並非必須將用戶4從遠場拍攝區域321引導至近場拍攝區域322,比如交互設備3也可以直接引導遠場拍攝區域321的用戶4說出自己的交互目的。例如,交互設備3還可以對周圍環境噪音進行檢測,當噪音水平大於預設值時首先將用戶4從遠場拍攝區域321引導至近場拍攝區域322,然後引導用戶4說出自己的交互目的,當噪音水平小於該預設值時直接引導遠場拍攝區域321的用戶4說出自己的交互目的。 在一實施例中,當用戶4為企業AA的內部員工時,交互設備3可以獲取該用戶4的稱謂“小白”,因而交互設備3可以透過如圖5所示的“小白,你離我有點遠哦”引導用戶4從遠場拍攝區域321引導至近場拍攝區域322,其中稱謂“小白”被作為身分資訊、“你離我有點遠哦”為交互內容。而對於企業AA的外部人員,交互設備3可能無法獲取相應的稱謂,因而交互過程中採用的身分資訊將會區別於圖5所示的實施例。例如,圖7是一示例性實施例提供的另一種透過交互內容對用戶位置進行引導的示意圖;如圖7所示,假定交互設備3透過攝影鏡頭31採集到某一用戶的用戶圖像71,但是該用戶為企業AA的外部人員,交互設備3未能成功獲取其稱謂,因而在引導該用戶從遠場拍攝區域321移動至近場拍攝區域322時,交互設備3可以在交互展示區域51內示出文字形式的交互內容513,比如該交互內容513為“請走近到1.5米內”,交互設備3還可以透過喇叭34播放語音形式的交互內容,比如“你好,你離我有點遠哦”(省略了該用戶的身分資訊),交互設備3還可以控制指示燈35實現諸如呼吸式閃爍,從而引導該用戶從遠場拍攝區域321移動至近場拍攝區域322。 在一實施例中,交互設備3可以透過存取企業微信伺服端,獲知感應區域內的用戶的關聯事件,並且可能基於該關聯事件而改變提供的交互內容。例如,圖8是一示例性實施例提供的一種正常情況下的交互場景的示意圖;如圖8所示,假定交互設備3在工作時間段檢測到位於拍攝區域32內的用戶4,並識別出該用戶4為企業AA的內部員工“小白”,如果交互設備3判定該用戶4的交互目的為下班考勤,但是由於仍處於工作時間段,那麼當交互設備3並未查詢到該用戶4存在與下班考勤相關的關聯事件時,在交互展示區域51示出的交互內容514可以為“你確定要早退嗎?”。圖9是一示例性實施例提供的一種根據關聯事件調整交互內容的示意圖;如圖9所示,假定交互設備3在工作時間段檢測到位於拍攝區域32內的用戶4,並識別出該用戶4為企業AA的內部員工“小白”,如果交互設備3查詢到該用戶4存在已提交的病假審批事件,且已到達該病假審批事件揭露的病假時間,在交互展示區域51示出的交互內容515可以為“你確定要下班嗎?”。 在一實施例中,交互設備3的拍攝區域32內可能同時存在多個用戶,交互設備3可以透過恰當的交互內容,實現與這些用戶之間的溝通。圖10是一示例性實施例提供的一種由交互設備指定發言者的示意圖;如圖10所示,假定感應區域32內存在多個用戶,分別對應於螢幕33上示出的用戶圖像81-82等,比如交互設備3可以識別出用戶圖像81對應的用戶為“小白”、用戶圖像82對應的用戶為“小黑”等,並將各個用戶的稱謂作為身分資訊而展示在相應的用戶圖像附近,比如在用戶圖像81上方示出相應用戶的身分資訊91為稱謂“小白”、在用戶圖像82上方示出相應用戶的身分資訊92為稱謂“小黑”等。由於交互設備3的交互能力有限,也為了交互設備3能夠清楚地獲知各個用戶的交互目的,交互設備3可以在同一時刻僅與部分用戶進行交互。其中,交互設備3可以按照一定方式來選取目標交互對象(即上述的部分用戶),比如按照各個用戶與交互設備3之間的間隔距離從小到大的順序、按照各個用戶的正臉與攝影鏡頭31的拍攝方向之間的夾角從小到大的順序、按照各個用戶的身高從高到低的順序等,本說明書並不對此進行限制。假定交互設備3希望與用戶圖像81對應的用戶“小白”進行交互,為了避免感應區域內的其他用戶產生誤解,交互設備3需要在提供交互內容時,向感應區域內的用戶表達該交互內容對應的目標交互對象為用戶“小白”,比如交互設備3透過喇叭34播放交互內容“有什麼可以幫你?”的同時,可以添加播放該用戶“小白”的身分資訊,因而實際播放內容可以為“小白,有什麼可以幫你?”,使得其他用戶均可以明確該交互內容“有什麼可以幫你?”的目標交互對象為用戶“小白”。 圖11是一示例性實施例提供的另一種由交互設備指定發言者的示意圖;如圖11所示,如果用戶“小白”、用戶“小黑”等多個用戶同時說出自己的交互目的,交互設備3可能由於聲音混亂而無法準確獲知每個用戶的交互目的,或者交互設備3可能無法同時響應多個用戶的交互目的,或者基於其他原因,使得交互設備3可以提供交互內容,引導這些用戶依次表達自身的交互目的。例如,交互設備3可以在交互展示區域51中示出交互內容516,該交互內容516可以包括“請不要同時發言”;進一步的,當交互設備3按照上述實施例確定出各個用戶的發言順序為用戶“小白”先發言、用戶“小黑”後發言時,交互設備3可以透過喇叭34播放交互內容“我聽不清,要不xx你先說”的同時,添加播放該用戶“小白”的身分資訊,因而實際播放內容可以為“我聽不清,要不小白你先說”,使得其他用戶均可以明確該交互內容的目標交互對象為用戶“小白”。 除了圖10-11所示實施例中,透過語音形式指定多個用戶之間的發言順序之外,還可以採用其他多種方式。例如,圖12是一示例性實施例提供的又一種由交互設備指定發言者的示意圖;如圖12所示,當交互設備3確定出各個用戶的發言順序為用戶“小白”先發言、用戶“小黑”後發言時,交互設備3可以對用戶“小白”對應的用戶圖像81進行標示,比如在人臉區域添加標示框810等,那麼即便交互內容為“有什麼可以幫你”、“請發言”等,各個用戶也可以明確該交互內容的目標交互對象為用戶“小白”。當然,在圖12所示的實施例中,交互設備13在交互展示區域51內示出交互文字517時,該交互文字517除了包含交互內容“請xx發言”之外,還包含用戶“小白”的身分資訊,因而該交互文字517的全部內容為“請小白發言”,同樣可以向各個用戶表明當前的目標交互對象為用戶“小白”。 圖13是一示例性實施例提供的一種指定外部人員的發言順序的示意圖;如圖13所示,假定用戶圖像81-82等對應的用戶均為企業AA的外部人員,交互設備3無法獲得這些用戶的稱謂,但是可以透過其他方式表達各個用戶的身分資訊,以便於指明交互資訊對應的目標交互對象。例如,當交互設備3確定目標交互對象為用戶圖像81對應的用戶時,如果用戶圖像81對應於一位女性用戶、用戶圖像82對應於一位男性用戶,那麼可以透過性別來表達各個用戶的身分資訊,比如“這位女士”、“這位男士”等;因此,當交互設備3透過喇叭34播放的語音內容為“我聽不清,要不請這位女士先說”時,拍攝區域32內的所有用戶均可以確定交互內容為“我聽不清,要不請xx先說”,並且基於身分資訊“這位女士”確定目標交互對象為用戶圖像81對應的用戶。 透過向拍攝區域32內的用戶提供交互內容,一些場景下並不需要用戶做出響應,比如圖4所示實施例中的交互內容“上班打卡成功”等;而另一些場景下可以得到用戶的響應,且該響應可能包含了用戶發起的事件協助請求,以使得交互設備3協助用戶完成相應事件,比如圖9所示實施例中的交互內容為“你確定要下班嗎?”,當用戶“小白”返回的響應為“是的”時,交互設備3基於語義分析可以確定該用戶“小白”發起了針對“下班考勤事件”的事件協助請求,因而可以由交互設備3協助完成該“下班考勤事件”。類似地,在多人場景下,比如圖13中由交互設備3發出語音“我聽不清,要不請這位女士先說”後,如果該女性用戶返回的響應為“呼叫白白”時,交互設備3基於語義分析可以確定該用戶“小白”發起了針對“呼叫事件”的事件協助請求,且呼叫對象為用戶“白白”,因而可以由交互設備3向該用戶“白白”發起呼叫,從而協助完成該“呼叫事件”。 當然,除了對交互內容做出響應的情況之外,拍攝區域32內的用戶也可以直接向交互設備3發起事件協助請求,而交互設備3可以協助完成相應事件,這與對交互內容做出響應的情況類似,此處不再贅述。 在上述圖10-13所示的實施例,交互設備3可以確保拍攝區域32內的多個用戶依次發言,使得交互設備3可以分別確定各個用戶發起的事件協助請求,以分別協助完成相應事件。而在一實施例中,交互設備3可以同時接收多個用戶發出的用戶語音,並基於聲音特徵對各條用戶語音進行準確分離,還可以透過聲音特徵識別(如聲紋識別等)確定出每條用戶語音與拍攝區域32內的用戶之間的映射關係,從而使交互設備3能夠同時獲知多個用戶的事件協助請求,並同時協助完成相應事件,顯著提升對多個用戶的協助效率。 其中,一種情況下,交互設備3可以將採集到的用戶語音直接與聲音特徵庫進行比對,比如該聲音特徵庫可以包括企業AA中所有內部員工的聲紋特徵,從而基於比對結果確定出採集到的用戶語音對應的內部員工。同時,交互設備3可以透過人臉識別等其他方式對拍攝區域32內的用戶進行身分識別,並將該身分識別結果與基於聲音特徵庫得到的比對結果進行比較,以避免企業AA的內部員工被冒充。例如,透過聲音特徵確定用戶語音分別來自企業AA中的用戶A、用戶B,而基於人臉識別確定拍攝區域內的用戶為用戶A和無法識別的外部人員,那麼該外部人員可能冒充使用了用戶B的錄音,交互設備3可以拒絕完成相應的協助事件,並向用戶B發出告警提示。 另一種情況下,交互設備3可以首先透過人臉識別等方式對拍攝區域32內的用戶進行身分識別,比如識別出拍攝區域32內的用戶為企業AA中的用戶A、用戶B。那麼,當交互設備3採集到兩條用戶語音時,可以僅將該用戶語音與用戶A、用戶B的聲紋特徵進行比對,以確定哪條用戶語音來自用戶A、哪條用戶語音來自用戶B,而無需與聲音特徵庫中的其他聲紋特徵進行比對,可以極大地提升比對效率。 此外,拍攝區域32內的用戶可以包括管理員,交互設備3可以響應於管理員的事件協助請求,協助完成相應的設備管理事件,比如調整螢幕33上的歡迎語內容、調整喇叭34的音量大小、調整遠場拍攝區域321與近場拍攝區域322的區域範圍等。 圖14是一示例性實施例提供的一種標註交互對象的示意圖。交互設備3透過攝影鏡頭31對拍攝區域32進行拍攝後,可以對檢測到的位於拍攝區域32內的用戶進行標註,以使得用戶能夠清楚地確定自身是否已經被交互設備3檢測到、能夠與交互設備3實施交互。如圖14所示,當交互設備3檢測到拍攝區域32內存在某一用戶時,可以根據拍攝到的圖像為該用戶產生相應的頭像圖片1401,並將該頭像圖片1401展示於螢幕33上;當另一用戶也被交互設備3檢測到位於拍攝區域32時,螢幕33上也可以示出該用戶對應的頭像圖片1402;類似地,當其他用戶進入拍攝區域32時,交互設備3同樣可以在螢幕33上示出相應的頭像圖片,此處不再贅述。 當諸如頭像圖片1402對應的用戶從拍攝區域32離開時,交互設備3可以將該頭像圖片1402從螢幕上刪除;其他用戶的情況類似,此處不再贅述。 因此,當查看到螢幕33上包含頭像圖片1401-1402時,相應的用戶可以確定自身已經被交互設備3檢測到、被交互設備3作為交互對象,可以與該交互設備3實施交互;而當其他希望與交互設備3實施交互的用戶未在螢幕33上查看到自身對應的頭像圖片時,表明該用戶可能未進入拍攝區域32,或者雖然進入拍攝區域32但並未被交互設備3成功檢測到,該用戶可以採取進入或重新進入拍攝區域32等措施,直至螢幕33上示出了該用戶的頭像圖片。 圖15是一示例性實施例提供的一種標註目標交互對象的示意圖。假定交互設備3分別識別到處於拍攝區域32內的用戶“小白”和用戶“小黑”,且交互設備3將用戶“小白”確定為目標交互對象,如圖15所示:交互設備3可以將用戶“小白”對應的頭像圖片1401按照正常比例展示於螢幕33的中心區域(相對遠離螢幕33的邊緣)、將用戶“小黑”對應的頭像圖片1402按照較小比例展示於螢幕33的邊緣區域。那麼,當交互設備3透過喇叭34發出“請問有什麼可以幫你”的交互語音時,根據頭像圖片1401、1402的展示比例和展示位置,可以確定該交互語音對應的目標交互對象為頭像圖片1401對應的用戶“小白”,而非頭像圖片1402對應的用戶“小黑”。 當然,除了對頭像圖片的展示比例、展示位置進行配置之外,還可以對頭像圖片的展示屬性進行其他方面的調整,以使得目標交互對象對應的頭像圖片與其他交互對象對應的頭像圖片之間相互區分,便於根據頭像圖片確定相應的目標交互對象,本說明書並不對此進行限制。 除了由交互設備3向拍攝區域32內的用戶進行交互之外,該拍攝區域32內的用戶也可以向交互設備3進行交互,比如向交互設備3發出用戶語音,以使得交互設備3對該用戶語音進行響應,從而滿足該用戶語音的來源用戶的需求。其中,該用戶語音可以用於對交互設備3發出的交互語音進行回應,也可以由拍攝區域32內的用戶主動向交互設備3發出,本說明書並不對此進行限制。 在一實施例中,拍攝區域32內可能同時存在多個用戶,使得交互設備3在接收到拍攝區域32內的用戶發出的用戶語音時,需要確定該用戶語音的來源用戶,即分辨出究竟是拍攝區域32中的哪個用戶發出該用戶語音。 例如,圖16是一示例性實施例提供的一種確定用戶語音的來源用戶的示意圖;如圖16所示,交互設備3中可以內置有麥克風陣列,該麥克風陣列可以包括麥克風36和麥克風37,其中麥克風36的設置位置偏向左側、麥克風37的設置位置偏向右側。因此,當拍攝區域32中的某一用戶發出諸如“我需要預定一間15人的會議室”的用戶語音時,如果麥克風36對該用戶語音的接收時刻將早於麥克風37的接收時刻,表明該用戶語音的來源用戶相對更靠近麥克風36、相對更遠離麥克風37,因而可以判定該來源用戶位於拍攝區域32中相對更加靠左的位置時,譬如結合圖10所採集到的圖像可以判定該來源用戶為用戶“小白”。 類似地,如果麥克風37對該用戶語音的接收時刻將早於麥克風36的接收時刻,表明該用戶語音的來源用戶相對更靠近麥克風37、相對更遠離麥克風36,因而可以判定該來源用戶位於拍攝區域32中相對更加靠右的位置時,譬如結合圖10所採集到的圖像可以判定該來源用戶為用戶“小黑”。或者,如果麥克風36與麥克風37對該用戶語音的接收時刻相同或幾乎相同,表明該用戶語音的來源用戶位於麥克風36與麥克風37中間、相當於交互設備3的正前方,因而可以判定該來源用戶位於拍攝區域32的中間位置。 在一實施例中,基於交互設備3的安裝位置或安裝方式,用戶可能位於該交互設備3的後方,而非螢幕33和攝影鏡頭31所朝向的前方,因而該用戶顯然也不處於拍攝區域32內,但該用戶可能恰好位於交互設備3附近,使得當交互設備3接收到諸如“我需要預定一間15人的會議室”的音訊訊息時,該音訊訊息並不一定為拍攝區域32內的用戶發出的用戶語音,而是後方用戶發出的干擾語音。因此,為了避免將干擾語音誤判為用戶語音,需要對音訊訊息的來源方向進行判斷:來源於前方的音訊訊息可能是拍攝區域32內的用戶發出的用戶語音,來源於後方的音訊訊息為干擾語音。 例如,圖17是一示例性實施例提供的一種確定音訊訊息的來源方向的示意圖;如圖17所示,交互設備3中可以內置有麥克風陣列,該麥克風陣列可以包括麥克風36、麥克風37和麥克風38,在左右方向上(即圖17中的水平方向)麥克風36的設置位置偏向左側、麥克風37的設置位置偏向右側,在前後方向上(即圖17中的上下方向)麥克風36和麥克風37在交互設備3的前部,相對靠近視訊區域32,麥克風38在交互設備3的背部,相對遠離視訊區域32;其中,麥克風36~38均位於交互設備3中。因此,對於交互設備3附近的某一用戶發出的音訊訊息:如果該用戶位於交互設備3的前方,使得音訊訊息從交互設備3的前方傳入並穿過交互設備3,該音訊訊息的高頻部分會被該交互設備3的外殼部分吸收,麥克風36~38在接收該音訊訊息的高頻部分時,會導致位於交互設備3背部的麥克風38接收到的高頻信號強度因為交互設備3的外殼的吸收而小於麥克風36-37接收到的高頻信號強度;如果該用戶位於交互設備3的後方,使得音訊訊息從交互設備3的後方傳入並穿過交互設備3,該音訊訊息的高頻部分會被該交互設備3的外殼部分吸收,麥克風36~38在接收該音訊訊息的高頻部分時,會導致位於交互設備3前部的麥克風36-37接收到的高頻信號強度因為交互設備3的外殼的吸收而小於麥克風38接收到的高頻信號強度。 因此,可以根據麥克風36~38對音訊訊息的高頻部分的接收情況,判斷出該音訊信號的來源方向為交互設備3的前方還是後方。當確定音訊訊息的來源方向為交互設備3的後方時,該音訊訊息的來源用戶必然不是拍攝區域32內的用戶,即該音訊訊息為干擾語音。當確定音訊訊息的來源方向為交互設備3的前方時,該音訊訊息的來源用戶可能為拍攝區域32內的用戶;當然,為了提升準確性、降低誤判機率,可以結合其他條件進一步判斷: 在一實施例中,可以透過交互設備3上的攝影鏡頭31進行圖像採集,如果拍攝區域32內存在一個用戶,可以判定上述的音訊訊息來源於該用戶。 在一實施例中,可以透過交互設備3上的攝影鏡頭31進行圖像採集,如果拍攝區域32內存在多個用戶,可以結合各個用戶的面部動作,比如在收到音訊訊息的過程中是否存在開閉嘴部的動作、動作發生的時刻與音訊訊息的信號變化是否一致等,從而將面部動作與音訊訊息相匹配的用戶確定為該音訊訊息的來源用戶。 在一實施例中,可以透過交互設備3上的攝影鏡頭31進行圖像採集,如果拍攝區域32內存在多個用戶,可以結合麥克風36-37識別出的音訊訊息的來源方向為偏向左側、右側還是中間,從而將相應方向對應的用戶確定為該音訊訊息的來源用戶。其中,如果同一方向上仍然存在多個用戶,可以進一步結合上述的各個用戶的面部動作,從中篩選出面部動作與音訊訊息相匹配的用戶,以確定為該音訊訊息的來源用戶。 圖18是一示例性實施例提供的一種標註用戶語音的來源用戶的示意圖;如圖18所示,假定用戶“小白”被確定為用戶語音的來源用戶,交互設備3可以將頭像圖片1401保持為原始的彩色模式進行展示,而將其他用戶對應的頭像圖片1402等均灰度化處理後進行展示,使得拍攝區域32內的用戶可以快捷地確認交互設備3是否正確識別出了用戶語音的來源用戶,以確保後續的交互過程不會出現偏差。 在一實施例中,當交互設備3對用戶語音進行識別時,如果來源用戶存在口音、外部環境過於嘈雜或者存在拾音過程發生失真等不利因素,都可能會影響到交互設備3的語義識別準確度。因此,在識別過程中,交互設備3可以分別對每個備選語義識別結果進行打分;其中,交互設備3可以直接丟棄置信度較低(如低於預設分值)的備選語義識別結果,如果置信度較高(如高於預設分值)的備選語義識別結果的數量為1,可以直接作為語義識別結果,如果置信度較高的備選語義識別結果的數量大於1,交互設備3可以向來源用戶展示這些置信度較高的備選語義識別結果對應的備選語義識別結果選項,比如圖18所示的選項1801為“1、我需要預定一間15人的會議室”、選項1802為“2、我需要預定一間45人的會議室”,以供作為來源用戶的“小白”進行選擇確認。 例如,用戶“小白”可以透過發出包含“第一個”、“前一個”、“15人的那個”等內容的確認語音,向交互設備3告知其選取選項1801,那麼交互設備3可以確定上述的用戶語音對應的語義識別結果為“我需要預定一間15人的會議室”,從而進一步做出響應,比如協助用戶“小白”完成相關會議室的預定等。 圖19是一示例性實施例提供的一種設備的示意結構圖。請參考圖19,在硬體層面,該設備包括處理器1902、內部匯流排1904、網路介面1906、記憶體1908以及非易失性記憶體1910,當然還可能包括其他業務所需要的硬體。處理器1902從非易失性記憶體1910中讀取對應的電腦程式到記憶體1908中然後運行,在邏輯層面上形成交互裝置。當然,除了軟體實現方式之外,本說明書一個或多個實施例並不排除其他實現方式,比如邏輯器件抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。 請參考圖20,在軟體實施方式中,該交互裝置可以包括: 檢測單元2001,檢測處於感應區域的用戶; 提供單元2002,向所述感應區域內的用戶提供交互內容; 第一展示單元2003,當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。 可選的,所述第一展示單元2003具體用於: 確定作為所述目標交互對象的用戶的身分資訊,以作為所述目標交互對象的資訊; 向所述感應區域內的用戶展示所述身分資訊。 可選的, 還包括:識別單元2004,對處於所述感應區域的用戶進行身分識別; 其中,當作為所述目標交互對象的第一用戶的身分被成功識別時,所述第一用戶的身分資訊包括所述第一用戶的稱謂;當作為所述目標交互對象的第二用戶的身分未被成功識別時,所述第二用戶的身分資訊包括針對所述第二用戶的視覺特徵描述資訊。 可選的, 還包括:第二展示單元2005,展示所述感應區域內的用戶對應的用戶指代資訊; 所述第一展示單元2003具體用於:確定作為所述目標交互對象的用戶對應的用戶指代資訊,以作為所述目標交互對象的資訊;向所述感應區域內的用戶突出展示確定的用戶指代資訊。 可選的,所述第二展示單元2005具體用於: 對所述感應區域內的用戶進行圖像採集,以將採集到的用戶圖像作為所述用戶指代資訊進行展示。 可選的,還包括: 管理單元2006,當所述交互內容的目標交互對象由所述感應區域內的部分用戶變更為所有用戶時,暫停向所述感應區域內的用戶展示所述目標交互對象的資訊。 可選的,還包括: 請求獲取單元2007,獲取所述感應區域內的用戶發出的事件協助請求; 協助單元2008,響應於所述事件協助請求,以協助完成相應事件。 可選的,所述請求獲取單元2007具體用於: 接收所述感應區域內的用戶針對所述交互內容返回的響應資訊,所述響應資訊包含所述事件協助請求。 可選的,所述請求獲取單元2007具體用於: 當所述感應區域內存在多個用戶時,按照預設順序選取作為協助對象的用戶; 依次向被選取的用戶發出提示,以使所述被選取的用戶發出相應的事件協助請求。 可選的,所述請求獲取單元2007具體用於: 對採集到的用戶語音進行語義識別,以得到所述事件協助請求; 對所述用戶語音進行聲音特徵識別,以確定所述用戶語音的來源用戶。 可選的,所述協助單元2008具體用於: 當所述感應區域內的用戶為團體內部成員時,響應於所述事件協助請求而協助完成相應的團體管理事件; 當所述感應區域內的用戶為團體外部人員時,響應於所述事件協助請求而向相關聯的團體內部成員發送提醒訊息、協助所述團體外部人員與相關聯的團體內部成員建立通訊、或將所述團體外部人員引導至存取事件的處理地點; 當所述感應區域內的用戶為管理員時,響應於所述事件協助請求而協助完成相應的設備管理事件。 可選的,所述感應區域包括近場感應區域和遠場感應區域;所述提供單元2002具體用於: 向所述近場感應區域內的用戶提供交互內容; 向所述遠場感應區域內的用戶發出引導資訊,以引導用戶從所述遠場感應區域進入所述近場感應區域。 可選的, 還包括:事件獲取單元2009,獲取所述感應區域內的用戶的關聯事件; 所述提供單元2002具體用於:當所述交互內容與所述關聯事件相關時,根據所述關聯事件的狀態資訊,調整向所述感應區域內的用戶提供的交互內容。 可選的, 還包括:確定單元2010,確定所述感應區域內的用戶的身分類型; 所述提供單元2002具體用於:根據所述身分類型,調整向所述感應區域內的用戶提供的交互內容。 可選的,還包括: 語音接收單元2011,接收所述感應區域內的用戶發出的用戶語音; 響應單元2012,對所述用戶語音進行響應。 可選的,所述響應單元2012具體用於: 對所述用戶語音進行語義識別; 當存在多個置信度達到預設值的語義識別結果時,向所述感應區域內的用戶展示相應的多個語義識別結果選項; 根據被選中的語義識別結果選項對應的語義識別結果,對所述用戶語音進行響應。 可選的,所述響應單元2012具體用於: 確定所述用戶語音的來源方向; 向位於所述用戶語音的來源方向的用戶進行響應。 可選的,所述響應單元2012透過下述方式確定所述用戶語音的來源方向: 透過麥克風陣列接收所述用戶語音,所述麥克風陣列包括相對靠左設置的第一麥克風、相對靠右設置的第二麥克風; 根據所述第一麥克風和所述第二麥克風對所述用戶語音的接收時間差,確定所述用戶語音的來源方向。 可選的,所述響應單元2012透過下述方式向位於所述用戶語音的來源方向的用戶進行響應: 當存在位於所述用戶語音的來源方向的多個用戶時,根據多個用戶中的每一用戶的面部動作,確定出所述用戶語音的來源用戶; 針對所述來源用戶進行響應。 可選的,還包括: 音訊接收單元2013,透過麥克風陣列接收到音訊訊息,所述麥克風陣列包括相對靠近所述感應區域的第三麥克風、相對遠離所述感應區域的第四麥克風; 方向確定單元2014,根據所述第三麥克風和所述第四麥克風對所述音訊訊息中的高頻部分的接收情況,確定所述音訊訊息的來源方向; 來源判定單元2015,當所述來源方向為相對靠近所述感應區域的一側,且所述感應區域內存在用戶時,判定所述音訊訊息為所述感應區域內的用戶發出的用戶語音。 可選的,還包括: 頭像展示單元2016,當所述感應區域內存在多個用戶時,分別展示出對應於各個用戶的頭像圖片; 區別展示單元2017,對所述用戶語音的來源用戶的頭像圖片與其他用戶的頭像圖片進行區別展示。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。 在一個典型的配置中,電腦包括一個或多個處理器 (CPU)、輸入/輸出介面、網路介面和記憶體。 記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)及/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。 電腦可讀媒體包括永久性和非永久性、可移除和非可移除媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體 (PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式化唯讀記憶體 (EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、卡式磁帶、磁碟儲存、量子儲存器、基於石墨烯的儲存媒體或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。 在本說明書一個或多個實施例使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本說明書一個或多個實施例。在本說明書一個或多個實施例和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“及/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。 應當理解,儘管在本說明書一個或多個實施例可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本說明書一個或多個實施例範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應於確定”。 以上所述僅為本說明書一個或多個實施例的較佳實施例而已,並不用以限制本說明書一個或多個實施例,凡在本說明書一個或多個實施例的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本說明書一個或多個實施例保護的範圍之內。
11‧‧‧伺服器 12‧‧‧網路 13‧‧‧交互設備 202‧‧‧步驟 204‧‧‧步驟 206‧‧‧步驟 3‧‧‧麥克風 31‧‧‧攝影鏡頭 32‧‧‧拍攝區域 321‧‧‧遠場拍攝區域 322‧‧‧近場拍攝區域 33‧‧‧螢幕 34‧‧‧喇叭 35‧‧‧指示燈 36‧‧‧麥克風 37‧‧‧麥克風 38‧‧‧麥克風 4‧‧‧用戶 41‧‧‧用戶圖像 42‧‧‧身分資訊 43‧‧‧標籤 44‧‧‧標籤 51‧‧‧交互展示區域 511‧‧‧交互內容 512‧‧‧交互內容 513‧‧‧交互內容 514‧‧‧交互內容 515‧‧‧交互內容 516‧‧‧交互內容 517‧‧‧交互文字 71‧‧‧用戶圖像 81‧‧‧用戶圖像 810‧‧‧標示框 82‧‧‧用戶圖像 91‧‧‧身分資訊 92‧‧‧身分資訊 1401‧‧‧頭像圖片 1402‧‧‧頭像圖片 1801‧‧‧選項 1802‧‧‧選項 1902‧‧‧處理器 1904‧‧‧內部匯流排 1906‧‧‧網路介面 1908‧‧‧記憶體 1910‧‧‧非易失性記憶體 2001‧‧‧檢測單元 2002‧‧‧提供單元 2003‧‧‧第一展示單元 2004‧‧‧識別單元 2005‧‧‧第二展示單元 2006‧‧‧管理單元 2007‧‧‧請求獲取單元 2008‧‧‧協助單元 2009‧‧‧事件獲取單元 2010‧‧‧確定單元 2011‧‧‧語音接收單元 2012‧‧‧響應單元 2013‧‧‧音訊接收單元 2014‧‧‧方向確定單元 2015‧‧‧來源判定單元 2016‧‧‧頭像展示單元 2017‧‧‧區別展示單元
圖1是一示例性實施例提供的一種交互系統的架構示意圖。 圖2是一示例性實施例提供的一種交互方法的流程圖。 圖3是一示例性實施例提供的一種交互場景的示意圖。 圖4是一示例性實施例提供的一種針對內部員工進行交互的示意圖。 圖5是一示例性實施例提供的一種透過交互內容對用戶位置進行引導的示意圖。 圖6是一示例性實施例提供的一種交互設備向用戶主動發起交互的示意圖。 圖7是一示例性實施例提供的另一種透過交互內容對用戶位置進行引導的示意圖。 圖8是一示例性實施例提供的一種正常情況下的交互場景的示意圖。 圖9是一示例性實施例提供的一種根據關聯事件調整交互內容的示意圖。 圖10是一示例性實施例提供的一種由交互設備指定發言者的示意圖。 圖11是一示例性實施例提供的另一種由交互設備指定發言者的示意圖。 圖12是一示例性實施例提供的又一種由交互設備指定發言者的示意圖。 圖13是一示例性實施例提供的一種指定外部人員的發言順序的示意圖。 圖14是一示例性實施例提供的一種標註交互對象的示意圖。 圖15是一示例性實施例提供的一種標註目標交互對象的示意圖。 圖16是一示例性實施例提供的一種確定用戶語音的來源用戶的示意圖。 圖17是一示例性實施例提供的一種確定音訊訊息的來源方向的示意圖。 圖18是一示例性實施例提供的一種標註用戶語音的來源用戶的示意圖。 圖19是一示例性實施例提供的一種設備的結構示意圖。 圖20是一示例性實施例提供的一種交互裝置的方塊圖。

Claims (42)

  1. 一種交互方法,其特徵在於,包括: 檢測處於感應區域的用戶; 向所述感應區域內的用戶提供交互內容; 當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。
  2. 根據請求項1所述的方法,其中,所述向所述感應區域內的用戶展示所述目標交互對象的資訊,包括: 確定作為所述目標交互對象的用戶的身分資訊,以作為所述目標交互對象的資訊; 向所述感應區域內的用戶展示所述身分資訊。
  3. 根據請求項2所述的方法,其中, 還包括:對處於所述感應區域的用戶進行身分識別; 其中,當作為所述目標交互對象的第一用戶的身分被成功識別時,所述第一用戶的身分資訊包括所述第一用戶的稱謂;當作為所述目標交互對象的第二用戶的身分未被成功識別時,所述第二用戶的身分資訊包括針對所述第二用戶的視覺特徵描述資訊。
  4. 根據請求項1所述的方法,其中, 還包括:展示所述感應區域內的用戶對應的用戶指代資訊; 所述向所述感應區域內的用戶展示所述目標交互對象的資訊,包括:確定作為所述目標交互對象的用戶對應的用戶指代資訊,以作為所述目標交互對象的資訊;向所述感應區域內的用戶突出展示確定的用戶指代資訊。
  5. 根據請求項4所述的方法,其中,所述展示所述感應區域內的用戶對應的用戶指代資訊,包括: 對所述感應區域內的用戶進行圖像採集,以將採集到的用戶圖像作為所述用戶指代資訊進行展示。
  6. 根據請求項1所述的方法,其中,還包括: 當所述交互內容的目標交互對象由所述感應區域內的部分用戶變更為所有用戶時,暫停向所述感應區域內的用戶展示所述目標交互對象的資訊。
  7. 根據請求項1所述的方法,其中,還包括: 獲取所述感應區域內的用戶發出的事件協助請求; 響應於所述事件協助請求,以協助完成相應事件。
  8. 根據請求項7所述的方法,其中,所述獲取所述感應區域內的用戶發出的事件協助請求,包括: 接收所述感應區域內的用戶針對所述交互內容返回的響應資訊,所述響應資訊包含所述事件協助請求。
  9. 根據請求項7所述的方法,其中,所述獲取所述感應區域內的用戶發出的事件協助請求,包括: 當所述感應區域內存在多個用戶時,按照預設順序選取作為協助對象的用戶; 依次向被選取的用戶發出提示,以使所述被選取的用戶發出相應的事件協助請求。
  10. 根據請求項7所述的方法,其中,所述獲取所述感應區域內的用戶發出的事件協助請求,包括: 對採集到的用戶語音進行語義識別,以得到所述事件協助請求; 對所述用戶語音進行聲音特徵識別,以確定所述用戶語音的來源用戶。
  11. 根據請求項7所述的方法,其中,所述響應於所述事件協助請求,以協助完成相應事件,包括: 當所述感應區域內的用戶為團體內部成員時,響應於所述事件協助請求而協助完成相應的團體管理事件; 當所述感應區域內的用戶為團體外部人員時,響應於所述事件協助請求而向相關聯的團體內部成員發送提醒訊息、協助所述團體外部人員與相關聯的團體內部成員建立通訊、或將所述團體外部人員引導至存取事件的處理地點; 當所述感應區域內的用戶為管理員時,響應於所述事件協助請求而協助完成相應的設備管理事件。
  12. 根據請求項1所述的方法,其中,所述感應區域包括近場感應區域和遠場感應區域;所述向所述感應區域內的用戶提供交互內容,包括: 向所述近場感應區域內的用戶提供交互內容; 向所述遠場感應區域內的用戶發出引導資訊,以引導用戶從所述遠場感應區域進入所述近場感應區域。
  13. 根據請求項1所述的方法,其中, 還包括:獲取所述感應區域內的用戶的關聯事件; 所述向所述感應區域內的用戶提供交互內容,包括:當所述交互內容與所述關聯事件相關時,根據所述關聯事件的狀態資訊,調整向所述感應區域內的用戶提供的交互內容。
  14. 根據請求項1所述的方法,其中, 還包括:確定所述感應區域內的用戶的身分類型; 所述向所述感應區域內的用戶提供交互內容,包括:根據所述身分類型,調整向所述感應區域內的用戶提供的交互內容。
  15. 根據請求項1所述的方法,其中,還包括: 接收所述感應區域內的用戶發出的用戶語音; 對所述用戶語音進行響應。
  16. 根據請求項15所述的方法,其中,所述對所述用戶語音進行響應,包括: 對所述用戶語音進行語義識別; 當存在多個置信度達到預設值的語義識別結果時,向所述感應區域內的用戶展示相應的多個語義識別結果選項; 根據被選中的語義識別結果選項對應的語義識別結果,對所述用戶語音進行響應。
  17. 根據請求項15所述的方法,其中,所述對所述用戶語音進行響應,包括: 確定所述用戶語音的來源方向; 向位於所述用戶語音的來源方向的用戶進行響應。
  18. 根據請求項17所述的方法,其中,所述確定所述用戶語音的來源方向,包括: 透過麥克風陣列接收所述用戶語音,所述麥克風陣列包括相對靠左設置的第一麥克風、相對靠右設置的第二麥克風; 根據所述第一麥克風和所述第二麥克風對所述用戶語音的接收時間差,確定所述用戶語音的來源方向。
  19. 根據請求項17所述的方法,其中,所述向位於所述用戶語音的來源方向的用戶進行響應,包括: 當存在位於所述用戶語音的來源方向的多個用戶時,根據多個用戶中的每一用戶的面部動作,確定出所述用戶語音的來源用戶; 針對所述來源用戶進行響應。
  20. 根據請求項15所述的方法,其中,還包括: 透過麥克風陣列接收到音訊訊息,所述麥克風陣列包括相對靠近所述感應區域的第三麥克風、相對遠離所述感應區域的第四麥克風; 根據所述第三麥克風和所述第四麥克風對所述音訊訊息中的高頻部分的接收情況,確定所述音訊訊息的來源方向; 當所述來源方向為相對靠近所述感應區域的一側,且所述感應區域內存在用戶時,判定所述音訊訊息為所述感應區域內的用戶發出的用戶語音。
  21. 根據請求項15所述的方法,其中,還包括: 當所述感應區域內存在多個用戶時,分別展示出對應於各個用戶的頭像圖片; 對所述用戶語音的來源用戶的頭像圖片與其他用戶的頭像圖片進行區別展示。
  22. 一種交互裝置,其特徵在於,包括: 檢測單元,檢測處於感應區域的用戶; 提供單元,向所述感應區域內的用戶提供交互內容; 第一展示單元,當所述交互內容的目標交互對象為所述感應區域內的部分用戶時,向所述感應區域內的用戶展示所述目標交互對象的資訊。
  23. 根據請求項22所述的裝置,其中,所述第一展示單元具體用於: 確定作為所述目標交互對象的用戶的身分資訊,以作為所述目標交互對象的資訊; 向所述感應區域內的用戶展示所述身分資訊。
  24. 根據請求項23所述的裝置,其中, 還包括:識別單元,對處於所述感應區域的用戶進行身分識別; 其中,當作為所述目標交互對象的第一用戶的身分被成功識別時,所述第一用戶的身分資訊包括所述第一用戶的稱謂;當作為所述目標交互對象的第二用戶的身分未被成功識別時,所述第二用戶的身分資訊包括針對所述第二用戶的視覺特徵描述資訊。
  25. 根據請求項22所述的裝置,其中, 還包括:第二展示單元,展示所述感應區域內的用戶對應的用戶指代資訊; 所述第一展示單元具體用於:確定作為所述目標交互對象的用戶對應的用戶指代資訊,以作為所述目標交互對象的資訊;向所述感應區域內的用戶突出展示確定的用戶指代資訊。
  26. 根據請求項25所述的裝置,其中,所述第二展示單元具體用於: 對所述感應區域內的用戶進行圖像採集,以將採集到的用戶圖像作為所述用戶指代資訊進行展示。
  27. 根據請求項22所述的裝置,其中,還包括: 管理單元,當所述交互內容的目標交互對象由所述感應區域內的部分用戶變更為所有用戶時,暫停向所述感應區域內的用戶展示所述目標交互對象的資訊。
  28. 根據請求項22所述的裝置,其中,還包括: 請求獲取單元,獲取所述感應區域內的用戶發出的事件協助請求; 協助單元,響應於所述事件協助請求,以協助完成相應事件。
  29. 根據請求項28所述的裝置,其中,所述請求獲取單元具體用於: 接收所述感應區域內的用戶針對所述交互內容返回的響應資訊,所述響應資訊包含所述事件協助請求。
  30. 根據請求項28所述的裝置,其中,所述請求獲取單元具體用於: 當所述感應區域內存在多個用戶時,按照預設順序選取作為協助對象的用戶; 依次向被選取的用戶發出提示,以使所述被選取的用戶發出相應的事件協助請求。
  31. 根據請求項28所述的裝置,其中,所述請求獲取單元具體用於: 對採集到的用戶語音進行語義識別,以得到所述事件協助請求; 對所述用戶語音進行聲音特徵識別,以確定所述用戶語音的來源用戶。
  32. 根據請求項28所述的裝置,其中,所述協助單元具體用於: 當所述感應區域內的用戶為團體內部成員時,響應於所述事件協助請求而協助完成相應的團體管理事件; 當所述感應區域內的用戶為團體外部人員時,響應於所述事件協助請求而向相關聯的團體內部成員發送提醒訊息、協助所述團體外部人員與相關聯的團體內部成員建立通訊、或將所述團體外部人員引導至存取事件的處理地點; 當所述感應區域內的用戶為管理員時,響應於所述事件協助請求而協助完成相應的設備管理事件。
  33. 根據請求項22所述的裝置,其中,所述感應區域包括近場感應區域和遠場感應區域;所述提供單元具體用於: 向所述近場感應區域內的用戶提供交互內容; 向所述遠場感應區域內的用戶發出引導資訊,以引導用戶從所述遠場感應區域進入所述近場感應區域。
  34. 根據請求項22所述的裝置,其中, 還包括:事件獲取單元,獲取所述感應區域內的用戶的關聯事件; 所述提供單元具體用於:當所述交互內容與所述關聯事件相關時,根據所述關聯事件的狀態資訊,調整向所述感應區域內的用戶提供的交互內容。
  35. 根據請求項22所述的裝置,其中, 還包括:確定單元,確定所述感應區域內的用戶的身分類型; 所述提供單元具體用於:根據所述身分類型,調整向所述感應區域內的用戶提供的交互內容。
  36. 根據請求項22所述的裝置,其中,還包括: 語音接收單元,接收所述感應區域內的用戶發出的用戶語音; 響應單元,對所述用戶語音進行響應。
  37. 根據請求項36所述的裝置,其中,所述響應單元具體用於: 對所述用戶語音進行語義識別; 當存在多個置信度達到預設值的語義識別結果時,向所述感應區域內的用戶展示相應的多個語義識別結果選項; 根據被選中的語義識別結果選項對應的語義識別結果,對所述用戶語音進行響應。
  38. 根據請求項36所述的裝置,其中,所述響應單元具體用於: 確定所述用戶語音的來源方向; 向位於所述用戶語音的來源方向的用戶進行響應。
  39. 根據請求項38所述的裝置,其中,所述響應單元透過下述方式確定所述用戶語音的來源方向: 透過麥克風陣列接收所述用戶語音,所述麥克風陣列包括相對靠左設置的第一麥克風、相對靠右設置的第二麥克風; 根據所述第一麥克風和所述第二麥克風對所述用戶語音的接收時間差,確定所述用戶語音的來源方向。
  40. 根據請求項38所述的裝置,其中,所述響應單元透過下述方式向位於所述用戶語音的來源方向的用戶進行響應: 當存在位於所述用戶語音的來源方向的多個用戶時,根據多個用戶中的每一用戶的面部動作,確定出所述用戶語音的來源用戶; 針對所述來源用戶進行響應。
  41. 根據請求項36所述的裝置,其中,還包括: 音訊接收單元,透過麥克風陣列接收到音訊訊息,所述麥克風陣列包括相對靠近所述感應區域的第三麥克風、相對遠離所述感應區域的第四麥克風; 方向確定單元,根據所述第三麥克風和所述第四麥克風對所述音訊訊息中的高頻部分的接收情況,確定所述音訊訊息的來源方向; 來源判定單元,當所述來源方向為相對靠近所述感應區域的一側,且所述感應區域內存在用戶時,判定所述音訊訊息為所述感應區域內的用戶發出的用戶語音。
  42. 根據請求項36所述的方法,其中,還包括: 頭像展示單元,當所述感應區域內存在多個用戶時,分別展示出對應於各個用戶的頭像圖片; 區別展示單元,對所述用戶語音的來源用戶的頭像圖片與其他用戶的頭像圖片進行區別展示。
TW108120453A 2018-01-30 2019-06-13 交互方法及裝置 TW202008115A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810089149 2018-01-30
CN201810806493.6A CN110096251B (zh) 2018-01-30 2018-07-20 交互方法及装置
CN201810806493.6 2018-07-20

Publications (1)

Publication Number Publication Date
TW202008115A true TW202008115A (zh) 2020-02-16

Family

ID=67443561

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108120453A TW202008115A (zh) 2018-01-30 2019-06-13 交互方法及裝置

Country Status (5)

Country Link
JP (1) JP2021533510A (zh)
CN (1) CN110096251B (zh)
SG (1) SG11202100352YA (zh)
TW (1) TW202008115A (zh)
WO (1) WO2020015473A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078010B (zh) * 2019-12-06 2023-03-14 智语科技(江门)有限公司 一种人机交互方法、装置、终端设备及可读存储介质
CN111416871A (zh) * 2020-03-27 2020-07-14 乌鲁木齐明华智能电子科技有限公司 一种多方智能远程应答机制方法
CN111986678B (zh) * 2020-09-03 2023-12-29 杭州蓦然认知科技有限公司 一种多路语音识别的语音采集方法、装置
CN112767931A (zh) * 2020-12-10 2021-05-07 广东美的白色家电技术创新中心有限公司 语音交互方法及装置
CN115101048B (zh) * 2022-08-24 2022-11-11 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004312513A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 入場管理システムおよびプログラム
US8390680B2 (en) * 2009-07-09 2013-03-05 Microsoft Corporation Visual representation expression based on player expression
JP5857674B2 (ja) * 2010-12-22 2016-02-10 株式会社リコー 画像処理装置、及び画像処理システム
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
CN103095907B (zh) * 2012-09-14 2015-06-03 中兴通讯股份有限公司 一种移动终端中通过短信改变联系人状态的方法和装置
CN103500473A (zh) * 2013-09-04 2014-01-08 苏州荣越网络技术有限公司 一种手机打卡系统
US9542544B2 (en) * 2013-11-08 2017-01-10 Microsoft Technology Licensing, Llc Correlated display of biometric identity, feedback and user interaction state
US20180074785A1 (en) * 2015-03-31 2018-03-15 Sony Corporation Information processing device, control method, and program
CN105590128A (zh) * 2016-03-01 2016-05-18 成都怡康科技有限公司 用于校园智能管理评价的智能卡/智能手环
CN105872685A (zh) * 2016-03-24 2016-08-17 深圳市国华识别科技开发有限公司 智能终端控制方法和系统、智能终端
CN105856257B (zh) * 2016-06-08 2018-09-11 以恒激光科技(北京)有限公司 适用于前台接待的智能机器人
CN106161155A (zh) * 2016-06-30 2016-11-23 联想(北京)有限公司 一种信息处理方法及主终端
CN106357871A (zh) * 2016-09-29 2017-01-25 维沃移动通信有限公司 一种扩音方法及移动终端
CN106910259A (zh) * 2017-03-03 2017-06-30 泸州市众信信息技术有限公司 一种可多途径打卡的考勤设备
CN107451544B (zh) * 2017-07-14 2018-12-11 深圳云天励飞技术有限公司 信息显示方法、装置、设备及监控系统
CN107483493A (zh) * 2017-09-18 2017-12-15 广东美的制冷设备有限公司 交互式日程提醒方法、装置、存储介质及智能家居系统
CN108037699B (zh) * 2017-12-12 2020-04-07 深圳市天颐健康科技有限公司 机器人、机器人的控制方法和计算机可读存储介质

Also Published As

Publication number Publication date
CN110096251A (zh) 2019-08-06
JP2021533510A (ja) 2021-12-02
SG11202100352YA (en) 2021-02-25
CN110096251B (zh) 2024-02-27
WO2020015473A1 (zh) 2020-01-23

Similar Documents

Publication Publication Date Title
TW202008115A (zh) 交互方法及裝置
US11580983B2 (en) Sign language information processing method and apparatus, electronic device and readable storage medium
US20220012470A1 (en) Multi-user intelligent assistance
US8700392B1 (en) Speech-inclusive device interfaces
US20180181197A1 (en) Input Determination Method
US11699442B2 (en) Methods and systems for speech detection
US20120163677A1 (en) Automatic identifying
JP2012220959A (ja) 入力された発話の関連性を判定するための装置および方法
JP2017516167A (ja) 個人の存在に関連するアクションの実行
KR20160127165A (ko) 디지털 어시스턴트를 위한 음성 트리거
JP2012186622A (ja) 情報処理装置、情報処理方法およびプログラム
CN109032345B (zh) 设备控制方法、装置、设备、服务端和存储介质
WO2021052306A1 (zh) 声纹特征注册
KR20180075875A (ko) 전자 장치 및 그의 메시지 전달 방법
US20230048330A1 (en) In-Vehicle Speech Interaction Method and Device
US20210280186A1 (en) Method and voice assistant device for managing confidential data as a non-voice input
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
US20230298578A1 (en) Dynamic threshold for waking up digital assistant
JP2023180943A (ja) 情報処理装置、情報処理方法およびプログラム
US20210243252A1 (en) Digital media sharing
US11315544B2 (en) Cognitive modification of verbal communications from an interactive computing device
KR102134860B1 (ko) 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법
KR20220111574A (ko) 전자 장치 및 그 제어 방법
CN114360206B (zh) 一种智能报警方法、耳机、终端和系统
US12032155B2 (en) Method and head-mounted unit for assisting a hearing-impaired user