TW201923569A

TW201923569A - 任務處理方法和設備

Info

Publication number: TW201923569A
Application number: TW107131466A
Authority: TW
Inventors: 吳楠
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-11-08
Filing date: 2018-09-07
Publication date: 2019-06-16
Also published as: US20190138330A1; WO2019094205A1; CN109753264A

Abstract

本申請提供了一種任務處理方法和設備，其中，該方法包括：向目標對象發起多媒體查詢；獲取響應於所述多媒體查詢的回復資料；迭代發起查詢，直至獲得執行預定任務所需資料；基於所述所需資料，發起所述預定任務。通過上述方案可以解決現有的需要使用者主動發起語音交互而導致的使用者體驗不高的技術問題，達到了有效提高使用者體驗的技術效果。

Description

任務處理方法和設備

本發明係有關人機交互技術領域，尤其是一種任務處理方法和設備。

隨著語音識別技術的不斷發展，越來越多的語音智慧設備被研發和使用。目前語音交互方式一般都還是採用一問一答的方式，一般都是使用者發起交流內容。例如，使用者問了一句：今天什麼天氣，語音智慧設備回答：今天天氣多雲，18到26℃。即，需要使用者主動觸發進行語音交互。也就是需要人作為主導來進行語音交互。　　然而，需要使用者自己觸發和引導以使用某個設備的方式，往往使用者體驗不高。尤其對於有些使用者使用頻率不高，沒有足夠時間學習的設備，如果使用者進行引導的話，實現起來較為麻煩，且體驗不高。　　針對上述問題，目前尚未提出有效的解決方案。

本申請目的在於提供一種任務處理方法和設備，可以實現不需要對設備進行引導，設備可以主動發起查詢的目的。　　本申請提供一種任務處理方法和設備是這樣實現的：　　一種任務處理方法，所述方法包括：　　向目標對象發起多媒體查詢；　　獲取響應於所述多媒體查詢的回復資料；　　迭代發起查詢，直至獲得執行預定任務所需資料；　　基於所述所需資料，發起所述預定任務。　　一種任務處理設備，包括處理器以及用於儲存處理器可執行指令的儲存器，所述處理器執行所述指令時實現：　　向目標對象發起多媒體查詢；　　獲取響應於所述多媒體查詢的回復資料；　　迭代發起查詢，直至獲得執行預定任務所需資料；　　基於所述所需資料，發起所述預定任務。　　一種電腦可讀儲存媒介，其上儲存有電腦指令，所述指令被執行時實現上述方法的步驟。　　本申請提供的任務處理方法和設備，設備主動發起查詢，並迭代發問，直至獲取執行預定任務所需的必要資料，從而提供了一種主動的任務處理方式。通過上述方式可以解決現有的需要使用者主動喚醒或者主動發起交互而導致的使用者體驗不高的技術問題，達到了有效提高使用者體驗的技術效果。

為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施例中的圖式，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本申請保護的範圍。　　考慮到現有的與智慧語音設備進行語音交互的時候，一般都是使用者主動觸發進行語音交互。例如，使用者到櫃檯買咖啡，假設櫃檯設置了一個自動售賣機，一般需要使用者主動交互，使用者說：我想要一杯卡布奇諾，設備回答：好的，一杯卡布奇諾。　　即，需要使用者進行觸發。這樣在很多場合，這種需要使用者主動觸發的方式，很顯然給使用者的使用者體驗不高。尤其是在服務行業，相對而言設備主動發起對話的方式，使用者體驗感更好。例如，同樣是上述使用者到櫃檯買咖啡的例子。如果是自動售賣機主動發起對話，比如，設備說：您好，請問想要什麼咖啡？設備回答：一杯卡布奇諾。這種交流方式，可以有效提高使用者體驗，自動販賣機的智慧性可以得到有效提升。又例如，使用者到售賣地鐵票的設備前打算購買地鐵票，如果是使用者主動觸發購買流程往往不知道如何開始，尤其對於第一次使用這種設備的使用者而言，不知道如何觸發，或者如何發問等等。　　基於此，考慮到可以提供一種任務處理方式，由設備發起對話，這種方式還可以避免使用者不知道怎麼向設備發問的問題，即，由設備發起的主動的交互方式，在主動交互的方式下，可以由設備向使用者進行提問，由設備主導整個對話過程，從而可以降低使用難度。　　如圖1所示，在本例中提供了一種人機交互系統，包括：一個或多個交互設備101、一個或多個使用者202。　　上述交互設備可以是例如：智慧音箱、聊天機器人、帶有服務提供功能的機器人、或者是手機或者電腦等智慧設備中安裝的應用程式等等，具體以何種形式存在，本申請對此不作具體限定。　　如圖2所示為基於圖1的語音交互系統下進行語音交互的業務邏輯實現示意圖，可以包括：　　1）硬體方面，可以包括：攝影鏡頭和麥克風陣列。　　其中，攝影鏡頭和麥克風陣列可以設置在如圖1所示的語音設備101中，通過攝影鏡頭可以獲取人像資訊，基於獲取的人像資訊可以進一步確定出嘴所在的位置，從而可以確定出聲音的來源位置，即，通過人像資訊可以具體確定出發出聲音的嘴的位置，這樣也就確定了哪個方向過來的聲音是需要獲取的聲音。　　在確定出哪個方向的聲音是需要獲取的聲音之後，就可以通過麥克風陣列進行定向消噪，即，可以通過麥克風陣列對聲源方向的聲音進行加強，對非聲源方向的噪聲進行抑制。　　即，通過攝影鏡頭+麥克風陣列進行配合的方式，可以實現對聲音的定向消噪。　　2）本地算法，可以包括基於人臉識別的算法和基於信號處理的算法。　　其中，基於人臉識別的算法可以用於確定出使用者身分，可以用於識別使用者五官的位置，識別使用者是否面向設備，以及使用者支付認證等等，都可以通過攝影鏡頭配合本地的人臉識別算法實現。　　其中，信號處理算法可以是在確定出聲源位置之後，確定出聲源的角度，進而對麥克風陣列的聲音拾取進行控制，以便實現定向消噪。同時還可以對獲取到的語音進行一定的放大、濾波等處理。　　3）雲端處理，即，在雲端實現，也可以是本地實現，這可以根據設備自身的處理能力以及使用環境等確定。當然在雲端實現的話，借助大資料對算法模型進行更新和調整，可以有效提升語音識別、自然語音理解和對話管理的準確性。　　雲端處理主要可以包括：語音識別、自然語言理解、對話管理等等。　　其中，語音識別主要是識別出獲取到的語音的內容，例如，獲取了一段語音資料，需要理解其含義，那麼需要先知道這段語音具體的文字內容，這個過程就需要借助語音識別將語音轉換為文字。　　對於機器而言，文字還是文字本身，需要確定出文字所表達的含義，那麼就需要通過自然語言解釋來確定出文字對應的自然含義，這樣才能識別出使用者語音內容的意圖以及所攜帶的資訊。　　因為是人機交互流程，就涉及到問答的環節，可以通過對話管理單元，即，可以設備主動觸發問答，以及基於使用者的回復繼續產生先的問答。這些問答需要預先設置好問題和所需的答案。例如，購買地鐵票的對話中，就需要設置：請問您需要到哪一站的地鐵票，幾張等等這些問答內容，相應的使用者所需要提供的是：站名和張數。對於在對話過程中出現的，使用者需要更改站名，或者對已經回復的答覆進行修改等等，對話管理都需要提供相應的處理邏輯。　　對於對話管理而言，不僅可是設置習用的對話，也可以針對使用者身分的不同，為使用者個性化定制對話內容，從而使得使用者體驗更高。　　對話管理的目的，就是為了實現與使用者的有效交流，以獲取執行操作所需的資訊。　　對於具體的語音識別、自然語音理解和對話管理，可以在雲端實現，也可以是本地實現，這可以根據設備自身的處理能力以及使用環境等確定。當然在雲端實現的話，借助大資料對算法模型進行更新和調整，可以有效提升語音識別、自然語音理解和對話管理的準確性。且對於各種支付場景和語音交互場景而言，可以對語音處理模型進行多次迭代分析優化，使得使得支付和語音交互的體驗更好。　　4）業務邏輯，即，設備所能提供的服務。　　例如，服務可以包括：支付、購票、查詢、查詢結果展示等等。通過硬體、本地算法、雲端處理的設置，使得設備可以執行所提供的業務。　　舉例而言，可以對於售票設備而言，通過人機交互，使用者通過設備請求買票，設備可以出票。對於服務諮詢設備而言，通過人機交互，使用者可以通過設備獲取所需的資訊等等。這些業務場景往往都是需要付費的，因此，業務邏輯中一般是存在支付流程的，在使用者支付之後，為使用者提供相應的服務。　　通過上述的這種業務邏輯，結合“視覺+語音”的智慧交互方案，可以降低噪聲，提升識別準確度，雙人交談場景可以免受打擾，且可以達到免喚醒的目的，同時對於使用者而言，可以通過自然語音進行交互，　　在一個實施方式中，交互設備101可以預先設置一個感應或者是觸發區域，如果檢測到有人出現在這個區域內，則發起語音交互。如圖3所示為一個存取款機設備，該存取款機設備為一個智慧交互設備。可以為該設備設置一個感應區域，如圖3所示的陰影區域為該存取款機設備對應的感應區域。如果發現有人進入該區域，則可以觸發該存取款機設備主動進行語音交互。為了實現觸發和感應，可以為該存取款機設備設置人體感應傳感器、紅外識別器、地面壓力傳感器。通過傳感器的設置可以檢測是否有人進入預設位置區域。　　然而，值得注意的是，上述所列舉的識別是否有人出現的方式僅是一種示例性描述，在實際實現的時候還可以其它的方式，例如：雷達探測等等，本申請對此不作限定，可以識別人出現的方式都可以應用在此處用於識別是否有人出現，具體採用哪種方式可以根據實際需要選擇，本申請對此不作限定。　　然而，值得注意的是，上述所列舉的用於識別是否有人進入預設置區域的方式僅是一種示意性描述，在實際實現的時候，可以採用其它方式進行人體識別。　　在一個實施方式中，考慮到一般使用者如果打算與某個設備進行交互，都會面向該設備並在設備前停留，或者是面向設備並對著設備說話。因此，上述交互設備101在檢測到有人出現之後，可以進一步確定該人是否是面向設備的而且停留時長是否超出預設的時長，或者是使用者面向設備且在說話，那麼針對這種情況可以認為使用者是有使用設備的打算的。在這種情況下，可以設備可以主動發起與使用者的語音交互。　　在一個實施方式中，為了識別出人是否面向設備，可以是通過人臉識別技術從獲取的圖像資料中，識別出頭部所在的區域，然後，對頭部所在區域進行識別，如果可以識別到鼻子、眼等五官，則可以認為檢測到使用者是面向設備的。　　然而，值得注意的是，上述所列舉通過人臉識別技術確認人是否面向設備的方式僅是一種示例性描述，在實際實現的時候還可以其它的確定人是否面向設備的方式，本申請對此不作限定，可以根據實際需要和情況選擇。　　舉例而言，如圖4所示，使用者到咖啡店買咖啡，咖啡店的售賣員是一個人工智慧設備。那麼當使用者A達到咖啡店，並在設備前停留時間達到預設時間的情況下，該人工智慧設備可以主動發起對話，例如詢問該使用者A：“請問您想要什麼咖啡？”。即，通過交互設備主動發起對話。　　考慮到在很多場景下，對於不同的人適合不同的對話。例如，假設上述交互設備為賣衣服的設備，那麼相應的問答內容就需要依據人的年齡、性別等進行推薦問答。為此，可以通過電腦視覺或者是聲紋識別確定出設備前使用者的身分特徵資訊，例如：年齡、性別等等，從而可以有針對性的產生問答資料。　　具體的，可以是獲取使用者的臉部圖像等，識別出使用者的性別、年齡等資訊，也可以通過獲取使用者的聲音，根據使用者的聲紋識別出使用者的性別、年齡等資訊。在確定了使用者身分之後，就可以產生符合該使用者的問答資料。例如，如果識別出是個30歲左右的女士，那麼可以詢問“您好，您是想給您自己買衣服還是給孩子買衣服啊？”，如果識別出是一個50歲左右的男生，那麼可以詢問“您好，在**區域的衣服比較適合您，您可以看一下，需要我帶您過去嗎”。通過這種方式可以有效提高使用者體驗，使得人機交互更像人與人之間的交互。　　對於人工交互設備而言，可以設置一定的儲存功能，例如，對於已經來過的客戶，可以獲取該客戶的歷史購買資訊，或者是歷史行為資料，為使用者提供合適的問答。例如，如圖5所示，以咖啡店為例，人工交互設備在確定有使用者的情況下，可以先獲取該使用者的特徵資訊，確定該使用者是否以前就來過店鋪，如果確定來過店鋪，且獲取到使用者上次來的時候是購買了一杯卡布奇諾。那麼可以直接產生問答資料，建立與該使用者的對話“您好，看您上次買了一杯卡布奇諾，不知這次是否還是要一杯卡布奇諾”。通過這種方式可以有效提升使用者體驗。　　在一個實施方式中，為了使得交互設備可以有效地與使用者進行溝通，在實現的時候，交互設備可以以獲取的使用者語音進行去噪處理，在去噪處理之後，再對語音資料進行語義識別。具體的，可以是將使用者的語音回答資料轉換為文字。　　考慮到在實現的時候，對於有些使用場景而言，不是一次的問答就可以操作的觸發。為此，可以設置一系列的問題，在所有問題都有答案之後，可以執行操作。例如，使用者A到奶茶店買奶茶，奶茶店的交互設備先詢問“您好，請問您想選哪款奶茶”，使用者A回答：“我想要一杯烏龍瑪奇朵”，設備繼續詢問“幾分甜”，使用者A回答“五分甜”，設備問“冷熱呢”，使用者A回答“去冰”，設備問“大杯還是中杯”，使用者A回答“大杯，謝謝！”。最終設備確認向使用者A發送確認語音“您要一大杯五分甜去冰的烏龍瑪奇朵”。在確認之後，交互設備可以產生訂單“一大杯五分甜去冰的烏龍瑪奇朵”。　　在一個實施方式中，為了實現上述問答式的目的，可以是預先設置多個問答項，只有每個問答項都確認之後，才執行最終的操作（例如：產生訂單）。例如，可以採用列表的方式，在列表中列出多個項目，每次有一項對應的答覆內容，就將答覆內容填充在該項對應位置，當確定每個位置都填滿之後，就可以確定所有的問答項都已經確認，可以觸發對應的操作。　　考慮到有時候使用者的回答不是很準確，可以通過自然語義識別技術識別出使用者的回答內容，當使用者回答不滿足預設要求的情況下，可以通過縮小問題回答答案的範圍，或者是提供候選項的方式來幫助使用者回答，在獲取到足夠多的資訊之後，可以觸發對應的操作。　　下面結合一個具體場景進行說明，例如，整個流程可以如圖6所示，包括如下步驟：　　S1：通過人臉識別實時監測設備前的人體，同時判斷使用者的身分（例如：是否為特定客戶群體，或者是某個特定使用者）、年齡（例如：是老人還是小孩）、性別等特徵。　　S2：如果監測到有人出現在設備前且人面向設備並在設備前停留一段時間，那麼設備可以主動觸發通過語音向人打招呼或者是發問。　　S3：通過語音識別技術將人的語音資料轉換為文字。　　S4：通過語義分析識別出使用者所回答的內容，當使用者回答不合適的情況下，可以縮小回答答案範圍重新發問，或者而是提供其他的可選項供使用者選擇，以幫助客戶回答。　　S5：在確定獲取足夠的資訊後執行操作。　　例如，可以如圖7所示，在咖啡店的交互設備可以按照如下與客戶進行主動交互：　　設備：您好，您想要什麼咖啡？　　使用者：我想要摩卡。　　設備：你想要幾杯？　　使用者：1杯。　　設備：你要冰的還是熱的？　　使用者：熱的。　　設備：好的，一杯熱摩卡咖啡。　　以機場中的查詢設備為例進行說明，該設備可以實時進行檢測，確定在預設範圍內是否用旅客出現，並確定旅客在預設範圍內停留的時候是否面向設備，停留時長是否達到預設時長或者是是否面向設備說話。如果檢測到某個旅客是面向設備且停留預定時長，或者面向設備說話的情況下，可以認為該旅客是打算使用該設備的。這時設備可以主動發起查詢操作，例如，設備主動產生語音交流資料，設備向使用者詢問：您好，請問有什麼需要幫助的？然後，可以獲取使用者給予的回答資訊，以確定是否需要繼續為該旅客提供服務。　　例如，對於地鐵售票設備而言，可以發起詢問：您好，請問您要買車票嗎？如果您要買車票的話，可以說出您要買車票的終點站和張數。即，由設備主動觸發購票流程，告知使用者需要提供的資訊。當然也可以是使用者對著售票設備說“我要買到蘇州街地鐵站的車票”，這時設備提取其中的資訊，確定出使用者已經提供了“目的地”，那麼還需要一個條件就是“張數”，因此，還不能觸發購票操作，還需要使用者提供“張數”資訊。在這種情況下，可以向使用者發起提問“請問您需要購買幾張到蘇州街地鐵站的車票”，在獲取到使用者回復的張數資訊之後，就可以確定已經滿足了觸發條件，即，張數和目的地兩個條件資訊都知道了，這種情況下就可以觸發出票流程，提醒使用者支付車票錢，並在確定已經支付的情況下，打印出兩張到蘇州街地鐵站的地鐵票。　　即，設備主動觸發購票流程，為了獲取完整的觸發條件，可以設置問答對，例如，知道購買地鐵票需要知道“目的站”“張數”，那麼就可以預先設置問答對，即，對應於詢問目的站的問答對、對應於張數的問答對，在這些問答對都已知的情況下，也就說知道張數也知道目的地的情況下，就可以觸發出票流程。如果使用者提供的資訊不完整，則通過問答對中對應問題進行詢問。例如，使用者說了目的站，但沒有說張數，那麼就可以通過預設的對應於張數的問題向使用者發起詢問，以獲取張數資訊。　　上例是以購買地鐵票為例進行的說明，對於其他的場景而言，一般需要針對場景需求設置問答對，例如，如果是購買火車票的機器，那麼就不僅需要知道“目的地”“張數”，還需要知道“出發地”“出發時間”“座位類型”這樣才能算是得到了完整的條件資訊，才能觸發出票流程。因此，就不僅需要設置對應於“目的地”“張數”的問答對，還需要設置對應於“出發地”“出發時間”“座位類型”的問答對。　　以購買地鐵票時候，不同的查詢場景下的對話為例進行說明：對話一（快速購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；（這個招呼和問答方式可以是通過對話管理預先設定好的）。　　使用者：我要一張到人民廣場的票；　　售票機在獲取到使用者發出的“我要一張到人民廣場的票”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出其中已經攜帶有了“目的地”和“張數”資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機可以顯示，或者語音播報：（票務明細）總共5元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票一張到人民廣場的地鐵票。對話二（需要詢問張數的購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到人民廣場；　　售票機在獲取到使用者發出的“我要到人民廣場”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出語音資訊中僅攜帶了“目的地”資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：到人民廣場票價5元，請問要買幾張？　　使用者：2張；　　售票機在獲取到使用者發出的“2張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機:（顯示票務明細）總共10元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票2張到人民廣場的地鐵票。對話三（對話打斷的購票流程）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到人民廣場；　　售票機在獲取到使用者發出的“我要到人民廣場”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出語音資訊中僅攜帶了“目的地”資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：票價5元，請問要買幾張？　　使用者：不對，我還是去陝西南路。　　售票機在獲取到使用者發出的“不對，我還是去陝西南路”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊並不是說明張數的，而是修改目的地的，因此，確定出使用者希望去的不是人民廣場，而是要求陝西南路，因此，可以將目的地修改為“陝西南路”。進一步的，可以將識別到的內容送至對話管理，對話管理確定出目前還是僅有目的地資訊，還缺少“張數”資訊，因此，可以調用對話管理，產生下一步的問題給使用者，詢問所需的張數。　　售票機：好的，到陝西南路票價6元，請問要買幾張？　　使用者：2張；　　售票機在獲取到使用者發出的“2張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機：（顯示票務明細）總共10元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票2張到陝西南路的地鐵票。對話四（紋路和地鐵線路建議）：　　使用者走到上海火車站售票機前，售票機的攝影鏡頭捕獲到有人面向設備，且停留時長超出預設時長，可以確定該使用者有使用該設備進行購票的意圖，這時售票機可以主動觸發購票流程，詢問使用者，從而不需要使用者進行喚醒，也避免了使用者對設備的學習過程。例如：　　售票機：你好，請告訴我你的目的地和張數；　　使用者：我要到地鐵恒通大廈；　　售票機在獲取到使用者發出的“我要到地鐵恒通大廈”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出其中已經攜帶有了“目的地”資訊。在對話管理模組中，設置了路線告知的對話內容，在獲取到目的地之後，可以匹配出該目的地對應的路線資訊匹配給使用者。因此，可以將確定出的地鐵緩衝資訊以對話或者資訊顯示的方式提供給使用者，例如：　　售票機：（展示目標地圖）推薦你乘坐1號線到漢中路站下車2口出。　　使用者：好，買一張。　　售票機在獲取到使用者發出的“好，買一張”之後，可以對該語音資料進行識別，首先，進行語音識別，識別出語音所攜帶的內容，然後，進行語義識別，識別出這段語音的意圖和所攜帶的資訊。進一步的，可以將識別到的內容送至對話管理，對話管理確定出現在已經有了“目的地”和“張數”兩個資訊，因此，可以確定出買票所需資訊已經滿足。基於此，可以確定出下一步的對話內容為告訴使用者所需要支付的金額。　　售票機:（顯示票務明細）總共5元，請掃碼支付。　　使用者通過支付寶等回復APP掃碼支付票款，在確定票款已經支付的情況下，售票機可以執行出票流程，出票1張到恒通大廈的地鐵票。　　值得注意的是，上述所列舉的僅是場景對話的示例性描述，在實際實現的可以採用其它的對話模式和流程，本申請對此不作限定。　　圖8是本申請所述一種任務處理方法一個實施例的方法流程圖。雖然本申請提供了如下述實施例或圖式所示的方法操作步驟或裝置結構，但基於習用或者無需進步性的勞動在所述方法或裝置中可以包括更多或者更少的操作步驟或模組單元。在邏輯性上不存在必要因果關係的步驟或結構中，這些步驟的執行順序或裝置的模組結構不限於本申請實施例描述及圖式所示的執行順序或模組結構。所述的方法或模組結構的在實際中的裝置或終端產品應用時，可以按照實施例或者圖式所示的方法或模組結構連接進行順序執行或者並行執行（例如並行處理器或者多線程處理的環境，甚至分布式處理環境）。　　具體的如圖8所示，本申請一種實施例提供的一種任務處理方法，可以包括：　　步驟701：向目標對象發起多媒體查詢；　　即，對於設備而言，可以主動發起查詢。例如，如果設備檢測到在預設位置區域內有人，然後通過電腦視覺識別確定在所述預設位置區域內的人是面向設備的且停留時長超出預設時長，那麼主動發起與檢測到的人的語音交互。這種主動發起方式可以避免誤判。例如有些人僅是經過設備前，並沒有需要，因此添加了停留時長和是否面向設備等限制操作，以避免過多的打擾使用者。　　在一個實施方式中，可以通過以下方式之一檢測在所述預設位置區域內是否有人：人體感應傳感器、紅外識別器、地面壓力傳感器。　　步驟702：獲取響應於所述多媒體查詢的回復資料；　　為了可以使得問答的內容可以與使用者身分更為貼近，為使用者提供更加個性化的服務。可以確定檢測到的人的身分資訊，然後發起與所述身分資訊對應的語音問答。其中，上述身分資訊可以包括但不限於以下至少之一：年齡、性別。　　考慮到現有的對人進行身分識別的方式很多，可以通過獲取所述檢測到的人的圖像資料及/或聲音資料，確定出所述檢測到的人的身分資訊，即，可以採用人臉識別或者是身分識別的方式確認使用者的身分資訊。　　對於人工交互設備而言，可以設置一定的儲存功能，例如，對於已經來過的客戶，可以獲取該客戶的歷史購買資訊，或者是歷史行為資料，為使用者提供合適的問答。例如，如圖4所示，以咖啡店為例，人工交互設備在確定有使用者的情況下，可以先獲取該使用者的特徵資訊，確定該使用者是否以前就來過店鋪，如果確定來過店鋪，且獲取到使用者上次來的時候是購買了一杯卡布奇諾。那麼可以直接產生問答資料，建立與該使用者的對話“您好，看您上次買了一杯卡布奇諾，不知這次是否還是要一杯卡布奇諾”。通過這種方式可以有效提升使用者體驗。在一個實施方式中，發起與檢測到的人的語音交互，可以包括：確定是否儲存有所述檢測到的人相關的問答資料；在確定儲存有所述檢測到的人相關的問答資料的情況下，根據所述問答資料，發起與所述檢測到的人的語音交互。　　步驟703：迭代發起查詢，直至獲得執行預定任務所需資料；　　步驟704：基於所述所需資料，發起所述預定任務。　　具體的，在發起語音交互之後，可以主動向檢測到的人發起語音問答；獲取響應於所述語音問答的回復內容；確定回復內容是否滿足設備執行預定操作的觸發條件；在確定不滿足所述觸發條件的情況下，繼續向檢測到的人發起語音問答；在確定滿足所述觸發條件的情況下，執行所述預定操作。即，確定回復資料不滿足觸發條件的情況下，可以確定空缺的條件項；基於確定的空缺的條件項向所述目標對象發起語音問答，直至回復資料滿足所述觸發條件，再執行預定的操作。　　本申請所提供的方法實施例可以在行動終端、電腦終端或者類似的運算裝置中執行。以運行在電腦終端上為例，圖9是本發明實施例的一種任務處理設備終端的硬體結構方塊圖。如圖9所示，設備終端10可以包括一個或多個（圖中僅示出一個）處理器102（處理器102可以包括但不限於微處理器MCU或可程式化邏輯器件FPGA等的處理裝置）、用於儲存資料的儲存器104、以及用於通信功能的傳輸模組106。本領域普通技術人員可以理解，圖1所示的結構僅為示意，其並不對上述電子裝置的結構造成限定。例如，設備終端10還可包括比圖9中所示更多或者更少的組件，或者具有與圖9所示不同的配置。　　儲存器104可用於儲存應用軟體的軟體程式以及模組，如本發明實施例中的資料交互方法對應的程式指令/模組，處理器102通過運行儲存在儲存器104內的軟體程式以及模組，從而執行各種功能應用以及資料處理，即實現上述的應用程式的人機交互方法。儲存器104可包括高速隨機儲存器，還可包括非易失性儲存器，如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態儲存器。在一些實例中，儲存器104可進一步包括相對於處理器102遠程設置的儲存器，這些遠程儲存器可以通過網路連接至電腦終端10。上述網路的實例包括但不限於網際網路、企業內部網、區域網路、行動通信網及其組合。　　傳輸模組106用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦終端10的通信供應商提供的無線網路。在一個實例中，傳輸模組106包括一個網路適配器（Network Interface Controller，NIC），其可通過基站與其他網路設備相連從而可與網際網路進行通訊。在一個實例中，傳輸模組106可以為射頻（Radio Frequency，RF）模組，其用於通過無線方式與網際網路進行通訊。　　如圖10所示為人機交互裝置的結構方塊圖，可以包括：查詢模組901、獲取模組902、迭代模組903和發起模組904，其中：　　查詢模組901，用於向目標對象發起多媒體查詢；　　獲取模組902，用於獲取響應於所述多媒體查詢的回復資料；　　迭代模組903，用於迭代發起查詢，直至獲得執行預定任務所需資料；　　發起模組904，用於基於所述所需資料，發起所述預定任務。　　在一個實施方式中，所述處理器迭代發起查詢，直至獲得預定任務所需資料，可以包括：獲取回復資料；確定回復資料中是否攜帶有執行預定任務所有必要資料；在確定未攜帶有所有必要資料的情況下，確定空缺的資料項；基於確定的空缺的資料項向所述目標對象發起多媒體查詢，直至獲得執行預定任務所需資料。　　在一個實施方式中，所述處理器向目標對象發起多媒體查詢，包括：確定所述目標對象的身分資訊；發起與所述身分資訊對應的多媒體查詢。　　在一個實施方式中，所述處理器確定所述目標對象的身分資訊，可以包括：通過獲取所述目標對象的圖像資料及/或聲音資料，確定所述目標對象的身分資訊。　　在一個實施方式中，所述處理器向目標對象發起多媒體查詢，可以包括：檢測在設備的預設位置區域內是否有目標對象；在確定有目標對象的情況下，確定所述目標對象是否面向所述設備，且停留時長超出預設時長；在確定所述目標對象面向設備且停留時長超出所述預設時長的情況下，向所述目標對象發起多媒體查詢。　　在一個實施方式中，所述處理器檢測在設備的預設位置區域內是否有目標對象，可以包括：通過但不限於以下方式至少之一檢測在設備的預設位置區域內是否有目標對象：人體感應傳感器、紅外識別器、地面壓力傳感器。　　在一個實施方式中，處理器向目標對象發起多媒體查詢，可以包括：確定是否儲存有問答對；在確定儲存有問答對的情況下，基於所述問答對，向所述目標對象發起多媒體查詢。　　在一個實施方式中，問答對可以包括對應於執行所述預定任務所需的必要資訊。　　在一個實施方式中，處理器向目標對象發起語音問答，可以包括：獲取目標對象的歷史行為資料；根據所述歷史行為資料產生對應於所述目標對象的多媒體查詢。　　在一個實施方式中，多媒體查詢可以包括但不限於以下至少之一：文字查詢、語音查詢、圖像查詢、視訊查詢。　　對於一些大型的語音交互場景或者是支付場景等等，在本例中，提供了兩種部署方式，如圖11所示為集中部署方式，即，多個人機交互設備都各自連接至同一個處理中心，該處理中心可以是雲端伺服器或者是一種伺服器集群等等都可以，通過該處理中心可以進行資料的處理，或者是對人機交互設備進行集中控制。如圖12所示為大集中小雙活的部署方式，在該方式中，每兩個人機交互設備連接至一個小的處理中心，該小的處理中心對與其連接的兩個人機交互設備進行控制，然後，所有小的處理中心都連接至同一個大的處理中心，通過該大的處理中心進行集中控制。　　然而，值得注意的是，上述所列的部署方式僅是一種示例性描述，在實際實現的時候，還可以採用其它的部署方式，例如，大集中小三活的部署方式等等，或者每個小的處理中心連接的人機交互設備的數量不是等量的等等都可以作為可選的部署方式，可以根據實際需要選擇，本申請對此不作限定。　　本申請所提供的人機交互系統、方法。語音去噪方法等等，可以應用在法庭庭審、客服質檢、視訊直播、記者採訪、會議記錄、醫生問診等等的業務場景，可以應用在客服機器上、智慧金融投資顧問上、各類APP或者而是各類智慧硬體設備，例如：手機、音箱、機上盒、車載設備等上。需要涉及的就是錄音文件識別、實時語音識別、文本大資料分析、短語音識別、語音合成、智慧對話等等。　　本申請提供的任務處理方法和設備，設備主動發起查詢，並迭代發問，直至獲取執行預定任務所需的必要資料，從而提供了一種主動的任務處理方式。通過上述方式可以解決現有的需要使用者主動喚醒或者主動發起交互而導致的使用者體驗不高的技術問題，達到了有效提高使用者體驗的技術效果。　　雖然本申請提供了如實施例或流程圖所述的方法操作步驟，但基於習用或者無進步性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者圖式所示的方法順序執行或者並行執行（例如並行處理器或者多線程處理的環境）。　　上述實施例闡明的裝置或模組，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。為了描述的方便，描述以上裝置時以功能分為各種模組分別描述。在實施本申請時可以把各模組的功能在同一個或多個軟體及/或硬體中實現。當然，也可以將實現某功能的模組由多個子模組或子單元組合實現。　　本申請中所述的方法、裝置或模組可以以電腦可讀程式代碼方式實現控制器按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該（微）處理器執行的電腦可讀程式代碼（例如軟體或韌體）的電腦可讀媒介、邏輯閘、開關、專用積體電路（Application Specific Integrated Circuit，ASIC）、可程式化邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式代碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式化來使得控制器以邏輯閘、開關、專用積體電路、可程式化邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　本申請所述裝置中的部分模組可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構、類等等。也可以在分布式計算環境中實踐本申請，在這些分布式計算環境中，由通過通信網路而被連接的遠程處理設備來執行任務。在分布式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠程電腦儲存媒介中。　　通過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的硬體的方式來實現。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式顯示出來，也可以通過資料遷移的實施過程中顯示出來。該電腦軟體產品可以儲存在儲存媒介中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備（可以是個人電腦，行動終端，伺服器，或者網路設備等）執行本申請各個實施例或者實施例的某些部分所述的方法。　　本說明書中的各個實施例採用遞進的方式描述，各個實施例之間相同或相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。本申請的全部或者部分可用於眾多通用或專用的電腦系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或便攜式設備、平板型設備、行動通信終端、多處理器系統、基於微處理器的系統、可程式化的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分布式計算環境等等。　　雖然通過實施例描繪了本申請，本領域普通技術人員知道，本申請有許多變形和變化而不脫離本申請的精神，希望所附的請求項包括這些變形和變化而不脫離本申請的精神。

101‧‧‧交互設備

102‧‧‧使用者

S1‧‧‧步驟

S2‧‧‧步驟

S3‧‧‧步驟

S4‧‧‧步驟

S5‧‧‧步驟

701‧‧‧步驟

702‧‧‧步驟

703‧‧‧步驟

704‧‧‧步驟

102‧‧‧處理器

104‧‧‧儲存器

106‧‧‧傳輸模組

901‧‧‧詢問模組

902‧‧‧獲取模組

903‧‧‧迭代模組

904‧‧‧發起模組

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本申請中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些圖式獲得其他的圖式。　　圖1是根據本申請實施例的人機交互系統的架構示意圖；　　圖2是根據本申請實施例的人機交互場景的邏輯實現示意圖；　　圖3是根據本申請實施例的預設的位置區域示意圖；　　圖4是根據本申請實施例的智慧咖啡售賣機的工作場景圖；　　圖5是根據本申請實施例的智慧咖啡售賣機的另一工作場景圖；　　圖6是根據本申請實施例的由設備主動觸發人機交互的流程圖；　　圖7是根據本申請實施例的設備主動觸發人機交互的咖啡購買流程查詢示意圖；　　圖8是根據本申請實施例的任務處理方法的方法流程圖；　　圖9是根據本申請實施例的終端設備的結構示意圖；　　圖10是根據本申請實施例的任務處理裝置的結構方塊圖；　　圖11是根據本申請實施例的集中部署方式的架構示意圖；　　圖12是根據本申請實施例的大集中小雙活的部署方式的架構示意圖。

Claims

一種任務處理方法，其特徵在於，所述方法包括：　　向目標對象發起多媒體查詢；　　獲取響應於所述多媒體查詢的回復資料；　　迭代發起查詢，直至獲得執行預定任務所需資料；　　基於所述所需資料，發起所述預定任務。
根據請求項1所述的方法，其中，迭代發起查詢，直至獲得預定任務所需資料，包括：　　獲取回復資料；　　確定回復資料中是否攜帶有執行預定任務所有必要資料；　　在確定未攜帶有所有必要資料的情況下，確定空缺的資料項；　　基於確定的空缺的資料項向所述目標對象發起多媒體查詢，直至獲得執行預定任務所需資料。
根據請求項1所述的方法，其中，向目標對象發起多媒體查詢，包括：　　確定所述目標對象的身分資訊；　　發起與所述身分資訊對應的多媒體查詢。
根據請求項3所述的方法，其中，所述身分資訊包括以下至少之一：年齡、性別。
根據請求項3所述的方法，其中，確定所述目標對象的身分資訊，包括：　　通過獲取所述目標對象的圖像資料及/或聲音資料，確定所述目標對象的身分資訊。
根據請求項1所述的方法，其中，向目標對象發起語音查詢，包括：　　檢測在設備的預設位置區域內是否有目標對象；　　在確定有目標對象的情況下，確定所述目標對象是否面向所述設備，且停留時長超出預設時長；　　在確定所述目標對象面向設備且停留時長超出所述預設時長的情況下，向所述目標對象發起多媒體查詢。
根據請求項6所述的方法，其中，檢測在設備的預設位置區域內是否有目標對象，包括：　　通過以下方式至少之一檢測在設備的預設位置區域內是否有目標對象：人體感應傳感器、紅外識別器、地面壓力傳感器。
根據請求項1所述的方法，其中，向目標對象發起多媒體查詢，包括：　　確定是否儲存有問答對；　　在確定儲存有問答對的情況下，基於所述問答對，向所述目標對象發起多媒體查詢。
根據請求項8所述的方法，其中，所述問答對包括對應於執行所述預定任務所需的必要資訊。
根據請求項1所述的方法，其中，向目標對象發起多媒體查詢，包括：　　獲取目標對象的歷史行為資料；　　根據所述歷史行為資料產生對應於所述目標對象的多媒體查詢。
根據請求項1所述的方法，其中，所述多媒體查詢包括以下至少之一：文字查詢、語音查詢、圖像查詢、視訊查詢。
一種任務處理設備，包括處理器以及用於儲存處理器可執行指令的儲存器，所述處理器執行所述指令時實現：　　向目標對象發起多媒體查詢；　　獲取響應於所述多媒體查詢的回復資料；　　迭代發起查詢，直至獲得執行預定任務所需資料；　　基於所述所需資料，發起所述預定任務。
根據請求項12所述的設備，其中，所述處理器迭代發起查詢，直至獲得預定任務所需資料，包括：　　獲取回復資料；　　確定回復資料中是否攜帶有執行預定任務所有必要資料；　　在確定未攜帶有所有必要資料的情況下，確定空缺的資料項；　　基於確定的空缺的資料項向所述目標對象發起多媒體查詢，直至獲得執行預定任務所需資料。
根據請求項12所述的設備，其中，所述處理器向目標對象發起多媒體查詢，包括：　　確定所述目標對象的身分資訊；　　發起與所述身分資訊對應的多媒體查詢。
根據請求項14所述的設備，其中，所述處理器確定所述目標對象的身分資訊，包括：　　通過獲取所述目標對象的圖像資料及/或聲音資料，確定所述目標對象的身分資訊。
根據請求項12所述的設備，其中，所述處理器向目標對象發起多媒體查詢，包括：　　檢測在設備的預設位置區域內是否有目標對象；　　在確定有目標對象的情況下，確定所述目標對象是否面向所述設備，且停留時長超出預設時長；　　在確定所述目標對象面向設備且停留時長超出所述預設時長的情況下，向所述目標對象發起多媒體查詢。
根據請求項16所述的設備，其中，所述處理器檢測在設備的預設位置區域內是否有目標對象，包括：　　通過以下方式至少之一檢測在設備的預設位置區域內是否有目標對象：人體感應傳感器、紅外識別器、地面壓力傳感器。
根據請求項12所述的設備，其中，所述處理器向目標對象發起多媒體查詢，包括：　　確定是否儲存有問答對；　　在確定儲存有問答對的情況下，基於所述問答對，向所述目標對象發起多媒體查詢。
根據請求項18所述的設備，其中，所述問答對包括對應於執行所述預定任務所需的必要資訊。
根據請求項12所述的設備，其中，所述處理器向目標對象發起語音問答，包括：　　獲取目標對象的歷史行為資料；　　根據所述歷史行為資料產生對應於所述目標對象的多媒體查詢。
根據請求項12所述的設備，其中，所述多媒體查詢包括以下至少之一：文字查詢、語音查詢、圖像查詢、視訊查詢。
一種電腦可讀儲存媒介，其上儲存有電腦指令，所述指令被執行時實現請求項1至11中任一項所述方法的步驟。