TWI840587B - 多模態使用者介面 - Google Patents
多模態使用者介面 Download PDFInfo
- Publication number
- TWI840587B TWI840587B TW109123487A TW109123487A TWI840587B TW I840587 B TWI840587 B TW I840587B TW 109123487 A TW109123487 A TW 109123487A TW 109123487 A TW109123487 A TW 109123487A TW I840587 B TWI840587 B TW I840587B
- Authority
- TW
- Taiwan
- Prior art keywords
- input
- user
- data
- mode
- feedback message
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000013507 mapping Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 72
- 230000004044 response Effects 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 22
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 2
- 230000009471 action Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000004851 dishwashing Methods 0.000 description 2
- 210000003811 finger Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000003826 tablet Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Abstract
一種用於多模態使用者輸入之器件包括一處理器,該處理器經組態以處理自一第一輸入器件接收到之第一資料。該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入。該第一輸入對應於一命令。該處理器經組態以基於處理該第一資料將一回饋訊息發送至一輸出器件。該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令。該處理器經組態以自一第二輸入器件接收第二資料,該第二資料指示該第二輸入,且經組態以更新一映射以使該第一輸入與藉由該第二輸入識別的該命令相關聯。
Description
本發明大體上係關於使用者介面,且更具體而言,係關於支援使用者輸入之多種模態的使用者介面。
許多使用者介面係基於自動語音辨識(ASR)及自然語言處理(NLP)且經由許多不同命令、口音及語言訓練以適用於大客戶群。針對在各種使用者中的廣泛適用性來訓練此類使用者介面需要大量資源,在每個使用者的基礎上使該使用者介面大體上適用於大客戶群之許多訓練係「浪費的」,此係因為每一個別使用者通常地僅使用單種語言、口音及支援命令之子集。
根據本發明之一個實施方案,一種用於多模態使用者輸入之器件包括一或多個處理器,該一或多個處理器經組態以處理自一第一輸入器件接收到之第一資料。該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入,且該第一輸入對應於一命令。該一或多個處理器經組態以基於處理該第一資料將一回饋訊息發送至一輸出器件。該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令。該一或多個處理器經組態以自一第二輸入器件接收第二資料,該第二資料指示該第二輸入,且經組態以更新一映射以使該第一輸入與藉由該第二輸入識別之該命令相關聯。
根據本發明之另一實施方案,一種用於多模態使用者輸入之方法包括在一器件之一或多個處理器處處理自一第一輸入器件接收到之第一資料。該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入,且該第一輸入對應於一命令。該方法包括基於處理該第一資料自該一或多個處理器將一回饋訊息發送至一輸出器件。該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令。該方法包括在該一或多個處理器處自一第二輸入器件接收第二資料。該第二資料指示該第二輸入。該方法亦包括在該一或多個處理器處更新一映射以使該第一輸入與藉由該第二輸入識別之該命令相關聯。
根據本發明之另一實施方案,一種用於多模態使用者輸入之裝置包括用於處理自一第一輸入器件接收到之第一資料的構件。該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入,且該第一輸入對應於一命令。該裝置包括用於基於處理該第一資料將一回饋訊息發送至一輸出器件的構件。該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令。該裝置包括用於自一第二輸入器件接收第二資料的構件,該第二資料指示該第二輸入。該裝置亦包括用於更新一映射以使該第一輸入與藉由該第二輸入識別之該命令相關聯的構件。
根據本發明之另一實施方案,一種非暫時性電腦可讀媒體包括指令,該等指令在由一器件之一或多個處理器執行時使得該一或多個處理器處理自一第一輸入器件接收到之第一資料。該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入,該第一輸入對應於一命令。該等指令在由該一或多個處理器執行時使得該一或多個處理器基於處理該第一資料將一回饋訊息發送至一輸出器件。該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令。該等指令在由該一或多個處理器執行時使得該一或多個處理器自一第二輸入器件接收第二資料,該第二資料指示該第二輸入。該等指令在由該一或多個處理器執行時亦使得該一或多個處理器更新一映射以使該第一輸入與藉由該第二輸入識別的該命令相關聯。
相關申請案之交叉參考
本申請案主張來自2019年7月12日申請之名稱為「MULTI-MODAL USER INTERFACE」的美國臨時專利申請案第62/873,775號之優先權,該美國臨時專利申請案以全文引用之方式併入本文中。
描述器件及方法以使得能夠使用多個輸入模態進行使用者互動。許多使用者介面係基於自動語音辨識(ASR)及自然語言處理(NLP)且經由許多不同命令、口音及語言訓練以適用於大客戶群。針對在各種使用者中的廣泛適用性來訓練此類使用者介面需要大量資源,在每個使用者的基礎上使該使用者介面大體上適用於大客戶群之許多訓練係「浪費的」,此係因為每一個別使用者通常地僅使用單種語言、口音及支援命令之子集。
藉由使得能夠進行多模態使用者互動以及能夠個性化解譯使用者命令,本文中所描述之技術使得能夠訓練多模態使用者介面以供特定使用者使用,從而減少或消除針對習知使用者介面之廣泛適用性的大量訓練。在一些實施方案中,不同嵌入網路用於不同輸入模態(例如,用於語音之嵌入網路、用於視覺輸入之嵌入網路、用於示意動作輸入之嵌入網路等)且經組態以區分使用各別模態所接收到的不同命令。為了說明,「嵌入網路」可包括一或多個神經網路層,該一或多個神經網路層經組態(例如,經訓練)以處理諸如語音資料(例如,時域語音資料或頻域語音資料)之輸入資料,從而生成嵌入向量。「嵌入向量」係與輸入資料相比相對低維的向量(例如,多個值之集合),表示輸入資料,且可用於區分輸入資料之不同例項。不同嵌入網路輸出變換至共同嵌入空間中且融合至經組合嵌入向量中。舉例而言,語音輸入之n
維語音嵌入向量可變換成k
維第一嵌入向量,且示意動作輸入之m
維示意動作嵌入向量可變換成k
維第二嵌入向量(其中m
、n
及k
可彼此相等或彼此不同)。在k維向量空間(例如,共同嵌入空間)中,k
維第一嵌入向量表示語音輸入,且k
維第二嵌入向量表示示意動作輸入。可諸如藉由向量添加組合k
維第一嵌入向量及k
維第二嵌入向量以生成經組合嵌入向量。分類器解譯經組合嵌入向量以生成輸出。
嵌入網路及分類器中之每一者可藉由個別使用者更新(例如,訓練),以改進對經由各種模態接收到之使用者命令的辨識。舉例而言,若接收到無法在高信賴之情況下解譯之口頭使用者命令,則使用者介面可詢問使用者關於口頭命令的含義,且使用者可使用不同模態諸如藉由執行示意動作輸入來輸入含義,該示意動作輸入藉由使用者介面辨識。
在一些實施方案中,使用者介面可請求使用者改變輸入模態。舉例而言,若用以增大播放音量之使用者之口頭命令「上調(up)」無法可靠地與另一命令(例如,「關閉」)進行區分,則使用者介面可生成請求使用者添加另一模態以較好地區分命令之回饋訊息(例如,口頭的或顯示的)。舉例而言,使用者可添加視覺輸入,諸如針對「增大音量」命令,指向向上。使用者介面可經更新以辨識口頭輸入「上調」與指向向上視覺輸入之組合作為增大播放音量的多模態命令。因此,個性化更新(例如,自單模態至多模態)可用於提高命令辨識準確度。
在一些實施方案中,使用者介面請求使用者改變輸入模態以更易於使使用者輸入歧義消除。舉例而言,在音訊雜訊損害對使用者之語音的解譯(例如,在移動車輛中)之實施方案中,使用者介面可生成請求使用者諸如將模態改變成視覺或示意動作模態之回饋訊息。作為另一實例,在低光位準損害使用者之視覺輸入的解譯之實施方案中,使用者介面可生成請求使用者諸如將模態改變成語音模態或使用可穿戴電子器件(例如,「智慧型手錶」)的運動偵測器來偵測手移動及定向之示意動作模態的回饋訊息。因此,指示使用者改變輸入模態可用於提高命令辨識準確度。
在一些實施方案中,使用者介面請求使用者改變輸入模態作為多因數鑑認製程之部分。舉例而言,在接收到口頭使用者輸入以執行話音鑑認之後,使用者介面可隨後請求使用者提供視覺或示意動作輸入。用以使用另一輸入模態提供額外使用者輸入的請求可藉由先前使用者輸入中之異常觸發,諸如語音輸入具有指示使用者之所記錄語音的播放之特性的偵測。替代地或另外,請求可隨機地或作為多因數鑑認製程的已確立系列之鑑認輸入之部分生成。因此,指示使用者改變輸入模態可用於較高準確度、更穩固使用者鑑認。如本文中所使用,對應於多因數鑑認製程之鑑認輸入的使用者輸入不同於對應於使用者命令之使用者輸入。為了說明,對應於命令之使用者輸入由使用者介面解譯為用以執行與命令(例如,「打開燈」)相關聯之動作或「技能」的指令,而對應於鑑認輸入之使用者輸入與所儲存使用者設定檔之資料相比較以判定使用者輸入來源於與所儲存使用者設定檔相關聯的相同使用者之可能性(例如,經由生物辨識資料或其他使用者識別資料之比較來判定)。
除非由其上下文明確地限制,否則術語「產生」用於指示其通常含義中之任一者,諸如計算、生成及/或提供。除非由其上下文明確地限制,否則術語「提供」用於指示其通常含義中之任一者,諸如計算、生成及/或產生。除非由其上下文明確地限制,否則術語「耦接(coupled)」用於指示直接或間接的電或實體連接。若連接係間接的,則可在經「耦接」之結構之間存在其他區塊或組件。舉例而言,揚聲器可經由能夠將波(例如,聲音)自揚聲器傳播至壁(或反之亦然)的介入媒體(例如,空氣)聲學耦接至鄰近壁。
可參考方法、裝置、器件、系統或其任何組合來使用術語「組態」,如由其特定上下文所指示。在本說明書及申請專利範圍中使用術語「包含」之處,其不排除其他元件或操作。術語「基於」(如在「A係基於B」中)用於指示其通常含義中之任一者,包括以下情況:(i)「基於至少」(例如,「A基於至少B」);及若在特定上下文中適當的,則(ii)「等於」(例如,「A等於B」)。在「A係基於B」包括「基於至少」之情況(i)下,此可包括A耦接至B的組態。類似地,術語「回應於」用於指示其通常含義中之任一者,包括「回應於至少」。術語「至少一個」用於指示其通常含義中之任一者,包括「一或多個」。術語「至少兩個」用於指示其通常含義中之任一者,包括「兩個或更多個」。
除非由特定上下文另外指示,否則通用地且可互換地使用術語「裝置」及「器件」。除非另外指示,否則對具有特定特徵之裝置之操作的任何揭示內容亦明確地意欲揭示具有相似特徵的方法(且反之亦然),且對根據特定組態之裝置之操作的任何揭示內容亦明確地意欲揭示根據相似組態的方法(且反之亦然)。除非由特定上下文另外指示,否則通用地且可互換地使用術語「方法」、「製程」、「程序」及「技術」。術語「元件」及「模組」可用於指示較大組態之一部分。術語「封包」可對應於包括標頭部分及酬載部分之資料單元。以引用之方式對文件之一部分的任何併入亦應被理解為併入在該部分內所引用之術語或變數的定義,(其中此類定義出現在文件中之別處)以及在所併入部分中所引用之任何圖式。
如本文中所使用,術語「通信器件」係指可用於經由無線通信網路之話音及/或資料通信的電子器件。通信器件之實例包括智慧型揚聲器、揚聲器條、蜂巢式電話、個人數位助理(PDA)、手持型器件、頭戴式套組、可穿戴器件、無線數據機、膝上型電腦、個人電腦等。
圖1描繪使用者102與器件110互動以供多模態使用者輸入的系統100。器件110包括第一輸入器件112、第二輸入器件114、視情況選用之一或多個額外輸入器件(諸如第三輸入器件116)、輸出器件120及控制單元104。在一些實施方案中,器件110可包括攜帶型通信器件(例如,「智慧型手機」)、可穿戴器件(例如,「智慧型手錶」)、車輛系統(例如,供與汽車娛樂系統、導航系統或自驅動控制系統一起使用的可移動或可卸除式顯示器)或虛擬實境或擴充實境頭戴式套組,作為說明性的非限制性實例。
第一輸入器件112經組態以基於第一輸入模式偵測第一使用者輸入。在一實例中,第一輸入器件112包括麥克風,且第一輸入模式包括語音模式(例如,對於ASR/NLP)。為了說明,第一輸入器件112可包括經組態以捕捉音訊輸入之一或多個麥克風,該音訊輸入包括一或多個關鍵字或話音命令。
第二輸入器件114經組態以基於第二輸入模式偵測第二使用者輸入。在一實例中,第二輸入器件114包括攝影機,且第二輸入模式包括視訊模式(例如,用以偵測使用者102之視覺態樣,諸如拇指向上或拇指向下的手位置、臉部表情等)。為了說明,第二輸入器件114可包括經組態以捕捉視訊輸入之一或多個攝影機,該視訊輸入包括一或多個示意動作或視覺命令。
第三輸入器件116經組態以基於第三輸入模式偵測第三使用者輸入。在一實例中,第三輸入器件116包括示意動作追蹤器,且第三輸入模式包括示意動作模式。第三輸入器件116可包括經組態以接收指示示意動作輸入之資料(例如,運動資料)的一或多個天線。為了說明,使用者102可佩戴手鐲或手錶,該手鐲或手錶包括追蹤使用者之手的移動的運動感測器(例如,加速計、陀螺儀等)且將運動資料傳輸至第三輸入器件116。在其他實施方案中,運動追蹤電子器件可與使用者102整合,諸如人類使用者102體內之控制論植入物,或在使用者102係機器人之實施方案中可為使用者102的組件。
輸出器件120經組態以諸如經由使用揚聲器之可聽輸出、使用顯示器的視覺輸出之生成、經由一或多種其他輸出模態(例如,觸覺)或其任何組合來輸出使用者102的資訊。舉例而言,輸出器件120可自控制單元104接收訊息資料(例如,回饋訊息144)且可對使用者102生成輸出(例如,指令146),如下文中進一步描述。在特定實例中,輸出器件120包括經組態以表示圖形使用者介面之顯示器、經組態以將回饋訊息144呈現或導向至使用者102的一或多個揚聲器或其組合。
控制單元104經組態以自輸入器件112至116接收對應於使用者輸入的資料且生成待經由輸出器件120提供至使用者102之回饋訊息。控制單元104包括耦接至稱為處理器108之一或多個處理器的記憶體106。如參考圖2進一步描述,記憶體106可包括表示一或多個嵌入網路之資料、表示嵌入向量至經組合嵌入空間的一或多個變換之資料及表示可訪問以供處理器108使用之一或多個分類器的資料。記憶體106亦可包括可由處理器108執行以實施多模態辨識引擎130、回饋訊息生成器132或兩者之指令。
處理器108包括多模態辨識引擎130及回饋訊息生成器132。在一些實施方案中,處理器108包括一或多個處理核心,該一或多個處理核心經組態以執行指令以實施多模態辨識引擎130及回饋訊息生成器132。在一些實施方案中,處理器108包括專用電路系統,該專用電路系統經組態以實施多模態辨識引擎130及回饋訊息生成器132中之一或兩者。在一實例中,處理器108實施為積體電路(IC)。
多模態辨識引擎130經組態以自輸入器件112至116中之一或多者接收資料且處理所接收到的資料以生成輸出。舉例而言,輸出可包括最緊密匹配所接收到的輸入之命令及與命令相關聯之信賴(或可能性)指示符。在一些實施方案中,多模態辨識引擎130經組態以生成資料以諸如藉由生成每一輸入模態之嵌入向量來針對每一輸入模態區分特定的經訓練使用者輸入與其他經訓練使用者輸入。多模態辨識引擎130可經組態以組合與不同輸入模態相關聯之嵌入向量以生成經組合嵌入向量,該經組合嵌入向量指示經由輸入器件112至116中之每一者偵測到哪一經辨識使用者輸入(若存在)作為單模態或多模態使用者輸入之部分。處理經組合嵌入向量以諸如藉由使用經訓練以將經組合嵌入向量映射至命令之分類器來判定輸出。參考圖2描述可在多模態辨識引擎130中實施之組件之說明性實例。
回饋訊息生成器132經組態以生成待經由輸出器件120輸出至使用者102之回饋訊息資料。舉例而言,回饋訊息生成器132可將回饋訊息144發送至輸出器件120以指示使用者102重複使用者輸入,該使用者輸入未經恰當辨識,諸如經預測為具有低於臨限值之信賴等級的特定命令。作為其他實例,回饋訊息生成器132可將回饋訊息144發送至輸出器件120以指示使用者102改變輸入模態或用使用不同輸入模態進行的另一輸入來擴增使用一種輸入模態進行的輸入。其他實例包括生成回饋訊息資料,該回饋訊息資料提供用以仿真之使用者102的使用者輸入之所記錄樣本、用以識別之使用者102的使用者之輸入的所記錄樣本或用以在使用器件110之情況下輔助使用者102的其他資訊。說明性實例包括跨模態樣本擷取,諸如回應於自使用者102接收詢問而顯示運動視訊,該運動視訊展示對應於「上調(UP)」之運動,生成與向上示意動作的運動相關聯之最相似發音之音訊播放,或生成已經與經使用者定義之運動緊密地相關聯的相關發音之音訊播放。在一些實例中,回饋訊息生成器132經組態以生成回饋訊息144以指示使用者102根據多因數鑑認製程提供下一鑑認輸入,如下文更詳細地描述。
在操作期間,使用者102基於第一輸入模式(例如,語言命令)提供第一輸入140,該第一輸入140藉由第一輸入器件112來偵測。第一輸入器件112生成指示第一輸入140之第一資料142,且將第一資料142提供至控制單元104。
處理器108 (例如,多模態辨識引擎130)處理指示基於第一輸入模式(例如,語音)之來自使用者102的第一輸入140之第一資料142。處理器108 (例如,回饋訊息生成器132)基於第一資料142的處理將回饋訊息144發送至輸出器件120。回饋訊息144例如經由口頭指令146的播出指示使用者102使用不同輸入模式提供第二輸入148。第二輸入148係基於與第一輸入模式不同之第二輸入模式(例如,視訊),且可用於更新多模態辨識引擎130如何回應於第一輸入140。如本文中所使用,使用不同輸入模式意謂使用不同類型之輸入而非使用相同類型之輸入。每種不同類型之輸入使用一系列不同感測器。舉例而言,語音輸入模式可使用一或多個麥克風。示意動作輸入模式可使用運動偵測。視訊輸入模式可使用攝影機及訊框序列。大體而言,每種輸入模式提供可用於提供輸入之不同類型的感測器。
在一些實施方案中,第一輸入140係命令,且回饋訊息144指示使用者102提供第二輸入148以使第一輸入140歧義消除。多模態辨識引擎130可回應於與第一輸入140之辨識處理相關聯之信賴等級未能滿足信賴臨限值而發送回饋訊息144,從而指示輸出之不確定性(例如,口頭輸入指示「上調」抑或「關閉」的不確定性)。使用者102可提供第二輸入148 (例如,指向向上),且基於指示第二輸入148之第二資料150,多模態辨識引擎130可更新第一輸入140 (例如,語音「上調」)至與第二輸入148相關聯的動作(例如,增大音樂音量)之映射,諸如圖2中進一步詳細描述。
在另一實施方案中,多模態辨識引擎130更新與第二輸入148組合之第一輸入140至與第二輸入148相關聯的動作映射。舉例而言,在雜訊狀況阻止口頭「上調」命令之可靠識別時,多模態辨識引擎130經更新以結合使用者之口頭「上調」命令辨識使用者之「上調」視訊輸入(例如,指向上),作為對調高音量之單一命令。
因此,在一些實施方案中,使用者102可個性化器件110以將特定輸入辨識為命令,以經由回饋訊息144的回饋機制及第二輸入148來執行特定動作。為了說明,使用者102可說出當前未藉由多模態辨識引擎130辨識之命令(第一輸入140),且回應於回饋訊息144,使用者102可藉由鍵入經辨識命令(第二輸入148)來識別待映射至未辨識命令之動作。類似地,在使用者之所選擇的模式已經變得不可靠時,器件110可指示使用者102改變輸入模式。舉例而言,在器件110在車輛(例如,汽車導航及/或娛樂系統)中實施時,在夜間駕駛期間,使用者102可被指示使用語音輸入或示意動作輸入代替視訊(由於低光狀況),而在窗戶打開之情況下駕駛時,使用者102可被指示使用示意動作輸入或視訊輸入代替語音(由於高風雜訊)。在器件110在諸如虛擬實境或擴充實境頭戴式套組之頭戴式套組中實施時,可執行類似操作以指示使用者102改變輸入模式。
在其他實施方案中,器件110用於執行多因數鑑認。舉例而言,第一輸入140可對應於使用者102的第一鑑認動作(例如,用於揚聲器校驗之口頭密碼),且回饋訊息144指示使用者102提供第二輸入148 (例如,顯示先前由使用者102所選擇的特定手組態)作為第二鑑認動作,作為多因數鑑認程序之部分。器件110可隨機地或依演算法選擇鑑認輸入模式之數目及類型以供指示使用者102來執行鑑認動作。舉例而言,器件110可回應於語音輸入(例如,第一輸入140)可為正在播出之所記錄語音的指示而生成指令146,且可諸如藉由指示使用者102對攝影機(例如,第二輸入器件114)眨眼來請求「生動性」確認。
儘管上文實例描述了第二輸入148使用與第一輸入140不同的模式,但在其他實施方案中,第二輸入148可使用與第一輸入140相同的模式。舉例而言,儘管第一輸入140之口頭命令可能難以解譯(例如,在環境雜訊存在之情況下的「上調」相較於「關閉」),但另一口頭命令(例如,「更大聲」)可明顯不同於其他映射命令以選擇正確動作(例如,增大音量)。作為另一實例,在訓練製程期間,使用者102可說出「更大聲」作為未經訓練語音命令,且器件110可經由指令146指示使用者102將動作識別為與發音「更大聲」相關聯。使用者102可提供由器件110辨識之第二口頭發音「上調」作為用以增大音量的命令,且多模態辨識引擎130可更新使用者輸入之映射以將「更大聲」與「增大音量」動作進行映射。
圖2說明根據特定實施方案的控制單元104之組件的實例,該控制單元104包括記憶體106、多模態辨識引擎130及可由處理器108執行之一或多個應用程式240。多模態辨識引擎130包括第一嵌入網路202,該第一嵌入網路202經組態以將第一使用者輸入(例如,語音輸入)轉換成第一嵌入向量(例如,第一嵌入向量「E1」)。第二嵌入網路204經組態以將第二使用者輸入(例如,示意動作輸入)轉換成第二嵌入向量(例如,第二嵌入向量「E2」)。多模態辨識引擎130可包括一或多個額外嵌入網路,該一或多個額外嵌入網路包括經組態以將第N使用者輸入(例如,視訊輸入)轉換成第N嵌入向量(例如,第N嵌入向量「En」)之第N嵌入網路206。多模態辨識引擎130可包括根據本發明之一些實施例的任何數目個嵌入網路。
融合嵌入網路220經組態以組合嵌入網路202至206的輸出且生成經組合嵌入向量,諸如經組合嵌入向量「C」228。舉例而言,第一變換212可將語音嵌入向量轉換至「共同」嵌入空間以生成第一共同嵌入向量222。第二變換214可將示意動作嵌入向量轉換至共同嵌入空間以生成第二共同嵌入向量224,且第N變換216可將視訊嵌入向量轉換至共同嵌入空間以生成第N共同嵌入向量226。共同嵌入向量222至226中之每一者可分別以對應權重W1、W2及W3加權,且在融合嵌入網路220處經組合。映射230經組態以選擇對應於經組合嵌入向量228之輸出232及信賴等級234。舉例而言,映射230可包括經組態以將經組合嵌入向量映射至特定動作之分類器231。為了說明,單個分類器231用於將由經組合輸入產生之輸出232判定至多個嵌入網路202至206,而非針對每一模態輸入使用個別分類器。
指示由多模態辨識引擎130使用之一或多個參數之資料儲存在記憶體106中。第一使用者設定檔250與第一使用者(例如,使用者102)相關聯且包括第一嵌入網路資料252、第一權重資料254、第一暫時性經調整資料256及第一歷史資料258。第一嵌入網路資料252包括資料(例如,權重或其他參數或值)以將嵌入網路組態成對應於第一使用者,該等嵌入網路包括第一嵌入網路202、第二嵌入網路204、第N嵌入網路206及融合嵌入網路220。第一權重資料254包括權重值以將權重(例如,W1、W2、W3)組態成對應於第一使用者。第一暫時性經調整資料256包括基於暫時性狀況調整多模態辨識引擎130之組態(例如,以在嘈雜環境中減小權重W1及增大權重W2及W3)之值,如下文進一步描述。第一歷史資料258包括與第一使用者相關聯之歷史資料且使得處理器108能夠基於對應於由多模態辨識引擎130處理的第一使用者之多模態輸入之歷史趨勢來更新第一嵌入網路資料252、第一權重資料254或兩者。
類似地,記憶體106包括與第二使用者相關聯之第二使用者設定檔260且包括第二使用者之第二嵌入網路資料262、第二權重資料264、第二暫時性經調整資料266及第二歷史資料258。第一嵌入網路資料252基於第一使用者與第二使用者之間的輸入命令差異而與第二嵌入網路資料262不同。舉例而言,第一使用者及第二使用者可具有不同口音、不同示意動作風格、在執行視訊輸入時的不同軀體力學或其任何組合。第一嵌入網路資料252可表示訓練嵌入網路202至206及220自第一使用者之嵌入網路資料之預設集合辨識使用者特定變化的結果,且第二嵌入網路資料262可表示訓練嵌入網路202至206及220自第二使用者之嵌入網路資料之預設集合辨識使用者特定變化的結果。儘管僅說明兩個使用者設定檔250、260,但可包括任何數目個使用者設定檔以自訂器件110的多個使用者之多模態辨識引擎130之操作。
除針對個別使用者變化(諸如針對不同口音、示意動作風格及軀體力學)調整之外,第一嵌入網路資料252亦可表示訓練嵌入網路202至206及220辨識藉由第一使用者判定之使用者輸入的第一自訂集合之結果,且第二嵌入網路資料262亦可表示訓練嵌入網路202至206及220辨識藉由第二使用者判定之使用者輸入的第二自訂集合之結果。舉例而言,第一使用者可自訂(例如,訓練)多模態辨識引擎130在進行音訊播放操作時將語音命令「上調」辨識為用以增大音量的命令。相比之下,第二使用者可自訂(例如,訓練)多模態辨識引擎130在進行音訊播放操作時將語音命令「上調」辨識為用以在播放清單上選擇前一音訊軌道的命令。
第一權重資料254可基於第一使用者與第二使用者之間的輸入模式可靠性差異而與第二權重資料264不同。舉例而言,處理器108可諸如基於第一歷史資料258判定:與來自第一使用者之示意動作輸入相比,較不可靠地解譯來自第一使用者的語音輸入。因此,權重W1可自預設W1值減小,且權重W2可自第一權重資料254中之預設W2值增大,以減少對語音輸入的依賴且增加對來自第一使用者之示意動作輸入的依賴。相比之下,處理器108可諸如基於第二歷史資料268判定:與來自第二使用者之示意動作輸入相比,來自第二使用者的語音輸入更可靠。因此,權重W1可自預設W1值增大且權重W2可自第二權重資料264中之預設W2值減小,以減少對示意動作輸入的依賴且增大對來自第二使用者之語音輸入的依賴。
應用程式240包括暫時性調整器290及資料調整器292。暫時性調整器290經組態以基於暫時性狀況判定嵌入網路202、204、206或220中之一或多者的調整、權重W1至W3中之一或多者的調整或其組合。舉例而言,暫時性調整器290可基於偵測到的狀況調整權重W1至W3中之一或多者以強調一或多個輸入模態、不再強調一或多個輸入模態或其組合。作為說明性的非限制性實例,偵測到的狀況可藉由環境雜訊資料272、環境光資料274、位置資料276或使用者偏好278中之一或多者來指示,如下文更詳細地描述。
資料調整器292經組態以判定嵌入網路202、204、206或220中之一或多者的調整、權重W1至W3中之一或多者的調整或其組合,以更新嵌入網路資料及權重資料來表示經判定不基於暫時性狀況之改變。在一些實施方案中,資料調整器292經組態以諸如回應於自使用者接收到幫助多模態辨識引擎130更準確地辨識使用者輸入(例如,以適應於口頭命令的使用者之發音與預設語音識別模型之間的差異)之歧義消除回饋或回應於指示輸入至特定命令的自定義映射之使用者輸入(例如,使用者用兩隻手輸入「拇指向上」示意動作作為先前未知的視訊輸入且指示此視訊輸入應使得器件110關閉警報),而對嵌入網路202、204、206或220中之一或多者執行更新訓練以指示使用者輸入至特定命令之經更新映射。
在於圖1之系統100中實施的多模態辨識引擎130之操作的說明性實例中,使用者102諸如經由面部辨識、話音辨識或某一其他形式使用者辨識來識別為器件110的多模態輸入源。基於第一嵌入網路資料252更新嵌入網路202至206,基於第一權重資料254更新權重W1、W2及W3,且基於第一暫時性經調整資料256應用任何暫時性調整,以組態(例如,自訂)多模態辨識引擎130來辨識來自使用者102之輸入。
使用者102提供第一輸入140作為命令。第一輸入140未經辨識為具有足夠可靠性的任何特定命令,且回饋訊息144指示使用者102提供第二輸入148來使第一輸入140歧義消除。舉例而言,可回應於與第一輸入140之辨識處理相關聯之信賴等級234未能滿足信賴臨限值294而發送回饋訊息144,從而指示輸出232之不確定性(例如,口頭輸入指示「上調」抑或「關閉」的不確定性)。在其他實施方案中,回應於偵測到一或多個環境狀況而發送回饋訊息144。
舉例而言,在經由視訊模式接收到第一輸入140之實施方案中,回應於環境光度量284具有低於照明臨限值286之值而發送回饋訊息144。舉例而言,環境光資料274可經由器件110之一或多個感測器經接收且經處理以生成環境光度量284。環境光度量284可與照明臨限值286相比較,以判定環境照明對於可靠視訊模式輸入而言是否太昏暗。回饋訊息144可通知使用者昏暗照明使得視訊輸入模式不可靠,且可指示使用者使用另一模態(例如,語音)重複輸入。
作為另一實例,在經由語音模式接收到第一輸入140之實施方案中,回應於雜訊度量280 (例如,信號對雜訊比(SNR)或環境雜訊量測值)具有高於雜訊臨限值282的值而發送回饋訊息144。舉例而言,環境雜訊資料272可經由器件110之一或多個感測器接收到(或在麥克風輸入信號的話音活性偵測處理期間量測到),且經處理以生成雜訊度量280。雜訊度量280可與雜訊臨限值282相比較,以判定環境雜訊對於可靠語音模式輸入而言是否太響亮。回饋訊息144可通知使用者雜訊環境使得語音輸入模式不可靠,且可指示使用者使用另一模態(例如,視訊)來重複輸入。
使用者102可提供第二輸入148 (例如,指向向上),且基於指示第二輸入148之第二資料150,多模態辨識引擎130可更新第一輸入140 (例如,語音「上調」)至與第二輸入148相關聯的動作(例如,增大音樂音量)之映射。為了說明,第一嵌入網路202、第一變換212、權重W1、融合嵌入網路220或映射230中之一或多者可經資料調整器292調整,以使得多模態辨識引擎130將使用者之口頭「上調」更準確地辨識為用以增大音樂音量的命令。
在操作之說明性實例中,若判定一個輸入模態具有低準確度狀況,則多模態辨識引擎130 (例如,回應於由暫時性調整器290生成的暫時性經調整資料)調整一或多個設定以使用彼模態來減少或消除輸入影響,以供生成經組合嵌入向量228。在語音模態經判定、預測或估計為不可靠的(例如,由於雜訊度量280超出雜訊臨限值282)之實例中,雖然示意動作及視訊模態經判定為對於輸入辨識而言充分可靠的,但暫時性調整器290可將應用於與語音輸入相關聯的共同嵌入向量222之權重W1設定成「0」值。應用於與示意動作輸入相關聯的共同嵌入向量224之權重W2及應用於與視訊輸入相關聯的共同嵌入向量226之權重W3設定成非零值(例如,在示意動作及視訊輸入經處理為同等可靠的實施方案中,W2 = W3 = 0.5)。在語音輸入保持不可靠時,將權重W1設定成「0」值防止語音輸入對所得經組合嵌入向量228具有影響。
根據上文實例,權重之初始設定可指派W1 = W2 = W3 = 1/3,從而指示每一模態對輸入辨識具有同等重要性或可靠性。諸如由於大量環境雜訊之偵測(例如,經由偵測到雜訊度量280超過雜訊臨限值282或偵測到在車輛在運動中時車輛窗戶打開)或由於在預定時間週期內未能準確地辨識臨限數目個語音輸入,語音模態稍後可經判定或預測為不可靠的。回應於語音模態經判定或預測為不可靠的,暫時性調整器290將權重W1、W2及W3分別調整至0、1/2及1/2,以去除語音輸入對輸入辨識的影響。回應於語音輸入模態不再不可靠(例如,風雜訊降至低於雜訊臨限值,窗口係封閉的,或車輛已經停止移動)之後續判定,權重W1、W2及W3可各自返回至其1/3的初始值。
作為另一實例,諸如由於少量環境光的偵測(例如,環境光度量284低於照明臨限值286)或由於臨限數目個視訊輸入未能在預定時間週期內準確地經辨識,視訊模態可取而代之經判定或預測為不可靠的。回應於視訊模態經判定或預測為不可靠的,暫時性調整器290將權重W1、W2及W3分別調整至1/2、1/2及0,以去除視訊輸入對輸入辨識的影響。回應於視訊輸入模態不再不可靠(例如,環境光經判定為超過照明臨限值)的後續判定,權重W1、W2及W3可各自返回至其1/3的初始值。
在一些實施方案中,多個權重經調整以減少或去除多個輸入模態對輸入辨識之影響。舉例而言,在進行將僅使用語音模態的判定之實施方案中,W1設定成「1」且W2及W3設定成「0」。為了說明,器件110可偵測低環境光狀況且亦可判定未偵測到主動示意動作偵測器件(例如,使用者之智慧型手錶不存在或不傳輸運動資料)。作為另一實例,使用者102可諸如經由輸入使用者偏好278指示器件110限制輸入辨識以僅處理語音輸入。作為另一實例,位置資料276可用於判定是否限制一或多個輸入模態。舉例而言,回應於位置資料276指示使用者操作車輛,暫時性調整器290可限制使用者輸入模式以防止辨識示意動作輸入及視訊輸入,諸如以防止使用者分心且促進車輛的安全操作。回應於位置資料276指示使用者不再操作車輛且在使用者之家庭中,暫時性調整器290可恢復使用者輸入模式以使得能夠辨識示意動作輸入及視訊輸入。
儘管權重值之實例描述於上文之實例中,但此類實例權重值為說明性而非限制性的。為了說明,權重可設定成減小的值,以減輕而非消除相關聯輸入模態對總體輸入辨識之影響,而非將權重設定成「0」。作為另一實例,「可靠」輸入模態可具有可指示輸入模態之相對可靠性的不相等權重。為了說明,若示意動作輸入被視為充分可靠的,則視訊輸入被視為比示意動作輸入更可靠,且語音經判定為不可靠的,權重可設定成諸如W1 = 0.1、W2 = 0.4及W3 = 0.5的值。儘管在上文實例中,權重W1、W2及W3的總和等於1,但在其他實施方案中,權重W1、W2及W3之總和不限於任何特定值。
另外,或作為替代例,為調整一或多個權重以減少或消除經判定為不可靠的輸入模態之影響,在一些實施方案中,多模態辨識引擎130可自可用技能中將相關聯嵌入網路的輸出強制為「無」輸出,將用於「無」類別輸入之共同嵌入空間的變換的輸出強制為具有「0」值之嵌入向量,或其組合。
在一些實施方案中,包括多模態辨識引擎130之器件110執行多個輸入模態的環境感知融合。舉例而言,回應於判定使用者102正駕駛汽車,與示意動作輸入相關聯之權重W2可設定成「0」,從而指示使用者之手運動很可能對應於汽車操作而非作為示意動作輸入,以在駕駛汽車時阻止不安全手運動。作為另一實例,回應於判定使用者102處於黑暗房間,與視訊輸入相關聯之權重W3可設定成「0」。作為另一實例,回應於判定使用者102處於嘈雜環境中,與語音輸入相關聯之權重W1可設定成「0」。環境狀況的判定可基於整合於器件110中之一或多個感測器(例如,環境光感測器、環境雜訊感測器)、在器件110外部的一或多個感測器(例如,經由器件110與家庭自動化系統、物聯網系統或另一系統之一或多個組件之間的通信)或其任何組合。
圖3描繪用於多模態使用者輸入之系統300的實例,其中佩戴頭戴式套組302之使用者與另一器件(諸如智慧型手機)、車輛系統(諸如汽車)或揚聲器系統(其併入無線數位助理應用) (例如,「智慧型揚聲器」)通信。頭戴式套組302可對應於圖1之器件110,且可包括顯示器及換能器,諸如耳塞式耳機308或其他可穿戴雜訊生成器件,以將擴充實境(「AR」)、虛擬實境(「VR」)或混合實境(「MR」)音訊及視訊輸出提供至穿戴者。
頭戴式套組302可包括諸如一或多個麥克風、一或多個攝影機等的多個感測器,以偵測使用者輸入。舉例而言,經由一或多個麥克風所接收到之音訊輸入可用於在整合於頭戴式套組302中或耦接至其的處理器處執行一或多個操作310。舉例而言,諸如使用機器學習來處理對應於音訊輸入之音訊信號以使得能夠進行聲音環境分類、自話音話音活動偵測(VAD)以判定頭戴式套組302之穿戴者何時說話,可執行聲學事件偵測及模式控制(例如,基於序列之使用者介面)。
一或多個操作310之結果可用於生成一或多個動作312。舉例而言,動作312可包括調諧主動雜訊消除(ANC)濾波器、實施一或多個輔助收聽特徵、調整多麥克風聲音捕捉場(例如,「AudioZoom」)或執行擴充實境呈現、虛擬實境呈現或混合實境呈現(統稱為「XR」呈現)。舉例而言,結果可在頭戴式套組302處以空間透明模式呈現。
在頭戴式套組302處(例如,經由一或多個麥克風、運動偵測器、示意動作偵測器、攝影機等)偵測到的使用者輸入可用於初始化一或多個基於語音之操作304 (諸如自動語音辨識及自然語言處理、搜尋或詢問反應或兩者)的效能。可使用機器學習諸如在與頭戴式套組302通信之智慧型手機或其他攜帶型通信器件處執行一或多個基於語音之操作304。資料通信305 (例如,無線網路通信、有線通信或兩者)可包括將音訊語音資料發送至外部處理資源306 (例如,基於雲端之ASR/NLP及併入機器學習的搜尋伺服器)。搜尋及詢問結果可經由頭戴式套組302傳達回使用者。
圖4描繪調整多麥克風聲音捕捉場(例如,「AudioZoom」)之實例400,諸如在說明性的非限制性實例中可藉由圖3之頭戴式套組302執行。諸如代表性麥克風412、414及416之多個麥克風配置在使用者周圍。使用者說明為在極座標系統中定中心且定向成面向0度角方向。麥克風412、414及416可包括方向麥克風、非方向麥克風或兩者,且捕捉使用者周圍的音訊環境。在第一組態402中,來自麥克風412至416之音訊的聲音處理對使用者(例如,經由耳掛式耳機或耳塞式耳機)在無針對使用者之調整之情況下產生可聽輸出,該可聽輸出表示音訊環境。
在第二組態404中,回應於經由多模態介面之使用者輸入(例如,使用者示意動作、發音、視訊輸入或其組合,作為說明性實例),來自麥克風412至416的音訊之聲音處理經調整強調(例如,放大)源自或來自特定空間區420 (例如,在90度角方向處或在使用者之左側的區)之聲音,同時使源自空間區420外部之區域的聲音減弱。作為說明性的非限制性實例,導致轉變成第二組態404之使用者輸入之實例可包括基於語音模態的「向左縮放」語音序列、基於示意動作模態之「手向左指」或「手指向左指」示意動作序列或基於音訊(非語音)模態的「發出捕捉聲音」音訊序列。
在一些實施方案中,如上文參考圖1至4所描述的多模態介面回應於上下文,諸如近接使用者之位置或活動(例如,在起居室中觀看電視或在廚房中洗碗)。舉例而言,使用基於手錶或臂帶之加速計捕捉到的示意動作可基於偵測到之上下文解譯。舉例而言,揮動手可解譯為所靶向的命令「開燈」,向左翻轉手可解譯為「下一首歌」或「下一個頻道」,向右翻轉手可解譯為「上一首歌」、「上一個頻道」或「開門」。作為說明性的非限制性實例,形成握緊的拳頭之「抓握」示意動作可解譯為「接電話」或「選擇頻道」,長抓握可解譯為「停止歌曲」、「取消警報」或「關門」,且在手指張開之情況下的手之逆時針旋轉可解譯為「發現家庭器件」。可經由與偵測到的聲學事件/環境序列之關聯性來判定上下文。舉例而言,可偵測到各種聲學事件以推斷聲學環境(例如,使用者在何處)或監測適當回饋時序。此類可偵測聲學事件之實例包括:電吹風、抽真空、音樂、廚房排氣罩、烹飪、進食、洗碗、室內空調、微波爐、洗滌器、脫水器、淋浴及觀看電視。
手示意動作辨識之資料集可包括:指示手移動之三維(3-D)加速計及陀螺儀感測器資料(例如,沿著x、y及z軸)。感測器信號(例如,來自加速計及陀螺儀)之每個分量可在固定寬度窗口中,諸如3秒之窗口(例如,150個讀數/窗口)。可實施多個示意動作分類,諸如:下一個、前一個、上調/增大、下調/減小、開、關及未知,作為說明性的非限制性實例。可實施一或多種資料擴充技術,諸如置換、時間扭曲、縮放、量值扭曲、抖動及裁剪。
可諸如基於手示意動作辨識之資料集的統計特徵來執行特徵提取。為了說明,作為說明性的非限制性實例,經提取特徵可對應於最小值、最大值、變量、平均值、標準差、最小方誤差(MSE)、自動相關(ACF)、自動協方差(ACV)、偏度、峰度、平均交叉速率、抖動或3-分位數。
一或多個模型可用於手示意動作辨識,諸如支援向量機(SVM)、梯度增強、分類器、堆疊之長短期記憶遞歸神經網路(LSTM-RNN)、所關注的序列與序列編碼器解碼器模型(sequence-to-sequence encoder-decoder models with attention)、一或多個其他模型或其任何組合。
在一些態樣中,多模態辨識引擎130可學習或訓練以生成直接地映射至目標動作之序列嵌入向量。輸入序列之實例包括加速計或陀螺儀時間數列(例如,用於示意動作輸入)、語音命令時間數列或音訊時間數列。所關注的編碼器解碼器LSTM-RNN可用於學習以生成表示可變長度時間數列信號之嵌入向量作為固定長度及區別向量,諸如以生成對softmax層之輸出來指示與輸入序列相關聯的目標動作分類。
在一些態樣中,多模態辨識引擎130可使用嵌入向量以用於登記及設計不同動作分類。舉例而言,可登記不同輸入序列的數目,且可使用映射至每一目標動作之嵌入向量來設計一或多個分類器。舉例而言,SVM、K平均值、k最近相鄰法(KNN)、餘弦(cos)距離或其他設計可經實施以將嵌入映射至目標動作。可執行使用者序列之測試以校驗經更新系統的準確度。
在一些態樣中,在登記及SVM/K平均值/KNN設計之後,與分類器評估相關聯之度量展示分類之間的分隔太不明確且可執行序列塑形。在此類情況下,回饋訊息生成器132可生成回饋以向使用者指示導致與其他分類混淆之某些存在問題的序列。舉例而言,可諸如經由輸出器件120向使用者播放所混淆的分類之運動、音訊或語音序列。使用者可認識到哪些序列導致混淆且可說出/用動作示意新序列以改進目標分類之間的分隔且提供歧義消除。可替代地,令人混淆的輸入序列可藉由使用者經由多模態使用者介面匹配至相同動作/分類,以使得輸入序列之間的不明確性呈現為無實際意義。在接收到使用者回饋之後,多模態辨識引擎130可重新登記及修改SVM/K平均值/KNN設計,且在混淆之情況下,回饋訊息生成器132可重新提示使用者重複輸入序列,直至序列映射變得彼此明顯不同為止。舉例而言,「混淆矩陣」可表示不同序列之間的不明確性之量,且可重複訓練直至混淆矩陣係准對角線的為止。
在一些態樣中,可回應於偵測到導致與其他動作分類混淆之「存在問題的」輸入序列而執行使用多模態輸入的序列塑形。器件110可向使用者請求使用者是否希望針對存在問題的輸入序列中之每一者使用多模態輸入。舉例而言,若對於多模態辨識引擎130而言難以區分針對「關」及「音量下調」的使用者之特定示意動作,則輸出器件120可向使用者輸出詢問「你想要對『關』類別使用語言命令『關閉』嗎」?作為另一實例,輸出器件120可輸出詢問「你想要對『音量下調』類別使用語言命令『減小音量』嗎」?回應於使用者選擇使用多模態輸入(例如,由於示意動作混淆而添加語言命令),可啟動多模態提示,且器件110可使用多模態輸入序列來調整混淆矩陣以包括混淆概率。
在一些態樣中,互動式的依序校驗可用於使輸入序列歧義消除。舉例而言,使用者可能忘記向哪些多模態輸入登記了哪些類別。可進行使用者與器件110之間的基於對話之互動。舉例而言,若示意動作輸入經偵測為「關」類別,則輸出器件120可詢問使用者「你的意思是『關』類別抑或『下一個』類別」?使用者可回答「關」,然後多模態辨識引擎130可啟動「關」命令。
圖5描繪器件502的實施方案500,該器件502包括整合於諸如如參考圖13進一步描述之半導體晶片或封裝之離散組件中的多模態辨識引擎130及回饋訊息生成器132。為了說明,器件502可包括經組態以執行儲存指令來執行相對於多模態辨識引擎130及回饋訊息生成器132所描述之操作的一或多個處理器(例如,處理器108)。器件502包括諸如第一匯流排介面之感測器資料輸入510,以使得感測器資料504能夠自器件502外部的一或多個感測器被接收,諸如來自圖1的輸入器件112至116中之一或多者的資料。器件502亦包括諸如第二匯流排介面之輸出512,以使得能夠發送回饋訊息144 (例如,發送至輸出器件120)。器件502能夠將多模態使用者介面處理實施為包括多個感測器及輸出器件之系統中(諸如,如圖11中所描繪的車輛、如圖12A中所描繪之虛擬實境或擴充實境頭戴式套組、如圖12B中所描繪之可穿戴電子器件或如圖13中所描繪的無線通訊器件中)的組件。
參考圖6,作為說明性的非限制性實例,描繪了可藉由圖1之器件110或控制單元104、圖5的器件502或兩者執行之處理多模態使用者輸入之方法600的特定實施方案。
在602處,方法600包括在器件之處理器處處理自第一輸入器件接收到之第一資料。第一資料指示來自使用者基於第一輸入模式的第一輸入。舉例而言,參考圖1,處理器108處理自第一輸入器件112接收到之第一資料142。第一資料142指示基於第一輸入模式之來自使用者102的第一輸入140。
在604處,方法600亦包括基於處理第一資料自器件之處理器將回饋訊息發送至輸出器件。回饋訊息指示使用者提供基於與第一輸入模式不同的第二輸入模式的第二輸入。舉例而言,參考圖1,控制單元104基於處理第一資料142將回饋訊息144發送至輸出器件120。回饋訊息144指示使用者102提供基於第二輸入模式之第二輸入148。
方法600可由以下各者實施:場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、數位信號處理器(DSP)、控制器、另一硬體器件、韌體器件或其任何組合。作為一實例,方法600可由執行指令的處理器執行,諸如本文中所描述。
參考圖7,作為說明性的非限制性實例,描繪了可藉由圖1之控制單元104、圖5之器件502或兩者執行之處理多模態使用者輸入之方法700的特定實施方案。
在702處,方法700包括處理自第一輸入器件接收到之第一資料。第一資料指示對應於基於第一輸入模式之來自使用者的命令的第一輸入。舉例而言,參考圖1,處理器108處理自第一輸入器件112接收到之第一資料142。第一資料142指示對應於基於第一輸入模式之來自使用者102的命令的第一輸入140。
在704處,方法700亦包括基於處理第一資料將回饋訊息發送至輸出器件。回饋訊息指示使用者提供基於與第一輸入模式不同的第二輸入模式之第二輸入以使第一輸入歧義消除。舉例而言,參考圖1,控制單元104基於處理第一資料142將回饋訊息144發送至輸出器件120。回饋訊息144指示使用者102提供基於與第一輸入模式不同的第二輸入模式之第二輸入148以使第一輸入140歧義消除。
方法700可由以下各者實施:場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、DSP、控制器、另一硬體器件、韌體器件或其任何組合。作為一實例,方法700可由執行指令的處理器執行,諸如本文中所描述。
參考圖8,作為說明性的非限制性實例,描繪了可藉由圖1之控制單元104、圖5之器件502或兩者執行之處理多模態使用者輸入之方法800的特定實施方案。
在802處,方法800包括處理自第一輸入器件接收到之第一資料。第一資料指示來自使用者基於第一輸入模式的第一輸入,且第一資料對應於使用者之第一鑑認動作。舉例而言,參考圖1,處理器108處理自第一輸入器件112接收到之第一資料142。第一資料142指示基於第一輸入模式之來自使用者102的第一輸入140,且第一資料142對應於使用者102之第一鑑認動作。
在804處,方法800亦包括基於處理第一資料將回饋訊息發送至輸出器件。回饋訊息指示使用者基於與第一輸入模式不同之第二輸入模式提供第二輸入作為第二鑑認動作,作為多因數鑑認程序之部分。舉例而言,參考圖1,控制單元104基於處理第一資料142將回饋訊息144發送至輸出器件120。回饋訊息144指示使用者102基於與第一輸入模式不同之第二輸入模式提供第二輸入148作為第二鑑認動作,作為多因數鑑認程序之部分。
方法800可由以下各者實施:場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、DSP、控制器、另一硬體器件、韌體器件或其任何組合。作為一實例,方法800可由執行指令的處理器執行,諸如本文中所描述。
參考圖9,作為說明性的非限制性實例,描繪了可藉由圖1之控制單元104、圖5之器件502或兩者執行之處理多模態使用者輸入之方法900的特定實施方案。
在902處,方法900包括基於第一輸入模式偵測第一使用者輸入。舉例而言,參考圖1,第一輸入器件112基於第一輸入模式偵測第一使用者輸入140。
在904處,方法900亦包括基於第二輸入模式偵測第二使用者輸入。舉例而言,參考圖1,第二輸入器件114基於第二輸入模式偵測第二使用者輸入148。
在906處,方法900亦包括使用經組態以將第一使用者輸入轉換成第一嵌入向量之第一嵌入網路來生成第一嵌入向量。舉例而言,參考圖2,第一嵌入網路202藉由將第一使用者輸入轉換成第一嵌入向量來生成第一嵌入向量。
在908處,方法900亦包括使用經組態以將第二使用者輸入轉換成第二嵌入向量之第二嵌入網路來生成第二嵌入向量。舉例而言,參考圖2,第二嵌入網路204藉由將第二使用者輸入轉換成第二嵌入向量來生成第二嵌入向量。
在910處,方法900亦包括使用經組態以組合第一嵌入網路及第二嵌入網路之輸出以生成經組合嵌入向量之融合嵌入網路來生成經組合嵌入向量。舉例而言,參考圖2,融合嵌入網路220組合第一嵌入網路202及第二嵌入網路204之輸出以生成經組合嵌入向量。
在912處,方法900亦包括使用分類器將經組合嵌入向量映射至特定動作。舉例而言,參考圖2,映射230將經組合嵌入向量映射至特定動作。
方法900可由以下各者實施:場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、DSP、控制器、另一硬體器件、韌體器件或其任何組合。作為一實例,方法900可由執行指令的處理器執行,諸如本文中所描述。
參考圖10,作為說明性的非限制性實例,描繪了可藉由圖1之控制單元104、圖5之器件502或兩者執行之處理多模態使用者輸入之方法1000的特定實施方案。
在1002處,方法1000包括處理自第一輸入器件接收到之第一資料。第一資料指示來自使用者基於第一輸入模式的第一輸入,且第一輸入對應於命令。舉例而言,參考圖1,處理器108處理自第一輸入器件112接收到之第一資料142。第一資料142指示基於第一輸入模式之來自使用者102的第一輸入140。
在1004處,方法1000亦包括基於處理第一資料將回饋訊息發送至輸出器件。回饋訊息指示使用者基於與第一輸入模式不同之第二輸入模式提供識別與第一輸入相關聯的命令的第二輸入。舉例而言,參考圖1,控制單元104基於處理第一資料142將回饋訊息144發送至輸出器件120。回饋訊息144指示使用者102使用另一輸入模式重新鍵入與第一輸入140相關聯的命令。在一實例中,第一輸入模式係語音模式、示意動作模式或視訊模式中之一者,且第二輸入模式係語音模式、示意動作模式或視訊模式中之一不同者。
在一些實施方案中,回饋訊息指示使用者提供第二輸入來使第一輸入歧義消除。舉例而言,可回應於與第一輸入之辨識處理相關聯之信賴等級未能滿足信賴臨限值(諸如在信賴等級234小於信賴臨限值294時)而發送回饋訊息。在一些實例中,第一輸入模式對應於視訊模式,且回應於環境光度量具有低於照明臨限值之值(諸如環境光度量284具有小於照明臨限值286的值)而發送回饋訊息。在其他實例中,第一輸入模式對應於語音模式,且回應於雜訊度量具有超出雜訊臨限值之值(諸如雜訊度量280具有大於雜訊臨限值282的值)而發送回饋訊息。
在1006處,方法1000亦包括自第二輸入器件接收第二資料,第二資料指示第二輸入。舉例而言,參考圖1,控制單元104接收與第二輸入148相關聯之第二資料150,該第二輸入148識別與第一輸入140相關聯之特定命令。
在1008處,方法1000亦包括更新映射以使第一輸入與藉由第二輸入識別之命令相關聯。舉例而言,參考圖1,控制單元104更新使用者輸入至命令之映射以使第一輸入140與特定命令相關聯。在一些實施方案中,經更新的映射使第一輸入及第二輸入之組合與命令相關聯,諸如以為使用者自訂輸入至命令之映射,以使得經由並行地(例如,在時間上至少部分地重疊地)經由第一輸入模式接收第一輸入且經由第二輸入模式接收第二輸入來更可靠地辨識命令。在一些實施方案中,更新映射包括更新與使用者相關聯之嵌入網路資料(例如,第一嵌入網路資料252)或更新與使用者相關聯的權重資料(例如,第一權重資料254)中之至少一者。
方法1000可由以下各者實施:場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、諸如中央處理單元(CPU)之處理單元、DSP、控制器、另一硬體器件、韌體器件或其任何組合。作為一實例,方法1000可由執行指令的處理器執行,諸如本文中所描述。
圖11描繪整合至諸如汽車儀錶盤器件1102之車輛儀錶盤器件中的器件110之實施方案1100的實例。多個感測器1150可包括一或多個麥克風、攝影機或其他感測器,且可對應於圖1之輸入器件112至116。儘管在單個位置中說明,但在其他實施方案中,感測器1150中之一或多者可定位在車輛之其他位置處,諸如分佈在車輛之駕駛艙內的各種位置處,諸如一或多個麥克風及一或多個攝影機之陣列定位成接近於車輛中之每一座椅以偵測來自車輛操作者及來自每一乘客的多模態輸入。
諸如顯示器1120之視覺介面器件可對應於輸出器件120且安裝於對汽車之駕駛者可見的汽車儀錶盤器件1102內或經定位在該汽車儀錶盤器件1102上(例如,以可卸除方式緊固至車輛手機座架)。多模態辨識引擎130及回饋訊息生成器132以虛線邊界說明,以指示多模態辨識引擎130及回饋訊息生成器132對車輛之乘坐者不可見。多模態辨識引擎130及回饋訊息生成器132可實施於器件中,該器件亦包括顯示器1120及感測器1150,諸如在圖1之器件110中,或可與顯示器1120及感測器1150分離且耦接至該顯示器1120及該感測器1150,諸如在圖5的器件502中。
圖12A描繪整合至諸如虛擬實境、擴充實境或混合實境頭戴式套組之頭戴式套組1202中的多模態辨識引擎130及回饋訊息生成器132之實例。諸如顯示器1220之視覺介面器件可對應於輸出器件120且定位在使用者之眼部前面,以使得能夠在佩戴頭戴式套組1202時將擴充實境或虛擬實境影像或場景顯示給使用者。感測器1250可包括一或多個麥克風、攝影機或其他感測器,且可對應於圖1之輸入器件112至116。儘管在單個位置中說明,但在其他實施方案中,感測器1250中之一或多者可定位在頭戴式套組1202之其他位置處,諸如一或多個麥克風及一或多個攝影機之陣列分佈在頭戴式套組1202周圍以偵測多模態輸入。
圖12B描繪整合至可穿戴電子器件1204中之多模態辨識引擎130及回饋訊息生成器132的實例,該可穿戴電子器件1204說明為包括顯示器1220及感測器1250之「智慧型手錶」。感測器1250使得能夠例如基於諸如視訊、語音及示意動作之模態來偵測使用者輸入。此外,儘管在單個位置中說明,但在其他實施方案中,感測器1250中之一或多者可定位在可穿戴電子器件1204之其他位置處。
圖13描繪諸如在無線通信器件實施方案(例如,智慧型電話)或數位助理器件實施方案中包括多模態辨識引擎130之器件1300的特定說明性實施方案的方塊圖。在各種實施方案中,與圖13中所說明之組件相比,器件1300可具有更多或更少組件。在說明性實施方案中,器件1300可對應於器件110。在說明性實施方案中,器件1300可執行參考圖1至12B所描述之一或多個操作。
在特定實施方案中,器件1300包括包括多模態辨識引擎130的處理器1306 (例如,對應於處理器108之中央處理單元(CPU))。器件1300可包括一或多個額外處理器1310 (例如,一或多個DSP)。處理器1310可包括語音及音樂編碼器-解碼器(編解碼器) 1308。語音及音樂編解碼器1308可包括話音編碼器(「聲碼器」)編碼器1336、聲碼器解碼器1338或兩者。
器件1300可包括記憶體1386及編解碼器1334。記憶體1386可對應於記憶體106且可包括可由處理器1306 (或一或多個額外處理器1310)執行以實施參考多模態辨識引擎130、回饋訊息生成器132、應用程式240中之一或多者或其任何組合所描述的功能性之指令1356。器件1300可包括經由收發器1350耦接至一或多個天線1352之無線控制器1340。在一些實施方案中,一或多個天線1352包括經組態以接收指示示意動作輸入之資料的一或多個天線。
器件1300可包括耦接至顯示控制器1326之顯示器1328 (例如,輸出器件120)。顯示器1328可經組態以表示輸出回饋訊息144 (例如,指令146)之圖形使用者介面。編解碼器1334可包括數位/類比轉換器(DAC) 1302及類比/數位轉換器(ADC) 1304。在特定實施方案中,編解碼器1334可自一或多個麥克風1312 (例如,經組態以捕捉包括一或多個關鍵字或話音命令之音訊輸入的第一輸入器件112)接收類比信號,使用類比/數位轉換器1304將類比信號轉換成數位信號,且將數位信號提供至語音及音樂編解碼器1308。語音及音樂編解碼器1308可處理數位信號。
在特定實施方案中,語音及音樂編解碼器1308可將表示音訊播放信號之數位信號提供至編解碼器1334。編解碼器1334可使用數位/類比轉換器1302將數位信號轉換成類比信號,且可將類比信號提供至一或多個揚聲器1314以生成可聽信號。一或多個揚聲器1314可對應於輸出器件120,且可經組態以呈現圖1之回饋訊息144或將回饋訊息144導向至使用者。
在特定實施方案中,器件1300包括一或多個輸入器件1330。輸入器件1330可對應於圖1之輸入器件112至116中之一或多者。舉例而言,輸入器件1330可包括經組態以捕捉視訊輸入之一或多個攝影機,該視訊輸入包括一或多個示意動作或視覺命令。
在特定實施方案中,器件1300可包括於封裝級系統或系統單晶片器件1322中。在特定實施方案中,記憶體1386、處理器1306、處理器1310、顯示控制器1326、編解碼器1334及無線控制器1340包括於系統級封裝或系統單晶片器件1322中。在特定實施方案中,輸入器件1330 (例如,圖1之輸入器件112至116中之一或多者)及電源1344耦接至系統級封裝或系統單晶片器件1322。此外,在特定實施方案中,如圖13中所說明,顯示器1328、輸入器件1330、麥克風1312、天線1352及電源1344在系統級封裝或系統單晶片器件1322外部。在特定實施方案中,顯示器1328、輸入器件1330、麥克風1312、揚聲器1314、天線1352及電源1344中之每一者可耦接至系統級封裝或系統單晶片器件1322之組件,諸如介面或控制器。
作為說明性的非限制性實例,器件1300可包括行動通信器件、智慧型手機、蜂巢式電話、膝上型電腦、電腦、平板電腦、個人數位助理、顯示器件、電視、遊戲主控台、音樂播放機、無線電、數位視訊播放機、數位視訊光碟(DVD)或藍光光碟播放機、調諧器、攝影機、導航器件、虛擬實境或擴充實境頭戴式套組、可穿戴電子器件、車輛主控台器件或其任何組合。
結合所描述實施方案,用於多模態使用者輸入之器件包括處理自第一輸入器件接收到之第一資料的多模態辨識引擎。第一資料指示來自使用者基於第一輸入模式(例如,語音模式、示意動作模式或視訊模式)的第一輸入。回饋訊息生成器基於處理第一資料將回饋訊息發送至輸出器件,從而指示使用者提供基於與第一輸入模式不同的第二輸入模式之第二輸入。
結合所描述實施方案,用於多模態使用者輸入之器件包括處理自第一輸入器件接收到之第一資料的多模態辨識引擎。第一資料指示來自使用者基於第一輸入模式的第一輸入。回饋訊息生成器基於處理第一資料將回饋訊息發送至輸出器件。回饋訊息指示使用者將動作識別為與第一輸入相關聯。多模態辨識引擎接收將特定動作識別為與第一輸入相關聯之第二輸入,且更新使用者輸入至動作的映射以使第一輸入與特定動作相關聯。
結合所描述實施方案,用於多模態使用者輸入之裝置包括用於處理自第一輸入器件接收到之第一資料的構件。第一資料指示來自使用者基於第一輸入模式的第一輸入,且第一輸入對應於命令。舉例而言,用於處理第一資料的構件可包括處理器108、多模態辨識引擎130、可由處理器1306、1310執行之指令1356、一或多個其他器件、模組、電路、組件或其組合。
裝置包括用於基於處理第一資料將回饋訊息發送至輸出器件的構件。回饋訊息指示使用者基於與第一輸入模式不同之第二輸入模式提供識別與第一輸入相關聯的命令的第二輸入。舉例而言,用於發送的構件可包括處理器108、多模態辨識引擎130、回饋訊息生成器132、可由處理器1306、1310執行之指令1356、一或多個其他器件、模組、電路、組件或其組合。
裝置包括用於自第二輸入器件接收第二資料的構件,第二資料指示第二輸入。舉例而言,用於接收第二資料的構件可包括處理器108、多模態辨識引擎130、可由處理器1306、1310執行之指令1356、一或多個其他器件、模組、電路、組件或其組合。
裝置亦包括用於更新映射以使第一輸入與藉由第二輸入識別之命令相關聯的構件。舉例而言,用於更新的構件可包括處理器108、多模態辨識引擎130、資料調整器292、可由處理器1306、1310執行之指令1356、一或多個其他器件、模組、電路、組件或其組合。
在一些實施方案中,非暫時性電腦可讀媒體(例如,記憶體106、記憶體1386或其任何組合)包括指令(例如,指令1356),該等指令在由器件之一或多個處理器(例如,處理器108、處理器1306、處理器1310或其任何組合)執行時使得一或多個處理器執行操作以供諸如藉由執行對應於圖6至10的方法中之一或多者的全部或部分之操作來處理多模態使用者輸入。在一實例中,該等指令在由一或多個處理器執行時使得一或多個處理器處理自第一輸入器件接收到之第一資料。該第一資料指示來自使用者基於第一輸入模式的第一輸入,第一輸入對應於命令。該等指令在由一或多個處理器執行時使得一或多個處理器基於處理第一資料將回饋訊息發送至輸出器件。回饋訊息指示使用者基於與第一輸入模式不同之第二輸入模式提供識別與第一輸入相關聯的命令的第二輸入。該等指令在由一或多個處理器執行時使得一或多個處理器自第二輸入器件接收第二資料,第二資料指示第二輸入。該等指令在由一或多個處理器執行時亦使得一或多個處理器更新映射以使第一輸入與藉由第二輸入識別的命令相關聯。
熟習此項技術者將進一步瞭解,結合本文中所揭示之實施方案描述之各種說明性邏輯區塊、組態、模組、電路及演算法可實施為電子硬體、由處理器執行的電腦軟體或兩者之組合。上文大體在功能性方面描述各種說明性組件、區塊、組態、模組、電路及步驟。此功能性被實施為硬體抑或處理器可執行指令取決於特定應用及強加於整個系統之設計約束。熟習此項技術者可針對每一特定應用而以變化之方式實施所描述的功能性,但不應將此類實施決策解譯為使得脫離本發明之範疇。
結合本文中所揭示之實施方案描述之方法或演算法的步驟可直接體現於硬體中、由處理器執行之軟體模組中或兩者之組合中。軟體模組可駐存於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電子可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可卸除式磁碟、緊密光碟唯讀記憶體(CD-ROM)或此項技術中已知的任何其他形式之非暫時性儲存媒體中。例示性儲存媒體耦接至處理器,以使得處理器可自儲存媒體讀取資訊並將資訊寫入至該儲存媒體。在替代例中,儲存媒體可整合至處理器。處理器及儲存媒體可駐存於特殊應用積體電路(ASIC)中。ASIC可駐存於計算器件或使用者終端機中。在替代例中,處理器及儲存媒體可作為離散組件駐存於計算器件或使用者終端機中。
提供對所揭示實施方案之先前描述,以使得熟習此項技術者能夠製作或使用所揭示實施方案。對此等實施方案之各種修改對於熟習此項技術者將容易地顯而易見,且在不脫離本發明之範疇的情況下,本文中所定義之原理可應用於其他實施方案。因此,本發明不意欲限於本文中所展示之實施方案,且應符合可能與如以下申請專利範圍所定義之原理及新穎特徵一致的最廣泛範疇。
100:系統
102:使用者
104:控制單元
106:記憶體
108:處理器
110:器件
112:第一輸入器件
114:第二輸入器件
116:第三輸入器件
120:輸出器件
130:多模態辨識引擎
132:回饋訊息生成器
140:第一輸入
142:第一資料
144:回饋訊息
146:指令
148:第二輸入
150:第二資料
202:第一嵌入網路
204:嵌入網路
206:第N嵌入網路
212:第一變換
214:第二變換
216:第N變換
220:融合嵌入網路
222:第一共同嵌入向量
224:第二共同嵌入向量
226:第N共同嵌入向量
228:經組合嵌入向量
230:映射
231:分類器
232:輸出
234:信賴等級
240:應用程式
250:第一使用者設定檔
252:第一嵌入網路資料
254:第一權重資料
256:第一暫時性經調整資料
258:第一歷史資料
260:第二使用者設定檔
262:第二嵌入網路資料
264:第二權重資料
266:第二暫時性經調整資料
268:第二歷史資料
272:環境雜訊資料
274:環境光資料
276:位置資料
278:使用者偏好
280:雜訊度量
282:雜訊臨限值
284:環境光度量
286:照明臨限值
290:暫時性調整器
292:資料調整器
294:信賴臨限值
300:系統
302:頭戴式套組
304:基於語音之操作
305:資料通信
306:外部處理資源
308:耳塞式耳機
310:操作
312:動作
400:實例
402:第一組態
404:第二組態
412:麥克風
414:麥克風
416:麥克風
420:特定空間區
500:實施方案
502:器件
504:感測器資料
510:感測器資料輸入
512:輸出
600:方法
602:步驟
604:步驟
700:方法
702:步驟
704:步驟
800:方法
802:步驟
804:步驟
900:方法
902:步驟
904:步驟
906:步驟
908:步驟
910:步驟
912:步驟
1000:方法
1002:步驟
1004:步驟
1006:步驟
1008:步驟
1100:實施方案
1102:汽車儀錶盤器件
1120:顯示器
1150:感測器
1202:頭戴式套組
1204:可穿戴電子器件
1220:顯示器
1250:感測器
1300:器件
1302:數位/類比轉換器
1304:類比/數位轉換器
1306:處理器
1308:語音及音樂編碼器-解碼器
1310:處理器
1312:麥克風
1314:揚聲器
1322:系統單晶片器件
1326:顯示控制器
1328:顯示器
1330:輸入器件
1334:編解碼器
1336:話音編碼器編碼器
1338:聲碼器解碼器
1340:無線控制器
1344:電源
1350:收發器
1352:天線
1356:指令
1386:記憶體
E1:第一嵌入向量
E2:第二嵌入向量
En:第N嵌入向量
W1:對應權重
W2:對應權重
W3:對應權重
圖1係根據本發明之一些實例的包括可操作以處理多模態使用者輸入之器件的系統之特定說明性實施方案的圖。
圖2係根據本發明之一些實例的圖1之器件之組件的特定實施方案的圖。
圖3係根據本發明之一些實例的包括可操作以處理多模態使用者輸入之器件的系統之另一特定實施方案的圖。
圖4係根據本發明之一些實例的包括可操作以處理多模態使用者輸入之器件的系統之另一特定實施方案之實例的圖。
圖5係根據本發明之一些實例的可操作以處理多模態使用者輸入之器件的另一實施方案的圖。
圖6係根據本發明之一些實例的可藉由圖1之器件執行的處理多模態使用者輸入的方法之實施方案的圖。
圖7係根據本發明之一些實例的可藉由圖1之器件執行的處理多模態使用者輸入的方法之另一實施方案的圖。
圖8係根據本發明之一些實例的可藉由圖1之器件執行的處理多模態使用者輸入的方法之另一實施方案的圖。
圖9係根據本發明之一些實例的可藉由圖1之器件執行的處理多模態使用者輸入的方法之另一實施方案的圖。
圖10係根據本發明之一些實例的可藉由圖1之器件執行的處理多模態使用者輸入的方法之另一實施方案的圖。
圖11係根據本發明之一些實例的可操作以處理多模態使用者輸入的車輛的圖。
圖12A係根據本發明之一些實例的可操作以處理多模態使用者輸入之虛擬實境或擴充實境頭戴式套組的圖。
圖12B係根據本發明之一些實例的可操作以處理多模態使用者輸入之可穿戴電子器件的圖。
圖13係根據本發明之一些實例的可操作以處理多模態使用者輸入之器件的特定說明性實例之方塊圖。
100:系統
102:使用者
104:控制單元
106:記憶體
108:處理器
110:器件
112:第一輸入器件
114:第二輸入器件
116:第三輸入器件
120:輸出器件
130:多模態辨識引擎
132:回饋訊息生成器
140:第一輸入
142:第一資料
144:回饋訊息
146:指令
148:第二輸入
150:第二資料
Claims (30)
- 一種用於多模態使用者輸入之器件,該器件包含:一或多個處理器,其經組態以:處理自一第一輸入器件接收到之第一資料,該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入;基於處理該第一資料將一回饋訊息發送至一輸出器件,其中該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令;自一第二輸入器件接收第二資料,該第二資料指示該第二輸入;基於該第二資料識別該命令;及更新一映射以使該第一輸入與該命令相關聯,以回應於後續經由該第一輸入器件的該第一資料的接收使該命令啟用。
- 如請求項1之器件,其中該第一輸入模式係一語音模式、一示意動作模式或一視訊模式中之一者,且其中該第二輸入模式係該語音模式、該示意動作模式或該視訊模式中之一不同者。
- 如請求項1之器件,其中該回饋訊息指示該使用者提供該第二輸入來使該第一輸入歧義消除。
- 如請求項3之器件,其中該一或多個處理器進一步經組態以回應於與該第一輸入之辨識處理相關聯之一信賴等級未能滿足一信賴臨限值而發送 該回饋訊息。
- 如請求項1之器件,其中該經更新映射使該第一輸入及該第二輸入之一組合與該命令相關聯。
- 如請求項1之器件,其中該一或多個處理器包括一多模態辨識引擎,該多模態辨識引擎包括:一融合嵌入網路,其經組態以將與該第一輸入模式相關聯之一第一嵌入網路及與該第二輸入模式相關聯之一第二嵌入網路的輸出組合,以生成經組合嵌入向量;及一分類器,其經組態以將該等經組合嵌入向量映射至特定命令。
- 如請求項6之器件,其進一步包含一記憶體,該記憶體經組態以儲存:對應於該使用者之第一嵌入網路資料及第一權重資料;及對應於一第二使用者之第二嵌入網路資料及第二權重資料,該第一嵌入網路資料基於該使用者與該第二使用者之間的輸入命令差異而不同於該第二嵌入網路資料,且該第一權重資料基於該使用者與該第二使用者之間的輸入模式可靠性差異而不同於該第二權重資料。
- 如請求項1之器件,其中該第一輸入模式對應於一視訊模式,且其中該一或多個處理器經組態以回應於一環境光度量具有低於一照明臨限值之一值而發送該回饋訊息。
- 如請求項1之器件,其中該第一輸入模式對應於一語音模式,且其中該一或多個處理器經組態以回應於一雜訊度量具有超出一雜訊臨限值之一值而發送該回饋訊息。
- 如請求項1之器件,其進一步包含經組態以表示一圖形使用者介面的一顯示器。
- 如請求項1之器件,其進一步包含經組態以捕捉音訊輸入之一或多個麥克風,該音訊輸入包括一或多個關鍵字或話音命令。
- 如請求項1之器件,其進一步包含經組態以捕捉視訊輸入之一或多個攝影機,該視訊輸入包括一或多個示意動作或視覺命令。
- 如請求項1之器件,其進一步包含經組態以接收資料之一或多個天線,該資料指示一示意動作輸入。
- 如請求項1之器件,其進一步包含經組態以將該回饋訊息呈現或導向至該使用者的一或多個揚聲器。
- 如請求項1之器件,其中該使用者包括一機器人或其他電子器件。
- 如請求項1之器件,其中該第一輸入器件及該輸出器件併入至一虛擬 實境頭戴式套組或擴充實境頭戴式套組中。
- 如請求項1之器件,其中該第一輸入器件及該輸出器件併入至一車輛中。
- 一種用於多模態使用者輸入之方法,該方法包含:在一器件之一或多個處理器處處理自一第一輸入器件接收到之第一資料,該第一資料指示來自一使用者基於一第一輸入模式之一第一輸入;基於處理該第一資料將一回饋訊息自該一或多個處理器發送至一輸出器件,其中該回饋訊息指示該使用者基於與該第一輸入模式不同的一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯之一命令;在該一或多個處理器處自一第二輸入器件接收第二資料,該第二資料指示該第二輸入;基於該第二資料識別該命令;及在該一或多個處理器處更新一映射以使該第一輸入與該命令相關聯,以回應於後續經由該第一輸入器件的該第一資料的接收使該命令啟用。
- 如請求項18之方法,其中該第一輸入模式係一語音模式、一示意動作模式或一視訊模式中之一者,且其中該第二輸入模式係該語音模式、該示意動作模式或該視訊模式中之一不同者。
- 如請求項18之方法,其中該回饋訊息指示該使用者提供該第二輸入來使該第一輸入歧義消除。
- 如請求項20之方法,其中回應於與該第一輸入之辨識處理相關聯之一信賴等級未能滿足一信賴臨限值而發送該回饋訊息。
- 如請求項18之方法,其中該經更新映射使該第一輸入及該第二輸入之一組合與該命令相關聯。
- 如請求項18之方法,其中更新該映射包括以下中之至少一者:更新與該使用者相關聯之嵌入網路資料;或更新與該使用者相關聯之權重資料。
- 如請求項18之方法,其中該第一輸入模式對應於一視訊模式,且其中回應於一環境光度量具有低於一照明臨限值之一值而發送該回饋訊息。
- 如請求項18之方法,其中該第一輸入模式對應於一語音模式,且其中回應於一雜訊度量具有超出一雜訊臨限值之一值而發送該回饋訊息。
- 一種用於多模態使用者輸入之裝置,該裝置包含:用於處理自一第一輸入器件接收到之第一資料的構件,該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入;用於基於處理該第一資料將一回饋訊息發送至一輸出器件的構件, 其中該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令;用於自一第二輸入器件接收第二資料的構件,該第二資料指示該第二輸入;用於基於該第二資料識別該命令的構件;及用於更新一映射以使該第一輸入與該命令相關聯,以回應於後續經由該第一輸入器件的該第一資料的接收使該命令啟用的構件。
- 如請求項26之裝置,其中該經更新映射使該第一輸入及該第二輸入之一組合與該命令相關聯。
- 一種包含指令之非暫時性電腦可讀媒體,該等指令在由一器件之一或多個處理器執行時使得該一或多個處理器:處理自一第一輸入器件接收到之第一資料,該第一資料指示來自一使用者基於一第一輸入模式的一第一輸入;基於處理該第一資料將一回饋訊息發送至一輸出器件,其中該回饋訊息指示該使用者基於與該第一輸入模式不同之一第二輸入模式提供一第二輸入,該第二輸入識別與該第一輸入相關聯的一命令;自一第二輸入器件接收第二資料,該第二資料指示該第二輸入;基於該第二資料識別該命令;及更新一映射以使該第一輸入與該命令相關聯,以回應於後續經由該第一輸入器件的該第一資料的接收使該命令啟用。
- 如請求項28之非暫時性電腦可讀媒體,其中該第一輸入模式對應於一視訊模式,且其中回應於一環境光度量具有低於一照明臨限值之一值而發送該回饋訊息。
- 如請求項28之非暫時性電腦可讀媒體,其中該第一輸入模式對應於一語音模式,且其中回應於一雜訊度量具有超出一雜訊臨限值之一值而發送該回饋訊息。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962873775P | 2019-07-12 | 2019-07-12 | |
US62/873,775 | 2019-07-12 | ||
US16/685,946 | 2019-11-15 | ||
US16/685,946 US11348581B2 (en) | 2019-07-12 | 2019-11-15 | Multi-modal user interface |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202109245A TW202109245A (zh) | 2021-03-01 |
TWI840587B true TWI840587B (zh) | 2024-05-01 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329677A1 (en) | 2017-05-15 | 2018-11-15 | Apple Inc. | Multi-modal interfaces |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329677A1 (en) | 2017-05-15 | 2018-11-15 | Apple Inc. | Multi-modal interfaces |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348581B2 (en) | Multi-modal user interface | |
CN111699528B (zh) | 电子装置及执行电子装置的功能的方法 | |
US10353495B2 (en) | Personalized operation of a mobile device using sensor signatures | |
US10318016B2 (en) | Hands free device with directional interface | |
JP6028111B2 (ja) | ハイブリッド性能スケーリングまたは音声認識 | |
JP7419270B2 (ja) | ウェアラブルシステム発話処理 | |
KR20150004080A (ko) | 보청기 및 보청기 제어 방법 | |
US11895474B2 (en) | Activity detection on devices with multi-modal sensing | |
TW202135044A (zh) | 基於使用者辨識的語音啟用 | |
WO2021123710A1 (en) | Biometric identification | |
US11656837B2 (en) | Electronic device for controlling sound and operation method therefor | |
WO2021149441A1 (ja) | 情報処理装置および情報処理方法 | |
TWI840587B (zh) | 多模態使用者介面 | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
KR102168812B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
KR20230084154A (ko) | 동적 분류기를 사용한 사용자 음성 활동 검출 | |
US11646046B2 (en) | Psychoacoustic enhancement based on audio source directivity | |
US11562741B2 (en) | Electronic device and controlling method using non-speech audio signal in the electronic device | |
CN104345649B (zh) | 应用于声控装置的控制器与相关方法 | |
KR20210109722A (ko) | 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법 |