TW202101190A - 虛擬助理器件 - Google Patents

虛擬助理器件 Download PDF

Info

Publication number
TW202101190A
TW202101190A TW109116982A TW109116982A TW202101190A TW 202101190 A TW202101190 A TW 202101190A TW 109116982 A TW109116982 A TW 109116982A TW 109116982 A TW109116982 A TW 109116982A TW 202101190 A TW202101190 A TW 202101190A
Authority
TW
Taiwan
Prior art keywords
vector
stored
action
voice command
difference
Prior art date
Application number
TW109116982A
Other languages
English (en)
Inventor
張慧珍
尹盛萊
黄奎雄
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202101190A publication Critical patent/TW202101190A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本發明提供一種包括一螢幕及一或多個處理器之器件,該一或多個處理器經組態以在該螢幕處提供一圖形使用者介面(GUI),該圖形使用者介面經組態以在該螢幕上顯示與多個器件相關聯之資料。該GUI亦經組態以繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入。該GUI亦經組態以將回饋提供給一使用者。該回饋指示一語音命令無法辨識為應執行之一動作。該GUI亦經組態以向該使用者提供關於如何教導該一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。

Description

虛擬助理器件
本發明大體上係關於一種虛擬助理。
技術的進步已產生更小且更強大的計算器件。舉例而言,多種攜帶型個人計算器件(包括諸如行動及智慧型電話之無線電話、平板電腦及膝上型電腦)體積小、重量輕且易於由使用者攜帶。此等器件可經由無線網路傳達話音及資料封包。另外,許多此類器件併入額外功能性,諸如數位靜態攝影機、數位視訊攝影機、數位記錄器及音訊檔案播放器。此外,此類器件可處理可執行指令,該等指令包括可用以存取網際網路之軟體應用程式,諸如網頁瀏覽器應用程式。因而,此等器件可包括顯著計算能力。
諸如虛擬助理之話語辨識器件可將口頭命令轉化成應執行之動作。話語辨識器件通常使得使用者能夠藉由訓練話語辨識器件將特定動作與由使用者選擇之特定口頭命令相關聯來定製話語辨識器件之操作。因此,命令辨識及回應可針對個別使用者及設置進行個性化。
然而,當使用者訓練虛擬助理將特定口頭命令與特定動作相關聯時,虛擬助理通常難以將命令之略微不同版本與同一動作相關聯。舉例而言,經訓練以辨識命令「打開燈」之虛擬助理可能無法辨識使用者命令「嗨,你能打開燈嗎?」為了能夠理解具有同一動作之命令之略微不同版本,傳統方法通常需要本體設計,這需要專家的知識及勞動,以及大量的資料來訓練模型。
根據本文中所揭示之技術之一個實施,一器件包括一螢幕及一或多個處理器,該一或多個處理器經組態以在該螢幕處提供一圖形使用者介面(GUI),該圖形使用者介面經組態以在該螢幕上顯示與多個器件相關聯之資料。該GUI亦經組態以繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入。該GUI亦經組態以將回饋提供給一使用者。該回饋指示一語音命令無法辨識為應執行之一動作。該器件亦經組態以向該使用者提供關於如何教導該一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。舉例而言,可經由該GUI顯示或可經由另一技術提供該等指令,諸如經由該器件之一揚聲器提供之一語音指令。
根據本文中所揭示之該等技術之另一實施,一種教導一虛擬輔助器件回應於接收一命令而應執行的一動作之方法包括在一圖形使用者介面(GUI)處在一螢幕上顯示與多個器件相關聯之資料。該方法亦包括繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入。該方法亦包括將回饋提供給一使用者。該回饋指示一語音命令無法辨識為與應執行之一動作相關聯。該方法進一步包括向該使用者提供關於如何教導一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。
根據本文中所揭示之該等技術之另一實施,一非暫時性電腦可讀媒體包括用於教導一虛擬輔助器件回應於接收一命令而應執行的一動作之指令。該等指令在由一或多個處理器執行時使得該一或多個處理器在一圖形使用者介面(GUI)處在一螢幕上顯示與多個器件相關聯之資料。該等指令亦可執行以使得該一或多個處理器繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入。該等指令亦可執行以使得該一或多個處理器將回饋提供給一使用者。該回饋指示一語音命令無法辨識為與應執行之一動作相關聯。該等指令進一步可執行以使得該一或多個處理器向該使用者提供關於如何教導該一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。
根據本文中所揭示之該等技術之另一實施,一裝置包括用於接收對應於一語音命令的一音訊信號之構件。該裝置亦包括用於處理該音訊信號以生成與該語音命令相關聯之一向量之構件。該裝置進一步包括用於儲存與各別動作相關聯之一或多個向量之構件。該裝置亦包括用於自該等用於儲存之構件中識別一特定經儲存向量之構件。該特定經儲存向量至少部分地基於該向量與該特定經儲存向量之間的一差異來識別,且回應於該向量不匹配來自該等用於儲存之構件之任何經儲存向量的一判定來識別該特定經儲存向量。該裝置亦包括用於回應於該向量與該特定經儲存向量之間的該差異滿足一差異約束之一判定來發起與該特定經儲存向量相關聯之一特定動作的執行之構件。
在檢閱整個申請案之後,本發明之其他實施、優勢及特徵將變得顯而易見,該整個申請案包括以下章節:圖式簡單說明、實施方式及申請專利範圍。
根據 35. U.S.C. §119 優先權主張
本專利申請案主張2019年5月21日申請之標題為「VIRTUAL ASSISTANT DEVICE」之非臨時申請案第16/418,783號的優先權,該申請案轉讓給此處之受讓人且特此以引用之方式明確併入本文中。
諸如虛擬助理之話語辨識器件通常使得使用者能夠藉由訓練話語辨識器件將特定動作與由使用者選擇之特定口頭命令相關聯來定製操作。因此,命令辨識及回應可針對個別使用者及設置進行個性化。然而,當使用者訓練虛擬助理將特定口頭命令與特定動作相關聯時,虛擬助理通常難以將命令之略微不同版本與同一動作相關聯。為了能夠理解具有同一動作之命令之略微不同版本,傳統方法通常需要本體設計,這需要專家的知識及勞動,以及大量的資料來訓練模型。儘管使用者可試圖積極訓練虛擬助理以辨識使用者有可能對虛擬助理說話之命令之每一變體,但執行此類訓練對於使用者而言可為令人困惑及耗時的,且虛擬器件可能不支援與同一動作相關聯之多個命令之訓練。
本文中所描述之技術使得虛擬助理器件能夠將特定使用者命令之略微不同版本映射至與特定使用者命令相關聯的動作。舉例而言,虛擬助理器件可捕捉特定使用者命令之經修改版本,且基於經修改版本生成話語向量。舉例而言,若特定命令為「打開燈」,且由虛擬助理器件捕捉之特定使用者命令之經修改版本為「激活燈」,則由虛擬助理器件生成之話語向量反映片語「激活燈」。虛擬助理器件可將話語向量與特定命令之經儲存話語向量進行比較,以判定向量之向量屬性之間的差異是否在臨限值內。若差異在臨限值內,則虛擬助理器件執行(或發起)與特定命令相關聯之動作。在上文所描述之場景中,虛擬助理器件激活燈。然而,若差異不在臨限值內,則命令無法辨識為與動作相關聯。
回應於接收無法辨識為與動作相關聯之命令,虛擬助理器件生成指導使用者如何教導虛擬助理器件回應於偵測到命令而動作之提示。藉由指導使用者如何教導虛擬助理器件如何回應於偵測到未辨識之命令(例如,現有命令之經修改版本)而動作,虛擬助理器件可經更新以辨識命令,同時避免與本體設計相關聯的缺點,且亦避免令人困惑及耗時的使用者發起的訓練過程。因此,與傳統助理器件相比,虛擬助理器件提供改良的使用者體驗及適應性。
下文參考圖式描述本發明之特定態樣。在本說明書中,共同特徵由共同附圖標號指示。如本文中所使用,各種術語僅僅用於描述特定實施之目的,且並不意欲限制實施。舉例而言,除非上下文以其他方式明確地指示,否則單數形式「一(a/an)」及「該」意欲同樣包括複數形式。可進一步理解,術語「包含(comprise/comprises/comprising)」可與「包括(include/includes/including)」互換使用。此外,應理解,術語「其中(wherein)」可與「在…的情況下(where)」互換使用。如本文中所使用,「例示性」可指示實例、實施及/或態樣,且不應視為限制或視為指示偏好或較佳實施。如本文中所使用,用以修改元件(諸如結構、組件、操作等)之序數術語(例如,「第一」、「第二」、「第三」等)本身不指示元件相對於另一元件之任何優先級或次序,而僅將元件與具有相同名稱(但使用序數術語)之另一元件區別開。如本文中所使用,術語「集合」係指特定元件中之一或多者,且術語「複數個」係指特定元件中之多者(例如,兩者或更多者)。
在本發明中,諸如「判定」、「計算」、「估計」、「移位」、「調整」等之術語可用於描述如何執行一或多個操作。應注意,此類術語不應視為限制性的且其他技術可用以執行類似操作。此外,如本文中所提及,「生成」、「計算」、「估計」、「使用」、「選擇」、「存取」及「判定」可互換使用。舉例而言,「生成」、「計算」、「估計」或「判定」內容(或信號)可指主動生成、估計、計算或判定內容(或信號),或可指使用、選擇或存取已諸如由另一組件或器件生成之內容(或信號)。
如本文中所使用,「耦接/耦合」可包括「通信耦合」、「電耦合」或「實體耦接」及其組合。兩個器件(或組件)可經由一或多個其他器件、組件、導線、匯流排、網路(例如,有線網路、無線網路或其組合)等直接地或間接地耦接/耦合(例如,通信耦合、電耦合或實體耦接)。作為繪示性非限制性實例,電耦合之兩個器件(或組件)可包括於同一器件中或不同器件中,且可經由電子件、一或多個連接器或電感耦合連接。在一些實施中,諸如在電通信中通信耦合之兩個器件(或組件)可諸如經由一或多個導線、匯流排、網路等直接地或間接地發送及接收電信號(數位信號或類比信號)。
參考圖1,展示系統100之繪示性實例。系統100包括經組態以判定與語音命令相關聯之動作之虛擬助理器件110。舉例而言,由使用者102說出之語音命令104由虛擬助理器件110偵測,且虛擬助理器件110判定與語音命令104相關聯之動作。根據圖1中之實例,語音命令104包括片語「嗨,你能打開燈嗎?」應理解,圖1中指示之片語為出於繪示性目的且不應視為限制性的。在其他實施中,語音命令104可包括不同片語。
虛擬助理器件110包括一或多個處理器,繪示為處理器112。虛擬助理器件110亦包括耦接至處理器112之麥克風114、耦接至處理器112之記憶體116、耦接至處理器112的資料庫118及耦接至處理器112之螢幕120。記憶體116為包括可由處理器112執行以執行本文中所描述之操作之指令122的非暫時性電腦可讀器件。處理器112包括自動話語辨識器130、句子嵌入器132、向量搜索引擎134、比較器136及動作發起器138根據一個實施,處理器112之每一組件130至138可使用專用電路系統(諸如,特殊應用積體電路(ASIC)或場可程式化閘陣列(FPGA))來實施。
麥克風114經組態以捕捉語音命令104,且生成對應於語音命令104之音訊信號124。根據一個實施,音訊信號124為類比信號。根據另一實施,音訊信號124為數位信號。舉例而言,回應於捕捉語音命令104,麥克風114可執行類比/數位轉換(ADC)操作,以將語音命令104轉換成數位信號。麥克風114將音訊信號124提供給處理器112。
處理器112接收對應於語音命令104之音訊信號124。處理器112經組態以處理音訊信號124,以生成與語音命令104相關聯之向量142。舉例而言,自動話語辨識器130經組態以對音訊信號124執行自動話語辨識操作,以生成對應於語音命令104之字序列140。為進行繪示,自動話語辨識器130可基於音訊信號124產生音訊檔案。自動話語辨識器130可對音訊檔案中之波形執行背景雜訊降低操作及音量歸一化操作,以生成經濾波的波形。自動話語辨識器130可使用經過濾的波形生成複數個音素。自動話語辨識器130可使用統計概率分析來分析每一音素,以推斷完整的字及判定字序列140。根據一個實施,自動話語辨識器130可使用自然語言處理以執行自動話語辨識操作。字序列140經提供給句子嵌入器132。
句子嵌入器132經組態以對字序列140執行句子嵌入操作,以生成向量142。根據一個實施,句子嵌入器132實施字向量(word-to-vector;word2vec)類型之句子嵌入。根據另一實施,句子嵌入器132根據語言模型(ELMo)類型之句子嵌入實施嵌入。根據另一實施,句子嵌入器132實施提供語義句子表示之一種類型的句子嵌入(例如,InferSent句子嵌入)。根據另一實施,句子嵌入器132實施來自變壓器(BERT)類型之句子嵌入的雙向編碼器表示。向量142經提供給向量搜索引擎134及比較器136。
向量搜索引擎134經組態以判定向量142是否匹配一或多個經儲存向量144中之任何經儲存向量144。舉例而言,資料庫118可儲存複數個向量144。每一經儲存向量144與應由虛擬助理器件110執行或發起之動作相關聯。作為一非限制性實例,如圖2中所描繪,經儲存向量144A可與動作150A (例如,打開燈)相關聯。作為另一非限制性實例,經儲存向量144B可與動作150B (例如,播放音樂)相關聯。作為另一非限制性實例,經儲存向量144C可與動作150C (例如,調整溫度)相關聯。向量搜索引擎134判定向量142之向量屬性是否匹配經儲存向量144中之任一者的向量屬性。回應於向量142之向量屬性匹配特定經儲存向量144之向量屬性的判定,動作發起器138發起對應於特定經儲存向量144之動作150。
然而,由於向量142之向量屬性係基於所繪示之片語(例如,「嗨,你能打開燈嗎?」),若經儲存向量144A基於片語「打開燈」生成,則向量142之向量屬性不直接匹配經儲存向量144A之向量屬性。舉例而言,儘管向量142、144A與類似動作相關聯,但與向量142相關聯之片語「嗨,你能打開燈嗎?」同與經儲存向量144A相關聯之片語「打開燈」之間的差異可導致向量142、144A之向量屬性不匹配。
回應於向量142不匹配任何經儲存向量144之判定,向量搜索引擎134可至少部分地基於向量142與特定經儲存向量144之間的差異,將諸如經儲存向量144A之特定經儲存向量144識別為最類似經儲存向量。舉例而言,向量搜索引擎134經組態以計算向量142與資料庫118中之一或多個經儲存向量144中的多個經儲存向量144A、144B、144C之間的差值。向量搜索引擎134經組態以選擇與差值中之最小計算差值相關聯之經儲存向量144。為進行繪示,由於向量142、144A之相關聯的片語相對類似,因此向量142與經儲存向量144A之間的差值相對較小。然而,由於向量144B、144C之相關聯的片語不類似於與向量142相關聯之片語(例如,「嗨,你能打開燈嗎?」),因此向量142與經儲存向量144B、144C之間的差值相對較大。因此,由於經儲存向量144A與最小計算差值相關聯,因此向量搜索引擎134選擇經儲存向量144A。
差異約束148儲存於資料庫118中,且用以判定向量142是否與經儲存向量144A「足夠類似」。舉例而言,比較器136經組態以將向量142與經儲存向量144A之間的差異與差異約束148進行比較,以生成比較結果146。比較結果146可為指示差異是否滿足(例如,小於或等於)差異約束148之二進位值。舉例而言,若向量142與經儲存向量144A之間的差異滿足差異約束148,則比較結果146可為二進位一值。然而,若向量142與經儲存向量144A之間的差異未能滿足差異約束148,則比較結果146可為二進位零值。如相對於圖3更詳細描述,若比較結果146為二進位零值(例如,在差異未能滿足差異約束148的情況下),則動作發起器138經組態以生成顯示於螢幕120上之提示。
如相對於圖1所繪示,動作發起器138經組態以回應於向量142與經儲存向量144A之間的差異滿足差異約束148 (例如,在比較結果146為二進位一值的情況下)來發起與經儲存向量144A相關聯之動作150A之執行。因此,根據上文所描述之場景,動作發起器138可回應於向量142與經儲存向量144A之間的差異滿足差異約束148來發起打開燈(例如,動作150A)。
因此,系統100能夠執行與特定動作相關聯之經儲存命令之略微不同版本而不需要額外本體設計。舉例而言,將與經儲存命令之略微不同版本相關聯之向量(例如,向量142)同與經儲存命令相關聯的經儲存向量(例如,經儲存向量144A)進行比較。若向量142、144A之間的差異滿足差異約束148,則虛擬助理器件110可執行與經儲存命令相關聯之特定動作150A。因此,經儲存命令之略微不同版本可作為經儲存命令經解譯且執行。舉例而言,虛擬助理器件110可解譯且執行片語「嗨,你能打開燈嗎?」,如同其為經儲存命令「打開燈」一樣。因此,藉由使用句子嵌入生成向量142且將向量142與經儲存向量144進行比較,虛擬助理器件110能夠基於由使用者102說出之命令與先前所登記命令(由經儲存向量144中之向量表示)的類似性來選擇應執行之動作。
參考圖2,展示包括可實施於圖1之虛擬助理器件110中之組件的系統200之非限制性實例。系統200包括自動話語辨識器130、句子嵌入器132、向量搜索引擎134、比較器136及動作發起器138。在一些實施中,系統200之操作可由圖1之處理器112執行。在其他實施中,組件130至138中之一或多者經由電路系統或專用硬體實施。
在圖2中,音訊信號124經提供給自動話語辨識器130。自動話語辨識器130對音訊信號124執行自動話語辨識操作,以生成對應於語音命令104之字序列140。根據一個實施,自動話語辨識器130使用自然語言處理執行自動話語辨識操作。字序列140經提供給句子嵌入器132。句子嵌入器132對字序列140執行句子嵌入操作,以生成向量142。向量142經提供給向量搜索引擎134及比較器136。
向量搜索引擎134判定向量142是否匹配經儲存向量144中之任一者,繪示為代表性經儲存向量144A、144B、144C。舉例而言,向量搜索引擎134判定向量142之向量屬性是否匹配經儲存向量144A、144B、144C中之任一者的向量屬性。由於向量142之向量屬性係基於語音命令104 (例如,「嗨,你能打開燈嗎?」),因此若經儲存向量144A基於片語「打開燈」生成,則向量142之向量屬性不直接匹配經儲存向量144A之向量屬性。舉例而言,儘管向量142、144A與類似動作相關聯,但與向量142相關聯之片語「嗨,你能打開燈嗎?」同與經儲存向量144A相關聯的片語「打開燈」之間的差異導致向量142、144A之向量屬性不匹配。
回應於向量142不匹配任何經儲存向量144之判定,向量搜索引擎134至少部分地基於向量142與特定經儲存向量144A之間的差異來識別特定經儲存向量144A。舉例而言,向量搜索引擎134計算向量142與經儲存向量144A、144B、144C之間的差值。向量搜索引擎134選擇與最小計算差值相關聯之經儲存向量144A。為進行繪示,由於向量142、144A之相關聯的片語相對類似,因此向量142與經儲存向量144A之間的差值相對較小。然而,由於向量144B、144C之相關聯的片語不類似於與向量142相關聯之片語(例如,「嗨,你能打開燈嗎?」),因此向量142與經儲存向量144B、144C之間的差值相對較大。因此,由於經儲存向量144A與最小計算差值相關聯,因此向量搜索引擎134選擇經儲存向量144A。經儲存向量144A及向量142經提供給比較器136。
比較器136將向量142與經儲存向量144A之間的差異與差異約束148進行比較,以生成比較結果146。由於向量142與經儲存向量144A之間的差異滿足差異約束148,則比較結果146可為二進位一值。比較結果146經提供給動作發起器138。由於向量142與經儲存向量144A之間的差異滿足差異約束148,因此經儲存向量144A亦提供給動作發起器138。
動作發起器138回應於向量142與經儲存向量144A之間的差異滿足差異約束148(例如,在比較結果146為二進位一值的情況下)來發起與經儲存向量144A相關聯之動作150A之執行。因此,根據圖2中所繪示之場景,動作發起器138回應於向量142與經儲存向量144A之間的差異滿足差異約束148來發起打開燈(例如,動作150A)。
因此,系統200能夠執行與特定動作相關聯之經儲存命令之略微不同版本而不需要額外本體設計。舉例而言,將與經儲存命令之略微不同版本相關聯之向量(例如,向量142)同與經儲存命令相關聯的經儲存向量(例如,經儲存向量144A)進行比較。若向量之間的差異滿足差異約束,則虛擬助理器件110可執行與經儲存命令相關聯之特定動作。因此,經儲存命令之略微不同版本可作為經儲存命令經解譯且執行。舉例而言,虛擬助理器件110可解譯且執行片語「嗨,你能打開燈嗎?」,如同其為經儲存命令「打開燈」一樣。
參考圖3,展示系統300之繪示性實例。系統300包括經組態以將回饋提供給使用者之虛擬助理器件110,該回饋指示虛擬助理器件110無法將語音命令辨識為與應執行之動作相關聯。在圖3中,由使用者102說出之語音命令304由虛擬助理器件110偵測到,且虛擬助理器件110生成指導使用者102如何教導虛擬助理器件110應執行哪個動作之提示352 (例如,回饋)。根據圖3中之實例,語音命令304包括片語「嗨,你能播放我最愛的曲子嗎?」應理解,圖3中指示之片語為出於繪示性目的且不應視為限制性的。在其他實施中,語音命令304可包括不同片語。
麥克風114經組態以捕捉語音命令304,且生成對應於語音命令304之音訊信號324。根據一個實施,音訊信號324為類比信號。根據另一實施,音訊信號324為數位信號。舉例而言,回應於捕捉語音命令304,麥克風114可執行ADC操作,以將語音命令304轉換成數位信號。麥克風114將音訊信號324提供給處理器112。
處理器112接收對應於語音命令304之音訊信號324。處理器112經組態以處理音訊信號324,以生成與語音命令304相關聯之向量342。舉例而言,以如相對於圖1所描述之類似方式,自動話語辨識器130經組態以對音訊信號324執行自動話語辨識操作,以生成對應於語音命令304之字序列340。字序列340經提供給句子嵌入器132。以如相對於圖1所描述之類似方式,句子嵌入器132經組態以對字序列340執行句子嵌入操作,以生成向量342。向量342經提供給向量搜索引擎134及比較器136。
向量搜索引擎134經組態以判定向量342是否匹配一或多個經儲存向量144中之任何經儲存向量144。由於向量342之向量屬性係基於所繪示之片語(例如,「嗨,你能播放我最愛的曲子嗎?」),若經儲存向量144B基於片語「播放一些音樂」生成,則向量342之向量屬性不直接匹配經儲存向量144B之向量屬性。舉例而言,儘管向量342、144B與類似動作相關聯,但與向量342相關聯之片語「嗨,你能播放我最愛的曲子嗎?」同與經儲存向量144B相關聯的片語「播放一些音樂」之間的差異可導致向量342、144B之向量屬性不匹配。
回應於向量342不匹配任何經儲存向量144之判定,向量搜索引擎134可至少部分地基於向量342與特定經儲存向量144之間的差異來識別諸如經儲存向量144B之特定經儲存向量144。舉例而言,向量搜索引擎134經組態以計算向量342與資料庫118中之經儲存向量144A、144B、144C之間的差值。向量搜索引擎134經組態以選擇與最小計算差值相關聯之經儲存向量144B。為進行繪示,向量342與經儲存向量144B之間的差值小於向量342與向量144A、144C之間的差值。因此,由於經儲存向量144B與最小計算差值相關聯,因此向量搜索引擎134選擇經儲存向量144B。
比較器136經組態以將向量342與經儲存向量144B之間的差異與差異約束148進行比較,以生成比較結果346。比較結果346可為指示差異是否滿足(例如,小於或等於)差異約束148之二進位值。舉例而言,若向量342與經儲存向量144B之間的差異滿足差異約束148,則比較結果346可為二進位一值。然而,若向量342與經儲存向量144B之間的差異未能滿足差異約束148,則比較結果346可為二進位零值。在圖3之實例中,由於比較結果346為二進位零值(例如,差異未能滿足差異約束148),因此動作發起器138經組態以生成顯示於螢幕120處之提示352。提示352可用以指導使用者102如何教導虛擬助理器件110應執行哪個動作。顯示於螢幕120處之提示352之繪示性實例展示於圖4中。
圖4為在螢幕處顯示之提示之繪示性實例。舉例而言,在圖4中,提示352之繪示性實例顯示於螢幕120處。在圖4中,回應於虛擬助理器件110偵測語音命令304,提示352使得使用者102能夠自第一動作150A、第二動作150B或第三動作150C中進行選擇。舉例而言,由於虛擬助理器件110不能識別實質上類似於與語音命令304相關聯之向量342之經儲存向量144,因此動作發起器138生成圖4中所繪示之提示352。
提示352指導使用者102關於如何教導虛擬助理器件110回應於接收語音命令(例如,語音命令304)而應執行哪個動作。舉例而言,使用者102可藉由接觸螢幕120上之對應區域來選擇第一動作150A、第二動作150B或第三動作150C。在圖4之繪示性實例中,若使用者102回應於接收提示352而選擇第二動作150B (例如,「音樂播放」),則虛擬助理器件110可儲存與資料庫118中之語音命令304相關聯的向量342,且可將第二動作150B與向量相關聯。因此,在將來,虛擬助理器件110 (例如,動作發起器138)可回應於接收語音命令304或產生類似於向量342的向量之語音命令來發起第二動作150B。
因此,相對於圖3至4所描述之技術使得虛擬助理器件110能夠經由使用使用者與顯示於螢幕120處之提示352的交互,將未經辨識口頭命令與使用者動作動態地相關聯。
圖5描繪虛擬助理器件110之另一實例。在圖5之實例中,螢幕120顯示諸如圖形使用者介面(GUI) 504之使用者介面。舉例而言,處理器112經組態以在螢幕120處提供GUI 504。
GUI 504經組態以自與虛擬助理器件110通信之多個器件572發送及接收訊息570。在圖5之繪示性實例中,多個器件572包括電視(TV) 560、空氣調節系統(AC) 562、照明器件564、機器人真空吸塵器件566及揚聲器568。在其他實施中,多個器件572可包括額外器件,諸如冷凍機、車庫門等。在虛擬助理器件110與多個器件572之間傳輸的訊息570可根據物聯網(IoT)組態來操作。舉例而言,虛擬助理器件110可將訊息570發送至多個器件572中之至少一個器件,以控制至少一個器件之操作。
GUI 504經組態以在螢幕120上顯示與多個器件572相關聯之資料。舉例而言,在圖5之繪示性實例中,GUI 504顯示與電視560相關聯之資料520 (例如,圖形資料)、與空氣調節系統562相關聯的資料522、與照明器件564相關聯之資料524、與機器人真空吸塵器件566相關聯之資料526及與揚聲器568相關聯之資料528。對於每一器件572,GUI 504繪示標記及至少一個控制輸入。作為一非限制性實例,GUI 504繪示電視560之標記574及電視560之控制輸入576。控制輸入576包括音量控制輸入、信道控制輸入及計時器控制輸入。作為另一非限制性實例,GUI 504繪示空氣調節系統562之標記578及空氣調節系統562之控制輸入580。控制輸入580包括溫度控制輸入、風扇控制輸入及計時器控制輸入。作為另一非限制性實例,GUI 504繪示照明器件564之標記582及照明器件564之控制輸入584。控制輸入584包括色彩控制輸入及計時器控制輸入。
GUI 504經組態以將回饋540提供給使用者102,該回饋540指示虛擬助理器件110不將來自使用者102之語音命令辨識為與應執行之動作(例如,應發送至多個器件572中的一或多者之指令)相關聯。舉例而言,若語音命令未由虛擬助理器件110辨識,使得與語音命令相關聯之向量與經儲存向量144中之每一者至少相差差異約束148,則GUI 504可提供回饋540。在圖5之繪示性實例中,回饋540包括片語「未辨識語音命令。」因此,回饋540指示語音命令無法辨識為與應執行之動作相關聯。
GUI 504亦經組態以向使用者102提供關於如何教導處理器112回應於接收語音命令而應執行哪個動作之指令542。在圖5之實例中,指令542包括片語「請選擇器件、動作及變量來教導我如何回應語音命令。」回應於讀取指令542,使用者102可與GUI 504交互,以教導虛擬助理器件110回應於語音命令而應執行哪個動作。為進行繪示,GUI 504包括「器件」選擇控制530及「動作」選擇控制532,該「動作」選擇控制532使得使用者102能夠選擇應由所選擇器件執行之動作。GUI 504亦包括「變量」控制534,其使得使用者102能夠輸入或選擇值,諸如溫度選擇、風扇位準選擇、音量位準選擇、計時器停止或開始值等。若未經辨識命令為「將溫度設置為24度」,且使用者102已在器件選擇控制530中選擇「空氣調節器」,在動作選擇控制532中選擇「設置度」,且在變量控制534中選擇值「24」,則使用者102可教導虛擬助理器件110將句子「將溫度設置為24度」映射為將AC 562之溫度設置為24度。因此,在下一次虛擬助理器件110接收命令「將溫度設置為24度」時,GUI 504可將訊息570發送至空氣調節系統562以調整溫度。
因此,GUI 504經組態以基於使用者操控與句子相關聯且在GUI 504上繪示之使用者介面控制,將一或多個句子映射至與控制多個器件572中之器件560至568中的每一者相關聯之動作。儘管指令542在圖5中繪示,但在其他實施中,GUI 504可繪示圖4之提示352或其他指令以指導使用者102如何教導虛擬助理器件110回應於語音命令而應執行哪個動作。
因此,GUI 504提供介面(例如,指令542及控制530至534),以教導虛擬助理器件110如何將一或多個句子映射至與控制多個器件572中之器件560至568中之一或多者相關聯的所要動作。由使用者對虛擬助理器件110進行的將句子映射至動作之教導係基於螢幕502及控制530至534的使用。儘管結合圖1之虛擬助理器件110進行描述,但GUI 504可與可能不同於虛擬助理器件110之虛擬助理器件之其他實施一起使用。舉例而言,GUI 504可與使用不同技術判定語音命令104是否與動作相關聯之虛擬助理器件一起使用。
儘管指令542經繪示為顯示於螢幕120上之文本,但在其他實施中,作為繪示性非限制性實例,指令542經由一或多個其他技術(諸如由器件110之揚聲器輸出之語音指令)來提供。儘管GUI 504經繪示為包括用以接收使用者輸入之控制530至534,但在其他實施中,器件選擇、動作選擇及變量中之一或多者可經由一或多種其他技術來輸入,諸如藉由接收由使用者說出的話語輸入、辨識由使用者做出的手勢或藉由接收指示使用者與器件572中之一或多者交互(例如,目標器件560至568之實際控制,以表明未經辨識語音命令之使用者意圖)的一或多個訊息570輸入。
圖6為可穿戴式器件600之繪示性實例。可穿戴式器件600包括使得使用者能夠教導虛擬助理器件110回應於接收語音命令而應執行哪個動作之螢幕120A。根據一個實施,螢幕120A對應於螢幕120。在圖6之所繪示之實例中,可穿戴式器件600可為虛擬實境頭戴套件、擴充實境頭戴套件或混合實境頭戴套件。虛擬助理器件110可整合於可穿戴式器件600中或耦接至可穿戴式器件600 (例如,在另一可穿戴式器件中或在與可穿戴式器件600交互之行動器件中)。
螢幕120A顯示圖4中所繪示之提示352。使用者102可回應於接收提示352而選擇第二動作150B (例如,「播放音樂」),且虛擬助理器件110可儲存與資料庫118中之語音命令304相關聯之向量342,且可將第二動作150B與向量相關聯。因此,在接收使用者選擇之後,虛擬助理器件110 (例如,動作發起器138)可再次回應於接收語音命令304或接收產生類似於向量342的向量之語音命令來發起第二動作150B。
因此,相對於圖6所描述之技術使得使用者102能夠教導虛擬助理器件110經由使用使用者與顯示於可穿戴式器件600之螢幕120A處的提示352之交互來將未經辨識口頭命令與使用者動作動態地相關聯。
圖7為車輛700之繪示性實例。根據一個實施,車輛700為自動駕駛汽車。根據其他實施,車輛700可為汽車、卡車、摩托車、飛機、水上車輛等。車輛700包括使得使用者能夠教導虛擬助理器件110回應於接收語音命令而應執行哪個動作之螢幕120B。根據一個實施,螢幕120B對應於螢幕120。虛擬助理器件110可整合於車輛700中或耦接至車輛700。
螢幕120B可經組態以顯示圖4中所繪示之提示352。使用者102 (例如,車輛700之駕駛員)可回應於接收提示352而選擇第二動作150B (例如,「音樂播放」),且虛擬助理器件110可儲存與資料庫118中之語音命令304相關聯之向量342,且可將第二動作150B與向量相關聯。因此,在接收使用者選擇之後,虛擬助理器件110 (例如,動作發起器138)可再次回應於接收語音命令304或接收產生類似於向量342的向量之語音命令來發起第二動作150B。
因此,相對於圖7所描述之技術使得使用者102能夠教導虛擬助理器件110經由使用使用者與顯示於車輛700之螢幕120B處的提示352之交互來將未經辨識口頭命令與使用者動作動態地相關聯。
圖8為話音控制式揚聲器系統800之繪示性實例。話音控制式揚聲器系統800可具有無線網路連接性,且經組態以執行助理操作。虛擬助理器件110包括於話音控制式揚聲器系統800中。話音控制式揚聲器系統800亦包括揚聲器802。在操作期間,回應於接收語音命令,話音控制式揚聲器系統800可執行助理操作。助理操作可包括調整溫度、播放音樂、打開燈等。在一些實施中,虛擬助理器件110可指導使用者102如何訓練虛擬助理器件110以回應未經辨識命令。舉例而言,虛擬助理器件110可提供諸如GUI 504之GUI或語音交互以指導使用者102如何訓練虛擬助理器件110。
參考圖9,展示教導虛擬助理器件回應於接收命令而應執行之動作之方法900的流程圖。方法900可由虛擬助理器件110、GUI 504、可穿戴式器件600、車輛700、話音控制式揚聲器系統800或其組合執行。
方法900包括在902處在GUI處,在螢幕上顯示與多個器件相關聯之資料。舉例而言,在圖5之繪示性實例中,GUI 504顯示與電視560相關聯之資料520、與空氣調節系統562相關聯的資料522、與照明器件564相關聯之資料524、與機器人真空吸塵器件566相關聯之資料526及與揚聲器568相關聯的資料528。
方法900亦包括在904處繪示用於多個器件中之每一器件之標記及至少一個控制輸入。舉例而言,對於每一器件572,GUI 504繪示標記及至少一個控制輸入。作為一非限制性實例,GUI 504繪示電視560之標記574及電視560之控制輸入576。控制輸入576包括音量控制輸入、信道控制輸入及計時器控制輸入。作為另一非限制性實例,GUI 504繪示空氣調節系統562之標記578及空氣調節系統562之控制輸入580。控制輸入580包括溫度控制輸入、風扇控制輸入及計時器控制輸入。作為另一非限制性實例,GUI 504繪示照明器件564之標記582及照明器件564之控制輸入584。控制輸入584包括色彩控制輸入及計時器控制輸入。
方法900在906處進一步包括將回饋提供給使用者。回饋指示語音命令無法辨識為與應執行之動作相關聯。舉例而言,GUI 504將回饋540提供給使用者102,該回饋540指示虛擬助理器件110不將來自使用者102之語音命令辨識為與應執行的動作(例如,應發送至多個器件572中之一或多者之指令)相關聯。在圖5之繪示性實例中,回饋540包括片語「未辨識語音命令。」因此,回饋540指示語音命令無法辨識為與應執行之動作相關聯。
方法900進一步包括在910處向使用者提供用以教導一或多個處理器回應於接收語音命令而應執行哪個動作之指令。舉例而言,GUI 504向使用者102提供關於如何教導處理器112回應於接收語音命令而應執行哪個動作之指令542。在圖5之實例中,指令542包括片語「請選擇器件、動作及變量來教導我如何回應語音命令。」回應於讀取指令542,使用者102可與GUI 504交互,以教導虛擬助理器件110回應於語音命令而應執行哪個動作。
為進行繪示,在向使用者提供指令之後,方法900亦可包括:自使用者接收指示應執行哪個動作之輸入;儲存將語音命令與動作相關聯的資料;及將訊息發送至多個器件中之一或多者,訊息指示用以執行動作之命令。舉例而言,虛擬助理器件110可經由GUI 504接收選擇電視560之使用者輸入,諸如經由與控制530至534交互以將電視560指定為器件、將「設置音量」指定為動作且將「50%」指定為變量。虛擬助理器件110可將向量142添加至經儲存向量144,且將向量142與經指示動作(例如,將電視音量調整為50%)相關聯,從而使得口頭命令(及口頭命令之接近變體)能夠經辨識。另外,虛擬助理器件110可將訊息570發送至電視560,該訊息570指示用以執行動作(例如,將音量調整為50%)的命令。
根據一個實施,方法900包括接收對應於語音命令之音訊信號。舉例而言,麥克風114捕捉語音命令104,且生成對應於語音命令104之音訊信號124。處理器112接收對應於語音命令104之音訊信號124。
根據一個實施,方法900亦包括處理音訊信號以生成與語音命令相關聯之向量。舉例而言,處理器112處理音訊信號124以生成與語音命令104相關聯之向量142。根據方法900之一個實施,處理音訊信號包括對音訊信號執行自動話語辨識操作,以生成對應於語音命令之字序列。舉例而言,自動話語辨識器130對音訊信號124執行自動話語辨識操作,以生成對應於語音命令104之字序列140。根據方法900之一個實施,處理音訊信號亦包括對字序列執行句子嵌入操作以生成向量。舉例而言,句子嵌入器132對字序列140執行句子嵌入操作,以生成向量142。
根據一個實施,方法900亦包括回應於向量不匹配與各別動作相關聯之一或多個經儲存向量中的任何經儲存向量之判定,至少部分地基於向量與特定經儲存向量之間的差異來識別一或多個經儲存向量中之特定經儲存向量。舉例而言,向量搜索引擎134判定向量142是否匹配一或多個經儲存向量144中之任何經儲存向量144。回應於向量142不匹配任何經儲存向量144之判定,向量搜索引擎134至少部分地基於向量142與特定經儲存向量144A之間的差異來識別經儲存向量144A。根據一個實施,差異包括歐氏距離(Euclidean distance)。
根據一個實施,方法900可包括計算向量與一或多個經儲存向量中之多個經儲存向量之間的差值。為進行繪示,向量搜索引擎134計算向量142與資料庫118中之一或多個經儲存向量144中的多個經儲存向量144A、144B、144C之間的差值。方法900亦可包括選擇與差值中之最小計算差值相關聯之經儲存向量。為進行繪示,向量搜索引擎134選擇與差值中之最小計算差值相關聯之經儲存向量144。由於向量142、144A之相關聯的片語相對類似,因此向量142與經儲存向量144A之間的差值相對較小。然而,由於向量144B、144C之相關聯的片語不類似於與向量142相關聯之片語(例如,「嗨,你能打開燈嗎?」),因此向量142與經儲存向量144B、144C之間的差值相對較大。因此,由於經儲存向量144A與最小計算差值相關聯,因此向量搜索引擎134選擇經儲存向量144A。
方法900亦可包括將訊息發送至多個器件且自多個器件接收訊息。舉例而言,所發送訊息可包括發送至多個器件572中之一或多者之指令,且所接收訊息可包括由多個器件572中之一或多者提供之一或多個狀態更新。根據一個實施,方法900包括回應於向量與特定經儲存向量之間的差異滿足差異約束之判定來發起與特定經儲存向量相關聯之特定動作的執行。舉例而言,動作發起器138回應於向量142與經儲存向量144A之間的差異滿足差異約束148來發起與經儲存向量144A相關聯之動作150A之執行。因此,根據上文所描述之場景,動作發起器138可回應於向量142與經儲存向量144A之間的差異滿足差異約束148來發起打開燈(例如,動作150A)。
方法900能夠執行與特定動作相關聯之經儲存命令之略微不同版本而不需要額外本體設計。舉例而言,當所接收語音命令充分不同於其他經訓練命令時,虛擬助理器件110可生成提示(例如,指令),以供使用者102教導虛擬助理器件110回應於接收語音命令而應執行哪個動作。因此,GUI經由更新過程引導使用者,使得使用者能夠教導虛擬助理器件如何解譯接收語音命令之當前事件及未來事件之未識別語音命令。
在一些實施中,使用句子嵌入生成向量142及所得向量與經儲存向量之比較使得虛擬助理器件110能夠基於由使用者102說出之命令與先前所登記命令(由經儲存向量144中之向量表示)之類似性來選擇應執行之動作。因此,虛擬助理器件110藉由將向量/動作對添加至經儲存向量144來提供穩固命令辨識及個性化虛擬助理器件110的機制。
儘管圖1至9描述其中使用GUI以展現表示可控器件之態樣之資料的實施,但在其他實施中可使用非圖形介面元件。舉例而言,在車輛實施中,器件狀態資訊可有聲地展現給車輛之操作者,以防止操作者不得不觀看視覺顯示器類似地,諸如話語辨識或手勢辨識之使用者輸入機制可用作觸控式螢幕、鍵盤或小鍵盤輸入器件的繪示性非限制性替代物。在一些實施中,虛擬助理器件可在沒有顯示器之情況下實施。
參考圖10,展示器件1000之方塊圖。根據一個實施,器件1000為無線通信器件。在一特定實施中,器件1000包括耦接至記憶體116之處理器112,諸如中央處理單元(CPU)或數位信號處理器(DSP)。記憶體116包括指令122 (例如,可執行指令),諸如電腦可讀指令或處理器可讀指令。指令122包括可由諸如處理器112之電腦執行以執行相對於圖1至9所描述的操作之一或多個指令。
器件1000亦包括耦接至處理器112及螢幕120 (例如,顯示器件)之顯示控制器1026。根據一個實施,螢幕120可顯示提示352。根據另一實施,螢幕120可顯示GUI 504。寫碼器/解碼器(CODEC) 1034亦耦接至處理器112。揚聲器1036及麥克風114耦接至CODEC 1034。無線介面1040耦接至處理器112,且天線1042經由收發器1046耦接至無線介面1040。
在一些實施中,處理器112、顯示控制器1026、記憶體116、CODEC 1034、無線介面1040及收發器1046包括於系統級封裝或系統單晶片器件1022中。在一些實施中,電源供應器1044及輸入器件1030耦接至系統單晶片器件1022。此外,在一特定實施中,如圖10中所繪示,螢幕120、麥克風114、揚聲器1036、天線1042及電源供應器1044位於系統單晶片器件1022外部。
在一特定實施中,本文中所揭示之系統及器件的一或多個組件整合至解碼系統或裝置(例如,其中的電子器件、CODEC或處理器)、編碼系統或裝置或兩者中。在其他實施中,本文中所揭示之系統及器件之一或多個組件可整合至無線電話、平板電腦、桌上型電腦、膝上型電腦、機上盒、音樂播放器、視訊播放器、娛樂單元、電視、遊戲控制台、導航器件、通信器件、個人數位助理(PDA)、固定位置資料單元、個人媒體播放器、車輛、頭戴套件、「智能揚聲器」器件或另一種類型之器件中。
結合所描述之技術,裝置包括用於接收對應於語音命令之音訊信號之構件。舉例而言,用於接收之構件可包括處理器112、自動話語辨識器130、一或多個其他器件、電路、模組或其任何組合。
裝置亦包括用於處理音訊信號以生成與語音命令相關聯之向量之構件。舉例而言,用於處理之構件可包括處理器112、自動話語辨識器130、句子嵌入器132、一或多個其他器件、電路、模組或其任何組合。
裝置亦包括用於儲存與各別動作相關聯之一或多個向量之構件。用於儲存之構件可包括資料庫118、一或多個其他器件、電路、模組或其任何組合。
裝置亦包括用於自用於儲存之構件中識別特定經儲存向量之構件。特定經儲存向量至少部分地基於向量與特定經儲存向量之間的差異來識別,且回應於向量不匹配來自用於儲存之構件之任何經儲存向量的判定來識別特定經儲存向量。用於識別之構件可包括處理器112、向量搜索引擎134、一或多個其他器件、電路、模組或其任何組合。
裝置亦包括用於回應於向量與特定經儲存向量之間的差異滿足差異約束之判定來發起與特定經儲存向量相關聯之特定動作的執行之構件。舉例而言,用於發起之構件可包括處理器112、動作發起器138、一或多個其他器件、電路、模組或其任何組合。
結合所描述之技術,器件包括經組態以發送及接收來多個器件之訊息的器件介面。器件亦包括使用者介面,該使用者介面經組態以基於操控與句子相關聯且在使用者介面上繪示之使用者介面控制,將一或多個句子映射至與控制多個器件中的器件中之每一者相關聯之動作。
結合所描述之技術,器件包括觸控式螢幕及處理器,該處理器經組態以在觸控式螢幕處提供經組態以顯示對應於多個器件之控制的GUI。GUI亦經組態以提供顯示用於將一或多個句子映射至與控制多個器件中的器件中之每一者相關聯的動作之指令的介面。指令係基於使用觸控式螢幕來將句子映射至動作。
結合所描述之技術,虛擬助理器件經組態以將回饋提供給使用者。回饋指示虛擬助理器件不將語音命令辨識為與應執行之動作相關聯。回應於不將語音命令辨識為與應執行之動作相關聯,虛擬助理器件經組態以要求使用者教導虛擬助理器件將語音命令與所要動作相關聯,以控制與虛擬助理器件直接通信的複數個器件中之一者。
結合所描述之技術,虛擬助理器件包括經組態以執行包括處理對應於語音命令的音訊信號以生成向量之話語辨識的命令解譯器。命令解譯器亦經組態以回應於向量不匹配任何經儲存向量,至少部分地基於向量與經儲存向量之間的差異來識別經儲存向量。命令解譯器進一步經組態以回應於向量與經識別經儲存向量之間的差異滿足差異約束來發起與經識別經儲存向量相關聯之動作。
結合所描述之技術,器件包括記憶體及耦接至記憶體之一或多個處理器。一或多個處理器經組態以接收對應於語音命令之音訊信號。一或多個處理器經組態以處理音訊信號,以生成與語音命令相關聯之向量。一或多個處理器經組態以回應於向量不匹配與各別動作相關聯之一或多個向量中的任何經儲存向量之判定,至少部分地基於向量與特定經儲存向量之間的差異來識別一或多個經儲存向量中之特定經儲存向量。一或多個處理器亦經組態以回應於向量與特定經儲存向量之間的差異滿足差異約束之判定來發起與特定經儲存向量相關聯的特定動作之執行。
結合所描述之技術,一種判定動作與語音命令相關聯之方法包括接收對應於語音命令之音訊信號。方法亦包括處理音訊信號,以生成與語音命令相關聯之向量。回應於向量不匹配與各別動作相關聯之一或多個經儲存向量中之任何經儲存向量,方法包括至少部分地基於向量與特定經儲存向量之間的差異來識別一或多個經儲存向量中之特定經儲存向量。方法亦包括回應於向量與特定經儲存向量之間的差異滿足差異約束來發起與特定經儲存向量相關聯之特定動作之執行。
結合所描述之技術,非暫時性電腦可讀媒體包括用於判定動作與語音命令相關聯的指令。指令在由一或多個處理器執行時使得一或多個處理器接收對應於語音命令之音訊信號。指令在由一或多個處理器執行時亦使得一或多個處理器處理音訊信號,以生成與語音命令相關聯之向量。指令在由一或多個處理器執行時亦使得一或多個處理器回應於向量不匹配與各別動作相關聯之一或多個經儲存向量中的任何經儲存向量之判定,至少部分地基於向量與特定經儲存向量之間的差異來識別一或多個經儲存向量中之特定經儲存向量。指令在由一或多個處理器執行時亦使得一或多個處理器回應於向量與特定經儲存向量之間的差異滿足差異約束之判定來發起與特定經儲存向量相關聯的特定動作之執行。
根據本發明之一或多種技術,虛擬助理器件110可用於獲取音場。舉例而言,虛擬助理器件110可經由有線及/或無線獲取器件及/或器件上環繞聲捕捉(例如,整合至虛擬助理器件110中之複數個麥克風)來獲取音場。隨後,虛擬助理器件110可將所獲取音場寫碼成高階立體混響(HOA)係數,以用於由播放元件中之一或多者播放。舉例而言,虛擬助理器件110之使用者102可記錄實況事件(例如,集會、會議、戲劇、音樂會等) (獲取其音場),且將記錄寫碼成HOA係數。
虛擬助理器件110亦可利用播放元件中之一或多者來播放HOA經寫碼音場。舉例而言,虛擬助理器件110可對HOA經寫碼音場進行解碼,且將信號輸出至播放元件中之一或多者,該信號使得播放元件中之一或多者重建音場。作為一個實例,虛擬助理器件110可利用無線及/或無線通信信道將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒等)。作為另一實例,虛擬助理器件110可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個經銜接揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,虛擬助理器件110可利用頭戴式耳機呈現將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
可執行該等技術之又一上下文包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、呈現引擎及遞送系統。在一些實例中,遊戲工作室可包括可支援HOA信號之編輯的一或多個數位音訊工作台(DAW)。舉例而言,一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,與其一起工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新字幹格式(new stem format)。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至呈現引擎,該呈現引擎可呈現音場以供遞送系統播放。
在一些情況下,虛擬助理器件110亦可包括共同經組態以記錄3D音場之複數個麥克風。換言之,複數個麥克風可具有X、Y、Z分集。在一些實例中,虛擬助理器件110可包括麥克風,該麥克風可經旋轉以提供相對於虛擬助理器件110之一或多個其他麥克風的X、Y、Z分集。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多種技術,揚聲器及/或聲棒可以任何任意組態配置,同時仍播放3D音場。根據本發明之一或多種技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放器件的任何組合上呈現音場。
多個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的適合環境:5.1揚聲器播放環境、2.0 (例如,立體聲)揚聲器播放環境、具有全高前置擴音器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境及具有耳掛式耳機播放環境之行動器件。
根據本發明之一或多種技術,可利用音場之單一通用表示來在前述播放環境中之任一者上呈現音場。此外,本發明之技術使得呈現器能夠自通用表示呈現音場以供在不同於上文所描述之環境的播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,在不可能置放右環繞揚聲器的情況下),則本發明之技術使得呈現器能夠藉由其他揚聲器進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多種技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場的HOA係數且將該等HOA係數傳輸至解碼器,解碼器可基於HOA係數重建構3D音場且將經重建構之3D音場輸出至呈現器,呈現器可獲得關於播放環境之類型(例如,頭戴式耳機)的指示,且將經重建構之3D音場呈現成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
應注意,藉由本文中所揭示之系統及器件之一或多個組件執行的各種功能經描述為藉由某些組件或模組執行。組件及模組之此劃分僅係為了繪示。在一替代性實施中,由特定組件或模組執行之功能可劃分於多個組件或模組之中。此外,在一替代性實施中,兩個或更多個組件或模組可整合至單個組件或模組中。每一組件或模組可使用硬體(例如,場可程式化閘陣列(FPGA)器件、特殊應用積體電路(ASIC)、DSP、控制器等)、軟體(例如,可由處理器執行的指令)或其任何組合來實施。
熟習此項技術者將進一步瞭解,結合本文中所揭示之實施而描述的各種繪示性邏輯區塊、組態、模組、電路及演算法步驟可實施為電子硬體、由諸如硬體處理器之處理器件執行的電腦軟體或兩者之組合。上文已大體在功能性方面描述各種繪示性組件、區塊、組態、模組、電路及步驟。此功能性經實施為硬體抑或可執行軟體取決於特定應用程式及強加於整個系統之設計約束。熟習此項技術者可針對每一特定應用程式而以變化之方式實施所描述之功能性,但不應將此等實施決策解譯為使得脫離本發明的範疇。
結合本文中所揭示之實施所描述之方法或演算法的步驟可直接體現於硬體中、由處理器執行之軟體模組中或兩者之組合中。軟體模組可駐存於記憶體器件中,該記憶體器件諸如隨機存取記憶體(RAM)、磁阻式隨機存取記憶體(MRAM)、自旋力矩轉移MRAM (STT-MRAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、抽取式磁碟或光碟唯讀記憶體(CD-ROM)。例示性記憶體器件耦接至處理器,使得處理器可自記憶體器件讀取資訊及將資訊寫入至記憶體器件。在替代例中,記憶體器件可與處理器成一體。處理器及儲存媒體可駐存於特殊應用積體電路(ASIC)中。ASIC可駐存於計算器件或使用者終端機中。在替代例中,處理器及儲存媒體可作為離散組件駐存於計算器件或使用者終端機中。
提供所揭示之實施的先前描述以使得熟習此項技術者能夠製備或使用所揭示之實施。熟習此項技術者將容易地顯而易見對此等實施之各種修改,且在不脫離本發明之範疇的情況下,本文中所定義之原理可應用於其他實施。因此,本發明並不意欲限於本文中所展示之實施,而應符合可能與如以下申請專利範圍所定義之原理及新穎特徵相一致的最廣泛範疇。
100:系統 102:使用者 104:語音命令 110:虛擬助理器件 112:處理器 114:麥克風 116:記憶體 118:資料庫 120:螢幕 120A:螢幕 120B:螢幕 122:指令 124:音訊信號 130:自動話語辨識器 132:句子嵌入器 134:向量搜索引擎 136:比較器 138:動作發起器 140:字序列 142:向量 144:經儲存向量 144A:經儲存向量 144B:經儲存向量 144C:經儲存向量 146:比較結果 148:差異約束 150:動作 150A:動作 150B:動作 150C:動作 200:系統 300:系統 304:語音命令 324:音訊信號 340:字序列 342:向量 346:比較結果 352:提示 504:圖形使用者介面 520:資料 522:資料 524:資料 526:資料 528:資料 530:「器件」選擇控制 532:「動作」選擇控制 534:「變量」控制 540:回饋 542:指令 560:電視 562:空氣調節系統 564:照明器件 566:機器人真空吸塵器件 568:揚聲器 570:訊息 572:器件 574:標記 576:控制輸入 578:標記 580:控制輸入 582:標記 584:控制輸入 600:可穿戴式器件 700:車輛 800:語音控制式揚聲器系統 802:揚聲器 900:方法 902:動作 904:動作 906:動作 910:動作 1000:器件 1022:系統單晶片器件 1026:顯示控制器 1030:輸入器件 1034:寫碼器/解碼器 1036:揚聲器 1040:無線介面 1042:天線 1044:電源供應器 1046:收發器
圖1為包括經組態以判定與語音命令相關聯之動作之虛擬助理器件的系統之繪示性實例;
圖2為用於判定與語音命令相關聯之動作之流程圖的繪示性實例;
圖3為包括經組態以將回饋提供給使用者之虛擬助理器件之系統的繪示性實例,該回饋指示虛擬助理器件未將語音命令辨識為與應執行之動作相關聯;
圖4為由虛擬助理器件生成之提示之繪示性實例;
圖5為將控制信號傳達至複數個器件之虛擬助理器件之繪示性實例;
圖6為併入虛擬助理器件之態樣之可穿戴式器件的繪示性實例;
圖7為併入虛擬助理器件之態樣之車輛的繪示性實例;
圖8為併入虛擬助理器件之態樣之話音控制式揚聲器系統的繪示性實例;
圖9為教導虛擬助理器件回應於接收命令而應執行之動作之方法的流程圖;及
圖10為可操作以執行參考圖1至圖9所描述之技術之器件的特定繪示性實例之方塊圖。
110:虛擬助理器件
120:螢幕
504:圖形使用者介面
520:資料
522:資料
524:資料
526:資料
528:資料
530:「器件」選擇控制
532:「動作」選擇控制
534:「變量」控制
540:回饋
542:指令
560:電視
562:空氣調節系統
564:照明器件
566:機器人真空吸塵器件
568:揚聲器
570:訊息
572:器件
574:標記
576:控制輸入
578:標記
580:控制輸入
582:標記
584:控制輸入

Claims (30)

  1. 一種器件,其包含: 一螢幕;及 一或多個處理器,其經組態以在該螢幕處提供一圖形使用者介面(GUI),該圖形使用者介面經組態以: 在該螢幕上顯示與多個器件相關聯之資料; 繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入; 將回饋提供給一使用者,該回饋指示一語音命令無法辨識為與應執行之一動作相關聯;及 向該使用者提供關於如何教導該一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。
  2. 如請求項1之器件,其中該一或多個處理器經組態以: 接收對應於該語音命令之一音訊信號; 處理該音訊信號以生成與該語音命令相關聯之一向量; 回應於該向量不匹配與各別動作相關聯之一或多個經儲存向量中的任何經儲存向量之一判定,至少部分地基於該向量與一最類似經儲存向量之間的一差異來識別該一或多個經儲存向量中之該最類似經儲存向量;及 回應於該差異不滿足一差異約束而判定該語音命令無法辨識為與應執行之一動作相關聯。
  3. 如請求項2之器件,其進一步包含耦接至該一或多個處理器之一麥克風,該麥克風經組態以: 捕捉該語音命令;及 基於該語音命令生成該音訊信號。
  4. 如請求項2之器件,其中為處理該音訊信號,該一或多個處理器經組態以: 對該音訊信號執行一自動話語辨識操作,以生成對應於該語音命令之一字序列;及 對該字序列執行一句子嵌入操作以生成該向量。
  5. 如請求項2之器件,其中該差異包含一歐氏距離。
  6. 如請求項2之器件,其中為識別該最類似經儲存向量,該一或多個處理器經組態以: 計算該向量與該一或多個經儲存向量之中多個經儲存向量之間的差值;及 選擇與該等差值中之一最小計算差值相關聯之一經儲存向量,該最類似經儲存向量對應於該經選擇經儲存向量。
  7. 如請求項1之器件,其進一步包含一話音控制式揚聲器系統,該話音控制式揚聲器系統具有一無線網路連接性且經組態以執行一助理操作,其中該螢幕及該一或多個處理器整合於該話音控制式揚聲器系統中。
  8. 如請求項1之器件,其進一步包含一可穿戴式器件,其中該螢幕及該一或多個處理器整合於該可穿戴式器件中。
  9. 如請求項8之器件,其中該可穿戴式器件包含一虛擬實境頭戴套件、一混合實境頭戴套件或一擴充實境頭戴套件。
  10. 如請求項1之器件,其進一步包含一車輛,其中該螢幕及該一或多個處理器整合於該車輛中。
  11. 如請求項1之器件,其進一步包含耦接至該一或多個處理器之一器件介面,該器件介面經組態以: 將訊息發送至該等多個器件;及 自該等多個器件接收訊息。
  12. 如請求項1之器件,其中該等多個器件包含一電視、一空氣調節系統、一照明器件、一真空吸塵器件或一揚聲器中之至少一者。
  13. 一種教導一虛擬助理器件回應於接收一命令而應執行之一動作之方法,該方法包含: 在一圖形使用者介面(GUI)處,在一螢幕上顯示與多個器件相關聯之資料; 繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入; 將回饋提供給一使用者,該回饋指示一語音命令無法辨識為與應執行之一動作相關聯;及 向該使用者提供關於如何教導一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。
  14. 如請求項13之方法,其進一步包含: 自該使用者接收指示應執行哪個動作之一輸入; 儲存將該語音命令與該動作相關聯之資料;及 將一訊息發送至該等多個器件中之一或多者,該訊息指示用以執行該動作之一命令。
  15. 如請求項13之方法,其進一步包含: 接收對應於該語音命令之一音訊信號; 處理該音訊信號以生成與該語音命令相關聯之一向量; 回應於該向量不匹配與各別動作相關聯之一或多個經儲存向量中的任何經儲存向量之一判定,至少部分地基於該向量與一最類似經儲存向量之間的一差異來識別該一或多個經儲存向量中之該最類似經儲存向量;及 回應於該差異不滿足一差異約束而判定該語音命令無法辨識為與應執行之一動作相關聯。
  16. 如請求項15之方法,其中處理該音訊信號包含: 對該音訊信號執行一自動話語辨識操作,以生成對應於該語音命令之一字序列;及 對該字序列執行一句子嵌入操作以生成該向量。
  17. 如請求項15之方法,其中該差異包含一歐氏距離。
  18. 如請求項15之方法,其中識別該最類似經儲存向量包含: 計算該向量與該一或多個經儲存向量中之多個經儲存向量之間的差值;及 選擇與該等差值中之一最小計算差值相關聯之一經儲存向量,該最類似經儲存向量對應於該經選擇經儲存向量。
  19. 如請求項13之方法,其中向該使用者提供該等指令係藉由一行動器件來執行。
  20. 如請求項13之方法,其中向該使用者提供該等指令係藉由一話音控制式揚聲器系統來執行,該話音控制式揚聲器系統具有一無線網路連接性且經組態以執行一助理操作。
  21. 如請求項13之方法,其中向該使用者提供該等指令係藉由一可穿戴式器件來執行。
  22. 如請求項21之方法,其中該可穿戴式器件包含一虛擬實境頭戴套件、一混合實境頭戴套件或一擴充實境頭戴套件來執行。
  23. 一種包含用於教導一虛擬助理器件回應於接收一命令而應執行之一動作之指令的非暫時性電腦可讀媒體,該等指令在由一或多個處理器執行時使得該一或多個處理器: 在一圖形使用者介面(GUI)處,在一螢幕上顯示與多個器件相關聯之資料; 繪示用於該等多個器件中之每一器件之一標記及至少一個控制輸入; 將回饋提供給一使用者,該回饋指示一語音命令無法辨識為與應執行之一動作相關聯;及 向該使用者提供關於如何教導該一或多個處理器回應於接收該語音命令而應執行哪個動作之指令。
  24. 如請求項23之非暫時性電腦可讀媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器: 接收對應於該語音命令之一音訊信號; 處理該音訊信號以生成與該語音命令相關聯之一向量; 回應於該向量不匹配與各別動作相關聯之一或多個經儲存向量中的任何經儲存向量之一判定,至少部分地基於該向量與一最類似經儲存向量之間的一差異來識別該一或多個經儲存向量中之該最類似經儲存向量;及 回應於該差異不滿足一差異約束而判定該語音命令無法辨識為與應執行之一動作相關聯。
  25. 如請求項24之非暫時性電腦可讀媒體,其中該等指令在由該一或多個處理器執行時進一步使得該一或多個處理器: 對該音訊信號執行一自動話語辨識操作,以生成對應於該語音命令之一字序列;及 對該字序列執行一句子嵌入操作以生成該向量。
  26. 如請求項23之非暫時性電腦可讀媒體,其中該等多個器件包含一電視、一空氣調節系統、一照明器件、一真空吸塵器件或一揚聲器中之至少一者。
  27. 一種裝置,其包含: 用於接收對應於一語音命令之一音訊信號之構件; 用於處理該音訊信號以生成與該語音命令相關聯之一向量之構件; 用於儲存與各別動作相關聯之一或多個向量之構件; 用於自該等用於儲存之構件中識別一特定經儲存向量之構件,該特定經儲存向量至少部分地基於該向量與該特定經儲存向量之間的一差異來識別,且該特定經儲存向量回應於該向量不匹配來自該等用於儲存的構件中之任何經儲存向量之一判定而識別;及 用於回應於該向量與該特定經儲存向量之間的該差異滿足一差異約束之一判定來發起與該特定經儲存向量相關聯的一特定動作之執行之構件。
  28. 如請求項27之裝置,其中該等用於接收之構件、該等用於處理之構件、該等用於儲存之構件、該等用於識別之構件及該等用於發起執行之構件係整合於一頭戴套件中。
  29. 如請求項28之裝置,其中該頭戴套件包含一虛擬實境頭戴套件、一混合實境頭戴套件或一擴充實境頭戴套件。
  30. 如請求項27之裝置,其中該等用於接收之構件、該等用於處理之構件、該等用於儲存之構件、該等用於識別之構件及該等用於發起執行之構件係整合於一車輛中。
TW109116982A 2019-05-21 2020-05-21 虛擬助理器件 TW202101190A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/418,783 US11170774B2 (en) 2019-05-21 2019-05-21 Virtual assistant device
US16/418,783 2019-05-21

Publications (1)

Publication Number Publication Date
TW202101190A true TW202101190A (zh) 2021-01-01

Family

ID=71070060

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109116982A TW202101190A (zh) 2019-05-21 2020-05-21 虛擬助理器件

Country Status (3)

Country Link
US (1) US11170774B2 (zh)
TW (1) TW202101190A (zh)
WO (1) WO2020237086A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
CN111312240A (zh) * 2020-02-10 2020-06-19 北京达佳互联信息技术有限公司 数据控制方法、装置、电子设备及存储介质
US11501794B1 (en) * 2020-05-15 2022-11-15 Amazon Technologies, Inc. Multimodal sentiment detection
US11783811B2 (en) 2020-09-24 2023-10-10 International Business Machines Corporation Accuracy of streaming RNN transducer
US11978444B2 (en) * 2020-11-24 2024-05-07 International Business Machines Corporation AR (augmented reality) based selective sound inclusion from the surrounding while executing any voice command
US11942078B2 (en) 2021-02-26 2024-03-26 International Business Machines Corporation Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition
KR20230118959A (ko) * 2021-07-29 2023-08-14 구글 엘엘씨 어시스턴트 명령의 이행과 관련하여 특정한 이유 제공

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP4156639B2 (ja) * 2006-08-14 2008-09-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声インターフェースの設計を支援するための装置、方法、プログラム
US8407057B2 (en) * 2009-01-21 2013-03-26 Nuance Communications, Inc. Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system
AU2014233517B2 (en) * 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
CN111414222A (zh) 2014-12-11 2020-07-14 微软技术许可有限责任公司 能够实现可动作的消息传送的虚拟助理系统
US20160225369A1 (en) * 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
CN106157955A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
WO2017139575A1 (en) * 2016-02-11 2017-08-17 Ebay Inc. Semantic category classification
US10097919B2 (en) * 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
US9996819B1 (en) 2016-12-11 2018-06-12 Sankalp Sandeep Modi Voice programmable automatic identification and data capture devices and system
US20180315415A1 (en) 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
US11450314B2 (en) * 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
CN108831469B (zh) * 2018-08-06 2021-02-12 珠海格力电器股份有限公司 语音命令定制方法、装置和设备及计算机存储介质
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets

Also Published As

Publication number Publication date
WO2020237086A1 (en) 2020-11-26
US20200372906A1 (en) 2020-11-26
US11170774B2 (en) 2021-11-09

Similar Documents

Publication Publication Date Title
TW202101190A (zh) 虛擬助理器件
EP3190512B1 (en) Display device and operating method therefor
JP6725006B2 (ja) 制御装置および機器制御システム
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US20130173270A1 (en) Electronic apparatus and method of controlling electronic apparatus
KR20130125067A (ko) 전자 장치 및 그의 제어 방법
KR102598057B1 (ko) 음소기반 화자모델 적응 방법 및 장치
KR20220037819A (ko) 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법
EP3916723B1 (en) Devices for providing search results in response to user utterances
CN107193810B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
US20220375473A1 (en) Electronic device and control method therefor
EP4184309A1 (en) Display device
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
KR102089593B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP2020061046A (ja) 音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム
KR102124396B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US20210193144A1 (en) Electronic apparatus and control method thereof
KR102051480B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102045539B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102662558B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
US20230282209A1 (en) Display device and artificial intelligence server