TWI544366B - 語音輸入命令之技術 - Google Patents

語音輸入命令之技術 Download PDF

Info

Publication number
TWI544366B
TWI544366B TW104102702A TW104102702A TWI544366B TW I544366 B TWI544366 B TW I544366B TW 104102702 A TW104102702 A TW 104102702A TW 104102702 A TW104102702 A TW 104102702A TW I544366 B TWI544366 B TW I544366B
Authority
TW
Taiwan
Prior art keywords
instruction
electronic device
new
voice input
text structure
Prior art date
Application number
TW104102702A
Other languages
English (en)
Other versions
TW201535157A (zh
Inventor
賽義德S 阿贊
黃嘩添
Original Assignee
惠普發展公司有限責任合夥企業
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 惠普發展公司有限責任合夥企業 filed Critical 惠普發展公司有限責任合夥企業
Publication of TW201535157A publication Critical patent/TW201535157A/zh
Application granted granted Critical
Publication of TWI544366B publication Critical patent/TWI544366B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Description

語音輸入命令之技術
本發明係有關於語音輸入命令之技術。
發明背景
今日使用者攜帶或操作裝置有各式各樣功能集合之一或多個電子裝置的數目漸增。此等裝置可彼此通訊,接取網際網路,執行不同工作,或透過網路接取各種資料服務。各種裝置諸如個人電腦、一體機計算裝置、網際網路致能平板、智慧型電話、膝上型電腦、電視、及遊戲機臺已經變成必備的個人附件,讓使用者與朋友、工作、及娛樂連結。今日使用者有更多選擇且預期隨時有效存取全部各型裝置上的節目、資料、及其它內容。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。
依據本發明之一實施例,係特地提出一種方法包含:檢測自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組(word)之 一文字結構;決定該電子裝置之一目前情境範圍;比較該文字結構與多個既有文字結構,其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之至少一個語音輸入;及基於該經識別之指令進行在該電子裝置上之一動作。
10‧‧‧電子裝置
15‧‧‧外部電子裝置
20‧‧‧外部資料庫
30‧‧‧處理器、處理裝置
32‧‧‧顯示器
33‧‧‧控制單元、控制器
35‧‧‧記憶體資源、記憶體
37‧‧‧非過渡機器可讀取儲存媒體
39‧‧‧情境範圍決定模組
40‧‧‧指令識別模組
41‧‧‧指令產生模組
42‧‧‧指令執行模組
45‧‧‧輸入介面
50‧‧‧通訊介面
55‧‧‧匯流排
60‧‧‧資料介面
70‧‧‧作業系統
80‧‧‧資料庫
100、200、300、400、500、600、700‧‧‧方法
110-160、210-250、305-325、410-460、510-560、610-670、710-750‧‧‧方塊
圖1為依據本文揭示之一具現一電子裝置實施例之示意例示圖。
圖2例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之方法之一實施例。
圖3例示一流程圖顯示依據本文揭示之一具現一種比較自一使用者之語音輸入之一文字結構與多個既有文字結構之方法之一實施例。
圖4例示一流程圖顯示依據本文揭示之一具現一種連結自一使用者之至少兩個循序語音輸入以識別一指令的情境知覺方法之一實施例。
圖5例示一流程圖顯示依據本文揭示之一具現一種當沒有與一既有指令之直接匹配時識別一指令以相對應於自一使用者之至少一個語音輸入之方法之一實施例。
圖6例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之另一方法之一實施例。
圖7例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之方法之一實施例。
圖8例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之另一方法之一實施例。
較佳實施例之詳細說明
隨著晚近技術的改良,電子裝置(例如平板、膝上型電腦、顯示螢幕、智慧型電話等)持續在人類生活中扮演要角。不同的使用者仰賴不同型別之電子裝置用於許多日常活動及工作相關任務。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。
電子裝置有不同尺寸、形式、且可包括不同技術特性件。由於電子裝置之增加故,其技術能力持續增高。結果此等裝置也對其使用者提供擴大服務。此等電子裝置常用以接取網際網路,購買各種貨品及服務,及執行各種個人及業務相關功能。
許多電子裝置包括一觸控螢幕,其許可一使用者與該電子裝置互動,及內容直接顯示在顯示幕上,而非藉使用外部輸入裝置(例如滑鼠)間接顯示。該使用者可利用該觸控螢幕以控制在該電子裝置上之操作,應答任何顯示的內容(例如訊息、電子郵件等),及控制該內容如何顯示在螢幕上(例如藉縮放該文字或影像大小)。
但觸控螢幕技術並非經常性地如所預期般地執行,且不能用在所有場合。舉例言之,當一使用者的雙手忙碌、骯髒、或潮濕時,該使用者無法用他或她的手指以與該電子裝置互動。此外,當該使用者遠離該顯示器時,觸摸該顯示器變不可能。
因此,使用者經常地尋找替代的及更有效的方式以控制其電子裝置。透過語音控制電子裝置提供了觸控螢幕控制的重大替代方案,且許可使用者以快速容易之方式與該裝置互動。使用語音指令以控制該電子裝置,許可一使用者在該裝置上執行不同任務,同時他的或她的雙手仍可從事其它活動。
本文描述係有關於使用語音指令以控制一電子裝置之全部操作之系統、方法、及電腦可讀取媒體。本文描述提出基於該裝置之該目前情境範圍(例如跑應用程式等)及接收自該使用者之語音指令而語音控制一電子裝置之方法。本文描述藉由使用、產生使用者指令、及編輯使用者指令而許可以語音導航及操作一電子裝置之該作業系統(OS)。因此,本文描述並不要求一個人助理應用程式控制該電子裝置之特定功能,反而將語音控制功能展開遍及該電子裝置之整個作業系統,使得一使用者可隨時隨地提供指令而無需返回一特定應用程式。
本文揭示之系統、方法、及電腦可讀取媒體檢測自該電子裝置之該使用者的語音輸入及將其變換成一文字結構。根據在該電子裝置上跑的該經識別之情境範圍(應用 程式、處理等),該等系統、方法、及電腦可讀取媒體試圖匹配該經識別之文字結構與針對該特定情境範圍之一既有指令。若經識別一匹配指令,則該等經揭示之系統、方法、及電腦可讀取媒體基於該指令執行在該電子裝置上之一動作。如此,該等經揭示之系統、方法、及電腦可讀取媒體可從事在目前使用不同輸入裝置(例如滑鼠、鍵盤、觸摸輸入等)執行的該電子裝置上之各種操作。使用該等經提示之系統、方法、及電腦可讀取媒體完全導航通過該裝置之作業系統變成可能。
此外,該經提示之語音控制解決方案使用各種技術以識別自該使用者之循序語音輸入,及基於此等循序語音輸入之關係而識別一指令。又,此處描述之技術可檢測一指令,即便當接收自該使用者之語音輸入並非明確匹配該電子裝置之一既有指令亦復如此。此等技術協助一使用者更佳地控制該電子裝置之操作。
該經提示之解決方案也提供產生新指令及編輯該電子裝置之既有指令之一種獨特方法。該等新指令可與該電子裝置之情境範圍相聯結,及可包括欲在該特定情境在該電子裝置上執行之不同動作。本文揭示也描述根據由該裝置之該特定使用者經識別之語音指令,訓練該電子裝置以從事各項操作之技術。
如此,於本詳細說明部分描述之該等技術許可一使用者藉使用基於該電子裝置之特定情境範圍經識別的語音指令操作一電子裝置。該經提示之語音控制解決方案可 運用自然語言處理技術以改良指令辨識準確度。該解決方案提供了可達成遠更高的指令辨識準確度且容易控制之一構思。每位使用者藉產生與編輯他或她的指令及個人化該描述系統符合其本身需求而彌補所提供的服務。如此給予全部使用者相當大彈性,且使得本案提示之語音控制技術對消費者極具吸引力。本案提示之語音控制解決方案適用於全部型別之電子裝置,但尤其有助於與具有大型顯示器之裝置互動。
於一具體實施例中,提出一種建構消費者之市場區隔之方法。如同於本文揭示中描述之其它方法,該方法可藉該電子裝置之一處理器執行。舉例言之,一非過渡機器可讀取儲存媒體可儲存電腦程式或模組,其當由該電子裝置執行時使得該方法被執行。該方法包括檢測自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;及決定該電子裝置之一目前情境範圍。該方法也包括比較該文字結構與多個既有文字結構,於該處該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結。該方法進一步包括當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之至少一個語音輸入;及基於該經識別之指令進行在該電子裝置上之一動作。
於另一具體實施例中,提出一種建構消費者之市場區隔之系統。該系統包括具有至少一個處理裝置之一電子裝置。該處理裝置包括一控制單元以針對該電子裝置產 生一新指令,於該處該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作。該控制單元也用以自一電子裝置之一使用者檢測至少一個語音輸入,將該至少一個語音輸入變換成包括至少一個字組之一文字結構,及決定該電子裝置之該目前情境範圍。該控制單元進一步用以比較該文字結構與多個既有文字結構,及當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。
於又另一具體實施例中,提出一種以可由一電子裝置之至少一個處理裝置執行之指令編碼的非過渡機器可讀取儲存媒體。該機器可讀取儲存媒體包含指令以處理接收自該電子裝置之一使用者之至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;及決定該電子裝置之該目前情境範圍。該機器可讀取儲存媒體進一步包含指令以決定該文字結構是否匹配自與該目前情境相聯結的多個既有文字結構之至少一個既有文字結構;及決定該文字結構是否匹配自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構。該機器可讀取儲存媒體也包含指令以當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之該至少一個語音輸入;及當該文字結構並不匹配該等既有文字結構中之至少一者時,產生針對該電子裝置之一新指令。該新指令係與該目前情境範圍相聯結。
如此處使用,「電子裝置」一詞係指下列裝置中 之任一者:各種智慧型電話、顯示螢幕、小區式電話、平板、個人數位助理器(PDA)、膝上型電腦、電腦、伺服器、以及包括一顯示器、一處理器,且能顯示影像在該顯示器上,及能透過無線或有線通訊網路與其它電子裝置通訊之其它類似的電子裝置。
如此處使用,「情境範圍」一詞係指一電子裝置之情境。換言之,情境範圍係指目前正在該電子裝置上跑的應用程式、處理、或活動(例如視訊分享應用程式、遊戲、瀏覽器、主螢幕等)。
於後文詳細說明部分中參考附圖,附圖構成本發明之一部分,及於其中藉由例示顯示特定實施例其中可實施本文揭示之主旨。須瞭解不背離本文揭示之範圍,可運用其它實施例及做出結構上或邏輯上的改變。因此,後文詳細說明部分絕非視為限制性及本文揭示之範圍係由隨附之申請專利範圍各項界定。又,須瞭解此處使用之片語及術語係用於描述性目的而不應視為限制性。此處「包括」、「包含」或「具有」及其變化詞之使用意圖涵蓋後文列舉之項目及其相當項目以及額外項目。也須注意多個以硬體及軟體為基礎之裝置以及多個不同結構組件可用以具現所揭示之方法及系統。
圖1為能夠進行下述技術之一電子裝置10之一實施例之示意例示圖。該電子裝置10可為一行動電子裝置(例如智慧型電話)、固定式電子裝置(例如桌上型電腦、顯示器螢幕等)、可轉換電子裝置(例如可轉換膝上型電腦)、或任 何其它型別之電子裝置。舉例言之,該電子裝置10可為平板、膝上型電腦、個人電腦、一體機計算裝置、遊戲機臺、伺服器、智慧型電話、音樂播放器、視覺播放器、個人數位助理器(PDA)、小區式電話、電子筆記板、多個分散式計算裝置、或包括一顯示器及一處理器之任何其它合宜電子裝置。於該具體實施例中,電子裝置10包括至少一個處理裝置30(又稱處理器)、一顯示器32、一記憶體資源35、輸入介面45、及通訊介面50。於其它實施例中,電子裝置10包括用以進行此處描述之功能的額外的更少數的或不同的組件。
容後詳述,電子裝置10包括軟體、硬體、彧其適當組合經組配以能夠發揮電子裝置10之功能,及許可其進行後述技術且與一或多個外部系統/裝置互動。舉例言之,電子裝置10包括用以介接外部裝置/系統及/或網路(圖中未顯示)之通訊介面(例如Wi-Fi®介面、藍牙介面、3G介面、4G介面、近場通訊(NFC)介面等)。該網路可包括任何合宜型別或組態之網路以許可電子裝置10與任何外部裝置/系統間之通訊。
容後詳述,於一個實施例中,該電子裝置10可與用於該電子裝置10之語音搖控之至少一個電子裝置15(例如智慧型電話、計算裝置、伺服器、多個分散式計算裝置等)通訊。此外,電子裝置10也可與一外部資料庫20通訊以取回針對裝置10之操作指令相關的或此處描述之其它處理相關的資料。須瞭解有關本文描述被描述為由該電子裝置 10執行之操作於若干具現中,可在電子裝置10與其它計算裝置(圖中未顯示)間進行或分散在其間。
電子裝置10之處理裝置30(例如中央處理單元、一組分散式處理器、微處理器、微控制器、特定應用積體電路(ASIC)、圖形處理器、多處理器、虛擬處理器、雲端處理系統、或其它合宜控制器或可規劃裝置)、記憶體資源35、輸入介面45、及通訊介面50係操作式耦接至一匯流排55。
顯示器32提供視覺資訊給一使用者,諸如各種顯示視窗、小圖幟、標籤、視訊影像、圖像等。顯示器32也顯示自在顯示於顯示器螢幕上之一視窗上的電子裝置10上跑的不同應用程式之內容。顯示器32可為透明液晶顯示器(LCD)、有機發光二極體(OLED)顯示器、電漿顯示器、或任何其它合宜顯示器。顯示器32可為電子裝置10之部件(例如當該電子裝置10為平板或一體機裝置時),可為與電子裝置10作電子通訊之一分開組件(例如當該電子裝置為有一分開監視器之桌上型電腦時),及可為可卸式組件其也可用作為手持式裝置(例如當該電子裝置10為可轉換計算裝置時)。顯示器32可具有不同尺寸且可支援各型顯示器解析度。
通訊介面50許可電子裝置10與多個網路、通訊鏈路、及外部裝置通訊。輸入介面45可自與電子裝置10通訊之任何內部或外部裝置/系統接收資訊。於一個實施例中,輸入介面45包括至少一個資料介面60。於其它實施例中, 輸入介面45可包括額外介面。於一個具現中,資料介面60可自外部資料庫20接收語音輸入(例如自該電子裝置之使用者或自外部電子裝置15)或通訊。
處理器30包括一控制器33(又稱一控制單元)及可使用任何合宜型別之處理系統具現,於該處至少一個處理器執行儲存於記憶體35之電腦可讀取指令。該記憶體資源35包括任何合宜型別、數目、及組態之依電性或非過渡機器可讀取儲存媒體37以儲存指令及資料。於該記憶體35中之機器可讀取儲存媒體37之實施例包括唯讀記憶體(ROM)、隨機存取記憶體(RAM)(例如動態RAM[DRAM]、同步DRAM[SDRAM]等)、可電氣抹除可規劃唯讀記憶體(EEPROM)、快閃記憶體、SD卡、及其它合宜磁性、光學、物理、或電子記憶體裝置。記憶體資源35也可用以儲存於指令之由處理器30執行期間的暫時變數或其它中間資訊。
記憶體35也可儲存一作業系統70及網路應用程式75。該作業系統70可為多使用者、多處理、多工作、多執行緒、及即時。該作業系統70也可執行基本工作,諸如辨識自輸入裝置諸如鍵盤、數字小鍵盤、滑鼠、自一使用者之語音等輸入;發送輸出給投影器及相機;追蹤記憶體35上之檔案及目錄;控制周邊裝置,諸如列印器、影像拍攝裝置;及管理匯流排55上之流通量。網路應用程式75包括用以建立及維持網路連結之各種組件,諸如用以具現通訊協定之電腦可讀取指令,諸如TCP/IP、HTTP、乙太網路®、USB®、及火線®。
儲存在非過渡機器可讀取儲存媒體37上且由處理器30執行之軟體包括例如,韌體、應用程式、程式資料、濾波器、規則、程式模組、及其它可執行指令。控制單元33自機器可讀取儲存媒體37取回,及執行與此處描述之控制程序及方法相關之指令等。於一個實施例中,儲存於非過渡機器可讀取儲存媒體37之該等指令具現一情境範圍決定模組39、一指令識別模組40、一指令產生模組41、及一指令執行模組42。於其它實施例中,該等指令可具現更多或更少個模組(例如與裝置10之操作相關的各種其它模組)。於一個實施例中,模組39-42可以用以進行後述功能之電子電路具現。如前述,此外或另外,模組39-42可具現為編碼在一機器可讀取儲存媒體上及由一處理器可執行之一串列指令。
於一個具體實施例中,模組39-42可預先安裝在裝置10上作為該裝置之作業系統之部件。於另一個具體實施例中,模組39-42可下載至裝置10(例如自雲端)。如此,由模組39-42具現之處理程序可在裝置10上執行或在與裝置10通訊之遠端處理裝置內執行。容後詳述,情境範圍決定模組39決定在一新語音輸入接收在裝置10之後該電子裝置之目前情境範圍。指令識別模組40根據所接收的語音輸入(被轉換成文字)及裝置10之情境範圍而識別針對該電子裝置之一指令。指令產生模組41根據所接收的語音輸入及裝置10之情境範圍而產生針對該電子裝置之一指令。指令執行模組42根據識別之指令在電子裝置10上執行至少一個 動作。
電子裝置10及其它系統/裝置相聯結的資訊及資料可儲存、登錄、處理、及分析以具現此處描述之控制方法及程序。舉例言之,記憶體35可包括至少一個資料庫80。於其它具體實施例中,電子裝置10可存取在電子裝置10遠端儲存(例如可透過網路或雲端存取)之外部資料庫(例如資料庫20)。
圖2例示一流程圖顯示用以使用語音指令控制一電子裝置之操作之方法100之一實施例。容後詳述,該等操作可涉及基於語音輸入指令在電子裝置10上執行至少一個動作。於一個實施例中,方法100可由電子裝置10之處理器30之控制單元33執行。此處就方法100描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法100也能夠使用與例示實施例中顯示的元件額外的或更少的元件執行。
方法100可以編碼於由電子裝置10之處理器30可執行的一非過渡機器可讀取儲存媒體37上之指令形式執行。於一個實施例中,方法100之指令具現情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42。於其它實施例中,方法100之執行可分散在該處理裝置30及與該處理裝置30通訊之其它處理裝置間。
方法100始於方塊110,於該處處理器30檢測自一電子裝置10之一使用者的至少一個語音輸入。該使用者可直接提供語音輸入給該裝置(例如藉於裝置10講話)。另外, 語音輸入可遠端提供。舉例言之,一使用者可利用與電子裝置10通訊之另一裝置(例如電子裝置15)提供語音輸入給該裝置10。該使用者可提供語音輸入給該裝置15,其發射該語音輸入給該電子裝置10(例如透過通訊介面)。其許可該使用者進行裝置10之語音搖控。其對具有大型顯示器(例如在公眾區域之廣告顯示器)之裝置10極為有用,於該處該裝置之麥克風可能無法檢測與來自一使用者之直接語音通訊。
於若干實施例中,處理器30之控制單元33使用既有語音辨識工具及/或應用程式以檢測自該使用者之至少一個輸入。於其它實施例中,語音辨識工具可由模組39-42中之一者提供。自該使用者之語音輸入可包括至少一個字組或片語其意圖控制該裝置10之操作及在裝置10上執行動作。由該使用者所做的語音輸入可包括:「開啟通知」、「開啟快速設定」、「下捲」、「上捲」、「拍快照」、「關閉對話」、及其它輸入。其次,於120,該控制單元33將該至少一個語音輸入變換成包括至少一個字組之一文字結構。舉例言之,控制單元33使用裝置10上的既有語音辨識工具或應用程式以將該語音輸入變換成一文字結構。
於130,控制單元33決定該電子裝置之一目前情境範圍。此點可由情境範圍決定模組39進行。該電子裝置之該目前情境範圍為目前在裝置上跑或由裝置執行的應用程式、處理、或活動。舉例言之,若該使用者正在使用裝置10瀏覽網際網路,則該目前情境範圍為瀏覽器。若該使 用者正在一視訊分享網頁上觀看一視訊,則該目前情境範圍為該視訊分享網頁。當該使用者係在該裝置10之主畫面時,該目前情境範圍為該裝置之主畫面。決定裝置10之目前情境範圍有利於所描述之處理,原因在於基於該裝置之情境範圍,處理器30可遠更準確地分析語音輸入。容後詳述,取決於裝置10之情境範圍,每個語音指令可與一分開動作相聯結。
繼續參考圖2,控制單元33比較自該使用者的語音輸入之文字結構與多個既有文字結構(於140)。步驟140及150可由指令識別模組39執行。既有文字結構中之各者可與針對在該電子裝置上之一動作之一指令相聯結。於一個實施例中,該等多個既有文字結構為「本地」,及其與裝置10之特定情境範圍(例如主畫面、應用程式、瀏覽器等)相聯結。舉例言之,多個預定文字結構可與該裝置之可能情境範圍各自相聯結。換言之,此等既有文字結構表示只可在特定情境空間(亦即應用程式等)執行的指令。當該裝置10之目前情境範圍為瀏覽器時,該瀏覽器之既有文字結構(亦即指令)可包括:「下移、下捲、捲到底、上捲、上移、上、下、更多、到頂、到底、至頁首、到、前轉、前進、前移、刷新、重載、刷新該頁面、刷新頁面、重載該頁面、重載頁面、頁面重載、停止載入等」。此外,相機應用程式之既有文字結構可包括:「拍照、攝影、列印、分享等」。該裝置10之其它情境範圍可具有與其相聯結的不同多個既有文字結構。
此外,不同多個既有文字結構可能非與該裝置10之目前情境範圍相聯結。此等既有文字結構可為「通用」文字結構,其表示可在系統層面上進行,可能不僅為一特定應用可資利用的指令。此等「通用」文字結構可包括:「開啟通知、開啟通知、清除通知、清除通知、關閉通知、關閉通知、關閉、退回、返回、回去、回來、首頁、主畫面、到主畫面、按首頁鈕、打字「a、b、c...」、拼字、晚近app、跑工作、大寫鍵、n轉為大寫、關閉大寫鍵、打空格鍵、退回鍵、待命、鎖定畫面、前進、進入、喚醒、拍快照等」。於若干具體實施例中,有些既有文字結構可為「本地」及「通用」兩者。
於一個實施例中,該等既有文字結構(「本地」及「通用」兩者)可儲存於一資料庫。其可為裝置10之資料庫80、外部資料庫20、或於模組39-42操作期間可由處理器30存取文字結構之任何其它外部資料庫。既有文字結構各自係與一指令(也儲存於一資料庫)相聯結,其包括電子裝置之至少一個動作(例如開啟一標籤等)。藉由根據該使用者的語音輸入執行動作,一使用者可執行裝置10之操作的語音控制。
圖3例示比較自該使用者的語音輸入之該文字結構與多個既有文字結構之方法200。於一個實施例中,方法200可由處理器30之控制單元33執行。此處就方法200描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法200也能夠使用與例示實施例 中顯示的元件額外的或更少的元件執行。方法200可以編碼在一機器可讀取儲存媒體上由該電子裝置10之該處理器30可執行之指令形式執行。於一個實施例中,方法100之指令具現指令識別模組39。
方法200始於210,於該處控制單元33比較自該使用者的語音輸入之該文字結構與該目前情境範圍相聯結的多個既有文字結構。舉例言之,若經識別之目前情境範圍為一遊戲應用程式,則控制單元33比較該文字結構與遊戲應用程式相聯結的既有文字結構。該控制單元33決定自該使用者的語音輸入之該文字結構與該情境範圍相聯結的既有文字結構是否存在有匹配(於220)。若經識別之情境範圍匹配與該目前情境範圍相聯結的多個既有文字結構中之至少一者,則控制單元33前進至方法100之步驟150。
當該文字結構不匹配與電子裝置10之該目前情境範圍相聯結的既有文字結構時,控制單元33比較該文字結構與非與該電子裝置之該目前情境範圍相聯結的多個既有文字結構(於230)。如此,該控制單元識別並無既有「本地」指令匹配該使用者的語音輸入,及移動至分析「通用」指令。然後控制單元33決定該文字結構與該既有「通用」文字結構間是否存在有匹配(於240)。若該經識別之文字結構匹配非與該目前情境範圍相聯結的多個既有文字結構中之至少一者。則控制單元33前進至方法100之步驟150。若未發現匹配,則控制單元33根據該指令之一可能分數及一容差臨界值(容後關聯圖5詳述)執行一匹配處理(步驟B)。 又,根據該指令之可能分數及容差臨界值,該控制單元進行匹配處理為不成功,則該控制單元可針對電子裝置形成一新指令(步驟C),容後關聯圖7及圖8詳述。
繼續參考圖2,當該文字結構匹配該等既有文字結構中之至少一者時(於150),控制單元33識別自該使用者的至少一個語音輸入之一相對應指令。如前記,該等既有文字結構各自與包括該電子裝置之至少一個動作之一指令相聯結。該等既有文字結構及相聯結的指令係儲存於一資料庫(20、80等)。此等資料庫可以由一使用者產生的或由一第三方供給的新指令更新,提供給所述系統及處理程序作為一服務。於一個實施例中,該等指令及與該等指令相聯結的動作被組織為可擴延標記語言(XML)檔案。如此,當該語音輸入之該文字結構匹配與該目前情境空間相聯結的一既有文字結構時,該控制單元識別一指令其相對應於該文字結構及結果相對應於該使用者的語音輸入。另外,當該語音輸入之文字結構匹配不與該目前情境空間相聯結的一既有「通用」文字結構時,該控制單元識別一指令其相對應於該文字結構及結果相對應於該語音輸入。
於160,控制單元33基於經識別之指令而在電子裝置10上執行一動作。此點可以指令執行模組42執行。例如,各個指令可與一軟體碼規則相聯結,該規則與裝置10之作業系統通訊以執行該指令。軟體規則描述欲由作業系統執行之動作。該裝置10之作業系統可揭露第三方軟體之應用程式規劃介面(API),許可與作業系統通訊。舉例言 之,該指令執行模組42可發送欲在該裝置10上執行之一動作或操作的一摘要說明給該作業系統用以發送另一應用程式。該摘要說明可包括期望應用程式之名稱。該作業系統可進行發送特定應用程式之動作。另外,指令執行模組42可與期望應用程式(例如瀏覽器應用程式)直接通訊以發送欲執行之一動作或操作的一摘要說明。然後應用程式決定請求為何及執行該動作(例如下捲)。如此,控制單元33基於該使用者的語音輸入控制電子裝置10之操作。
於某些情況下,該使用者可提供一語音輸入給裝置10,暫時一段時間(例如5、10、15秒等),然後提供循序語音輸入其可能與或可不與該第一語音輸入相關。於此種情況下,控制單元33可能難以分析兩個循序語音輸入,及比較該等語音輸入與既有文字結構以識別相對應於兩個循序語音輸入之一指令。如此,本文揭示提出一種連結自一使用者的兩個循序語音輸入及根據已連結的循序語音輸入執行一動作之方法。
圖4例示連結自一使用者的至少兩個循序語音輸入之一情境感知方法300。該方法解譯由該使用者之一串列(例如至少兩個)連續指令間之關係。於一個實施例中,方法300可由處理器30之控制單元33執行。方法300可以編碼在一非過渡機器可讀取儲存媒體37上可由電子裝置10之處理器30執行的指令形式執行。
方法300始於305,於該處控制單元33識別自至少兩個循序語音輸入中之第一者的一第一指令。然後,控制 單元33識別自至少兩個循序語音輸入中之第二者的一第二指令(於310)。舉例言之,第一及第二指令係如方法100步驟110-150之描述識別。其次,於315,控制單元33決定第一語音輸入與第二語音輸入間之時間是否超過一預定臨界值。該臨界值可由該裝置之使用者設定或可為預先決定。於若干實施例中,該臨界值可為5、10、15秒或任何其它合理的臨界值。臨界值之目的係決定該使用者是否已經完成輸入(亦即說出)第一指令,及第二指令為一新指令,或該第二指令是否為第一指令之延續。
當控制單元33決定該第一語音輸入與該第二語音輸入間之時間超過該預定臨界值時,該控制單元結束處理。於該種情況下,該控制單元決定兩個指令非相關,原因在於第二指令係在預定臨界值時間之後接收,因此可能為由該使用者所下的一新指令。另外,當控制單元33決定該第一語音輸入與該第二語音輸入間之時間不超過該預定臨界值時,該控制單元決定該第二指令為該第一指令之一語義連續或為非關第一指令之一新指令(於320)。若該第二指令非為該第一指令之一語義連續,則該控制單元結束處理。另一方面,該第二指令為該第一指令之一語義連續,控制單元33將第二指令與第一指令關聯以在該電子裝置上執行一動作(於325)。於一個實施例中,當該第二指令為該第二指令相關之一預定子指令時,該第一指令為該第二指令之一語義連續。既有指令各自可包括相關子指令之一列表。也可使用識別該等指令間之一語義連續之其它方法。
舉例言之,若該第一指令為「音量減低」,該第二指令為「更多」,及該第二指令不超過臨界值,則控制單元決定該第二指令為該第一指令之一語義連續。該「更多」指令可識別為該「音量減低」指令之一子指令。換言之,可能該使用者想要再度執行該「音量減低」指令以進一步減低體積。於該種情況下,控制單元執行「音量減低」指令相聯結的動作。藉施用方法300,提示之解決方案辨識該使用者的指令及意圖更準確。
許多時間該控制單元33可能無法直接匹配該使用者的語音輸入至與一指令相聯結的一既有文字結構。其原因可能係由於下述事實:大部分使用者偏好提供未經結構化之語音指令(亦即於不同形式)而非記憶特定既存指令。為了改良識別自該使用者的至少一個語音輸入相對應的一指令之過程,控制單元33根據指令之可能性分數及容差臨界值執行一匹配程序。
圖5例示當並無與一既有指令之直接匹配時,識別自該使用者的至少一個語音輸入相對應的一指令之方法400。該方法解譯由該使用者一串列(例如至少兩個)接續指令之關係。於一個實施例中,方法400可由處理器30之控制單元33執行。方法400可以編碼在可由電子裝置10之處理器30執行的非過渡機器可讀取儲存媒體37上之指令形式執行。
方法400始於410,於該處當至少一個語音輸入之文字結構不匹配該等既有文字結構中之至少一者時,控制 單元33基於至少一個語音輸入計算一目標指令之可能性分數。換言之,當語音輸入之文字結構不直接匹配既有「本地」或「通用」文字結構時,控制單元33識別一目標指令及計算針對該目標指令之可能性分數。該目標指令表示文字結構與一指令相聯結的一既有文字結構間之潛在匹配。可能性分數指示該目標指令係等於實際既有指令。
控制單元33可使用各項技術以識別一目標指令,及計算針對該目標指令之可能性分數。舉例言之,控制單元33可使用一關鍵字匹配容差方法,於該處該目標指令極其類似既有指令中之至少一者(例如該目標指令為「拍螢幕快照」,於該處實際既有指令為「拍螢幕快照」及字眼「快照」為關鍵字)。於另一個實施例中,控制單元可使用同義字容差方法以識別該目標指令(例如目標指令為「尋找x、y、z」及實際既有指令為「找到x、y、z」)。控制單元33可使用一字典API或一字組程式庫以找出在所接收的文字結構中之一既有文字結構中之一同義字。
於又另一個實施例中,控制單元33可使用一種拼字模式容差方法,於該處一使用者可激勵一「拼字」模式以拼寫一提供指令。於該「拼字」模式中,控制單元33匹配任何同音字與單一字母(例如「see」對「c」、「you」對「u」、「are」對「r」等)。進入「拼字」模式之後,一使用者可拼出一指令(例如藉說出「拼字c」、「c」等)。此點有助於當語音辨識應用未能檢測由該使用者所發音的字母/字組時。於另一個實施例中,控制單元可使用相似發音的字組 容差方法,於該方法中,該目標指令之發音可能類似至少一個既有指令(例如目標指令為「到指令tap(分接)」,而實際既有指令為「到指令tab(標籤)」)。
於一個實施例中,若該控制單元33基於文字結構而識別多於一個可能目標指令,則該控制器可選擇匹配一既有指令之最高可能性分數的該目標指令。於另一個實施例中,控制單元33比較該經識別的目標指令之該可能性分數與該目標指令相聯結的一預定容差臨界值(於420)。於430,該控制單元決定該目標指令之該可能性分數是否超過與該目標指令相聯結的容差臨界值。當該目標指令之該可能性分數超過與該目標指令相聯結的容差臨界值時,控制單元33自該既有文字結構/指令識別一指令(於440)。於410,因該控制單元已經識別該目前情境範圍,故只考慮在該情境或「通用」文字結構之既有文字結構。另一方面,若該目標指令之該可能性分數不超過與該目標指令相聯結的容差臨界值,則控制單元33結束該處理。
於440,若基於該使用者的語音輸入有關該潛在指令仍然存在有模棱兩可,則該控制單元33可對該裝置10之使用者提出有關該目標指令之建議。舉例言之,若自該使用者的語音輸入之文字結構為「產生一標籤」及該目標指令為「開啟一新標籤」,則該控制單元可在該螢幕32上顯示一訊息框。該訊息框可顯示一訊息給該使用者(例如「你是否想開啟一新標籤?」)。若該使用者拒絕該提議,則該控制單元可以相同方式提出具有次高可能性分數之指令。 此外,控制單元33也提出產生一新指令(於450)其包括在電子裝置上之一動作。舉例言之,於該訊息框中,控制單元33可顯示一新指令提議訊息(例如「新增「產生一標籤」指令?」)且呈示給該使用者一選項以核准所提議的指令。如此,該新指令可執行與該目標指令相同動作。該控制單元也自該使用者接收有關該新指令之有效性之一構象(conformation)(於460)。藉此方式,該新指令係與一既有文字結構相聯結,及包括在該電子裝置上的一動作(例如與該目標指令之該既有文字結構相聯結的動作)。
若該使用者不想基於該目標指令產生一新指令,但他或她自該既有指令識別一指令,則控制單元33可具現學習技術以改進該目標指令之可能性分數。如此,當該使用者提供於該相同情境範圍的相同語音輸入/指令時,該控制單元應用該學習技術及針對該「新」語音輸入/指令求出一較高可能性分數。
圖6例示一流程圖顯示以語音指令控制一電子裝置之操作之替代方法500之一實施例。該方法500可以情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42執行。此等模組可以用以進行後述功能之電子電路具現。另外,模組39-42可以編碼於一非過渡機器可讀取儲存媒體37上可藉電子裝置10之處理器30執行的指令形式具現。
方法500始於方塊510,於該處控制單元33產生針對該電子裝置之一新指令。於一個實施例中,該新指令係 與該電子裝置產情境範圍相聯結,及包括電子裝置上之一動作。容後詳述,該新指令係由控制單元儲存(例如資料庫20、80、或由處理器30可存取之另一資料庫)。產生一新指令之特定方法於後文關聯圖7及圖8描述。
圖7例示一流程圖顯示針對電子裝置10產生一新語音指令之方法600之一實施例。該方法600可以指令產生模組41執行。該方法允許一使用者快速導航通過作業系統,及針對裝置10之特定情境範圍產生新動態指令。方法600始於610,於該處控制單元33接收自一使用者接收一新語音輸入。舉例言之,當一使用者意圖產生一新語音指令時,他或她可提供一新語音輸入。於該種情況下,該使用者可首先提出一初始指令給裝置10以產生一新指令(例如「新指令」、「產生一指令」等)。另外,當一使用者意圖提供一指令給該裝置而此等指令不存在於該處理器可用的「本地」或「通用」指令時,可提供新語音輸入(參考圖3)。於620,該控制單元變換新語音輸入成一新文字結構。此一步驟係類似方法100之步驟120。其次,於630,控制單元決定電子裝置之目前情境範圍(類似方法100之步驟130)。
於640,控制單元33識別該新文字結構在該目前情境範圍之出現次數。換言之,控制單元33決定該新新文是否匹配在目前情況中之一文字結構。舉例言之,若該情境為一新網頁,而該新文字結構為「運動」,則控制單元識別「運動」在該所顯示網頁之出現次數(若「運動」不被識別為與指令相聯結的既有文字結構中之一者)。於該種情況 下,「運動」可被視為在該新網頁上之一標籤前導至該運動網頁。控制單元可自該作業系統之架構框架直接取回該情境範圍(亦即所顯示之新網頁)的文字資訊及針對該文字資訊之位置資料。另外,控制單元可使用光學字符識別(OCR)技術以將該情境範圍之一影像轉換成文字資訊及位置資料。然後該文字資訊及位置資料經搜尋以識別該新文字結構之出現次數。
控制單元可識別該新文字結構出現在該情境範圍之一個位置或多個位置。於650,當該文字結構只在目前情境範圍識別一次時,控制單元33聯結該新文字結構與針對該電子裝置之該新指令。舉例言之,當文字結構「運動」在新網頁上只識別一次時,該控制單元紀錄在該情境空間之「運動」鏈路上之一點選動作,及該動作係與該特定指令(亦即「運動」)相聯結的一軟體碼規則鏈接。如同既有指令,儲存文字結構、指令、及相聯結的軟體碼規則(例如於資料庫20、80等)。但此種新穎動態指令只與所紀錄的極其特定情境範圍相聯結。於一個具現中,在產生該新指令之前,該控制單元可顯示包括指令之名稱/文字(例如「運動」)之一「新指令」框、與該指令相聯結的動作等。該使用者可確認或取消該新指令。如此,該控制單元在該文字結構、該指令、及與該動作鏈接之該軟體碼規則間之一觸發,故當一使用者於此一情境範圍再度說出該指令時該動作被重複再現。此一處理程序可針對任何難以言傳的對象(例如小圖幟、鏈路、影像等)重複,其包括文字結構且可由該控制 單元在該裝置之情境範圍識別。
另外,當控制單元33在目前情境範圍識別該新文字結構多於一次時,記憶體控制器自多個文字結構識別一指令文字結構(於660)。舉例言之,當文字結構「運動」在新網頁上的多個位置經識別時,該控制單元33可強調及計數文字結構之全部位置。然後該使用者可選擇新文字結構之較佳位置(例如藉說出期望數目等)。所選較佳位置為指令文字結構。於670,記憶體控制器聯結指令文字結構至新指令。此一處理係類似步驟650描述之處理。
圖8例示一流程圖顯示針對電子裝置10產生一新語音指令之替代方法700之一實施例。此種方法適用以針對在裝置10上可包括一動作(例如輕敲、揮擊、掐取等)之動作及涵蓋難以言傳的對象(例如小圖幟、鏈路、影像等)之動作兩者。方法700可以指令產生模組41進行。
方法700始於710,於該處控制單元33將該電子裝置變換成一指令訓練模式。舉例言之,該使用者可首先提供一初始指令給裝置10以起始訓練模式(例如「訓練」、「訓練模式」、「產生新指令」等)。於720,控制單元33決定電子裝置10之目前情境範圍(類似方法100之步驟130)。然後於730,該控制單元識別在裝置10之目前情境範圍進行的電子裝置上之一動作。舉例言之,該控制單元紀錄於由該使用者進行之情境空間中之一動作(例如輕敲、揮擊、掐取等)。其次,該控制單元接收針對該所執行動作之自該使用者之一新語音輸入(於740)。舉例言之,該使用者可開啟一瀏覽 器(亦即情境範圍),點選該刷新鈕(亦即執行由控制單元識別之動作),及提供語音輸入給控制單元(「刷新」、「刷新該頁」等)。
於一個具現中,然後控制單元33可顯示一「新指令」訊息框,其包括指令之名稱/文字(例如「刷新」)、與指令相聯結的動作等。該使用者可確認或取消該新指令。於750,該控制單元聯結在目前情境範圍之動作與語音輸入以產生針對該電子裝置之新指令。舉例言之,由控制單元識別之動作係與該特定指令(亦即「刷新」)相聯結的一軟體碼規則鏈結。該文字結構、該指令、及該與動作鏈接的相聯結軟體碼規則經儲存(例如資料庫20、80等)。
該使用者可隨時施加類似技術以編輯既有指令。舉例言之,該使用者可提供初始指令給裝置10以起始編輯模式(例如「編輯指令」、「改變指令」等)。然後控制單元33可顯示一「編輯指令」訊息框其可提示該使用者提供期望的指令。在該使用者提供指令之後,訊息框可提示該使用者提供新指令或與該指令相聯結的新動作。該使用者藉提供指令給該控制單元而確認或取消該等編輯。
此外,所提示之方法700可適用以針對顯示在顯示器32上的任何難以言傳的或摘要的對象(例如小圖幟、鏈路、影像等)之產生新指令。舉例言之,一使用者可藉提供一指令(例如「訓練」、「訓練模式」、「產生新指令」等)而起始訓練模式。其次,控制單元決定裝置之目前情境範圍(類似720)。類似730,控制單元識別在該目前情境範圍內進行 的該電子裝置上之一動作。於該實施例中,該動作可產生環繞該摘要對象之一語音激勵區(例如觸摸/點選巨集指令)其可以一語音指令進行。舉例言之,該使用者可環繞該顯示器上之該摘要對象畫一多角形(例如使用一觸摸輸入或滑鼠輸入)以產生一語音激勵區(例如一巨集指令)。然後,該控制單元自該使用者朝向該所進行之動作(類似步驟740)接收一新語音輸入。該新指令可紀錄為一超鏈結或一可點選動作,及將儲存於一資料庫。如此,下次該控制單元識別該情境範圍及接收相關指令,該控制單元將執行該巨集指令以進行在該對象上的一點選或觸摸。該顯示器上之該相同摘要對象可被分派多個語音指令。
繼續參考圖6,控制單元33檢測自一電子裝置之一使用者的至少一個語音輸入(於520)。該步驟係類似方法100之步驟110。於530,該控制單元將該至少一個語音輸入變換成包括至少一個字組之一文字結構(類似方法100之步驟120)。於540,控制單元決定電子裝置之目前情境範圍。此一步驟係類似方法100之步驟130。其次,控制單元33比較文字結構與多個既有文字結構。此等既有文字結構包括由使用者產生的新指令。此一步驟係類似方法100之步驟140。最後,當文字結構匹配該等既有文字結構中之至少一者時,該控制單元識別一指令。此一步驟係類似方法100之步驟150。
100‧‧‧方法
110-160‧‧‧方塊

Claims (15)

  1. 一種方法,該方法包含:檢測來自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;決定該電子裝置之一目前情境範圍;比較該文字結構與多個既有文字結構,其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於來自該使用者之至少一個語音輸入;以及基於該經識別之指令進行在該電子裝置上之一動作。
  2. 如請求項1之方法,其中該等多個既有文字結構係與該電子裝置之該目前情境範圍相聯結。
  3. 如請求項2之方法,其進一步包含當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時,比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
  4. 如請求項1之方法,其進一步包含連結來自一使用者之至少兩個循序語音輸入及基於該等連結之循序語音輸入執行一動作。
  5. 如請求項4之方法,其進一步包含:自該等至少兩個循序語音輸入中之一第一者識別一第一指令;自該等至少兩個循序語音輸入中之一第二者識別一第二指令;決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值;決定該第二指令是否為該第一指令之一語義連續;以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時,將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
  6. 如請求項1之方法,其中識別一指令以相對應於該至少一個語音輸入進一步包括:當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時,基於該至少一個語音輸入計算針對一目標指令之一可能性分數;比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值;當該目標指令之該可能性分數超過該臨界值時識別一指令;提議產生一新指令,其中該新指令包括在該電子裝置上之一動作;以及 接收來自該使用者有關該新指令之有效性之一構象。
  7. 如請求項1之方法,其進一步包含:基於來自該使用者之語音輸入產生一新指令,其中該新指令係與該目前情境範圍相聯結;聯結該新指令與在該電子裝置上之至少一個動作;以及儲存該新指令。
  8. 一種系統,其包含:具有含一控制單元之至少一個處理裝置之一電子裝置,用以進行下列動作:針對該電子裝置產生一新指令,其中該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作,檢測來自一電子裝置之一使用者的至少一個語音輸入,將該至少一個語音輸入變換成包括至少一個字組之一文字結構,決定該電子裝置之該目前情境範圍,比較該文字結構與多個既有文字結構,當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。
  9. 如請求項8之系統,其中該控制單元係用以:接收來自該使用者之一新語音輸入; 將該新語音輸入變換成一新文字結構;決定該電子裝置之該目前情境範圍;識別該新文字結構於該目前情境範圍中之出現次數;當該文字結構於該目前情境範圍中只被識別一次時,聯結該新文字結構至針對該電子裝置之新指令;當該文字結構於該目前情境範圍中被識別多於一次時,識別一指令文字結構;以及聯結該指令文字結構與該新指令。
  10. 如請求項8之系統,其中該控制單元係用以:將該電子裝置過渡至一指令訓練模式;決定該電子裝置之該目前情境範圍;識別於該目前情境範圍中執行之在該電子裝置上之一動作;接收來自該使用者導向該所執行之動作之一新語音輸入;以及聯結於該目前情境範圍中之該動作與該新語音輸入以產生針對該電子裝置之該新指令。
  11. 如請求項8之系統,其中該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍相聯結的多個既有文字結構,及其中當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時,該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
  12. 一種以可由電子裝置之至少一個處理裝置執行之指令 編碼的非暫態機器可讀儲存媒體,該機器可讀儲存媒體包含用以進行下列動作之指令:處理接收自該電子裝置之一使用者之至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;決定該電子裝置之目前情境範圍;決定該文字結構是否匹配來自與目前情境相聯結的多個既有文字結構之至少一個既有文字結構;決定該文字結構是否匹配來自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於來自該使用者之該至少一個語音輸入;以及當該文字結構並不匹配該等既有文字結構中之至少一者時,產生針對該電子裝置之一新指令,其中該新指令係與該目前情境範圍相聯結。
  13. 如請求項12之非暫態機器可讀儲存媒體,其進一步包含用以連結來自一使用者之至少兩個循序語音輸入以基於該等連結之循序語音輸入執行一動作之指令。
  14. 如請求項13之非暫態機器可讀儲存媒體,其進一步包含用以進行下列動作之指令:自該等至少兩個循序語音輸入中之一第一者識別一第一指令; 自該等至少兩個循序語音輸入中之一第二者識別一第二指令;決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值;決定該第二指令是否為該第一指令之一語義連續;以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時,將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
  15. 如請求項12之非暫態機器可讀儲存媒體,其進一步包含用以進行下列動作之指令:當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時,基於該至少一個語音輸入計算針對一目標指令之一可能性分數;比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值;當該目標指令之該可能性分數超過該容差臨界值時識別一指令;提議產生一新指令,其中該新指令包括在該電子裝置上之一動作;以及接收來自該使用者有關該新指令之有效性之一構象。
TW104102702A 2014-01-31 2015-01-27 語音輸入命令之技術 TWI544366B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2014/014091 WO2015116151A1 (en) 2014-01-31 2014-01-31 Voice input command

Publications (2)

Publication Number Publication Date
TW201535157A TW201535157A (zh) 2015-09-16
TWI544366B true TWI544366B (zh) 2016-08-01

Family

ID=53757546

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104102702A TWI544366B (zh) 2014-01-31 2015-01-27 語音輸入命令之技術

Country Status (5)

Country Link
US (1) US10978060B2 (zh)
EP (1) EP3100259A4 (zh)
CN (1) CN105934791B (zh)
TW (1) TWI544366B (zh)
WO (1) WO2015116151A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI789891B (zh) * 2021-09-03 2023-01-11 中華大學學校財團法人中華大學 條件觸發的反饋系統及其方法

Families Citing this family (217)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11978436B2 (en) * 2022-06-03 2024-05-07 Apple Inc. Application vocabulary integration with a digital assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11592723B2 (en) 2009-12-22 2023-02-28 View, Inc. Automated commissioning of controllers in a window network
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US11054792B2 (en) 2012-04-13 2021-07-06 View, Inc. Monitoring sites containing switchable optical devices and controllers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9557885B2 (en) 2011-08-09 2017-01-31 Gopro, Inc. Digital media editing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US20240046928A1 (en) * 2012-04-13 2024-02-08 View, Inc. Controlling optically-switchable devices
US10964320B2 (en) * 2012-04-13 2021-03-30 View, Inc. Controlling optically-switchable devices
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10776375B2 (en) * 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
KR102394485B1 (ko) * 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
WO2015116151A1 (en) * 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command
US9754159B2 (en) 2014-03-04 2017-09-05 Gopro, Inc. Automatic generation of video from spherical content using location-based metadata
CA3156883A1 (en) 2014-03-05 2015-09-11 View, Inc. Monitoring sites containing switchable optical devices and controllers
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9685194B2 (en) 2014-07-23 2017-06-20 Gopro, Inc. Voice-based video tagging
US10074013B2 (en) 2014-07-23 2018-09-11 Gopro, Inc. Scene and activity identification in video summary generation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9734870B2 (en) 2015-01-05 2017-08-15 Gopro, Inc. Media identifier generation for camera-captured media
US9679605B2 (en) 2015-01-29 2017-06-13 Gopro, Inc. Variable playback speed template for video editing application
US20160225369A1 (en) * 2015-01-30 2016-08-04 Google Technology Holdings LLC Dynamic inference of voice command for software operation from user manipulation of electronic device
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
BR112017021673B1 (pt) * 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10186012B2 (en) 2015-05-20 2019-01-22 Gopro, Inc. Virtual lens simulation for video and photo cropping
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9894393B2 (en) 2015-08-31 2018-02-13 Gopro, Inc. Video encoding for reduced streaming latency
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10204273B2 (en) 2015-10-20 2019-02-12 Gopro, Inc. System and method of providing recommendations of moments of interest within video clips post capture
US9721611B2 (en) 2015-10-20 2017-08-01 Gopro, Inc. System and method of generating video from video clips based on moments of interest within the video clips
CN106653010B (zh) 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
TWI639153B (zh) 2015-11-03 2018-10-21 絡達科技股份有限公司 電子裝置及其透過語音辨識喚醒的方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN106814639A (zh) * 2015-11-27 2017-06-09 富泰华工业(深圳)有限公司 语音控制系统及方法
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
TWI562000B (en) * 2015-12-09 2016-12-11 Ind Tech Res Inst Internet question answering system and method, and computer readable recording media
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10095696B1 (en) 2016-01-04 2018-10-09 Gopro, Inc. Systems and methods for generating recommendations of post-capture users to edit digital media content field
US10109319B2 (en) 2016-01-08 2018-10-23 Gopro, Inc. Digital media editing
US10083537B1 (en) 2016-02-04 2018-09-25 Gopro, Inc. Systems and methods for adding a moving visual element to a video
US10409550B2 (en) 2016-03-04 2019-09-10 Ricoh Company, Ltd. Voice control of interactive whiteboard appliances
US10417021B2 (en) * 2016-03-04 2019-09-17 Ricoh Company, Ltd. Interactive command assistant for an interactive whiteboard appliance
US9972066B1 (en) 2016-03-16 2018-05-15 Gopro, Inc. Systems and methods for providing variable image projection for spherical visual content
US10402938B1 (en) 2016-03-31 2019-09-03 Gopro, Inc. Systems and methods for modifying image distortion (curvature) for viewing distance in post capture
US9794632B1 (en) 2016-04-07 2017-10-17 Gopro, Inc. Systems and methods for synchronization based on audio track changes in video editing
US9838731B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing with audio mixing option
US9838730B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing
CN109313498B (zh) * 2016-04-26 2023-08-11 唯景公司 控制光学可切换设备
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US9998769B1 (en) 2016-06-15 2018-06-12 Gopro, Inc. Systems and methods for transcoding media files
US10250894B1 (en) 2016-06-15 2019-04-02 Gopro, Inc. Systems and methods for providing transcoded portions of a video
US9922682B1 (en) 2016-06-15 2018-03-20 Gopro, Inc. Systems and methods for organizing video files
US10045120B2 (en) 2016-06-20 2018-08-07 Gopro, Inc. Associating audio with three-dimensional objects in videos
US10185891B1 (en) 2016-07-08 2019-01-22 Gopro, Inc. Systems and methods for compact convolutional neural networks
US10469909B1 (en) 2016-07-14 2019-11-05 Gopro, Inc. Systems and methods for providing access to still images derived from a video
US10395119B1 (en) 2016-08-10 2019-08-27 Gopro, Inc. Systems and methods for determining activities performed during video capture
US9836853B1 (en) 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10282632B1 (en) 2016-09-21 2019-05-07 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video
US10268898B1 (en) 2016-09-21 2019-04-23 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video via segments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10332628B2 (en) 2016-09-30 2019-06-25 Sap Se Method and system for control of an electromechanical medical device
EP3301598B1 (en) * 2016-09-30 2020-06-17 Sap Se Method and system for control of an electromechanical medical device
US10002641B1 (en) 2016-10-17 2018-06-19 Gopro, Inc. Systems and methods for determining highlight segment sets
US10284809B1 (en) 2016-11-07 2019-05-07 Gopro, Inc. Systems and methods for intelligently synchronizing events in visual content with musical features in audio content
US10262639B1 (en) 2016-11-08 2019-04-16 Gopro, Inc. Systems and methods for detecting musical features in audio content
US10572591B2 (en) * 2016-11-18 2020-02-25 Lenovo (Singapore) Pte. Ltd. Input interpretation based upon a context
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10534966B1 (en) 2017-02-02 2020-01-14 Gopro, Inc. Systems and methods for identifying activities and/or events represented in a video
US10339443B1 (en) 2017-02-24 2019-07-02 Gopro, Inc. Systems and methods for processing convolutional neural network operations using textures
US10127943B1 (en) 2017-03-02 2018-11-13 Gopro, Inc. Systems and methods for modifying videos based on music
US10185895B1 (en) 2017-03-23 2019-01-22 Gopro, Inc. Systems and methods for classifying activities captured within images
US10083718B1 (en) 2017-03-24 2018-09-25 Gopro, Inc. Systems and methods for editing videos based on motion
US10187690B1 (en) 2017-04-24 2019-01-22 Gopro, Inc. Systems and methods to detect and correlate user responses to media content
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395122B1 (en) 2017-05-12 2019-08-27 Gopro, Inc. Systems and methods for identifying moments in videos
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10698654B2 (en) * 2017-05-18 2020-06-30 Aiqudo, Inc. Ranking and boosting relevant distributable digital assistant operations
EP3635578A4 (en) 2017-05-18 2021-08-25 Aiqudo, Inc. SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS
US10838746B2 (en) 2017-05-18 2020-11-17 Aiqudo, Inc. Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations
US20180366108A1 (en) * 2017-05-18 2018-12-20 Aiqudo, Inc. Crowdsourced training for commands matching
US11340925B2 (en) 2017-05-18 2022-05-24 Peloton Interactive Inc. Action recipes for a crowdsourced digital assistant system
US11043206B2 (en) 2017-05-18 2021-06-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US11056105B2 (en) 2017-05-18 2021-07-06 Aiqudo, Inc Talk back from actions in applications
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10334415B2 (en) * 2017-06-16 2019-06-25 T-Mobile Usa, Inc. Voice user interface for device and component control
US10496363B2 (en) 2017-06-16 2019-12-03 T-Mobile Usa, Inc. Voice user interface for data access control
US10402698B1 (en) 2017-07-10 2019-09-03 Gopro, Inc. Systems and methods for identifying interesting moments within videos
US10614114B1 (en) 2017-07-10 2020-04-07 Gopro, Inc. Systems and methods for creating compilations based on hierarchical clustering
US10402656B1 (en) 2017-07-13 2019-09-03 Gopro, Inc. Systems and methods for accelerating video analysis
US11024305B2 (en) 2017-08-07 2021-06-01 Dolbey & Company, Inc. Systems and methods for using image searching with voice recognition commands
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102441067B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 사용자 입력 처리 장치 및 사용자 입력 처리 방법
KR102455067B1 (ko) * 2017-11-24 2022-10-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10503468B2 (en) 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
WO2019152511A1 (en) 2018-01-30 2019-08-08 Aiqudo, Inc. Personalized digital assistant device and related methods
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
DE102018103548A1 (de) * 2018-02-16 2019-08-22 Technisat Digital Gmbh Vorrichtung zum Fernbedienen sowie zweckgleiches Verfahren
US11195530B1 (en) 2018-02-19 2021-12-07 State Farm Mutual Automobile Insurance Company Voice analysis systems and methods for processing digital sound data over a communications network
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11100146B1 (en) * 2018-03-23 2021-08-24 Amazon Technologies, Inc. System management using natural language statements
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190134107A (ko) * 2018-05-24 2019-12-04 삼성전자주식회사 사용자의 음성을 처리하는 전자 장치를 포함하는 시스템 및 전자 장치의 음성 인식 제어 방법
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10832010B2 (en) * 2018-06-05 2020-11-10 International Business Machines Corporation Training of conversational agent using natural language
KR20200027753A (ko) * 2018-09-05 2020-03-13 삼성전자주식회사 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
US10984791B2 (en) 2018-11-29 2021-04-20 Hughes Network Systems, Llc Spoken language interface for network management
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR102229562B1 (ko) * 2019-07-25 2021-03-18 엘지전자 주식회사 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11593067B1 (en) * 2019-11-27 2023-02-28 United Services Automobile Association (Usaa) Voice interaction scripts
CN111048115A (zh) * 2019-12-13 2020-04-21 集奥聚合(北京)人工智能科技有限公司 语音识别方法及装置
CN111459451A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
US20230019737A1 (en) * 2021-07-14 2023-01-19 Google Llc Hotwording by Degree
US20230088513A1 (en) * 2021-09-22 2023-03-23 International Business Machines Corporation Multiuser voice command visualization

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW323364B (zh) * 1993-11-24 1997-12-21 At & T Corp
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
JP2001043064A (ja) * 1999-07-30 2001-02-16 Canon Inc 音声情報処理方法、装置及び記憶媒体
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
TW200506709A (en) 2003-08-08 2005-02-16 Mitac Technology Corp Fast voice control device for computer device and method thereof
US7356472B2 (en) * 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
US7624019B2 (en) * 2005-10-17 2009-11-24 Microsoft Corporation Raising the visibility of a voice-activated user interface
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
EP1879000A1 (en) 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
ES2302640B1 (es) * 2006-12-21 2009-05-21 Juan Jose Bermudez Perez Sistema para la interaccion mediante voz en paginas web.
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US20090018830A1 (en) 2007-07-11 2009-01-15 Vandinburg Gmbh Speech control of computing devices
US20110035662A1 (en) * 2009-02-18 2011-02-10 King Martin T Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
TWM343204U (en) 2008-04-22 2008-10-21 Darfon Electronics Corp Input apparatus
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8412531B2 (en) 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
EP2606437A4 (en) 2010-08-16 2015-04-01 Nokia Corp METHOD AND DEVICE FOR CARRYING OUT CONTEXTIC DEVICE ACTIONS
WO2012090196A1 (en) * 2010-12-30 2012-07-05 Melamed Gal Method and system for processing content
JP6131249B2 (ja) * 2011-06-19 2017-05-17 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
BR102012024861B1 (pt) * 2011-09-30 2021-02-09 Apple Inc. sistema para desambiguar entrada de usuário para realizar uma tarefa
US8452602B1 (en) 2011-09-30 2013-05-28 Google Inc. Structuring verbal commands to allow concatenation in a voice interface in a mobile device
US20130219277A1 (en) * 2012-02-21 2013-08-22 Mobotap Inc. Gesture and Voice Controlled Browser
EP2639792A1 (en) * 2012-03-16 2013-09-18 France Télécom Voice control of applications by associating user input with action-context idendifier pairs
US20130317827A1 (en) 2012-05-23 2013-11-28 Tsung-Chun Fu Voice control method and computer-implemented system for data management and protection
TWM453219U (zh) 2012-11-05 2013-05-11 Chung Han Interlingua Knowledge Co Ltd 語意辨識設備
US9384732B2 (en) * 2013-03-14 2016-07-05 Microsoft Technology Licensing, Llc Voice command definitions used in launching application with a command
US9922642B2 (en) * 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9792546B2 (en) * 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US20170200455A1 (en) * 2014-01-23 2017-07-13 Google Inc. Suggested query constructor for voice actions
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
WO2015116151A1 (en) * 2014-01-31 2015-08-06 Hewlett-Packard Development Company, L.P. Voice input command

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI789891B (zh) * 2021-09-03 2023-01-11 中華大學學校財團法人中華大學 條件觸發的反饋系統及其方法

Also Published As

Publication number Publication date
US20160358603A1 (en) 2016-12-08
WO2015116151A1 (en) 2015-08-06
CN105934791B (zh) 2019-11-22
TW201535157A (zh) 2015-09-16
EP3100259A4 (en) 2017-08-30
US10978060B2 (en) 2021-04-13
CN105934791A (zh) 2016-09-07
EP3100259A1 (en) 2016-12-07

Similar Documents

Publication Publication Date Title
TWI544366B (zh) 語音輸入命令之技術
US11194448B2 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
US20210004405A1 (en) Enhancing tangible content on physical activity surface
US10963045B2 (en) Smart contact lens system with cognitive analysis and aid
US9886958B2 (en) Language and domain independent model based approach for on-screen item selection
US9691381B2 (en) Voice command recognition method and related electronic device and computer-readable medium
US20090247219A1 (en) Method of generating a function output from a photographed image and related mobile computing device
US11200893B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
EP2891041B1 (en) User interface apparatus in a user terminal and method for supporting the same
WO2018000626A1 (zh) 基于电视机的网页浏览控制方法及相关装置
US11921966B2 (en) Intelligent response using eye gaze
US11093510B2 (en) Relevance ranking of productivity features for determined context
KR20160060110A (ko) 온스크린 키보드에 대한 빠른 작업
US20230197082A1 (en) Display apparatus and a voice contral method
KR20200106703A (ko) 사용자 선택 기반의 정보를 제공하는 방법 및 장치
US20190227634A1 (en) Contextual gesture-based image searching
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
US20140181672A1 (en) Information processing method and electronic apparatus
CN111696546A (zh) 使用多模式界面以利于口头命令的发现
US9411885B2 (en) Electronic apparatus and method for processing documents
US20240118803A1 (en) System and method of generating digital ink notes
EP3635527B1 (en) Magnified input panels
CN116151272A (zh) 一种终端设备及语义意图的识别方法
WO2021154430A1 (en) Application search system

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees