TWI544366B - 語音輸入命令之技術 - Google Patents
語音輸入命令之技術 Download PDFInfo
- Publication number
- TWI544366B TWI544366B TW104102702A TW104102702A TWI544366B TW I544366 B TWI544366 B TW I544366B TW 104102702 A TW104102702 A TW 104102702A TW 104102702 A TW104102702 A TW 104102702A TW I544366 B TWI544366 B TW I544366B
- Authority
- TW
- Taiwan
- Prior art keywords
- instruction
- electronic device
- new
- voice input
- text structure
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 119
- 230000009471 action Effects 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000008878 coupling Effects 0.000 claims 3
- 238000010168 coupling process Methods 0.000 claims 3
- 238000005859 coupling reaction Methods 0.000 claims 3
- 238000004891 communication Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Description
本發明係有關於語音輸入命令之技術。
今日使用者攜帶或操作裝置有各式各樣功能集合之一或多個電子裝置的數目漸增。此等裝置可彼此通訊,接取網際網路,執行不同工作,或透過網路接取各種資料服務。各種裝置諸如個人電腦、一體機計算裝置、網際網路致能平板、智慧型電話、膝上型電腦、電視、及遊戲機臺已經變成必備的個人附件,讓使用者與朋友、工作、及娛樂連結。今日使用者有更多選擇且預期隨時有效存取全部各型裝置上的節目、資料、及其它內容。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。
依據本發明之一實施例,係特地提出一種方法包含:檢測自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組(word)之
一文字結構;決定該電子裝置之一目前情境範圍;比較該文字結構與多個既有文字結構,其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之至少一個語音輸入;及基於該經識別之指令進行在該電子裝置上之一動作。
10‧‧‧電子裝置
15‧‧‧外部電子裝置
20‧‧‧外部資料庫
30‧‧‧處理器、處理裝置
32‧‧‧顯示器
33‧‧‧控制單元、控制器
35‧‧‧記憶體資源、記憶體
37‧‧‧非過渡機器可讀取儲存媒體
39‧‧‧情境範圍決定模組
40‧‧‧指令識別模組
41‧‧‧指令產生模組
42‧‧‧指令執行模組
45‧‧‧輸入介面
50‧‧‧通訊介面
55‧‧‧匯流排
60‧‧‧資料介面
70‧‧‧作業系統
80‧‧‧資料庫
100、200、300、400、500、600、700‧‧‧方法
110-160、210-250、305-325、410-460、510-560、610-670、710-750‧‧‧方塊
圖1為依據本文揭示之一具現一電子裝置實施例之示意例示圖。
圖2例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之方法之一實施例。
圖3例示一流程圖顯示依據本文揭示之一具現一種比較自一使用者之語音輸入之一文字結構與多個既有文字結構之方法之一實施例。
圖4例示一流程圖顯示依據本文揭示之一具現一種連結自一使用者之至少兩個循序語音輸入以識別一指令的情境知覺方法之一實施例。
圖5例示一流程圖顯示依據本文揭示之一具現一種當沒有與一既有指令之直接匹配時識別一指令以相對應於自一使用者之至少一個語音輸入之方法之一實施例。
圖6例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之另一方法之一實施例。
圖7例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之方法之一實施例。
圖8例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之另一方法之一實施例。
隨著晚近技術的改良,電子裝置(例如平板、膝上型電腦、顯示螢幕、智慧型電話等)持續在人類生活中扮演要角。不同的使用者仰賴不同型別之電子裝置用於許多日常活動及工作相關任務。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。
電子裝置有不同尺寸、形式、且可包括不同技術特性件。由於電子裝置之增加故,其技術能力持續增高。結果此等裝置也對其使用者提供擴大服務。此等電子裝置常用以接取網際網路,購買各種貨品及服務,及執行各種個人及業務相關功能。
許多電子裝置包括一觸控螢幕,其許可一使用者與該電子裝置互動,及內容直接顯示在顯示幕上,而非藉使用外部輸入裝置(例如滑鼠)間接顯示。該使用者可利用該觸控螢幕以控制在該電子裝置上之操作,應答任何顯示的內容(例如訊息、電子郵件等),及控制該內容如何顯示在螢幕上(例如藉縮放該文字或影像大小)。
但觸控螢幕技術並非經常性地如所預期般地執行,且不能用在所有場合。舉例言之,當一使用者的雙手忙碌、骯髒、或潮濕時,該使用者無法用他或她的手指以與該電子裝置互動。此外,當該使用者遠離該顯示器時,觸摸該顯示器變不可能。
因此,使用者經常地尋找替代的及更有效的方式以控制其電子裝置。透過語音控制電子裝置提供了觸控螢幕控制的重大替代方案,且許可使用者以快速容易之方式與該裝置互動。使用語音指令以控制該電子裝置,許可一使用者在該裝置上執行不同任務,同時他的或她的雙手仍可從事其它活動。
本文描述係有關於使用語音指令以控制一電子裝置之全部操作之系統、方法、及電腦可讀取媒體。本文描述提出基於該裝置之該目前情境範圍(例如跑應用程式等)及接收自該使用者之語音指令而語音控制一電子裝置之方法。本文描述藉由使用、產生使用者指令、及編輯使用者指令而許可以語音導航及操作一電子裝置之該作業系統(OS)。因此,本文描述並不要求一個人助理應用程式控制該電子裝置之特定功能,反而將語音控制功能展開遍及該電子裝置之整個作業系統,使得一使用者可隨時隨地提供指令而無需返回一特定應用程式。
本文揭示之系統、方法、及電腦可讀取媒體檢測自該電子裝置之該使用者的語音輸入及將其變換成一文字結構。根據在該電子裝置上跑的該經識別之情境範圍(應用
程式、處理等),該等系統、方法、及電腦可讀取媒體試圖匹配該經識別之文字結構與針對該特定情境範圍之一既有指令。若經識別一匹配指令,則該等經揭示之系統、方法、及電腦可讀取媒體基於該指令執行在該電子裝置上之一動作。如此,該等經揭示之系統、方法、及電腦可讀取媒體可從事在目前使用不同輸入裝置(例如滑鼠、鍵盤、觸摸輸入等)執行的該電子裝置上之各種操作。使用該等經提示之系統、方法、及電腦可讀取媒體完全導航通過該裝置之作業系統變成可能。
此外,該經提示之語音控制解決方案使用各種技術以識別自該使用者之循序語音輸入,及基於此等循序語音輸入之關係而識別一指令。又,此處描述之技術可檢測一指令,即便當接收自該使用者之語音輸入並非明確匹配該電子裝置之一既有指令亦復如此。此等技術協助一使用者更佳地控制該電子裝置之操作。
該經提示之解決方案也提供產生新指令及編輯該電子裝置之既有指令之一種獨特方法。該等新指令可與該電子裝置之情境範圍相聯結,及可包括欲在該特定情境在該電子裝置上執行之不同動作。本文揭示也描述根據由該裝置之該特定使用者經識別之語音指令,訓練該電子裝置以從事各項操作之技術。
如此,於本詳細說明部分描述之該等技術許可一使用者藉使用基於該電子裝置之特定情境範圍經識別的語音指令操作一電子裝置。該經提示之語音控制解決方案可
運用自然語言處理技術以改良指令辨識準確度。該解決方案提供了可達成遠更高的指令辨識準確度且容易控制之一構思。每位使用者藉產生與編輯他或她的指令及個人化該描述系統符合其本身需求而彌補所提供的服務。如此給予全部使用者相當大彈性,且使得本案提示之語音控制技術對消費者極具吸引力。本案提示之語音控制解決方案適用於全部型別之電子裝置,但尤其有助於與具有大型顯示器之裝置互動。
於一具體實施例中,提出一種建構消費者之市場區隔之方法。如同於本文揭示中描述之其它方法,該方法可藉該電子裝置之一處理器執行。舉例言之,一非過渡機器可讀取儲存媒體可儲存電腦程式或模組,其當由該電子裝置執行時使得該方法被執行。該方法包括檢測自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;及決定該電子裝置之一目前情境範圍。該方法也包括比較該文字結構與多個既有文字結構,於該處該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結。該方法進一步包括當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之至少一個語音輸入;及基於該經識別之指令進行在該電子裝置上之一動作。
於另一具體實施例中,提出一種建構消費者之市場區隔之系統。該系統包括具有至少一個處理裝置之一電子裝置。該處理裝置包括一控制單元以針對該電子裝置產
生一新指令,於該處該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作。該控制單元也用以自一電子裝置之一使用者檢測至少一個語音輸入,將該至少一個語音輸入變換成包括至少一個字組之一文字結構,及決定該電子裝置之該目前情境範圍。該控制單元進一步用以比較該文字結構與多個既有文字結構,及當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。
於又另一具體實施例中,提出一種以可由一電子裝置之至少一個處理裝置執行之指令編碼的非過渡機器可讀取儲存媒體。該機器可讀取儲存媒體包含指令以處理接收自該電子裝置之一使用者之至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;及決定該電子裝置之該目前情境範圍。該機器可讀取儲存媒體進一步包含指令以決定該文字結構是否匹配自與該目前情境相聯結的多個既有文字結構之至少一個既有文字結構;及決定該文字結構是否匹配自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構。該機器可讀取儲存媒體也包含指令以當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於自該使用者之該至少一個語音輸入;及當該文字結構並不匹配該等既有文字結構中之至少一者時,產生針對該電子裝置之一新指令。該新指令係與該目前情境範圍相聯結。
如此處使用,「電子裝置」一詞係指下列裝置中
之任一者:各種智慧型電話、顯示螢幕、小區式電話、平板、個人數位助理器(PDA)、膝上型電腦、電腦、伺服器、以及包括一顯示器、一處理器,且能顯示影像在該顯示器上,及能透過無線或有線通訊網路與其它電子裝置通訊之其它類似的電子裝置。
如此處使用,「情境範圍」一詞係指一電子裝置之情境。換言之,情境範圍係指目前正在該電子裝置上跑的應用程式、處理、或活動(例如視訊分享應用程式、遊戲、瀏覽器、主螢幕等)。
於後文詳細說明部分中參考附圖,附圖構成本發明之一部分,及於其中藉由例示顯示特定實施例其中可實施本文揭示之主旨。須瞭解不背離本文揭示之範圍,可運用其它實施例及做出結構上或邏輯上的改變。因此,後文詳細說明部分絕非視為限制性及本文揭示之範圍係由隨附之申請專利範圍各項界定。又,須瞭解此處使用之片語及術語係用於描述性目的而不應視為限制性。此處「包括」、「包含」或「具有」及其變化詞之使用意圖涵蓋後文列舉之項目及其相當項目以及額外項目。也須注意多個以硬體及軟體為基礎之裝置以及多個不同結構組件可用以具現所揭示之方法及系統。
圖1為能夠進行下述技術之一電子裝置10之一實施例之示意例示圖。該電子裝置10可為一行動電子裝置(例如智慧型電話)、固定式電子裝置(例如桌上型電腦、顯示器螢幕等)、可轉換電子裝置(例如可轉換膝上型電腦)、或任
何其它型別之電子裝置。舉例言之,該電子裝置10可為平板、膝上型電腦、個人電腦、一體機計算裝置、遊戲機臺、伺服器、智慧型電話、音樂播放器、視覺播放器、個人數位助理器(PDA)、小區式電話、電子筆記板、多個分散式計算裝置、或包括一顯示器及一處理器之任何其它合宜電子裝置。於該具體實施例中,電子裝置10包括至少一個處理裝置30(又稱處理器)、一顯示器32、一記憶體資源35、輸入介面45、及通訊介面50。於其它實施例中,電子裝置10包括用以進行此處描述之功能的額外的更少數的或不同的組件。
容後詳述,電子裝置10包括軟體、硬體、彧其適當組合經組配以能夠發揮電子裝置10之功能,及許可其進行後述技術且與一或多個外部系統/裝置互動。舉例言之,電子裝置10包括用以介接外部裝置/系統及/或網路(圖中未顯示)之通訊介面(例如Wi-Fi®介面、藍牙介面、3G介面、4G介面、近場通訊(NFC)介面等)。該網路可包括任何合宜型別或組態之網路以許可電子裝置10與任何外部裝置/系統間之通訊。
容後詳述,於一個實施例中,該電子裝置10可與用於該電子裝置10之語音搖控之至少一個電子裝置15(例如智慧型電話、計算裝置、伺服器、多個分散式計算裝置等)通訊。此外,電子裝置10也可與一外部資料庫20通訊以取回針對裝置10之操作指令相關的或此處描述之其它處理相關的資料。須瞭解有關本文描述被描述為由該電子裝置
10執行之操作於若干具現中,可在電子裝置10與其它計算裝置(圖中未顯示)間進行或分散在其間。
電子裝置10之處理裝置30(例如中央處理單元、一組分散式處理器、微處理器、微控制器、特定應用積體電路(ASIC)、圖形處理器、多處理器、虛擬處理器、雲端處理系統、或其它合宜控制器或可規劃裝置)、記憶體資源35、輸入介面45、及通訊介面50係操作式耦接至一匯流排55。
顯示器32提供視覺資訊給一使用者,諸如各種顯示視窗、小圖幟、標籤、視訊影像、圖像等。顯示器32也顯示自在顯示於顯示器螢幕上之一視窗上的電子裝置10上跑的不同應用程式之內容。顯示器32可為透明液晶顯示器(LCD)、有機發光二極體(OLED)顯示器、電漿顯示器、或任何其它合宜顯示器。顯示器32可為電子裝置10之部件(例如當該電子裝置10為平板或一體機裝置時),可為與電子裝置10作電子通訊之一分開組件(例如當該電子裝置為有一分開監視器之桌上型電腦時),及可為可卸式組件其也可用作為手持式裝置(例如當該電子裝置10為可轉換計算裝置時)。顯示器32可具有不同尺寸且可支援各型顯示器解析度。
通訊介面50許可電子裝置10與多個網路、通訊鏈路、及外部裝置通訊。輸入介面45可自與電子裝置10通訊之任何內部或外部裝置/系統接收資訊。於一個實施例中,輸入介面45包括至少一個資料介面60。於其它實施例中,
輸入介面45可包括額外介面。於一個具現中,資料介面60可自外部資料庫20接收語音輸入(例如自該電子裝置之使用者或自外部電子裝置15)或通訊。
處理器30包括一控制器33(又稱一控制單元)及可使用任何合宜型別之處理系統具現,於該處至少一個處理器執行儲存於記憶體35之電腦可讀取指令。該記憶體資源35包括任何合宜型別、數目、及組態之依電性或非過渡機器可讀取儲存媒體37以儲存指令及資料。於該記憶體35中之機器可讀取儲存媒體37之實施例包括唯讀記憶體(ROM)、隨機存取記憶體(RAM)(例如動態RAM[DRAM]、同步DRAM[SDRAM]等)、可電氣抹除可規劃唯讀記憶體(EEPROM)、快閃記憶體、SD卡、及其它合宜磁性、光學、物理、或電子記憶體裝置。記憶體資源35也可用以儲存於指令之由處理器30執行期間的暫時變數或其它中間資訊。
記憶體35也可儲存一作業系統70及網路應用程式75。該作業系統70可為多使用者、多處理、多工作、多執行緒、及即時。該作業系統70也可執行基本工作,諸如辨識自輸入裝置諸如鍵盤、數字小鍵盤、滑鼠、自一使用者之語音等輸入;發送輸出給投影器及相機;追蹤記憶體35上之檔案及目錄;控制周邊裝置,諸如列印器、影像拍攝裝置;及管理匯流排55上之流通量。網路應用程式75包括用以建立及維持網路連結之各種組件,諸如用以具現通訊協定之電腦可讀取指令,諸如TCP/IP、HTTP、乙太網路®、USB®、及火線®。
儲存在非過渡機器可讀取儲存媒體37上且由處理器30執行之軟體包括例如,韌體、應用程式、程式資料、濾波器、規則、程式模組、及其它可執行指令。控制單元33自機器可讀取儲存媒體37取回,及執行與此處描述之控制程序及方法相關之指令等。於一個實施例中,儲存於非過渡機器可讀取儲存媒體37之該等指令具現一情境範圍決定模組39、一指令識別模組40、一指令產生模組41、及一指令執行模組42。於其它實施例中,該等指令可具現更多或更少個模組(例如與裝置10之操作相關的各種其它模組)。於一個實施例中,模組39-42可以用以進行後述功能之電子電路具現。如前述,此外或另外,模組39-42可具現為編碼在一機器可讀取儲存媒體上及由一處理器可執行之一串列指令。
於一個具體實施例中,模組39-42可預先安裝在裝置10上作為該裝置之作業系統之部件。於另一個具體實施例中,模組39-42可下載至裝置10(例如自雲端)。如此,由模組39-42具現之處理程序可在裝置10上執行或在與裝置10通訊之遠端處理裝置內執行。容後詳述,情境範圍決定模組39決定在一新語音輸入接收在裝置10之後該電子裝置之目前情境範圍。指令識別模組40根據所接收的語音輸入(被轉換成文字)及裝置10之情境範圍而識別針對該電子裝置之一指令。指令產生模組41根據所接收的語音輸入及裝置10之情境範圍而產生針對該電子裝置之一指令。指令執行模組42根據識別之指令在電子裝置10上執行至少一個
動作。
電子裝置10及其它系統/裝置相聯結的資訊及資料可儲存、登錄、處理、及分析以具現此處描述之控制方法及程序。舉例言之,記憶體35可包括至少一個資料庫80。於其它具體實施例中,電子裝置10可存取在電子裝置10遠端儲存(例如可透過網路或雲端存取)之外部資料庫(例如資料庫20)。
圖2例示一流程圖顯示用以使用語音指令控制一電子裝置之操作之方法100之一實施例。容後詳述,該等操作可涉及基於語音輸入指令在電子裝置10上執行至少一個動作。於一個實施例中,方法100可由電子裝置10之處理器30之控制單元33執行。此處就方法100描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法100也能夠使用與例示實施例中顯示的元件額外的或更少的元件執行。
方法100可以編碼於由電子裝置10之處理器30可執行的一非過渡機器可讀取儲存媒體37上之指令形式執行。於一個實施例中,方法100之指令具現情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42。於其它實施例中,方法100之執行可分散在該處理裝置30及與該處理裝置30通訊之其它處理裝置間。
方法100始於方塊110,於該處處理器30檢測自一電子裝置10之一使用者的至少一個語音輸入。該使用者可直接提供語音輸入給該裝置(例如藉於裝置10講話)。另外,
語音輸入可遠端提供。舉例言之,一使用者可利用與電子裝置10通訊之另一裝置(例如電子裝置15)提供語音輸入給該裝置10。該使用者可提供語音輸入給該裝置15,其發射該語音輸入給該電子裝置10(例如透過通訊介面)。其許可該使用者進行裝置10之語音搖控。其對具有大型顯示器(例如在公眾區域之廣告顯示器)之裝置10極為有用,於該處該裝置之麥克風可能無法檢測與來自一使用者之直接語音通訊。
於若干實施例中,處理器30之控制單元33使用既有語音辨識工具及/或應用程式以檢測自該使用者之至少一個輸入。於其它實施例中,語音辨識工具可由模組39-42中之一者提供。自該使用者之語音輸入可包括至少一個字組或片語其意圖控制該裝置10之操作及在裝置10上執行動作。由該使用者所做的語音輸入可包括:「開啟通知」、「開啟快速設定」、「下捲」、「上捲」、「拍快照」、「關閉對話」、及其它輸入。其次,於120,該控制單元33將該至少一個語音輸入變換成包括至少一個字組之一文字結構。舉例言之,控制單元33使用裝置10上的既有語音辨識工具或應用程式以將該語音輸入變換成一文字結構。
於130,控制單元33決定該電子裝置之一目前情境範圍。此點可由情境範圍決定模組39進行。該電子裝置之該目前情境範圍為目前在裝置上跑或由裝置執行的應用程式、處理、或活動。舉例言之,若該使用者正在使用裝置10瀏覽網際網路,則該目前情境範圍為瀏覽器。若該使
用者正在一視訊分享網頁上觀看一視訊,則該目前情境範圍為該視訊分享網頁。當該使用者係在該裝置10之主畫面時,該目前情境範圍為該裝置之主畫面。決定裝置10之目前情境範圍有利於所描述之處理,原因在於基於該裝置之情境範圍,處理器30可遠更準確地分析語音輸入。容後詳述,取決於裝置10之情境範圍,每個語音指令可與一分開動作相聯結。
繼續參考圖2,控制單元33比較自該使用者的語音輸入之文字結構與多個既有文字結構(於140)。步驟140及150可由指令識別模組39執行。既有文字結構中之各者可與針對在該電子裝置上之一動作之一指令相聯結。於一個實施例中,該等多個既有文字結構為「本地」,及其與裝置10之特定情境範圍(例如主畫面、應用程式、瀏覽器等)相聯結。舉例言之,多個預定文字結構可與該裝置之可能情境範圍各自相聯結。換言之,此等既有文字結構表示只可在特定情境空間(亦即應用程式等)執行的指令。當該裝置10之目前情境範圍為瀏覽器時,該瀏覽器之既有文字結構(亦即指令)可包括:「下移、下捲、捲到底、上捲、上移、上、下、更多、到頂、到底、至頁首、到、前轉、前進、前移、刷新、重載、刷新該頁面、刷新頁面、重載該頁面、重載頁面、頁面重載、停止載入等」。此外,相機應用程式之既有文字結構可包括:「拍照、攝影、列印、分享等」。該裝置10之其它情境範圍可具有與其相聯結的不同多個既有文字結構。
此外,不同多個既有文字結構可能非與該裝置10之目前情境範圍相聯結。此等既有文字結構可為「通用」文字結構,其表示可在系統層面上進行,可能不僅為一特定應用可資利用的指令。此等「通用」文字結構可包括:「開啟通知、開啟通知、清除通知、清除通知、關閉通知、關閉通知、關閉、退回、返回、回去、回來、首頁、主畫面、到主畫面、按首頁鈕、打字「a、b、c...」、拼字、晚近app、跑工作、大寫鍵、n轉為大寫、關閉大寫鍵、打空格鍵、退回鍵、待命、鎖定畫面、前進、進入、喚醒、拍快照等」。於若干具體實施例中,有些既有文字結構可為「本地」及「通用」兩者。
於一個實施例中,該等既有文字結構(「本地」及「通用」兩者)可儲存於一資料庫。其可為裝置10之資料庫80、外部資料庫20、或於模組39-42操作期間可由處理器30存取文字結構之任何其它外部資料庫。既有文字結構各自係與一指令(也儲存於一資料庫)相聯結,其包括電子裝置之至少一個動作(例如開啟一標籤等)。藉由根據該使用者的語音輸入執行動作,一使用者可執行裝置10之操作的語音控制。
圖3例示比較自該使用者的語音輸入之該文字結構與多個既有文字結構之方法200。於一個實施例中,方法200可由處理器30之控制單元33執行。此處就方法200描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法200也能夠使用與例示實施例
中顯示的元件額外的或更少的元件執行。方法200可以編碼在一機器可讀取儲存媒體上由該電子裝置10之該處理器30可執行之指令形式執行。於一個實施例中,方法100之指令具現指令識別模組39。
方法200始於210,於該處控制單元33比較自該使用者的語音輸入之該文字結構與該目前情境範圍相聯結的多個既有文字結構。舉例言之,若經識別之目前情境範圍為一遊戲應用程式,則控制單元33比較該文字結構與遊戲應用程式相聯結的既有文字結構。該控制單元33決定自該使用者的語音輸入之該文字結構與該情境範圍相聯結的既有文字結構是否存在有匹配(於220)。若經識別之情境範圍匹配與該目前情境範圍相聯結的多個既有文字結構中之至少一者,則控制單元33前進至方法100之步驟150。
當該文字結構不匹配與電子裝置10之該目前情境範圍相聯結的既有文字結構時,控制單元33比較該文字結構與非與該電子裝置之該目前情境範圍相聯結的多個既有文字結構(於230)。如此,該控制單元識別並無既有「本地」指令匹配該使用者的語音輸入,及移動至分析「通用」指令。然後控制單元33決定該文字結構與該既有「通用」文字結構間是否存在有匹配(於240)。若該經識別之文字結構匹配非與該目前情境範圍相聯結的多個既有文字結構中之至少一者。則控制單元33前進至方法100之步驟150。若未發現匹配,則控制單元33根據該指令之一可能分數及一容差臨界值(容後關聯圖5詳述)執行一匹配處理(步驟B)。
又,根據該指令之可能分數及容差臨界值,該控制單元進行匹配處理為不成功,則該控制單元可針對電子裝置形成一新指令(步驟C),容後關聯圖7及圖8詳述。
繼續參考圖2,當該文字結構匹配該等既有文字結構中之至少一者時(於150),控制單元33識別自該使用者的至少一個語音輸入之一相對應指令。如前記,該等既有文字結構各自與包括該電子裝置之至少一個動作之一指令相聯結。該等既有文字結構及相聯結的指令係儲存於一資料庫(20、80等)。此等資料庫可以由一使用者產生的或由一第三方供給的新指令更新,提供給所述系統及處理程序作為一服務。於一個實施例中,該等指令及與該等指令相聯結的動作被組織為可擴延標記語言(XML)檔案。如此,當該語音輸入之該文字結構匹配與該目前情境空間相聯結的一既有文字結構時,該控制單元識別一指令其相對應於該文字結構及結果相對應於該使用者的語音輸入。另外,當該語音輸入之文字結構匹配不與該目前情境空間相聯結的一既有「通用」文字結構時,該控制單元識別一指令其相對應於該文字結構及結果相對應於該語音輸入。
於160,控制單元33基於經識別之指令而在電子裝置10上執行一動作。此點可以指令執行模組42執行。例如,各個指令可與一軟體碼規則相聯結,該規則與裝置10之作業系統通訊以執行該指令。軟體規則描述欲由作業系統執行之動作。該裝置10之作業系統可揭露第三方軟體之應用程式規劃介面(API),許可與作業系統通訊。舉例言
之,該指令執行模組42可發送欲在該裝置10上執行之一動作或操作的一摘要說明給該作業系統用以發送另一應用程式。該摘要說明可包括期望應用程式之名稱。該作業系統可進行發送特定應用程式之動作。另外,指令執行模組42可與期望應用程式(例如瀏覽器應用程式)直接通訊以發送欲執行之一動作或操作的一摘要說明。然後應用程式決定請求為何及執行該動作(例如下捲)。如此,控制單元33基於該使用者的語音輸入控制電子裝置10之操作。
於某些情況下,該使用者可提供一語音輸入給裝置10,暫時一段時間(例如5、10、15秒等),然後提供循序語音輸入其可能與或可不與該第一語音輸入相關。於此種情況下,控制單元33可能難以分析兩個循序語音輸入,及比較該等語音輸入與既有文字結構以識別相對應於兩個循序語音輸入之一指令。如此,本文揭示提出一種連結自一使用者的兩個循序語音輸入及根據已連結的循序語音輸入執行一動作之方法。
圖4例示連結自一使用者的至少兩個循序語音輸入之一情境感知方法300。該方法解譯由該使用者之一串列(例如至少兩個)連續指令間之關係。於一個實施例中,方法300可由處理器30之控制單元33執行。方法300可以編碼在一非過渡機器可讀取儲存媒體37上可由電子裝置10之處理器30執行的指令形式執行。
方法300始於305,於該處控制單元33識別自至少兩個循序語音輸入中之第一者的一第一指令。然後,控制
單元33識別自至少兩個循序語音輸入中之第二者的一第二指令(於310)。舉例言之,第一及第二指令係如方法100步驟110-150之描述識別。其次,於315,控制單元33決定第一語音輸入與第二語音輸入間之時間是否超過一預定臨界值。該臨界值可由該裝置之使用者設定或可為預先決定。於若干實施例中,該臨界值可為5、10、15秒或任何其它合理的臨界值。臨界值之目的係決定該使用者是否已經完成輸入(亦即說出)第一指令,及第二指令為一新指令,或該第二指令是否為第一指令之延續。
當控制單元33決定該第一語音輸入與該第二語音輸入間之時間超過該預定臨界值時,該控制單元結束處理。於該種情況下,該控制單元決定兩個指令非相關,原因在於第二指令係在預定臨界值時間之後接收,因此可能為由該使用者所下的一新指令。另外,當控制單元33決定該第一語音輸入與該第二語音輸入間之時間不超過該預定臨界值時,該控制單元決定該第二指令為該第一指令之一語義連續或為非關第一指令之一新指令(於320)。若該第二指令非為該第一指令之一語義連續,則該控制單元結束處理。另一方面,該第二指令為該第一指令之一語義連續,控制單元33將第二指令與第一指令關聯以在該電子裝置上執行一動作(於325)。於一個實施例中,當該第二指令為該第二指令相關之一預定子指令時,該第一指令為該第二指令之一語義連續。既有指令各自可包括相關子指令之一列表。也可使用識別該等指令間之一語義連續之其它方法。
舉例言之,若該第一指令為「音量減低」,該第二指令為「更多」,及該第二指令不超過臨界值,則控制單元決定該第二指令為該第一指令之一語義連續。該「更多」指令可識別為該「音量減低」指令之一子指令。換言之,可能該使用者想要再度執行該「音量減低」指令以進一步減低體積。於該種情況下,控制單元執行「音量減低」指令相聯結的動作。藉施用方法300,提示之解決方案辨識該使用者的指令及意圖更準確。
許多時間該控制單元33可能無法直接匹配該使用者的語音輸入至與一指令相聯結的一既有文字結構。其原因可能係由於下述事實:大部分使用者偏好提供未經結構化之語音指令(亦即於不同形式)而非記憶特定既存指令。為了改良識別自該使用者的至少一個語音輸入相對應的一指令之過程,控制單元33根據指令之可能性分數及容差臨界值執行一匹配程序。
圖5例示當並無與一既有指令之直接匹配時,識別自該使用者的至少一個語音輸入相對應的一指令之方法400。該方法解譯由該使用者一串列(例如至少兩個)接續指令之關係。於一個實施例中,方法400可由處理器30之控制單元33執行。方法400可以編碼在可由電子裝置10之處理器30執行的非過渡機器可讀取儲存媒體37上之指令形式執行。
方法400始於410,於該處當至少一個語音輸入之文字結構不匹配該等既有文字結構中之至少一者時,控制
單元33基於至少一個語音輸入計算一目標指令之可能性分數。換言之,當語音輸入之文字結構不直接匹配既有「本地」或「通用」文字結構時,控制單元33識別一目標指令及計算針對該目標指令之可能性分數。該目標指令表示文字結構與一指令相聯結的一既有文字結構間之潛在匹配。可能性分數指示該目標指令係等於實際既有指令。
控制單元33可使用各項技術以識別一目標指令,及計算針對該目標指令之可能性分數。舉例言之,控制單元33可使用一關鍵字匹配容差方法,於該處該目標指令極其類似既有指令中之至少一者(例如該目標指令為「拍螢幕快照」,於該處實際既有指令為「拍螢幕快照」及字眼「快照」為關鍵字)。於另一個實施例中,控制單元可使用同義字容差方法以識別該目標指令(例如目標指令為「尋找x、y、z」及實際既有指令為「找到x、y、z」)。控制單元33可使用一字典API或一字組程式庫以找出在所接收的文字結構中之一既有文字結構中之一同義字。
於又另一個實施例中,控制單元33可使用一種拼字模式容差方法,於該處一使用者可激勵一「拼字」模式以拼寫一提供指令。於該「拼字」模式中,控制單元33匹配任何同音字與單一字母(例如「see」對「c」、「you」對「u」、「are」對「r」等)。進入「拼字」模式之後,一使用者可拼出一指令(例如藉說出「拼字c」、「c」等)。此點有助於當語音辨識應用未能檢測由該使用者所發音的字母/字組時。於另一個實施例中,控制單元可使用相似發音的字組
容差方法,於該方法中,該目標指令之發音可能類似至少一個既有指令(例如目標指令為「到指令tap(分接)」,而實際既有指令為「到指令tab(標籤)」)。
於一個實施例中,若該控制單元33基於文字結構而識別多於一個可能目標指令,則該控制器可選擇匹配一既有指令之最高可能性分數的該目標指令。於另一個實施例中,控制單元33比較該經識別的目標指令之該可能性分數與該目標指令相聯結的一預定容差臨界值(於420)。於430,該控制單元決定該目標指令之該可能性分數是否超過與該目標指令相聯結的容差臨界值。當該目標指令之該可能性分數超過與該目標指令相聯結的容差臨界值時,控制單元33自該既有文字結構/指令識別一指令(於440)。於410,因該控制單元已經識別該目前情境範圍,故只考慮在該情境或「通用」文字結構之既有文字結構。另一方面,若該目標指令之該可能性分數不超過與該目標指令相聯結的容差臨界值,則控制單元33結束該處理。
於440,若基於該使用者的語音輸入有關該潛在指令仍然存在有模棱兩可,則該控制單元33可對該裝置10之使用者提出有關該目標指令之建議。舉例言之,若自該使用者的語音輸入之文字結構為「產生一標籤」及該目標指令為「開啟一新標籤」,則該控制單元可在該螢幕32上顯示一訊息框。該訊息框可顯示一訊息給該使用者(例如「你是否想開啟一新標籤?」)。若該使用者拒絕該提議,則該控制單元可以相同方式提出具有次高可能性分數之指令。
此外,控制單元33也提出產生一新指令(於450)其包括在電子裝置上之一動作。舉例言之,於該訊息框中,控制單元33可顯示一新指令提議訊息(例如「新增「產生一標籤」指令?」)且呈示給該使用者一選項以核准所提議的指令。如此,該新指令可執行與該目標指令相同動作。該控制單元也自該使用者接收有關該新指令之有效性之一構象(conformation)(於460)。藉此方式,該新指令係與一既有文字結構相聯結,及包括在該電子裝置上的一動作(例如與該目標指令之該既有文字結構相聯結的動作)。
若該使用者不想基於該目標指令產生一新指令,但他或她自該既有指令識別一指令,則控制單元33可具現學習技術以改進該目標指令之可能性分數。如此,當該使用者提供於該相同情境範圍的相同語音輸入/指令時,該控制單元應用該學習技術及針對該「新」語音輸入/指令求出一較高可能性分數。
圖6例示一流程圖顯示以語音指令控制一電子裝置之操作之替代方法500之一實施例。該方法500可以情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42執行。此等模組可以用以進行後述功能之電子電路具現。另外,模組39-42可以編碼於一非過渡機器可讀取儲存媒體37上可藉電子裝置10之處理器30執行的指令形式具現。
方法500始於方塊510,於該處控制單元33產生針對該電子裝置之一新指令。於一個實施例中,該新指令係
與該電子裝置產情境範圍相聯結,及包括電子裝置上之一動作。容後詳述,該新指令係由控制單元儲存(例如資料庫20、80、或由處理器30可存取之另一資料庫)。產生一新指令之特定方法於後文關聯圖7及圖8描述。
圖7例示一流程圖顯示針對電子裝置10產生一新語音指令之方法600之一實施例。該方法600可以指令產生模組41執行。該方法允許一使用者快速導航通過作業系統,及針對裝置10之特定情境範圍產生新動態指令。方法600始於610,於該處控制單元33接收自一使用者接收一新語音輸入。舉例言之,當一使用者意圖產生一新語音指令時,他或她可提供一新語音輸入。於該種情況下,該使用者可首先提出一初始指令給裝置10以產生一新指令(例如「新指令」、「產生一指令」等)。另外,當一使用者意圖提供一指令給該裝置而此等指令不存在於該處理器可用的「本地」或「通用」指令時,可提供新語音輸入(參考圖3)。於620,該控制單元變換新語音輸入成一新文字結構。此一步驟係類似方法100之步驟120。其次,於630,控制單元決定電子裝置之目前情境範圍(類似方法100之步驟130)。
於640,控制單元33識別該新文字結構在該目前情境範圍之出現次數。換言之,控制單元33決定該新新文是否匹配在目前情況中之一文字結構。舉例言之,若該情境為一新網頁,而該新文字結構為「運動」,則控制單元識別「運動」在該所顯示網頁之出現次數(若「運動」不被識別為與指令相聯結的既有文字結構中之一者)。於該種情況
下,「運動」可被視為在該新網頁上之一標籤前導至該運動網頁。控制單元可自該作業系統之架構框架直接取回該情境範圍(亦即所顯示之新網頁)的文字資訊及針對該文字資訊之位置資料。另外,控制單元可使用光學字符識別(OCR)技術以將該情境範圍之一影像轉換成文字資訊及位置資料。然後該文字資訊及位置資料經搜尋以識別該新文字結構之出現次數。
控制單元可識別該新文字結構出現在該情境範圍之一個位置或多個位置。於650,當該文字結構只在目前情境範圍識別一次時,控制單元33聯結該新文字結構與針對該電子裝置之該新指令。舉例言之,當文字結構「運動」在新網頁上只識別一次時,該控制單元紀錄在該情境空間之「運動」鏈路上之一點選動作,及該動作係與該特定指令(亦即「運動」)相聯結的一軟體碼規則鏈接。如同既有指令,儲存文字結構、指令、及相聯結的軟體碼規則(例如於資料庫20、80等)。但此種新穎動態指令只與所紀錄的極其特定情境範圍相聯結。於一個具現中,在產生該新指令之前,該控制單元可顯示包括指令之名稱/文字(例如「運動」)之一「新指令」框、與該指令相聯結的動作等。該使用者可確認或取消該新指令。如此,該控制單元在該文字結構、該指令、及與該動作鏈接之該軟體碼規則間之一觸發,故當一使用者於此一情境範圍再度說出該指令時該動作被重複再現。此一處理程序可針對任何難以言傳的對象(例如小圖幟、鏈路、影像等)重複,其包括文字結構且可由該控制
單元在該裝置之情境範圍識別。
另外,當控制單元33在目前情境範圍識別該新文字結構多於一次時,記憶體控制器自多個文字結構識別一指令文字結構(於660)。舉例言之,當文字結構「運動」在新網頁上的多個位置經識別時,該控制單元33可強調及計數文字結構之全部位置。然後該使用者可選擇新文字結構之較佳位置(例如藉說出期望數目等)。所選較佳位置為指令文字結構。於670,記憶體控制器聯結指令文字結構至新指令。此一處理係類似步驟650描述之處理。
圖8例示一流程圖顯示針對電子裝置10產生一新語音指令之替代方法700之一實施例。此種方法適用以針對在裝置10上可包括一動作(例如輕敲、揮擊、掐取等)之動作及涵蓋難以言傳的對象(例如小圖幟、鏈路、影像等)之動作兩者。方法700可以指令產生模組41進行。
方法700始於710,於該處控制單元33將該電子裝置變換成一指令訓練模式。舉例言之,該使用者可首先提供一初始指令給裝置10以起始訓練模式(例如「訓練」、「訓練模式」、「產生新指令」等)。於720,控制單元33決定電子裝置10之目前情境範圍(類似方法100之步驟130)。然後於730,該控制單元識別在裝置10之目前情境範圍進行的電子裝置上之一動作。舉例言之,該控制單元紀錄於由該使用者進行之情境空間中之一動作(例如輕敲、揮擊、掐取等)。其次,該控制單元接收針對該所執行動作之自該使用者之一新語音輸入(於740)。舉例言之,該使用者可開啟一瀏覽
器(亦即情境範圍),點選該刷新鈕(亦即執行由控制單元識別之動作),及提供語音輸入給控制單元(「刷新」、「刷新該頁」等)。
於一個具現中,然後控制單元33可顯示一「新指令」訊息框,其包括指令之名稱/文字(例如「刷新」)、與指令相聯結的動作等。該使用者可確認或取消該新指令。於750,該控制單元聯結在目前情境範圍之動作與語音輸入以產生針對該電子裝置之新指令。舉例言之,由控制單元識別之動作係與該特定指令(亦即「刷新」)相聯結的一軟體碼規則鏈結。該文字結構、該指令、及該與動作鏈接的相聯結軟體碼規則經儲存(例如資料庫20、80等)。
該使用者可隨時施加類似技術以編輯既有指令。舉例言之,該使用者可提供初始指令給裝置10以起始編輯模式(例如「編輯指令」、「改變指令」等)。然後控制單元33可顯示一「編輯指令」訊息框其可提示該使用者提供期望的指令。在該使用者提供指令之後,訊息框可提示該使用者提供新指令或與該指令相聯結的新動作。該使用者藉提供指令給該控制單元而確認或取消該等編輯。
此外,所提示之方法700可適用以針對顯示在顯示器32上的任何難以言傳的或摘要的對象(例如小圖幟、鏈路、影像等)之產生新指令。舉例言之,一使用者可藉提供一指令(例如「訓練」、「訓練模式」、「產生新指令」等)而起始訓練模式。其次,控制單元決定裝置之目前情境範圍(類似720)。類似730,控制單元識別在該目前情境範圍內進行
的該電子裝置上之一動作。於該實施例中,該動作可產生環繞該摘要對象之一語音激勵區(例如觸摸/點選巨集指令)其可以一語音指令進行。舉例言之,該使用者可環繞該顯示器上之該摘要對象畫一多角形(例如使用一觸摸輸入或滑鼠輸入)以產生一語音激勵區(例如一巨集指令)。然後,該控制單元自該使用者朝向該所進行之動作(類似步驟740)接收一新語音輸入。該新指令可紀錄為一超鏈結或一可點選動作,及將儲存於一資料庫。如此,下次該控制單元識別該情境範圍及接收相關指令,該控制單元將執行該巨集指令以進行在該對象上的一點選或觸摸。該顯示器上之該相同摘要對象可被分派多個語音指令。
繼續參考圖6,控制單元33檢測自一電子裝置之一使用者的至少一個語音輸入(於520)。該步驟係類似方法100之步驟110。於530,該控制單元將該至少一個語音輸入變換成包括至少一個字組之一文字結構(類似方法100之步驟120)。於540,控制單元決定電子裝置之目前情境範圍。此一步驟係類似方法100之步驟130。其次,控制單元33比較文字結構與多個既有文字結構。此等既有文字結構包括由使用者產生的新指令。此一步驟係類似方法100之步驟140。最後,當文字結構匹配該等既有文字結構中之至少一者時,該控制單元識別一指令。此一步驟係類似方法100之步驟150。
100‧‧‧方法
110-160‧‧‧方塊
Claims (15)
- 一種方法,該方法包含:檢測來自一電子裝置之一使用者的至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;決定該電子裝置之一目前情境範圍;比較該文字結構與多個既有文字結構,其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於來自該使用者之至少一個語音輸入;以及基於該經識別之指令進行在該電子裝置上之一動作。
- 如請求項1之方法,其中該等多個既有文字結構係與該電子裝置之該目前情境範圍相聯結。
- 如請求項2之方法,其進一步包含當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時,比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
- 如請求項1之方法,其進一步包含連結來自一使用者之至少兩個循序語音輸入及基於該等連結之循序語音輸入執行一動作。
- 如請求項4之方法,其進一步包含:自該等至少兩個循序語音輸入中之一第一者識別一第一指令;自該等至少兩個循序語音輸入中之一第二者識別一第二指令;決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值;決定該第二指令是否為該第一指令之一語義連續;以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時,將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
- 如請求項1之方法,其中識別一指令以相對應於該至少一個語音輸入進一步包括:當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時,基於該至少一個語音輸入計算針對一目標指令之一可能性分數;比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值;當該目標指令之該可能性分數超過該臨界值時識別一指令;提議產生一新指令,其中該新指令包括在該電子裝置上之一動作;以及 接收來自該使用者有關該新指令之有效性之一構象。
- 如請求項1之方法,其進一步包含:基於來自該使用者之語音輸入產生一新指令,其中該新指令係與該目前情境範圍相聯結;聯結該新指令與在該電子裝置上之至少一個動作;以及儲存該新指令。
- 一種系統,其包含:具有含一控制單元之至少一個處理裝置之一電子裝置,用以進行下列動作:針對該電子裝置產生一新指令,其中該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作,檢測來自一電子裝置之一使用者的至少一個語音輸入,將該至少一個語音輸入變換成包括至少一個字組之一文字結構,決定該電子裝置之該目前情境範圍,比較該文字結構與多個既有文字結構,當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。
- 如請求項8之系統,其中該控制單元係用以:接收來自該使用者之一新語音輸入; 將該新語音輸入變換成一新文字結構;決定該電子裝置之該目前情境範圍;識別該新文字結構於該目前情境範圍中之出現次數;當該文字結構於該目前情境範圍中只被識別一次時,聯結該新文字結構至針對該電子裝置之新指令;當該文字結構於該目前情境範圍中被識別多於一次時,識別一指令文字結構;以及聯結該指令文字結構與該新指令。
- 如請求項8之系統,其中該控制單元係用以:將該電子裝置過渡至一指令訓練模式;決定該電子裝置之該目前情境範圍;識別於該目前情境範圍中執行之在該電子裝置上之一動作;接收來自該使用者導向該所執行之動作之一新語音輸入;以及聯結於該目前情境範圍中之該動作與該新語音輸入以產生針對該電子裝置之該新指令。
- 如請求項8之系統,其中該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍相聯結的多個既有文字結構,及其中當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時,該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
- 一種以可由電子裝置之至少一個處理裝置執行之指令 編碼的非暫態機器可讀儲存媒體,該機器可讀儲存媒體包含用以進行下列動作之指令:處理接收自該電子裝置之一使用者之至少一個語音輸入;將該至少一個語音輸入變換成包括至少一個字組之一文字結構;決定該電子裝置之目前情境範圍;決定該文字結構是否匹配來自與目前情境相聯結的多個既有文字結構之至少一個既有文字結構;決定該文字結構是否匹配來自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構;當該文字結構匹配該等既有文字結構中之至少一者時,識別一指令以相對應於來自該使用者之該至少一個語音輸入;以及當該文字結構並不匹配該等既有文字結構中之至少一者時,產生針對該電子裝置之一新指令,其中該新指令係與該目前情境範圍相聯結。
- 如請求項12之非暫態機器可讀儲存媒體,其進一步包含用以連結來自一使用者之至少兩個循序語音輸入以基於該等連結之循序語音輸入執行一動作之指令。
- 如請求項13之非暫態機器可讀儲存媒體,其進一步包含用以進行下列動作之指令:自該等至少兩個循序語音輸入中之一第一者識別一第一指令; 自該等至少兩個循序語音輸入中之一第二者識別一第二指令;決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值;決定該第二指令是否為該第一指令之一語義連續;以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時,將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
- 如請求項12之非暫態機器可讀儲存媒體,其進一步包含用以進行下列動作之指令:當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時,基於該至少一個語音輸入計算針對一目標指令之一可能性分數;比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值;當該目標指令之該可能性分數超過該容差臨界值時識別一指令;提議產生一新指令,其中該新指令包括在該電子裝置上之一動作;以及接收來自該使用者有關該新指令之有效性之一構象。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2014/014091 WO2015116151A1 (en) | 2014-01-31 | 2014-01-31 | Voice input command |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201535157A TW201535157A (zh) | 2015-09-16 |
TWI544366B true TWI544366B (zh) | 2016-08-01 |
Family
ID=53757546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104102702A TWI544366B (zh) | 2014-01-31 | 2015-01-27 | 語音輸入命令之技術 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10978060B2 (zh) |
EP (1) | EP3100259A4 (zh) |
CN (1) | CN105934791B (zh) |
TW (1) | TWI544366B (zh) |
WO (1) | WO2015116151A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI789891B (zh) * | 2021-09-03 | 2023-01-11 | 中華大學學校財團法人中華大學 | 條件觸發的反饋系統及其方法 |
Families Citing this family (217)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11978436B2 (en) * | 2022-06-03 | 2024-05-07 | Apple Inc. | Application vocabulary integration with a digital assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11592723B2 (en) | 2009-12-22 | 2023-02-28 | View, Inc. | Automated commissioning of controllers in a window network |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US11054792B2 (en) | 2012-04-13 | 2021-07-06 | View, Inc. | Monitoring sites containing switchable optical devices and controllers |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9557885B2 (en) | 2011-08-09 | 2017-01-31 | Gopro, Inc. | Digital media editing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US20240046928A1 (en) * | 2012-04-13 | 2024-02-08 | View, Inc. | Controlling optically-switchable devices |
US10964320B2 (en) * | 2012-04-13 | 2021-03-30 | View, Inc. | Controlling optically-switchable devices |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10776375B2 (en) * | 2013-07-15 | 2020-09-15 | Microsoft Technology Licensing, Llc | Retrieval of attribute values based upon identified entities |
KR102394485B1 (ko) * | 2013-08-26 | 2022-05-06 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
US9698999B2 (en) * | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
US9754159B2 (en) | 2014-03-04 | 2017-09-05 | Gopro, Inc. | Automatic generation of video from spherical content using location-based metadata |
CA3156883A1 (en) | 2014-03-05 | 2015-09-11 | View, Inc. | Monitoring sites containing switchable optical devices and controllers |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9685194B2 (en) | 2014-07-23 | 2017-06-20 | Gopro, Inc. | Voice-based video tagging |
US10074013B2 (en) | 2014-07-23 | 2018-09-11 | Gopro, Inc. | Scene and activity identification in video summary generation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9734870B2 (en) | 2015-01-05 | 2017-08-15 | Gopro, Inc. | Media identifier generation for camera-captured media |
US9679605B2 (en) | 2015-01-29 | 2017-06-13 | Gopro, Inc. | Variable playback speed template for video editing application |
US20160225369A1 (en) * | 2015-01-30 | 2016-08-04 | Google Technology Holdings LLC | Dynamic inference of voice command for software operation from user manipulation of electronic device |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
BR112017021673B1 (pt) * | 2015-04-10 | 2023-02-14 | Honor Device Co., Ltd | Método de controle de voz, meio não-transitório legível por computador e terminal |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10186012B2 (en) | 2015-05-20 | 2019-01-22 | Gopro, Inc. | Virtual lens simulation for video and photo cropping |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9894393B2 (en) | 2015-08-31 | 2018-02-13 | Gopro, Inc. | Video encoding for reduced streaming latency |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10204273B2 (en) | 2015-10-20 | 2019-02-12 | Gopro, Inc. | System and method of providing recommendations of moments of interest within video clips post capture |
US9721611B2 (en) | 2015-10-20 | 2017-08-01 | Gopro, Inc. | System and method of generating video from video clips based on moments of interest within the video clips |
CN106653010B (zh) | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
TWI639153B (zh) | 2015-11-03 | 2018-10-21 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN106814639A (zh) * | 2015-11-27 | 2017-06-09 | 富泰华工业(深圳)有限公司 | 语音控制系统及方法 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
TWI562000B (en) * | 2015-12-09 | 2016-12-11 | Ind Tech Res Inst | Internet question answering system and method, and computer readable recording media |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10095696B1 (en) | 2016-01-04 | 2018-10-09 | Gopro, Inc. | Systems and methods for generating recommendations of post-capture users to edit digital media content field |
US10109319B2 (en) | 2016-01-08 | 2018-10-23 | Gopro, Inc. | Digital media editing |
US10083537B1 (en) | 2016-02-04 | 2018-09-25 | Gopro, Inc. | Systems and methods for adding a moving visual element to a video |
US10409550B2 (en) | 2016-03-04 | 2019-09-10 | Ricoh Company, Ltd. | Voice control of interactive whiteboard appliances |
US10417021B2 (en) * | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
US9972066B1 (en) | 2016-03-16 | 2018-05-15 | Gopro, Inc. | Systems and methods for providing variable image projection for spherical visual content |
US10402938B1 (en) | 2016-03-31 | 2019-09-03 | Gopro, Inc. | Systems and methods for modifying image distortion (curvature) for viewing distance in post capture |
US9794632B1 (en) | 2016-04-07 | 2017-10-17 | Gopro, Inc. | Systems and methods for synchronization based on audio track changes in video editing |
US9838731B1 (en) | 2016-04-07 | 2017-12-05 | Gopro, Inc. | Systems and methods for audio track selection in video editing with audio mixing option |
US9838730B1 (en) | 2016-04-07 | 2017-12-05 | Gopro, Inc. | Systems and methods for audio track selection in video editing |
CN109313498B (zh) * | 2016-04-26 | 2023-08-11 | 唯景公司 | 控制光学可切换设备 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) * | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US9998769B1 (en) | 2016-06-15 | 2018-06-12 | Gopro, Inc. | Systems and methods for transcoding media files |
US10250894B1 (en) | 2016-06-15 | 2019-04-02 | Gopro, Inc. | Systems and methods for providing transcoded portions of a video |
US9922682B1 (en) | 2016-06-15 | 2018-03-20 | Gopro, Inc. | Systems and methods for organizing video files |
US10045120B2 (en) | 2016-06-20 | 2018-08-07 | Gopro, Inc. | Associating audio with three-dimensional objects in videos |
US10185891B1 (en) | 2016-07-08 | 2019-01-22 | Gopro, Inc. | Systems and methods for compact convolutional neural networks |
US10469909B1 (en) | 2016-07-14 | 2019-11-05 | Gopro, Inc. | Systems and methods for providing access to still images derived from a video |
US10395119B1 (en) | 2016-08-10 | 2019-08-27 | Gopro, Inc. | Systems and methods for determining activities performed during video capture |
US9836853B1 (en) | 2016-09-06 | 2017-12-05 | Gopro, Inc. | Three-dimensional convolutional neural networks for video highlight detection |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10282632B1 (en) | 2016-09-21 | 2019-05-07 | Gopro, Inc. | Systems and methods for determining a sample frame order for analyzing a video |
US10268898B1 (en) | 2016-09-21 | 2019-04-23 | Gopro, Inc. | Systems and methods for determining a sample frame order for analyzing a video via segments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10332628B2 (en) | 2016-09-30 | 2019-06-25 | Sap Se | Method and system for control of an electromechanical medical device |
EP3301598B1 (en) * | 2016-09-30 | 2020-06-17 | Sap Se | Method and system for control of an electromechanical medical device |
US10002641B1 (en) | 2016-10-17 | 2018-06-19 | Gopro, Inc. | Systems and methods for determining highlight segment sets |
US10284809B1 (en) | 2016-11-07 | 2019-05-07 | Gopro, Inc. | Systems and methods for intelligently synchronizing events in visual content with musical features in audio content |
US10262639B1 (en) | 2016-11-08 | 2019-04-16 | Gopro, Inc. | Systems and methods for detecting musical features in audio content |
US10572591B2 (en) * | 2016-11-18 | 2020-02-25 | Lenovo (Singapore) Pte. Ltd. | Input interpretation based upon a context |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10534966B1 (en) | 2017-02-02 | 2020-01-14 | Gopro, Inc. | Systems and methods for identifying activities and/or events represented in a video |
US10339443B1 (en) | 2017-02-24 | 2019-07-02 | Gopro, Inc. | Systems and methods for processing convolutional neural network operations using textures |
US10127943B1 (en) | 2017-03-02 | 2018-11-13 | Gopro, Inc. | Systems and methods for modifying videos based on music |
US10185895B1 (en) | 2017-03-23 | 2019-01-22 | Gopro, Inc. | Systems and methods for classifying activities captured within images |
US10083718B1 (en) | 2017-03-24 | 2018-09-25 | Gopro, Inc. | Systems and methods for editing videos based on motion |
US10187690B1 (en) | 2017-04-24 | 2019-01-22 | Gopro, Inc. | Systems and methods to detect and correlate user responses to media content |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395122B1 (en) | 2017-05-12 | 2019-08-27 | Gopro, Inc. | Systems and methods for identifying moments in videos |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10698654B2 (en) * | 2017-05-18 | 2020-06-30 | Aiqudo, Inc. | Ranking and boosting relevant distributable digital assistant operations |
EP3635578A4 (en) | 2017-05-18 | 2021-08-25 | Aiqudo, Inc. | SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS |
US10838746B2 (en) | 2017-05-18 | 2020-11-17 | Aiqudo, Inc. | Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations |
US20180366108A1 (en) * | 2017-05-18 | 2018-12-20 | Aiqudo, Inc. | Crowdsourced training for commands matching |
US11340925B2 (en) | 2017-05-18 | 2022-05-24 | Peloton Interactive Inc. | Action recipes for a crowdsourced digital assistant system |
US11043206B2 (en) | 2017-05-18 | 2021-06-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
US11056105B2 (en) | 2017-05-18 | 2021-07-06 | Aiqudo, Inc | Talk back from actions in applications |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10334415B2 (en) * | 2017-06-16 | 2019-06-25 | T-Mobile Usa, Inc. | Voice user interface for device and component control |
US10496363B2 (en) | 2017-06-16 | 2019-12-03 | T-Mobile Usa, Inc. | Voice user interface for data access control |
US10402698B1 (en) | 2017-07-10 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying interesting moments within videos |
US10614114B1 (en) | 2017-07-10 | 2020-04-07 | Gopro, Inc. | Systems and methods for creating compilations based on hierarchical clustering |
US10402656B1 (en) | 2017-07-13 | 2019-09-03 | Gopro, Inc. | Systems and methods for accelerating video analysis |
US11024305B2 (en) | 2017-08-07 | 2021-06-01 | Dolbey & Company, Inc. | Systems and methods for using image searching with voice recognition commands |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR102441067B1 (ko) * | 2017-10-12 | 2022-09-06 | 현대자동차주식회사 | 차량의 사용자 입력 처리 장치 및 사용자 입력 처리 방법 |
KR102455067B1 (ko) * | 2017-11-24 | 2022-10-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US11182122B2 (en) * | 2017-12-08 | 2021-11-23 | Amazon Technologies, Inc. | Voice control of computing devices |
US10503468B2 (en) | 2017-12-08 | 2019-12-10 | Amazon Technologies, Inc. | Voice enabling applications |
TWI651714B (zh) * | 2017-12-22 | 2019-02-21 | 隆宸星股份有限公司 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
WO2019152511A1 (en) | 2018-01-30 | 2019-08-08 | Aiqudo, Inc. | Personalized digital assistant device and related methods |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108363557B (zh) * | 2018-02-02 | 2020-06-12 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
DE102018103548A1 (de) * | 2018-02-16 | 2019-08-22 | Technisat Digital Gmbh | Vorrichtung zum Fernbedienen sowie zweckgleiches Verfahren |
US11195530B1 (en) | 2018-02-19 | 2021-12-07 | State Farm Mutual Automobile Insurance Company | Voice analysis systems and methods for processing digital sound data over a communications network |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11100146B1 (en) * | 2018-03-23 | 2021-08-24 | Amazon Technologies, Inc. | System management using natural language statements |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
KR20190134107A (ko) * | 2018-05-24 | 2019-12-04 | 삼성전자주식회사 | 사용자의 음성을 처리하는 전자 장치를 포함하는 시스템 및 전자 장치의 음성 인식 제어 방법 |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10832010B2 (en) * | 2018-06-05 | 2020-11-10 | International Business Machines Corporation | Training of conversational agent using natural language |
KR20200027753A (ko) * | 2018-09-05 | 2020-03-13 | 삼성전자주식회사 | 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
US10984791B2 (en) | 2018-11-29 | 2021-04-20 | Hughes Network Systems, Llc | Spoken language interface for network management |
WO2020139121A1 (en) * | 2018-12-28 | 2020-07-02 | Ringcentral, Inc., (A Delaware Corporation) | Systems and methods for recognizing a speech of a speaker |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
KR102229562B1 (ko) * | 2019-07-25 | 2021-03-18 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11593067B1 (en) * | 2019-11-27 | 2023-02-28 | United Services Automobile Association (Usaa) | Voice interaction scripts |
CN111048115A (zh) * | 2019-12-13 | 2020-04-21 | 集奥聚合(北京)人工智能科技有限公司 | 语音识别方法及装置 |
CN111459451A (zh) * | 2020-03-31 | 2020-07-28 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
US20230019737A1 (en) * | 2021-07-14 | 2023-01-19 | Google Llc | Hotwording by Degree |
US20230088513A1 (en) * | 2021-09-22 | 2023-03-23 | International Business Machines Corporation | Multiuser voice command visualization |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW323364B (zh) * | 1993-11-24 | 1997-12-21 | At & T Corp | |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP2001043064A (ja) * | 1999-07-30 | 2001-02-16 | Canon Inc | 音声情報処理方法、装置及び記憶媒体 |
US7069220B2 (en) * | 1999-08-13 | 2006-06-27 | International Business Machines Corporation | Method for determining and maintaining dialog focus in a conversational speech system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7188066B2 (en) * | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
TW200506709A (en) | 2003-08-08 | 2005-02-16 | Mitac Technology Corp | Fast voice control device for computer device and method thereof |
US7356472B2 (en) * | 2003-12-11 | 2008-04-08 | International Business Machines Corporation | Enabling speech within a multimodal program using markup |
US20060074658A1 (en) * | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
US7624019B2 (en) * | 2005-10-17 | 2009-11-24 | Microsoft Corporation | Raising the visibility of a voice-activated user interface |
US8251924B2 (en) * | 2006-07-07 | 2012-08-28 | Ambient Corporation | Neural translator |
EP1879000A1 (en) | 2006-07-10 | 2008-01-16 | Harman Becker Automotive Systems GmbH | Transmission of text messages by navigation systems |
ES2302640B1 (es) * | 2006-12-21 | 2009-05-21 | Juan Jose Bermudez Perez | Sistema para la interaccion mediante voz en paginas web. |
US8219406B2 (en) | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
US20090018830A1 (en) | 2007-07-11 | 2009-01-15 | Vandinburg Gmbh | Speech control of computing devices |
US20110035662A1 (en) * | 2009-02-18 | 2011-02-10 | King Martin T | Interacting with rendered documents using a multi-function mobile device, such as a mobile phone |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
TWM343204U (en) | 2008-04-22 | 2008-10-21 | Darfon Electronics Corp | Input apparatus |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8412531B2 (en) | 2009-06-10 | 2013-04-02 | Microsoft Corporation | Touch anywhere to speak |
EP2606437A4 (en) | 2010-08-16 | 2015-04-01 | Nokia Corp | METHOD AND DEVICE FOR CARRYING OUT CONTEXTIC DEVICE ACTIONS |
WO2012090196A1 (en) * | 2010-12-30 | 2012-07-05 | Melamed Gal | Method and system for processing content |
JP6131249B2 (ja) * | 2011-06-19 | 2017-05-17 | エムモーダル アイピー エルエルシー | コンテキストアウェア認識モデルを使用した音声認識 |
BR102012024861B1 (pt) * | 2011-09-30 | 2021-02-09 | Apple Inc. | sistema para desambiguar entrada de usuário para realizar uma tarefa |
US8452602B1 (en) | 2011-09-30 | 2013-05-28 | Google Inc. | Structuring verbal commands to allow concatenation in a voice interface in a mobile device |
US20130219277A1 (en) * | 2012-02-21 | 2013-08-22 | Mobotap Inc. | Gesture and Voice Controlled Browser |
EP2639792A1 (en) * | 2012-03-16 | 2013-09-18 | France Télécom | Voice control of applications by associating user input with action-context idendifier pairs |
US20130317827A1 (en) | 2012-05-23 | 2013-11-28 | Tsung-Chun Fu | Voice control method and computer-implemented system for data management and protection |
TWM453219U (zh) | 2012-11-05 | 2013-05-11 | Chung Han Interlingua Knowledge Co Ltd | 語意辨識設備 |
US9384732B2 (en) * | 2013-03-14 | 2016-07-05 | Microsoft Technology Licensing, Llc | Voice command definitions used in launching application with a command |
US9922642B2 (en) * | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9792546B2 (en) * | 2013-06-14 | 2017-10-17 | Brain Corporation | Hierarchical robotic controller apparatus and methods |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US20170200455A1 (en) * | 2014-01-23 | 2017-07-13 | Google Inc. | Suggested query constructor for voice actions |
US9858039B2 (en) * | 2014-01-28 | 2018-01-02 | Oracle International Corporation | Voice recognition of commands extracted from user interface screen devices |
WO2015116151A1 (en) * | 2014-01-31 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Voice input command |
-
2014
- 2014-01-31 WO PCT/US2014/014091 patent/WO2015116151A1/en active Application Filing
- 2014-01-31 EP EP14880444.6A patent/EP3100259A4/en not_active Ceased
- 2014-01-31 CN CN201480074511.6A patent/CN105934791B/zh not_active Expired - Fee Related
- 2014-01-31 US US15/114,386 patent/US10978060B2/en active Active
-
2015
- 2015-01-27 TW TW104102702A patent/TWI544366B/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI789891B (zh) * | 2021-09-03 | 2023-01-11 | 中華大學學校財團法人中華大學 | 條件觸發的反饋系統及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US20160358603A1 (en) | 2016-12-08 |
WO2015116151A1 (en) | 2015-08-06 |
CN105934791B (zh) | 2019-11-22 |
TW201535157A (zh) | 2015-09-16 |
EP3100259A4 (en) | 2017-08-30 |
US10978060B2 (en) | 2021-04-13 |
CN105934791A (zh) | 2016-09-07 |
EP3100259A1 (en) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI544366B (zh) | 語音輸入命令之技術 | |
US11194448B2 (en) | Apparatus for vision and language-assisted smartphone task automation and method thereof | |
US20210004405A1 (en) | Enhancing tangible content on physical activity surface | |
US10963045B2 (en) | Smart contact lens system with cognitive analysis and aid | |
US9886958B2 (en) | Language and domain independent model based approach for on-screen item selection | |
US9691381B2 (en) | Voice command recognition method and related electronic device and computer-readable medium | |
US20090247219A1 (en) | Method of generating a function output from a photographed image and related mobile computing device | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
EP2891041B1 (en) | User interface apparatus in a user terminal and method for supporting the same | |
WO2018000626A1 (zh) | 基于电视机的网页浏览控制方法及相关装置 | |
US11921966B2 (en) | Intelligent response using eye gaze | |
US11093510B2 (en) | Relevance ranking of productivity features for determined context | |
KR20160060110A (ko) | 온스크린 키보드에 대한 빠른 작업 | |
US20230197082A1 (en) | Display apparatus and a voice contral method | |
KR20200106703A (ko) | 사용자 선택 기반의 정보를 제공하는 방법 및 장치 | |
US20190227634A1 (en) | Contextual gesture-based image searching | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
US20140181672A1 (en) | Information processing method and electronic apparatus | |
CN111696546A (zh) | 使用多模式界面以利于口头命令的发现 | |
US9411885B2 (en) | Electronic apparatus and method for processing documents | |
US20240118803A1 (en) | System and method of generating digital ink notes | |
EP3635527B1 (en) | Magnified input panels | |
CN116151272A (zh) | 一种终端设备及语义意图的识别方法 | |
WO2021154430A1 (en) | Application search system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |