TWI544366B

TWI544366B - 語音輸入命令之技術

Info

Publication number: TWI544366B
Application number: TW104102702A
Authority: TW
Inventors: 賽義德Ｓ阿贊; 黃嘩添
Original assignee: 惠普發展公司有限責任合夥企業
Priority date: 2014-01-31
Filing date: 2015-01-27
Publication date: 2016-08-01
Also published as: US20160358603A1; WO2015116151A1; CN105934791B; TW201535157A; EP3100259A4; US10978060B2; CN105934791A; EP3100259A1

Description

語音輸入命令之技術

本發明係有關於語音輸入命令之技術。

發明背景

今日使用者攜帶或操作裝置有各式各樣功能集合之一或多個電子裝置的數目漸增。此等裝置可彼此通訊，接取網際網路，執行不同工作，或透過網路接取各種資料服務。各種裝置諸如個人電腦、一體機計算裝置、網際網路致能平板、智慧型電話、膝上型電腦、電視、及遊戲機臺已經變成必備的個人附件，讓使用者與朋友、工作、及娛樂連結。今日使用者有更多選擇且預期隨時有效存取全部各型裝置上的節目、資料、及其它內容。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。

依據本發明之一實施例，係特地提出一種方法包含：檢測自一電子裝置之一使用者的至少一個語音輸入；將該至少一個語音輸入變換成包括至少一個字組(word)之一文字結構；決定該電子裝置之一目前情境範圍；比較該文字結構與多個既有文字結構，其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結；當該文字結構匹配該等既有文字結構中之至少一者時，識別一指令以相對應於自該使用者之至少一個語音輸入；及基於該經識別之指令進行在該電子裝置上之一動作。

10‧‧‧電子裝置

15‧‧‧外部電子裝置

20‧‧‧外部資料庫

30‧‧‧處理器、處理裝置

32‧‧‧顯示器

33‧‧‧控制單元、控制器

35‧‧‧記憶體資源、記憶體

37‧‧‧非過渡機器可讀取儲存媒體

39‧‧‧情境範圍決定模組

40‧‧‧指令識別模組

41‧‧‧指令產生模組

42‧‧‧指令執行模組

45‧‧‧輸入介面

50‧‧‧通訊介面

55‧‧‧匯流排

60‧‧‧資料介面

70‧‧‧作業系統

80‧‧‧資料庫

100、200、300、400、500、600、700‧‧‧方法

110-160、210-250、305-325、410-460、510-560、610-670、710-750‧‧‧方塊

圖1為依據本文揭示之一具現一電子裝置實施例之示意例示圖。

圖2例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之方法之一實施例。

圖3例示一流程圖顯示依據本文揭示之一具現一種比較自一使用者之語音輸入之一文字結構與多個既有文字結構之方法之一實施例。

圖4例示一流程圖顯示依據本文揭示之一具現一種連結自一使用者之至少兩個循序語音輸入以識別一指令的情境知覺方法之一實施例。

圖5例示一流程圖顯示依據本文揭示之一具現一種當沒有與一既有指令之直接匹配時識別一指令以相對應於自一使用者之至少一個語音輸入之方法之一實施例。

圖6例示一流程圖顯示依據本文揭示之一具現一種使用語音指令控制一電子裝置之操作之另一方法之一實施例。

圖7例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之方法之一實施例。

圖8例示一流程圖顯示依據本文揭示之一具現一種針對一電子裝置產生一新語音指令之另一方法之一實施例。

較佳實施例之詳細說明

隨著晚近技術的改良，電子裝置(例如平板、膝上型電腦、顯示螢幕、智慧型電話等)持續在人類生活中扮演要角。不同的使用者仰賴不同型別之電子裝置用於許多日常活動及工作相關任務。利用不同類型電子裝置的大量使用者刺激了供應商提供能夠滿足使用者的需求增加、支援寬廣大量可用服務、及提供可靠通訊的裝置。

電子裝置有不同尺寸、形式、且可包括不同技術特性件。由於電子裝置之增加故，其技術能力持續增高。結果此等裝置也對其使用者提供擴大服務。此等電子裝置常用以接取網際網路，購買各種貨品及服務，及執行各種個人及業務相關功能。

許多電子裝置包括一觸控螢幕，其許可一使用者與該電子裝置互動，及內容直接顯示在顯示幕上，而非藉使用外部輸入裝置(例如滑鼠)間接顯示。該使用者可利用該觸控螢幕以控制在該電子裝置上之操作，應答任何顯示的內容(例如訊息、電子郵件等)，及控制該內容如何顯示在螢幕上(例如藉縮放該文字或影像大小)。

但觸控螢幕技術並非經常性地如所預期般地執行，且不能用在所有場合。舉例言之，當一使用者的雙手忙碌、骯髒、或潮濕時，該使用者無法用他或她的手指以與該電子裝置互動。此外，當該使用者遠離該顯示器時，觸摸該顯示器變不可能。

因此，使用者經常地尋找替代的及更有效的方式以控制其電子裝置。透過語音控制電子裝置提供了觸控螢幕控制的重大替代方案，且許可使用者以快速容易之方式與該裝置互動。使用語音指令以控制該電子裝置，許可一使用者在該裝置上執行不同任務，同時他的或她的雙手仍可從事其它活動。

本文描述係有關於使用語音指令以控制一電子裝置之全部操作之系統、方法、及電腦可讀取媒體。本文描述提出基於該裝置之該目前情境範圍(例如跑應用程式等)及接收自該使用者之語音指令而語音控制一電子裝置之方法。本文描述藉由使用、產生使用者指令、及編輯使用者指令而許可以語音導航及操作一電子裝置之該作業系統(OS)。因此，本文描述並不要求一個人助理應用程式控制該電子裝置之特定功能，反而將語音控制功能展開遍及該電子裝置之整個作業系統，使得一使用者可隨時隨地提供指令而無需返回一特定應用程式。

本文揭示之系統、方法、及電腦可讀取媒體檢測自該電子裝置之該使用者的語音輸入及將其變換成一文字結構。根據在該電子裝置上跑的該經識別之情境範圍(應用程式、處理等)，該等系統、方法、及電腦可讀取媒體試圖匹配該經識別之文字結構與針對該特定情境範圍之一既有指令。若經識別一匹配指令，則該等經揭示之系統、方法、及電腦可讀取媒體基於該指令執行在該電子裝置上之一動作。如此，該等經揭示之系統、方法、及電腦可讀取媒體可從事在目前使用不同輸入裝置(例如滑鼠、鍵盤、觸摸輸入等)執行的該電子裝置上之各種操作。使用該等經提示之系統、方法、及電腦可讀取媒體完全導航通過該裝置之作業系統變成可能。

此外，該經提示之語音控制解決方案使用各種技術以識別自該使用者之循序語音輸入，及基於此等循序語音輸入之關係而識別一指令。又，此處描述之技術可檢測一指令，即便當接收自該使用者之語音輸入並非明確匹配該電子裝置之一既有指令亦復如此。此等技術協助一使用者更佳地控制該電子裝置之操作。

該經提示之解決方案也提供產生新指令及編輯該電子裝置之既有指令之一種獨特方法。該等新指令可與該電子裝置之情境範圍相聯結，及可包括欲在該特定情境在該電子裝置上執行之不同動作。本文揭示也描述根據由該裝置之該特定使用者經識別之語音指令，訓練該電子裝置以從事各項操作之技術。

如此，於本詳細說明部分描述之該等技術許可一使用者藉使用基於該電子裝置之特定情境範圍經識別的語音指令操作一電子裝置。該經提示之語音控制解決方案可運用自然語言處理技術以改良指令辨識準確度。該解決方案提供了可達成遠更高的指令辨識準確度且容易控制之一構思。每位使用者藉產生與編輯他或她的指令及個人化該描述系統符合其本身需求而彌補所提供的服務。如此給予全部使用者相當大彈性，且使得本案提示之語音控制技術對消費者極具吸引力。本案提示之語音控制解決方案適用於全部型別之電子裝置，但尤其有助於與具有大型顯示器之裝置互動。

於一具體實施例中，提出一種建構消費者之市場區隔之方法。如同於本文揭示中描述之其它方法，該方法可藉該電子裝置之一處理器執行。舉例言之，一非過渡機器可讀取儲存媒體可儲存電腦程式或模組，其當由該電子裝置執行時使得該方法被執行。該方法包括檢測自一電子裝置之一使用者的至少一個語音輸入；將該至少一個語音輸入變換成包括至少一個字組之一文字結構；及決定該電子裝置之一目前情境範圍。該方法也包括比較該文字結構與多個既有文字結構，於該處該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結。該方法進一步包括當該文字結構匹配該等既有文字結構中之至少一者時，識別一指令以相對應於自該使用者之至少一個語音輸入；及基於該經識別之指令進行在該電子裝置上之一動作。

於另一具體實施例中，提出一種建構消費者之市場區隔之系統。該系統包括具有至少一個處理裝置之一電子裝置。該處理裝置包括一控制單元以針對該電子裝置產生一新指令，於該處該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作。該控制單元也用以自一電子裝置之一使用者檢測至少一個語音輸入，將該至少一個語音輸入變換成包括至少一個字組之一文字結構，及決定該電子裝置之該目前情境範圍。該控制單元進一步用以比較該文字結構與多個既有文字結構，及當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。

於又另一具體實施例中，提出一種以可由一電子裝置之至少一個處理裝置執行之指令編碼的非過渡機器可讀取儲存媒體。該機器可讀取儲存媒體包含指令以處理接收自該電子裝置之一使用者之至少一個語音輸入；將該至少一個語音輸入變換成包括至少一個字組之一文字結構；及決定該電子裝置之該目前情境範圍。該機器可讀取儲存媒體進一步包含指令以決定該文字結構是否匹配自與該目前情境相聯結的多個既有文字結構之至少一個既有文字結構；及決定該文字結構是否匹配自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構。該機器可讀取儲存媒體也包含指令以當該文字結構匹配該等既有文字結構中之至少一者時，識別一指令以相對應於自該使用者之該至少一個語音輸入；及當該文字結構並不匹配該等既有文字結構中之至少一者時，產生針對該電子裝置之一新指令。該新指令係與該目前情境範圍相聯結。

如此處使用，「電子裝置」一詞係指下列裝置中之任一者：各種智慧型電話、顯示螢幕、小區式電話、平板、個人數位助理器(PDA)、膝上型電腦、電腦、伺服器、以及包括一顯示器、一處理器，且能顯示影像在該顯示器上，及能透過無線或有線通訊網路與其它電子裝置通訊之其它類似的電子裝置。

如此處使用，「情境範圍」一詞係指一電子裝置之情境。換言之，情境範圍係指目前正在該電子裝置上跑的應用程式、處理、或活動(例如視訊分享應用程式、遊戲、瀏覽器、主螢幕等)。

於後文詳細說明部分中參考附圖，附圖構成本發明之一部分，及於其中藉由例示顯示特定實施例其中可實施本文揭示之主旨。須瞭解不背離本文揭示之範圍，可運用其它實施例及做出結構上或邏輯上的改變。因此，後文詳細說明部分絕非視為限制性及本文揭示之範圍係由隨附之申請專利範圍各項界定。又，須瞭解此處使用之片語及術語係用於描述性目的而不應視為限制性。此處「包括」、「包含」或「具有」及其變化詞之使用意圖涵蓋後文列舉之項目及其相當項目以及額外項目。也須注意多個以硬體及軟體為基礎之裝置以及多個不同結構組件可用以具現所揭示之方法及系統。

圖1為能夠進行下述技術之一電子裝置10之一實施例之示意例示圖。該電子裝置10可為一行動電子裝置(例如智慧型電話)、固定式電子裝置(例如桌上型電腦、顯示器螢幕等)、可轉換電子裝置(例如可轉換膝上型電腦)、或任何其它型別之電子裝置。舉例言之，該電子裝置10可為平板、膝上型電腦、個人電腦、一體機計算裝置、遊戲機臺、伺服器、智慧型電話、音樂播放器、視覺播放器、個人數位助理器(PDA)、小區式電話、電子筆記板、多個分散式計算裝置、或包括一顯示器及一處理器之任何其它合宜電子裝置。於該具體實施例中，電子裝置10包括至少一個處理裝置30(又稱處理器)、一顯示器32、一記憶體資源35、輸入介面45、及通訊介面50。於其它實施例中，電子裝置10包括用以進行此處描述之功能的額外的更少數的或不同的組件。

容後詳述，電子裝置10包括軟體、硬體、彧其適當組合經組配以能夠發揮電子裝置10之功能，及許可其進行後述技術且與一或多個外部系統/裝置互動。舉例言之，電子裝置10包括用以介接外部裝置/系統及/或網路(圖中未顯示)之通訊介面(例如Wi-Fi®介面、藍牙介面、3G介面、4G介面、近場通訊(NFC)介面等)。該網路可包括任何合宜型別或組態之網路以許可電子裝置10與任何外部裝置/系統間之通訊。

容後詳述，於一個實施例中，該電子裝置10可與用於該電子裝置10之語音搖控之至少一個電子裝置15(例如智慧型電話、計算裝置、伺服器、多個分散式計算裝置等)通訊。此外，電子裝置10也可與一外部資料庫20通訊以取回針對裝置10之操作指令相關的或此處描述之其它處理相關的資料。須瞭解有關本文描述被描述為由該電子裝置 10執行之操作於若干具現中，可在電子裝置10與其它計算裝置(圖中未顯示)間進行或分散在其間。

電子裝置10之處理裝置30(例如中央處理單元、一組分散式處理器、微處理器、微控制器、特定應用積體電路(ASIC)、圖形處理器、多處理器、虛擬處理器、雲端處理系統、或其它合宜控制器或可規劃裝置)、記憶體資源35、輸入介面45、及通訊介面50係操作式耦接至一匯流排55。

顯示器32提供視覺資訊給一使用者，諸如各種顯示視窗、小圖幟、標籤、視訊影像、圖像等。顯示器32也顯示自在顯示於顯示器螢幕上之一視窗上的電子裝置10上跑的不同應用程式之內容。顯示器32可為透明液晶顯示器(LCD)、有機發光二極體(OLED)顯示器、電漿顯示器、或任何其它合宜顯示器。顯示器32可為電子裝置10之部件(例如當該電子裝置10為平板或一體機裝置時)，可為與電子裝置10作電子通訊之一分開組件(例如當該電子裝置為有一分開監視器之桌上型電腦時)，及可為可卸式組件其也可用作為手持式裝置(例如當該電子裝置10為可轉換計算裝置時)。顯示器32可具有不同尺寸且可支援各型顯示器解析度。

通訊介面50許可電子裝置10與多個網路、通訊鏈路、及外部裝置通訊。輸入介面45可自與電子裝置10通訊之任何內部或外部裝置/系統接收資訊。於一個實施例中，輸入介面45包括至少一個資料介面60。於其它實施例中，輸入介面45可包括額外介面。於一個具現中，資料介面60可自外部資料庫20接收語音輸入(例如自該電子裝置之使用者或自外部電子裝置15)或通訊。

處理器30包括一控制器33(又稱一控制單元)及可使用任何合宜型別之處理系統具現，於該處至少一個處理器執行儲存於記憶體35之電腦可讀取指令。該記憶體資源35包括任何合宜型別、數目、及組態之依電性或非過渡機器可讀取儲存媒體37以儲存指令及資料。於該記憶體35中之機器可讀取儲存媒體37之實施例包括唯讀記憶體(ROM)、隨機存取記憶體(RAM)(例如動態RAM[DRAM]、同步DRAM[SDRAM]等)、可電氣抹除可規劃唯讀記憶體(EEPROM)、快閃記憶體、SD卡、及其它合宜磁性、光學、物理、或電子記憶體裝置。記憶體資源35也可用以儲存於指令之由處理器30執行期間的暫時變數或其它中間資訊。

記憶體35也可儲存一作業系統70及網路應用程式75。該作業系統70可為多使用者、多處理、多工作、多執行緒、及即時。該作業系統70也可執行基本工作，諸如辨識自輸入裝置諸如鍵盤、數字小鍵盤、滑鼠、自一使用者之語音等輸入；發送輸出給投影器及相機；追蹤記憶體35上之檔案及目錄；控制周邊裝置，諸如列印器、影像拍攝裝置；及管理匯流排55上之流通量。網路應用程式75包括用以建立及維持網路連結之各種組件，諸如用以具現通訊協定之電腦可讀取指令，諸如TCP/IP、HTTP、乙太網路®、USB®、及火線®。

儲存在非過渡機器可讀取儲存媒體37上且由處理器30執行之軟體包括例如，韌體、應用程式、程式資料、濾波器、規則、程式模組、及其它可執行指令。控制單元33自機器可讀取儲存媒體37取回，及執行與此處描述之控制程序及方法相關之指令等。於一個實施例中，儲存於非過渡機器可讀取儲存媒體37之該等指令具現一情境範圍決定模組39、一指令識別模組40、一指令產生模組41、及一指令執行模組42。於其它實施例中，該等指令可具現更多或更少個模組(例如與裝置10之操作相關的各種其它模組)。於一個實施例中，模組39-42可以用以進行後述功能之電子電路具現。如前述，此外或另外，模組39-42可具現為編碼在一機器可讀取儲存媒體上及由一處理器可執行之一串列指令。

於一個具體實施例中，模組39-42可預先安裝在裝置10上作為該裝置之作業系統之部件。於另一個具體實施例中，模組39-42可下載至裝置10(例如自雲端)。如此，由模組39-42具現之處理程序可在裝置10上執行或在與裝置10通訊之遠端處理裝置內執行。容後詳述，情境範圍決定模組39決定在一新語音輸入接收在裝置10之後該電子裝置之目前情境範圍。指令識別模組40根據所接收的語音輸入(被轉換成文字)及裝置10之情境範圍而識別針對該電子裝置之一指令。指令產生模組41根據所接收的語音輸入及裝置10之情境範圍而產生針對該電子裝置之一指令。指令執行模組42根據識別之指令在電子裝置10上執行至少一個動作。

電子裝置10及其它系統/裝置相聯結的資訊及資料可儲存、登錄、處理、及分析以具現此處描述之控制方法及程序。舉例言之，記憶體35可包括至少一個資料庫80。於其它具體實施例中，電子裝置10可存取在電子裝置10遠端儲存(例如可透過網路或雲端存取)之外部資料庫(例如資料庫20)。

圖2例示一流程圖顯示用以使用語音指令控制一電子裝置之操作之方法100之一實施例。容後詳述，該等操作可涉及基於語音輸入指令在電子裝置10上執行至少一個動作。於一個實施例中，方法100可由電子裝置10之處理器30之控制單元33執行。此處就方法100描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法100也能夠使用與例示實施例中顯示的元件額外的或更少的元件執行。

方法100可以編碼於由電子裝置10之處理器30可執行的一非過渡機器可讀取儲存媒體37上之指令形式執行。於一個實施例中，方法100之指令具現情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42。於其它實施例中，方法100之執行可分散在該處理裝置30及與該處理裝置30通訊之其它處理裝置間。

方法100始於方塊110，於該處處理器30檢測自一電子裝置10之一使用者的至少一個語音輸入。該使用者可直接提供語音輸入給該裝置(例如藉於裝置10講話)。另外，語音輸入可遠端提供。舉例言之，一使用者可利用與電子裝置10通訊之另一裝置(例如電子裝置15)提供語音輸入給該裝置10。該使用者可提供語音輸入給該裝置15，其發射該語音輸入給該電子裝置10(例如透過通訊介面)。其許可該使用者進行裝置10之語音搖控。其對具有大型顯示器(例如在公眾區域之廣告顯示器)之裝置10極為有用，於該處該裝置之麥克風可能無法檢測與來自一使用者之直接語音通訊。

於若干實施例中，處理器30之控制單元33使用既有語音辨識工具及/或應用程式以檢測自該使用者之至少一個輸入。於其它實施例中，語音辨識工具可由模組39-42中之一者提供。自該使用者之語音輸入可包括至少一個字組或片語其意圖控制該裝置10之操作及在裝置10上執行動作。由該使用者所做的語音輸入可包括：「開啟通知」、「開啟快速設定」、「下捲」、「上捲」、「拍快照」、「關閉對話」、及其它輸入。其次，於120，該控制單元33將該至少一個語音輸入變換成包括至少一個字組之一文字結構。舉例言之，控制單元33使用裝置10上的既有語音辨識工具或應用程式以將該語音輸入變換成一文字結構。

於130，控制單元33決定該電子裝置之一目前情境範圍。此點可由情境範圍決定模組39進行。該電子裝置之該目前情境範圍為目前在裝置上跑或由裝置執行的應用程式、處理、或活動。舉例言之，若該使用者正在使用裝置10瀏覽網際網路，則該目前情境範圍為瀏覽器。若該使用者正在一視訊分享網頁上觀看一視訊，則該目前情境範圍為該視訊分享網頁。當該使用者係在該裝置10之主畫面時，該目前情境範圍為該裝置之主畫面。決定裝置10之目前情境範圍有利於所描述之處理，原因在於基於該裝置之情境範圍，處理器30可遠更準確地分析語音輸入。容後詳述，取決於裝置10之情境範圍，每個語音指令可與一分開動作相聯結。

繼續參考圖2，控制單元33比較自該使用者的語音輸入之文字結構與多個既有文字結構(於140)。步驟140及150可由指令識別模組39執行。既有文字結構中之各者可與針對在該電子裝置上之一動作之一指令相聯結。於一個實施例中，該等多個既有文字結構為「本地」，及其與裝置10之特定情境範圍(例如主畫面、應用程式、瀏覽器等)相聯結。舉例言之，多個預定文字結構可與該裝置之可能情境範圍各自相聯結。換言之，此等既有文字結構表示只可在特定情境空間(亦即應用程式等)執行的指令。當該裝置10之目前情境範圍為瀏覽器時，該瀏覽器之既有文字結構(亦即指令)可包括：「下移、下捲、捲到底、上捲、上移、上、下、更多、到頂、到底、至頁首、到、前轉、前進、前移、刷新、重載、刷新該頁面、刷新頁面、重載該頁面、重載頁面、頁面重載、停止載入等」。此外，相機應用程式之既有文字結構可包括：「拍照、攝影、列印、分享等」。該裝置10之其它情境範圍可具有與其相聯結的不同多個既有文字結構。

此外，不同多個既有文字結構可能非與該裝置10之目前情境範圍相聯結。此等既有文字結構可為「通用」文字結構，其表示可在系統層面上進行，可能不僅為一特定應用可資利用的指令。此等「通用」文字結構可包括：「開啟通知、開啟通知、清除通知、清除通知、關閉通知、關閉通知、關閉、退回、返回、回去、回來、首頁、主畫面、到主畫面、按首頁鈕、打字「a、b、c...」、拼字、晚近app、跑工作、大寫鍵、n轉為大寫、關閉大寫鍵、打空格鍵、退回鍵、待命、鎖定畫面、前進、進入、喚醒、拍快照等」。於若干具體實施例中，有些既有文字結構可為「本地」及「通用」兩者。

於一個實施例中，該等既有文字結構(「本地」及「通用」兩者)可儲存於一資料庫。其可為裝置10之資料庫80、外部資料庫20、或於模組39-42操作期間可由處理器30存取文字結構之任何其它外部資料庫。既有文字結構各自係與一指令(也儲存於一資料庫)相聯結，其包括電子裝置之至少一個動作(例如開啟一標籤等)。藉由根據該使用者的語音輸入執行動作，一使用者可執行裝置10之操作的語音控制。

圖3例示比較自該使用者的語音輸入之該文字結構與多個既有文字結構之方法200。於一個實施例中，方法200可由處理器30之控制單元33執行。此處就方法200描述之各種元件或方塊可同時、並列、或以與所例示之串列執行方式不同之順序執行。方法200也能夠使用與例示實施例中顯示的元件額外的或更少的元件執行。方法200可以編碼在一機器可讀取儲存媒體上由該電子裝置10之該處理器30可執行之指令形式執行。於一個實施例中，方法100之指令具現指令識別模組39。

方法200始於210，於該處控制單元33比較自該使用者的語音輸入之該文字結構與該目前情境範圍相聯結的多個既有文字結構。舉例言之，若經識別之目前情境範圍為一遊戲應用程式，則控制單元33比較該文字結構與遊戲應用程式相聯結的既有文字結構。該控制單元33決定自該使用者的語音輸入之該文字結構與該情境範圍相聯結的既有文字結構是否存在有匹配(於220)。若經識別之情境範圍匹配與該目前情境範圍相聯結的多個既有文字結構中之至少一者，則控制單元33前進至方法100之步驟150。

當該文字結構不匹配與電子裝置10之該目前情境範圍相聯結的既有文字結構時，控制單元33比較該文字結構與非與該電子裝置之該目前情境範圍相聯結的多個既有文字結構(於230)。如此，該控制單元識別並無既有「本地」指令匹配該使用者的語音輸入，及移動至分析「通用」指令。然後控制單元33決定該文字結構與該既有「通用」文字結構間是否存在有匹配(於240)。若該經識別之文字結構匹配非與該目前情境範圍相聯結的多個既有文字結構中之至少一者。則控制單元33前進至方法100之步驟150。若未發現匹配，則控制單元33根據該指令之一可能分數及一容差臨界值(容後關聯圖5詳述)執行一匹配處理(步驟B)。又，根據該指令之可能分數及容差臨界值，該控制單元進行匹配處理為不成功，則該控制單元可針對電子裝置形成一新指令(步驟C)，容後關聯圖7及圖8詳述。

繼續參考圖2，當該文字結構匹配該等既有文字結構中之至少一者時(於150)，控制單元33識別自該使用者的至少一個語音輸入之一相對應指令。如前記，該等既有文字結構各自與包括該電子裝置之至少一個動作之一指令相聯結。該等既有文字結構及相聯結的指令係儲存於一資料庫(20、80等)。此等資料庫可以由一使用者產生的或由一第三方供給的新指令更新，提供給所述系統及處理程序作為一服務。於一個實施例中，該等指令及與該等指令相聯結的動作被組織為可擴延標記語言(XML)檔案。如此，當該語音輸入之該文字結構匹配與該目前情境空間相聯結的一既有文字結構時，該控制單元識別一指令其相對應於該文字結構及結果相對應於該使用者的語音輸入。另外，當該語音輸入之文字結構匹配不與該目前情境空間相聯結的一既有「通用」文字結構時，該控制單元識別一指令其相對應於該文字結構及結果相對應於該語音輸入。

於160，控制單元33基於經識別之指令而在電子裝置10上執行一動作。此點可以指令執行模組42執行。例如，各個指令可與一軟體碼規則相聯結，該規則與裝置10之作業系統通訊以執行該指令。軟體規則描述欲由作業系統執行之動作。該裝置10之作業系統可揭露第三方軟體之應用程式規劃介面(API)，許可與作業系統通訊。舉例言之，該指令執行模組42可發送欲在該裝置10上執行之一動作或操作的一摘要說明給該作業系統用以發送另一應用程式。該摘要說明可包括期望應用程式之名稱。該作業系統可進行發送特定應用程式之動作。另外，指令執行模組42可與期望應用程式(例如瀏覽器應用程式)直接通訊以發送欲執行之一動作或操作的一摘要說明。然後應用程式決定請求為何及執行該動作(例如下捲)。如此，控制單元33基於該使用者的語音輸入控制電子裝置10之操作。

於某些情況下，該使用者可提供一語音輸入給裝置10，暫時一段時間(例如5、10、15秒等)，然後提供循序語音輸入其可能與或可不與該第一語音輸入相關。於此種情況下，控制單元33可能難以分析兩個循序語音輸入，及比較該等語音輸入與既有文字結構以識別相對應於兩個循序語音輸入之一指令。如此，本文揭示提出一種連結自一使用者的兩個循序語音輸入及根據已連結的循序語音輸入執行一動作之方法。

圖4例示連結自一使用者的至少兩個循序語音輸入之一情境感知方法300。該方法解譯由該使用者之一串列(例如至少兩個)連續指令間之關係。於一個實施例中，方法300可由處理器30之控制單元33執行。方法300可以編碼在一非過渡機器可讀取儲存媒體37上可由電子裝置10之處理器30執行的指令形式執行。

方法300始於305，於該處控制單元33識別自至少兩個循序語音輸入中之第一者的一第一指令。然後，控制單元33識別自至少兩個循序語音輸入中之第二者的一第二指令(於310)。舉例言之，第一及第二指令係如方法100步驟110-150之描述識別。其次，於315，控制單元33決定第一語音輸入與第二語音輸入間之時間是否超過一預定臨界值。該臨界值可由該裝置之使用者設定或可為預先決定。於若干實施例中，該臨界值可為5、10、15秒或任何其它合理的臨界值。臨界值之目的係決定該使用者是否已經完成輸入(亦即說出)第一指令，及第二指令為一新指令，或該第二指令是否為第一指令之延續。

當控制單元33決定該第一語音輸入與該第二語音輸入間之時間超過該預定臨界值時，該控制單元結束處理。於該種情況下，該控制單元決定兩個指令非相關，原因在於第二指令係在預定臨界值時間之後接收，因此可能為由該使用者所下的一新指令。另外，當控制單元33決定該第一語音輸入與該第二語音輸入間之時間不超過該預定臨界值時，該控制單元決定該第二指令為該第一指令之一語義連續或為非關第一指令之一新指令(於320)。若該第二指令非為該第一指令之一語義連續，則該控制單元結束處理。另一方面，該第二指令為該第一指令之一語義連續，控制單元33將第二指令與第一指令關聯以在該電子裝置上執行一動作(於325)。於一個實施例中，當該第二指令為該第二指令相關之一預定子指令時，該第一指令為該第二指令之一語義連續。既有指令各自可包括相關子指令之一列表。也可使用識別該等指令間之一語義連續之其它方法。

舉例言之，若該第一指令為「音量減低」，該第二指令為「更多」，及該第二指令不超過臨界值，則控制單元決定該第二指令為該第一指令之一語義連續。該「更多」指令可識別為該「音量減低」指令之一子指令。換言之，可能該使用者想要再度執行該「音量減低」指令以進一步減低體積。於該種情況下，控制單元執行「音量減低」指令相聯結的動作。藉施用方法300，提示之解決方案辨識該使用者的指令及意圖更準確。

許多時間該控制單元33可能無法直接匹配該使用者的語音輸入至與一指令相聯結的一既有文字結構。其原因可能係由於下述事實：大部分使用者偏好提供未經結構化之語音指令(亦即於不同形式)而非記憶特定既存指令。為了改良識別自該使用者的至少一個語音輸入相對應的一指令之過程，控制單元33根據指令之可能性分數及容差臨界值執行一匹配程序。

圖5例示當並無與一既有指令之直接匹配時，識別自該使用者的至少一個語音輸入相對應的一指令之方法400。該方法解譯由該使用者一串列(例如至少兩個)接續指令之關係。於一個實施例中，方法400可由處理器30之控制單元33執行。方法400可以編碼在可由電子裝置10之處理器30執行的非過渡機器可讀取儲存媒體37上之指令形式執行。

方法400始於410，於該處當至少一個語音輸入之文字結構不匹配該等既有文字結構中之至少一者時，控制單元33基於至少一個語音輸入計算一目標指令之可能性分數。換言之，當語音輸入之文字結構不直接匹配既有「本地」或「通用」文字結構時，控制單元33識別一目標指令及計算針對該目標指令之可能性分數。該目標指令表示文字結構與一指令相聯結的一既有文字結構間之潛在匹配。可能性分數指示該目標指令係等於實際既有指令。

控制單元33可使用各項技術以識別一目標指令，及計算針對該目標指令之可能性分數。舉例言之，控制單元33可使用一關鍵字匹配容差方法，於該處該目標指令極其類似既有指令中之至少一者(例如該目標指令為「拍螢幕快照」，於該處實際既有指令為「拍螢幕快照」及字眼「快照」為關鍵字)。於另一個實施例中，控制單元可使用同義字容差方法以識別該目標指令(例如目標指令為「尋找x、y、z」及實際既有指令為「找到x、y、z」)。控制單元33可使用一字典API或一字組程式庫以找出在所接收的文字結構中之一既有文字結構中之一同義字。

於又另一個實施例中，控制單元33可使用一種拼字模式容差方法，於該處一使用者可激勵一「拼字」模式以拼寫一提供指令。於該「拼字」模式中，控制單元33匹配任何同音字與單一字母(例如「see」對「c」、「you」對「u」、「are」對「r」等)。進入「拼字」模式之後，一使用者可拼出一指令(例如藉說出「拼字c」、「c」等)。此點有助於當語音辨識應用未能檢測由該使用者所發音的字母/字組時。於另一個實施例中，控制單元可使用相似發音的字組容差方法，於該方法中，該目標指令之發音可能類似至少一個既有指令(例如目標指令為「到指令tap(分接)」，而實際既有指令為「到指令tab(標籤)」)。

於一個實施例中，若該控制單元33基於文字結構而識別多於一個可能目標指令，則該控制器可選擇匹配一既有指令之最高可能性分數的該目標指令。於另一個實施例中，控制單元33比較該經識別的目標指令之該可能性分數與該目標指令相聯結的一預定容差臨界值(於420)。於430，該控制單元決定該目標指令之該可能性分數是否超過與該目標指令相聯結的容差臨界值。當該目標指令之該可能性分數超過與該目標指令相聯結的容差臨界值時，控制單元33自該既有文字結構/指令識別一指令(於440)。於410，因該控制單元已經識別該目前情境範圍，故只考慮在該情境或「通用」文字結構之既有文字結構。另一方面，若該目標指令之該可能性分數不超過與該目標指令相聯結的容差臨界值，則控制單元33結束該處理。

於440，若基於該使用者的語音輸入有關該潛在指令仍然存在有模棱兩可，則該控制單元33可對該裝置10之使用者提出有關該目標指令之建議。舉例言之，若自該使用者的語音輸入之文字結構為「產生一標籤」及該目標指令為「開啟一新標籤」，則該控制單元可在該螢幕32上顯示一訊息框。該訊息框可顯示一訊息給該使用者(例如「你是否想開啟一新標籤？」)。若該使用者拒絕該提議，則該控制單元可以相同方式提出具有次高可能性分數之指令。此外，控制單元33也提出產生一新指令(於450)其包括在電子裝置上之一動作。舉例言之，於該訊息框中，控制單元33可顯示一新指令提議訊息(例如「新增「產生一標籤」指令？」)且呈示給該使用者一選項以核准所提議的指令。如此，該新指令可執行與該目標指令相同動作。該控制單元也自該使用者接收有關該新指令之有效性之一構象(conformation)(於460)。藉此方式，該新指令係與一既有文字結構相聯結，及包括在該電子裝置上的一動作(例如與該目標指令之該既有文字結構相聯結的動作)。

若該使用者不想基於該目標指令產生一新指令，但他或她自該既有指令識別一指令，則控制單元33可具現學習技術以改進該目標指令之可能性分數。如此，當該使用者提供於該相同情境範圍的相同語音輸入/指令時，該控制單元應用該學習技術及針對該「新」語音輸入/指令求出一較高可能性分數。

圖6例示一流程圖顯示以語音指令控制一電子裝置之操作之替代方法500之一實施例。該方法500可以情境範圍決定模組39、指令識別模組40、指令產生模組41、及指令執行模組42執行。此等模組可以用以進行後述功能之電子電路具現。另外，模組39-42可以編碼於一非過渡機器可讀取儲存媒體37上可藉電子裝置10之處理器30執行的指令形式具現。

方法500始於方塊510，於該處控制單元33產生針對該電子裝置之一新指令。於一個實施例中，該新指令係與該電子裝置產情境範圍相聯結，及包括電子裝置上之一動作。容後詳述，該新指令係由控制單元儲存(例如資料庫20、80、或由處理器30可存取之另一資料庫)。產生一新指令之特定方法於後文關聯圖7及圖8描述。

圖7例示一流程圖顯示針對電子裝置10產生一新語音指令之方法600之一實施例。該方法600可以指令產生模組41執行。該方法允許一使用者快速導航通過作業系統，及針對裝置10之特定情境範圍產生新動態指令。方法600始於610，於該處控制單元33接收自一使用者接收一新語音輸入。舉例言之，當一使用者意圖產生一新語音指令時，他或她可提供一新語音輸入。於該種情況下，該使用者可首先提出一初始指令給裝置10以產生一新指令(例如「新指令」、「產生一指令」等)。另外，當一使用者意圖提供一指令給該裝置而此等指令不存在於該處理器可用的「本地」或「通用」指令時，可提供新語音輸入(參考圖3)。於620，該控制單元變換新語音輸入成一新文字結構。此一步驟係類似方法100之步驟120。其次，於630，控制單元決定電子裝置之目前情境範圍(類似方法100之步驟130)。

於640，控制單元33識別該新文字結構在該目前情境範圍之出現次數。換言之，控制單元33決定該新新文是否匹配在目前情況中之一文字結構。舉例言之，若該情境為一新網頁，而該新文字結構為「運動」，則控制單元識別「運動」在該所顯示網頁之出現次數(若「運動」不被識別為與指令相聯結的既有文字結構中之一者)。於該種情況下，「運動」可被視為在該新網頁上之一標籤前導至該運動網頁。控制單元可自該作業系統之架構框架直接取回該情境範圍(亦即所顯示之新網頁)的文字資訊及針對該文字資訊之位置資料。另外，控制單元可使用光學字符識別(OCR)技術以將該情境範圍之一影像轉換成文字資訊及位置資料。然後該文字資訊及位置資料經搜尋以識別該新文字結構之出現次數。

控制單元可識別該新文字結構出現在該情境範圍之一個位置或多個位置。於650，當該文字結構只在目前情境範圍識別一次時，控制單元33聯結該新文字結構與針對該電子裝置之該新指令。舉例言之，當文字結構「運動」在新網頁上只識別一次時，該控制單元紀錄在該情境空間之「運動」鏈路上之一點選動作，及該動作係與該特定指令(亦即「運動」)相聯結的一軟體碼規則鏈接。如同既有指令，儲存文字結構、指令、及相聯結的軟體碼規則(例如於資料庫20、80等)。但此種新穎動態指令只與所紀錄的極其特定情境範圍相聯結。於一個具現中，在產生該新指令之前，該控制單元可顯示包括指令之名稱/文字(例如「運動」)之一「新指令」框、與該指令相聯結的動作等。該使用者可確認或取消該新指令。如此，該控制單元在該文字結構、該指令、及與該動作鏈接之該軟體碼規則間之一觸發，故當一使用者於此一情境範圍再度說出該指令時該動作被重複再現。此一處理程序可針對任何難以言傳的對象(例如小圖幟、鏈路、影像等)重複，其包括文字結構且可由該控制單元在該裝置之情境範圍識別。

另外，當控制單元33在目前情境範圍識別該新文字結構多於一次時，記憶體控制器自多個文字結構識別一指令文字結構(於660)。舉例言之，當文字結構「運動」在新網頁上的多個位置經識別時，該控制單元33可強調及計數文字結構之全部位置。然後該使用者可選擇新文字結構之較佳位置(例如藉說出期望數目等)。所選較佳位置為指令文字結構。於670，記憶體控制器聯結指令文字結構至新指令。此一處理係類似步驟650描述之處理。

圖8例示一流程圖顯示針對電子裝置10產生一新語音指令之替代方法700之一實施例。此種方法適用以針對在裝置10上可包括一動作(例如輕敲、揮擊、掐取等)之動作及涵蓋難以言傳的對象(例如小圖幟、鏈路、影像等)之動作兩者。方法700可以指令產生模組41進行。

方法700始於710，於該處控制單元33將該電子裝置變換成一指令訓練模式。舉例言之，該使用者可首先提供一初始指令給裝置10以起始訓練模式(例如「訓練」、「訓練模式」、「產生新指令」等)。於720，控制單元33決定電子裝置10之目前情境範圍(類似方法100之步驟130)。然後於730，該控制單元識別在裝置10之目前情境範圍進行的電子裝置上之一動作。舉例言之，該控制單元紀錄於由該使用者進行之情境空間中之一動作(例如輕敲、揮擊、掐取等)。其次，該控制單元接收針對該所執行動作之自該使用者之一新語音輸入(於740)。舉例言之，該使用者可開啟一瀏覽器(亦即情境範圍)，點選該刷新鈕(亦即執行由控制單元識別之動作)，及提供語音輸入給控制單元(「刷新」、「刷新該頁」等)。

於一個具現中，然後控制單元33可顯示一「新指令」訊息框，其包括指令之名稱/文字(例如「刷新」)、與指令相聯結的動作等。該使用者可確認或取消該新指令。於750，該控制單元聯結在目前情境範圍之動作與語音輸入以產生針對該電子裝置之新指令。舉例言之，由控制單元識別之動作係與該特定指令(亦即「刷新」)相聯結的一軟體碼規則鏈結。該文字結構、該指令、及該與動作鏈接的相聯結軟體碼規則經儲存(例如資料庫20、80等)。

該使用者可隨時施加類似技術以編輯既有指令。舉例言之，該使用者可提供初始指令給裝置10以起始編輯模式(例如「編輯指令」、「改變指令」等)。然後控制單元33可顯示一「編輯指令」訊息框其可提示該使用者提供期望的指令。在該使用者提供指令之後，訊息框可提示該使用者提供新指令或與該指令相聯結的新動作。該使用者藉提供指令給該控制單元而確認或取消該等編輯。

此外，所提示之方法700可適用以針對顯示在顯示器32上的任何難以言傳的或摘要的對象(例如小圖幟、鏈路、影像等)之產生新指令。舉例言之，一使用者可藉提供一指令(例如「訓練」、「訓練模式」、「產生新指令」等)而起始訓練模式。其次，控制單元決定裝置之目前情境範圍(類似720)。類似730，控制單元識別在該目前情境範圍內進行的該電子裝置上之一動作。於該實施例中，該動作可產生環繞該摘要對象之一語音激勵區(例如觸摸/點選巨集指令)其可以一語音指令進行。舉例言之，該使用者可環繞該顯示器上之該摘要對象畫一多角形(例如使用一觸摸輸入或滑鼠輸入)以產生一語音激勵區(例如一巨集指令)。然後，該控制單元自該使用者朝向該所進行之動作(類似步驟740)接收一新語音輸入。該新指令可紀錄為一超鏈結或一可點選動作，及將儲存於一資料庫。如此，下次該控制單元識別該情境範圍及接收相關指令，該控制單元將執行該巨集指令以進行在該對象上的一點選或觸摸。該顯示器上之該相同摘要對象可被分派多個語音指令。

繼續參考圖6，控制單元33檢測自一電子裝置之一使用者的至少一個語音輸入(於520)。該步驟係類似方法100之步驟110。於530，該控制單元將該至少一個語音輸入變換成包括至少一個字組之一文字結構(類似方法100之步驟120)。於540，控制單元決定電子裝置之目前情境範圍。此一步驟係類似方法100之步驟130。其次，控制單元33比較文字結構與多個既有文字結構。此等既有文字結構包括由使用者產生的新指令。此一步驟係類似方法100之步驟140。最後，當文字結構匹配該等既有文字結構中之至少一者時，該控制單元識別一指令。此一步驟係類似方法100之步驟150。

100‧‧‧方法

110-160‧‧‧方塊

Claims

一種方法，該方法包含：檢測來自一電子裝置之一使用者的至少一個語音輸入；將該至少一個語音輸入變換成包括至少一個字組之一文字結構；決定該電子裝置之一目前情境範圍；比較該文字結構與多個既有文字結構，其中該既有文字結構各自係與針對在該電子裝置上之一動作的一指令相聯結；當該文字結構匹配該等既有文字結構中之至少一者時，識別一指令以相對應於來自該使用者之至少一個語音輸入；以及基於該經識別之指令進行在該電子裝置上之一動作。
如請求項1之方法，其中該等多個既有文字結構係與該電子裝置之該目前情境範圍相聯結。
如請求項2之方法，其進一步包含當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時，比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
如請求項1之方法，其進一步包含連結來自一使用者之至少兩個循序語音輸入及基於該等連結之循序語音輸入執行一動作。
如請求項4之方法，其進一步包含：自該等至少兩個循序語音輸入中之一第一者識別一第一指令；自該等至少兩個循序語音輸入中之一第二者識別一第二指令；決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值；決定該第二指令是否為該第一指令之一語義連續；以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時，將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
如請求項1之方法，其中識別一指令以相對應於該至少一個語音輸入進一步包括：當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時，基於該至少一個語音輸入計算針對一目標指令之一可能性分數；比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值；當該目標指令之該可能性分數超過該臨界值時識別一指令；提議產生一新指令，其中該新指令包括在該電子裝置上之一動作；以及接收來自該使用者有關該新指令之有效性之一構象。
如請求項1之方法，其進一步包含：基於來自該使用者之語音輸入產生一新指令，其中該新指令係與該目前情境範圍相聯結；聯結該新指令與在該電子裝置上之至少一個動作；以及儲存該新指令。
一種系統，其包含：具有含一控制單元之至少一個處理裝置之一電子裝置，用以進行下列動作：針對該電子裝置產生一新指令，其中該新指令係與該電子裝置之一情境範圍相聯結及包括在該電子裝置上之一動作，檢測來自一電子裝置之一使用者的至少一個語音輸入，將該至少一個語音輸入變換成包括至少一個字組之一文字結構，決定該電子裝置之該目前情境範圍，比較該文字結構與多個既有文字結構，當該文字結構匹配該等既有文字結構中之至少一者時識別一指令。
如請求項8之系統，其中該控制單元係用以：接收來自該使用者之一新語音輸入；將該新語音輸入變換成一新文字結構；決定該電子裝置之該目前情境範圍；識別該新文字結構於該目前情境範圍中之出現次數；當該文字結構於該目前情境範圍中只被識別一次時，聯結該新文字結構至針對該電子裝置之新指令；當該文字結構於該目前情境範圍中被識別多於一次時，識別一指令文字結構；以及聯結該指令文字結構與該新指令。
如請求項8之系統，其中該控制單元係用以：將該電子裝置過渡至一指令訓練模式；決定該電子裝置之該目前情境範圍；識別於該目前情境範圍中執行之在該電子裝置上之一動作；接收來自該使用者導向該所執行之動作之一新語音輸入；以及聯結於該目前情境範圍中之該動作與該新語音輸入以產生針對該電子裝置之該新指令。
如請求項8之系統，其中該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍相聯結的多個既有文字結構，及其中當該文字結構並不匹配與該電子裝置之該目前情境範圍相聯結的該等既有文字結構時，該控制單元係用以比較該文字結構和與該電子裝置之該目前情境範圍不相聯結的多個既有文字結構。
一種以可由電子裝置之至少一個處理裝置執行之指令編碼的非暫態機器可讀儲存媒體，該機器可讀儲存媒體包含用以進行下列動作之指令：處理接收自該電子裝置之一使用者之至少一個語音輸入；將該至少一個語音輸入變換成包括至少一個字組之一文字結構；決定該電子裝置之目前情境範圍；決定該文字結構是否匹配來自與目前情境相聯結的多個既有文字結構之至少一個既有文字結構；決定該文字結構是否匹配來自與該目前情境不相聯結的多個既有文字結構之至少一個既有文字結構；當該文字結構匹配該等既有文字結構中之至少一者時，識別一指令以相對應於來自該使用者之該至少一個語音輸入；以及當該文字結構並不匹配該等既有文字結構中之至少一者時，產生針對該電子裝置之一新指令，其中該新指令係與該目前情境範圍相聯結。
如請求項12之非暫態機器可讀儲存媒體，其進一步包含用以連結來自一使用者之至少兩個循序語音輸入以基於該等連結之循序語音輸入執行一動作之指令。
如請求項13之非暫態機器可讀儲存媒體，其進一步包含用以進行下列動作之指令：自該等至少兩個循序語音輸入中之一第一者識別一第一指令；自該等至少兩個循序語音輸入中之一第二者識別一第二指令；決定該第一語音輸入與該第二語音輸入間之一時間是否超過一預定臨界值；決定該第二指令是否為該第一指令之一語義連續；以及當該第一語音輸入與該第二語音輸入間之該時間不超過一預定臨界值時且當該第二指令係為該第一指令之一語義連續時，將該第二指令與該第一指令相關聯以執行該電子裝置上之一動作。
如請求項12之非暫態機器可讀儲存媒體，其進一步包含用以進行下列動作之指令：當該至少一個語音輸入之該文字結構並不匹配該等既有文字結構中之至少一者時，基於該至少一個語音輸入計算針對一目標指令之一可能性分數；比較該目標指令之該可能性分數和與該目標指令相聯結之一預定容差臨界值；當該目標指令之該可能性分數超過該容差臨界值時識別一指令；提議產生一新指令，其中該新指令包括在該電子裝置上之一動作；以及接收來自該使用者有關該新指令之有效性之一構象。