TWI497406B

TWI497406B - 用於為一語音辨識互動模組提供輸入功能之方法及電腦可讀取媒體

Info

Publication number: TWI497406B
Application number: TW099112393A
Authority: TW
Inventors: Anne K Sullivan; Lisa Stifelman; Kathleen J Lee; Su Chuin Leong
Original assignee: Microsoft Technology Licensing Llc
Priority date: 2009-06-10
Filing date: 2010-04-20
Publication date: 2015-08-21
Also published as: CA2760993A1; CN102460346A; TW201044265A; US20100318366A1; EP2440988A4; EP2440988A2; EP2440988B1; BRPI1010584A2; AU2010258675A1; RU2526758C2; BRPI1010584B1; WO2010144732A2; AU2010258675B2; HK1169725A1; WO2010144732A3; RU2011150255A; US8412531B2; CA2760993C

Description

用於為一語音辨識互動模組提供輸入功能之方法及電腦可讀取媒體

本發明係關於觸碰任何地方以對話。

在今日的社會，行動計算裝置(例如行動電話和個人數位助理)已成為普遍的技術。此類裝置目前提供允許一使用者藉由複數種輸入機制(例如數字鍵盤、QWERTY鍵盤、觸碰螢幕、語音辨識等等)與各種行動應用程式互動的界面。最近，出現有更多用於輸入的語音辨識技術。利用語音辨識，使用者語音指令可經攫取為音效檔，及藉由位於該行動裝置的一內嵌語音辨識模組來處理或透過一無線連接傳輸至它們被處理所在的一伺服器。一種執行一語音辨識模組的一聆聽機制的方法係透過一按下以進行對話互動模型，其允許一使用者當該應用程式應藉由一輸入機制開始或結束紀錄時發出信號。許多行動應用程式使用一裝置的現存硬體鍵、軟體鍵，或在一觸碰觸螢幕界面的一按鈕之一界定邊界為一輸入機制以執行一語音辨識模組的聆聽機制。

藉由軟體鍵或專用硬體界面的輸入(例如按鈕‧滾輪等等)由於並非限於小按鈕尺寸的各種因素而顯得麻煩，按鈕係因難以識別或參考，及/或使用者對一按鈕位置有一盲點(例如位於一行動裝置的一側)。即使一按鈕對既定應用程式係可識別的、可參考的，及在一人體工學位置，一使用者可進行另一項任務(例如走路、開車等等)，其使觀看他/她的行動裝置係困難的，及/或困難於到達該按鈕。當利用一專用硬體界面(例如一按鈕)以進行語音辨識的聆聽模式，由於其在該裝置上的位置，按下它會覆蓋該麥克風，其會不利地影響語音辨識效能。

今天的許多行動計算裝置使用觸碰螢幕界面。一觸碰螢幕可有選擇性的圖形物件，其相對應於傳統電話的按鈕、傳統鍵盤的按鍵、和各種行動任務。觸碰螢幕和含有觸碰螢幕的輸入裝置有時係困難操作的。舉例而言，一使用者，其使用他手指的指尖以啟動該觸碰螢幕，可輕易地觸碰在該使用者無意於啟動該觸碰螢幕的一位置之該觸碰螢幕的該作用表面區。在很多情況中，此一無意的啟動導致執行一無意於執行的功能。

本發明係根據這些情況和其它考量來完成。

本發明的具體實施例係關於提供在一行動計算裝置上的一使用者界面，其用以提供在一螢幕上的最大量目標區域以啟動一語音辨識模組的聆聽。根據具體實施例，一使用者可按下在一行動計算裝置的觸碰螢幕之任何處以啟動語音辨識互動的聆聽。並非搜尋一難以找出的按鈕，或按下需要一使用者觀看他/她的行動計算裝置之一小靜電鍵，該整個觸碰螢幕係用於啟動一語音辨識模組的聆聽裝置之該輸入機制。

根據一具體實施例，當一行動計算裝置接收觸碰其觸碰螢幕界面之任何地方的一指示，該聆聽機制經啟動或經促使以接收語音輸入，和回應於接收在該觸碰螢幕界面上之任何處的觸碰之一指示的確認可經產生以通知一使用者該聆聽機制已被啟動。根據另一具體實施例，指示所接收語音輸入的一量測聲音水平的視覺回授可在接收該觸碰的位置之觸碰螢幕上呈現。

根據本發明的另一具體實施例，除了完成一列任務之語音輸入以外，該顯示(螢幕)的內容亦可經使用作為一輸入。舉例而言，額外的內容輸入可有助於縮小搜尋結果以提供使用者一改善的語音辨識經驗。

此些和其它特徵將藉由閱讀以下的實施方式和閱覽相關圖式將變得明顯。可理解到前述的一般性說明和下面的實施方式僅為說明性的，而並非對所請求的發明作出限制。

提供此發明內容係以更進一步描述於實施方式者的一簡化形式作一選擇性觀念的介紹。此發明內容無意於識別該請求申請標的之關鍵或必要特徵，或無意於作為決定該請求申請標的之範圍的一輔助。

如同以上之簡短描述，本發明之具體實施例係關於執行在一行動計算裝置上的語音辨識互動之聆聽機制。藉由按壓一行動計算裝置的螢幕之任何既定區域，觸碰任何地方以對話模組(touch-anywhere-to-speak module,TATS)啟動一語音辨別模組的聆聽機制以接收一使用者的話音輸入，以使得該語音辨識模組可轉換該說出的文字成為機器可讀取輸入。語音辨識應用程式可經使用在各種任務的行動計算裝置上，該任務包含(並非限於)：聲音撥號(例如“Call Bob”)，開啟網頁搜尋(例如“Pizza San Francisco California”以找出在San Francisco的pizza餐廳)，及語音至文字處理(speech-to-text processing)(例如文字訊息和電子郵件)。

存在有許多用於執行在一行動計算裝置上的語音辨識互動之聆聽機制的輸入方法，每一輸入方法有其缺點，且有時呈現逾越使用語音辨識之優點的困難。許多使用者由於在一分心的環境(例如當走路或是開車)使用行動計算裝置會使用語音辨識，其使得困難於觀看他們的裝置的螢幕以使用在一觸碰螢幕界面上的一硬體鍵、軟體鍵或一按鈕的界定邊界以執行一任務。本發明的具體實施例使用在一行動計算裝置的一螢幕上之最大量的目標區域以啟動該聆聽機制，而無需目視互動來進行使用。本發明的具體實施例中啟動語音辨識的聆聽模式並不需一使用者觀看他/她的裝置之螢幕以獲知他/她是否觸碰一特定目標區域，或他/她將不需觀看或找尋一可觸知的按鈕以確定他/她正按下正確的按鈕。

當一使用者使用他/她的手指、觸控筆、或其它選擇裝置按下和保持一行動計算裝置的螢幕，一觸碰任何地方以對話模組可提供一視覺性、聲音、或觸覺性的指示，或其三者的組合以指示：已啟動該聆聽機制及該語音識辨識模組己準備要捕捉語音輸入。當已接收該使用者完成他/她的語音輸入之一指示，觸碰任何地方以對話模組可提供另一指示(視覺性、聲音、或觸覺性及其三者的組合)以指示該聆聽機制已取消啟動。該語音辨識模組可在該裝置的本地端處理該些資料、或透過一無線連接遠端地處理該些資料至其可被處理的一伺服器。該語音辨識應用程式可接收該可辨識的輸出，及然後可啟動一既定的應用程式、顯示既定資訊、或執行一該使用者已藉由該語音辨識應用程式指示的既定任務。

根據另一具體實施例，該TATS模組亦可實施為在一既存的使用者界面上的一「層」。當實施為在一既存的使用者界面上的一「層」，TATS模組可除了開放式的語音指令外，利用視覺性界面的內容感知資訊以協助一使用者完成一列任務。基於一行動裝置的一螢幕的內容，及/或一使用者在一螢幕上所觸碰的位置，可對該使用者的語音輸入的內容作出一決定。舉例而言，若一使用者正在他/她的行動計算裝置上檢視一地圖，他/她可觸碰圖形界面的一特定區域，及說出：「電影院。」。TATS模組可接收話音輸入「電影院」，和在該地圖界面上的文字感知位置，其中該使用者觸碰該位置以擷取相關於該地圖界面的觸碰區域之地理區域附近之電影院的資訊。舉另一實例而言，藉由觸碰一圖片或一網頁，及說出：「寄信給Bob。」，一使用者可寄送該觸碰的物件至一識別的連絡人Bob。

接下來的實施方式可參考隨附圖式。在任何可能的情況下，相同的參考編號可經使用於圖式和接下來的實施方式中以參考相同或類似的元件。當描述了本發明的具體實施例時，修正、調整、和其它實施係可能的。舉例而言，可對於圖式所說明的元件作出取代、新增或修正，及在此所描述的方法可藉由取代、重新編排、或新增階段步驟至所揭露的方法來修正。從而，接下來的實施方式並未限制本發明，而是藉由隨附的申請專利範圍界定本發明的適當範圍。

應可了解到本發明的各種具體實施例可經實施為(1)在一計算系統上執行的電腦可實施步驟或程式模組的一序列及/或(2)在該計算系統內的互連機器邏輯電路或電路模組。該實施係相依於實施本發明的計算系統的效能需求之選擇事項。從而，包含有相關演算法的邏輯操作可意指為各種操作、結構裝置、動作或模組。將可由習知技藝者認知到此些操作、結構裝置、動作或模組可實施於軟體、韌體、特殊目的之數位邏輯、及其組合，其不悖離在此所述的申請專利範圍所引述的本發明的精神和範圍。

以下敘文係一適當的行動計算裝置的一描述，舉例而言，可利用本發明的具體實施例實施一行動電話。參閱至第1圖，說明用於實施該具體實施例的一實例行動計算裝置100。在一基本的組態中，行動計算裝置100係具有輸入元件和輸出元件的手持式電腦。輸入元件可包含觸碰螢幕顯示105和輸入按鈕115，其允許該使用者輸入資訊至行動計算裝置100。行動計算裝置100亦可併有允許進一步的使用者輸入的一選擇側輸入元件125。選擇側輸入元件125可為一旋轉式開關、一按鈕、或其它任何其它形式的手動輸入元件。在替代性的具體實施例中，行動計算裝置100可併有更多或更少的輸入元件。舉例而言，顯示105可不為在一些具體實施例的一觸碰螢幕。在另一替代性的具體實施例中，該行動計算裝置係一可攜式電話系統，例如一具有顯示105和輸入按鈕115的一細胞式電話。行動計算裝置100亦可包含一選擇性鍵盤115。選擇性鍵盤115可為一實體鍵盤或一由該觸碰螢幕顯示上所產生的一「軟體」鍵盤。

行動計算裝置100併有輸出元件，例如顯示105，其可顯示一圖形使用者界面(GUI)。其它輸出元件含有揚聲器130和LED燈120。此外，行動計算裝置100可併有一振動模組(未示出)，其可使得該行動計算裝置100振動以通知該使用者一事件發生。在另一具體實例中，行動計算裝置100可併有一耳機插孔(未示出)以提供另一提供輸出訊號的裝置。

雖然在此結合行動計算裝置100來描述，在替代性的具體實施例中，本發明可結合任何數量的電腦系統來使用，例如在桌上型的環境、膝上型或筆記型電腦系統、多處理器系統、基於微處理器式的或可程式化消費性電子、網路電腦、迷你電腦、主架構電腦及其類似者。本發明的具體實施例亦可實現於分散式的計算環境，其中可藉由遠端處理裝置執行任務，其可藉由在一分散式計算環境的一通訊網路來鏈結；程式可放置於本地端和遠端記憶體儲存裝置。簡而言之，任何具有複數個環境感測器、複數個輸出元件以提供通知至一使用者和複數個通知事件類型的電腦系統可包含有本發明的具體實施例。

第2圖係說明使用於一具體實施例的一行動計算裝置的元件之一方塊圖，例如在第1圖中的計算裝置。意即，行動計算裝置100(第1圖)可併有系統200以實施一些具體實施例。舉例而言，系統200可使用於實施一「智慧型手機」，其可執行類似於一桌上型或筆記型電腦的一或多個應用程式，舉例而言，瀏覽器、電子郵件、排程、即時傳訊、及媒體播放器應用程式。系統200可執行一作業系統(OS)，例如WINDOWS XP,WINDOWS CE，其可獲用於MICROSOFT CORPORATION,Redmond,Washington。在一些具體實施例中，系統200係經整合為一計算裝置，例如一整合的個人數位助理(PDA)和無線電話。

一或多個應用程式266可經載入至記憶體262及在作業系統264上或關聯於作業系統264執行。應用程式的實例包含電話撥打程式、電子郵件程式、PIM(個人資訊管理)程式、文字處理程式、試算表程式、網際網路瀏覽器程式、傳訊程式等等。系統200亦可包含在記憶體內部262的非揮發性儲存268。非揮發性儲存268可經使用於儲存若系統200關閉電源後並不會遺失的永久性資訊。應用程式266可使用和儲存資訊於非揮發性儲存268中，例如可由一電子郵件應用程式所使用的電子郵件或其它訊息，及其類似者。一同步應用程式(未示出)亦可駐留於系統200，及經程式化以與一相對應的駐留於一主電腦上的同步應用程式互動以保持儲存在非揮發性儲存268的資訊，其與儲存在該主電腦的相對應資訊同步。應該了解到，其它應用程式可載入到記憶體262和在該裝置100上執行。

根據一具體實施例，觸碰任何地方以對話應用程式265經操作以啟動一語音辨識模組的一聆聽機制，該語音辨識模組經操作以接收來自一使用者用於各種應用程式的語音資訊，如以下所述。

系統200具有一電源供應器270，其可實施為一或多個電池。電源供應器200可進一步包含一外部電源，例如一AC轉換器或一可補充或充電該電池的電源充電座。

系統200亦可包含執行傳送和接收射頻通訊功能的一無線電272。無線電272藉由一通訊載波，或服務提供器促使系統200和「外部世界」的無線連接。在OS 264的控制下，進行朝向無線電272或來自無線電272的傳輸。換言之，由該無線電272接收的通訊係藉由OS 264傳播至應用程式266，及反之亦然。

無線電272允許系統200與其它計算裝置通訊，例如透過一網路。無線電272係通訊媒體的一實例。通訊媒體可典型地由電腦可讀取指令、資料結構、或在一調變的資料訊號中的其它資料體現，例如一載波或其它傳輸機制，及包含任何資訊傳遞媒體。該詞彙「調變的資料訊號」係意指具有一或多個特性集的一訊號，或是以一方式改變而將資訊編碼在該訊號中。藉由實例方式，而非限制，通訊媒體包含例如為一有線網路或直接線路式的連接之有線媒體，及例如為聲音、RF、紅外線的無線媒體和其它無線媒體。在此所使用的詞彙「電腦可讀取媒體」包含儲存媒體和通訊媒體二者。

系統200的具體實施例係使用二種類型的通知輸出裝置顯示；LED 120，其可用於提供視覺通知和可與揚聲器130一起使用的一聲音界面274以提供聲音通知。此些裝置可直接地耦合至電源供應器270，以使得其可維持由該通知機制指定的一段期間，即使處理器260和其它元件可關閉以保持電源電力。LED 120可經可程式化以無限期地維持開的狀態，直到該使用者採取動作以指示該裝置的電源開啟狀態。聲音界面274經使用以提供聲音訊號至該使用者和自該使用者接收聲音訊號。舉例而言，除了耦合至揚聲器130外，聲音界面274亦可經耦合至一麥克風以接收聲音輸入，例如促使一電話交談。根據本發明的具體實施例，該麥克風可作為一聲音感測器以促使通知的控制，如同以下所述。

系統200可進一步包含視訊界面276，其促使一內建照相機135的操作以記錄靜態的圖像、視訊串流、及其類似者。

一行動計算裝置實施系統200可有額外的特徵或功能。舉例而言，該裝置亦可包含額外的資料儲存裝置(可移除及/或不可移除)，例如磁碟、光碟、或磁帶。此額外的儲存器係藉由儲存器268圖式說明於第2圖。電腦儲存媒體亦包含揮發性和非揮發性、可移除和不可移媒體，其可以儲存資訊的任何方法或技術實施，例如電腦可讀取指令、資料結構、程式模組、或其它資料。

藉由裝置100產生或攫取及藉由該系統200儲存的資料/資訊可本地端地儲存於裝置100，如同以上所述，或該資料可經儲存於任何數目的儲存媒體，其可由該裝置藉由該無線電272或藉由該裝置100和關聯於該裝置100的一分離計算裝置330之間的一有線連接存取，舉例而言，在例如為網際網路的一分散式計算網路320之一伺服器電腦。應可了解到此資料/資訊可由該裝置100藉由該無線電272或藉由一分散式計算網路320存取。類似地，此資料/資訊可輕易地在用於根據習知的資料/資訊傳輸和儲存方法來儲存和使用之計算裝置之間傳輸，其包含電子郵件和合作式資料/資訊共享系統。

第3圖係用於使用一觸碰任何地方以對話(TATS)模組265以啟動在一行動計算裝置100的一語音辨識模組330之聆聽的計算架構之一簡化方塊圖。根據一具體實施例，在藉由該TSTS模組265接收在一行動計算裝置100之一螢幕105上的一觸碰之一指示之後，一語音辨識程序，其係藉由辨識所接收的聲音輸入，可藉由如第4圖中說明的語音辨識架構完成。應可了解到，第4圖所示的該語音辨識架構330可與該TATS模組265整合，或第4圖所示的語音辨識架構可由TATS模組265呼叫以獲得聲音輸入的辨識。根據一具體實施例，一旦既定的聲音輸入經辨識為一文字字串，例如“Pizza New York City”，及識別為與一既定任務相關聯，例如網頁搜尋，可啟動一動作模組340以傳遞該經辨識的文字字串至一本地端訊息源310，或藉由一分散式計算網路320至一遠端來源350以擷取適於該文字字串的資訊。舉例而言，若該聲音輸入“Bob”藉由該辨識模組330辨識為在該使用者的通訊錄或聯絡清單之一使用者，然後該動作模組340可傳遞該辨識的文字字串至所有包含於該本地端來源310的訊息來源，及/或一遠端來源350藉由一分散式計算網路320獲得關聯於所選擇文字字串的可用資訊。根據一具體實施例，該動作模組340可提供選擇予一使用者以執行關於該經辨識的聯絡人之一行動任務。再次地參照上述的一實例，其中該使用者說出“Bob”，且該輸入經辨識為在該使用者的通訊錄中的一聯絡人，該動作模組340可提供選擇予該使用者以執行一動作，舉例而言，建立一呼叫或發送一電子郵件或一即時訊息至該辨識的聯絡人，Bob。

匹配來自每一可獲用來源的文字字串的資訊可回傳至TATS模組265以供應一使用者在一所欲軟體應用程式或行動任務的後續使用。舉例而言，如果該聲音輸入“Bob”經發現匹配於二個可能的匹配物，“Bob Smith”和“Bob Davis”，然後匹配項目二者可呈現予該使用者，其係呈現在他/她的行動計算裝置100顯示的一使用者界面以允許該使用者選擇他/她的所欲項目。一旦該使用者選擇他/她的所欲項目，然後所選擇的文字字串可經傳遞至一或多個行動或軟體應用程式，如同下文所詳述。應可了解到，該語音辨識模組330可經可程式化以用於辨識許多資料型態，例如命令、位址、地理位置、書名、電影名稱等等。若並未匹配該使用者的所欲選項之項目經呈現至一使用者，該使用者可按下並保持該行動計算裝置100的螢幕105以再次地提供聲音輸入，或他/她可按下該顯示匹配的區域之外部以避免必需返回至一先前的輸入螢幕以按壓和對話。

第4圖係說明用以提供一觸碰任何地方以對話(TATS)模組265以執行在一行動計算裝置100的語音辨識互動中之聆聽機制的方法之邏輯流程圖。上文已根據第1-3圖描述了一例示性作業環境和本發明的具體實施例之態樣，其有助於描述本發明的一具體實施例之一實例操作。接著返回至第4圖，方法400開始於啟始操作405，並進行至操作410，其中該TATS模組265可由一使用者選擇和開啟。一使用者可藉由習知的輸入方法開啟該TATS模組265，例如觸碰一表示一行動計算裝置100的該螢幕105之TATS模組265的圖示或文字字串。

在開啟TATS模組265之後，方法進行至操作415，其中該TATS模組接收一行動計算裝置100的該觸碰螢幕105之觸碰任何地方的一指示。應可了解到，一觸碰可為一使用者的手指或藉由裝置的方法(例如一觸控筆)的一觸碰。根據本發明的一具體實施例，所接收的觸碰係藉由啟動在語音辨識互動的聆聽模式之方法。意即，本發明的具體實施例促使一使用者觸碰在該裝置100的該觸碰感知螢幕105的任何地方以指示至該語音辨識模組以開始用於該聲音輸入的聆聽。本發明的具體實施例允許讓一使用者觸碰該裝置100的該螢幕105上之任何地方以執行該聆聽機制，而不同於藉由一替代輸入方法例如一硬體線路側的輸入元件125按下以進行對話的互動，其可為一旋轉開關、一按鈕、或任何其它形式的手動輸入元件、硬體輸入按鈕115、軟體鍵、在一觸碰螢幕界面105的一按鈕之界定邊界、或其它已知的輸入元件。

根據一具體實施例，一觸碰可為一按下和保持(press-and-hold)互動模型的一元件，其中當一使用者正提供聲音輸入時，他/她觸碰該螢幕105以啟動聆聽、保持他/她的手指(或其它用於該觸碰螢幕界面的其它機制)在該螢幕上，接著放開他/她的手指或其它觸碰機制以取消啟動聆聽。根據另一具體實施例，一觸碰可為一按下和放開互動模型，其類似先前的模型，一使用者觸碰該螢幕105以啟動該聆聽；然而，一旦放開他/她的手指或其它觸碰機制，該語音辨識應用程式330維持在聆聽模式。該聆聽機制可藉由一後續觸碰的一指示取消啟動，其若是已決定為無聲音期間經過一定的時間量，或藉由可由一既定應用程式偵測的語音端的一指示之另一方法。

在藉由該TATS模組265接收一觸碰的一指示後，在操作420中，可產生一回饋以確認該觸碰的接收。根據第5圖所示的一具體實施例，其係相關聯於第4圖，該回授可為視覺回授(例如在螢幕105上的動畫顯示)、聲音回授(例如藉由揚聲器130所播放的聲音音調)、觸覺性回授(振動)、或其三者的一組合。根據一具體實施例，該視覺回授505可指示該使用者已觸碰在該螢幕105上的所在之處。舉例而言，如第5圖所示，一圖像505可經顯示於該螢幕105上以警示該使用者：已從顯示該圖像的位置接收一觸碰的一指示。該回授可警示該使用者TATS模組265已接收一觸碰輸入，及從而啟動該聆聽機制，如第4圖所例示說明的操作425所示。根據一具體實施例，該TATS模組265可傳送確認接收到一觸碰的回授至該使用者(操作420)，並同時啟動該聆聽機制(操作425)。根據另一具體實施例，操作420可在操作425前發生。根據另一具體實施例，操作425可發生於420之前。

一旦啟動該聆聽機制，該語音辨識模組330則準備自該使用者接收聲音輸入。在操作430，該使用者可說話，及他/她的說話發聲可藉由該聆聽機制接收。如同習知技藝者所能了解到，語音辨識係在此不詳加討論的習知技術。

在操作431中，當接收說話發聲時430時，說話發聲的量測聲音水平的視覺回授經顯示於該螢幕上。再度參照關聯於第4圖的第6圖，該回授係一音量計605。根據一具體實施例，當偵測到更多的音量時，該音量計可經顯現為一系列的同心環，其自一觸碰的位置散射。根據另一具體實施例，該同心環隨著音量增加可改變顏色和形狀。如同第6圖所示，一實例音量計605經顯示於一行動計算裝置100的螢幕105上，其反應該使用者說話的音量。在此實例中，該使用者說話的音量則顯示為經偵測在最大值為5個水平中向外3個音量水平。若該使用者說話大聲一點，該下一個外部環可改變顏色或形狀以讓該使用者知道他的聲音音量已增加。若該使用者輕聲地說話，有顏色和形狀環的數目則會減少以讓該使用者知道他的聲音音量已減少。該動畫顯示係提供視覺回授和協助自我校正的方式。

現在繼續參照第4圖，在該使用者完成他/她的說話發聲之後，在操作435，接收一結束該聆聽模式的指示。如同先前所描述，根據一具體實施例，可使用一按下和保持互動模型，當一使用者提供聲音輸入時，他/她觸碰該螢幕105以啟動聆聽，放置他/她的手指在該螢幕上(或用於該觸碰螢幕界面的其它機制)，接著放開他/她的手指或其它觸碰機制以指示該TATS模組265以解除啟動聆聽。根據另一具體實施例，可使用一按下和放開互動模型，其中結束聆聽的指示可藉由一後續觸碰的一指示。根據另一具體實施例，偵測到既定的時間量之無話音情況可為對該聆聽機制結束聆聽的指示。應可了解到，可使用其它方法以指示該使用者藉由說話及對該應用程式離開聆聽模式。

一旦接收到一指示以結束聆聽，在操作440中，取消啟動聆聽機制，及該語音辨識模組330不再接收聲音輸入，直到其接收一指示以再次啟動聆聽機制。在操作445，該TATS模組265確認它己接收了一指示以取消啟動該聆聽，及接續地取消啟動該聆聽機制。根據一具體實施例，該確認可為視覺回授、聲音回授、觸覺回授、或其三者的組合。根據一具體實施例，操作440和445可同時發生。根據另一具體實施例，操作440可發生於445之前。根據另一具體實施例，操作440可發生於445之後。

在操作450，所接收的聲音輸入經傳送至一語音辨識模組，其中其可經轉換成數位資料，並經由分析決定該使用者說了些什麼。該語音辨識模組330可經內嵌於行動計算裝置100中，或位於遠端及藉由一無線連接至一伺服器來存取。一旦辨識了該語音，其可傳送至一動作模組340以執行該使用者的經辨識之所欲功能。舉例而言，若經決定該使用者說出“電影列表；Dallas,Texas.”。該動作模組340可藉由一無線連接傳送該資料至一搜尋引擎以擷取在Dallas,Texas區域的目前電影列表資訊。在操作455中，該所擷取的資料可接著被傳送至該使用者，並顯示於該行動計算裝置的螢幕105上。根據一具體實施例，所擷取的資料需要其它行動應用程式的使用。舉例而言，需啟用一瀏覽器應用程式以搜尋電影列表來擷取該既定資料。該方法結束於操作460。

如同先前的簡短描述，本發明的一具體實施例可包含：除了開放式(open-ended)的語音指令，使用視覺界面的內容感知資訊以協助一使用者完成一列任務。第7圖係說明一方法的邏輯流程圖，該方法提供一觸碰任何地方以對話(TATS)模組265以執行在一行動計算裝置100的語音辨識互動中之聆聽機制，其中一使用者己觸碰的該螢幕的內容可經識別和與所接收的聲音輸入結合使用。

根據一具體實施例，該TATS模組265可經操作以利用關聯於一觸碰的資料以不但進行一語音辨識模組330之聆聽機制，也進行在一位置的內容或經觸碰的其它內容之聆聽機制。基於該行動裝置100的螢幕105之內容，及/或一使用者觸碰該螢幕105的位置，該TATS模組265可決定該使用者語音輸入的內容。從而，提供該使用者更多的目標資訊。舉例而言，若一使用者在他的計動計算裝置100上檢視一地圖，和他觸碰該地圖界面的一特定區域，並說出：「咖啡。」，該TATS模組265可接收該話音輸入「咖啡」，和在該地圖界面上的內容感知位置，其中該使用者觸碰該觸碰螢幕以擷取關於咖啡的資訊，和由該地圖界面的觸碰區域指定的位置。若該使用者如同先前的實例檢視相同的地圖，並說出：「咖啡。」，但觸碰在該地圖界面上一不同的點，則回傳結果因為內容位置輸入已改變而有所不同。使用語音資料實施內容視覺化資料可促使可能的大量應用。舉例而言，當觸碰一地圖界面，唸出一指令(例如“放大”)可產生相較於意欲作為一搜尋詢問的發聲不同的結果。

繼續參照第7圖，方法700開始於啟始操作705及進行到操作710，其中選擇該TATS模組，並由一使用者開啟。一使用者可藉由習知的輸入方法開啟該TATS模組，例如觸碰表示一行動計算裝置100的螢幕105上的TATS模組265之一圖示或文字字串。

在開啟該TATS 265模組之後，方法進行至操作715，其中該TATS模組接收在一行動計算裝置100的觸碰螢幕105的內容區域之內的一觸碰指示。應可了解到，一觸碰可為一使用者的手指之一觸碰，或是藉由裝置的方法之一觸碰，例如觸控筆。根據本發明的具體實施例，所接收的觸碰係藉由啟動在語音辨識互動的聆聽模式之方法。本發明的具體實施例促使一使用者觸碰該裝置100的觸碰感知螢幕105的一內容區域以指示該語音辨識模組以開始聲音輸入的聆聽。

根據一具體實施例，觸碰可為按下和保持互動模型的一元件，其中當一使用者正提供聲音輸入時，他/她觸碰該螢幕105以啟動聆聽、保持他/她的手指(或其它用於該觸碰螢幕界面的其它機制)在該螢幕的內容區域上，接著放開他/她的手指或其它觸碰機制以取消啟動聆聽。根據另一具體實施例，一觸碰可為一按下和放開互動模型，其類似先前的模型，一使用者觸碰該螢幕105的內容區域以啟動該聆聽；然而，一旦放開他/她的手指或其它觸碰機制，該語音辨識應用程式330維持在聆聽模式。該聆聽機制可藉由一後續觸碰的一指示取消啟動，其若是已決定為無聲音期間經過一定的時間量，或藉由可由一既定應用程式偵測的語音端的一指示之另一方法。

在藉由該TATS模組265接收一觸碰的一指示之後，在操作720中，可產生一回饋以確認該觸碰的接收。根據一具體實施例，該回授505可為視覺回授(例如在螢幕105上的動畫顯示)、聲音回授(例如藉由揚聲器130所播放的聲音音調)、觸覺性回授(振動)、或其三者的一組合。根據一具體實施例，該視覺回授505可指示該使用者已觸碰在該螢幕105上的所在之處。舉例而言，返回至第5圖，一圖像505可經顯示於該螢幕105上以警示該使用者：已從顯示該圖像顯示的位置接收一觸碰的一指示。該回授505可警示該使用者：TATS模組265已接收一觸碰輸入，及從而啟動該聆聽機制，如第7圖所例示說明的操作725所示。根據一具體實施例，該TATS模組265可傳送確認接收到一觸碰的回授至該使用者(操作720)，並同時啟動該聆聽機制(操作725)。根據另一具體實施例，操作720可在操作725前發生。根據另一具體實施例，操作725可發生於720之前。

一旦啟動該聆聽機制，該語音辨識模組330則準備自該使用者接收聲音輸入。在操作730，該使用者可說話，及他/她的說話發聲可藉由該聆聽機制接收。如同習知技藝者所能了解到，語音辨識係在此不詳加討論的習知技術。

在操作731中，當接收說話發聲時730，如同參考在第4圖中的操作431之先前描述，該發聲說話的一量測聲音水平的一視覺回授605可經顯示於該螢幕105，其係以接收該觸碰所在的該觸碰螢幕105上的一區域周圍為中心呈現。

繼續至操作732，該TATS模組可識別該觸碰的內容資料，和決定關聯於該識別的內容資料之該觸碰的一識別。在操作733中，該觸碰的識別可經傳遞至該TATS模組265。舉例而言，若一使用者正檢視一城市的一地圖，他/她可觸碰該地圖的一特定區域和說話發聲。顯示在該使用者觸碰的該螢幕界面上之該地圖的特定區域可經讀取和識别為一特定的緯度和經度，在此區域內可結合所接收的話音資料使用以執行由該使用者經辨識的所欲功能。

在操作735中，接收結束該聆聽模式的一指示。從而，在操作740中，取消啟動該聆聽機制，和在操作745，產生該聆聽機制已被取消啟動的一確認。

在操作750中，所接收的聲音輸入經傳送至一語音辨識模組，其中其可經轉換成數位資料，並經由結合該觸碰的所識別內容資料分析，並決定該使用者說了些什麼。該語音辨識模組330可經內嵌於行動計算裝置100中，或位於遠端及藉由一無線連接至一伺服器來存取。一旦辨識了該語音，其可傳送至一動作模組340以執行該使用者的經辨識之所欲功能。根據一具體實施例，該觸碰的內容資料之辨識和使用可發生於在該程序中的各種階段，而非必需要在操作750。

在操作755中，該擷取的資料可傳送至該使用者及顯示在該行動計算裝置的該螢幕105上。根據一具體實施例，該擷取的資料需要其它行動應用程式的使用。該方法結束於操作760。

根據一具體實施例，一按下和保持互動可促使特定語音辨識功能；然而可替代性地，一按下和放開互動可促使其它功能性。舉例而言，若該使用者以他/她的手指觸碰他的行動裝置100的螢幕105，及自該螢幕105移開他/她的手指，該TATS模組265可促使語音辨識互動的聆聽機制。然而，若他以他/她的手指觸碰他的行動裝置的螢幕105，並保持他/她的手指於該螢幕105上，該TATS模組265促使在該觸碰的內容之內的語音辨識互動的聆聽機制。根據此實例，一按下和保持動作使得該TATS模組265有所不同而除了該聲音輸入以外可運用該視覺界面的內容。應可了解存在有其它方法以在所欲互動應用程式之間作出區別。

雖然此發明係相關於各種具體實施例來描述，習知技藝者將了解可在後載的申請範圍的範疇之內作出許多修正。

100．．．行動計算裝置

105．．．觸碰螢幕顯示

115．．．輸入按鈕

120．．．LED燈

125．．．選擇側輸入元件

130．．．揚聲器

135．．．內建照相機

200．．．系統

230．．．周邊裝置埠

260．．．處理器

262．．．記憶體

264．．．作業系統

265．．．TATS模組

266．．．應用程式

268．．．儲存器

270．．．電源供應器

272．．．無線電

274．．．聲音界面

276．．．視訊界面

310．．．本地端來源

320．．．分散式計算網路

330．．．語音辨識架構

340．．．動作模組

350．．．遠端來源

505．．．視覺回授

605．．．音量計

第1圖係一實例行動計算裝置的一示意圖。

第2圖係說明一行動計算裝置的元件之簡化方塊圖，其可作為本發明的具體實施例的一示例作業環境。

第3圖係一計算架構的一簡化方塊圖，該計算架構係用於使用一觸碰任何地方以對話模組以執行在一行動計算裝置上的語音辨識互動的聆聽機制。

第4圖係說明一方法的邏輯流程圖，該方法係使用一觸碰任何地方以對話模組以執行在語音辨識互動的聆聽機制。

第5圖係由一觸碰任何地方以對話模組所提供的實例視覺回授的一說明。

第6圖係由一觸碰任何地方以對話模組所提供的實例音量計顯示之說明。

第7圖係說明一方法的邏輯流程圖，該方法係使用一觸碰任何地方以對話模組結合識別和使用一觸碰的內容資料以啟動在語音辨識互動的聆聽機制。