TW201403588A

TW201403588A - 電能有效型聲音致動

Info

Publication number: TW201403588A
Application number: TW102115391A
Authority: TW
Inventors: Stephan Rosner; Chen Liu; Jens Olson
Original assignee: Spansion Llc
Priority date: 2012-06-15
Filing date: 2013-04-30
Publication date: 2014-01-16
Also published as: US20160086603A1; US20130339028A1; US9142215B2; WO2013188007A1

Abstract

本發明提供一種聲音致動系統。該聲音致動系統包括：第一級，其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值，則輸出第一致動訊號；以及第二級，其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號，以及在處於該第二狀態時，若是該音頻訊號之波形的至少一部份實質匹配至少一預定波形，則輸出第二致動訊號。

Description

電能有效型聲音致動

描述於本文之具體實施例大體有關於基於接收語音訊號所觸發的致動系統。

語音辨識系統經常包含語音辨識引擎，其係比較部份接收訊號與儲存資訊以判斷使用者對著裝置說什麼。這些語音辨識系統中之一些被設計成在任何時間能夠回應使用者的語音。結果，語音辨識引擎必須一直保持有作用(active)使得它可監視語音的周遭環境。

由於經常在語音辨識引擎的大部份時間不會收到語音，因此，語音辨識引擎在監視周遭環境時會浪費電力。特別是，在常常以電池供電的無線及行動裝置中，電力的浪費為系統設計人員的重大關注。

有些語音辨識引擎的省電是藉由以多狀態裝置來操作。在處於低功率狀態時，語音辨識引擎只用足夠的電力來偵測先前已指定為觸發子(trigger)的某些特定字語。一旦偵測到該等字語中之一個，語音辨識引擎便轉變為全面運轉狀態(fully-operational state)，此時它可辨識字語的完整詞彙。雖然多狀態實作提供一些省電，然而這經常只是溫和的節省，因為辨識字語之完整詞彙所需組件有許多也需要偵測指定為觸發子的特定字語。因此，即使處於低功率狀態，這些組件仍須保持有作用。

描述於本文之具體實施例包括用於聲音致動的方法、系統及電腦可讀取媒體。在具體實施例中，提供一種聲音致動系統。該聲音致動系統包括：第一級，其係經組態成如果接收音頻訊號的至少一能量特性滿足至少一臨界值，則輸出第一致動訊號；以及第二級，其係經組態成由第一狀態轉變為第二狀態以回應該第一致動訊號，以及在處於該第二狀態時，若是該音頻訊號之波形(profile)的至少一部份實質匹配至少一預定波形，則輸出第二致動訊號。

在另一具體實施例中，提供一種聲音致動方法。該方法包括：用聲音致動系統的第一級，比較音頻訊號的至少一能量特性與至少一臨界值；如果該音頻訊號滿足該臨界值，則使該聲音致動系統由該第一狀態轉變為該第二狀態；在該聲音致動系統之該第二級處於該第二狀態時，用該聲音致動系統之該第二級，比較該音頻訊號之波形的至少一部份與至少一預定波形；以及如果該音頻訊號之波形的該至少一部份實質匹配該至少一預定波形，則使該聲音致動系統的語音辨識引擎由第一狀態轉變為第二狀態。

在又一具體實施例中，提供一種聲音致動系統。該聲音致動系統包括：麥克風，經組態成輸出對應至接收聲波之類比電子訊號；類比數位轉換器，經組態成將該類比電子訊號轉換成數位訊號；第一級，其係經組態成如果該數位訊號的至少一能量特性滿足至少一臨界值，則輸出第一致動訊號；第二級，其係經組態成可由待命狀態轉變為全面運轉狀態以回應該第一致動訊號，以及在處於該全面運轉狀態時，如果該音頻訊號之波形的至少一部份實質匹配至少一預定波形，則輸出第二致動訊號；以及語音辨識引擎，其係經組態成基於該第二致動訊號由第一狀態轉變為第二狀態。

由以下的詳細說明可明白以上及其他的優點及特徵。應注意，【發明內容】及【發明摘要】係闡述被本發人想到的一或更多而不是所有的本發明具體實施例。

100‧‧‧習知語音辨識系統

102‧‧‧麥克風

104‧‧‧類比數位(A/D)轉換器

106‧‧‧語音辨識引擎

200‧‧‧聲音致動系統

202‧‧‧麥克風

204‧‧‧類比/數位轉換器

206‧‧‧第一級

208‧‧‧第二級

210‧‧‧第三級

212‧‧‧控制模組

300‧‧‧曲線

400‧‧‧曲線

402,404‧‧‧預定義臨界值

430‧‧‧顯示單元

500‧‧‧第二級

502‧‧‧時間及/或頻率分析模組

504‧‧‧喚醒判斷模組

600‧‧‧示範曲線

700‧‧‧第二級

702‧‧‧特徵萃取模組

704‧‧‧模版匹配模型

706‧‧‧事件鑑定模組

800‧‧‧第三級

802‧‧‧控制模組

804‧‧‧語音辨識引擎

806‧‧‧聲學模型

808‧‧‧關鍵字語發現文法模組

900‧‧‧流程圖

902‧‧‧把音頻訊號轉換成電子訊號

904‧‧‧把類比電子訊號轉換成數位訊號

906‧‧‧比較接收訊號的能量特性(s)與預定臨界值(s)

908‧‧‧有效致動？

910‧‧‧結束

912‧‧‧使第二級由第一狀態轉變為第二狀態

914‧‧‧比較音頻訊號之波形的至少一部份與至少一預定波形

916‧‧‧有效致動？

918‧‧‧結束

920‧‧‧喚醒字語判斷狀態致能？

922‧‧‧語音引擎轉變為電力全開狀態

924‧‧‧語音引擎轉變為喚醒字語偵測狀態

926‧‧‧接收音頻訊號中存在喚醒字語？

928‧‧‧結束

930‧‧‧語音引擎轉變為全面運轉狀態

1000‧‧‧狀態圖

1002‧‧‧待命狀態

1004‧‧‧喚醒字語判斷狀態

1006‧‧‧全面運轉狀態

1100‧‧‧示範電腦系統

1102‧‧‧顯示介面

1104‧‧‧處理器裝置

1106‧‧‧通訊基礎建設

1108‧‧‧主記憶體

1110‧‧‧次級記憶體

1112‧‧‧硬碟驅動器

1114‧‧‧可移除儲存驅動器

1118‧‧‧可移除儲存單元

1120‧‧‧介面

1122‧‧‧可移除儲存單元

1124‧‧‧通訊介面

1126‧‧‧通訊路徑

併入本文及形成本專利說明書之一部份的附圖係圖解說明本發明以及進一步與說明一起用來解釋本發明的原理以及使得熟諳此藝者可做出及使用本發明。

第1圖為習知語音辨識系統的方塊圖。

第2圖根據本發明之具體實施例圖示聲音致動系統的方塊圖。

第3圖及第4圖的曲線根據本發明的具體實施例圖示第一級的示範操作。

第5圖根據本發明之具體實施例圖示第二級的方塊圖。

第6圖的示範曲線根據本發明之具體實施例圖示示範波形。

第7圖根據本發明之具體實施例圖示第二級的方塊圖。

第8圖根據本發明之具體實施例圖示耦合至控制模組之第三級的方塊圖。

第9圖根據本發明之具體實施例圖示提供用於聲音致動方法之示範步驟的流程圖。

第10圖的狀態圖根據本發明之具體實施例圖示語音辨識引擎的操作。

第11圖圖示示範電腦系統，其中聲音致動系統或其一部份的具體實施例可實作成為電腦可讀取代碼。

此時參考附圖來描述本發明。附圖中，相同或功能類似的元件大體用相同的元件符號表示。另外，元件符號最左邊的數字(或數個)大體為首先出現該元件符號的附圖編號。

應瞭解，旨在用來解釋申請專利範圍的是【實施方式】，而不是【發明內容】與【發明摘要】。【發明內容】與【發明摘要】係闡述本發明人可想到的一或更多但不是所有的本發明示範具體實施例，因而不是想要以任何方式來限定本發明及其申請專利範圍。

第1圖為習知語音辨識系統100的方塊圖。語音辨識系統100包含麥克風102、類比數位(A/D)轉換器104、及語音辨識引擎106。如第1圖所示，麥克風102接收聲波以及輸出對應電子訊號給類比/數位轉換器104。類比/數位轉換器104把接收訊號由類比訊號轉換為數位訊號。

語音辨識引擎106接收由類比/數位轉換器104輸出的訊號。語音辨識引擎106經組態成可辨識存在於接收數位訊號之中的一或更多字語。例如，語音辨識引擎106可載入聲學模型(acoustic model)及關鍵字語(keyword)或文法發現網路(grammar spotting network)的程式館(library)，以判斷接收數位訊號中是否存在一或更多字語。例如，語音辨識引擎106可比較部份的數位訊號與表示特定字語(或數個)的一或更多聲學模型，以判斷接收訊號中是否存在某些字語。語音辨識引擎106可用軟體在處理器上實現。替換地，語音辨識引擎106可用數位訊號處理器(DSP)或可編程硬體(例如，現場可程式閘陣列(FPGA))實現。

在一具體實作中，麥克風102、類比/數位轉換器104及語音辨識引擎106各自可實作成為獨立的模組或積體電路(IC)裝置封裝件(例如，經由印刷電路板(PCB)耦合者)。替換地，麥克風102、類比/數位轉換器104及語音辨識引擎106中之一或更多可一起實作於單一模組或IC裝置封裝件中。

雖然語音辨識引擎系統100可監視周遭環境以及辨識在任何時間被麥克風102收到之語音中的字語，但此操作通常要求語音辨識系統100以全功率運行。特別是，語音辨識系統100的所有組件必須一直在運行，使得它可辨識及回應在任何時間收到的語音訊號。語音辨識系統100在沒有收到語音訊號時所花掉的功率會被浪費掉。浪費掉的功率為系統設計人員的重大關切，特別是經常是以電池來供電的無線或行動系統。

在一替代具體實作中，語音辨識引擎106可為多狀態裝置。在此實作中，語音辨識引擎106初始保持在低功率狀態，此時其係企圖識別接收音頻訊號內的特定預定字語。如果識別訊號中有該等特定字語，則語音辨識引擎106轉變為全面運轉狀態。在處於全面運轉狀態時，語音辨識引擎106可辨識字語的完整詞彙。雖然此實作減少被語音辨識系統100浪費掉的功率，然而這只是溫和地減少，因為即使在低功率狀態下，語音辨識引擎106中仍有許多耗電組件保持通電。

類似概念可在某些無線或行動裝置中實現。例如，此一裝置初始可保持在低功率狀態，但是讓特定的組件集合仍有作用。這些組件用來分析接收封包的前文及/或酬載(payload)，以判斷是否使裝置轉變為所有組件都有作用的全面運轉狀態。例如，實現該等裝置可根據IEEE 802.11標準。雖然這些裝置減少被浪費掉的功率，然而它們用無線傳送器要求使用者來觸發裝置。

在描述於本文的具體實施例中，提供一種電能有效型聲音致動系統。該聲音致動系統可為多級式。各級致動下一級使得最耗電裝置的有作用時間最少。在一具體實施例中，第一級可為比較接收音頻訊號之能量特性(或數個)與一或更多個別預定臨界值的能量比較器。如果符合或超過該等預定臨界值，第一級可致動第二級以分析接收訊號之波形的至少一部份以判斷是否為聲音致動系統的有效觸發子。在另一具體實施例中，只需要有能量偵測作用的第一級監視潛在語音訊號的周遭，從而比習知系統更省電。

第2圖根據本發明之具體實施例圖示聲音致動系統200的方塊圖。聲音致動系統200包含麥克風202、類比/數位轉換器204、第一級206、第二級208和第三級210、以及控制模組212。麥克風202與類比/數位轉換器204可實質類似於語音辨識系統100中在說明第1圖時提及的麥克風102與A/D 104。

第一級206由類比/數位轉換器204接收數位版的接收音頻訊號。在一具體實施例中，第一級206經組態成可分析接收音頻訊號的至少一能量特性以判斷接收訊號是否包含語音。例如，第一級206可經組態成可比較接收音頻訊號的一或更多能量特性與一或更多個別臨界值。如果接收音頻訊號的能量特性符合或超過該一或更多臨界值，則第一級206輸出致動第二級208的第一致動訊號。在這樣做時，第一級206監視周遭環境以判斷是否收到語音訊號。

在一具體實施例中，第一級206一直在運行。不過，如以下所詳述的，與聲音致動系統200的其餘部份相比，第一級206消耗相對少的功率。因此，第一級206的一直運行不會導致大量的功率被聲音致動系統200浪費掉。以外用第3圖及第4圖進一步描述第一級206的示範操作。

第二級208接收第一級206所輸出的第一致動訊號。在一具體實施例中，第二級208可為多狀態裝置。例如，第二級208可具有至少兩種狀態。第二級208的第一狀態可為第二級208中只有辨識第一致動訊號所需組件保持有作用的待命狀態。一旦收到第一致動訊號，第二級208可轉變為第二狀態。例如，第二狀態可為全面運轉狀態。

在處於全面運轉狀態時，第二級208可經組態成可分析接收音頻訊號的至少一波形以判斷訊號中是否存在“喚醒”字語。喚醒字語為聲音致動系統200視為觸發子而導致整個語音辨識引擎被致動的字語。例如而不是限定，可預定字語“在…上”、“致動”及“喚醒”為致動的有效觸發子。例如，當第二級208處於電力全開狀態(fully-powered state)時，第二級208可比較接收音頻訊號的至少一部份波形與均為喚醒字語的一或更多預定義波形。如果接收音頻訊號分別與至少一預定波形實質匹配，則第二級208可輸出第二致動訊號。以下用第6圖至第8圖詳述第二級208的示範操作。

第三級210接收由第二級208輸出的第二致動訊號。在一具體實施例中，第三級210包含語音辨識引擎。在另一具體實施例中，語音辨識引擎可為多狀態裝置。例如，語音辨識引擎的第一狀態可為只有辨識第二致動訊號所需組件保持有作用的待命狀態。一旦收到第二致動訊號，語音辨識引擎可轉變為全面運轉狀態。在處於全面運轉狀態時，語音辨識引擎能夠辨識接收音頻訊號內之字語的完整詞彙。因此，在此具體實施例中，第二致動訊號用作致動語音辨識引擎的觸發子。不過，可能想要提供有更高精度的喚醒字語辨識。例如，會在容易誤判為否定(false negative)或誤判為肯定(false positive)之環境中的系統可受益於更精確的喚醒字語偵測。

在一具體實施例中，語音辨識引擎反而基於第二致動訊號由待命狀態轉變為喚醒字語偵測狀態。在處於喚醒字語偵測狀態時，語音辨識引擎可經組態成可特別辨識音頻訊號中的喚醒字語。在這樣做時，只載入辨識喚醒字語所需之聲學、關鍵字語及/或文法模型的集合。此外，由於放置較少的模型，因此，辨識功能可消耗較少電力，這是因為需要進行較少的接收音頻訊號與不同模型之比較。因此，與全面運轉狀態相比，語音辨識引擎在處於喚醒字語偵測狀態時可使用較少的功率。在另一具體實施例中，語音辨識引擎可經組態成根據音頻訊號內是否有喚醒字語的辨識，可由喚醒字語偵測狀態轉變為待命狀態或者是全面運轉狀態。特別是，如果確定接收音頻訊號中存在喚醒字語，則語音辨識引擎可轉變為全面運轉狀態。如果沒有，則語音辨識引擎可轉變為待命狀態。以下在說明第8圖及第10圖時，會詳述第三級210的操作。

因此，在一具體實施例中，系統200有3級，其中只有第一級206一直在運行。因為與級208及210相比，第一級206為相對低功率的裝置，因此，系統200可提供優於習知系統的實質省電。例如，在一具體實施例中，以級206-210各自在處於全面運轉狀態時所使用的總功率為分母，第一級206可使用約百分之5的總功率，第二級208可使用約百分之20，而第三級210可使用約百分之75。因此，藉由確保最耗電裝置(亦即，第三級210)的有作用時間最少，系統200能夠提供顯著的省電。

第3圖根據本發明之一具體實施例圖示描繪第一級之示範操作的曲線300。如第3圖的示範具體實施例所示，第一級可為能量比較器，其係比較接收音頻訊號的能階(energy level)與預定義臨界值。例如，如第3圖所示，一旦接收音頻訊號能階到達E*，第一級的輸出便由邏輯0切換到邏輯1。在第3圖的具體實施例中，邏輯1的輸出可用作第一致動訊號。

第4圖根據本發明之另一具體實施例圖示描繪第一級之另一示範操作的曲線400。在圖示於第4圖的具體實施例中，第一級分析接收音頻訊號的高頻能量/低頻能量比。在另一具體實施例中，第一級可儲存一對預定義臨界值402及404。當該能量比在臨界值402及404 之間時，第一級可輸出第一致動訊號。臨界值402及404的範圍可為常見語音訊號的能量比。因此，當接收音頻訊號的能量比落在此範圍外時，第一級206可判斷接收音頻訊號不是語音訊號，因而第一級208不輸出第一致動訊號。因此，第3圖及第4圖圖示觸發第一級206以輸出第一致動訊號的不同方式。在第3圖中，能階用作觸發子，而在第4圖中，高頻能量/低頻能量比用作觸發子。

在另一具體實施例中，第一級可使用圖示於第3圖及第4圖之觸發子的組合。例如，接收音頻訊號可能需要滿足包含於第3圖及第4圖用於第一級206的臨界值以產生致動訊號。

第5圖根據本發明之一具體實施例圖示第二級500的示範方塊圖。第二級500包含時間及/或頻率分析模組502與喚醒判斷模組504。在一具體實施例中，時間及/或頻率分析模組502可計算接收音頻訊號的時域及/或頻域波形。例如，接收音頻訊號的時域波形可圖示成振幅隨著時間改變的音頻訊號曲線。此外，時間及/或頻率分析模組502藉由計算時域波形的全時間傅立葉轉換可產生頻域波形。

第6圖為根據本發明之一具體實施例圖示示範波形的示範曲線600。在第6圖的實施例中，時域及/或頻域分析模組502可計算接收音頻訊號的時域及頻域分析。因此，曲線600顯示3個變數：振幅、頻率及時間。時域及/或頻域分析模組502輸出算出的波形給喚醒判斷模組504。

喚醒判斷模組504可比較接收波形與一或更多預定波形。在一具體實施例中，喚醒判斷模組504基於預定波形的比較可判斷接收音頻訊號是否包含語音。特別是，藉由比較接收波形與先前已產生的波形，喚醒判斷模組504可判斷接收音頻訊號是否包含語音。該等預定波形的產生可基於與語音有關的模型建立及/或實驗結果。另外，喚醒判斷模組504也可判斷音頻訊號是否包含一或更多喚醒字語。例如，喚醒判斷模組504可比較接收波形的至少一部份與已知喚醒字語的波形。如果音頻訊號包含聲音或語音及/或一或更多喚醒字語，則喚醒判斷模組504輸出第二致動訊號，例如，邏輯1。

第7圖根據本發明之另一具體實施例圖示第二級700的方塊圖。第二級702包含特徵萃取模組702、模版匹配模型704、以及事件鑑定模組706。特徵萃取模組702經組態成可以頻域呈現接收音頻訊號。例如而不是限定，特徵萃取模組702可計算接收音頻訊號的梅爾頻標倒頻譜參數(mel-frequency cepstrum coefficients，MFCC)。由於這個處理，特徵萃取模組702可用該等係數確定構成該MFC的MFCC。然後，該等係數可輸出至模版匹配模組704。模版匹配模組704可匹配接收係數與表示語音訊號的一或更多波形。例如，模版匹配模組704可匹配接收係數與已知喚醒字語的係數。

在另一具體實施例中，模版匹配模組704 可實施維特比解碼法(Viterbi decoding scheme)。藉由應用維特比解碼法於接收音頻訊號，模版匹配模組704可識別存在於音頻訊號之中的一或更多喚醒字語。模版匹配模組704輸出模版匹配操作的結果給事件鑑定模組706。

基於接收自模版匹配模組704的結果，事件鑑定模組706鑑定接收音頻訊號是否包含一或更多喚醒字語。如果是，則事件鑑定模組706輸出第二致動訊號給第三級210。

第8圖根據本發明之一具體實施例圖示耦合至控制模組802之第三級800的方塊圖。第三級800包含接收聲學模型806及關鍵字語發現文法模組808的語音辨識引擎804。語音辨識引擎804經組態成可辨識內含於接收音頻訊號的字語。如上述，根據本文所描述的語音辨識引擎可為多狀態裝置。例如，在一具體實施例中，語音辨識引擎804能夠根據3種狀態來操作：(1)待命狀態，(2)喚醒字語偵測狀態，以及(3)全面運轉狀態。

第10圖為圖示語音辨識引擎804之操作的狀態圖1000。在處於待命狀態1002時，語音辨識引擎804只有使辨識第二致動訊號所需要的足夠組件有作用。因此，在處於待命狀態時，語音辨識引擎804可使用最少的電力。一旦由第二級收到第二致動訊號，語音辨識引擎804便基於控制模組802所輸出的控制訊號，而轉變為喚醒字語判斷狀態1004或者是全面運轉狀態1006。在處於喚醒字語判斷狀態1004時，語音辨識引擎804只載入聲學模型 806與關鍵字語發現模型808，而且只進行特別辨識喚醒字語所需的比較。當特定模型已載入時，處於喚醒字語偵測狀態1004的語音辨識引擎804可判斷接收音頻訊號內是否存在一或更多喚醒字語。若有的話，則語音辨識引擎804可轉變為全面運轉狀態1006，其中語音辨識引擎載入能夠辨識完整詞彙中之字語的所有聲學模型806及發現全功能文法模組808。若沒有，則語音辨識引擎804轉變回到待命狀態1002。在一具體實施例中，一旦語音辨識引擎804進入全面運轉狀態1006，它保持在此狀態直到特定功能完成及/或經過預定的時間。

控制模組802經組態成可輸出致能語音辨識引擎804進入喚醒判斷狀態1004的控制訊號。在一具體實施例中，控制模組802可基於各種因素來判斷是否致能語音辨識引擎804進入喚醒字語判斷狀態1004。例如，至少部份基於使用者的輸入，控制模組802可輸出控制訊號。在此一具體實施例中，使用者在操作期間可控制語音辨識引擎804是否進入喚醒字語偵測狀態1004。

控制模組802為視需要。在第三級800不包含控制模組802的具體實施例中，可設計時可確定關於語音辨識引擎804是否能夠進入喚醒字語偵測狀態的判斷。例如，在設計時，可大體確定裝置會使用的狀態種類。因此，可預先決定致能喚醒字語判斷狀態是否恰當。例如，可將某些裝置設計成可用於吵雜的環境(例如，設計成可用於戶外的玩具)。由於這種環境容易發生誤判為肯定，因此可預先決定應致能喚醒字語偵測。另一方面，例如，如果可將裝置設計成可用於安靜的環境，致能喚醒字語偵測狀態可能不適合。

因此，在第8圖的具體實施例中，語音辨識引擎804可達成兩個目的。語音辨識引擎804可用來準確地檢查是否已實際接收包含喚醒字語的音頻訊號以及也可用來辨識字語的完整詞彙。

第9圖根據本發明之一具體實施例圖示提供聲音致動方法之示範步驟的流程圖900。熟諳此藝者基於以下說明可明白其他的結構及操作具體實施例。圖示於第9圖的步驟不一定以圖示的順序出現。以下詳述第9圖的步驟。

在步驟902，將接收音頻訊號轉換成電子訊號。例如，在第2圖中，麥克風202可以把接收聲波轉換成電子訊號。

在步驟904，將類比電子訊號轉換成數位訊號。例如，在第2圖中，類比/數位轉換器204可以把接收類比電子訊號轉換成數位訊號。

在步驟906，可比較接收訊號的一或更多能量特性與各個預定臨界值。例如，在第2圖中，第一級206可比較接收音頻訊號的一或更多能量特性與各個預定臨界值。例如，第一級206可分析接收音頻訊號的能階以及比較該能階與預定臨界值，例如，如第3圖所示。另外或替換地，第一級206可比較接收音頻訊號的高頻能量/低頻能量比與一或更多臨界值以判斷接收音頻訊號是否為聲音訊號，例如，如第4圖所示。

在步驟908，判斷接收音頻訊號的一或更多能量特性是否為有效致動。例如，第一級206可在接收訊號的能階超過臨界值及/或其高頻能量/低頻能量比落在預定範圍內的情況下，判斷接收訊號是否包含語音。如果已接收有效致動，則第一級206可輸出第一致動訊號，並且流程圖900前進到步驟912。如果不是，則流程圖900在步驟910結束。

在步驟912，使第二級由第一狀態轉變為第二狀態。例如，在第2圖中，第二級208可由待命狀態轉變為運轉狀態以回應第一級206所輸出的第一致動訊號。

在步驟914，比較音頻訊號的至少一部份波形與至少一預定波形。例如，在第2圖中，第二級208可比較接收音頻訊號的至少一部份與至少一預定波形。例如，第二級208可計算接收音頻訊號的時域及/或頻域波形以及拿它與預定時域及/或頻域波形做比較。另外或替換地，第二級208可由該至少一部份音頻訊號萃取MFCC以及拿這些係數與預定波形(或數個)做比較。

在步驟916，判斷音頻訊號的波形至少有一部份產生有效致動。例如，有效致動可為該至少一部份波形與預定波形匹配。如果該音頻訊號的該至少一部份波形不產生有效致動，則流程圖900在步驟918結束。另一方面，如果確定有有效致動，則流程圖900前進到步驟920。

在步驟920，判斷語音辨識引擎的喚醒字語判斷狀態是否致能。若否，則流程圖900前進到步驟922，而語音辨識引擎轉變為電力全開狀態。若如此，則在步驟924，語音辨識引擎轉變為喚醒字語偵測狀態。例如，如在說明第8圖時所述，藉由輸出控制訊號給語音辨識引擎804，控制模組802可致能語音辨識引擎804進入喚醒字語判斷狀態。

在步驟926，判斷接收音頻訊號中是否存在一或更多喚醒字語。例如，在第8圖中，語音辨識引擎804可判斷接收音頻訊號中是否存在一或更多喚醒字語。如果沒有，則流程圖900在步驟928結束。另一方面，如果接收音頻訊號中存在一或更多喚醒字語，則流程圖900前進到步驟930。在步驟930，語音辨識引擎轉變為全面運轉狀態。例如，在第8圖中，如果語音辨識引擎804判斷接收音頻訊號中存在一或更多喚醒字語，則語音辨識引擎804可轉變為全面運轉狀態，此時語音辨識引擎804可辨識字語中的完整詞彙。

第11圖圖示示範電腦系統1100，其中提供整合行動伺服器應用或彼之一部份的系統具體實施例可實作成為電腦可讀取代碼。例如，第二級208及/或第三級210在電腦系統1100中的實現可用硬體、軟體、韌體、有指令儲存於其上的有形電腦可讀取儲存媒體或彼等之組合，以及可在一或更多電腦系統或其他處理系統中實現。硬體、軟體或兩者之任何組合可具體化第2圖、第5圖及第7圖至第10圖的模組、程序及組件中之任一者。

如果使用可編程邏輯，則該邏輯可在通售處理平台或專用設備上執行。本技藝一般技術人員明白，所揭示之專利標的的具體實施例可用各種電腦系統組態實施，包括多核心多處理器系統、迷你電腦、主機電腦、與分散功能鏈結或成叢集的電腦，以及可虛擬嵌入任何裝置的普及或微型電腦。

例如，有至少一處理器裝置及記憶體的計算裝置可用來實現上述具體實施例。處理器裝置可為單一處理器、多個處理器、彼等之組合。處理器裝置可具有一或更多處理器”核心”。

本發明的各種具體實施例系基於示範電腦系統1100來描述。在閱讀此描述後，熟諳此藝者會明白如何用其他電腦系統及/或電腦架構來實現本發明。雖然操作可被描述成順序處理，操作中之一些事實上可並行、同時及/或在分散環境中執行，以及程式碼儲存於本地或遠端供單一或多處理器機器存取。此外，在有些具體實施例中，可重排操作的順序而不脫離所揭示之專利標的的精神。

熟諳此藝者應瞭解，處理器裝置1104也可為多核心/多處理器系統中的單一處理器，該系統係單獨操作，或在叢集或伺服器群中操作的計算裝置叢集。處理器裝置1104連接至通訊基礎建設1106，例如，例如匯流排、訊息佇列、網路、或多核心訊息傳遞機制。

電腦系統1100也包含主記憶體1108，例如，隨機存取記憶體(RAM)，以及也可包含次級記憶體1110。次級記憶體1110可包含，例如，硬碟驅動器1112、可移除儲存驅動器1114。可移除儲存驅動器1114可包括軟碟、磁帶機、光碟機、快閃記憶體、或其類似物。可移除儲存驅動器1114以習知方式讀及/或寫可移除儲存單元1118。可移除儲存單元1118可包括被可移除儲存驅動器1114讀寫的軟碟、磁帶機、光碟機、等等。熟諳此藝者應瞭解，可移除儲存單元1118包括有電腦軟體及/或資料儲存於其中的電腦可使用儲存媒體。

電腦系統1100(視需要)包含顯示介面1102(它可包含輸入/輸出裝置，例如鍵盤、滑鼠等等)，其係饋送來自通訊基礎建設1106(或未圖示的視框緩衝器)的圖形、文字及其他資料供顯示於顯示單元430上。

在替代實作中，次要存儲器1110可包含其他類似構件以允許電腦程式或其他指令載入電腦系統1100。此類構件可包含，例如，可移除儲存單元1122與介面1120。此類構件的實施例可包含程式匣(program cartridge)與匣介面(例如，出現於視頻遊戲裝置之中者)，可移除記憶體晶片(例如，EPROM或PROM)及相關插座，以及允許軟體及數據由可移除儲存單元1122傳輸至電腦系統1100的其他可移除儲存單元1122及介面1120。

電腦系統1100也可包含通信介面1124。通信介面1124允許軟體及資料在電腦系統1100、外部裝置之間傳輸。通信介面1124可包含數據機、網絡介面(例如，乙太網路卡)、通信埠、PCMCIA插槽及卡、或其類似物。經由通信介面1124傳輸之軟體及資料的訊號形式可為能夠被通信介面1124收到的電子、電磁、光學或其他訊號。該等訊號系經由通信路徑1126提供給通信介面1124。通信路徑1126攜載訊號而且可用電線或纜線、光纖、電話線、行動電話鏈路、紅外線鏈路或其他通信頻道實現。

在本文，術語”電腦程式媒體”及”電腦可使用媒體”大體用來指稱諸如可移除儲存單元1118、可移除儲存單元1122及裝入硬碟驅動器1112的硬碟之類的媒體。電腦程式媒體及電腦可使用媒體也可稱為記憶體，例如可為記憶半導體(例如，DRAM等)的主記憶體1108及次級記憶體1110。

電腦程式(也被稱作電腦控制邏輯)係儲存於主記憶體1108及/或次級記憶體1110中。也可經由通訊介面1124來接收電腦程式。該等電腦程式在執行時使得電腦系統1100可實作本發明，如本文所述。特別是，該等電腦程式在執行時使得處理器裝置1104可實現本發明的方法，例如第4圖及第5圖之流程圖所圖示之方法的級。因此，該等電腦程式為電腦系統1100的控制器。在本發明用軟體實現時，該軟體可儲存於電腦程式產品以及用可移除儲存驅動器1114、介面1120以及硬碟驅動器1112、或通訊介面1124載入電腦系統1100。

本發明的具體實施例也針對包含儲存於任何電腦可使用媒體上之軟體的電腦程式產品。該等軟體在一或更多數據處理裝置中執行時造成數據處理裝置(或數個)可以本文所述的方式操作。本發明的具體實施例利用任何電腦可使用或可讀取媒體。電腦可使用媒體的實施例包含(但不受限於)：主要儲存裝置(例如，任何類型的隨機存取記憶體)，次要儲存裝置(例如，硬盤、軟盤、CD ROMS、抽取磁盤(ZIP disk)、磁帶、磁性儲存裝置、及光學儲存裝置、MEMS、奈米技術儲存裝置、等等)、以及通信媒體(例如，有線及無線通信網絡、局域網、廣域網、企業內網絡、等等)。

以上已藉助圖解說明特定功能及其關係之具體實作的功能建立區塊(functional building block)來說明本發明。該等功能建立區塊的邊界係任意定義以便說明。只要可適當地執行該等特定功能及其關係，可定義替代邊界。

前面特定具體實施例的描述將完整地揭露本發明的一般性質，以致於他者藉由應用本技藝的知識，在不需過度實驗下，可輕易修改該等特定具體實施例及/或改造成可用於各種應用系統，而不脫離本發明的一般概念。因此，希望基於本文提出的教導及指導的此類改造及修改都落在揭示具體實施例的等價意思及範圍內。應瞭解，本文的用語或術語是用來說明而不是限制，使得熟諳此藝者可按照該等教導及指導來解釋本專利說明書的用語或術語。