TWI719385B

TWI719385B - 電子裝置及其語音指令辨識方法

Info

Publication number: TWI719385B
Application number: TW108101163A
Authority: TW
Inventors: 劉淵瀚; 陳奕文; 洪永傑; 劉儒峰; 王榮輝
Original assignee: 緯創資通股份有限公司
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2021-02-21
Also published as: CN111508485A; TW202027061A; US10902853B2; CN111508485B; US20200227039A1

Abstract

一種適用於具有麥克風陣列之電子裝置的語音指令辨識方法。所述方法包括經由所述麥克風陣列獲得多個聲音訊號；對所述多個聲音訊號執行一語音純化操作，以獲得純化後聲音訊號，並且從純化後聲音訊號中辨識一目標語音訊號；經由一複合式語音辨識模型來計算對應所述目標語音訊號的一複合式語音特徵資料；比對複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的目標指令；以及執行所述目標指令。

Description

電子裝置及其語音指令辨識方法

本發明是有關於一種語音辨識方法，且特別是有關於一種電子裝置及其語音指令辨識方法。

隨著科技的進展，為了增進電子產品使用上的便利，越來越多的產品支援了語音控制。不過，大部分產品的語音控制功能需要連網才能有辨識能力(如google home/語音助理；Apple homepad/siri；Amazon Alexa等...)。因為，這些產品需要利用網路連結至遠端的伺服器，以讓所述伺服器來對這些產品所接收到的聲音進行複雜的語音辨識操作。

本發明提供一種電子裝置及其語音指令辨識方法，可在不連網的情況下，辨識到所接收到的用戶語音，並且對此用戶語音獨立地執行語音指令辨識操作，以確認用戶語音所欲執行的電子裝置的目標指令，進而執行所述目標指令。

本發明的一實施例提供一種電子裝置，其包括麥克風陣列、語音指令管理電路單元、儲存單元與處理器。所述麥克風陣列獲得多個聲音訊號。所述語音指令管理電路單元對所述多個聲音訊號執行一語音純化操作，以獲得純化後聲音訊號，並且從純化後聲音訊號中辨識一目標語音訊號，其中所述語音指令管理電路單元經由一複合式語音辨識模型來計算對應所述目標語音訊號的一複合式語音特徵資料，其中所述語音指令管理電路單元比對複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的目標指令。所述處理器執行所述目標指令。

本發明的一實施例提供一種語音指令辨識方法，適用於具有麥克風陣列之電子裝置。所述方法包括經由所述麥克風陣列獲得多個聲音訊號；對所述多個聲音訊號執行一語音純化操作，以獲得純化後聲音訊號，並且從純化後聲音訊號中辨識一目標語音訊號；經由一複合式語音辨識模型來計算對應所述目標語音訊號的一複合式語音特徵資料；比對複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的目標指令；以及執行所述目標指令。

基於上述，本發明的實施例所提供的電子裝置及適用於所述電子裝置的語音辨識方法，可在不需要連接網路的情況下，獨立利用較少的運算資源來判斷語音指令的存在而觸發後續的語音純化操作，藉由語音純化操作強化語音指令(對應目標指令的語音)的清晰程度，並且藉由複合式語音辨識模型與動態時間規整來較準確地判定用戶所說的語音指令是映射至電子裝置的目標指令，進而使電子裝置可有效率地被用戶的語音所控制。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:電子裝置

20:用戶

31、32:其他電子裝置

SD1、SD1’、SD2、SD3:聲音

SR1、SR1’:聲源

C10:中心點

110:麥克風陣列

110(1)~110(8):麥克風

120:語音指令管理電路單元

121:語音觸發電路

122:語音純化電路

123:語音指令映射電路

130:處理器

140:儲存單元

141、141-1、141-2:語音特徵資料庫

150:輸入/輸出單元

160:連接介面電路單元

S31、S32、S33、S34、S35、S36:語音辨識方法的流程步驟

S321、S322、S323、S324:語音辨識方法的步驟S32的流程步驟

S331、S332、S333、S334:語音辨識方法的步驟S33的流程步驟

T1~T8:時間

Td15、Td51、Td26、Td62、Td37、Td73、Td48、Td84:時間差

m1~m8:時間差移動平均

A41、A42:箭頭

410、411、420、421、430、431:區域

510、511、512:複合式語音辨識模型

521、522、531、532:特徵資料

S51-1、S51-2、S52-1、S52-2、S53-1、S53-2、S35-1、S35-2、S54-1、S54-2、S55-1、S55-2、S56-1、S56-2、S57-1、S57-2、S58-1、S58-2、S59:語音指令映射階段的步驟

DB1~DB15:參考語音特徵資料

600:表格

D1~D6:距離

TF:對應目標語音訊號的複合式語音特徵資料

圖1是依照本發明的一實施例所繪示的電子裝置的方塊示意圖。

圖2是依照本發明的一實施例所繪示的電子裝置的使用情境圖。

圖3A是依照本發明的一實施例所繪示的語音指令辨識方法的流程圖。

圖3B是依照本發明的一實施例所繪示的語音指令辨識方法的語音觸發偵測階段的流程圖。

圖3C是依照本發明的一實施例所繪示的語音指令辨識方法的語音純化階段的流程圖。

圖4A至4C是依照本發明的一實施例所繪示的聲源定向操作的示意圖。

圖4D是依照本發明的一實施例所繪示的噪音壓抑操作的示意圖。

圖5A至5B是依照本發明的一實施例所繪示的語音指令辨識方法的語音指令映射階段的流程示意圖。

圖6是依照本發明的一實施例所繪示的分群及權重分配的示意圖。

圖7A是依照本發明的一實施例所繪示的用以計算特徵資料之間的距離的矩陣的示意圖。

圖7B是依照本發明的一實施例所繪示的經由動態時間規整比對參考語音特徵資料的流程圖。

圖2是依照本發明的一實施例所繪示的電子裝置的使用情境圖。請參照圖2，本發明的一實施例提供一種電子裝置10，可藉由所具有的麥克風陣列(例如包含多個麥克風110(1)~110(8))持續地接收電子裝置10周遭的聲音，所述聲音包括任何環境音(如，家電31所發出的聲音SD2或家電32所發出的聲音SD3)與用戶20的語音SD1(所述語音SD1可視為發自對應用戶20的聲源SR1)。並且，辨識所接收的聲音中是否具有符合電子裝置10的其中一個指令。若符合，則電子裝置10可對應地執行所符合的指令。以下會再藉由多個圖式來說明所述電子裝置10所使用的語音指令辨識方法的細節。

圖1是依照本發明的一實施例所繪示的電子裝置的方塊示意圖。請參照圖1，在本實施例中，電子裝置10包括麥克風陣列110、語音指令管理電路單元120、處理器130、儲存單元140。在另一實施例中，所述電子裝置10更包括輸入/輸出單元150與連接介面電路單元160。所述處理器130耦接至所述麥克風陣列110、所述語音指令管理電路單元120與所述儲存單元140。

所述麥克風陣列110包括多個麥克風110(1)~110(N)，N為所述多個麥克風的總數量。在本實施例中，N被預設為8，但本發明不限於所述多個麥克風的總數量N。例如，在其他實施例中，N可為大於8或小於8的正整數。N的較佳者為偶數，於另一實施例中N亦可為4。如圖2所繪示，麥克風陣列110的8個麥克風110(1)~110(8)均勻地環狀排列在電子裝置10的上方，但本發明不限於此。例如，在其他實施例，麥克風陣列110的所述多個麥克風可適應電子裝置的形狀來被配置於電子裝置的表面，以使所述麥克風陣列110可接收到來自電子裝置10附近的任意方位的用戶所發出的語音。所述麥克風陣列110中的每個麥克風用以接收(聆聽)聲音，並且可以將所接收到的聲音轉為聲音訊號。所述聲音訊號可被傳送至語音指令管理電路單元120做進一步的處理。本發明並不限定於所述麥克風的其他細節。

處理器130為具備運算能力的硬體(例如晶片組、處理器等)，用以管理電子裝置10的整體運作，即，所述處理器130可控制每個功能的運作。在本實施例中，處理器130，例如是一核心或多核心的中央處理單元(Central Processing Unit，CPU)、微處理器(micro-processor)、或是其他可程式化之處理單元(Programmable processor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置。

儲存單元140可經由處理器130或語音指令管理電路單元120的指示來暫存資料，所述資料包括用以管理電子裝置10的資料、用以執行語音辨識操作的暫存資料或是其他類型的資料，本發明不限於此。除此之外，儲存單元140還可以經由處理器130或語音指令管理電路單元120的指示來記錄一些需要長時間儲存的資料，例如，對應語音指令辨識操作的語音特徵資料庫141或電子裝置10的韌體或是軟體。值得一提的是，在另一實施例中，儲存單元140也可以包含於處理器130中。儲存單元140可以是任何型態的硬碟機(hard disk drive，HDD)或非揮發性記憶體儲存裝置(如，固態硬碟)。

如上述，在一實施例中，電子裝置10包括輸入/輸出單元150，其可用以接收用戶的輸出操作，以觸發電子裝置10的一或多項功能。此外，輸入/輸出單元150也可用以輸出資訊。在本實施例中，輸入/輸出單元150可具有多個實體按鈕與顯示面板。在另一實施例中，輸入/輸出單元150可為觸控螢幕。

此外，在一實施例中，處理器130可藉由連接介面電路單元160與其他電子裝置連接，以與其他電子裝置的處理器溝通，獲得相關於其他電子裝置的多個指令的資訊。藉此，處理器130 可以根據判斷用戶的語音是否符合其他電子裝置的所述多個指令，以對其他電子裝置的處理器下達指令，進而操控其他電子裝置。連接介面電路單元160例如是相容於序列先進附件(Serial Advanced Technology Attachment，SATA)標準、並列先進附件(Parallel Advanced Technology Attachment，PATA)標準、電氣和電子工程師協會(Institute of Electrical and Electronic Engineers，IEEE)1394標準、高速周邊零件連接介面(Peripheral Component Interconnect Express，PCI Express)標準、通用序列匯流排(Universal Serial Bus，USB)標準、整合式驅動電子介面(Integrated Device Electronics，IDE)標準或其他適合的標準。

在本實施例中，所述語音指令管理電路單元120包括語音觸發電路121、語音純化電路122與語音指令映射電路123。所述語音指令管理電路單元120用以根據麥克風陣列110所接收的聲音來執行語音指令辨識操作。所述語音觸發電路121、語音純化電路122與語音指令映射電路123可用以執行語音指令辨識操作的不同階段。所述語音觸發電路121、語音純化電路122與語音指令映射電路123所執行的操作亦可表示為所述語音指令管理電路單元120的整體運作。

所述語音觸發電路121用以選擇麥克風陣列110的一個偵測麥克風，根據對所述偵測麥克風所產生的聲音訊號來執行語音觸發偵測操作(語音指令辨識操作中的語音觸發偵測階段)，進而根據語音觸發偵測操作的結果來判斷是否觸發後續的處理程序 (如，語音指令辨識操作中的語音純化階段、語音指令辨識階段與語音指令執行階段)。如此一來，可避免同時對多個麥克風的多個聲音訊號來執行多個語音觸發偵測操作，進而可節省語音指令管理電路單元120所耗費的運算資源。所述語音觸發電路121可以根據所述多個麥克風所產生的多個聲音訊號，選擇在所述多個聲音訊號中聲強最大的聲音訊號所屬的麥克風作為所述偵測麥克風。此外，所述偵測麥克風也可為用戶或廠商所預設的麥克風。

語音純化電路122用以在語音指令辨識操作中的語音純化階段中執行語音純化操作。在所述語音純化操作中，語音純化電路122可以辨識對應用戶語音的聲源SR1相對於電子裝置10的方向並且藉此強化用戶語音的聲強，同時降低其他方向的聲音的聲強。此外，在所述語音純化操作中，語音純化電路122更可進一步地根據持續更新的噪音資訊來壓抑多個聲音訊號中的噪音。如此一來，語音純化電路122可從多個聲音訊號中擷取出對應用戶語音的目標語音訊號。

語音指令映射電路123用以在語音指令辨識操作中的語音指令映射階段中執行語音指令映射操作。在所述語音指令映射操作中，語音指令映射電路123可根據目標語音訊號來獲得對應的複合式語音特徵資料，並且比對所述複合式語音特徵資料與所述語音特徵資料庫141中的多筆參考語音特徵資料，以找出所述目標語音訊號所映射的目標指令。語音指令映射電路123可傳送所述目標指令至處理器130，以指示處理器130執行對應所述目標指令的功能。應注意的是，在一實施例中，語音指令映射電路123更可包含儲存電路，以使所述語音特徵資料庫141可被儲存至語音指令映射電路123的儲存電路中。

以下會藉由圖3A至3C來進一步說明本發明的一實施例所提供的語音指令辨識方法的細節與所述電子裝置10的各部件的運作。

圖3A是依照本發明的一實施例所繪示的語音指令辨識方法的流程圖。請參照圖1、2與圖3A，在步驟S31中，經由麥克風陣列110獲得多個聲音訊號(N預設為8)。具體來說，經由麥克風陣列110的多個麥克風110(1)~110(8)，獲得分別對應所述麥克風陣列的多個麥克風110(1)~110(8)的多個聲音訊號。所述多個聲音訊號被傳送至語音指令管理電路單元120。在本實施中，假設麥克風110(1)被設定為偵測麥克風(亦稱，第一麥克風)。語音指令管理電路單元120會持續地分析麥克風110(1)所產生的聲音訊號(亦稱，第一聲音訊號)(即，對第一聲音訊號執行語音觸發偵測操作)。

接著，根據分析結果，在步驟S32中，語音指令管理電路單元120用以從所述多個聲音訊號中的第一聲音訊號中辨識第一觸發語音訊號。上述步驟S31與S32可表示語音指令辨識操作中的語音觸發偵測階段。以下利用圖3B來說明語音觸發偵測階段的細節。

圖3B是依照本發明的一實施例所繪示的語音指令辨識方法的語音觸發偵測階段的流程圖。請參照圖3B，步驟S32包括步驟S321~S324。

在步驟S321中，根據所述第一聲音訊號的聲強，辨識所述第一聲音訊號中聲強大於觸發聲強門檻值的部份第一聲音訊號。在一實施例中，語音觸發電路121只保留在人聲頻帶(如，300赫茲至3400赫茲)的聲音訊號，以使所述第一聲音信號為對應人聲頻帶的聲音訊號。如此一來，可減少計算量，更可因只針對人聲頻帶而避免其他種類的雜音所造成的影響，另外，亦可偵測到缺乏能量、頻率較快的清、濁音。

具體來說，語音觸發電路121會分析第一聲音訊號的波形與聲強。當第一聲音訊號的聲強大於觸發聲強門檻值時，語音觸發電路121，會進一步設定一個起始時間，以累計在起始時間之後，第一聲音訊號的聲強大於觸發聲強門檻值的持續時間。換言之，所述部份第一聲音訊號為第一聲音訊號中連續的聲強大於觸發聲強門檻值的部份的聲音訊號。

接著，在步驟S322中，語音觸發電路121判斷所述部份第一聲音訊號的持續時間是否小於觸發時間門檻值。具體來說，本實施例假設用戶所發出的對應電子裝置的指令的語音的長度會小於觸發時間門檻值(如，3秒)。基此，反應於所述部份第一聲音訊號的所述持續時間的長度小於觸發時間門檻值，語音觸發電路121判定所述部份第一聲音訊號為第一觸發語音訊號(步驟S323)；反應於所述部份第一聲音訊號的所述持續時間的長度不小於觸發時間門檻值，語音觸發電路121判定所述部份第一聲音訊號為噪音(步驟S324)。藉此，語音觸發電路121可進一步地避免電子裝置10周遭的持續性的噪音(如，電器運轉聲，電器所播放的聲音)被作為觸發語音訊號。

此外，在另一實施例中，語音觸發電路121假設用戶所發出的對應電子裝置的指令的語音的長度會大於臨界時間門檻值(如，0.5秒或1秒)且小於觸發時間門檻值(如，3秒)。基此，語音觸發電路121會根據判斷所述部份第一聲音訊號的持續時間是否大於臨界時間門檻值且小於觸發時間門檻值，以判定所述部份第一聲音訊號是第一觸發語音訊號或噪音。藉此，語音觸發電路121可進一步地避免電子裝置10周遭的短暫且大聲的噪音被作為觸發語音訊號。

若所述部份第一聲音訊號被判定為噪音，則語音純化電路122可根據被判定為噪音之所述部份第一聲音訊號來更新所記錄的噪音資訊，其中所述噪音資訊被用於所述語音純化操作中的噪音壓抑操作中。例如，語音純化電路122可根據被判定為噪音之所述部份第一聲音訊號的波形來過濾所述多個聲音訊號中的噪音。換句話說，在所述語音觸發偵測階段中，第一聲音訊號中被判定的噪音可進一步地被回饋至後續的語音純化操作，以強化語音純化電路122壓抑噪音的效率。

如上述，在判定所述部份第一聲音訊號為第一觸發語音訊號(步驟S323)後，語音觸發電路121會指示語音純化電路122 執行後續的語音純化階段(即，步驟S33)，即，流程會接續至步驟S33。

在步驟S33中，語音純化電路122對所述多個聲音訊號執行語音純化操作，以獲得純化後聲音訊號，並且從所述純化後聲音訊號中辨識一目標語音訊號。

圖3C是依照本發明的一實施例所繪示的語音指令辨識方法的語音純化階段的流程圖。請參照圖3C，步驟S33可包括步驟S331~S333。

在步驟S331中，語音純化電路122根據所述第一觸發語音訊號，對所述多個聲音訊號執行聲源定向操作，以獲得對應所述第一觸發語音訊號的聲源角度。以下藉由圖4A至圖4C來說明聲源定向操作的細節。

圖4A至4C是依照本發明的一實施例所繪示的聲源定向操作的示意圖。請參照圖4A，舉例來說，假設聲源SR1發出聲音SD1，並且麥克風陣列110的多個麥克風110(1)~110(8)都會接收到聲音SD1。在判定第一觸發語音訊號後，語音純化電路122可從第一麥克風110(1)之外的其他麥克風110(2)~110(8)(亦稱，第二麥克風)所產生的多個第二聲音訊號中分別辨識其中的第二觸發語音訊號。也就是說，在判定第一聲音訊號中的第一觸發語音訊號的存在之後，語音純化電路122可從每一個第二聲音訊號中辨識到對應於第一觸發語音訊號的第二觸發語音訊號。所述第二觸發語音訊號的波形與聲強會相似或相同於第一觸發語音訊號。在另一實施例中，所述多個麥克風各自可切割出大於觸發聲強門檻值、大於臨界時間門檻值、小於觸發時間門檻值且為人類的聲音頻率的聲音訊號，以產生對應的聲音訊號給語音指令管理電路單元120。

接著，語音純化電路122辨識對應所述第一觸發語音訊號與所述多個第二觸發語音訊號的多個起始時間(亦可視為，所述多個第二聲音訊號的多個起始時間)，並且根據所述多個起始時間計算麥克風110(1)~110(8)間的多個時間差。其中，麥克風110(1)~110(8)分別對應不同的角度(亦稱，麥克風角度)，所述多個時間差的每一個時間差各自對應不同的麥克風角度，並且不同的所述麥克風角度分別對應所述多個麥克風110(1)~110(8)中的不同的麥克風。更詳細來說，由於8顆麥克風間彼此之間有非常多的排列組合與對應的多個時間差。為了讓延遲時間更顯著，得到最大的角度分辨率。在本實施例中，會使用對角關係來計算時間差。即，為了使一個時間差所對應的兩個麥克風之間的間距為最大，本實施例是從8個麥克風中設定4個對角麥克風(如，麥克風110(1)與麥克風110(5)為一組對角麥克風；麥克風110(2)與麥克風110(6)為一組對角麥克風；麥克風110(3)與麥克風110(7)為一組對角麥克風；麥克風110(4)與麥克風110(8)為一組對角麥克風)。每個成對的對角麥克風彼此與電子裝置10的中心C10的角度差為180度(對角)。此外，本實施例更利用對角麥克風的對稱性，來計算時間差與對應的聲源角度。經由對角麥克風110(1)、110(5) 所獲得之時間差Td15與Td51可被預先設定為對應至為0、180度的角度，並且可藉此來推算出其他對角麥克風的時間差所對應的角度值(如，對應對角麥克風110(3)、110(7)的時間差Td37對應至為90度的角度)。一個時間差所對應的角度亦稱為所述時間差的對應角度。

舉例來說，如圖4A所繪示，第一麥克風110(1)所產生的第一聲音訊號中的第一觸發聲音訊號的起始時間為時間T1；第二麥克風110(2)~110(8)所產生的第二聲音訊號中的第二觸發聲音訊號的起始時間為時間T2~T8。在本實施例中，語音純化電路122計算每一對對角麥克風之間的起始時間的時間差。

例如，如圖4B所繪示，第二麥克風110(3)與110(7)彼此成對，語音純化電路122可計算出第二麥克風110(3)與110(7)之間的起始時間的時間差Td37為第二麥克風110(3)的起始時間T3減去第二麥克風110(7)的起始時間T7的差值(即，Td37=T3-T7)。在本實施例中，8個麥克風110(1)~110(8)共包含了4組對角麥克風，利用上述的方式，如同圖4B中的表格所記載，語音純化電路122可計算出對應四組對角麥克風的8個時間差，即，對應對角麥克風110(1)、110(5)的時間差Td15與Td51；對應對角麥克風110(2)、110(6)的時間差Td26與Td62；對應對角麥克風110(3)、110(7)的時間差Td37與Td73；對應對角麥克風110(4)、110(8)的時間差Td48與Td84。

接著，語音純化電路122根據所述多個時間差，計算對應所述多組對角麥克風間的所述多個時間差的多個時間差移動平均。具體來說，在本實施例中，所述時間差Td15對應麥克風110(1)，並且其對應角度為0度；所述時間差Td51對應麥克風110(5)，並且其對應角度為180度；所述時間差Td26對應麥克風110(2)，並且其對應角度為45度；所述時間差Td62對應麥克風110(6)，並且其對應角度為-135度；所述時間差Td37對應麥克風110(3)，並且其對應角度為90度；所述時間差Td73對應麥克風110(7)，並且其對應角度為-90度；所述時間差Td48對應麥克風110(4)，並且其對應角度為135度；所述時間差Td84對應麥克風110(8)，並且其對應角度為-45度。

此外，考量到訊號量測誤差的消除，語音純化電路122會進一步對所述多個時間差計算移動平均，其中移動平均所使用的參數設定為3。在本實施例中，語音純化電路122將一個時間差所對應的麥克風為中心，根據移動平均所使用的參數“3”來找出在為中心的麥克風旁的2個麥克風與對應的2個時間差。接著，利用共3個時間差來計算時間差移動平均。

舉例來說，對應時間差Td15的時間差移動平均m1(亦對應麥克風110(1))會利用包含時間差Td15以及前後時間差Td26,Td84的共3個時間差來進行移動平均。即，對應時間差Td15的時間差移動平均m1為-13/3(即，(Td26+Td15+Td84)/3)，並且所述時間差移動平均m1的對應角度相同於時間差Td15的對應角度(即，0度)。以此類推，如圖4C中的表格所示，語音純化電路 122可計算出其餘的時間差移動平均m2~m8與各自的對應角度。

接著，語音純化電路122根據所述多個時間差移動平均m1~m8的大小來選擇多個目標時間差移動平均，其中所述多個目標時間差移動平均的數量小於所述多個時間差移動平均的數量。具體來說，越接近第一觸發語音訊號的聲源SR1的麥克風所對應的時間差移動平均的值會越小，即，在本例子中，對應時間差移動平均m1的麥克風110(1)是在所有麥克風110(1)~110(8)中最接近聲源SR1的麥克風。在一實施例中，語音純化電路122會選擇所有為負值的時間差移動平均來做為目標時間差移動平均。

接著，語音純化電路122根據所述多個目標時間差移動平均與分別對應所述多個目標時間差移動平均的多個對應角度來計算所述聲源角度。具體來說，語音純化電路122先計算所述多個目標時間差移動平均的總和，並且將每個所述多個目標時間差移動平均除以所述多個目標時間差移動平均的總和，來獲得多個時間差比率。舉例來說，接續上述的例子，為負值之時間差移動平均m1,m8,m2被設定為目標時間差移動平均。所述多個目標時間差移動平均m1,m8,m2的總和為-31/3，並且對應的時間差比率為13/31,9/31與9/31(如，圖4C中的表格所示)。

接著，語音純化電路122將對應所述多個目標時間差移動平均m1,m8,m2的對應角度0度，45度，-45度各自乘以對應所述多個目標時間差移動平均m1,m8,m2的時間差比率，以獲得對應所述多個目標時間差移動平均m1,m8,m2的加權後角度0度， (405/31)度與(-405/31)度。最後，語音純化電路122加總對應所述多個目標時間差移動平均m1,m8,m2的所有加權後角度，以獲得加權後角度總和，並且將加權後角度總和作為對應聲源SR1的聲源角度。

如圖4C所繪示，所計算的聲源角度為0度，即，聲源SR1相對於電子裝置的中心點C10的角度為0度，並且其對應麥克風110(1)的對應角度「0度」。例如，假設隨著用戶的移動，觸發語音為語音SD1’，計算出的聲源角度從0度轉變至-45度(如，箭頭A41所示)。在此情境下，移動後的聲源SR1’相對於中心點C10的角度為-45度。

接著，在獲得聲源角度後，在步驟S332，語音純化電路122根據所述聲源角度對所述多個聲音訊號執行聲音聚束操作，以產生聚束後聲音訊號。具體來說，語音純化電路122會經由聚束形成(Beamforming)技術，讀取所述第一觸發語音訊號與所述多個第二觸發語音訊號，並且利用所述聲源角度來計算對應每個聲音訊號的轉向向量(Steer Vectors)，以將對應所述聲源角度的聲音訊號分離出來。如，對一個聲音訊號，強化此聲音訊號中於所述聲源角度的角度範圍內的部份聲音訊號的聲強，並且減弱其他部份的聲音訊號的聲強(或是直接濾除其他部份的聲音訊號)。如此一來，可將調整聲強後的所述多個聲音訊號集合為聚束後聲音訊號。上述操作可稱為聲音聚束操作。

在一實施例中，語音純化電路122根據所述聲源角度，辨識每一所述多個聲音訊號中對應所述聲源角度的聚束部份與非聚束部份。所述語音純化電路122可增加每一所述多個聲音訊號中的所述聚束部份的聲強，減少每一所述多個聲音訊號中的所述非聚束部份的聲強，並且根據所述聲源角度與對應所述多個麥克風的多個時間差來將所述多個聲音訊號中的所述聚束部份相加，以獲得聚束後聲音訊號。在另一實施例中，語音純化電路122可根據下列步驟來執行聲音聚束操作：(1)所述多個聲音訊號的時域訊號經過傅立葉轉換轉至頻域；(2)利用所述聲源角度來計算對應每個聲音訊號的轉向向量；(3)利用得到的轉向向量來建立波束形成器；(4)將頻域的所述多個聲音訊號輸入至波束形成器以相乘疊加，以獲得單一聲音訊號；(5)對所獲得之單一的聲音訊號進行反傅立葉轉換，以獲得時域的聚束後聲音訊號。

接著，在步驟S333中，語音純化電路122對所述聚束後聲音訊號執行噪音壓抑操作，以獲得目標語音訊號。

圖4D是依照本發明的一實施例所繪示的噪音壓抑操作的示意圖。請參照圖4D，圖4D上方是一個聚束後聲音訊號的訊號波形圖。聚束後聲音訊號中具有多個噪音區段與非噪音區段410、420、430。所述非噪音區段410、420、430為對應所述聲源角度的聲音訊號。

具體來說，語音純化電路122根據上述之噪音資訊與人聲頻帶，利用兩步估測法(Two-Step Noise Reduction，TSNR)與諧波重建法(Harmonic Regeneration Noise Reduction)，經由維納濾波器(Wiener Filter)，降低所述聚束後聲音訊號中的噪音的聲強，以獲得純化後聲音訊號。所述兩步估測法可避免運算時所造成的音框延遲；所述諧波重建法，可避免過度壓抑噪音而產生聲音訊號的失真。在本實施例中，維納濾波器可用於壓抑穩態的背景噪音。此外，在本實施例中，語音純化電路122可進一步利用所述噪音資訊來補足維納濾波器的缺陷。如上述，所述噪音資訊為適應性背景噪音資訊，即，在語音辨識操作中所辨識出的暫態噪音的相應資訊。語音純化電路122可相應地利用目前環境中的暫態噪音的噪音資訊經由所述兩步估測法與所述諧波重建法來壓抑聲音資訊中的暫態噪音。若沒有偵測到任何語音活動，所辨識出的環境噪音可對應地被持續更新，以使適應性背景噪音資訊可持續地根據環境噪音的變化而對應地更新。應注意的是，在上述的噪音壓抑操作中，語音純化電路122會根據人聲頻帶(300Hz至3400Hz)，僅保留聚束聲音訊號中於這頻帶範圍內的聲音訊號，並且移除這頻帶範圍之外的聲音訊號。

也就是說，請參照圖4D，如箭頭A21所示，圖4D上方的聚束後聲音訊號(亦可稱，純化後聲音訊號)，可經由所執行的噪音壓抑操作來獲得目標語音訊號。具體來說，非噪音區段410、420、430中的聲音訊號的波形經過噪音壓抑操作後，會變成更為清晰的聲音訊號(如，非噪音區段411、421、431)，其中的雜訊(如，噪音所導致的聲音訊號的雜訊)也會被消除。於一實施例中，語音純化電路122使用目標聲強門檻值來從純化後聲音訊號中辨識目標語音訊號。語音純化電路122可從非噪音區段411、421、431中辨識所述目標語音訊號。所述目標語音訊號的聲強大於目標聲強門檻值。例如，上述非噪音區段411、421、431中的聲音訊號的聲強皆大於目標聲強門檻值，並且非噪音區段411、421、431中的聲音訊號皆為合格的目標語音訊號。被辨識出的目標語音訊號會被語音純化電路122所擷取，並且被用於後續的語音指令映射階段(即，步驟S34~S35)。以下會利用圖5A、5B來說明語音指令映射階段的細節。

請同時參照圖3A與5A，在步驟S34中，語音指令映射電路123基於所述目標語音訊號，經由複合式語音辨識模型來計算對應所述目標語音訊號的複合式語音特徵資料。詳細來說，複合式語音辨識模型包括第一複合式語音辨識模型511與第二複合式語音辨識模型512。

所述第一複合式語音辨識模型511包括MFs(Mel-scale Frequency)濾波器與IMFs(Inverse Mel-scale Frequency)濾波器。其中MFs濾波器根據人耳聽覺系統的特性，將頻率訊號轉換為Mel刻度，以模擬人耳對聲音的感受。所述IMFs濾波器主要是補足原始MFs濾波器在頻率-聲強結構上的不足(IMFs濾波器的頻率-聲強結構相似於MFs濾波器的頻率-聲強結構的鏡像)。所述第一複合式語音辨識模型511用來強化語者聲紋。

所述第二複合式語音辨識模型512包括GFs(Gammatone-scale Frequency)濾波器與IGFs(Inverse Gammatone-scale Frequency)濾波器。GFs濾波器可將保留語音中的關鍵的模板特徵，並且對其中的雜訊加以模糊化。換言之，GFs濾波器會使所獲得的語音特徵資料具有較高的抗噪性。所述IGFs濾波器主要是補足原始GFs濾波器在頻率-聲強結構上的不足(IGFs濾波器的頻率-聲強結構相似於GFs濾波器的頻率-聲強結構的鏡像)。所述第二複合式語音辨識模型512用來強化語音特徵。

如此一來，由於複合式語音辨識模型同時利用了上述的濾波器，可以同時保留目標語音訊號的聲紋特徵，並且提高目標語音訊號的抗噪性。

請參照圖5A，在本實施例中，語音指令映射電路123輸入所述目標語音訊號至所述複合式語音辨識模型中的第一複合式語音辨識模型511(步驟S51-1)，以獲得第一複合式語音特徵資料521(如，Compound Mel Features，CMF)(步驟S52-1)，並且輸入所述目標語音訊號至所述複合式語音辨識模型中的第二複合式語音辨識模型512(步驟S51-2)，以獲得第二複合式語音特徵資料522(如，Compound Gammatone Features，CGF)(步驟S52-2)。

語音指令映射電路123對所述第一複合式語音特徵資料與所述第二複合式語音特徵資料執行特徵壓縮操作(步驟S53-1、S53-2)，以獲得壓縮後第一複合式語音特徵資料531(如， Compressed Compound Mel Features，CCMF)與壓縮後第二複合式語音特徵資料532(如，Compressed Compound Gammatone Feature，CCGF)。所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料為所述複合式語音特徵資料。由於經由所述特徵壓縮操作所獲得的複合式語音特徵資料的資料量遠小於所述第一複合式語音特徵資料與所述第二複合式語音特徵資料。如此一來，對於複合式語音特徵資料的語音映射操作的運算量也會大量減少，進而減少了運算時間。

在本實施例中，處理器130可接收用戶的輸入操作，以啟動電子裝置10的訓練模式。在此訓練模式中，用戶可指定要訓練的電子裝置的目標指令，並且說出對應的語音，以使語音指令管理電路單元120可在獲得對應此語音的目標語音訊號的複合式語音特徵資料後，判定此複合式語音特徵資料為對應此目標指令的訓練用的複合式語音特徵資料，並且將此複合式語音特徵資料儲存至對應的語音特徵資料庫，以成為參考語音特徵資料。

也就是說，反應於判定所述電子裝置10處於對應所述目標指令的所述訓練模式，語音指令映射電路123儲存所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料於所述語音特徵資料庫(如，分別儲存於第一語音特徵資料庫141-1與第二語音特徵資料庫141-2)中，以成為參考語音特徵資料，並且所儲存之所述壓縮後第一複合式語音特徵資料與所儲存之所述壓縮後第二複合式語音特徵資料被映射至所述目標指令。

相對地，反應於判定所述電子裝置10不處於所述訓練模式，語音指令映射電路123分別對所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料執行語音映射操作S35-1、S35-2，以藉由儲存在第一語音特徵資料庫141-1與第二語音特徵資料庫141-2的多個參考語音特徵資料來判斷所述目標語音訊號所映射的所述目標指令。應注意的是，本發明並不限定於壓縮所述複合式語音特徵資料的方式。

請再參照圖3A，在獲得所述複合式語音特徵資料，在步驟S35中，語音指令映射電路123經由動態時間規整(Dynamic Time Wraping，DTW)的方式，比對所述複合式語音特徵資料與語音特徵資料庫141中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的目標指令。

具體來說，請參照圖5B，以壓縮後第一複合式語音特徵資料531為例子。首先，語音指令映射電路123會經由所述動態時間規整的方式，將所述複合式語音特徵資料來比對所述語音特徵資料庫中的多筆參考語音特徵資料，以從所述多筆參考語音特徵資料中辨識k個最終最近參考語音特徵資料(步驟S54-1)。應注意的是，在步驟S54-1中，會利用所述動態時間規整的方式以及最近鄰居法的概念來從第一語音資料庫141-1中依照時間順序找出k個最近參考語音特徵資料。在最後的時間點所找出的k個最近參考語音特徵資料即為所述k個最終最近參考語音特徵資料，其中每個最終最近參考語音特徵資料會映射一個指令。所述k 為預先設定之正整數。

以下先利用圖7A、7B來說明本實施例所使用的動態時間規整的方式的細節。

圖7A是依照本發明的一實施例所繪示的用以計算特徵資料之間的距離的矩陣的示意圖。舉例來說，假設目前欲計算語音特徵資料S與參考語音特徵資料K1之間的距離。此外，語音特徵資料S具有3個音框數，如，S=[V _f1 ,V _f2 ,V _f3]，其中每個V_f為對應3個音框的多個特徵向量的集合(如，V_f1為對應第一個音框的特徵向量的集合)。參考語音特徵資料K1具有4個音框數，如，K1=[K1 _F1 ,K1 _F2 ,K1 _F3, K1 _F4]，其中每個K1_F為對應的音框的4個特徵向量的集合(如，K1_F1為對應參考語音特徵資料K1中第一個音框的特徵向量的集合)。

請參照圖7A，為了計算語音特徵資料S與參考語音特徵資料K1之間的距離，語音指令映射電路123建立一個距離矩陣M1，所述距離矩陣M1的維度是根據語音特徵資料S與參考語音特徵資料K1各自的音框數來決定的。以此例，語音特徵資料S的音框數為3，參考語音特徵資料K1的音框數為4。因此距離矩陣M1為4*3的矩陣。

接著，語音指令映射電路123利用下列公式來計算距離矩陣M1的每個元素的數值。所述元素可代表語音特徵資料S與參考語音特徵資料K1的對應的音框的多個特徵向量之間的距離。假設每個音框有147個特徵向量。

圖7A中的距離矩陣M1的各元素a_ij的值等於M1(i,j)。例如，

。

所述元素a₁₁為語音特徵資料S的第一個音框的147個特徵向量與參考語音特徵資料K1的第一個音框的147個特徵向量之間的距離。以此類推，可計算出距離矩陣M1的每個元素的值。矩陣計算的順序為從左而右，從上而下。即，先計算a₁₁,a₁₂,a₁₃，再計算a₂₁,a₂₂,a₂₃，再計算a₃₁,a₃₂,a₃₃，再計算a₄₁,a₄₂,a₄₃。

圖7B是依照本發明的一實施例所繪示的經由動態時間規整比對參考語音特徵資料的流程圖。請參照圖7B，圖7B的步驟S71~S80可視為圖5B中的步驟S54-1的流程步驟。「h」用以辨別當前與壓縮後第一複合式語音特徵資料進行比較的第一語音特徵資料庫141-1的參考語音特徵資料，並且所述h的初始為1(表示第“1”個與壓縮後第一複合式語音特徵資料進行比較的參考語音特徵資料，意即上述的第“1”個參考語音特徵資料為參考語音特徵資料K1，將參考語音特徵資料K1與壓縮後第一複合式語音特徵資料進行比較，第“2”個參考語音特徵資料即為參考語音特徵資料K2，以此類推)。以壓縮後第一複合式語音特徵資料為例，所述在步驟S71中，語音指令映射電路123經由動態時間規整來計算壓縮後第一複合式語音特徵資料與第h個參考語音特徵資料的距離矩陣。計算距離矩陣的方法已經說明如上，不贅述於此。在步驟S72中，語音指令映射電路123判斷h是否大於k。若不大於k(步驟S72→否)，接續至步驟S73，語音指令映射電路123儲存對應所述第h個參考語音特徵資料的所述距離矩陣，並且設定所述第h個參考語音特徵資料為候選參考語音特徵資料。接著，在步驟S74中，語音指令映射電路123判斷h是否等於k。若不等於k(步驟S74→否)，接續至步驟S76，h=h+1，即，語音指令映射電路123將h加上1，選擇下一個參考語音特徵資料。接著，流程再回到步驟S71。

若在步驟S74中，判定h等於k(步驟S74→是)，並且流程接續至步驟S75。此時，語音指令映射電路123可知道目前已經設定的候選參考語音特徵資料的總數目等於預先設定的k。在步驟S75中，語音指令映射電路123初始化終止閥值。具體來說，語音指令映射電路123從對應k個候選參考語音特徵資料的距離矩陣的多個元素(距離)中找尋最大者(最大距離值)，並且將終止閥值的數值設定為所找到的最大距離值。接著，執行步驟S76，h的值又加1。

若在步驟S72中，語音指令映射電路123判定h大於k，接續至步驟S77，語音指令映射電路123判斷對應所述第h個參考語音特徵資料的所述距離矩陣是否具有大於所述終止閥值的距離值。具體來說，語音指令映射電路123會比較所述第h個參考語音特徵資料的所述距離矩陣中的每個元素(距離值)與所述終止閥值。若不大於(步驟S77→否)，接續至步驟S78；若大於(步驟S77→是)，接續至步驟S80。

在一實施例中，在h大於k後，於執行步驟S77，即，計算所述第h個參考語音特徵資料的所述距離矩陣的過程中，語音指令映射電路123會比較距離矩陣的每一個元素(距離值)與終止閥值。當距離矩陣中有一行的距離值皆大於所述終止閥值時，就停止計算距離矩陣的其他距離值，並且接續至步驟S80，可加速尋找k個最終最近參考語音特徵資料的運算速度。

在步驟S78中，語音指令映射電路123儲存對應所述第h個參考語音特徵資料的所述距離矩陣，並且設定所述第h個參考語音特徵資料為候選參考語音特徵資料。具體來說，語音指令映射電路123設定所述第h個參考語音特徵資料為候選參考語音特徵資料(候選參考語音特徵資料的總數目為k+1)，並且從所有的候選參考語音特徵資料刪除具有終止閥值的候選參考語音特徵資料，以保留k個候選參考語音特徵資料。

接著，在步驟S79中，語音指令映射電路123更新終止閥值。即，語音指令映射電路123，會找尋當前的k個候選參考語音特徵資料的多個距離矩陣的多個距離值中的最大者，並且將此最大者設定為新的終止閥值。

接著，在步驟S80中，語音指令映射電路123判斷h是否等於第一語音特徵資料庫的參考語音特徵資料總數目。若是(S80→是)，語音指令映射電路123會判定第一語音特徵資料庫的所有參考語音特徵資料皆已經由動態時間規整的方式來與壓縮後第一複合式語音特徵資料計算出對應的距離矩陣，並且當前的所設定的k個候選參考語音特徵資料即為所述k個最終最近參考語音特徵資料。接著，語音指令映射電路123執行步驟S55-1；若否(S80→否)，流程接續至步驟S76。如此一來，經由圖7B所述的流程，語音指令映射電路123可以找到k個最終最近參考語音特徵資料。

請再回到圖5B，在找出所述k個最終最近參考語音特徵資料後，語音指令映射電路123會對k個最終最近參考語音特徵資料來進行分群及權重分配(步驟S55-1)。以下利用圖6來說明。應注意的是，壓縮後第二複合式語音特徵資料532的語音映射操作S35-2相似於壓縮後第一複合式語音特徵資料531的語音映射操作S35-1，即，語音映射操作S35-2所包括的步驟S54-2、S55-2、S56-2、S57-2、S58-2分別相似於語音映射操作S35-1的步驟S54-1、S55-1、S56-1、S57-1、S58-1，並且語音映射操作S35-2的細節不再贅述於此。

圖6是依照本發明的一實施例所繪示的分群及權重分配的示意圖。舉例來說，如圖6中的例子，假設壓縮後第一複合式語音特徵資料為目標特徵值TF，k被設定為6，並且於多個參考語音特徵資料DB1~DB15中，k個最終最近參考語音特徵資料為DB1~DB6，其中最終最近參考語音特徵資料DB1~DB4映射至電子裝置10的多個指令中的第一指令，並且最終最近參考語音特徵資料DB5~DB6映射至第二指令。此外，信心閥值被設定為3。

語音指令映射電路123會計算所述複合式語音特徵資料分別與所述k個最終最近參考語音特徵資料DB1~DB6之間的k個距離D1~D6，根據k個距離D1~D6的大小來分別賦予所述k個最終最近參考語音特徵資料一次序權重值，其中越小的距離對應越大的次序權重值。如表600所示，語音指令映射電路123可依據距離D1~D6，由近至遠，來辨識對應的接近次序，將所述k個最終最近參考語音特徵資料DB1~DB6依據對應的接近次序來排序，並且根據接近次序賦予對應的次序權重值(即，接近次序越前方，對應的次序權重值越大)。如，根據接近次序為「1、2、3、4、5、6」，將最終最近參考語音特徵資料的次序權重值依序設定為「1、0.85、0.8、0.75、0.7、0.65」。

接著，語音指令映射電路123根據所述k個最終最近參考語音特徵資料的所述次序權重值對所述k個最終最近參考語音特徵資料所映射的一或多個指令分別進行權重加總運算，以獲得所述一或多個指令各自的總權重值。例如，於一實施例中，依據距離賦予所述k個最終最近參考語音特徵資料DB1~DB6的所述次序權重值分別為1、0.65、0.7、0.85、0.8、0.75。則，對應第一指令的總權重值即為映射至第一指令的最終最近參考語音特徵資料DB1~DB4的次序權重值1、0.65、0.7、0.85的總和(即，3.2)；對應第二指令的總權重值即為映射至第二指令的最終最近參考語音特徵資料DB5~DB6的次序權重值0.8、0.75的總和(即，1.55)。

在計算出總權重值後，語音指令映射電路123根據所述一或多個總權重值中的最大總權重值與一信心閥值來判斷所述一或多個指令中是否具有映射至所述目標語音訊號的所述目標指令(步驟S56-1)，其中反應於所述最大總權重值大於所述信心閥值，語音指令映射電路123判定所述一或多個指令中對應所述最大總權重值的指令為所述目標語音訊號所映射的所述目標指令，其中反應於所述最大總權重值不大於所述信心閥值，語音指令映射電路123判定所述目標語音訊號為噪音。被判定為噪音的目標語音訊號也可用來更新噪音資訊。

例如，在此例子中，由於最大的總權重值是對應第一指令的總權重值，並且對應第一指令的總權重值大於信心閥值(即，3.2>3)。語音指令映射電路123判定對應第一指令的總權重值具有可信度，並且第一指令即為目標語音訊號所映射的目標指令(步驟S57-1)。語音指令映射電路123會輸出目標語音訊號所映射的目標指令給處理器130(步驟S58-1)。應注意的是，當步驟S57-1與S57-2所判定的目標指令不同時，於步驟S59中，語音指令映射電路123會進一步加總於步驟S55-1、S55-2的相同指令的總權重值，以獲得統合的多個指令的總權重值，並且判定具有最大總權重值的指令為目標指令。

接著，請回到圖3A，在判定目標語音訊號所映射的目標指令後，語音指令映射電路123會告知處理器130，並且在步驟S36中，處理器130執行所述目標指令。所述目標指令的詳細的指令敘述內容已經記載於電子裝置10的韌體中，並且所述處理器130可根據所述目標指令的所述指令敘述內容來執行所述目標指令，本發明並不限定於所述目標指令的詳細指令敘述內容。

應注意的是，上述語音辨識操作並不會經由網路連線或是其他連線來使用其他電子裝置來以執行。換言之，上述語音辨識操作皆可經由電子裝置10中的語音指令管理電路單元120獨立執行完成。也因為沒有連線至其他外部裝置，使用者個人資料的安全性也得以保障。

值得一提的是，在本範例實施例中，語音指令管理電路單元120是以硬體電路實施，但本發明不限於此。語音指令管理電路單元120可以程式碼或軟體來實現相同於語音指令管理電路單元120的功能，並且被儲存在儲存單元140中。例如，語音指令管理電路單元120的功能可實作為以多個程式指令所組成的語音指令管理模組，其包括語音觸發模組、語音純化模組及語音指令映射模組。並且，語音指令管理模組可由處理器130來執行以完成上述語音指令管理電路單元120的功能。換言之，本發明的上述方法可實現在軟體或韌體中，或者可實現為可儲存在記錄介質(諸如CD ROM、RAM、軟碟、硬碟或磁光碟)中的軟體或電腦代碼。另外，當處理器10存取上述的程式碼模組，以實現在上述語音辨識方法時，所述電子裝置10也轉變為特定功能的可處理上述語音辨識操作的專用電子裝置。

綜上所述，本發明的實施例所提供的電子裝置及適用於所述電子裝置的語音辨識方法，可在不需要連接網路的情況下，獨立利用較少的運算資源來判斷語音指令的存在而觸發後續的語音純化操作，藉由語音純化操作強化語音指令(對應目標指令的語音)的清晰程度，並且藉由複合式語音辨識模型與動態時間規整來較準確地判定用戶所說的語音指令是映射至電子裝置的目標指令，進而使電子裝置可有效率地被用戶的語音所控制。此外，由於可不經由連接網路而完成語音指令映射操作，本發明的實施例更可避免使用者個人資料經由網路連線而外洩，進而保障了使用者個人資料的安全性，並且適用於需要對個人資料保密的特定電子裝置(如，個人輔助器具、醫療設備等...)。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S31、S32、S33、S34、S35、S36:語音辨識方法的流程步驟

Claims

一種電子裝置，包括：一麥克風陣列，所述麥克風陣列獲得多個聲音訊號；一儲存單元，用以儲存一語音特徵資料庫；一語音指令管理電路單元，與所述麥克風陣列、所述儲存單元分別耦接；以及一處理器，與所述語音指令管理電路單元、所述麥克風陣列以及所述儲存單元分別耦接，其中所述語音指令管理電路單元對所述多個聲音訊號執行一用於壓抑噪音之語音純化操作，以獲得純化後聲音訊號，並且從純化後聲音訊號中辨識一關聯於一目標指令之目標語音訊號，其中所述語音指令管理電路單元經由一具有複數種濾波器之複合式語音辨識模型計算對應所述目標語音訊號的一具有複數種語音特徵之複合式語音特徵資料，其中在所述語音指令管理電路單元經由所述具有複數種濾波器之複合式語音辨識模型計算對應所述目標語音訊號的所述具有複數種語音特徵之複合式語音特徵資料的操作中，所述語音指令管理電路單元輸入所述目標語音訊號至所述複合式語音辨識模型中的一第一複合式語音辨識模型，以獲得一第一複合式語音特徵資料，並且輸入所述目標語音訊號至所述複合式語音辨識模型中的一第二複合式語音辨識模型，以獲得一第二複合式語音特徵資料，所述語音指令管理電路單元對所述第一複合式語音特徵資料與所述第二複合式語音特徵資料執行特徵壓縮操作，以獲得一壓縮後第一複合式語音特徵資料與一壓縮後第二複合式語音特徵資料，其中所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料為所述複合式語音特徵資料，其中反應於判定所述電子裝置不處於所述訓練模式，所述語音指令管理電路單元分別對所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料執行語音映射操作，以判斷所述目標語音訊號所映射的所述目標指令，其中所述語音指令管理電路單元比對所述複合式語音特徵資料與所述語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的所述目標指令，其中所述多筆參考語音特徵資料的每一筆參考語音特徵資料映射至所述電子裝置的多個指令中的其中之一，所述語音指令管理電路單元傳送所述目標指令至所述處理器，其中所述處理器執行所述目標指令。
如申請專利範圍第1項所述的電子裝置，其中所述語音指令管理電路單元更用以從所述多個聲音訊號中的一第一聲音訊號中辨識一第一觸發語音訊號，其中所述語音指令管理電路單元根據所述第一聲音訊號的聲強，辨識所述第一聲音訊號中聲強大於觸發聲強門檻值的部份第一聲音訊號，其中所述語音指令管理電路單元判斷所述部份第一聲音訊號的持續時間是否小於觸發時間門檻值，其中反應於所述部份第一聲音訊號的所述持續時間小於所述觸發時間門檻值，判定所述部份第一聲音訊號為第一觸發語音訊號，其中反應於所述部份第一聲音訊號的所述持續時間不小於所述觸發時間門檻值，判定所述部份第一聲音訊號為噪音。
如申請專利範圍第2項所述的電子裝置，其中所述語音指令管理電路單元根據被判定為噪音之所述部份第一聲音訊號來更新一噪音資訊，其中所述噪音資訊被用於所述語音純化操作中的噪音壓抑操作中。
如申請專利範圍第2項所述的電子裝置，其中在所述語音指令管理電路單元更用以對所述多個聲音訊號執行所述語音純化操作，以獲得所述純化後聲音訊號，並且從所述純化後聲音訊號中辨識所述目標語音訊號的操作中，所述語音指令管理電路單元根據所述第一觸發語音訊號，計算對應多個聲音訊號的多個時間差，以獲得對應所述第一觸發語音訊號的一聲源角度，其中所述語音指令管理電路單元根據所述聲源角度對所述多個聲音訊號執行一聲音聚束操作，以產生聚束後聲音訊號，其中所述聚束後聲音訊號為所述純化後聲音訊號，其中所述語音指令管理電路單元對所述聚束後聲音訊號執行一噪音壓抑操作，以獲得目標語音訊號。
如申請專利範圍第4項所述的電子裝置，其中所述第一聲音訊號為所述麥克風陣列的多個麥克風中的一第一麥克風根據所接收之聲音所產生，其中所述多個麥克風中非所述第一麥克風的多個第二麥克風根據所接收之所述聲音產生多個第二聲音訊號，其中所述語音指令管理電路單元辨識所述第一觸發語音訊號與所述多個第二聲音訊號的多個起始時間，計算多個時間差，所述語音指令管理電路單元根據所述多個時間差，計算對應所述多個時間差的多個時間差移動平均，所述語音指令管理電路單元選擇所述多個時間差移動平均中為負值的多個目標時間差移動平均，根據所述多個目標時間差移動平均與對應所述多個目標時間差移動平均的多個對應角度來計算所述聲源角度。
如申請專利範圍第4項所述的電子裝置，其中在所述聲音聚束操作中，所述語音指令管理電路單元根據所述聲源角度，辨識每一所述多個聲音訊號中對應所述聲源角度的聚束部份與非聚束部份，所述語音指令管理電路單元增加每一所述多個聲音訊號中的所述聚束部份的聲強，減少每一所述多個聲音訊號中的所述非聚束部份的聲強，並且根據所述聲源角度與對應所述多個麥克風的多個時間差來將所述多個聲音訊號中的所述聚束部份相加，以獲得所述聚束後聲音訊號。
如申請專利範圍第4項所述的電子裝置，其中在所述噪音壓抑操作中，所述語音指令管理電路單元根據一噪音資訊，利用兩步估測法與諧波重建法，經由維納濾波器，降低所述聚束後聲音訊號中的噪音的聲強，以獲得所述目標語音訊號，其中所述目標語音訊號的聲強大於一目標聲強門檻值。
如申請專利範圍第1項所述的電子裝置，其中在上述所述語音指令管理電路單元經由所述具有複數種濾波器之複合式語音辨識模型來計算對應所述目標語音訊號的所述具有複數種語音特徵之複合式語音特徵資料的操作中，其中反應於判定所述電子裝置處於對應所述目標指令的訓練模式，所述語音指令管理電路單元儲存所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料於所述語音特徵資料庫中以成為參考語音特徵資料，並且所儲存之所述壓縮後第一複合式語音特徵資料與所儲存之所述壓縮後第二複合式語音特徵資料被映射至所述目標指令。
如申請專利範圍第8項所述的電子裝置，其中所述第一複合式語音辨識模型包括MFs(Mel-scale Frequency)濾波器與IMFs(Inverse Mel-scale Frequency)濾波器，並且所述第二複合式語音辨識模型包括GFs(Gammatone-scale Frequency)濾波器與IGFs(Inverse Gammatone-scale Frequency)濾波器。
如申請專利範圍第1項所述的電子裝置，其中在上述所述語音指令管理電路單元比對所述複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的所述目標指令的操作中，所述語音指令管理電路單元經由動態時間規整的方式，比對所述複合式語音特徵資料與所述語音特徵資料庫中的所述多筆參考語音特徵資料，以從所述多筆參考語音特徵資料中辨識k個最終最近參考語音特徵資料，所述語音指令管理電路單元計算所述複合式語音特徵資料分別與所述k個最終最近參考語音特徵資料之間的距離，所述語音指令管理電路單元根據所述距離的大小來分別賦予所述k個最終最近參考語音特徵資料一次序權重值，其中越小的所述距離對應越大的所述次序權重值，所述語音指令管理電路單元根據所述k個最終最近參考語音特徵資料的所述次序權重值對所述k個最終最近參考語音特徵資料所映射的一或多個指令分別進行權重加總運算，以獲得所述一或多個指令各自對應的總權重值，所述語音指令管理電路單元比對所述一或多個總權重值中的最大總權重值與一信心閥值，其中反應於所述最大總權重值大於所述信心閥值，所述語音指令管理電路單元判定所述一或多個指令中對應所述最大總權重值的指令為所述目標語音訊號所映射的所述目標指令，其中反應於所述最大總權重值不大於所述信心閥值，所述語音指令管理電路單元判定所述目標語音訊號為噪音。
一種語音指令辨識方法，適用於具有一麥克風陣列之電子裝置，所述方法包括：經由所述麥克風陣列獲得多個聲音訊號；對所述多個聲音訊號執行一用於壓抑噪音之語音純化操作，以獲得純化後聲音訊號，並且從純化後聲音訊號中辨識一關聯於一目標指令之目標語音訊號；經由一具有複數種濾波器之複合式語音辨識模型來計算對應所述目標語音訊號的一具有複數種語音特徵之複合式語音特徵資料，其中經由所述具有複數種濾波器之複合式語音辨識模型來計算對應所述目標語音訊號的所述具有複數種語音特徵之複合式語音特徵資料的步驟包括：輸入所述目標語音訊號至所述複合式語音辨識模型中的一第一複合式語音辨識模型，以獲得一第一複合式語音特徵資料，並且輸入所述目標語音訊號至所述複合式語音辨識模型中的一第二複合式語音辨識模型，以獲得一第二複合式語音特徵資料；對所述第一複合式語音特徵資料與所述第二複合式語音特徵資料執行特徵壓縮操作，以獲得一壓縮後第一複合式語音特徵資料與一壓縮後第二複合式語音特徵資料，其中所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料為所述複合式語音特徵資料；反應於判定所述電子裝置不處於所述訓練模式，分別對所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料執行語音映射操作，以判斷所述目標語音訊號所映射的所述目標指令；比對複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的所述目標指令；以及執行所述目標指令。
如申請專利範圍第11項所述的語音指令辨識方法，更包括：從所述多個聲音訊號中的一第一聲音訊號中辨識一第一觸發語音訊號；根據所述第一聲音訊號的聲強，辨識所述第一聲音訊號中聲強大於觸發聲強門檻值的部份第一聲音訊號；以及判斷所述部份第一聲音訊號的持續時間是否小於觸發時間門檻值，其中反應於所述部份第一聲音訊號的所述持續時間小於所述觸發時間門檻值，判定所述部份第一聲音訊號為第一觸發語音訊號；以及其中反應於所述部份第一聲音訊號的所述持續時間不小於所述觸發時間門檻值，判定所述部份第一聲音訊號為噪音。
如申請專利範圍第12項所述的語音指令辨識方法，更包括：根據被判定為噪音之所述部份第一聲音訊號來更新一噪音資訊，其中所述噪音資訊被用於所述語音純化操作中的噪音壓抑操作中。
如申請專利範圍第12項所述的語音指令辨識方法，其中對所述多個聲音訊號執行所述語音純化操作，以獲得所述純化後聲音訊號，並且從所述純化後聲音訊號中辨識所述目標語音訊號的步驟包括：根據所述第一觸發語音訊號，計算對應多個聲音訊號的多個時間差，以獲得對應所述第一觸發語音訊號的一聲源角度；根據所述聲源角度對所述多個聲音訊號執行一聲音聚束操作，以產生聚束後聲音訊號，其中所述聚束後聲音訊號為所述純化後聲音訊號；以及對所述聚束後聲音訊號執行一噪音壓抑操作，以獲得目標語音訊號。
如申請專利範圍第14項所述的語音指令辨識方法，其中所述第一聲音訊號為所述麥克風陣列的多個麥克風中的一第一麥克風根據所接收之聲音所產生，其中所述多個麥克風中非所述第一麥克風的多個第二麥克風根據所接收之所述聲音產生多個第二聲音訊號，辨識所述第一觸發語音訊號與所述多個第二聲音訊號的多個起始時間，計算多個時間差；根據所述多個時間差，計算對應所述多個時間差的多個時間差移動平均；選擇所述多個時間差移動平均中為負值的多個目標時間差移動平均；以及根據所述多個目標時間差移動平均與對應所述多個目標時間差移動平均的多個對應角度來計算所述聲源角度。
如申請專利範圍第14項所述的語音指令辨識方法，其中所述聲音聚束操作包括：根據所述聲源角度，辨識每一所述多個聲音訊號中對應所述聲源角度的聚束部份與非聚束部份；以及增加每一所述多個聲音訊號中的所述聚束部份的聲強，減少每一所述多個聲音訊號中的所述非聚束部份的聲強，並且根據所述聲源角度與對應所述多個麥克風的多個時間差來將所述多個聲音訊號中的所述聚束部份相加，以獲得所述聚束後聲音訊號。
如申請專利範圍第14項所述的語音指令辨識方法，其中所述噪音壓抑操作包括：根據一噪音資訊，利用兩步估測法與諧波重建法，經由維納濾波器，降低所述聚束後聲音訊號中的噪音的聲強，以獲得所述目標語音訊號，其中所述目標語音訊號的聲強大於一目標聲強門檻值。
如申請專利範圍第11項所述的語音指令辨識方法，其中經由所述具有複數種濾波器之複合式語音辨識模型來計算對應所述目標語音訊號的所述具有複數種語音特徵之複合式語音特徵資料的步驟更包括：反應於判定所述電子裝置處於對應所述目標指令的訓練模式，儲存所述壓縮後第一複合式語音特徵資料與所述壓縮後第二複合式語音特徵資料於所述語音特徵資料庫中以成為參考語音特徵資料，其中所儲存之所述壓縮後第一複合式語音特徵資料與所儲存之所述壓縮後第二複合式語音特徵資料被映射至所述目標指令。
如申請專利範圍第18項所述的語音指令辨識方法，其中所述第一複合式語音辨識模型包括MFs(Mel-scale Frequency)濾波器與IMFs(Inverse Mel-scale Frequency)濾波器，並且所述第二複合式語音辨識模型包括GFs(Gammatone-scale Frequency)濾波器與IGFs(Inverse Gammatone-scale Frequency)濾波器。
如申請專利範圍第11項所述的語音指令辨識方法，其中所述比對所述複合式語音特徵資料與語音特徵資料庫中的多筆參考語音特徵資料，以判斷所述目標語音訊號所映射的所述目標指令的步驟包括：經由動態時間規整的方式，比對所述複合式語音特徵資料與語音特徵資料庫中的所述多筆參考語音特徵資料，以從所述多筆參考語音特徵資料中辨識k個最終最近參考語音特徵資料；計算所述複合式語音特徵資料分別與所述k個最終最近參考語音特徵資料之間的距離；根據所述距離的大小來分別賦予所述k個最終最近參考語音特徵資料一次序權重值，其中越小的所述距離對應越大的所述次序權重值；根據所述k個最終最近參考語音特徵資料的所述次序權重值對所述k個最終最近參考語音特徵資料所映射的一或多個指令分別進行權重加總運算，以獲得所述一或多個指令各自對應的總權重值；以及比對所述一或多個總權重值中的最大總權重值與一信心閥值，其中反應於所述最大總權重值大於所述信心閥值，判定所述一或多個指令中對應所述最大總權重值的指令為所述目標語音訊號所映射的所述目標指令，其中反應於所述最大總權重值不大於所述信心閥值，判定所述目標語音訊號為噪音。