TW546630B

TW546630B - Optimized local feature extraction for automatic speech recognition

Info

Publication number: TW546630B
Application number: TW089124931A
Authority: TW
Inventors: Luca Rigazio; David Kryze; Ted Applebaum; Jean-Claude Junqua
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1999-11-24
Filing date: 2001-02-01
Publication date: 2003-08-11
Also published as: EP1103951A2; US6513004B1; ES2240019T3; EP1103951A3; CN1299127A; JP3654831B2; DE60018886D1; DE60018886T2; CN1152367C; EP1103951B1; JP2001184083A

Description

546630 五、發明説明（2 術將可建構並使用一種單二辨識器，而在該辨識器中，浯音模型已經透過一種獨特特徵抽取程序為各種不同聲音層級進行最佳化。因此，本發明的辨識器可以在不需要增加辨識分析程序之複雜性的狀況下’為各種不同聲音層級進行最佳化。為了能更完整地了解本發明以及其目的與優點，請參照以下的發明說明及附錄的圖式。第1圖為一個概觀性硬體或軟體方塊圖，其展用以製造聲音語音信號之子波封包轉換的本發明 ------------------------裝：： (請先閲讀背面之注意事項再填寫本頁) 不的一較佳實施例第2圖展示在副波帶分析中所進行之較佳時間頻率分解。第3圖為-較佳實施例的方塊圖，其根據本發明用以實行副波帶特徵抽取。第4圖展示用以處理高通濾波器頻疊效應的本發明較佳技術；以及第5圖為一個流程圖，其展示用以選出特定聲音層級之最佳子波樹狀結構的程序。曰較佳實施例的說明本發明的局部特徵抽取系統將使用聲音波形的子波分解技術。子波分解技術可形成以局部時間與 5 本紙張尺度適用中國國家標準（CNS) Α4規格（210X297公釐） ----------------tr------------- :線- < 546630 五、發明説明（4 ^ >= // (x)g(x) * dx 二胃g為函數（或信號，數學上這二種名稱 _，相同東西)時，g*則為9的伴矩陣。這表示可 2以針對函數空間來建立基則，以在該基則中投途個函數’亚且利用方程式1與方程式2來重新建立信號。特別地，子波基礎可從位移w(x)—w(x+b)以及雛形函數w(x)的擴張w(x) — w(ax)中建構，稱作母波。-旦母波滿足某些基本性質時，將可透過位移 ^擴張該母波而取得函數空間的基準，如前面所解此目的是表示函數的一種新方法，特別是在時間與頻率上為局部的函數。如果我們與傅立葉串聯分解進行比較的話，我們可以說正弦與餘弦在頻率上具有完美的局部性，但在時間或空間上則具有整體性。，本發明將運用子波以達成時間與頻率的局部支援。當有數種方法可以進行子波分解時，本發明較佳的技術便是使用根據在高通與低通組件中分解信號的-種遞歸算法。另外，也可應用—種反覆過^ 第1圖顯示如何利用設置於一個串聯樹狀結構中的低通與高通濾、波器來進行子波的分解。該樹狀結構中的各個節點包括由高通遽波器10與對應低通濾波器12所組成的-基礎區塊。跟隨在各個渡波器之本紙張尺度適用中國國家標準（CNS) A4規格（210X297公楚）

裝：； -i?先閲讀背面，5意事？H) -線------- 546630 A7 _B7 -五、發明説明（6 ) • 供局部支援，以便直接地對原始信號進行處理。換 - g之’並不需要如習知快速傅立葉變換處理一般來 - 施加開窗術。 .本發明較佳的實施例將使用藉著以長度為15的訊澤窗口頻率回應來旋繞理想低通（或高通）濾波器頻率回應而没計出的遽波器’以最小化所得濾、波器 •I 的漣波。此目的是要取得傳輸頻帶與抑制頻帶之間 ' 的急劇轉調過渡段，以使濾波器的最小重複成為必要。這將依次地在濾波器排組的輸出端產生略減的相關性。在利用此種方式計算出低通濾波器後，可隨後利用對離散迪拉克函數的脈波回應總和來測定出南通濾、波器。第3圖中，轉換區塊32的輸出將展示在34處作為表示一種時間頻率分解技術，如更詳細地展示於第2圖中般。 • 雖然可以在進行向下取樣後直接地使用低通濾波器的輸出端，較佳實施例將在高通濾波器的輸出端上進行額外處理以反轉某些頻疊效應（即所謂的灰碼’’Gray code”效應）。第4圖將展示頻疊方案。要注意的是，低通濾波與向下取樣步驟將產生從零頻率到尼奎斯特頻率的頻率範圍。此將大概地展示於40處。相反地，在進行高通率波與向下取樣之後， " 維持於介在零頻率至尼奎斯特頻率之間頻率範圍的頻譜將為過濾信號高頻率頻譜的及者影濛。因此， -7-— ---—_ ____ 本紙張尺度適用中國國家標準（CNS) A4規格（210X297公釐）

------------------------裝—— (請先閲讀背面之注意事項再填寫本頁) ;訂------- -線丨 546630 五、發明説明（8 ) 樣本的數目N可針對最高副波帶來進行調整上以使平均窗口時間延伸決不會小於一訊框。，接下來’如區塊37所示，將進行—項壓縮運算。壓縮運算所進行的型態可依賴語音信號的本質來進行。將針對未使,料的語音進行-項非線性對數運算。將反之針對受雜音干擾的語音進行—項根壓縮運算。該等運算中任一項均將對ei施用非線性。雖然上述對數運算式為本發明的較佳運算式，也可以應用其他非線性運算。在區塊38巾，將藉著施用一項離散餘弦轉換 (DCT)來抽取出逆譜係數，如方程式2所示：方程式2 C-tl〇g(e;)cos[^^J^〇jl5 ^ 這項結果是一組副波帶特徵39,其當建構如隱藏式馬可夫模型的語音模型時’可用來表示原始語音信號30。 D扣曰副波帶分析可提供相當程度的自由。本質上來說，可以選出濾、波器排組樹狀結構中的任_節點來到:對特定聲音層級備置時間頻率分解。換言之，未必只有葉節點會用於子波分解中。反之，可以使用葉節點與中間節點的任-項組合。可針對特定聲音 11 546630 五、發明説明（10 ) 鑑別力5算，如步驟112所展示。在計算出母節點與子節點的鑑別力後，步驟114 將比較母節點的鑑別力以及子節點的鑑別力總和。

參士 y驟116中所示’如果子節點鑑別力總和大於母 U 力總和的話，那麼子節點將包含在該樹狀結構中。否則，在步驟118中，將利用去除子節點以及該子節點任域代的方法來修剪㈣狀結構。將持續進行第5圖中所展示的程序，直到每個節點都如所述地測試，或者由排除在外的子節點排除在外為止。此項結果是已經針對所欲的聲音層級對一子波樹狀結構進行最佳化修剪。在以此種方式發展—樹狀結構後’本系統可以針對其他的聲音層^ 繼續發展其他樹狀結構（以不同的修剪方式）。可使不同樹狀結構最佳化以鑑別出特定群組的聲音。此種樹狀結構均從過分茂密的樹狀結構所抽取出來，因此針對對應於用以計算出所欲特徵之最佳子樹狀結構㈣點，只要進行-項分解即可。— 可針對各個專門特徵來訓練專業隱藏式馬可夫模型。例如，可從最佳化專業特徵中建構出一組可鑑別母音與子音之不同的專業模型，以取得該等聲音之間的南度鑑別性。因此，可藉由先辨識出寬廣層級（例如子音對母音)’再辨識出多通辨識範例中之一層級内的特定聲音來達成模型的粗至細解析率。另外，在單 13 546630 五、發明説明（12 42 反轉的高頻帶 100分類訓練資料步驟102抽取出所欲的聲音層級（音素）步驟104計算出子波樹狀結構步驟106針對樹狀結構的每個節點計算出能量步驟108如果能量在臨界值之下的話，的生長步驟110透過距離計算方法來計算出（母）節點的鑑別力步驟112計算出母節點之子節點的鑑別力步驟114 Λ較母節點的鑑別力與子節點的鑑別力總和步驟116如果子節點的鑑別力總和較大的話，便在樹狀結構中使用子節點步驟118使用母節點的上層樹狀結構分枝

便停止節;I (請先閲讀背面之注意事項再填寫本頁) 袭丨 ------ :線丨 15 本紙張尺度適用中國國家標準（CNS) Α4規格（210X297公釐）

Claims

546630

^、申請專利範圍 f 89124931號申請案申請專利範圍修正本911〇29. 1_ 一種自動語音辨識用之特徵抽取方法，其包含：用、’且子波來分解—聲音語音信號，該組子波係組織為具有多個頻率副波帶節點之一資料結構中之一組子信號；對對應於每一節點之每—子信號計算一平均向量； % ±界定並選出—子波基準以提昇對特定層級聲音的鑑別性；以及本索應用該基準到該紐子波以自該等平均向量產生二個分解係數，其中該等分解係數代表從該聲音語音信號中抽取出之特徵。 2_如申請專利範圍第1項之方法，其另包含將該組子波表示為分解絲，且對該純進行後處理以對其進行解聯結與壓縮。 3_如申請專利範圍第，項之方法，其中該聲音語音信號係以數位形式進行取樣與表現。 4·如申請專利範圍第）項之方法，其中該組子波係組織為樹狀結構。 5.如申請專利範圍第4項之方法，其中該樹狀結構為取自基礎處理區塊連鎖的一種二元樹狀結構。 6_如申請專利範圍帛5項之方法’其中該基礎處理區塊可進行向下取樣之後的高通與低通濾 546630

波如申：專利範圍第4項之方法，其中該樹狀社構可界（出多個葉節點，而各個葉分解係數。 1有1 8.如申請專利範圍第4頊之古 ^ 項之方法’其中該樹狀結

構叮界疋出-根節點’且其中該方法另包含連續地將該聲音語音信號送人至該根節點。 9·如申請專利範圍第4項之方法，其中該樹狀結構可界定出多個瑩# # π u β μ 夕似茱即點，而戎葉郎點係被選出以使一業已決定的聲音層級鑑別性最大化。 1〇.如申請專利範圍第1項之方法，其另包含在一個時間視窗上求得該分解係數的積分。 11.如申請專利範圍第！項之方法，其另包含對該分解係數進行一項非線性運算。

泛如：請專利範圍第”項之方法，其中該非線性運算包括壓縮該分解係數。 13.2申請專利範圍第1項之方法，其另包含對該節點中選出的節點進行一項離散餘弦轉換，進而抽取出逆譜係數。 14·如申請專利範圍第彳項之方法，其另包含藉著計算出各個節點上代表能量的一數值來選出該節點的一部份，並且如果計算出的數值在一業已決定的臨界值之下的話，便修剪一節點。 15·如申凊專利範圍第彳4項之方法，其中代表能量 17 的该數值為一壓縮能量。 16·:'申請專利範圍帛4項之方法，其另包含藉著 :异出该卽點中第一個節點的鑑別力來選出該即點的^份，而如果該子節點的鑑別力總和少於該節點第一節點的鑑別力的話，便另計算出4即點第一節點之子節點的鑑別力且修剪該子節點。 •如申請專利範圍帛，項之方法，其包含產生第 -多個分解係數以代表聲音的第一層級且產生第二多個分解係數以代表聲音的第二層級，並和用^第-與第二多個分解係數以產生用於語音辨識的第一組與第二組特定模型。 18.如申請專利範圍第”項之方法，其中該第一組與第一組特定模型係使用於多通組態中，藉此第一組模型可先與辨識結果一同使用，之後再利用第二組模型進行處理。瓜如申請專利範圍第17項之方法，其中該第一組與第二組特定模型係同時被使用，以滿足對應於該第一與第二聲音層級的辨識結果。 20·如申請專利範圍第17項之方法，其中該第一聲音層級對應於聲音廣層之間的第一鑑別層，且其中該第二聲音層級對應於聲音窄層之間的第二鑑別層。 54601___^ 面影印I 、 ------______ '

第1圖 546630 ⑽· ！· ίο

546630 91 10 J