TW200811833A

TW200811833A - Detection method for voice activity endpoint

Info

Publication number: TW200811833A
Application number: TW95131216A
Authority: TW
Inventors: Chung-Po Liao
Original assignee: Inventec Besta Co Ltd
Priority date: 2006-08-24
Filing date: 2006-08-24
Publication date: 2008-03-01
Also published as: TWI299855B

Description

200811833 input parameters of the linear regression method; . . · . : ： ..... - . . obtained at least a voice activity starting point and at least a voice activity endpoint from the active voices and the inactive voices based on the energy threshold and the zero crossing rate threshold. 七、指定代表圖: (一）、本案指定代表圖為··第(3)圖步驟驟tf代表圖之元件符號簡單說明八、本案若有化學式時，請揭示最能顯示發明特徵的化學式： - · ' ' ' · ' ； . - 九、發明說明： -' 【發明所屬之技術領域】本發明是有關於一種語音辨識偵測方法，.且特別是有關在一種用於提高辨識活動語音（active v〇ice)正確率之活動語音端點偵測方法。 200811833 【先前技術】原始語音類比訊號經過數位化後，雖可直接作為辨識之用，但由於資料量過大，處理時間過長，且效率不好，不可能將原始語音全部儲存下來當做標準語音參考樣本，因此必須針對數位化語音訊號的特性，進行特徵擷取，以求取適當的特徵參數來做比對辨 " " - ... 認。而且對語音訊號取得代表之特徵參數，可減少資料量，增加效率。一般現有的非特定語者的中文語音辨識之流程如第一圖所示，包含下列步驟：步驟（1):語音訊號輸入處理，在語音訊號輸入後，將各個需作分析的語音訊號，以數位訊號處理技術將語音段的訊號切割出來，形成多個音框，便於進行下一步驟。步驟（2):語音訊號的前置處理，該前置處理之主要功能為端點偵測，用以判斷一段語音訊號的起迄點。步驟（3):進行特徵參數擷取，通常採用梅爾（mel 為音調頻率的度量單位，me 1的定義：a me 1 i s a un i t of measure of perceived pitch or frequency of the tone)倒頻譜參數，將時域訊號轉換成頻譜後，就利用濾波器等工具將梅爾刻度（mel scale)的特定頻譜值濾出來，取其對數後即為所求。 200811833 步驟(4):利用隱藏式馬可夫模型（·Μ)方法做語音辨識。所輸入之語音訊號經端點偵測、取音框後，再取其聲音檔之特徵向量，利用此些特徵向量與經過訓練的隱藏式馬可夫模型做比對，計算它是由某一串隱藏式馬可夫模型所產生的機率有多大，來完成語音辨識。以目前使用的判斷方式對目前的輸入訊號音框是否為活動語音（active voice，意指交談中對話的聲音）段落或非活動語音（inactive voice，意指交談中停頓的靜音或背景雜訊）在判斷上仍有誤判的情況發生。若是發生誤判，則在進行特徵參數之擷取時，因為目標語音包含活動語音及非活動語音，將導致語音辨識之正確率降低。因此，如何準確切割出活動語音的範圍為語音辨識技術中一重要關鍵。【發明内容】因此本發明的目的就是在提供一種適用於語音辨識時的活動語音端點偵測方法，根據所輸入語音之音框之能量與越零率來更新能量門限值及越零率門限值，再加上使用多重線性回歸(Mul t iple l inear . .^ ； -. .... -.. regression)演譯法及其他評斷流程，以提高活動語音起點及活動語音終點之判斷準確率。 200811833 根據本發明之上述目的，此活動語音端點偵測方法包含：（a)接收至少一連讀語音，並自此連續語音擷取複數段音框；（b)計算此些音框之能量，並根掾此些能量取得一能量門限值；（c)分別計算此些音框之越零率，並根據此些越零率取得一越零率門限值； (d)使用一線性迴歸演繹法，並以此些能量及此些越零率作為線性迴歸演繹法之输入參數，甩以判斷每一音框是否為一活動語音或一非活動語音；以及（e)根據能量門限值及越零率門限值，自此些活動語音及此些非活動語音中取得至少一活動語音起點及至少一活動語音終點。【實施方式】以下詳細地討論目前較佳的實施例。然而應被理解的是，本發明提供許多可適用的發明觀念，而這些觀念能被體現於很寬廣多樣的特定具體背景中。所討論的特定具體的實施例僅是說明使用本發明的特定方式，而且不會限制本發明的範圍。語音活動偵測是用來判定是否有真人語音，近年來已廣泛用於通訊上達到節省能量耗損的目的。若用於語音辨識方面是屬於語音辨識的前處理，對辨識結果的影響很大，精確的語音活動偵測可降低噪音影響 200811833 並提南辨識率。傳統的語音活動债測大多使用語音能量或越零⑽資鱗铜，本_顧對前述之語音活動债測法則特增添一多重線性回歸之數學演繹函以順利完成語音辨識之前處理。 .因而，為解決習知技術因擷取語音的參數不足，而導致辨識語音上正確率降低，本發㈣提供一種語音辨識時的活動語音端點侦測方法，以下為本實施例之各貫驗數值及本實施例之流程圖式說明。此活動語音端點偵測方法包含卜步驟（a)··接收至少一連續語音，並自該連續語音擷取複數段音框；語音是個時變(Ti me—vary i ng)的訊號，但在觀察實際語音訊號時可發現，語音訊號在短時間内的變化是很缓慢的。因此，在語音信號處理上我們通系採用短時間穩定（Sh〇rt time stationary) 的假設，以固定的取樣點數（Samples)為一個音框 (Frame)，將語音訊號切割成複數段音框，觀察並利用每個音框的特徵。 . . . ... . . —★ 步驟(b):計算此些音框之能量，並根據此些能量取得β 1能置門限值。如上所述，首先，先行計算該音框能量，如第2 圖所示，該圖繪示一語音分割及端點偵測示意圖。由語音缓衝區（亦指該連續語音的複數段音框）的開始 200811833 處取一小視窗，然後計算此視窗於時距中所累積能量，其中，所謂時距係指擷取的一音框至相臨另一音框所相隔時間。計算所有音框之能量後，從所有能量中取得一相對能量門限值，並將相對能量門限值與與一預估能量最小值相比較，以兩者之中較大值作為一能量門限值。其中，前述預估能量最小值係為於一安靜無聲下測得一段靜音，以做使用預估的最小值。而相對能量門限值係為所有音框能量之最大能量之1 /32。因此，執行完步驟(b)後，執行步驟（c):分別計算此些音框之越零率，並根據此些越零率取得一越零率門限值。在本實施例中，取得越零率門限值方法係為比對一預設值與對應此些越零率之相對越零率，以兩者之中較小值作為該越零率門限I。其中，此預設值係依照文獻[Shanughnessy’ 87, ρ· 125 ]而設定一門限值，有聲無聲的邊界越零率值為3000 cross/s。前述相對越零率係為能量低於前述能量門限值之音框之越零率之平均值。步驟（d):使用一線性迴歸演繹法，並以前述複數個音框之能量及越零率作為該線性迴歸演繹法之輸入參數，用以判斷每一音框是否為一活動語音或一非活動語音。 200811833 在本實施例中’此線性迴歸演绎法亦是一種多重線性迴歸（Multiple-regressive)的應用，其係由迴歸分析的應用領域所衍生出的，該迴歸分析可用來找出兩個或兩個以上變數間的關係，進而從一群變數中預測資料的趨勢，於本實施例中，該些能量及該些越零率係作為該旅性迴歸演释法所輸入兩個變數。步驟（e):根據前述之能量門限值及前述之越零率門限值，自該些活動語音及該些非活動語音中取得至少一活動語音起點及至少一活動語音終點。同時使用能量門限值及越零率門限值來判斷，是因為語音中的鼻音、氣音的能量都較小，容易被誤判為非活動語音（inactive voice)而被刪除，這樣對於語音辨識在做判斷將會導致錯誤。加上越零率門限值的判斷可以分辨出子音與非活動語音的不同。在非活動語音時，只有背景雜訊，此時靜音的越零率較低，而子音信號的越零率有一定的數值，當有一預定之門限值便能辨別出非活動語音與子音。推至步驟（e)時，當一所選音框為一活動語音，且該所選音框及後一段音框之能量皆大於該能量門限值，再判斷該所選音框之前兩段音框之越零率是否大於該越零率門限值，若有大於該越零率門限值則活動語音起點由該所選音框往前務動一或二音框，若無大於該越零率門限值則該所選音框係為一活動語音 200811833 起點。當所選音框為一非活動語音，且已取得該活動語音起點，且該所選音輕及後五段音框之能量皆小於 . 該能量門限值，再判斷談所選音框之後兩段音框之越零率是否大於該越零率門限值，若有大於該越零率門限值則活動語音終點由該所選音框往後移動一或二音框，若無大於該越零率門限值則該所選音框係為一活動語音終點。而選取連續五個音框其原因為，某些時候該些音框之能量會低於門限值係為：人在連續發音中因短暫 ' · ^ . 休息所以擷取的連續音框會斷開，而非真正的靜音，所以設定當該些音框之能量由門限值以上變化到門限值以下，必須經過連續五個音框才能真正視為活動語音結束。以下為針對上述偵測流程於一活動語音端點之偵測後的實驗數值。實驗語料是取自2003年二月份底與三月份的『太家說荚語』教材，總共有25個語音檔，每個檔案的格式都是8 kHz取樣頻率，每個取樣點以16位元量化，單聲道，平均長度約為I分半左右，每一個音框長度為22. 5 ms。此語料大多是人與人之間的對話，所以很適合作為語音活動檢测的實料庫，其中前 20傭檔案作為訓練用，總長度約為28分半，後5個 11 200811833 檔案作為測試用，總長度約為7分半。實驗會拫據輸入參數所求得的語音活動狀態，與正確的語音活動狀態作分析，總共會計算三種錯誤率，分別是總錯誤率、非活動判斷為活動之錯誤率以及活動判斷為非活動之錯誤率η，並且與G. 729的VAD 做比較，如表一。 VAD型式 E total En_a Ea_n 多重線性迴歸（訓練） 11.54 6.6563 4.8837 G· 729(訓練） 22.243 21.619 0.62432 多重線性迴歸（訓練) 16.808 13.903 2.9049 G.729(測試） 27. 945 25.052 2.8938 表一由表一可以看到在整體的錯誤率及非活動語音判斷為活動語音的情況，多重線性迴歸不論是訓練語料或是測試語料都優於G. 729，但是在活動語音判斷為非活動語音時，多重線性迴歸在訓練語料所表現的結果是較差的，而這部份的錯誤對於辨識時也有較大的影響，因為將活動語音判斷為非活動語音會常常使得某些子音被忽略，導致辨識錯誤，因此，希望在總錯誤率增加不多的情形下降低 12 200811833 及在調整多重線性迴歸输入變數的權重下，即可影響錯誤率的表覌。若將能量的權重向下修正，可以降低活動音框判斷為非活動音框的錯誤率，同時也會使更多的非活動音框判斷為活動音框，將越零率向上修正也會有類似的效果，這裡選擇改變能量之權重，越零率雉持不變，而訓練語料中的刻意選擇接近1%，最後所訓練出的迴歸係數為 &=-2. 3089， &=0· 047486，K 50885 〇 VAD型式 E total En_a Ea_n 多重線性迴歸（訓練） 12·826 11.835 0.99187 G· 729(訓練） 22.243 21.619 0.62432 多重線性迴歸（訓練) 20.011 19.511 0.4999 G· 729(測試） 27.945 25.052 2.8938 表二重斯測試實驗結果如下表二所示，在各種情形下，多重線性迴歸(Weighted)方法皆優於G· 729之 VAD，並且在活動語音判斷為非活動語音的錯誤也能保持一定的水準（1%)。 13

200811833 Μ ^ ? ί Wl ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ϋ # 用限疋本每明，任何熟習此技囈者，在不脫籬太癸 H4 ^ 【圖式簡單說明】為讓本發用之上述和其他目的、牿科 t — 弟3圖繪示用於語音辨識時的活立山方法之流程圖。丨動浯音端點偵測 ^主要元件符號說明】 v驟（1)〜步驟（4) 步驟（a)〜步驟（e)

Claims

200811833 十、申請專利範圍: i/一種活動語音端點之摘測方法，包含下列步驟： (a) 接收至少一連續語音，並自該連續語音擷取複數段音框； (b) 計算該些音框之能量，並根據該些能量取得一能量門限值； (c) 分別計算該些音框之越零專，並根據該些越零率取得一越零率門限值； (d) 使用一線性迴歸演繹法，並以該些能量及該些越零率作為該線性迴歸演繹法之輸入參數，用以判斷每一該些音框是否為一活動語音或一非活動語音；以及 (e) 根據該能量門限值及該越零率門限值，自該些活動語音及該些非活動語音中取得至少一活動語音起點及至少一活動語音終點。 2. 如申請專利範圍第1項之活動語音端點摘測方法，其中步驟（b)更包含比對一預估能量最小值及一對應該些能量之相對能量門限值，以兩者之中較大值作為該能量門限值。 3. 如申請專利範圍第2項之活動語音端點偵測方法，其中該預估能量最小值係為一於安靜無聲之環 15 200811833 境下錄得之一段靜音之能量。 ...... . .' 4. 如申請專利範圍第2項之用於語音辨識時的活動語音端點偵測方法，其中該相對能量門限值係為該些音框之最大能量值之1/32。 5. 如申請專利範圍第1項之甩於語音辨識時的活動語音端點偵測方法，其中步驟（c)更包含比對一預設值及一對應該些越零率之相對越零率，以兩者之中較小值作為該越零率門限值。 6. 如申請專利範圍第5項之活動語音端點偵測方法，其中該預設值係為30〇0 cross/s。 7. 如申請專利範圍第5項之活動語音端點偵測方法，其中該相對越零率係為該些能量低於該能量門限值之音框之越零率之平均值。 8. 如申請專利範圍第1項之活動語音端點偵測方法，其中該步驟（e)更包含當一所選音框為一活動語 . . . ...... . 音，且該所選音框及後至少一段音框之能量皆大於該能量門限值，並判斷所選音框及前複數段音框之越零率是否大於該越零率門限值，若有大於則活動語音起點由該所選音框往前移動複數段音框，若無大於則該所選音框係為一活動語音起點。 16 200811833 9.如申請專利範圍第1項之活動語音端點偵測方法，其中該步驟（e)更包含當所選音框為一非活動語音，且已取得該活動語音起點，且該所選音框及後 - . · 複數段音框之能量皆小於讓能量門限值，並判斷該所選音框及後複數段音框之越零率是否大於該越零率門限值，若有大於則活動語音終點由該所選音框往後移動複數段音框，若無大於則該所還音框係為一活動語音終點。