TW201028996A

TW201028996A - Methods and apparatus for noise estimation

Info

Publication number: TW201028996A
Application number: TW098134985A
Authority: TW
Inventors: Asif I Mohammad; Dinesh Ramakrishnan
Original assignee: Qualcomm Inc
Priority date: 2008-10-15
Filing date: 2009-10-15
Publication date: 2010-08-01
Also published as: US8380497B2; WO2010045450A1; KR20130019017A; KR101246954B1; CN102187388A; US20100094625A1; KR20110081295A; JP2012506073A; KR20130042649A; EP2351020A1; JP5596039B2

Description

201028996 六、發明說明：【發明所屬之技術領域】本發明大體上係關於用於雜訊位準/頻譜估計及語音活動偵測之方法及裝置，且更特定言之，係關於用於估計雜訊位準及偵測語音之存在的機率模型的使用。本申請案主張來自2008年10月15曰申請之美國臨時專利申請案第61/105,727號的優先權，該臨時專利申請案之全文以引用之方式併入本文中。

【先前技術】通信技術在許多領域中持續挑戰。隨著行動電話及無線耳機之出現，現可在非常嘈雜的環境（亦即，具有低信雜比（SNR)之環境）中進行真正的全雙工對話。信號增強及雜訊抑制在此等情形中變得關鍵。所要語音之可理解度（intelligibmty)藉由在將信號發送至另一端的收聽者之前抑制非所樂見的有雜訊信號 (noisy signal)而得以增強。偵測語音在有雜訊背景内之存在為信號增強及雜訊抑制之一重要分量。為達成改良之注音偵測，一些系統將一傳入信號劃分成複數個不同時間頻率訊框，且估計語音在每—訊框巾之存在的機率。镇測語音之存在的最大挑戰中的—者為追蹤雜訊底限，特定言之，使用單-麥克風/感應器之非定態雜訊位準。語音活動偵測廣泛用於現代通信器件中，尤其用於在低作雜比，況下操作之現代行動器件，諸如，行動電話及無線耳機盗件。在此等器件中之大多數中，在將有㈣㈣t 144023.doc 201028996 =至另-端之收聽者之前對該有雜訊信號執行信號增強及雜訊抑制；進行此操作以改良所要語音之可理解度。在信號增強/雜訊抑制中，使用狂_立七之用e〇 0或話音活動偵測器(VAD)來债測所要語音在混有雜訊之信號中的存在。此偵測器可產生語音之存在或不存在的二元決策（bi_y，或亦可產生語音存在之機率。 /貞測語音之存在的—挑戰為判定信號中之背景雜訊之位準的上界限及下界限，其亦稱為雜訊「頂限」及「底限」。在使用單—麥克風輸人之非定態雜訊的情況下尤為如此。另彳，追蹤雜訊位準歸因於器件或使用該器件之人員的實體移動之快速變化甚至更具挑戰性。【發明内容】在特定實施例中’揭卜種用於估計—音訊信號之一當前訊框中之雜訊位準的方法。該方法包含判定複數個音訊訊框之雜隸準以及計算該複數個音訊純上之該等雜訊位準的平均值及標準差。使用自該平均值減去該標準差的值來計算一當前訊框之一雜訊位準估計。在特定實施例中，揭示一種雜訊判定系統。該系統包含：一經組態以判定複數個音訊訊框之雜訊位準的模組；及、’呈組U „·}·算該複數個音訊訊框上之該等雜訊位準的平均值及標準差的—或多個模組。該系統亦可包括—經組態以將該當前訊框之-雜訊位準估計計算為自該平均值減去該標準差的值之模組。在一些實施例中揭示一種用於估計一信號在複數個時 144023.doc -4- 201028996 =^^Tequeneybin^雜訊位準之方法，該方今方法計S電腦m實施。對於該信號之每一倉， ;= 數個音職框之雜妹準，估計該時間-頻率倉中之該雜訊位準，判彳¥， μ時間-頻率倉中之初級雜訊丄…級雜訊位準判定該時間-頻率倉中之次級雜訊位準，及自該時間_頻率倉有界的雜訊位^ 該次級雜訊位準判定一中：=施例揭示—種用於估計一音訊信號之一當前訊框 w“立準的系統。該系統可包含：用於判定複數個音之雜訊位準的構件；用於計算該複數個音訊訊框上雜訊位準的平均值及標準差的構件；及用於將該當 2之—雜訊位準估計計算為自該平均值減去該標準差的值之構件。在特疋實施例中’揭示—種電腦可讀媒體，纟包含在一 ^里器上執行㈣行—方法的指令1方法包含：判定複 ^個音訊訊框之雜訊位準；計算該複數個音訊訊框上之該讯位準的平均值及標準差；及將—當前訊框之-雜訊位準估計計算為自該平均值減去該標準差的值。【實施方式】各種組態在隨附圖式中以實例方式而非以限制方式加以說明。本發明之實施例包含用於判定信號中之雜訊位準且在一些個例中隨後偵測語音的方法及系統。此等實施例包含優於先前技術之多個顯著進步。一改良係關於基於來自先前 144023.doc 201028996 框之背景雜訊的平均值執行語音信號中之背此不同於基於來自較早及目前音訊訊框之算語音之一訊框的目前背景雜訊位準的其他二=統地’研究者已著眼於早先雜訊值之最小值來估什目刖雜訊位準。然而，在一實施例中，自若干過去德计异經估計的雜訊信號位準’計算此總體之平均值，而非最J、值’ a自該總體減去經按比例調整的標準差。所得值與使用總體最小值通常所提供的值相比有利地提供當前音訊訊框之雜訊位準的更精確的估計。曰此外，可基於傳入信號位準對此經估計的雜訊位準動態加界限以便維持對雜訊之較精確的估計。經估計的雜訊位準可另外藉由早先值進#「平滑處理」或「平均化」，以最小化不連續性。經估計的雜訊位準可接著用以識別具有高於雜訊位準之能階的訊框中的語音。此可藉由計算後驗（a posteriori)信雜比（SNR)而加以又可由非線性s型啟動函數（sigmGidal aetiv2 function)用以產生語音之存在的校正機率。參看圖1，一傳統話音活動偵測（VAD)系統1〇〇接收一傳入信號101，該傳入信號1〇1包含具有背景雜訊之區段及具有#景雜訊及語音兩者之區段。VAD系統1 〇〇將時間信號101分割成多個訊框丨〇33至103d。此等訊框1〇33至1〇3d 中之每一者接著傳遞至分類模組i 04，該分類模組i 04判定將給定訊框置於何類別（雜訊或語音）中。分類模組104計算給定信號之能量，且比較彼能量與一 144023.doc 201028996 對應於雜afL底限之估計的時變臨限值。彼雜訊底限估計可藉由每一傳入訊框進行更新。在一些實施例中，該訊框在 C L號之經估计的能階比特定訊框内之經量測的雜訊底限高的情況下經分類為語音活動。由此，在此模組中，雜訊頻譜估計為語音辨識及（若需要）後續增強之基本分量。該等系統之強健性（特定言之，在低SNR及非定態雜訊環境下）受到可罪地追蹤雜訊統計之快速變化的能力之最大影響。基於VAD之習知雜訊估計方法將雜訊估計之更新限於不存在語音的週期。然而，此等VAD之可靠性對於弱的語音分量及低輸入SNR而嚴重劣化。基於功率譜密度直方圖之其他技術為計算昂貴的’需要大量記憶體資源，在低snr 條件下執行不良，且因此不適用於行動電話及藍芽耳機應用。最小值統計為用於雜訊頻譜估計之另一種方法，其藉由將複數個過去訊框的最小值取為雜訊估計而操作。遺憾地此方法對於疋態雜訊工作良好，但當應對非定態環境時表現糟糕。實施例包含雜訊頻譜估計系統及方法，其對於追蹤許多類型之非所樂見的音訊信號（包括諸如「聚會雜訊（party noise)」或「串音雜訊」之高度非定態雜訊環境）非常有效°亥系統甚至在無益於該估計之環境中亦產生精確的雜訊底限。此經估計的雜訊底限用於計算遂發snr，該後驗 SNR又用於S型函數「遽與邊教如扣☆加如叫」中以判定語音之存在的機率。在-些實施例中’語音判定模組用 144023.doc 201028996 於此功能。吏[η]及d[n]分別表示所要語音及不相關的添加雜訊信號。觀察到之信號或受污染信號，單地為以上兩者的相加，其由下式給出： y[n]=x[n]+d[n] (1) 兩個假設H0[n]及Ηι [n]分別指示第”個時間訊框中的語音不存在及存在。在—些實施例巾，可在語音不存在之週期期間遞歸地平均化雜訊量測的過去能 , -Γ . ^ π I 卜，估叶可在語音存在期間保持恆定。特定言之， Η〇 [«] ·' Λ [λ]=ααλά [« -1]+(l - ad }j2y [«] & （2)、(3) 其中為有雜訊信號在時間訊框w處的能量， 2表不0與丨之間的平滑處理參數。然而，由於並不始終 ’:時：在語音，因此，可能並不清楚何時應用方法或】中之每—者。可替代地使用「有條件的語音存在機 2均其值藉由隨時間推移而更新平滑處判子〜來估計遞其中 XAnhas[n]^d[n -1]+(l - (4) (5) 可具有更精確的估 as [«] = «rf + (l - )pr〇b[n] 以此方式，當不知曉語音之存在時，計以用於雜訊位準他人早先已考慮基於最小值統計的方法 144023.doc 201028996 十舉例而5，可著眼於（例如）過去100個訊框之經估計的有雜訊信號位準心，計算總體之最小值’且將其宣告為經估計的雜訊位準，亦即 . &2M-miniZd(n-m：n)] (6) . 處如啦]表7^向量x之項的最小值，且对„]為時間訊框二中之經估计的雜訊位準。可執行多於或少於⑽個訊框操作幻〇〇於此處及貫穿本說明書僅提供為一實例範參 1 方法對疋態雜訊工作良好’但在非定態環境中表現不良。為解決此問題及其他問題，本發明之實施例使用下文所描述之技術以改良系統之整體偵測效率。平均值統計在實施例+纟發明之系統及方法使用平均值統計而非最小值統計以計算雜訊底限。特定言之，藉由自均值石減去過去efL框值之經按比例調整的標準差〇來計算信號能 • h2。接著選擇目前能階以作為來自過去訊框之所有先前經計算的信號能量σ"的最小值。 ^2[»] = [xrf[«-i〇〇:„]_a+<T^jM_1〇〇 ^ ” ⑺、（8) - 纟中无表示向量X之項的平均值。本發明之實施例預期自 100個訊框上之經估計的雜訊位準的平均值減去相同數目個過去訊框之經估計的雜訊位㈣經按比例調整的標準差。 144023.doc 201028996 使用雜訊估計之語音偵測一旦已計算出雜訊估計σ丨2,即可藉由識別高隨之區域來推斷語音。狀言之，可開發—數學模型，其基於以邏輯迴歸為基礎之分類器精確地估計語音之存在的校正機率。在一些實施例中’可使用基於特徵之分類器。由於語音之短期頻譜由//衮分布良好地模型化，因此可使用經估計之遂發SNR的對數而非SNR自身作為該組特徵，亦即 ^[«]=1〇 I〇g10 Σ Ν〇Γ -log,, </»/9-100 / (9) 理：出於穩定性目的，亦可對以上量進行時間平滑處 = βχχ\η -1] + (l - yffj) χ[η] 种.75,0.85】 (1〇) 稱為邏#涵教⑼·之非線性及記憶體較少啟動函數可接著用於所要語音偵測^語音在時間訊框”處之存在的機率由下式給出： prob[ri\ =-\-- l + exp(-伽])⑴）若需要’則經估計的機率亦可使用小的遺忘因子進行時間平滑處理，以追蹤語音中之突然叢發。為獲得語音不存在及存在的二元決策，可比較經估計的機率 (pm6e[〇，l])與預選臨限值。之較高值指示語音之存在的較尚機率。舉例而言，若pr<?6[n]>0.7 ’則可宣告語音在時間訊框《中的存在。否則，可認為該訊框僅含有非語音 /舌動。所提議之實施例由於較精確的雜訊位準判定而產生 144023.doc • 10 - 201028996 較精確的語音偵測。對雜訊估計之改良平均值及標準差之計算需要足夠記憶體以儲存過去訊框估計。此要求對於具有有限記憶體之特定應用/器件（諸如’特定小型攜帶型器件）可能為禁止性的。在該等狀況下’以下近似可用以替代以上計算。可藉由以平滑處理常數αΜ指數平均化功率估計χ(η)而計算平均值估計的近似值。類似地，可藉由以平滑處理常數αν指數平均化功率估 ❿ 計之平方而計算方差估計（variance estimate)的近似值，其中η表示訊框指數。 (η) = αΜχ(.η~Υ) + (ΐ-αΜ )χ(η) 办)=«冲_1) + (1_^2⑻（Η)、（Η) 或者’可藉由獲取方差估計#⑻之平方根而獲得標準差估計的近似值。可在範圍㈣，0.99]中選擇平滑處理常數 W及αν以對應於20個至1〇〇個訊框上之平均化。此外，可 • ^由計算平均值與經料例調整的標準差估計之間的差而獲得心的近似值。—旦獲得平均值減去經按標準差估計，即可執耔料，，的最小值統計。組（例如’⑽個）訊框的該差值、 §與最小值統計相比時’此特徵單獨提供對峰值的極佳追蹤。在—此 U、雜訊二實施例中’為補償影響估計之所要語音峰值，心警雜讯位準程式7中之過分減法可然而，方月匕坆成低估的雜訊位準。問題，可執行語音不存在為解決此仔在期間的長期平均值，亦即 144023.doc 201028996 H〇[n]: λάχ [«] = α,λά[« -1] + (1 - α,)σ][η] = (14)、（15) 其中0^ = 0.9999為平滑處理因子，且雜訊位準經估計為： (16) δ\ [n] = max (σ22 [«], λά< [«]) 雜訊加界限通常，當傳入信號非常純淨（高SNR)時，通常低估雜訊位準。一種解決此問題之方式為將雜訊位準加下界限為低於所要信號位準σ2—(例如）至少1 8 dB。可使用以下底限化運算來實現加下界限： η desii ,(17) —Μ = α2σ】β“[”-1] + (1-α2) X |刺 -100 SNR diff[η] = SNR_estimate[n] -Longterm_Avg — SNR[n] 若(If) Σ 1少[”]I >Δι /=n-100 若(if)〇1]>' β〇〇φ] = σ^.κά[η]/Α, 若(If) _/?〇〇/-[«-1] floor[n] = floor}[n] 否則，若(elseif)SW?_i/#[«-l]>A4 若(^ΚΆ-ι]^ floor[n] = fl〇〇rx\n\ 結束(End) 結束(End) 144023.doc -12- 201028996 結束(End) 結束(End) ，其中因子&至&為可調的，且 OTi?一£：扣讲仙及所」為分別使用雜訊估計 <。,》[«]及、[«]所獲得的後驗SNR及長期SNR估計。以此方式’可如所需將雜訊位準加界限為低於作用中所要信號位準12與24 dB之間。基於頻率之雜訊估計 ® 實施例另外包括基於頻域副頻帶之在計算上所涉及之語音偵測器，其可用於其他情況中。此處，將每一時間訊框劃分成以該時間訊框之傅立葉變換（F〇uHer transf〇rm)所表示的分量頻率之-集合。此等頻率保持與其在「時間-頻 2」倉中的各別訊框相關聯。所描述之實施例接著估計語曰在每一時間-頻率倉（K亦_，第是個頻率倉及第”個時間訊框）中之存在的機率。一些應用要求語音存在之機率 • 彳時間頻率基本單位等級及時間訊框等級兩者進行估語音偵測器在每—時間·頻率倉中的操作可與述之時域實施類似，不同、描操作。特定U… 頻率倉中執行該 ° 藉由使用平滑處理因子0[名、ft丄

Xdj：k，中的雜訊位準與 $過去訊框 ί>(Μ|2下的俨泸处θ „ ° 0個訊框在此頻率 —了⑴之間内插而估計每-時間_頻〇，《)中的雜訊位準h : 144023.doc -13- 201028996

Ad[kM = as[k,n]Ad[k,n-l]+(\-as[k,n]) ^ |r(it,/)|2 ^«-100 (18) 平滑處理因子tts自身可視語音之存在機率與丨之間的内插而定（亦即，可假設語音多久存在—次）。

Error! Objects cannot be created from editing field codes. (19) 在以上方程式中，為第是個頻率倉及第z•個時間訊框中的受〉可染信號。可將每一倉中之初級雜訊位準估計為： [*，《]=[乙[女，《 -100:/7] - σ [ A：，ij -1 〇〇: „])] c?22[k,ή\ = min(σ,2[Λ,«-1 〇〇：«]) (20)、（21) 與時域VAD類似，可根據以下方程式執行語音存在^及不存在期間的長期平均化： [k,n] — + Ε |^(Α,/)[2 /-«-!〇〇 H,[k,η]: Ad)[k,n] = Adi[A:,«-1] (22)、（23) 可接著將每一時間-頻率倉中之次級雜訊位準估計為 ^,n] = max(a^[k,n],Ai/l[^n]) (24) 為解決低估一些高SNR倉之雜訊位準的問題，可使用以下加界限條件及方程式 ^desired desired ^ ~ 1] + (l _ ) ^ |少[是，”]| /=”-100 SNR= SNR_estimate[k，ri\-Longterm—Avg SNR[k η' (25) 若(If) ί >△! /=/1-100 若(if) fl〇〇r,[k,n\ = aisired[k,ri\l ^ 144023.doc -14- 201028996 若(If) n -丨]< «] floor[k, ri\ = floor^k, n] 否則，若 floor[k,n] = floorx[k,n\ 結束(End) 結束(End) 結束(End)

結束(End) <„#，”] = 11^(<^2[^]，1/7〇0啦，《])，其中因子八1至八5為可調的，且 iSW/?—_£·ίη_Α«αβ 及為分別使用雜訊估計及Λ,[Μ]所獲得的後驗SNR及長期SNR估計。σ„2_(Μ) 表示每一時間-頻率倉中之最終雜訊位準。

接下來，可使用上文所描述之基於時域數學模型的方程式（方程式2至17)來估計語音在每一時間-頻率倉中之存在的機率。特定言之，每一時間-頻率基本單位中之後驗SNR 由下式給出派”]= l〇|l〇g1Q[ Σ |r[M|2]-l〇g1()K_[M])} (26)

L v=n-100 J J 出於穩定性目的，亦可對以上量進行時間平滑處理： (27) η] = βλχ{Κ,« -1] + (1 - /¾ ) x[k, η] e [0.75,0.85] 且語音在每一時間-頻率基本單位中之存在的機率由下式給出 144023.doc -15- 201028996

Pr〇b[k，n] = l+cxP(-jt[k,n]) (28) 其中Pr〇6[k，n]表示語音在第*個頻率倉及第《個時間訊框中之存在的機率。雙等級架構上文所描述之數學模型准許靈活地、最佳地組合每—時間-頻率倉中之輸出機率’以獲得語音出現在每一時間訊框中之機率的改良之估計。一實施例（例如）預期雙等級架構，其中偵測器之第一等級以時間-頻率倉等級操作，且將輸出輸入至第二時間-訊框等級語音偵測器。雙等級架構組合每一時間_頻率倉中之經估計的機率，以獲得語音在每一時間訊框中之存在的機率的較佳估計。此方法可利用語音在特定頻帶（6〇〇 112至155〇 Hz)中占優的事實。圖2說明用於一些實施例中之複數個頻率權重2〇3的曲線圖。在一些實施例中，此等權重用以判定如下文所展示之倉等級機率的加權均值 pr〇b[n] = yw,--- (29) ,=]^l + exp(-f[/,«])^

N /=1 其中權重向量妒包含圖2中所展示之值。最後，與時域方法類似，可藉由比較經估計的機率與預選臨限值而作出每一訊框中之語音存在或不存在的二元決策。實例為評估上文所描述之實施例的優勢，使用上文所描述之時間及頻率實施例’以及兩個前導VAD系統來執行語音偵 144023.doc 201028996 測。變化雜訊環境下之此等示範中之每一者的職曲線展不於圖3至圖6中。以上實施例之時間及頻率版本中的每一者顯著地比標準獅執行地好。對於實例中之每—者，所使用之雜訊資料庫係基於標準推薦之阳〗州心。為話音品質及雜訊抑制評估之目@，此資料庫提供汽車雜訊、街道雜訊、串音雜訊等之標準記錄。額外的真實世界記錄亦詩評估⑽效能。此等雜訊環境含有定態及非定

‘㈣訊兩者’心提供對其進行測試之純戰㈣語料庫 ―帅進—步選擇5 dB之⑽以使得惰測格外困難(典型辦公至雜訊應為約3〇 dB)。實例1 為評估所提議之時域語音_器，繪製變化雜訊環境下及在5 dB之SNR的情況下之接收器操作特性⑽^之曲線。如圖2中所說明，峨曲線㈣偵測（當語音存在時，侧語音之存在）3G1之機率對假警報（當語音料在時’宣告語音之存在)302之機率。需要具有呈適宜備測率之極低的假警報。針對給定假警報之偵測機率的較高值指示較佳效能，因此大體上’較高曲線為較佳㈣器。針對四種不同雜訊展示R〇c-粉紅雜訊、串音雜訊、交通雜訊及聚會雜訊。粉紅雜訊為具有與頻率成反比之功率 "曰密度的疋ii雜訊。其通常在自然實體系統中被觀察到，且經常用於測試音訊信號處理解決方案。串音雜訊及交通雜訊本質上為準固態的，且為行動通信環境中通常遭遇到的雜訊源。串音雜訊及交通雜訊信號可用於由ETSI Eg 144023.doc •17. 201028996 202 3 96-1標準推薦所提供之雜訊資料庫中。聚會雜訊為高度非定態雜訊，且其用作用於評估VAD之效能的極端狀況實例。大多數單一麥克風話音活動偵測器在聚會雜訊存在之情況下歸因於該雜訊之高度非定態本質而產生高假警報。然而，本發明中所提議的方法即使在聚會雜訊之情況下亦產生低假警報。圖3說明第一標準VAD的ROC曲線303c、第二標準VAD 的ROC曲線303b、本發明之基於時間之實施例中的一者的 ROC曲線303a，及本發明之基於頻率之實施例中的一者的 ROC曲線303d，該等ROC曲線係在粉紅雜訊環境中進行繪製。如所展示，當假警報約束302不嚴格時，本發明之實施例303a、303d顯著勝過第一 VAD 303b及第二VAD 303c 中之每一者，從而始終顯示較高偵測301。實例2 圖4說明第一標準VAD的ROC曲線403c、第二標準VAD 的ROC曲線403b、本發明之基於時間之實施例中的一者的 ROC曲線403a，及本發明之基於頻率之實施例中的一者的 ROC曲線403d，該等ROC曲線係在串音雜訊環境中進行繪製。如所展示，當假警報約束402不嚴格時，本發明之實施例403a、403d顯著勝過第一 VAD 403b及第二VAD 403c 中之每一者，從而始終顯示較高偵測401。實例3 圖5說明第一標準VAD的ROC曲線503c、第二標準VAD 的ROC曲線503b、本發明之基於時間之實施例中的一者的 144023.doc -18- 201028996 ROC曲線503a，及本發明之基於頻率之實施例中的一者的 R0C曲線503d ’該等rOC曲線係在交通雜訊環境中進行繪製。如所展示’當假警報約束5〇2不嚴格時，本發明之實施例503a、503d顯著勝過第一 VAD 503b及第二VAD 503c 中之每一者，從而始終顯示較高偵測5〇1。實例4 圖ό說明第一標準VAD的ROC曲線603c、第二標準VAD 的ROC曲線603b、本發明之基於時間之實施例中的一者的 ROC曲線603a，及本發明之基於頻率之實施例中的一者的 R0C曲線603d，該等R〇c曲線係在ROC-ICASSP禮堂雜訊環境中進行繪製。如所展示，當假警報約束602不嚴格時’本發明之實施例603a、603d顯著勝過第一 VAD 603b及第二VAD 603c中之每一者，從而始終顯示較高偵測601。本發明中所描述之技術可以硬體、軟體、韌體或其任何組合來實施。被描述為單元或組件之任何特徵可一起實施於整合式邏輯器件中或獨立實施為離散但可共同操作的邏輯器件。若以軟體實施，則可至少部分地由包含指令之電腦可讀媒體來實現該等技術，該等指令在被執行時執行上文中所描述之方法中的一或多者。電腦可讀媒體可形成可包括封裝材料之電腦程式產品之部分。電腦可讀媒體可包含諸如同步動態隨機存取記憶體（SDRAM)之隨機存取記憶體（RAM)、唯讀記憶體（ROM)、非揮發性隨機存取記憶體 (NVRAM)、電可抹除可程式化唯讀記憶體（EEPROM)、快閃記憶體、磁性或光學資料儲存媒體及其類似者。另外或 144023.doc -19- 201028996 其他，可至少卹八 , °丨刀地由電腦可讀通信媒體來實現該等技術該電腦可讀通信媒體以指令或資料結構之形式載運或傳達程式碼且可由電腦存取、讀取及/或執行。。可由諸如一或多個數位信號處理器（DSP)、通用微處理态、特殊應用積體電路(ASIC)、場可程式化邏輯陣列 ()或其他專效整合式或離散邏輯電路之一或多個處理器來執订程式碼。因此，如本文中所使用之術語「處理器」可指代上述結構或適用於實施本文中所描述之技術之任何其他結構中的任一者。此外，在一些態樣中，可將本文中所描述之功能性提供於經組態以用於編碼及解碼之專用軟體單元或硬體單元内，或併入於組合之編碼器-解碼器（CODEC)中。不同特徵作為單元或模組的描緣意欲強調所說明之器件的不同功能態樣’且未必暗示該等單元必須由單獨硬體或軟體組件實現。實情為，與一或多個單元或模組相關聯之功能性可整合於共同或單獨硬體或軟體組件内。可使用電腦處理器及/或電路來實施該等實施例。已描述本發明之各種實施例。此等及其他實施例係在以下申請專利範圍之範疇内。【圖式簡單說明】圖1為根據本發明之原理之一 VAD的簡化方塊圖；圖2為說明頻域VAD之頻率選擇性加權向量的曲線圖；圖3為說明所提議之時域VAD在粉紅雜訊環境丁之效能的曲線圖；圖4為說明所提議之時域VAD在串音雜訊環境下之效能 144023.doc -20· 201028996 的曲線圖，圖5為說明所提議之時域VAD在交通雜訊環境下之效能的曲線圖；及圖6為說明所提議之時域VAD在聚會雜訊環境下之效能的曲線圖。【主要元件符號說明】 100 101 103a 103b 103c 103d 104 203 303a 303b 303c 303d 403a 403b 403c 話音活動偵測（VAD)系統傳入信號/時間信號訊框訊框訊框訊框分類模組頻率權重本發明之基於時間之實施例中的一者的 ROC曲線第二標準VAD的ROC曲線第一標準VAD的ROC曲線本發明之基於頻率之實施例中的一者的 ROC曲線本發明之基於時間之實施例中的一者的 ROC曲線第二標準VAD的ROC曲線第一標準VAD的ROC曲線 144023.doc -21 201028996 403d 本發明之基於頻率之實施例中的一者的 ROC曲線 5〇3a 本發明之基於時間之實施例中的一者的 ROC曲線 5〇3b 第二標準VAD的ROC曲線 5〇3c 第一標準VAD的ROC曲線 5〇3d 本發明之基於頻率之實施例中的一者的 ROC曲線 144023.doc •22·

Claims

201028996 七、申請專利範園： l :種用於估計-音訊信號之—當前訊框中之雜訊位準的方法，其包含：判定複數個音訊訊框之該等雜訊位準； ::該複數個音訊訊框上之該等雜訊位準的平均值及 &竿差；及去=Γ框之一雜訊位準估計計算為自該平均值減舌該標準差的值。义 2·如請求項〗之方法’其進一步包含前按比例調整該標準差。 "均值減去之 3·如請求項1之方法，其進一步包含位準估古十判疋複數個雜訊早估权最小值來敎該 4.如請求項1之方、本甘占 1平估s十。訊框。方法’其中該複數個音訊訊框包含約100個 5·如請求項〗之方法，一平滑處理Uh、° n位準估計包含使用 6.如請求項5之方法，其t該雜週期期間保持恆定。计在语音活動之 7·如請求項5之方法，其中平滑處理因子於語立w 子係藉由使用一第二内插而遞歸地平均化。'"田别訊框中的—機率與1之間 8.如請求項】之方法並先經邦定之雜訊位準訊位準估計包含複數個早 9.如請求们之方法該等雜訊位準之該平均值係藉 144023.doc 201028996 田以别雜訊位準内插該等雜訊位準之—早先經計算的平均值而進行估計。 10·如凊求項1之方法，其進一弄進步包含將该經計算之雜訊位準估計加界限為低於一所要信號位準12與24犯之間。如請求項1之方法，其進_ 具進步包含藉由將該當前訊框識二具有無雜訊區段而價測語音活動。 12.如晴求項Η之方法，豆田對於所有Te[〇.2，l]，語音之 sx機率>τ時’宣告語音活動。 13 種雜讯判定系統，其包含位準；第一模組，其經組態以判定複數個音訊訊框之雜訊一第二模組，其經組態以計算該複數個音訊訊框上之該等雜訊位準的平均值及標準差；及 …第Γ模组，其經組態以將一當前訊框之—雜訊位準估计计算為自該平均值減去該標準差的值。 ΐ4·如請求項13之雜㈣定系統，其中該第三模組經組態以在自該平均值減去之前按比例調整該標準差。 A如請求項13之雜訊判定系統，其中計算該雜訊位準包含使用一平滑處理因子。 16. 如4求項15之雜訊判定系統，其中該雜訊位準佑計在诗音活動之週期期間保持恆定。 m 17. 如請求項15之雜訊判定系统，其中該平滑處理因子係藉由使用-第二平滑處理因子於語音在該當前訊框中的— 機率與一值1之間内插而遞歸地平均化。 144023.doc 201028996 18. 種用於估計一信號在該信號 -雜訊位準之方法，其包含，每一者：之複數個時間頻率倉中的對於該信號之該等倉令的判二複數個音訊訊框之該等雜訊位準；估=該時間-頻率倉中之該雜訊位準，· 判定該時間-頻率倉中之初級雜訊位準；之次級雜訊位自該初級雜訊位準判定該時間-頻率準；及

自該時間_頻率倉訊位準。中之該次級雜訊位準判定一有界的雜 .二：項18之方法，其中判定該有界的雜訊位準包含將 …i彳之雜訊位準加界限為低於一作位準12與24dB之間。的所要^ 2〇·如請求項18之方法，其進一步包含藉由對每-頻率p

前訊框中的機率求加權總和而計算語音在訊框申的該機率。 J 儿如請求項20之方法，其争向刪出至i55〇 Hz範圍内之權重給出為至少0.02之一值。種用於估计-音訊信號之一當前訊框中之雜訊位準的系統’其包含：用於判定複數個音訊訊框之該等雜訊位準的構件；用於計算該複數個音訊訊框上之該等雜訊位準的平均值及標準差的構件；及 = 用於將該當前訊框之一雜訊位準估計計算為自該平均 144023.doc 201028996 值減去該標準差的值之構件。 23. 如請求項22之雜訊判定糸 h .其中該用於計算該當前訊框之一雜訊位準估計的g 4 件在自該平均值減去之前按比例調整該標準差。 !按比 24. 如請求項22之系統，其中呤田认上，— 人叾巾刻射彳㈣等雜錄準之構件包3一經組態以判定-信號之能階的棋植。 A =請求項22之㈣’其中㈣於計算該等雜訊位準之該 :值及該標準差的構件包含—經組態以執行的模組。于％异 Ilf項22之系統’其中該用於計算—雜訊位準估計之構件包含一經組態以執行數學運算的模組。 27.—種電腦可讀媒體，其包含 3虽在一處理器上執行時執行一方法的指令’該方法包含：判定複數個音訊訊框之雜訊位準；計算該複數個音訊訊框上之該等雜訊位準的平均值及標準差；及該平均值減將一當前訊框之一雜訊位準估計計算為自去該標準差的值。包含在自該平均值減去之 28‘如請求項27之方法，其進—步前按比例調整該標準差。 29· -種，理器，其經程式化以執行—方法，該方法包含：判定複數個音訊訊框之雜訊位準；計算該複數個音訊訊框上之該等雜訊位準的平均值及標準差；及 144023.doc 201028996 將一當前訊框之一雜訊位準估計計算為自該平均值減去該標準差的值。 30.如請求項29之方法，其進一步包含在自該平均值減去之前按比例調整該標準差。

144023.doc