TW200941454A

TW200941454A - Convolutive blind signal separation system having auditory-like spectro-temporal domain pre-whitening function

Info

Publication number: TW200941454A
Application number: TW97109969A
Authority: TW
Inventors: Jun-Fa Wang; Jia-Qing Wang; Xiao-Ping Li
Original assignee: Univ Nat Cheng Kung
Priority date: 2008-03-21
Filing date: 2008-03-21
Publication date: 2009-10-01
Also published as: TWI356398B

Description

.200941454 九、發明說明：【發明所屬之技術領域】本毛月係關力種居音信號的辨識處理技術，尤指一種帶有類聽覺之頻率-時間域預白化的旋積未知信號分離系統0 【先前技術】

人類與個人電腦之間的互動隨著科技發展而逐日變得頻繁，舉例而t· ’在一語音控制系統中，以語音指令執行簡單的卫作可獲得更具靈活性的操作方式。然而語音控制系統實際所能發揮的效能’纟現實生活中常會大打折扣。於-寬廣的室内空間裡’周遭的環境常會存在有各式各樣的雜音，例如空調設備的運轉聲、氣流聲、來自於窗外的車輛噪音等等，均會使空間具有相當程度的干擾雜音。除此之外，語音指令也會受到較強的聲音所干擾，如附近人群的對談聲、喇n八所播放出的音樂、自電視中傳出的節目聲音等。而迴音效應亦會降低語音控制的效能。由於浯音控制系統會因上述問題而降低本身效能，故語音增強（speech enhancement)技術自有其發展必要。钮立增強架構可略分為早麥克風（single — microphone)與多麥克八 (multi-microphone)二類。前者主要是著重與錄製信號有關的時域/頻域資訊’然而這類型的架構只能在具穩定雜音的環境下才能發揮良好功效，一旦應用在非穩定立 ” 9環境下錄製而得的語音信號，效能即顯著下降，而且告古田巧干擾 4 200941454 性的雜音對所欲處理的真正語音信號構成破不甚令人滿意。 _其表現後者可克服單麥克風架構所受到的限制。利用複數支麥克風則可利用空間資訊（spatial inf〇rmati〇n)。舉例來說，波束成型⑴，u](beamf〇rming)技術利用一已知幾何組態的麥 t風矩陣，令聲音在空間及時間的量測均可有效抑制干擾 L號。然而，該類方法需要一些與聽覺環境及相關涉及信號等有關先驗（a 資訊，並同時需要為數眾多的麥克風而維持良好的信號處理品質。未知仏號分離（blind signal separation，BSS)技術則是另外種多麥克風的增強架構，能大幅降低所使用的麥克風數量及與彳§號源有關的先驗（α資訊。在限定數目麥克風下錄製而得的混合信號，借助其空間資訊，未知信號分離法得以將干擾雜訊自信號源中明確地分離出來。一般來說，未知信號分離法可再劃分為二種次類別，其中一 _類為瞬時混合的簡單未知信號分離模型（simple Bss m〇dei 〇f instantaneous mixtures)，其信號源係採線性的混合 ’而另一類為旋積混合的複雜未知信號分離模型 (complex BBS model of conv〇lutive mixtures) ’ 其信號源為旋積混合⑴·π»]。後者又稱之為旋積未知信號分離 (covolutive BSS，CBSS) ’相較於瞬時未知信號分離，旋積未知信號分離於現實應用環境中更佳實用，尤其是當運用在多路控（multipath)或具有回盪（reverberant)的空間中。然而’旋積未知信號分離可能會部分地破壞了原始語音中的 5 200941454 頻率％間域的相關性，而導致不好的分離效果【發明内容】 ❹ ⑩ 士見有旋積未知信號分離會破壞原始語音中其頻率日^間域的相關性而減弱分離效果，故本發明之目的係提供種帶有類聽覺之頻率—時間域預白化的旋積未知信號刀離系統在進行旋積未知信號分離之前，預先對原始語曰L號處s I除化號其頻率_時間上的相關性。為達成m述目#，本發明帶有類聽覺之頻率_時間域預白化的旋積未知信號分離系統係包含有： -類聽覺之頻率—時間域預白化單元，係接收由複數支麥克風收錄的複數個原始⑧合語音信^，對該原始混合 D" L號進行頻率-時間域的處理’以移除原始混合語音信號其頻率’間上的相關性’並對應該複數原始混和語音信號而分別產生其時間域上的頻_時域殘值；方疋積未知彳5號分離單元，係接收前述複數個頻-時域殘值及原始混合語音信號’並計算出—估測逆混合矩陣，利用該估測逆混合矩陣依據原始混合語音信號而產生複數個估測語音信號； -信號選擇單元’係接收前述旋積未知信號分離單元所輸出之估測語音信號’並自每—估測語音信號中分離出目標語音與干擾彳自號以正確選擇出該目標語音。其中’刖述類聽覺之頻率—時間域預白化單元係包含複數個聽覺線性預測殘值平方模組構成，每一聽覺線性預 6 200941454 測殘值平方模組包含·· 一聽覺小波轉換模組’係接轉換該原始混合語音”為㈣/原始混合語音信號並曰琥為複數個關鍵頻帶；複數個時間域線性預測殘值模組， -十，士酿思，.士 & 、、’ 係刀別對應接收前述由聽覺小波轉換模組所輪中的 ^ _ 的複數個關鍵頻帶，以移除 l唬中的時間相關性而個別輸出— 值. 時間域上的線性預測殘複數個頻率域線性預測殘值係個料應接收前述時間域上的線性預測殘值， *X但乂移除仏諕中的頻譜相關性並個別輸出各關鍵頻帶的頻_時域殘值；一逆聽覺小波轉換模組，係接收前述各關鍵頻帶的頻· 時域殘值而合成為該混合信號於時間域上的頻-時域殘值，以提供予該旋積未知信號分離單元。【實施方式】冑參考第—圖所示，為本發明的系統方塊圖，包含有三大單元：-類聽覺之頻率—時間域預白化單元（audit0〒 like spectro_temporal pre_whitening) ( i 〇 )、一旋積未知信號分離單元（conv〇lutive bHnd s〇urce separaU〇n) ( 2 〇 ) 與號選擇單元（signal selection) ( 3 Ο )。類聽覺之頻率一時間域預白化單元（i 〇 )係接收由複數支麥克風錄製而成的原始混合語音信號，原始混合語音信號中包含所需要的目標語音及干擾雜訊。類聽覺之頻率一時間域預白化單元（i 0 )主要進行頻率—時間域的 7 .200941454 處理’作用在於移除原始混合語音信號其頻率-時間上的相關性（inter-symbol spectr〇_temp〇ral十基本上可視為類聽覺的頻率—時間域預白化階段，該類聽覺之頻率 -時間域預白化單元（1〇)是由複數個聽覺線性預測殘值平方模組（PLPR2)構成。請參照第二圖所示，每一個聽覺線性預測殘值平方模組的構成元件有-聽覺小波轉換模組（工工）、時間域線性預測殘值模組（12)、頻率域線性預測殘值模組（1 〇 3 )及一逆聽覺小波轉換模組（丄4 )，以下將逐一介紹。 ί、聽覺小波轉換模組（perce]ptual wavelet transf〇rm, PWT) ： 5 聽覺小波轉換模組（1 1 )是改良自傳統的小波轉換，使原始混合語音信號經過聽覺小波轉換而產生的各個子頻帶“號其頻寬能更接近人耳的聽覺響應，描述人耳聽覺響應的參數主要有巴克頻譜（Bark)以及關鍵頻寬（Critical ❹ Bandwidth)。由小波轉換逼近巴克頻譜及關鍵頻寬是藉由調整小波轉換的樹狀結構來達成。依據關鍵頻寬分佈情开y，適當對訊號做尚低頻的分解，使得子頻帶訊號的頻率分佈跟關鍵頻寬近似，本實施例中將原始混合語音信號輸入至一個五階的小波樹狀轉換結構，歷經1 6次的高低頻分解’於4KHz的頻寬範圍之内而產生17個關鍵頻帶。此工作假設在’ X⑻=IX⑻，x2(«)，_"xm(w)f是麥克風在獨立時間點η所錄製到的m個原始混合語音信號，代表第 j個原始混和語音信號’而小波展開係數（wavelet expansi()n 8 ⑴ 〇 ❹ d«) = [〇 -1)0 _ 2)，_ 夕)]7· 々)㈨=明ik5F)(n)cos

nkn AM 200941454 coefficients)Ν㈣的集合可由下式求得 =IWr(x/n))， iF=l,2,...j7. 代表關鍵頻帶的索引（index 〇f crhical bands)。 II、時間域線性預測殘值模組（TD_LPR) ,· 由聽覺小波轉換模組（1 1 )對每-個原始混和語音信號χ/«)分解而成的複數個關鍵頻帶㈣⑻}，係分別輸入至一對應的時間域線性殘值預測模組（i 2 )，請參考第三圖所示’各時間域線性預測殘值模組（丄2 )用胃於移除: 號中的時間相關性，並輪出一 B卑鬥奸 …)⑻ i叛出時間域上的線性預測殘值該時間域線性預測殘值必)⑻係由以下公式計算得到 <細=作L作參，_⑻一㈣)㈣ _ " (2) 依據P個過去值可在第心個關鍵彳如測值矛)⑻，#=[砹)，哈)，…，哎)Γ 的一預 ,、…一..代丨表線性預測係數向量，且 111、頻率域線性預測殘值模組（FD-LPR): 前述每一個時間域線性預測殘值模組（玉2 ) =值線性預測殘值模組（1 3 )。頻率域線性預測殘值模組U 3 )接收前述時間域線性預測殘值· ==在頻譜上的相關性’首先利W點的離散餘弦心轉到頻VTetransf随，DCT)，將時間域預測殘值 =〇, 1，…，AM. (3) 9 200941454 V 芯，k=Q，其中，c(々)= 1, otherwise. 然後藉著q階瓦的線性預測而得到勾^ 物=啤，-ψ⑻= (4) a(〜）=Γα(〜）/7(〜） /ϊ(〜)~Ι _ f J h1，>2 ’…’ Λ」是q階的線性預測係數向量（veCt〇r 〇 linear prediction coefficient)，且#)(幻«#-1)，4)(卜2)，...，#)(卜^·。在經過逆離散餘弦轉換（inverse discrete cosine transform，IDCT)得到各關鍵頻帶的頻_時域殘值〇)。 IV、逆聽覺小波轉換模組（ipwt): 最後各個關鍵頻帶的頻-時域殘值ε?°(«)，皆輸入炱該逆聽覺小波轉換模組（1 4 )而合成為時間域的頻-時威殘值 ελ〇〇爾(物)， ζ.厂 1}2，…，17。（5) ❹ 仍請回到第一圖所示，各原始混和語音信號Xy⑻的頻- 時域殘值係輸入至前述旋積未知信號分離單元（2 〇 )。原始混和語音信號的殘值ε⑻=[h⑻，&(„),...，〜⑻]『是由m 個殘值信號來源（residual sources) u〇?) = [u】(/i)，u2⑻，組成。 m P-\ f= Σ Σ K (τ ^ίίη-τ), 一。 (6) 上式的（·）Γ是一轉置（transposition)運算，/2"是一具有時間長度P的未知有限脈衝響應濾波器（finite impulse 200941454 response filter) ’ 咖）代表第 ζ·個殘去 a 士 w叹值來源。因為是在頻域下做未知信號分離，所以需要法疏.風兩罟无經過一個T點窗口離散傅利葉轉換（T-point windowed discrete p . ,, u discrete Fourier transform, 〇FT)，第（6)式可轉換為頻率域的公式，如下所示， η) « ϋ(ω)\](α>^ n)9 for Ρ « τ (7) Η(叻和U(¥)分別是混合矩陣（mixing matHx)和殘值信號來源（residual sources)估測的轉換表示（transf〇rmati〇n° representations)。從第（7)式可以發現旋積運算的問題已在 ©每一頻率槽bin)被轉成乘法運算的未知信號處理問題了。接下來就是利用下述第（8)式，找到一個逆混合矩陣 (unmixing matrix)W«o)，利用混合信號殘值£(邮)而復原出】筆殘餘來源信號估測（residual source estimate) 〇(似）。 ν{(〇^η) = W (〇))Κ(ω,η) ' (Β) 首先設定一價值函數（cost function)八评㈣彡，該價值函數AW⑽)被定義為測量ϋ(ω，”) =吆(_)及(，)，此(_)严間的獨立性（independence)，可以將·/(’(《))本身最小化而對其最佳化，令ϋ〇，《)更具有獨立性。把混和信號殘值的協方差（Covariance)化為公式 ΚΕ(ω,η) = (Ε(ω,η)Εα (a,nfj = Η(ω)(ϋ(ω,η)ϋΗ(ω,η))ΐΙΗ(ω) 三Η⑽人【/(队》)!!丑⑽. （9) 因為來源js被被§忍疋為是不相關（uncorrelated)的，一

A 估測對角化協方差矩陣〜(G)，《)(estimated diagonal covariance matrix)是為必要條件。殘值來源υ(ω，《)的協方差 200941454 可由以下式子可得： R【，〇，n) s〈U〇，”)Uff (〇，„)〉 ^ {ν(ω,η)ϋΗ (ω,η)^ = W(fi))R£(6i,n)W»(G>) (1〇) 價值函數則表示為J(w⑽)=5|llR#，n)_〜(’瑜，w(iy) 可借由對心(_)的非對角線元素（off-diagonal elements)最小化而得到，如下式所示·· Ο ❹ 从=arSinl?丨(11) s.t. W(r) = 0,Vr>2,Q<<7'5 n?、 W"⑻=1， 2 (13) 代表平方 Frobinius 模方（Square Frobinius Norm)，而g〇是取對角線元素的運算元。於第（12)式中’限制0遠小於Γ可解決頻率置換程度問題（Frequency Permutati〇n Ambiguity)。而第（13)式的限制則是用來解決大小程度問題（ScaU Ambiguity)。為了解開弟（12)式，故採用梯度.下降（Gradient Decent) 法’其中價值函數的梯度（Gradient)表示為 AW*(iy) = = 2ΣΕΛω,η)\ν(ω)ΚΕ(ω,η\ ' (14) 其中，Λυ(ω，η)]。在旋積未知信號分離作業的最後，利用該估測逆混合矩陣A»(estimated Unmixing matrix)配合錄製的混合信號 x;.(«)而產生出估測語音信號（estimated s〇urce)%)。前述旋積未知信號分離（CBSS)係為了求出一估測的逆 12 •200941454 混合矩陣，），並用以建立㈣語音信號，該估測語音作號如再輸入至該信號選擇單元以分離出目標言音及干擾雜訊。實際上’―般干擾源像吵雜人聲噪音等，係假設其為空間分佈的干擾源’因& ’信號選擇單元（3 〇)僅針對時間域的處理即可，換言之即針對語音的高度時間預測性。-般說來’任何語音信號的時間預測性會高於或等於空間分佈的干擾源。因& ’本發明的實施例中，信號選擇單元（3 〇) #利用-時間域線性預測殘值模組構成，將該模組視為-㈣別目標語音和干㈣音的辨識裝置，於每一估測語音信號义„)中鑑別出所需的目標語音，再將各目標語音合併為一最終語音信號§。综上所述’本發明利用旋積未知信號分離方法（cbss) 將目標語音信號和干擾源做空間上的分離，相較傳統的旋積未知信號分離可能會部分地破壞原始語音中的頻率-時間域的相關性，本發明預先對原始混合語音信號執行—類^ 覺之頻率.時間域預白化，以預先減少語音信號取樣點的相關性，該相關性包括人耳聽覺處理和由反射造成的干擾。語音信號經過預白化處理後，再進行濾波處理，旋積未知信號分離（CBSS)使分離的信號在空間域上是獨立的，但能保留天然（inherent)頻域和時域的相依性。最後，利用一時域線性預測殘值模組來選擇目標語音，以辨識出真正的語音信號。依據本發明之語音辨識、增強技術’可得以廣泛應用於3C產業，諸如家庭看顧、智慧住宅設計、聲控家電、 13 200941454 老人看顧、保全設計、磬批y g 具、機器人、助聽器及電話等多項，令裝置的操控作業更為便捷。【圖式簡單說明】第一圖··係本發明帶有類聽覺 #择去A、見之頻率-時間域預白化的方疋積未知k號分離系統其方塊圖。時間域預白化單第二圖：係本發明一類聽覺之頻率— 元其内部方塊圖。 ❹

第三圖：係本發明一時間域線構方塊圖。 Γ生預測型殘值模組之架【主要元件符號說明】 (1 〇)類聽覺之頻率一時間域預白化單元 (1 1 )聽覺小波轉換模組 (1 2 )時間域線性預測殘值模組 (1 3 )頻率域線性預測殘值模組 (1 4 )逆聽覺小波轉換模組 (2 0 )旋積未知信號分離單元 C3〇)信號選擇單元 14 200941454 【參考文獻】 [1] B. D. VanVeen and Κ. Μ· Buckley, “Beamforming: a versatile approach to spatial filtering,IEEE Acoustics, Speech and Signal Processing Magazine, vol. 5, pp. 4-24, April 1988.

[2] W. Kellermann, ίςΑ self-steering digital microphone array,” in Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 5, April 1991, ® pp. 3581-3584.

[3] A. Hyvarinen, J. Karhunen, and E. Oja, Independent Component Analysis, New York: Wiley, 2001.

[4] A. Bell and T. Sejnowski, “An information maximization approach to blind separation and blind deconvolution,5, Neural Computation, vol. 7, pp. 1 129-1 159, November 1995.

[5] D· Yellin and E. Weinstein, “Multichannel signal ❹ separation: methods and analysis,IEEE Transactions on Signal Processing, vol. 44, no.l, pp. 106-118, January 1996.

[6] K. Rahbar and J· P. Reilly, “Blind source separation algorithm for ΜΙΜΟ convolutive mixtures,in Proceedings International Workshop on Independent Component. Analysis and Signal Separation, San Diego, CA., December 2001, pp. 242-247.

[7] K. Rahbar and J. P. Reilly, frequency domain 15 .200941454 method for blind source separation of convolutive audio mixtures，’’ IEEE Transactions on Speech and Audio Processing, vol. 13, no.5, pp. 832-843, September. 2005.

[8] W. Wang, S. Sanei and J. A. Chambers, ''Penalty function-based joint diagoalization approach for convolutive blind separation of nonstationary sources，’’ /五££ on Signal Processing, vol. 53，no. 5, pp. 1654-1669，May 2005. ❹

[9] T. Mei, J. Xi, F. Yin, and J. F. Chicharo uBlind source separaion based on time-domain optimization of a frequency-domain independence criterion，’’ IEEE

Transaction on Audio, Speech and Language Processing, pp. 1-11, 2005.

[10] S. Y. Low, S. Nordholm and R. Togneri, ‘‘Convolutive blind signal separation with post-processing” IEEE Transactions on Speech and Audio Processing, vol. 12, no. 5, pp. 539-548, September 2004.

[11] E. Visser, M. Otsuka, and T. W. Lee, (iA spatio-temporal speech enhancement scheme for robust speech recognition in noisy environments,Speech Communications, vol. 41, no. 2, pp. 393-407, October 2003. 16

Claims

200941454 十、申請專利範圍： 1·一種帶有類聽覺之頻知信號分離系統，包含有：率-時間域預白化的旋積未 —類聽覺之頻率-時間域預白化單元，係接收由複數支麥克風收錄的複數個原始混合語音信號，對該原始混合語音信號進行頻率-時間域的處理，以移除原始混合語音信號其頻率.時間上的相關性，並對應該複數原始混和語音信號而分別產生其時間域上的頻_時域殘值；

一旋積未知信號分離單元，係接收前述複數個頻-時域殘值及原始混合語音信號，並計算出一估測逆混合矩陣，利用該估測逆混合矩陣依據原m語音㈣而產生複數個估測語音信號； —信號選擇單元，係接收前述旋積未知信號分離單元所輸出之估測語音信號，並自每一估測語音信號中分離出目標語音與干擾信號以正確選擇出該目標語音。 2 ·如申請專利範圍第1項所述帶有類聽覺之頻率-Ό 時間域預白化的旋積未知信號分離系統，該類聽覺之頻率 —時間域預白化單元係包含複數個複數個聽覺線性預測殘值平方模組構成，每一聽覺線性預測殘值平方模組包含：一聽覺小波轉換模組，係接收一原始混合語音信號成轉換該原始混合語音信號為複數個關鍵頻帶；複數個時間域線性預測殘值模組，係分別對應接收前述由聽覺小波轉換模組所輸出的複數個關鍵頻帶，以移除信號中的時間相關性而個別輸出一時間域上的線性預測殘 17 200941454 值；过時域線性預測殘值模組’係個別對應接收前柄間域上的線性預測殘值，以移除信號中的頻譜相關性並個別輸出各關鍵頻帶的頻_時域殘值；、-逆聽覺小波轉換模組，係接收前述各關鍵頻帶的頻時域殘值而合成為該混合信號於時間域上的頻.時域殘值，以提供予該旋積未知信號分離單元。

3·如申請專利範圍第1或2項所述帶有類聽覺之頻率：時間域預白化的旋積未知信號分離系統，該信號選擇單元為一時間域線性預測殘值模組。 4.如申請專利範圍第3項所述時間域預白化的旋積未知信號分離系統二波；'換榣組為一個五階的小波樹狀轉換結構，於4κΗζ的頻寬範圍之内將每一原始混合語音信號分解為17個關鍵頻帶。十一、圖式： ❹ 如次頁 18