TW201543471A

TW201543471A - 聲音訊號處理

Info

Publication number: TW201543471A
Application number: TW104106083A
Authority: TW
Inventors: Ulf Nils Hammarqvist
Original assignee: Microsoft Corp
Priority date: 2014-04-11
Filing date: 2015-02-25
Publication date: 2015-11-16
Also published as: US9437210B2; EP3114683A1; CN106164846A; US20150294675A1; WO2015157136A1; CN106164846B; CN110007892A; EP3114683B1; CN110007892B; GB201406574D0

Abstract

揭示一種具有聲音介面的裝置，該裝置經配置以自該聲音訊號產生一輸出聲音訊號，以供應至一揚聲器組件。該聲音介面經配置以在產生該輸出聲音訊號時，對該聲音訊號應用動態範圍壓縮。裝置軟體係經配置以接收一輸入聲音訊號，並自該輸入聲音訊號產生一聲音訊號。由該軟體產生之聲音訊號則供應至該聲音介面，以由該揚聲器組件輸出，並可用在聲音訊號處理中做為基準。產生該聲音訊號包括由該軟體對該輸入聲音訊號應用初始非線性振幅處理，以修改其功率包絡線。該經修改功率包絡線係足夠平滑以在由該聲音介面應用時大致上不受到該動態範圍壓縮的影響。

Description

聲音訊號處理

本發明與聲音訊號處理有關。

【相關申請交叉參考】

本發明於35 USC §119或§365下，主張於2014年四月11日申請的英國專利申請案號1406574.2的優先權，其標題為「AUDIO SIGNAL PROCESSING」，該申請案完整內容於此引用做為參考。

通訊系統允許使用者透過網路彼此通訊。例如，該網路可為網際網路或是公用交換電話網路(PSTN)。聲音訊號可在該網路的多數節點之間傳輸，藉此允許使用者透過該通訊系統於通訊會話中彼此傳輸及接收聲音資料(像是語音資料)。

使用者裝置可以具有像是麥克風的聲音輸入設備，其可用於從使用者接收像是語音的聲音訊號。該使用者可以進入與另一使用者的通訊會話之中，像是私人呼叫(在該呼叫中只具有兩個使用者)或是會議呼叫(在該呼叫中具有多於兩個使用者)。使用者的語音係於麥克風處接收，經處理並透過網路傳輸至該呼叫中的其他使用者。該使用者裝置也可以具有像是揚聲器的聲音輸出設備，以輸出聲音訊號至該近端使用者，該近端使用者則在呼叫期間透過網路從一遠端使用者接收該聲音訊號。所述揚聲器也可以用於輸出來自在該使用者裝置處執行之其他應用程式的聲音訊號，且其可能干擾來自該近端使用者的聲音訊號而由麥克風挑選成為不想要的聲音訊號。

與來自該使用者的聲音訊號一樣，麥克風也可能接收其他聲音訊號，像是背景噪音，這為不想要的訊號，並可能干擾從該使用者所接收的聲音訊號。對於在該呼叫中傳輸至一遠端使用者而言，該背景噪音可能對於從該近端使用者麥克風處所接收的聲音訊號造成干擾。

提供此【發明內容】以簡單形式介紹多數概念選擇，並進一步於以下【實施方式】中敘述。並不預期此【發明內容】用於辨別所主張之主題內容的關鍵特徵或基本特徵，也不預期用於限制所主張之主題內容的範圍。

揭示一種聲音訊號處理裝置，該裝置具有用於輸出類比聲音訊號之一揚聲器組件以及用於接收類比聲音訊號之一麥克風組件。該裝置包括一聲音介面。該聲音介面經配置以接收在該裝置上所產生數位形式的任何聲音訊號，用以透過該揚聲器組件輸出，並經配置以從該聲音訊號產生類比形式的輸出聲音訊號，用以供應至該揚聲器組件。該聲音介面係經配置以在產生該輸出聲音訊號時，對該聲音訊號應用動態範圍壓縮。該裝置進一步包括一處理器，經配置以執行軟體。該軟體係經配置以接收一輸入聲音訊號，並從該輸入聲音訊號產生數位形式的聲音訊號。由該軟體產生的聲音訊號係被供應至該聲音介面，以由該揚聲器組件輸出，並在對透過該麥克風組件所接收之聲音訊號的聲音訊號處理中做為基準。

產生該聲音訊號包括由該軟體對該輸入聲音訊號應用初始非線性振幅處理，以修改其功率包絡線，藉此該聲音訊號便具有一經修改功率包絡線。該聲音訊號的經修改功率包絡線係足夠平滑以在由該聲音介面應用至該聲音訊號時，大致上不受到該動態範圍壓縮的影響。

100‧‧‧通訊系統

102‧‧‧第一使用者

104‧‧‧第一使用者裝置

106‧‧‧網路

108‧‧‧第二使用者

110‧‧‧第二使用者裝置

202‧‧‧中央處理單元

204‧‧‧操作系統

206‧‧‧客戶端

208‧‧‧顯示器

209‧‧‧聲音訊號處理模組

210‧‧‧揚聲器

212‧‧‧麥克風

214‧‧‧記憶體

216‧‧‧相機

218‧‧‧小鍵盤

220‧‧‧網路介面

300‧‧‧訊號處理模組

302‧‧‧動態範圍壓縮模組

304‧‧‧模擬模組

306‧‧‧聲音介面

308‧‧‧噪音降低模組

310‧‧‧回音抑制模組

320‧‧‧第一控制器

322‧‧‧查詢表格

330‧‧‧第二控制器

S400‧‧‧步驟

S402‧‧‧步驟

S404‧‧‧步驟

S406‧‧‧步驟

S408‧‧‧步驟

S410‧‧‧步驟

S412‧‧‧步驟

500‧‧‧圖形

500’‧‧‧圖形

602‧‧‧功率包絡線

604‧‧‧功率包絡線

606‧‧‧功率包絡線

608‧‧‧功率包絡線

702‧‧‧關聯性

704‧‧‧關聯性

為了協助對本發明主題內容的瞭解，並顯示本發明主題內容如何能被付諸實行，現在將以舉例的方式參考以下圖式，其中：第1圖繪示一通訊系統的結構描繪；第2圖為一使用者裝置的結構區塊圖；第3圖為根據一具體實施例之一回音消除技術的結構功能圖；第3A圖為根據另一具體實施例之一回音消除技術的結構功能圖；第3B圖仍為根據另一具體實施例之一回音消除技術的結構功能圖；第4圖為一回音消除處理的流程圖；第5A圖為一動態範圍向下壓縮功能的結構表徵；第5B圖為一動態範圍向上壓縮功能的結構表徵；第6A圖與第6B圖為聲音訊號功率包絡線的結構比較；第7圖為一查詢表的結構描繪。

現在將以範例的方式敘述多數具體實施例。

第1圖繪示一通訊系統100，其包括一第一使用者102(「使用者A」)與一第二使用者108(「使用者B」)，該第一使用者102與一第一使用者裝置104相關聯，而該第二使用者108與一第二使用者裝置110相關聯。在多數其他具體實施例中，該通訊系統100可以包括任何數量的使用者與相關聯的使用者裝置。該等使用者裝置104及110可以透過該通訊系統100中的網路106通訊，藉此使該等使用者102及108可以透過該網路106彼此通訊。第1圖中所繪示之該通訊系統100為一種基於封包的通訊系統，但也可以使用其他形式的通訊系統。該網路106例如可為網際網路。該等使用者裝置104及110的每一個都可例如為行動電話、平板、膝上電腦、個人電腦(「PC」)(舉例而言，Windows^TM、Mac OS^TM與Linux^TM個人電腦)、遊戲裝置、電視機、個人數位助理(「PDA」)或其他可以連接至該網路106的嵌入式裝置。該使用者104係經佈置以接收來自該使用者裝置110之使用者108的資訊，並輸出資訊至該使用者108。該使用者裝置104包括像是顯示器與揚聲器的輸出設備。該使用者裝置104也包括像是小鍵盤、觸控螢幕、用於接收聲音訊號的麥克風及/或用於捕捉影像訊號圖片的相機的輸入設備。該使用者裝置104則連接至該網路106。

該使用者裝置104執行由一軟體提供器所提供之通訊客戶端的實例，該軟體提供器則與該通訊系統100相關聯。該通訊客戶端為一種在該使用者裝置104的本地處理器上所執行的軟體程式。該客戶端在該使用者裝置104處依序執行所需要的處理，以由該使用者裝置104透過該通訊系統100傳輸及接收資料。

該使用者裝置110係相對應於該使用者裝置104，並在一本地處理器上執行一通訊客戶端，該通訊客戶端與在該使用者裝置104處執行的通訊客戶端相對應。在該使用者裝置110處的客戶端利用與在該使用者裝置104處的客戶端執行允許該使用者102透過該網路106通訊所需處理的相同方式，執行允許該使用者108透過該網路106進行通訊所需的處理。該使用者裝置104及110為該通訊系統100中的端點。第1圖為了清晰目的僅繪示兩使用者(102及108)與兩使用者裝置(104及110)，但在該通訊系統100中可以包含許許多多的使用者及使用者裝置，並可以利用在其個別使用者裝置上執行的通訊客戶端，透過該通訊系統100進行通訊。

除了在裝置上的本地處理器外，該裝置通常具有專用的聲音訊號處理模組(像是音響卡)。該聲音訊號處理模組執行該使用者裝置的聲音處理功能，像是麥克風處捕捉之聲音訊號的類比數位轉換(ADC)，以及用於揚聲器播出之聲音訊號的數位類比轉換(DAC)。為了使用該聲音訊號處理模組，在該裝置的本地處理器上執行的操作系統(OS)通常需要特定的軟體。舉例而言，為了使用音響卡，操作系統通常需要特定的音響卡驅動程式(處理該音響卡實體硬體與該操作系統之間資料連接的軟體程式)。

該音響卡硬體與音響卡驅動程式軟體構成在此使用的「聲音介面」的範例。一般而言，聲音介面為一裝置(例如，使用者裝置104、110)的組件(例如，軟體、硬體或兩者的組合)，經配置以接收在該裝置上所產生數位形式的任何聲音訊號，用以透過一揚聲器組件輸出，並從該聲音訊號產生一類比形式的輸出聲音訊號，用以供應至該揚聲器組件。

通常該聲音介面(也就是該驅動程式軟體及/或該硬體本身)對該播出的訊號(換言之，將從一揚聲器輸出的訊號)引入效果，以將使用者體驗(例如，在該等驅動器及/或硬體中所包含的響度增強效果)最大化。那些效果係由該聲音介面的訊號處理模組達成，該訊號處理模組的功能則不受在該裝置本地處理器上所執行及使用該操作系統中可利用之播出系統的應用程式(例如，通訊客戶端)所控制，也不由該應用程式所知悉。例如，通常硬體製造商在揚聲器設定中包含「動態範圍壓縮」(舉例而言，最大化效果，以將給定峰值訊號程度的感知響度最大化)，例如，於膝上電腦、智慧手機、平板裝置等等中的揚聲器設定。

動態範圍壓縮(或是稱為動態壓縮或簡易壓縮)利用窄化或「壓縮」聲音訊號動態範圍的方式(例如，為了使安靜部分更容易被聽見及/或避免響亮部分過度響亮)，降低響亮聲響的音量或是強化安靜聲響的音量。向下壓縮降低超過一特定門檻值的響亮聲響，同時使安靜聲響不受影響，而向上壓縮增加低於一門檻值的聲響響度，同時保持響亮通道不受改變。向下與向上壓縮兩者都降低一聲音訊號的動態範圍。

一般而言，本發明揭示內容考量一種聲音介面，其經配置以在從一供應之聲音訊號產生一輸出聲音訊號時，對該聲音訊號應用動態範圍壓縮。所述壓縮的使用係為了強化使用者體驗，例如如同使該使用者能夠感知一響亮聲響。

該第一使用者裝置104與第二使用者裝置110兩者都可以執行回音消除。有兩種達成回音消除的主要方式，一者為回音減去而另一者為回音抑制。通常將此兩者方法進行組合。

由該第一使用者裝置104的麥克風所捕捉的聲音訊號係透過該網路106傳輸，以由該第二使用者裝置110播出。該第二使用者裝置110的麥克風則捕捉該第一使用者裝置104所傳輸之聲音訊號的回音。如果該回音未被完全消除，那麼該第二使用者裝置110便將該回音傳回至該第一使用者裝置104。該被接收的訊號則由該第一使用者裝置104的揚聲器播出，並由該第一使用者裝置104的麥克風捕捉回音。如果在該第一使用者裝置104中的回音消除器並無法完全去除回音，該回音訊號便再次被傳輸至該第二使用者裝置110。

通常利用基準進行回音消除，該基準通常為一聲音訊號在被供應至該揚聲器之前，於該揚聲器前的聲音訊號處理鏈中一點進行竊聽的某些版本，並模擬由該聲音訊號的版本所觀察到的回音路徑。該回音路徑不但包含在該揚聲器與該麥克風之間的空氣介面，也包含在該竊聽點後應用至該聲音訊號版本而因此並未反映於該基準中的任何後續訊號處理。

一般而言，當在一裝置播出的輸出中發現基準時(對於回音消除或是某些其他基於基準的訊號處理)，如果該裝置應用未反映於該基準中的未知非線性處理時，可能是有問題的。

例如，傳統的回音消除能較佳適用於模擬該回音路徑中的線性扭曲，而通常對於處理該回音路徑中的非線性扭曲具有問題。所述非線性回音路徑可能導致在該訊號中的回音洩漏或回音殘餘。也就是說，當該基準與該麥克風訊號所取得之回音成分之間大致上為線性關係時，傳統的回音消除器通常能有最佳表現。

然而，當在一通訊裝置聲音介面中使用動態範圍壓縮時，可能在該回音路徑中引入非線性性質。如同所討論的，當該動態範圍壓縮構成難以利用傳統回音消除結構所模擬的非線性振幅處理時，便提高對於回音消除器的挑戰。

某些操作系統包含用於餽回至由該本地處理器上執行之應用程式所播出訊號的功能。於此之後，此被餽回至該本地處理器上執行之應用程式的訊號將被稱為「回送訊號」。接著該回送訊號可做為回音消除程序中的基準。包含此功能的操作系統範例為微軟的Windows 7、Windows 8、Windows XP、Windows Vista與Windows Phone 8操作系統。使用回送訊號的回音消除器並不需要模擬由該聲音介面所引進的那些非線性扭曲(當該聲音介面係被有效地從該回音路徑移除時)，因此並不預期存在回音洩漏。然而，並非所有的操作系統都可利用該回送訊號。不具備此回送功能的操作系統範例為Android與iOS行動操作系統。在缺乏回送訊號基準下，回音消除可能失敗，並產生回音洩漏-除此之外，本發明揭示內容的一項目標即為避免或至少減少所述的回音洩漏。

聲音訊號，像是由麥克風所捕捉大致上未經處理的語音，通常具有隨時間改變的峰值訊號振幅。也就是說，聲音訊號通常具有隨時間改變的功率包絡線。聲音訊號的功率包絡線為一聲音訊號x(t)的一項特徵，其反映聲音訊號功率|x(t)|²的峰值變化。該聲音訊號的功率包絡線可由|x(t)|²(或是|x(t)|²的正規化版本)的低通濾波獲得，例如，於適宜持續期間的時間窗(見以下說明)中，對該訊號功率|x(t)|²或正規化訊號功率進行移動平均(窗口平均)。

本發明揭示內容實作一種動態範圍壓縮的效果，當應用至典型的聲音訊號w(t)時，其效果為降低峰值訊號功率的變化，該典型聲音訊號通常具有隨時間改變的功率包絡線(其中，ENV[．]為像是移動平均函數的適宜低通濾波器)，例如大致尚未經處理的語音，藉此使該訊號的功率包絡線平滑(也就是，降低功率包絡線的變化)。也就是說，利用壓縮降低該動態範圍也造成訊號功率包絡線的平滑化。

然而，本發明揭示內容進一步辨識出當對已經具有足夠平滑功率包絡線的聲音訊號x(t)應用以函數B(.)所表現的動態範圍壓縮(DRC)時，該已經平滑的功率包絡線大致上並不受到該聲音介面動態範圍壓縮B(.)的影響，意味著該動態範圍壓縮B(．)對該聲音訊號x(t)的影響最多是一種訊號功率包絡線的實質線性振幅轉換；也就是說，該聲音訊號功率包絡線的實質線性縮放，其中c為常數，而△(t)大致為零。在多頻帶策略中，此關係則變成，其中每一個i都指示一不同的濾波器組塊，而對於每個i而言△_i(t)大致為零。

本發明揭示內容進一步將此實作利用於聲音訊號處理裝置(例如，使用者裝置)的背景中，該聲音訊號處理裝置具有揚聲器(或類似裝置)、麥克風(或類似裝置)以及以上討論種類的聲音介面，換言之對於該聲音訊號處理裝置而言，由該裝置上的軟體所產生用於輸出的任何聲音訊號如果需要被輸出時都必須透過該揚聲器所供應，而這使得所供應的聲音訊號受到「非自願」而不由該軟體所能控制的動態範圍壓縮B(．)。透過麥克風所接收的聲音訊號則受到利用一基準(例如，如以上所提及如以下進一步敘述的回音消除)所進行，基於基準的聲音訊號處理。

更具體的，該主題內容利用前述提及的實作方式，由該軟體在前處理步驟中對一輸入聲音訊號w(t)應用初始「非自願」的非線性振幅處理(例如，初始動態範圍壓縮)，以在該軟體域中修改其功率包絡線，藉此產生一種具有經修改功率包絡線的數位聲音訊號x(t)-該經修改功率包絡線係足夠平滑以大致上不受到該聲音介面動態範圍壓縮B(．)的影響(換言之，達成一種的功率包絡線匹配，見以上說明)，這可以利用使該初始動態範圍壓縮係為足夠侵略的方式達成(見以下說明)。藉由在該前處理步驟中，利用施加初始動態範圍壓縮以壓縮該訊號的衰減方式，可預期未知的非線性處理差異效果(△(t)，見以上說明)便少了很多。

在多頻帶策略中，可利用在該等子頻帶的每一個i中分別應用動態範圍壓縮達成對於每一子頻帶i的匹配(多頻帶動態範圍壓縮)。如果該已知聲音介面之未知處理的該等不同子頻帶係為已知時，這可被最佳化，至少粗略的成為能在該軟體域中被執行的相等濾波組劃分(換言之，該多頻帶軟體動態範圍壓縮的該等子頻帶與該那些未知處理的匹配)。

在多數具體實施例中，應用足夠侵略的動態範圍壓縮以使(未知的)處理進一步降低在衰減方面並不具有大量差異效果的訊號路徑。

在應用像是應用初始動態範圍壓縮(其可以或可以不與該聲音介面壓縮的動態範圍壓縮相同)的足夠侵略性初始非線性振幅操作中，聲音介面已經對該功率包絡線操作之後，對於該經修改功率包絡線的淨效果係為小的。如將在後續觀點中變得清楚的是，對於定義該功率包絡線所跨及的窗口，其定義該聲音訊號大致上不受到該聲音介面處理之影響的時間尺度，可以具有許多適宜的持續期間，其對於多種不同實作變化，並與應用至該麥克風訊號之訊號處理的本質相關。例如，在該訊號處理為回音消除的情況中，適宜的持續期間係由該聲音消除器的時間尺度所決定，並需要夠小以顯示無法適應於反映在該麥克風訊號中做為系統增益改變的差異(因為過度突然)，例如，如同移近或移離揚聲器或麥克風時所造成太過突然而無法由該回音消除器所適應的系統增益改變(通常回音消除器能夠適應於類似這樣的改變)。

例如，對於通常基於抑制的回音消除的訊號處理形式而言，預期在具有數百微秒(例如，以大約200微秒做為大略估計)大小的窗口中定義的聲音訊號x(t)功率包絡線係足夠不受到該聲音介面處理的影響，而能達成所需要的效果。如將在後續觀點中變得清楚的是，這些數值僅預期做為範例，並將根據該回音抑制的本質變化(見以下討論)。

在此背景中，聲音介面動態範圍壓縮可被視為一種「快速反映自動增益控制」，其中「快速」意味著對於該聲音訊號處理(例如，回音消除)而言過快而無法跟上增益的改變，這將造成初始動態範圍壓縮的缺少(例如，對於該回音消除器而言為過快的改變而無法適應，其將因此造成回音洩漏)。然而，藉由應用該初始處理以匹配該該輸入與輸出訊號功率包絡線的方式，可以避免任何所述的快速增益改變的發生。

因為該聲音訊號x(t)係產生在該軟體本身之中，該軟體可經簡單配置以提供該降低動態範圍聲音訊號x(t)，以利用做為麥克風訊號聲音訊號處理中的基準。且因為該聲音訊號x(t)的動態範圍在通供應至該聲音介面時係已經夠窄，因此隨著該訊號x(t)所觀察到的回音路徑並不包含該聲音介面動態範圍壓縮B(．)所形成的任何非線性性質-也就是說，該聲音訊號(起因於動態範圍壓縮B(．))的任何固有特徵都不顯露於該聲音介面的輸出B(x(t))中，而因此當對挑選揚聲器輸出的麥克風訊號應用基於基準的聲音訊號處理時，不需要進行解釋。

也就是說，該基準與當(透過揚聲器)輸出而被挑選之該等麥克風訊號(起因於B(x(t)))中任何回應成分之間的非線性振幅差異係被降低，除此之外，其可簡化該聲音訊號處理。

該軟體產生的訊號x(t)與來自該聲音介面的輸出聲音訊號B(x(t))係在△(t)(或對於每一個i的△_i(t))係足夠小時被認為相互匹配，其並不對該訊號處理有明顯影響(例如，對於該訊號處理而言為夠小，而能夠正確作用於該基準與該麥克風訊號中回音成分之間的線性關係假設)。也就是說，一般而言，匹配訊號的特定條件係與環境相關，且特別是與應用至該麥克風訊號的訊號處理本質相關。

例如，在該訊號處理為回音消除的情況中，在非線性性質不需要被模擬時(當這些特徵不顯露於該聲音介面的輸出B(x(t))中時)，該聲音介面的回音消除可被簡化。當該軟體動態範圍壓縮被有效設置在該軟體壓縮訊號x(t)被使用做為基準的模擬回音路徑之前時，該初始軟體動態範圍壓縮的非線性特徵也不需要被模擬。

在回音消除的情況中，該軟體產生訊號x(t)與來自該聲音介面的輸出聲音訊號B(x(t))的功率包絡線係在△(t)(或對於每一個i的△_i(t))係足夠小而不對該回音消除處理造成明顯人工效果時被認為相互匹配，例如，夠小而不造成回音洩漏。回音消除器通常對於該回音路徑中的小量非線性性質具有穩健性(以避免小量非線性性質造成的回音洩漏)，而在此情況中該等包絡線在該回音消除器對於△(t)(或△_i(t))係為穩健時被視為匹配。例如，回音抑制器可以應用過度抑制效果以提供此穩健性，而在此情況中該等訊號包絡線至少在△(t)(或△_i(t))係足夠小而能透過該過度抑制效果所補償時(見以下討論)被視做為匹配。

該主題內容特別適用但非為排他的一種情況，其中該聲音介面的輸出B(x(t))係無法由該使用者裝置上的軟體所利用(例如，在不具有可利用的回送訊號時)。

第2圖描繪該使用者裝置104的細節圖示，於該使用者裝置104上執行一通訊客戶端實例206，以透過該通訊系統100通訊。該使用者裝置104包括一或多個中央處理單元(「CPU」)202，與之連接的是：像是可實作為觸控螢幕之顯示器208以及用以輸出聲音訊號之揚聲器(或「揚聲器」)210的輸出裝置；像是用於接收聲音訊號之麥克風212、用於接收影像資料之相機216以及小鍵盤218的輸入裝置；用於存儲資料的記憶體214；以及像是用於與該網路106通訊之數據機的網路介面220。該揚聲器210透過一聲音訊號處理模組 209連接至該中央處理單元202。該使用者裝置104可以包括不同於第2圖中所繪示的多數其他元件。該顯示器208、揚聲器210、麥克風212、記憶體214、相機216、小鍵盤218與網路介面220都可以如第2圖所繪示整合至該使用者裝置104之中。在其他的使用者裝置中，該顯示器208、揚聲器210、麥克風212、記憶體214、相機216、小鍵盤218與網路介面220的一或多項可以不整合至該使用者裝置104之中，並可以透過個別的介面連接至該中央處理單元202。所述介面的一項範例為通用序列匯流排(USB)介面。如果該使用者裝置104透過該網路介面220對該網路106的連接為一種無線連接，那麼該網路介面220可以包含進行無線訊號傳輸至該網路106，以及從該網路106進行無線訊號接收的天線。

第2圖也描繪在該中央處理單元202執行的一操作系統(「OS」)204。於該操作系統204上層執行的是該通訊系統100的客戶端實例206軟體。該操作系統204管理該電腦的硬體資源，並處理透過該網路介面220被傳輸至該網路106及自該網路106的資料。該客戶端206透過該通訊系統與該操作系統204通訊，並管理該等連接。該客戶端206具有一客戶端使用者介面，其用於對該使用者102呈現資訊並用於自該使用者102接收資訊。在此方法中，該客戶端206執行允許該使用者102透過該通訊系統100進行通訊所需要的處理。在此範例中，該操作系統204並不提供由該客戶端206所使用的回送訊號。

該中央處理單元202也執行驅動器軟體(未圖示)，其提供該聲音訊號處理模組209的軟體介面。在該使用者裝置104上所產生用於輸出的任何聲音資料(例如，由該客戶端或其他應用程式所產生)都必須被供應至該聲音訊號處理模組209進行處理，以透過該揚聲器210加以輸出。

參考第3圖，現在描述一種回音消除的方法。第3圖為該使用者裝置104一部份的功能圖示。

如第3圖所繪示，該使用者裝置104包括一聲音介面306，其代表該聲音訊號處理模組209與相關聯驅動器軟體的組合功能。該使用者裝置104進一步包括該揚聲器210、該麥克風212與一訊號處理模組300。此訊號處理模組300(於第3圖中以虛線盒表示)代表利用執行該裝置104中央處理單元202上通訊客戶端應用程式206的方式所實作的訊號處理功能。該訊號處理模組包括一非線性振幅處理模組、一模擬模組304、一噪音降低模組308以及一回音消除模組，該非線性振幅處理模組係為動態範圍壓縮(DRC)模組302形式，該模擬模組304包括一濾波器模組，而該回音消除模組為在此具體實施例中實作回音抑制的抑制模組310，但在其他具體實施例中可替代或額外的實作回音減去。由執行通訊客戶端應用程式206所實作的訊號處理功能可以包含比第3圖所繪示為多或為少的功能。

為了模擬該回音路徑增益並估計由一麥克風所捕捉的回音，需要一基準訊號，其為被標記為x(t)的訊號。此訊號代表一通訊客戶端(透過網路106)為了從揚聲器播出而傳送之一聲音訊號w(t)的經處理版本(由該壓縮模組302處理)，且在其可以透過該揚聲器210輸出之前，於該軟體客戶端外側經歷了由該聲音介面306所進行的後續處理。

如以上所指出，由該聲音介面所進行的進一步處理包含(進一步的)動態範圍壓縮，其是在該訊號處理模組300控制之外。

預備從該揚聲器210輸出的一輸入聲音訊號w(t)係連接至該動態範圍壓縮模組302的輸入。該訊號處理模組300係連接至該聲音介面306。特別是該增益模組302的輸出x(t)=A(w(t))(標註為「遠端訊號」)係連接至該聲音介面306的輸入。該增益模組302也連接至該模擬模組304的第一輸入。該聲音介面306的輸出則連接至該揚聲器210。應該注意於此敘述之該等具體實施例中只存在單一揚聲器(於該等圖式中以符號210標記)，但在其他具體實施例中可以存在有多於一個的揚聲器，而欲被輸出的訊號便對其連接(以從此輸出)。同樣的，於此敘述之該等具體實施例中只存在單一麥克風(於該等圖式中以符號212標記)，但在其他具體實施例中可以存在有多於一個的麥克風，其從周圍環境接收聲音訊號。該麥克風212的輸出y(t)係連接至該訊號處理模組300。特別是該麥克風212的輸出y(t)係連接至該噪音降低模組308的輸入。該麥克風212的輸出y(t)也連接至該模擬模組304的第二輸入。該模擬模組304的輸出則連接至該回音抑制模組310的第一輸入。該噪音降低模組308的輸出係連接至該回音抑制模組310的第二輸入。該回音抑制模組310的輸出則用於提供該經接收訊號(其已被應用回音消除)以於該使用者裝置104中進行進一步處理。

在此，該函數「A(．)」為一種應用動態範圍壓縮(例如，最大化)的前處理操作子；也就是說，「A(．)」代表在產生該輸出x(t)=A(w(t))時由該動態範圍壓縮模組302所執行的功能。該聲音訊號x(t)係被使用做為回音消除基準，並也被傳送至該等驅動器(換言之，傳送至該聲音介面)以播出。

第4圖為該訊號處理模組300的程序流程圖。

在步驟S400，接收一輸入聲音訊號w(t)，其欲被從該揚聲器210輸出。例如，欲被輸出的訊號可為一遠端訊號，其已經於該使等使用者102及108透過該通訊網路100的呼叫期間，於該使用者裝置104網路介面220處自該使用者裝置110所接收。在多數其他具體實施例中，欲被輸出的訊號可為在該呼叫中不同於透過該通訊網路100的某處所接收。例如，欲被輸出的訊號可以已經被儲存在該記憶體214中，而步驟S400可以包括從該記憶體214取得該訊號。

在步驟S402，該軟體動態範圍壓縮模組302對該輸入聲音訊號w(t)應用初始動態範圍壓縮-以該函數A(．)表示-以降低其動態範圍，藉此產生具有經降低動態範圍(也就是經壓縮聲音訊號)的聲音訊號x(t)=A(w(t))。該經壓縮聲音訊號x(t)=A(w(t))係於該應用程式軟體階段處以數位形式(由該客戶端應用程式206)產生。

在多數具體實施例中，該初始動態範圍壓縮可以構成一種對該輸入聲音訊號w(t)實行之向下壓縮功能及/或向上壓縮功能，藉此利用對該輸入訊號w(t)應用聲級相關增益的方式，相對於該輸入訊號w(t)的較安靜部分降低該輸入訊號w(t)的較響亮部分。

第5A圖的圖形500描繪向下壓縮功能的一種實例。該向下壓縮功能係(當由該動態範圍壓縮模組302實作時)對一輸入訊號(w(t))實行，以(當由該動態範圍壓縮模組302實作時)產生一輸出訊號(x(t))，該輸出訊號具有比該輸入訊號為窄的動態範圍。該圖形500以分貝(dB)繪示該輸出訊號聲級為分貝形式之輸入訊號聲級的函數。該向下壓縮功能具有門檻值T及比例值R：1(R 1)之形式的參數，其以下述方式決定該向下壓縮的本質與範圍。

如第5A圖所描繪，對於該輸入訊號具有低於該門檻值T之聲級的每一個(時間)部分，該部分的聲級大致上並不受到向下壓縮的影響。也就是說，於該門檻值以下，該聲級相關增益係具有實質上為0分貝的固定數值(在線性域中等同於1的增益)。

相比之下，對於該輸入訊號具有高於該門檻值T之聲級的每一個(時間)部分，該部分的聲級將由該比例R：1所決定的數量進行衰減。具體來說，對於該輸入訊號具有超過該門檻值T的特定聲級IN的特定部分而言，該特定部分係被衰減以具有的經降低聲級。也就是說，利用分貝形式為的量進行衰減(其與聲級相關，其中該衰減量與該輸入聲級IN有關)。

該壓縮具有一種至少部分受到該門檻值與比例數值所影響的侵略性。該動態範圍壓縮的侵略性意指該輸出聲音訊號動態範圍相對於該輸入訊號動態範圍被降低的範圍-較低(或較高)的門檻與較高(或較低)的比例數值，對侵略性動態範圍壓縮有較大(或較小)的影響。

第5B圖的圖形500’描繪向上壓縮功能的一種實例。該向下壓縮功能也係(當由該動態範圍壓縮模組302實作時)對一輸入訊號(w(t))實行，以(當由該動態範圍壓縮模組302實作時)產生一輸出訊號(x(t))，該輸出訊號具有比該輸入訊號為窄的動態範圍。該圖形500’以分貝(dB)繪示該輸出訊號聲級為分貝形式之輸入訊號聲級的函數。該向上壓縮功能也具有門檻值T及比例值R：1(R 1)之形式的參數，其以下述方式決定該向上壓縮的本質與範圍。然而，與第5A圖的向下壓縮相比之下，對於該輸入訊號具有高於該門檻值T之聲級的每一個(時間)部分，該部分的聲級大致上並不受到向上壓縮的影響。也就是說，於該門檻值以上，該聲級相關增益係具有實質上為0分貝的固定數值(在線性域中等同於1的增益)。對於該輸入訊號具有低於該門檻值T之聲級的每一個(時間)部分，該部分的聲級將由該比例R：1所決定的數量進行加強。具體來說，對於該輸入訊號具有低於該門檻值T的特定聲級IN的特定部分而言，該特定部分係被加強以具有的經提高聲級。

在此，一聲音訊號a(t)的「動態範圍」(例如，A(x(t)))意指該聲音訊號a(t)較響亮與較安靜部分之間的差異，並可以並定量，例如，對該聲音訊號a(t)或功率包絡線應用像是該等曲線差異的(移動)標準偏差、(移動)範數等等的統計測量。

如將被理解的，這些只是簡易動態壓縮器的範例。其他的壓縮器可以利用進一步的參數進行參數化，量是攻擊時間(其定義一旦該訊號開始超過該門檻的聲級時，該壓縮器對應用於衰減該輸入訊號的速度)、釋放時間(其定義一旦該訊號聲級掉落於該門檻以下時，該壓縮器回到0分貝增益的速度)及/或曲折點(其作用為將該門檻值以下的衰減區域平滑至該門檻以上的聲級相關衰減區域)。可以利用減少(或是增加)該攻擊或釋放時間及/或減少(或是增加)該曲折點的方式，提高(或是降低)該壓縮的侵略性。

此外，替代或額外的，該壓縮器可為一多頻帶壓縮器，其中於該訊號的二或多個個別頻帶中的二或多個頻率成分，係經彼此分別壓縮-在此情況中，根據該頻率成分的聲級對每一訊號應用個別的增益量。對於每一頻率成分而言，可以具有一各自的個別門檻及/或比率(及/或其他參數)，其決定了對該頻率成分所應用的增益，或是可以對多數不同頻率成分使用相同的參數。

在一具體實施例中，該軟體動態範圍壓縮構成一種最大化器，其對該訊號w(t)應用一增益量，該增益量與該訊號w(t)的聲級有關，具備10微秒大小幅度的侵略性(這將被視為非常具有侵略性)。

在此背景中，侵略性意指該軟體動態範圍壓縮(例如，最大化器)的時間常數τ。該時間常數決定在透過改變該聲級相關增益，應用至該訊號w(t)的訊號聲級中的改變時，該軟體動態範圍壓縮能多快反應(適應時間)。例如，在利用δ ₁改變該w(t)的聲級，造成在具有δ ₂的聲級相關動態範圍壓縮最終改變時，對於具有時間常數τ的軟體動態範圍壓縮而言，將採用大約為τ的聲級相關增益，以利用進行改變，換言之，以達成大約63%的分數改變。

如將被理解的，10微秒大小幅度是一種大略估計，其如同所討論的實際上將與該訊號處理(例如，回音消除)的本質明顯相關。如將被理解的，實際上該軟體動態範圍壓縮的侵略性可在設計階段適當調整以做為正常設計程序的部分。

在多數具體實施例中，該初始(軟體)動態範圍壓縮可以具有短於由該聲音介面所應用之動態範圍壓縮為短的時間常數。也就是說，該初始動態範圍壓縮可以比該預期被否定的聲音介面處理期望形式為快。這具有在短於該聲音介面處理反應時間的時間尺度上，使x(t)的功率包絡線相對於w(t)而言為平滑的效果，協助確保x(t)大致上不受到該介面處理的影響。

在步驟S404中，該遠端訊號x(t)係被供應至該聲音介面306，其執行遠端訊號的數位類比轉換(DAC)，藉此產生類比形式的輸出聲音訊號，以供應至該揚聲器210。

如同所指出的，在S404產生該輸出聲音訊號時，該聲音介面306對該已經經壓縮的遠端訊號x(t)(已經由該動態範圍壓縮模組302壓縮)應用其本身(額外的)動態範圍壓縮，在此具體實施例中，該額外的動態範圍壓縮係於該客戶端應用程式206的控制之外。

例如，該聲音頻率也可以如第5圖所描繪，利用其本身的門檻與比例(及/或多數其他參數、多數頻帶等等)，實行一向下動態範圍壓縮功能(以x(t)做為輸入訊號，B(x(t))則為輸出訊號)。

然而，如同所指出的，於S402處應用之初始動態範圍壓縮係足夠侵略以產生具有足夠狹窄動態範圍的壓縮聲音x(t)，其大致上並不受到由該聲音介面306所應用之動態範圍壓縮的影響。因此，儘管該聲音介面實際上係對該已經經壓縮的訊號應用其本身的動態範圍壓縮，且係為該客戶端206控制之外，但實際上隨著x(t)並未觀察到在該回音路徑之中引入任何的非線性性質。

這在第6A圖及第6B圖中示意描繪，其描繪示例的理想情況。第6A圖代表一種不使用軟體動態範圍壓縮304的策略，且其中該輸入聲音訊號w(t)係被直接做為該基準及至該聲音介面306的輸入。第6A圖繪示該基準與該聲音介面輸出的功率包絡線602、604(例如，對於大約200微秒的窗口所定義-見以上討論)，在此策略中該基準與該聲音介面輸出分別為w(t)與一輸出訊號B(w(t))。如可從第6A圖所見，這些功率包絡線具有改變顯著的形狀。特別是w(t)的功率包絡線602比起B(w(t))的功率包絡線604而言大致上較不平滑(也就是，大致上表現的更有變化)。

相比之下，第6B圖描繪本發明揭示內容的以上敘述策略，其中使用軟體動態範圍壓縮304以產生該經壓縮訊號 x(t)，該經壓縮訊號x(t)則做為該基準與該聲音介面306的輸入兩者。第6B圖繪示分別該基準x(t)(相對於x(t))與該聲音介面輸出B(x(t))(相對於B(w(t)))的功率包絡線606、608(例如，對於大約200微秒的窗口所定義-見以上討論)。如可從第6B圖所見，與第6A圖相比之下，這些功率包絡線具有實質上匹配的個別形狀。。如以上所指出，該等功率包絡線代表該訊號功率(或正規化訊號功率)的移動窗口平均。因此，在多數不同訊號具有匹配的功率包絡線下，此表示的事實為那些訊號在由該窗口尺寸所定義的時間尺度上彼此匹配。在回音消除的情況中，該窗口尺寸必須夠小以顯示過太過突然而無法適應做為系統增益改變的差異性(也就是說，太過突然而無法適合做為如將該揚聲器210與該麥克風212移近或移離時所形成的改變)。

該軟體產生與輸出聲音訊號之間的振幅變化可以在那些訊號的較高頻率成分中發生，該較高頻率成分並反映於該訊號的功率包絡線中(因為功率包絡線只反映較低頻率成分)。然而，通常基於抑制的聲響回音消除器為了穩健性係具有某些程度的過度抑制性(也就是說，其對麥克風訊號應用超過理論上需要用於從該麥克風訊號移除該回音成分的回音抑制增益量)。因此，在此背景中，定義該等功率包絡線的一適宜窗口具有的持續期間係為夠小，以確保未反映於該包絡線中的振幅擾動係為夠小以能由該過度抑制性所解釋。

本發明揭示內容因此考慮聲音訊號處理(例如，回音抑制)係對於該軟體產生聲音訊號(基準)及未反映於該等功率包絡線中之輸出聲音訊號的較高頻率成分之間的振幅異性具有穩健性，但對於如果存在時將於該等功率包絡線中所反映的較低頻率成分之間的振幅差異性則不具有穩健性。因此，其足夠使該等訊號的功率包絡線匹配，因為其實質上不需要對前者(較高頻部分)給予不必要的考量下便能消除該後者(較低頻部分)。

在調整該軟體動態範圍壓縮302時，例如，做為該軟體設計程序的部分，可以假設一種通用模型，其在不具備由該聲音介面306(如以上討論)所實行之任何動態範圍壓縮的知識，於該前處理步驟中應用侵略性加強衰減。

然而在多數具體實施例中，該通用模型可藉由模擬或是偵測/推論該聲音介面本身非線性處理(動態範圍壓縮)的特性(例如，參數)下獲得強化。其目標為建立一種使該訊號改變可被忽略的模型-如同將可理解的，這可以以許多方式達成。

也就是說，雖然該客戶端206無法對該聲音介面306應用的動態範圍壓縮運用控制，但在某些具體實施例中則提供該客戶端可以至少決定關於該聲音介面所應用之動態範圍壓縮本質的資訊的方式，並接著可以在S402處於即時策略中自動調整該軟體動態範圍壓縮模組(例如，一旦該客戶端已經被設置在該使用者裝置104上並於該處理器202上實例化時)。

在第3A圖中示意描繪的所述具體實施例中，以能由該客戶端206存取的方式存儲一查詢表格322，例如存儲於本地記憶體214或遠端記憶體中，例如，於連接至該網路106而該客戶端206可透過該網路106所存取的伺服器及/或資料中心處。如第3A圖所繪示，在此具體實施例中，該訊號處理模組(由該客戶端106所實作)包括如第3A圖所繪示的相同組件，並進一步包括一第一控制器320，用於存取該查詢表格312並具有經配置以接收關於該使用者裝置104之裝置資訊的輸入，該客戶端106則於該使用者裝置104上執行。在此具體實施例中，該軟體動態範圍壓縮模組302具有連接至該第一控制器320之輸出的一第一額外輸入，藉由該第一額外輸入該第一控制器320可以配置該動態範圍壓縮模組302的參數(像是以上所提及的那些參數)。

操作上，該第一控制器320可例如在該使用者裝置104上該客戶端206的執行後，經配置以從該操作系統204請求該裝置資訊。此資訊可以能由該操作系統204存取的方式儲存於記憶體214中。替代的，該儲存資訊可由該客戶端106直接存取。該裝置資訊可以例如包括該裝置製造商的識別符、該裝置的模組編號、關於該聲音介面硬體的資訊(例如，製造商與模組標識)、聲音介面驅動器(例如，驅動器版本編號)等等的一或多者。

如第7圖繪示，該查詢表格322包括複數個關聯性702、704，其每一個都將該裝置資訊的一或多個部分與一或多個參數數值的組合建立關聯性，以調整該動態範圍壓縮模組320(例如，門檻與比例數值等等)。

該第一控制器320根據所接收的裝置資訊從該查詢表格322決定該動態範圍壓縮參數數值的關聯組合，並將該動態範圍壓縮模組302的參數配置為那些數值(例如，將該門檻設定為該關聯的門檻數值，將該比例設定為該關聯的比例數值等等)。

該查詢表格322可被「離線」編譯，例如，由一軟體設計者在由不同製造商所製造之不同裝置模組上執行該客戶端時，手動調整該動態範圍壓縮模組302的參數以達到所需要的結果，並將最佳化參數記錄於該查詢表格322之中以進行「線上」使用。該查詢表格可隨時間更新，且可將更新散佈成為例如一客戶端軟體更新的部分，或是在該表格係為遠端存取的情況中散佈至適宜的伺服器。

在另一所述具體實施例中，該客戶端206係經配置以偵測該聲音介面的性質-例如，偵測對該遠端訊號應用多大程度的動態範圍壓縮(如果有應用的話)-，舉例而言，藉由比較供應至該聲音介面的遠端訊號x(t)與該麥克風訊號y(t)的方式。如第3B圖所繪示，在此具體實施例中，該訊號處理模組300包括一第二控制器330，該第二控制器330具有第一與第二輸入，經配置以接收該近端訊號x(t)與該麥克風訊號y(t)。在此具體實施例中，該動態範圍壓縮模組具有一第二額外輸入，該第二額外輸入連接至該第二控制器330的輸出。

一種藉由訊號比較的方式，用於偵測在一訊號路徑中是否存在非線性振幅處理(像是動態範圍壓縮)，並用於進一步偵測當存在於該訊號路徑中時該壓縮總量的程序，係敘述於該申請人共同未決的英國專利申請案號GB1321052.1 之中。此程序包括比較第一與第二聲音訊號，該第二聲音訊號係為該第一聲音訊號的經處理版本，以偵測指示對該第一訊號的處理係包含動態範圍壓縮的條件。此程序係為可由該第二控制器330可實作的程序範例，係用該遠端訊號x(t)做為該第一訊號，並利用該麥克風訊號y(t)做為該第二訊號的方式，藉此使該第二控制器330可以偵測是否已經由該聲音介面306將壓縮添加至該回音路徑中，以及壓縮的程度為何。

在GB1321052.1的實作程序中，該第二控制器利用的事實為只要該訊號x(t)的動態範圍係由該聲音介面306進一步降低時，該麥克風訊號y(t)正規化版本振幅分佈將具有不同於該近端訊號x(t)正規化版本之對應振幅分佈的形狀，但與此相反的是在該聲音介面306並不改變該訊號x(t)的動態範圍時，這些分佈的形狀將大致上相匹配。在此，聲音訊號的正規化版本意指該訊號已經進行聲音正規化的版本。聲音正規化是一種程序，藉此程序將多數訊號進行振幅的均勻縮放，以具有一共同的振幅強度，例如該領域所已知之技術，具有數值為0dBFS(相對全刻度分貝量)的預定峰值強度。

當在此使用時，訊號a(t)的「振幅分佈」D _a(t)(也就是在時間t時具有振幅a(t))係對於(跨及)一組數值V所定義，該組數值V中的每一數值v V都對應於訊號振幅a的一或多的可能數值(例如，該組數值V係為一組位於該定義分佈上的訊號振幅數值，例如介於範圍[a ₁,a ₂]，每一數值v V都為一訊號振幅；該組數值V係為一組訊號振幅函數的數值，例如介於像是[|a ₁|,|a ₂|]的範圍[f(a ₁),f(a ₂)])。對於該組數值V中的每一數值v V而言，該分佈具有尺寸D _a(t)(v)，該尺寸與在對應於出現在該訊號a(t)中該數值v V的振幅處所觀察到的平均比例有關(例如，呈現正比)(例如，對於定義在一組振幅強度[|a ₁|,|a ₂|]上的分佈D _a(t)而言，該分佈的尺寸D _a(t)(|a _n|)係與發生在該訊號a(t)中，在具有強度為|a _n|的振幅處-其為a _n與-a _n兩者-的觀察比率有關)。對於數位取樣的聲音訊號而言，該振幅分佈可為對於一組數值B定義的直方圖H _a(t)，每一數值都為一分格b B，每一分格都具有振幅數值為b=[|a _m|,|a _n|)的範圍(此為大於或等於|a _m|，但小於|a _n|的振幅強度數值範圍)，因此該直方圖便對於一組所述分格B={b ₁=[|a ₁|,|a ₂|),b ₂=[|a ₂|,|a ₃|),...}進行定義，該直方圖對於每一分格b B而言具有尺寸H _a(t)(b)，該尺寸與在發生在該訊號a(t)中具有強度位於分格b=[|a _m|,|a _n|)中的振幅處所觀察到的平均比例有關(也就是具有在範圍[|a _m|,|a _n|)中的強度)。在此範例中，每一分格(也就是，該組分佈B的每一數值b)都對應於具有該分格b中個別強度的振幅。

該動態範圍壓縮模組302的參數係於S402處由該第二控制器根據該偵測情況自動調整。例如，該初始軟體動態範圍壓縮的侵略性可被增加，直到不在該回音路徑中觀察到任何動態範圍壓縮形式的效果為止(也就是，直到該振幅分佈或多或少收斂為止)。替代的，該偵測情況可被做為該初始動態範圍壓縮的二元開/關切換(當為偵測到聲音介面動態範圍壓縮時便關閉，反之開啟)，或用於選擇數個初始動態範圍壓縮模型(例如，具有不同程度的侵略性)之一。

在步驟S406，已經由該聲音介面306所處理的輸出聲音訊號，係自該揚聲器210輸出。在此方式中，已經由該聲音介面306所處理的輸出聲音訊號係對該使用者102輸出。

在步驟S408，該麥克風212接收一聲音訊號。如同第3圖繪示，該經接收聲音訊號可以包含一近端訊號，其為想要的訊號或是「主要訊號」。該近端訊號為該使用者102預期該麥克風212接收(於第3圖中標示為近端)的訊號-例如語音。然而，該經接收聲音訊號也包含在步驟S406中從該揚聲器210所輸出之聲音訊號所形成的回音訊號。該經接收聲音訊號也可能包含噪音，像是背景噪音(未繪示)。因此，該總接收聲音訊號y(t)可以利用該近端訊號、該回音與該噪音的總和所給定。該回音與噪音則形成該近端訊號的干擾。雖然未繪示於第3圖中，可由該麥克風212對該捕捉訊號應用類比數位轉換(ADC)，以達成該數位訊號y(t)。

該模擬模組304取用該訊號處理模組300的輸出x(t)(遠端，經壓縮訊號)與該經接收聲音訊號y(t)做為輸入。在步驟S410，使用該模擬模組304模擬該經接收聲音訊號y(t)中該回音的回音路徑。

該回音路徑描述由該等聲音訊號自該揚聲器210至該麥克風212所移動之聲響路徑的效果。該聲音訊號可以直接自該揚聲器210移動至該麥克風212，或是其可以在該近端終端的環境中自各種表面反射。由自該揚聲器210所輸出之聲音訊號所走過的回音路徑可被視做為是一種具有隨時間變化的頻率與相位反應的系統。

為了從在該近端麥克風212處所記錄的訊號y(t)去除該聲響回音s(t)，需要估計該回音路徑如何將所想要的遠端揚聲器輸出訊號改變成為該輸入訊號中不想要的回音成分。

該回音路徑模擬於此情況中假設為一種近似線性回音路徑，也就是說，假設該回音路徑的輸出訊號振幅與該回音路徑的輸入訊號振幅於大小上具有線性關係-此假設由於由該經壓縮訊號x(t)所觀察到，該動態範圍壓縮模組302的效果為該動態範圍壓縮模組明顯降低該聲音介面306在該回音路徑中引入非線性性質的可能性而更可能成立(見以上討論)。

位於一近似線性回音路徑而言，該回音路徑h(t)敘述該接收聲音訊號y(t)中的回音與從該揚聲器210輸出的遠端訊號x(t)有關，例如，對於線性回應路徑而言，係根據該方程式：由該脈衝響應h(t)所表現，其中s(t)為該接收聲音訊號y(t)中的回音，N _true為由該麥克風212所接收之輸出遠端訊號x(t)的取樣數量，而h _n(t)為描述該回音路徑h(t)之脈衝響應的係數。該回音路徑h(t)可以在時間與頻率兩方面中變化，並在此稱為h(t)或h(t,f)。該回音路徑h(t)可以與以下相關(i)環繞該揚聲器210與該麥克風212的目前環境條件(例如，是否存在任何對該聲音號自該揚聲器210至該麥克風212的路徑的實體阻礙、空氣壓力、溫度、風，等等)，以及(ii)該揚聲器210及/或該麥克風212的特性，其可能在輸出及/或接收該訊號時改變該訊號，以及(iii)任何可能不被反映於該遠端訊號中的其他訊號處理-特別是由於該聲音訊號處理模組(但也可能由其他因素所進行的處理，例如緩衝延遲)所進行的處理。

該濾波器模組304藉由決定該輸出遠端訊號x(t)的目前數值及有限數量的(N)的輸出遠端訊號x(t)先前數值的權重加總的方式，模擬該接收聲音訊號y(t)中與該回音關聯的回音路徑h(t)。該濾波器模組304因此實作一種第N階濾波功能，其具有(時間上)的有限長度，於該有限長度上考量該輸出遠端訊號x(t)的數值，以決定該回音路徑h(t)的估計。在此方法中，該濾波器模組304動態調整該回音路徑h(t)的濾波估計。此操作則由以下方程式所敘述，其以該輸出遠端訊號x(t)的方式定義該接收聲音訊號y(t)中的回音：。因此使用了N+1個輸出遠端訊號x(t)的樣本，其具有N+1個個別的權重。換句話說，該回音路徑的估計為一個具有N+1個數值的向量，其中該濾波器模組304考慮該輸出遠端訊號x(t)的N+1個數值(例如，N+1個窗框)，實作一種第N階濾波功能。

可以理解的是，當該回音為該接收聲音訊號的主要部分時，較容易調整該回音路徑的濾波估計，也就是當y(t) s(t)時。然而，如果該回音s(t)係與該接收聲音訊號y(t)的其他訊號成分無關時，即使當該回音並非為該接收聲音訊號y(t)的主要部分，仍可能可以調整該回音路徑的濾波估計。

該領域技術人員將可理解的是該回音路徑的估計並不需要以顯式計算，而可以利用從序率梯度演算法所獲得的濾波器係數所表現，像是最小均方法(LMS)、正規化最小均方法(NLMS)、快速仿射投影法(FAP)和遞回最小二乘法(RLS)。

該回音路徑的估計則用於提供濾波器係數，其將該遠端訊號濾波，以根據該回音路徑的估計產生該麥克風訊號y(t)中該回音成分的估計。不管所使用的實際演算法為何，該濾波器模組304的該等係數係隨該演算法的每一次迭代而更新，因此該濾波器模組304的該等係數係隨時間連續更新，而不管手上訊號的條件。

雖然以上的敘述係針對於使用該回音路徑的時間域有限脈衝響應(FIR)模型，以估計該近端訊號y(t)中的回音成分，但該領域技術人員將可理解的是這只是一種範例，且不並以任何方式進行限制。也就是說，該濾波器模組304可以操作以決定該回音路徑的估計，並因此決定時間域或頻率域中該近端訊號y(t)中的回音成分估計。

該回音路徑的估計通常係以高能量訊號為基礎，因為那些訊號為產生最可靠回音路徑估計的訊號。

該噪音降低模組308係經佈置以降低該麥克風訊號y(t)的噪音程度，但不影響該麥克風訊號y(t)的語音訊號品質。各種為消弭噪音的噪音降低技術，係為該領域技術人員所知悉。頻譜減法為這些方法之一，用以加強在噪音存在下的語音。頻譜減法，使用該噪音頻譜的估計與該噪雜語音頻譜形成一種基於訊雜比(SNR)的增益函數，其與該輸入頻譜相乘以抑制具有低訊雜比的頻率。此程序的目標係獲得一種跟原始聲音訊號相比之下包含較低噪音的聲音訊號。

該模擬模組304中的一濾波器模組將該遠端訊號x(t)濾波以根據該回音路徑的估計產生該麥克風訊號y(t)中該回音成分的估計。

該回音抑制模組310係經佈置以對該接收聲音訊號y(t)的高聲級部分應用回音抑制。該回音抑制模組310的目的係用將該麥克風訊號中存在的揚聲器回音，例如在網路電話客戶端中，抑制成足夠低的程度，使其在由該麥克風212所挑選的近端音響(非回音音響)存在下不被感知/不形成干擾。回音抑制方法係於該領域中所知悉。此外，由該回音抑制模組310所應用的回音抑制方法可以多種不同方式實作。因此，回音抑制方法的精確細節係不於此詳細敘述。

該回音抑制模組310係經佈置以接收該噪音降低模組308實作噪音消除後，該麥克風訊號中該回音成分的估計以及該麥克風訊號y(t)本身做為輸入。該回音抑制模組310係經佈置以決定噪音消除之後該估計回音的功率與該麥克風訊號y(t)的功率。在該回音抑制模組310中，該估計回音功率與該麥克風訊號y(t)的經決定功率以及該過度抑制因子估計模組306的輸出一起使用，以形成對於時間t及頻率f的回音抑制增益G(t,f)。該回音抑制增益具有(在S414處)將該麥克風訊號y(t)中任何回音抑制成為其無法被感知的程度的目的。

該回音抑制模組310輸出該經接收訊號與已經被抑制的回音，例如，以在該裝置104上進行進一步處理。例如，自該回音抑制模組310輸出的訊號可由該客戶端206(例如，編碼及封包)處理，並接著透過該網路106傳輸至該等使用者102及108之間呼叫中的該使用者裝置110。此外或替代的，自該數位增益控制模組312輸出的訊號可為了其他目的由該使用者裝置104所使用，例如，該訊號可被存儲於記憶體214中，或用做為在該使用者裝置104所執行之一應用程式的輸入。

雖然在以上敘述中，本發明主題內容係於聲響回音消除的背景中使用，但一般而言本發明主題內容可以在任何利用基準處理麥克風訊號的聲音訊號處理的背景中使用，例如，在根據於該基準與該麥克風訊號至少一成分之間存在線性關係的假設，而對該麥克風訊號進行處理的任何聲音訊號處理中使用。

在以上敘述之該等具體實施例中，回音去除係於一網路電話系統中實作(例如，該接收聲音訊息可以包含該使用者102的語音，以在該使用者102與108之間的呼叫期間，透過該通訊系統100傳輸至該使用者裝置110)。然而，在此敘述之該等方法也可以在應用回音消除或其他基於基準之訊號處理的任何適宜系統中應用。

在此敘述的方法可由在該使用者裝置104處執行一電腦程式產品(例如，該客戶端206)的方式實作。也就是說，一電腦程式產品可經配置以在包括該使用者裝置104的聲響系統中執行聲音訊號處理(例如，回音消除)。該聲響系統可以進一步包括至少一另外的使用者裝置。該電腦程式產品係體現於一電腦可讀存儲媒介(例如，存儲於該記憶體214中)上，並經配置以當在該裝置104的中央處理單元202上執行時，執行在此敘述之該等方法的任何操作。

在以上討論中，揭示一種聲音訊號處理裝置，該裝置具有用於輸出類比聲音訊號之一揚聲器組件以及用於接收類比聲音訊號之一麥克風組件。該裝置包括一聲音介面。該聲音介面經配置以接收在該裝置上所產生數位形式的任何聲音訊號，用以透過該揚聲器組件輸出，並經配置以從該聲音訊號產生類比形式的輸出聲音訊號，用以供應至該揚聲器組件。該聲音介面係經配置以在產生該輸出聲音訊號時，對該聲音訊號應用動態範圍壓縮。該裝置進一步包括一處理器，經配置以執行軟體。該軟體係經配置以接收一輸入聲音訊號，並從該輸入聲音訊號產生數位形式的聲音訊號。由該軟體產生的聲音訊號係被供應至該聲音介面，以由該揚聲器組件輸出，並在對透過該麥克風組件所接收之聲音訊號的聲音訊號處理中做為基準。

產生該聲音訊號包括該軟體對該輸入聲音訊號應用初始非線性振幅處理，以降低其動態範圍，該聲音訊號藉此具有一經降低的動態範圍。該聲音訊號的經降低動態範圍係為足夠窄以在由該聲音介面應用至該聲音訊號時，大致上不受到該動態範圍壓縮的影響。

例如，該初始處理可為初始動態範圍壓縮。除了產生將該功率包絡線平滑化的需求效果外，該動態範圍的降低為該初始動態範圍壓縮的固有結果。

一般而言，在此敘述之該功能的任何一項(例如，在第3圖、第3A圖及第3B圖中繪示之該等功能模組與第4圖中繪示之該等功能步驟)都可以利用軟體、韌體、硬體(例如，固定式邏輯電路)或這些實作方式的組合加以實作。於第3圖、第3A圖、第3B圖與第4圖中分別繪示之該等模組與步驟可以或可以不實作為個別的模組或步驟。當在此使用時該等用詞「模組」、「功能」、「組件」與「邏輯」一般而言代表軟體、韌體、硬體或其組合。在軟體實作的情況中，該模組、功能或邏輯代表當在一處理器(例如，一中央處理單元或多數中央處理單元)上執行時執行特定工作的程式碼。該程式碼可以存儲於一或多個電腦可讀記憶體裝置中。在此敘述之該等技術的特徵係與平台無關，意味著該等技術可以在具有各種處理器的各種商業計算平台上實作。亦如，該等使用者裝置也可以包含一實體(例如，軟體)，其造成該等使用者裝置的硬體執行多數操作，例如，執行處理器功能區塊等等。例如，該等使用者裝置可以包含一電腦可讀媒介，其可經配置以保有多數指令，該等指令使得該等使用者裝置，且更特別的使該等使用者裝置的操作系統與相關硬體執行多數操作。因此，該等指令的功能係用於配置該操作系統與相關硬體，以執行該等操作，而在此方法中使得該操作系統與該相關硬體進行轉換以執行多數功能。該等指令係由該電腦可讀媒介透過各種不同配置提供至該等使用者裝置。

電腦可讀媒介的一種所述配置為訊號承載媒介，並因此經配置以傳輸該等指令(例如，成為一載波)至該計算裝置，像是透過網路傳輸。該電腦可讀媒介也可經配置成為一電腦可讀存儲媒介，並因此並非為訊號承載媒介。電腦可讀存儲媒介的範例包含隨機存取記憶體(RAM)、唯讀記憶體(ROM)、光碟、快閃記憶體、硬碟記憶體與可以使用磁性、光學與其他技術存儲指令與其他資料的其他記憶體裝置。

雖然本主題內容已經以專用於結構特徵及/或方法論領域的語言所敘述，但要瞭解到在該等附加申請專利範圍中所定義的主題內容並不需要被限制為以上敘述的特定特徵或動作。倒不如說，以上所敘述的該等具體特徵與動作係被揭示為實作該等申請專利範圍的示例形式。