TWI435318B

TWI435318B - 利用多重裝置上的多重麥克風之語音加強之方法、設備及電腦可讀媒體

Info

Publication number: TWI435318B
Application number: TW098108784A
Authority: TW
Inventors: Dinesh Ramakrishnan; Song Wang
Original assignee: Qualcomm Inc
Priority date: 2008-03-18
Filing date: 2009-03-18
Publication date: 2014-04-21
Also published as: RU2456701C2; JP2011515897A; CA2705789C; EP2277323A1; BRPI0908557A2; KR101258491B1; CN101911724A; JP5313268B2; KR20100116693A; CA2705789A1; RU2010142270A; TW200951942A; EP2277323B1; US9113240B2; WO2009117471A1; US20090238377A1

Description

利用多重裝置上的多重麥克風之語音加強之方法、設備及電腦可讀媒體

本揭示案大體係關於用以改良通信系統中之話音品質之信號處理解決方案之領域，且更特定言之，係關於利用多重麥克風來改良話音通信之品質之技術。

本專利申請案主張2008年3月18日申請之題為「Speech Enhancement Using Multiple Microphones on Multiple Devices」之臨時申請案第61/037,461號之優先權，且經讓渡給本文之受讓人。

在行動通信系統中，所傳輸話音之品質係使用者體驗之整體服務品質中的重要因素。最近，一些行動通信裝置(MCD)已包括MCD中之多重麥克風以改良所傳輸話音之品質。在此等MCD中，利用來自多重麥克風之音訊資訊之高級信號處理技術用以增強話音品質且抑制背景雜訊。然而，此等解決方案大體要求多重麥克風都位於相同MCD上。多重麥克風MCD之已知實例包括具有兩個或兩個以上麥克風之蜂巢式電話手機及具有兩個麥克風之藍芽無線頭戴式耳機。

由MCD上之麥克風擷取之話音信號極易受諸如背景雜訊、混響等環境效應之影響。僅裝備單一麥克風之MCD在使用於雜訊環境(亦即，輸入話音信號之訊雜比(SNR)低之環境)中時遭受不良話音品質。為改良有雜訊環境中之可操作性，引入多重麥克風MCD。多重麥克風MCD處理由一麥克風之陣列擷取之音訊以改良話音品質，即使在不適宜(雜訊高)環境中。已知多重麥克風解決方案可使用某些數位信號處理技術以藉由利用由位於MCD上之不同麥克風擷取之音訊而改良話音品質。

已知多重麥克風MCD要求所有麥克風都位於MCD上。由於麥克風都位於相同裝置上，故已知多重麥克風音訊處理技術及其有效性由MCD內之麥克風之間的相對有限之空間分離來管理。因此需要找到增加行動裝置中所使用之多重麥克風技術的有效性及穩定性之方法。

鑒於此，本揭示案針對利用由多重麥克風記錄之信號以改良行動通信系統的話音品質之機構，其中麥克風中之一些位於除了MCD之外的不同裝置上。舉例而言，一個裝置可為MCD，且另一裝置可為通信至MCD之無線/有線裝置。可以各種方式處理不同裝置上之麥克風擷取之音訊。在本揭示案中，提供若干實例：可利用不同裝置上之多重麥克風來改良話音活動偵測(VAD)；亦可利用多重麥克風來使用諸如波束成形、盲源分離、空間分集接收方案等之源分離方法而執行語音增強。

根據一項態樣，在通信系統中處理音訊信號之方法包括：藉由位於無線行動裝置上之第一麥克風擷取第一音訊信號；藉由位於不包括於無線行動裝置中之第二裝置上之第二麥克風擷取第二音訊信號；及處理第一及第二經擷取音訊信號以產生表示來自聲源中之一者(例如，所要源)，但自來自聲源中之其他者(例如，周圍雜訊源、干擾聲源等)之聲音分離之聲音之信號。第一及第二音訊信號可表示來自區域環境中相同源之聲音。

根據另一態樣，一設備包括：第一麥克風，其位於一無線行動裝置上，其經組態以擷取第一音訊信號；第二麥克風，其位於不包括於無線行動裝置中之第二裝置上，其經組態以擷取第二音訊信號；及處理器，其經組態以回應於第一及第二經擷取音訊信號而產生表示自來自源中之其他者的聲音分離之來自聲源中的一者之聲音的信號。

根據另一態樣，一設備包括：用於在無線行動裝置處擷取第一音訊信號之構件；用於在不包括於無線行動裝置中之第二裝置處擷取第二音訊信號之構件；及用於處理第一及第二經擷取音訊信號以產生表示自來自聲源中之其他者的聲音分離之來自聲源中的一者之聲音的信號之構件。

根據另一態樣，具體化可由一或多個處理器執行之一組指令之電腦可讀媒體包括：用於在無線行動裝置處擷取第一音訊信號之程式碼；用於在不包括於無線行動裝置中之第二裝置處擷取第二音訊信號之程式碼；及用於處理第一及第二經擷取音訊信號以產生表示自來自聲源中之其他者的聲音分離之來自聲源中的一者之聲音的信號之程式碼。

在檢查以下諸圖及詳細描述後，其他態樣、特徵、方法及優點對於熟習此項技術者而言將為或將變得顯而易見。所有此類額外特徵、態樣、方法及優點將意欲包括於此描述內且受隨附申請專利範圍的保護。

將理解，圖式僅用於說明之目的。此外，諸圖中之組件不必按比例繪製，而是著重於說明本文中描述之技術及裝置之原理。在諸圖中，相同參考數字貫穿不同視圖指定對應部分。

參考並併入有圖式之以下實施方式描述並說明了一或多個特定實施例。展示並充分詳細地描述了此等實施例(提供此等實施例並非用以限制而是僅用以例證及教示)以使熟習此項技術者能夠實踐所主張之內容。因此，為簡潔起見，該描述可省略熟習此項技術者所已知之特定資訊。

貫穿本揭示案使用字「例示性」以意謂「充當一實例、例項或說明」。未必將本文中描述為「例示性」之任何事物解釋為與其他方法或特徵相比而為較佳或有利的。

圖1為包括具有多重麥克風106、108之行動通信裝置(MCD)104及頭戴式耳機102之例示性通信系統100之圖。在所展示之實例中，頭戴式耳機102與MCD 104經由諸如藍芽連接之無線鏈路103進行通信。雖然藍芽連接可用以在MCD 104與頭戴式耳機102之間進行通信，但期望可在無線鏈路103上使用其他協定。利用藍芽無線鏈路，可根據自www.bluetooth.com可得之由藍芽規格提供的頭戴式耳機設定檔來交換MCD 104與頭戴式耳機102之間的音訊信號。

複數個聲源110發出由不同裝置102、104上之麥克風106、108拾取之聲音。

可利用位於不同行動通信裝置上之多重麥克風來改良所傳輸話音之品質。本文中揭示可利用來自多重裝置的麥克風音訊信號來改良效能之方法及設備。然而，本揭示案不限於任何特定之多重麥克風處理方法或任何特定組之行動通信裝置。

由位於彼此靠近處之多重麥克風擷取之音訊信號通常擷取聲源之混合。聲源可為雜訊類(街道雜訊、串音雜訊、周圍雜訊等)或可為話音或儀器。來自聲源之聲波可自牆壁或附近物件彈射或反射掉而產生不同聲音。一般熟習此項技術者應理解術語聲源亦可用以指示除了原始聲源之外的不同聲音，並且指示原始聲源。視應用而定，聲源可為話音類或雜訊類。

目前，存在僅具有單一麥克風之許多裝置：行動手機、有線頭戴式耳機、藍芽頭戴式耳機等。但此等裝置在結合使用此等裝置中之兩者或兩者以上時提供多重麥克風特徵。在此等環境下，本文中描述之方法及設備能夠利用不同裝置上之多重麥克風且改良話音品質。

需要藉由應用使用複數個所擷取音訊信號之演算法來將所接收聲音的混合分離為表示原始聲源中之每一者的至少兩個信號。亦即，在應用諸如盲源分離(BSS)、波束成形或空間分集之源分離演算法之後，可分開地聽取「混合」聲源。此類分離技術包括BSS、波束成形及空間分集處理。

本文中描述用於利用不同裝置上之多重麥克風來改良行動通信系統的話音品質之若干例示性方法。為簡單起見，在本揭示案中，提出僅涉及兩個麥克風之一項實例：MCD 104上之一個麥克風及諸如頭戴式耳機102或有線頭戴式耳機之附件上之一個麥克風。然而，本文中揭示之技術可擴展至涉及兩個以上麥克風之系統，及各自具有一個以上麥克風之MCD及頭戴式耳機。

在系統100中，用於擷取語音信號之主要麥克風106由於通常最靠近說話之使用者而位於頭戴式耳機102上，而MCD 104上之麥克風108為次要麥克風108。此外，所揭示方法可與諸如有線頭戴式耳機之其他合適MCD附件一起使用。

兩個麥克風信號處理在MCD 104中執行。由於在與來自次要麥克風108之次要麥克風信號相比時自頭戴式耳機102接收之主要麥克風信號歸因於無線通信協定而經延遲，故在可處理兩個麥克風信號之前要求延遲補償方塊。對於給定藍芽頭戴式耳機而言延遲補償方塊要求之延遲值通常係已知的。若延遲值未知，則延遲補償方塊使用標稱值，且在兩個麥克風信號處理方塊中處理延遲補償之不準確度。

圖2為說明處理來自多重麥克風之音訊信號的方法200之流程圖。在步驟202中，主要音訊信號由位於頭戴式耳機102上之主要麥克風106擷取。

在步驟204，次要音訊信號藉由位於MCD 104上之次要麥克風108而擷取。主要及次要音訊信號分別表示來自在主要及次要麥克風106、108處接收之聲源110之聲音。

在步驟206，主要及次要之經擷取音訊信號經處理以產生表示自來自聲源110中之其他者的聲音分離之來自聲源110中的一者之聲音的信號。

圖3為展示圖1之MCD 104及頭戴式耳機102的某些組件之方塊圖。無線頭戴式耳機102及MCD 104各自能夠在無線鏈路103上彼此進行通信。

頭戴式耳機102包括耦接至天線303而用於在無線鏈路103與MCD 106進行通信之短程無線介面308。無線頭戴式耳機102亦包括控制器310、主要麥克風106及麥克風輸入電路312。

控制器310控制頭戴式耳機102及其中含有之某些組件之整體操作，且其包括處理器311及記憶體313。處理器311可為用於執行儲存於記憶體313中以使頭戴式耳機102執行如本文中描述之其功能及過程之程式化指令的任何合適處理裝置。舉例而言，處理器311可為微處理器(諸如，ARM7)、數位信號處理器(DSP)、一或多個特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、複雜可程式化邏輯裝置(CPLD)、離散邏輯、軟體、硬體、韌體或其任何合適之組合。

記憶體313為用於儲存由處理器311執行及使用之程式化指令及資料的任何合適之記憶體裝置。

短程無線介面308包括收發器314，且提供經由天線303之與MCD 104之雙向無線通信。雖然任何合適無線技術可使用於頭戴式耳機102，但短程無線介面308較佳包括提供由天線303、藍芽RF收發器、基頻處理器、協定堆疊組成之至少一藍芽核心系統之市售藍芽模組，以及用於將該模組連接至控制器310之硬體及軟體介面，及頭戴式耳機102之其他組件(若需要)。

麥克風輸入電路312處理自主要麥克風106接收之電子信號。麥克風輸入電路312包括類比數位轉換器(ADC)(未圖示)，且可包括用於處理來自主要麥克風106之輸出信號之另一電路。ADC將來自麥克風之類比信號轉換為接著由控制器310處理之數位信號。可利用市售之硬體、軟體、韌體或其任何合適組合來實施麥克風輸入電路312。又，麥克風輸入電路312之功能中之一些可實施為可在處理器311上執行之軟體或諸如數位信號處理器(DSP)之單獨處理器。

主要麥克風106可為用於將聲音能量轉換為電子信號之任何合適音訊轉導器。

MCD 104包括無線廣域網路(WWAN)介面330、一或多個天線301、短程無線介面320、次要麥克風108、麥克風輸入電路315以及具有處理器326及儲存一或多個音訊處理程式329之記憶體328之控制器324。音訊程式329可組態MCD 104以執行本文中描述的圖2及圖4-圖12之過程方塊。MCD 104可包括用於在短程無線鏈路103及WWAN鏈路上進行通信之單獨天線，或替代地，單一天線可用於兩個鏈路。

控制器324控制MCD 104及其中所含有之某些組件的整體操作。處理器326可為用於執行儲存於記憶體328中之程式化指令以使MCD 104執行如本文中所描述之其功能及過程的任何合適之處理裝置。舉例而言，處理器326可為微處理器(諸如，ARM7)、數位信號處理器(DSP)、一或多個特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、複雜可程式化邏輯裝置(CPLD)、離散邏輯、軟體、硬體、韌體或其任何合適之組合。

記憶體324為用於儲存由處理器326執行及使用之程式化指令及資料的任何合適之記憶體裝置。

WWAN介面330包含與WWAN進行通信必要之整個實體介面。介面330包括經組態以與WWAN內之一或多個基地台交換無線信號之無線收發器332。合適無線通信網路之實例包括(但不限於)基於分碼多重存取(CDMA)之網路、WCDMA、GSM、UTMS、AMPS、PHS網路等。WWAN介面330與WWAN交換無線信號以有助於話音呼叫及資料在WWAN上轉移至所連接裝置。所連接裝置可為另一WWAN終端機、陸上通信線電話或諸如話音信箱伺服器、網際網路伺服器等之網路服務實體。

短程無線介面320包括收發器336，且提供與無線頭戴式耳機102之雙向無線通信。雖然任何合適無線技術可使用於MCD 104，但短程無線介面336較佳包括提供由天線301、藍芽RF收發器、基頻處理器、協定堆疊組成之至少一藍芽核心系統之市售藍芽模組，以及用於將該模組連接至控制器324之硬體及軟體介面及MCD 104之其他組件(若需要)。

麥克風輸入電路315處理自次要麥克風108接收之電子信號。麥克風輸入電路315包括類比數位轉換器(ADC)(未圖示)，且可包括用於處理來自次要麥克風108之輸出信號之另一電路。ADC將來自麥克風之類比信號轉換為接著由控制器324處理之數位信號。可使用市售硬體、軟體、韌體或其任何合適組合來實施麥克風輸入電路315。又，麥克風輸入電路315之功能中之一些可實施為可在處理器326上執行之軟體或諸如數位信號處理器(DSP)之單獨處理器。

次要麥克風108可為用於將聲音能量轉換為電子信號之任何合適音訊轉導器。

可利用類比及/或數位硬體、韌體或軟體之任何合適組合來實施MCD 104及頭戴式耳機102之組件。

圖4為使用不同裝置上之兩個麥克風的一般多重麥克風信號處理之過程方塊圖。如圖中所展示，方塊402-410可由MCD 104執行。

在圖中，數位化主要麥克風信號樣本由x₁ (n)指示。來自MCD 104之數位化次要麥克風信號樣本由x₂ (n)指示。

方塊400表示在主要麥克風樣本在無線鏈路103上自頭戴式耳機102向MCD 104傳送時主要麥克風樣本經歷之延遲。主要麥克風樣本x₁ (n)相對於次要麥克風樣本x₂ (n)而延遲。

在方塊402中，執行線性回音消除(LEC)以自主要麥克風樣本移除回音。合適LEC技術對於彼等一般熟習此項技術者而言係已知的。

在延遲補償方塊404中，在可進一步處理兩個麥克風信號之前次要麥克風信號被延遲t_d 個樣本。延遲補償方塊404所要求之延遲值t_d 通常對於諸如藍芽頭戴式耳機之給定無線協定而言係已知。若延遲值係未知的，則可在延遲補償方塊404中使用標稱值。可如下文結合圖5-圖6所描述進一步改進延遲值。

此應用中之另一障礙為補償兩個麥克風信號之間的資料速率差異。此係在取樣率補償方塊406中完成。一般而言，頭戴式耳機102及MCD 104可由兩個獨立時鐘源控制，且時鐘率可隨時間推移而關於彼此略微偏移。若時鐘率不同，則兩個麥克風信號之每訊框傳遞的樣本之數目可能不同。此通常已知為樣本滑動問題且可使用彼等熟習此項技術者已知之多種方法來解決此問題。在樣本滑動之情形下，方塊406補償兩個麥克風信號之間的資料速率差異。

較佳地，在執行涉及主要麥克風樣本流與次要麥克風樣本流之進一步信號處理之前，匹配兩個流之取樣率。存在許多合適方式來實現此。舉例而言，一個方式為自一個流添加/移除樣本而匹配另一流中之樣本/訊框。另一方式為進行一個流之細微取樣率調整以匹配另一者。舉例而言，設兩個頻道具有8kHz之標稱取樣率。然而，一個頻道之實際取樣率為7985Hz。因此，來自此頻道之音訊樣本需要升頻取樣至8000Hz。作為另一實例，一個頻道可能具有8023Hz之取樣率。其音訊樣本需要降頻取樣至8kHz。可使用許多方法來進行任意兩個流之重新取樣以便匹配其取樣率。

在方塊408中，次要麥克風108經校正以補償主要及次要麥克風106、108之靈敏度之差異。藉由調整次要麥克風樣本流來完成校正。

一般而言，主要及次要麥克風106、108可具有相當不同之靈敏度，且有必要校正次要麥克風信號以使得次要麥克風108接收之背景雜訊功率具有與主要麥克風106接收之背景雜訊功率相似之位準。可利用涉及估計兩個麥克風信號之雜訊底部，及接著利用兩個雜訊底部估計之比率的平方根以按比例調整次要麥克風信號以使得兩個麥克風信號具有相同雜訊底部位準之方法而執行校正。可替代地使用校正麥克風之靈敏度之其他方法。

在方塊410中，進行多重麥克風音訊處理。處理包括利用來自多重麥克風之音訊信號來改良話音品質、系統效能等之演算法。此類演算法之實例包括VAD演算法及諸如盲源分離(BSS)、波束成形或空間分集之源分離演算法。源分離演算法允許「混合」聲源之分離以使得僅所要源信號經傳輸至遠端收聽者。下文更詳細地論述前述例示性演算法。

圖5為說明利用包括於MCD 104中之線性回音消除器(LEC)402的例示性麥克風信號延遲估計方法之圖。方法估計在無線鏈路103上傳送之主要麥克風信號所經歷之無線頻道延遲500。大體而言，回音消除演算法經實施於MCD 104上以消除經由頭戴式耳機揚聲器506之呈現於麥克風(主要麥克風T_x 路徑)信號上之遠端(主要麥克風R_x 路徑)回音經歷。主要麥克風R_x 路徑可包括頭戴式耳機102中進行之R_x 處理504，且主要麥克風T_x 路徑可包括頭戴式耳機102中進行之T_x 處理502。

回音消除演算法通常由MCD 104內前端上之LEC 402組成。LEC 402對遠端R_x 信號實施適應性濾波，且自傳入主要麥克風信號濾波出回音。為有效實施LEC 402，需要已知自R_x 路徑至T_x 路徑之往返延遲。通常，往返延遲係恆定的或至少接近恆定值，且此恆定延遲在MCD 104之初始調諧期間經估計且用於組態LEC解決方案。一旦已知往返延遲t_rd 之估計，與次要麥克風信號相比主要麥克風信號經歷之延遲之初始近似估計t_0d 可計算為往返延遲之一半。一旦初始近似延遲係已知的，即可藉由在一範圍之值上精細搜尋而估計實際延遲。

下文描述精細搜尋。設LEC 402後之主要麥克風信號由x₁ (n)指示。設來自MCD 104之次要麥克風信號由x₂ (n)指示。次要麥克風信號首先經延遲t_0d 以在兩個麥克風信號x₁ (n)與x₂ (n)之間提供初始近似延遲補償，其中n為樣本索引整數值。初始近似延遲通常為粗略估計。在延遲值範圍τ內經延遲第二麥克風信號接著與主要麥克風信號交叉相關且藉由在範圍τ內最大化交叉相關輸出而得到實際、經改進之延遲估計t_d ：

範圍參數τ可取正及負整數值二者。舉例而言，。最終估計t_d 對應於最大化交叉相關之τ值。相同交叉相關方法亦可用於計算遠端信號與主要麥克風信號中呈現之回音之間的粗略延遲估計。然而，在此情形下，延遲值通常係大的，且τ值之範圍必須基於先前經歷而仔細地加以選擇或在大範圍之值內進行搜尋。

圖6為說明用於改進麥克風信號延遲估計之另一方法之過程方塊圖。在此方法中，在利用上文方程式1計算延遲估計之交叉相關之前，兩個麥克風樣本流視情況由低通濾波器(LPF)604、606低通濾波(方塊608)。由於當兩個麥克風106、108經遠離地置放時，在兩個麥克風信號之間僅低頻率分量經相關，故低通濾波係有幫助的。可基於下文描述VAD及BSS在本文中概述之方法得到低通濾波器之截止頻率。如圖6之方塊602所展示，在低通濾波之前次要麥克風樣本延遲初始近似延遲t_0d 。

圖7為利用不同裝置上之兩個麥克風的話音活動偵測(VAD)700之過程方塊圖。在單一麥克風系統中，若雜訊隨時間為非固定的，則不可良好地估計背景雜訊功率。然而，利用次要麥克風信號(來自MCD 104中之一者)，可獲得背景雜訊功率之較精確之估計且可實現顯著改良之話音活動偵測器。可以多種方式來實施VAD 700。下文描述VAD實施之實例。

一般而言，次要麥克風108將為距主要麥克風106相對較遠的(大於8cm)，且因此次要麥克風108將擷取大多數周圍雜訊及極少所要之來自使用者之語音。在此情形下，可藉由比較經校正次要麥克風信號與主要麥克風信號之功率位準而簡單地實現VAD 700。若主要麥克風信號之功率位準遠高於經校正次要麥克風信號之功率位準，則宣告偵測到話音。次要麥克風108可在MCD 104之製造期間經初始校正以使得兩個麥克風106、108所擷取之周圍雜訊位準彼此接近。在校正後，兩個麥克風信號之所接收樣本的每一方塊(或訊框)之平均位準經比較，且在主要麥克風信號之平均方塊功率超出次要麥克風信號一預定臨限值時宣告語音偵測。若兩個麥克風置放得較遠，則兩個麥克風信號之間的相關對於較高頻率而言下降。麥克風間隔(d)與最大相關頻率(f_max )之間的關係可利用以下方程式來表達：

其中，c=343m/s為聲音在空氣中之速度，d為麥克風分離距離且f_max 為最大相關頻率。可藉由在計算方塊能量估計之前將低通濾波器插入於兩個麥克風信號之路徑中而改良VAD效能。低通濾波器選擇在兩個麥克風信號之間相關的僅彼等較高之音訊頻率，且因此決策將不偏向不相關分量。低通濾波器之截止可設定如下。

f-cutoff=max(fmax,800);f-cutoff=min(f-cutoff,2800)。　(3)

此處，800Hz及2800Hz給定為低通濾波器之最小及最大截止頻率之實例。低通濾波器可為簡單FIR濾波器或具有規定截止頻率之雙二次IIR濾波器。

圖8為利用不同裝置上之兩個麥克風的盲源分離(BSS)之過程方塊圖。BSS模組800分離且恢復來自一陣列之感應器所記錄的源信號之多重混合的源信號。BSS模組800通常使用較高順序統計以自混合分離初始源。

若背景雜訊過高或過於不固定，則頭戴式耳機102擷取之語音信號之可解度可極受損害。BSS 800可在此等場景中提供語音品質之顯著改良。

BSS模組800可使用多種源分離方法。BSS方法通常使用適應性濾波器來自主要麥克風信號移除雜訊且自次要麥克風信號移除所要語音。由於適應性濾波器可僅模仿且移除相關信號，其將特別有效地自主要麥克風信號移除低頻率雜訊及自次要麥克風信號移除低頻率語音。可藉由僅在低頻率區域中進行適應性濾波而改良BSS濾波器之效能。此可由兩個方式達成。

圖9為使用兩個麥克風信號之經修改BSS實施之過程方塊圖。BSS實施包括BSS濾波器852、兩個低通濾波器(LPF)854、856，及BSS濾波器學習及更新模組858。在BSS實施中，利用適應性/固定濾波器852濾波兩個輸入音訊信號以分離來自不同音訊源之信號。所使用之濾波器852可為適應性的，亦即，濾波器權值可隨時間經調適作為輸入資料之函數，或濾波器可為固定的，亦即，使用固定組之預先計算之濾波係數來分離輸入信號。通常，由於適應性濾波器實施提供更佳效能，故適應性濾波器實施更常見，尤其在輸入統計為非固定之情形下。

通常對於兩個麥克風裝置而言，BSS使用兩個濾波器：一個濾波器自輸入混合信號分離出所要音訊信號，且另一濾波器自輸入混合信號分離出周圍雜訊/干擾信號。兩個濾波器可為FIR濾波器或IIR濾波器且在適應性濾波器之情形下，兩個濾波器之權重可共同地進行更新。適應性濾波器之實施涉及兩個階段：第一階段藉由自輸入資料進行學習而計算濾波器權重更新，且第二階段藉由迴旋運算濾波器權重與輸入資料而實施濾波器。此處，提議將低通濾波器854應用至輸入資料用於實施第一階段858(然而，對於第二階段852而言利用該資料計算濾波器更新)對原始輸入資料實施適應性濾波(在沒有LPF之情形下)。LPF 854、856可經設計為具有截止頻率之IIR或FIR濾波器，如方程式(3)中所規定。對於時域BSS實施而言，分別如圖9中所展示將兩個LPF 854、856應用至兩個麥克風信號。接著將經濾波麥克風信號提供至BSS濾波器學習及更新模組858。回應於經濾波信號，模組858更新BSS濾波器852之濾波器參數。

圖10中展示BSS之頻域實施之方塊圖。此實施包括快速傅裏葉變換(FFT)方塊970、BSS濾波器方塊972、後處理方塊974及快速傅裏葉逆變換(IFFT)方塊976。對於頻域BSS實施而言，BSS濾波器972僅實施於低頻率中(或子頻帶中)。可以如方程式(2)及(3)中所給定之相同方法來得到低頻率之範圍之截止。在頻域實施中，針對每一頻率區間(或子頻帶)實施單獨組之BSS濾波器972。此處再次地，針對每一頻率區間實施兩個適應性濾波器：一個濾波器將自混合輸入分離所要音訊源，且另一者自混合輸入濾波出周圍雜訊信號。多種頻域BSS演算法可用於此實施。由於BSS濾波器已經對窄頻資料進行操作，在此實施中不需要分離濾波器學習階段及實施階段。對於對應於低頻率(例如，<800Hz)之頻率區間而言，頻域BSS濾波器972經實施以自其他源信號分離所要源信號。

通常，亦結合BSS/波束成形方法使用後處理演算法974以便達成雜訊抑制之較高位準。後處理方法974通常使用溫納(Wiener)濾波、頻譜相減或其他非線性技術以自所要源信號進一步抑制周圍雜訊及其他不當信號。後處理演算法974通常不利用麥克風信號之間的相位關係，因此其可利用來自次要麥克風信號之低頻率及高頻率部分之資訊以改良所傳輸信號之語音品質。提議來自麥克風之低頻率BSS輸出及高頻率信號由後處理演算法974使用。後處理演算法計算來自BSS次要麥克風輸出信號(對於低頻率而言)及次要麥克風信號(對於高頻率而言)之每一頻率區間的雜訊功率位準之估計，且接著針對每一頻率區間得出一增益且將該增益應用至主要傳輸信號以進一步移除周圍雜訊且增強其話音品質。

為說明僅在低頻率中進行雜訊抑制之優點，考慮以下例示性場景。使用者可在開車之同時利用無線或有線頭戴式耳機且將行動手機保持於其襯衫/外套口袋中或距頭戴式耳機不超過20cm之某處。在此情形下，小於860Hz之頻率分量將在頭戴式耳機與手機裝置所擷取之麥克風信號之間進行相關。由於道路雜訊及車中之引擎雜訊主要地含有大多數集中於800Hz以下之低頻率能量，低頻率雜訊抑制方法可提供顯著之效能改良。

圖11為利用不同裝置上之兩個麥克風的波束成形方法1000之過程方塊圖。波束成形方法藉由線性地組合由一陣列之感應器記錄之信號而執行空間濾波。在本揭示案之上下文中，感應器為置放於不同裝置上之麥克風。空間濾波增強來自所要方向上之信號接收且同時抑制來自其他方向上之干擾信號。

亦可藉由利用頭戴式耳機102及MCD 104中之兩個麥克風106、108執行波束成形而改良所傳輸話音品質。波束成形藉由抑制來自除所要語音源之方向之外的方向之周圍雜訊而改良話音品質。波束成形方法可使用一般熟習此項技術者輕易已知之多種方法。

通常利用適應性FIR濾波器而使用波束成形，且低通濾波兩個麥克風信號之相同概念可用於改良適應性濾波器之學習效率。BSS及波束成形方法之組合亦可用以進行多重麥克風處理。

圖12為利用不同裝置上之兩個麥克風之空間分集接收技術1100之過程方塊圖。空間分集技術提供用於改良可歸因於環境中之多路徑傳播而經受干擾衰落的聲學信號之接收的可靠性之各種方法。由於波束成形器藉由相干地組合麥克風信號以便改良輸出信號之訊雜比(SNR)而工作，而分集方案藉由相干或不相干地組合多重接收信號以便改良受多路徑傳播所影響之信號之接收而工作，故空間分集方案相當不同於波束成形方法。存在可用於改良所記錄語音信號之品質之各種分集組合技術。

一個分集組合技術係涉及監視兩個麥克風信號且拾取最強信號(亦即，具最高SNR之信號)之選擇組合技術。此處首先計算經延遲主要麥克風信號及經校正次要麥克風信號之SNR，且接著選擇具最強SNR之信號作為輸出。可藉由一般熟習此項技術者已知之以下技術來估計麥克風信號之SNR。

另一分集組合技術為最大比率組合技術，其涉及以兩個麥克風信號之各別SNR加權兩個麥克風信號，且接著組合兩個麥克風信號以改良輸出信號之品質。舉例而言，兩個麥克風信號之經加權組合可如下表示：

y (n )=a ₁ (n )s ₁ (n )+a ₂ (n )s ₂ (n -τ)　(4)

此處，s₁ (n)及s₂ (n)為兩個麥克風信號且a₁ (n)及a₂ (n)為兩個權重，且y(n)為輸出。第二麥克風信號可由值τ視情況進行延遲以便最小化歸因於由兩個麥克風信號之相干求和所引起之相位消除效應之消音。

兩個權重必須小於一且在任何給定瞬間，且兩個權重之和必須加至一。權重可隨時間推移而變化。權重可經組態為與對應麥克風信號之SNR成比例。權重可隨時間推移而變平滑且隨時間而極略微地發生改變以使得所組合信號y(n)不具有任何不當假影。一般而言，由於主要麥克風信號擷取具比次要麥克風信號之SNR更高的SNR之所要語音，故主要麥克風信號之權重為極高的。

或者，亦可將自次要麥克風信號計算之能量估計用於由雜訊抑制技術利用之非線性後處理模組中。雜訊抑制技術通常使用諸如頻譜相減之非線性後處理方法以自主要麥克風信號移除更多雜訊。後處理技術通常要求周圍雜訊位準能量之估計以便抑制主要麥克風信號中之雜訊。周圍雜訊位準能量可自次要麥克風信號之方塊功率估計進行計算，或經計算為來自兩個麥克風信號之方塊功率估計之加權組合。

諸如藍芽頭戴式耳機之附件中之一些能夠經由藍芽通信協定提供範圍資訊。因此，在藍芽實施中，範圍資訊給出頭戴式耳機102位於距MCD 104之多遠處。若範圍資訊不可用，則可自利用方程式(1)計算之時間延遲估計而計算範圍之近似估計。此範圍資訊可由MCD 104利用而用於確定使用何種類型之多重麥克風音訊處理演算法來改良所傳輸話音品質。舉例而言，波束成形方法當主要及次要麥克風位於接近彼此處(距離<8cm)時工作得最理想。因此，在此等情境下，可選擇波束成形方法。BSS演算法適用於中間範圍(6cm<距離<15cm)中，且空間分集方法適用於當麥克風遠離地間隔(距離>15cm)時。因此，在此等範圍中之每一者中，可分別由MCD 104選擇BSS演算法及空間分集演算法。因此，可利用兩個麥克風之間的距離之知識來改良所傳輸話音品質。

系統、裝置、頭戴式耳機及其各別組件之功能性，以及本文中描述之方法步驟及方塊可實施於硬體、軟體、韌體或其任何合適組合中。軟體/韌體可為具有可由諸如微處理器、DSP、嵌入式控制器或智慧產權(IP)核心之一或多個數位電路執行的多組指令(例如，碼段)之程式。若實施於軟體/韌體中，則該等功能可作為指令或程式碼而儲存於一或多個電腦可讀媒體上或在電腦可讀媒體上傳輸。電腦可讀媒體包括電腦儲存媒體及通信媒體(包括有助於電腦程式自一位置轉移至另一位置的任何媒體)。儲存媒體可為可由電腦存取之任何可用媒體。以實例加以說明，而非限制，此類電腦可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置，或可用以載運或儲存以指令或資料結構之形式的所要程式碼且可由電腦存取之任何其他媒體。又，可適當地將任何連接稱為電腦可讀媒體。舉例而言，若利用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸軟體，則同軸電纜、光纖電纜、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括在媒體之定義中。如本文中所使用之磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學碟片、數位通用光碟(DVD)、軟性磁碟及藍光光碟，其中磁碟通常以磁性方式再生資料，而光碟則用雷射以光學方式再生資料。上文之組合亦應包括在電腦可讀媒體之範疇內。

已描述了特定實施例。然而，可能對此等實施例進行各種修改，且本文中所提出之原理同樣可應用於其他實施例。舉例而言，可將本文中揭示之原理應用至其他裝置，諸如包括個人數位助理(PDA)之無線裝置、個人電腦、立體聲系統、視訊遊戲等。又，可將本文中揭示之原理應用至有線頭戴式耳機，其中頭戴式耳機與另一裝置之間的通信鏈路係一導線，而非無線鏈路。另外，在不脫離申請專利範圍之範疇之情形下各種組件及/或方法步驟/方塊可以除了明確揭示之彼等配置外之配置進行實施。

鑒於此等教示，一般熟習此項技術者將容易想到其他實施例及修改。因此，當結合以上說明書及隨附圖式來檢視時，以下申請專利範圍意欲涵蓋所有此等實施例及修改。

100．．．通信系統

102．．．頭戴式耳機

103．．．無線鏈路

104．．．行動通信裝置(MCD)

106．．．麥克風

108．．．次要麥克風

110．．．聲源

301．．．天線

303．．．天線

308．．．短程無線介面

310．．．控制器

311．．．處理器

312．．．麥克風輸入電路

313．．．記憶體

314．．．收發器

315．．．麥克風輸入電路

320．．．短程無線介面

324．．．控制器

326．．．處理器

328．．．記憶體

329．．．音訊處理程式

330．．．無線廣域網路(WWAN)介面

332．．．無線收發器

336．．．收發器

400．．．方塊

402．．．方塊/線性回音消除器

404．．．延遲補償方塊

406．．．取樣率補償方塊

408．．．方塊

410．．．方塊

500．．．無線頻道延遲

502．．．T_x 處理

504．．．R_x 處理

506．．．頭戴式耳機揚聲器

602．．．方塊

604．．．低通濾波器(LPF)

606．．．低通濾波器

608．．．方塊

700．．．話音活動偵測(VAD)

800．．．盲源分離(BSS)模組

852．．．BSS濾波器/第二階段

854．．．低通濾波器(LPF)

856．．．低通濾波器

858．．．BSS濾波器學習及更新模組

970．．．快速傅裏葉變換(FFT)方塊

972．．．BSS濾波器方塊

974．．．後處理方塊

976．．．快速傅裏葉逆變換(IFFT)方塊

1000．．．波束成形方法

1100．．．空間分集接收技術

t_d ．．．延遲值

x₁ (n)．．．數位化主要麥克風信號樣本

x₂ (n)．．．數位化次要麥克風信號樣本

圖1為包括具有多重麥克風之行動通信裝置及頭戴式耳機的例示性通信系統之圖；

圖2為說明處理來自多重麥克風之音訊信號的方法之流程圖；

圖3為展示圖1之行動通信裝置及頭戴式耳機的某些組件之方塊圖；

圖4為使用不同裝置上之兩個麥克風的一般多重麥克風信號處理之過程方塊圖；

圖5為說明例示性麥克風信號延遲估計方法之圖；

圖6為改進麥克風信號延遲估計之過程方塊圖；

圖7為利用不同裝置上之兩個麥克風之話音活動偵測(VAD)之過程方塊圖；

圖8為利用不同裝置上之兩個麥克風之BSS之過程方塊圖；

圖9為使用兩個麥克風信號之經修改BSS實施之過程方塊圖；

圖10為經修改頻域BSS實施之過程方塊圖；

圖11為利用不同裝置上之兩個麥克風的波束成形方法之過程方塊圖；及

圖12為利用不同裝置上之兩個麥克風的空間分集接收技術之過程方塊圖。