TW201901662A

TW201901662A - 用於具有可變麥克風陣列定向之耳機之雙麥克風語音處理

Info

Publication number: TW201901662A
Application number: TW107116242A
Authority: TW
Inventors: 賽姆爾 P 艾比尼澤; 拉希德克考德
Original assignee: 英商思睿邏輯國際半導體有限公司
Priority date: 2017-05-15
Filing date: 2018-05-14
Publication date: 2019-01-01
Also published as: US10297267B2; GB201709855D0; KR102352928B1; WO2018213102A1; GB2575404B; CN110741434B; GB2562544A; KR20200034670A; TWI713844B; US20180330745A1; GB2575404A; CN110741434A; GB201915795D0

Abstract

根據本發明之實施例，提供一種用於具有複數個麥克風之一陣列之一音訊裝置中之語音處理之方法，其中該陣列能夠具有相對於該陣列之一使用者之複數個位置定向。該方法可包含週期性地計算複數個正規化互相關函數，各互相關函數對應於該陣列相對於一所要話音源之一可能定向；基於該複數個正規化互相關函數判定該陣列相對於該所要源之一定向；基於該複數個正規化互相關函數偵測該定向之改變；及回應於該定向之一改變，動態地修改該音訊裝置之語音處理參數使得保存來自該所要源之話音同時降低干擾聲音。

Description

用於具有可變麥克風陣列定向之耳機之雙麥克風語音處理

本發明之代表性實施例之領域係關於關於一音訊裝置中之語音應用或與一音訊裝置中之語音應用相關之方法、設備及實施方案。應用包含用於具有相對於一所要話音源之一可變麥克風陣列定向之耳機之雙麥克風語音處理。

語音活動偵測(VAD)(亦稱為話音活動偵測或話音偵測)係用於話音處理之其中偵測人類話音之存在或缺乏之一技術。VDA可用於各種應用中，包含噪音抑制器、背景噪音估計器、適應性波束形成器、動態波束操縱、始終開啟語音偵測及基於交談之播放管理。許多語音活動偵測應用可採用可(例如)在一語音通信(諸如一呼叫)期間使用之一基於雙麥克風之話音增強及/或噪音降低演算法。大多數傳統雙麥克風演算法假定麥克風陣列相對於一所要聲音源(例如，一使用者之嘴)之一定向固定且先驗已知。可利用相對於所要聲音源之此陣列位置之此先前知識以保存一使用者之話音同時減少來自其他方向之干擾信號。

具有一雙麥克風陣列之耳機可呈現數個不同尺寸及形狀。歸因於一些耳機(諸如入耳式運動耳機)之小尺寸，耳機可具有在其之一耳塞上放置雙麥克風陣列之有限空間。再者，將麥克風放置成接近耳塞中之一接收器可能會引起回音相關問題。因此，許多入耳式耳機通常包含放置於耳機之一音量控制盒上之一麥克風且在語音呼叫處理期間使用一基於單一麥克風之噪音降低演算法。在此方法中，當存在一中等至高位準之背景噪音時，語音品質可受損。使用組裝在音量控制盒中之雙麥克風可改良噪音降低效能。在一運動類型耳機中，控制盒可頻繁地移動且相對於一使用者之嘴之控制盒位置可取決於使用者偏好、使用者移動或其他因素而處於空間中之任何點處。舉例而言，在一具有噪音的環境中，為了增加之輸入信雜比，使用者可接近嘴手動地放置控制盒。在此等情況中，使用其中麥克風放置於控制盒中之用於語音處理之一雙麥克風方法可係一挑戰性任務。

根據本發明之教示，可減少或消除與耳機中之語音處理之現有方法相關聯之一或多個缺點及問題。

根據本發明之此等及其他實施例，一種用於實施一音訊裝置之至少一部分之積體電路可包含：一音訊輸出，其經組態以藉由產生用於至該音訊裝置之至少一個轉換器之通信之一音訊輸出信號而重現音訊資訊；複數個麥克風之一陣列，其中該陣列能夠具有相對於該陣列之一使用者之複數個位置定向；及一處理器，其經組態以實施一近場偵測器。該處理器可經組態以週期性地計算複數個正規化互相關函數，各互相關函數對應於該陣列相對於一所要話音源之一可能定向；基於該複數個正規化互相關函數判定該陣列相對於該所要源之一定向；基於該複數個正規化互相關函數偵測該定向之改變；且回應於該定向之一改變，動態地修改該音訊裝置之語音處理參數使得保存來自該所要源之話音同時降低干擾聲音。

自本文中包含之圖、描述及發明申請專利範圍，一般技術者可容易明白本發明之技術優點。實施例之目的及優點將至少由發明申請專利範圍中特別指出之元件、特徵及組合實現及達成。

應理解，前述一般描述及以下詳細描述兩者係實例及說明性的且不限制本發明中闡述之發明申請專利範圍。

在本發明中，提出用於使用對於相對於一所要聲音源(例如，使用者之嘴)之控制盒位置之任何改變穩健之一雙麥克風陣列之語音處理之系統及方法。具體言之，揭示用於使用一雙麥克風陣列追蹤到達方向之系統及方法。此外，本文中之系統及方法包含使用基於相關之近場測試統計資料來準確地追蹤到達方向而無任何錯誤警報以避免錯誤切換。此空間統計資料可接著用於動態地修改一話音增強程序。

根據本發明之實施例，一自動播放管理框架可使用一或多個音訊事件偵測器。用於一音訊裝置之此等音訊事件偵測器可包含：一近場偵測器，其在音訊裝置之近場中之聲音被偵測時(諸如在音訊裝置之一使用者(例如，佩戴或以其他方式使用音訊裝置之一使用者)講話時)可偵測；一近接偵測器，其在接近音訊裝置之聲音被偵測到時(諸如在接近音訊裝置之使用者之另一人講話時)可偵測；及一音調警報偵測器，其偵測可在音訊裝置附近起源之聲學警報。圖1繪示根據本發明之實施例之其中可結合一播放管理系統使用此等偵測器以增強一使用者體驗之一使用情況案例之一實例。

圖2繪示根據本發明之實施例之基於來自一事件偵測器2之一決策修改一播放信號之一例示性播放管理系統。一處理器7中之信號處理功能性可包括一聲學回音消除器1，該聲學回音消除器1可消除歸因於一輸出音訊轉換器8 (例如，揚聲器)與麥克風9之間之一回音耦合而在麥克風9處接收之一聲學回音。可將回音降低信號傳達至事件偵測器2，該事件偵測器2可偵測一或多個各種周圍事件，包含(不限於)藉由近場偵測器3偵測之一近場事件(例如，包含(但不限於)來自一音訊裝置之一使用者之一話音)、藉由近接偵測器4偵測之一近接事件(例如，包含(但不限於)話音或除了近場聲音之外之其他周圍聲音)及/或藉由警報偵測器5偵測之一音調警報事件。若偵測到一音訊事件，則一基於事件之播放控制件6可修改重現至輸出音訊轉換器8之音訊資訊(在圖2中展示為「播放內容」)之一特性。音訊資訊可包含可在輸出音訊轉換器8處重現之任何資訊，包含(不限於)與經由一通信網路(例如，一蜂巢式網路)接收之一電話交談相關聯之下行鏈路話音及/或來自一內部音訊源(例如，音樂檔案、視訊檔案等)之內部音訊。

如圖2中展示，近場偵測器3可包含可由近場偵測器3利用以偵測近場事件之一語音活動偵測器11。語音活動偵測器11可包含經組態以執行話音處理以偵測人類話音之存在或缺乏之任何適合系統、裝置或設備。根據此處理，語音活動偵測器11可偵測近場話音之存在。

如圖2中展示，近接偵測器4可包含可由近接偵測器4利用以偵測接近一音訊裝置之事件之一語音活動偵測器13。類似於語音活動偵測器11，語音活動偵測器13可包含經組態以執行話音處理以偵測人類話音之存在或缺乏之任何適合系統、裝置或設備。

圖3繪示根據本發明之實施例之一例示性基於操縱回應功率之波束操縱系統30。基於操縱回應功率之波束操縱系統30可藉由實施多個波束形成器33 (例如，延遲及總和及/或濾波及總和波束形成器)而操作，該多個波束形成器33之各者具有一不同視向使得整組的波束形成器33將涵蓋所要所關注場。各波束形成器33之波束寬度可取決於一麥克風陣列孔徑長度。可計算來自各波束形成器33之一輸出功率，且可藉由一基於操縱回應功率之波束選擇器35將具有一最大輸出功率之一波束形成器33切換至一輸出路徑34。波束選擇器35之切換可由具有一近場偵測器32之一語音活動偵測器31約束使得僅在話音被偵測到時藉由波束選擇器35量測輸出功率，因此防止波束選擇器35藉由回應於空間上不穩定背景脈衝噪音而在多個波束形成器33之間快速地切換。

圖4繪示根據本發明之實施例之一例示性適應性波束形成器40。適應性波束形成器40可包括能夠基於經接收資料按改變噪音條件調適之任何系統、裝置或設備。一般言之，相較於固定波束形成器，一適應性波束形成器可達成更高噪音消除或干擾抑制。如圖4中展示，將適應性波束形成器40實施為一一般化旁波瓣消除器(GSC)。因此，適應性波束形成器40可包括一固定波束形成器43、阻擋矩陣44及包括一適應性濾波器46之一多輸入適應性噪音消除器45。若適應性濾波器46欲始終調適，則其可訓練至話音洩漏，從而亦在一減法階段47期間引起話音失真。為了增加適應性波束形成器40之穩健性，具有一近場偵測器42之一語音活動偵測器41可將一控制信號傳達至適應性濾波器46以在存在話音之情況下停用訓練或調適。在此等實施方案中，語音活動偵測器41可控制一噪音估計週期，其中無論何時存在話音皆不估計背景噪音。類似地，可藉由使用一適應性阻擋矩陣而進一步改良一GSC對話音洩漏之穩健性，對其之控制可包含具有一脈衝噪音偵測器之一經改良語音活動偵測器，如標題為「Adaptive Block Matrix Using Pre-Whitening for Adaptive Beam Forming」之美國專利第9,607,603號中描述。

圖5繪示根據本發明之實施例之展示一運動耳機49中之麥克風51 (例如，51a、51b)相對於一使用者之嘴48之各種可能定向之一示意圖，其中使用者之嘴係所要語音相關聲音源。

圖6繪示根據本發明之實施例之用於實施用於具有一可變麥克風陣列定向之一耳機之雙麥克風語音處理之一音訊裝置50之選定組件之一方塊圖。如展示，音訊裝置50可包含麥克風輸入52及一處理器53。一麥克風輸入52可包含經組態以接收指示一麥克風51上之聲學壓力之一電信號(例如，x₁ 、x₂ )之任何電節點。在一些實施例中，此等電信號可由定位於與一音訊耳機相關聯之一控制器盒(有時稱為一通信盒)上之各自麥克風51產生。處理器53可通信地耦合至麥克風輸入52且可經組態以接收藉由耦合至麥克風輸入52之麥克風51產生之電信號且處理此等信號以執行語音處理，如本文中進一步詳述。雖然為了清除描述之目的未展示，但一各自類比轉數位轉換器可耦合於各麥克風51與其等各自麥克風輸入52之間以便將藉由此等麥克風產生之類比信號轉換為可藉由處理器53處理之對應數位信號。

如圖6中展示，處理器53可實施複數個波束形成器54、一控制器56、一波束選擇器58、一零波束形成器60、一空間上受控適應性濾波器62、一空間上受控噪音降低器64及一空間上受控自動位準控制器66。

波束形成器54可包括對應於麥克風輸入52之麥克風輸入，其等可基於藉由此等輸入接收之麥克風信號(例如，x₁ 、x₂ )而產生複數個波束。複數個波束形成器54之各者可經組態以形成複數個波束之一各自者以空間上對來自耦合至麥克風輸入52之麥克風51之可聽聲音濾波。在一些實施例中，各波束形成器54可包括經組態以在一所要視向上形成一各自單向波束以接收來自耦合至麥克風輸入52之麥克風51之可聽聲音且空間上對該等可聽聲音濾波之一單向波束形成器，其中各此各自單向波束在不同於藉由其他單向波束形成器54形成之全部其他單向波束之方向之一方向上可具有一空間零波束，使得藉由單向波束形成器54形成之波束全部具有一不同視向。

在一些實施例中，波束形成器54可實施為時域波束形成器。藉由波束形成器54形成之各種波束可在操作期間之全部時間形成。雖然圖6將處理器53描繪為實施三個波束形成器54，但應注意，可自耦合至麥克風輸入52之麥克風51形成任何適合數目個波束。此外，應注意，根據本發明之一語音處理系統可包括任何適合數目個麥克風51、麥克風輸入52及波束形成器54。

針對諸如圖6中描繪之雙麥克風陣列之一雙麥克風陣列，波束形成器54在一擴散噪音場中之效能可僅在最大化麥克風51之空間分集時最佳化。當最大化耦合至麥克風輸入52之兩個麥克風51之間之所要話音之到達之時間差時最大化空間分集。在圖6中展示之三個波束形成器實施方案中，針對波束形成器2之到達之時間差可通常小且因此自波束形成器2之信雜比(SNR)改良可受限。針對波束形成器1及3，當所要話音自麥克風51之一陣列之任一端到達(例如，「端射」)時，可最大化波束形成器位置。因此，在圖6中展示之三個波束形成器實例中，波束形成器1及3可使用延遲及差分波束形成器實施且波束形成器2可使用一延遲及求和波束形成器實施。波束形成器54之此選擇可最佳地使波束形成器效能與所要信號到達方向對準。

為了最佳效能且為了對耦合至麥克風輸入52之麥克風之製造公差提供空間，波束形成器54可各包含一麥克風校準子系統68以便在混合兩個麥克風信號之前校準輸入信號(例如，x₁ 、x₂ )。舉例而言，一麥克風信號位準差異可由麥克風靈敏度之差異及相關聯麥克風組裝/啟動差異引起。由一所要聲音源與麥克風陣列之一緊密接近性引起之一近場傳播損耗效應亦可引入麥克風位準差異。此近場效應之程度可基於相對於所要源之不同麥克風定向而變動。亦可利用此近場效應以偵測麥克風51之陣列之定向，如下文進一步描述。

簡要參考圖7，圖7繪示根據本發明之實施例之一麥克風校準子系統68之選定組件之一方塊圖。如圖7中展示，麥克風校準子系統68可被分割成兩個單獨校準區塊。一第一區塊70可補償個別麥克風通道之間之靈敏度差異，且(例如，藉由麥克風補償區塊72)應用至區塊70中之麥克風信號之校準增益可僅在存在相關擴散及/或遠場噪音時被更新。一第二區塊74可補償近場效應，且(例如，藉由麥克風補償區塊76)應用至區塊74中之麥克風信號之對應校準增益可僅在偵測到所要話音時被更新。因此，再次參考圖6，波束形成器54可混合經補償麥克風信號且可將波束形成器輸出產生為：波束形成器1 (延遲及差分)：波束形成器2 (延遲及總和)：波束形成器3 (延遲及差分)：其中係針對更接近麥克風51b定位之一干擾信號源之麥克風51b與麥克風51a之間之到達之時間差，係針對更接近麥克風51a定位之一干擾信號源之麥克風51a與麥克風51b之間之到達之時間差，且及係使自圖5中展示之位置2到達之信號與(例如)寬邊位置時間對準所需之時間延遲，。波束形成器54可將此等時間延遲計算為：其中d係麥克風51之間之間距，c係聲音速度，F_s 係取樣頻率且及分別係在波束形成器1及3之視向上到達之主要干擾信號。

延遲及差分波束形成器(例如，波束形成器1及3)可經受一高通濾波效應，且一截止頻率及一阻帶抑制可由麥克風間距、視向、零波束方向及歸因於近場效應之傳播損耗差異影響。可藉由在波束形成器1及3之各自輸出處應用一低通等化濾波器78而補償高通濾波效應。可藉由以下項給定低通等化濾波器78之頻率回應：其中係可自校準子系統68估計之近場傳播損耗差異，係朝向其聚焦波束之視向且係預期干擾自其到達之零波束方向。到達估計doa之一方向及藉由控制器56產生之近場控制項可用於動態地設定位置特定波束形成器參數，如下文更詳細描述。一替代架構可包含接著為一適應性空間濾波器之一固定波束形成器以增強一動態變動噪音場中之噪音消除效能。作為一特定實例，針對波束形成器1，視向及零波束方向可分別設定為-90°及30°，且針對波束形成器3，對應角度參數可分別設定為90°及30°。針對波束形成器2，視向可設定為0°，其可在一非同調噪音場中提供一信雜比改良。應注意，對應於波束形成器3之視向之麥克風陣列之一位置可具有與一所要聲音源(例如，使用者之嘴)之緊密接近性且因此，可針對波束形成器1及3不同地設定低通等化濾波器78之頻率回應。

波束選擇器58可包含經組態以自波束形成器54接收同時形成之複數個波束且基於來自控制器56之一或多個控制信號而選擇將同時形成之波束之哪些輸出至空間上受控適應性濾波器62之任何適合系統、裝置或設備。另外，無論何時發生其中選定波束形成器54改變之麥克風陣列之一經偵測定向之一改變，波束選擇器58亦可藉由混合波束形成器54之輸出而在選擇之間轉變，以便產生由波束之間之此一轉變引起之假影。因此，波束選擇器58可包含用於波束形成器54之各輸出之一增益區塊且可在一時間段內修改應用至輸出之增益以在波束選擇器58自一個選定波束形成器54轉變至另一選定波束形成器54時確保波束形成器輸出之平滑混合。用以達成此平滑化之一例示性方法可係使用一簡單的基於遞迴平均濾波之方法。具體言之，若i及j分別係在陣列定向改變之前及之後之耳機位置，且恰在切換之前之對應增益分別係1及0，則在此等波束形成器54之間之選擇之轉變期間，針對此兩個波束形成器54之增益可被修改為：

其中係控制增益之一斜坡上升時間之一平滑常數。參數可定義到達最終穩定狀態增益之63.2%所需之一時間。重要的係應注意，此兩個增益值之總和在任何時刻皆維持為1，藉此確保相等能量輸入信號之能量保存。圖8繪示根據本發明之描繪此增益混合方案之一曲線圖。

自選定之固定混合波束形成器54之任何信雜比(SNR)改良在一擴散噪音場中可係最佳的。然而，若指向性干擾噪音在空間上不穩定，則SNR改良可受限。為了改良SNR，處理器53可實施空間上受控適應性濾波器62。簡要參考圖9，圖9繪示根據本發明之實施例之一例示性空間上受控適應性濾波器62之選定組件之一方塊圖。在操作中，空間上受控適應性濾波器62可具有動態地操縱一選定波束形成器54之一零波束朝向一主要指向性干擾噪音之能力。可僅在未偵測到所要話音時更新空間上受控適應性濾波器62之濾波係數。藉由組合兩個麥克風信號x₁ 及x₂ 而產生至空間上受控適應性濾波器62之一參考信號，使得參考信號b[n]包含儘可能少的所要話音信號以避免話音抑制。零波束形成器60可產生具有聚焦朝向一所要話音方向之一零波束之參考信號b[n]。零波束形成器60可將參考信號b[n]產生為：針對圖5中展示之位置1 (延遲及差分)：針對圖5中展示之位置2 (延遲及差分)：針對圖5中展示之位置3 (延遲及差分)：其中及係補償近場傳播損耗效應之校準增益(下文更詳細描述)，其中此等經校準值針對各種耳機位置可係不同的，且其中：其中及分別係位置1及3中之一所要信號方向。零波束形成器60包含兩個校準增益以減少噪音參考信號之所要話音洩漏。位置2中之零波束形成器60可係一延遲及差分波束形成器且其可使用用於一前端波束形成器54中之相同時間延遲。替代一單一零波束形成器60，亦可使用類似於前端波束形成器54之一組零波束形成器。在其他替代實施例中，可使用其他零波束形成器實施方案。

作為一闡釋性實例，在圖10中描繪針對一選定固定前端波束形成器54及噪音參考零波束形成器60之對應於圖5之位置3之波束型樣(例如，自90°之一角度到達之所要話音)。在操作中，零波束形成器60可係適應性在於隨著所要話音方向變動，其可動態地修改其零波束。

圖11繪示根據本發明之實施例之一例示性控制器56之選定組件。如圖11中展示，控制器56可實施一正規化互相關區塊80、一正規化最大相關區塊82、一方向特定相關區塊84、一到達方向區塊86、一寬邊統計資料區塊88、一麥克風間位準差異區塊90及複數個話音偵測器92 (例如，話音偵測器92a、92b及92c)。

當一聲源接近一麥克風51時，此麥克風之一直接對混響信號比率可通常係高的。直接對混響比率可取決於房間/圍封殼及在一近場源與一麥克風51之間之路徑中之其他實體結構之一混響時間(RT₆₀ )。當源與麥克風51之間之距離增加時，直接對混響比率可歸因於直接路徑中之傳播損耗而減小，且混響信號之能量可相當於直接路徑信號。此概念可由控制器56之組件使用以導出將指示對陣列位置穩健之一近場信號之存在之一有價值的統計資料。正規化互相關區塊80可將麥克風51之間之一互相關序列計算為：其中m之範圍係：。正規化最大相關區塊82可使用互相關序列以將一最大正規化相關統計資料計算為：其中對應於第i個麥克風能量。正規化最大相關區塊82亦可將平滑化應用至此結果以將一正規化最大相關統計資料normMaxCorr產生為：其中係一平滑常數。

方向特定相關區塊84可能夠計算偵測來自位置1及3之話音所需之一方向特定相關統計資料dirCorr，如如下在圖12中展示。首先，方向特定相關區塊84可判定不同指向性區域內之正規化互相關函數之一最大值：

第二，方向特定相關區塊84可如下判定指向性相關統計資料之間之一最大偏差：

最後，方向特定相關區塊84可如下計算方向特定相關統計資料dirCorr：

圖13繪示展示自具有自圖5中展示之位置1及3到達之話音之一雙麥克風陣列獲得之方向特定相關統計資料dirCorr之一曲線圖。如自圖13所見，方向特定相關統計資料dirCorr可提供鑑別以偵測位置1及3。

然而，方向特定相關統計資料dirCorr可無法在圖5中展示之位置2中之話音與擴散背景噪音之間鑑別。然而，寬邊統計資料區塊88可藉由以下項而偵測來自位置2之話音：估計來自區域之指向性最大正規化互相關統計資料之一變異數，且判定此變異數是否小，其可指示自一寬邊方向(例如，位置2)到達之一近場信號。寬邊統計資料區塊88可藉由追蹤統計資料之移動平均值而將變異數計算為：其中係之平均值，係對應於移動平均值之一持續時間之一平滑常數且表示之變異數。

互相關序列之一空間解析度可首先藉由使用一拉格朗日(Lagrange)內插函數內插互相關序列而增加。到達方向區塊86可藉由選擇對應於經內插互相關序列之一最大值之一滯後而將到達方向(DOA)統計資料doa計算為：到達方向區塊86可藉由使用以下方程式而將此選定滯後指數轉換為一角度值以將DOA統計資料doa判定為：其中係經內插取樣頻率且r係內插速率。為了減小歸因於離群點之估計誤差，到達方向區塊86可使用中值濾波器DOA統計資料doa來提供原始DOA統計資料doa之一平滑版本。中值濾波器窗口大小可被設定為估計之任何適合數目(例如，3)。

若一雙麥克風陣列在所要信號源附近，則麥克風間位準差異區塊90可藉由比較兩個麥克風51之間之信號位準而利用R² 損耗現象以產生一麥克風間位準差異統計資料imd。若近場信號比遠場信號顯著更響，則此麥克風間位準差異統計資料imd可用於在一近場所要信號與一遠場或擴散場干擾信號之間區分。麥克風間位準差異區塊90可將麥克風間位準差異統計資料imd計算為第一麥克風信號x₁ 之能量對第二麥克風能量x₂ 之比率：。麥克風間位準差異區塊90可將此結果平滑化為：。

可僅在話音存在於背景中時觸發一選定波束藉由波束選擇器58之切換。為了避免來自可自不同方向到達之競爭說話者話音之錯誤警報，可使用語音活動偵測之三個例項。具體言之，話音偵測器92可對波束形成器54之輸出執行語音活動偵測。舉例而言，為了切換至波束形成器1，話音偵測器92a必須偵測波束形成器1之輸出處之話音。可使用用於偵測一給定輸入信號中之話音之存在之任何適合技術。

控制器56可經組態以使用上文描述之各種統計資料以偵測來自麥克風陣列之定向之各種位置之話音之存在。

圖14繪示根據本發明之實施例之描繪可藉由控制器56進行以判定是否存在來自如圖5中展示之位置1之話音之例示性比較之一流程圖。如圖14中展示，在以下情況下可判定存在來自位置1之話音：(i)到達方向統計資料doa在一特定範圍內；(ii)方向特定相關統計資料dirCorr高於一預定臨限值；(iii)正規化最大相關統計資料normMaxCorr高於一預定臨限值；(iv)麥克風間位準差異統計資料imd大於一預定臨限值；及(v)話音偵測器92a偵測存在來自位置1之話音。

圖15繪示根據本發明之實施例之描繪可藉由控制器56進行以判定是否存在來自如圖5中展示之位置2之話音之例示性比較之一流程圖。如圖15中展示，在以下情況下可判定存在來自位置2之話音：(i)到達方向統計資料doa在一特定範圍內；(ii)寬邊統計資料低於一特定臨限值；(iii)正規化最大相關統計資料normMaxCorr高於一預定臨限值；(iv)麥克風間位準差異統計資料imd在指示麥克風信號x₁ 及x₂ 具有近似相同能量之一範圍內；及(v)話音偵測器92b偵測存在來自位置2之話音。

圖16繪示根據本發明之實施例之描繪可藉由控制器56進行以判定是否存在來自如圖5中展示之位置3之話音之例示性比較之一流程圖。如圖16中展示，在以下情況下可判定存在來自位置3之話音：(i)到達方向統計資料doa在一特定範圍內；(ii)方向特定相關統計資料dirCorr低於一預定臨限值；(iii)正規化最大相關統計資料normMaxCorr高於一預定臨限值；(iv)麥克風間位準差異統計資料imd小於一預定臨限值；及(v)話音偵測器92c偵測存在來自位置3之話音。

如圖17中展示，控制器56可實施推遲邏輯以避免選定波束形成器54之過早或頻繁切換。舉例而言，如圖17中展示，當已發生一未選定波束形成器54之視向中之臨限值數目個瞬時話音偵測時，控制器56可引起波束選擇器58在波束形成器54之間切換。舉例而言，在步驟102處，推遲邏輯可藉由判定是否偵測到來自一位置「i」之聲音而開始。若未偵測到來自位置「i」之聲音，則在步驟104處，推遲邏輯可判定是否偵測到來自另一位置之聲音。若偵測到來自另一位置之聲音，則在步驟106處，推遲邏輯可重設位置「i」之一推遲計數器。

若在步驟102處，若偵測到來自位置「i」之聲音，則在步驟108處，推遲邏輯可使位置「i」之推遲計數器增量。

在步驟110處，推遲邏輯可判定位置「i」之推遲計數器是否大於一臨限值。若小於臨限值，則在步驟112處，控制器56可將選定波束形成器54維持於當前位置中。否則，若大於臨限值，則在步驟114處，控制器56可將選定波束形成器54切換至具有位置「i」之一視向之波束形成器54。

如上文描述之推遲邏輯可在各所關注位置/視向中實施。

再次參考圖6，在藉由空間上受控適應性濾波器62處理之後，所得信號可藉由其他信號處理區塊處理。舉例而言，若藉由控制器56產生之空間控制項指示類話音干擾非所要話音，則空間上受控噪音降低器64可改良背景噪音之一估計。

此外，當改變麥克風陣列之一定向時，麥克風輸入信號位準可依據與使用者之嘴的陣列接近性而變化。此突然信號位準改變可在經處理輸出處引入非所要音訊假影。因此，空間上受控自動位準控制器66可基於麥克風陣列之定向之改變而動態地控制信號壓縮/擴展位準。舉例而言，當將陣列帶至非常接近嘴時，可將衰減快速地應用至輸入信號以避免飽和。具體言之，若陣列自位置1移動至位置3，則最初在位置1中調適之自動位準控制系統中之正增益可對來自位置3之信號削波。類似地，若陣列自位置3移動至位置1，則意欲針對位置3之自動位準控制系統中之負增益可衰減來自位置1之信號，藉此引起經處理輸出安靜直至增益針對位置3返回調適。因此，空間上受控自動位準控制器66可藉由啟動具有針對各位置相關之一初始增益之一自動位準控制而緩解此等問題。空間上受控自動位準控制器66亦可自此初始增益調適以考量話音位準動力學。

尤其獲益於本發明之一般技術者應理解，尤其接合圖在本文中描述之各種操作可藉由其他電路或其他硬體組件實施。執行一給定方法之各操作之順序可改變，且可新增、記錄、組合、省略、修改等本文中繪示之系統之各種元件。本發明旨在包含全部此等修改及改變且因此，應將上文描述視為一闡釋性而非一限制性意義。

類似地，雖然本發明參考特定實施例，但可對該等實施例做出某些修改及改變而不脫離本發明之範疇及涵蓋範圍。再者，對關於特定實施例在本文中描述之任何益處、優點或對問題之解決方案不旨在理解為一關鍵、需要或基本特徵或元件。

同樣地，獲益於本發明之一般技術者將明白進一步實施例且應將此等實施例視為涵蓋在本文中。

1‧‧‧聲學回音消除器

2‧‧‧事件偵測器

3‧‧‧近場偵測器

4‧‧‧近接偵測器

5‧‧‧警報偵測器

6‧‧‧基於事件之播放控制件

7‧‧‧處理器

8‧‧‧輸出音訊轉換器

9‧‧‧麥克風

11‧‧‧語音活動偵測器

13‧‧‧語音活動偵測器

30‧‧‧基於操縱回應功率之波束操縱系統

31‧‧‧語音活動偵測器

32‧‧‧近場偵測器

33‧‧‧波束形成器

34‧‧‧輸出路徑

35‧‧‧基於操縱回應功率之波束選擇器

40‧‧‧適應性波束形成器

41‧‧‧語音活動偵測器

42‧‧‧近場偵測器

43‧‧‧固定波束形成器

44‧‧‧阻擋矩陣

45‧‧‧多輸入適應性噪音消除器

46‧‧‧適應性濾波器

47‧‧‧減法階段

48‧‧‧使用者之嘴

49‧‧‧運動耳機

50‧‧‧音訊裝置

51‧‧‧麥克風

51a‧‧‧麥克風

51b‧‧‧麥克風

52‧‧‧麥克風輸入

53‧‧‧處理器

54‧‧‧波束形成器

56‧‧‧控制器

58‧‧‧波束選擇器

60‧‧‧零波束形成器

62‧‧‧空間上受控適應性濾波器

64‧‧‧空間上受控噪音降低器

66‧‧‧空間上受控自動位準控制器

68‧‧‧麥克風校準子系統

70‧‧‧第一區塊

72‧‧‧麥克風補償區塊

74‧‧‧第二區塊

76‧‧‧麥克風補償區塊

78‧‧‧低通等化濾波器

80‧‧‧正規化互相關區塊

82‧‧‧正規化最大相關區塊

84‧‧‧方向特定相關區塊

86‧‧‧到達方向區塊

88‧‧‧寬邊統計資料區塊

90‧‧‧麥克風間位準差異區塊

92‧‧‧話音偵測器

92a‧‧‧話音偵測器

92b‧‧‧話音偵測器

92c‧‧‧話音偵測器

102‧‧‧步驟

104‧‧‧步驟

106‧‧‧步驟

108‧‧‧步驟

110‧‧‧步驟

112‧‧‧步驟

114‧‧‧步驟

x₁‧‧‧電信號

x₂‧‧‧電信號

可藉由參考結合隨附圖式進行之以下描述而獲取實例、本實施例及其某些優點之一更完整理解，其中相同元件符號指示相同特徵，且其中：圖1繪示根據本發明之實施例之其中可結合一播放管理系統使用各種偵測器以增強一使用者體驗之一使用情況案例之一實例；圖2繪示根據本發明之實施例之一例示性播放管理系統；圖3繪示根據本發明之實施例之一例示性基於操縱回應功率之波束操縱系統；圖4繪示根據本發明之實施例之一例示性適應性波束形成器；圖5繪示根據本發明之實施例之展示一運動耳機中之麥克風之各種可能定向之一示意圖；圖6繪示根據本發明之實施例之用於實施用於具有一可變麥克風陣列定向之一耳機之雙麥克風語音處理之一音訊裝置之選定組件之一方塊圖；圖7繪示根據本發明之實施例之一麥克風校準子系統之選定組件之一方塊圖；圖8繪示根據本發明之描繪波束形成器之一例示性增益混合方案之一曲線圖；圖9繪示根據本發明之實施例之一例示性空間上受控適應性濾波器之選定組件之一方塊圖；圖10繪示根據本發明之描繪對應於一麥克風陣列之一特定定向之波束型樣之一實例之一曲線圖；圖11繪示根據本發明之實施例之一例示性控制器之選定組件；圖12繪示根據本發明之實施例之描繪一雙麥克風陣列之例示性可能方向範圍之一圖式；圖13繪示根據本發明之實施例之描繪自具有自圖5中展示之位置1及3到達之話音之一雙麥克風陣列獲得之一方向特定相關統計資料之一曲線圖；圖14繪示根據本發明之實施例之描繪待進行以判定是否存在來自相對於一麥克風陣列之一第一特定方向之話音之例示性比較之一流程圖；圖15繪示根據本發明之實施例之描繪待進行以判定是否存在來自相對於一麥克風陣列之一第二特定方向之話音之例示性比較之一流程圖；圖16繪示根據本發明之實施例之描繪待進行以判定是否存在來自相對於一麥克風陣列之一第三特定方向之話音之例示性比較之一流程圖；及圖17繪示根據本發明之實施例之描繪一例示性推遲機制之一流程圖。

Claims

一種用於具有複數個麥克風之一陣列之一音訊裝置中之語音處理之方法，其中該陣列能夠具有相對於該陣列之一使用者之複數個位置定向，該方法包括：週期性地計算複數個正規化互相關函數，各互相關函數對應於該陣列相對於一所要話音源之一可能定向；基於該複數個正規化互相關函數判定該陣列相對於該所要話音源之一定向；基於該複數個正規化互相關函數偵測該陣列之該定向之改變；及回應於該陣列之該定向之一改變，動態地修改該音訊裝置之語音處理參數使得保存來自該所要話音源之話音同時降低干擾聲音。
如請求項1之方法，其中該音訊裝置包括一耳機。
如請求項2之方法，其中該複數個麥克風之該陣列定位於該耳機之一控制盒中使得該複數個麥克風之該陣列相對於該所要話音源之位置不固定。
如請求項1之方法，其中該所要話音源係該使用者之嘴。
如請求項1之方法，其中修改語音處理參數包括自該音訊裝置之複數個指向性波束形成器選擇一指向性波束形成器用於處理音能。
如請求項5之方法，其進一步包括回應於以下項之至少一者之一存在而校準該複數個麥克風之該陣列：用於近場傳播損耗之補償之近場話音、擴散噪音及遠場噪音。
如請求項6之方法，其中校準該複數個麥克風之該陣列包括產生由該指向性波束形成器用於處理音能之一校準信號。
如請求項6之方法，其中校準該複數個麥克風之該陣列包括基於該陣列之定向之該改變而校準。
如請求項5之方法，其進一步包括基於該複數個指向性波束形成器之一輸出而偵測話音之存在。
如請求項1之方法，其中基於該陣列之定向之該改變而動態地修改該指向性波束形成器之一視向。
如請求項1之方法，其中動態地修改該音訊裝置之語音處理參數包括處理話音以考量該複數個麥克風之該陣列相對於該所要話音源之接近性之改變。
如請求項1之方法，其進一步包括使用一適應性空間濾波器適應地消除空間上不穩定噪音。
如請求項12之方法，其進一步包括使用一適應性零波束形成器產生一噪音參考至該適應性空間濾波器。
如請求項13之方法，其進一步包括：追蹤來自該所要話音源之話音之一到達方向；及基於話音之該到達方向及該陣列之定向之該改變動態地修改該適應性零波束形成器之一零波束方向。
如請求項13之方法，其進一步包括回應於以下項之至少一者之一存在而校準該複數個麥克風之該陣列：用於近場傳播損耗之補償之近場話音、擴散噪音及遠場噪音，其中校準該複數個麥克風之該陣列包括產生該噪音參考。
如請求項12之方法，其包括：監測近場話音之一存在；及回應於近場話音之該存在之偵測而暫停該適應性空間濾波器之調適。
如請求項1之方法，其進一步包括追蹤來自該所要話音源之話音之一到達方向。
如請求項1之方法，其進一步包括基於該陣列之該定向而控制一單一通道噪音降低演算法之噪音估計。
如請求項1之方法，其進一步包括基於該複數個正規化互相關函數、來自一所要聲音源之一到達方向之一估計、一麥克風間位準差異及話音之一存在或缺乏而偵測該陣列之該定向。
如請求項1之方法，其進一步包括使用一推遲機制證實該陣列之該定向有效。
一種用於實施一音訊裝置之至少一部分之積體電路，其包括：一音訊輸出，其經組態以藉由產生用於至該音訊裝置之至少一個轉換器之通信之一音訊輸出信號而重現音訊資訊；複數個麥克風之一陣列，其中該陣列能夠具有相對於該陣列之一使用者之複數個位置定向；及一處理器，其經組態以實施一近場偵測器，該處理器經組態以：週期性地計算複數個正規化互相關函數，各互相關函數對應於該陣列相對於一所要話音源之一可能定向；基於該複數個正規化互相關函數判定該陣列相對於該所要話音源之一定向；基於該複數個正規化互相關函數偵測該陣列之該定向之改變；且回應於該陣列之該定向之一改變，動態地修改該音訊裝置之語音處理參數使得保存來自該所要話音源之話音同時降低干擾聲音。
如請求項21之積體電路，其中該音訊裝置包括一耳機。
如請求項21之積體電路，其中該複數個麥克風之該陣列定位於該耳機之一控制盒中使得該複數個麥克風之該陣列相對於該所要源之位置不固定。
如請求項21之積體電路，其中該所要話音源係該使用者之嘴。
如請求項21之積體電路，其中修改語音處理參數包括自該音訊裝置之複數個指向性波束形成器選擇一指向性波束形成器用於處理音能。
如請求項25之積體電路，其進一步包括回應於以下項之至少一者之一存在而校準該複數個麥克風之該陣列：用於近場傳播損耗之補償之近場話音、擴散噪音及遠場噪音。
如請求項26之積體電路，其中校準該複數個麥克風之該陣列包括產生由該指向性波束形成器用於處理音能之一校準信號。
如請求項26之積體電路，其中校準該複數個麥克風之該陣列包括基於該陣列之定向之該改變而校準。
如請求項25之積體電路，其進一步包括基於該複數個指向性波束形成器之一輸出而偵測話音之存在。
如請求項25之積體電路，其中基於該陣列之定向之該改變而動態地修改該指向性波束形成器之一視向。
如請求項21之積體電路，其中動態地修改該音訊裝置之語音處理參數包括處理話音以考量該複數個麥克風之該陣列相對於該所要話音源之接近性之改變。
如請求項21之積體電路，其進一步包括使用一適應性空間濾波器適應地消除空間上不穩定噪音。
如請求項32之積體電路，其進一步包括使用一適應性零波束形成器產生一噪音參考至該適應性空間濾波器。
如請求項33之積體電路，其進一步包括：追蹤來自該所要話音源之話音之一到達方向；及基於該到達方向及該陣列之定向之該改變動態地修改該適應性零波束形成器之一零波束方向。
如請求項33之積體電路，其進一步包括回應於以下項之至少一者之一存在而校準該複數個麥克風之該陣列：用於近場傳播損耗之補償之近場話音、擴散噪音及遠場噪音，其中校準該複數個麥克風之該陣列包括產生該噪音參考。
如請求項32之積體電路，其包括：監測近場話音之一存在；及回應於近場話音之該存在之偵測而暫停該適應性空間濾波器之調適。
如請求項21之積體電路，其進一步包括追蹤來自該所要話音源之話音之一到達方向。
如請求項21之積體電路，其進一步包括基於該陣列之該定向而控制一單一通道噪音降低演算法之噪音估計。
如請求項21之積體電路，其進一步包括基於該複數個正規化互相關函數、來自一所要聲音源之一到達方向之一估計、一麥克風間位準差異及話音之一存在或缺乏而偵測該陣列之該定向。
如請求項21之積體電路，其進一步包括使用一推遲機制證實該陣列之該定向有效。