TWI398855B - 多重麥克風聲音活動偵測器 - Google Patents

多重麥克風聲音活動偵測器 Download PDF

Info

Publication number
TWI398855B
TWI398855B TW097136965A TW97136965A TWI398855B TW I398855 B TWI398855 B TW I398855B TW 097136965 A TW097136965 A TW 097136965A TW 97136965 A TW97136965 A TW 97136965A TW I398855 B TWI398855 B TW I398855B
Authority
TW
Taiwan
Prior art keywords
voice
reference signal
noise
speech
feature value
Prior art date
Application number
TW097136965A
Other languages
English (en)
Other versions
TW200926151A (en
Inventor
Song Wang
Samir Kumar Gupta
Eddie L T Choy
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW200926151A publication Critical patent/TW200926151A/zh
Application granted granted Critical
Publication of TWI398855B publication Critical patent/TWI398855B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Push-Button Switches (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

多重麥克風聲音活動偵測器
本揭示案係關於音訊處理領域。特定言之,本揭示案係關於使用多重麥克風之聲音活動偵測。
本申請案係關於2006年10月20日申請之共同讓與之美國專利申請案第11/551,509號的同在申請中之申請案"Enhancement Techniques for Blind Source Separation"(代理人案號061193)及同在申請中的申請案"Apparatus and Method of Noise and Echo Reduction in Multiple Microphone Audio Systems"(代理人案號061521),其與本申請案共同申請。
可使用諸如聲音活動偵測器之信號活動偵測器來最小化電子設備中之不必要處理的量。聲音活動偵測器可選擇性地控制麥克風之後的一或多個信號處理級。
舉例而言,記錄設備可建構一聲音活動偵測器以最小化對雜訊信號之處理及記錄。聲音活動偵測器可在無聲音活動之週期期間斷開或以其他方式停用信號處理及記錄。類似地,諸如行動電話、個人設備助理或膝上型電腦之通信設備可建構一聲音活動偵測器以降低分配至雜訊信號之處理功率且減少傳輸至或以其他方式傳達至遠端目的地設備之雜訊信號。聲音活動偵測器可在無聲音活動之週期期間斷開或以其他方式停用聲音處理及傳輸。
聲音活動偵測器圓滿操作的能力可能由於改變雜訊條件及具有顯著雜訊能量之雜訊條件而被阻止。當將聲音活動偵測整合於經受動態雜訊環境之行動設備中時,聲音活動偵測器之效能可能進一步複雜化。行動設備可在相對無雜訊之環境下操作,或可在相當大的雜訊條件下操作,其中雜訊能量與聲音能量近似。
動態雜訊環境的存在使得聲音活動決策變得複雜。對聲音活動之錯誤指示可導致對雜訊信號之處理及傳輸。對雜訊信號之處理及傳輸可產生不良之使用者體驗,尤其是當歸因於聲音活動偵測器指示無聲音活動,雜訊傳輸週期不時地被不活動週期打斷時。
相反,不良之聲音活動偵測可導致聲音信號之相當大部分的丟失。聲音活動之初始部分的丟失可導致使用者需要有規律地重複對話之部分,其為不欲之條件。
傳統之聲音活動偵測(VAD)演算法僅使用一個麥克風信號。早期VAD演算法使用基於能量之標準。此類型之演算法估計臨限值以做出關於聲音活動之決策。單個麥克風VAD可很好地應付固定雜訊。然而,單個麥克風VAD在處理非固定雜訊時具有一些困難。
另一VAD技術對信號之零交叉進行計數且基於零交叉率來進行聲音活動決策。當背景雜訊為非語音信號時,此方法可良好地應付。當背景信號為類似語音之信號時,此方法無法做出可靠的決策。亦可使用諸如音高、共振峰形狀、倒譜(cepstrum)及週期性之其他特徵用於聲音活動偵測。偵測到此等特徵且將其與語音信號進行比較以做出聲音活動決策。
替代使用語音特徵,亦可使用語音存在及語音缺失之統計模型來做出聲音活動決策。在該等實施中,更新統計模型且基於統計模型之概似比來做出聲音活動決策。另一方法使用單個麥克風源隔離網路來預處理信號。使用拉格朗日程式設計神經網路(Lagrange programming neural network)之平滑化誤差信號及活動調適性臨限值來做出決策。
亦已研究基於多重麥克風之VAD演算法。多重麥克風實施例可組合雜訊抑制、臨限值調適及音高偵測以達成強健之偵測。一實施例使用線性濾波以最大化信號干擾比(SIR)。接著,使用基於統計模型之方法以使用增強之信號來偵測聲音活動。另一實施例使用線性麥克風陣列及傅立葉轉換以產生對陣列輸出向量之頻域表示。可使用頻域表示來估計信雜比(SNR),且可使用預定臨限值來偵測語音活動。又一實施例提議在基於兩個感應器之VAD方法中使用量值自乘同調(MSC)及調適性臨限值來偵測聲音活動。
聲音活動偵測演算法中之許多者在計算上昂貴且不適合於行動應用,其中功率消耗及計算複雜性值得關注。然而,部分歸因於動態雜訊環境及傳入於行動設備上之雜訊信號的非固定特徵,行動應用亦呈現出具有挑戰性的聲音活動偵測環境。
可基於一語音參考麥克風與一雜訊參考麥克風中之每一者處之能量之間的關係來進行使用多重麥克風之聲音活動偵測。可判定自語音參考麥克風及雜訊參考麥克風中之每一者輸出的能量。可判定語音與雜訊能量比且將其與預定聲音活動臨限值進行比較。在另一實施例中,判定語音之相關的絕對值及雜訊參考信號之自相關及/或自相關之絕對值,且判定基於相關值之比率。超過預定臨限值之比率可指示存在聲音信號。可使用加權平均值或在離散訊框大小上判定語音及雜訊能量或相關。
本發明之態樣包括一種偵測聲音活動之方法。該方法包括:接收來自語音參考麥克風之語音參考信號;接收來自與該語音參考麥克風相異之雜訊參考麥克風的雜訊參考信號;至少部分地基於該語音參考信號來判定語音特徵值;至少部分地基於該語音參考信號及該雜訊參考信號來判定組合特徵值;至少部分地基於該語音特徵值及該組合特徵值來判定聲音活動量度;及基於該聲音活動量度判定聲音活動狀態。
本發明之態樣包括一種偵測聲音活動之方法。該方法包括:接收來自至少一語音參考麥克風之語音參考信號;接收來自與該語音參考麥克風相異之至少一雜訊參考麥克風的雜訊參考信號;基於該語音參考信號判定自相關之絕對值;基於該語音參考信號及該雜訊參考信號判定交叉相關;至少部分地基於該語音參考信號之該自相關之該絕對值與該交叉相關的比率來判定聲音活動量度;及藉由將該聲音活動量度與至少一臨限值進行比較來判定聲音活動狀態。
本發明之態樣包括一種經組態以偵測聲音活動之裝置。該裝置包括:經組態以輸出語音參考信號之語音參考麥克風;經組態以輸出雜訊參考信號之雜訊參考麥克風;耦接至該語音參考麥克風且經組態以判定語音特徵值之語音特徵值產生器;耦接至該語音參考麥克風及該雜訊參考麥克風且經組態以判定組合特徵值的組合特徵值產生器;經組態以至少部分基於該語音特徵值及該組合特徵值來判定聲音活動量度之聲音活動量度模組;及經組態以將該聲音活動量度與臨限值進行比較且輸出聲音活動狀態的比較器。
本發明之態樣包括一種經組態以偵測聲音活動之裝置。該裝置包括:用於接收語音參考信號之構件;用於接收雜訊參考信號之構件;用於基於該語音參考信號來判定自相關之絕對值的構件;用於基於該語音參考信號及該雜訊參考信號來判定交叉相關之構件;用於至少部分地基於該語音參考信號之該自相關與該交叉相關的比率來判定聲音活動量度的構件;及用於藉由將該聲音活動量度與至少一臨限值進行比較來判定聲音活動狀態的構件。
本發明之態樣包括處理器可讀媒體,其包括可由一或多個處理器利用之指令。該等指令包括:用於至少部分地基於來自至少一語音參考麥克風之語音參考信號來判定語音特徵值的指令;用於至少部分地基於該語音參考信號及來自至少一雜訊參考麥克風之雜訊參考信號來判定組合特徵值的指令;用於至少部分地基於該語音特徵值及該組合特徵值來判定聲音活動量度的指令;及用於基於該聲音活動量度來判定聲音活動狀態的指令。
當結合圖式時,本揭示案之實施例的特徵、目標及優勢將在下文提出之詳細描述中變得更顯而易見,在圖式中,相同元件具有相同參考數字。
本發明揭示用於使用多重麥克風進行聲音活動偵測(VAD)的裝置及方法。該等裝置及方法利用組態於嘴參考點(MRP)之大體近場中的麥克風之第一集合或群組,其中MRP被認為係信號源之位置。麥克風之第二集合或群組可組態於大體降低之聲音位置上。理想地,麥克風之第二集合定位於與麥克風之第一集合大體相同的雜訊環境中,但大體上不耦合語音信號中之任一者。一些行動設備不允許此最佳組態,而允許麥克風之第一集合中所接收之語音始終大於麥克風之第二集合所接收之語音的組態。
相對於麥克風之第二集合而言,麥克風之第一集合接收並轉換通常具有較佳品質之語音信號。由此,可認為麥克風之第一集合為語音參考麥克風,且可認為麥克風之第二集合為雜訊參考麥克風。
VAD模組可首先基於語音參考麥克風及雜訊參考麥克風中之每一者處的信號來判定特徵。使用對應於語音參考麥克風及雜訊參考麥克風之特徵值來做出聲音活動決策。
舉例而言,VAD模組可經組態以計算、估計或以其他方式判定來自語音參考麥克風及雜訊參考麥克風之信號中之每一者的能量。可在預定語音及雜訊樣本時間計算能量或可基於語音及雜訊樣本之訊框來計算能量。
在另一實例中,VAD模組可經組態以判定語音參考麥克風及雜訊參考麥克風中之每一者處之信號的自相關。自相關值可對應於預定樣本時間或可以預定訊框間隔進行計算。
VAD模組可至少部分地基於特徵值之比率來計算或以其他方式判定活動量度。在一實施例中,VAD模組經組態以判定來自語音參考麥克風之能量相對於來自雜訊參考麥克風之能量的比率。VAD模組可經組態以判定來自語音參考麥克風之自相關相對於來自雜訊參考麥克風之自相關的比率。在另一實施例中,使用先前描述之比率中之一者的平方根作為活動量度。VAD將活動量度與預定臨限值進行比較以判定存在或缺失聲音活動。
圖1為包括具有聲音活動偵測之多重麥克風行動設備110之操作環境100的簡化功能方塊圖。雖然係以行動設備為背景進行描述,但顯而易見,本文中所揭示之聲音活動偵測方法及裝置不限於應用於行動設備中,而可建構於固定設備、可攜式設備、行動設備中且可在主機設備為行動或固定時操作。
操作環境100描繪多重麥克風行動設備110。多重麥克風設備包括此處描繪為位於行動設備110之正面上的至少一語音參考麥克風112及此處描繪為位於行動設備110之與語音參考麥克風112對置之側面上的至少一雜訊參考麥克風114。
雖然圖1之行動設備110(且大體而言,圖式中所示之實施例)描繪一語音參考麥克風112及一雜訊參考麥克風114,但行動設備110可建構一語音參考麥克風群組及一雜訊參考麥克風群組。語音參考麥克風群組及雜訊參考麥克風群組中之每一者可包括一或多個麥克風。語音參考麥克風群組可包括若干麥克風,其與雜訊參考麥克風群組中之麥克風的數目相異或相同。
此外,語音參考麥克風群組中之麥克風通常不包括雜訊參考麥克風群組中之麥克風,但此並非絕對限制,因為可在兩個麥克風群組之間共用一或多個麥克風。然而,語音參考麥克風群組與雜訊參考麥克風群組之結合包括至少兩個麥克風。
語音參考麥克風112描繪為位於行動設備110之與具有雜訊參考麥克風114之表面大體對置的表面上。對語音參考麥克風112及雜訊參考麥克風114之置放不限於任何實體方位。對麥克風之置放通常由將語音信號與雜訊參考麥克風114隔離之能力控制。
大體而言,兩個麥克風群組中之麥克風安裝在行動設備110之不同位置處。每一麥克風接收其自身版本之所要語音與背景雜訊之組合。可假設語音信號來自近場源。兩個麥克風群組處之聲壓位準(SPL)可能視麥克風之位置而為不同的。若一麥克風較接近嘴參考點(MRP)或語音源130,則其可接收高於定位在離MRP更遠處之另一麥克風的SPL。具有較高SPL之麥克風稱作語音參考麥克風112或主要麥克風,其產生標記為S SP (n )之語音參考信號。具有來自語音源130之MRP之降低之SPL的麥克風稱作雜訊參考麥克風114或次要麥克風,其產生標記為S NS (n )之雜訊參考信號。注意,語音參考信號通常含有背景雜訊,且雜訊參考信號亦可含有所要語音。
如下文中進一步詳細描述,行動設備110可包括聲音活動偵測以判定來自語音源130之語音信號的存在。聲音活動偵測之操作可能由於操作環境100中可能存在之雜訊源的數目及分布而變得複雜。
傳入於行動設備110上之雜訊可具有顯著之非相關白雜訊分量,但亦可包括一或多個色雜訊源,例如,140-1至140-4。此外,行動電話110自身可能產生干擾,例如,以自輸出轉換器120耦合至語音參考麥克風112及雜訊參考麥克風114中之一者或兩者之回音信號的形式。
一或多個色雜訊源可產生雜訊信號,該等雜訊信號各源自一相對於行動設備110而言相異的位置及方位。第一雜訊源140-1及第二雜訊源140-2可各經定位以更接近語音參考麥克風112或位於通向語音參考麥克風112之更直接的路徑中,而第三雜訊源140-3及第四雜訊源140-4可經定位以更接近雜訊參考麥克風114或位於通向雜訊參考麥克風114之更直接的路徑中。此外,一或多個雜訊源(例如,140-4)可產生一雜訊信號,其自表面150反射出或以其他方式穿過多重路徑到達行動設備110。
雖然雜訊源中之每一者可向麥克風提供一顯著信號,但雜訊源140-1至140-4中之每一者通常定位在遠場中,且因此向語音參考麥克風112及雜訊參考麥克風114中之每一者提供大體類似之聲壓位準(SPL)。
與每一雜訊信號相關聯之量值、位置及頻率回應的動態性質促成了聲音活動偵測過程的複雜性。此外,行動設備110通常由電池供電,且因此與聲音活動偵測相關聯之功率消耗可能值得關注。
行動設備110可藉由處理來自語音參考麥克風112及雜訊參考麥克風114之信號中的每一者以產生相應之語音及雜訊特徵值來執行聲音活動偵測。行動設備110可至少部分基於語音及雜訊特徵值來產生聲音活動量度,且可藉由比較聲音活動量度與臨限值來判定聲音活動。
圖2為具有經校正之多重麥克風聲音活動偵測器之行動設備110之一實施例的簡化功能方塊圖。行動設備110包括語音參考麥克風112(其可為一麥克風群組)及雜訊參考麥克風114(其可為一雜訊參考麥克風群組)。
語音參考麥克風112之輸出可耦合至第一類比至數位轉換器(ADC)212。雖然行動設備110通常實施諸如濾波及放大之對麥克風信號的類比處理,但為清晰及簡潔起見而未展示語音信號之類比處理。
雜訊參考麥克風114之輸出可耦合至第二ADC 214。對雜訊參考信號之類比處理通常可大體上與對語音參考信號執行之類比處理相同以保持大體上相同之頻譜回應。然而,類比處理部分之頻譜回應無需相同,因為校正器220可提供一些修正。此外,校正器220之功能中的一些或全部可實施於類比處理部分而非圖2所示之數位處理中。
第一ADC 212及第二ADC 214各自將其各別信號轉換為數位表示。第一ADC 212及第二ADC 214之數位化輸出耦合至校正器220,校正器220操作以在聲音活動偵測之前大體等化語音與雜訊信號路徑之頻譜回應。
校正器220包括一校正產生器222,校正產生器222經組態以判定頻率選擇性修正且控制一與語音信號路徑或雜訊信號路徑中之一者串聯置放的純量/濾波器224。校正產生器222可經組態以控制純量/濾波器224提供固定校正回應曲線,或校正產生器222可經組態以控制純量/濾波器224提供動態校正回應曲線。校正產生器222可控制純量/濾波器224基於一或多個操作參數提供可變校正回應曲線。舉例而言,校正產生器222可包括或以其他方式存取信號功率偵測器(未圖示),且可回應於語音或雜訊功率而改變純量/濾波器224之回應。其他實施例可利用其他參數或參數之組合。
校正器220可經組態以判定在校正週期期間由純量/濾波器224提供之校正。行動設備110可(例如)最初在製造期間校正,或可根據校正時間表進行校正,該校正時間表可藉由一或多個事件、時間或事件與時間之組合來起始校正。舉例而言,校正器220可在行動設備每一次啟動時或僅在自最近一次校正超過去預定時間之情況下於啟動期間起始校正。
在校正期間,行動設備110可能處於其位於存在遠場源之情況的條件下,且不在語音參考麥克風112或雜訊參考麥克風114處經歷近場信號。校正產生器222監視語音信號及雜訊信號中之每一者且判定相對頻譜回應。校正產生器222產生或以其他方式特徵化校正控制信號,該校正控制信號在施加至純量/濾波器224時使得純量/濾波器224補償頻譜回應之相對差異。
純量/濾波器224可引入放大、衰減、濾波或可大體補償頻譜差異之某種其他信號處理。純量/濾波器224描繪為置於雜訊信號之路徑上,其可能便於防止純量/濾波器使語音信號失真。然而,可將純量/濾波器224之部分或全部置於語音信號路徑上,且其可分布於語音信號路徑及雜訊信號路徑中之一者或兩者的類比及數位信號路徑上。
校正器220將經校正之語音及雜訊信號耦合至聲音活動偵測(VAD)模組230之各別輸入。VAD模組230包括語音特徵值產生器232、雜訊特徵值產生器234、對語音及雜訊特徵值進行操作的聲音活動量度模組240及經組態以基於聲音活動量度來判定聲音活動之存在或缺失的比較器250。VAD模組230可視情況包括組合特徵值產生器236,組合特徵值產生器236經組態以基於語音參考信號及雜訊參考信號之組合來產生一特徵。舉例而言,組合特徵值產生器236可經組態以判定語音與雜訊信號之交叉相關。可採用交叉相關之絕對值,或可對交叉相關之分量求平方。
語音特徵值產生器232可經組態以至少部分基於語音信號產生一值。語音特徵值產生器232可經組態以(例如)產生一特徵值,諸如特定樣本時間處之語音信號的能量(E SP (n))、特定樣本時間處之語音信號的自相關(ρ SP (n ))或某一其他信號特徵值,如可採用語音信號之自相關的絕對值或自相關之分量。
雜訊特徵值產生器234可經組態以產生一補充雜訊特徵值。亦即,雜訊特徵值產生器234可經組態以在語音特徵值產生器232產生語音能量值的情況下於特定時間產生雜訊能量值(E NS (n))。類似地,雜訊特徵值產生器234可經組態以在語音特徵值產生器232產生語音自相關值的情況下於特定時間產生雜訊自相關值(ρ NS (n ))。亦可採用雜訊自相關值之絕對值或可採用雜訊自相關值之分量。
聲音活動量度模組240可經組態以基於語音特徵值、雜訊特徵值及(視情況)交叉相關值產生聲音活動量度。聲音活動量度模組240可經組態以(例如)產生聲音活動量度,其在計算方面並不複雜。VAD模組230因此能夠大體上即時地且使用相對較少之處理資源來產生聲音活動偵測信號。在一實施例中,聲音活動量度模組240經組態以判定特徵值中之一或多者的比率或特徵值中之一或多者與交叉相關值的比率或特徵值中之一或多者與交叉相關值之絕對值的比率。
聲音活動量度模組240將量度耦合至比較器250,該比較器250可經組態以藉由將聲音活動量度與一或多個臨限值進行比較來判定語音活動的存在。臨限值中之每一者可為固定之預定臨限值,或臨限值中之一或多者可為動態臨限值。
在一實施例中,VAD模組230判定三個相異相關以判定語音活動。語音特徵值產生器232產生語音參考信號之自相關ρ SP (n ),雜訊特徵值產生器234產生雜訊參考信號之自相關ρ NS (n ),且交叉相關模組236產生語音參考信號及雜訊參考信號之絕對值的交叉相關ρ C (n )。此處,n 表示時間索引。為避免過度延遲,可使用一使用以下方程式之指數窗口方法來大致地計算相關。對於自相關,方程式為:
ρ(n )=αρ(n -1)+s (n )2 或ρ(n )=αρ(n -1)+(1-α)s (n )2
對於交叉相關,方程式為:
ρ C (n )=αρ C (n -1)+|s SP (n )s NS (n )|或ρ C (n )=αρ C (n -1)+(1-α)|s SP (n )s NS (n )|
在以上方程式中,ρ(n )為時間n 時之相關。s (n )為時間n 時之語音或雜訊麥克風信號中的一者。α為0與1之間的常數。|‧|表示絕對值。亦可如下使用具有窗口大小N之自乘窗口來計算相關:
ρ(n )=ρ(n -1)+s (n )2 -s (n -N )2 或ρ C (n )=ρ C (n -1)+|s SP (n )s NS (n )|-|s SP (n -N )s NS (n -N )|
可基於ρ SP (n )、ρ NS (n )及ρ C (n )做出VAD決策。大體而言,
D (n )=vad SP (n ),ρ NS (n ),ρ C (n ))。
在以下實例中,描述兩類VAD決策。一類為基於樣本之VAD決策方法。另一類為基於訊框之VAD決策方法。大體而言,基於使用自相關或交叉相關之絕對值的VAD決策方法可允許較小之交叉相關或自相關之動態範圍。動態範圍之減小可允許VAD決策方法中之更穩定的過渡。
基於樣本之VAD決策
VAD模組可基於在時間n 時計算之相關在時間n 對每一對語音與雜訊樣本做出VAD決策。作為一實例,聲音活動量度模組可經組態以基於三個相關值之間的關係來判定聲音活動量度。
R (n )=f SP (n ),ρ NS (n ),ρ C (n ))。
可基於ρ SP (n )、ρ NS (n )、ρ C (n )及R (n )來判定量T (n ),例如,
T (n )=g SP (n ),ρ NS (n ),ρ C (n ),R (n ))。
比較器可基於R (n )及T (n )做出VAD決策,例如,
D (n )=vad (R (n ),T (n ))。
作為一特定實例,可將聲音活動量度R (n )界定為來自語音特徵值產生器232之語音自相關值ρ SP (n )與來自交叉相關模組236之交叉相關ρ C (n )的比率。在時間n,聲音活動量度可為界定為如下之比率:
在聲音活動量度之以上實例中,聲音活動量度模組240限定值之範圍。聲音活動量度模組240藉由將分母之範圍限制為不小於6來限制值之範圍,其中6為一小正數以避免除零。作為另一實例,可將R (n )界定為ρ C (n )與ρ NS (n )之間的比率,例如,
作為一特定實例,量T (n )可為一固定臨限值。當所要語音存在直至時間n時,使R SP (n )為最小比率。當缺失所要語音直至時間n時,使R NS (n )為最大比率。可判定或以其他方式選擇臨限值T (n )以使其在R NS (n )與R SP (n )之間,或等效於:
臨限值亦可為可變的,且可至少部分地基於所要語音及背景雜訊之變化而改變。在該情形中,可基於最新之麥克風信號來判定R SP (n )及R NS (n )。
比較器250將臨限值與聲音活動量度進行比較(此處為比率R (n ))以做出關於聲音活動之決策。在此特定實例中,可將決策做出函數vad (●,●)界定如下:
基於訊框之VAD決策
亦可做出VAD決策以使得樣本之整個訊框產生並共用一VAD決策。可在時間m 與時間m +M -1之間產生或以其他方式接收樣本訊框,其中M表示訊框大小。
作為一實例,語音特徵值產生器232、雜訊特徵值產生器234及組合特徵值產生器236可判定整個資料訊框之相關。與使用自乘窗口計算之相關相比,訊框相關等於在時間m +M -1時計算之相關,例如ρ(m +M -1)。
可基於兩個麥克風信號之能量或自相關值來做出VAD決策。類似地,聲音活動量度模組240可基於如上文中在基於樣本之實施例中描述的關係R (n )來判定活動量度。比較器可基於臨限值T (n )來做出聲音活動決策。
基於信號增強後之信號的VAD
當語音參考信號之SNR低時,VAD決策趨於冒進。可將語音之開始及結束部分歸類為非語音區段。若當存在所要語音信號時,語音參考麥克風與雜訊參考麥克風之信號位準類似,則上文所描述之VAD裝置及方法可能不會提供可靠之VAD決策。在該等情形中,可將額外信號增強應用於麥克風信號中之一或多者以協助VAD做出可靠的決策。
可實施信號增強以在不改變所要語音信號的情況下減少語音參考信號中之背景雜訊的量。亦可實施信號增強以在不改變背景雜訊的情況下減少雜訊參考信號中之語音的位準或量。在一些實施例中,信號增強可執行語音參考增強與雜訊參考增強之組合。
圖3為具有聲音活動偵測器及回音消除之行動設備110之一實施例的簡化功能方塊圖。行動設備110描繪為不含圖2所示之校正器,但在行動設備110中實施回音消除並不排除校正。此外,行動設備110在數位域中實施回音消除,但回音消除中之一些或全部可在類比域中執行。
行動設備110之聲音處理部分可大體上類似於圖2所說明之部分。語音參考麥克風112或麥克風群組接收語音信號,且將SPL自音訊信號轉換為電語音參考信號。第一ADC 212將類比語音參考信號轉換為數位表示。第一ADC 212將數位化語音參考信號耦合至第一組合器352之第一輸入。
類似地,雜訊參考麥克風114或麥克風群組接收雜訊信號且產生雜訊參考信號。第二ADC 214將類比雜訊參考信號轉換為數位表示。第二ADC 214將數位化雜訊參考信號耦合至第二組合器354之第一輸入。
第一組合器352及第二組合器354可為行動設備110之回音消除部分的部件。第一組合器352及第二組合器354可為(例如)信號求和器、信號減法器、耦合器、調變器及類似設備或經組態以組合信號之某一其他設備。
行動設備110可實施回音消除以有效地移除可歸因於自行動設備110輸出之音訊的回音信號。行動設備110包括輸出數位至類比轉換器(DAC)310,輸出數位至類比轉換器(DAC)310接收來自諸如基頻處理器之信號源(未圖示)的數位化音訊輸出信號且將數位化音訊信號轉換為類比表示。可將DAC 310之輸出耦合至諸如揚聲器320之輸出轉換器。揚聲器320(其可為接收器或喇叭)可經組態以將類比信號轉換為音訊信號。行動設備110可在DAC 310與揚聲器320之間建構一或多個音訊處理級。然而,出於簡潔之目的未說明輸出信號處理級。
數位輸出信號亦可耦合至第一回音消除器342及第二回音消除器344之輸入。第一回音消除器342可經組態以產生施加至語音參考信號之回音消除信號,而第二回音消除器344可經組態以產生施加至雜訊參考信號之回音消除信號。
第一回音消除器342之輸出可耦合至第一組合器352之第二輸入。第二回音消除器344之輸出可耦合至第二組合器354之第二輸入。組合器352及354將組合信號耦合至VAD模組230。VAD模組230可經組態而以相對於圖2描述之方式操作。
回音消除器342及344中之每一者可經組態以產生一減少或大體消除各別信號線中之回音信號的回音消除信號。每一回音消除器342及344可包括一輸入,其對各別組合器352及354之輸出處的經消除回音之信號進行採樣或以其他方式監視。組合器352及354之輸出用作可由各別回音消除器342及344使用以最小化殘餘回音的誤差反饋信號。
每一回音消除器342及344可包括(例如)放大器、衰減器、濾波器、延遲模組或其某種組合以產生回音消除信號。輸出信號與回音信號之間的高相關可允許回音消除器342及344更輕易地偵測並補償回音信號。
在其他實施例中,可能需要額外信號增強,因為將語音參考麥克風置於更接近嘴參考點處之假設不成立。舉例而言,可將兩個麥克風彼此接近地置放以使得兩個麥克風信號之間的差異極小。在此情形中,未增強之信號可能無法產生可靠之VAD決策。在此情形中,可使用信號增強來幫助改良VAD決策。
圖4為具有一具有信號增強之聲音活動偵測器之行動設備110之一實施例的簡化功能方塊圖。如前所述,除信號增強外,亦可實施上文中相對於圖2及圖3描述之校正及回音消除技術及裝置中的一者或兩者。
行動設備110包括一語音參考麥克風112或麥克風群組,其經組態以接收語音信號且將SPL自音訊信號轉換為電語音參考信號。第一ADC 212將類比語音參考信號轉換為數位表示。第一ADC 212將數位化語音參考信號耦合至信號增強模組400之第一輸入。
同樣地,雜訊參考麥克風114或麥克風群組接收雜訊信號且產生雜訊參考信號。第二ADC 214將類比雜訊參考信號轉換為數位表示。第二ADC 214將數位化雜訊參考信號耦合至信號增強模組400之第二輸入。
信號增強模組400可經組態以產生增強之語音參考信號及增強之雜訊參考信號。信號增強模組400將增強之語音及雜訊參考信號耦合至VAD模組230。VAD模組230對增強之語音及雜訊參考信號進行操作以做出聲音活動決策。
基於波束成形或信號隔離後之信號的VAD
信號增強模組400可經組態以實施調適性波束成形,從而產生感應器指向性。信號增強模組400使用濾波器集合且將麥克風當作感應器陣列來實施調適性波束成形。可使用此感應器指向性以於存在多重信號源時擷取所要信號。可用多種波束成形演算法以達成感應器指向性。波束成形演算法或波束成形演算法之組合之一具體實例稱作波束成形器。在兩麥克風語音通信中,可使用波束成形器將感應器方向指向嘴參考點,以產生增強之語音參考信號,其中可減少背景雜訊。亦可產生增強之雜訊參考信號,其中可減少所要語音。
圖4B為對語音參考麥克風112及雜訊參考麥克風114進行波束成形之信號增強模組400之一實施例的簡化功能方塊圖。
信號增強模組400包括包含麥克風之第一陣列的語音參考麥克風112-1至112-n之一集合。語音參考麥克風112-1至112-n中之每一者可將其輸出耦合至相應之濾波器412-1至412-n。濾波器412-1至412-n中之每一者提供一可由第一波束成形控制器420-1控制的回應。每一濾波器(例如,412-1)可經控制以提供可變延遲、頻譜回應、增益或某一其他參數。
可結合對應於預定波束集合之預定濾波器控制信號集合來組態第一波束成形控制器420-1,或第一波束成形控制器420-1可經組態以根據預定演算法來改變濾波器回應從而以連續方式有效地操縱波束。
濾波器412-1至412-n中之每一者向第一組合器430-1之相應輸入輸出其經濾波之信號。第一組合器430-1之輸出可為經波束成形之語音參考信號。
可使用包含麥克風之第二陣列的雜訊參考麥克風114-1至114-k之集合以類似方式對雜訊參考信號進行波束成形。雜訊參考麥克風之數目k可與語音參考麥克風之數目n相異或可相同。
雖然圖4B之行動設備110說明相異之語音參考麥克風112-1至112-n及雜訊參考麥克風114-1至114-k,但在其他實施例中,可使用語音參考麥克風112-1至112-n中之一些或全部作為雜訊參考麥克風114-1至114-k。舉例而言,語音參考麥克風112-1至112-n之集合可為用於雜訊參考麥克風114-1至114-k之集合的相同麥克風。
雜訊參考麥克風114-1至114-k中之每一者將其輸出耦合至相應濾波器414-1至414-k。濾波器414-1至414-k中之每一者提供一可由第二波束成形控制器420-2控制的回應。每一濾波器(例如,414-1)可經控制以提供可變延遲、頻譜回應、增益或某一其他參數。第二波束成形控制器420-2可控制濾波器414-1至414-k以提供預定離散數目之波束組態,或可經組態而以大體連續之方式操縱波束。
在圖4B之信號增強模組400中,使用相異之波束成形控制器420-1及420-2來獨立地對語音及雜訊參考信號進行波束成形。然而,在其他實施例中,可使用單個波束成形控制器對語音參考信號及雜訊參考信號進行波束成形。
信號增強模組400可實施盲源隔離。盲源隔離(BSS)為使用對獨立源信號之混合物的量測來恢復此等信號的方法。此處,術語"盲"具有雙重含義。第一,原始信號或源信號未知。第二,混合過程可能未知。存在多種可用之演算法以達成信號隔離。在兩麥克風語音通信中,可使用BSS來隔離語音與背景雜訊。在信號隔離之後,可略微減少語音參考信號中之背景雜訊,且可略微減少雜訊參考信號中之語音。
信號增強模組400可(例如)實施以下任一者中所描述之BSS方法及裝置中的一者:S. Amari、A. Cichocki及H. H. Yang之"A new learning algorithm for blind signal separation",Advances in Neural Information Processing Systems 8 ",MIT Press,1996;L. Molgedey及H. G. Schuster之"Separation of a mixture of independent signals using time delayed correlations",Phys. Rev. Lett.,72(23):3634-3637,1994;或L. Parra及C. Spence之"Convolutive blind source separation of non-stationary sources",IEEE Trans. on Speech and Audio Processing ,8(3):320-327,2000年5月。
基於更具冒進性之信號增強的VAD
有時背景雜訊位準很高以使得波束成形或信號隔離之後信號SNR仍不佳。在此情形中,可進一步增強語音參考信號中之信號SNR。舉例而言,信號增強模組400可實施頻譜相減以進一步增強語音參考信號之SNR。在此情形中,可能需要或可能不需要增強雜訊參考信號。
信號增強模組400可(例如)實施以下任一者中所描述之頻譜相減方法及裝置中的一者:S. F. Boll之"Suppression of Acoustic Noise in Speech Using Spectral Subtraction,"IEEE Trans,Acoustics,Speech and Signal Processing, 27(2):112-120,1979年4月;R. Mukai、S. Araki、H. Sawada及S. Makino之"Removal of residual crosstalk components in blind source separation using LMS filters,",Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing ,第435至444頁,Martigny,瑞士,2002年9月;或R. Mukai、S. Araki、H. Sawada及S. Makino之"Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction,",Proc. of ICASSP 2002 ,第1789至1792頁,2002年5月。
潛在應用
本文中描述之VAD方法及裝置可用以抑制背景雜訊。下文中提供之實例並非窮儘可能應用,且不限制本文中描述之多重麥克風VAD裝置及方法的應用。所描述之VAD方法及裝置可潛在地用於其中需要VAD決策且多重麥克風信號可用的任何應用中。VAD適合即時信號處理,但並不限制其在離線信號處理應用中的潛在實施。
圖5為具有一具有可選信號增強之聲音活動偵測器之行動設備110之一實施例的簡化功能方塊圖。可使用來自VAD模組230之VAD決策來控制可變增益放大器510之增益。
VAD模組230可將輸出聲音活動偵測信號耦合至經組態以控制施加至語音參考信號之增益的增益產生器520或控制器之輸入。在一實施例中,增益產生器520經組態以控制可變增益放大器510所施加之增益。可變增益放大器510圖示為建構於數位域中,且可建構為(例如)定標器、乘法器、移位暫存器、暫存器旋轉器及其類似物或其某一組合。
作為一實例,可將兩麥克風VAD所控制之純量增益施加至語音參考信號。作為一特定實例,當偵測到語音時,可將可變增益放大器510之增益設定為1。當未偵測到語音時,可將可變增益放大器510之增益設定為小於1。
可變增益放大器510圖示為位於數位域中,但可將可變增益直接施加至來自語音參考麥克風112的信號。如圖5所示,亦可將可變增益施加至數位域中的語音參考信號或施加至自信號增強模組400獲得的增強之語音參考信號。
本文中描述之VAD方法及裝置亦可用以協助現代語音編碼。圖6為具有控制語音編碼之聲音活動偵測器之行動設備110之一實施例的簡化功能方塊圖。
在圖6之實施例中,VAD模組230將VAD決策耦合至語音編碼器600之控制輸入。
大體而言,現代語音編碼器可具有內部聲音活動偵測器,其傳統上使用來自一麥克風之信號或增強之信號。藉由使用諸如由信號增強模組400提供之兩麥克風信號增強,內部VAD所接收之信號可具有優於原始麥克風信號之SNR。因此,使用增強之信號的內部VAD很可能可做出更可靠之決策。藉由組合來自使用兩個信號之內部VAD與外部VAD的決策,有可能獲得更可靠之VAD決策。舉例而言,語音編碼器600可經組態以執行內部VAD決策與來自VAD模組230之VAD決策的邏輯組合。語音編碼器600可(例如)對兩個信號之邏輯"與"或邏輯"或"進行操作。
圖7為聲音活動偵測之簡化方法700的流程圖。可由圖1之行動設備或參看圖2至圖6描述之裝置與技術中之一者或其組合來實施方法700。
方法700描述為具有可在特定實施中省略之多個可選步驟。此外,僅出於說明目的,方法700描述為以特定次序執行,且可以不同次序執行步驟中之一些。
方法在區塊710開始,其中行動設備首先執行校正。行動設備可(例如)引入頻率選擇性增益、衰減或延遲以大體上等化語音參考與雜訊參考信號路徑之回應。
在校正之後,行動設備進行至區塊722,且接收來自參考麥克風之語音參考信號。語音參考信號可包括聲音活動之存在或缺失。
行動設備進行至區塊724,且基於來自雜訊參考麥克風之信號同時接收來自校正模組之經校正之雜訊參考信號。雜訊參考麥克風通常(但不要求)相對於語音參考麥克風耦合一降低位準之聲音信號。
行動設備進行至可選區塊728且對所接收之語音及雜訊信號執行回音消除,例如,當行動設備輸出一可耦合至語音及雜訊參考信號中之一者或兩者的音訊信號時。
行動設備進行至區塊730,且視情況執行語音參考信號及雜訊參考信號之信號增強。行動設備可包括歸因於(例如)實體限制而無法將語音參考麥克風與雜訊參考麥克風顯著分開之設備中的信號增強。若行動台執行信號增強,則可對增強之語音參考信號及增強之雜訊參考信號執行後續處理。若省略信號增強,則行動設備可對語音參考信號及雜訊參考信號進行操作。
行動設備進行至區塊742,且基於語音參考信號來判定、計算或以其他方式產生語音特徵值。行動設備可經組態以基於複數個樣本、基於先前樣本之加權平均值、基於先前樣本之指數式衰減或基於樣本之預定窗口來判定與特定樣本相關之語音特徵值。
在一實施例中,行動設備經組態以判定語音參考信號之自相關。在另一實施例中,行動設備經組態以判定所接收之信號的能量。
行動設備進行至區塊744,且判定、計算或以其他方式產生一補充雜訊特徵值。行動台通常使用與產生語音特徵值所用相同之技術來判定雜訊特徵值。亦即,若行動設備判定一基於訊框之語音特徵值,則行動設備同樣判定一基於訊框之雜訊特徵值。類似地,若行動設備判定一自相關作為語音特徵值,則行動設備判定雜訊信號之自相關作為雜訊特徵值。
行動台可視情況進行至區塊746,且至少部分地基於語音參考信號及雜訊參考信號兩者來判定、計算或以其他方式產生一補充之組合特徵值。舉例而言,行動設備可經組態以判定兩個信號之交叉相關。在其他實施例中,例如當聲音活動量度並非基於一組合特徵值時,行動設備可省略判定組合特徵值。
行動設備進行至區塊750,且至少部分地基於語音特徵值、雜訊特徵值及組合特徵值中的一或多者來判定、計算或以其他方式產生一聲音活動量度。在一實施例中,行動設備經組態以判定語音自相關值與組合交叉相關值的比率。在另一實施例中,行動設備經組態以判定語音能量值與雜訊能量值的比率。行動設備可類似地使用其他技術來判定其他活動量度。
行動設備進行至區塊760,且做出聲音活動決策或以其他方式判定聲音活動狀態。舉例而言,行動設備可藉由將聲音活動量度與一或多個臨限值進行比較而做出聲音活動判定。臨限值可為固定的或動態的。在一實施例中,若聲音活動量度超過一預定臨限值,則行動設備判定存在聲音活動。
在判定聲音活動狀態之後,行動設備進行至區塊770,且至少部分基於聲音活動狀態來改變、調整或以其他方式修改一或多個參數或控制。舉例而言,行動設備可基於聲音活動狀態來設定語音參考信號放大器之增益,可使用聲音活動狀態來控制語音編碼器或可結合另一VAD決策使用聲音活動狀態來控制語音編碼器狀態。
行動設備進行至決策區塊780以判定是否需要再校正。行動設備可在傳遞一或多個事件、時間週期及其類似物或其某一組合後便執行校正。若需要再校正,則行動設備返回至區塊710。否則,行動設備可返回至區塊722以繼續就聲音活動監視語音及雜訊參考信號。
圖8為具有經校正之多重麥克風聲音活動偵測器及信號增強之行動設備800之一實施例的簡化功能方塊圖。行動設備800包括語音參考麥克風812及雜訊參考麥克風814、用於將語音及雜訊參考信號轉換為數位表示的構件822及824,以及用於消除語音及雜訊參考信號中之回音的構件842及844。用於消除回音之構件結合用於組合信號與來自消除構件之輸出的構件832及834而操作。
被消除回音之語音及雜訊參考信號可耦合至一用於校正語音參考信號路徑之頻譜回應而使其大體類似於雜訊參考信號路徑之頻譜回應的構件850。語音及雜訊參考信號亦可耦合至用於增強語音參考信號或雜訊參考信號中之至少一者的構件856。若使用用於增強之構件856,則聲音活動量度係至少部分基於增強之語音參考信號或增強之雜訊參考信號中的一者。
用於偵測聲音活動之構件860可包括:用於基於語音參考信號來判定自相關之構件;用於基於語音參考信號及雜訊參考信號來判定交叉相關之構件;用於至少部分基於語音參考信號之自相關與交叉相關的比率來判定聲音活動量度之構件;及用於藉由將聲音活動量度與至少一臨限值進行比較來判定聲音活動狀態之構件。
本文中描述用於語音活動偵測及基於聲音活動狀態改變行動設備之一或多個部分之操作的方法及裝置。可單獨使用本文中提出之VAD方法及裝置,其可與傳統VAD方法及裝置加以組合以做出更為可靠之VAD決策。作為一實例,所揭示之VAD方法可與零交叉方法加以組合以對聲音活動做出更為可靠之決策。
應注意,一般熟習此項技術者將認識到,一電路可實施上文所述之功能中的一些或全部。可能存在實施所有功能之一電路。亦可能存在與第二電路組合之一電路的多個區段,其可實施所有功能。大體而言,若在電路中實施多個功能,則其可為積體電路。藉由當前之行動平台技術,積體電路包含至少一數位信號處理器(DSP)及至少一ARM處理器以控制及/或傳達至至少一DSP。可分區段地來描述一電路。通常重新使用區段以執行不同功能。因此,在描述何電路包含以上描述中之一些的過程中,一般熟習此項技術者理解,電路之第一區段、第二區段、第三區段、第四區段及第五區段可為同一電路,或其可為作為一較大電路或電路集合之部分的不同電路。
一電路可經組態以偵測聲音活動,該電路包含一經調適以接收來自語音參考麥克風之輸出語音參考信號的第一區段。同一電路、不同電路或同一電路或不同電路之第二區段可經組態以接收來自雜訊參考麥克風之輸出參考信號。此外,可能存在同一電路、一不同電路或同一電路或不同電路之第三區段,其包含一耦接至第一區段以經組態而判定語音特徵值的語音特徵值產生器。包含一耦接至第一區段及第二區段以經組態而判定一組合特徵值的組合特徵值產生器的第四區段亦可為積體電路之部分。此外,包含一經組態以至少部分基於語音特徵值及組合特徵值來判定一聲音活動量度之聲音活動量度模組的第五部分可為積體電路之部分。為將聲音活動量度與臨限值進行比較且輸出一聲音活動狀態,可使用比較器。大體而言,該等區段中之任一者(第一、第二、第三、第四或第五)可為積體電路之部分或與其分開。亦即,該等區段可各自為一較大電路之部分,或其可各自為單獨之積體電路或兩者之組合。
如上文所述,語音參考麥克風包含複數個麥克風,且語音特徵值產生器可經組態以判定語音參考信號之自相關及/或判定語音參考信號之能量,及/或基於先前語音特徵值之指數式衰減來判定加權平均值。如上文所述,語音特徵值產生器之功能可實施於一電路之一或多個區段中。
於本文中使用時,術語"耦接"或"連接"用以意謂間接耦接以及直接耦接或連接。在耦接兩個或兩個以上區塊、模組、設備或裝置的情況下,在兩個被耦接之區塊之間可存在一或多個介入區塊。
可藉由通用處理器、數位信號處理器(DSP)、精簡指令集電腦(RISC)處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或經設計以執行本文描述之功能的其他可程式化邏輯設備、離散閘或電晶體邏輯、離散硬體組件或其任何組合來實施或執行結合本文所揭示之實施例而描述的各種說明性邏輯區塊、模組及電路。通用處理器可為微處理器,但在替代例中,處理器可為任何處理器、控制器、微控制器或狀態機。亦可將處理器建構為計算設備之組合,例如,DSP與微處理器之組合、複數個微處理器、一或多個微處理器連同一DSP核心,或任何其他該組態。
可將結合本文所揭示之實施例而描述的方法、過程或演算法之步驟直接具體化於硬體、由處理器執行之軟體模組,或兩者之組合中。可以所示之次序執行一方法或過程中的各個步驟或動作,或可以另一次序來執行。此外,可省略一或多個過程或方法步驟或可將一或多個過程或方法步驟添加至方法及過程中。可在方法及過程之開始、結束或介入之現有要素中添加一額外步驟、區塊或動作。
提供所揭示之實施例的以上描述以使一般熟習此項技術者能夠進行或使用本揭示案。一般熟習此項技術者將易於瞭解對此等實施例之各種修改,且可在不脫離本揭示案之精神或範疇的情況下將本文所界定之一般原理應用於其他實施例。因此,本揭示案不意欲限於本文所示之實施例,而應符合與本文所揭示之原理及新穎特徵一致的最廣範疇。
100...操作環境
110...多重麥克風行動設備
112...語音參考麥克風
112-1...112-n...語音參考麥克風
114...雜訊參考麥克風
114-1...114-k...雜訊參考麥克風
120...輸出轉換器
130...嘴參考點(MRP)/語音源
140-1...色雜訊源
140-2...色雜訊源
140-3...色雜訊源
140-4...色雜訊源
150...表面
212...第一類比至數位轉換器(ADC)
214...第二類比至數位轉換器(ADC)
220...校正器
222...校正產生器
224...純量/濾波器
230...聲音活動偵測(VAD)模組
232...語音特徵值產生器
234...雜訊特徵值產生器
236...組合特徵值產生器
240...聲音活動量度模組
250...比較器
310...輸出數位至類比轉換器(DAC)
320...揚聲器
342...第一回音消除器
344...第二回音消除器
352...第一組合器
354...第二組合器
400...信號增強模組
412-1…412-n...濾波器
414-1…414-k...濾波器
420-1...第一波束成形控制器
420-2...第二波束成形控制器
430-1...第一組合器
510...可變增益放大器
520...增益產生器
600...語音編碼器
800...行動設備
812...語音參考麥克風
814...雜訊參考麥克風
822...用於將語音及雜訊參考信號轉換為數位表示的構件
824...用於將語音及雜訊參考信號轉換為數位表示的構件
832...用於組合信號與來自消除構件之輸出的構件
834...用於組合信號與來自消除構件之輸出的構件
842...用於消除語音及雜訊參考信號中之回音的構件
844...用於消除語音及雜訊參考信號中之回音的構件
850...用於校正語音參考信號路徑之頻譜回應而使其大體類似於雜訊參考信號路徑之頻譜回應的構件
856...用於增強語音參考信號或雜訊參考信號中之至少一者的構件
860...用於偵測聲音活動之構件
圖1為在雜訊環境中操作之多重麥克風設備的簡化功能方塊圖。
圖2為具有經校正之多重麥克風聲音活動偵測器之行動設備之一實施例的簡化功能方塊圖。
圖3為具有聲音活動偵測器及回音消除之行動設備之一實施例的簡化功能方塊圖。
圖4A為具有一具有信號增強之聲音活動偵測器之行動設備之一實施例的簡化功能方塊圖。
圖4B為使用波束成形之信號增強的簡化功能方塊圖。
圖5為具有一具有信號增強之聲音活動偵測器之行動設備之一實施例的簡化功能方塊圖。
圖6為具有一具有語音編碼之聲音活動偵測器之行動設備之一實施例的簡化功能方塊圖。
圖7為聲音活動偵測之簡化方法的流程圖。
圖8為具有經校正之多重麥克風聲音活動偵測器之行動設備之一實施例的簡化功能方塊圖。
110...多重麥克風行動設備
112...語音參考麥克風
114...雜訊參考麥克風
212...第一類比至數位轉換器(ADC)
214...第二類比至數位轉換器(ADC)
220...校正器
222...校正產生器
224...純量/濾波器
230...聲音活動偵測(VAD)模組
232...語音特徵值產生器
234...雜訊特徵值產生器
236...組合特徵值產生器
240...聲音活動量度模組
250...比較器

Claims (25)

  1. 一種偵測聲音活動之方法,該方法包含:接收一來自一語音參考麥克風之語音參考信號;接收一來自一與該語音參考麥克風相異之雜訊參考麥克風的雜訊參考信號;至少部分地基於該語音參考信號來判定一語音特徵值;至少部分地基於該語音參考信號及該雜訊參考信號來判定一組合特徵值;至少部分地基於該語音特徵值及該組合特徵值來判定一聲音活動量度,其中判定該語音特徵值包含在時域中判定該語音參考信號之自相關之一絕對值;及基於該聲音活動量度判定一聲音活動狀態。
  2. 如請求項1之方法,進一步包含對該語音參考信號或雜訊參考信號中之至少一者進行波束成形。
  3. 如請求項1之方法,進一步包含對該語音參考信號及雜訊參考信號執行盲源隔離(BSS),以增強該語音參考信號中之一語音信號分量。
  4. 如請求項1之方法,進一步包含對該語音參考信號或雜訊參考信號中之至少一者執行頻譜相減。
  5. 如請求項1之方法,進一步包含至少部分地基於該雜訊參考信號來判定一雜訊特徵值,且其中該聲音活動量度係至少部分基於該雜訊特徵值。
  6. 如請求項1之方法,該語音參考信號包括聲音活動之存 在或缺失。
  7. 如請求項6之方法,其中該自相關包含一先前自相關與一特定時間點處之一語音參考能量之一加權總和。
  8. 如請求項1之方法,其中判定該語音特徵值包含判定該語音參考信號之一能量。
  9. 如請求項1之方法,其中判定該組合特徵值包含基於該語音參考信號及雜訊參考信號來判定一交叉相關。
  10. 如請求項1之方法,其中判定該聲音活動狀態包含比較該聲音活動量度與一臨限值。
  11. 如請求項1之方法,其中:該語音參考麥克風包含至少一語音麥克風;該雜訊參考麥克風包含與該至少一語音麥克風相異之至少一雜訊麥克風;判定該語音特徵值包含基於該語音參考信號判定一自相關;判定該組合特徵值包含基於該語音參考信號及該雜訊參考信號來判定一交叉相關;判定該聲音活動量度係至少部分基於判定該語音參考信號之該自相關之該絕對值與該交叉相關之一比率;且判定該聲音活動狀態包含比較該聲音活動量度與至少一臨限值。
  12. 如請求項11之方法,進一步包含執行該語音參考信號或該雜訊參考信號中之至少一者的信號增強,且其中該聲音活動量度係至少部分基於一增強之語音參考信號或一 增強之雜訊參考信號中之一者。
  13. 如請求項11之方法,進一步包含基於該聲音活動狀態來改變一操作參數。
  14. 如請求項13之方法,其中該操作參數包含一施加至該語音參考信號之增益。
  15. 如請求項13之方法,其中該操作參數包含一對該語音參考信號進行操作之語音編碼器之一狀態。
  16. 一種經組態以偵測聲音活動之裝置,該裝置包含:一經組態以輸出一語音參考信號之語音參考麥克風;一經組態以輸出一雜訊參考信號之雜訊參考麥克風;一耦接至該語音參考麥克風且經組態以判定一語音特徵值之語音特徵值產生器,其中判定該語音特徵值包含在時域中判定該語音參考信號之自相關之一絕對值;一耦接至該語音參考麥克風及該雜訊參考麥克風且經組態以判定一組合特徵值的組合特徵值產生器;一經組態以至少部分基於該語音特徵值及該組合特徵值來判定一聲音活動量度之聲音活動量度模組;及一經組態以比較該聲音活動量度與一臨限值且輸出一聲音活動狀態的比較器。
  17. 如請求項16之裝置,其中該語音參考麥克風包含複數個麥克風。
  18. 如請求項16之裝置,其中該語音特徵值產生器經組態以基於先前語音特徵值之一指數式衰減來判定一加權平均值。
  19. 如請求項16之裝置,其中該組合特徵值產生器經組態以基於該語音參考信號及該雜訊參考信號來判定一交叉相關。
  20. 如請求項16之裝置,其中該聲音活動量度模組經組態以判定該語音特徵值與該雜訊特徵值之一比率。
  21. 一種經組態以偵測聲音活動之裝置,該裝置包含:用於接收一語音參考信號之構件;用於接收一雜訊參考信號之構件;用於在時域中基於該語音參考信號來判定一自相關之構件;用於在時域中基於該語音參考信號及該雜訊參考信號來判定一交叉相關之構件;用於至少部分地基於該語音參考信號之該自相關之絕對值與該交叉相關之一比率來判定一聲音活動量度的構件;及用於藉由比較該聲音活動量度與至少一臨限值以判定一聲音活動狀態的構件。
  22. 如請求項21之裝置,進一步包含用於校正一語音參考信號路徑之一頻譜回應以使其實質類似於一雜訊參考信號路徑之一頻譜回應的構件。
  23. 一種包括可由一或多個處理器利用之指令的非暫時性之電腦可讀媒體,該電腦可讀媒體包含:用於至少部分地基於一來自至少一語音參考麥克風之語音參考信號來判定一語音特徵值的指令,其中判定該 語音特徵值包含在時域中判定該語音參考信號之自相關之一絕對值;用於至少部分地基於該語音參考信號及一來自至少一雜訊參考麥克風之雜訊參考信號來判定一組合特徵值的指令;用於至少部分地基於該語音特徵值及該組合特徵值來判定一聲音活動量度的指令;及用於基於該聲音活動量度來判定一聲音活動狀態的指令。
  24. 一種經組態以偵測聲音活動之電路,該電路包含:一第一區段,其經調適以接收一來自一語音參考麥克風之輸出語音參考信號;一第二區段,其經調適以接收一來自一雜訊參考麥克風之輸出參考信號;一第三區段,其包含一耦接至該第一區段之經組態以判定一語音特徵值的語音特徵值產生器,其中判定該語音特徵值包含在時域中判定該語音參考信號之自相關之一絕對值;一第四區段,其包含一耦接至該第一區段及該第二區段之經組態以判定一組合特徵值的組合特徵值產生器;一第五區段,其包含一經組態以至少部分基於該語音特徵值及該組合特徵值來判定一聲音活動量度的聲音活動量度模組;及一經組態以比較該聲音活動量度與一臨限值且輸出一 聲音活動狀態的比較器。
  25. 如請求項24之電路,其中由該第一區段、第二區段、第三區段、第四區段及第五區段構成之一群組中的任意兩個區段包含類似電路。
TW097136965A 2007-09-28 2008-09-25 多重麥克風聲音活動偵測器 TWI398855B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/864,897 US8954324B2 (en) 2007-09-28 2007-09-28 Multiple microphone voice activity detector

Publications (2)

Publication Number Publication Date
TW200926151A TW200926151A (en) 2009-06-16
TWI398855B true TWI398855B (zh) 2013-06-11

Family

ID=40002930

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097136965A TWI398855B (zh) 2007-09-28 2008-09-25 多重麥克風聲音活動偵測器

Country Status (12)

Country Link
US (1) US8954324B2 (zh)
EP (1) EP2201563B1 (zh)
JP (1) JP5102365B2 (zh)
KR (1) KR101265111B1 (zh)
CN (1) CN101790752B (zh)
AT (1) ATE531030T1 (zh)
BR (1) BRPI0817731A8 (zh)
CA (1) CA2695231C (zh)
ES (1) ES2373511T3 (zh)
RU (1) RU2450368C2 (zh)
TW (1) TWI398855B (zh)
WO (1) WO2009042948A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8326611B2 (en) * 2007-05-25 2012-12-04 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US8477961B2 (en) * 2003-03-27 2013-07-02 Aliphcom, Inc. Microphone array with rear venting
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
DE602008002695D1 (de) * 2008-01-17 2010-11-04 Harman Becker Automotive Sys Postfilter für einen Strahlformer in der Sprachverarbeitung
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8184816B2 (en) * 2008-03-18 2012-05-22 Qualcomm Incorporated Systems and methods for detecting wind noise using multiple audio sources
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction
US9049503B2 (en) * 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US8462193B1 (en) * 2010-01-08 2013-06-11 Polycom, Inc. Method and system for processing audio signals
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
TWI408673B (zh) * 2010-03-17 2013-09-11 Issc Technologies Corp Voice detection method
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
KR20140026229A (ko) * 2010-04-22 2014-03-05 퀄컴 인코포레이티드 음성 액티비티 검출
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN101867853B (zh) * 2010-06-08 2014-11-05 中兴通讯股份有限公司 基于传声器阵列的语音信号处理方法及装置
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US20120114130A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Cognitive load reduction
ES2860986T3 (es) * 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
CN102971789B (zh) * 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
CN102300140B (zh) 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
US9648421B2 (en) 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6028502B2 (ja) * 2012-10-03 2016-11-16 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
US9107010B2 (en) * 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9560444B2 (en) * 2013-03-13 2017-01-31 Cisco Technology, Inc. Kinetic event detection in microphones
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
KR20160010606A (ko) * 2013-05-23 2016-01-27 노우레스 일렉트로닉스, 엘엘시 Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9978387B1 (en) * 2013-08-05 2018-05-22 Amazon Technologies, Inc. Reference signal generation for acoustic echo cancellation
WO2015034504A1 (en) * 2013-09-05 2015-03-12 Intel Corporation Mobile phone with variable energy consuming speech recognition module
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及系统
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9516409B1 (en) 2014-05-19 2016-12-06 Apple Inc. Echo cancellation and control for microphone beam patterns
CN104092802A (zh) * 2014-05-27 2014-10-08 中兴通讯股份有限公司 音频信号的消噪方法及系统
US9288575B2 (en) * 2014-05-28 2016-03-15 GM Global Technology Operations LLC Sound augmentation system transfer function calibration
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US9516159B2 (en) * 2014-11-04 2016-12-06 Apple Inc. System and method of double talk detection with acoustic echo and noise control
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10325134B2 (en) 2015-11-13 2019-06-18 Fingerprint Cards Ab Method and system for calibration of an optical fingerprint sensing device
US20170140233A1 (en) * 2015-11-13 2017-05-18 Fingerprint Cards Ab Method and system for calibration of a fingerprint sensing device
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
KR102468148B1 (ko) 2016-02-19 2022-11-21 삼성전자주식회사 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법
US10510363B2 (en) * 2016-03-31 2019-12-17 OmniSpeech LLC Pitch detection algorithm based on PWVT
US10074380B2 (en) * 2016-08-03 2018-09-11 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
JP6567478B2 (ja) * 2016-08-25 2019-08-28 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
US10237647B1 (en) * 2017-03-01 2019-03-19 Amazon Technologies, Inc. Adaptive step-size control for beamformer
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
CN110582755A (zh) * 2017-06-20 2019-12-17 惠普发展公司,有限责任合伙企业 信号合并器
US10978187B2 (en) 2017-08-10 2021-04-13 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
US11557306B2 (en) * 2017-11-23 2023-01-17 Harman International Industries, Incorporated Method and system for speech enhancement
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
KR102475989B1 (ko) 2018-02-12 2022-12-12 삼성전자주식회사 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
US11222716B2 (en) 2018-03-05 2022-01-11 Nuance Communications System and method for review of automated clinical documentation from recorded audio
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
WO2019173333A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. Automated clinical documentation system and method
EP3776532A4 (en) * 2018-03-28 2021-12-01 Telepathy Labs, Inc. VOICE SYNTHESIS PROCESS AND SYSTEM
WO2019186403A1 (en) * 2018-03-29 2019-10-03 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
CN108632711B (zh) * 2018-06-11 2020-09-04 广州大学 扩声系统增益自适应控制方法
US11500610B2 (en) * 2018-07-12 2022-11-15 Dolby Laboratories Licensing Corporation Transmission control for audio device using auxiliary signals
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
CN112153505A (zh) * 2019-06-28 2020-12-29 中强光电股份有限公司 降噪系统及降噪方法
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN115605953A (zh) 2020-05-08 2023-01-13 纽奥斯通讯有限公司(Us) 用于多麦克风信号处理的数据增强的系统和方法
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
EP4075822B1 (en) * 2021-04-15 2023-06-07 Rtx A/S Microphone mute notification with voice activity detection
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN115831145B (zh) * 2023-02-16 2023-06-27 之江实验室 一种双麦克风语音增强方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW219993B (en) * 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
TW357260B (en) * 1997-11-13 1999-05-01 Ind Tech Res Inst Interactive music play method and apparatus
TW494669B (en) * 2000-01-27 2002-07-11 Qualcomm Inc Improved system and method for implementation of an echo canceller
US20060080089A1 (en) * 2004-10-08 2006-04-13 Matthias Vierthaler Circuit arrangement and method for audio signals containing speech
TWI264934B (en) * 2004-06-30 2006-10-21 Polycom Inc Stereo microphone processing for teleconferencing
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68910859T2 (de) 1988-03-11 1994-12-08 British Telecommunications P.L.C., London Detektion für die Anwesenheit eines Sprachsignals.
US5276779A (en) * 1991-04-01 1994-01-04 Eastman Kodak Company Method for the reproduction of color images based on viewer adaption
IL101556A (en) * 1992-04-10 1996-08-04 Univ Ramot Multi-channel signal separation using cross-polyspectra
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5825671A (en) * 1994-03-16 1998-10-20 U.S. Philips Corporation Signal-source characterization system
JP2758846B2 (ja) 1995-02-27 1998-05-28 埼玉日本電気株式会社 ノイズキャンセラ装置
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
JP3505085B2 (ja) 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6694020B1 (en) * 1999-09-14 2004-02-17 Agere Systems, Inc. Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US8085943B2 (en) * 1999-11-29 2011-12-27 Bizjak Karl M Noise extractor system and method
AU2000251208A1 (en) 2000-06-05 2001-12-17 Nanyang Technological University Adaptive directional noise cancelling microphone system
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US7941313B2 (en) 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP3364487B2 (ja) 2001-06-25 2003-01-08 隆義 山本 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体
JP2003241787A (ja) 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
GB0204548D0 (en) * 2002-02-27 2002-04-10 Qinetiq Ltd Blind signal separation
US6904146B2 (en) * 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit
JP3682032B2 (ja) 2002-05-13 2005-08-10 株式会社ダイマジック オーディオ装置並びにその再生用プログラム
US7082204B2 (en) 2002-07-15 2006-07-25 Sony Ericsson Mobile Communications Ab Electronic devices, methods of operating the same, and computer program products for detecting noise in a signal based on a combination of spatial correlation and time correlation
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
AU2003296976A1 (en) 2002-12-11 2004-06-30 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
JP2004274683A (ja) 2003-03-12 2004-09-30 Matsushita Electric Ind Co Ltd エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
EP2068308B1 (en) * 2003-09-02 2010-06-16 Nippon Telegraph and Telephone Corporation Signal separation method, signal separation device, and signal separation program
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
GB0321722D0 (en) * 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
US20050071158A1 (en) * 2003-09-25 2005-03-31 Vocollect, Inc. Apparatus and method for detecting user speech
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP2005227511A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
JP2005227512A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
US7925504B2 (en) * 2005-01-20 2011-04-12 Nec Corporation System, method, device, and program for removing one or more signals incoming from one or more directions
WO2006131959A1 (ja) 2005-06-06 2006-12-14 Saga University 信号分離装置
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US7970564B2 (en) 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US7817808B2 (en) * 2007-07-19 2010-10-19 Alon Konchitsky Dual adaptive structure for speech enhancement
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW219993B (en) * 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
TW357260B (en) * 1997-11-13 1999-05-01 Ind Tech Res Inst Interactive music play method and apparatus
TW494669B (en) * 2000-01-27 2002-07-11 Qualcomm Inc Improved system and method for implementation of an echo canceller
TWI264934B (en) * 2004-06-30 2006-10-21 Polycom Inc Stereo microphone processing for teleconferencing
US20060080089A1 (en) * 2004-10-08 2006-04-13 Matthias Vierthaler Circuit arrangement and method for audio signals containing speech
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Bing-Fei Wu, and Kun-Ching Wang, "Voice Activity Detection Based on Auto-Correlation Function Using Wavelet Transform and Teager Energy Operator", Computational Linguistics and Chinese Language Processing Vol. 11, No. 1, March 2006, pages 87-100. *
Régine Le Bouquin-Jeannès, Gérard Faucon, "Study of avoiceactivitydetector and its influence on anoisereductionsystem ", Speech Communication, Volume 16, Issue 3, April 1995, Pages 245-254. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法

Also Published As

Publication number Publication date
BRPI0817731A8 (pt) 2019-01-08
CA2695231C (en) 2015-02-17
US8954324B2 (en) 2015-02-10
EP2201563A1 (en) 2010-06-30
ATE531030T1 (de) 2011-11-15
CN101790752B (zh) 2013-09-04
ES2373511T3 (es) 2012-02-06
JP2010541010A (ja) 2010-12-24
RU2450368C2 (ru) 2012-05-10
JP5102365B2 (ja) 2012-12-19
CN101790752A (zh) 2010-07-28
EP2201563B1 (en) 2011-10-26
TW200926151A (en) 2009-06-16
KR101265111B1 (ko) 2013-05-16
WO2009042948A1 (en) 2009-04-02
KR20100075976A (ko) 2010-07-05
RU2010116727A (ru) 2011-11-10
US20090089053A1 (en) 2009-04-02
CA2695231A1 (en) 2009-04-02

Similar Documents

Publication Publication Date Title
TWI398855B (zh) 多重麥克風聲音活動偵測器
US11825279B2 (en) Robust estimation of sound source localization
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US7464029B2 (en) Robust separation of speech signals in a noisy environment
US8472616B1 (en) Self calibration of envelope-based acoustic echo cancellation
TWI738532B (zh) 具多麥克風之語音增強裝置及方法
US20150371659A1 (en) Post Tone Suppression for Speech Enhancement
JP2008512888A (ja) 改善した雑音抑圧を有する電話装置
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
JP7498560B2 (ja) システム及び方法
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
KR20130108063A (ko) 다중 마이크로폰의 견고한 잡음 억제
US11812237B2 (en) Cascaded adaptive interference cancellation algorithms
US10937418B1 (en) Echo cancellation by acoustic playback estimation
CN107346658B (zh) 混响抑制方法及装置
EP3566228A1 (en) Audio capture using beamforming
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
Ayrapetian et al. Asynchronous acoustic echo cancellation over wireless channels
Zhao et al. Directional Noise Suppression Based on Dual-microphone With Desired Direction Presetting
JP2014095769A (ja) 発話区間決定装置、発話区間決定方法、および発話区間決定プログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees