TW202147862A - 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 - Google Patents

強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 Download PDF

Info

Publication number
TW202147862A
TW202147862A TW110121303A TW110121303A TW202147862A TW 202147862 A TW202147862 A TW 202147862A TW 110121303 A TW110121303 A TW 110121303A TW 110121303 A TW110121303 A TW 110121303A TW 202147862 A TW202147862 A TW 202147862A
Authority
TW
Taiwan
Prior art keywords
audio
target
speech
source
noise
Prior art date
Application number
TW110121303A
Other languages
English (en)
Inventor
喜拉薩 阿立雷札 瑪斯納迪
法蘭西斯可 耐斯塔
Original Assignee
美商賽納波狄克公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商賽納波狄克公司 filed Critical 美商賽納波狄克公司
Publication of TW202147862A publication Critical patent/TW202147862A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

系統和方法包括複數個音頻輸入組件,其構造成產生複數個音頻輸入訊號;及一邏輯裝置,其構造成接收該等複數個音頻輸入訊號,判斷該等複數個音頻訊號是否包含與一音頻源相關聯的目標音頻,基於該等複數個音頻訊號以及該等音頻訊號是否包含該目標音頻之一判斷,估計該音頻源相對於該等複數個音頻輸入組件的一相對位置,並基於所述估計的相對位置,藉由增強該目標音頻來處理該等複數個音頻訊號以產生一音頻輸出訊號。該邏輯裝置更構造成使用相對的基於傳輸的共變異數(Covariance)來建構跨頻帶對齊的指向性共變異數矩陣,並找到一方向,該方向遵循無失真準則將波束功率最小化。

Description

強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
根據一或多個具體實施例,本發明總體上有關音頻訊號處理,並且更具體地例如,有關用於在強烈雜訊干擾存在下的穩健的揚聲器定位系統和方法。
近年來,智慧揚聲器和其他語音控制的裝置和應用已經普及。智慧揚聲器通常包含用於從環境接收音頻輸入(例如,一使用者的口語命令)的陣列式麥克風。當在音頻輸入中偵測到目標音頻(例如,口語命令)時,智慧揚聲器可將偵測到的目標音頻轉換成一或多個命令,並基於這些命令執行不同的任務。這些智慧揚聲器的挑戰之一快速及有效使目標音頻(例如,口語命令)與工作環境中的雜訊隔離。在多雜訊環境中,目標音頻可能來自相對於麥克風的任何方向,因此挑戰更加嚴峻。
鑑於前述內容,需要用於在多雜訊環境中,處理所接收到音頻訊號之改善的系統和方法。
本發明提供在多雜訊環境中改善音頻訊號處理的系統和方法。本說明書所揭露系統和方法的各種具體實施例,且包括複數個音頻輸入組件,其構造成產生複數個音頻輸入訊號;及一邏輯裝置,其構造成接收複數個音頻輸入訊號,判斷複數個音頻訊號是否包括與一音頻源相關聯的目標音頻,基於複數個音頻訊號以及該等音頻訊號是否包含該目標音頻之一判斷,估計該音頻源相對於該等音頻輸入組件的一相對位置,,並基於估計的相對位置,藉由增強目標音頻來處理複數個音頻訊號以產生音頻輸出訊號。邏輯裝置更構造成使用相對的基於傳輸的共變異數來建構跨頻帶對齊的指向性共變異數矩陣,並找到一方向,該方向遵循無失真準則將波束功率最小化。
本發明的範躊由請求項定義,請求項併入本說明書供參考。藉由考慮以下對一或多個具體實施例的詳述,熟習該項技藝者將更完整理解本發明的具體實施例及其附加優點的實現。將參考首先簡要描述的附圖。
本說明書揭露在一多雜訊環境中用於偵測及增強目標音頻的系統及方法。
在各種具體實施例中,一具有複數個麥克風的麥克風陣列在一工作環境中感測目標音頻及雜訊,並為每個麥克風產生一音頻訊號。使用麥克風陣列的到達時間差(Time Difference of Arrival,TDOA)或到達方向(Direction of Arrival,DOA)的形式進行揚聲器定位,在遠場語音處理中是一眾所周知的問題,其應用包括估計揚聲器相對於陣列的實體方位的應用,諸如監視、人機互動、攝影機操縱等,及估計並追蹤揚聲器位置資訊的應用,這可促成語音活動偵測器 (Voice Activity Detector,VAD)的應用而使用諸如波束成形(beamforming)或 盲蔽訊號源分離(Blind Source Separation,BSS)之類的方法以管理揚聲器增強及降噪任務。
在本發明實施例中描述系統和方法,當持續存在更強的主要雜訊/干擾源(例如,大聲的電視聲音)時,可穩健的估計一或多個同步揚聲器的TDOA/DOA。在一些具體實施例中,是利用廣義特徵值(Generalized Eigenvalue,GEV)波束形成器的某些特徵,估計目標揚聲器的特有的空間指紋(Spatial fingerprint)或相對傳輸函數(Relative Transfer Function,RTF)。藉由有效調零(null)主要雜訊源來估計目標RTF。藉由應用使用RTF作為輸入的一修改後TDOA/DOA估計方法,本說明書實施例所述的系統可獲得目標揚聲器的一穩健的定位估計。如果有多個目標揚聲器在一強烈雜訊源存在下(例如,比目標揚聲器音量大),通過適當調節,可間歇估計每個雜訊源的RTF並將其饋送到一多源追蹤器,從而針對每個雜訊源產生一穩健的VAD,可驅動多串流語音增強系統。
本發明實施例提供許多優於傳統系統和方法的優點。TDOA/DOA方法典型上藉由使用從麥克風陣列獲得的原始輸入的空間相關矩陣進行工作,然後掃描所有可能的方向/延遲以形成一擬蓋度(Pseudo-likelihood),其峰值對應於該(等) 雜訊源的TDOA/DOA。這些方法適用於只有單一源的情況,或者如果有多個雜訊源,其功率大致在相同位準上。然而,當一目標揚聲器被埋在一強烈雜訊或干擾源的情況下,例如當訊號雜訊比(Signal to Noise Ratio,SNR)為負時,此類方法會失敗,因為相對於對應強烈雜訊源的峰值,對應於較弱目標語音的峰值無法很好被區分或會完全消失。在各種具體實施例中,本說明書提出的方法使用修改後TDOA/DOA估計方法,此方法使用估計的目標RTF作為一輸入,而非使用麥克風陣列原始訊號的空間相關矩陣。由於RTF是藉由有效調零主要雜訊源來估計,因此相較於多雜訊的原始麥克風陣列相關矩陣,其包含較少失真的目標言語空間資訊,因此可獲得目標揚聲器的改善定位估計。
本發明可結合廣義特徵向量追蹤的波束形成技術一起使用,以增強在接收到的音頻訊號中的目標音頻。在一或多個具體實施例中,通過音頻感測器(例如,麥克風)陣列以接收一多聲道音頻輸入訊號。分析每一音頻聲道以判斷是否存在目標音頻,例如,一目標人員是否正在講話中。系統追蹤目標和雜訊訊號,以判斷一目標音頻源(例如,一目標人員)相對於麥克風陣列的一位置。一改善的廣義特徵向量處理可用於即時判斷目標音頻的方向。然後,可藉由一空間過濾處理來使用判斷的方向,諸如一最小變異無失真響應(minimum variance distortionless response,MVDR)波束形成器,以增強目標音頻。在處理音頻輸入訊號後,可使用一增強的音頻輸出訊號,例如,作為音頻輸出傳輸到一或多個揚聲器,或作為一電話或網路電話(Voice over IP,VoIP)中的語音通訊,用於言語辨識或語音命令處理,或其他語音應用。 一修改的廣義特徵向量(generalized eigenvector,GEV)系統可用於即時有效判斷一目標音頻源的方向,無論是否知道麥克風陣列的幾何形狀或音頻環境。
圖1示意根據本發明的各種具體實施例之音頻處理系統可工作的一示例工作環境100。工作環境100包括一音頻處理裝置105、一目標音頻源110、及一或多個雜訊源135-145。在圖1所示意的示例中,工作環境100示意為一房間,但可預期所述工作環境可包括其他區域,諸如車輛內部、辦公會議室、家中房間、戶外運動場或機場。根據本發明的各種具體實施例,音頻處理裝置105可包括兩或多個音頻感測組件115a-115d(例如,麥克風);或者,一或多個音頻輸出組件120a-120b,諸如一或多個擴音器。
音頻處理裝置105可構造成經由音頻感測組件115a-115d感測聲音,並產生一多聲道音頻輸入訊號,包含兩或多個音頻輸入訊號。音頻處理裝置105可使用本說明書揭露的音頻處理技術來處理音頻輸入訊號,以增強從目標音頻源110接收的音頻訊號。例如,可將處理後的音頻訊號傳輸到音頻處理裝置105內的其他組件,諸如一言語識別引擎或語音命令處理器,或傳輸到一外部裝置。因此,音頻處理裝置105可為處理音頻訊號的一獨立工作裝置,或者將處理後的音頻訊號轉換成其他訊號(例如,一命令、一指令等)的一裝置,以控制一外部裝置或與其互動。在其他具體實施例中,音頻處理裝置105可為一通訊裝置,諸如手機或網路電話(VoIP)致能裝置,且處理後的音頻訊號可透過一網路傳輸到另一裝置,以輸出到一遠端使用者。通訊裝置更可從一遠端裝置接收處理後的音頻訊號,且經由音頻輸出組件120a-120b輸出處理過的音頻訊號。
目標音頻源110可為任何產生可由音頻處理裝置105偵測的目標音頻的音源。可基於使用者或系統要求所規定的準則來定義目標音頻。例如,目標音頻可定義為人類言語、由一特定的動物或一機器製造的聲音。在示意的示例中,目標音頻定義為人類言語,且目標音頻源110是人員。除了目標音頻源110之外,工作環境100更可包括一或多個雜訊源135-145。在各種具體實施例中,不是目標音頻的聲音被當作雜訊處理。在示意的示例中,雜訊源135-145可包括播放音樂的擴音器135、播放電視節目、電影或運動賽事的一電視140、及非目標說話者145之間的背景對話。應明白,其他雜訊源可能在各種工作環境出現。
應注意,目標音頻和雜訊可能從不同方向觸及音頻處理裝置105的麥克風115a-115d。例如,雜訊源135-145可能在房間內的不同位置處產生雜訊,且目標音頻源110(例如,人員)可能在房間內邊移動時邊講話。此外,目標音頻及/或雜訊可能從房間內的固定物(例如,牆壁)反射。例如,考慮目標音頻可從目標音頻源110經過觸及每個麥克風115a-115d的路徑。如箭頭125a-125d所示,目標音頻可以分別從目標音頻源110直接傳播到麥克風115a-115d。此外,目標音頻可從牆壁150a和150b反射出來,並從目標音頻源110間接觸及麥克風115a-115d,如箭頭所示。根據本發明的各種具體實施例,音頻處理裝置105可使用本說明書揭露的音頻處理技術,基於由麥克風115a-115d接收的音頻輸入訊號來估計目標音頻源110的位置,並基於估計的位置來處理音頻輸入訊號,以增強目標音頻並抑制雜訊。
圖2示意根據本發明的各種具體實施例之一示例音頻處理裝置200。在一些具體實施例中,音頻處理裝置200可實施為圖1所示的音頻處理裝置105。音頻處理裝置200包括一音頻感測器陣列205、一音頻訊號處理器220和主機系統組件250。
音頻感測器陣列205包括兩或多個感測器,其每一者可實施為一換能器(Transducer),將聲波形式的音頻輸入轉換為一音頻訊號。在示意的環境中,音頻感測器陣列205包含複數個麥克風205a-205n,每個麥克風產生一音頻輸入訊號,提供給音頻訊號處理器220的音頻輸入電路系統222。在一具體實施例中,感測器陣列205產生一多聲道音頻訊號,每一聲道對應來自該等麥克風205a-n之一者的一音頻輸入訊號。
音頻訊號處理器220包括音頻輸入電路系統222、一數位訊號處理器224和可選的音頻輸出電路系統226。在各種具體實施例中,音頻訊號處理器220可實施為一含有類比電路系統、數位電路系統和數位訊號處理器224的積體電路,其可工作以執行儲存在韌體中的程式指令。例如,音頻輸入電路系統222例如可包括音頻感測器陣列205的一介面、抗混疊濾波器(anti-aliasing filter)、類比數位轉換器電路系統、回音消除電路系統、及如本說明書揭露的其他音頻處理電路系統和組件。數位訊號處理器224可工作處理一多聲道數位音頻訊號以產生一增強的音頻訊號,其輸出到一或多個主機系統組件250。在各種具體實施例中,數位訊號處理器224可工作以執行回音消除、雜訊消除、目標訊號增強、後濾波、及其他音頻訊號處理功能。
可選的音頻輸出電路系統226處理從數位訊號處理器224接收的音頻訊號,以輸出到至少一揚聲器,諸如揚聲器210a和210b。在各種具體實施例中,音頻輸出電路系統226可包括一數位類比轉換器,將一或多個數位音頻訊號轉換為類比訊號;及一或多個用於驅動揚聲器210a-210b的放大器。
音頻處理裝置200可實施為接收並增強目標音頻數據的任何可工作裝置,例如一手機、智慧揚聲器、平板、筆記型電腦、桌上型電腦、語音控制應用或汽車。主機系統組件250可包含各種硬體和軟體組件,用以使音頻處理裝置200工作。在示意的具體實施例中,系統組件250包括一處理器252、使用者介面組件254、一用於與外部裝置和網路通訊的通訊介面256,諸如網路280(例如,網際網路、雲端、一區域網路或一蜂巢式網路)和行動裝置284、及一記憶體258。
處理器252和數位訊號處理器224可包含一處理器、一微處理器、一單核處理器、一多核處理器、一微控制器、一可程式化邏輯裝置(Programmable Logic Device,PLD)(例如,場可程式化閘陣列(Field Programmable Gate Array,FPGA)、一數位訊號處理(digital signal processing,DSP)裝置或其他邏輯裝置之一或多者,其可藉由硬連線、執行軟體指令或兩者的組合而構造成,以執行本說明書針對本發明的具體實施例討論的各種工作。主機系統組件250構造成與音頻訊號處理器220和其他系統組件250介接並通訊,諸如通過一匯流排或其他電子通訊介面。
將明白,儘管音頻訊號處理器220和主機系統組件250被示為結合硬體組件、電路系統和軟體的組合,但在一些具體實施例中,硬體組件和電路系統以執行的至少一些或所有功能性可工作實施為隨著儲存在記憶體258或數位訊號處理器224中的軟體指令及/或組態資料,而由處理器252及/或數位訊號處理器224執行的軟體模組。
記憶體258可實施為一或多個儲存裝置可工作儲存數據和資訊,包括音頻數據和程式指令。記憶體258可包含一或多個各種類型記憶體裝置,包括揮發性和非揮發性記憶體裝置,諸如隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、電子可抹拭唯讀記憶體(Electrically-Erasable Read-Only Memory,EEPROM)、快閃記憶體、硬碟機及/或其他類型的記憶體。
處理器252可工作執行儲存在記憶體258的軟體指令。在各種具體實施例中,一言語辨識引擎260可工作處理自音頻訊號處理器220接收的增強音頻訊號,包括識別和執行語音命令。語音通訊組件262可工作促成一或多個外部裝置(諸如一行動裝置284或使用者裝置286)進行語音通訊;可通過一行動或蜂巢式電話網路的語音通話、或IP網路上的一網路電話通話。在各種具體實施例中,語音通訊包括將增強的音頻訊號傳輸到一外部通訊裝置。
使用者介面組件254可包括一顯示器、一觸控板顯示器、一小鍵盤、一或多個按鈕及/或其他輸入/輸出組件,其可工作以讓使用者能夠直接與音頻處理裝置200互動。
通訊介面256促成音頻處理裝置200與外部裝置之間的通訊。例如,通訊介面256可啟用在音頻處理裝置200與一或多個本地裝置(諸如移動裝置284)之間的Wi-Fi(例如,802.11)或藍牙連接;或者,提供網路存取遠端伺服器282的一無線路由器,諸如透過網路280。在各種實施方案中,通訊介面256可包括其他有線及無線的通訊組件,促進在音頻處理裝置200與一或多個其他裝置之間的直接或間接通訊。
圖3示意根據本發明的各種具體實施例之一示例音頻訊號處理器300。在一些具體實施例中,音頻輸入處理器300實施為一或多個積體電路,其包括類比和數位電路系統、及由一數位訊號處理器實現的韌體邏輯,諸如圖2所示的數位訊號處理器224。如所示,音頻訊號處理器300包括音頻輸入電路系統315、一子頻帶頻率分析器320、一目標活動偵測器325、一目標增強引擎330、及一合成器335。
音頻訊號處理器300從複數個音頻感測器接收一多聲道音頻輸入,諸如從包含至少兩音頻感測器305a-n的一感測器陣列305。音頻感測器305a-305n可包括與一音頻處理裝置整合的麥克風, 諸如圖2所示的音頻處理裝置200或連接其的外部組件。根據本發明的各種具體實施例,音頻感測器305a-305n的配置對音頻輸入處理器可為已知或未知。
音頻訊號可先藉由音頻輸入電路315處理,音頻輸入電路系統315可包括抗混疊濾波器、類比數位轉換器,及/或其他音頻輸入電路系統。在各個具體實施例中,音頻輸入電路系統315輸出具有N個聲道的一數位、多聲道、時域音頻訊號,其中N是感測器(例如,麥克風)輸入的數量。多聲道音頻訊號輸入到子頻帶頻率分析器320,其將多聲道音頻訊號分割成連續的訊框,並將每個聲道的每一訊框分解成複數個頻率子頻帶。在各個具體實施例中,子頻帶頻率分析器320包括一傅立葉轉換處理並且輸出複數個頻格(Frequency bin)。然後將分解的音頻訊號提供給目標活動偵測器325和目標增強引擎330。
目標活動偵測器325可工作分析一或多個音頻聲道的訊框,並產生一指示當前訊框中是否存在目標音頻的訊號。如上所討論,目標音頻可為音頻系統識別的任何音頻。當目標音頻是人類言語時,目標活動偵測器325可實施為一語音活動偵測器。在各種具體實施例中,一語音活動偵測器可工作接收音頻數據的一訊框,並進行關於目標音頻存在與否的一判斷。在一些具體實施例中,目標活動偵測器325可將目標音頻分類規則應用於子頻帶訊框以計算一值。然後將該值與臨界值進行比較,以產生一目標活動訊號。在各種具體實施例中,由目標活動偵測器325產生的訊號是二進位訊號,諸如輸出「1」表示在子頻帶音頻訊框中存在目標言語,二進位輸出「0」表示在子頻帶音頻訊框中不存在目標言語。所產生的二進位輸出提供給目標增強引擎330,以進一步處理多聲道音頻訊號。在其他具體實施例中,目標活動訊號可包含一目標存在的概率、一不能判斷目標存在的指示、或根據系統要求的其他目標存在資訊。
目標增強引擎330接收來自子頻帶頻率分析器320的子頻帶訊框,及來自目標活動偵測器325的目標活動訊號。根據本發明的各種實施例,目標增強引擎330使用一修改的廣義特徵值波束器形成,基於接收到的活動訊號以處理子頻帶訊框,其將在下面詳述。在一些具體實施例中,處理子頻帶訊框包含估計一目標音頻源(例如,目標音頻源110)相對於感測器陣列305的一位置。基於目標音頻源的估計位置,目標增強引擎330可增強音頻訊號中判斷為來自目標音頻源方向的部分,並抑制音頻訊號中被判斷為雜訊的其他部分。
增強目標音頻訊號之後,目標增強引擎330可將處理過的音頻訊號傳遞給合成器335。在各種具體實施例中,合成器335藉由組合子頻帶以形成一增強的時域音頻訊號,在逐訊框的基礎上重建構一或多個多聲道音頻訊號。增強的音頻訊號隨後可轉換回時域並發送到一系統組件或外部裝置以進一步處理。
圖4示意根據一或多個具體實施例之一示例系統架構400,其在強烈雜訊干擾存在下提供穩健的揚聲器定位。根據本發明的各種具體實施例之系統架構400,可實施為藉由一數位訊號處理器執行的數位電路系統及邏輯的組合。系統架構400包括一子頻帶分析方塊410、一共變異數(covariance)計算方塊420、進行言語/非言語判斷的輸入語音活動偵測器(輸入VAD 450)、一使用特徵分析模組(RTF估計模組430)的目標言語相對傳輸函數估計、及一修改的基於共變異數的定位模組440。
輸入VAD 450驅動RTF估計模組430,並識別(以高度信賴)非言語類雜訊被隔離的時間瞬間。換句話說,可調節輸入VAD 450以產生比偽陽性(無言語但VAD誤判言語處於有效狀態的情況)更少的偽陰性(言語處於有效狀態但VAD誤判言語不存在的情況)。此原因與RTF估計模組430執行的處理有關,將在下面討論。
在RTF估計處理,使用VAD 450計算純雜訊(noise-only)及多雜訊(noisy)言語的共變異數矩陣。雜訊共變異數矩陣用於調零雜訊,但是由於在偽陰性期間,雜訊的共變異數會被錯誤地更新為具有類似於言語的實際特徵,因此最終可能會取消言語,這也會降低目標言語的RTF準確性,並使定位的可靠性降低。因為我們正在處理較低的SNR,因此用於建構VAD的傳統基於功率的特徵無法在預期的位準上執行,而是依賴基於頻譜的分類器,經訓練後以區分言語與非言語音頻。
本發明克服傳統系統的這些限制。現將參考圖4及圖5描述一示例程序500。在下面的討論中,我們用
Figure 02_image001
表示VAD 450的狀態變量,狀態變量定義為假設所觀察到的訊框I的值等於「1」或「0」,分別判斷為語音存在或不存在。 1)使用特徵分析的RTF估計
我們用
Figure 02_image003
,
Figure 02_image005
標記總數為M的麥克風在第m個麥克風處記錄的採樣時域音頻訊號。通過子頻帶分析410,將訊號轉換到標記為
Figure 02_image007
的一時頻域,其中
Figure 02_image009
表示頻帶指數,
Figure 02_image011
表示子頻帶時間指數。我們將整個陣列的時頻段向量標記為
Figure 02_image013
[
Figure 02_image015
.
接下來,在步驟505,使用處理方塊來計算多雜訊言語和純雜訊言語的共變異數。在方塊420,使用輸入VAD,純雜訊段的共變異數計算為:
Figure 02_image017
在一線上實施中,共變異數矩陣隨訊框I更新,並可使用一第一階遞迴平滑估計為:
Figure 02_image019
Figure 02_image021
,其中
Figure 02_image023
是一平滑常數 (<1)。同樣,多雜訊訊號的共變異數可計算如下:
Figure 02_image025
其中
Figure 02_image027
. 在步驟510,標記為
Figure 02_image029
的目標言語源的RTF是使用基於一般特徵值分解(程序方塊430)的一盲聲波波束形成程序,藉由找到
Figure 02_image031
的主特徵向量獲得。
參數
Figure 02_image023
的選擇決定這類共變異數矩陣的更新速度。如果在一強烈背景雜訊源的情況下同時有多個揚聲器,則可能需要更快的速率,使得
Figure 02_image033
捕獲目標源之間的間歇性切換,稍後可將其饋送到一追蹤器中。 2)基於共變異數的定位
一麥克風被選取作為一參考麥克風(例如,第一麥克風),並用於相對於參考麥克風提取源的TDOA資訊。本說明書使用的TDOA估計方法是基於一導引最小變異數(Steered Minimum Variance,STMV)波束形成器,現在進行描述。
在步驟520,針對每個頻帶建構一導引矩陣,如下式:
Figure 02_image035
其中 τm 是相對於第一麥克風進行不同掃描(線性掃描或對應於不同方位角和仰角的掃描)的第m個麥克風的TDOA,
Figure 02_image037
,且 fk 是在頻帶k處的頻率。
當言語存有(active)時(步驟530),
Figure 02_image039
,而不是使用多雜訊言語的空間共變異數矩陣,
Figure 02_image041
, 作為STMV演算法(步驟540)的輸入共變異數,在步驟550中,藉由計算
Figure 02_image043
,我們使用一基於RTF的共變異數。我們注意到,由於在RTF
Figure 02_image045
的估計中,雜訊的影響本質上已調零,且我們可以看到此空間共變異數取自於純言語組件。另外,當言語不存在時,
Figure 02_image047
,我們可跳過此計算並使用先前的估計。因此,我們得到純言語共變異數矩陣如下:
Figure 02_image049
接下來,在步驟560,在系統建構跨所有頻帶一致地對齊的指向性共變異數矩陣如下:
Figure 02_image051
接下來,在步驟570,我們找到遵循一無失真準則使波束功率最小化的方向,其等效的擬概度解變為:
Figure 02_image053
其中
Figure 02_image055
在步驟580,然後選取產生最大概度的TDOA,其表示如下:
Figure 02_image057
=
Figure 02_image059
Figure 02_image061
前述揭露並非旨在限制本發明以精確形式或特定使用領域。因此,可預期,根據本發明,無論是否在此明確描述或暗示,本發明的各種替代具體實施例及/或修改都是可能的。因此,已描述本發明的具體實施例,熟習該項技藝者將明白優於習知方法的優點,並且可形式和細節上進行改變而不悖離本發明的範疇。因此,本發明僅由申請專利範圍限制。
100:工作環境 105:音頻處理裝置 110:目標音頻源 115a~115d:音頻感測組件;麥克風 120a,120b:音頻輸出組件 125a~125d:箭頭 135:雜訊源;擴音器 140:雜訊源;電視 145:雜訊源;非目標說話者 150a,150b:牆壁 200:音頻處理裝置 205:音頻感測器陣列 205a~205n:麥克風 210a,210b:揚聲器 220:音頻訊號處理器 222:音頻輸入電路系統 224:數位訊號處理器 226:音頻輸出電路系統 250:主機系統組件 252:處理器 254:使用者介面組件 256:通訊介面 258:記憶體 260:言語辨識引擎 262:語音通訊組件 280:網路 282:遠端伺服器 284:行動裝置 286:使用者裝置 300:音頻輸入處理器 305:感測器陣列 305a~305n:音頻感測器 315:音頻輸入電路系統 320:子頻帶頻率分析器 325:目標活動偵測器 330:目標增強引擎 335:合成器 400:示例系統架構 410:子頻帶分析方塊 420:共變異數計算方塊 430:RTF估計模組 440:定位模組 450:VAD 500:程序 505-580:步驟
參考以下附圖和以下實施方式可更佳理解本發明的態樣及其優點。應明白,在一或多個附圖中相同的附圖邊號視為類似元件,其中示出是為了示意本發明的具體實施例,而不是限制本發明的具體實施例。附圖中的多個組件不必然按比例繪製,而是將重點放在清楚地示意本發明的原理。
圖1示意根據本發明之一或多個具體實施例之音頻處理裝置的一示例工作環境。
圖2為根據本發明之一或多個具體實施例之一示例音頻處理裝置的方塊圖。
圖3為根據本發明之一或多個具體實施例之示例音頻訊號處理器的方塊圖。
圖4示意根據一或多個具體實施例之一示例系統架構,其在強烈雜訊干擾存在下提供穩健的揚聲器定位。
圖5為示意根據本發明之一或多個具體實施例之用於執行一即時音頻訊號處理的示例程序之流程圖。
500:程序
505-580:步驟

Claims (20)

  1. 一種方法,其包含: 從複數個音頻輸入組件接收一多聲道音頻訊號; 判斷該多聲道音頻訊號是否包含與一音頻源相關聯的目標音頻; 基於該多聲道音頻訊號以及該多通道音頻訊號是否包含該目標音頻之一判斷,估計該音頻源相對於該等音頻輸入組件的一相對位置;及 基於該所估計的相對位置,藉由增強該多聲道音頻訊號中的該目標音頻,處理該多聲道音頻訊號以產生一音頻輸出訊號。
  2. 如請求項1所述的方法,其更包含根據複數個子頻帶,將該多聲道音頻訊號轉換成多個子頻帶訊框,其中估計該音頻源的該相對位置係進一步基於該等子頻帶訊框。
  3. 如請求項1所述的方法,其更包含計算多雜訊言語及純雜訊的共變異數。
  4. 如請求項1所述的方法,其更包含使用一特徵分析(Eigen analysis)處理,以估計一目標言語相對傳輸函數。
  5. 如請求項1所述的方法,其更包含計算一經修改的基於共變異數的定位,以識別到達的時間差。
  6. 如請求項1所述的方法,其更包含判斷一輸入音頻訊框是否為一言語訊框或一非言語訊框。
  7. 如請求項1所述的方法,其更包含使用該等音頻輸入組件之一者作為一參考來建構針對該等複數個頻帶之每一者的一導引矩陣。
  8. 如請求項1所述的方法,其更包含當言語存有(active)時,計算一基於相對傳輸函數的共變異數。
  9. 如請求項1所述的方法,其更包含建構跨頻帶一致地對齊的指向性共變異數矩陣。
  10. 如請求項1所述的方法,其更包含判斷一方向,該方向遵循無失真準則將波束功率最小化;及選擇到達的一時間差,該時間差產生與該音頻源相關的該目標音頻的一最大概度。
  11. 一種系統,其包含: 複數個音頻輸入組件,其構造成產生複數個音頻輸入訊號; 一邏輯裝置,其構造成: 接收該等複數個音頻輸入訊號; 判斷該等複數個音頻訊號是否包含與一音頻源相關聯的目標音頻; 基於該等複數個音頻訊號以及該等音頻訊號是否包含該目標音頻之一判斷,估計該音頻源相對於該等音頻輸入組件的一相對位置;及 基於該所估計的相對位置,藉由增強該目標音頻,以處理該等複數個音頻訊號以產生一音頻輸出訊號。
  12. 如請求項的11所述的系統,其中該邏輯裝置根據複數個頻率子頻帶,進一步構造成將該等複數個音頻輸入訊號轉換為子頻帶訊框,其中音頻源的該估計相對位置係進一步基於該等子頻帶訊框。
  13. 如請求項11所述的系統,其中該邏輯裝置更構造成計算多雜訊言語及純雜訊的共變異數。
  14. 如請求項11所述的系統,其中該邏輯裝置更構造成使用一特徵分析處理,以估計一目標言語相對傳輸函數。
  15. 如請求項11所述的系統,其中該邏輯裝置更構造成計算一經修改的基於共變異數的定位,以識別到達的時間差。
  16. 如請求項11所述的系統,其中該邏輯裝置更構造成判斷一輸入音頻訊框是否為一言語訊框或一非言語訊框。
  17. 如請求項11所述的系統,其中該邏輯裝置更構造成使用該等音頻輸入組件之一者作為一參考來建構針對複數個頻帶之每一者的一導引矩陣。
  18. 如請求項11所述的系統,其中該邏輯裝置更構造成當言語有效時,計算一基於相對傳輸函數的共變異數。
  19. 如請求項11所述的系統,其中該邏輯裝置更構造成建構跨頻帶一致地對齊的一指向性共變異數矩陣。
  20. 如請求項11所述的系統,其中該邏輯裝置更構造成判斷一方向,該方向遵循無失真準則將波束功率最小化;及選擇到達的一時間差,該時間差產生與該音頻源相關的該目標音頻的一最大概度。
TW110121303A 2020-06-12 2021-06-11 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 TW202147862A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/900,790 2020-06-12
US16/900,790 US11264017B2 (en) 2020-06-12 2020-06-12 Robust speaker localization in presence of strong noise interference systems and methods

Publications (1)

Publication Number Publication Date
TW202147862A true TW202147862A (zh) 2021-12-16

Family

ID=78825752

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110121303A TW202147862A (zh) 2020-06-12 2021-06-11 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法

Country Status (3)

Country Link
US (1) US11264017B2 (zh)
CN (1) CN113810825A (zh)
TW (1) TW202147862A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11516582B1 (en) * 2021-01-21 2022-11-29 Amazon Technologies, Inc. Splitting frequency-domain processing between multiple DSP cores
US11798533B2 (en) * 2021-04-02 2023-10-24 Google Llc Context aware beamforming of audio data
US11930333B2 (en) * 2021-10-26 2024-03-12 Bestechnic (Shanghai) Co., Ltd. Noise suppression method and system for personal sound amplification product
US11950062B1 (en) * 2022-03-31 2024-04-02 Amazon Technologies, Inc. Direction finding of sound sources
US20240062774A1 (en) 2022-08-17 2024-02-22 Caterpillar Inc. Detection of audio communication signals present in a high noise environment

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
WO2014167165A1 (en) * 2013-04-08 2014-10-16 Nokia Corporation Audio apparatus
US9747917B2 (en) * 2013-06-14 2017-08-29 GM Global Technology Operations LLC Position directed acoustic array and beamforming methods
KR102340151B1 (ko) * 2014-01-07 2021-12-17 하만인터내셔날인더스트리스인코포레이티드 신호 품질-기반 압축 오디오 신호 향상 및 보상
EP2928210A1 (en) * 2014-04-03 2015-10-07 Oticon A/s A binaural hearing assistance system comprising binaural noise reduction
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
GB2554447A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Gain control in spatial audio systems
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
CN108564963B (zh) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置
US10957338B2 (en) * 2018-05-16 2021-03-23 Synaptics Incorporated 360-degree multi-source location detection, tracking and enhancement
US10728662B2 (en) * 2018-11-29 2020-07-28 Nokia Technologies Oy Audio mixing for distributed audio sensors

Also Published As

Publication number Publication date
CN113810825A (zh) 2021-12-17
US20210390952A1 (en) 2021-12-16
US11264017B2 (en) 2022-03-01

Similar Documents

Publication Publication Date Title
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
US8391507B2 (en) Systems, methods, and apparatus for detection of uncorrelated component
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
CN109564762A (zh) 远场音频处理
CN110140359B (zh) 使用波束形成的音频捕获
CN110140360B (zh) 使用波束形成的音频捕获的方法和装置
JP7324753B2 (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
JP2021110938A (ja) 平面マイクロフォンアアレイのための複数音源トラッキング及び発話区間検出
US11257512B2 (en) Adaptive spatial VAD and time-frequency mask estimation for highly non-stationary noise sources
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
Ince et al. Assessment of general applicability of ego noise estimation
Han et al. Robust GSC-based speech enhancement for human machine interface
US10049685B2 (en) Integrated sensor-array processor
JP3925734B2 (ja) 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
Kowalczyk et al. Embedded system for acquisition and enhancement of audio signals
US10204638B2 (en) Integrated sensor-array processor
Ganguly Noise-robust speech source localization and tracking using microphone arrays for smartphone-assisted hearing aid devices
Hu et al. Processing of speech signals using a microphone array for intelligent robots
Wuth et al. A unified beamforming and source separation model for static and dynamic human-robot interaction
Ishi et al. Sound interval detection of multiple sources based on sound directivity
Asano Signal processing techniques for robust speech recognition