TW202123221A - 共變異平滑的系統及方法 - Google Patents

共變異平滑的系統及方法 Download PDF

Info

Publication number
TW202123221A
TW202123221A TW109125950A TW109125950A TW202123221A TW 202123221 A TW202123221 A TW 202123221A TW 109125950 A TW109125950 A TW 109125950A TW 109125950 A TW109125950 A TW 109125950A TW 202123221 A TW202123221 A TW 202123221A
Authority
TW
Taiwan
Prior art keywords
smoothing
frame
frequency band
value
forgetting factor
Prior art date
Application number
TW109125950A
Other languages
English (en)
Inventor
大衛 S 麥格拉斯
史蒂芬妮 伯朗
瓊恩 菲立克斯 托瑞斯
Original Assignee
美商杜拜研究特許公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商杜拜研究特許公司 filed Critical 美商杜拜研究特許公司
Publication of TW202123221A publication Critical patent/TW202123221A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Picture Signal Circuits (AREA)

Abstract

本發明揭示用於藉由通過基於一頻帶之頻格設定一遺忘因數以使一多頻道信號之共變異矩陣平滑來改良信號處理之方法及系統。本發明亦揭示一種用於基於暫態偵測重設該平滑之方法及系統。本發明亦揭示一種用於在一頻帶躍遷期間對該平滑重取樣之方法及系統。

Description

共變異平滑的系統及方法
本發明係關於信號處理之改良。特定言之,本發明係關於處理音訊信號以改良用於改良處理之共變異平滑。
音訊信號處理之一態樣包含向一收聽者呈現多頻道音訊使得收聽者可判定音訊之虛擬空間位置以給予收聽者一身歷其境式體驗。此之一早期實施方案係立體聲,其中收聽者可空間上判定一聲音來自哪個「方向」。
本技術之最近發展使用一多頻道系統之頻道間相依性來呈現一更完全身歷其境式聲音體驗。此可包含使用音訊頻道之一共變異矩陣。
本文揭示各種信號處理系統及方法。一些此等系統及方法可涉及使連續訊框上之一頻帶之共變異值平滑。
在一些實例中,揭示一種用於使一頻帶中之信號訊框之一序列之共變異矩陣之一估計平滑之系統及方法,該方法包括:針對該等信號訊框,比較該頻帶中之頻格之一有效計數與該頻帶之頻格之一所要計數;將該頻帶之一遺忘因數運算為該有效計數與該所要計數之一比率;及若該頻帶中之頻格之該有效計數小於該所要計數,則使用相對於一目前訊框之一先前訊框之該共變異矩陣值之一值之一先前產生估計及該遺忘因數來產生該目前訊框之該共變異矩陣值之一值之一當前估計;其中該比較、該運算及該產生由包含一或多個電腦處理器之一系統執行。該平滑共變異矩陣可用於藉由減少由該矩陣之粗略躍遷引起之假影來進一步改良信號處理。
在一些此等實例中,該系統及方法可涉及將頻格之該有效數目計算為該頻帶之濾波器組回應值之一和。
在一些此等實例中,該產生使用一階濾波器。
在一些此等實例中,該一階濾波器包含該目前訊框之該值與該先前訊框之該先前產生估計之間的一差,該差由該遺忘因數加權。
在一些此等實例中,該系統及方法亦包含:比較該遺忘因數與一最大遺忘因數;及將該遺忘因數設定為該計算遺忘因數及該最大容許遺忘因數之最小值;其中該比較及該設定在產生該當前訊框之該共變異矩陣之該值之該目前估計之前執行。
在一些此等實例中,該系統及方法亦包含偵測一暫態是否發生於一監測訊框內;及回應於偵測到該暫態發生而藉由將該監測訊框之該共變異矩陣值之一值之一當前估計設定為該監測訊框之一共變異矩陣值之一原始值且無需將該遺忘因數用於該監測訊框來重設該平滑。可藉由使用一回避去相關器之態樣來執行該偵測。
在一些此等實例中,該系統及方法亦包含:儲存該目前訊框之該共變異矩陣之該當前估計;及在頻帶上對該儲存當前估計重取樣以自一頻帶結構轉換為另一頻帶結構。
該系統及方法可為一音訊信號編碼器之一部分。
該系統及方法可為一音訊信號解碼器之一部分。
本文所描述之一些或所有方法可由一或多個裝置根據儲存於一或多個非暫時性媒體上之指令(例如軟體)執行。此等非暫時性媒體可包含記憶體裝置(諸如本文所描述之記憶體裝置),其包含(但不限於)隨機存取記憶體(RAM)裝置、唯讀記憶體(ROM)裝置等等。因此,本發明中所描述之標的之各種創新態樣可實施於其上儲存有軟體之一非暫時性媒體中。該軟體可(例如)由一控制系統之一或多個組件(諸如本文所揭示之組件)執行。該軟體可(例如)包含用於執行本文所揭示之方法之一或多者之指令。
本發明之至少一些態樣可經由一設備或若干設備實施。例如,一或多個裝置可經組態用於至少部分執行本文所揭示之方法。在一些實施方案中,一設備可包含一介面系統及一控制系統。該介面系統可包含一或多個網路介面、該控制系統與記憶體系統之間的一或多個介面、該控制系統與另一裝置之間的一或多個介面及/或一或多個外部裝置介面。該控制系統可包含以下之至少一者:一通用單晶片或多晶片處理器、一數位信號處理器(DSP)、一專用積體電路(ASIC)、一場可程式化閘陣列(FPGA)或其他可程式化邏輯裝置、離散閘或電晶體邏輯或離散硬體組件。因此,在一些實施方案中,該控制系統可包含一或多個處理器及操作性耦合至一或多個處理器之一或多個非暫時性儲存媒體。
附圖及以下[實施方式]中闡述本說明書中所描述之標的之一或多個實施方案之細節。將自[實施方式]、圖式及申請專利範圍明白其他特徵、態樣及優點。應注意,下圖之相對尺寸可不按比例繪製。各種圖式中之相同元件符號及名稱一般指示相同元件,但不同元件符號未必標示不同圖式之間的不同元件。
本發明描述用於使一估計矩陣(例如一共變異矩陣)隨時間之值(其包含其中估計自少量樣本計算之情況)平滑使得該等值之非平滑變異可引起諸如輸出(例如音訊)中之顯著假影之問題之方法及系統。
本發明亦描述(尤其)使用暫態偵測來防止過度平滑值以藉此防止自平滑添加不想要假影。
本文所使用之術語「平滑」係指減少一信號之循序訊框之一值之變異,例如減少循序訊框上之共變異值之變異。
本文所使用之術語「共變異」係指兩個信號之聯合變異性之量測,例如信號之能量之共變異。
本文所使用之一「共變異矩陣」係指多個信號之共變異之一矩陣。「帶狀共變異矩陣」係指其中將每頻格共變異矩陣之若干相鄰頻格組合成一頻帶使得共變異可由明顯更少數目(等於頻帶之數目)表示之一共變異矩陣。例如,具有960個頻格之一輸入可變成12個頻帶,其中960個頻格均等或非均等地分佈於12個頻帶中。針對本文所提供之實例,「共變異矩陣」被視為一帶狀共變異矩陣。
本文所使用之一「估計矩陣」係指一樣本共變異矩陣。如本文所使用,「共變異矩陣」及「平滑矩陣」包含估計矩陣。
本文所使用之術語「複數高級耦合」(CACPL)係指立體聲編碼之一方法,其中左信號及右信號組合成中間(L+R)/2及側(L-R)/2信號,且接著自中間預測側信號。
本文所使用之術語「平滑演算法」係指根據本發明使一共變異矩陣平滑,特定言之,基於一頻帶之一有效頻格計數來平滑。本文所使用之術語「平滑矩陣」係指由平滑演算法修改之一共變異矩陣。
本文所使用之術語「有效頻格計數」係指一頻帶中之頻格之數目之一實際計數或一頻帶中之有效頻格之計數之一估計。一頻帶中之有效頻格之計數之一估計之一實例包含對該頻帶之濾波器組回應值求和。
本文所使用之術語「遺忘因數」係指修改一函數之一部分之重要性之一加權值。
本文所使用之術語「DTX」係指處置不連續傳輸事件之一編碼器模組。
本文描述使輸入頻道之共變異平滑之問題之一解決方案。此改良(例如)語音及音訊服務(諸如向使用者提供一身歷其境式體驗(例如虛擬實境、擴增實境)之語音及音訊服務)之信號處理之技術。
在圖1所展示之數位信號處理中,一輸入信號(頻道)在時域中分成若干訊框101。連續訊框之一序列可一起分組為一「訊框序列」102。在頻域中,信號可分成稱為頻格103之頻率間隔。一給定訊框處之一給定頻格稱為一樣本106。頻格可在一頻帶104/105中分組在一起。此允許一給定窗型訊框/訊框序列之一給定頻帶上之統計平均(一「窗」係應用於一訊框或訊框序列之一加權函數)。此平均之一用途係用於估計音訊頻道之間的共變異。
未必所有頻帶含有相同數目個頻格。例如,較低頻帶104可具有比較高頻帶105低之每頻帶頻格數目。此意謂:就統計分析而言,較低頻帶需要比一較高頻帶大之一每頻格窗(更多訊框)來產生有意義統計結果。一給定訊框處之一給定頻格可具有與之相關聯之一信號能量,且可在一頻帶及/或窗上平均化若干頻格值。
共變異矩陣實例
採用複數高級耦合(CACPL)作為一實例,參數α (複數預測係數)及β (實數去相關係數)可自一(2×2)中間-側共變異矩陣
Figure 02_image001
之元素計算。此矩陣在一系列分析頻帶1≤b≤B上計算。
Figure 02_image003
方程式1
Figure 02_image005
其中式
Figure 02_image007
中之項係在一頻帶b上計算之信號X及Y之共變異。上標*表示值之複共軛轉置。上述實例係一2×2共變異矩陣。在各種實施方案中,任何數目個輸入頻道係可行的(例如具有一4×4共變異矩陣之一4頻道系統)。上述實例係針對中間(M)及側(S)信號,但熟習技術者可針對其他信號類型外推上述情況。
平滑函數及遺忘因數
一般而言,可使用經設計以滿足平滑要求之一低通濾波器計算平滑矩陣。就平滑演算法而言,平滑要求使得先前估計用於人為增加用於產生一共變異矩陣之當前估計之頻率樣本(頻格)之數目。在一些實施例中,自一訊框序列上之一輸入共變異矩陣A計算平滑矩陣
Figure 02_image009
使用利用過去及目前訊框之估計矩陣值之一加權和之一階自回歸低通濾波器:
Figure 02_image011
方程式2 其中λ係一遺忘因數或一更新率(即,對先前估計資料之看重程度)且n係訊框數目。在一些實施例中,此僅對第一訊框之後的訊框有意義,因為A[0]沒有值。在一些實施例中,A[0]被給予值0以導致A[1]之一平滑。在一些實施例中,A[0]被給予A[1]之值以導致A[1]無平滑。方程式2中之演算法係可用於平滑演算法之一演算法之一實例,但亦可使用其他方程式。例如,儘管方程式2展示一階低通濾波器,但亦可使用一更高階濾波器設計。演算法(平滑函數)之重要因數係使用先前平滑結果及遺忘因數來加強該等結果之影響之回顧態樣。
遺忘因數
遺忘因數之效應係:隨著平滑應用於連續訊框上,先前訊框之效應變得對經平滑(經調整)之訊框之平滑影響越來越小。
當方程式1中之遺忘因數係1 (λ=1)時,無平滑發生且其實際上充當一全通濾波器。當0<λ<1時,方程式充當一低通濾波器。λ越低,對舊共變異資料越看重,λ越高,對新共變異考量越多。超過1之一遺忘因數(例如1<λ<2)實施為一高通濾波器。在一些實施例中,實施一最大可容許遺忘因數λmax 。一旦頻格/頻帶值變大,則此最大值將判定演算法之行為。在一些實施例中,λmax <1將總是在每個頻帶中實施一些平滑,不管所計算之遺忘因數是什麼;且λmax =1將僅將平滑函數應用於具有比所要Nmin 少之頻格之頻帶以使較大頻帶不平滑。
在一些該等實施例中,將一特定頻帶之遺忘因數λb 計算為最大容許遺忘因數λmax 及頻帶中之頻格之有效數目Nb 與經判定以基於窗大小給出一良好統計估計之頻格之最小數目Nmin 之比率之最小值。
Figure 02_image013
方程式3
在一些實施例中,Nb 係頻帶之頻格之實際計數。在一些實施例中,Nb 可自一特定頻帶之頻率回應之和計算,例如,若一頻帶之回應係r = [0.5, 1, 1, 0.5, 0, …, 0],則頻格之有效數目Nb = sum(r) = 0.5+1+1+0.5 = 3。在一些實施例中,λmax =1使得λb 保持在一合理範圍內,例如0≤λb ≤1。此意謂平滑成比例地應用於小樣本估計,且完全無平滑應用於大樣本估計。在一些實施例中,λmax <1,其迫使較大頻帶在一定程度上平滑,不管其大小如何(例如λmax =0.9)。在一些實施例中,可基於產生最佳主觀結果之現有資料來選擇Nmin 。在一些實施例中,可基於期望多少初始(一給定窗之初始訊框之後的第一後續訊框)平滑來選擇Nmin
在一實例中,使用具有較窄(即,良好統計分析所需之較少頻格、較多訊框)低頻帶及較寬(即,良好統計分析所需之較多頻格、較少訊框)高頻帶之一分析濾波器組,此將具有增加較低頻帶中之平滑量及減少較高頻帶中之量(或完全無平滑,若λmax =1)之效應。
圖2中展示此方法之一實例性程序流程。一輸入信號FFT (快速傅立葉變換) 201針對一輸入信號之一給定頻帶提供一窗上之一對應共變異矩陣。取得202該頻帶之頻格之一有效計數。此可(例如)由頻帶之濾波器組回應值計算。由(例如)需要多少頻格來提供窗之一良好統計分析之一主觀分析判定203一所要頻格計數。藉由取得計算頻格數目與所要頻格計數之一比率來運算204一遺忘因數。針對一給定訊框(除第一訊框之外),基於針對先前訊框所運算之新共變異值、當前訊框之原始值及遺忘因數運算205一新共變異矩陣值。由此等新值形成之新(平滑)矩陣用於進一步信號處理206。
圖3展示一最大容許遺忘因數之流程之一實例性修改。如同圖2,針對頻帶運算301一遺忘因數。另外,判定302一最大容許遺忘因數。比較303值,且回應於計算因數小於最大容許因數而將計算因數用於平滑305中。若計算因數大於最大容許因數,則在平滑305中使用304最大容許因數。實例展示在因數相等(不大於)時使用計算因數,但可設想其中在因數相等時使用最小值之一等效流程。
平滑重設
在一些實施例中,可期望避免暫態上之平滑(信號量值之之突然改變),因為此會在輸出中產生不想要信號失真/假影。在此等實施例中,平滑可在其中偵測到信號之暫態之點「重設」。
先前時框之估計矩陣可經儲存以促進當前訊框之平滑值之計算。若在該訊框期間在輸入信號中偵測到一暫態,則可設定平滑函數以自我重新初始化。
當偵測到一暫態時,將過去矩陣估計重設為當前估計,使得一暫態之後的平滑濾波器之輸出係估計本身(未施加改變)。換言之,針對重設訊框,
Figure 02_image009
b [n]=Ab [n]。在重設訊框之後,後續訊框可再次應用平滑函數,直至下一重設。
圖4展示用於暫態偵測之流程之一實例性修改。判定401是否偵測到一給定訊框之一暫態。若偵測到一暫態,則新矩陣值保持403相同於輸入值。若未偵測到一暫態,則對該訊框使用402常用平滑演算法。平滑及非平滑(暫態)訊框值之組合(矩陣)用於信號處理404。
在一些實施例中,在任何頻道上偵測到一暫態時重設平滑。例如,若存在N個頻道,則可使用N個暫態偵測器(每頻道一個),且若N個暫態偵測器之任何者偵測到一暫態,則重設平滑或結束信號或結束平滑(完成平滑)。
針對一立體聲輸入之實例,可判定頻道足夠相異(或可能相異),使得僅考量左頻道中之暫態可意謂右頻道中之一重要暫態可能未被適當平滑(且反之亦然)。因此,使用兩個暫態偵測器(左及右)且此等之任一者可觸發整個2×2矩陣之一平滑重設。
在一些實施例中,僅在特定頻道之暫態上重設平滑。例如,若存在N個頻道,則僅使用M (<N,可能為1)個偵測器。
針對一階球形環繞聲技術(First Order Ambisonics (FOA))輸入之實例,可判定第一(W)頻道比其他三個(X、Y、Z)更重要且鑑於FOA信號之間的空間關係,可無論如何在W頻道中反映後三個頻道中之暫態。因此,系統可僅在W頻道上使用一暫態偵測器來設置以在其在W上偵測到一暫態時觸發整個4×4共變異矩陣之一重設。
在一些實施例中,重設僅重設已經歷暫態之共變異元素。此將意謂第n頻道中之一暫態將僅重設共變異矩陣之第n列及第n行(整列及整行)中之值。此可藉由對各頻道進行單獨暫態監測來執行且任何給定頻道上之一偵測暫態將觸發對應於該頻道之共變異之矩陣位置重設至另一頻道(且反之亦然,且一般而言,至其本身)。
在一些實施例中,重設僅發生於偵測到一暫態之大多數/臨限數目個頻道上。例如,在一4頻道系統中,只有在頻道之至少兩者報告相同訊框中之一暫態時可設定臨限值以觸發一重設。
暫態偵測實例
一暫態偵測器之一實例係使用一回避去相關器之回避增益性質,其可用於判定一暫態是否已發生於一單一輸入頻道中。參閱(例如) US 9,747,909,其內容以引用的方式併入本文中。回避增益之突然減小發生於暫態處。回避增益之改變可與一臨限值比較以判定是否發生一暫態。臨限值可由提供一準確暫態偵測之主觀評估判定。
實例性暫態偵測器依以下方式工作: 1. 輸入信號經高通濾波以增強暫態。 2. 接著,高通濾波器輸出信號之絕對值經低通濾波以判定信號包絡。 3. 使用具有略微不同截止頻率(ωf >ωs )之兩個不同低通濾波器產生兩個包絡:快ef [n]及慢es [n]。 4. 針對一特定訊框內之信號包絡之各時域樣本n,其中1≤n≤N,若
Figure 02_image015
方程式4 則回避增益gd 減小至
Figure 02_image017
方程式5 否則允許增益依下緩慢升回至1:
Figure 02_image019
方程式6 其中τd 係判定回避增益多快返回至1之時間常數。 5. 若當前訊框上之回避增益已大改變,則可認為已發生一暫態:即, dg [1] - dg [N] > 臨限值       方程式7
在一些實施例中,自回避增益判定一暫態之發生之方法係計數滿足上述條件之各訊框內之時域樣本之數目/分率。若此值超過一特定臨限值,則判定訊框含有一暫態。
儘管回避增益可用於平滑演算法之暫態偵測,但可利用本技術中已知之暫態偵測之任何方法。
重取樣(頻帶躍遷)
在一些實施例中,當頻道之頻帶改變時,可將經歷平滑之一頻帶轉換為一新頻帶用於平滑。若輸入信號頻帶自一訊框改變至下一訊框,則可從數目及/或頻寬(例如由於編碼器處之一濾波器組開關)方面將所儲存之(先前)矩陣估計重取樣至新頻帶結構以繼續平滑機構之不間斷操作。可藉由採用頻域中之開窗函數組(即,先前頻帶方案(即,先前濾波器組)之理想濾波器組量值回應)作為一矩陣來計算頻帶結構之間的一轉換矩陣。
作為一實例: 組1 係含有若干列先前理想濾波器組回應FR1之一(B1 ×F)陣列,且 組2 係含有新濾波器組理想回應FR2之一(B2 ×F)陣列。F係頻格之數目。 組1 =
Figure 02_image021
2 =
Figure 02_image023
將來自組1 之一頻帶b1 轉換為來自組2 之一頻帶b2 之共變異矩陣
Figure 02_image025
之元素係:
Figure 02_image027
方程式8 其產生可用於將先前帶狀估計轉換為新頻帶方案之一(B1 ×B2 )矩陣。
具有平滑之重設之實例
鑑於一1×1共變異矩陣Ab [n]之一單一頻帶b之一實例,其中頻帶由3個頻格(Nb =3)組成,但(主觀)判定良好統計分析需要至少8個頻格(Nmin =8)。此給出λb =3/8之一頻帶遺忘因數。
若初始帶狀共變異矩陣係(以粗體展示之第一訊框及暫態):
Figure 02_image029
且一暫態偵測器具有以下輸出以指示第一訊框及第七訊框含有暫態:
Figure 02_image031
平滑共變異輸出將看起來像:
Figure 02_image033
Figure 02_image035
歸因於第一訊框中所指示之暫態,
Figure 02_image009
[n]中之第一訊框保持相同於A[n]中之第一訊框,因為平滑直至第二訊框才開始。若第一訊框中無暫態,則可藉由在一實施例中將先前訊框視為具有一零值或在另一實施例中將先前訊框視為具有等於其本身之一值(情況取決於如何組態演算法)來使第一訊框平滑。在一些實施例中,第一訊框總是標記為具有所偵測之一暫態,不管是否發生任何實際偵測。歸因於平滑重設,
Figure 02_image009
[n]之第七值相同於來自A[n]之第七值。
第二訊框使用其本身之值(0.05)、先前訊框之「平滑」值(0.1)及遺忘因數(3/8)來計算
Figure 02_image037
之平滑值(約0.813)。在此實例(一階濾波器)中,公式係:
Figure 02_image039
此針對後續訊框重複,直至其到達訊框7,其在T[n]中指定為具有一暫態。為此,
Figure 02_image009
[7]=A[7]=0.9。接著,後續訊框再次由平滑函數計算(宛如訊框7係一初始訊框)。
在一些實施例中,共變異矩陣平滑系統可整合至一編碼器中。圖5中提供一實例性系統。實例性編碼器501針對一信號504產生502一或多個共變異矩陣,在將信號504發送至解碼器505之前,平滑演算法503修改信號504。
在一些實施例中,共變異矩陣平滑系統可整合至一解碼器中。圖6中展示具有平滑演算法之一解碼器之一實例。編碼器601將一信號602 (例如音訊頻道)發送至解碼器603。解碼器603在執行進一步處理605之前應用平滑演算法604 (亦可在平滑之前存在處理)。
在一些實施例中,共變異平滑亦可在不連續傳輸(DTX)訊框之情況中用於編碼器中以穩定空間舒適雜訊之參數化。在此例項中,在DTX訊框期間,將歸因於暫態而不重設共變異平滑,而是將在進入/退出編解碼器之DTX模式之後重設共變異平滑。圖7中展示具有平滑演算法之一編碼器之一實例,其中編碼器701具有併入平滑演算法703之一DTX模組702。
已描述本發明之若干實施例。然而,應瞭解,可在不背離本發明之精神及範疇之情況下進行各種修改。因此,其他實施例係在以下申請專利範圍之範疇內。
實施共變異平滑之技術之一運算裝置可具有以下實例性架構。其他架構係可行的,其包含具有更多或更少組件之架構。在一些實施方案中,實例性架構包含一或多個處理器(例如雙核心Intel® Xeon®處理器)、一或多個輸出裝置(例如LCD)、一或多個網路介面、一或多個輸入裝置(例如滑鼠、鍵盤、觸敏顯示器)及一或多個電腦可讀媒體(例如RAM、ROM、SDRAM、硬碟、光碟、快閃記憶體等等)。此等組件可在一或多個通信頻道(例如匯流排)上交換通信及資料,其可利用各種硬體及軟體來促進資料及控制信號傳送於組件之間。
術語「電腦可讀媒體」係指參與將指令提供至處理器用於執行之一媒體,其包含(但不限於)非揮發性媒體(例如光碟或磁碟)、揮發性媒體(例如記憶體)及傳輸媒體。傳輸媒體包含(但不限於)同軸電纜、銅線及光纖。
電腦可讀媒體可進一步包含作業系統(例如一Linux®作業系統)、網路通信模組、音訊介面管理器、音訊處理管理器及實況內容分配器。作業系統可為多使用者、多處理、多任務、多線程、即時等等。作業系統執行基本任務,其包含(但不限於):辨識來自網路介面706及/或裝置708之輸入及將輸出提供至網路介面706及/或裝置708;追蹤及管理電腦可讀媒體(例如記憶體或一儲存裝置)上之檔案及目錄;控制周邊裝置;及管理一或多個通信頻道上之訊務。網路通信模組包含用於建立及維持網路連接之各種組件(例如用於實施通信協定(諸如TCP/IP、HTTP等等)之軟體)。
架構可實施於一並行處理或同級間基礎設施中或具有一或多個處理器之一單一裝置上。軟體可包含多個軟體組件或可為程式碼之一單體。
所描述之特徵可有利地實施於可在包含至少一可程式化處理器(其經耦合以自一資料儲存系統接收資料及指令及將資料及指令傳輸至資料儲存系統)、至少一輸入裝置及至少一輸出裝置之一可程式化系統上執行之一或多個電腦程式中。一電腦程式係可直接或間接用於一電腦中以執行一特定活動或帶來一特定結果之一組指令。一電腦程式可以任何形式之程式撰寫語言(例如Objective-C、Java)編寫(其包含編譯或解譯語言),且其可以任何形式部署,包含作為一獨立程式或作為一模組、組件、子常式、一基於瀏覽器之網頁應用程式或適合用於一運算環境中之其他單元。
適合於執行指令之一程式之處理器包含(舉例而言)各種電腦之通用及專用微處理器兩者及唯一處理器或多個處理器或核心之一者。一般而言,一處理器將自一唯讀記憶體或一隨機存取記憶體或兩者接收指令及資料。一電腦之基本元件係用於執行指令之一處理器及用於儲存指令及資料之一或多個記憶體。一般而言,一電腦亦將包含用於儲存資料檔案之一或多個大容量儲存裝置或經操作性耦合以與該一或多個大容量儲存裝置通信;此等裝置包含磁碟(諸如內部硬碟及可抽換磁碟)、磁光碟及光碟。適合於有形地體現電腦程式指令及資料之儲存裝置包含所有形式之非揮發性記憶體,其包含(舉例而言):半導體記憶體裝置,諸如EPROM、EEPROM及快閃記憶體裝置;磁碟,諸如內部硬碟及可抽換磁碟;磁光碟;及CD-ROM及DVD-ROM光碟。處理器及記憶體可由ASIC (專用積體電路)補充或併入ASIC中。
為提供與一使用者之互動,特徵可實施於具有一顯示裝置(諸如一CRT (陰極射線管)或LCD (液晶顯示器)監視器或用於向使用者顯示資訊之一視網膜顯示裝置)之一電腦上。電腦可具有一觸控表面輸入裝置(例如一觸控螢幕)或一鍵盤及使用者可藉由其將輸入提供至電腦之一指標裝置(諸如一滑鼠或一軌跡球)。電腦可具有用於自使用者接收語音命令之一語音輸入裝置。
特徵可實施於包含一後端組件(諸如一資料伺服器)或包含一中介軟體組件(諸如一應用程式伺服器或一網際網路伺服器)或包含一前端組件(諸如具有一圖形使用者介面或一網際網路瀏覽器之一客戶端電腦)或包含其等之任何組合之一電腦系統中。系統之組件可由任何形式或媒體之數位資料通信(諸如一通信網路)連接。通信網路之實例包含(例如)一LAN、一WAN及形成網際網路之電腦及網路。
運算系統可包含客戶端及伺服器。一客戶端及伺服器一般彼此遠離且通常透過一通信網路互動。客戶端及伺服器之關係憑藉在各自電腦上運行且彼此具有一客戶端-伺服器關係之電腦程式產生。在一些實施例中,一伺服器將資料(例如一HTML頁面)傳輸至一客戶端裝置(例如為了向一使用者顯示資料及自使用者接收使用者輸入以與客戶端裝置互動)。產生於客戶端裝置處之資料(例如使用者互動之一結果)可在伺服器處自客戶端裝置接收。
一或多個電腦之一系統可經組態以憑藉使在操作中引起系統執行動作之軟體、韌體、硬體或其等之一組合安裝於系統上來執行特定動作。一或多個電腦程式可經組態以憑藉包含在由資料處理設備執行時引起設備執行動作之指令來執行特定動作。
儘管本說明書含有諸多具體實施細節,但此等不應被理解為限制任何發明或可主張內容之範疇,而應被視為描述專用於特定發明之特定實施例之特徵。本說明書之單獨實施例之背景中所描述之特定特徵亦可組合實施於一單一實施例中。相反地,一單一實施例之背景中所描述之各種特徵亦可單獨實施或以任何適合子組合實施於多個實施例中。再者,儘管特徵可在上文中描述為作用於特定組合且甚至最初如此主張,但在一些情況中,來自一主張組合之一或多個特徵可自組合去除,且主張組合可針對一子組合或一子組合之變型。
類似地,儘管圖式中依一特定順序描繪操作,但此不應被理解為要求依所展示之特定順序或依循序順序執行此等操作或執行所有繪示操作以達成期望結果。在特定情境中,多任務及並行處理可為有利的。再者,上述實施例中之各種系統組件之分離不應被理解為在所有實施例中需要此分離,且應瞭解,所描述之程式組件及系統一般可一起整合於一單一軟體產品中或封裝至多個軟體產品中。
因此,已描述標的之特定實施例。其他實施例係在以下申請專利範圍之範疇內。在一些情況中,申請專利範圍中所列之動作可依一不同順序執行且仍達成期望結果。另外,附圖中所描繪之程序未必需要所展示之特定順序或循序順序來達成期望結果。在特定實施方案中,多任務及並行處理可為有利的。
已描述本發明之若干實施方案。然而,應瞭解,可在不背離本發明之精神及範疇之情況下進行各種修改。
101:訊框 102:訊框序列 103:頻格 104:頻帶 105:頻帶 106:樣本 201:輸入信號快速傅立葉變換(FFT) 202:取得 203:判定 204:運算 205:運算 206:信號處理 301:運算 302:判定 303:比較 304:使用 305:平滑 401:判定 402:使用 403:保持 404:信號處理 501:編碼器 502:產生 503:平滑演算法 504:信號 505:解碼器 601:編碼器 602:信號 603:解碼器 604:平滑演算法 605:處理 701:編碼器 702:不連續傳輸(DTX)模組 703:平滑演算法
圖1繪示分離成樣本、訊框、頻格及頻帶之一信號頻道之一實例。
圖2繪示用於使用平滑演算法使一信號共變異矩陣平滑之一實例性方法之一流程圖。
圖3繪示用於使用具有最大遺忘因數之平滑演算法使一信號共變異矩陣平滑之一實例性方法之一流程圖(部分)。
圖4繪示用於使用具有暫態偵測之平滑演算法使一信號共變異矩陣平滑之一實例性方法之一流程圖(部分)。
圖5繪示其中平滑演算法位於編碼器中之一實例性編碼器/解碼器系統。
圖6繪示其中平滑演算法位於解碼器中之一實例性編碼器/解碼器系統。
圖7繪示其中平滑演算法作為一DTX之部分之一實例性編碼器/解碼器系統。
201:輸入信號快速傅立葉變換(FFT)
202:取得
203:判定
204:運算
205:運算
206:信號處理

Claims (15)

  1. 一種用於使一頻帶中之信號訊框之一序列之一輸入共變異矩陣平滑之方法,該方法包括: 針對該等信號訊框,比較該頻帶中之頻格之一有效計數與該頻帶之頻格之一所要計數; 將該頻帶之一遺忘因數運算為該有效計數與該所要計數之一比率;及 回應於判定該頻帶中之頻格之該有效計數小於該所要計數,針對一當前訊框,使用相對於一目前訊框之一先前訊框之一平滑矩陣之一先前產生值及該遺忘因數來產生該目前訊框之該平滑矩陣之一值; 其中該比較、該運算及該產生由包含一或多個電腦處理器之一系統執行。
  2. 如請求項1之方法,其中將頻格之該有效數目計算為該頻帶之濾波器組回應值之一和。
  3. 如請求項1至2中任一項之方法,其中該產生使用一階濾波器。
  4. 如請求項3之方法,其中該一階濾波器包含該目前訊框之該輸入共變異矩陣之該值與該先前訊框之該平滑矩陣之該先前產生值之間的一差,該差由該遺忘因數加權。
  5. 如請求項1至2中任一項之方法,其進一步包括: 比較該遺忘因數與一最大容許遺忘因數;及 將該遺忘因數設定為該遺忘因數及該最大容許遺忘因數之最小值; 其中該比較及該設定在該產生該目前訊框之該平滑矩陣之該值之前執行。
  6. 如請求項1至2中任一項之方法,其進一步包括: 偵測一暫態是否發生於一監測訊框內;及 回應於偵測到該暫態發生而藉由將該監測訊框之該平滑矩陣值之一值設定為該監測訊框之該輸入矩陣值之一原始值且無需使用該遺忘因數來重設該平滑。
  7. 如請求項6之方法,其中藉由使用一回避去相關器之態樣來執行該偵測。
  8. 如請求項1至2中任一項之方法,其中對所有頻道執行該偵測。
  9. 如請求項8之方法,其中該偵測偵測到該暫態發生於在該監測訊框之任何頻道上偵測到任何暫態時。
  10. 如請求項8之方法,其中該偵測偵測到該暫態僅發生於一暫態發生於一特定頻道上時。
  11. 如請求項1至2中任一項之方法,其進一步包括: 儲存該目前訊框之該平滑矩陣;及 在頻帶上對該儲存平滑矩陣重取樣。
  12. 一種系統,其包括: 一或多個電腦處理器;及 一非暫時性電腦可讀媒體,其儲存在由該一或多個電腦處理器執行時引起該一或多個電腦處理器執行如請求項1至11中任一項之操作之指令。
  13. 一種非暫時性電腦可讀媒體,其儲存在由一或多個電腦處理器執行時引起該一或多個電腦處理器執行如請求項1至11中任一項之操作之指令。
  14. 一種編碼器,其包括如請求項12之系統。
  15. 一種解碼器,其包括如請求項12之系統。
TW109125950A 2019-08-01 2020-07-31 共變異平滑的系統及方法 TW202123221A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962881825P 2019-08-01 2019-08-01
US62/881,825 2019-08-01
US202063057533P 2020-07-28 2020-07-28
US63/057,533 2020-07-28

Publications (1)

Publication Number Publication Date
TW202123221A true TW202123221A (zh) 2021-06-16

Family

ID=72179201

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109125950A TW202123221A (zh) 2019-08-01 2020-07-31 共變異平滑的系統及方法

Country Status (13)

Country Link
US (1) US11972767B2 (zh)
EP (1) EP4008001A1 (zh)
JP (1) JP2022542427A (zh)
KR (1) KR20220042165A (zh)
CN (1) CN114223031A (zh)
AU (1) AU2020319893A1 (zh)
BR (1) BR112022000806A2 (zh)
CA (1) CA3147429A1 (zh)
CL (1) CL2022000258A1 (zh)
IL (1) IL289752A (zh)
MX (1) MX2022001150A (zh)
TW (1) TW202123221A (zh)
WO (1) WO2021022235A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100392365B1 (ko) * 2001-08-08 2003-07-23 한국전자통신연구원 음향 반향 제거기를 위한 동시통화 검출기에서의 동시통화 구간의 끝점 검출 지연 제거 장치 및 그 방법
ATE421845T1 (de) * 2005-04-15 2009-02-15 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
EP2192694B1 (en) * 2007-09-20 2015-04-29 NEC Corporation System identifying device and system identifying method
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
US8260209B2 (en) * 2009-11-18 2012-09-04 Futurewei Technologies, Inc. System and method for coordinated spatial multiplexing using second order statistical information
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US9213703B1 (en) * 2012-06-26 2015-12-15 Google Inc. Pitch shift and time stretch resistant audio matching
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
DK2701145T3 (en) 2012-08-24 2017-01-16 Retune DSP ApS Noise cancellation for use with noise reduction and echo cancellation in personal communication
US9830917B2 (en) * 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
CN110379434B (zh) * 2013-02-21 2023-07-04 杜比国际公司 用于参数化多声道编码的方法
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
US9754604B2 (en) 2013-04-15 2017-09-05 Nuance Communications, Inc. System and method for addressing acoustic signal reverberation
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
WO2015017223A1 (en) 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
US9379924B2 (en) 2013-12-20 2016-06-28 King Fahd University Of Petroleum And Minerals Cognitive radio spectrum sensing with improved edge detection of frequency bands
US9502021B1 (en) * 2014-10-09 2016-11-22 Google Inc. Methods and systems for robust beamforming
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
KR102051436B1 (ko) 2015-04-30 2019-12-03 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 장치들 및 방법들
GB2548325B (en) 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
EP3440671B1 (en) 2016-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10410641B2 (en) * 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
US10170134B2 (en) * 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
WO2019016494A1 (en) 2017-07-19 2019-01-24 Cedar Audio Ltd ACOUSTIC SOURCE SEPARATION SYSTEMS
US10542153B2 (en) * 2017-08-03 2020-01-21 Bose Corporation Multi-channel residual echo suppression
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10638252B1 (en) * 2019-05-20 2020-04-28 Facebook Technologies, Llc Dynamic adjustment of signal enhancement filters for a microphone array

Also Published As

Publication number Publication date
WO2021022235A1 (en) 2021-02-04
KR20220042165A (ko) 2022-04-04
US11972767B2 (en) 2024-04-30
CN114223031A (zh) 2022-03-22
BR112022000806A2 (pt) 2022-03-08
MX2022001150A (es) 2022-02-22
US20220277757A1 (en) 2022-09-01
CL2022000258A1 (es) 2022-10-07
IL289752A (en) 2022-03-01
AU2020319893A1 (en) 2022-02-10
EP4008001A1 (en) 2022-06-08
CA3147429A1 (en) 2021-02-04
JP2022542427A (ja) 2022-10-03

Similar Documents

Publication Publication Date Title
JP6203643B2 (ja) マイクロホンアレイのためのノイズ適応的ビームフォーミング
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
JP5483000B2 (ja) 雑音抑圧装置、その方法及びプログラム
US20090060204A1 (en) Audio Spatial Environment Engine
JP5312680B2 (ja) マルチチャネル信号のチャネル遅延パラメータを調整する方法及び装置
CN111261138B (zh) 降噪系统确定方法及装置、噪声处理方法及装置
JP6242489B2 (ja) 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
AU2009278263A1 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
CN101802909A (zh) 通过噪声水平估计调整进行的语音增强
WO2008001678A2 (fr) Procédé, programme et dispositif destinés à l'optimisation d'un ensemble de paramètres de configuration de système
JP5965487B2 (ja) 直接−拡散分解方法
JP5681290B2 (ja) デコードされたマルチチャネルオーディオ信号またはデコードされたステレオ信号を後処理するためのデバイス
TW202123221A (zh) 共變異平滑的系統及方法
EP3542361A1 (en) Apparatus and method for decomposing an audio signal using a variable threshold
JP4422662B2 (ja) 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
CN114726758A (zh) 工业网络异常确定方法、装置、计算机设备及存储介质
WO2018091614A1 (en) Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN113160846B (zh) 噪声抑制方法和电子设备
RU2815754C2 (ru) Системы и способы для сглаживания ковариации
CN111627459B (zh) 音频处理方法及装置、计算机可读存储介质及电子设备
US9985895B1 (en) Decremental autocorrelation calculation for streamed data using components
CN114882898A (zh) 多通道语音信号增强方法和装置及计算机设备和存储介质
CN112530450A (zh) 频域中的样本精度延迟识别
JP6486080B2 (ja) 分散処理システム、分散処理方法、および分散処理プログラム
US10178034B1 (en) Iterative autocorrelation function calculation for streamed data using components