TWI778502B - 回聲延時估計方法及回聲延時估計系統 - Google Patents

回聲延時估計方法及回聲延時估計系統 Download PDF

Info

Publication number
TWI778502B
TWI778502B TW110102441A TW110102441A TWI778502B TW I778502 B TWI778502 B TW I778502B TW 110102441 A TW110102441 A TW 110102441A TW 110102441 A TW110102441 A TW 110102441A TW I778502 B TWI778502 B TW I778502B
Authority
TW
Taiwan
Prior art keywords
time
vector
signal
correlation
frequency
Prior art date
Application number
TW110102441A
Other languages
English (en)
Other versions
TW202231047A (zh
Inventor
熊蓶蓶
Original Assignee
威聯通科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 威聯通科技股份有限公司 filed Critical 威聯通科技股份有限公司
Priority to TW110102441A priority Critical patent/TWI778502B/zh
Priority to US17/205,377 priority patent/US11495241B2/en
Publication of TW202231047A publication Critical patent/TW202231047A/zh
Application granted granted Critical
Publication of TWI778502B publication Critical patent/TWI778502B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

一種回聲延時估計方法及回聲延時估計系統,回聲延時估計方法係由回 聲延時估計系統執行,且包括以下步驟:接收並對一參考訊號及一測量訊號進行一時頻分析運算,得出一參考訊號時頻圖及一測量訊號時頻圖;對參考訊號時頻圖及測量訊號時頻圖進行一特徵訊號動態偵測運算,得出一參考訊號特徵動態向量及一測量訊號特徵動態向量;對參考訊號特徵動態向量及測量訊號特徵動態向量進行一相關度向量運算,得出一相關度向量;根據相關度向量計算出一回聲延遲時間。通過回聲延時估計方法能簡化回聲延遲時間的計算複雜度,減輕運算負擔。

Description

回聲延時估計方法及回聲延時估計系統
一種延時估計方法及系統,尤指一種回聲延時估計方法及系統。
視訊會議使用普及率隨著社會的發展上升,而對視訊通訊器材的需求也有所提高,往往在進行視訊時一部份喇叭所發出的音訊會被麥克風收音,造成音訊在喇叭與麥克風間一次次的迴盪,干擾視訊通話品質,而這種音訊的迴盪稱為回聲。
消除視訊回聲的一重要步驟為估算出回聲的延遲時間,當找出回聲的延遲時間後,一般的視訊軟體就能通過演算法消除回聲。然而,現有技術的計算回聲的延遲時間的方法費時且繁雜,對視訊設硬體備的負擔也不小。
舉例來說,現有的回聲消除系統是通過測量聲學空間中的脈衝響應(Impulse Response)來進行回聲消除計算。首先回聲消除系統會通過喇叭播放一段測試用的脈衝訊號,然後用通過麥克風錄音接收到一測量訊號,並根據原始的脈衝訊號以及接收到的測量訊號,在時域上做相關度計算(Cross Correlation)。然而真實空間的環境變因多,隨著環境時間、溫度、周圍物件的變化測量訊號也會改變,因此,用相關度計算出來的延時的誤差會因環境變化而變大。
除了計算延時誤差之外,現有回聲消除系統的回聲消除效果也會受到視訊硬體的影響而改變。舉例來說,若作為校正基準的參考脈衝訊號因為喇叭的問題而無法播放出乾淨的脈衝訊號,將提高參考脈衝訊號和測量訊號相關度計算上的難度,增加系統額外運算負擔。
再來,現有的回聲消除系統多使用自適應濾波器(Adaptive filter),而自適應濾波器消除回聲的計算是使用最小均方濾波器(Least Mean Square filter)與遞歸最小平方濾波器(Recursive Least Squares filter),其中最小均方濾波器需要通過每一次疊代對測量訊號自身的梯度進行估計,因為估計修正誤差值的方式是一種隨機梯度下降法,其計算費時且複雜,而遞歸最小平方濾波器的計算方法因為不斷遞歸得檢查修正幅度的比重,雖比最小均方濾波器省時卻更為複雜,在系統更加形成額外的運算負擔。
由上述可知,現有的回聲延遲估計技術會因視訊環境變化而出現誤差,會因視訊硬體的播音品質不一而增加系統運算的負擔,並也會因為使用計算複雜的濾波器而加重運算負擔。
有鑒於前述現有回聲消除系統的複雜運算成本與現有回聲計算系統的誤差,本發明提供一種找出回聲延時估計的方法及系統,降低回聲消除系統運算負擔,並不因為喇叭跟麥克風的雜音而影響正確性,也能增加延時估計的穩定性及容錯性。
為達到上述目的,本發明的回聲延時估計系統包括:一前處理裝置,接收一參考訊號及一測量訊號,並分別進行一時頻分析運算,以得出一參考訊號時頻圖及一測量訊號時頻圖;一動態向量計算裝置,電性連接該前處理裝置,以接收該參考訊號時頻圖及該測量訊號時頻圖,並分別對該參考訊號時頻圖及該測量訊號時頻圖進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量及一測量訊號特徵動態向量;及 一相關度估計裝置,電性連接該動態向量計算裝置,以接收該參考訊號特徵動態向量及該測量訊號特徵動態向量,並對該參考訊號特徵動態向量及該測量訊號特徵動態向量進行一相關度向量運算,以得出一相關度向量,並根據該相關度向量計算出一回聲延遲時間。
此外,本發明的回聲延時估計方法包括以下步驟:接收一參考訊號及一測量訊號,並分別進行一時頻分析運算,以得出一參考訊號時頻圖及一測量訊號時頻圖;分別對該參考訊號時頻圖及該測量訊號時頻圖進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量及一測量訊號特徵動態向量;對該參考訊號特徵動態向量及該測量訊號特徵動態向量進行一相關度向量運算,以得出一相關度向量;及根據該相關度向量計算出一回聲延遲時間。
本發明係藉由頻域的相差加減運算而算出位移相關度的動態向量,相對於現有技術在時域做相關度的計算,不會像在時域中計算而受到非線性聲音的失真而影響準確度,延時的誤差不會因環境非線性變化而變大,所以能增加延時估計的穩定性及容錯性。
另外,本發明在頻域中做該相關度向量運算的內容只包括加減的運算,相對於現有技術在時域做卷積的運算,簡化了計算的複雜度,並減輕運算負擔。
10:播音模組
20:錄音模組
30:訊號處理模組
301:前處理裝置
302:動態向量計算裝置
303:相關度估計裝置
304:例外判斷裝置
TS:參考訊號
TF:參考訊號時頻圖
TV:參考訊號特徵動態向量
PS:測試音頻
RS:測量訊號
RF:測量訊號時頻圖
RV:測量訊號特徵動態向量
CV:相關度向量
LE:回聲延遲估計
LR:回聲延遲時間
S200、S210、S220、S230、S240、S250、S260、S270:步驟
S800、S810、S820:步驟
圖1為本發明回聲延時估計系統的方塊示意圖。
圖2為本發明回聲延時估計系統的流程示意圖。
圖3(a)及圖3(b)為本發明回聲延時估計方法之參考訊號與參考訊號時頻圖。
圖4(a)及圖4(b)為本發明回聲延時估計方法之測量訊號與測量訊號時頻圖。
圖5為本發明回聲延時估計方法之計算特徵動態向量的流程示意圖。
圖6為本發明回聲延時估計方法之計算特徵動態向量的數學示意圖。
圖7為本發明回聲延時估計方法之計算相關度向量的數學示意圖。
圖8為本發明回聲延時估計方法之例外判斷的流程示意圖。
本發明為一種回聲延時估計方法及系統,請參閱圖1所示,該回聲延時估計系統包括:一訊號處理模組30包含有一前處理裝置301、一動態向量計算裝置302、一相關度估計裝置303及一例外判斷裝置304。
該前處理裝置301接收一參考訊號TS及一測量訊號RS,並分別進行一時頻分析運算,以得出一參考訊號時頻圖TF及一測量訊號時頻圖RF。該動態向量計算裝置302電性連接該前處理裝置301,接收該參考訊號時頻圖TF及該測量訊號時頻圖RF,並分別對該參考訊號時頻圖TF及該測量訊號時頻圖RF進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量TV及一測量訊號特徵動態向量RV。該相關度估計裝置303電性連接該動態向量計算裝置302,接收該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV,並對該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV進行一相關度向量運算,以得出一相關度向量CV,並根據該相關度向量CV計算出一回聲延遲時間LR。
請參閱圖2所示,該回聲延時估計方法包括以下步驟:步驟S220:接收一參考訊號TS及一測量訊號RS;步驟S230:分別對該參考訊號TS及該測量訊號RS進行一時頻分析運算,以得出一參考訊號時頻圖TF及一測量訊號時頻圖RF; 步驟S240:分別對該參考訊號時頻圖TF及該測量訊號時頻圖RF進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量TV及一測量訊號特徵動態向量RV;步驟S250:對該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV進行一相關度向量運算,以得出一相關度向量CV;及步驟S270:根據該相關度向量CV計算出一回聲延遲時間LR。
詳細來說,在步驟S220及步驟S230中,係由該前處理裝置301接收該參考訊號TS及該測量訊號RS,並進行轉換訊號的運算,該運算把時域轉換為頻域做訊號分析,經運算後得一參考訊號時頻圖TF及一測量訊號時頻圖RF。將訊號從時域轉換為頻域是因為這樣在計算上可以比較簡單,且因為相較於時域圖中的波形變化夾雜著線性及非線性的波形組合,非常難被拆解分析,頻域的變化比較好被呈現,也比較好被量化分析。而時頻圖是一種以一軸為時間,並以另一軸為頻率的訊號分佈圖,詳細的說,時頻圖的橫軸是時間變化,縱軸是頻率變化。請參閱圖3(b)所示,圖中顏色的深淺變化為訊號的強弱。因此,可通過觀看時頻圖確認每一時間點中,各頻率的訊號強度分佈。
舉例來說,將訊號從時域轉換為頻域的方法可以為短時距傅立葉轉換(short-time Fourier transform;STFT)方法或是格策爾濾波(Goertzel Filter)方法,實際上可以觀察訊號對不同方法的反應決定何種方法能夠產出雜訊較少的該參考訊號時頻圖TF及該測量訊號時頻圖RF。短時距傅立葉轉換(short-time Fourier transform;STFT)方法是一種傅立葉轉換(Fourier transform)。傅立葉轉換(Fourier transform)是一種線性的積分轉換方法,常被用於時域和頻域之間的轉換,且其積分的長度將涵蓋訊號的所有區域空間,換句話說,如果訊號是在時域,傅立葉轉換會積分所有時間的訊號內容,而如果訊號是在頻域,傅立葉轉換會積 分全頻率的訊號內容。將較於傅立葉轉換,短時距傅立葉轉換(short-time Fourier transform;STFT)會將時域訊號積分的長度縮短距離,等距的分割訊號內容並且逐一的對訊號片段做傅立葉轉換,好處之一是短時距傅立葉轉換因為縮短了時域積分的窗口,可以保留到更完整的頻率資訊。格策爾濾波(Goertzel Filter)相同的也可以分析一積分的窗口內的頻率組成,格策爾濾波不同於短時距傅立葉轉換在於其疊代運算的方法。此外,將訊號從時域轉換為頻域的方法並不是本系統的重點,所以只要上述其一轉換方法在訊號處理上有效率且頻率解析度夠高,任何方法都可以拿來使用。
請參閱圖3及圖4,圖3(a)和圖4(a)分別為該參考訊號TS及該測量訊號RS的時域圖,從這裡可以看出將時域圖轉換為時頻圖分析的必要性,因為圖3(a)中的該參考訊號TS頻率高到無法用眼看到波形的變化了,雖然可以看的訊號的出包絡函式(envelope)呈漸進漸出,卻無法看出對應的頻率,而圖4(a)中的波形雜亂,不難想像分析上會非常困難。而圖3(b)及圖4(b)分別為該參考訊號時頻圖TF及該測量訊號時頻圖RF,從訊號的顏色深淺上可以看出雜訊,即訊號強度較弱,顏色較淺的部分,和比較重要的訊號,即訊號強度較高,顏色較深的部分,在頻域上的分佈不太一樣。比較重要的訊號通常於時頻圖中訊號較深且頻率分佈範圍較小,代表訊號較強且頻率精確,因此這裡稱該比較重要的訊號為一特徵訊號,意思是一時間點中訊號最強、最具代表性的訊號。而雜訊的訊號較淺且頻率分佈範圍較廣,代表訊號較弱且頻率不一。圖4(b)中更可以看見雜訊大多分佈在低頻的區域,這是因為背景噪音通常會因為一些環境中的低頻共振而出現在低頻的位置。
在步驟S240中,由於該動態向量計算裝置302電性連接該前處理裝置301,因此可接收該前處理裝置301產生的該參考訊號時頻圖TF及該測量訊號時頻圖RF,並進行該特徵訊號動態偵測運算,以得出一參考訊號特徵動態向 量TV及一測量訊號特徵動態向量RV。簡單來說,在本步驟中,主要是能夠從該參考訊號時頻圖TF及該測量訊號時頻圖RF的矩陣中找出特徵頻率的動態向量以利之後的步驟做兩者之間的比較。
進一步而言,請參閱圖1所示,該回聲延時估計系統還包含有一播音模組10及一錄音模組20。該播音模組電連接該訊號處理模組30,且根據該參考訊號TS播放一測試音頻PS。該錄音模組20電連接該訊號處理模組30,供接收該測試音頻PS,且根據該測試音頻PS產生該測量訊號RS,並傳送該測量訊號RS至該訊號處理模組30的前處理裝置301,且該前處理裝置301更進一步從該播音模組10直接接收該參考訊號TS。且如圖2所示,該回聲延時估計方法在步驟S230前,還包含有以下步驟:步驟S200:當使用者有需要時,可以啟動一回聲延時測量程序,以開始進行測量;步驟S210:通過該播音模組10根據該參考訊號TS播放一測試音頻PS;步驟S220:通過該錄音模組20接收該測試音頻PS,且根據該測試音頻PS產生該測量訊號RS。
上述的用意在於嘗試模擬真實視訊通話時的情境,也就是說,假設今天該參考訊號TS是視訊的一方說出的一串清晰的話語,該參考訊號TS經過視訊的另一方的喇叭播出後,該測試音頻PS會與該參考訊號TS有些許的不同,這些許的不同有可能是對方喇叭品質造成的,但是不管如何,喇叭播出的該測試音頻PS接著會被喇叭旁該錄音模組20的該麥克風接收而變成該測量訊號RS,也就是說一方說出的話語會被另一方的視訊麥克風接收到而形成視訊談話的回聲,迴盪在雙方的視訊喇叭與視訊麥克風間。這種回聲通常不太可能靠將麥克風 與喇叭拉遠距離而完全消失,因為麥克風的靈敏度高於人耳的靈敏度,並且麥克風訊號會被放大所以音量再小的話語都有可能被放大為回聲迴盪在兩方之間。
在本實施例中,本發明設定該參考訊號TS為複數單頻的單音,並呈音階的模式去逐一測試各頻率的該參考訊號TS下得到的該測量訊號RS會是怎麼樣的回聲。例如,如圖3(a)所示,該參考訊號TS可為在1~2秒內,產生17kHz的單音,在2~3秒內,產生18kHz的單音,在3~4秒內,產生19kHz的單音,在4~5秒內,產生20kHz的單音,在5~6秒內,產生21kHz的單音,並在6~7秒內,產生22kHz的單音的訊號。
此外,所謂各頻率的回聲不僅僅是介於10赫茲(Hz)至20000Hz之人耳所可以接收的頻率,本發明也可以利用超過20000Hz之高頻率的超音波做回聲的模擬反應,其好處是可以在不造成打擾的情況下做回聲延時的估計。
進一步而言,請參閱圖5所示,在步驟S240中,更包含有以下子步驟:
步驟S500:濾除該測量訊號時頻圖RF的各時間點頻率中的背景噪音頻率。通過比較圖3(b)及4(b)即可發現,圖3(b)的參考訊號TS中沒有出現圖4(b)中的低頻率背景噪音,而圖3(b)整體而言看起來比圖4(b)還要乾淨,這是因為圖3(b)的該參考訊號TS頻率的分佈範圍較小,圖4(b)的該測量訊號RS因為摻雜了雜訊所以頻率的分佈範圍而較廣。
在本實施例中,該參考訊號TS及該測量訊號RS分別係一頻率介於10赫茲(Hz)至20000Hz之聲音訊號。且在濾除該測量訊號時頻圖RF中的背景噪音頻率時,係濾除頻率10赫茲(Hz)至20000Hz之間的背景噪音,降噪方法可以利用頻譜差減法(Spectral Subtraction)、維納濾波(Wiener Filter)、先驗信噪比(A Priori SNR Estimation)、最小均方誤差短時譜幅度估計器(Minimum Mean-Square Error Short-Time Spectral Amplitude)或是深度神經網路(Deep Neural Network),上述降噪的方法為習知技術,在此不擬贅述。
在另一實施例中,該參考訊號TS及該測量訊號RS分別係一頻率大於20000赫茲(Hz)之超音波訊號。且在濾除該測量訊號時頻圖RF中的背景噪音頻率時,係濾除頻率大於20000Hz之背景噪音。
步驟S510:對一時間點內的所有頻率做平滑處理降噪。請一併參閱圖6所示,平滑處理是統計學中的一計算方法。在本實施例中,該參考訊號時頻圖TF及該測量訊號時頻圖RF包含有複數時間點的複數頻率的複數強度值。且在平滑處理該測量訊號時頻圖時,係計算各該時間點的各頻率的各強度值沿頻率變化的一移動平均值。也就是說一個中間頻率的訊號強度會與它旁邊高的頻率與低的頻率的訊號強度依照自訂的比重相加並且取平均值作為更新後的一個中間頻率訊號強度,而這個步驟會視一個時間點中的每一個頻率為中間頻率做相同的訊號強度平均步驟。當然開始和結束的兩個頻率因為頻率中的位置關係,做平滑處理時只會跟它們旁邊的一頻率做訊號強度的平均。平滑處理的用意是可以平滑頻率訊號強度,避免該測量訊號的聲音頻率剛好落在兩個頻帶之間的不穩定狀況,使系統處理數字上更為容易。
例如,圖6中最左邊的矩陣為該測量訊號時頻圖RF,當中R f,t (1
Figure 110102441-A0305-02-0011-3
f
Figure 110102441-A0305-02-0011-4
F,1
Figure 110102441-A0305-02-0011-5
t
Figure 110102441-A0305-02-0011-6
T)代表的是時間為t且頻率為f的訊號強度。當中W 1 ,W 2 ,W 3分別代表的是一運算子(operator),且為計算移動平均的權重值,例如W 2代表的是移動平均值中的中央頻率的權重值,而W1和W3是移動平均值中與中央頻率相鄰的頻率的權重值。通過改變移動平均值的權重值會影響到平滑處理該測量訊號時頻圖RF的結果。而圖6中,居中的矩陣為經過平滑處理後的測量訊號時頻圖RF,當中S f,t (1
Figure 110102441-A0305-02-0011-7
f
Figure 110102441-A0305-02-0011-8
F,1
Figure 110102441-A0305-02-0011-9
t
Figure 110102441-A0305-02-0011-11
T)代表的是經過平滑處理後的時間為t且頻率為f的 訊號強度。在本實施例中,R f,t (1
Figure 110102441-A0305-02-0012-12
f
Figure 110102441-A0305-02-0012-13
F,1
Figure 110102441-A0305-02-0012-16
t
Figure 110102441-A0305-02-0012-17
T)與S f,t (1
Figure 110102441-A0305-02-0012-18
f
Figure 110102441-A0305-02-0012-19
F,1
Figure 110102441-A0305-02-0012-21
t
Figure 110102441-A0305-02-0012-23
T)的轉換關係如下:
Figure 110102441-A0305-02-0012-1
由於本發明將該測量訊號時頻圖做平滑處理,因此能避免該測量訊號RS的聲音頻率剛好在兩個頻帶之間的不穩定狀況,也能過濾掉頻率上一部分的雜訊,能更有效的對抗麥克風雜音或是喇叭雜音對測量訊號的干擾,就算喇叭無法播放出乾淨的訊號,也能過濾掉雜訊,以減輕運算負擔。
步驟S520:進行特徵訊號動態偵測運算,以計算該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV。該動態向量計算裝置302會取各時間點所有頻率中最強振幅的頻率為其特徵頻率,並保留該特徵頻率值對應該時間點,使各時間點僅具有一個對應的頻率值,藉此降低數列維度,減少計算上的負擔。而動態向量的特徵頻率代表在該時間點下,訊號強度最強的頻率值。
舉例來說,如圖6所示,從居中的矩陣S f,t (1
Figure 110102441-A0305-02-0012-25
f
Figure 110102441-A0305-02-0012-26
F,1
Figure 110102441-A0305-02-0012-27
t
Figure 110102441-A0305-02-0012-28
T)中取各時間點t的特徵頻率後,會得到RV t 的一數列,該數列以時間t來排列各時間點中的特徵頻率RV t ,即為該測量訊號特徵動態向量RV。在本實施例中,該測量訊號特徵動態向量RV的計算方式如下:RV t =argmax(S 1,t ,S 2,t ,...S F,t )
本發明取各個時間點對應複數頻率中一最高能量的頻率作為取各個時間點的特徵頻率,進而把二維的時頻圖降維成一維的數列,簡化了計算的複雜度,減輕系統的運算負擔。
步驟S250:請參閱圖7所示,當該相關度估計裝置303接收到該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV後,進一步計算參考訊號 特徵動態向量TV及該測量訊號特徵動態向量RV之間的相關度,並藉由一相關度向量運算得到一相關度向量CV和一回聲延時估計LE。該相關度向量CV的該相關度計算係包含以下步驟:計算該測量訊號特徵動態向量與該參考訊號特徵動態向量於各時間點的特徵頻率值的差值;加總各時間點的特徵頻率值的差值的絕對值,作為該相關度向量的一第一位移度的一相關度值;判斷該測量訊號特徵動態向量的一最終時間點是否與該參考訊號特徵動態向量的一最終時間點相同;當該測量訊號特徵動態向量的最終時間點與該參考訊號特徵動態向量的最終時間點相同時,得出該相關度向量;當該測量訊號特徵動態向量的最終時間點與該參考訊號特徵動態向量的最終時間點不相同時,沿時間軸向後平移一個時間點後,重新計算該測量訊號特徵動態向量與該參考訊號特徵動態向量於各時間點的特徵頻率值的差值,且加總各時間點的特徵頻率值的差值的絕對值,作為該相關度向量的一下一個位移度的一相關度值,並再次判斷該測量訊號特徵動態向量的最終時間點是否與該參考訊號特徵動態向量的最終時間點相同。
上述步驟首先對齊該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV的時間點後,做相關度的計算並將一相關度值記錄在相關度向量CV中,接著一次次的位移該參考訊號特徵動態向量TV及該測量訊號特徵動態向量RV的時間點並一次次的做相關度的計算,計算出複數個相關度值紀錄在該相關度向量CV中。在本實施例中,該相關度向量CV的計算方式如下:
Figure 110102441-A0305-02-0013-2
通過觀察該相關度向量CV的變化,可以找出該相關度向量CV中一最大相關度值在該相關度向量CV中的位置,並可根據該最大相關度值在該相關度向量CV中的位置得出該位置對應的該時間點位移,然後從該時間點位移可推算出該回聲延時估計LE,因為找到該最大相關度值象徵著該測量訊號RS在頻域中經過位移後重現了原始參考訊號TS的頻譜的位置,如果超過或是小於正確延遲時間的位移位置,該些相關度值都會越來越小,代表兩者越來越不相關。該最大相關度值的位移距離換算在時域中就為延遲時間,即該回聲延時估計LE。反之,若相關度值不做倒數的處理,則一最小相關度值在頻域中的位置會以此類推對應到該回聲延時估計LE在時域中的位置,其實是同樣的道理,只是結果以小的數字來表現。
由於該相關度向量CV中的各個相關度值是該參考訊號特徵動態向量TV與該測量訊號特徵動態向量RV中的各個特徵頻率值的差值的總和,並進一步取倒數。當該參考訊號特徵動態向量TV與該測量訊號特徵動態向量RV越接近時,所計算出的差值總和應會越小,而倒數後將會越大。因此,該相關度向量CV中的各個相關度值中的最大值,即代表在該次平移後,該參考訊號特徵動態向量TV與該測量訊號特徵動態向量RV的特徵頻率最接近,而平移的次數即可換算出回聲延遲時間。
進一步而言,該回聲延時估計方法在步驟S250後,還包括以下步驟:步驟S260:判斷例外狀況;請參閱圖8所示,且在步驟S260中,還包含有以下子步驟:步驟S800:重複執行步驟S210至步驟S250多次,以收集多個該相關度向量,並計算該些相關度向量的變異數; 步驟S810:判斷該些相關度向量中的一最大值的一位置是否都落在一誤差範圍內,該誤差範圍可以使用一個固定的時間,或是利用測量出來回聲延時的誤差百分比當作門檻值;步驟S820:當該些相關度向量中的最大值的位置都落在該誤差範圍內時,進一步判斷各該相關度向量的變異數是否大於各該相關度向量中的最大值的倒數;當各該相關度向量的變異數均大於各該相關度向量中的最大值的倒數時,執行步驟S270;當各該相關度向量的變異數未大於各該相關度向量中的最大值的倒數時,重新執行步驟S200;當該些相關度向量中的最大值的位置中的任一個落在該誤差範圍外時,重新執行步驟S200。
此外,該回聲延時估計系統還包含有一例外判斷裝置304,該例外判斷裝置304電性連接該相關度估計裝置303,以接收多筆的該相關度向量,並計算該些相關度向量的變異數,且判斷該些相關度向量中的一最大值的一位置是否都落在一誤差範圍內。當該些相關度向量中的最大值的位置都落在該誤差範圍內時,該例外判斷裝置304進一步判斷各該相關度向量的變異數是否大於各該相關度向量中的最大值的倒數。當各該相關度向量的變異數均大於各該相關度向量中的最大值的倒數時,該例外判斷裝置304輸出該回聲延遲時間LR。當各該相關度向量的變異數未大於各該相關度向量中的最大值的倒數時,該例外判斷裝置304不輸出該回聲延遲時間LR。當該些相關度向量中的最大值的位置中的任一個落在該誤差範圍外時,該例外判斷裝置304不輸出該回聲延遲時間LR。
通過該例外狀況的判斷,能進一步避免單次測量時,雜訊干擾過大,導致計算出的該回聲延遲時間LR錯誤的狀況,以提高該回聲延遲時間LR的準確率。
10:播音模組
20:錄音模組
30:訊號處理模組
301:前處理裝置
302:動態向量計算裝置
303:相關度估計裝置
304:例外判斷裝置
TS:參考訊號
TF:參考訊號時頻圖
TV:參考訊號特徵動態向量
PS:測試音頻
RS:測量訊號
RF:測量訊號時頻圖
RV:測量訊號特徵動態向量
CV:相關度向量
LE:回聲延遲估計
LR:回聲延遲時間

Claims (13)

  1. 一種回聲延時估計方法,包括以下步驟:a.接收一參考訊號及一測量訊號;b.分別對該參考訊號及該測量訊號進行一時頻分析運算,以得出一參考訊號時頻圖及一測量訊號時頻圖;c.分別對該參考訊號時頻圖及該測量訊號時頻圖進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量及一測量訊號特徵動態向量;d.對該參考訊號特徵動態向量及該測量訊號特徵動態向量進行一相關度向量運算,以得出一相關度向量;及e.根據該相關度向量計算出一回聲延遲時間;其中在步驟d後,進一步包含有以下步驟:重複執行步驟a至步驟d,以收集多個該相關度向量,並計算該些相關度向量的變異數;判斷該些相關度向量中的一最大值的一位置是否都落在一誤差範圍內;當該些相關度向量中的最大值的位置都落在該誤差範圍內時,進一步判斷各該相關度向量的變異數是否大於各該相關度向量中的最大值的倒數;當各該相關度向量的變異數均大於各該相關度向量中的最大值的倒數時,執行步驟e;當各該相關度向量的變異數未大於各該相關度向量中的最大值的倒數時,重新執行步驟a;當該些相關度向量中的最大值的位置中的任一個落在該誤差範圍外時,重新執行步驟a。
  2. 如請求項1所述之回聲延時估計方法,其中在步驟c前,係先濾除該測量訊號時頻圖中的背景噪音。
  3. 如請求項2所述之回聲延時估計方法,其中該參考訊號及該測量訊號分別係一頻率介於10赫茲(Hz)至20000Hz之聲音訊號;其中在濾除該測量訊號時頻圖中的背景噪音頻率時,係濾除頻率介於10赫茲(Hz)至20000Hz之背景噪音。
  4. 如請求項2所述之回聲延時估計方法,其中該參考訊號及該測量訊號分別係一頻率大於20000赫茲(Hz)之超音波訊號;其中在濾除該測量訊號時頻圖中的背景噪音頻率時,係濾除頻率大於20000赫茲(Hz)之背景噪音。
  5. 如請求項1所述之回聲延時估計方法,其中在步驟c前,係先平滑處理該測量訊號時頻圖。
  6. 如請求項5所述之回聲延時估計方法,其中該參考訊號時頻圖及該測量訊號時頻圖包含有複數時間點的複數頻率的複數強度值;其中在平滑處理該測量訊號時頻圖時,係計算各該時間點的各頻率的各強度值沿頻率變化的一移動平均值。
  7. 如請求項1所述之回聲延時估計方法,其中該參考訊號時頻圖及該測量訊號時頻圖包含有複數時間點的複數頻率的複數強度值;其中在步驟c中,進一步包含有以下子步驟:分別取該參考訊號時頻圖及該測量訊號時頻圖中各時間點訊號強度最大的頻率值作為各時間點的一特徵頻率值,並分別輸出該參考訊號特徵動態向量及該量測訊號特徵動態向量;其中該參考訊號特徵動態向量及該量測訊號特徵動態向量內各含有各時間點的特徵頻率值。
  8. 如請求項1所述之回聲延時估計方法,其中在步驟d中,進一步包含有以下子步驟: 計算該測量訊號特徵動態向量與該參考訊號特徵動態向量於各時間點的特徵頻率值的差值;加總各時間點的特徵頻率值的差值的絕對值,作為該相關度向量的一第一位移度的一相關度值;判斷該測量訊號特徵動態向量的一最終時間點是否與該參考訊號特徵動態向量的一最終時間點相同;當該測量訊號特徵動態向量的最終時間點與該參考訊號特徵動態向量的最終時間點相同時,得出該相關度向量;當該測量訊號特徵動態向量的最終時間點與該參考訊號特徵動態向量的最終時間點不相同時,沿時間軸向後平移一個時間點後,重新計算該測量訊號特徵動態向量與該參考訊號特徵動態向量於各時間點的特徵頻率值的差值,且加總各時間點的特徵頻率值的差值的絕對值,作為該相關度向量的一下一個位移度的一相關度值,並再次判斷該測量訊號特徵動態向量的最終時間點是否與該參考訊號特徵動態向量的最終時間點相同。
  9. 如請求項1所述之回聲延時估計方法,其中在計算出該回聲的延遲時間的步驟中,還包含有以下子步驟:確認該相關度向量中的一最大相關度值;根據該最大相關度值計算該回聲的延遲時間。
  10. 如請求項1所述之回聲延時估計方法,其中該時頻分析運算的時頻圖轉換方法為短時距傅立葉轉換(short-time Fourier transform;STFT)方法或格策爾濾波(Goertzel Filter)方法。
  11. 一種回聲延時估計系統包括:一訊號處理模組,包含有: 一前處理裝置,接收一參考訊號及一測量訊號,並分別進行一時頻分析運算,以得出一參考訊號時頻圖及一測量訊號時頻圖;一動態向量計算裝置,電性連接該前處理裝置,接收該參考訊號時頻圖及該測量訊號時頻圖,並分別對該參考訊號時頻圖及該測量訊號時頻圖進行一特徵訊號動態偵測運算,以得出一參考訊號特徵動態向量及一測量訊號特徵動態向量;一相關度估計裝置,電性連接該動態向量計算裝置,接收該參考訊號特徵動態向量及該測量訊號特徵動態向量,並對該參考訊號特徵動態向量及該測量訊號特徵動態向量進行一相關度向量運算,以得出一相關度向量,並根據該相關度向量計算出一回聲延遲時間;一例外判斷裝置,電性連接該相關度估計裝置,以接收多筆的該相關度向量,並計算該些相關度向量的變異數,且判斷該些相關度向量中的一最大值的一位置是否都落在一誤差範圍內;當該些相關度向量中的最大值的位置都落在該誤差範圍內時,該例外判斷裝置進一步判斷各該相關度向量的變異數是否大於各該相關度向量中的最大值的倒數;當各該相關度向量的變異數均大於各該相關度向量中的最大值的倒數時,該例外判斷裝置輸出該回聲延遲時間;當各該相關度向量的變異數未大於各該相關度向量中的最大值的倒數時,該例外判斷裝置不輸出該回聲延遲時間;當該些相關度向量中的最大值的位置中的任一個落在該誤差範圍外時,該例外判斷裝置不輸出該回聲延遲時間。
  12. 如請求項11所述之一種回聲延時估計系統,進一步包含有:一播音模組,電連接該訊號處理模組,且根據該參考訊號播放一測試音頻。
  13. 如請求項11所述之一種回聲延時估計系統,進一步包含有:一錄音模組,電連接該訊號處理模組,供接收一測試音頻,且根據該測試音頻產生該測量訊號,並傳送該測量訊號至該訊號處理模組的前處理裝置。
TW110102441A 2021-01-22 2021-01-22 回聲延時估計方法及回聲延時估計系統 TWI778502B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW110102441A TWI778502B (zh) 2021-01-22 2021-01-22 回聲延時估計方法及回聲延時估計系統
US17/205,377 US11495241B2 (en) 2021-01-22 2021-03-18 Echo delay time estimation method and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110102441A TWI778502B (zh) 2021-01-22 2021-01-22 回聲延時估計方法及回聲延時估計系統

Publications (2)

Publication Number Publication Date
TW202231047A TW202231047A (zh) 2022-08-01
TWI778502B true TWI778502B (zh) 2022-09-21

Family

ID=82494870

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110102441A TWI778502B (zh) 2021-01-22 2021-01-22 回聲延時估計方法及回聲延時估計系統

Country Status (2)

Country Link
US (1) US11495241B2 (zh)
TW (1) TWI778502B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190027160A1 (en) * 2016-05-25 2019-01-24 Tencent Technology (Shenzhen) Company Limited Echo delay tracking method and apparatus
US10650840B1 (en) * 2018-07-11 2020-05-12 Amazon Technologies, Inc. Echo latency estimation
EP3703052A1 (en) * 2017-10-23 2020-09-02 Iflytek Co., Ltd. Echo cancellation method and apparatus based on time delay estimation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766019B1 (en) * 2000-07-21 2004-07-20 Agere Systems Inc. Method and apparatus for performing double-talk detection in acoustic echo cancellation
US7970150B2 (en) * 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
US8081753B2 (en) * 2007-04-02 2011-12-20 Microsoft Corporation Hybrid echo canceller controllers
KR101583715B1 (ko) * 2014-03-27 2016-01-08 (주)티아이스퀘어 셋톱 박스 영상 및 음성 통화 서비스에서 적응적 필터의 반향 경로 예측을 위한 지연 시간 자동 측정 방법 및 장치
CN105989850B (zh) * 2016-06-29 2019-06-11 北京捷通华声科技股份有限公司 一种回声对消方法及装置
CN106210371B (zh) * 2016-08-31 2018-09-18 广州视源电子科技股份有限公司 一种回声时延的确定方法、装置及智能会议设备
US10117021B1 (en) * 2017-03-31 2018-10-30 Polycom, Inc. Audio feedback reduction utilizing adaptive filters and nonlinear processing
EP3393140A1 (en) * 2017-04-20 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multichannel interference cancellation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190027160A1 (en) * 2016-05-25 2019-01-24 Tencent Technology (Shenzhen) Company Limited Echo delay tracking method and apparatus
EP3703052A1 (en) * 2017-10-23 2020-09-02 Iflytek Co., Ltd. Echo cancellation method and apparatus based on time delay estimation
US10650840B1 (en) * 2018-07-11 2020-05-12 Amazon Technologies, Inc. Echo latency estimation

Also Published As

Publication number Publication date
US11495241B2 (en) 2022-11-08
US20220238130A1 (en) 2022-07-28
TW202231047A (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
KR102125443B1 (ko) 고도 렌더링을 실현하는 필터링된 오디오 신호를 생성하기 위한 장치 및 방법
CN106068535B (zh) 噪声抑制
RU2605522C2 (ru) Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации
RU2419963C2 (ru) Способ коррекции воспроизведения акустического сигнала электроакустическим преобразователем и устройство для его осуществления
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
KR101502297B1 (ko) 이중 마이크로폰에 기초해서 음성 잔향을 저감하기 위한 방법 및 장치
JP2001309483A (ja) 収音方法および収音装置
JP6221257B2 (ja) 信号処理装置、方法及びプログラム
TWI778502B (zh) 回聲延時估計方法及回聲延時估計系統
Yu et al. Black box measurement of musical tones produced by noise reduction systems
JP6314475B2 (ja) 音声信号処理装置及びプログラム
KR100949910B1 (ko) 스펙트럼 차감을 이용한 음향학적 반향 제거 방법 및 장치
JP2005328527A (ja) 信号品質評価のための測定雑音の低減
JPH09261133A (ja) 残響抑圧方法および装置
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
Fingscheidt et al. Towards objective quality assessment of speech enhancement systems in a black box approach
US10062392B2 (en) Method and device for estimating a dereverberated signal
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP6295650B2 (ja) 音声信号処理装置及びプログラム
JP3490380B2 (ja) 信号伝送媒体の信号伝送品質の評価装置、評価方法、ならびに、情報記録媒体
Miyazaki et al. Study on Blind Method of Estimating Speech Transmission Index from Noisy Reverberant Amplitude-Modulated-Signals
Hioka et al. Enhancement of sound sources located within a particular area using a pair of small microphone arrays
KR20180087021A (ko) 실내전달함수 추정 방법 및 신호 처리 방법
Yang et al. Environment-Aware Reconfigurable Noise Suppression

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent