TW202130193A

TW202130193A - 風切濾波裝置

Info

Publication number: TW202130193A
Application number: TW109102339A
Authority: TW
Inventors: 林宗漢
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-08-01
Also published as: TWI779261B; US10854217B1

Abstract

本案提供一種風切濾波裝置，包含混音器、擷取單元、判斷單元、風切濾波器及輸出模組。混音器接收源音並輸出輸入音訊。擷取單元電連接混音器以接收輸入音訊，並對輸入音訊進行特徵擷取產生複數個特徵資料。判斷單元電連接擷取單元以接收複數個特徵資料，並依據複數個特徵資料輸出判斷訊號。風切濾波器電連接判斷單元以接收判斷訊號，風切濾波器受判斷訊號控制而開啟或關閉，風切濾波器在開啟時對輸入音訊進行濾波並輸出濾波音訊。輸出模組電連接於風切濾波器及混音器並架構於接收輸入音訊及濾波音訊，且由輸入音訊或濾波音訊中輸出播放音。

Description

風切濾波裝置

本案係關於一種濾波裝置，尤指一種風切濾波裝置。

現今，風切濾波器的技術被廣泛地應用在各種錄影或錄音設備上。當進行錄影或錄音時，往往會同時錄製到風切聲，進而影響錄製品質。為此，可透過設置風切濾波器來濾除所錄製到的風切聲。

常見的風切濾波器多為固定型濾波器，亦即當錄影或錄音開始時即啟動風切濾波器，風切濾波器會在固定的頻段進行濾波，以抑制風切聲。然而，由於風切濾波器無法依據實際環境因素而進行開關或調整其濾波頻段，故可能導致所輸出之聲音的音量不穩定，甚或是使聲音失真。舉例來說，當所錄製之聲音中不存在風切聲時，風切濾波器同樣會對聲音進行濾波，進而導致聲音的音量較小且失真，而即使在錄製之聲音中存在風切聲時，由於環境風量與風速的實時變化，且受限於風切濾波器的固定濾波頻段，濾波後之聲音的音量將隨環境風的變化而高低起伏不定。

因此，如何發展一種可改善上述習知技術之風切濾波裝置，實為目前迫切之需求。

本案之主要目的為提供一種風切濾波裝置，藉由判斷錄製的聲音中是否存在風切聲，以對應開啟或關閉風切濾波器。藉此，當存在風切聲時，可開啟風切濾波器以濾除風切聲，而當不存在風切聲時，則可關閉風切濾波器，以避免因濾波而導致聲音過小及失真。

本案之另一目的為提供一種風切濾波裝置，可因應風切聲的變化而即時調整風切濾波器的濾波頻段，藉此使輸出聲音的音量維持一致。

為達上述目的，本案提供本案提供一種風切濾波裝置，包含：混音器、擷取單元、判斷單元、風切濾波器及輸出模組。混音器接收源音，並輸出輸入音訊。擷取單元電連接於混音器，以接收輸入音訊，並對輸入音訊進行特徵擷取而產生複數個特徵資料。判斷單元電連接擷取單元，以接收複數個特徵資料，並依據複數個特徵資料輸出判斷訊號。風切濾波器電連接於判斷單元，以接收判斷訊號，風切濾波器係受判斷訊號控制而開啟或關閉，風切濾波器在開啟時對輸入音訊進行濾波並輸出濾波音訊。輸出模組電連接於風切濾波器及混音器，輸出模組係架構於接收輸入音訊及濾波音訊，並由輸入音訊或濾波音訊中處理輸出播放音。

體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化，其皆不脫離本案之範圍，且其中的說明及圖示在本質上係當作說明之用，而非架構於限制本案。

第1圖係為本案較佳實施例之風切濾波裝置的電路結構示意圖。如第1圖所示，風切濾波裝置1包含混音器2、擷取單元3、判斷單元4、風切濾波器5及輸出模組6。混音器2接收源音，並輸出輸入音訊。擷取單元3電連接於混音器2，擷取單元3接收輸入音訊，並對輸入音訊進行特徵擷取而產生複數個特徵資料。判斷單元4電連接於擷取單元3，判斷單元4接收複數個特徵資料，並依據複數個特徵資料判斷輸入音訊中是否存在風切聲，進而輸出相應之判斷訊號。風切濾波器5電連接於混音器2及判斷單元4，風切濾波器5接收判斷訊號，且風切濾波器5係受判斷訊號控制而開啟或關閉。當風切濾波器5開啟時，風切濾波器5對輸入音訊進行濾波並輸出濾波音訊。輸出模組6電連接於風切濾波器5及混音器2，輸出模組6係架構於接收輸入音訊及濾波音訊，並由輸入音訊或濾波音訊中處理輸出播放音。具體而言，當風切濾波器5關閉時，輸出模組6依據輸入音訊輸出播放音，反之，當風切濾波器5開啟時，輸出模組6依據濾波音訊輸出播放音。藉此，風切濾波器5可用以濾除風切聲，且當輸入音訊中不存在風切聲時，亦可關閉風切濾波器5而避免因濾波導致播放音過小及失真。於一些實施例中，輸出模組6還包含音訊處理器，音訊處理器係架構於對輸入音訊或濾波音訊進行音訊處理。

第2圖係為第1圖之混音器的電路結構示意圖。如第2圖所示，於一些實施例中，混音器2還包含第一調節器20，第一調節器20係架構於調整源音之音量，並於調整後輸出輸入音訊。當然，混音器2並不限於接收單一源音，於一些實施例中，混音器2係接收複數個源音，且混音器2還包含複數個第二調節器22及加法器21。複數個第二調節器22係分別接收源自於源音的各方向聲音，並分別對源音的各方向聲音之音量進行調整，加法器21係電連接於複數個第二調節器22及第一調節器20，加法器21接收並對調整後之源音的各方向聲音進行合併，第一調節器20接收並對合併後之音訊進行音量調整，且於調整後輸出輸入音訊。

於一些實施例中，風切濾波裝置1還包含麥克風陣列(Microphone Array)(未圖示)，麥克風陣列係電連接於混音器2。麥克風陣列包含複數個具有方向性的指向性麥克風，複數個指向性麥克風係分別接收複數個源音。其中，風切濾波裝置1對複數個源音進行能量估計，依據能量估計的結果判斷聲音來源，並將聲音來源所對應的源音進行音量加強，且對聲音來源之外所對應的源音進行音量減弱。藉此，麥克風陣列可以消除周遭雜訊以強化輸入音訊，進而改善錄製聲音的品質。

第3圖係為第1圖之擷取單元的方塊示意圖。如第3圖所示，於一些實施例中，擷取單元3係將輸入音訊由時域轉換為頻域，轉換之方式可為例如但不限於傅立葉轉換(Fourier Transform, FT)、離散傅立葉轉換(Discrete Fourier Transform, DFT)、快速傅立葉轉換(Fast Fourier Transform, FFT)或離散餘弦轉換(Discrete Cosine Transform, DCT)。在轉換後的頻譜上，擷取單元3係於特定頻段(例如但不限於0~1kHz)內對輸入音訊進行擷取，並輸出複數個特徵資料。其中，擷取單元3係對輸入音訊進行複數次擷取，且每兩次擷取間的時間間隔為一個單位時間，N代表特徵資料之總數量，m代表自擷取單元3開始擷取起所經過的單位時間的個數。頻譜可為例如但不限於梅爾倒頻譜(Mel Spectrum)。

判斷單元4係包含一種深度學習模型。深度學習模型是一種機器學習(Machine Learning)的分支，深度學習模型係經過特定類別的歷史數據訓練(Training)，而建立出對應該特定類別的一演算模式。深度學習模型的發展至今已有數種深度學習框架，例如深度神經網路(Deep Neural Networks, DNN)、卷積神經網路(Convolutional Neural Networks, CNN)和遞迴神經網路(Recurrent Neural Network, RNN)，其被應用在電腦視覺、語音辨識、臉部辨識、自然語言處理與音訊辨識等領域。其中，訓練一詞係為利用大量特定領域的歷史數據來訓練深度學習模型，以使深度學習模型具備能夠對特定領域產生思考、判斷的相關能力。舉例來說，若將深度學習模型應用在本案上，深度學習模型的資料庫預先蒐集多筆資料，且已知該些資料中是否存在風切聲，從而利用該些資料訓練深度學習模型，使深度學習模型具有判斷風切聲存在與否的能力。藉此，當判斷單元4接收複數個特徵資料時，深度學習模型能夠根據接收到的複數個特徵資料來進行類神經網路運算並判斷輸入音訊中是否存在風切聲。

此外，由於風切聲實際上係具有時間上的前後關聯性，因此擷取單元3在進行特徵擷取並產生複數個特徵資料的過程中，擷取間隔之單位時間係短於特徵資料的時間長度，相應地，在相鄰時間點所擷取的特徵資料會有部分的時間重疊且具有相關聯性。於一些實施例中，判斷單元4中的深度學習模型係為遞歸神經網絡，訊號遞歸神經網絡係利用上下筆特徵資料進行前後比對，進而判斷輸入音訊是否具有風切聲，藉此提高其判斷的精準度。

例如第4圖所示，判斷單元4之深度學習模型係為一LSTM (Long Short-Term Memory，長短期記憶)模型，LSTM模型為一種時間性遞歸神經網路，可作為複雜的非線性單元而用於構造更大型的深度神經網絡，LSTM模型具有前向層(Forward Layer)及後向層(Backward Layer)，前向層及後向層係分別具有複數個長短期記憶。在LSTM模型中，距離當前資料之時間越遠的資料，與當前資料相關性越低，反之，距離當前資料之時間越近的資料，與當前資料相關性越高。因此，LSTM模型會將先前資料依據與當前資料的時間距離遠近而分配相應權重，並進行綜合判斷以輸出判斷訊號。

另外，對於本案之風切濾波器5，風切濾波器5係於開啟時依照所設定之參數對輸入音訊進行濾波，而不同的參數設定會影響其輸出結果，以下示例不同的參數設定方式。

於一些實施例中，風切濾波器5之參數係由使用者預先設定，且於使用過程中，使用者可視實際需求對參數進行調整。

於一些實施例中，如第5圖所示，風切濾波裝置1還包含能量估計器7。能量估計器7係電連接於擷取單元3及風切濾波器5之間，能量估計器7係架構於估計特徵資料之能量，並輸出能量級別至風切濾波器5。於本實施例中，風切濾波器5係為參數固定型的風切濾波器，亦即風切濾波器5預設有參數組，當風切濾波器5開啟時，風切濾波器5係依據輸入的能量級別而選取參數組中所對應的參數，並且依照選取的參數對輸入音訊進行濾波。舉例來說，能量估計器7對複數個特徵資料進行能量估計後，輸出複數個時間點所分別對應的複數個能量級別，風切濾波器5於是在各個時間點根據對應的能量級別分別對輸入音訊進行濾波，其中，不同的能量級別所對應的濾波程度(例如濾波頻段)亦不相同。藉此，可得知各個時間點之音量變化，並對應調整風切濾波器的濾波頻段，從而使播放音的音量維持一致。

於一些實施例中，風切濾波裝置1之風切濾波器5係為自適應性濾波器(Adaptive Filter)，風切濾波器5所輸出之濾波音訊將回傳至風切濾波器5，經過複數次輸出濾波音訊後，風切濾波器5即可依據先前回傳之濾波音訊來動態調整風切濾波器5的參數，並依據動態調整後的參數對當前所接收的輸入音訊進行濾波。

綜上所述，本案提供一種風切濾波裝置，藉由判斷錄製的聲音中是否存在風切聲，以對應開啟或關閉風切濾波器。藉此，當存在風切聲時，可開啟風切濾波器以濾除風切聲，而當不存在風切聲時，則可關閉風切濾波器，以避免因濾波而導致聲音過小及失真。並且，因應風切聲的變化而即時調整風切濾波器的濾波頻段，藉此使輸出聲音的音量維持一致。

須注意，上述僅是為說明本案而提出之較佳實施例，本案不限於所述之實施例，本案之範圍由如附專利申請範圍決定。且本案得由熟習此技術之人士任施匠思而為諸般修飾，然皆不脫如附專利申請範圍所欲保護者。

1:風切濾波裝置 2:混音器 20:第一調節器 21:加法器 22:第二調節器 3:擷取單元 4:判斷單元 5:風切濾波器 6:輸出模組 7:能量估計器

第1圖係為本案較佳實施例之風切濾波裝置的電路結構示意圖。

第2圖係為第1圖之混音器的電路結構示意圖。

第3圖係為第1圖之擷取單元的方塊示意圖。

第4圖係為第1圖之判斷單元的方塊示意圖。

第5圖係為本案另一較佳實施例之風切濾波裝置的電路結構示意圖。

1:風切濾波裝置

2:混音器

3:擷取單元

4:判斷單元

5:風切濾波器

6:輸出模組

Claims

一種風切濾波裝置，包含：一混音器，接收一源音，並輸出一輸入音訊；一擷取單元，電連接於該混音器以接收該輸入音訊，並對該輸入音訊進行特徵擷取而產生複數個特徵資料；一判斷單元，電連接該擷取單元以接收該複數個特徵資料，並依據該複數個特徵資料輸出一判斷訊號；一風切濾波器，電連接於該判斷單元以接收該判斷訊號，該風切濾波器係受該判斷訊號控制而開啟或關閉，該風切濾波器在開啟時對該輸入音訊進行濾波並輸出一濾波音訊；一輸出模組，電連接於該風切濾波器及該混音器，架構於接收該輸入音訊及該濾波音訊，並由該輸入音訊或該濾波音訊中處理輸出一播放音。
如申請專利範圍第1項所述之風切濾波裝置，該輸出模組還包含一音訊處理器，該音訊處理器係架構於對該輸入音訊或該濾波音訊進行音訊處理。
如申請專利範圍第1項所述之風切濾波裝置，其中該判斷單元包含一深度學習模型，該深度學習模型係將該特徵資料進行類神經網路運算並輸出該判斷訊號。
如申請專利範圍第3項所述之風切濾波裝置，其中該深度學習模型為一遞歸神經網路或一長短期記憶模型。
如申請專利範圍第1項所述之風切濾波裝置，該擷取單元係將該輸入音訊由時域轉換為頻域，且在一特定頻段內對該輸入音訊進行擷取並輸出該複數個特徵資料。
如申請專利範圍第1項所述之風切濾波裝置，該擷取單元對該輸入音訊進行特徵擷取的時間間隔係短於該特徵資料的一時間長度。
如申請專利範圍第1項所述之風切濾波裝置，還包含一能量估計器，其中該能量估計器係電連接於該擷取單元及該風切濾波器之間，該能量估計器係架構於估計該特徵資料之能量，並輸出一能量級別至該風切濾波器，該風切濾波器預設有一參數組，當該風切濾波器開啟時，該風切濾波器係依據該能量級別選取該參數組中對應之一參數，並依據該參數對該輸入音訊進行濾波。
如申請專利範圍第1項所述之風切濾波裝置，其中該風切濾波器係為自適應性濾波器，該風切濾波器所輸出之該濾波音訊被回傳至該風切濾波器，且該風切濾波器依據先前回傳之該濾波音訊來動態調整該風切濾波器的一參數，並依據動態調整後的該參數對當前所接收的該輸入音訊進行濾波。
如申請專利範圍第1項所述之風切濾波裝置，該混音器還包含一第一調節器，該第一調節器係架構於調整該源音之音量。
如申請專利範圍第9項所述之風切濾波裝置，該混音器還包含複數個第二調節器及一加法器，該複數個第二調節器係分別接收源自於該源音的各方向聲音，並分別對該源音的各方向聲音之音量進行調整，該加法器係電連接於該複數個第二調節器及該第一調節器，該加法器接收並對調整後之該源音的各方向聲音進行合併，該第一調節器接收並對合併後之音訊進行音量調整。