TWI837756B - 音訊處理方法及裝置、非暫態性電腦可讀儲存媒體 - Google Patents
音訊處理方法及裝置、非暫態性電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI837756B TWI837756B TW111129321A TW111129321A TWI837756B TW I837756 B TWI837756 B TW I837756B TW 111129321 A TW111129321 A TW 111129321A TW 111129321 A TW111129321 A TW 111129321A TW I837756 B TWI837756 B TW I837756B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio signal
- audio
- time
- coding
- processing method
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 63
- 230000005236 sound signal Effects 0.000 claims abstract description 455
- 238000012545 processing Methods 0.000 claims abstract description 99
- 230000015654 memory Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000000737 periodic effect Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005553 drilling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 239000012774 insulation material Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 208000037805 labour Diseases 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000009418 renovation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Abstract
一種音訊處理方法、音訊處理裝置和非暫態性電腦可讀儲存媒體。該音訊處理方法包括:基於第一音訊信號,生成控制指令;基於控制指令,生成第二音訊信號;輸出第二音訊信號,以抑制第三音訊信號。第二音訊信號的相位與第三音訊信號的相位之和小於相位閾值,第一音訊信號出現的時間早於第三音訊信號出現的時間。
Description
本公開的實施例涉及一種音訊處理方法、音訊處理裝置和非暫態性電腦可讀儲存媒體。
目前,降噪方法主要包括主動式降噪和被動式降噪。主動式降噪是透過降噪系統產生與外界噪音相等的反相信號以將噪音中和,從而實現降噪的效果。被動式降噪主要透過在對象周圍形成封閉空間或者採用隔音材料來阻擋外界雜訊,從而實現降噪的效果。
主動式降噪通常採用落後的反相音訊跟原本收到的音訊(例如,雜訊)進行破壞性迭加以達到抑制音訊的效果。一種主動式降噪的消音流程如下:首先,透過麥克風接收聲音源產生的音訊Vn,並將接收的音訊Vn發送到處理器,然後,處理器對音訊Vn進行反相處理以生成反相音訊Vn’並輸出該反相音訊Vn’至揚聲器,揚聲器發出該反相音訊Vn’。人的耳朵可以接收反相音訊Vn’和音訊Vn,並且反相音訊Vn’與音訊Vn可以進行破壞性迭加從而達到抑制音訊的效果。在該主動式降噪中,由於信號處理和信號傳輸等需要花費時間,揚聲器輸出的反相音訊Vn’的時間必然是落後於麥克風原本收到的音訊Vn的時間,由此,人的耳朵接收到反相音訊Vn’的時間也必然落後於人的耳朵接收到音訊Vn的時間,消音效果較差,甚至可能無法實現消音。輸入端(即麥克風)到輸出端(即揚聲器)必然有延遲,輸入端對輸出端的延遲越低,則人的耳朵接收到反相音訊Vn’和接收到音訊Vn之間的時間差越小,消音效果越好。因此,主動式降噪對於端對端延遲要求極其嚴苛,使得該主動消音系統的架構必須使用高速的類比數位轉換器以及高速運算硬體等,才能達到低延遲,實現較好的抑制音訊的效果,從而導致其開發成本過高且架構較無彈性。因此,如何避免端對端延遲對主動式降噪的影響,如何實現更好的抑制音訊的效果等成為需要解決的問題。
針對上述問題,本公開至少一個實施例提供一種音訊處理方法,包括:基於第一音訊信號,生成控制指令;基於所述控制指令,生成第二音訊信號;輸出所述第二音訊信號,以抑制第三音訊信號,其中,所述第二音訊信號的相位與所述第三音訊信號的相位之和小於相位閾值,所述第一音訊信號出現的時間早於所述第三音訊信號出現的時間。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述輸出所述第二音訊信號,以抑制第三音訊信號,包括:基於所述控制指令,確定輸出所述第二音訊信號的第一時刻;在所述第一時刻輸出所述第二音訊信號,其中,所述第三音訊信號從第二時刻開始出現,所述第一時刻和所述第二時刻之間的時間差的絕對值小於時間閾值。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述第一時刻和所述第二時刻之間的時間差為0。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述基於第一音訊信號,生成控制指令,包括:獲取所述第一音訊信號;對所述第一音訊信號進行處理以預測得到第四音訊信號;基於所述第四音訊信號,生成所述控制指令。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述第二音訊信號和/或所述第三音訊信號和/或所述第四音訊信號是週期性的或間歇性的時域信號。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述對所述第一音訊信號進行處理以預測得到第四音訊信號,包括:基於所述第一音訊信號生成第一音訊特徵編碼;基於所述第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼;基於所述第二音訊特徵編碼,預測得到所述第四音訊信號。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述查找表包括至少一個第一編碼字段。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述查找表還包括至少一個第二編碼字段,多個所述第一編碼字段組成一個所述第二編碼字段。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述第二音訊特徵編碼包括至少一個所述第一編碼字段和/或至少一個所述第二編碼字段。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述獲取所述第一音訊信號,包括:採集初始音訊信號;對所述初始音訊信號進行下取樣處理以得到所述第一音訊信號。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述獲取所述第一音訊信號,包括:採集初始音訊信號;對所述初始音訊信號進行濾波處理以得到所述第一音訊信號。
例如,在本公開至少一個實施例提供的音訊處理方法中,所述第二音訊信號的相位與所述第三音訊信號的相位相反。
本公開至少一個實施例還提供一種音訊處理裝置,包括:指令生成模組,被配置為基於第一音訊信號,生成控制指令;音訊生成模組,被配置為基於所述控制指令,生成第二音訊信號;輸出模組,被配置為輸出所述第二音訊信號,以抑制第三音訊信號;其中,所述第二音訊信號的相位與所述第三音訊信號的相位之和小於相位閾值,所述第一音訊信號出現的時間早於所述第三音訊信號出現的時間。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述輸出模組包括時刻確定子模組和輸出子模組,所述時刻確定子模組被配置為基於所述控制指令,確定輸出所述第二音訊信號的第一時刻;所述輸出子模組被配置為在所述第一時刻輸出所述第二音訊信號,其中,所述第三音訊信號從第二時刻開始出現,所述第一時刻和所述第二時刻之間的時間差的絕對值小於時間閾值。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述第一時刻和所述第二時刻之間的時間差為0。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述指令生成模組包括音訊獲取子模組、預測子模組和生成子模組,所述音訊獲取子模組被配置為獲取所述第一音訊信號;所述預測子模組被配置為對所述第一音訊信號進行處理以預測得到第四音訊信號;所述生成子模組被配置為基於所述第四音訊信號,生成所述控制指令。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述第二音訊信號和/或所述第三音訊信號和/或所述第四音訊信號是週期性的或間歇性的時域信號。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述預測子模組包括查詢單元和預測單元,所述查詢單元被配置為基於所述第一音訊信號生成第一音訊特徵編碼以及基於所述第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼;所述預測單元被配置為基於所述第二音訊特徵編碼,預測得到所述第四音訊信號。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述查找表包括至少一個第一編碼字段。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述查找表還包括至少一個第二編碼字段,多個所述第一編碼字段組成一個所述第二編碼字段。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述第二音訊特徵編碼包括至少一個所述第一編碼字段和/或至少一個所述第二編碼字段。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述音訊獲取子模組包括採集單元和下取樣處理單元,所述採集單元被配置為採集初始音訊信號;所述下取樣處理單元被配置為對所述初始音訊信號進行下取樣處理以得到所述第一音訊信號。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述音訊獲取子模組包括採集單元和濾波單元,所述採集單元被配置為採集初始音訊信號;所述濾波單元被配置為對所述初始音訊信號進行濾波處理以得到所述第一音訊信號。
例如,在本公開至少一個實施例提供的音訊處理裝置中,所述第二音訊信號的相位與所述第三音訊信號的相位相反。
本公開至少一個實施例還提供一種音訊處理裝置,包括:一個或多個記憶體,非暫態性地儲存有電腦可執行指令;一個或多個處理器,配置為運行所述電腦可執行指令,其中,所述電腦可執行指令被所述一個或多個處理器運行時實現根據本公開任一個實施例所述的音訊處理方法。
本公開至少一個實施例還提供一種非暫態性電腦可讀儲存媒體,其中,所述非暫態性電腦可讀儲存媒體儲存有電腦可執行指令,所述電腦可執行指令被處理器執行時實現根據本公開任一個實施例所述的音訊處理方法。
根據本公開的任一實施例提供的音訊處理方法、音訊處理裝置和非暫態性電腦可讀儲存媒體,透過學習當前音訊信號(即,第一音訊信號)的特徵,產生未來的反相音訊信號(即,第二音訊信號)以抑制未來音訊信號(即,第三音訊信號),避免由於輸入端和輸出端之間的延遲導致的反相音訊信號和需要抑制的音訊信號不同步的問題,提升消音效果,可大幅降低或甚至消除輸入端對輸出端的延遲對消音的影響,抑制音訊的效果比業界常用的落後式的主動消音系統的抑制音訊的效果更好。
為了使得本公開實施例的目的、技術方案和優點更加清楚,下面將結合本公開實施例的附圖,對本公開實施例的技術方案進行清楚、完整地描述。顯然,所描述的實施例是本公開的一部分實施例,而不是全部的實施例。基於所描述的本公開的實施例,本領域普通技術人員在無需進步性勞動的前提下所獲得的所有其他實施例,都屬於本公開保護的範圍。
除非另外定義,本公開使用的技術術語或者科學術語應當為本公開所屬領域內具有一般技能的人士所理解的通常意義。本公開中使用的「第一」、「第二」以及類似的詞語並不表示任何順序、數量或者重要性,而只是用來區分不同的組成部分。「包括」或者「包含」等類似的詞語意指出現該詞前面的元件或者物件涵蓋出現在該詞後面列舉的元件或者物件及其等同,而不排除其他元件或者物件。「連接」或者「相連」等類似的詞語並非限定於物理的或者機械的連接,而是可以包括電性的連接,不管是直接的還是間接的。
為了保持本公開實施例的以下說明清楚且簡明,本公開省略了部分已知功能和已知部件的詳細說明。
本公開至少一個實施例提供一種音訊處理方法。該音訊處理方法包括:基於第一音訊信號,生成控制指令;基於控制指令,生成第二音訊信號;輸出第二音訊信號,以抑制第三音訊信號。第二音訊信號的相位與第三音訊信號的相位之和小於相位閾值,第一音訊信號出現的時間早於第三音訊信號出現的時間。
在本公開的實施例提供的音訊處理方法中,透過學習當前音訊信號(即,第一音訊信號)的特徵,產生未來的反相音訊信號(即,第二音訊信號)以抑制未來音訊信號(即,第三音訊信號),避免由於輸入端和輸出端之間的延遲導致的反相音訊信號和需要抑制的音訊信號不同步的問題,提升消音效果,可大幅降低或甚至消除輸入端對輸出端的延遲對消音的影響,抑制音訊的效果比業界常用的落後式的主動消音系統的抑制音訊的效果更好。
本公開的實施例還提供一種音訊處理裝置和非暫態性電腦可讀儲存媒體。該音訊處理方法可應用於本公開實施例提供的音訊處理裝置,該音訊處理裝置可被配置於電子設備上。該電子設備可以是個人電腦、移動終端、汽車頭枕等,該移動終端可以是手機、耳機、平板電腦等硬體設備。
下面結合附圖對本公開的實施例進行詳細說明,但是本公開並不限於這些具體的實施例。
第1圖為本公開至少一個實施例提供的一種音訊處理系統的示意性框圖,第2A圖為本公開至少一個實施例提供的一種音訊處理方法的示意性流程圖,第2B圖為第2A圖所示的步驟S10的示意性流程圖,第2C圖為第2B圖所示的步驟S102的示意性流程圖,第3圖為本公開至少一個實施例提供的一種第一音訊信號和第三音訊信號的示意圖。
第1圖所示的音訊處理系統可以用於實現本公開任一實施例提供的音訊處理方法,例如,第2A圖所示的音訊處理方法。如第1圖所示,音訊處理系統可以包括音訊接收部分、音訊處理部分和音訊輸出部分。音訊接收部分可以接收聲音源在時刻tt1發出的音訊信號Sn1,然後將音訊信號Sn1傳輸至音訊處理部分,音訊處理部分對音訊信號Sn1進行處理,以預測得到未來的反相音訊信號Sn2;然後該未來的反相音訊信號Sn2透過音訊輸出部分輸出。未來的反相音訊信號Sn2可以用於抑制聲音源在晚於時刻tt1的時刻tt2產生的未來音訊信號Sn3。例如,目標對象(例如,人的耳朵等)可以同時接收到反相音訊信號Sn2和未來音訊信號Sn3,以使得未來的反相音訊信號Sn2和未來音訊信號Sn3可以進行破壞性疊加,從而實現消音。
例如,音訊接收部分可以包括麥克風、放大器(例如,麥克風放大器)、類比數位轉換器(analog to digital converter,ADC)、降取樣器(downsampler)等,音訊處理部分可以包括AI引擎和/或數位訊號處理器(Digital Signal Processing,DSP))等,音訊輸出部分可以包括升取樣器(Upsampler)、數位類比轉換器(digital to analog converter,DAC)、放大器(例如,揚聲器放大器)以及揚聲器等。
如第2A圖所示,本公開的一個實施例提供的音訊處理方法包括步驟S10至S12。在步驟S10,基於第一音訊信號,生成控制指令;在步驟S11,基於控制指令,生成第二音訊信號;在步驟S12,輸出第二音訊信號,以抑制第三音訊信號。
例如,第一音訊信號可以為第1圖所示的音訊信號Sn1,第二音訊信號可以為第1圖所示的反相音訊信號Sn2,第三音訊信號可以為第1圖所示的未來音訊信號Sn3。
例如,音訊接收部分可以接收第一音訊信號;音訊處理部分可以對第一音訊信號進行處理以生成控制指令,並基於控制指令生成第二音訊信號;音訊輸出部分可以輸出第二音訊信號,從而實現抑制第三音訊信號。
例如,第一音訊信號出現的時間早於第三音訊信號出現的時間。如第3圖所示,第一音訊信號開始出現的時刻為t11,第三音訊信號開始出現的時刻為t21,在時間軸t上,時刻t11早於時刻t21。例如,第一音訊信號存在的時間段可以為時刻t11到時刻t12之間的時間段,第三音訊信號存在的時間段為時刻t21到時刻t22之間的時間段。考慮到信號處理過程的時間等因素,時刻t12和時刻t21可以不是同一時刻,時刻t12早於時刻t21。
需要說明的是,在本公開的實施例中,「音訊信號存在的時間段或出現的時間」表示該音訊信號對應的音訊存在的時間段或出現的時間。
例如,第二音訊信號的相位與第三音訊信號的相位之和小於相位閾值,相位閾值可以根據實際情況設置,本公開對此不作具體限制。例如,在一些實施例中,第二音訊信號的相位與第三音訊信號的相位相反,從而可以實現完全消音,即完全抑制第三音訊信號,此時,當第二音訊信號和第三音訊信號由音訊採集裝置(例如,麥克風等)接收時,音訊採集裝置所接收到的音訊信號的誤差能量為0;若第二音訊信號和第三音訊信號被人耳接收,相當於人沒有聽到聲音。
例如,在一些實施例中,第一音訊信號可以為時刻t11到時刻t12之間的最大聲量(振幅最大)的時域音訊信號,第一音訊信號不是特定頻率的音訊信號,從而本公開的實施例提供的音訊處理方法不需要從音訊信號中提取頻譜特徵來產生頻譜圖,由此可以簡化音訊信號的處理過程,節省處理時間。
例如,第一音訊信號和第三音訊信號可以為外界環境、機器等產生的音訊信號,機器運轉的聲音、裝修過程的電鑽聲和電鋸聲等。例如,機器可以包括家用電器(空調、抽油煙機、洗衣機等)等。
例如,在一些實施例中,如第2B圖所示,步驟S10可以包括步驟S101~步驟103,在步驟S101中,獲取第一音訊信號;在步驟S102中,對第一音訊信號進行處理以預測得到第四音訊信號;在步驟S103中,基於第四音訊信號,生成控制指令。在本公開的實施例提供的音訊處理方法中,透過學習當前音訊信號(即第一音訊信號)的特徵,預測得到尚未產生的音訊信號(即第四音訊信號)。
例如,第四音訊信號是預測得到的未來的音訊信號,例如,在時間軸上,第四音訊信號存在的時間段落後於第一音訊信號存在的時間段,例如,第四音訊信號存在的時間段與第三音訊信號存在的時間段相同,從而第四音訊信號存在的時間段也可以為第3圖所示的時刻t21到時刻t22之間的時間段。
第4圖為本公開至少一個實施例提供的一種第三音訊信號和第四音訊信號的示意圖。在第4圖所示的示例中,橫軸表示時間(Time),縱軸表示幅度(Amplitude),幅度可以表示為電壓值。如第4圖所示,在一個實施例中,預測得到的第四音訊信號與第三音訊信號大致相同。
例如,在一實施例中,第三音訊信號和第四音訊信號可以完全相同,此時,基於第四音訊信號最終生成的第二音訊信號的相位與第三音訊信號的相位相反,從而實現完全消音。
例如,在步驟S102中,對第一音訊信號進行處理以預測第四音訊信號可以包括透過神經網路對第一音訊信號進行處理以預測得到第四音訊信號。
例如,神經網路可以包括遞迴神經網路、長短期記憶網路或生成對抗網路等。在本公開的實施例中,可以基於人工智慧學習音訊信號的特徵,從而預測尚未發生的未來某個時間段的音訊信號,據此產生未來的該時間段的反相音訊信號,用以抑制該時間段的音訊信號。
例如,在一些實施例中,如第2C圖所示,步驟S102可以包括步驟S1021~步驟1023,在步驟S1021中,基於第一音訊信號生成第一音訊特徵編碼;在步驟S1022中,基於第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼;在步驟S1023中,基於第二音訊特徵編碼,預測得到第四音訊信號。
例如,第一音訊信號可以為類比信號,可以透過類比數位轉換器對第一音訊信號進行處理,以得到處理後的第一音訊信號,處理後的第一音訊信號為數位信號,基於該處理後的第一音訊信號可以生成第一音訊特徵編碼。
又例如,第一音訊信號可以為數位信號,例如,PDM(Pulse-density-modulation,脈衝密度調變)信號,此時,可以直接基於第一音訊信號生成第一音訊特徵編碼。PDM信號可以採用二進位數字0和1表示。
例如,可以採用任何合適的編碼方式實現第一音訊特徵編碼。例如,在一些實施例中,在表示一個音訊信號時,可以採用音訊信號的變化狀態來描述該音訊信號,可以採用多位元(multi-bits)來表示一個音訊信號的變化狀態。例如,可以採用兩位元(2bits)表示音訊信號的變化狀態,在一些示例中,如下述表格1所示,00表示音訊信號變大,01表示音訊信號變小,10表示沒有音訊信號,11表示音訊信號不變。
表格1
「音訊信號變大」表示單位時間段(每個時間步(time step))中的音訊信號的振幅隨著時間變大,「音訊信號變小」表示單位時間段中的音訊信號的振幅隨著時間變小,「音訊信號不變」表示單位時間段中的音訊信號的振幅隨著時間不變,「沒有音訊信號」表示在單位時間段中沒有音訊信號,即音訊信號的振幅為0。
位元 | 音訊信號的變化狀態 |
00 | 音訊信號變大 |
01 | 音訊信號變小 |
10 | 沒有音訊信號 |
11 | 音訊信號不變 |
第5A圖為本公開一些實施例提供的一種音訊信號的示意圖,第5B圖為第5A圖中的虛線矩形框P1中的音訊信號的放大示意圖。
在第5A圖中,橫坐標為時間(ms,毫秒),縱坐標為音訊信號的振幅(volts,伏特)。如第5A圖所示,音訊信號V是週期性變化的信號,音訊信號V的週期性的模式(pattern)為虛線矩形框P2所示的模式。
如第5B圖所示,波形段30所表示的音訊信號的振幅隨著時間t不變,波形段30對應的時間為一個單位時間段,則波形段30可以表示為音訊特徵編碼(11);類似地,波形段31所表示的音訊信號的振幅隨著時間t逐漸變大,波形段31對應的時間為四個單位時間段,則波形段31可以表示為音訊特徵編碼(00,00,00,00);波形段32所表示的音訊信號的振幅隨著時間t不變,波形段32對應的時間為一個單位時間段,波形段32可以表示為音訊特徵編碼(11);波形段33所表示的音訊信號的振幅隨著時間t逐漸變小,波形段33對應的時間為六個單位時間段,則波形段33可以表示為音訊特徵編碼(01,01,01,01,01,01);波形段34所表示的音訊信號的振幅隨著時間t不變,波形段34對應的時間為一個單位時間段,則波形段34可以表示為音訊特徵編碼(11);波形段35所表示的音訊信號的振幅隨著時間t逐漸變大,波形段35對應的時間為八個單位時間段,則波形段35可以表示為音訊特徵編碼(00,00,00,00,00,00,00,00);以此類推,波形段36可以表示為音訊特徵編碼(01,01,01,01,01,01,01,01,01,01,01,01),波形段37可以表示為音訊特徵編碼(11),波形段38可以表示為音訊特徵編碼(00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00)。從而,第5B圖所示的音訊信號對應的音訊特徵編碼可以表示為{11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…}。
例如,在一些實施例中,查找表(codebook)包括至少一個第一編碼字段。例如,在另一些實施例中,查找表還包括至少一個第二編碼字段,多個第一編碼字段組成一個第二編碼字段,從而可以實現從低級特徵組合而形成降維的高階特徵。例如,查找表中的編碼字段(codeword,例如,codeword可以包括第一編碼字段和第二編碼字段)的編碼方式可以與上述第一音訊特徵編碼的編碼方式相同。
例如,在一些實施例中,當採用兩位元表示音訊信號的變化狀態,從而實現特徵編碼時,第一編碼字段可以為00、01、10和11之一。可以由00、01、10和11進行組合以構成第二編碼字段。例如,一個第二編碼字段可以表示為{00,00,00,01,01,01,11,11,01,…},其由00、01和11組合構成。
例如,當查找表包括多個第二編碼字段時,多個第二編碼字段分別包括的第一編碼字段的數量可以各不相同。
需要說明的是,當採用更多位元(例如,3位元、4位元等)表示音訊信號的變化狀態,從而實現特徵編碼時,第一編碼字段的種類可以更多,例如,當採用3位元表示音訊信號的變化狀態時,第一編碼字段的種類最多可以為8種,此時,第一編碼字段可以為000、001、010、011,100、101、110和111中的部分或全部。
例如,一個或多個第二編碼字段還可以進行組合以得到第三編碼字段,或一個或多個第二編碼字段以及一個或多個第一編碼字段可以進行組合以得到第三編碼字段,類似地,一個或多個第三編碼字段可以進行組合或一個或多個第三編碼字段與第一編碼字段和/或第二編碼字段可以進行組合,以得到更高階的編碼字段。在本公開的實施例中,低階的特徵編碼可以進行組合以得到高階的特徵編碼,從而實現更高效且更長時間的預測。
例如,第二音訊特徵編碼包括至少一個第一編碼字段和/或至少一個第二編碼字段。例如,在一些實施例中,第二音訊特徵編碼可以包括完整的一個或多個第二編碼字段,或者,第二音訊特徵編碼可以包括一個第二編碼字段中的部分第一編碼字段。
需要說明的是,當查找表中包括第三編碼字段時,第二音訊特徵編碼可以包括至少一個第一編碼字段和/或至少一個第二編碼字段和/或至少一個第三編碼字段。
例如,在一實施例中,查找表包括第二編碼字段W1、第二編碼字段W2和第二編碼字段W3,且W1={11,00,00,00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,….},W2={11,01,00,00,01,01,01,01,01,01,01,….},W3={11,00,01,00,00,01,01,01,11,00,00,00,01,01,01,01,01,01,01,01,01,….}。
在一個實施例中,如第5B圖所示,從時刻t31開始,音訊採集裝置持續採集第一音訊信號,當音訊採集裝置採集到的第一音訊信號對應的第一個特徵編碼字段表示為{11},對應於波形段30,則基於查找表進行查詢,以確定查找表中是否存在某個編碼字段(包括第一編碼字段和第二編碼字段)包括{11},在上述示例中,查詢到查找表中的第二編碼字段W1、第二編碼字段W2和第二編碼字段W3均包括{11},此時,第二編碼字段W1、第二編碼字段W2和第二編碼字段W3均作為待輸出編碼字段清單中的待輸出編碼字段。
然後,如第5B圖所示,當音訊採集裝置採集到的第一音訊信號對應的第二個特徵編碼字段表示為{00},對應於波形段31中的第一個單位時間段,繼續對查找表進行查詢(此時可以僅對待輸出編碼字段列中的待輸出編碼字段進行查詢,從而可以節省查詢時間,然而,也可以對整個查找表進行查詢),以確定查找表中是否存在某個編碼字段包括{11,00},在上述示例中,查詢到查找表中的第二編碼字段W1和第二編碼字段W3均包括{11,00},由於第二編碼字段W2包括{11,01},而不包括{11,00},從而不滿足音訊採集裝置採集到的第一音訊信號的特徵,因此,可以將第二編碼字段W2從待輸出編碼字段清單中刪除,此時,第二編碼字段W1和第二編碼字段W3作為待輸出編碼字段清單中的待輸出編碼字段。
然後,當音訊採集裝置採集到的第一音訊信號對應的第三個特徵編碼字段表示為{00},對應於波形段31中的第二個單位時間段,繼續對查找表進行查詢,以確定查找表中是否存在某個編碼字段包括{11,00,00},在上述示例中,查詢到查找表中的第二編碼字段W1包括{11,00,00}。那麼,可以預測接下來的音訊信號應該就是第二編碼字段W1這個模式。對於第二編碼字段W1中的前三個編碼字段{11,00,00},由於其在時間上,其對應的音訊信號已經過去,從而可以輸出從第二編碼字段W1中的第四個字段(即{00})開始的所有後續編碼字段作為預測得到的第二音訊編碼特徵,此時,第二音訊特徵編碼表示為{00,00,11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,…….}。
需要說明的是,在實際應用中,當匹配多少個特徵編碼字段才確定第二音訊特徵編碼可以根據實際應用場景、設計需求等因素調整,例如,在上述示例中,當匹配3個(在實際應用中,可以匹配10、20、50個等)特徵編碼字段,則可以確定第二音訊特徵編碼。
例如,在上述示例中,第一音訊信號對應的第一音訊特徵編碼包括3個特徵編碼字段,且表示為{11,00,00},如第5B圖所示,第一音訊信號對應的時間段為時刻t31至時刻t32。當考慮到系統處理信號的時間等因素,實際上系統需要在時刻t33才能輸出第二音訊信號,時刻t33晚於時刻t32,此時,第二音訊特徵編碼中的前兩個特徵編碼字段{00,00}對應的時間段(即時刻t32至時刻t33之間的時間段)已經過去,從而實際上預測得到的第四音訊信號對應的音訊特徵編碼表示為{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,….}。
例如,若第三音訊信號和第四音訊信號完全相同,則第三音訊信號對應的音訊特徵編碼也表示為{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,….}。
例如,第二音訊信號為對第四音訊信號進行反相處理得到的信號,即第二音訊信號可以為{11,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,01,01,01,01,01,01,01,01,01,01,01,01,11,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,00,….}這個模式的反相音訊信號。
例如,在一些實施例中,第二音訊信號的時間長度、第三音訊信號的時間長度和第四音訊信號的時間長度是大致相同的,例如,完全相同。
例如,在一些實施例中,可以針對查找表中的至少部分第一編碼字段和/或第二編碼字段設置前導特徵編碼字段,例如,可以為第二編碼字段W1設置前導特徵編碼{11,00,00},當檢測到該前導特徵編碼字段,則將第二編碼字段W1輸出作為第二音訊特徵編碼。在此情況下,當檢測到第一音訊信號對應的第一音訊特徵編碼為{11,00,00},該第一音訊信號對應的第一音訊特徵編碼與前導特徵編碼字段{11,00,00}匹配,從而可以將第二編碼字段W1輸出作為第二音訊特徵編碼。
又例如,可以為第二編碼字段W1設置前導特徵編碼字段{11,00,00,01,01},當檢測到該前導特徵編碼字段中的部分字段,則將第二編碼字段W1和該前導特徵編碼字段中的剩餘字段輸出作為第二音訊特徵編碼,在此情況下,當檢測到第一音訊信號對應的第一音訊特徵編碼為{11,00,00},該第一音訊信號對應的第一音訊特徵編碼與前導特徵編碼字段中的前三個字段{11,00,00}匹配,從而可以將前導特徵編碼字段中的剩餘字段{01,01}和第二編碼字段W1輸出作為第二音訊特徵編碼。此時,第二音訊特徵編碼中的前兩個特徵編碼字段{01,01}(即前導特徵編碼字段中的剩餘字段)對應的時間可以為系統處理信號的時間,從而實際上預測得到的第四音訊信號對應的音訊特徵編碼可以為完整的第二編碼字段W1。
需要說明的是,前導特徵編碼字段的長度可以根據實際情況調整,本公開對此不作限制。
值得注意的是,對於查找表而言,當用於儲存查找表的記憶體足夠大,查找表儲存的內容夠豐富(即查找表中的編碼字段的組合夠多),則可消除用戶想要消除的所有類型的音訊信號。而對於神經網路而言,當用於訓練神經網路的樣本足夠豐富,樣本的類型足夠豐富,則也可以基於神經網路預測得到使用者想要消除的任何類型的音訊信號。
例如,查找表可以以表格等形式儲存在記憶體中,本公開的實施例對查找表的具體形式不作限制。
例如,透過查找表的方式可以實現神經網路中的預測。
例如,第二音訊信號和/或第三音訊信號和/或第四音訊信號是週期性的或間歇性的時域信號,第二音訊信號和/或第三音訊信號和/或第四音訊信號的信號特徵是週期性或間歇性的時域振幅變化,即第二音訊信號和/或第三音訊信號和/或第四音訊信號具有連續重複、間歇重複的特質,具有固定的模式。對於間歇性的音訊信號,由於在該間歇性的音訊信號的停歇期間不存在音訊信號,因此在停歇期間沒有頻譜特徵可供提取,而停歇期間卻可以成為該間歇性的音訊信號的時域特徵之一。
例如,在一些實施例中,步驟S101可以包括:採集初始音訊信號;對初始音訊信號進行降取樣處理(downsampling)以得到第一音訊信號。
由於音訊採集裝置採集得到的初始音訊信號的取樣速率(sample rate)較高,不利於後端的音訊信號處理裝置(例如,人工智慧引擎(AI(Artificial Intelligence) Engine)、數位訊號處理器(Digital Signal Processing,簡稱DSP)等)的處理,因此,可以對初始音訊信號進行降取樣處理以實現降頻,便於音訊信號處理裝置處理,例如可以降頻至48K赫茲甚至更低。
例如,在另一些實施例中,步驟S101可以包括:採集初始音訊信號;對初始音訊信號進行濾波處理以得到第一音訊信號。
在一些應用場景下,太安靜並不安全,因此,還可以透過頻寬控制器(Bandwidth controller)進行濾波處理,以針對特定頻率範圍內的音訊信號進行抑制。針對連續性及間歇性的音訊信號(例如,敲擊或滴水噪音等),將第一音訊信號的有效頻寬設定在該需要被抑制的音訊信號對應的頻率範圍,例如,1K~6K赫茲,從而確保使用者還能聽到較為重要的聲音,例如,當應用在汽車領域時,必須確保駕駛員能夠聽到喇叭聲等,以提升駕駛安全性。
例如,在一些實施例中,濾波處理和降取樣處理還可以結合使用,本公開對濾波處理和降取樣處理的處理順序不作限制。例如,在一些實施例中,獲取第一音訊信號可以包括:採集初始音訊信號;對初始音訊信號進行濾波處理以得到預定頻率範圍內的音訊信號;對在預定頻率範圍內的音訊信號進行降取樣處理以得到第一音訊信號;或者,獲取第一音訊信號可以包括:採集初始音訊信號;對初始音訊信號進行降取樣處理;對降取樣處理後的音訊信號進行濾波處理以得到第一音訊信號。
例如,控制指令可以包括第二音訊信號輸出的時刻、第四音訊信號和指示對第四音訊信號進行反相的控制信號等。
例如,在一些實施例中,步驟S11可以包括:基於控制指令,確定第四音訊信號和指示對第四音訊信號進行反相的控制信號;基於該控制信號,對該第四音訊信號進行反相處理,以生成第二音訊信號。
例如,在一些實施例中,步驟S12可以包括:基於控制指令,確定輸出第二音訊信號的第一時刻;在第一時刻輸出第二音訊信號。
例如,第三音訊信號從第二時刻開始出現,第一時刻和第二時刻之間的時間差的絕對值小於時間閾值。需要說明的是,時間閾值可以根據實際情況具體設置,本公開對此不作限制,時間閾值越小,則消音效果越好。
例如,在一些實施例中,第一時刻和第二時刻之間的時間差為0,即第二音訊信號的開始輸出的時刻和第三音訊信號開始出現的時刻相同,在第3圖所示的示例中,第二音訊信號的開始輸出的時刻和第三音訊信號開始出現的時刻均為時刻t21。
例如,第一時刻和第二時刻之間的時間差可以根據實際情況設置,例如,可以設置第一時刻和第二時刻以保證第二音訊信號和第三音訊信號同時被傳輸至目標對象,從而避免音訊信號的傳輸而導致第二音訊信號和第三音訊信號不同步的問題,進一步提升消音效果。例如,目標對象可以為人的耳朵、麥克風等。
例如,第二音訊信號可以透過揚聲器等可以將電信號轉換為聲音信號進行輸出的裝置進行輸出。
需要說明的是,當音訊採集裝置沒有採集到音訊信號,則可以不執行本公開提供的音訊處理方法,直到音訊採集裝置採集到音訊信號為止,從而可以節省功耗。
在本公開的實施例中,音訊處理方法可以將環境音訊信號中的週期性的音訊信號(例如,雜訊)降低或消除,例如,在圖書館這樣的應用場景中,消除旁邊建築工地施工的聲音等。這類的場景不需要特別知道想留下來的音訊信號,單純的降低需要消除的環境中的目標待消音聲音,而這些目標待消音聲音通常具有連續重複、間歇重複的特質,因此可以透過預測方式預測得到。需要說明的是,「目標待消音聲音」可以根據實際情況確定,例如,對於圖書館這樣的應用場景,當圖書館周圍具有建築工地時,外界環境音訊信號可以包括兩種音訊信號,第一種音訊信號可以為工地鑽地聲,第二種音訊信號可以周圍人的討論聲。通常,工地鑽地聲具有週期性的特點,且通常具有固定的模式,而討論聲大概率不具固定模式,也不具有週期性的特點,此時,目標待消音聲音則為工地鑽地聲,透過本公開的實施例提供的音訊處理方法,則可以實現對工地鑽地聲的預測,從而消除或降低工地鑽地聲。
本公開的實施例提供的音訊處理方法可以應用於汽車駕駛頭枕,從而在駕駛員的耳朵附近創造靜音區,避免外界非必要的音訊信號(例如,發動機噪音、路噪、風噪和胎噪等汽車行駛過程中的雜訊信號)對駕駛員產生干擾。又例如,該音訊處理方法還可以應用於吹風機、排油煙機、吸塵器、非變頻式空調等設備中,以降低這些設備發出的運轉聲音,使得用戶可以待在吵雜的環境,而不受到周圍環境雜訊的影響。該音訊處理方法還可以應用於耳機等,以降低或消除外界聲音,使得用戶可以更好地接收耳機發出的聲音(音樂聲或通話聲等)。
本公開至少一個實施例還提供一種音訊處理裝置。第6圖為本公開至少一個實施例提供的一種音訊處理裝置的示意性框圖。
如第6圖所示,音訊處理裝置600包括指令生成模組601、音訊生成模組602和輸出模組603。第6圖所示的音訊處理裝置600的元件和結構只是示例性的,而非限制性的,根據需要,該音訊處理裝置600還可以包括其他元件和結構。
指令生成模組601被配置為基於第一音訊信號,生成控制指令。指令生成模組601用於執行第2A圖所示的步驟S10。
音訊生成模組602被配置為基於控制指令,生成第二音訊信號。音訊生成模組602用於執行第2A圖所示的步驟S11。
輸出模組603被配置為輸出第二音訊信號,以抑制第三音訊信號。輸出模組603用於執行第2A圖所示的步驟S12。
關於指令生成模組601所實現的功能的具體說明可以參考上述音訊處理方法的實施例中的第2A圖所示的步驟S10的相關描述,關於音訊生成模組602所實現的功能的具體說明可以參考上述音訊處理方法的實施例中的第2A圖所示的步驟S11的相關描述,關於輸出模組603所實現的功能的具體說明可以參考上述音訊處理方法的實施例中的第2A圖所示的步驟S12的相關描述。音訊處理裝置可以實現與前述音訊處理方法相似或相同的技術效果,在此不再贅述。
例如,第一音訊信號出現的時間早於第三音訊信號出現的時間。
例如,第二音訊信號的相位與第三音訊信號的相位之和小於相位閾值,在一些實施例中,第二音訊信號的相位與第三音訊信號的相位相反,從而可以完全抑制第三音訊信號。
例如,在一些實施例中,指令生成模組601可以包括音訊獲取子模組、預測子模組和生成子模組。音訊獲取子模組被配置為獲取第一音訊信號;預測子模組被配置為對第一音訊信號進行處理以預測得到第四音訊信號;生成子模組被配置為基於第四音訊信號,生成控制指令。
例如,第二音訊信號和/或第三音訊信號和/或第四音訊信號是週期性的或間歇性的時域信號。
例如,第三音訊信號和第四音訊信號可以完全相同。
例如,在一些實施例中,預測子模組可以基於神經網路對第一音訊信號進行處理以預測得到第四音訊信號。例如,預測子模組可以包括第1圖所示的音訊處理部分中的AI引擎和/或數位訊號處理器等,AI引擎可以包括神經網路,例如,AI引擎可以包括遞迴神經網路、長短期記憶網路或生成對抗網路等中的至少一個神經網路。
例如,在一些實施中,預測子模組包括查詢單元和預測單元。查詢單元被配置為基於第一音訊信號生成第一音訊特徵編碼以及基於第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼。預測單元被配置為基於第二音訊特徵編碼,預測得到第四音訊信號。
例如,查詢單元可以包括記憶體以用於儲存查找表。
例如,在一些實施例中,查找表可以包括至少一個第一編碼字段。例如,在另一些實施例中,查找表還包括至少一個第二編碼字段,多個第一編碼字段組成一個第二編碼字段。關於查找表的具體內容可以參考上述音訊處理方法的實施例中的相關描述,重複之處不再贅述。
例如,第二音訊特徵編碼包括至少一個第一編碼字段和/或至少一個第二編碼字段。
例如,在一些實施例中,音訊獲取子模組包括採集單元和降取樣處理單元。採集單元被配置為採集初始音訊信號;降取樣處理單元被配置為對初始音訊信號進行降取樣處理以得到第一音訊信號。
例如,在一些實施例中,音訊獲取子模組包括採集單元和濾波單元,採集單元被配置為採集初始音訊信號;濾波單元被配置為對初始音訊信號進行濾波處理以得到第一音訊信號。
例如,音訊獲取子模組可以實現為1圖所示的音訊接收部分。例如,採集單元可以包括音訊採集裝置,例如,第1圖所示的音訊接收部分中的麥克風等。例如,採集單元還可以包括放大器、類比數位轉換器等。
例如,在一些實施例中,輸出模組603可以包括時刻確定子模組和輸出子模組。時刻確定子模組被配置為基於控制指令,確定輸出第二音訊信號的第一時刻;輸出子模組被配置為在第一時刻輸出第二音訊信號。
例如,輸出模組603可以實現為第1圖所示的音訊輸出部分。
例如,第三音訊信號從第二時刻開始出現,第一時刻和第二時刻之間的時間差的絕對值小於時間閾值。
例如,第一時刻和所述第二時刻之間的時間差可以為0。
例如,輸出子模組可以包括揚聲器等音訊輸出裝置。例如,輸出子模組還可以包括數位類比轉換器等。
例如,指令生成模組601、音訊生成模組602和/或輸出模組603可以為硬體、軟體、韌體以及它們的任意可行的組合。例如,指令生成模組601、音訊生成模組602和/或輸出模組603可以為專用或通用的電路、晶片或裝置等,也可以為處理器和記憶體的結合。本公開的實施例不對上述各個模組、子模組和單元的具體實現形式進行限制。
本公開至少一個實施例還提供一種音訊處理裝置,第7圖為本公開至少一個實施例提供的另一種音訊處理裝置的示意性框圖。
例如,如第7圖所示,音訊處理裝置700包括一個或多個記憶體701和一個或多個處理器702。一個或多個記憶體701被配置為非暫態性地儲存有電腦可執行指令;一個或多個處理器702配置為運行電腦可執行指令。電腦可執行指令被一個或多個處理器702運行時實現根據上述任一實施例所述的音訊處理方法。關於該音訊處理方法的各個步驟的具體實現以及相關解釋內容可以參見上述音訊處理方法的實施例的描述,在此不做贅述。
例如,在一些實施例中,音訊處理裝置700還可以包括通訊介面和通訊匯流排。記憶體701、處理器702和通訊介面可以透過通訊匯流排實現相互通訊,記憶體701、處理器6702和通訊介面等元件之間也可以透過網路連接進行通訊。本公開對網路的類型和功能在此不作限制。
例如,通訊匯流排可以是外設組件互連標準(PCI)匯流排或延伸工業標準架構(EISA)匯流排等。該通訊匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。
例如,通訊介面用於實現音訊處理裝置700與其他設備之間的通訊。通訊介面可以為通用序列匯流排(Universal Serial Bus,USB)介面等。
例如,處理器702和記憶體701可以設置在伺服器端(或雲端)。
例如,處理器702可以控制音訊處理裝置700中的其它元件以執行期望的功能。處理器702可以是中央處理器(CPU)、網路處理器(NP)等;還可以是數位訊號處理器(DSP)、專用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)或者其他可程式設計邏輯器件、離散門或者電晶體邏輯器件、離散硬體元件。中央處理器(CPU)可以為X86或ARM架構等。
例如,記憶體701可以包括一個或多個電腦程式產品的任意組合,電腦程式產品可以包括各種形式的電腦可讀儲存媒體,例如易失性記憶體和/或非易失性記憶體。易失性記憶體例如可以包括隨機存取記憶體(RAM)和/或高速緩衝記憶體(cache)等。非易失性記憶體例如可以包括唯讀記憶體(ROM)、硬碟、可擦除可程式設計唯讀記憶體(EPROM)、可攜式唯讀記憶光碟(CD-ROM)、USB記憶體、快閃記憶體等。在所述電腦可讀儲存媒體上可以儲存一個或多個電腦可執行指令,處理器702可以運行所述電腦可執行指令,以實現音訊處理裝置700的各種功能。在儲存媒體中還可以儲存各種應用程式和各種資料等。
例如,關於音訊處理裝置700執行音訊處理的過程的詳細說明可以參考音訊處理方法的實施例中的相關描述,重複之處不再贅述。
例如,在一些實施例中,音訊處理裝置700可以透過晶片、小型裝置/設備等形式呈現。
第8圖為本公開至少一個實施例提供的一種非暫態性電腦可讀儲存媒體的示意圖。例如,如第8圖所示,在非暫態性電腦可讀儲存媒體1000上可以非暫時性地儲存一個或多個電腦可執行指令1001。例如,當電腦可執行指令1001由處理器執行時可以執行根據上文所述的音訊處理方法中的一個或多個步驟。
例如,該非暫態性電腦可讀儲存媒體1000可以應用於上述音訊處理裝置700中,例如,其可以包括音訊處理裝置700中的記憶體701。
關於非暫態性電腦可讀儲存媒體1000的說明可以參考第7圖所示的音訊處理裝置600的實施例中對於記憶體701的描述,重複之處不再贅述。
本公開的至少一個實施例提供一種音訊處理方法、音訊處理裝置和非暫態性電腦可讀儲存媒體,透過學習當前音訊信號的特徵,預測得到尚未產生的音訊信號(即第四音訊信號),據此預測得到的音訊信號產生未來的反相音訊信號以抑制未來音訊信號,避免由於輸入端和輸出端之間的延遲導致的反相音訊信號和需要抑制的音訊信號不同步的問題,提升消音效果,可大幅降低或甚至消除輸入端對輸出端的延遲對消音的影響,抑制音訊的效果比業界常用的落後式的主動消音系統的抑制音訊的效果更好;由於第一音訊信號為時域信號,第一音訊信號不是特定頻率的音訊信號,從而本公開的實施例提供的音訊處理方法不需要從音訊信號中提取頻譜特徵來產生頻譜圖,由此可以簡化音訊信號的處理過程,節省處理時間;在查找表中,低階的特徵編碼可以進行組合以得到高階的特徵編碼,從而實現更高效且更長時間的預測;並且在該音訊處理方法中,還可以透過頻寬控制器進行濾波處理,從而實現針對特定頻率範圍內的音訊信號進行抑制,確保使用者還能聽到較為重要的聲音,例如,當應用在汽車領域時,必須確保駕駛員能夠聽到喇叭聲等,以提升駕駛安全性;此外,當沒有採集到音訊信號,則可以不執行本公開提供的音訊處理方法,直到採集到音訊信號為止,從而可以節省功耗。
對於本公開,還有以下幾點需要說明:
(1)本公開實施例附圖只涉及到與本公開實施例涉及到的結構,其他結構可參考通常設計。
(2)在不衝突的情況下,本公開的實施例及實施例中的特徵可以相互組合以得到新的實施例。
以上所述僅為本公開的具體實施方式,但本公開的保護範圍並不局限於此,本公開的保護範圍應以所述請求項的保護範圍為準。
Sn1:音訊信號
Sn2:反相音訊信號
Sn3:未來音訊信號
S10,S11,S12,S101,S102,S103,S1021,S1022,S1023:步驟
t11,t12,t21,t22:時刻
P1:虛線矩形框
P2:虛線矩形框
V:音訊信號
30~38:波形段
t31,t32,t33:時間
600:音訊處理裝置
601:指令生成模組
602:音訊生成模組
603:輸出模組
700:音訊處理裝置
701:記憶體
702:處理器
1000:非暫態性電腦可讀儲存媒體
1001:電腦可執行指令
為了更清楚地說明本公開實施例的技術方案,下面將對實施例的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅涉及本公開的一些實施例,而非對本公開的限制。
第1圖為本公開至少一個實施例提供的一種音訊處理系統的示意性框圖。
第2A圖為本公開至少一個實施例提供的一種音訊處理方法的示意性流程圖。
第2B圖為第2A圖所示的步驟S10的示意性流程圖。
第2C圖為第2B圖所示的步驟S102的示意性流程圖。
第3圖為本公開至少一個實施例提供的一種第一音訊信號和第三音訊信號的示意圖。
第4圖為本公開至少一個實施例提供的一種第三音訊信號和第四音訊信號的示意圖。
第5A圖為本公開一些實施例提供的一種音訊信號的示意圖。
第5B圖為第5A圖中的虛線矩形框P1中的音訊信號的放大示意圖。
第6圖為本公開至少一個實施例提供的一種音訊處理裝置的示意性框圖。
第7圖為本公開至少一個實施例提供的另一種音訊處理裝置的示意性框圖。
第8圖為本公開至少一個實施例提供的一種非暫態性電腦可讀儲存媒體的示意圖。
S10,S11,S12:步驟
Claims (24)
- 一種音訊處理方法,包括:基於第一音訊信號,生成控制指令;基於所述控制指令,生成第二音訊信號;以及輸出所述第二音訊信號,以抑制第三音訊信號;其中,所述第二音訊信號的相位與所述第三音訊信號的相位之和小於相位閾值,所述第一音訊信號出現的時間早於所述第三音訊信號出現的時間,其中所述第二音訊信號的相位與所述第三音訊信號的相位相反。
- 如請求項1所述的音訊處理方法,其中,所述輸出所述第二音訊信號,以抑制第三音訊信號,包括:基於所述控制指令,確定輸出所述第二音訊信號的第一時刻;在所述第一時刻輸出所述第二音訊信號;其中,所述第三音訊信號從第二時刻開始出現,所述第一時刻和所述第二時刻之間的時間差的絕對值小於時間閾值。
- 如請求項2所述的音訊處理方法,其中,所述第一時刻和所述第二時刻之間的時間差為0。
- 如請求項1所述的音訊處理方法,其中,所述基於第一音訊信號,生成控制指令,包括:獲取所述第一音訊信號;對所述第一音訊信號進行處理以預測得到第四音訊信號;基於所述第四音訊信號,生成所述控制指令。
- 如請求項4所述的音訊處理方法,其中,所述第二音訊信號和/或所述第三音訊信號和/或所述第四音訊信號是週期性的或間歇性的時域信號。
- 如請求項4所述的音訊處理方法,其中,所述對所述第一音訊信號進行處理以預測得到第四音訊信號,包括:基於所述第一音訊信號生成第一音訊特徵編碼;基於所述第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼;基於所述第二音訊特徵編碼,預測得到所述第四音訊信號。
- 如請求項6所述的音訊處理方法,其中,所述查找表包括至少一個第一編碼字段。
- 如請求項7所述的音訊處理方法,其中,所述查找表還包括至少一個第二編碼字段,多個所述第一編碼字段組成一個所述第二編碼字段。
- 如請求項8所述的音訊處理方法,其中,所述第二音訊特徵編碼包括至少一個所述第一編碼字段和/或至少一個所述第二編碼字段。
- 如請求項4~9任一項所述的音訊處理方法,其中,所述獲取所述第一音訊信號,包括:採集初始音訊信號;對所述初始音訊信號進行降取樣處理以得到所述第一音訊信號。
- 如請求項4~9任一項所述的音訊處理方法,其中,所述獲取所述第一音訊信號,包括:採集初始音訊信號;對所述初始音訊信號進行濾波處理以得到所述第一音訊信號。
- 一種音訊處理裝置,包括:指令生成模組,被配置為基於第一音訊信號,生成控制指令;音訊生成模組,被配置為基於所述控制指令,生成第二音訊信號;以及輸出模組,被配置為輸出所述第二音訊信號,以抑制第三音訊信號;其中,所述第二音訊信號的相位與所述第三音訊信號的相位之和小於相位閾值,所述第一音訊信號出現的時間早於所述第三音訊信號出現的時間,其中所述第二音訊信號的相位與所述第三音訊信號的相位相反。
- 如請求項12所述的音訊處理裝置,其中,所述輸出模組包括時刻確定子模組和輸出子模組;所述時刻確定子模組被配置為基於所述控制指令,確定輸出所述第二音訊信號的第一時刻;所述輸出子模組被配置為在所述第一時刻輸出所述第二音訊信號;其中,所述第三音訊信號從第二時刻開始出現,所述第一時刻和所述第二時刻之間的時間差的絕對值小於時間閾值。
- 如請求項13所述的音訊處理裝置,其中,所述第 一時刻和所述第二時刻之間的時間差為0。
- 如請求項12所述的音訊處理裝置,其中,所述指令生成模組包括音訊獲取子模組、預測子模組和生成子模組;所述音訊獲取子模組被配置為獲取所述第一音訊信號;所述預測子模組被配置為對所述第一音訊信號進行處理以預測得到第四音訊信號;所述生成子模組被配置為基於所述第四音訊信號,生成所述控制指令。
- 如請求項15所述的音訊處理裝置,其中,所述第二音訊信號和/或所述第三音訊信號和/或所述第四音訊信號是週期性的或間歇性的時域信號。
- 如請求項15所述的音訊處理裝置,其中,所述預測子模組包括查詢單元和預測單元;所述查詢單元被配置為基於所述第一音訊信號生成第一音訊特徵編碼以及基於所述第一音訊特徵編碼查詢查找表,以得到第二音訊特徵編碼;所述預測單元被配置為基於所述第二音訊特徵編碼,預測得到所述第四音訊信號。
- 如請求項17所述的音訊處理裝置,其中,所述查找表包括至少一個第一編碼字段。
- 如請求項18所述的音訊處理裝置,其中,所述查找表還包括至少一個第二編碼字段,多個所述第一編碼字段組成一 個所述第二編碼字段。
- 如請求項19所述的音訊處理裝置,其中,所述第二音訊特徵編碼包括至少一個所述第一編碼字段和/或至少一個所述第二編碼字段。
- 如請求項15~20任一項所述的音訊處理裝置,其中,所述音訊獲取子模組包括採集單元和降取樣處理單元;所述採集單元被配置為採集初始音訊信號;所述降取樣處理單元被配置為對所述初始音訊信號進行降取樣處理以得到所述第一音訊信號。
- 如請求項15~20任一項所述的音訊處理裝置,其中,所述音訊獲取子模組包括採集單元和濾波單元;所述採集單元被配置為採集初始音訊信號;所述濾波單元被配置為對所述初始音訊信號進行濾波處理以得到所述第一音訊信號。
- 一種音訊處理裝置,包括:一個或多個記憶體,非暫態性地儲存有電腦可執行指令;以及一個或多個處理器,配置為運行所述電腦可執行指令;其中,所述電腦可執行指令被所述一個或多個處理器運行時實現根據請求項1~11任一項所述的音訊處理方法。
- 一種非暫態性電腦可讀儲存媒體,其中,所述非暫態性電腦可讀儲存媒體儲存有電腦可執行指令,所述電腦可執行指令被處理器執行時實現根據請求項1~11任一項所述的音訊處理 方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088389.0A CN115457930A (zh) | 2022-05-23 | 2022-09-07 | 模型训练方法及装置、非瞬时性计算机可读存储介质 |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263344642P | 2022-05-23 | 2022-05-23 | |
US63/344,642 | 2022-05-23 | ||
US202263351439P | 2022-06-13 | 2022-06-13 | |
US63/351,439 | 2022-06-13 | ||
US202263352213P | 2022-06-14 | 2022-06-14 | |
US63/352,213 | 2022-06-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202347319A TW202347319A (zh) | 2023-12-01 |
TWI837756B true TWI837756B (zh) | 2024-04-01 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210166672A1 (en) | 2019-09-30 | 2021-06-03 | Shenzhen Voxtech Co., Ltd. | Systems and methods for noise reduction using sub-band noise reduction technique |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210166672A1 (en) | 2019-09-30 | 2021-06-03 | Shenzhen Voxtech Co., Ltd. | Systems and methods for noise reduction using sub-band noise reduction technique |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9294834B2 (en) | Method and apparatus for reducing noise in voices of mobile terminal | |
JP5085556B2 (ja) | エコー除去の構成 | |
JP7166900B2 (ja) | プライバシー保護音声対話のための装置及び方法 | |
KR20190026234A (ko) | 비선형 특성을 갖는 오디오 필터를 이용하여 오디오 신호를 처리하는 방법 및 장치 | |
JP2019204074A (ja) | 音声対話方法、装置及びシステム | |
JP2011511571A (ja) | 複数のマイクからの信号間で知的に選択することによって音質を改善すること | |
US20200045166A1 (en) | Acoustic signal processing device, acoustic signal processing method, and hands-free communication device | |
JP2020115206A (ja) | システム及び方法 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
TWI837756B (zh) | 音訊處理方法及裝置、非暫態性電腦可讀儲存媒體 | |
CN115171713A (zh) | 语音降噪方法、装置、设备及计算机可读存储介质 | |
WO2023226193A1 (zh) | 音频处理方法及装置、非瞬时性计算机可读存储介质 | |
CN116612778B (zh) | 回声及噪声抑制方法、相关装置和介质 | |
JPWO2016059878A1 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
CN109429125B (zh) | 电子装置与耳机装置的控制方法 | |
WO2022259589A1 (ja) | 耳装着型デバイス、及び、再生方法 | |
KR102204488B1 (ko) | 통신 장치 | |
CN115188390A (zh) | 一种音频降噪方法和相关装置 | |
KR102063824B1 (ko) | 보청기를 위한 음향 피드백 제거 장치 및 방법 | |
CN111767020B (zh) | 优化音频处理方法、装置、终端及可读存储介质 | |
CN115278456A (zh) | 一种音响设备及音频信号处理方法 | |
CN117392994B (zh) | 一种音频信号处理方法、装置、设备及存储介质 | |
JPWO2021024466A1 (ja) | 音声対話装置、音声対話方法およびプログラム記録媒体 | |
JPWO2020039597A1 (ja) | 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム | |
US20220310111A1 (en) | Superimposing high-frequency copies of emitted sounds |