TWI811771B - 揚聲器系統及其補償方法 - Google Patents
揚聲器系統及其補償方法 Download PDFInfo
- Publication number
- TWI811771B TWI811771B TW110131359A TW110131359A TWI811771B TW I811771 B TWI811771 B TW I811771B TW 110131359 A TW110131359 A TW 110131359A TW 110131359 A TW110131359 A TW 110131359A TW I811771 B TWI811771 B TW I811771B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- frequency domain
- source signal
- domain representation
- sensing
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 88
- 230000000306 recurrent effect Effects 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 53
- 230000007246 mechanism Effects 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000004907 flux Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 210000002569 neuron Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000001191 orthodromic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/002—Damping circuit arrangements for transducers, e.g. motional feedback circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/09—Electronic reduction of distortion of stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Fuzzy Systems (AREA)
- Neurosurgery (AREA)
- Automation & Control Theory (AREA)
- Circuit For Audible Band Transducer (AREA)
- Amplifiers (AREA)
Abstract
一種揚聲器系統,其使用遞歸神經網路,以根據來源信號(內容)和感測電路的感測信號(信號脈絡)來補償系統的失真,並使用頻域轉換以提供來源信號和記錄信號之間的映射。並能夠重建理想的播放效果。各種感測相關特徵和來源信號相關特徵被推導出以用作輔助信息。因此,可根據原始內容和信號脈絡來生成期望的內容。
Description
本發明係有關於一種揚聲器裝置、系統以及其方法。具體來說,本發明的實施例採用一神經網路對揚聲器系統之播放路徑造成的失真進行補償。
揚聲器常會受到有線性或是非線性失真的影響,而產生不正確的撥放。目前大多數產品提供線性補償,例如濾波功能,等化功能和/或自動增益控制。僅少數產品提供有效的非線性補償。但是,非線性補償需要深入了解揚聲器系統每個組件的物理特性。因此,現有的非線性補償系統是複雜且昂貴的。
因此,目前需要的是解決上述問題的改進的方法和系統。
在本發明的一些實施例中,在揚聲器系統中所採用的遞歸神經網路會基於來源信號(內容)和感測電路的感測信號(信號脈絡)來補償揚聲器系統的失真。選擇頻域轉換以提供來源信號和記錄信號之間的映射(mapping)。並能夠
重建理想的播放效果。各種感測相關特徵和來源信號相關特徵被推導出以用作輔助信息。因此,基於原始內容和信號脈絡來生成期望的內容。
本發明的實施例提供了一種用於播放聲音信號的揚聲器系統。揚聲器系統包括一處理器、一放大器以及一揚聲器。處理器用於接收來源信號並產生處理信號;放大器用於放大處理信號以提供放大信號。揚聲器用於接收放大信號並產生輸出信號。在部署階段,處理器配置為使用遞歸神經網路(RNN)以及經過訓練的參數的補償來源信號以生成上述處理信號。根據來源信號和輸出信號訓練RNN以產生經過訓練之參數。
根據本發明的一些實施例,本發明提供了一種揚聲器系統。包括一揚聲器、一放大器、一感測電路以及一處理器。揚聲器用以根據一放大信號來播放一聲音信號。放大器連接至該揚聲器,該放大器用以接收一經調整之來源信號(justified source signal),根據該經調整之來源信號以產生該放大信號,傳送該放大信號至該揚聲器。感測電路連接至放大信號,該感測電路用以測量該放大信號之一電壓以及一電流,產生一感測信號,該感測信號包含該測量的電壓以及該測量的電流。處理器用以接收一來源信號以及該感測信號,根據該感測信號推導出感測相關特徵(sensing-related feature),將該來源信號轉換至一可重建頻域表示,根據該來源信號推導出來源信號相關特徵,部署一經過訓練的遞歸神經網路(RNN),以根據感測相關特徵以及來源信號相關特徵,將該可重建頻域表示轉換成一經調整之頻域表示(justified frequency domain representation),將該經調整之頻域表示逆向轉換至該經調整之來源信號,傳送該經調整之來源信號至該放大器。
根據本發明的一些實施例,本發明之揚聲器系統中,感測相關特徵包含阻抗、電導、微分阻抗、微分電導、瞬時功率以及均方根功率。
根據本發明的一些實施例,在本發明之揚聲器系統中,該可重建頻域表示係選自傅立葉轉換(FFT)、離散傅立葉轉換(DFT)、修正型離散餘弦轉換(MDCT)、修正型離散正弦轉換(MDST)、常數Q轉換(CQT)、以及變數Q轉換(VQT),其中該變數Q轉換根據等效矩形頻寬(ERB)或是Bark尺度使用濾波聲道分布。
根據本發明的一些實施例,在本發明之揚聲器系統中,該來源信號相關特徵包含梅爾頻率倒譜係數(MFCC)、感知線性預測(PLP)、頻譜質心、頻譜通量、頻譜衰減、過零率、峰值頻率、波峰因素、能量熵、平均幅度、均方根數值、偏度、峰度以及最大幅度中的至少一個。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路係一閘門遞歸單元(GRU)。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路係一長短期記憶網路(LSTM)。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路包含一記憶體元件,其儲存該遞歸神經網路之複數個參數。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路係以一設備進行訓練,該設備包含一麥克風、一第一延遲裝置、一第二延遲裝置以及一神經網路訓練裝置。麥克風用以將該揚聲器播放之該聲音信號轉換至一記錄信號。第一延遲裝置用以同步該來源信號與該記錄信號。第二延遲裝置用以同步該感測信號與該記錄信號。神經網路訓練裝置用以接收該來源信號以及該感測信號,根據該感測信號推導出該感測相關特徵,將該來源信號轉換成一第一頻域表示,根據該來源信號推導該來源信號相關特徵,將該記錄信號轉換成一第二頻域表示,再根據該第一頻域表示、該第二頻域表示、該來源信號相關特徵以及該感測相關特徵,訓練該遞歸神經網路之該複數個參數。
在訓練階段之期間中該經過訓練的遞歸神經網路係被繞過,而該經調整之來源信號係為該來源信號。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路係藉由一順向訓練機制進行訓練,在該順向訓練機制中該第一頻域表示係指定作為輸入,而該第二頻域表示係指定作為所需輸出。
根據本發明的一些實施例,在本發明之揚聲器系統中,該遞歸神經網路係藉由一逆向訓練機制進行訓練,在該逆向訓練機制中,該第二頻域表示係指定作為輸入,而該第一頻域表示係指定作為所需輸出。
根據本發明的一些實施例,本發明提供一種方法,用以在一揚聲器系統中播放一聲音信號,該揚聲器系統包含一處理器、一放大器以及一揚聲器,該處理器用以接收一來源信號以及產生一處理信號,該放大器用以放大該處理信號以提供一放大信號,該揚聲器用以接收該放大信號並產生一輸出信號,該方法包含在一訓練階段,根據該來源信號以及該輸出信號訓練一遞歸神經網路(RNN),以產生經過訓練之參數;以及在一部署階段,使用該RNN與該經過訓練之參數對該來源信號進行補償,以產生該處理信號。
根據本發明的一些實施例,本發明之方法更包含:在該訓練階段,感測該放大信號,以產生一感測信號,根據感測信號推導出感測相關特徵;使用一麥克風將該揚聲器播放之該輸出信號轉換成一記錄信號;將該來源信號轉換成一第一頻域表示;根據該來源信號,推導出來源信號相關特徵;將該輸出信號之記錄信號轉換成一第二頻域表示;根據該第一頻域表示、該第二頻域表示、來源信號相關特徵以及感測相關特徵,訓練該RNN以產生經過訓練之參數。
根據本發明的一些實施例,本發明之方法更包含:在該部署階段,接收該來源信號以及該感測信號;根據感測信號,推導出感測相關特徵;將該來源信號轉換成一可重建頻域表示;部署該經過訓練之RNN與該經過訓練之參數,用以根據從該來源信號以及該感測信號得出之該特徵,將該可重建頻域表示轉換成一經過補償之頻域表示;將該經過補償之頻域表示逆向轉換成一經過補償之來源信號;以及傳送該經過補償之來源信號至該放大器。
根據本發明的一些實施例,在本發明之方法中,該遞歸神經網路係藉由一順向訓練機制進行訓練,在該順向訓練機制中該第一頻域表示係指定作為輸入,而該第二頻域表示係指定作為所需輸出。
根據本發明的一些實施例,在本發明之方法中,該遞歸神經網路係藉由一逆向訓練機制進行訓練,在該逆向訓練機制中,該第二頻域表示係指定作為輸入而該第一頻域表示係指定作為所需輸出。
101:音頻輸入信號
103:類比數位轉換器
104:數位信號處理單元
105:數位類比轉換器
106:音頻放大器單元
107:類比信號
109:音頻輸出信號
110:揚聲器
300:揚聲器系統
301:處理器
302:遞歸神經網路
304:放大器
306:感測電路
308:揚聲器
312:感測信號
313:來源信號
315:調整後的來源信號
317:放大信號
321:聲音信號
331:麥克風
332:記錄信號
333:神經網路訓練裝置
335、337:延遲裝置
700:前饋神經網路
710:輸入埠
720:隱藏層
730:輸出層
740:輸出埠
800:GRU神經網路的單元
900:LSTM神經網路的單元
1000:順向訓練機制
1010:訓練階段
1020:部署階段
1100:逆向訓練機制
1110:訓練階段
1120:部署階段
1200~1220:步驟流程
1300:計算機系統
1310:監視器
1320:計算機
1330:用戶輸出裝置
1340:用戶輸入裝置
1350:通信介面
1360:處理器
1370:RAM
1380:磁碟驅動器
1390:匯流排子系統
第1圖係繪示本發明之一音頻系統之方塊圖。
第2圖係繪示本發明之一些實施例之記錄掃頻(recorded sweeping tone)信號以及感測電流電壓信號之頻譜圖。
第3圖係繪示本發明之揚聲器系統之實施例之方塊圖。
第4圖繪示本發明之實施例之記錄掃頻、對應IV偵測信號以及推導特徵之動態波形圖。
第5圖繪示本發明之來源信號以及記錄信號之修正型離散餘弦轉換(MDCT)圖。
第6圖繪示本發明之實施例之來源信號以及記錄信號之常數Q轉換(CQT)圖。
第7圖繪示本發明之實施例之可用於基於面積功能之檢測模組的兩層前饋神經網路之方塊圖。
第8圖繪示閘門遞歸單元(GRU)之計算單元範例。
第9圖繪示長短期記憶神經網路運算層(LSTM)神經網路之計算單元範例。
第10圖繪示本發明之實施例之順向訓練機制。
第11圖繪示本發明之實施例之逆向訓練機制。
第12圖繪示本發明之實施例之在揚聲器系統播放聲音信號之方法之簡化流程圖。
第13圖繪示用於實現本發明之實施例之裝置的簡化方塊圖。
上述圖式為示意性且並未按比例縮放。圖式中相對尺寸與比例因精確與/或方便之目的而放大或縮小,且尺寸為任意的且不限於此。於圖式中相似之參考符號代表相似之元件。
以下將配合圖式及實施例來詳細說明本發明之實施方式,藉此對本發明如何應用技術手段來解決技術問題並達成技術功效的實現過程能充分理解並據以實施。
當在此使用時,除非文中另行明確地表示,否則「一」、「該」、「此」等單數型式亦旨在包含複數型式。
第1圖繪示本發明之音頻系統的方塊圖。如第1圖所示,音頻系統100被配置為接收音頻輸入信號Vin(101)並向揚聲器110提供音頻輸出信號Vout(109)。音頻系統100包括類比數位轉換器(ADC)103、數位信號處理單元104、數位類比轉換器(DAC)105和音頻放大器單元106。來自DAC的輸出信號是饋入揚聲器110的類比信號Va(107)。這些元件的詳細功能為此領域之技術者所熟知,故在此不再詳細說明。
第2圖描繪了根據本發明的一些實施例的記錄掃頻(sweeping tone)和感測到的電流和電壓信號的頻譜圖。在第2圖中,(a)部分顯示掃頻播放的記錄信號的頻譜圖。橫軸表示時間,從零到三秒;縱軸表示檢測到的信號的頻率。由虛線(從稍遲於0秒的40Hz到稍遲於3秒的20000Hz)突出顯示的暗色主線201,其為掃頻的預期響應。主線上方的次要線202表示感應的諧波。底部203處的水平暗部示出了低頻噪聲。在大約7000Hz(線204)和13000Hz(線205)處的兩條較小的水平線表明了由於系統尺寸所造成的共振。
在第2圖中,(a)部分繪示了音頻系統中的各種失真。在本發明的一些實施例中,揚聲器系統採用遞歸神經網路,以基於來源信號(內容)、與感測電路的感測或記錄的輸出信號(信號脈絡)來補償系統的失真。在一個示例中,選擇頻域轉換以提供來源信號和記錄的信號之間的映射並產生期望的回放的重構(reconstruction)。各種感測相關特徵和來源信號相關特徵被推導出以用作輔助信息。因此,使用遞歸神經網路根據原始內容和信號脈絡生成所需的內容。在一些實施例中,採用機器學習來確定上述來源信號和失真播放之間的映射,從而可以對來源信號進行調整或補償以產生期望的播放結果。
本發明的實施例提供了一種用於播放聲音信號的揚聲器系統。揚聲器系統包括一處理器、一放大器以及一揚聲器。處理器用於接收來源信號並產生處理信號,放大器用於放大處理信號以提供放大信號,而揚聲器用於接收
放大信號並產生輸出信號。在訓練階段,揚聲器系統訓練遞歸神經網路(RNN)以根據來源信號和輸出信號生成經過訓練之參數,並在部署階段使用RNN與經過訓練之參數補償來源信號,以操作揚聲器系統。
第3圖描繪了根據本發明的各個實施例的揚聲器系統的方塊圖。如第3圖所示,揚聲器系統300包括處理器301、放大器304、感測電路306和揚聲器308。處理器301部署具有經過訓練之參數的神經網路(NN),例如遞歸神經網路(RNN)302,用以將來源信號(v)313轉換為調整後(justified)的來源信號u(315)。調整後的來源信號u(315)也稱為補償信號或預處理信號。放大器304放大經調整的來源信號u(315),以產生放大信號p(317),並將其饋送到揚聲器308以進行播放。揚聲器308產生輸出聲音信號q(321)。在一些實施例中,上述RNN可以包括存儲RNN的多個參數的記憶體元件。
感測電路306測量放大信號p(317)的電壓和電流,並且將感測信號s(312)(其包括前述所測量的信號)發送到處理器301。第2圖係繪示上述感測電流信號以及電壓信號之範例。請參照第2圖,(a)部分示出了掃頻播放的記錄信號的頻譜圖。橫軸表示時間,從零到三秒;縱軸表示檢測到的信號的頻率。在第2圖中,(b)部分示出了感測到的電流信號I-sense的頻譜,而(c)部分示出了感測到的電壓信號V-sense的頻譜。上述電流和電壓信號(I-sense以及V-sense)的頻譜圖分別類似於原始掃頻201的頻譜圖,並顯示出類似的失真特徵。本發明之發明人已將測得的電流信號和電壓信號及其頻譜圖識別出有用的數值,其可用於讓神經網路學習來源信號v(313)和經過調整的來源信號u(315)之間的映射。
第4圖示出了根據本發明的一些實施例的記錄的掃頻、相應的IV-sense信號以及導出的特徵的時間波形。在第4圖中,水平軸顯示時間,從零到三秒。(a)部分以對數標度顯示了在三秒內頻率從40Hz增加到20kHz的掃描信號的幅度。實線表示來源信號,虛線表示記錄信號。在時域中,第4圖之(a)部分
中記錄的變化幅度示出了系統之頻率響應需要進行等化。在第4圖中,(b)部分示出了IV-sense信號,其中實線示出了電壓感測信號(V-sense),而虛線示出了電流感測信號(I-sense)。此外,(c)部分顯示了從感測輸出(V/I)得出的電阻,虛線表示瞬時電阻,粗虛線表示幀均方根(RMS)電阻。其他參數也可以在神經網路中使用。這些參數可以包括電導(I/V)、微分電阻(dV/dI)或微分電導(dI/dV)。(d)部分顯示了功率(IV)與時間的關係圖,虛線表示瞬時功率,粗虛線表示幀均方根(RMS)功率。這些推導特徵(作為物理意義的非線性信號脈絡)可以有助於神經網路學習。
在某些情況下,在頻域中更容易觀察到來源信號和記錄信號之間的失真。在這些情況下,將時域波形轉換為頻域表示可能是有利的,以便神經網路可以進行更有意義的學習。許多轉換可以應用於各種音頻應用中。在本發明的一些實施例中,可使用可重構轉換(reconstructable transforms)。例如,可以採用快速傅立葉轉換(FFT)來實現重建。第2圖中示出的示例是使用FFT得出的。對於FFT,如果使用1024個採樣窗口,則頻點數為512,每個頻點由複數(complex number)表示,即要學習的1024個實數。在一些實施例中,可以使用離散傅里葉轉換(DFT)。
在本發明的實施例中也可以使用其他可重構的轉換。第5圖描繪了掃頻來源信號和記錄信號的修正型離散餘弦轉換(MDCT)。在(a)部分和(b)部分中,水平軸均以秒(s)為單位顯示時間,垂直軸以Hz為單位顯示頻率。在第5圖中,(a)部分示出了掃頻來源信號的MDCT轉換,而(b)部分示出了記錄信號的MDCT轉換。在給定相同設定的情況下,每個區間(bin)都由一個實數表示,即僅要學習512個實數。與MDCT相似,也可以應用修正型離散正弦轉換(MDST)。
第6圖描繪了掃頻來源信號和記錄信號的常數Q轉換(CQT)。在第6圖中,(a)部分示出了掃頻來源信號的CQT轉換,而(b)部分示出了記錄信號的
CQT轉換。常數Q轉換(CQT)是另一種適合於完美重構的轉換方式,但是其頻點沿頻率軸呈對數分佈。給定40Hz到20kHz的頻率範圍,其大約9個八度(octave),每個八度的分辨率為12格,每個格由一個複數表示,因此則僅需要學習9x12x2=216個實數。在接受接近完美重建的情況下,可以應用變數Q轉換(VQT),其中頻率分佈可以對應於等效矩形帶寬(ERB)或Bark尺度。
有些不可重構的頻域表示(frequency domain representation),諸如梅爾頻率倒譜係數(MFCC)或感知線性預測(PLP)可提供了適合於來源信號相關特徵的聽覺相對提示(auditory-relative cue)以增強學習。其他合適的基於頻率的來源信號相關特徵可包含頻譜質心(spectral centroid)、頻譜通量、頻譜衰減(spectral roll-off)、頻譜變化性(spectral variability)、頻譜熵(spectral entropy),過零率(zero cross rate)和/或峰值頻率(peak frequency)。在時域波形中,有用的特徵包括平均幅度、均方根值、偏度(skewness)、峰度(kurtosis)、最大幅度、波峰因數(crest factor)和/或能量熵。這些與來源信號相關的特徵提供了多種音頻特性作為信號脈絡(context),因此神經網路可以分配更多的資源來學習它們之間的其他映射規則。
請參照第3圖,根據本發明的各種實施例,揚聲器系統300可包括揚聲器308以及放大器304。揚聲器308基於放大信號p(317)播放聲音信號v(313)。放大器304連接至揚聲器308,被配置為接收修改後的來源信號u(315),並根據調整後的來源信號u(315)生成放大信號p(317),並將放大信號p(317)發送到揚聲器308。調整後的來源信號u(315)也稱為補償信號或前處理信號。揚聲器系統300還包括感測電路306,其連接到放大輸出信號p(317)。感測電路306被配置為測量放大信號p(317)的電壓和電流,並生成感測信號s(312),其包括測得的電壓和電流。
揚聲器系統300還包括被配置為接收來源信號v(313)和感測信號s(312)的處理器301。處理器301還被配置為基於感測信號s(312)導出感測相關特
徵,並對來源信號s(312)進行轉換成可重構的頻域表示。處理器301還被配置為推導出來源信號相關特徵。處理器301還根據從來源信號和感測信號導出的多個特徵來部署經過訓練的遞歸神經網路(RNN)302,用以將頻域表示轉換為經調整的(justified)頻域表示。處理器301還將經調整的頻域表示逆轉換成經調整的來源信號u(315),並且將經調整的來源信號u(315)發送至放大器。
第3圖還示出了訓練設備(如虛線部分所示),其包括麥克風331、神經網路訓練裝置333以及兩個延遲裝置335和337。麥克風將由揚聲器播放的聲音信號q(321)轉換為記錄信號r(332)。延遲裝置335和337將來源信號v(313)和感測信號s(312)與記錄信號r(332)同步。根據來源信號v(313)、感測信號s(312)、記錄信號r(332)以及從來源信號v(313)和感測信號s(312)得出的特徵,神經網路訓練裝置(例如計算機)訓練遞歸神經網路302之參數W(311)。
如上所述,神經網路可用於補償輸入來源信號以減小輸出失真。在一些實施例中,可以將神經網路應用於執行離線機器學習。神經網路的示例如下所述。請參照第7圖所描述通用神經網路的示例,以及第8圖以及第9圖描述遞歸神經網路的兩個例子。
第7圖是示出根據本發明實施例的示例性兩層前饋神經網路的方塊圖,該示例性兩層前饋神經網路也可以用於構建基於面積功能的檢測模塊(area-function-based detection module)。在第7圖所示的例子中,前饋神經網路700包括輸入埠710、隱藏層720、輸出層730和輸出埠740。在該網路中,信息僅在一個方向上從輸入節點向前移動,通過隱藏節點和輸出節點。在第7圖中,W表示權重向量,b表示偏移參數。
在一些實施例中,隱藏層720可具有Sigmoid神經元(neurons),而輸出層730可具有Softmax神經元(neurons)。Sigmoid神經元具有由Sigmoid函數定義的輸出關係,Sigmoid函數是具有特徵S形曲線或Sigmoid曲線的數學函數。根
據應用,Sigmoid函數具有所有實數的域,返回值最經常單向地從0增加到1,或者從-1增加到1。各種各樣的Sigmoid函數可以用作人工神經元的激活功能,包括邏輯和雙曲正切函數(logistic and hyperbolic tangent function)。
在輸出層730中,Softmax神經元具有由Softmax函數定義的輸出關係。Softmax函數或正規化指數函數是對邏輯函數的概括,該邏輯函數將任意實數值的K維向量z壓縮為實數值的K維向量σ(z),其中每一進入值(entry)都位於範圍(0,1),並且所有進入值的總和為1。Softmax函數的輸出可用於表示分類分佈,亦即,在K個不同可能結果上的概率分佈。Softmax函數通常用於基於神經網路的分類器的最後一層。在第7圖中,W表示權重向量,b表示偏移參數。
為了實現合理的分類,在第一個隱藏層中應該分配至少10個神經元。如果使用更多隱藏層,則可以在附加隱藏層中使用任意數量的神經元。當有給定更多的計算資源,可以分配更多的神經元或層。在其隱藏層中提供足夠的神經元可以提高性能。還可以應用更複雜的網路(例如,卷積神經網路或遞歸神經網路)以實現更好的性能。只要在其隱藏層中有足夠的神經元,就可以很好地對向量進行分類。
在本發明的實施例中,遞歸神經網路(RNN)處理用於預測的序列數據。合適的RNN包括簡易遞歸神經網路(RNN)、門控遞歸單元(GRU),如第8圖所示;還包括長短期記憶神經網路(LSTM),如第9圖所示。GRU使用的張量運算少於LSTM。因此,GRU的訓練速度比LSTM快一些。另一方面,LSTM可以提供最大的可控制性,因此可以提供更好的結果,但同時也帶來更多的複雜性和操作成本。
第8圖描繪了GRU神經網路的單元800,其中xt是輸入,ht是輸出,ht-1是前一個輸出,並且雙曲正切函數(hyperbolic tanh function)被用作激活函數以幫助調節通過網路的數值(h~ t)。GRU單元具有一個重置閘門(reset gate)來決定要
忘記多少過去的信息(rt),以及一個更新閘門來決定要丟棄的信息(1-zt)和要添加的新信息(zt),其中重置係數(rt)和更新係數(zt)由Sigmoid激活(σ)確定。
第9圖描繪了LSTM神經網路的單元900,其中xt是輸入,ht是輸出,ht-1是前一輸出,Ct是單元狀態,Ct-1是前一個單元的狀態,Ct是由第一tanh函數激活的調節單元的狀態。LSTM單元具有三種不同的閘門來調節信息流程:一忘記(forget)閘門用以以決定應該丟棄或保留哪些信息(ft),一輸入閘門用以決定哪些信息對於從第一個tanh輸出(Ct)中保持(it)是重要,以及一輸出閘門用以決定隱藏狀態應從第二個tanh輸出(tanh Ct)攜帶哪些信息(ot),其中上述因素由Sigmoid激活(σ)確定。
第10圖描繪了根據本發明的各個實施例的順向訓練機制1000。在訓練階段1010中,訓練裝置將來源信號指定為原始內容,將感測輸出(即是上述感測信號)與從來源信號與感測信號所導出的特徵一起指定為信號脈絡(context),並且將記錄信號指定為期望的輸出,藉以訓練參數(W)。在部署階段1020中,具有經過訓練參數的訓練神經網路會根據原始內容和信號脈絡預測推斷信號(s)。可以通過將推斷信號(inferred signal)中減去來源信號來獲得失真(d)。最後,可以通過將來源信號和失真的反相相加來獲得調整後的信號u(也可稱為補償信號)。在第10圖中,反相相加以“-”運算符示出。
第11圖描繪了根據本發明的各個實施例的逆向訓練機制1100。在訓練階段1110中,訓練裝置接收記錄信號(作為內容)、感測輸出(即為上述感測信號)與其推導特徵(作為信號脈絡)、以及來源信號(作為期望的輸出),以作為訓練參數(W)。在部署階段1120中,受過訓練的神經網路會根據內容和信號脈絡(context)直接預測調整後的信號u。該機制將神經網路配置為在訓練階段根據記錄信號來推斷來源信號。由於最佳播放是來源信號,因此經過訓練的神經網路將推斷產生所需播放的調整後的信號。
第12圖繪示根據本發明的各個實施例的用於在揚聲器系統中播放聲音信號的方法的簡化流程圖。第3圖顯示一例示性揚聲器系統。如第3圖所示。揚聲器系統300包括處理器301、放大器305以及揚聲器308:處理器301用於接收來源信號v(313)並產生處理信號u(315)。放大器305用於放大處理信號u(315),以提供放大信號p(317)。揚聲器308用於接收放大信號p(317),並產生輸出信號q(321)。參考第3圖所示,方法1200包括以下步驟。在步驟1210,於訓練階段,訓練遞歸神經網路(RNN)以根據來源信號和輸出信號產生經過訓練之參數。方法1200還包括步驟1220,於部署階段中,使用具有訓練過的參數的RNN來補償來源信號以操作揚聲器系統。
在訓練階段,在步驟1210,該方法包括根據感測信號推導出感測相關特徵,使用一麥克風用以將揚聲器播放的聲音信號轉換為記錄信號,將來源信號轉換為第一頻域表示,將記錄信號轉換為第二頻域表示,並訓練RNN根據第一頻域表示,第二頻域表示以及從來源信號和感測信號得出的特徵來生成訓練後的參數。上述訓練階段的描述係搭配參考第3圖。上述神經網路的描述係搭配參考第7圖,上述RNN之範例的描述係搭配參考第8圖以及第9圖。
在部署階段,在步驟1220,該方法包括接收來源信號並感測上述放大信號,並根據感測信號推導出感測相關特徵,將來源信號轉換為可重構的頻域表示,部署訓練後的RNN使用訓練有素的參數,藉以根據從來源信號和感測信號得出的特徵,將可重構的頻域表示轉換為補償後的頻域表示,將補償後的頻域表示逆向轉換為補償後的來源信號,然後發送補償後的來源信號發送到放大器。上述部署階段的處理過程描述係搭配參考第3圖。
在一些實施例中,通過順向訓練方案來訓練遞歸神經網路,其中第一頻域表示被指定為輸入,而第二頻域表示被指定為期望的輸出,上述訓練處理之範例的描述可搭配參考第10圖。
在一些實施例中,可通過逆向訓練機制來訓練遞歸神經網路,其中第二頻域表示被指定為輸入,而第一頻域表示被指定為期望的輸出。上述訓練處理之範例的描述可搭配參考第11圖。
第13圖是示出根據本發明的可用於實現各種實施例的裝置的簡化方塊圖。第13圖僅是併入本公開的實施例的說明,而非為限制如申請專利範圍中所述的本發明範圍。本領域普通技術人員可認識到其他變化型、修改型和替代型。在一個實施例中,計算機系統1300通常包括一監視器1310、一計算機1320、一用戶輸出裝置1330、一用戶輸入裝置1340、以及通信介面1350等等。
第13圖繪示能夠體現本發明的計算機系統。例如,揚聲器系統300可以使用與系統1300相似的系統來實現。處理器301和神經網路訓練裝置333的功能可以由第13圖所示的一個或多個處理器來執行。揚聲器308、麥克風331和感測電路306可以是類似於第13圖所示之系統1300的系統中的周邊裝置。此外,可以在類似於第13圖所示的系統1300的系統中進行機器學習系統的離線訓練。
如第13圖所示,計算機1320可以包括經由匯流排子系統1390與多個周邊裝置進行通信的處理器1360。這些周邊裝置可以包括用戶輸出裝置1330、用戶輸入裝置1340、通信介面1350以及存儲子系統,例如作為隨機存取記憶體(RAM)1370和磁碟驅動器1380。
用戶輸入裝置1340可以包括用於向計算機系統1320輸入信息的所有可能類型的裝置和機構,這些裝置和機構可以包括鍵盤、小鍵盤(keypad)、結合在顯示器中的觸摸屏、音頻輸入裝置(例如語音識別系統、麥克風和其他類型的輸入設備)。在各種實施例中,用戶輸入裝置1340通常體現為計算機滑鼠、軌跡球、軌跡板、操縱桿、無線遙控器、繪圖板、語音命令系統、眼睛追踪系統等。用戶輸入裝置1340通常允許用戶通過諸如單擊按鈕之類的命令來選擇出現在監視器1310上的物件、圖標或文本等。
用戶輸出裝置1330包括用於從計算機1320輸出信息的所有可能類型的裝置和機制。這些裝置和機構可以包括顯示器(例如,監視器1310)、非可視顯示器(例如音頻輸出裝置)等。
通信介面1350提供到其他通信網路和裝置的介面。通信介面1350可以用作用於從其他系統接收數據以及向其他系統發送數據的介面。通信介面1350的實施通常包括以太網卡、數據機(電話、衛星、電纜或ISDN)、(異步)數位用戶線路(DSL)單元、FireWire介面、USB介面等。例如,通信介面1350可以耦合到計算機網路、FireWire匯流排等。在其他實施例中,通信介面1350可以實體地集成在計算機1320的主板上,並且可以是軟體程式,諸如軟體DSL等。
在各個實施例中,計算機系統1300還可包括軟體,其用以透過諸如超文本傳輸協議(HTTP)、傳輸控制協議和網路協議(TCP/IP)、即時串流協議和即時傳輸協議(RTSP/RTP)協議等在網路上進行通信。在本發明的其他實施例中,也可以使用其他通信軟體和傳輸協議,例如,互聯網封包交換(IPX)、或是用戶數據包協議(UDP)等。在一些實施例中,計算機1320包括一個或多個英特爾公司的Xeon微處理器作為處理器1360。此外,在一個實施例中,計算機1320包括基於UNIX的操作系統。處理器1360還可以包括專用處理器,例如數位信號處理器(DSP)和/或精簡指令集計算機(RISC)。
RAM 1370和磁碟驅動器1380是為存儲數據的有形存儲介質的示例,例如儲存本發明的實施例之數據,其可包括可執行計算機代碼、人類可讀代碼等。其他類型的有形存儲介質包括軟性磁碟、可移式硬碟,光學存儲介質(例如CD-ROM、DVD和條形碼)、半導體存儲器(例如快閃記憶體)、唯讀記憶體(ROMS),具有備用電池的揮發性記憶體、聯網的存儲裝置等。RAM 1370和磁碟驅動器1380可以被配置為存儲提供本發明的功能的基本編程和數據建構。
提供本發明功能的軟體代碼模組和指令可以存儲在RAM 1370和磁碟驅動器1380中。這些軟體模組可以由處理器1360執行。RAM 1370和磁碟驅動器1380還可以提供用於存儲本發明使用數據的存儲庫。
RAM 1370和磁碟驅動器1380可以包括多個記憶體,包括用於在程式執行期間存儲指令和數據的主隨機存取記憶體(RAM)和其中儲存有固定有非暫時性的唯讀記憶體(ROM)。RAM 1370和磁碟驅動器1380可以包括文件存儲子系統,其為程式和數據文件提供持久性(非易失性)存儲。RAM 1370和磁碟驅動器1380還可包括可移式存儲系統,例如可移式快閃記憶體。
匯流排子系統1390提供了一種機制,用於使計算機1320的各個組件和子系統相互通信。儘管匯流排子系統1390顯示為單一匯流排,但是在其他實施例中匯流排子系統可以利用多個匯流排。
第13圖繪示能夠體現本發明的計算機系統的例子。對於本領域的普通技術人員將顯而易見的是許多其他硬體和軟體配置可適用於本發明。例如,計算機可以是桌機式、可攜式、機架安裝式、或平板電腦。另外,計算機可以是多台聯網計算機。此外,可使用其他微處理器,例如AMD公司的PentiumTM或ItaniumTM微處理器、OpteronTM或AthlonXPTM微處理器等。此外,可使用其他類型的操作系統,例如微軟公司的Windows®、WindowsXP®、WindowsNT®等,Sun Microsystems公司的Solaris、LINUX、UNIX等。在其他實施例中,上述技術可以在晶片或輔助處理板上實現。
本發明的各種實施例可以用軟體,硬體或兩者的組合中的邏輯形式來實現。前述邏輯可以被存儲在計算機可讀或機器可讀的非暫時性存儲介質中,作為適於引導計算機系統的處理器執行一組指令,以進行在本發明的實施例中公開的一組步驟。該邏輯可以形成計算機程式產品的一部分,該計算機程式產品適於指導信息處理裝置執行本發明的實施例中公開的一組步驟。基於本
文提供的公開內容和教示,本領域普通技術人員將理解實現本發明內容的其他方式和/或方法。
本文描述的數據結構和代碼可以部分或全部存儲在計算機上計算機可讀存儲介質和/或硬體模組和/或硬件裝置。計算機可讀存儲介質包括但不限於揮發性記憶體、非揮發性記憶單元、磁性和光存儲裝置,例如磁碟驅動器、磁帶、CD(光碟)、DVD(數位影音光盤)或其他現在已知或以後開發的能夠存儲代碼和/或數據的介質。本文所述的硬體模組或裝置包括但不限於特殊應用積體電路(ASIC)、現場可程式邏輯閘陣列(FPGA)、專用或共享處理器,和/或現在已知或以後開發的其他硬體模組或裝置。
本文描述的方法和過程可以部分或完全體現為存儲在計算機可讀存儲介質或設備中的代碼和/或數據,從而當計算機系統讀取並執行代碼和/或數據時,計算機系統執行相關的方法和過程。該方法和過程還可以部分地或完全地體現在硬體模組或裝置中,使得當硬體模組或裝置啟動時,它們執行相關聯的方法和過程。可以使用代碼,數據和硬體模組或裝置的組合來體現本發明公開的方法和過程。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。
300:揚聲器系統
301:處理器
302:遞歸神經網路
304:放大器
306:感測電路
308:揚聲器
312:感測信號
313:來源信號
315:調整後的來源信號
317:放大信號
321:聲音信號
331:麥克風
332:記錄信號
333:神經網路訓練裝置
335、337:延遲裝置
Claims (18)
- 一種揚聲器系統,包含:一揚聲器,用以根據一放大信號來播放一聲音信號以產生一輸出信號;一放大器,連接至該揚聲器,該放大器用以:接收一經調整之來源信號(justified source signal);根據該經調整之來源信號以產生該放大信號;以及傳送該放大信號至該揚聲器;一感測電路,連接至該放大信號,該感測電路用以:測量該放大信號之一電壓以及一電流;以及產生一感測信號,該感測信號包含該測量的電壓以及該測量的電流;以及一處理器,用以接收一來源信號以及產生一處理信號,且在一部署階段:接收該來源信號以及該感測信號,其中該感測信號係透過感測該放大信號所得;根據該感測信號推導出感測相關特徵(sensing-related feature);將該來源信號轉換至一可重建頻域表示(reconstructable frequency domain representation);根據該來源信號,推導出來源信號相關特徵(source-signal-related features); 部署一經過訓練的遞歸神經網路(RNN)及一經過訓練之參數,用以根據該感測相關特徵以及該來源信號相關特徵,將該可重建頻域表示轉換成一經調整之頻域表示(justified frequency domain representation);將該經調整之頻域表示逆向轉換至該經調整之來源信號;以及傳送該經調整之來源信號至該放大器,其中該經過調整之來源信號係為該處理信號;其中該遞歸神經網路係根據該來源信號以及該輸出信號進行訓練以產生該經過訓練之參數。
- 如申請專利範圍第1項所述之揚聲器系統,其中該感測相關特徵包含阻抗、電導、微分阻抗、微分電導、瞬時功率以及均方根功率。
- 如申請專利範圍第1項所述之揚聲器系統,其中該可重建頻域表示係選自傅立葉轉換(FFT)、離散傅立葉轉換(DFT)、修正型離散餘弦轉換(MDCT)、修正型離散正弦轉換(MDST)、常數Q轉換(CQT)、以及變數Q轉換(VQT),其中該變數Q轉換根據等效矩形頻寬(ERB)或是Bark尺度使用濾波聲道分布。
- 如申請專利範圍第1項所述之揚聲器系統,其中該來源信號相關特徵包含梅爾頻率倒譜係數(MFCC)、感知線性預測(PLP)、頻譜質心、頻譜通量、頻譜衰減、過零率、峰值頻率、波峰因素、能量熵、平均幅度、均方根數值、偏度、峰度以及最大幅度中的至少一個。
- 如申請專利範圍第1項所述之揚聲器系統,其中該遞歸神經網路係一閘門遞歸單元(GRU)。
- 如申請專利範圍第1項所述之揚聲器系統,其中該遞歸神經網路係一長短期記憶網路(LSTM)。
- 如申請專利範圍第1項所述之揚聲器系統,其中該遞歸神經網路包含一記憶體元件,其儲存該遞歸神經網路之複數個參數。
- 如申請專利範圍第7項所述之揚聲器系統,其中該遞歸神經網路係以一設備進行訓練,該設備包含:一麥克風,用以將該揚聲器播放之該聲音信號轉換至一記錄信號;一第一延遲裝置,用以同步該來源信號與該記錄信號;一第二延遲裝置,用以同步該感測信號與該記錄信號;以及一神經網路訓練裝置,用以:接收該來源信號以及該感測信號;根據該感測信號推導出該感測相關特徵;將該來源信號轉換成一第一頻域表示;根據該來源信號推導該來源信號相關特徵;將該記錄信號轉換成一第二頻域表示;以及根據該第一頻域表示、該第二頻域表示、該來源信號相關特徵以及該感測相關特徵,訓練該遞歸神經網路之該複數個參數; 其中在訓練階段之期間中該經過訓練的遞歸神經網路係被繞過,而該經調整之來源信號係為該來源信號。
- 如申請專利範圍第8項所述之揚聲器系統,其中該遞歸神經網路係藉由一順向訓練機制進行訓練,在該順向訓練機制中該第一頻域表示係指定作為輸入,而該第二頻域表示係指定作為所需輸出。
- 如申請專利範圍第8項所述之揚聲器系統,其中該遞歸神經網路係藉由一逆向訓練機制進行訓練,在該逆向訓練機制中,該第二頻域表示係指定作為輸入,而該第一頻域表示係指定作為所需輸出。
- 一種揚聲器系統,包含:一處理器,用以接收一來源信號以及產生一處理信號;一放大器,用以放大該處理信號以提供一放大信號;以及一揚聲器,用以接收該放大信號以及產生一輸出信號;其中在一部署階段,該處理器使用一具有經過訓練之參數的遞歸神經網路(RNN)對該來源信號進行補償以產生該處理信號,其中該遞歸神經網路係根據該來源信號以及該輸出信號進行訓練以產生該經過訓練之參數;其中在該部署階段,接收該來源信號以及一感測信號,其中該感測信號係透過感測該放大信號所得;根據該感測信號推導出該感測相關特徵;將該來源信號轉換成一可重建頻域表示; 根據該來源信號,推導出來源信號相關特徵;部署該經過訓練之遞歸神經網路與該經過訓練之參數,用以根據該感測相關特徵以及該來源信號相關特徵,將該可重建頻域表示轉換成一經過補償之頻域表示;將該經過補償之頻域表示逆向轉換成一經過補償之來源信號;以及傳送該經過補償之來源信號至該放大器,其中該經過補償之來源信號係為該處理信號。
- 如申請專利範圍第11項所述之揚聲器系統,更包含:在一訓練階段,感測該放大信號,以產生一感測信號;根據該感測信號,推導出感測相關特徵;使用一麥克風將該揚聲器播放之該輸出信號轉換成一記錄信號;將該來源信號轉換成一第一頻域表示;根據該來源信號,推導出來源信號相關特徵;將該記錄信號轉換成一第二頻域表示;以及根據該第一頻域表示、該第二頻域表示、該來源信號相關特徵以及該感測相關特徵信號,訓練該RNN以產生該經過訓練之參數。
- 如申請專利範圍第12項所述之揚聲器系統,其中該遞歸神經網路係藉由一順向訓練機制進行訓練,在該順向訓練機制中該第一頻域表示係指定作為輸入,而該第二頻域表示係指 定作為所需輸出。
- 如申請專利範圍第12項所述之揚聲器系統,其中該遞歸神經網路係藉由一逆向訓練機制進行訓練,在該逆向訓練機制中,該第二頻域表示係指定作為輸入而該第一頻域表示係指定作為所需輸出。
- 一種補償方法,適用於一揚聲器系統,該揚聲器系統包含一處理器、一放大器以及一揚聲器,該處理器用以接收一來源信號以及產生一處理信號,該放大器用以放大該處理信號以提供一放大信號,該揚聲器用以接收該放大信號並產生一輸出信號,該方法包含:在一訓練階段,根據該來源信號以及該輸出信號訓練一遞歸神經網路(RNN),以產生經過訓練之參數;以及在一部署階段,使用該RNN與該經過訓練之參數對該來源信號進行補償,以產生該處理信號;在該部署階段,接收該來源信號以及該感測信號;根據感測信號,推導出感測相關特徵;將該來源信號轉換成一可重建頻域表示;根據該來源信號,推導出來源信號相關特徵;部署該經過訓練之RNN與該經過訓練之參數,用以根據該感測相關特徵以及該來源信號相關特徵,將該可重建頻域表示轉換成一經過補償之頻域表示;將該經過補償之頻域表示逆向轉換成一經過補償之來源信 號;以及傳送該經過補償之來源信號至該放大器,其中該經過補償之來源信號係為該處理信號。
- 如申請專利範圍第15項所述之補償方法,更包含:在該訓練階段,使用一麥克風將該揚聲器播放之該輸出信號轉換成一記錄信號;感測該放大信號,以產生一感測信號;將該來源信號轉換成一第一頻域表示;將該記錄信號轉換成一第二頻域表示;以及根據該第一頻域表示、該第二頻域表示、以及從該來源信號以及該感測信號得出之特徵,訓練該RNN以產生經過訓練之參數。
- 如申請專利範圍第16項所述之補償方法,其中該遞歸神經網路係藉由一順向訓練機制進行訓練,在該順向訓練機制中該第一頻域表示係指定作為輸入,而該第二頻域表示係指定作為所需輸出。
- 如申請專利範圍第16項所述之補償方法,其中該遞歸神經網路係藉由一逆向訓練機制進行訓練,在該逆向訓練機制中,該第二頻域表示係指定作為輸入而該第一頻域表示係指定作為所需輸出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/137,260 | 2020-12-29 | ||
US17/137,260 US11622194B2 (en) | 2020-12-29 | 2020-12-29 | Deep learning speaker compensation |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202226227A TW202226227A (zh) | 2022-07-01 |
TWI811771B true TWI811771B (zh) | 2023-08-11 |
Family
ID=82118095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110131359A TWI811771B (zh) | 2020-12-29 | 2021-08-24 | 揚聲器系統及其補償方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11622194B2 (zh) |
KR (1) | KR102560273B1 (zh) |
CN (1) | CN114697813A (zh) |
TW (1) | TWI811771B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831147B (zh) * | 2022-10-20 | 2024-02-02 | 广州优谷信息技术有限公司 | 基于音频补偿的朗读检测方法、系统、装置及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105103568A (zh) * | 2012-09-24 | 2015-11-25 | Actiwave公司 | 扬声器的控制和保护 |
CN105812990A (zh) * | 2015-01-19 | 2016-07-27 | 德州仪器公司 | 用于声分析的工作循环式麦克风/传感器 |
US20170006394A1 (en) * | 2014-03-19 | 2017-01-05 | Cirrus Logic International Semiconductor Ltd. | Non-linear control of loudspeakers |
JP6258061B2 (ja) * | 2014-02-17 | 2018-01-10 | クラリオン株式会社 | 音響処理装置、音響処理方法及び音響処理プログラム |
TW201810254A (zh) * | 2016-03-30 | 2018-03-16 | 光吉俊二 | 意思創發裝置、意思創發方法及意思創發程式 |
US20180300651A1 (en) * | 2017-04-17 | 2018-10-18 | Facebook, Inc. | Neural network model for generation of compressed haptic actuator signal from audio input |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110326308A (zh) * | 2016-10-21 | 2019-10-11 | Dts公司 | 失真感测、防失真、以及失真察觉低音增强 |
CN110610719A (zh) * | 2018-06-14 | 2019-12-24 | 奥迪康有限公司 | 声音处理设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7593535B2 (en) * | 2006-08-01 | 2009-09-22 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
US8300837B2 (en) * | 2006-10-18 | 2012-10-30 | Dts, Inc. | System and method for compensating memoryless non-linear distortion of an audio transducer |
US8194869B2 (en) * | 2010-03-17 | 2012-06-05 | Harman International Industries, Incorporated | Audio power management system |
WO2013182901A1 (en) * | 2012-06-07 | 2013-12-12 | Actiwave Ab | Non-linear control of loudspeakers |
GB2594648B (en) * | 2015-05-22 | 2022-04-20 | Cirrus Logic Int Semiconductor Ltd | Adaptive receiver |
US10127921B2 (en) * | 2016-10-31 | 2018-11-13 | Harman International Industries, Incorporated | Adaptive correction of loudspeaker using recurrent neural network |
-
2020
- 2020-12-29 US US17/137,260 patent/US11622194B2/en active Active
-
2021
- 2021-08-24 TW TW110131359A patent/TWI811771B/zh active
- 2021-11-03 CN CN202111293120.1A patent/CN114697813A/zh active Pending
- 2021-12-09 KR KR1020210175817A patent/KR102560273B1/ko active IP Right Grant
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105103568A (zh) * | 2012-09-24 | 2015-11-25 | Actiwave公司 | 扬声器的控制和保护 |
JP6258061B2 (ja) * | 2014-02-17 | 2018-01-10 | クラリオン株式会社 | 音響処理装置、音響処理方法及び音響処理プログラム |
US20170006394A1 (en) * | 2014-03-19 | 2017-01-05 | Cirrus Logic International Semiconductor Ltd. | Non-linear control of loudspeakers |
CN105812990A (zh) * | 2015-01-19 | 2016-07-27 | 德州仪器公司 | 用于声分析的工作循环式麦克风/传感器 |
TW201810254A (zh) * | 2016-03-30 | 2018-03-16 | 光吉俊二 | 意思創發裝置、意思創發方法及意思創發程式 |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110326308A (zh) * | 2016-10-21 | 2019-10-11 | Dts公司 | 失真感测、防失真、以及失真察觉低音增强 |
US20180300651A1 (en) * | 2017-04-17 | 2018-10-18 | Facebook, Inc. | Neural network model for generation of compressed haptic actuator signal from audio input |
CN110610719A (zh) * | 2018-06-14 | 2019-12-24 | 奥迪康有限公司 | 声音处理设备 |
Also Published As
Publication number | Publication date |
---|---|
KR102560273B1 (ko) | 2023-07-27 |
KR20220095118A (ko) | 2022-07-06 |
US20220210555A1 (en) | 2022-06-30 |
US11622194B2 (en) | 2023-04-04 |
TW202226227A (zh) | 2022-07-01 |
CN114697813A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI722349B (zh) | 語音活動偵測系統 | |
US11482235B2 (en) | Speech enhancement method and system | |
Wright et al. | Perceptual loss function for neural modeling of audio systems | |
JP2005275410A (ja) | ニューラルネットワークを利用してスピーチ信号を分離する。 | |
TWI811771B (zh) | 揚聲器系統及其補償方法 | |
US8223979B2 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise | |
Shankar et al. | Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids | |
US20230119557A1 (en) | Neural modeler of audio systems | |
EP3025516A1 (en) | Automatic timbre, loudness and equalization control | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
TW202135047A (zh) | 電子裝置、方法和電腦程式 | |
TWI819478B (zh) | 具端至端神經網路之聽力裝置及音訊處理方法 | |
US11705109B2 (en) | Detection of live speech | |
JP6925995B2 (ja) | 信号処理装置、音声強調装置、信号処理方法およびプログラム | |
Shankar et al. | Real-time single-channel deep neural network-based speech enhancement on edge devices | |
CN114333874A (zh) | 处理音频信号的方法 | |
TWI836528B (zh) | 信號發射系統、信號處理系統及其方法 | |
Tammen et al. | Dictionary-Based Fusion of Contact and Acoustic Microphones for Wind Noise Reduction | |
TWI758855B (zh) | 基於使用高頻相位差的延遲分佈模型的聲音訊號處理系統及方法 | |
JP2006126841A (ja) | 周期信号増強システム | |
CN113542983B (zh) | 一种音频信号处理方法、装置、设备及存储介质 | |
CN116682453B (zh) | 语音处理方法、装置、设备及计算机可读存储介质 | |
US20230215450A1 (en) | Automatic noise gating | |
WO2022215199A1 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
TW202325045A (zh) | 信號發射系統、信號處理系統及其方法 |