TWI819478B - 具端至端神經網路之聽力裝置及音訊處理方法 - Google Patents
具端至端神經網路之聽力裝置及音訊處理方法 Download PDFInfo
- Publication number
- TWI819478B TWI819478B TW111103346A TW111103346A TWI819478B TW I819478 B TWI819478 B TW I819478B TW 111103346 A TW111103346 A TW 111103346A TW 111103346 A TW111103346 A TW 111103346A TW I819478 B TWI819478 B TW I819478B
- Authority
- TW
- Taiwan
- Prior art keywords
- neural network
- audio signal
- generate
- main
- representation
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 64
- 238000003672 processing method Methods 0.000 title claims description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012805 post-processing Methods 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 19
- 230000001629 suppression Effects 0.000 claims description 17
- 230000003321 amplification Effects 0.000 claims description 12
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims 1
- MJPPGVVIDGQOQT-UHFFFAOYSA-N 2-bromo-5-(2-bromo-2-nitroethenyl)furan Chemical compound [O-][N+](=O)C(Br)=CC1=CC=C(Br)O1 MJPPGVVIDGQOQT-UHFFFAOYSA-N 0.000 description 20
- 238000012549 training Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000007781 pre-processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/45—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback
- H04R25/453—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback electronically
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/35—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
- H04R25/353—Frequency, e.g. frequency shift or compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/405—Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/407—Circuits for combining signals of a plurality of transducers
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereo-Broadcasting Methods (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
本發明揭露一種聽力裝置,包含:一主要麥克風、M個輔助麥克風、一轉換電路、一處理器、一儲存媒體以及一後處理電路。轉換電路,分別將來自上述麥克風的主要音訊訊號以及M個輔助音訊訊號的目前音框中的第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式。上述記憶體包含多個指令供該處理器執行一組操作,包含:利用一端對端神經網路,對該些第一取樣值進行主動降噪(ANC),以產生多個第二取樣值;以及,利用該端對端神經網路,對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作,以產生一補償遮罩。該後處理電路以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式,以及,根據該些第二取樣值以及該補償後頻譜代表式,產生一輸出音訊訊號。
Description
本發明係有關於聽力裝置,特別地,尤有關於一種具端至端神經網路之聽力裝置,可藉由進行主動降噪(active noise cancellation,ANC)及音訊處理來降低梳狀濾波效應(comb-filtering effect)。
一般人很難適應助聽器。實際狀況是無論助聽器的性能有多好,聽起來永遠像一個助聽器。一個重要原因是梳狀濾波效應,產生的原因是因為助聽器中的數位訊號處理,會使被放大的聲音相對於洩漏途徑聲音(或直接聲音)產生延遲,其中該洩漏途徑聲音係透過排放至耳朵頂端以及耳朵頂端周圍的洩漏而進入耳朵。上述延遲是因為助聽器需要一段時間用來:(1)取樣及轉換一類比音訊訊號為一數位音訊訊號;(2)進行數位訊號處理;(3)將處理過的訊號轉換成一類比音訊訊號,以傳送給助聽器的揚聲器。先前的實驗顯示即使大約2毫秒(milliseconds,ms)的延遲都會造成梳狀濾波效應,但是小於0.5ms的延遲就不會。當一個人配戴一助聽器且聆聽周遭聲音(如語音及背景噪音)時,所感知到的上述延遲如同回音(echo)或混響(reverberation)一般。上述梳狀濾波效應會大幅降低聲音品質。
如業界所熟知的,透過進行主動降噪可以去除上述洩漏途徑的聲音(或直接聲音),在去除上述直接聲音後,即可減少梳狀濾波效應。美國公開第20200221236A號專利文獻揭露一種具獨立ANC電路的聽力裝置,用以消除上述洩漏途徑的聲音。理論上,ANC電路可運作於時域或頻域。一般來說,因為ANC電路的訊號處理延遲被要求須小於50微秒(
s),故助聽器中的ANC電路通常會包含一個或更多的時域濾波器。對於運作於頻域的ANC電路而言,短時距傅立葉轉換(short-time Fourier Transform,STFT)以及逆短時距傅立葉轉換(inverse STFT)的處理時間就占用了上述ANC電路的訊號處理延遲的5到50ms,其中包含了ANC電路發揮作用的時間。然而,目前大部分最先進的音訊演算法都是在頻域中操作音訊訊號,以進行進階音訊訊號處理。
因此,業界亟需一種聽力裝置,可整合時域以及頻域音訊訊號處理、降低梳狀濾波效應、進行ANC及進階音訊訊號處理操作,以改善音訊品質。
有鑒於上述問題,本發明的目的之一是提供一種聽力裝置,可整合時域以及頻域音訊訊號處理,以改善音訊品質。
根據本發明之一實施例,係提供一種聽力裝置,包含:一主要麥克風、M個輔助麥克風、一轉換電路、至少一處理器、至少一儲存媒體以及一後處理電路。該主要麥克風以及M個輔助麥克風,分別產生一主要音訊訊號以及M個輔助音訊訊號。該轉換電路,分別將該主要音訊訊號以及該M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式。該至少一儲存媒體,包含多個指令供該至少一處理器執行,以進行一組操作,包含:利用一端對端神經網路,對該些第一取樣值進行主動降噪(ANC)操作,以產生多個第二取樣值;以及,利用該端對端神經網路,對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作,以產生一補償遮罩。該後處理電路,以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式,以及,根據該些第二取樣值以及該補償後頻譜代表式,產生一輸出音訊訊號,其中M>=0。
本發明之另一實施例,係提供一種音訊處理方法,適用於一聽力裝置,該方法包含:分別將一主要音訊訊號以及M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式,其中該主要音訊訊號以及該M個輔助音訊訊號係分別來自該聽力裝置的一主要麥克風以及M個輔助麥克風;利用一端對端神經網路,對該些第一取樣值進行主動降噪(ANC)操作,以產生多個第二取樣值;利用該端對端神經網路,對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作,以產生一補償遮罩;以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式;以及,根據該些第二取樣值以及該補償後頻譜代表式,得到一輸出音訊訊號,其中M>=0。
茲配合下列圖示、實施例之詳細說明及申請專利範圍,將上述及本發明之其他目的與優點詳述於後。
在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語,都同時包含單數及複數的涵義,除非本說明書中另有特別指明。在通篇說明書及後續的請求項當中所提及的相關用語定義如下,除非本說明書中另有特別指明。在通篇說明書中,具相同功能的電路元件使用相同的參考符號。
本發明的特色之一是利用一端對端神經網路(end-to-end neural network),來同時進行ANC與進階音訊訊號處理操作,例如:噪音抑制、聲學回授消除(acoustic feedback cancellation,AFC)以及聲音放大等等。本發明的另一個特色以上述端對端神經網路接收來自各麥克風的一時域音訊訊號以及一頻域音訊訊號,以同時得到時域訊號處理之優點(即極低的系統延遲)以及頻域訊號處理之優點(即較佳的頻率分析)。相較於傳統ANC技術對低頻(介於50至1000赫茲)聲音特別有效,本發明端對端神經網路可同時降低低頻及高頻噪音成分。
圖1顯示本發明聽力裝置之一示意圖。參考圖1,本發明聽力裝置100包含Q個麥克風11~1Q、一前處理單元120、一端對端神經網路130、一後處理單元150以及一輸出電路160,其中Q>=1。該聽力裝置100可以是以下類型的助聽器,耳背型(behind-the-ear,BTE)、耳道型(in-the-canal,ITC)、耳內型(in-the-ear,ITE)、或深耳道型(completely-in-the-canal,CIC)。
主要麥克風11係設在耳朵外側,用來收集周遭聲音以產生一主要音訊訊號au-1。若Q>1,至少一輔助麥克風12~1Q產生至少一輔助音訊訊號au-2~au-Q。該前處理單元120用來接收Q個音訊訊號au-1~au-Q,以產生Q個時域數位音訊訊號s
1[n]~s
Q[n]的目前音框i的音訊資料以及Q個目前頻譜代表式F1(i)~FQ(i) (係對應至該Q個時域數位音訊訊號s
1[n]~s
Q[n]的目前音框i的音訊資料),其中,n代表離散時間索引,而i代表該Q個時域數位音訊訊號s
1[n]~s
Q[n]的音框索引。端對端神經網路130接收輸入參數、該Q個目前頻譜代表式F1(i)~FQ(i)以及該Q個時域數位音訊訊號s
1[n]~s
Q[n]的目前音框i的音訊資料、執行ANC、AFC、噪音抑制以及聲音放大操作,以產生一頻域補償遮罩串流(mask stream) G
1(i)~G
N(i)以及一時域數位資料串流u[n]的目前音框i的音訊資料。該後處理單元150接收該頻域補償遮罩串流G
1(i)~G
N(i)以及該時域數位資料串流u[n]的目前音框i的音訊資料,以產生一時域數位音訊訊號y[n]的目前音框i的音訊資料,其中, N代表快速傅立葉轉換(fast fourier transform,FFT)的尺寸/大小。最後,該輸出電路160將該數位音訊訊號y[n]轉換成一聲音壓力訊號以播放於使用者的耳道。該輸出電路160包含一數位類比轉換器(DAC)161、一放大器162以及一揚聲器163。
圖2係根據本發明一實施例,顯示前處理單元120之示意圖。參考圖2,若該Q個麥克風11~1Q的輸出是類比音訊訊號,則前處理單元120包含Q個類比數位轉換器(ADC)121、Q個STFT部122以及Q個並行至串列轉換器(parallel to serial converter,PSC)123;若該Q個麥克風11~1Q的輸出是數位音訊訊號,則前處理單元120僅包含Q個STFT部122以及Q個PSC 123。因此,該些ADC 121並非必須,並在圖2中以虛線顯示。該些ADC 121分別將Q個類比音訊訊號au-1~au-Q轉換為Q個數位音訊訊號s
1[n]~s
Q[n]。各STFT部122先利用一滑動窗(sliding window),沿著時間軸,將數位音訊訊號s
j[n]分成多個音框,致使各音框間互相重疊以減少邊界的偽像(artifact),之後,以FFT將時域各音框的音訊資料轉換成頻域的複數值(complex-valued)資料。假設各音框的取樣點數(或FFT尺寸)等於N、各音框的持續時間等於Td且各音框以Td/2的時間彼此重疊,各STFT部122分別將音訊訊號s
j[n]分割成多個音框,並計算對應音訊訊號s
j[n]的目前音框i內音訊資料的FFT以產生具有N個複數值取樣點(F
1,j(i)~F
N,j(i))及頻率解析度等於fs/N(=1/Td)的目前頻譜代表式(spectral representation) Fj(i),其中,1<=j<=Q,fs表示音訊訊號s
j[n]的取樣頻率且各音框對應至音訊訊號s
j[n]的不同時間區段。一較佳實施例中,各音框的持續時間Td大約32毫秒。然而,上述持續時間Td僅是示例,而非本發明之限制,實際實施時,也能使用其他的持續時間。最後,各PSC123將對應的N個平行的複數值取樣點(F
1,j(i)~F
N,j(i))轉換成一個序列取樣點串流,起始於F
1,j(i),終止於F
N,j(i)。請注意,從前處理單元120輸出的2*Q個資料串流((F1(i)~FQ(i))及s
1[n]~s
Q[n])之間彼此同步,以致於該2*Q個資料串流((F1(i)~FQ(i))及s
1[n]~s
Q[n])的各行的2*Q個成分(例如: 位在同一行的2*Q個成分F
1,1(i), s
1[1],…, F
1,Q(i), s
Q[1])之間彼此對齊,同時被送到該端對端神經網路130。
該前處理單元120、該端對端神經網路130以及該後處理單元150之任一皆可由軟體、硬體、韌體、或其組合來實施。一實施例中,該前處理單元120、該端對端神經網路130以及該後處理單元150係以至少一處理器及至少一儲存媒體(圖未示)來實施;該至少一儲存媒體儲存多個指令/程式碼供該至少一處理器執行,致使該至少一處理器被組態以運作有如:該前處理單元120、該端對端神經網路130以及該後處理單元150。另一實施例中,僅該端對端神經網路130以至少一處理器及至少一儲存媒體(圖未示)來實施;該至少一儲存媒體儲存多個指令/程式碼供該至少一處理器執行,致使該至少一處理器被組態以運作有如:該端對端神經網路130。
該端對端神經網路130可以是一深度神經網路(deep neural network,DNN)、一循環神經網路(recurrent neural network,RNN)、一卷積神經網路(convolutional neural network,CNN)、一時延神經網路(time delay neural network,TDNN)或其組合。和監督式學習(supervised learning)有關的各種不同機器學習技術都可用來訓練該端對端神經網路130的模組(以下簡稱”模組130”)。用來訓練該端對端神經網路130的監督式學習技術包含,但不受限於,隨機梯度下降法(stochastic gradient descent ,SGD)。在監督式學習領域中,本發明利用四組附標籤的訓練樣本(將於稍後說明)來建立一個函數f(即模組130),且各附標籤的訓練樣本包含一輸入特徵向量及一附標籤輸出。該端對端神經網路130利用上述四組附標籤的訓練樣本來學習或估測該函數f(即模組130),再利用反向傳播(backpropagation)演算法及代價函數(cost function)來更新模組的權值。反向傳播演算法重複地計算該代價函數相對於各權值及偏移量(bias)的梯度(gradient),再以相反於該梯度的方向更新權值及偏移量,以找出一局部最小值。該端對端神經網路130學習的目標是在給定上述四組附標籤的訓練樣本的情況下,最小化該代價函數。
圖3係根據本發明一實施例,顯示端對端神經網路130之示意圖。一較佳實施例中,參考圖3,端對端神經網路130包含一TDNN131、一頻域長短期記憶(frequency-domain long short term memory,FD-LSTM)網路132以及一時域長短期記憶(TD-LSTM)網路133。在本實施例中,具有”平移不變(shift invariance)”特性的TDNN 131是用來處理時間序列資料,”平移不變”的重要性在於避免了語音訊號的自動分段會被使用的平移時間窗階層(layers of shifting time-window)所分辨的困境。由於一時間序列中的重要事件之間有未知的期間延遲(lag),因為LSTM 網路132~133具有回授連結,故非常適合根據時間序列資料來處理及進行預測。另外,TDNN131可擷取出短期(例如:小於100ms)音訊特色,例如:幅值(magnitude)、相位、音高(pitch)、或非穩定(non-stationary)聲音,至於LSTM網路132~133則可擷取出長期(例如: 從100ms到3秒的範圍內)音訊特色,例如:場景,以及與場景相關的聲音。須注意的是,上述實施例(TDNN131搭配二個LSTM 網路132~133)僅是示例,而非本發明之限制,實際實施時,也能以其他類型的網路來實施,此亦落入本發明的申請專利範圍。
根據輸入參數,端對端神經網路130平行接收該Q個目前頻譜代表式F1(i)~FQ(i)以及該Q個時域數位音訊訊號s
1[n]~s
Q[n]的目前音框i的音訊資料、進行ANC與進階音訊訊號處理以及產生對應N個頻帶的一頻域補償遮罩串流(包含N個遮罩值G
1(i)~G
N(i))以及一時域輸出取樣點串流u[n]。上述進階音訊訊號處理包含,但不受限於,噪音抑制、AFC、聲音放大、保留警示音、環境分類、到達方向及波束成形(direction of arrival and beamforming)、放大特定談話者的語音(speech separation)以及配戴偵測(wearing detection)。為清楚及方便描述,以下的例子及實施例皆以該進階音訊訊號處理僅包含噪音抑制、AFC以及聲音放大來做說明,應理解的是本發明端對端神經網路130的實施例不以此為限,亦可適用於其他類型的音訊處理,例如保留警示音、環境分類、到達方向及波束成形、放大特定談話者的語音以及配戴偵測等等。
對於聲音放大功能,端對端神經網路130的輸入參數包含,但不受限於,幅值增益、訊號z[n](逆STFT部154的輸出)的最大輸出功率值、對應上述N個遮罩值G
1(i)~G
N(i)的一組N個修正增益g
1~g
N,其中,該N個修正增益g
1~g
N係用來修正該N個遮罩值G
1(i)~G
N(i)的波形。對於噪音抑制、AFC及ANC功能,端對端神經網路130的輸入參數包含,但不受限於,抑制的強度或等級。對於噪音抑制功能,可藉由添加各種噪音至乾淨的語音資料,以人工方式來建立第一組附標籤的訓練樣本的輸入資料,而上述第一組附標籤的訓練樣本中各樣本的實際值(ground truth)(或附標籤輸出)則需要對應的乾淨語音資料之頻域補償遮罩串流(包含N個遮罩值G
1(i)~G
N(i))。對於聲音放大功能,第二組附標籤的訓練樣本的輸入資料為微弱的語音資料,而上述第二組附標籤的訓練樣本中各樣本的實際值等於,基於對應輸入參數(包含一對應幅值增益、訊號z[n]的對應最大輸出功率值、對應的一組N個修正增益g
1~g
N)而對應放大的語音資料之頻域補償遮罩串流(包含N個遮罩值G
1(i)~G
N(i))。對於AFC功能,可藉由添加各種回授干擾資料至乾淨的語音資料,以人工方式來建立第三組附標籤的訓練樣本的輸入資料,而上述第三組附標籤的訓練樣本中各樣本的實際值則需要對應的乾淨語音資料之頻域補償遮罩串流(包含N個遮罩值G
1(i)~G
N(i))。對於ANC功能,可藉由添加直接聲音(或洩漏途徑聲音)資料至乾淨的語音資料,以人工方式來建立第四組附標籤的訓練樣本的輸入資料,而上述第四組附標籤的訓練樣本中各樣本的實際值則需要對應乾淨語音資料之時域去噪音音訊資料u[n]的N個取樣值。對於語音資料,需收集大範圍的人類語音,例如不同性別、不同年齡、不同種族及不同語系等等。對於噪音資料,則收集不同噪音源,例如市場、電腦風扇、群眾、汽車、飛機、工地等等。對於回授干擾資料,則收集該揚聲器163及麥克風11~11Q之間不同耦合程度的干擾資料。對於直接聲音資料,則需大範圍的收集不同使用者從該聽力裝置的輸入端至使用者耳膜的聲音。以人工方式建立輸入資料的過程中,係以不同強度的噪音資料、回授干擾資料及各直接聲音資料來分別混和乾淨的語音資料,使上述四組附標籤的訓練樣本的輸入資料具有大範圍的SNR。
一訓練階段(training phase)中,利用上述第一組至第三組附標籤的訓練樣本以共同/聯合訓練TDNN 131及FD-LSTM 網路132,且各附標籤的訓練樣本被標註(labeled as)一對應的頻域補償遮罩串流(包含N個遮罩值G
1(i)~G
N(i));以及,利用上述第四組附標籤的訓練樣本以共同/聯合訓練TDNN 131及TD-LSTM 網路133,且各附標籤的訓練樣本被標註N個對應的音訊取樣值。在該訓練階段結束時,受訓過的TDNN 131及FD-LSTM 網路132即可處理新的且未附標籤的音訊資料,例如音訊特徵向量,來產生對應N個頻帶的N個遮罩值G
1(i)~G
N(i);而受訓過的TDNN 131及TD-LSTM 網路133即可處理新的且未附標籤的音訊資料,例如音訊特徵向量,來產生訊號u[n]的目前音框i的N個對應時域音訊取樣值。一實施例中,該N個遮罩值G
1(i)~G
N(i)為對應目前頻譜代表式(F1(i)~FQ(i))內N個頻帶的N個頻帶增益值(數值範圍在Th1及Th2之間;且Th1<Th2)。因此,任何頻帶增益值G
k(i)越接近Th1,表示存在於頻帶k中的訊號是噪音主導(noise-dominant);反之,任何頻帶增益值G
k(i)越接近Th2,表示存在於頻帶k中的訊號是語音主導(speech-dominant)。在端對端神經網路130完成訓練後,頻帶k的SNR值越高,則頻域補償遮罩串流中的頻帶增益值G
k(i)也越大。
簡言之,時域訊號s
1[n]~s
Q[n]進入該端對端神經網路130至該端對端神經網路130產生時域訊號u[n]的低時間延遲充分滿足ANC的要求(小於50微秒)。此外,端對端神經網路130於頻域中處理上述目前頻譜代表式F1(i)~FQ(i),以達到抑制噪音、AFC及放大聲音的目的,故可大幅改善音訊品質。因此,本發明端對端神經網路130的架構,借助時域及頻域的音訊訊號,整合及利用跨領域的音訊特色來改善助聽器的性能。
圖4係根據本發明一實施例,顯示後處理單元150之示意圖。參考圖4,該後處理單元150包含一串列至平行轉換器(serial to parallel converter,SPC)151、一補償單元152、一逆STFT部154、一加法器155以及一乘法器156。該補償單元152包含一抑制器41及一阿爾發混和器(alpha blender)42。該SPC151用來將複數值資料串流G
1(i)~G
N(i)轉換為N個平行的複數值資料,並同時將該N個平行的複數值資料傳送給該抑制器41。該抑制器41包含N個乘法器(圖未示),分別將該N個遮罩值G
1(i)~G
N(i)乘上主要頻譜代表式F1(i)的複數值資料(F
1,1(i)~F
N,1(i)),以得到N個乘積值(V
1(i)~V
N(i)),亦即V
k(i)=G
k(i)
F
k,1(i)。阿爾發混和器42包含N個平行地運作的混和單元42k,其中,1<=k<=N。圖5係根據本發明一實施例,顯示混和單元42k之示意圖。參考圖5,各混和單元42k包含二個乘法器501~502及一加法器503。各混和單元42k用來計算複數值資料Z
k(i)= F
k,1(i)
+V
k(i)
(1-
),其中,
代表第k個頻帶的混和係數,用以調整噪音抑制及AFC的等級或強度。接著,逆STFT部154將頻域的複數值資料(Z
1(i)~Z
N(i))轉換成時域音訊訊號z[n]的目前音框i的音訊資料。此外,乘法器156依序將音訊訊號u[n]的目前音框i的各取樣值乘上w,以得到音訊訊號p[n]的目前音框i的音訊資料,其中w代表調整ANC等級的權值。然後,加法器155依序相加二個訊號z[n]及p[n]的目前音框i的對應取樣點,以產生總和訊號y[n] 的目前音框i的音訊資料。接著,在DAC 161將數位音訊訊號y[n]轉換成一類比音訊訊號Y之後,放大器162放大該類比音訊訊號Y,以產生一放大訊號SA。最後,揚聲器163將該放大訊號SA轉換成一聲音壓力訊號,以播放於使用者的耳道。
上述實施例以及功能性操作可利用數位電子電路、具體化的電腦軟體或韌體、電腦硬體,包含揭露於說明書的結構及其等效結構、或者上述至少其一之組合等等,來實施。在第1-5圖揭露的運作方式與邏輯流程可利用至少一部電腦執行至少一電腦程式的方式,來執行其功能,或者可利用特殊目的邏輯電路來實施,例如:現場可程式閘陣列(FPGA)或特定應用積體電路(ASIC)等。適合執行該至少一電腦程式的電腦包含,但不限於,通用或特殊目的的微處理器,或任一型的中央處理器(CPU)。適合儲存電腦程式指令及資料的電腦可讀取的媒體包含所有形式的非揮發性記憶體、媒體及記憶體裝置,包含,但不限於,半導體記憶體裝置,例如,可抹除可規劃唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)以及快閃(flash)記憶體裝置;磁碟,例如,內部硬碟或可移除硬碟;磁光碟(magneto-optical disk),例如,CD-ROM或DVD-ROM。
上述僅為本發明之較佳實施例而已,而並非用以限定本發明的申請專利範圍;凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾,均應包含在下述申請專利範圍內。
11~1Q:麥克風
41:抑制器
42:阿爾發混和器
100:聽力裝置
120:前處理單元
121:類比數位轉換器
122:STFT部
123:並行至串列轉換器
130:端對端神經網路
131:時延神經網路
132:頻域長短期記憶網路
133:時域長短期記憶網路
150:後處理單元
151:串列至平行轉換器
152:補償單元
154:逆STFT部
155:加法器
156:乘法器
160:輸出電路
161:數位類比轉換器
162:放大器
163:揚聲器
圖1顯示本發明聽力裝置之一示意圖。
圖2係根據本發明一實施例,顯示前處理單元120之示意圖。
圖3根據本發明一實施例,顯示端對端神經網路130之示意圖。
圖4係根據本發明一實施例,顯示後處理單元150之示意圖。
圖5係根據本發明一實施例,顯示混和單元42k之示意圖。
100:聽力裝置
11~1Q:麥克風
120:前處理單元
130:端對端神經網路
150:後處理單元
160:輸出電路
161:數位類比轉換器
162:放大器
163:揚聲器
Claims (20)
- 一種聽力裝置,包含:一主要麥克風,產生一主要音訊訊號;M個輔助麥克風,產生M個輔助音訊訊號;一轉換電路,分別將該主要音訊訊號以及該M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個輔助頻譜代表式;至少一處理器;至少一儲存媒體,包含多個指令供該至少一處理器來執行一組操作,包含:利用一端對端神經網路,對該些第一取樣值進行主動降噪(ANC)操作,以產生多個第二取樣值;以及利用該端對端神經網路,對該主要頻譜代表式以及該M個輔助頻譜代表式進行音訊訊號處理操作,以產生一補償遮罩;以及一後處理電路,以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式,以及,根據該些第二取樣值以及該補償後頻譜代表式,產生一輸出音訊訊號,其中M>0。
- 如請求項1之裝置,其中該補償遮罩包含多個頻帶增益,且各頻帶增益指出對應的頻帶是語音主導或噪音主導。
- 如請求項1之裝置,其中該端對端神經網路為一深度神經網路、一循環神經網路、一卷積神經網路、一時延神經網路或其組合。
- 如請求項1之裝置,其中該端對端神經網路包含: 一時延神經網路;一第一長短期記憶網路,耦接至該時延神經網路的輸出端;以及一第二長短期記憶網路,耦接至該時延神經網路的輸出端;其中,該時延神經網路及該第一長短期記憶網路係被聯合地訓練,以根據一第一參數對該些第一取樣值進行主動降噪操作,以產生該些第二取樣值;以及其中,該時延神經網路及該第二長短期記憶網路係被聯合地訓練,以根據一第二參數對該主要頻譜代表式以及該M個輔助頻譜代表式進行該音訊訊號處理,以產生該補償遮罩。
- 如請求項4之裝置,其中該第一參數是一第一抑制強度;其中,若該音訊訊號處理操作包含噪音抑制以及聲學回授消除之至少其一,則該第二參數是一第二抑制強度;以及其中,若該音訊訊號處理操作包含聲音放大,則該第二參數是包含一幅值增益、與該補償後頻譜代表式有關的一時域訊號的最大輸出功率值、以及對應至該補償遮罩的一組修正增益。
- 如請求項1之裝置,其中該音訊訊號處理操作包含聲音放大、噪音抑制以及聲學回授消除之至少其一。
- 如請求項1之裝置,其中該後處理電路包含:一抑制器,分別將該主要頻譜代表式中多個第一成分乘上該補償遮罩中對應的遮罩值,以產生該補償後頻譜代表式中的多個第二成分;一逆轉換器,耦接至該抑制器的輸出端,用以將與該補償後頻譜代表式有關之一特定頻譜代表式逆轉換為多個第三取樣值;以及 一加法器,該加法器的一第一輸入端耦接至該逆轉換器的輸出端,該加法器的一第二輸入端耦接至該至少一處理器,其中,該加法器依序將各第三取樣值及與該些第二取樣值相關的一對應第四取樣值相加,以產生該輸出音訊訊號的目前音框中的一對應第五取樣值。
- 如請求項7之裝置,其中該後處理電路更包含:一乘法器,耦接在該至少一處理器及該加法器的第二輸入端之間,用以依序將各第二取樣值及一ANC權值相乘,以產生該對應第四取樣值。
- 如請求項7之裝置,其中該後處理電路更包含:一混和器,耦接在該抑制器及該逆轉換器之間,根據對應至該主要頻譜代表式中多個頻帶的混和權值,混和該主要頻譜代表式中該些第一成分及該補償後頻譜代表式中對應的第二成分,以產生該特定頻譜代表式。
- 如請求項1之裝置,更包含:一數位類比轉換器,將該輸出音訊訊號轉換為一類比音訊訊號;以及一揚聲器,將該類比音訊訊號轉換成一聲音壓力訊號。
- 一種音訊處理方法,適用於一聽力裝置,該方法包含:分別將一主要音訊訊號以及M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個輔助頻譜代表式,其中該主要音訊訊號以及該M個輔助音訊訊號係分別來自該聽力裝置的一主要麥克風以及M個輔助麥克風;利用一端對端神經網路,對該些第一取樣值進行主動降噪(ANC)操作,以產生多個第二取樣值; 利用該端對端神經網路,對該主要頻譜代表式以及該M個輔助頻譜代表式進行音訊訊號處理操作,以產生一補償遮罩;以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式;以及根據該些第二取樣值以及該補償後頻譜代表式,得到一輸出音訊訊號,其中M>0。
- 如請求項11之方法,其中該補償遮罩包含多個頻帶增益,且各頻帶增益指出對應的頻帶是語音主導或噪音主導。
- 如請求項11之方法,其中該端對端神經網路為一深度神經網路、一循環神經網路、一卷積神經網路、一時延神經網路或其組合。
- 如請求項11之方法,其中該音訊訊號處理操作包含聲音放大、噪音抑制以及聲學回授消除之至少其一。
- 如請求項11之方法,其中該端對端神經網路包含一時延神經網路、一第一長短期記憶網路以及一第二長短期記憶網路;其中,該時延神經網路及該第一長短期記憶網路係被聯合地訓練,以根據一第一參數對該些第一取樣值進行主動降噪操作,以產生該些第二取樣值;以及,其中,該時延神經網路及該第二長短期記憶網路係被聯合地訓練,以根據一第二參數對該主要頻譜代表式以及該M個輔助頻譜代表式進行該音訊訊號處理,以產生該補償遮罩。
- 如請求項15之方法,其中該第一參數是一第一抑制強度;其中,若該音訊訊號處理操作包含噪音抑制以及聲學回授消除之至少其一, 該第二參數是一第二抑制強度;以及其中,若該音訊訊號處理操作包含聲音放大,該第二參數是包含一幅值增益、與該補償後頻譜代表式有關的一時域訊號的最大輸出功率值、以及對應至該補償遮罩的一組修正增益。
- 如請求項11之方法,其中該得到該輸出音訊訊號步驟包含:分別將該主要頻譜代表式中多個第一成分乘上該補償遮罩中對應的遮罩值,以產生該補償後頻譜代表式中的多個第二成分;將與該補償後頻譜代表式有關之一特定頻譜代表式逆轉換為多個第三取樣值;以及依序將各第三取樣值及與該些第二取樣值相關的一對應第四取樣值相加,以產生該輸出音訊訊號的目前音框中的一對應第五取樣值。
- 如請求項17之方法,其中該得到該輸出音訊訊號步驟更包含:於該依序相加步驟之前及於該進行ANC操作步驟之後,依序將各第二取樣值及一ANC權值相乘,以產生該對應第四取樣值。
- 如請求項17之方法,其中該得到該輸出音訊訊號步驟更包含:於該逆轉換步驟之前及於該分別將該主要頻譜代表式中該些第一成分乘上該補償遮罩中對應的遮罩值步驟之後,根據對應至該主要頻譜代表式中多個頻帶的混和權值,混和該主要頻譜代表式中該些第一成分及該補償後頻譜代表式中對應的第二成分,以產生該特定頻譜代表式。
- 如請求項11之方法,更包含:將該輸出音訊訊號轉換為一類比音訊訊號;以及 將該類比音訊訊號轉換成一聲音壓力訊號。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163171592P | 2021-04-07 | 2021-04-07 | |
US63/171,592 | 2021-04-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202241147A TW202241147A (zh) | 2022-10-16 |
TWI819478B true TWI819478B (zh) | 2023-10-21 |
Family
ID=83509682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111103346A TWI819478B (zh) | 2021-04-07 | 2022-01-26 | 具端至端神經網路之聽力裝置及音訊處理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11647344B2 (zh) |
TW (1) | TWI819478B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11553286B2 (en) * | 2021-05-17 | 2023-01-10 | Bose Corporation | Wearable hearing assist device with artifact remediation |
US12075215B2 (en) | 2022-01-14 | 2024-08-27 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
WO2024178064A1 (en) * | 2023-02-22 | 2024-08-29 | Med-El Elektromedizinische Geraete Gmbh | Data efficient and individualized audio scene classifier adaptation |
EP4435668A1 (en) * | 2023-03-24 | 2024-09-25 | Sonova AG | Processing chip for processing audio signals using at least one deep neural network in a hearing device and hearing device |
US11838727B1 (en) * | 2023-08-29 | 2023-12-05 | Chromatic Inc. | Hearing aids with parallel neural networks |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN111584065A (zh) * | 2020-04-07 | 2020-08-25 | 上海交通大学医学院附属第九人民医院 | 噪声性听力损失预测及易感人群筛选方法、装置、终端和介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060182295A1 (en) * | 2005-02-11 | 2006-08-17 | Phonak Ag | Dynamic hearing assistance system and method therefore |
US20070269066A1 (en) * | 2006-05-19 | 2007-11-22 | Phonak Ag | Method for manufacturing an audio signal |
DK2023664T3 (da) | 2007-08-10 | 2013-06-03 | Oticon As | Aktiv støjudligning i høreapparater |
US9288589B2 (en) * | 2008-05-28 | 2016-03-15 | Yat Yiu Cheung | Hearing aid apparatus |
EP2716069B1 (en) * | 2011-05-23 | 2021-09-08 | Sonova AG | A method of processing a signal in a hearing instrument, and hearing instrument |
US10542354B2 (en) | 2017-06-23 | 2020-01-21 | Gn Hearing A/S | Hearing device with suppression of comb filtering effect |
US10805740B1 (en) * | 2017-12-01 | 2020-10-13 | Ross Snyder | Hearing enhancement system and method |
DK3681175T3 (da) | 2019-01-09 | 2022-07-04 | Oticon As | Høreanordning med direkte lydkompensation |
US11315586B2 (en) * | 2019-10-27 | 2022-04-26 | British Cayman Islands Intelligo Technology Inc. | Apparatus and method for multiple-microphone speech enhancement |
CN111916101B (zh) | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
KR20220018271A (ko) * | 2020-08-06 | 2022-02-15 | 라인플러스 주식회사 | 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치 |
-
2022
- 2022-01-26 TW TW111103346A patent/TWI819478B/zh active
- 2022-02-03 US US17/592,006 patent/US11647344B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN111584065A (zh) * | 2020-04-07 | 2020-08-25 | 上海交通大学医学院附属第九人民医院 | 噪声性听力损失预测及易感人群筛选方法、装置、终端和介质 |
Non-Patent Citations (2)
Title |
---|
期刊 Erdogan, H等人 " Improved MVDR beamforming using single-channel mask prediction networks" MITSUBISHI ELECTRIC RESEARCH LABORATORIES September 2016.; * |
期刊 Hao Zhang, Deliang Wang "A Deep Learning Approach to Active Noise Control" INTERSPEECH 25 October 2020 * |
Also Published As
Publication number | Publication date |
---|---|
TW202241147A (zh) | 2022-10-16 |
US11647344B2 (en) | 2023-05-09 |
US20220329953A1 (en) | 2022-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI819478B (zh) | 具端至端神經網路之聽力裝置及音訊處理方法 | |
CN110809211B (zh) | 对耳机主动降噪的方法、主动降噪系统以及耳机 | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
CN110473567B (zh) | 基于深度神经网络的音频处理方法、装置及存储介质 | |
AU771444B2 (en) | Noise reduction apparatus and method | |
US20060206320A1 (en) | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers | |
TW201009817A (en) | System and method for providing noise suppression utilizing null processing noise subtraction | |
CN105491495B (zh) | 基于确定性序列的反馈估计 | |
US20120008791A1 (en) | Hearing device and method for operating a hearing device with two-stage transformation | |
US9420382B2 (en) | Binaural source enhancement | |
US20090257609A1 (en) | Method for Noise Reduction and Associated Hearing Device | |
US8233650B2 (en) | Multi-stage estimation method for noise reduction and hearing apparatus | |
CN103929704B (zh) | 一种基于变换域的自适应声反馈消除的方法和系统 | |
Vanjari et al. | Hearing Loss Adaptivity of Machine Learning Based Compressive Sensing Speech Enhancement for Hearing Aids | |
CN109451398B (zh) | 声反馈消除设备、声反馈消除方法、音频处理系统 | |
Shankar et al. | Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids | |
JP6019098B2 (ja) | フィードバック抑制 | |
KR101850693B1 (ko) | 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법 | |
TWI623234B (zh) | 助聽器及其自動分頻濾波增益控制方法 | |
US11445307B2 (en) | Personal communication device as a hearing aid with real-time interactive user interface | |
Aroudi et al. | Cognitive-driven convolutional beamforming using EEG-based auditory attention decoding | |
Kalamani et al. | Modified least mean square adaptive filter for speech enhancement | |
KR20050119758A (ko) | 잡음 및 궤환 신호 제거 기능을 구비한 디지털 보청기 및신호 처리 방법 | |
JP6524463B2 (ja) | 自動ミキシング装置およびプログラム | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |