TWI767696B - 自我語音抑制裝置及方法 - Google Patents
自我語音抑制裝置及方法 Download PDFInfo
- Publication number
- TWI767696B TWI767696B TW110117038A TW110117038A TWI767696B TW I767696 B TWI767696 B TW I767696B TW 110117038 A TW110117038 A TW 110117038A TW 110117038 A TW110117038 A TW 110117038A TW I767696 B TWI767696 B TW I767696B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- suppression
- voice
- audio
- current
- Prior art date
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 264
- 238000000034 method Methods 0.000 title claims description 31
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims description 58
- 238000005070 sampling Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 27
- 210000000988 bone and bone Anatomy 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 20
- 238000001845 vibrational spectrum Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 35
- 238000009499 grossing Methods 0.000 description 22
- 230000003321 amplification Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/60—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
- H04R25/604—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
Abstract
本發明提供一種自我語音抑制裝置,適用於一助聽器,包含一空氣傳導感應器、一自我語音指示模組以及一抑制模組。該空氣傳導感應器用以產生一音訊訊號,而該自我語音指示模組,根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號。該抑制模組再根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號。
Description
本發明係有關於語音訊號處理,特別地,尤有關於一種應用於助聽器(hearing aid)之自我語音抑制裝置及方法。
助聽器的目的是在有背景噪音或有他人講話的情況下,提供最佳清晰度及可理解度。由於助聽器的位置非常靠近使用者的嘴巴,使用者最多的抱怨是當使用者在講話的同時,會聽到異常大聲的語音,這異常大聲的語音不僅會讓使用者感到生氣或焦慮,還會屏蔽掉周遭環境聲音,甚至,有傷害使用者聽力的潛在風險。
中華人民共和國專利公布號CN 110931031A的專利文獻中揭露一種融合骨振動傳感器(bone conduction sensor)和麥克風信號的深度學習語音提取和降噪方法,該方法對骨震動傳感器音頻訊號進行高通濾波或頻帶拓寬處理以產生一處理後訊號。之後,將該處理後訊號及一麥克風信號輸入至一深度神經網路(deep neural network,DNN)模組,最後,該深度神經網路模組經過預測得到降噪後的語音。雖然上述專利文獻成功地從複雜噪音場景中提取出一目標語音及降低干擾噪音,但仍未解決當使用者在講話時會聽到語音異常大聲的問題。
若在使用者在講話的同時可以降低自我語音音量的話,將會改善助聽器的感知度及接受度,造福更多人。
有鑒於上述問題,本發明的目的之一是提供一種自我語音抑制裝置,以改善助聽器使用者的舒適度及語音可理解度
根據本發明之一實施例,係提供一種自我語音抑制裝置。該自我語音抑制裝置,適用於一助聽器,包含一空氣傳導感應器、一自我語音指示模組以及一抑制模組。該空氣傳導感應器用以產生一音訊訊號,而該自我語音指示模組,根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號。該抑制模組,耦接至該空氣傳導感應器以及該自我語音指示模組,根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號。
本發明之另一實施例,係提供一種自我語音抑制方法,適用於一助聽器,包含:以一空氣傳導感應器提供一音訊訊號;根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及,根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號。
茲配合下列圖示、實施例之詳細說明及申請專利範圍,將上述及本發明之其他目的與優點詳述於後。
10、20、30、30A~30B、40、40A~40B:自我語音抑制裝置
50、50A~50B:自我語音抑制裝置
25A~25J:計算單元
110:空氣傳導感應器
120:放大單元
120a:放大器
130、130A:自我語音指示模組
130B:語音辨識模組
150、150A~150J:抑制模組
231:骨傳導感應器
232:自我語音重建模組
251、252、391、392:功率平滑單元
253、353、393、553、554:抑制遮罩計算單元
255:實數值乘法器
301、303:訊號分離器
302:訊號合成器
301a、303a:轉換器
302a:逆轉換器
301b、303b:分析濾波器組
302b:合成濾波器組
310:乘法器
311、312:複數值乘法器
351、352:平滑單元
[圖1]係根據本發明,顯示一個自我語音抑制裝置的方塊圖。
[圖2A]係根據本發明一實施例,顯示一個自我語音抑制裝置的方塊圖。
[圖2B]係根據本發明一實施例,顯示計算單元25A的方塊圖。
[圖3A]係根據本發明一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖3B]係根據本發明另一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖3C]顯示相同頻格k中一振動複數值取樣點Xk及一語音複數值取樣點Zk之間的關係。
[圖3D]係根據本發明一實施例,顯示計算單元25C的方塊圖。
[圖3E]為一時序圖,顯示根據鄰近一頻格k的三個頻格(L=3)的三個平均語音功率值及三個平均乘積複數值來得到該頻格k的抑制遮罩α k(i)的計算過程。
[圖3F]係根據本發明另一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖3G]係根據本發明一實施例,顯示計算單元25D的方塊圖。
[圖4A]係根據本發明一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。
[圖4B]係根據本發明另一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。
[圖4C]係根據本發明一實施例,顯示一語音辨識模組的方塊圖。
[圖4D]係根據本發明另一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。
[圖5A]係根據本發明一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖5B]係根據本發明另一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖5C]係根據本發明一實施例,顯示計算單元25I的方塊圖。
[圖5D]係根據本發明另一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。
[圖5E]係根據本發明一實施例,顯示計算單元25J的方塊圖。
[圖6]係根據本發明,顯示一音訊訊號S1、一振動訊號S2以及一自我語音抑制訊號S3的波形關係。
在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語,都同時包含單數及複數的涵義,除非本說明書中另有特別指明。在通篇說明書及後續的請求項當中所提及的相關用語定義如下,除非本說明書中另有特別指明。
本發明的特色之一是利用一骨傳導感應器(bone conduction sensor)以及一語音辨識(voice identification)模組之至少其一,根據從多個頻格(frequency bin)或通帶(passband)偵測到的功率位準,來辨識或偵測使用者本身說話的語音位在那些頻格或通帶後,壓抑或降低使用者本身說話的語音分量,以避免傷害使用者聽力
及遮蓋周遭環境聲音。因此,本發明可改善助聽器使用者的舒適度及語音可理解度。
圖1係根據本發明,顯示一個自我語音抑制裝置的方塊圖。參考圖1,本發明自我語音抑制裝置10,適用於一助聽器,包含一空氣傳導感應器(air conduction sensor)110、一放大單元120、一自我語音指示模組130以及一抑制模組150。該空氣傳導感應器110可以利用一駐極體電容器(electret condenser)麥克風或一微機電製程(micro electromechanical system,MEMS)麥克風來實施。該空氣傳導感應器110同時接收使用者的聲音/語音/言詞以及周遭環境聲音,以產生一音訊訊號S1。
該放大單元120利用一電壓增益(gain)值來增加該音訊訊號S1的音量,以產生一放大訊號Z[n],其中n表示離散時間索引。該自我語音指示模組130根據使用者嘴巴振動訊息(如:來自一骨傳導感應器231的振動訊號S2)以及/或使用者語音特色向量比較結果(如:來自一語音辨識模組130B的匹配分數),產生一指示訊號X[n]。該抑制模組150根據該放大訊號Z[n]及該指示訊號X[n]計算一抑制遮罩(mask)、抑制包含在該放大訊號Z[n]中的自我語音成分以及產生一自我語音抑制訊號S3。
圖2A係根據本發明一實施例,顯示一個自我語音抑制裝置的方塊圖。參考圖2A,本發明自我語音抑制裝置20,適用於一助聽器,包含一空氣傳導感應器110、一放大器120a、一自我語音指示模組130A以及一抑制模組150A。在本實施例中,圖1的放大單元120係
以一放大器120a來實施,而且其電壓增益值係根據輸入音訊訊號S1的音量來改變,以致於該音訊訊號S1的音量會落在一預設範圍內。於本發明中,該放大單元120/120a並非必要元件。
該自我語音指示模組130A包含一骨傳導感應器231以及一自我語音重建模組232。該骨傳導感應器231可以利用一MEMS語音加速計(voice accelerometer)來實施。如本領域技術人員所熟知的,語音加速計係用來量測使用者因為語音或/及嘴巴移動而造成的振動,特別是低頻的振動,以產生一振動訊號S2。該音訊訊號S1及該振動訊號S2可以是類比或數位,若是訊號S1及S2是類比,可用任何已知技術轉成數位。假設該放大訊號Z[n]及該重建訊號X[n]在輸入該抑制模組150A之前,需先被數位化。一般而言,人類語音的頻率範圍約在125Hz至20kHz,然而,取決於該骨傳導感應器231的規格,該振動訊號S2的頻寬正常會被限制在0Hz至3kHz的範圍,因此該振動訊號S2會聽起來悶悶的。為解決此問題,本發明提供該自我語音重建模組232,採用任何現存或未來發展的音頻頻寬延伸方法或高頻重建演算法,從頻率範圍低於3kHz的該振動訊號S2中重建丟失的高頻成分,以產生頻率範圍擴展至20kHz的重建訊號X[n]。一實施例中,該自我語音重建模組232包含一深度神經網路(圖未示),該深度神經網路從該振動訊號S2中提取出特色值(feature value)後,重建該振動訊號S2的高頻成分以產生一重建訊號X[n]。該深度神經網路可以是一循環(recurrent)神經網路以及一卷積(convolutional)神經網路之其一或其組合。
假設夾帶噪音的語音訊號Z[n]表示為:Z[n]=v[n]+d[n],其中v[n]表示乾淨的語音訊號、d[n]表示外來的噪音以及n表示離散時間索引。該抑制模組150A包含一計算單元25A及一實數乘法器255。該計算單元25A根據該放大訊號Z[n]及該重建訊號X[n],逐取樣點(sample by sample)計算一對應抑制遮罩α[n],其中0<=α[n]<=1。圖2B係根據本發明一實施例,顯示計算單元25A的方塊圖。參考圖2B,本發明計算單元25A包含二個功率平滑單元251及252以及一抑制遮罩計算單元253。為減少噪音干擾,功率平滑單元251利用一平滑參數來平均該放大訊號Z[n]的先前及目前資料取樣點的語音功率值,以進行語音功率量測;而功率平滑單元252利用該平滑參數來平均該重建訊號X[n]的先前及目前資料取樣點的振動功率值,以進行振動功率量測。一實施例中,上述功率平滑單元251及252利用以下的無限脈衝響應(IIR)方程式來得到該放大訊號Z[n]的平均語音功率值ZP[n]以及該重建訊號X[n]的平均振動功率值XP[n]:ZP[n]=((1-b)×ZP[n-1]+b×Z 2[n]); (1)
XP[n]=((1-b)×XP[n-1]+b×X 2[n]); (2)
其中,b代表一平滑參數且其數值位在0與1之間。
根據Upadhyay等人於Procedia Computer Science 84(2016)22-30揭露的一篇論文”單一通帶語音強化:使用具遞迴噪音估測功能的維納濾波器(Single Channel Speech Enhancement:using Wiener
Filtering with Recursive Noise estimation)”,其中具遞迴噪音估測功能的維納濾波器的增益表示如下:
其中PSP(ω)表示夾帶噪音的語音功率頻譜(spectrum)、PNP(ω)表示噪音功率頻譜以及ω表示頻格索引。根據方程式(3),該抑制遮罩計算單元253計算位於時域的目前取樣點Z[n]的抑制遮罩α[n]如下:
其中0<=α[n]<=1。
請注意,上述方程式(4)僅是示例,而非本發明之限制,只要能滿足X[n]及α[n]之間的反比關係,其他形式的方程式亦適用於該抑制遮罩計算單元253。簡言之,X[n]的幅值(magnitude)或功率值越大,包含在放大訊號Z[n]的自我語音分量也越大,因此該抑制遮罩α[n]的值要越小,以進行自我語音抑制。
之後,乘法器255逐取樣點,將該放大訊號Z[n]乘上其對應抑制遮罩α[n]以產生該自我語音抑制訊號S3。依此方式,本發明避免了使用者在講話時助聽器音量異常大聲的問題。然而,因為該放大訊號Z[n]及抑制遮罩α[n]的乘法是在時域中運作,包含在該放大訊號Z[n]內的周遭環境聲音有可能連同使用者語音一起被抑制。
圖3A係根據本發明一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。參考圖3A,本發明自我語音抑制裝置30,適用於一助聽器,包含一空氣傳導感應器110、一放大器120a、一自我語音指示模組130A以及一抑制模組150B。該抑制模組150B包含一計算單元25B、Q個乘法器310、二個訊號分離器
(splitter)301/303及一個訊號合成器(synthesizer)302。訊號分離器301將輸入訊號Z[n]分離成Q個第一訊號分量Z0~ZQ-1,而訊號分離器303將輸入訊號X[n]分離成Q個第二訊號分量X0~XQ-1,其中Q>=1。接著,計算單元25B根據上述Q個第一訊號分量Z0~ZQ-1以及Q個第二訊號分量X0~XQ-1,計算Q個抑制遮罩α 0~α Q-1。Q個乘法器310分別將該Q個抑制遮罩α 0~α Q-1與對應的該Q個第一訊號分量Z0~ZQ-1相乘,以產生Q個乘積訊號Y0~YQ-1。最後,訊號合成器302根據該Q個乘積訊號Y0~YQ-1,重建於時域上的自我語音抑制訊號S3。圖3A、4A、5A的訊號分離器301/303可以利用轉換器(transformer)301a/303a或分析濾波器組(analysis filter bank)301b/303b來實施,而圖3A、4A、5A的訊號合成器302可以利用逆轉換器(inverse transformer)302a或合成濾波器組(synthesis filter bank)302b來實施。請注意,乘法器310可以利用複數值(complex value)乘法器311(搭配的Z0~ZQ-1值為複數值)或實數值乘法器255(搭配的Z0~ZQ-1值為實數值)來實施。
圖3B係根據本發明另一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。相較於圖3A,訊號分離器301/303是以轉換器301a/303a來實施,而訊號合成器302是以逆轉換器302a來實施。據此,該計算單元25C根據該放大訊號Z[n]之目前音框(frame)i的目前語音頻譜代表式(spectral representation)以及該重建訊號X[n]之目前音框i的目前振動頻譜代表式,計算N個頻格的N個抑制遮罩α k(i),其中,0<=k<=(N-1)、N表示各音框的長度以及i代表該目前音框的索引。
轉換器301a/303a係被實施用來對其輸入訊號執行一快速傅立葉轉換(fast Fourier transform,FFT)、一短時距(short-time)傅立葉轉換、或一離散(discrete)傅立葉轉換。具體而言,該轉換器301a/303a分別將時域的Z[n]及X[n]訊號的目前音框的音訊資料轉換成頻域的複數資料(Z0~ZN-1及X0~XN-1)。為清楚及方便描述,以下的例子及實施例係以該轉換器301a/303a對其輸入訊號的各音框進行FFT運作來做說明。假設取樣點數(或FFT尺寸)等於N且各音框的持續時間等於Td,該轉換器303a將時域的該重建訊號X[n]分割成多個音框,並計算一目前音框i的FFT以產生一目前振動頻譜代表式,係具有N個複數值的取樣點(X0~XN-1)且頻率解析度等於fs/N(=1/Td),其中,fs表示該重建訊號X[n]的取樣頻率且各音框對應該重建訊號X[n]的不同時間間隔。同樣地,該轉換器301a將時域的放大訊號Z[n]分割成多個音框,並計算一目前音框i的FFT以產生一目前語音頻譜代表式,係具有N個複數值的取樣點(Z0~ZN-1)且頻率解析度等於fs/N。一較佳實施例中,各音框的持續時間Td等於8~32毫秒(millisecond),以及任二個連續音框之間會有重疊且重疊時間小於Td,例如,一般設定重疊時間等於Td/2。
圖3C顯示相同頻格k中一振動複數值取樣點Xk及一語音複數值取樣點Zk之間的關係。參考圖3C,二個向量及分別用來表示相同頻格k中的二個複數值取樣點Xk及Zk,係指向不同方向。向量,是向量在向量方向上的投影,代表在方向上的自我語音分量。根據線性最小均方差(minimum mean square error)的定
義(請參考如下網址:https://en.wikipedia.org/wiki/Minimum_mean_square_error),推導頻格k的抑制遮罩α k如下。因為二個向量及為正交,故E[(Xk-τ k Zk)(Zk)*]=0
圖3D係根據本發明一實施例,顯示計算單元25C的方塊圖。參考圖3D,本發明計算單元25C包含二個複數值乘法器312、一共軛複數(complex conjugate)方塊355、二個平滑單元351及352以及一抑制遮罩計算單元353。根據該目前語音頻譜代表式,複數值乘法器312將各複數值取樣點Z k (i)乘上該共軛複數方塊355輸出的對應共軛複數Z * k (i)以產生一乘積值|Zk(i)|2。平滑單元351首先根據方程式 ,計算各頻格k的功率位準|Zk(i)|2,以得到該放大訊號Z[n]的目前音框i的目前語音功率頻譜,其中z kr 表示複數值取樣點Z k (i)的實部、z ki 表示複數值取樣點Z k (i)的虛部以及0<=k<=(N-1)。之後,為減少噪音干擾,類似於上述方程式(1),上述平滑單元351利用以下的IIR方程式(5),來得到一平均語音功率值:
根據該目前振動頻譜代表式及該目前語音頻譜代表式,複數值乘法器312將各複數值取樣點X k (i)乘上該共軛複數方塊355輸出的對應共軛複數Z * k (i)以產生一乘積複數值Xk(i)(Zk(i))*。平滑單元352首先計算各頻格k的乘積複數值Xk(i)Zk(i)*,以得到該重建訊號X[n]的目前音框i的目前乘積頻譜,其中0<=k<=(N-1)。之後,為減少噪音干擾,類似於上述方程式(2),上述平滑單元352利用以下的IIR方程式(6),來得到一平均乘積複數值:ρ k (i)=(1-b)×ρ k (i-1)+b×X k (i)(Z k (i))*。 (6)換言之,ρ k (i)=E[X k (i)(Z k (i))*]。
請注意,由於從轉換器301a輸出的取樣點Z0(i)~ZN-1(i)是複數值,故該些抑制遮罩α k(i)亦是複數值,以下稱之為”複數遮罩”。
然後,該N個複數值乘法器311分別將該N個複數值取樣點Z k (i)的乘上該N個頻格的N個抑制遮罩α k (i),以產生N個複數值取樣點Y k (i),其中0<=k<=(N-1)。最後,逆轉換器302a對頻域的該N個複數值取樣點Y k (i)進行IFFT運算,以產生該自我語音抑制訊號S3的目前音
框i。請注意,上述方程式(7)僅是示例,而非本發明之限制,只要能滿足X k (i)及α k (i)之間的反比關係,其他形式的方程式亦適用於該抑制遮罩計算單元353。簡言之,X k (i)的幅值越大,包含在該目前語音頻譜代表式中頻格k的自我語音分量也越大,因此該抑制遮罩α k (i)的值要越小,以進行自我語音抑制。
請注意,上述方程式(7)中,頻格k的抑制遮罩α k (i)是根據同樣是頻格k的平均語音功率值及平均乘積複數值ρ k (i)計算而得。另一實施例中,頻格k的抑制遮罩α k(i)則是根據鄰近該頻格k的L個頻格的L個平均語音功率值及L個平均乘積複數值來決定,其中L>=1。圖3E為一時序圖,顯示根據鄰近一頻格k的三個頻格(L=3)的三個平均語音功率值及三個平均乘積複數值來得到該頻格k的抑制遮罩α k (i)的計算過程。參考圖3E,由計算單元25C計算該頻格k的抑制遮罩α k(i)的整個過程分成以下三個階段。階段一:平滑單元351根據上述方程式(5)及三個功率值|Zk-1(i)|2 、|Zk(i)|2及|Zk+1(i)|2,分別計算三個頻格((k-1)、k及(k+1))的三個平均語音功率值及。同時,平滑單元352根據上述方程式(6)及三個乘積複數值(X k-1(i)(Z k-1(i))* ,X k (i)(Z k (i))*及X k+1(i)(Z k+1(i))*),分別計算三個頻格((k-1)、k及(k+1))的三個平均乘積複數值(ρ k-1(i),ρ k (i)及ρ k+1(i))。階段二:該抑制遮罩計算單元353進行下列操作:(i)根據方程式(7)、該平均語音功率值及該平均乘積複數值ρ k-1(i),計算頻格k-1的抑制遮罩α k-1(i);(ii)根據方程式(7)、該平均語音功率值及該平均乘積複數值ρ k (i),計算頻格k的抑制遮
罩α k (i);以及(iii)根據方程式(7)、該平均語音功率值及該平均乘積複數值ρ k+1(i),計算頻格k+1的抑制遮罩α k+1(i)。階段三:該抑制遮罩計算單元353計算該三個頻格((k-1)、k及(k+1))的三個抑制遮罩(α k-1(i)、α k (i)及α k+1(i))的一平均值後,再以該平均值當作該頻格k的抑制遮罩α k (i)。須注意的是,圖3D(相當於L=1)是圖3E的特例。
圖3F係根據本發明另一實施例,顯示一個具有一骨傳導感應器的自我語音抑制裝置的方塊圖。相較於圖3A的自我語音抑制裝置30,訊號分離器301/303是以分析濾波器組301b/303b來實施,而訊號合成器302是以合成濾波器組302b及一加法器302c來實施。
參考圖3F,具M個不同通帶的分析濾波器組301b的M個分析濾波器將該放大訊號Z[n]分解成M個語音子頻帶(subband)訊號Z0[n]~ZM-1[n],同樣地,具M個不同通帶的分析濾波器組303b的M個分析濾波器將該重建訊號X[n]分解成M個振動子頻帶訊號X0[n]~XM-1[n]。因此,時域的各語音子頻帶訊號Z0[n]~ZM-1[n]乘載了該放大訊號Z[n]中一特定頻帶的資訊,時域的各振動子頻帶訊號X0[n]~XM-1[n]乘載了該重建訊號X[n]中一特定頻帶的資訊。一實施例中,該分析濾波器組301b/303b的M個分析濾波器的M個通帶的頻寬是相同的。另一實施例中,該分析濾波器組301b/303b的M個分析濾波器的M個通帶的頻寬是不同的,而且,隨著頻率越高,該M個分析濾波器的M個通帶的頻寬也越寬。M個實數乘法器255分別將M個語音子頻帶訊號Z0[n]~ZM-1[n]乘上M個抑制遮罩α 0[n]~α M-1[n]以產生M個修正訊號B0[n]~BM-1[n]。接著,合成濾波器組302b的M個合成濾波器對該M個修正訊號B0[n]~BM-1[n]進行內插
(interpolation),以產生M個內插訊號。最後,由加法器302c混和該M個內插訊號以重建該自我語音抑制訊號S3。參考圖3G,本發明計算單元25D包含二個功率平滑單元391及392以及一抑制遮罩計算單元393。類似於上述方程式(1)及(2),上述功率平滑單元391及392利用以下的IIR方程式來得到語音子頻帶訊號Z j [n]的平均語音功率值ZP j [n]以及振動子頻帶訊號X j [n]的平均振動功率值XP j [n]:
其中,b是一個平滑參數且數值位在0與1之間、j表示通帶索引、n代表離散時間索引以及0<=j<=(M-1)。
請注意,分析濾波器組301b輸出的M個取樣點Z0[n]~ZM-1[n]均為實數,故抑制遮罩α j [n]亦為實數而且以下皆稱之為”實數遮罩”。請注意,上述方程式(10)中,語音子頻帶訊號Z j [n]的抑制遮罩α j [n]是根據相同通帶j的平均語音功率值ZP j [n]以及平均振動功率值XP j [n]計算而得。另一實施例中,類似於圖3E的三階段步驟,語音子頻帶訊號Z j [n]的抑制遮罩α j [n]則是根據L個語音子頻帶訊號的L個平均語音功率值及L個振動子頻帶訊號的L個平均振動功率值來決定,其中L>=1以及該L個語音/振動子頻帶訊號的L個通帶係鄰近通帶j。例如,若L=3,該計算單元25D先根據三個語音子頻帶訊號
(Z j-1[n]、Z j [n]及Z j+1[n])的三個平均語音功率值及三個振動子頻帶訊號(X j-1[n]、X j [n]及X j+1[n])的三個平均振動功率值,來計算該三個語音子頻帶訊號的三個抑制遮罩(α j-1[n]、α j [n]及α j+1[n]),再計算該三個抑制遮罩的一平均值,再以該平均值當作該語音子頻帶訊號Z j [n]的抑制遮罩α j [n]。請注意,上述方程式(10)僅是示例,而非本發明之限制,只要能滿足Xj[n]及α j [n]之間的反比關係,其他形式的方程式亦適用於該抑制遮罩計算單元393。簡言之,Xj[n]的幅值(magnitude)或功率值越大,包含在通帶j(或語音子頻帶訊號Z j [n])的自我語音分量也越大,因此該抑制遮罩α j [n]的值要越小,以進行自我語音抑制。
圖4A係根據本發明一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。相較於圖3A的自我語音抑制裝置30,最大差異在於該自我語音指示模組130A係以一語音辨識模組130B來替換以及訊號分量Z0~ZQ-1不會被饋入至一計算單元25E。該語音辨識模組130B接收放大訊號Z[n]以產生對應訊號分量Z0~ZQ-1的Q個匹配分數P0~PQ-1。之後,該計算單元25F根據該Q個匹配分數P0~PQ-1產生Q個抑制遮罩α 0~α Q-1。
圖4B係根據本發明另一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。相較於圖4A的自我語音抑制裝置40,訊號分離器301是以轉換器301a來實施,而訊號合成器302是以逆轉換器302a來實施。該語音辨識模組130B接收放大訊號Z[n]以產生對應目前語音頻譜代表式的N個頻格的Q個匹配分數Pk,其中該目前語音頻譜代表式與放大訊號Z[n]的目前音框i有關、0<=k<=(N-1)以及N
代表該放大訊號Z[n]的各音框的長度。各匹配分數Pk的數值是介於0與1之間。因此,若任何匹配分數Pk的數值越接近1,代表在頻格k的自我語音分量的幅值越大,反之,若任何匹配分數Pk的數值越接0,代表在該目前語音頻譜代表式的頻格k的自我語音分量的幅值越小。之後,該計算單元25F根據該N個匹配分數P0~PN-1,利用下列方程式計算各頻格k的抑制遮罩α k :α k =(1-Pk), (11)
其中,0<=α k <=1。請注意,由於Pk是實數,抑制遮罩α k 也是實數。
請注意,上述方程式(11)僅是示例,而非本發明之限制,只要能滿足Pk及α k之間的反比關係,其他形式的方程式亦適用於該計算單元25F。簡言之,匹配分數Pk的值越大,包含在頻格k的自我語音分量也越大,因此該抑制遮罩α k的值要越小,以進行自我語音抑制。另一實施例中,類似於圖3E的三階段步驟,該頻格k的抑制遮罩α k是根據鄰近頻格k的L個頻格的L個匹配分數來決定,舉例而言,計算單元25F先根據該L個頻格的L個匹配分數計算出該L個頻格的L個抑制遮罩,再計算該L個抑制遮罩的一平均值,最後再以該平均值當作該頻格k的抑制遮罩α k,其中,L>=1。
該語音辨識模組130B的優點是有能力辨別使用者語音分量是位在哪些頻格內及該些使用者語音分量的強度。有這些指標,就能從這些分辨出來的頻格中精確地抑制使用者語音分量,而另一方面,本發明係保留位在其餘頻格中聲音分量(代表周遭環境聲音)的幅值。
圖4C係根據本發明一實施例,顯示一語音辨識模組的方塊圖。參考圖4C,該語音辨識模組130B包含一儲存裝置42、一音訊嵌入提取(embedding extraction)單元41以及一嵌入匹配計算單元43。E該音訊嵌入提取單元41包含一神經網路410以及一平均單元415。該神經網路410可以用一DNN或長短期記憶(long short term memory)神經網路來實施。儲存裝置42包含所有形式的揮發性或非揮發性媒體或記憶體裝置,包含,但不限於,半導體記憶體裝置、磁碟、動態隨機存取記憶體(DRAM)或靜態隨機存取記憶體(SRAM)。
為清楚及方便描述,以下的例子及實施例係以該神經網路410係用一DNN來實施來做說明。該DNN可用任何已知架構來實施。舉例而言,2016年於IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),由Heigold等人發表的一篇論文”End-to-End Text-Dependent Speaker Verification”中揭露DNN 410包含連續幾個非線性功能以將使用者言詞/話語(utterance)轉換成一個向量,如圖4C所示,DNN 410包含一局部連結層412及多個完全連結層411。須注意的是DNN 410的架構僅是示例,而非本發明之限制,其他架構也適用於該DNN,只要該架構能將使用者言詞/話語Z[n]轉換成一目前特色向量CV。辨識程序分成以下三個階段:訓練、註冊及評估。於訓練階段,從訓練的言詞/話語中會找到適合的使用者表示法,舉例而言,該使用者表示法為音框資訊的概要,例如:特色向量。在訓練階段結束時,DNN 410的參數都會被固定住了。於註冊階段,一使用者提供許多言詞/話語,用來估測一使用者模型,而因為各言詞/話語產生一特色向量,該平均單元
415平均於註冊階段輸入的多個言詞/話語所產生的多個特色向量以得到一使用者向量UV,用來代表該使用者模型。之後,DNN 410將該使用者向量UV儲存於該儲存裝置42。請注意,於註冊階段中,該嵌入匹配計算單元43被禁能(disabled)。於評估階段,該平均單元415被禁能;DNN 410將使用者言詞/話語Z[n]轉換成一目前特色向量CV之後,該嵌入匹配計算單元43從該儲存裝置42取出該使用者向量UV,並對該使用者向量UV及該目前特色向量CV計算一餘弦相似度(cosine similarity),以產生N個頻格的N個匹配分數PK,其中0<=k<=(N-1)。假設該使用者向量UV及該目前特色向量CV的大小都等於N×N1,則從該嵌入匹配計算單元43輸出的輸出向量P的大小則為N×1。例如,N=256且N1=2048,於計算該餘弦相似度之後,該嵌入匹配計算單元43輸出的輸出向量P具有256x1個分量PK,其中0<=k<=255。如本領域技術人員所熟知的,餘弦相似度是在一內積(inner product)空間的二個向量之間量測相似度的一種方法,其量測該二個向量之間的夾角餘弦,以決定該二個向量是否大致指向同一個方向。於本發明中,餘弦相似度是用來偵測該使用者向量UV及該目前特色向量CV在一頻格k上有多類似,其中0<=k<=(N-1)。該使用者向量UV及該目前特色向量CV在該頻格k上越類似(即PK越接近1),則該頻格k上的使用者自我語音分量就越大。
圖4D係根據本發明另一實施例,顯示一個具有一語音辨識模組的自我語音抑制裝置的方塊圖。相較於圖4B的自我語音抑制裝置40A,主要差別是轉換器301a是以分析濾波器組301b來實施,而逆
轉換器302a是以合成濾波器組302b來實施。該語音辨識模組130B接收放大訊號Z[n]以產生對應的分析濾波器組301b的M個通帶的Q個匹配分數Pj,其中0<=j<=(M-1)。請注意,分析濾波器組301b的M個分析濾波器的M個通帶的頻率範圍分別對應至該語音辨識模組130B輸出的M個匹配分數Pj的M個通帶的頻率範圍。一實施例中,該M個分析濾波器的M個通帶的頻寬是相同的。另一實施例中,該M個分析濾波器的M個通帶的頻寬是不同的,而且,隨著頻率越高,該M個分析濾波器的M個通帶的頻寬也越寬。各匹配分數Pj的數值是介於0與1之間。因此,若任何匹配分數Pj的數值越接近1,代表在通帶j(或語音子頻帶訊號Z j [n])的自我語音分量的幅值越大,反之,若任何匹配分數Pj的數值越接0,代表在通帶j的自我語音分量的幅值越小。之後,該計算單元25F根據該Q個匹配分數Pj,利用下列方程式計算各通帶j(或各語音子頻帶訊號Z j [n])的抑制遮罩α j [n]如下:α j [n]=(1-Pj), (12)
其中,0<=α j [n]<=1,以及0<=j<=(M-1)。
請注意,上述方程式(12)僅是示例,而非本發明之限制,只要能滿足α j [n]及Pj之間的反比關係,其他形式的方程式亦適用於該計算單元25G。簡言之,匹配分數Pj的值越大,包含在通帶j(或語音子頻帶訊號Z j [n])的自我語音分量也越大,因此該抑制遮罩α j [n]的值要越小,以進行自我語音抑制。另一實施例中,類似於圖3E的三階段步驟,該通帶j的抑制遮罩α j [n]是根據鄰近通帶j的L個通帶的L個匹配分數來決定,舉例而言,計算單元25G先根據L個語音子頻帶訊號的L個匹配分數計
算出該L個語音子頻帶訊號的L個抑制遮罩,再計算該L個抑制遮罩的一平均值,最後再以該平均值當作該語音子頻帶訊號Z j [n]的抑制遮罩α j [n],其中,L>=1,以及該L個語音子頻帶訊號的L個通帶係鄰近語音子頻帶訊號Z j [n]的通帶j。
圖5A係根據本發明一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。參考圖5A,本發明自我語音抑制裝置50包含自我語音抑制裝置50及該語音辨識模組130B。該計算單元25H根據Q個匹配分數(P0~PQ-1)、Q個第一訊號分量Z0~ZQ-1以及Q個第二訊號分量X0~XQ-1,計算Q個抑制遮罩α 0~α Q-1。
圖5B係根據本發明另一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。相較於圖5A的自我語音抑制裝置50,訊號分離器301/303是以轉換器301a/303a來實施,而訊號合成器302是以逆轉換器302a來實施。
圖5C係根據本發明一實施例,顯示計算單元25I的方塊圖。參考圖5C,本發明計算單元25I包含二個複數值乘法器312、一共軛複數方塊355、二個平滑單元351及352以及一抑制遮罩計算單元553。根據方程式(7)、匹配分數Pk、該平均語音功率值及該平均乘積複數值ρ k (i),該抑制遮罩計算單元353計算一目前語音頻譜代表式(與放大訊號Z[n]的目前音框i有關)的頻格k的抑制遮罩α k(i)如下:
請注意,上述方程式(13)僅是示例,而非本發明之限制,只要能滿足X k (i)及α k(i)之間的反比關係以及Pk及α k(i)之間的反比關
係,其他形式的方程式亦適用於該抑制遮罩計算單元553。簡言之,X k (i)的幅值越大以及/或Pk的幅值越大,包含在該目前語音頻譜代表式的頻格k的自我語音分量也越大,因此該抑制遮罩α k(i)的值要越小,以進行自我語音抑制。另一實施例中,類似於圖3E的三階段步驟,該目前語音頻譜代表式的頻格k的抑制遮罩α k是根據鄰近頻格k的L個頻格的L個匹配分數、L個平均語音功率值及L個平均乘積複數值來決定,舉例而言,計算單元25I先根據該L個頻格的L個匹配分數、L個平均語音功率值及L個平均乘積複數值計算出該L個頻格的L個抑制遮罩後,再計算該L個抑制遮罩的一平均值,最後再以該平均值當作該頻格k的抑制遮罩α k(i),其中,L>=1。
圖5D係根據本發明另一實施例,顯示一個具有一語音辨識模組及一骨傳導感應器的自我語音抑制裝置的方塊圖。相較於圖5A的自我語音抑制裝置50,訊號分離器301/303是以分析濾波器組301b/303b來實施,而訊號合成器302是以合成濾波器組302b來實施。圖5E係根據本發明一實施例,顯示計算單元25J的方塊圖。參考圖5E,本發明計算單元25J包含二個功率平滑單元391及392以及一抑制遮罩計算單元554。根據方程式(10)、匹配分數Pj、平均語音功率值ZP j [n]以及平均振動功率值XP j [n],抑制遮罩計算單元554利用下列方程式計算各通帶j(或各語音子頻帶訊號Z j [n])的抑制遮罩α j [n]如下:
其中,0<=α j [n]<=1、j是通帶索引及0<=j<=(M-1)。
請注意,上述方程式(14)僅是示例,而非本發明之限制,只要能滿足X j [n]及α j [n]之間的反比關係以及Pj及α j [n]之間的反比關係,其他形式的方程式亦適用於該抑制遮罩計算單元554。簡言之,X j [n]的幅值或功率值越大以及/或Pj的幅值越大,包含在語音子頻帶訊號Z j [n]的自我語音分量也越大,因此該抑制遮罩α j [n]的值要越小,以進行自我語音抑制。另一實施例中,類似於圖3E的三階段步驟,語音子頻帶訊號Z j [n]的抑制遮罩α j [n]是根據L個語音子頻帶訊號的L個匹配分數及L個平均語音功率值,以及L個振動子頻帶訊號的L個平均振動功率值來決定,其中該L個語音/振動子頻帶訊號的L個通帶係鄰近語音子頻帶訊號Z j [n]的通帶j。舉例而言,計算單元25J先根據該L個語音子頻帶訊號的L個匹配分數、L個平均語音功率值及L個平均乘積複數值計算出該L個語音子頻帶訊號的L個抑制遮罩後,再計算該L個抑制遮罩的一平均值,最後再以該平均值當作該語音子頻帶訊號Z j [n]的抑制遮罩α j [n],其中,L>=1。
顯然地,由於自我語音抑制裝置50/50A/50B同時具有語音辨識模組130B及自我語音指示模組130A,故可達到”抑制使用者語音分量及保留周遭環境聲音”的最佳效能。圖6係根據本發明,顯示一音訊訊號S1、一振動訊號S2以及一自我語音抑制訊號S3的波形關係。參考圖6,可以很清楚的看到,在有自我語音的情況(即使用者說話)下,相較於該振動訊號S2,該音訊訊號S1的音量異常的大聲,然而,該自我語音抑制訊號S3在經過本發明的自我語音抑制處理之後,音量已顯著降低。
上述本發明自我語音抑制裝置10/20/30/30A/30B/40/40A/40B/50/50A/50B可以軟體、硬體、或軟體(或韌體)及硬體的組合來實施,一單純解決方案的例子是現場可程式閘陣列(field programmable gate array)或一特殊應用積體電路(application specific integrated circuit)。一較佳實施例中,該抑制模組150/150A~150J及該放大單元120/120a係利用一個第一一般用途(general-purpose)處理器以及一第一程式記憶體來實施;該自我語音重建模組232利用一個第二一般用途處理器以及一第二程式記憶體來實施。該第一程式記憶體儲存一第一處理器可執行程式,而第二程式記憶體儲存一第二處理器可執行程式。當該第一一般用途理器執行該第一處理器可執行程式時,該第一一般用途處理器被組態(configured)以運作有如:該抑制模組150/150A~150J及該放大單元120/120a。當該第二一般用途處理器執行該第二處理器可執行程式時,該第二一般用途處理器被組態以運作有如:該自我語音重建模組232。
另一實施例中,該自我語音重建模組232、該抑制模組150/150A~150J及該放大單元120/120a係利用一個第三一般用途處理器以及一第三程式記憶體來實施。該第三程式記憶體儲存一第三處理器可執行程式。當該第三一般用途處理器執行該第三處理器可執行程式時,該第三一般用途處理器被組態以運作有如:該自我語音重建模組232、該抑制模組150/150A~150J及該放大單元120/120a。
上述僅為本發明之較佳實施例而已,而並非用以限定本發明的申請專利範圍;凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾,均應包含在下述申請專利範圍內。
110:空氣傳導感應器
120:放大單元
130:自我語音指示模組
150:抑制模組
Claims (38)
- 一種自我語音抑制裝置,適用於一助聽器,包含:一空氣傳導感應器,用以產生一音訊訊號;一自我語音指示模組,根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及一抑制模組,耦接至該空氣傳導感應器以及該自我語音指示模組,根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;其中該自我語音指示模組包含:一骨傳導感應器,用以量測由於使用者嘴巴的移動所引起的振動,以輸出一振動訊號;以及一自我語音重建模組,用以從該振動訊號中重建高頻分量,以產生一重建訊號當作一第一指示訊號;其中該抑制模組包含:一第一計算單元,根據該重建訊號以及該音訊訊號,產生時域的該音訊訊號的各取樣點的一第一抑制遮罩;一乘法器,將各第一抑制遮罩乘上該音訊訊號的對應取樣點,以產生該自我語音抑制訊號;其中該第一計算單元包含:一第一抑制遮罩計算單元,根據該音訊訊號的一目前取樣點及多個先前取樣點的一平均語音功率值以及該重建訊號的一目前取樣點及多個先前取樣點的一平均振動功率值,產生該音訊訊號的該目前取樣點之第一抑制遮罩; 其中,該第一抑制遮罩α與該重建訊號的該目前取樣點之幅值成反比關係以及0<=α<=1。
- 一種自我語音抑制裝置,適用於一助聽器,包含:一空氣傳導感應器,用以產生一音訊訊號;一自我語音指示模組,根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及一抑制模組,耦接至該空氣傳導感應器以及該自我語音指示模組,根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;其中該自我語音指示模組包含:一骨傳導感應器,用以量測由於使用者嘴巴的移動所引起的振動,以輸出一振動訊號;以及一自我語音重建模組,用以從該振動訊號中重建高頻分量,以產生一重建訊號當作一第一指示訊號;其中該抑制模組包含:一第一訊號分離器,耦接至該空氣傳導感應器,用以將該音訊訊號分成Q個第一訊號分量;一第二訊號分離器,耦接至該骨傳導感應器,用以將該重建訊號分成Q個第二訊號分量;一第二計算單元,耦接至該第一訊號分離器,用以產生該Q個第一訊號分量的Q個第二抑制遮罩; Q個乘法器,耦接在該第一訊號分離器以及該第二計算單元之間,分別將該Q個第二抑制遮罩乘上對應的第一訊號分量,以產生Q個乘積訊號;以及一第一訊號合成器,耦接至該Q個乘法器,根據該Q個乘積訊號,重建該自我語音抑制訊號,其中Q>=1。
- 如請求項2之裝置,其中該第一及該第二訊號分離器為轉換器,以及該第一訊號合成器為一逆轉換器,其中該Q個第一訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值以及該Q個第二訊號分量為一目前振動頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框以及該目前振動頻譜代表式對應該重建訊號之一目前音框。
- 如請求項3之裝置,其中該第二計算單元包含:一第二抑制遮罩計算單元,根據與該目前音訊頻譜代表式以及該目前振動頻譜代表式有關的L個頻格的L個平均語音功率值以及L個平均乘積複數值,產生該L個頻格的L個第二抑制遮罩,以及計算該L個第二抑制遮罩之一平均值,以當作一頻格k的第二抑制遮罩,其中該L個頻格係鄰近該頻格k、L>=1且0<=k<=(Q-1);其中,當L=1時,該頻格k的第二抑制遮罩與該目前振動頻譜代表式中該頻格k之一複數值之間成反比關係。
- 如請求項2之裝置,其中該第一及該第二訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第一訊號合成器為一合成濾波器組,其中該Q個第一訊號分量為該音訊訊號之一目前取樣 點於Q個不同通帶的Q個第一子頻帶訊號,以及該Q個第二訊號分量為為該重建訊號之一目前取樣點於該Q個不同通帶的Q個第二子頻帶訊號。
- 如請求項5之裝置,其中該第二計算單元包含:一第二抑制遮罩計算單元,根據L個第一子頻帶訊號的L個平均語音功率值以及L個第二子頻帶訊號的L個平均振動功率值,產生該L個第一子頻帶訊號的L個第二抑制遮罩,以及計算該L個第二抑制遮罩之一平均值,以當作對應一通帶j之第一子頻帶訊號的第二抑制遮罩α,其中該L個第一子頻帶訊號及該L個第二子頻帶訊號所對應的L個通帶係鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第一子頻帶訊號的第二抑制遮罩與對應該通帶j之該第二子頻帶訊號的幅值之間成反比關係。
- 如請求項2之裝置,其中該自我語音指示模組更包含:一語音辨識模組,根據該音訊訊號,產生該Q個第一訊號分量的Q個匹配分數,當作一第二指示訊號。
- 如請求項7之裝置,其中該語音辨識模組包含:一音訊嵌入提取單元,包含:一神經網路,用來將一使用者言詞轉換成一特色向量;以及一平均單元,於一註冊階段,將多個使用者言詞轉換成的多個特色向量進行平均,以產生一使用者向量;一儲存裝置,用以儲存該使用者向量;以及 一嵌入匹配計算單元,耦接該神經網路及該儲存裝置,於一評估階段,對來自該儲存裝置的使用者向量及該神經網路的特色向量進行餘弦相似度運算,以產生對應該Q個第一訊號分量的Q個匹配分數。
- 如請求項7之裝置,其中該第一及該第二訊號分離器為轉換器,以及該第一訊號合成器為一逆轉換器,其中該Q個第一訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值以及該Q個第二訊號分量為一目前振動頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框以及該目前振動頻譜代表式對應該重建訊號之一目前音框。
- 如請求項7之裝置,其中該第二計算單元包含:一第二抑制遮罩計算單元,根據L個頻格的L個匹配分數、與該目前音訊頻譜代表式以及該目前振動頻譜代表式有關的L個頻格的L個平均語音功率值以及L個平均乘積複數值,產生該L個頻格的L個第二抑制遮罩,以及計算該L個第二抑制遮罩之一平均值,當作一頻格k的第二抑制遮罩,其中該L個頻格鄰近該頻格k、L>=1且0<=k<=(Q-1);其中,當L=1時,該頻格k的第二抑制遮罩與該目前振動頻譜代表式之頻格k的一複數值之間成反比關係,以及,該頻格k的該第二抑制遮罩與該匹配分數之間成反比關係。
- 如請求項7之裝置,其中該第一及該第二訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第一訊號合成器為一合成濾波器組,其中該Q個第一訊號分量為該音訊訊號之一目前取 樣點於Q個不同通帶的Q個第一子頻帶訊號,以及該Q個第二訊號分量為該重建訊號之一目前取樣點於該Q個不同通帶的Q個第二子頻帶訊號。
- 如請求項11之裝置,其中該第二計算單元包含:一第二抑制遮罩計算單元,根據L個第一子頻帶訊號的L個匹配分數及L個平均語音功率值,以及L個第二子頻帶訊號的L個平均振動功率值,產生該L個第一子頻帶訊號的L個第二抑制遮罩,以及計算該L個第二抑制遮罩之一平均值,以當作對應一通帶j的第一子頻帶訊號的第二抑制遮罩α,其中該L個第一子頻帶訊號及該L個第二子頻帶訊號所對應的L個通帶係鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第一子頻帶訊號的第二抑制遮罩與對應該通帶j之第二子頻帶訊號的幅值之間成反比關係,以及,對應該通帶j之第一子頻帶訊號的第二抑制遮罩與匹配分數之間成反比關係。
- 一種自我語音抑制裝置,適用於一助聽器,包含:一空氣傳導感應器,用以產生一音訊訊號;一自我語音指示模組,根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及一抑制模組,耦接至該空氣傳導感應器以及該自我語音指示模組,根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;其中該自我語音指示模組更包含: 一語音辨識模組,根據該音訊訊號,產生Q個第三訊號分量的Q個匹配分數,當作該指示訊號,其中Q>=1。
- 如請求項13之裝置,其中該抑制模組包含:一第三訊號分離器,耦接至該空氣傳導感應器,用以將該音訊訊號分成該Q個第三訊號分量;一第三計算單元,耦接至該第三訊號分離器,用以產生該Q個第三訊號分量的Q個第三抑制遮罩;Q個乘法器,耦接在該第三訊號分離器以及該第三計算單元之間,分別將該Q個第三抑制遮罩乘上對應的訊號分量,以產生Q個乘積訊號;以及一第二訊號合成器,耦接至該Q個乘法器,根據該Q個乘積訊號,重建該自我語音抑制訊號。
- 如請求項14之裝置,其中該第三訊號分離器為一轉換器,以及該第二訊號合成器為一逆轉換器,其中該Q個第三訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框。
- 如請求項15之裝置,其中該第三計算單元包含:一第三抑制遮罩計算單元,根據L個頻格的L個匹配分數,產生該L個頻格的L個第三抑制遮罩,以及計算該L個第三抑制遮罩之一平均值,以當作一頻格k的第三抑制遮罩α,其中該L個頻格鄰近該頻格k、0<=α<=1、L>=1且0<=k<=(Q-1); 其中,當L=1時,該頻格k的第三抑制遮罩與匹配分數之間成反比關係。
- 如請求項14之裝置,其中該第三訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第二訊號合成器為一合成濾波器組,其中該Q個第三訊號分量為對應該音訊訊號之一目前取樣點於該Q個不同通帶的Q個第三子頻帶訊號。
- 如請求項17之裝置,其中該第三計算單元包含:一第三抑制遮罩計算單元,根據L個第三子頻帶訊號的L個匹配分數,產生該L個第三子頻帶訊號的L個第三抑制遮罩,以及計算該L個第三抑制遮罩之一平均值,以當作對應一通帶j之第三子頻帶訊號的第三抑制遮罩α,其中該L個第三子頻帶訊號所對應的L個通帶係鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第三子頻帶訊號的第三抑制遮罩與匹配分數之間成反比關係。
- 如請求項13之裝置,其中該語音辨識模組包含:一音訊嵌入提取單元,包含:一神經網路,用來將一使用者言詞轉換成一特色向量;以及一平均單元,於一註冊階段,將多個使用者言詞轉換成的多個特色向量進行平均,以產生一使用者向量;一儲存裝置,用以儲存該使用者向量;以及一嵌入匹配計算單元,耦接該神經網路及該儲存裝置,於一評估階段,對來自該儲存裝置的使用者向量及該神經網路的特色向量進行 餘弦相似度運算,以產生對應該Q個第三訊號分量的Q個匹配分數。
- 一種自我語音抑制方法,適用於一助聽器,包含:以一空氣傳導感應器提供一音訊訊號;根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;其中該產生該指示訊號步驟包含:以一骨傳導感應器量測因使用者嘴巴移動而引起的振動,以產生一振動訊號;以及從該振動訊號中重建高頻分量,以產生一重建訊號當作一第一指示訊號;其中該產生該自我語音抑制訊號步驟包含:根據該重建訊號以及該音訊訊號,產生時域的該音訊訊號的各取樣點的一第一抑制遮罩;將各第一抑制遮罩乘上該音訊訊號的對應取樣點,以產生該自我語音抑制訊號;其中該產生該第一抑制遮罩步驟包含:根據該音訊訊號的一目前取樣點及先前取樣點的一平均語音功率值以及該重建訊號的一目前取樣點及先前取樣點的一平均振動功率值,產生該音訊訊號的該目前取樣點之第一抑制遮罩α; 其中,該第一抑制遮罩與該重建訊號的該目前取樣點之幅值成反比關係以及0<=α<=1。
- 一種自我語音抑制方法,適用於一助聽器,包含:以一空氣傳導感應器提供一音訊訊號;根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;以及根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;其中該產生該指示訊號步驟包含:以一骨傳導感應器量測因使用者嘴巴移動而引起的振動,以產生一振動訊號;以及從該振動訊號中重建高頻分量,以產生一重建訊號當作一第一指示訊號;其中該產生該自我語音抑制訊號步驟包含:以一第一訊號分離器,將該音訊訊號分成Q個第一訊號分量;以一第二訊號分離器,將該重建訊號分成Q個第二訊號分量;產生該Q個第一訊號分量的Q個第二抑制遮罩;分別將該Q個第二抑制遮罩乘上對應的第一訊號分量,以產生Q個乘積訊號;以及以一第一訊號合成器,根據該Q個乘積訊號,重建該自我語音抑制訊號,其中Q>=1。
- 如請求項21之方法,其中該第一及該第二訊號分離器為轉換器,以及該第一訊號合成器為一逆轉換器,其中該Q個第 一訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值以及該Q個第二訊號分量為一目前振動頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框以及該目前振動頻譜代表式對應該重建訊號之一目前音框。
- 如請求項22之方法,其中該產生該Q個第二抑制遮罩步驟包含:根據與該目前音訊頻譜代表式及該目前振動頻譜代表式有關的L個頻格的L個平均語音功率值以及L個平均乘積複數值,產生該L個頻格的L個第二抑制遮罩;以及計算該L個第二抑制遮罩之一平均值,當作一頻格k的第二抑制遮罩,其中該L個頻格鄰近該頻格k、L>=1且0<=k<=(Q-1);其中,當L=1時,該頻格k的該第二抑制遮罩與該目前振動頻譜代表式之頻格k的一複數值之間成反比關係。
- 如請求項21之方法,其中該第一及該第二訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第一訊號合成器為一合成濾波器組,其中該Q個第一訊號分量為該音訊訊號之一目前取樣點於Q個不同通帶的Q個第一子頻帶訊號,以及該Q個第二訊號分量為該重建訊號之一目前取樣點於該Q個不同通帶的Q個第二子頻帶訊號。
- 如請求項24之方法,其中該產生該Q個第二抑制遮罩步驟包含: 根據L個第一子頻帶訊號的L個平均語音功率值以及L個第二子頻帶訊號的L個平均振動功率值,產生該L個第一子頻帶訊號的L個第二抑制遮罩;以及計算該L個第二抑制遮罩之一平均值,以當作對應一通帶j之第一子頻帶訊號的第二抑制遮罩α,其中該L個第一子頻帶訊號及該L個第二子頻帶訊號所對應的L個通帶係鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第一子頻帶訊號的該第二抑制遮罩與對應該通帶j之第二子頻帶訊號的幅值之間成反比關係。
- 如請求項21之方法,更包含:根據該音訊訊號,產生該Q個第一訊號分量的Q個匹配分數,當作一第二指示訊號。
- 如請求項26之方法,其中該產生該Q個匹配分數步驟包含:於一註冊階段中,以一神經網路將多個使用者言詞轉換成的多個特色向量;於該註冊階段中,對該些特色向量進行平均,以產生一使用者向量;於一評估階段中,以該神經網路將一使用者言詞轉換成一特色向量;以及於該評估階段,對該使用者向量及該特色向量進行餘弦相似度運算,以產生對應該Q個第一訊號分量的Q個匹配分數。
- 如請求項26之方法,其中該第一及該第二訊號分離器為轉換器,以及該第一訊號合成器為一逆轉換器,其中該Q個第一訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值以及該Q個第二訊號分量為一目前振動頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框以及該目前振動頻譜代表式對應該重建訊號之一目前音框。
- 如請求項28之方法,其中該產生該Q個第二抑制遮罩步驟包含:根據L個頻格的L個匹配分數、與該目前音訊頻譜代表式以及該目前振動頻譜代表式有關的L個頻格的L個平均語音功率值以及L個平均乘積複數值,產生該L個頻格的L個第二抑制遮罩;以及計算該L個第二抑制遮罩之一平均值,當作一頻格k的第二抑制遮罩,其中該L個頻格鄰近該頻格k、L>=1且0<=k<=(Q-1);其中,當L=1時,該頻格k的第二抑制遮罩與該目前振動頻譜代表式之頻格k的一複數值之間成反比關係,以及,該頻格k的該第二抑制遮罩與該匹配分數之間成反比關係。
- 如請求項29之方法,其中該第一及該第二訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第一訊號合成器為一合成濾波器組,其中該Q個第一訊號分量為該音訊訊號之一目前取樣點於Q個不同通帶的Q個第一子頻帶訊號,以及該Q個第二訊號分量為該重建訊號之一目前取樣點於該Q個不同通帶的Q個第二子頻帶訊號。
- 如請求項30之方法,其中該產生該Q個第二抑制遮罩步驟包含:根據L個第一子頻帶訊號的L個匹配分數及L個平均語音功率值,以及L個第二子頻帶訊號的L個平均振動功率值,產生該L個第一子頻帶訊號的L個第二抑制遮罩;以及計算該L個第二抑制遮罩之一平均值,以當作對應一通帶j的第一子頻帶訊號的第二抑制遮罩α,其中該L個第一子頻帶訊號及該L個第二子頻帶訊號所對應的L個通帶係鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第一子頻帶訊號的第二抑制遮罩與對應該通帶j之第二子頻帶訊號的幅值之間成反比關係,以及,對應該通帶j之第一子頻帶訊號的第二抑制遮罩與匹配分數之間成反比關係。
- 一種自我語音抑制方法,適用於一助聽器,包含:以一空氣傳導感應器提供一音訊訊號;根據使用者嘴巴振動資訊以及使用者語音特色向量比較結果之至少其一,產生一指示訊號;根據該音訊訊號以及該指示訊號,產生一自我語音抑制訊號;以及根據該音訊訊號,產生Q個第三訊號分量的Q個匹配分數,當作一第二指示訊號,其中Q>=1。
- 如請求項32之方法,其中該產生該自我語音抑制訊號步驟包含:以一第三訊號分離器將該音訊訊號分成該Q個第三訊號分量;產生該Q個第三訊號分量的Q個第三抑制遮罩;分別將該Q個第三抑制遮罩乘上對應的第三訊號分量,以產生Q個乘積訊號;以及以一第二訊號合成器,根據該Q個乘積訊號,重建該自我語音抑制訊號。
- 如請求項33之方法,其中該第三訊號分離器為一轉換器,以及該第二訊號合成器為一逆轉換器,其中該Q個第三訊號分量為一目前音訊頻譜代表式中Q個頻格的Q個頻譜值,以及其中該目前音訊頻譜代表式對應該音訊訊號之一目前音框。
- 如請求項34之方法,其中該產生該Q個第三抑制遮罩步驟包含:根據L個頻格的L個匹配分數,產生該L個頻格的L個第三抑制遮罩;以及計算該L個第三抑制遮罩之一平均值,當作一頻格k的第三抑制遮罩α,其中該L個頻格鄰近該頻格k、0<=α<=1、L>=1且0<=k<=(Q-1);其中,當L=1時,該頻格k的第三抑制遮罩與匹配分數之間成反比關係。
- 如請求項33之方法,其中該第三訊號分離器為具有Q個不同通帶的分析濾波器組,以及該第二訊號合成器為一合成濾波 器組,其中該Q個第三訊號分量為對應該Q個不同通帶的Q個第三子頻帶訊號。
- 如請求項36之方法,其中該產生該Q個第三抑制遮罩步驟包含:根據L個第三子頻帶訊號的L個匹配分數,產生該L個第三子頻帶訊號的L個第三抑制遮罩;以及計算該L個第三抑制遮罩之一平均值,當作對應一通帶j的第三子頻帶訊號的第三抑制遮罩α,其中該L個通帶鄰近該通帶j、0<=α<=1、L>=1且0<=j<=(Q-1);其中,當L=1時,對應該通帶j之第三子頻帶訊號的第三抑制遮罩與匹配分數之間成反比關係。
- 如請求項32之方法,其中該產生該Q個匹配分數步驟包含:於一註冊階段中,以一神經網路將多個使用者言詞轉換成的多個特色向量;於該註冊階段中,對該些特色向量進行平均,以產生一使用者向量;於一評估階段中,以該神經網路將一使用者言詞轉換成一特色向量;以及於該評估階段,對該使用者向量及該特色向量進行餘弦相似度運算,以產生對應該Q個第一訊號分量的Q個匹配分數。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063075310P | 2020-09-08 | 2020-09-08 | |
US63/075,310 | 2020-09-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202211210A TW202211210A (zh) | 2022-03-16 |
TWI767696B true TWI767696B (zh) | 2022-06-11 |
Family
ID=80470235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110117038A TWI767696B (zh) | 2020-09-08 | 2021-05-12 | 自我語音抑制裝置及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11622208B2 (zh) |
TW (1) | TWI767696B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114449394A (zh) * | 2020-11-02 | 2022-05-06 | 原相科技股份有限公司 | 听力辅助装置及调整听力辅助装置输出声音的方法 |
KR20220136750A (ko) * | 2021-04-01 | 2022-10-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
EP4131256A1 (en) * | 2021-08-06 | 2023-02-08 | STMicroelectronics S.r.l. | Voice recognition system and method using accelerometers for sensing bone conduction |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN105916090A (zh) * | 2016-05-31 | 2016-08-31 | 成都九十度工业产品设计有限公司 | 一种基于智能化语音识别技术的助听器系统 |
CN106782593A (zh) * | 2017-02-27 | 2017-05-31 | 重庆邮电大学 | 一种用于声学回声消除的多带结构自适应滤波器切换方法 |
TWI591624B (zh) * | 2014-11-12 | 2017-07-11 | 元鼎音訊股份有限公司 | 降低噪音之方法及其電腦程式產品及其電子裝置 |
JP6312826B2 (ja) * | 2013-11-28 | 2018-04-18 | ヴェーデクス・アクティーセルスカプ | 補聴器システムの動作方法および補聴器システム |
US10403306B2 (en) * | 2014-11-19 | 2019-09-03 | Sivantos Pte. Ltd. | Method and apparatus for fast recognition of a hearing device user's own voice, and hearing aid |
TWI671738B (zh) * | 2018-10-04 | 2019-09-11 | 塞席爾商元鼎音訊股份有限公司 | 聲音播放裝置及其降低噪音之方法 |
US10499167B2 (en) * | 2016-12-13 | 2019-12-03 | Oticon A/S | Method of reducing noise in an audio processing device |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022547525A (ja) * | 2019-09-12 | 2022-11-14 | シェンチェン ショックス カンパニー リミテッド | 音声信号を生成するためのシステム及び方法 |
US11438711B2 (en) * | 2020-05-01 | 2022-09-06 | Bose Corporation | Hearing assist device employing dynamic processing of voice signals |
DE102020209907A1 (de) * | 2020-08-05 | 2022-02-10 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörgeräts und Hörgerät |
-
2021
- 2021-05-12 TW TW110117038A patent/TWI767696B/zh active
- 2021-05-19 US US17/324,717 patent/US11622208B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6312826B2 (ja) * | 2013-11-28 | 2018-04-18 | ヴェーデクス・アクティーセルスカプ | 補聴器システムの動作方法および補聴器システム |
TWI591624B (zh) * | 2014-11-12 | 2017-07-11 | 元鼎音訊股份有限公司 | 降低噪音之方法及其電腦程式產品及其電子裝置 |
US10403306B2 (en) * | 2014-11-19 | 2019-09-03 | Sivantos Pte. Ltd. | Method and apparatus for fast recognition of a hearing device user's own voice, and hearing aid |
CN105869651A (zh) * | 2016-03-23 | 2016-08-17 | 北京大学深圳研究生院 | 基于噪声混合相干性的双通道波束形成语音增强方法 |
CN105916090A (zh) * | 2016-05-31 | 2016-08-31 | 成都九十度工业产品设计有限公司 | 一种基于智能化语音识别技术的助听器系统 |
US10499167B2 (en) * | 2016-12-13 | 2019-12-03 | Oticon A/S | Method of reducing noise in an audio processing device |
CN106782593A (zh) * | 2017-02-27 | 2017-05-31 | 重庆邮电大学 | 一种用于声学回声消除的多带结构自适应滤波器切换方法 |
TWI671738B (zh) * | 2018-10-04 | 2019-09-11 | 塞席爾商元鼎音訊股份有限公司 | 聲音播放裝置及其降低噪音之方法 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220078561A1 (en) | 2022-03-10 |
US11622208B2 (en) | 2023-04-04 |
TW202211210A (zh) | 2022-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI767696B (zh) | 自我語音抑制裝置及方法 | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP4403436B2 (ja) | 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム | |
JP2010224321A (ja) | 信号処理装置 | |
US9105270B2 (en) | Method and apparatus for audio signal enhancement in reverberant environment | |
EP3170172A1 (en) | Wind noise reduction for audio reception | |
US11647344B2 (en) | Hearing device with end-to-end neural network | |
US8223979B2 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
US7917359B2 (en) | Noise suppressor for removing irregular noise | |
Zheng et al. | Low-latency monaural speech enhancement with deep filter-bank equalizer | |
Shankar et al. | Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids | |
Liu et al. | Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction | |
JP3786038B2 (ja) | 入力信号処理方法および入力信号処理装置 | |
KR20160045692A (ko) | 가청 신호의 후기 잔향을 억제하기 위한 방법 | |
KR20050051435A (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
Vashkevich et al. | Petralex: A smartphone-based real-time digital hearing aid with combined noise reduction and acoustic feedback suppression | |
JP5327735B2 (ja) | 信号再生装置 | |
Upadhyay et al. | A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments | |
JP6790659B2 (ja) | 音響処理装置および音響処理方法 | |
Chokkarapu et al. | Implementation of spectral subtraction noise suppressor using DSP processor | |
RU2788939C1 (ru) | Способ и устройство для определения глубокого фильтра |