JPWO2013132926A1 - 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 - Google Patents
雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 Download PDFInfo
- Publication number
- JPWO2013132926A1 JPWO2013132926A1 JP2014503716A JP2014503716A JPWO2013132926A1 JP WO2013132926 A1 JPWO2013132926 A1 JP WO2013132926A1 JP 2014503716 A JP2014503716 A JP 2014503716A JP 2014503716 A JP2014503716 A JP 2014503716A JP WO2013132926 A1 JPWO2013132926 A1 JP WO2013132926A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- variance
- noise
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000001228 spectrum Methods 0.000 claims abstract description 64
- 206010002953 Aphonia Diseases 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
Description
図1を参照してIMCRAを説明する。従来技術の雑音推定装置90では、はじめに最小値追従型雑音推定部91において、観測信号のパワースペクトルのある時間区間での最小値を求めることにより、雑音信号の特性(パワースペクトル)を推定する(非特許文献2参照)。
図2は雑音推定装置10の機能ブロック図を、図3はその処理フローを示す。雑音推定装置10は尤度最大化部110と記憶部120とを含む。
尤度最大化部110は、最初のフレームの観測信号の複素スペクトルYiの受信を開始すると(s1)、各パラメータを以下のように初期化する(s2)。
尤度最大化基準で前述のパラメータを推定するためのアルゴリズムの導出を行う。はじめに、音声存在事前確率と音声不在事前確率をそれぞれα1=P(H1)、α0=P(H0)=1−α1、パラメータベクトルをθ=[σv 2,σx 2]Tと定義する。なお、σy 2,σx 2及びσv 2は、それぞれ観測信号、所望信号及び雑音信号の分散値を表すとともにパワースペクトルをも表している。
(参考文献1)L. Deng, J. Droppo, and A. Acero, “Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition”, IEEE Trans. Speech, Audio Process., Nov. 2003, vol. 11, pp. 568-580
再帰EMアルゴリズムのために、上記補助関数を変形した以下の補助関数Qi(α0,θ)を導入する。
図4は尤度最大化部110の機能ブロック図を、図5はその処理フローを示す。尤度最大化部110は、観測信号分散推定部111、事後確率推定部113、事前確率推定部115及び雑音信号分散推定部117を含む。
(観測信号分散推定部111)
観測信号分散推定部111は、直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、現在のフレームiの直前のフレーム(i−1)において推定された観測信号の第二分散値σ2 y,i−1,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ2 y,i,1を推定する。例えば、現在のフレームiにおける観測信号の複素スペクトルYiと、直前のフレーム(i−1)において推定された音声存在事後確率η1,i−1(α0,i−2,θi−2)及び観測信号の第二分散値σ2 y,i−1,2とを受け取り、これらの値を用いて、現在のフレームiにおける観測信号の第一分散値σ2 y,i,1を
観測信号分散推定部111は、第二分散値σ2 y,i,2を現在のフレームiにおける分散値σ2 y,iとして記憶部120に記憶する。
観測信号の音声不在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−1により定まるガウス分布に従うものと仮定し(式(5)参照)、観測信号の音声存在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−1と観測信号の第一分散値σ2 y,i,1とにより定まるガウス分布に従うものと仮定する(式(5)参照、なお、σ2 y,i,1=σ2 v,i−1+σ2 x,i−1)。事後確率推定部113は、現在のフレームiにおける観測信号の複素スペクトルYi及び観測信号の第一分散値σ2 y,i,1と、直前のフレーム(i−1)において推定された音声存在事前確率α1,i−1及び音声不在事前確率α0,i−1とを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を推定する。例えば、現在のフレームiにおける観測信号の複素スペクトルYi及び観測信号の第一分散値σ2 y,i,1と、直前のフレーム(i−1)において推定された音声存在事前確率α1,i−1、音声不在事前確率α0,i−1及び雑音信号の分散値σ2 v,i−1とを受け取り、これらの値を用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を
事前確率推定部115は、現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を(式(10)参照)、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する。例えば、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を受け取り、これらの値を用いて、音声存在事前確率α1,i及び音声不在事前確率α0,iを
雑音信号分散推定部117は、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、現在のフレームiの直前のフレーム(i−1)において推定された雑音信号の分散値σ2 v,i−1とを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ2 v,iを推定する。例えば、観測信号の複素スペクトルYiと、現在のフレームiにおいて推定された音声不在事後確率η0,i(α0,i−1,θi−1)と、直前のフレーム(i−1)において推定された雑音信号の分散値σ2 v,i−1とを受け取り、これらの値を用いて、現在のフレームiにおける雑音信号の分散値σ2 v,iを
なお、観測信号分散推定部111では、事後確率推定部113の処理後に現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−1,θi−1)を用いて上述のs45を行う。
本実施形態では、時々刻々と変化する雑音成分を尤度最大化基準で逐次推定できる。その結果、時変雑音への追従性が高くなり、精度の高い雑音除去を行えることが期待される。
本実施形態の効果を検証するため、雑音信号の逐次推定性能、推定した雑音成分を用いた雑音除去性能を、従来技術と比較し、評価する。
処理の初期化時に必要なパラメータλ及びκは、それぞれ0.96、0.99とした。
(参考文献2) P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
(参考文献3) Y. Ephraim, D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Sig. Process., Dec.1984, vol. ASSP-32, pp. 1109-1121
(参考文献4)P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
変調白色雑音環境下(図8参照)においては、雑音推定装置10は雑音推定装置90に対して大幅に優位な効果を示している。また、バブルノイズ環境下(図9参照)においても、雑音推定装置10は雑音推定装置90よりもわずかではあるが高い性能を示している。
本実施形態では、第一分散値σ2 y,i,1を求める過程(s41)において、β1,i−1を算出しているが、直前のフレーム(i−1)において第二分散値σ2 y,i−1,2を求める過程(s45)において算出されるβ1,i−1を記憶しておき利用してもよい。その場合には、音声存在事後確率η1,i(α0,i−1,θi−1)及び音声不在事後確率η0,i(α0,i−1,θi−1)を記憶部120に格納する必要はない。
また、本実施形態のs4では、Qi(α0,θ)が最大化されるように、各パラメータを求めているが、必ずしも一度で最大化される必要はなく、更新前の対数尤度log[αsp(Yi|Hs;θ)]に基づく値Qi(α0,θ)よりも、更新後の対数尤度log[αsp(Yi|Hs;θ)]に基づく値Qi(α0,θ)が大きくなるように各パラメータを求め、これを所定回数繰り返せば、尤度最大化基準におけるパラメータ推定が可能である。
上述した雑音推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
1.実環境で用いられる音声認識システム。
2.人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、及び機械と人間との対話装置。
3.人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽に重畳する雑音を除去して、楽曲を検索したり、採譜したりする音楽情報処理システム。
4.マイクロホンで収音した収音音声に重畳する雑音を除去し、相手側のスピーカで再生する音声通話システム。
Claims (15)
- 現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
雑音推定装置。 - 請求項1記載の雑音推定装置であって、
現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
雑音推定装置。 - 請求項1または2記載の雑音推定装置であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
ことを特徴とする雑音推定装置。 - 請求項1乃至3の何れかに記載の雑音推定装置であって、
τを1以上の整数とし、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された雑音信号の分散値σ2 v,i−τとを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ2 v,iを推定する雑音信号分散推定部を含む、
雑音推定装置。 - 請求項4記載の雑音推定装置であって、
過去のフレーム(i−τ)において推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ2 y,i,1を推定する第一観測信号分散推定部と、
観測信号の音声不在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τと観測信号の第一分散値σ2 y,i,1とにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYi及び観測信号の第一分散値σ2 y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定部と、
現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定部と、
現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第二分散値σ2 y,i,2を推定する第二観測信号分散推定部とを含む、
雑音推定装置。 - 請求項4記載の雑音推定装置であって、
観測信号の音声不在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τと観測信号の分散値σ2 y,iとにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の分散値σ2 y,i−τ、音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定部と、
現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定部と、
現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の分散値σ2 y,i−τとを重み付け加算して、現在のフレームiにおける観測信号の分散値σ2 y,iを推定する観測信号分散推定部とを含む、
雑音推定装置。 - 請求項5記載の雑音推定装置であって、
0<λ<1とし、τ’をτより大きい整数とし、前記第一観測信号分散推定部は、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを用いて、現在のフレームiにおける観測信号の第一分散値σ2 y,i,1を
として推定し、
s=0またはs=1とし、前記事後確率推定部は、現在のフレームiにおける観測信号の複素スペクトルYi及び観測信号の第一分散値σ2 y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ、音声不在事前確率α0,i−τ及び雑音信号の分散値σ2 v,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を
として推定し、
前記事前確率推定部は、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を用いて、音声存在事前確率α1,i及び音声不在事前確率α0,iを
として推定し、
前記雑音信号分散推定部は、観測信号の複素スペクトルYiと、現在のフレームiにおいて推定された音声不在事後確率η0,i(α0,i−τ,θi−τ)と、過去のフレーム(i−τ)において推定された雑音信号の分散値σ2 v,i−τとを用いて、現在のフレームiにおける雑音信号の分散値σ2 v,iを
として推定し、
前記第二観測信号分散推定部は、現在のフレームiにおける観測信号の複素スペクトルYiと、現在のフレームiにおいて推定された音声存在事後確率η1,i(α0,i−τ,θi−τ)と、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを用いて、現在のフレームiにおける観測信号の第二分散値σ2 y,i,2を
として推定する、
雑音推定装置。 - 現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
雑音推定方法。 - 請求項8記載の雑音推定方法であって、
現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
雑音推定方法。 - 請求項8または9記載の雑音推定方法であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
ことを特徴とする雑音推定方法。 - 請求項8乃至10の何れかに記載の雑音推定方法であって、
τを1以上の整数とし、現在のフレームiにおいて推定された音声不在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された雑音信号の分散値σ2 v,i−τとを重み付け加算して、現在のフレームiにおける雑音信号の分散値σ2 v,iを推定する雑音信号分散推定ステップを含む、
雑音推定方法。 - 請求項11記載の雑音推定方法であって、
過去のフレーム(i−τ)において推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第一分散値σ2 y,i,1を推定する第一観測信号分散推定ステップと、
観測信号の音声不在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τと観測信号の第一分散値σ2 y,i,1とにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYi及び観測信号の第一分散値σ2 y,i,1と、過去のフレーム(i−τ)において推定された音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定ステップと、
現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定ステップと、
現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の第二分散値σ2 y,i−τ,2とを重み付け加算して、現在のフレームiにおける観測信号の第二分散値σ2 y,i,2を推定する第二観測信号分散推定ステップとを含む、
雑音推定方法。 - 請求項11記載の雑音推定方法であって、
観測信号の音声不在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τにより定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルYiは雑音信号の分散値σ2 v,i−τと観測信号の分散値σ2 y,iとにより定まるガウス分布に従うものと仮定し、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の分散値σ2 y,i−τ、音声存在事前確率α1,i−τ及び音声不在事前確率α0,i−τとを用いて、現在のフレームiに対する音声存在事後確率η1,i(α0,i−τ,θi−τ)及び音声不在事後確率η0,i(α0,i−τ,θi−τ)を推定する事後確率推定ステップと、
現在のフレームiまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α1,i及び音声不在事前確率α0,iとして推定する事前確率推定ステップと、
現在のフレームiにおいて推定された音声存在事後確率に基づき、現在のフレームiにおける観測信号の複素スペクトルYiと、過去のフレーム(i−τ)において推定された観測信号の分散値σ2 y,i−τとを重み付け加算して、現在のフレームiにおける観測信号の分散値σ2 y,iを推定する観測信号分散推定ステップとを含む、
雑音推定方法。 - 請求項1から請求項7の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラム。
- 請求項1から請求項7の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014503716A JP5842056B2 (ja) | 2012-03-06 | 2013-01-30 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012049478 | 2012-03-06 | ||
JP2012049478 | 2012-03-06 | ||
PCT/JP2013/051980 WO2013132926A1 (ja) | 2012-03-06 | 2013-01-30 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JP2014503716A JP5842056B2 (ja) | 2012-03-06 | 2013-01-30 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013132926A1 true JPWO2013132926A1 (ja) | 2015-07-30 |
JP5842056B2 JP5842056B2 (ja) | 2016-01-13 |
Family
ID=49116412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014503716A Active JP5842056B2 (ja) | 2012-03-06 | 2013-01-30 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9754608B2 (ja) |
JP (1) | JP5842056B2 (ja) |
WO (1) | WO2013132926A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6339896B2 (ja) * | 2013-12-27 | 2018-06-06 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 雑音抑圧装置および雑音抑圧方法 |
EP3152756B1 (en) * | 2014-06-09 | 2019-10-23 | Dolby Laboratories Licensing Corporation | Noise level estimation |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2016092837A1 (ja) * | 2014-12-10 | 2016-06-16 | 日本電気株式会社 | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
CN106328151B (zh) * | 2015-06-30 | 2020-01-31 | 芋头科技(杭州)有限公司 | 一种环噪消除系统及其应用方法 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US9756512B2 (en) * | 2015-10-22 | 2017-09-05 | Qualcomm Incorporated | Exchanging interference values |
CN112017676A (zh) * | 2019-05-31 | 2020-12-01 | 京东数字科技控股有限公司 | 音频处理方法、装置和计算机可读存储介质 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
TWI716123B (zh) * | 2019-09-26 | 2021-01-11 | 仁寶電腦工業股份有限公司 | 除噪能力評估系統及方法 |
CN110600051B (zh) * | 2019-11-12 | 2020-03-31 | 乐鑫信息科技(上海)股份有限公司 | 用于选择麦克风阵列的输出波束的方法 |
CN113625146B (zh) * | 2021-08-16 | 2022-09-30 | 长春理工大学 | 一种半导体器件1/f噪声SαS模型参数估计方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2747870B1 (fr) * | 1996-04-19 | 1998-11-06 | Wavecom Sa | Signal numerique a blocs de reference multiples pour l'estimation de canal, procedes d'estimation de canal et recepteurs correspondants |
US7092436B2 (en) * | 2002-01-25 | 2006-08-15 | Mitsubishi Electric Research Laboratories, Inc. | Expectation-maximization-based channel estimation and signal detection for wireless communications systems |
US6944590B2 (en) * | 2002-04-05 | 2005-09-13 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
US8271277B2 (en) * | 2006-03-03 | 2012-09-18 | Nippon Telegraph And Telephone Corporation | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium |
US8244523B1 (en) * | 2009-04-08 | 2012-08-14 | Rockwell Collins, Inc. | Systems and methods for noise reduction |
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
US8700394B2 (en) * | 2010-03-24 | 2014-04-15 | Microsoft Corporation | Acoustic model adaptation using splines |
GB2482874B (en) * | 2010-08-16 | 2013-06-12 | Toshiba Res Europ Ltd | A speech processing system and method |
US8743658B2 (en) * | 2011-04-29 | 2014-06-03 | Siemens Corporation | Systems and methods for blind localization of correlated sources |
KR101247652B1 (ko) * | 2011-08-30 | 2013-04-01 | 광주과학기술원 | 잡음 제거 장치 및 방법 |
US8880393B2 (en) * | 2012-01-27 | 2014-11-04 | Mitsubishi Electric Research Laboratories, Inc. | Indirect model-based speech enhancement |
US9087513B2 (en) * | 2012-03-09 | 2015-07-21 | International Business Machines Corporation | Noise reduction method, program product, and apparatus |
-
2013
- 2013-01-30 WO PCT/JP2013/051980 patent/WO2013132926A1/ja active Application Filing
- 2013-01-30 JP JP2014503716A patent/JP5842056B2/ja active Active
- 2013-01-30 US US14/382,673 patent/US9754608B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP5842056B2 (ja) | 2016-01-13 |
WO2013132926A1 (ja) | 2013-09-12 |
US9754608B2 (en) | 2017-09-05 |
US20150032445A1 (en) | 2015-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
CN111161752B (zh) | 回声消除方法和装置 | |
Xu et al. | An experimental study on speech enhancement based on deep neural networks | |
JP4765461B2 (ja) | 雑音抑圧システムと方法及びプログラム | |
EP1515305A1 (en) | Noise adaption for speech recognition | |
JP5949550B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP6004792B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP2013037174A (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
KR20150093059A (ko) | 화자 검증 장치 및 방법 | |
KR20190037025A (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Dionelis et al. | Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
JP6142402B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
JP6521886B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
JP5683446B2 (ja) | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140814 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20140814 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20140814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5842056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |