JPWO2016038704A1 - Noise suppression device, noise suppression method, and noise suppression program - Google Patents
Noise suppression device, noise suppression method, and noise suppression program Download PDFInfo
- Publication number
- JPWO2016038704A1 JPWO2016038704A1 JP2016547306A JP2016547306A JPWO2016038704A1 JP WO2016038704 A1 JPWO2016038704 A1 JP WO2016038704A1 JP 2016547306 A JP2016547306 A JP 2016547306A JP 2016547306 A JP2016547306 A JP 2016547306A JP WO2016038704 A1 JPWO2016038704 A1 JP WO2016038704A1
- Authority
- JP
- Japan
- Prior art keywords
- noise
- spectrum
- suppression
- noise spectrum
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims description 53
- 238000001228 spectrum Methods 0.000 claims abstract description 494
- 238000004364 calculation method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 10
- 238000005311 autocorrelation function Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
- H04B1/10—Means associated with receiver for limiting or suppressing noise or interference
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成部6と、生成された目標雑音スペクトルに基づいて、入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算部7と、計算された抑圧量制限係数を用いて、スペクトル抑圧量を計算する抑圧量計算部9とを備える。A target noise spectrum generating unit 6 that generates a target noise spectrum from target noise spectrum candidates that are noise spectra corresponding to a plurality of frequency shapes generated in advance using information related to the input signal, and the generated target noise Based on the spectrum, a suppression amount limiting coefficient calculation unit 7 that calculates a suppression amount limiting coefficient that defines upper and lower limits of the amount of noise suppression included in the input signal, and spectrum suppression using the calculated suppression amount limiting coefficient And a suppression amount calculation unit 9 for calculating the amount.
Description
この発明は、入力信号に重畳した背景雑音を抑圧する雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラムに関するものである。 The present invention relates to a noise suppression device, a noise suppression method, and a noise suppression program that suppress background noise superimposed on an input signal.
近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話、自動車内でのハンズフリー音声通話、および音声認識によるハンズフリー操作が広く普及している。これらの機能を実現する装置は高騒音環境下で用いられることが多いため、マイクロホンに音声と共に背景雑音も入力されてしまい、通話音声の劣化および音声認識率の低下などを招く。そのため、快適な音声通話および高精度の音声認識を実現するには、入力信号に混入した背景雑音を抑圧する雑音抑圧処理が必要である。 With the recent progress of digital signal processing technology, outdoor voice calls using mobile phones, hands-free voice calls in automobiles, and hands-free operations using voice recognition have become widespread. Since a device that realizes these functions is often used in a high noise environment, background noise is also input to the microphone together with the voice, leading to deterioration of the call voice and a reduction in the voice recognition rate. Therefore, in order to realize a comfortable voice call and high-accuracy voice recognition, a noise suppression process that suppresses background noise mixed in the input signal is necessary.
従来の雑音抑圧方法としては、例えば、時間領域の入力信号を周波数領域の信号であるパワースペクトルに変換し、入力信号のパワースペクトルと、入力信号から別途推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧量を算出し、得られた抑圧量を用いて入力信号のパワースペクトルの振幅抑圧を行い、振幅抑圧されたパワースペクトルと入力信号の位相スペクトルを時間領域へ変換して雑音抑圧信号を得る方法がある(例えば、非特許文献1参照)。 As a conventional noise suppression method, for example, a time domain input signal is converted into a power spectrum which is a frequency domain signal, and noise suppression is performed using the power spectrum of the input signal and an estimated noise spectrum separately estimated from the input signal. The amount of suppression for the input signal is calculated, the amplitude of the power spectrum of the input signal is suppressed using the obtained amount of suppression, and the noise-suppressed signal is converted by converting the amplitude-suppressed power spectrum and the phase spectrum of the input signal into the time domain. (For example, refer nonpatent literature 1).
この従来の雑音抑圧方法では、音声のパワースペクトルと推定雑音パワースペクトルの比(SN比)に基づいて抑圧量を算出しているが、入力信号に重畳する雑音が時間・周波数方向にある程度定常な条件下で有効であり、時間・周波数方向で非定常な雑音が入力されると正しく抑圧量を算出することができず、ミュージカルトーンと呼ばれる耳障りな人工的な残留雑音が生じるという不具合があった。 In this conventional noise suppression method, the suppression amount is calculated based on the ratio (SN ratio) of the power spectrum of speech to the estimated noise power spectrum, but the noise superimposed on the input signal is somewhat steady in the time and frequency directions. It is effective under certain conditions, and when non-stationary noise is input in the time and frequency directions, the amount of suppression cannot be calculated correctly, and there is a problem that an unpleasant artificial residual noise called a musical tone occurs. .
上記の不具合に対し、例えば特許文献1には、雑音抑圧後の出力信号に対し、レベルを適宜調整した入力信号(原音)を付加することで、耳障りな残留雑音を聴感上目立たなくする方法が開示されている。
For example,
また、異なる方法として特許文献2には、安定した雑音抑圧をするために所定の1つの目標雑音スペクトルを予め設定し、残留雑音スペクトルが設定した目標雑音スペクトルに近づくよう雑音抑圧量を制御することにより、非定常騒音に対してもミュージカルノイズの発生を抑え、自然で安定した雑音抑圧を行う方法が開示されている。
As another method,
しかしながら、上述した特許文献1の技術では、出力信号に所定の加工信号を付加するため、出力信号の音色に変化が生じる、あるいは音声信号が雑音的になるなどの課題があった。
However, the technique disclosed in
また、上述した特許文献2の技術では、所定の帯域のパワーに基づいて雑音抑圧後の残留雑音のスペクトルを所定の1つの目標雑音スペクトルに近づけるように制御しているため、特許文献1の技術による新たな課題は発生しないものの、以下に示すような課題があった。
In the technique of
図14および図15を参照しながら、特許文献2の技術および当該技術による課題について説明する。図14および図15は特許文献2に記載の従来技術を模式的に示した図であり、縦軸は信号振幅(デシベル:dB)、横軸は周波数(0〜4000Hz)を示す。
図14は、車両が高速(時速70kmおよび時速160km)で走行した場合の車内雑音のスペクトルの様態を示す図である。スペクトルNaは車両が時速70kmで走行した場合における入力信号の推定雑音スペクトルを示し、スペクトルNbは車両が時速160kmで走行した場合における入力信号の推定雑音スペクトルを示す。ここで、入力信号の推定雑音スペクトルとは、入力信号に混入する走行騒音から推定されるスペクトルである。
領域Aおよび領域Bで示すように、車両の走行速度の違いによって、雑音の周波数特性に差異が生じる。図14で示した推定雑音スペクトルNa,Nbに対して、特許文献2に記載の従来技術を適用して雑音抑制を行った結果を図15に示す。With reference to FIG. 14 and FIG. 15, the technique of
FIG. 14 is a diagram illustrating a state of a spectrum of in-vehicle noise when the vehicle travels at a high speed (70 km / h and 160 km / h). The spectrum Na indicates the estimated noise spectrum of the input signal when the vehicle travels at a speed of 70 km / h, and the spectrum Nb indicates the estimated noise spectrum of the input signal when the vehicle travels at a speed of 160 km / h. Here, the estimated noise spectrum of the input signal is a spectrum estimated from running noise mixed in the input signal.
As indicated by region A and region B, a difference in the frequency characteristics of noise occurs due to the difference in the traveling speed of the vehicle. FIG. 15 shows the result of noise suppression performed by applying the prior art described in
図15(a)は時速70kmで走行中の車両内での雑音抑制を示し、図15(b)は時速160kmで走行中の車両内での雑音抑制を示している。
スペクトルNa,Nbは推定雑音スペクトルを示し、スペクトルRa,Rbは目標雑音スペクトルを示し、スペクトルSa,Sbは残留雑音スペクトルを示す。特許文献2に記載の雑音抑制方法では、基準抑圧量を決定する帯域Xa,Xbにおいて、残留雑音スペクトルSa,Sbのレベルを目標雑音スペクトルRa,Rbの振幅レベルに合うように、雑音抑圧のための最大抑圧量を制御する(帯域Xa,Xb内の位置Ya,Yb参照)。制御された最大抑圧量に基づいて、推定雑音スペクトルNa,Nbに対して雑音抑制を行う。具体的には、図15(a)の矢印Za1,Za2,Za3、図15(b)の矢印Zb1,Zb2,Zb3で示した方向へ、最大抑圧量に基づいた雑音抑制処理を行う。FIG. 15A shows noise suppression in the vehicle running at a speed of 70 km / h, and FIG. 15B shows noise suppression in the vehicle running at a speed of 160 km / h.
The spectra Na and Nb indicate estimated noise spectra, the spectra Ra and Rb indicate target noise spectra, and the spectra Sa and Sb indicate residual noise spectra. In the noise suppression method described in
雑音抑制処理を行った結果、図15(a)に示すように、入力信号の目標雑音スペクトルRaの形状およびパワーが、推定雑音スペクトルNaの形状およびパワーと概ね一致する場合には、雑音抑圧処理後の残留抑圧スペクトルSaは良好な結果を示す。 As a result of performing the noise suppression processing, as shown in FIG. 15A, when the shape and power of the target noise spectrum Ra of the input signal substantially coincide with the shape and power of the estimated noise spectrum Na, the noise suppression processing is performed. The subsequent residual suppression spectrum Sa shows good results.
一方、図15(b)に示すように、目標雑音スペクトルRbの形状およびパワーが、推定雑音スペクトルNbの形状およびパワーと大きく異なった場合、雑音抑圧処理後の残留雑音スペクトルSbと目標雑音スペクトルRbの形状およびパワーとが一致せず、残留雑音スペクトルSbを目標雑音スペクトルRbの周波数特性に合わせるように、さらに抑圧制御を行う。これにより、領域Cで示すように極端に抑圧過剰な帯域(矢印Zc参照)、あるいは領域Dで示すように極端に抑圧不足な帯域(矢印Zd参照)が発生する。これらの帯域により、音声に歪み、隠滅感および雑音感が生じるという課題があった。On the other hand, as shown in FIG. 15B, when the shape and power of the target noise spectrum Rb are significantly different from the shape and power of the estimated noise spectrum Nb, the residual noise spectrum Sb after the noise suppression processing and the target noise spectrum Rb Further, suppression control is further performed so that the residual noise spectrum Sb matches the frequency characteristic of the target noise spectrum Rb without matching the shape and power of. Thus, extremely suppressed (see the arrow Z c) excess bandwidth as indicated by a region C, or extremely insufficient suppression band (see arrow Z d) as indicated by a region D is generated. Due to these bands, there is a problem that the sound is distorted, obscured and noisy.
この発明は、上記のような課題を解決するためになされたもので、音声に歪みや隠滅感および雑音感が生じない良好な雑音抑制を行うことを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to perform excellent noise suppression without causing distortion, concealment, and noise.
この発明に係る雑音抑圧装置は、入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成部と、生成された目標雑音スペクトルに基づいて、入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算部と、計算された抑圧量制限係数を用いて、スペクトル抑圧量を計算する抑圧量計算部とを備えるものである。 A noise suppression device according to the present invention generates a target noise spectrum that generates a target noise spectrum from a target noise spectrum candidate that is a noise spectrum corresponding to a plurality of frequency shapes generated in advance using information related to an input signal. Based on the generated target noise spectrum, a suppression amount limiting coefficient calculation unit for calculating a suppression amount limiting coefficient that defines the upper and lower limits of the amount of noise suppression included in the input signal, and the calculated suppression amount limitation And a suppression amount calculation unit that calculates a spectrum suppression amount using the coefficient.
この発明によれば、極端に抑圧過剰および抑圧不足である帯域を発生させることなく、ミュージカルノイズの発生を抑え、音声に歪みや隠滅感および雑音感が生じない良好な雑音抑圧を行うことができる。 According to the present invention, it is possible to suppress the generation of musical noise without generating a band that is extremely over-suppressed or under-suppressed, and to perform good noise suppression that does not cause a distortion, a sense of concealment, and noise. .
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る雑音抑圧装置の構成を示すブロック図である。
実施の形態1の雑音抑圧装置100は、入力端子1、フーリエ変換部2、パワースペクトル計算部3、音声・雑音区間判定部4、雑音スペクトル推定部5、目標雑音スペクトル生成部6、抑圧量制限係数計算部7、SN比計算部8、抑圧量計算部9、スペクトル抑圧部10、逆フーリエ変換部11および出力端子12を備えている。
雑音抑圧装置100の入力、すなわち入力端子1への入力としては、マイクロホン(図示せず)などを通じて取り込まれた音声および音楽などの音声信号がA/D(アナログ・デジタル)変換された後、所定のサンプリング周波数(例えば、8kHz)でサンプリングされると共にフレーム単位(例えば、10ms)に分割された信号を用いる。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
FIG. 1 is a block diagram showing the configuration of the noise suppression apparatus according to the first embodiment.
The
As an input to the
入力端子1は上述した信号を取り込み、フーリエ変換部2は取り込まれた信号に対して高速フーリエ変換を行ってスペクトル成分X(λ,k)を取得する。パワースペクトル計算部3は、フーリエ変換部2が変換したスペクトル成分X(λ,k)からパワースペクトルY(λ,k)を計算する。音声・雑音区間判定部4は、パワースペクトル計算部3が計算したパワースペクトルY(λ,k)と、雑音スペクトル推定部5が1フレーム前に推定した推定雑音スペクトルN(λ−1,k)とを用いて、現フレームの音声信号が音声であるか、雑音であるかの判定を行う。
The
雑音スペクトル推定部5は、パワースペクトル計算部3が計算したパワースぺクトルY(λ,k)と、音声・雑音区間判定部4の判定結果とを用いて、現フレームの推定雑音スペクトルN(λ,k)を取得する。ここで、現フレームの推定雑音スペクトルとは、現フレームの入力信号に混入する騒音から推定されるスペクトルである。目標雑音スペクトル生成部6は、雑音スペクトル推定部5が取得した推定雑音スペクトルN(λ,k)から目標雑音スペクトルR(λ,k)を生成する。ここで、目標雑音スペクトルとは、入力信号のスペクトル成分X(λ,k)の雑音抑圧を行う際に、雑音抑圧処理の目標とするスペクトルである。抑圧量制限係数計算部7は、現フレームでの推定雑音スペクトルN(λ,k)に適合するように目標雑音スペクトルR(λ,k)のゲインを修正し、抑圧量制限係数Gfloor(λ,k)を計算する。The noise
SN比計算部8は、スペクトル成分毎の事後SNR(a posteriori SNR)と事前SNR(a priori SNR)を計算する。抑圧量計算部9は、SN比計算部8が計算した事後SNRγ(λ,k)および事前SNRξ(λ,k)と、抑圧量制限係数計算部7が計算した抑圧量制限係数Gfloor(λ,k)とを用いて、スペクトル毎の雑音抑圧量であるスペクトル抑圧量G(λ,k)を計算する。スペクトル抑圧部10は、スペクトル抑圧量G(λ,k)を用いてスペクトル成分X(λ,k)をスペクトル毎に抑圧し、雑音抑圧された音声信号スペクトルS(λ,k)を求める。逆フーリエ変換部11は、スペクトル抑圧部10が求めた音声信号スペクトルS(λ,k)を用いて逆フーリエ変換を行い、雑音抑圧された音声信号s(t)を得る。出力端子12は、雑音抑圧された音声信号s(t)を外部へ出力する。The S /
続いて、実施の形態1に係る雑音抑圧装置100の各構成の動作原理を、図1および図2に基づいて説明する。
図2は、実施の形態1に係る雑音抑圧装置100の動作を示すフローチャートである。
入力端子1は、上述した信号を取り込み、入力信号としてフーリエ変換部2に出力する(ステップST1)。フーリエ変換部2は、ステップST1で入力された入力信号に対して例えばハニング窓掛けを行った後、以下の式(1)を用いて例えば256点の高速フーリエ変換を行い、時間領域の信号x(t)からスペクトル成分X(λ,k)に変換する(ステップST2)。得られたスペクトル成分X(λ,k)は、パワースペクトル計算部3およびスペクトル抑圧部10にそれぞれ出力される。
X(λ,k)=FT[x(t)] (1)
式(1)において、λは入力信号をフレーム分割したときのフレーム番号、kはパワースペクトルの周波数帯域の周波数成分を指定する番号(以下、スペクトル番号と称する)、FT[・]はフーリエ変換処理を表す。また、tはサンプリングにおける離散時間番号を表す。Subsequently, the operation principle of each component of the
FIG. 2 is a flowchart showing the operation of the
The
X (λ, k) = FT [x (t)] (1)
In Expression (1), λ is a frame number when the input signal is divided into frames, k is a number that designates a frequency component of the frequency band of the power spectrum (hereinafter referred to as spectrum number), and FT [·] is a Fourier transform process. Represents. T represents a discrete time number in sampling.
パワースペクトル計算部3は、以下の式(2)を用いて、入力信号のスペクトル成分X(λ,k)からパワースペクトルY(λ,k)を計算する(ステップST3)。得られたパワースペクトルY(λ,k)は、後述する音声・雑音区間判定部4、雑音スペクトル推定部5、抑圧量制限係数計算部7およびSN比計算部8にそれぞれ出力される。
式(2)において、Re{X(λ,k)}およびIm{X(λ,k)}は、それぞれフーリエ変換後の入力信号スペクトルの実数部および虚数部を表す。The power spectrum calculation unit 3 calculates the power spectrum Y (λ, k) from the spectrum component X (λ, k) of the input signal using the following equation (2) (step ST3). The obtained power spectrum Y (λ, k) is output to a speech / noise section determining unit 4, a noise
In Equation (2), Re {X (λ, k)} and Im {X (λ, k)} represent the real part and the imaginary part of the input signal spectrum after Fourier transform, respectively.
音声・雑音区間判定部4は、パワースペクトル計算部3から入力されるパワースペクトルY(λ,k)と、後述する雑音スペクトル推定部5から入力される1フレーム前に推定された推定雑音スペクトルN(λ−1,k)とを用いて、現フレームλの入力信号が音声であるか雑音であるかの判定を行う(ステップST4)。現フレームλの入力信号が音声である場合(ステップST4;音声)、判定フラグを「1(音声)」にセットする(ステップST5)。一方、現フレームλの入力信号が雑音である場合(ステップST4;雑音)、判定フラグを「0(雑音)」にセットする(ステップST6)。ステップST5またはステップST6でセットされた判定フラグは、雑音スペクトル推定部5および後述する抑圧量制限係数計算部7へそれぞれ出力される。
The voice / noise section determination unit 4 includes a power spectrum Y (λ, k) input from the power spectrum calculation unit 3 and an estimated noise spectrum N estimated one frame before input from a noise
音声・雑音区間判定部4は、例えば、以下の式(3)および式(4)のどちらか一方、または両方を満たすか否かに基づいてステップST4の音声/雑音区間の判定を行う。式(3)および式(4)のどちらか一方、または両方を満たす場合には、音声であると判定して判定フラグVflagを「1(音声)」にセットする。一方、式(3)および式(4)の両方を満たさない場合には雑音であると判定して判定フラグVflagを「0(雑音)」にセットする。
For example, the voice / noise section determination unit 4 determines the voice / noise section in step ST4 based on whether or not one or both of the following formulas (3) and (4) are satisfied. When either or both of the expressions (3) and (4) are satisfied, it is determined that the sound is sound, and the determination flag Vflag is set to “1 (sound)”. On the other hand, when both of the expressions (3) and (4) are not satisfied, it is determined as noise and the determination flag Vflag is set to “0 (noise)”.
ここで、式(3)において、N(λ−1,k)は前フレームの推定雑音スペクトルであり、SpowとNpowはそれぞれ入力信号のパワースペクトルの総和、推定雑音スペクトルの総和である。また、式(4)において、ρmax(λ)は正規化自己相関関数の最大値である。さらに、THFR_SNおよびTHACFは、判定用の所定の定数閾値であり、好適な例としてはTHFR_SN=3.0およびTHACF=0.3であるが、入力信号の状態および雑音レベルに応じて適宜変更することもできる。Here, in Equation (3), N (λ-1, k) is the estimated noise spectrum of the previous frame, and S pow and N pow are the sum of the power spectrum and the estimated noise spectrum of the input signal, respectively. In the equation (4), ρ max (λ) is the maximum value of the normalized autocorrelation function. Further, TH FR_SN and TH ACF are predetermined constant threshold values for determination. As a preferable example, TH FR_SN = 3.0 and TH ACF = 0.3, but depending on the state of the input signal and the noise level Can be changed as appropriate.
なお、式(4)において正規化自己相関関数の最大値ρmax(λ)は、以下のように求めることができる。まず、式(5)を用いて、パワースペクトルY(λ,k)から正規化自己相関関数ρN(λ,τ)を求める。
ただし、ρ(λ,τ)=FT[Y(λ,k)]In Equation (4), the maximum value ρ max (λ) of the normalized autocorrelation function can be obtained as follows. First, a normalized autocorrelation function ρ N (λ, τ) is obtained from the power spectrum Y (λ, k) using Equation (5).
However, ρ (λ, τ) = FT [Y (λ, k)]
式(5)において、τは遅延時間であり、FT[・]は上述と同じフーリエ変換処理を表し、例えば上述した式(1)と同じポイント数=256にて高速フーリエ変換を行えばよい。なお、式(5)はウィナーヒンチン(Wiener−Khintchine)の定理であるため説明は省略する。 In Expression (5), τ is a delay time, and FT [•] represents the same Fourier transform process as described above. For example, fast Fourier transform may be performed with the same number of points = 256 as in Expression (1) described above. Note that the expression (5) is a Wiener-Khintchine theorem, and thus the description thereof is omitted.
次に、以下の式(6)を用いて、正規化自己相関関数の最大値ρmax(λ)を得る。
ここで、式(6)は、τ=16〜96の範囲で正規化自己相関関数ρN(λ,τ)の最大値を検索することを意味している。なお、自己相関関数の分析には、式(5)に示した方法の他、ケプストラム分析など公知の手法を用いることができる。Next, the maximum value ρ max (λ) of the normalized autocorrelation function is obtained using the following equation (6).
Here, equation (6) means that the maximum value of the normalized autocorrelation function ρ N (λ, τ) is searched in the range of τ = 16 to 96. For the analysis of the autocorrelation function, a known method such as cepstrum analysis can be used in addition to the method shown in Equation (5).
雑音スペクトル推定部5は、パワースペクトル計算部3から入力されるパワースペクトルY(λ,k)と、音声・雑音区間判定部4から入力される判定フラグVflagを用いて、以下の式(7)および判定フラグVflagに従って雑音スペクトルの推定と更新を行い、現フレームの推定雑音スペクトルN(λ,k)を出力する(ステップST7,8;詳細は後述する)。推定雑音スペクトルN(λ,k)は、目標雑音スペクトル生成部6、抑圧量制限係数計算部7およびSN比計算部8へそれぞれ出力されると共に、上述したように音声・雑音区間判定部4へも前フレームの推定雑音スペクトルN(λ−1,k)として出力される。
式(7)において、N(λ−1,k)は前フレームにおける推定雑音スペクトルであり、雑音スペクトル推定部5内のRAM(Random Access Memory)などの記憶手段(不図示)に保持されている。また、αは更新係数であり、0<α<1の範囲の所定の定数である。好適な例としてはα=0.95であるが、入力信号の状態および雑音レベルに応じて適宜変更することも可能である。The noise
In Expression (7), N (λ-1, k) is an estimated noise spectrum in the previous frame, and is held in a storage unit (not shown) such as a RAM (Random Access Memory) in the noise
式(7)において、判定フラグVflag=1の場合(ステップST5)には、現フレームの入力信号が雑音ではなく音声であると判定されていることから、前フレームの推定雑音スペクトルN(λ−1,k)をそのまま現フレームの推定雑音スペクトルN(λ,k)として出力する(ステップST7)。
一方、判定フラグVflag=0の場合(ステップST6)には、現フレームの入力信号が雑音であると判定されていることから、入力信号のパワースペクトルY(λ,k)と更新係数αを用いて、前フレームの推定雑音スペクトルN(λ−1,k)の更新を行い、現フレームの推定雑音スペクトルN(λ,k)として出力する(ステップST8)。In the expression (7), when the determination flag Vflag = 1 (step ST5), since it is determined that the input signal of the current frame is not a noise but a speech, the estimated noise spectrum N (λ− 1, k) is output as it is as the estimated noise spectrum N (λ, k) of the current frame (step ST7).
On the other hand, when the determination flag Vflag = 0 (step ST6), since the input signal of the current frame is determined to be noise, the power spectrum Y (λ, k) of the input signal and the update coefficient α are used. Then, the estimated noise spectrum N (λ-1, k) of the previous frame is updated and output as the estimated noise spectrum N (λ, k) of the current frame (step ST8).
目標雑音スペクトル生成部6は、雑音スペクトル推定部5から入力される推定雑音スペクトルN(λ,k)を用いて、後述する抑圧量制限係数を計算するために必要な目標雑音スペクトルR(λ,k)を生成する(ステップST9)。生成された目標雑音スペクトルR(λ,k)は、抑圧量制限係数計算部7に出力される。なお、目標雑音スペクトル生成部6の詳細については後述する。
The target
抑圧量制限係数計算部7は、目標雑音スペクトル生成部6から入力される目標雑音スペクトルR(λ,k)、パワースペクトル計算部3から入力されるパワースペクトルY(λ,k)、雑音スペクトル推定部5から入力される推定雑音スペクトルN(λ,k)、音声・雑音区間判定部4から入力される判定フラグVflagおよびユーザが設定する所定の値である最大抑圧ゲイン量GMINを用いて、現フレームでの推定雑音スペクトルN(λ,k)に適合するように目標雑音スペクトルR(λ,k)のゲインを修正して抑圧量制限係数Gfloor(λ,k)を計算する(ステップST10)。計算された抑圧量制限係数Gfloor(λ,k)は、抑圧量計算部9に出力される。なお、抑圧量制限係数計算部7の詳細については後述する。The suppression amount limiting
SN比計算部8は、パワースペクトル計算部3から入力されるパワースペクトルY(λ,k)、雑音スペクトル推定部5から入力される推定雑音スペクトルN(λ,k)、および後述する抑圧量計算部9から入力される前フレームのスペクトル抑圧量G(λ−1,k)を用いて、スペクトル成分毎の事後SNR(a posteriori SNR)と事前SNR(a priori SNR)を計算する(ステップST11)。計算された事後SNRγ(λ,k)および事前SNRξ(λ,k)はそれぞれ抑圧量計算部9へ出力される。
The S / N
事後SNRγ(λ,k)は、パワースペクトルY(λ,k)と推定雑音スペクトルN(λ,k)とを用いて、以下の式(8)より求めることができる。
The a posteriori SNRγ (λ, k) can be obtained from the following equation (8) using the power spectrum Y (λ, k) and the estimated noise spectrum N (λ, k).
また、事前SNRξ(λ,k)は、前フレームのスペクトル抑圧量G(λ−1,k)と、前フレームの事後SNRγ(λ−1,k)とを用いて、以下の式(9)より求めることができる。
式(9)において、δは忘却係数であって0<δ<1の範囲の所定の定数であり、この実施の形態1ではδ=0.98が好適である。また、F[・]は半波整流を意味し、事後SNRγ(λ,k)がデシベル値で負の場合に値をゼロにフロアリング(flooring)するものである。Further, the prior SNRξ (λ, k) is expressed by the following equation (9) using the spectral suppression amount G (λ−1, k) of the previous frame and the posterior SNRγ (λ−1, k) of the previous frame. It can be obtained more.
In equation (9), δ is a forgetting factor and is a predetermined constant in the range of 0 <δ <1, and in the first embodiment, δ = 0.98 is preferable. F [·] means half-wave rectification, and when the posterior SNRγ (λ, k) is negative in decibels, the value is floored to zero.
抑圧量計算部9は、SN比計算部8から入力される事前SNRξ(λ,k)および事後SNRγ(λ,k)と、抑圧量制限係数計算部7から入力される抑圧量制限係数Gfloor(λ,k)とを用いて、スペクトル毎の雑音抑圧量であるスペクトル抑圧量G(λ,k)を計算する(ステップST12)。計算されたスペクトル抑圧量G(λ,k)は、スペクトル抑圧部10へ出力される。The suppression
抑圧量計算部9においてスペクトル抑圧量G(λ,k)を求める手法としては、例えばJoint MAP(Maximum A Posteriori)法を適用することができる。Joint MAP法は、雑音信号と音声信号をガウス分布であると仮定してスペクトル抑圧量G(λ,k)を推定する方法であり、事前SNRξ(λ,k)および事後SNRγ(λ,k)を用いて、条件付き確率密度関数を最大にする振幅スペクトルと位相スペクトルを求め、その値を推定値として利用する。この構成の場合、スペクトル抑圧量GTMP(λ,k)は、確率密度関数の形状を決定するνとμをパラメータとして、以下の式(10)で表すことができる。
As a technique for obtaining the spectrum suppression amount G (λ, k) in the suppression
抑圧量計算部9は、上式(10)にて仮のスペクトル抑圧量GTMP(λ,k)を得た後、抑圧量制限係数Gfloor(λ,k)と以下の式(11)を用いてスペクトルゲインの最小値の制限であるフロアリング処理を行い、スペクトル抑圧量G(λ,k)を得る。
After obtaining the provisional spectrum suppression amount G TMP (λ, k) by the above equation (10), the suppression
なお、Joint MAP法におけるスペクトル抑圧量導出法の詳細については、以下の参考文献1を参照することとし、ここでは説明を省略する。
[参考文献1]
T.Lotter, P.Vary,“Speech Enhancement by MAP Spectral Amplitude Using a Super−Gaussian Speech Model”,EURASIP Journal on Applied Signal Processing,pp.1110−1126,No.7,2005For details of the spectrum suppression amount derivation method in the Joint MAP method, refer to
[Reference 1]
T.A. Lotter, P.M. Vary, “Speech Enhancement by MAP Spectral Amplitude Usage a Super-Gaussian Speech Model”, EURASIP Journal on Applied Signal Processing. 1110-1126, no. 7, 2005
スペクトル抑圧部10は、抑圧量計算部9から入力されるスペクトル抑圧量G(λ,k)を用いて、以下の式(12)に従って、入力信号のスペクトル成分X(λ,k)をそのスペクトル毎に抑圧して、雑音抑圧された音声信号スペクトルS(λ,k)を求める(ステップST13)。求めた音声信号スペクトルS(λ,k)は、逆フーリエ変換部11へ出力される。
The
逆フーリエ変換部11は、スペクトル抑圧部10から入力される音声信号スペクトルS(λ,k)を用いて逆フーリエ変換し、前フレームの出力信号と重ね合わせ処理を行い、雑音抑圧された音声信号s(t)を得る(ステップST14)。雑音抑圧された音声信号s(t)は出力端子12へ出力され、出力端子12は雑音抑圧された音声信号s(t)を外部へ出力し(ステップST15)、処理を終了する。
The inverse
次に、目標雑音スペクトル生成部6の詳細な構成および動作を図3から図5を参照しながら説明する。
まず、目標雑音スペクトル生成部6の構成について説明する。
図3は、実施の形態1に係る雑音抑圧装置100の目標雑音スペクトル生成部6の構成を示すブロック図である。
目標雑音スペクトル生成部6は、雑音パワー計算部61、目標雑音スペクトル選択部62および目標雑音スペクトルメモリ63を備える。Next, the detailed configuration and operation of the target noise
First, the configuration of the target noise
FIG. 3 is a block diagram illustrating a configuration of the target noise
The target noise
雑音パワー計算部61は、雑音スペクトル推定部5から入力される推定雑音スペクトルN(λ,k)を用いて、入力信号スペクトル中の雑音パワーPN(λ)を計算する。目標雑音スペクトル選択部62は、目標雑音スペクトルメモリ63を参照し、雑音パワーPN(λ)に対応する目標雑音スペクトルR(λ,k)を選択する。目標雑音スペクトルメモリ63は、雑音パワーのパタンで分類された1以上の様々な周波数形状の雑音スペクトルを目標雑音スペクトルとして蓄積する。The noise
次に、目標雑音スペクトルメモリ63が蓄積する目標雑音スペクトルについて図4を参照しながら説明する。
図4は、実施の形態1に係る雑音抑圧装置100の目標雑音スペクトルメモリ63が蓄積する目標雑音スペクトルの一例を示す図である。図4の例では、縦軸は信号振幅(デシベル:dB)、横軸は周波数(0〜4000Hz)を示し、狭帯域電話音声(0〜4000Hz)における雑音抑制を想定した場合を示している。Next, the target noise spectrum stored in the target
FIG. 4 is a diagram illustrating an example of the target noise spectrum stored in the target
図4に示す例では、車両の走行速度を雑音パワーに対応付け、各雑音パワーに対応した複数の目標雑音スペクトルを示している。具体的には、車両の走行速度が時速70kmの場合の目標雑音スペクトルRS1(k)、車両の走行速度が時速130kmの場合の目標雑音スペクトルRS2(k)、車両の走行速度が時速160kmの場合の目標雑音スペクトルRS3(k)、車両の走行速度が時速190kmの場合の目標雑音スペクトルRS4(k)を示している。なお、図4では、車両の走行速度で分類した目標雑音スペクトルを示したが、車両の走行速度に限られるものではなく、例えばエアコンの風量、窓や屋根の開閉情報、エンジンの回転数などに基づいて分類した目標雑音スペクトルを蓄積するように構成してもよい。In the example shown in FIG. 4, the traveling speed of the vehicle is associated with the noise power, and a plurality of target noise spectra corresponding to each noise power are shown. Specifically, when the traveling speed of the vehicle is at a speed of 70km target noise spectrum R S1 (k), a target noise spectrum R S2 when the traveling speed of the vehicle is at a speed of 130 km (k), the running speed of the vehicle speed 160km The target noise spectrum R S3 (k) in the case of, and the target noise spectrum R S4 (k) when the vehicle traveling speed is 190 km / h are shown. In FIG. 4, the target noise spectrum classified according to the vehicle traveling speed is shown. However, the target noise spectrum is not limited to the vehicle traveling speed. For example, the air volume of the air conditioner, the opening / closing information of windows and roofs, the engine speed, You may comprise so that the target noise spectrum classified based on may be accumulate | stored.
次に、目標雑音スペクトル生成部6の動作について図5を参照しながら説明する。
図5は、実施の形態1に係る雑音抑圧装置100の目標雑音スペクトル生成部6の動作を示すフローチャートであり、図2のフローチャートのステップST9の処理をより詳細に示したものである。
雑音パワー計算部61は、雑音スペクトル推定部5から推定雑音スペクトルN(λ,k)が入力されると(ステップST21)、入力された推定雑音スペクトルN(λ,k)を用いて、以下の式(13)に基づいて入力信号スペクトル中の雑音パワーPN(λ)を計算する(ステップST22)。計算された雑音パワーPN(λ)は分析結果として目標雑音スペクトル選択部62に出力される。
式(13)において、Nはスペクトルの個数であり、N=128とする。Next, the operation of the target noise
FIG. 5 is a flowchart showing the operation of the target noise
When the estimated noise spectrum N (λ, k) is input from the noise spectrum estimation unit 5 (step ST21), the noise
In Equation (13), N is the number of spectra, and N = 128.
目標雑音スペクトル選択部62は、目標雑音スペクトルメモリ63を参照し、以下の式(14)に基づいて雑音パワー計算部61が計算した雑音パワーPN(λ)に対応する目標雑音スペクトルR(λ,k)を選択する(ステップST23)。選択した目標雑音スペクトルR(λ,k)は、抑圧量制限係数計算部7に出力される。
The target noise
式(14)において、THN1、THN2、THN3は、例えば車両の走行速度が時速70km、130km、160kmにおける雑音パワーPN(λ)に関する所定の閾値を示す。なお、車両の走行速度に固定されることはなく、雑音抑圧装置100の使用形態に応じ、車両の走行速度以外に入力信号の状態および雑音レベルに応じて、各閾値の値を適宜変更する、あるいは閾値条件を追加したりすることができる。ここで、雑音抑圧装置100の使用形態とは、例えば上述したエアコンの風量、窓や屋根の開閉情報、エンジンの回転数などである。In Expression (14), TH N1 , TH N2 , and TH N3 indicate predetermined threshold values relating to the noise power P N (λ) when the vehicle traveling speed is 70 km, 130 km, and 160 km per hour, for example. In addition, the travel speed of the vehicle is not fixed, and the value of each threshold is appropriately changed according to the state of the input signal and the noise level in addition to the travel speed of the vehicle, according to the usage mode of the
次に、抑圧量制限係数計算部7の詳細な構成および動作を図6および図7を参照しながら説明する。
図6は、実施の形態1に係る雑音抑圧装置100の抑圧量制限係数計算部7の構成を示すブロック図である。
抑圧量制限係数計算部7は、パワー計算部71および係数補正部72を備える。
パワー計算部71は、目標雑音スペクトルR(λ,k)のパワーPOWR(λ)を計算し、推定雑音スペクトルN(λ,k)のパワーPOWN(λ)を計算する。係数補正部72は、パワー計算部71が計算したパワーPOWR(λ)およびパワーPOWN(λ)から目標雑音スペクトルR(λ,k)の修正量D(λ)を決定し、決定した修正量D(λ)を用いて目標雑音スペクトルR(λ,k)のゲイン修正を行う。さらにゲイン修正した目標雑音スペクトルRADJ(λ,k)と入力信号のパワースペクトルY(λ,k)とに基づいて抑圧量制限係数Gfloor(λ,k)を計算する。Next, the detailed configuration and operation of the suppression amount limiting
FIG. 6 is a block diagram illustrating a configuration of the suppression amount limiting
The suppression amount limiting
The
図7は、実施の形態1に係る雑音抑圧装置100の抑圧量制限係数計算部7の動作を示すフローチャートであり、図2のフローチャートで示したステップST10の処理をより詳細に示したものである。
パワー計算部71は、目標雑音スペクトル生成部6から目標雑音スペクトルR(λ,k)、雑音スペクトル推定部5から入力された推定雑音スペクトルN(λ,k)が入力されると(ステップST31)、以下の式(15)に基づいて、目標雑音スペクトルR(λ,k)のパワーPOWR(λ)を計算し(ステップST32)、また、推定雑音スペクトルN(λ,k)のパワーPOWN(λ)を計算する(ステップST33)。計算されたパワーPOWR(λ),POWN(λ)は、係数補正部72に出力される。
式(15)において、POWR(λ)は現フレームの目標雑音スペクトルR(λ,k)のパワー、POWN(λ)は現フレームの推定雑音スペクトルN(λ,k)のパワーであり、また、N=128である。FIG. 7 is a flowchart showing the operation of the suppression amount limiting
When the target noise spectrum R (λ, k) is input from the target noise
In Equation (15), POW R (λ) is the power of the target noise spectrum R (λ, k) of the current frame, POW N (λ) is the power of the estimated noise spectrum N (λ, k) of the current frame, N = 128.
係数補正部72は、以下の式(16)に基づいて、目標雑音スペクトルのパワーPOWR(λ)と、推定雑音スペクトルのパワーPOWN(λ)に最大抑圧ゲイン量GMINを乗算した値とを比較し(ステップST34)、比較結果に応じて目標雑音スペクトルR(λ,k)の修正量D(λ)を決定する(ステップST35)。
式(16)において、DUPおよびDDOWNは所定の定数であり、この実施の形態1ではDUP=1.05,DDOWN=0.95がそれぞれ好適であるが、雑音の種類および雑音レベルに応じて適宜変更することが可能である。また、DUP,DDOWNの値はそれぞれ1種類だけに限らず、複数個用いて修正量D(λ)を決定するように構成してもよい。例えば、上式(16)ではパワーの大小比較だけで修正量D(λ)を決定しているが、パワーの差が所定の閾値より大きい(または小さい)場合に、DUP=1.2(または小さい場合にDDOWN=0.8)として、より大きな修正量D(λ)を設定するように構成してもよい。このように、パワーの差によって修正量D(λ)の値を変更することで、修正誤差をより小さくすると共に、修正速度を速くすることができる。The
In the equation (16), D UP and D DOWN are predetermined constants. In the first embodiment, D UP = 1.05 and D DOWN = 0.95 are preferable, respectively. It is possible to change appropriately according to. Further, the values of D UP and D DOWN are not limited to only one type, and a plurality of values may be used to determine the correction amount D (λ). For example, in the above equation (16), the correction amount D (λ) is determined only by comparing the power levels, but when the power difference is larger (or smaller) than a predetermined threshold, D UP = 1.2 ( Alternatively, a smaller correction amount D (λ) may be set as D DOWN = 0.8) when smaller. Thus, by changing the value of the correction amount D (λ) according to the power difference, the correction error can be further reduced and the correction speed can be increased.
なお、この実施の形態1においては、上式(15)において全帯域のパワーを求める構成を示したが、当該構成に限定されるものではなく、一部の帯域成分、例えば、200Hz〜800Hzのパワーを求め、上式(16)においてパワーの比較を行うことも可能である。 In the first embodiment, the configuration for obtaining the power of the entire band is shown in the above equation (15). However, the configuration is not limited to this configuration, and some band components, for example, 200 Hz to 800 Hz are used. It is also possible to obtain the power and compare the power in the above equation (16).
続いて、係数補正部72は、以下の式(17)に基づいて、得られた修正量D(λ)を用いて目標雑音スペクトルR(λ,k)のゲインの修正を行い、ゲイン修正した目標雑音スペクトルRADJ(λ,k)を得る(ステップST36)。
Subsequently, the
また、音声・雑音区間判定部4が出力する判定フラグVflag=1の場合、即ち、現フレームが音声と判定されている場合、上式(17)によるゲインの修正を行わないように構成してもよい。このように判定フラグVflagによってゲイン補正を制御することで、誤って推定雑音に音声が混入した場合に、不要なゲイン補正を抑制することができ、安定した目標雑音スペクトルを得ることができる。 Further, when the determination flag Vflag = 1 output from the speech / noise section determination unit 4, that is, when the current frame is determined to be speech, the gain is not corrected by the above equation (17). Also good. By controlling the gain correction using the determination flag Vflag in this manner, unnecessary gain correction can be suppressed and a stable target noise spectrum can be obtained when speech is erroneously mixed in the estimated noise.
最後に、係数補正部72は、ゲイン修正した目標雑音スペクトルRADJ(λ,k)と、パワースペクトル計算部3が出力する入力信号のパワースペクトルY(λ,k)とを入力に用い、以下の式(18)および式(19)に基づいて抑圧量制限係数Gfloor(λ,k)を計算する(ステップST37)。以下の式(18)は抑圧量の上限と下限を決定する式であり、以下の式(19)は抑圧量制限係数のフレーム間平滑を行う式である。得られた抑圧量制限係数Gfloor(λ,k)は、抑圧量計算部9へ出力される。
式(18)において、GMAXは最小抑圧ゲイン量、即ち、この雑音抑圧装置100の「最小」の抑圧量となる1以下の所定の定数、GMINは前述した最大抑圧ゲイン量、即ち、この雑音抑圧装置の「最大」の抑圧量となる1以下の所定の定数である。また、βは所定の平滑化係数を表し、β=0.1が好適である。Finally, the
In Expression (18), GMAX is a minimum suppression gain amount, that is, a predetermined constant equal to or less than 1 that is the “minimum” suppression amount of the
図8は、実施の形態1に係る雑音抑圧装置100の出力信号である残留雑音スペクトル、即ち、音声信号スペクトルS(λ,k)の一例を模式的に表した図である。図8は、縦軸は信号振幅(デシベル:dB)、横軸は周波数(0〜4000Hz)を示し、雑音抑圧対象が狭帯域電話音声(0〜4000Hz)である場合を例に説明を行う。また、図8(a)は車両の走行速度が時速70kmの場合を示し、図8(b)は車両の走行速度が時速160kmの場合を示している。
図8(a),(b)において、スペクトルN1,N2は推定雑音スペクトルを示し、スペクトルRADJ1,RADJ2は目標雑音スペクトルを示し、スペクトルS1,S2はこの実施の形態1による残留雑音スペクトル、即ち音声信号スペクトルを示している。図8(a)および図8(b)共に、得られた残留雑音スペクトルS1,S2は、目標雑音スペクトルRADJ1,RADJ2に対して雑音の過度な抑圧や抑圧不足である帯域が生じていない。特に従来技術で説明を行った領域Cで示した帯域および領域Dで示した帯域においてもスペクトルの過度な抑圧や抑圧不足などが生じていないのが分かる。これは、例えば車両の走行速度を例に説明すると、目標雑音スペクトル選択部62において、目標雑音スペクトルメモリ63を参照し、車両の走行速度などのノイズ条件に応じた目標雑音スペクトルを選択するように構成したので、推定雑音スペクトルN1,N2の過度な抑制や抑圧不足を抑制することができたためである。FIG. 8 is a diagram schematically illustrating an example of a residual noise spectrum that is an output signal of the
In FIGS. 8A and 8B, spectra N 1 and N 2 indicate estimated noise spectra, spectra R ADJ1 and R ADJ2 indicate target noise spectra, and spectra S 1 and S 2 are according to the first embodiment. The residual noise spectrum, that is, the voice signal spectrum is shown. In both FIG. 8A and FIG. 8B, the obtained residual noise spectra S 1 and S 2 have bands in which noise is excessively suppressed or insufficiently suppressed with respect to the target noise spectra R ADJ1 and R ADJ2 . Not. In particular, it can be seen that excessive suppression or insufficient suppression of the spectrum does not occur in the band indicated by the region C and the band indicated by the region D described in the related art. For example, when the vehicle traveling speed is described as an example, the target noise
上述した発明が解決しようとする課題で述べたように、実際の雑音環境、例えば車両走行時の車室内で観測される走行騒音は、風切り音およびエンジン回転音などが原因で高域の雑音パワーが高くなる場合がある。このような雑音が入力信号に混入した場合、従来の雑音抑圧方法では雑音抑圧処理後の残留雑音が所定の目標スペクトルの形状に合うように全体の抑圧量を決定するために、極端に抑圧過剰な帯域および抑圧不足の帯域が出現する場合があった。これに対して、実施の形態1に係る雑音抑圧装置100では、入力信号から推定した推定雑音スペクトルN(λ,k)から抑圧量制限係数Gfloor(λ,k)を計算し、計算した係数を用いてスペクトルゲインの制限処理を行ため、極端に抑圧過剰あるいは抑圧不足な帯域が生じることがなく(図8(b)の領域C,D参照)、良好な雑音抑圧を行うことができる。As described in the above-mentioned problem to be solved by the invention, the actual noise environment, for example, the running noise observed in the passenger compartment when the vehicle is running is high noise power due to wind noise and engine rotation noise. May be higher. When such noise is mixed in the input signal, the conventional noise suppression method is extremely over-suppressed in order to determine the overall suppression amount so that the residual noise after noise suppression processing matches the shape of the predetermined target spectrum. In some cases, there was a case where a large band and an insufficiently suppressed band appeared. On the other hand, in the
以上のように、この実施の形態1によれば、推定雑音スペクトルに基づいて複数の目標雑音スペクトルから入力信号に適した目標雑音スペクトルを生成する目標雑音スペクトル生成部6と、生成された目標雑音スペクトルに基づいて、雑音抑圧の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算部7と、入力信号のスペクトル成分のSN比と抑圧量制限係数とを用いてスペクトル抑圧量を計算する抑圧量計算部9と、スペクトル抑圧量を用いて入力信号のスペクトル成分を振幅抑圧するスペクトル抑圧部10とを備えるように構成したので、雑音を過剰に抑圧した帯域および雑音の抑圧が不足した帯域を生じさせることなく、ミュージカルノイズの発生を抑制すると共に、音声に歪みや隠滅感および雑音感が生じない良好な雑音抑圧を行うことができる。
As described above, according to the first embodiment, the target noise
また、この実施の形態1によれば、抑圧量制限係数計算部7において、音声・雑音区間判定部4が出力する判定フラグVflag=1の場合、即ち、現フレームが音声と判定されている場合に、上式(17)によるゲインの修正を行わない構成とすることが可能である。このように、判定フラグVflagによってゲイン補正を制御可能に構成することにより、誤って推定雑音に音声が混入していた場合にも不要なゲイン補正を抑制することができ、安定した目標雑音スペクトルを得ることができる。これにより、さらに良好な雑音抑圧が可能である。
Further, according to the first embodiment, in the suppression amount limiting
実施の形態2.
上述した実施の形態1では、目標雑音スペクトル生成部6において推定雑音スペクトルのパワーに基づいて目標雑音スペクトルを生成する場合を示したが、この実施の形態2では推定雑音スペクトルのパワーに加えて推定雑音スペクトルの周波数特性も合わせて用いて目標雑音スペクトルを生成する構成を示す。
In the first embodiment described above, the target noise
図9は、実施の形態2に係る雑音抑圧装置100の目標雑音スペクトル生成部6aの構成を示すブロック図である。なお、以下では、実施の形態1に係る雑音抑圧装置100の目標雑音スペクトル生成部6の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。また、雑音抑圧装置100の目標雑音スペクトル生成部6a以外の構成要素は実施に形態1と同一であるため、説明を省略する。
FIG. 9 is a block diagram illustrating a configuration of the target noise
目標雑音スペクトル生成部6aは、雑音パワー計算部61、目標雑音スペクトル選択部62aおよび目標雑音スペクトルメモリ63aに加えて、周波数特性分析部64を備える。
目標雑音スペクトルメモリ63aは、雑音パワーのパタンで分類された1以上の周波数形状の目標雑音スペクトルに加えて、推定雑音スペクトルの周波数特性のパタンで分類された1以上の周波数形状の目標雑音スペクトルを蓄積している。周波数特性分析部64は、目標雑音スペクトルメモリ63aに蓄積された目標雑音スペクトルの雑音パワーPRS(m)と、推定雑音スペクトルの雑音パワーPN(λ)を用いて推定雑音スペクトルN(λ,k)の正規化を行い、正規化推定雑音スペクトルと目標雑音スペクトルの二乗誤差DN(λ,m)を算出する。目標雑音スペクトル選択部62aは、目標雑音スペクトルメモリ63aを参照し、周波数特性分析部64が算出した二乗誤差DN(λ,m)を用いて目標雑音スペクトルR(λ,k)を選択する。The target noise
The target
次に、実施の形態2に係る雑音抑圧装置100の目標雑音スペクトル生成部6aの動作について説明する。
図10は、実施の形態2に係る雑音抑圧装置100の目標雑音スペクトル生成部6aの動作を示すフローチャートである。なお、以下では実施の形態1に係る雑音抑圧装置100の目標雑音スペクトル生成部6と同一のステップには図5で使用した符号と同一の符号を付し、説明を省略または簡略化する。
雑音パワー計算部61が入力信号スペクトル中の雑音パワーPN(λ)を計算すると(ステップST22)、周波数特性分析部64は、目標雑音スペクトルメモリ63aに蓄積された目標雑音スペクトルの雑音パワーPRS(m)と、ステップST22で計算された雑音パワーPN(λ)を用いて、推定雑音スペクトルN(λ,k)の正規化を行い(ステップST41)、以下の式(20)を用いて、目標雑音スペクトルと正規化推定雑音スペクトルとの二乗誤差DN(λ,m)を算出する(ステップST42)。算出された二乗誤差DN(λ,m)は、目標雑音スペクトル選択部62aに出力される。
式(20)において、mは図4で示した目標雑音スペクトルRsm(k)を指定するための番号である。Next, the operation of the target noise
FIG. 10 is a flowchart showing the operation of the target noise
When the noise
In Expression (20), m is a number for designating the target noise spectrum R sm (k) shown in FIG.
目標雑音スペクトル選択部62aは、周波数特性分析部64が算出した二乗誤差DN(λ,m)を入力とし、当該二乗誤差DN(λ,m)の値が最も小さくなる、即ち、現フレームの推定雑音スペクトルの周波数形状に最も近似する目標雑音スペクトルR(λ,k)を、目標雑音スペクトルメモリ63aから選択する(ステップST43)。選択された目標雑音スペクトルR(λ,k)は、抑圧量制限係数計算部7に出力される。The target noise spectrum selection unit 62a receives the square error D N (λ, m) calculated by the frequency
以上のように、この実施の形態2によれば、目標雑音スペクトル生成部6aが、雑音パワーのパタンで分類された1以上の周波数形状の目標雑音スペクトルと、推定雑音スペクトルの周波数特性のパタンで分類された1以上の周波数形状の目標雑音スペクトルとを蓄積した目標雑音スペクトルメモリ63aと、目標雑音スペクトルメモリ63aに蓄積された目標雑音スペクトルの雑音パワーと、推定雑音スペクトルの雑音パワーを用いて推定雑音スペクトルN(λ,k)の正規化を行い、正規化推定雑音スペクトルと目標雑音スペクトルの二乗誤差DNを算出する周波数特性分析部64と、目標雑音スペクトルメモリ63aを参照し、周波数特性分析部64が算出した二乗誤差を用いて目標雑音スペクトルを選択する目標雑音スペクトル選択部62aとを備えるように構成したので、現フレームの推定雑音スペクトルの周波数形状に最も近似した目標雑音スペクトルを用いて抑圧処理を行うことができる。これにより、さらに良好に、音声に歪みや隠滅感および雑音感が生じない雑音抑圧を行うことができる。As described above, according to the second embodiment, the target noise
実施の形態3.
上述した実施の形態2では、目標雑音スペクトル選択部62aにおいて二乗誤差DN(λ,m)の値が最も小さくなる目標雑音スペクトルを選択する構成を示したが、この実施の形態3では、複数の目標雑音スペクトルから1つの目標雑音スペクトルを合成して出力する構成を示す。Embodiment 3 FIG.
In the second embodiment described above, the target noise spectrum selecting unit 62a has selected the target noise spectrum that minimizes the value of the square error D N (λ, m). However, in the third embodiment, a plurality of target noise spectra are selected. A configuration in which one target noise spectrum is synthesized from the target noise spectrum and output.
図11は、実施の形態3に係る雑音抑圧装置100の目標雑音スペクトル生成部6bの構成を示すブロック図である。なお、以下では、実施の形態2に係る雑音抑圧装置100の目標雑音スペクトル生成部6aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
FIG. 11 is a block diagram illustrating a configuration of the target noise
この実施の形態3の目標雑音スペクトル生成部6bは、目標雑音スペクトル選択部62bの後段に重み付き平均処理部65を追加して設けている。
目標雑音スペクトル選択部62bは、目標雑音スペクトルメモリ63aを参照し、周波数特性分析部64が算出した二乗誤差DN(λ,m)を用いて複数の目標雑音スペクトルR(λ,k)を選択する。複数とは、例えば、二乗誤差DN(λ,m)の値が小さいものの上位2つの目標雑音スペクトルR(λ,k)を選択するなどである。重み付き平均処理部65は、目標雑音スペクトル選択部62bが選択した複数の目標雑音スペクトルR(λ,k)に対して重み付き平均処理を行い、平均化された1つの目標雑音スペクトルを得る。The target noise
The target noise
次に、実施の形態3に係る雑音抑圧装置100の目標雑音スペクトル生成部6bの動作について説明する。図12は、実施の形態3に係る雑音抑圧装置100の目標雑音スペクトル生成部6bの動作を示すフローチャートである。なお、以下では実施の形態2に係る雑音抑圧装置100の目標雑音スペクトル生成部6aと同一のステップには図10で使用した符号と同一の符号を付し、説明を省略または簡略化する。
周波数特性分析部64が目標雑音スペクトルと正規化推定雑音スペクトルとの二乗誤差DN(λ,m)を算出すると(ステップST42)、目標雑音スペクトル選択部62bは、当該二乗誤差DN(λ,m)を入力とし、例えば、二乗誤差DN(λ,m)の値が小さいものの上位2つの目標雑音スペクトルを目標雑音スペクトルメモリ63aから選択する(ステップST51)。重み付き平均処理部65は、次の式(21)を用いて目標雑音スペクトル選択部62bが選択した2つの目標雑音スペクトルの重み付き平均処理を行い、平均化された1つの目標雑音スペクトルRSYN(λ,k)を得る(ステップST52)。平均化された目標雑音スペクトルRSYN(λ,k)は、抑圧量制限係数計算部7に出力される。
Next, the operation of the target noise
When the frequency
ここで、上記の式(21)は、RRS1(k)が第1位で選択された目標雑音スペクトル、RRS2(k)が第2位で選択された目標雑音スペクトルである場合の一例を示しているが、二乗誤差の値によっては別の目標雑音スペクトルが選択される場合がある。また、wは重み係数であり、第1位の目標雑音スペクトルにw=0.8を設定するのが好適な事例であるが、入力信号の様態や二乗誤差の値に応じて適宜変更することも可能である。Here, the above equation (21) is an example in which R RS1 (k) is the target noise spectrum selected at the first place, and R RS2 (k) is the target noise spectrum selected at the second place. As shown, another target noise spectrum may be selected depending on the value of the square error. In addition, w is a weighting factor, and it is preferable to set w = 0.8 in the first target noise spectrum. However, it should be changed appropriately according to the state of the input signal and the value of the square error. Is also possible.
上記では説明を簡単にするために、2個の目標雑音スペクトルを用いて重み付き平均処理を行う構成を示したが、用いる目標雑音スペクトルの数は2個に限定されるものではなく、3個以上の目標雑音スペクトルを用いて重み付き平均処理を行うように構成してもよい。その場合、重み係数wは、用いる目標雑音スペクトルの個数および入力信号の形態に応じて適宜変更して構成すればよい。ここで、入力信号の形態とは、例えば入力信号に含まれる雑音信号スペクトルのバラつき度合いの違いや、雑音信号スペクトルのパワーの違いなどである。 In the above, for the sake of simplicity, the configuration in which the weighted averaging process is performed using two target noise spectra is shown, but the number of target noise spectra to be used is not limited to two, but three. You may comprise so that a weighted average process may be performed using the above target noise spectrum. In that case, the weight coefficient w may be appropriately changed according to the number of target noise spectra to be used and the form of the input signal. Here, the form of the input signal is, for example, a difference in the degree of variation in the noise signal spectrum included in the input signal, a difference in the power of the noise signal spectrum, or the like.
このように、推定雑音スペクトルに近似した複数の目標雑音スペクトルを用いて重み付き平均化処理を行い、平均化された1つの目標雑音スペクトルを得ることにより、例えば目標雑音スペクトルメモリ63aに蓄積されたどの目標雑音スペクトルと比較しても二乗誤差が大きく、1つの目標雑音スペクトルに決めることができない場合に、目標雑音スペクトルの安定化を図ることができる。
In this way, weighted averaging is performed using a plurality of target noise spectra approximated to the estimated noise spectrum, and one averaged target noise spectrum is obtained, for example, stored in the target
以上のように、この実施の形態3によれば、目標雑音スペクトルと正規化推定雑音スペクトルとの二乗誤差に基づいて複数の目標雑音スペクトルを目標雑音スペクトルメモリ63aから選択する目標雑音スペクトル選択部62bと、選択された目標雑音スペクトルの重み付き平均処理を行い、平均化された1つの目標雑音スペクトルを得る重み付き平均処理部65とを備えるように構成したので、現フレームの推定雑音スペクトルの周波数形状に最も近似する1つの目標雑音スペクトルを決定することができない場合においても、平均化された1つの目標雑音スペクトルを選択することができる。これにより、目標雑音スペクトル選択の安定化を図ることができ、良好な雑音抑制を行うことができる。
As described above, according to the third embodiment, the target noise
なお、上述した実施の形態3では、目標雑音スペクトルと推定雑音スペクトルとの二乗誤差に基づいて目標雑音スペクトルの重み付き平均処理を行う構成を示したが、当該構成に限定されることなく、例えば、実施の形態1の図3で示した目標雑音スペクトル生成部6の目標雑音スペクトル選択部62の後段に重み付き平均処理部65を追加するように構成してもよい。その場合、例えば、雑音パワーが近似する複数の目標雑音スペクトルを用いて重み付き平均処理を行う。
In addition, in Embodiment 3 mentioned above, although the structure which performs the weighted average process of a target noise spectrum based on the square error of a target noise spectrum and an estimated noise spectrum was shown, it is not limited to the said structure, For example, The weighted
実施の形態4.
上述した実施の形態1から実施の形態3では、入力信号から推定した雑音スペクトルを用いて目標雑音スペクトルを生成する目標雑音スペクトル生成部6,6a,6bを示したが、この実施の形態4では入力信号以外の外部情報を用いて目標雑音スペクトルを生成する構成を示す。Embodiment 4 FIG.
In the first to third embodiments described above, the target noise
図13は、実施の形態4に係る雑音抑圧装置100の目標雑音スペクトル生成部6cの構成を示すブロック図である。なお、以下では、実施の形態3に係る雑音抑圧装置100の目標雑音スペクトル生成部6bの構成要素と同一または相当する部分には、実施の形態3で使用した符号と同一の符号を付して説明を省略または簡略化する。
FIG. 13 is a block diagram illustrating a configuration of the target noise
目標雑音スペクトル選択部62cは、外部情報の入力を受け付ける。ここで、外部情報とは、当該雑音抑圧装置100を車両に適用する場合には、エアコンの風量、ドア・窓・屋根の開閉情報、エンジンやモータの回転数などを用いることができる。また、外部情報はユーザ操作による入力情報、即ちユーザの好みに応じた目標雑音スペクトルの選択情報であってもよい。例えば、外部情報としてエアコンの風量を用いた場合、目標雑音スペクトル選択部62cは「エアコン風量=小」との外部情報が入力されると、予め設定された「風量=小」に対応する目標雑音スペクトルを目標雑音スペクトルメモリ63bから選択する。「エアコン風量=大」との外部情報が入力されると、予め設定された「風量=大」に対応する目標雑音スペクトルを目標雑音スペクトルメモリ63bから選択する。さらに、目標雑音スペクトル選択部62cは、推定雑音スペクトルに対応した目標雑音スペクトルを選択する。
The target noise
目標雑音スペクトルメモリ63bは、雑音パワーのパタンで分類された1以上の周波数形状の目標雑音スペクトル、および推定雑音スペクトルの周波数特性のパタンで分類された1以上の周波数形状の目標雑音スペクトルに加えて、上述した外部情報のパタンで分離された1以上の周波数形状の目標雑音スペクトルを蓄積している。重み付き平均処理部65は、上述した式(21)を用いて外部情報に対応した目標雑音スペクトルおよび推定雑音スペクトルに対応した目標雑音スペクトルの重み付き平均処理を行い、平均化された1つの目標雑音スペクトルRSYN(λ,k)を求めて出力する。The target noise spectrum memory 63b includes, in addition to the target noise spectrum of one or more frequency shapes classified by the noise power pattern, and the target noise spectrum of one or more frequency shapes classified by the frequency characteristic pattern of the estimated noise spectrum. The target noise spectrum having one or more frequency shapes separated by the above-described external information pattern is accumulated. The weighted
以上のように、この実施の形態4によれば、推定雑音スペクトルに加えて外部情報に応じた目標雑音スペクトルを選択する目標雑音スペクトル選択部62cと、推定雑音スペクトルに対応した目標雑音スペクトルおよび外部情報に対応した目標雑音スペクトルの重み付き平均処理を行い、平均化された1つの目標雑音スペクトルを得る重み付き平均処理部65とを備えるように構成したので、マイクロホンから入力された雑音信号以外の外部情報も用いて選択した複数の目標雑音スペクトルを重み付き平均化処理することができ、目標雑音スペクトルの精度を高めることができる。これにより、目標雑音スペクトルの変更の応答速度が向上し、より良好な雑音抑圧を行うことができる。
As described above, according to the fourth embodiment, the target noise
なお、上述した実施の形態1から実施の形態4では、抑圧量計算部9がJoint MAP法に基づいて雑音抑圧量G(λ、k)を算出し、算出された雑音抑圧量G(λ、k)を用いてスペクトル抑圧部10が雑音抑圧を行う構成を例に説明を行ったが、雑音抑圧量の算出はJoint MAP法に限定されるものではなく、その他の方法を適用することも可能である。例えば、上述した非特許文献1に詳述されている最小平均2乗誤差短時間スペクトル振幅法、および以下に示す参考文献2に詳述されているスペクトル減算法などを適用することができる。
[参考文献2]
S.F.Boll,“Suppression of Acoustic Noise in Speech Using Spectral Subtraction”(IEEE Trans.on ASSP,Vol.27,No.2,pp.113−120,Apr.1979)In the first to fourth embodiments described above, the suppression
[Reference 2]
S. F. Boll, “Suppression of Acoustic Noise in Spectral Usage Subtraction” (IEEE Trans. On ASSP, Vol. 27, No. 2, pp. 113-120, Apr. 1979).
また、上述した実施の形態1から実施の形態4では、入力信号の全帯域について抑圧量制御を行う構成を示したが、これに限定されるものではなく、例えば必要に応じて低域のみまたは高域のみ抑圧量制御を行ってもよいし、また例えば500〜800Hz近傍のみといった特定の周波数帯域のみ抑圧量制御を行うように構成しても良い。このような限定的な周波数帯域に対する抑圧量制御は、風きり音、自動車エンジンおよびモータ回転音などの狭帯域性ノイズに有効である。
さらに、図8で示した例では雑音抑圧対象が狭帯域電話音声(0〜4000Hz)である場合を想定して説明を行ったが、雑音抑圧対象は狭帯域電話音声に限定されるものではなく、例えば0〜8000Hzの広帯域電話音声および音響信号に対しても適用可能である。In the first to fourth embodiments described above, the configuration in which the suppression amount control is performed for the entire band of the input signal has been described. However, the present invention is not limited to this. The suppression amount control may be performed only in the high frequency, or the suppression amount control may be performed only in a specific frequency band such as only in the vicinity of 500 to 800 Hz. Such suppression amount control for a limited frequency band is effective for narrow-band noise such as wind noise, automobile engine, and motor rotation noise.
Furthermore, in the example shown in FIG. 8, the description has been made assuming that the noise suppression target is a narrowband telephone voice (0 to 4000 Hz), but the noise suppression target is not limited to the narrowband telephone voice. For example, the present invention can be applied to a broadband telephone voice and an acoustic signal of 0 to 8000 Hz.
また、上述した実施の形態1から実施の形態4において、雑音抑圧された音声信号は、デジタルデータ形式で音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置等の各種音声音響処理装置へ送出されるが、実施の形態1から実施の形態4の雑音抑圧装置100は、単独または上述の他の装置と共にDSP(デジタル信号処理プロセッサ)によって実現する、あるいはソフトウエアプログラムとして実行することによっても実現可能である。プログラムはソフトウエアプログラムを実行するコンピュータの記憶装置に記憶させる構成としてもよいし、CD−ROMなどの記憶媒体にて配布される形式でも良い。また、ネットワークを通じてプログラムを提供することも可能である。また、各種音声音響処理装置へ送出される他、D/A(デジタル・アナログ)変換の後、増幅装置にて増幅し、スピーカなどから直接音声信号として出力することも可能である。
In the first to fourth embodiments described above, the noise-suppressed voice signal is converted into a digital data format from various audio-acoustic processes such as a voice encoding device, a voice recognition device, a voice storage device, and a hands-free call device. Although being transmitted to the apparatus, the
また、上述した実施の形態1から実施の形態4では、一例として車両走行時の騒音を挙げて説明したが、これに限定されるものではなく、例えば、列車走行時の騒音や航空機騒音、エレベーターなどの昇降機動作騒音や、工場内の騒音や雑踏騒音などにも適用可能であり、実施の形態1から実施の形態4のそれぞれにて述べた効果を同様に奏功する。
Moreover, in
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, any combination of each embodiment, any component of each embodiment can be modified, or any component of each embodiment can be omitted.
この発明に係る雑音抑圧装置は、高品質な雑音抑圧が可能なため、音声通信・音声蓄積・音声認識システムが導入された、カーナビゲーション・携帯電話・インターフォン等の音声通信システム・ハンズフリー通話システム・TV会議システム・監視システム等の音質改善、および、音声認識システムの認識率の向上のために供するのに適している。 Since the noise suppression apparatus according to the present invention is capable of high-quality noise suppression, a voice communication system such as a car navigation system, a mobile phone, and an interphone, and a hands-free call system in which voice communication / sound storage / speech recognition system is introduced -Suitable for use in improving the sound quality of TV conference systems, surveillance systems, etc., and improving the recognition rate of voice recognition systems.
1 入力端子、2 フーリエ変換部、3 パワースペクトル計算部、4 音声・雑音区間判定部、5 雑音スペクトル推定部、6,6a,6b,6c 目標雑音スペクトル生成部、7 抑圧量制限係数計算部、8 SN比計算部、9 抑圧量計算部、10 スペクトル抑圧部、11 逆フーリエ変換部、12 出力端子、61 雑音パワー計算部、62,62a,62b,62c 目標雑音スペクトル選択部、63,63a,63b 目標雑音スペクトルメモリ、64 周波数特性分析部、65 重み付き平均処理部、71 パワー計算部、72 係数補正部、100 雑音抑圧装置。 1 input terminal, 2 Fourier transform unit, 3 power spectrum calculation unit, 4 speech / noise interval determination unit, 5 noise spectrum estimation unit, 6, 6a, 6b, 6c target noise spectrum generation unit, 7 suppression amount limit coefficient calculation unit, 8 SN ratio calculation unit, 9 suppression amount calculation unit, 10 spectrum suppression unit, 11 inverse Fourier transform unit, 12 output terminal, 61 noise power calculation unit, 62, 62a, 62b, 62c target noise spectrum selection unit, 63, 63a, 63b Target noise spectrum memory, 64 frequency characteristic analysis unit, 65 weighted average processing unit, 71 power calculation unit, 72 coefficient correction unit, 100 noise suppression device.
この発明に係る雑音抑圧装置は、入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成部と、生成された目標雑音スペクトルに基づいて、入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算部と、計算された抑圧量制限係数を用いて、スペクトル抑圧量を計算する抑圧量計算部とを備え、目標雑音スペクトル生成部は、推定雑音スペクトルの雑音パワーを計算する雑音パワー計算部と、雑音パワー計算部が計算した雑音パワーを用いて、複数の目標雑音スペクトル候補から目標雑音スペクトルを選択する目標雑音スペクトル選択部と、目標雑音スペクトル選択部が選択した複数の目標雑音スペクトルの重みつき平均を求め、平均化された目標雑音スペクトルを取得する重み付き平均処理部とを備えるものである。 A noise suppression device according to the present invention generates a target noise spectrum that generates a target noise spectrum from a target noise spectrum candidate that is a noise spectrum corresponding to a plurality of frequency shapes generated in advance using information related to an input signal. Based on the generated target noise spectrum, a suppression amount limiting coefficient calculation unit for calculating a suppression amount limiting coefficient that defines the upper and lower limits of the amount of noise suppression included in the input signal, and the calculated suppression amount limitation A suppression amount calculation unit that calculates a spectrum suppression amount using a coefficient , a target noise spectrum generation unit, a noise power calculation unit that calculates a noise power of an estimated noise spectrum, and a noise power calculated by the noise power calculation unit To select a target noise spectrum from a plurality of target noise spectrum candidates, and a target noise spectrum. Obtaining the weighted average of a plurality of target noise spectrum Le selecting unit selects one in which and a weighted average processing unit for acquiring a target noise spectrum averaged.
Claims (6)
前記入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成部と、
前記目標雑音スペクトル生成部が生成した目標雑音スペクトルに基づいて、前記入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算部と、
前記抑圧量制限係数計算部が計算した抑圧量制限係数を用いて、前記スペクトル抑圧量を計算する抑圧量計算部とを備えたことを特徴とする雑音抑圧装置。Using the spectral component obtained by converting the input signal from the time domain to the frequency domain and the estimated noise spectrum estimated from the input signal, the spectrum suppression amount for suppressing the noise included in the input signal is calculated and calculated. In the noise suppression device that generates the noise suppression signal by suppressing the amplitude of the spectrum component of the input signal using the spectrum suppression amount, and changing the amplitude component of the spectrum signal to the time domain,
A target noise spectrum generation unit that generates a target noise spectrum from a target noise spectrum candidate that is a noise spectrum corresponding to a plurality of frequency shapes generated in advance using information related to the input signal;
Based on the target noise spectrum generated by the target noise spectrum generating unit, a suppression amount limiting coefficient calculating unit that calculates a suppression amount limiting coefficient that defines upper and lower limits of the amount of noise suppression included in the input signal;
A noise suppression apparatus comprising: a suppression amount calculation unit that calculates the spectrum suppression amount using the suppression amount limitation coefficient calculated by the suppression amount limitation coefficient calculation unit.
前記推定雑音スペクトルの雑音パワーを計算する雑音パワー計算部と、
前記雑音パワー計算部が計算した前記雑音パワーを用いて、前記複数の目標雑音スペクトル候補から目標雑音スペクトルを選択する目標雑音スペクトル選択部とを備えたことを特徴とする請求項1記載の雑音抑圧装置。The target noise spectrum generator is
A noise power calculator for calculating the noise power of the estimated noise spectrum;
The noise suppression according to claim 1, further comprising: a target noise spectrum selection unit that selects a target noise spectrum from the plurality of target noise spectrum candidates using the noise power calculated by the noise power calculation unit. apparatus.
前記推定雑音スペクトルの雑音パワーを計算する雑音パワー計算部と、
前記雑音パワー計算部が計算した雑音パワーを用いて、前記推定雑音スペクトルの周波数特性を分析する周波数特性分析部と、
前記周波数特性分析部が分析した前記推定雑音スペクトルの周波数特性を用いて、前記複数の目標雑音スペクトル候補から目標雑音スペクトルを選択する目標雑音スペクトル選択部とを備えたことを特徴とする請求項1記載の雑音抑圧装置。The target noise spectrum generator is
A noise power calculator for calculating the noise power of the estimated noise spectrum;
Using the noise power calculated by the noise power calculator, a frequency characteristic analyzer that analyzes frequency characteristics of the estimated noise spectrum;
2. A target noise spectrum selection unit that selects a target noise spectrum from the plurality of target noise spectrum candidates using a frequency characteristic of the estimated noise spectrum analyzed by the frequency characteristic analysis unit. The noise suppressor described.
目標雑音スペクトル生成部が、前記入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成ステップと、
抑圧量制限係数計算部が、前記目標雑音スペクトルに基づいて、前記入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算ステップと、
抑圧量計算部が、前記抑圧量制限係数を用いて前記スペクトル抑圧量を計算する抑圧量計算ステップとを備えたことを特徴とする雑音抑圧方法。Using the spectral component obtained by converting the input signal from the time domain to the frequency domain and the estimated noise spectrum estimated from the input signal, the spectrum suppression amount for suppressing the noise included in the input signal is calculated and calculated. In the noise suppression method for generating a noise suppression signal by suppressing the amplitude of the spectrum component of the input signal using the spectrum suppression amount, and changing the amplitude component of the spectrum signal to the time domain,
A target noise spectrum generation step in which the target noise spectrum generation unit generates a target noise spectrum from a target noise spectrum candidate that is a noise spectrum corresponding to a plurality of frequency shapes generated in advance using information related to the input signal. When,
A suppression amount limiting coefficient calculating unit that calculates a suppression amount limiting coefficient that defines upper and lower limits of the amount of noise suppression included in the input signal based on the target noise spectrum; and
A noise suppression method, comprising: a suppression amount calculation unit including a suppression amount calculation step of calculating the spectrum suppression amount using the suppression amount restriction coefficient.
前記入力信号に関連する情報を用いて、あらかじめ生成された複数の周波数形状に対応した雑音スペクトルである目標雑音スペクトル候補から、目標雑音スペクトルを生成する目標雑音スペクトル生成手順と、
前記目標雑音スペクトル生成手順により生成された前記目標雑音スペクトルに基づいて、前記入力信号に含まれた雑音の抑圧量の上下限を規定する抑圧量制限係数を計算する抑圧量制限係数計算手順と、
抑圧量制限係数計算手順により計算された前記抑圧量制限係数を用いて前記スペクトル抑圧量を計算する抑圧量計算手順とから構成されていることを特徴とする雑音抑圧プログラム。A procedure for calculating a spectrum suppression amount for suppressing noise included in the input signal using a spectral component obtained by converting the input signal from the time domain to the frequency domain and an estimated noise spectrum estimated from the input signal; For causing a computer to execute a procedure of amplitude suppressing the spectrum component of the input signal using the calculated spectrum suppression amount and a procedure of generating a noise suppression signal by changing the spectrum component subjected to the amplitude suppression to the time domain. In the noise suppression program,
A target noise spectrum generation procedure for generating a target noise spectrum from a target noise spectrum candidate that is a noise spectrum corresponding to a plurality of frequency shapes generated in advance using information related to the input signal;
Based on the target noise spectrum generated by the target noise spectrum generation procedure, a suppression amount limiting coefficient calculation procedure for calculating a suppression amount limiting coefficient that defines upper and lower limits of the noise suppression amount included in the input signal;
A noise suppression program comprising: a suppression amount calculation procedure for calculating the spectrum suppression amount using the suppression amount limitation coefficient calculated by a suppression amount limitation coefficient calculation procedure.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/073969 WO2016038704A1 (en) | 2014-09-10 | 2014-09-10 | Noise suppression apparatus, noise suppression method and noise suppression program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016038704A1 true JPWO2016038704A1 (en) | 2017-04-27 |
JP6261749B2 JP6261749B2 (en) | 2018-01-17 |
Family
ID=55458492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547306A Active JP6261749B2 (en) | 2014-09-10 | 2014-09-10 | Noise suppression device, noise suppression method, and noise suppression program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6261749B2 (en) |
WO (1) | WO2016038704A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241608A1 (en) | 2018-06-14 | 2019-12-19 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258768A (en) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | Under-noise voice recognizing device and under-noise voice recognizing method |
JP2010102201A (en) * | 2008-10-24 | 2010-05-06 | Yamaha Corp | Noise suppressing device and noise suppressing method |
JP2012063673A (en) * | 2010-09-17 | 2012-03-29 | Dainippon Printing Co Ltd | Method and apparatus for modifying noise source to comfortable sound |
JP2013020252A (en) * | 2011-07-06 | 2013-01-31 | Honda Motor Co Ltd | Acoustic processing device, acoustic processing method and acoustic processing program |
WO2013118192A1 (en) * | 2012-02-10 | 2013-08-15 | 三菱電機株式会社 | Noise suppression device |
-
2014
- 2014-09-10 WO PCT/JP2014/073969 patent/WO2016038704A1/en active Application Filing
- 2014-09-10 JP JP2016547306A patent/JP6261749B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258768A (en) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | Under-noise voice recognizing device and under-noise voice recognizing method |
JP2010102201A (en) * | 2008-10-24 | 2010-05-06 | Yamaha Corp | Noise suppressing device and noise suppressing method |
JP2012063673A (en) * | 2010-09-17 | 2012-03-29 | Dainippon Printing Co Ltd | Method and apparatus for modifying noise source to comfortable sound |
JP2013020252A (en) * | 2011-07-06 | 2013-01-31 | Honda Motor Co Ltd | Acoustic processing device, acoustic processing method and acoustic processing program |
WO2013118192A1 (en) * | 2012-02-10 | 2013-08-15 | 三菱電機株式会社 | Noise suppression device |
Also Published As
Publication number | Publication date |
---|---|
JP6261749B2 (en) | 2018-01-17 |
WO2016038704A1 (en) | 2016-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5265056B2 (en) | Noise suppressor | |
JP5183828B2 (en) | Noise suppressor | |
CN111418010B (en) | Multi-microphone noise reduction method and device and terminal equipment | |
JP5646077B2 (en) | Noise suppressor | |
JP3574123B2 (en) | Noise suppression device | |
JP5875609B2 (en) | Noise suppressor | |
KR102487160B1 (en) | Audio signal quality enhancement based on quantitative signal-to-noise ratio analysis and adaptive wiener filtering | |
JP5528538B2 (en) | Noise suppressor | |
JP5153886B2 (en) | Noise suppression device and speech decoding device | |
JP4753821B2 (en) | Sound signal correction method, sound signal correction apparatus, and computer program | |
JP6668995B2 (en) | Noise suppression device, noise suppression method, and computer program for noise suppression | |
JP5245714B2 (en) | Noise suppression device and noise suppression method | |
JP2002508891A (en) | Apparatus and method for reducing noise, especially in hearing aids | |
JP5526524B2 (en) | Noise suppression device and noise suppression method | |
JP6261749B2 (en) | Noise suppression device, noise suppression method, and noise suppression program | |
JP5840087B2 (en) | Audio signal restoration apparatus and audio signal restoration method | |
US11984132B2 (en) | Noise suppression device, noise suppression method, and storage medium storing noise suppression program | |
JP5131149B2 (en) | Noise suppression device and noise suppression method | |
Rajan et al. | 12 Insights into Automotive Noise PSD Estimation Based on Multiplicative Constants | |
JP4479625B2 (en) | Noise suppression device | |
JP2003517761A (en) | Method and apparatus for suppressing acoustic background noise in a communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6261749 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |