WO2006123721A1 - 雑音抑圧方法およびその装置 - Google Patents

雑音抑圧方法およびその装置 Download PDF

Info

Publication number
WO2006123721A1
WO2006123721A1 PCT/JP2006/309867 JP2006309867W WO2006123721A1 WO 2006123721 A1 WO2006123721 A1 WO 2006123721A1 JP 2006309867 W JP2006309867 W JP 2006309867W WO 2006123721 A1 WO2006123721 A1 WO 2006123721A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
signal
noise
length
speech
Prior art date
Application number
PCT/JP2006/309867
Other languages
English (en)
French (fr)
Inventor
Michiko Kazama
Mikio Tohyama
Koji Kushida
Original Assignee
Yamaha Corporation
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corporation, Waseda University filed Critical Yamaha Corporation
Priority to DE602006008481T priority Critical patent/DE602006008481D1/de
Priority to US11/914,550 priority patent/US8160732B2/en
Priority to EP06746569A priority patent/EP1914727B1/en
Priority to JP2007516328A priority patent/JP4958303B2/ja
Publication of WO2006123721A1 publication Critical patent/WO2006123721A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to a method and apparatus for suppressing noise by a so-called spectral subtraction method, and to improve noise suppression performance.
  • the vector subtraction method obtains the spectrum of an observation signal (hereinafter referred to as “observation signal spectrum”) in which noise is superimposed on speech, and estimates the spectrum of the observation signal spectrum (hereinafter referred to as “noise spectrum”). Then, by subtracting the noise spectrum from the observed signal spectrum power, a speech spectrum with suppressed noise (hereinafter referred to as “speech spectrum”) is obtained, and the speech spectrum is converted into a time domain signal. By doing so, the voice with reduced noise is obtained.
  • Patent Document 1 Japanese Patent Laid-Open No. 11 3094
  • Patent Document 2 JP 2002-14694
  • Patent Document 3 Japanese Unexamined Patent Publication No. 2003-223186
  • the conventional spectral subtraction method uses an observed signal spectrum (hereinafter referred to as “noise estimation spectrum”) used for noise spectrum estimation calculation and a subtracted value to be used for subtraction between the noise spectrum.
  • the common observation signal spectrum was used for the observed signal spectrum (hereinafter referred to as “noise suppression spectrum”).
  • the noise to be suppressed by the spectral subtraction method is a stationary noise or the like that has little temporal change, the frequency of the noise estimation spectrum is more important than the temporal resolution.
  • the speech that is the subject of extraction by the spectral subtraction method is sometimes It is important for the noise suppression spectrum to have a high time resolution because the signal varies greatly.
  • the conventional spectral subtraction method uses a common observed signal spectrum for the noise estimation spectrum and the noise suppression spectrum, so the frequency resolution required for the noise estimation spectrum and the noise suppression The time resolution required for the commercial spectrum could not be achieved at the same time, and the noise suppression performance was not sufficient.
  • the present invention has been made in view of the above points, and achieves noise suppression performance by making both the frequency resolution necessary for the noise estimation spectrum and the time resolution necessary for the noise suppression spectrum compatible. It is an object of the present invention to provide a noise suppression method and apparatus for improving the noise. Means for solving the problem
  • a noise suppression method for obtaining a speech in which noise is suppressed from an observation signal in which noise is superimposed on the speech of the present invention cuts out the first observation signal from the observation signal, and obtains the spectrum of the first observation signal.
  • the spectrum power of the first observation signal is estimated, the spectrum of noise is estimated, the observation signal power
  • the second observation signal is cut out, the spectrum of the second observation signal is analyzed, and the spectrum power of the second observation signal is analyzed.
  • the noise spectrum is subtracted to convert the voice spectrum into a time domain signal.
  • the signal length (time window length) of the first observation signal is longer than the signal length of the second observation signal! Is.
  • the signal length of the observation signal cut out to analyze the spectrum of the observation signal used for the noise spectrum estimation calculation is set to be relatively long.
  • the frequency resolution required for the noise estimation spectrum can be increased.
  • the noise suppression scale The time resolution required for the petal can be increased. As a result, both the frequency resolution necessary for the noise estimation spectrum and the time resolution necessary for the noise suppression spectrum can be achieved, and noise suppression performance can be improved.
  • an observation signal that progresses with time due to noise superimposed on speech is the same as the time interval for each predetermined time interval during which the observation signal travels. Or cut out with a first signal length longer than the time interval, analyze the spectrum of the observation signal cut out with the first signal length as a first spectrum, and At the predetermined time interval or every appropriate time, the head is aligned with the head of the observation signal cut out with the first signal length, and the second signal length is longer than the first signal length. The spectrum of the observation signal extracted by the second signal length is analyzed as the second spectrum, and the spectrum of the noise included in the observation signal is estimated based on the second spectrum.
  • the noise spectrum is subtracted from the first spectrum at each predetermined time interval, and the obtained spectrum is obtained at each predetermined time interval. It is possible to convert a speech spectrum into a time domain signal and connect the converted time domain signals to each other so as to obtain a series of speech in which noise is suppressed.
  • the second spectrum is subjected to a smoothing process, and the noise spectrum is estimated and calculated based on the smoothed second spectrum.
  • the subtracting process is performed after smoothing the estimated noise spectrum.
  • the effective frequency resolution of the noise spectrum is equal to (or close to) the effective frequency resolution of the first spectrum.
  • the noise estimation spectrum is obtained with high resolution by using long-term data and then smoothed, so that the accuracy (effectiveness) of each subtraction result (speech spectrum data) is obtained. ) Will improve.
  • the estimation calculation process smoothes the second spectrum, and performs the smoothed second spectrum and the smoothing process before the smoothing process.
  • a larger value is selected for each frequency point in the comparison process, and the dip is removed.
  • the spectrum of the noise is estimated and calculated.
  • the subtraction process smoothes the estimated noise spectrum, compares the smoothed noise spectrum with the noise spectrum before the smoothing process, and dip in the noise spectrum.
  • the larger value is selected for each frequency point in the comparison process, and the noise spectrum from which the dip has been removed is used to perform subtraction with the first spectrum.
  • the processing is performed. Generation of noise can be suppressed.
  • the method of removing the spectrum of the observation signal or noise spectrum power dip used for the noise spectrum estimation calculation is based on the observation signal extracted to analyze the spectrum of the observation signal used for the noise spectrum estimation calculation.
  • the signal length is set to be longer than the signal length of the observation signal cut out to analyze the spectrum of the observation signal as a subtracted value to be subtracted from the noise spectrum.
  • the present invention can also be applied when the signal lengths are set equal.
  • the noise suppression method provides the first signal so that the signal length of the observation signal used for the analysis of the first spectrum is equal to the length of the second signal length.
  • a zero signal having a predetermined length is added to the end of the observation signal cut out by the length, the first spectrum is analyzed for the observation signal to which the zero signal is attached, and the analyzed first signal is analyzed.
  • Spectral force of 1 Subtracts the spectrum of the noise, converts the speech spectrum obtained by the subtraction process into the signal in the time domain, and returns the signal in the time domain to the first signal length. Therefore, the signal corresponding to the length to which the zero signal is added is deleted from the end of the time domain signal, and the time domain signals returned to the first signal length are connected to each other.
  • the predetermined time interval can be set to, for example, the length of 1Z2 of the first signal length.
  • the signal in the time domain is a signal obtained with the first signal length at each predetermined time interval, the signal in the time domain is multiplied by a triangular window, and the signal in the time domain in which the triangular window is multiplied Can be added sequentially to link the signals together.
  • the observation signal power in which noise is superimposed on the speech of the present invention is the observation signal in which the noise is superimposed on the speech and proceeds with time.
  • a first signal cutout unit that cuts out at a first signal length that is the same as or longer than the time interval, and an observation signal cut out by the first signal cutout unit for each predetermined time interval that travels
  • a first spectrum analysis unit that analyzes the spectrum of the first spectrum as a first spectrum, and the observation signal at the predetermined time interval or every appropriate time.
  • the noise suppression device is configured such that an observation signal that progresses with time due to noise superimposed on speech is equal to or equal to the time interval for each predetermined time interval during which the observation signal travels.
  • a first signal cutout unit that cuts out with a first signal length longer than the time interval, and a first spectrum analysis unit that analyzes the spectrum of the observation signal cut out by the first signal cutout unit as a first spectrum;
  • the observation signal is aligned with the beginning of the observation signal cut out at the first signal length at the predetermined time interval or every appropriate time, and is longer than the first signal length.
  • a second signal cutout unit that cuts out with a second signal length; a second spectrum analysis unit that analyzes a spectrum of the observation signal cut out with the second signal cutout unit as a second spectrum; and Second spectrum Based on the noise spectrum estimation calculation unit for estimating and calculating the spectrum of the noise included in the observed signal, and for obtaining the spectrum of the speech in which the noise is suppressed, for each predetermined time interval, A subtracting unit that subtracts the noise spectrum from the spectrum of 1, a time domain converting unit that converts the obtained speech spectrum into a time domain signal at each predetermined time interval, and the converted An output synthesizer that interconnects time-domain signals to obtain a series of speech with suppressed noise.
  • a noise suppression method for obtaining speech in which the noise is suppressed comprises analyzing the spectrum of the observation signal and smoothing the spectrum of the observation signal And a spectrum of the observation signal subjected to the smoothing process and the smoothing process.
  • the larger value is selected for each frequency point in the comparison process, and the observation in which the dip is removed
  • the spectral power of the observation signal is subtracted, and the speech spectrum is subtracted from the time domain signal. Convert to
  • a noise suppression method for obtaining speech with suppressed noise is obtained by analyzing a spectrum of the observation signal and analyzing a spectrum spectrum of the observation signal.
  • the estimated noise is calculated and smoothed, and the smoothed noise spectrum is compared with the noise spectrum before the smoothing process.
  • a larger value is selected for each frequency point in the comparison process, and a spectrum of the observed signal is obtained in order to obtain a spectrum of the speech in which the noise is suppressed.
  • subtracting the noise vector from the noise to convert the speech spectrum into a time domain signal.
  • FIG. 1 is a flowchart showing an outline of a processing procedure of noise suppression processing using the noise suppression method of the present invention.
  • FIG. 2 is an operation explanatory diagram of the noise suppression processing of FIG. 1.
  • FIG. 3 is a functional block showing an embodiment of a noise suppression apparatus for executing the noise suppression processing of FIG. 1.
  • FIG. 4 is a spectrum diagram for explaining the operation of the dip removing unit 22.
  • FIG. 5 is a block diagram illustrating a specific example of the noise estimation unit 28 and the suppression calculation unit 40 of FIG.
  • FIG. 6 is a waveform diagram showing a difference in output waveform when stationary noise is input between the conventional spectral subtraction method and the spectral subtraction method according to the present invention.
  • FIG. 7 is a waveform diagram when noise-added speech is input to the noise suppression apparatus of the present invention. Explanation of symbols
  • FIG. 1 shows an overview of the processing procedure of noise suppression processing using the noise suppression method of the present invention.
  • FIG. 2 is a diagram for explaining the operation of the noise suppression processing of FIG.
  • a sample string of a noise signal (for example, a voice signal received by telephone communication, a signal input for voice recognition) collected by a microphone, etc.
  • a noise signal for example, a voice signal received by telephone communication, a signal input for voice recognition
  • This is a speech signal with noise in which stationary noise such as background noise is mixed with speech.
  • Observation signal X (
  • frame cutout (signal cutout) is performed with different frame lengths (signal length, ie, time window length) for noise suppression spectrum analysis and noise estimation spectrum analysis (SI, S2). ). That is, the analysis frame extraction (S1) of the noise suppression spectrum is performed by extracting the observation signal X (n) with a relatively short frame length T1 (hereinafter,
  • This relatively short frame length T1 is referred to as a “noise suppression frame length”, and the frame of the observation signal X (n) cut out with the frame length is referred to as a “noise suppression frame”. ), Noise estimation
  • Extracting the analysis spectrum of the regular spectrum (S2) is a relatively long observation signal X (n).
  • the frame length T2 (hereinafter referred to as the relatively long frame length T2 is referred to as “noise estimation frame length”), and the frame of the observation signal X (n) cut out at the frame length is used.
  • Each frame is referred to as a “noise estimation frame”.
  • These noise suppression frames and noise estimation frames are cut out (SI, S2) by aligning the heads of the noise suppression frame and noise estimation frame (i.e., the observed signal samples at the same time at the beginning of both frames (latest ⁇ ), And the observed signal travels for 1Z2 with the noise suppression frame length T1 Repeated every time.
  • the frame length is formally (simulated) aligned with the same length as the noise estimation frame length T2 (S3).
  • the reason for this process is that the number of data (number of frequency points) for both of these spectra must be in order to subtract the noise spectrum for noise suppression. That is, the number of data in the noise spectrum is equal to the number of data in the noise estimation spectrum, and in order to align the number of data in the noise suppression vector with the number of data in the noise estimation spectrum, it is necessary to convert it to frequency domain data. The number of data in the time domain (number of samples) must be aligned between the noise suppression frame and the noise estimation frame.
  • the noise suppression frame length T 1 can be set to 20 to 32 mse C , for example, when the extraction target speech is a speaker speech.
  • the noise estimation frame length T2 can be set to, for example, about eight times the noise suppression frame length T1 (for example, 256 msec) when the noise to be suppressed is room air conditioning noise.
  • the noise suppression frame data to which zero data is added is fast Fourier transformed every time the noise suppression frame data is extracted (ie, every time interval of MZ2 samples of the observation signal).
  • FFT Fast Fourier Transform
  • S4 Noise suppression spectrum
  • the frame data is extracted every time the noise estimation frame data is cut out (ie,
  • Sound spectrum N (k) is subtracted to obtain speech spectrum G (k) with suppressed noise (S8).
  • the speech spectrum G (k) is subjected to inverse fast Fourier transform (I FFT) and converted to a time domain signal, that is, a speech signal (S9).
  • I FFT inverse fast Fourier transform
  • the audio signals of each frame obtained at each time interval of the MZ2 sample of the observed signal are connected to each other (S10) and output as a continuous audio signal g (n). It is used for voice recognition processing of the person.
  • Figure 3 shows the functional block of the noise suppressor.
  • the input signal (sound signal with noise) X (n) is sent to the noise spectrum output unit 10 and noise suppression unit 12.
  • the noise-added speech signal input to the noise spectrum output unit 10 is first subjected to frequency analysis for noise estimation in the noise estimation spectrum analysis unit 14.
  • the frame cutout unit 16 cuts out the latest N (4096) sample input signal each time a new MZ2 sample (256 sample) input signal is input.
  • the amplitude spectrum calculation unit 20 calculates the amplitude spectrum from the obtained spectrum data X (k).
  • the dip removing unit 22 removes a dip in the obtained amplitude spectrum, that is, a depression on the frequency characteristic.
  • the dip removal process is performed as follows, for example. That is, first, the smoothing processing is performed on the amplitude spectrum by the smoothing processing unit 24.
  • a moving average method can be used as an algorithm for smooth wrinkle processing. In the moving average method, the average value of amplitudes at a predetermined number of consecutive frequency points (that is, a predetermined frequency bandwidth) is replaced with the amplitude value of the center frequency point of the frequency band.
  • the effective frequency resolution is equal to the substantial frequency resolution of the noise suppression amplitude spectrum.
  • a moving median method can be used in addition to the moving average method.
  • the moving median method among a predetermined number (for example, 8 points) of continuous frequency points (that is, a predetermined frequency bandwidth), the center value of the amplitude value is replaced with the amplitude value of the center frequency point of the frequency band. Then, the median of this amplitude value is extracted and the amplitude value is replaced by one frequency point. This is executed in a staggered manner to obtain a smoothed amplitude spectrum over the entire frequency band.
  • the comparison unit 26 compares the amplitude spectrum smoothed by the smoothing processing unit 24 with the amplitude spectrum before being smoothed, and is larger for each frequency point. One value is selected, and a series of characteristics formed by connecting the selected values is output as a noise estimation amplitude spectrum
  • FIG. 4 shows the operation of the dip removal unit 22 ⁇ Expands only a part of the frequency range (0 to: LOOHz) of the entire amplitude spectrum. ⁇ .
  • the amplitude spectrum A before smoothing and the amplitude spectrum B smoothed by the moving average method are compared, and the value of the larger! /, Indicated by the black dot is selected for each frequency point, and the selected value is connected.
  • Is output from the dip removing unit 22 as an amplitude spectrum from which the dip has been removed.
  • dips (valleys) in the amplitude spectrum A are removed, and the processing noise is reduced.
  • the noise estimator 28 uses an arbitrary estimation algorithm based on the amplitude vector from which the dip is removed or smoothed, to determine the amplitude spectrum of the noise contained in the observed signal (hereinafter referred to as “noise”). Amplitude spectrum ”) is estimated and calculated. Note that the dip removing unit 22 (or the smoothing processing unit 24 instead of the dip removing unit 22) can be arranged after the noise estimating unit 28 instead of being arranged before the noise estimating unit 28.
  • the input signal (noise signal with noise) x (n) input to the noise suppression unit 12 is
  • the spectrum analysis unit 30 for suppression performs frequency analysis for noise suppression (that is, for generating an observed signal sparing as a subtracted value from which the noise spectrum is subtracted). That is, the frame cutout unit 32 cuts out the latest M (512) sample input signal every time a new MZ2 sample (256 sample) input signal is input.
  • the zero data generator 34 generates zero data for N ⁇ M (3584) samples.
  • the adder 36 adds N—M samples of zero data to the end of the M sample input signal extracted by the frame extractor 32.
  • the extracted input signal is formally aligned with the same length as the noise estimation frame length T2.
  • the suppression calculation unit 40 includes a noise suppression spectrum X (k) output from the suppression spectrum analysis unit 30 and a noise amplitude spectrum I N (k) output from the noise spectrum output unit 10.
  • noise suppression processing is performed using an arbitrary suppression algorithm.
  • the speech spectrum G (k) in which noise output from the suppression calculation unit 40 is suppressed is subjected to inverse fast Fourier transform by the inverse fast Fourier transform unit 42, and returned to a time domain signal. Since the signal output from the inverse fast Fourier transform unit 42 is N (4096) sample data, the output synthesizer 44 outputs the lower N ⁇ M (3584) samples with zero data added. Are removed, the original M (512) sample data is restored, and the frames are further concatenated to be output as a continuous audio signal g (n).
  • the spectrum envelope extraction unit 45 is a noise estimation amplitude spectrum I X (k) output from the noise estimation spectrum analysis unit 14 in FIG.
  • the correlation value of the spectrum will be low, and the distinction between “voice section” and “noise section” will not be clear.
  • the noise is averaged over a long period of time after repeated observations, it can be expected that the spectrum has a smooth distribution with a wide and almost uniform band. However, in a short time, spectrum fluctuations with many peaks and valleys are observed.
  • speech has an overall frequency characteristic that has a large amplitude value in a specific frequency band and is not uniformly distributed over the entire frequency band.
  • the noise spectrum is estimated by distinguishing between “noise that is uniformly distributed over the entire frequency band” and “speech with a large amplitude value in a specific frequency band” by the magnitude of the correlation value of the spectrum. Therefore, the fine unevenness characteristic of the noise amplitude spectrum is removed.
  • the spectrum envelope extraction unit 45 generates, for example, the noise estimation amplitude spectrum
  • the envelope is extracted by performing low-pass filter processing as if it were an inter-waveform waveform. For example, the low-pass filtering process directly calculates the noise estimation amplitude spectrum
  • the noise amplitude spectrum initial value output unit 46 outputs an initial value of the noise amplitude spectrum.
  • an initial value is set.
  • the following method can be considered.
  • Method 1 The input of the noise spectrum, which is input immediately after the start, is subjected to the Fourier transform on the background noise only data, and the amplitude spectrum data obtained from the Fourier transformed data is converted into the initial value of the noise amplitude spectrum.
  • Amplitude spectrum data corresponding to background noise is stored in memory in advance, and is read out at startup and set as the initial value of the noise amplitude spectrum.
  • the envelope data of the amplitude spectrum data corresponding to the background noise is stored in the memory in advance, and it is read out at startup and set as the initial value of the noise amplitude spectrum envelope data.
  • the noise amplitude spectrum update unit 48 sequentially inputs the noise amplitude spectrum IN (k) I obtained for each half frame (T1 / 2) by the noise amplitude spectrum calculation unit 50, which will be described later. This is output sequentially as the noise amplitude spectrum IN (k) I estimated for the observed signal in the signal interval observed the last time (half frame before).
  • the noise amplitude spectrum update unit 48 uses the noise amplitude spectrum set by the noise amplitude spectrum initial value output unit 46. Output initial values.
  • the spectrum envelope extraction unit 52 extracts the envelope
  • the correlation value calculation unit 54 extracts the noise spectrum amplitude spectrum envelope I X ′ (k)
  • the noise amplitude spectrum calculation unit 50 obtains the noise amplitude spectrum IN (k) I for the speech signal in the currently observed signal section according to the equation (2) according to the obtained correlation value p.
  • Audio signal of the frame that was observed 0 times (half frame before) The estimated noise amplitude spectrum
  • Equation (2) is the noise amplitude spectrum I N (k) estimated previously ⁇ half frame (before T1 / 2) ⁇
  • the noise estimation amplitude spectrum calculated this time is (k) I according to the calculated correlation value p.
  • Equation (2) 1 is a constant for adjusting the sensitivity to the low correlation value. The larger the value, the smaller the amount of update of the noise amplitude spectrum estimate during low correlation.
  • m is a constant for adjusting the update amount. The larger the m value, the smaller the amount of updates.
  • the noise suppression spectrum X (k) input to the suppression calculation unit 40 is an amplitude spectrum calculation unit.
  • the amplitude spectrum calculation unit 56 obtains the amplitude spectrum IX (k) I of the noise suppression spectrum X (k) according to equation (3).
  • I x 1 (k) I ⁇ x R (k) 2 + x I (k) 2 ⁇ 12- (3)
  • phase spectrum calculator 58 calculates the phase spectrum of the noise suppression spectrum X (k) according to equation (4).
  • ⁇ (k) tan _1 ⁇ X (k) / X (k) ⁇ ⁇ ' ⁇ (4)
  • the spectrum subtraction unit 60 calculates the noise suppression amplitude spectrum I X (k) of the current frame obtained by the amplitude spectrum calculation unit 56 according to equation (5).
  • the noise estimator 28 By subtracting the noise amplitude spectrum IN (k) I of the current frame obtained by the noise estimator 28 from 1 I, the amplitude spectrum IY (k) I of the audio signal of the current frame with the noise amplitude spectrum removed is obtained. .
  • I x ⁇ k) I— IN (k) I is overdrawn at a frequency point where I (k) I is a negative value, so the subtraction value IY (k) I is not negative and remains zero. It is good to do.
  • the re-synthesis unit 62 uses the amplitude spectrum IY (k) I of the speech signal of the current frame obtained by the spectrum subtraction unit 60 and the noise suppression spectrum of the current frame obtained by the phase spectrum calculation unit 58.
  • the phase spectrum 0 (k) of the spectrum X (k) is recombined and the complex spectrum shown in Eq. (6) is obtained.
  • the created speech spectrum G (k) is supplied to the inverse fast Fourier transform unit 42 in FIG.
  • FIG. 6 shows an output waveform when stationary noise is input to the noise suppression device.
  • (a) is the original noise.
  • (b) and (c) are the noise suppression output when the conventional spectral subtraction method, that is, the cut-out frame length of the observation signal is used for both noise estimation and noise suppression, and (b) When both cut-out frame lengths are set to 32 msec, (c) is when both cut-out frame lengths are set to 256 msec.
  • D) and (e) are noise suppression outputs by the noise suppression method according to the present invention. In both cases, the extracted frame length is set to 256 msec for noise estimation (T2) and 32 msec for noise suppression (T1). It ’s time.
  • (d) shows the case where the dip removal processing by the dip removal unit 22 (FIG. 3) is not performed, and
  • (c) shows the case where the dip removal processing is performed.
  • the original noise of (a) The volume reduction for
  • the spectral subtraction methods (d) and (e) according to the present invention provide a higher noise suppression effect than the conventional spectral subtraction methods (b) and (c). Further, in the noise suppression method according to the present invention, it is possible to obtain a higher noise suppression effect when the dip removal processing is performed (e) than when the dip removal processing is not performed (d). Speak.
  • FIG. 7 shows a waveform diagram when noise-added speech is input to the noise suppression apparatus of the present invention.
  • the noise estimation frame length T2 is set to 256 msec
  • the noise suppression frame length T1 is set to 32 msec.
  • (A) is a voice with original noise.
  • (B) is a noise suppression output.
  • (c) is a suppression sound (muted sound). According to Fig. 7, it can be seen that the steady noise of (c) is suppressed from the noisy voice of (a) and the voice of (b) is obtained.
  • the amplitude spectrum subtraction method is used, and the noise amplitude is based on the envelope I X ′ (k) of the amplitude spectrum I X (k) I of the input signal.
  • I is the power that subtracts the noise amplitude spectrum IN (k) I from the amplitude spectrum IX (k) I of the input signal and performs noise suppression. Instead, the power spectrum subtraction method is used to Signal power spectrum IX (k) Based on I 2 envelope IX '(k) I 2
  • the noise estimation process may be performed at appropriate time intervals at predetermined time intervals (every T1Z2 hours). For example, a section that is easy to estimate noise, such as a non-voice section or a minute voice section, is detected in real time, and noise estimation processing is performed only in the section where noise estimation is easy, and noise estimation processing is performed in other sections. There is no (pause). In addition, noise estimation processing can not be performed (pause) in sections where noise fluctuations are small or where processing load is to be reduced. In these cases, the noise estimation process During the period when the process is suspended, the data of the noise amplitude spectrum update unit 48 (noise amplitude spectrum
  • the force described above is used when the FFT is used as the frequency analysis method.
  • the present invention can also use a frequency analysis method other than the FFT.
  • the time window length (the noise suppression frame length T1, that is, the time corresponding to M samples) for extracting the observation signal for noise suppression is calculated from the time interval (the time corresponding to MZ2 samples) for performing the extraction.
  • the overlap processing is performed at the time of output synthesis. If the overlap processing is not performed, these two time intervals can be set equally.
  • the present invention is based on a Japanese patent application filed on May 17, 2005 (Japanese Patent Application No. 2005-144744), the contents of which are incorporated herein by reference.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

 スペクトルサブトラクション法により雑音を抑圧する方法において、雑音推定用スペクトルに必要な周波数分解能と、雑音抑圧用スペクトルに必要な時間分解能を両立させて、雑音抑圧性能を向上させる。雑音のスペクトルの推定演算に用いる観測信号のスペクトルを分析するために切り出す該観測信号の信号長を、雑音のスペクトルとの減算を行う被減算値としての観測信号のスペクトルを分析するために切り出す該観測信号の信号長よりも長く設定する。

Description

明 細 書
雑音抑圧方法およびその装置
技術分野
[0001] この発明は、いわゆるスペクトルサブトラクシヨン法により雑音を抑圧する方法および その装置に関し、雑音抑圧性能を向上させたものである。
背景技術
[0002] 音声に含まれる雑音を抑圧する技術として、スペクトルサブトラクシヨン法がある。ス ベクトルサブトラクシヨン法は、音声に雑音が重畳した観測信号のスペクトル (以下「 観測信号スペクトル」という。)を求め、該観測信号スペクトル力も雑音のスペクトル( 以下「雑音スペクトル」という。)を推定し、該観測信号スペクトル力ゝら該雑音スペクトル を減算することにより、雑音を抑圧した音声のスペクトル (以下「音声スペクトル」と 、う 。)を得て、該音声スペクトルを時間領域の信号に変換することにより、雑音を抑制し た音声を得るようにしたものである。
[0003] スペクトルサブトラクシヨン技術を開示した従来技術として、下記特許文献に記載さ れたものがある。
特許文献 1:特開平 11 3094号公報
特許文献 2 :特開 2002— 14694号公報
特許文献 3:特開 2003— 223186号公報
[0004] 従来のスペクトルサブトラクシヨン法は、雑音スペクトルの推定演算に用いる観測信 号スペクトル (以下「雑音推定用スペクトル」という。)と、雑音スペクトルとの減算に用 V、られる被減算値としての観測信号スペクトル (以下「雑音抑圧用スペクトル」 、う。 )に共通の観測信号スペクトルを使用していた。
発明の開示
発明が解決しょうとする課題
[0005] スペクトルサブトラクシヨン法の抑圧対象である雑音は定常雑音等の時間変化が少 ない雑音であることから、雑音推定用スペクトルは、時間分解能よりは周波数分解能 が重要である。これに対し、スペクトルサブトラクシヨン法の抽出対象である音声は時 間変化が大きい信号であるから、雑音抑圧用スぺ外ルは、時間分解能が高いことが 重要である。ところが、従来のスペクトルサブトラクシヨン法は、雑音推定用スペクトル と、雑音抑圧用スぺ外ルに共通の観測信号スペクトルを使用していたため、雑音推 定用スペクトルに必要な周波数分解能と、雑音抑圧用スペクトルに必要な時間分解 能を両立させることができず、雑音抑圧性能が十分ではな力つた。
[0006] この発明は、上述の点に鑑みてなされたもので、雑音推定用スペクトルに必要な周 波数分解能と、雑音抑圧用スぺ外ルに必要な時間分解能を両立させて、雑音抑圧 性能を向上させた雑音抑圧方法およびその装置を提供しょうとするものである。 課題を解決するための手段
[0007] この発明の音声に雑音が重畳した観測信号から該雑音が抑圧された音声を得るた めの雑音抑圧方法は、観測信号から第 1の観測信号を切り出し、第 1の観測信号の スペクトルを分析し、第 1の観測信号のスペクトル力 雑音のスペクトルを推定演算し 、観測信号力 第 2の観測信号を切り出し、第 2の観測信号のスペクトルを分析し、第 2の観測信号のスペクトル力 前記雑音のスペクトルを減算し、音声のスペクトルを時 間領域の信号に変換し、第 1の観測信号の信号長 (時間窓長)は、前記第 2の観測 信号の信号長よりも長!ヽものである。
[0008] この発明の雑音抑圧方法によれば、雑音のスペクトルの推定演算に用いる観測信 号のスぺ外ルを分析するために切り出す該観測信号の信号長を相対的に長く設定 したので、雑音推定用スペクトルに必要な周波数分解能を高めることができる。また、 雑音のスぺ外ルとの減算を行う被減算値としての観測信号のスぺ外ルを分析する ために切り出す該観測信号の信号長を相対的に短く設定したので、雑音抑圧用スぺ タトルに必要な時間分解能を高めることができる。これにより、雑音推定用スペクトル に必要な周波数分解能と、雑音抑圧用スペクトルに必要な時間分解能が両立し、雑 音抑圧性能を向上させることができる。
[0009] この発明の雑音抑圧方法は、より具体的には、音声に雑音が重畳して時間とともに 進行する観測信号を、該観測信号が進行する所定の時間間隔毎に、該時間間隔と 同じかまたは該時間間隔よりも長い第 1の信号長で切り出し、前記第 1の信号長で切 り出された観測信号のスぺ外ルを第 1のスペクトルとして分析し、前記観測信号を、 前記所定の時間間隔毎または適宜の時間毎に、その先頭を前記第 1の信号長で切 り出される観測信号の先頭に揃えて、該第 1の信号長よりも長い第 2の信号長で切り 出し、前記第 2の信号長で切り出された観測信号のスペクトルを第 2のスペクトルとし て分析し、前記第 2のスペクトルに基づいて、前記観測信号に含まれる雑音のスぺク トルを推定演算し、雑音が抑圧された音声のスペクトルを求めるために、前記所定の 時間間隔毎に、前記第 1のスペクトルから前記雑音のスペクトルを減算し、前記所定 の時間間隔毎に、前記求められた音声のスペクトルを時間領域の信号に変換し、前 記変換された時間領域の信号を相互に連結して、雑音が抑圧された一連の音声を 得るよう〖こすることがでさる。
[0010] この発明の雑音抑圧方法では、前記第 2のスペクトルを平滑ィ匕処理し、該平滑化処 理された第 2のスペクトルに基づき前記雑音のスペクトルを推定演算する。ある 、は、 前記推定された雑音のスぺ外ルを平滑ィヒ処理した後に前記減算処理を行う。この 平滑化処理により、雑音のスペクトルの実質的な周波数分解能は、第 1のスペクトル の実質的な周波数分解能に等しくなる (または近づく)。このように雑音推定用スぺク トルを長時間のデータを使うことにより高分解能で求めておいてから平滑ィ匕すること で、 1つ 1つの減算結果 (音声スペクトルデータ)の精度 (有効性)が向上する。
[0011] また、この発明の雑音抑圧方法では、前記推定演算処理は、前記第 2のスペクトル を平滑化処理し、前記平滑化処理された第 2のスペクトルと該平滑化処理する前の 前記第 2のスペクトルとを比較し、第 2のスペクトルにおけるディップ (スペクトルにおけ る窪み)を除去するために、前記比較処理において周波数ポイント毎に大きい方の 値を選択し、前記ディップが除去された第 2のスペクトルに基づき前記雑音のスぺタト ルを推定演算する。あるいは、前記減算処理は、前記推定された雑音のスペクトルを 平滑化処理し、前記平滑化処理された雑音のスペクトルと前記平滑化処理する前の 雑音のスペクトルとを比較し、雑音のスペクトルにおけるディップを除去するために、 前記比較処理にぉ 、て周波数ポイント毎に大き 、方の値を選択し、前記ディップが 除去された雑音のスペクトルを用いて前記第 1のスペクトルとの減算を行う。すなわち 、雑音のスぺ外ルの推定演算に用いる観測信号のスペクトルを分析すると、分析さ れたスペクトルに大きなディップが出て、これが処理雑音 (信号処理に伴って新たに 発生する雑音で、いわゆるミュージカルノイズ)となる場合がある。そこで、前記第 2の スペクトル力 ディップを除去して力 雑音のスペクトルを推定演算し、または、雑音 のスペクトル力 ディップを除去してから前記第 1のスペクトルとの減算を行うことによ り、処理雑音の発生を抑制することができる。なお、この雑音のスペクトルの推定演算 に用いる観測信号のスペクトルまたは雑音のスペクトル力 ディップを除去する手法 は、雑音のスペクトルの推定演算に用いる観測信号のスペクトルを分析するために切 り出す該観測信号の信号長を、雑音のスペクトルとの減算を行う被減算値としての観 測信号のスぺ外ルを分析するために切り出す該観測信号の信号長よりも長く設定す る場合に限らず、両信号長を等しく設定する場合にも適用することができる。
[0012] この発明の雑音抑圧方法は、前記第 1のスペクトルの分析に使用する前記観測信 号の信号長を、前記第 2の信号長と同じ長さに揃えるために、前記第 1の信号長で切 り出された観測信号の末尾に後続して所定長の零信号を付加し、前記零信号が付 カロされた観測信号について前記第 1のスペクトルの分析を行い、前記分析された第 1 のスペクトル力 前記雑音のスペクトルを減算し、前記減算処理により得られた音声 のスぺ外ルを前記時間領域の信号へ変換し、前記時間領域の信号を前記第 1の信 号長に戻すために前記時間領域の信号の末尾から、前記零信号を付加した長さ分 の信号を削除し、前記第 1の信号長に戻された時間領域の信号を相互に連結する。
[0013] この発明の雑音抑圧方法は、前記所定の時間間隔を、例えば、前記第 1の信号長 の 1Z2の長さに設定することができる。この場合、前記時間領域の信号を前記所定 の時間間隔毎に前記第 1の信号長で得られる信号とし、該時間領域の信号に三角 窓を掛け、該三角窓が掛けられた時間領域の信号を順次加算して前記信号相互の 連結を行うことができる。
[0014] この発明の音声に雑音が重畳した観測信号力 雑音が抑圧された音声を得るため の雑音抑圧装置は、音声に雑音が重畳して時間とともに進行する観測信号を、該観 測信号が進行する所定の時間間隔毎に、該時間間隔と同じかまたは該時間間隔より も長い第 1の信号長で切り出す第 1の信号切り出し部と、前記第 1の信号切り出し部 で切り出された観測信号のスペクトルを第 1のスペクトルとして分析する第 1のスぺタト ル分析部と、前記観測信号を、前記所定の時間間隔毎または適宜の時間毎に、その 先頭を前記第 1の信号長で切り出される観測信号の先頭に揃えて、該第 1の信号長 よりも長 、第 2の信号長で切り出す第 2の信号切り出し部と、前記第 2の信号切り出し 部で切り出された観測信号のスペクトルを第 2のスペクトルとして分析する第 2のスぺ タトル分析部と、前記第 2のスペクトルに基づいて、前記観測信号に含まれる雑音の スペクトルを推定演算する雑音スぺ外ル推定演算部と、雑音が抑圧された音声のス ベクトルを求めるために、前記所定の時間間隔毎に、前記第 1のスペクトルから前記 雑音のスペクトルを減算する減算部と、前記所定の時間間隔毎に、前記求められた 音声のスぺ外ルを時間領域の信号に変換する時間領域変換部と、前記変換された 時間領域の信号を相互に連結して、雑音が抑圧された一連の音声を得る出力合成 部と、を具備してなる。
この発明の雑音抑圧装置は、より具体的には、音声に雑音が重畳して時間とともに 進行する観測信号を、該観測信号が進行する所定の時間間隔毎に、該時間間隔と 同じかまたは該時間間隔よりも長い第 1の信号長で切り出す第 1の信号切り出し部と 、前記第 1の信号切り出し部で切り出された観測信号のスペクトルを第 1のスペクトル として分析する第 1のスペクトル分析部と、前記観測信号を、前記所定の時間間隔毎 または適宜の時間毎に、その先頭を前記第 1の信号長で切り出される観測信号の先 頭に揃えて、該第 1の信号長よりも長 、第 2の信号長で切り出す第 2の信号切り出し 部と、前記第 2の信号切り出し部で切り出された観測信号のスペクトルを第 2のスぺク トルとして分析する第 2のスペクトル分析部と、前記第 2のスペクトルに基づいて、前 記観測信号に含まれる雑音のスペクトルを推定演算する雑音スぺ外ル推定演算部 と、雑音が抑圧された音声のスペクトルを求めるために、前記所定の時間間隔毎に、 前記第 1のスペクトルから前記雑音のスペクトルを減算する減算部と、前記所定の時 間間隔毎に、前記求められた音声のスペクトルを時間領域の信号に変換する時間領 域変換部と、前記変換された時間領域の信号を相互に連結して、雑音が抑圧された 一連の音声を得る出力合成部と、を具備してなる。
この発明の音声に雑音が重畳した観測信号力 該雑音が抑圧された音声を得るた めの雑音抑圧方法は、前記観測信号のスペクトルを分析し、前記観測信号のスぺク トルを平滑化処理し、前記平滑化処理された観測信号のスペクトルと、前記平滑化処 理する前の観測信号のスペクトルとを比較し、前記観測信号のスペクトルにおけるデ イッブを除去するために、前記比較処理において周波数ポイント毎に大きい方の値を 選択し、前記ディップが除去された観測信号のスペクトルに基づき雑音のスペクトル を推定演算し、前記雑音が抑圧された音声のスペクトルを求めるために、前記観測 信号のスペクトル力 前記雑音のスペクトルを減算し、前記音声のスペクトルを時間 領域の信号に変換する。
この発明の音声に雑音が重畳した観測信号力 該雑音が抑圧された音声を得るた めの雑音抑圧方法は、前記観測信号のスペクトルを分析し、前記観測信号のスぺク トルカ 雑音のスぺ外ルを推定演算し、前記推定された雑音のスぺ外ルを平滑ィ匕 処理し、前記平滑ィヒ処理された雑音のスペクトルと前記平滑ィヒ処理する前の雑音の スペクトルとを比較し、前記雑音のスペクトルにおけるディップを除去するために、前 記比較処理において周波数ポイント毎に大きい方の値を選択し、前記雑音が抑圧さ れた音声のスペクトルを求めるために、前記観測信号のスペクトルから前記雑音のス ベクトルを減算し、前記音声のスペクトルを時間領域の信号に変換する。
図面の簡単な説明
[0016] [図 1]この発明の雑音抑圧方法を利用した雑音抑圧処理の処理手順の概要を示すフ ローチャートである。
[図 2]図 1の雑音抑圧処理の動作説明図である。
[図 3]図 1の雑音抑圧処理を実行するための雑音抑圧装置の実施の形態を示す機能 ブロックである。
[図 4]図 2ディップ除去部 22の動作を説明するスペクトル線図である。
[図 5]図 3の雑音推定部 28と抑圧演算部 40の具体例を示すブロック図である。
[図 6]従来のスペクトルサブトラクシヨン法とこの発明によるスペクトルサブトラクシヨン 法について、定常雑音を入力したときの出力波形の違いを示す波形図である。
[図 7]この発明の雑音抑圧装置に雑音付き音声を入力した場合の波形図である。 符号の説明
[0017] 16· ··フレーム切出し部(第 2の信号切り出し部)
18· ··高速フーリエ変換部 (第 2のスぺ外ル分析部) 22· ··ディップ除去部
24· ··平滑化処理部
28· 雑音推定部 (雑音スペクトル推定演算部)
32· ..フレーム切出し部(第 1の信号切り出し部)
38· ..高速フーリエ変換部 (第 1のスぺ外ル分析部)
42· '·逆高速フーリエ変換部(時間領域変換部)
44· ··出力合成部(出力合成部)
60· ' ·スペクトル減算部 (減算部)
発明を実施するための最良の形態
この発明の実施の形態を以下説明する。図 1は、この発明の雑音抑圧方法を利用 した雑音抑圧処理の処理手順の概要を示す。図 2は、図 1の雑音抑圧処理の動作説 明図である。図 1において、雑音抑圧対象である観測信号 X (n) (n=0, 1, 2, ···)は
0
、マイク等で収音された、雑音を含む音声信号 (例えば、電話通信で受信された音声 信号、音声認識のために入力された信号等)のサンプル列であり、目的とする話者等 の音声に背景雑音等の定常雑音が混入した雑音付き音声信号である。観測信号 X (
0 n)は、雑音抑圧用スペクトルの分析用と、雑音推定用スペクトルの分析用とで別々の フレーム長 (信号長すなわち時間窓長)でフレーム切り出し (信号切り出し)が行われ る(SI, S2)。すなわち、雑音抑圧用スペクトルの分析用フレームの切り出し (S1)は 、観測信号 X (n)を相対的に短いフレーム長 T1で切り出すことにより行われ (以下、
0
この相対的に短いフレーム長 T1を「雑音抑圧用フレーム長」、該フレーム長で切り出 される観測信号 X (n)のフレームを「雑音抑圧用フレーム」とそれぞれいう。)、雑音推
0
定用スペクトルの分析用フレームの切り出し (S2)は、観測信号 X (n)を相対的に長
0
V、フレーム長 T2で切り出すことにより行われる(以下、この相対的に長 、フレーム長 T2を「雑音推定用フレーム長」、該フレーム長で切り出される観測信号 X (n)のフレ
0
ームを「雑音推定用フレーム」とそれぞれいう。 )。これら雑音抑圧用フレームと雑音推 定用フレームの切り出し (SI, S2)は、雑音抑圧用フレームと雑音推定用フレームの 先頭を揃えて {つまり、両フレームの先頭に同一時刻の観測信号サンプル (最新のサ ンプル)を配置して }、観測信号が雑音抑圧用フレーム長 T1の 1Z2の時間を進行す る毎に繰り返し行われる。切り出された雑音抑圧用フレームの末尾 (該フレーム中の 最古のサンプル)には、該最古のサンプルに後続して所定長の零データ (信号値が 零のサンプルデータすなわち零信号)が付加されて、そのフレーム長が、形式的 (擬 似的)に、雑音推定用フレーム長 T2と同じ長さに揃えられる(S3)。この処理を行うの は、雑音抑圧用スペクトル力 雑音スペクトルを減算するためには、これら両スぺタト ルのデータ数 (周波数ポイント数)が揃っている必要があるためである。すなわち、雑 音スペクトルのデータ数は雑音推定用スペクトルのデータ数に等しく、雑音抑圧用ス ベクトルのデータ数を雑音推定用スペクトルのデータ数に揃えるためには、周波数領 域のデータに変換する前の時間領域でのデータ数 (サンプル数)を、雑音抑圧用フ レームと雑音推定用フレームとで揃える必要がある。なお、雑音抑圧用フレーム長 T 1は、抽出対象の音声が話者音声である場合には、例えば、 20〜32mseCに設定す ることができる。雑音推定用フレーム長 T2は、抑圧対象の雑音が部屋の空調ノイズ である場合には、例えば、雑音抑圧用フレーム長 T1の 8倍程度の長さ(例えば 256 msec)に設定することができる。
[0019] 図 2の「(a)雑音抑圧前の処理」は、上記ステップ S1〜S 3による動作を示す。すな わち、観測信号が新たに MZ2サンプル入力される毎 (T1Z2時間毎)に、最新の M サンプルの観測信号が雑音抑圧用フレームとして切り出され (つまり、雑音抑圧用フ レームは、 MZ2サンプルずつオーバーラップして切り出される。 最新の Nサンプ ル (N>M。図 2では、 N = 8Mに設定した場合を示す。)の観測信号が雑音推定用 フレームとして切り出される。雑音抑圧用フレームの末尾には、 N— Mサンプル分の 零データが付加されて、雑音抑圧用フレームのフレーム長が、形式的に、雑音推定 用フレーム長 T2と同じ長さに揃えられる。
[0020] 図 1において、零データが付加された雑音抑圧用フレームのデータは、該雑音抑 圧用フレームのデータが切り出される毎(すなわち、観測信号の MZ2サンプルの時 間間隔毎)に高速フーリエ変換 (FFT: Fast Fourier Transform)されて、周波数領域 のデータすなわち雑音抑圧用スペクトル X (k)に変換される(S4)。また、雑音推定
1
用フレームのデータは、該雑音推定用フレームのデータが切り出される毎(すなわち
、観測信号の MZ2サンプルの時間間隔毎)に高速フーリエ変換されて、周波数領 域の信号すなわち雑音推定用スぺ外ル X (k)に変換される(S5)。そして、雑音推
2
定用スペクトル X (k)が求められる都度 (すなわち、観測信号の
2 MZ2サンプルの時 間間隔毎に)、該雑音推定用スペクトル X (k)は適宜のディップ除去処理または平滑
2
化処理が施される(S6)。さらに、このディップ除去処理または平滑化処理が施される 毎 (すなわち、観測信号の MZ2サンプルの時間間隔毎)に、該ディップ除去処理ま たは平滑ィヒ処理された雑音推定用スペクトル X ' (k)と、前回の雑音スペクトルの推
2
定値とに基づいて、今回の雑音スペクトル N (k)を推定する演算が行われる(S7)。
[0021] また、雑音抑圧用スペクトル X (k)と雑音スペクトル N (k)が求められる毎 (すなわち
1
、観測信号の MZ2サンプルの時間間隔毎)に、雑音抑圧用スペクトル X (k)から雑
1 音スペクトル N (k)が減算されて、雑音が抑圧された音声スペクトル G (k)が求められ る(S8)。この音声スペクトル G (k)は、逆高速フーリエ変換 (I FFT)されて、時間領 域の信号すなわち音声信号に変換される(S9)。観測信号の MZ2サンプルの時間 間隔毎に得られる各フレームの音声信号は、相互に連結されて(S10)、連続した音 声信号 g(n)となって出力され、スピーカからの発声や、話者の音声認識処理等に利 用される。
[0022] 図 2の「(b)雑音抑圧後の処理」は、上記ステップ S 10のフレーム合成動作を示す。
すなわち、逆高速フーリエ変換(S9)により得られた Nサンプルのフレームの末尾から 、零データを付カ卩した分の N— Mサンプルを削除して、元の Mサンプルのフレームに 戻す。そして、観測信号の MZ2サンプルの時間間隔毎に得られる各 Mサンプルの フレームのデータに三角窓を掛けて {すなわち、 1フレーム長(Mサンプル分の時間 長)の前半の 1Z2フレームでゲインが 0から 1に直線的に上昇し、後半の 1Z2フレー ムでゲインが 1から 0に下降する特性のゲインを付与し }、フレームを相互に加算して( すなわち、 1Z2フレームずつオーバーラップして加算される)、連続した音声信号を 作成する。これにより、フレーム間に切れ目や段差の無い連続した音声信号が得ら れる。
[0023] 次に、以上説明した図 1の雑音抑圧処理を実行するための雑音抑圧装置の実施の 形態を説明する。この実施の形態では、
•サンプリング周波数 = 16kHz •M (雑音抑圧用フレーム長 Tl) = 512サンプル(32msec長に相当)
• N (雑音推定用フレーム長 T2) = 4096サンプノレ(256msec長に相当)
に設定した場合について説明する。図 3に雑音抑圧装置の機能ブロックを示す。入 力信号 (雑音付き音声信号) X (n)は、雑音スペクトル出力部 10と雑音抑圧部 12に
0
共通に入力される。雑音スペクトル出力部 10に入力された雑音付き音声信号は、始 めに雑音推定用スペクトル分析部 14で、雑音推定用の周波数分析が行われる。す なわち、フレーム切出し部 16は、新たに MZ2サンプル(256サンプル)の入力信号 が入力される毎に、最新の N (4096)サンプルの入力信号を切り出す。高速フーリエ 変換部 18は、切り出されたフレームを高速フーリエ変換して、周波数領域のデータ すなわちスペクトルデータ (離散フーリエ変換) X (k) (k=0, 1, 2, ···)に変換する。
2
振幅スペクトル計算部 20は、求められたスペクトルデータ X (k)から、その振幅スぺク
2
トルを求める。
[0024] ディップ除去部 22は、求められた振幅スペクトルのディップすなわち周波数特性上 の窪みを除去する。ディップ除去処理は例えば次のようにして行われる。すなわち、 始めに振幅スペクトルを平滑ィ匕処理部 24で平滑ィ匕処理する。平滑ィ匕処理のアルゴリ ズムとしては、例えば移動平均法を用いることができる。移動平均法では、所定数の 連続した周波数ポイント (すなわち所定の周波数帯域幅)における振幅の平均値を 該周波数帯域の中央の周波数ポイントの振幅値として置き換える。 1回の平均で使 用する連続した周波数ポイントの点数 (すなわち、平均値を求める周波数帯域幅)は 、例えば 8点とすれば、平滑ィヒされた振幅スペクトル (雑音推定用振幅スペクトル)の 実質的な周波数分解能は、雑音抑圧用振幅スペクトルの実質的な周波数分解能に 等しくなる。この平均値算出および振幅値の置き換えを、周波数ポイントを 1ポイント ずつずらして実行し、全周波数帯域にわたり平滑ィ匕した振幅スペクトルを求める。
[0025] 平滑化処理部 24における平滑化処理のアルゴリズムとしては、移動平均法のほか に、移動メディアン法を用いることもできる。移動メディアン法では、所定数 (例えば 8 点)の連続した周波数ポイント(すなわち所定の周波数帯域幅)の中で、振幅値の中 央値を該周波数帯域の中央の周波数ポイントの振幅値として置き換える。そして、こ の振幅値の中央値の抽出および振幅値の置き換えを、周波数ポイントを 1ポイントず つずらして実行し、全周波数帯域にわたり平滑ィ匕した振幅スペクトルを求める。
[0026] ディップ除去部 22において、比較部 26は、平滑ィ匕処理部 24で平滑ィ匕された振幅 スペクトルと平滑ィ匕される前の振幅スペクトルとを比較して、周波数ポイント毎に大き い方の値を選択し、該選択した値を繋いで構成される一連の特性を、雑音推定用振 幅スペクトル | X (k) |として出力する。これにより、ディップが除去された雑音推定
2
用振幅スペクトル | X (k) |が得られる。
2
[0027] 図 4は、ディップ除去部 22の動作を示す {全振幅スペクトルの一部の周波数領域( 0〜: LOOHz)のみを拡大して示す。 }。平滑化する前の振幅スペクトル Aと移動平均 法で平滑ィ匕した振幅スペクトル Bが比較され、周波数ポイント毎に黒点で示す大き!/、 方の値が選択されて、該選択された値を繋いで構成される一連の特性が、ディップ が除去された振幅スペクトルとしてディップ除去部 22から出力される。これにより、振 幅スペクトル Aのディップ (谷)が除去され、処理雑音が低減される。
[0028] なお、図 3の比較部 26をなくして、平滑ィ匕処理部 24の出力信号 (すなわち、移動平 均法、移動メディアン法等で平滑化された振幅スぺ外ル)を雑音推定用振幅スぺク トル | X (k) |として雑音推定用スペクトル分析部 14から出力する(すなわち、デイツ
2
プ除去部 22に代えて、平滑ィ匕処理部 24のみを配置する)こともできる。
[0029] 図 3において、雑音推定部 28は、ディップが除去されあるいは平滑ィ匕された振幅ス ベクトルに基づき、任意の推定アルゴリズムで、観測信号に含まれる雑音の振幅スぺ タトル (以下「雑音振幅スペクトル」という。)を推定演算する。なお、ディップ除去部 22 (あるいは、ディップ除去部 22に代えて平滑ィ匕処理部 24)は、雑音推定部 28の前に 配置する代わりに、雑音推定部 28の後に配置することもできる。
[0030] 一方、雑音抑圧部 12に入力された入力信号 (雑音付き音声信号 ) x (n)は、始め
0
に抑圧用スペクトル分析部 30で雑音抑圧用(すなわち、雑音スペクトルが減算される 被減算値としての観測信号スぺ外ルの作成用)の周波数分析が行われる。すなわち 、フレーム切出し部 32は、新たに MZ2サンプル(256サンプル)の入力信号が入力 される毎に、最新の M (512)サンプルの入力信号を切り出す。零データ発生部 34は 、 N—M (3584)サンプル分の零データを発生する。加算部 36は、フレーム切出し部 32で切り出された Mサンプルの入力信号の末尾に N— Mサンプル分の零データを 付加して、該切り出された入力信号を、形式的に、雑音推定用フレーム長 T2と同じ 長さに揃える。高速フーリエ変換部 38は、この零データが付加されたデータを高速フ 一リエ変換して、周波数領域のデータすなわちスペクトルデータ (離散フーリエ変換) X (k) (k=0, 1, 2, · · ·)に変換し、雑音抑圧用スペクトルとして出力する。
1
[0031] 抑圧演算部 40は、抑圧用スペクトル分析部 30から出力される雑音抑圧用スぺタト ル X (k)と、雑音スペクトル出力部 10から出力される雑音振幅スペクトル I N (k)
1 I に基づき、任意の抑圧アルゴリズムで雑音抑圧処理を行う。抑圧演算部 40から出力 される雑音が抑圧された音声スペクトル G (k)は、逆高速フーリエ変換部 42で逆高速 フーリエ変換されて、時間領域の信号に戻される。逆高速フーリエ変換部 42から出 力される信号は、 N (4096)サンプルのデータであるので、出力合成部 44で、零デ ータを付カ卩した分の下位 N— M (3584)サンプルが除去されて、元の M (512)サン プルのデータに戻され、さらにフレームどうしが連結されて、連続した音声信号 g (n) として出力される。
[0032] 雑音推定部 28と抑圧演算部 40の具体例を図 5に示す。雑音推定部 28において、 スペクトル包絡線抽出部 45は、図 3の雑音推定用スペクトル分析部 14から出力され る雑音推定用振幅スペクトル I X (k)
2 Iに含まれる細力な凹凸特性を除去して、該 雑音推定用振幅スペクトル I X (k)
2 I の包絡線 I X ' (k)
2 Iを抽出するものである。 これは、後述する相関値算出において、雑音推定用振幅スペクトル I X (k)
2 I その ものを用いると、スペクトルの相関値が低くなり、「音声区間」と「雑音区間」の区別が 明確でなくなるためである。すなわち、雑音は、長時間観測を繰り返してそのスぺタト ルを平均してみれば、そのスペクトルは広 、帯域にわたってほぼ一様となる滑らかな 分布となることが期待できる。しかし、短時間で見れば多くの山谷を有するスペクトル の変動が観察される。一方、音声は、雑音とは異なり、その全体的な周波数特性は 特定の周波数帯域に大きな振幅値を持っており、全周波数帯域に一様に分布して いない。この具体例では、この「全周波数帯域に一様に分布する雑音」と、「ある特定 の周波数帯域に大きな振幅値を持つ音声」を、スペクトルの相関値の大小で区別し て雑音スペクトルを推定するので、雑音振幅スペクトルが持って ヽる細かな凹凸特性 を除去する。 [0033] スペクトル包絡線抽出部 45は、例えば、雑音推定用振幅スペクトル | X (k) |を時
2 間波形と見立ててローパスフィルタ処理をすることにより、包絡線を抽出する。ローバ スフィルタ処理は、例えば、雑音推定用振幅スペクトル | X (k) | を直接ローバスフ
2
ィルタにかける、あるいは雑音推定用振幅スペクトル | X (k) |を周波数軸方向に移
2
動平均処理をする等により行うことができる。また、スペクトル包絡線抽出部 45により 雑音推定用振幅スペクトル I X (k) | の包絡線 | X ' (k) |を抽出する別の方法とし
2 2
て、雑音推定用振幅スペクトル I X (k) |をさらにフーリエ変換してケプストラムによ
2
つて求める方法もある。
[0034] 雑音振幅スペクトル初期値出力部 46は雑音振幅スペクトルの初期値を出力する。
すなわち、本装置の起動当初は、参照する雑音振幅スペクトルデータがないため、 初期値を設定する。雑音振幅スペクトル初期値の設定方法としては、例えば、次の方 法が考えられる。
(方法 1)起動直後に入力された、音声の混入して 、な 、背景雑音のみのデータをフ 一リエ変換し、該フーリエ変換されたデータから求められる振幅スペクトルデータを雑 音振幅スペクトル初期値として設定する。
(方法 2)予め背景雑音に相当する振幅スペクトルデータをメモリに保持しておき、起 動時にそれを読み出して雑音振幅スペクトル初期値として設定する。あるいは、予め 背景雑音に相当する振幅スペクトルデータの包絡線データをメモリに保持しておき、 起動時にそれを読み出して雑音振幅スペクトル包絡線データの初期値として設定す る。
(方法 3)ホワイトノイズやピンクノイズの振幅スペクトルデータを雑音振幅スペクトル初 期値として設定する。
[0035] 雑音振幅スペクトル更新部 48は、後述する雑音振幅スペクトル算出部 50で半フレ ーム (T1/2)ごとに求められる雑音振幅スペクトル I N (k) Iを順次入力し、半フレ ーム分遅延して、前回 (半フレーム前)観測された信号区間の観測信号について推 定された雑音振幅スペクトル I N (k) Iとして順次出力するものである。起動当初は
0
雑音振幅スペクトル I N (k) I は未だ推定されていないので、雑音振幅スペクトル更 新部 48は雑音振幅スペクトル初期値出力部 46で設定された雑音振幅スペクトルの 初期値を出力する。スペクトル包絡線抽出部 52は、スペクトル包絡線抽出部 45と同 様の方法により、雑音振幅スペクトル I N (k) |の包絡線 | N ' (k) |を抽出する。
0 0
相関値算出部 54は、スペクトル包絡線抽出部 45で抽出された現フレームの雑音 推定用振幅スペクトル包絡線 I X' (k) |と、スペクトル包絡線抽出部 52で抽出され
2
た雑音振幅スペクトル包絡線 | N ' (k) | の相関値 (相関係数) pを求める。相関値
0
は、
雑音推定用振幅スペクトル包絡線 | X, (k) | =x (但し、 k= l, 2,…, K)
2 k
雑音振幅スペクトル包絡線を I N ' (k) | =y (但し、 k= l, 2, · ··, K)
0 k
とすると、(1)式により求められる。
[数 1]
Figure imgf000016_0001
ただし、
Figure imgf000016_0002
»( = - Uxj /K)2
Figure imgf000016_0003
雑音振幅スペクトル算出部 50は、求められた相関値 pに応じて、現在観測されて いる信号区間の音声信号について雑音振幅スペクトル I N (k) Iを、(2)式により求 める。
I N (k) I (k)
Figure imgf000016_0004
I …
但し、 I N (k) I :現在観測されているフレームの音声信号について推定
される雑音振幅スペクトル
I N (k) I :前
0 回 (半フレーム前)観測されたフレームの音声信号 につ 、て推定された雑音振幅スペクトル
I X (k) | :現在観測されているフレームの雑音推定用振幅スペクトル
2
:現在観測されて 、るフレームの音声信号のスペクトルの包絡線と 前回観測されたフレームの音声信号について推定された雑音の スペクトルの包絡線との相関値
1, m:定数 (1は 1以上の値、 mは 0以上の値)
[0038] (2)式は、前回 {半フレーム (T1/2)前 }推定した雑音振幅スペクトル I N (k)
0 Iと
、今回算出した雑音推定用振幅スぺ外ルは(k) Iを、求められた相関値 pに応じ
2
た比率で加算して、新たな雑音振幅スペクトル I N (k) Iを推定するものである。す なわち、相関値 pが低いときは、入力信号に含まれる音声成分が多い (つまり、有音 区間)と判断されるので、前回推定した雑音振幅スペクトル I N (k)
0 I の比率を高く し、今回算出した雑音推定用振幅スぺ外ル I X (k)
2 Iを比率を低くして加算する。 つまり、雑音振幅スペクトル I N (k) Iが音声成分の影響で変化しないようにする。こ れに対し、相関値 pが高いときは、入力信号に含まれる音声成分が少ない(つまり、 無音区間)と判断されるので、前回推定した雑音振幅スペクトル I N (k)
0 I の比率を 低くし、今回算出した雑音推定用振幅スぺ外ル I X (k)
2 Iを比率を高くして加算す る。つまり、雑音振幅スペクトル I N (k) I力 定常雑音の緩やかな変化に追従して 変化するようにする。そして、相関値 pが限りなく 1に近いときに、前回推定した雑音 振幅スペクトル I N (k)
0 Iと、今回算出した雑音推定用振幅スペクトル I X (k)
2 Iを 同じ比率 (0. 5 : 0. 5)で加算する。このようにして、主に無音区間で雑音振幅スぺタト ルが更新される。
[0039] (2)式において、 1は、低相関値に対する感度を調整するための定数である。 1値が 大きいほど低相関時の雑音振幅スペクトル推定値の更新量が少なくなる。また、 (2) 式において、 mは、更新量を調整するための定数である。 m値が大きいほど更新量 が少、なくなる。
[0040] 抑圧演算部 40に入力される雑音抑圧用スペクトル X (k)は、振幅スペクトル計算部
1
56と位相スペクトル計算部 58に入力される。振幅スペクトル計算部 56は、(3)式によ り雑音抑圧用スペクトル X (k)の振幅スペクトル I X (k) Iを求める。 I x 1 (k) I ={x R (k)2+x I(k)2}12 -(3)
但し、 X (k):X (k)の実数部
R 1
X (k) :X (k)の虚数部
I 1
また、位相スペクトル計算部 58は、(4)式により雑音抑圧用スペクトル X (k)の位相ス
1
ぺクトノレ 0 (k)を求める。
Θ (k)=tan_1{X(k)/X (k) } ·'·(4)
I R
[0041] スペクトル減算部 60は、(5)式により、振幅スペクトル計算部 56で求めた現フレー ムの雑音抑圧用振幅スペクトル I X (k)
1 Iから、雑音推定部 28で求めた現フレーム の雑音振幅スペクトル I N(k) Iを減算することにより、雑音振幅スペクトルを除去し た現フレームの音声信号の振幅スペクトル I Y(k) Iを求める。
I Y(k) I = |x 1(k) I I N(k) I … )
なお、 I x^k) I— I N(k) Iが負の値となる周波数ポイントでは、引き過ぎであるの で、減算値 I Y(k) Iを負の値のままとせずに、零とするのがよい。
[0042] 再合成部 62は、スペクトル減算部 60で求めた現フレームの音声信号の振幅スぺク トル I Y(k) Iと、位相スペクトル計算部 58で求めた現フレームの雑音抑圧用スぺク トル X (k)の位相スペクトル 0 (k)とを再合成して、(6)式に示す複素スペクトルすな
1
わち雑音が抑圧された音声スペクトル G (k)を作成する。
G(k)= I Y(k) I efl(k) ー(6)
作成された音声スペクトル G(k)は、図 3の逆高速フーリエ変換部 42に供給される。
[0043] 図 6は、雑音抑圧装置に定常雑音を入力したときの出力波形を示す。 (a)は原雑音 である。 (b)、 (c)は、従来のスペクトルサブトラクシヨンによる手法すなわち観測信号 の切り出しフレーム長を雑音推定用と雑音抑圧用とで共通にしたときの雑音抑圧出 力であり、(b)は、両切り出しフレーム長を 32msecに設定したときのもの、(c)は、両 切り出しフレーム長を 256msecに設定したときのものである。(d)、 (e)は、この発明 による雑音抑圧方法による雑音抑圧出力であり、いずれも切り出しフレーム長を、雑 音推定用(T2)を 256msec、雑音抑圧用(T1)を 32msecに設定したときのものであ る。 (d)はディップ除去部 22 (図 3)によるディップ除去処理を行わなかったときのもの 、(c)は同ディップ除去処理を行ったときのものである。図 6によれば、(a)の原雑音 に対する減音量は、
(b)の従来手法の場合: 20dB
(c)の従来手法の場合: 19dB
(d)の本発明手法 (ディップ除去処理無し)の場合: 36dB
(e)の本発明手法 (ディップ除去処理有り)の場合: 64dB
であった。したがって、この発明によるスペクトルサブトラクシヨン法 (d)、 (e)は、従来 のスペクトルサブトラクシヨン法 (b)、 (c)に比べて高い雑音抑圧効果が得られることが わかる。また、この発明による雑音抑圧方法では、ディップ除去処理を行った場合 (e )の方が、ディップ除去処理を行わなかった場合 (d)よりも高 ヽ雑音抑圧効果が得ら れることがゎカゝる。
[0044] 図 7は、この発明の雑音抑圧装置に、雑音付き音声を入力した場合の波形図を示 す。ここでは、雑音推定用フレーム長 T2を 256msecとし、雑音抑圧用フレーム長 T1 を 32msecに設定した。(a)は原雑音付き音声である。(b)は雑音抑圧出力である。 ( c)は、抑圧音 (消された音)である。図 7によれば、(a)の雑音付き音声から、(c)の定 常雑音が抑圧されて、 (b)の音声が得られることがわかる。
[0045] 前記実施の形態では、振幅スペクトルサブトラクシヨン法を用いて、入力信号の振 幅スペクトル I X (k) I の包絡線 I X ' (k) に基づき雑音振
2 I 幅スペクトル
2 I N (k)
Iを推定し、入力信号の振幅スペクトル I X (k) Iから雑音振幅スペクトル I N (k) Iを減算して雑音抑圧を行った力 これに代えて、パワースペクトルサブトラクシヨン 法を用いて、入力信号のパワースペクトル I X (k) I 2の包絡線 I X ' (k) I 2に基づ
2 2
き雑音のパワースペクトル I N (k) 1 2を推定し、入力信号のパワースペクトル I X (k
2
) I 2から雑音のパワースぺ外ル I N (k) I 2を減算して雑音抑圧を行うこともできる。
[0046] 前記実施の形態では、雑音推定処理を所定時間間隔 (T1Z2時間毎)毎に必ず行 うようにした力 適宜の時間毎に行うようにしてもよい。例えば、無音声区間、微少音 声区間等の雑音推定が容易な区間を実時間で検出し、該雑音推定が容易な区間で のみ雑音推定処理を行い、それ以外の区間では雑音推定処理を行わない (一時停 止する)ことができる。また、雑音変動が少ない区間や処理負荷を減らしたい区間も 雑音推定処理を行わない (一時停止する)ことができる。これらの場合、雑音推定処 理を一時停止して 、る区間では、雑音振幅スペクトル更新部 48のデータ (雑音振幅 スペクトル | N (k) | )の更新は行わず、この雑音振幅スペクトル更新部 48に保持さ
0
れている最新の(一時停止直前の)雑音振幅スペクトル I N (k) |に基づいて雑音
0
抑圧処理を行うことができる。
[0047] 前記実施の形態では周波数分析手法として FFTを用いた場合にっ 、て説明した 力 この発明は FFT以外の周波数分析手法を用いることもできる。
[0048] 前記実施の形態では、雑音抑圧用に観測信号を切り出す時間窓長 (雑音抑圧用 フレーム長 T1すなわち Mサンプル分の時間)を、該切り出しを行う時間間隔 (MZ2 サンプル分の時間)よりも長く設定したが、これは出力合成の際にオーバーラップ処 理を行うためであり、オーバーラップ処理を行わない場合は、これら両時間間隔を等 しく設定することができる。
[0049] 本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、 範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができるこ とは当業者にとって明らかである。
本発明は、 2005年 5月 17日出願の日本特許出願 (特願 2005-144744)に基づくもの であり、その内容はここに参照として取り込まれる。

Claims

請求の範囲
[1] 音声に雑音が重畳した観測信号力 該雑音が抑圧された音声を得るための雑音抑 圧方法は、
前記観測信号から第 1の観測信号を切り出し、
前記第 1の観測信号のスペクトルを分析し、
前記第 1の観測信号のスペクトル力 雑音のスペクトルを推定演算し、 前記観測信号から第 2の観測信号を切り出し、
前記第 2の観測信号のスペクトルを分析し、
前記第 2の観測信号のスペクトル力 前記雑音のスペクトルを減算し、 前記音声のスペクトルを時間領域の信号に変換し、
前記第 1の観測信号の信号長は、前記第 2の観測信号の信号長よりも長い。
[2] 雑音抑圧方法は、
音声に雑音が重畳して時間とともに進行する観測信号を、該観測信号が進行する 所定の時間間隔毎に、該時間間隔と同じかまたは該時間間隔よりも長い第 1の信号 長で切り出し、
前記第 1の信号長で切り出された観測信号のスペクトルを第 1のスペクトルとして分 祈し、
前記観測信号を、前記所定の時間間隔毎または適宜の時間毎に、その先頭を前 記第 1の信号長で切り出される観測信号の先頭に揃えて、該第 1の信号長よりも長い 第 2の信号長で切り出し、
前記第 2の信号長で切り出された観測信号のスペクトルを第 2のスペクトルとして分 祈し、
前記第 2のスペクトルに基づ 、て、前記観測信号に含まれる雑音のスペクトルを推 定演算し、
雑音が抑圧された音声のスペクトルを求めるために、前記所定の時間間隔毎に、 前記第 1のスペクトル力 前記雑音のスペクトルを減算し、
前記所定の時間間隔毎に、前記求められた音声のスペクトルを時間領域の信号に 変換し、 前記変換された時間領域の信号を相互に連結して、雑音が抑圧された一連の音声 を得る。
[3] 請求項 2記載の雑音抑圧方法であって、前記第 2のスペクトルを平滑化処理し、該平 滑ィ匕処理された第 2のスペクトルに基づき前記雑音のスペクトルを推定演算する。
[4] 請求項 2記載の雑音抑圧方法であって、前記推定された雑音のスペクトルを平滑ィ匕 処理した後に前記減算処理を行う。
[5] 請求項 2記載の雑音抑圧方法であって、前記推定演算処理は、
前記第 2のスペクトルを平滑ィ匕処理し、
前記平滑化処理された第 2のスペクトルと該平滑化処理する前の前記第 2のスぺ タトルとを比較し、
第 2のスペクトルにおけるディップを除去するために、前記比較処理にお!、て周波 数ポイント毎に大き 1、方の値を選択し、
前記ディップが除去された第 2のスペクトルに基づき前記雑音のスペクトルを推定 演算する。
[6] 請求項 2記載の雑音抑圧方法であって、前記減算処理は、
前記推定された雑音のスペクトルを平滑ィ匕処理し、
前記平滑化処理された雑音のスペクトルと前記平滑化処理する前の雑音のスぺ タトルとを比較し、
雑音のスペクトルにおけるディップを除去するために、前記比較処理にぉ 、て周 波数ポイント毎に大き 、方の値を選択し、
前記ディップが除去された雑音のスぺクトルを用 ヽて前記第 1のスぺクトルとの減 算を行う。
[7] 請求項 2に記載の雑音抑圧方法であって、前記第 1のスペクトルの分析に使用する 前記観測信号の信号長を、前記第 2の信号長と同じ長さに揃えるために、前記第 1の 信号長で切り出された観測信号の末尾に後続して所定長の零信号を付加し、 前記零信号が付加された観測信号にっ ヽて前記第 1のスペクトルの分析を行 ヽ、 前記分析された第 1のスペクトル力 前記雑音のスペクトルを減算し、
前記減算処理により得られた音声のスペクトルを前記時間領域の信号へ変換し、 前記時間領域の信号を前記第 1の信号長に戻すために前記時間領域の信号の末 尾から、前記零信号を付加した長さ分の信号を削除し、
前記第 1の信号長に戻された時間領域の信号を相互に連結する。
[8] 請求項 2に記載の雑音抑圧方法であって、前記所定の時間間隔が、前記第 1の信号 長の 1Z2の長さである。
[9] 請求項 8記載の雑音抑圧方法であって、前記時間領域の信号が前記所定の時間間 隔毎に前記第 1の信号長で得られる信号であり、該時間領域の信号に三角窓を掛け 、該三角窓が掛けられた時間領域の信号を順次加算して前記信号相互の連結を行
[10] 音声に雑音が重畳した観測信号力 雑音が抑圧された音声を得るための雑音抑圧 装置は、
第 1の信号長を有する前記観測信号のスぺ外ルを分析する第 1のスぺ外ル分析 部と、
第 2の信号長を有する前記観測信号のスぺ外ルを分析する第 2のスぺ外ル分析 部と、
前記第 2のスペクトル分析部で分析された観測信号のスペクトル力 雑音のスぺタト ルを推定演算する雑音スペクトル推定演算部と、
雑音が抑圧された音声のスペクトルを求めるために、前記第 1のスペクトル分析部 で分析されたスぺ外ルカ 前記雑音のスペクトルを減算する減算部と、
前記求められた音声のスペクトルを時間領域の信号に変換する時間領域変換部と を具備し、
前記第 2の信号長が、前記第 1の信号長よりも長い。
[11] 雑音抑圧装置は、
音声に雑音が重畳して時間とともに進行する観測信号を、該観測信号が進行する 所定の時間間隔毎に、該時間間隔と同じかまたは該時間間隔よりも長い第 1の信号 長で切り出す第 1の信号切り出し部と、
前記第 1の信号切り出し部で切り出された観測信号のスペクトルを第 1のスペクトル として分析する第 1のスペクトル分析部と、 前記観測信号を、前記所定の時間間隔毎または適宜の時間毎に、その先頭を前 記第 1の信号長で切り出される観測信号の先頭に揃えて、該第 1の信号長よりも長い 第 2の信号長で切り出す第 2の信号切り出し部と、
前記第 2の信号切り出し部で切り出された観測信号のスペクトルを第 2のスペクトル として分析する第 2のスペクトル分析部と、
前記第 2のスペクトルに基づ 、て、前記観測信号に含まれる雑音のスペクトルを推 定演算する雑音スペクトル推定演算部と、
雑音が抑圧された音声のスペクトルを求めるために、前記所定の時間間隔毎に、 前記第 1のスペクトル力 前記雑音のスペクトルを減算する減算部と、
前記所定の時間間隔毎に、前記求められた音声のスペクトルを時間領域の信号に 変換する時間領域変換部と、
前記変換された時間領域の信号を相互に連結して、雑音が抑圧された一連の音声 を得る出力合成部と、
を具備してなる。
[12] 音声に雑音が重畳した観測信号力 該雑音が抑圧された音声を得るための雑音抑 圧方法は、
前記観測信号のスぺ外ルを分析し、
前記観測信号のスペクトルを平滑ィヒ処理し、
前記平滑化処理された観測信号のスペクトルと、前記平滑化処理する前の観測信 号のスペクトルとを比較し、
前記観測信号のスペクトルにおけるディップを除去するために、前記比較処理にお V、て周波数ポイント毎に大き 、方の値を選択し、
前記ディップが除去された観測信号のスペクトルに基づき雑音のスペクトルを推定
■i^fl "し、
前記雑音が抑圧された音声のスペクトルを求めるために、前記観測信号のスぺタト ルカ 前記雑音のスペクトルを減算し、
前記音声のスペクトルを時間領域の信号に変換する。
[13] 音声に雑音が重畳した観測信号力 該雑音が抑圧された音声を得るための雑音抑 圧方法は、
前記観測信号のスぺ外ルを分析し、
前記観測信号のスぺ外ルカも雑音のスぺ外ルを推定演算し、
前記推定された雑音のスペクトルを平滑ィヒ処理し、
前記平滑化処理された雑音のスペクトルと前記平滑化処理する前の雑音のスぺタト ルとを比較し、
前記雑音のスペクトルにおけるディップを除去するために、前記比較処理にぉ 、て 周波数ポイント毎に大きい方の値を選択し、
前記雑音が抑圧された音声のスペクトルを求めるために、前記観測信号のスぺタト ルカ 前記雑音のスペクトルを減算し、
前記音声のスペクトルを時間領域の信号に変換する。
PCT/JP2006/309867 2005-05-17 2006-05-17 雑音抑圧方法およびその装置 WO2006123721A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE602006008481T DE602006008481D1 (de) 2005-05-17 2006-05-17 Rauschunterdrückungsverfahren und -vorrichtungen
US11/914,550 US8160732B2 (en) 2005-05-17 2006-05-17 Noise suppressing method and noise suppressing apparatus
EP06746569A EP1914727B1 (en) 2005-05-17 2006-05-17 Noise suppression methods and apparatuses
JP2007516328A JP4958303B2 (ja) 2005-05-17 2006-05-17 雑音抑圧方法およびその装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005144744 2005-05-17
JP2005-144744 2005-05-17

Publications (1)

Publication Number Publication Date
WO2006123721A1 true WO2006123721A1 (ja) 2006-11-23

Family

ID=37431294

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/309867 WO2006123721A1 (ja) 2005-05-17 2006-05-17 雑音抑圧方法およびその装置

Country Status (5)

Country Link
US (1) US8160732B2 (ja)
EP (1) EP1914727B1 (ja)
JP (1) JP4958303B2 (ja)
DE (1) DE602006008481D1 (ja)
WO (1) WO2006123721A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP2010078650A (ja) * 2008-09-24 2010-04-08 Toshiba Corp 音声認識装置及びその方法
JP2012177828A (ja) * 2011-02-28 2012-09-13 Pioneer Electronic Corp ノイズ検出装置、ノイズ低減装置及びノイズ検出方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
WO2009038136A1 (ja) * 2007-09-19 2009-03-26 Nec Corporation 雑音抑圧装置、その方法及びプログラム
US8027743B1 (en) * 2007-10-23 2011-09-27 Adobe Systems Incorporated Adaptive noise reduction
US8392181B2 (en) * 2008-09-10 2013-03-05 Texas Instruments Incorporated Subtraction of a shaped component of a noise reduction spectrum from a combined signal
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
EP2546831B1 (en) * 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
US8880396B1 (en) * 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
CN102737643A (zh) * 2011-04-14 2012-10-17 东南大学 一种基于Gabor时频分析的耳语增强方法
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6337519B2 (ja) * 2014-03-03 2018-06-06 富士通株式会社 音声処理装置、雑音抑圧方法、およびプログラム
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9549621B2 (en) * 2015-06-15 2017-01-24 Roseline Michael Neveling Crib mountable noise suppressor
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11322127B2 (en) * 2019-07-17 2022-05-03 Silencer Devices, LLC. Noise cancellation with improved frequency resolution
US11489505B2 (en) 2020-08-10 2022-11-01 Cirrus Logic, Inc. Methods and systems for equalization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999050825A1 (fr) * 1998-03-30 1999-10-07 Mitsubishi Denki Kabushiki Kaisha Dispositif et procede de reduction de bruits
JP2004109906A (ja) * 2002-09-20 2004-04-08 Advanced Telecommunication Research Institute International テキストクラスタリング方法および音声認識方法
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP2005077731A (ja) * 2003-08-29 2005-03-24 Univ Waseda 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH113094A (ja) 1997-06-12 1999-01-06 Kobe Steel Ltd ノイズ除去装置
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6671667B1 (en) 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
JP2002014694A (ja) 2000-06-30 2002-01-18 Toyota Central Res & Dev Lab Inc 音声認識装置
JP3693022B2 (ja) 2002-01-29 2005-09-07 株式会社豊田中央研究所 音声認識方法及び音声認識装置
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
WO1999050825A1 (fr) * 1998-03-30 1999-10-07 Mitsubishi Denki Kabushiki Kaisha Dispositif et procede de reduction de bruits
JP2004109906A (ja) * 2002-09-20 2004-04-08 Advanced Telecommunication Research Institute International テキストクラスタリング方法および音声認識方法
JP2005077731A (ja) * 2003-08-29 2005-03-24 Univ Waseda 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KITAOKA ET AL.: "Spectral Substraction to Jikan Hoko Smoothing o Mochiita Zatsuon Kankyoka Onsei Ninshiki", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS D-II, vol. J83-D-II, no. 2, February 2000 (2000-02-01), pages 500 - 508, XP003005206 *
See also references of EP1914727A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP2010078650A (ja) * 2008-09-24 2010-04-08 Toshiba Corp 音声認識装置及びその方法
JP2012177828A (ja) * 2011-02-28 2012-09-13 Pioneer Electronic Corp ノイズ検出装置、ノイズ低減装置及びノイズ検出方法

Also Published As

Publication number Publication date
EP1914727A4 (en) 2008-11-19
US8160732B2 (en) 2012-04-17
US20080192956A1 (en) 2008-08-14
EP1914727A1 (en) 2008-04-23
JPWO2006123721A1 (ja) 2008-12-25
JP4958303B2 (ja) 2012-06-20
EP1914727B1 (en) 2009-08-12
DE602006008481D1 (de) 2009-09-24

Similar Documents

Publication Publication Date Title
JP4958303B2 (ja) 雑音抑圧方法およびその装置
KR101120679B1 (ko) 이득-제한된 잡음 억제
AU696152B2 (en) Spectral subtraction noise suppression method
JP5183828B2 (ja) 雑音抑圧装置
US7957964B2 (en) Apparatus and methods for noise suppression in sound signals
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
JP3588030B2 (ja) 音声区間判定装置及び音声区間判定方法
US7917359B2 (en) Noise suppressor for removing irregular noise
JP4454591B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP4434813B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
KR20030009516A (ko) 스피치 향상 장치
JP2836271B2 (ja) 雑音除去装置
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JPH11265199A (ja) 送話器
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2020160290A (ja) 信号処理装置、信号処理システム及び信号処理方法
JP2002023790A (ja) 音声特徴量抽出装置
JP3849679B2 (ja) 雑音除去方法、雑音除去装置およびプログラム
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
JP2004020945A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
JPH0844390A (ja) 音声認識装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007516328

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006746569

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11914550

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU