WO2006077934A1 - 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法 - Google Patents

帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法 Download PDF

Info

Publication number
WO2006077934A1
WO2006077934A1 PCT/JP2006/300756 JP2006300756W WO2006077934A1 WO 2006077934 A1 WO2006077934 A1 WO 2006077934A1 JP 2006300756 W JP2006300756 W JP 2006300756W WO 2006077934 A1 WO2006077934 A1 WO 2006077934A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
frequency
band
audio signal
suppression
Prior art date
Application number
PCT/JP2006/300756
Other languages
English (en)
French (fr)
Inventor
Youhua Wang
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Publication of WO2006077934A1 publication Critical patent/WO2006077934A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a band division type noise suppression apparatus and a band division type noise suppression method for suppressing background noise by dividing it into a high band component and a low band component, and in particular, band division suitable for use in a mobile terminal apparatus.
  • the present invention relates to a type noise suppression device and a band division type noise suppression method.
  • a low bit rate speech coding apparatus can provide high-quality calls even with a low bit rate code for speech with low background noise, but speech with background noise is included.
  • speech with background noise is included.
  • an unpleasant distortion peculiar to a low bit rate code may occur, resulting in deterioration of sound quality.
  • Noise suppression Z speech enhancement technology to deal with such sound quality degradation is divided into processing technology in the time domain and processing technology in the frequency domain.
  • Patent Document 1 For example, a technique disclosed in Patent Document 1 is known as noise suppression in the time domain. That is, in Patent Document 1, the speech interval and the non-speech interval are differentiated by adaptively changing the suppression coefficient determined by the short interval power of the input speech signal according to the estimated non-speech interval power. Separately, a technique for performing appropriate noise suppression is disclosed.
  • Patent Document 2 As a noise suppression Z speech enhancement technique in the frequency domain, for example, a technique disclosed in Patent Document 2 is known. That is, in Patent Document 2, the input signal is divided into bands, the ratio of the audio signal to the noise signal is estimated for each band signal, and based on this, the gain factor for noise suppression is calculated. Is multiplied by the input signal for each band to suppress noise. The resulting distortion is masked by adding a small amount of the pseudo background noise signal close to the noise spectrum according to the ratio of the voice signal to the noise signal, resulting in low distortion and effective noise reduction. Techniques that enable it are disclosed.
  • Patent Document 3 proposes a method for repairing a missing pitch harmonic power spectrum based on two types of comb filters generated as a pitch harmonic power spectrum extraction and restoration criterion. Since this method actively uses the characteristics of the audio signal (for example, the audio pitch harmonic power spectrum), it is possible to distinguish the audio band from the noise band with high accuracy, and to reduce the audio distortion. In addition, noise can be removed sufficiently.
  • Patent Document 1 Japanese Patent No. 3437264
  • Patent Document 2 Japanese Patent No. 3309895
  • Patent Document 3 Japanese Patent Laid-Open No. 2002-149200
  • Patent Document 2 uses part of speech information (SN ratio), it actively uses the features of speech signals (for example, speech Pitch harmonic power spectrum) is not used. As a result, it becomes difficult to distinguish between the voice band and the noise band with high accuracy, and it is considered difficult to remove the noise sufficiently with little distortion of the voice.
  • An object of the present invention is to provide a band division type noise suppression device and a band division type noise method that have a small amount of processing, a small amount of voice distortion, and a large amount of noise suppression.
  • a band division noise suppression apparatus converts an input audio signal into a low frequency noise component.
  • Band dividing means for dividing a band into a low frequency audio signal including a high frequency audio signal and a high frequency audio signal including a high frequency noise component;
  • Low-frequency noise suppression means for suppressing noise included in the low-frequency audio signal subjected to the thinning-out process, interpolation processing means for up-sampling the low-frequency audio signal in which the noise is suppressed, and interpolation processing;
  • High-frequency noise suppression means for suppressing noise included in the high-frequency audio signal, and band synthesis means for combining the low-frequency audio signal subjected to the interpolation processing and the high-frequency audio signal subjected to the noise suppression processing.
  • the structure to comprise is taken.
  • the band-division noise suppression method is configured to band an input audio signal into a low frequency audio signal including a low frequency noise component and a high frequency audio signal including a high frequency noise component.
  • a noise suppression step an interpolation processing step of performing upsampling on the low frequency audio signal in which the noise is suppressed, a high frequency noise suppression step of suppressing noise included in the high frequency audio signal, A band synthesizing step of synthesizing the low frequency audio signal subjected to the interpolation processing and the high frequency audio signal subjected to the noise suppression processing is adopted.
  • the input audio signal is divided into a low-frequency signal and a high-frequency signal, and thinning processing is performed on the low-frequency signal, so that the accuracy of extracting the pitch harmonic power spectrum is not reduced.
  • it is possible to reduce the discrete Fourier transform length used for low-frequency noise suppression processing.
  • a simple noise suppression method is applied to high-frequency signals rather than low-frequency noise suppression processing. Therefore, it is possible to provide a band division type noise suppression apparatus and a band division type noise suppression method with a small amount of processing, a small amount of voice distortion, and a large amount of noise suppression.
  • FIG. 1 is a block diagram showing a configuration of a band division noise suppression apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration example of a low-frequency noise suppression unit shown in FIG.
  • FIG. 3 is a block diagram showing a configuration example of a high-frequency noise suppression unit shown in FIG.
  • FIG. 4 is a spectrum diagram for explaining the operation of the main part of the low-frequency noise suppression unit shown in FIG. 2.
  • FIG. 1 is a block diagram showing a configuration of a band division noise suppression apparatus according to an embodiment of the present invention.
  • the band division type noise suppression apparatus 100 mainly includes a band division unit 101, a thinning processing unit 102, a low frequency noise suppression unit 103, an interpolation processing unit 104, A band noise suppression unit 105 and a band synthesis unit 106 are provided.
  • FIG. 2 is a block diagram illustrating a configuration example of the low-frequency noise suppression unit 103 illustrated in FIG.
  • the low-frequency noise suppression unit 103 shown in FIG. 2 includes a windowing unit 201, an FFT unit 202, a low-frequency noise base estimation unit 203, a band-by-band noise Z noise detection unit 204, and a pitch harmonic structure extraction.
  • Unit 205, voicedness determination unit 206, pitch frequency estimation unit 207, pitch harmonic structure restoration unit 208, banded sound Z noise correction unit 209, subtraction Z attenuation coefficient calculation unit 210, low frequency A multiplication unit 211 and an IFFT unit 212 are provided.
  • FIG. 3 is a block diagram showing a configuration example of the high-frequency noise suppression unit 105 shown in FIG.
  • the high frequency noise suppression unit 105 shown in FIG. 3 includes a high frequency noise base estimation unit 301, an SN ratio estimation unit 302, a speech Z noise frame determination unit 303, a suppression coefficient calculation unit 304, and a suppression coefficient adjustment unit 305. And a suppression coefficient averaging processing unit 306 and a high frequency multiplication unit 307.
  • FIG. 4 is a spectrum diagram for explaining the operation of the main part of the low-frequency noise suppression unit 103 shown in FIG.
  • a band dividing unit 101 uses an FIR (Finite Impulse Response) type or IIR (Infinite Impulse Response) type low-pass filter and a high-pass filter to convert an input audio signal including noise into a low-frequency signal.
  • Audio signal including noise component hereinafter referred to as “low frequency audio signal”.
  • Audio signal including L and high frequency noise components (hereinafter referred to as “high frequency audio signal”) S
  • the divided low-frequency audio signal S is divided into a thinning-out processing unit 102, a low-frequency noise suppression unit 103, and a supplement.
  • the signal is input to the band synthesizing unit 106 after being subjected to noise suppression processing through the path of the inter-processing unit 104.
  • the divided high frequency audio signal S is subjected to noise suppression processing by the high frequency noise suppression unit 105.
  • the band synthesis unit 106 performs band synthesis processing for each of the low-frequency and high-frequency audio signals in which noise is suppressed, and outputs the audio signals in the entire band with low noise components to the output of the band division noise suppression device 100.
  • the thinning processing unit 102 performs downsampling on the input low frequency audio signal S.
  • the low frequency sound signal S thinned out is generated and given to the low frequency noise suppression unit 103. Thinning
  • the following expression (1) is used to perform 1Z on the low-frequency audio signal S (i).
  • the low frequency audio signal S (i) thinned out by performing the downsampling of 2 is generated.
  • the low frequency noise suppression unit 103 performs noise suppression processing on the thinned low frequency audio signal S.
  • FIG. 2 is configured to implement the noise suppression method disclosed in Patent Document 3. Please refer to FIG. 2 and FIG.
  • a windowing unit 201 includes a low frequency audio signal S input from the thinning processing unit 102.
  • the FFT unit 202 performs FFT on the frame-based audio signal to which the windowing unit 201 is input.
  • the generated speech power spectrum includes a low-frequency noise base estimation unit 203, a band-by-band voiced Z noise detection unit 204, a pitch harmonic structure extraction unit 205, a voicing determination unit 206, and a subtraction Z attenuation coefficient calculation.
  • the unit 210 and the low-frequency multiplication unit 211 are input.
  • the sound power spectrum S (k) in the frequency component k acquired by the FFT unit 202 is
  • k represents a number that identifies a frequency component.
  • Re ⁇ D (k) ⁇ and Im ⁇ D (k) ⁇ are the speech power spectrum D after FFT conversion, respectively.
  • the low-frequency noise base estimation unit 203 calculates the input voice power spectrum S (k) as follows.
  • the frequency amplitude spectrum of the signal containing only the noise component, that is, the noise base N (n, k), is estimated by applying to Eq. (3).
  • Equation (3) n represents a frame number. N (n— l, k)
  • a is a noise-based moving average coefficient.
  • is a threshold value for discriminating a voice component and a noise component.
  • the low-frequency noise base estimation unit 203 uses, for each frequency component in the frequency band of the audio power spectrum, the audio power spectrum generated from the latest frame from the FFT unit 202 and the previous frame. Compare the sound power spectrum generated from! With the estimated noise base. As a result of comparison, if the power difference between the two exceeds a preset threshold, it is determined that the latest frame contains a speech component, and noise-based estimation is not performed. On the other hand, if the difference does not exceed the above threshold, it is determined that the latest frame contains an audio signal! / ⁇ and the noise base is updated.
  • the noise base thus estimated includes the band-by-band voiced Z noise detection unit 204, the pitch harmonic structure extraction unit 205, the voicing determination unit 206, the pitch frequency estimation unit 207, and the subtraction Z reduction.
  • the attenuation coefficient calculation unit 210 is input.
  • the band-by-band sound Z noise detection unit 204 includes the speech power spectrum S (k) from the FFT unit 202 and the noise base estimation value N (n, k) from the low-frequency noise base estimation unit 203.
  • the following formula Applies to (4), detects voiced and noise bands in voice power spectrum S (k)
  • the detection result S (k) is input to the band-by-band sound Z noise correction unit 209.
  • Figure 4 is an example of the detection result S (k) for the voiced and noise bands determined and detected using Equation (4).
  • the pitch harmonic structure extraction unit 205 includes a speech power spectrum S (k) input from the FFT unit 202 and a noise base estimation value N (n, k) input from the low-frequency noise base estimation unit 203. )When the speech power spectrum S (k) input from the FFT unit 202 and a noise base estimation value N (n, k) input from the low-frequency noise base estimation unit 203. )When the speech power spectrum S (k) input from the FFT unit 202 and a noise base estimation value N (n, k) input from the low-frequency noise base estimation unit 203.
  • Zubesu estimate N (n, k) and calculates the difference between, if the result is greater than zero, the pitch adjustment
  • the band includes the wave power spectrum H (k).
  • the voiced power spectrum S (k) is judged to be voicing
  • the discrimination result is output to pitch frequency estimation section 207 and pitch harmonic structure restoration section 208.
  • the voicing determination unit 206 uses, for example, Equation (6) to calculate the sum of the pitch harmonic power spectrum H (k) in a predetermined frequency band and the noise base estimated value N (n, k )of
  • the ratio with the sum is calculated, and the degree of voicedness is determined based on the result.
  • the pitch frequency estimation unit 207 and the pitch harmonic structure restoration unit 208 that receive the determination result perform pitch frequency estimation and pitch harmonic structure repair when the degree of voicedness is determined to be high! If it is determined that the degree of ⁇ is low! ⁇ , pitch frequency estimation and pitch harmonic structure restoration are not performed.
  • HP is the upper limit frequency component of the predetermined frequency band.
  • pitch frequency estimation section 207 includes speech power spectrum S (k) input from FFT section 202, noise base estimation value N (n, k) input from noise base estimation section 203, and
  • the pitch frequency is estimated based on the voicing determination result input from the voicing determination unit 206. At this time, if thepicness of the voice power spectrum is equal to or lower than a predetermined level as a result of the determination by the voicing determination unit 206, estimation of the pitch frequency is avoided.
  • the estimation result is input to pitch harmonic structure repair unit 208.
  • There are various methods for estimating the pitch frequency such as the autocorrelation method using the autocorrelation function of the speech waveform and the modified correlation method using the autocorrelation function of the residual signal of the LPC analysis.
  • pitch harmonic structure repair unit 208 extracts the pitch harmonic power spectrum input from pitch harmonic structure extraction unit 205, and the voicing determination result input from voicing determination unit 206.
  • the pitch harmonic power spectrum is repaired based on the pitch frequency estimation value input from the pitch frequency estimation unit 207.
  • the repaired pitch harmonic power spectrum is input to the band-based sound Z noise correction unit 209.
  • the pitch harmonic structure repair unit 208 when the voicedness determination unit 206 determines that the degree of voiced power of the voice power spectrum is high, the pitch harmonic power spectrum is restored, for example, as follows. follow the procedure.
  • the pitch harmonic structure restoration unit 208 first, the pitch harmonic power spectrum H (k ) To extract the pitch harmonic peak. For example, as shown in FIG. 4 (C), peaks P1 to P5 and P9 to P12 are extracted, respectively.
  • the pitch harmonic structure repair unit 208 calculates the interval between the extracted peaks.
  • the band-by-band sound Z noise correction unit 209 combines the repair result input from the pitch harmonic structure repair unit 208 and the detection result input from the band-by-band sound Z noise detection unit 204.
  • the band-by-band noise Z noise detection result is corrected, and the correction result is output to the subtraction Z attenuation coefficient calculation unit 210.
  • the band-by-band sound Z noise correction unit 209 performs the pitch harmonic structure repair result shown in Fig. 4 (D) and the band-by-band sound Z noise detection result S shown in Fig. 4 (A).
  • N (k) is compared with the result of repairing the pitch harmonic structure, and the band is the voiced band and the other part is the noise band. Sound Z Noise detection result S (k) is corrected.
  • the Fig. 4 (E) shows an example of the result of correcting the band-by-band noise Z noise detection result shown in Fig. 4 (A).
  • the band-by-band sound Z noise correction unit 209 determines the detection result S (k).
  • the subtraction Z attenuation coefficient calculation unit 210 includes the speech power spectrum S (k) input from the FFT unit 202, and the noise base estimation value N (n
  • the subtraction Z attenuation coefficient is calculated, and the result is output to the multiplication unit 211.
  • the subtraction Z attenuation coefficient calculation unit 210 uses the following equation (7) to calculate each of the sound band and noise band in the corrected detection result S (k).
  • the low-frequency multiplication unit 211 multiplies the sound band and noise band of the voice power spectrum input from the FFT unit 202 by the subtraction Z attenuation coefficient input from the subtraction Z attenuation coefficient calculation unit 210. To do. As a result, an audio power spectrum in which noise components in the low frequency audio signal are suppressed is obtained.
  • the multiplication result is input to IFFT section 212.
  • IFFT section 212 performs IFFT (Inverse Fast Fourier Transform) processing on the speech power spectrum after noise suppression input from low-frequency multiplication section 211.
  • IFFT Inverse Fast Fourier Transform
  • a low-frequency speech signal S on the time axis is generated from the speech power spectrum in which the noise component is suppressed.
  • the generated low-frequency audio signal S is input to the interpolation processing unit 104.
  • the interpolation processing unit 104 uses the following equation (8) to reduce the noise-suppressed low-frequency audio signal S (i)
  • noise suppression processing is performed on the divided high-frequency audio signal S.
  • the divided high frequency audio signal S is divided into a high frequency noise base estimation unit 301, an S / N ratio estimation unit 302, an audio Z noise frame.
  • the high frequency noise base estimation unit 301 estimates the power of the noise signal included in the input high frequency audio signal S using the following equations (9) and (10), and the estimation results are With audio signal S
  • the high frequency noise base estimation unit 301 first calculates the high frequency audio signal power addition value S (n) using the following equation (9).
  • the high frequency noise base estimation unit 301 estimates the high frequency noise base N (n) using the following equation (10).
  • Equation (10)
  • 8 is an average moving coefficient
  • is a threshold value for discriminating between speech and noise.
  • the SN ratio estimation unit 302 includes the high frequency audio signal S and the high frequency noise base estimation value N (n).
  • Equation (11) p is an average transfer coefficient.
  • the speech Z noise frame determination unit 303 includes the high frequency audio signal S and the high frequency noise base.
  • the estimated value N (n) is applied to the following equation (12) to determine the speech Z noise frame SNF (n), and the determined speech Z noise frame SNF (n) is output to the suppression coefficient adjustment unit 305.
  • Equation (12) M is the number of hangover frames.
  • SNF (n) 1 (voice frame) is unconditionally determined if S ( ⁇ )> ⁇ ⁇ ⁇ ( ⁇ -1).
  • the suppression coefficient calculation unit 304 uses the high frequency audio signal S and the high frequency noise base estimation value N (
  • n is applied to the following equation (13) to calculate the suppression coefficient G (n) for each frame, and the obtained frame
  • Each suppression coefficient G (n) is output to the suppression coefficient adjustment unit 305.
  • the suppression coefficient adjustment unit 305 is configured to suppress the suppression coefficient G ( ⁇ ) based on the results input from the SN ratio estimation unit 302, the speech / noise frame determination unit 303, and the suppression coefficient calculation unit 304.
  • the parameters ⁇ and ⁇ are adjusted, and the adjustment result is output to the suppression coefficient averaging processing unit 306.
  • suppression coefficient adjustment section 305 specifically adjusts parameter ⁇ shown in equation (13) based on the estimated value of the SN ratio. For example, increase the value of ⁇ when the SN ratio is large, and conversely decrease the value of ⁇ when the SN ratio is small. Also, the parameter ⁇ shown in Equation (13) is adjusted based on the result of speech / noise frame determination. For example, the value of ⁇ is set to 1 in a speech frame, and the value of ⁇ is set to a value less than 1 in a noise frame.
  • suppression coefficient average processing section 306 performs an average process of the suppression coefficients input from suppression coefficient adjustment section 305 using the following equation (14), and obtains the average value of the calculated suppression coefficients. Output to high frequency multiplier 307.
  • Equation (14) r? And ⁇ are moving average coefficients, respectively. 0 ⁇ r? ⁇ ⁇
  • the high frequency multiplication unit 307 multiplies the high frequency audio signal S by the average value of the suppression coefficients to generate a noise.
  • a sound-suppressed high frequency audio signal is generated and applied to the other input terminal of the band synthesis unit 106.
  • the band synthesis unit 106 the low-frequency noise-suppressed speech signal S and the high-frequency noise suppression
  • the synthesized speech signal S is synthesized, and the output of the band division noise suppression apparatus 100 is obtained.
  • the band synthesis unit 106 first, in order to remove the imaging component, the low-frequency noise-suppressed audio signal S and the high-frequency noise-suppressed audio signal S are respectively subjected to band division time.
  • the same low-pass filter and high-pass filter are used for filtering. Next, the filtering results are added for each frame to obtain the output of the band division noise suppression apparatus 100.
  • an input audio signal is divided into an audio signal including a low frequency component and an audio signal including a high frequency component, and the input audio signal is balanced. Since thinning processing is performed on a large low frequency signal, more advanced noise suppression processing can be performed with a small amount of computation. In addition, since a noise suppression processing method that is simpler than low-frequency noise suppression processing is applied to high-frequency signals with low power of the input speech signal, speech distortion is reduced and noise is sufficiently reduced with a smaller amount of computation. Can be removed.
  • the voiced band and the noise band are detected, and the missing voice pitch harmonic power spectrum buried in the noise is restored based on the estimated pitch frequency. .
  • the determination result of the voice band and the noise band is corrected by combining the pitch harmonic power spectrum and the detection result of the voice band and the noise band, so that the determination of the voice band and the noise band can be performed with higher accuracy. It can be carried out.
  • the attenuation level is weak, subtraction and strong, and attenuation processing can be performed for each of the sound band and the noise band, noise suppression with less voice distortion can be performed even if the attenuation is increased. it can.
  • the noise suppression coefficient and the average value thereof are calculated for the high-frequency signal components, and the noise suppression processing is performed in the time domain.
  • the calculation amount and the memory amount can be greatly reduced.
  • the suppression coefficient is calculated based on the sum value of the high-frequency audio signal signal and the high-frequency noise-based estimated value, there are few! / Suppression by quantity
  • the pressure coefficient can be calculated.
  • high-frequency noise suppression is performed using the high-frequency S / N ratio estimation result. Therefore, it is possible to adjust the high-frequency noise suppression amount due to a change in the S / N ratio. It is possible to improve the noise suppression performance between the low and high frequencies.
  • the high-frequency noise suppression is performed using the high-frequency voice Z noise frame judgment result, further noise reduction can be performed in the noise frame, and the high-frequency range that is easy to hear in the sense of hearing. It is possible to suppress the noise of the noise more greatly.
  • suppression coefficient averaging processing is performed, so that continuity between frames can be improved, and noise suppression performance with good sound quality can be obtained.
  • the present invention is useful as a noise suppression device that can reduce voice distortion and sufficiently remove noise with a small amount of processing, and is particularly suitable for use in a mobile phone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 少ない処理量で音声歪が少なくかつ十分に雑音を抑圧する帯域分割型雑音抑圧装置。この帯域分割型雑音抑圧装置では、帯域分割部(101)は入力音声信号を低域音声信号と高域音声信号とに分割する。低域音声信号は、間引き処理部(102)にて間引き処理を受け、低域雑音抑圧部(103)にて雑音抑圧処理を受け、補間処理部(104)にて補間される。一方、高域音声信号は、高域雑音抑圧部(105)にて雑音抑圧処理を受ける。帯域合成部(106)は、雑音が抑圧された低域と高域の音声信号の帯域合成処理を行い、全帯域で雑音が抑圧された音声信号を出力する。  

Description

帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
技術分野
[0001] 本発明は、背景雑音を高帯域成分と低帯域成分とに分けて抑圧する帯域分割型 雑音抑圧装置及び帯域分割型雑音抑圧方法に関し、特に携帯端末装置に用いる のに好適な帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法に関する。 背景技術
[0002] 一般に、低ビットレート音声符号化装置は、背景雑音の少ない音声に対しては低ビ ットレートの符号ィ匕でも高品質な通話を提供することができるが、背景雑音が含まれ た音声に対しては低ビットレート符号ィ匕特有の耳障りな歪みが生じ、音質劣化を招来 することがある。このような音質劣化に対処するために行われる雑音抑圧 Z音声強調 技術は、時間領域での処理技術と周波数領域での処理技術とに分別される。
[0003] 時間領域の雑音抑圧 Z音声強調技術としては、例えば、特許文献 1に開示された 技術が知られている。即ち、特許文献 1では、入力音声信号の短区間パワーによつ て定まる抑圧係数を推定非音声区間パワーに応じて適応的に変化させることによつ て、音声区間と非音声区間とを区別して適切な雑音抑圧を行う技術が開示されてい る。
[0004] また、周波数領域の雑音抑圧 Z音声強調技術としては、例えば、特許文献 2に開 示された技術が知られている。即ち、特許文献 2では、入力信号を帯域分割し、各帯 域の信号に対して音声信号と雑音信号の比率を推定し、これに基づ!、て計算した雑 音抑圧のためのゲインファクターを帯域毎の入力信号に掛け合わせて雑音を抑圧す る。そして、その際生じる歪を、雑音のスペクトルに近い擬似背景雑音信号を音声信 号と雑音信号との比率に応じて少量加算することでマスキングし、歪みの少な!/、効果 的な雑音低減を可能にする技術が開示されている。この方法は、音声の大きい帯域 (SN比は大きい)と雑音の大きい帯域 (SN比は小さい)とを区別して適当な擬似背 景雑音を加算するので、ミュジカルノイズが抑制されることになり、 SN比の小さいとき の音質が向上すると期待される。 [0005] また、特許文献 3では、ピッチ調波パワースペクトルの抽出及び修復基準として生 成される 2種類のコムフィルタに基づいて欠落したピッチ調波パワースペクトルを修復 する方法が提案されている。この方法では、積極的に音声信号の特徴 (例えば、音 声ピッチ調波パワースペクトル)を利用するので、音声帯域と雑音帯域とを高い精度 で区別することが可能であり、音声の歪みを小さくしかつ雑音を十分に除去すること ができる。
特許文献 1:特許第 3437264号公報
特許文献 2:特許第 3309895号公報
特許文献 3 :特開 2002— 149200号公報
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、これらの従来技術においては、以下の問題点がある。即ち、特許文 献 1に開示された時間領域の雑音抑圧 Z音声強調技術では、処理方法は簡単で演 算量も少ないが、音声と雑音の周波数特性を利用して各周波数成分に対して細力な 抑圧係数の設定が行えないので、音声歪の少ない雑音抑圧性能には限界がある。
[0007] また、特許文献 2に開示された周波数領域の雑音抑圧 Z音声強調技術では、音声 情報の一部(SN比)が利用されているものの、積極的に音声信号の特徴 (例えば、 音声ピッチ調波パワースペクトル)を用いていない。その結果、音声帯域と雑音帯域 とを高い精度で区別することが困難になるので、音声の歪みが少なくかつ雑音を十 分に除去することは困難であると考えられる。
[0008] また、特許文献 3に開示された欠落したピッチ調波パワースペクトルを修復する方 法では、ピッチ調波パワースペクトルを精度よく抽出するためには長い離散フーリエ 変換長を必要とするので、演算量が多くなり、携帯端末装置における雑音抑圧装置 に適用するには問題である。
[0009] 本発明の目的は、少な 、処理量で音声歪が少なくかつ雑音抑圧量が大き 、帯域 分割型雑音抑圧装置及び帯域分割型雑音方法を提供することである。
課題を解決するための手段
[0010] 本発明に係る帯域分割型雑音抑圧装置は、入力音声信号を低域周波数雑音成分 が含まれる低域音声信号と高域周波数雑音成分が含まれる高域音声信号とに帯域 分割する帯域分割手段と、前記低域音声信号をダウンサンプリングして間引く処理を 行う間引き処理手段と、前記間引き処理を受けた低域音声信号に含まれる雑音を抑 圧する低域雑音抑圧手段と、前記雑音が抑圧された低域音声信号をアップサンプリ ングして補間処理を行う補間処理手段と、前記高域音声信号に含まれる雑音を抑圧 する高域雑音抑圧手段と、前記補間処理を受けた低域音声信号と前記雑音抑圧処 理を受けた高域音声信号とを合成する帯域合成手段と、を具備する構成を採る。
[0011] また、本発明に係る帯域分割型雑音抑圧方法は、入力音声信号を低域周波数雑 音成分が含まれる低域音声信号と高域周波数雑音成分が含まれる高域音声信号と に帯域分割する帯域分割工程と、前記低域音声信号をダウンサンプリングして間引 く処理を行う間引き処理工程と、前記間弓 Iき処理を受けた低域音声信号に含まれる 雑音を抑圧する低域雑音抑圧工程と、前記雑音が抑圧された低域音声信号をアツ プサンプリングして補間処理を行う補間処理工程と、前記高域音声信号に含まれる 雑音を抑圧する高域雑音抑圧工程と、前記補間処理を受けた低域音声信号と前記 雑音抑圧処理を受けた高域音声信号とを合成する帯域合成工程と、を具備する方 法をとる。
発明の効果
[0012] 本発明によれば、入力音声信号を低域信号と高域信号とに分割し、低域信号に対 しては間引き処理を行うので、ピッチ調波パワースペクトルの抽出精度を落とさずに 低域雑音抑圧処理に用いられる離散フーリエ変換長を減少することができる。また、 高域信号に対しては低域雑音抑圧処理よりも簡単な雑音抑圧処理手法を適用する 。したがって、少ない処理量で音声歪が少なくかつ雑音抑圧量が大きい帯域分割型 雑音抑圧装置及び帯域分割型雑音抑圧方法を提供することができる。
図面の簡単な説明
[0013] [図 1]本発明の一実施の形態に係る帯域分割型雑音抑圧装置の構成を示すブロック 図
[図 2]図 1に示す低域雑音抑圧部の構成例を示すブロック図
[図 3]図 1に示す高域雑音抑圧部の構成例を示すブロック図 [図 4]図 2に示す低域雑音抑圧部における要部の動作を説明するスペクトル図 発明を実施するための最良の形態
[0014] 以下、本発明の実施の形態について図面を参照して詳細に説明する。
[0015] (実施の形態 1)
図 1は、本発明の一実施の形態に係る帯域分割型雑音抑圧装置の構成を示すブ ロック図である。図 1において、本実施の形態に係る帯域分割型雑音抑圧装置 100 は、主に、帯域分割部 101と、間引き処理部 102と、低域雑音抑圧部 103と、補間処 理部 104と、高域雑音抑圧部 105と、帯域合成部 106と、を備えている。
[0016] また、図 2は、図 1に示す低域雑音抑圧部 103の構成例を示すブロック図である。
図 2に示す低域雑音抑圧部 103は、窓掛け部 201と、 FFT部 202と、低域ノイズべ一 ス推定部 203と、帯域別有音 Z雑音検出部 204と、ピッチ調波構造抽出部 205と、 有声性判定部 206と、ピッチ周波数推定部 207と、ピッチ調波構造修復部 208と、帯 域別有音 Z雑音修正部 209と、減算 Z減衰係数計算部 210と、低域乗算部 211と、 IFFT部 212と、を備えている。
[0017] また、図 3は、図 1に示す高域雑音抑圧部 105の構成例を示すブロック図である。
図 3に示す高域雑音抑圧部 105は、高域ノイズベース推定部 301と、 SN比推定部 3 02と、音声 Z雑音フレーム判定部 303と、抑圧係数計算部 304と、抑圧係数調整部 305と、抑圧係数平均処理部 306と、高域乗算部 307と、を備えている。
[0018] 次に、図 1〜図 4を参照して、以上のように構成される帯域分割型雑音抑圧装置 10 0にて行われる雑音抑圧動作について説明する。なお、図 4は、図 2に示す低域雑音 抑圧部 103における要部の動作を説明するスペクトル図である。
[0019] 図 1において、帯域分割部 101は、 FIR (Finite Impulse Response)型または IIR (Infi nite Impulse Response)型のローパスフィルタ及びハイパスフィルタを用いて、雑音を 含む入力音声信号を、低域周波数雑音成分を含む音声信号 (以降「低域音声信号」 と記す) S
Lと高域周波数雑音成分を含む音声信号 (以降「高域音声信号」と記す) S
H
とに分割する。
[0020] 分割された低域音声信号 Sは、間引き処理部 102、低域雑音抑圧部 103及び補
間処理部 104の経路で雑音抑圧処理を受けて帯域合成部 106に入力される。一方 、分割された高域音声信号 S は、高域雑音抑圧部 105にて雑音抑圧処理を受けて
H
帯域合成部 106に入力される。帯域合成部 106は、雑音が抑圧された低域と高域の 各音声信号の帯域合成処理を行 、、雑音成分を低く抑えた全域帯の音声信号を帯 域分割型雑音抑圧装置 100の出力とする。
[0021] まず、間引き処理部 102、低域雑音抑圧部 103及び補間処理部 104の経路で行 われる低域音声信号 Sの雑音抑圧処理について説明する。
[0022] 間引き処理部 102は、入力する低域音声信号 Sに対してダウンサンプリングを行つ
て間引きした低域音声信号 Sを生成し、それを低域雑音抑圧部 103に与える。間引
D
き処理部 102では、例えば、次の式(1)を用いて、低域音声信号 S (i)に対して 1Z し
2のダウンサンプリングを行って間引きした低域音声信号 S (i)を生成する。
D
S (i) =S (2-i) - (1)
D L
[0023] 低域雑音抑圧部 103は、間引きされた低域音声信号 S について雑音抑圧処理を
D
行いその処理結果を補間処理部 104に与える。低域雑音の抑圧処理方法には各種 あるが、ここでは、一例として特許文献 3に示された雑音抑圧方法を用いて説明する 。図 2は、特許文献 3に示された雑音抑圧方法を実施するように構成したものである。 図 2と図 4とを参照して説明する。
[0024] 図 2において、窓掛け部 201は、間引き処理部 102から入力する低域音声信号 S
D
を所定時間単位 (フレーム)に区切り、ハニングウィンドウ等を利用した窓掛け処理を 行って FFT部 202に出力する。
[0025] FFT部 202は、窓掛け部 201が入力されるフレーム単位の音声信号に対して FFT
(Fast Fourier Transform:高速フーリエ変換)処理を行い、時間軸上の音声信号を 周波数軸上の信号 (音声パワースペクトル)に変換する。このようにしてフレーム単位 の音声信号は、所定の周波数帯域を有する音声パワースペクトルとなる。生成された 音声パワースペクトルは、低域ノイズベース推定部 203と、帯域別有音 Z雑音検出 部 204と、ピッチ調波構造抽出部 205と、有声性判定部 206と、減算 Z減衰係数計 算部 210と、低域乗算部 211と、に入力される。
[0026] FFT部 202にて取得される周波数成分 kにおける音声パワースペクトル S (k)は、
F
次の式(2)で表される。 [数 1]
SF(k) = ^Re{DF(k)}2 + lm{DF(k)}2 < k≤HB/2 • , · ( 2 )
[0027] なお、式(2)にお 、て、 kは周波数成分を特定する番号を示す。 HBは、 FFT変換 長つまり高速フーリエ変換を行う対象のデータ数であり、例えば HB = 256とする。ま た、 Re {D (k) }及び Im{D (k) }は、それぞれ FFT変換後の音声パワースペクトル D
F F
(k)の実数部及び虚数部を示す。
F
[0028] まず、低域ノイズベース推定部 203は、入力された音声パワースペクトル S (k)を次
F
の式(3)に適用して雑音成分のみを含む信号の周波数振幅スペクトル、すなわちノ ィズベース N (n, k)を推定する。
[数 2]
Figure imgf000008_0001
• · · ( 3 )
[0029] なお、式(3)において、 nは、フレーム番号を示す。 N (n— l ,k)は、前フレームに
B
おけるノイズベースの推定値である。 aは、ノイズベースの移動平均係数である。また 、 Θ は、音声成分及び雑音成分を判別する閾値である。
B
[0030] そして、低域ノイズベース推定部 203は、音声パワースペクトルの周波数帯域の各 周波数成分にぉ 、て、 FFT部 202からの最新のフレームから生成された音声パワー スペクトルと、その前のフレームから生成された音声パワースペクトルにつ!/、て推定し たノイズベースとを比較する。比較の結果、両者のパワーの差が予め設定された閾値 を超過する場合は最新フレームには音声成分が含まれて 、ると判定し、ノイズベース の推定を行わない。一方、その差が上記閾値を超過しない場合は最新フレームには 音声信号が含まれて!/ヽな 、と判定し、ノイズベースの更新を行う。
[0031] このように推定されたノイズベースは、帯域別有音 Z雑音検出部 204と、ピッチ調 波構造抽出部 205と、有声性判定部 206と、ピッチ周波数推定部 207と、減算 Z減 衰係数計算部 210と、に入力される。
[0032] 次に、帯域別有音 Z雑音検出部 204は、 FFT部 202からの音声パワースペクトル S (k)と低域ノイズベース推定部 203からのノイズベース推定値 N (n, k)とを次の式 (4)に適用し、音声パワースペクトル S (k)における有音帯域及び雑音帯域を検出
F
する。検出結果 S (k)は、帯域別有音 Z雑音修正部 209に入力される。
N
[数 3]
{S k) - Yx - NB{n,k) S k) > r - NB(n,k) , , , 、
SN(k) = F K } r x Β、 ノ F 1 B \≤k≤HB 2 ■ · ■ 4
[0033] 式 (4)に示すように、音声パワースペクトル S (k)と定数 γ を乗じたノイズベース推
F 1
定値 N (n, k)との差を計算し、その結果がゼロ以上であれば、音声を含む有音帯域
B
と判定され、それ以外の場合は、音声を含まない雑音帯域と判定される。図 4 ( は 、式 (4)を用いて判定検出した有音帯域及び雑音帯域の検出結果 S (k)の一例で
N
ある。
[0034] 次に、ピッチ調波構造抽出部 205は、 FFT部 202から入力する音声パワースぺタト ル S (k)と低域ノイズベース推定部 203から入力するノイズベース推定値 N (n, k)と
F B
を次の式(5)に適用してピッチ調波パワースペクトル H (k)を抽出し、抽出結果 H (
M M
k)を有声性判定部 206とピッチ調波構造修復部 208とに出力する。
Figure imgf000009_0001
[0035] 式(5)に示すように、音声パワースペクトル S (k)と定数 γ ( γ > y )を乗じたノィ
F 2 2 1
ズベース推定値 N (n, k)との差を計算し、その結果がゼロ以上であれば、ピッチ調
B
波パワースペクトル H (k)を含む帯域と判定され、それ以外の場合はピッチ調波パ
M
ワースベクトル H (k)を含まない帯域と判定される。図 4 (B)は、式(5)を用いて抽出
M
したピッチ調波パワースペクトル H (k)の抽出結果の一例である。
M
[0036] 次に、有声性判定部 206は、低域ノイズベース推定部 203から入力されるノイズべ ース推定値 N (n, k)とピッチ調波構造抽出部 205から入力されるピッチ調波パワー
B
スペクトルの抽出結果とに基づ 、て音声パワースペクトル S (k)の有声性を判定し、
F
判別結果をピッチ周波数推定部 207とピッチ調波構造修復部 208とに出力する。
[0037] 具体的には、有声性判定部 206では、例えば、式 (6)を用いて所定周波数帯域に おけるピッチ調波パワースペクトル H (k)の総和とノイズベース推定値 N (n, k)の
M B 総和との比を計算し、その結果に基づいて有声性度合いを判定する。判定結果を受 けるピッチ周波数推定部 207及びピッチ調波構造修復部 208では、有声性の度合 いが高!ヽと判定された場合はピッチ周波数推定及びピッチ調波構造修復が行われ、 有声性の度合!ヽが低!ヽと判定された場合はピッチ周波数推定及びピッチ調波構造 修復は行われない。なお、式 (6)において、 HPは、所定周波数帯域の上限周波数 成分である。
Figure imgf000010_0001
[0038] 次に、ピッチ周波数推定部 207は、 FFT部 202から入力される音声パワースぺタト ル S (k)、ノイズベース推定部 203から入力されるノイズベース推定値 N (n, k)及び
F B
有声性判定部 206から入力される有声性判定結果に基づいてピッチ周波数を推定 する。このとき、有声性判定部 206による判定の結果、音声パワースペクトルの有声 性が所定レベル以下の場合はピッチ周波数の推定を回避する。推定結果は、ピッチ 調波構造修復部 208に入力される。ピッチ周波数の推定方法には各種ある力 例え ば、音声波形の自己相関関数による自己相関法や LPC分析の残差信号の自己相 関関数による変形相関法などを用いることができる。
[0039] 次に、ピッチ調波構造修復部 208は、ピッチ調波構造抽出部 205から入力されるピ ツチ調波パワースペクトルの抽出結果、有声性判定部 206から入力される有声性判 定結果及びピッチ周波数推定部 207から入力されるピッチ周波数推定値に基づい てピッチ調波パワースペクトルの修復を行う。このとき、有声性判定部 206による判定 の結果、音声パワースペクトルの有声性が所定レベル以下の場合はピッチ調波パヮ 一スペクトルの修復を回避する。修復されたピッチ調波パワースペクトルは、帯域別 有音 Z雑音修正部 209に入力される。
[0040] ピッチ調波構造修復部 208では、有声性判定部 206において、音声パワースぺタト ルの有声性の度合 、が高 、と判定された場合、ピッチ調波パワースペクトルの修復 を例えば次の手順で行う。
[0041] 即ち、ピッチ調波構造修復部 208では、最初に、ピッチ調波パワースペクトル H (k )におけるピッチ調波のピークを抽出する。例えば、図 4 (C)に示すように、ピーク P1 〜P5、 P9〜P12がそれぞれ抽出される。
[0042] その次に、ピッチ調波構造修復部 208では、抽出されたピークの間隔を計算する。
計算された間隔が、所定の閾値 (例えば、ピッチ周波数の 1. 5倍)を超過した場合、 ピッチ調波パワースペクトル H (k)にお 、て欠落して 、るピーク(図 4 (D)に示すピ
M
ーク P6、 P7、 P8)を推定されたピッチ周波数 mに基づいて挿入する。このようにして ピッチ調波パワースペクトル H (k)が修復される。
M
[0043] 次に、帯域別有音 Z雑音修正部 209は、ピッチ調波構造修復部 208から入力され た修復結果と帯域別有音 Z雑音検出部 204から入力された検出結果とを組合せて 帯域別有音 Z雑音検出結果の修正を行 、、修正結果を減算 Z減衰係数計算部 21 0に出力する。
[0044] 具体的には、帯域別有音 Z雑音修正部 209は、図 4 (D)に示すピッチ調波構造修 復結果と図 4(A)に示す帯域別有音 Z雑音検出結果 S
N (k)とを比較し、ピッチ調波 構造修復結果と重複して 、る帯域を有音帯域とし、それ以外の部分を雑音帯域とし て帯域別有音 Z雑音検出部 204での帯域別有音 Z雑音検出結果 S (k)を修正す
N
る。図 4 (E)は、図 4(A)に示す帯域別有音 Z雑音検出結果を修正した結果の一例で ある。
[0045] 図 4 (E)に示すように、帯域別有音 Z雑音修正部 209では、検出結果 S (k)にお
N
V、て、修復後のピッチ調波パワースペクトル H (k)と重複して 、る部分を有音帯域と
M
し、修復後のピッチ調波パワースペクトル H (k)と重複して 、な 、部分を雑音帯域と
M
する。このようにして検出結果 S (k)の修正が行われる。
N
[0046] 次に、減算 Z減衰係数計算部 210は、 FFT部 202から入力される音声パワースぺ タトル S (k)、低域ノイズベース推定部 203から入力されるノイズベース推定値 N (n
F B
, k)及び帯域別有音 Z雑音修正部 209から入力された修正結果に基づ 、て減算 Z 減衰係数を計算し、その結果を乗算部 211に出力する。
[0047] 具体的には、減算 Z減衰係数計算部 210は、次の式(7)を用いて、修正された検 出結果 S (k)内の有音帯域及び雑音帯域のそれぞれに対し、音声パワースペクトル
N
S (k)及びノイズベース N (n,k)に基づいて減算 Z減衰係数 G (k)を計算する。な お、式(7)において、 μは定数である。また、 gは、ゼロよりも大きく 1よりも小さい所定
C
の定数である。
[数 6]
Γ m \\ SAk) - M NB(n /SP(k) 音声帯域 】< < w? / 2 . . . ( 7 )
Gc(k \ gc 雑音帯域 ^側2 ( 7 )
[0048] 次に、低域乗算部 211は、 FFT部 202から入力される音声パワースペクトルの有音 帯域及び雑音帯域に対して減算 Z減衰係数計算部 210から入力される減算 Z減衰 係数を乗算する。これによつて、低域音声信号における雑音成分が抑圧された音声 パワースペクトルが得られる。この乗算結果は、 IFFT部 212に入力される。
[0049] IFFT部 212は、低域乗算部 211から入力される雑音抑圧後の音声パワースぺタト ルに IFFT (Inverse Fast Fourier Transform:逆高速フーリエ変換)処理を行う。こ れによって、雑音成分が抑圧された音声パワースペクトルから時間軸上の低域音声 信号 Sが生成される。生成された低域音声信号 Sは、補間処理部 104に入力され
E E
る。
[0050] 補間処理部 104は、次の式 (8)を用いて、雑音の抑圧された低域音声信号 S (i)
E
に例えば 2のアップサンプリングによる補間処理を施して雑音の抑圧された低域音声 信号 S (i)を生成し、それを帯域合成部 106の一方の入力端に与える。
I
[数 7]
I 0 その他
[0051] 次に、図 3を参照して、分割された高域音声信号 S に対して雑音抑圧処理を行う
H
高域雑音抑圧部 105の動作について説明する。図 3において、分割された高域音声 信号 S は、高域ノイズベース推定部 301と、 SN比推定部 302と、音声 Z雑音フレー
H
ム判定部 303と、抑圧係数計算部 304と、高域乗算部 307と、に入力される。
[0052] 高域ノイズベース推定部 301は、次の式(9) (10)を用いて、入力される高域音声 信号 S に含まれる雑音信号のパワーを推定し、その推定結果を高域音声信号 S と
H H
共に SN比推定部 302と、音声 Z雑音フレーム判定部 303と、抑圧係数計算部 304 と、に出力する。 即ち、高域ノイズベース推定部 301では、まず、次の式 (9)を用いて高域音声信号 パワーの加算値 S (n)を計算する。
[数 8]
S(n) =∑SH(') · · · (9) なお、式(9)において、 nはフレーム番号であり、 Fはフレーム長である。
L
そして、高域ノイズベース推定部 301では、次の式(10)を用いて高域ノイズべ N(n)を推定する。
[数 9]
Figure imgf000013_0001
なお、式(10)において、 |8は平均移動係数であり、 Θは音声と雑音とを判別する 閾値である。
[0055] 次に、 SN比推定部 302は、高域音声信号 S及び高域ノイズベース推定値 N (n)
H
を次の式(11)に適用して高域における音声信号パワーと雑音信号パワーとの比率 S N (n)を推定し、その推定した比率 SN (n)を抑圧係数調整部 305に出力する。
[数 10]
SN(n) = (1 - ?) · SN( -\) + p- S(n)/N(n) . . . (1 1)
なお、式(11)において、 pは平均移動係数である。
[0056] 次に、音声 Z雑音フレーム判定部 303は、高域音声信号 S及び高域ノイズベース
H
推定値 N (n)を次の式( 12)に適用して音声 Z雑音フレーム SNF (n)を判定し、その 判定した音声 Z雑音フレーム SNF(n)を抑圧係数調整部 305に出力する。
[数 11]
(音声フレーム) S(")>©'N ("- 1)
Figure imgf000013_0002
(雑音フレーム) 1S(w)<0.N("- 1) が Mフレーム連続した場合
• • • (1 2) なお、式(12)において、 Mはハングオーバーフレーム数である。式(12)に示すよう に、 S (η) > Θ ·Ν(η- 1)では無条件に SNF (n) = 1 (音声フレーム)と判定する。一 方、 S(n)≤@*N(n—l)では、その S (n)≤ Θ ·Ν(η— 1)が、 Μフレーム連続した場 合に SNF(n) =0(雑音フレーム)と判定し、 Mフレーム連続しない場合には SNF(n ) = 1 (音声フレーム)と判定する。
[0058] 次に、抑圧係数計算部 304は、高域音声信号 S及び高域ノイズベース推定値 N (
H
n)を次の式( 13)に適用してフレーム毎の抑圧係数 G (n)を計算し、求めたフレーム
H
毎の抑圧係数 G (n)を抑圧係数調整部 305に出力する。
H
[数 12]
GH(n)= λ' {η) · · - (13) なお、式(13)において、パラメータえは λ≤1であり、パラメータ κは κ≥1であり、 それぞれ調整可能である。
[0059] 次に、抑圧係数調整部 305は、 SN比推定部 302、音声 Ζ雑音フレーム判定部 30 3及び抑圧係数計算部 304から入力される各結果に基づ 、て抑圧係数 G (η)のパ
Η
ラメータ λ , κを調整し、調整結果を抑圧係数平均処理部 306に出力する。
[0060] 次に、抑圧係数調整部 305は、具体的には、式(13)に示すパラメータ κの調整を SN比の推定値に基づいて行う。例えば、 SN比が大きいときに κの値を大きくし、逆 に SN比が小さいときに κの値を小さくする。また、式(13)に示すパラメータ λの調 整を音声 Ζ雑音フレームの判定結果に基づいて行う。例えば、音声フレームにおい て λの値を 1とし、雑音フレームにおいてえの値を 1より小さい値とする。
[0061] 次に、抑圧係数平均処理部 306は、次の式(14)を用いて抑圧係数調整部 305か ら入力される抑圧係数の平均処理を行 、、求めた抑圧係数の平均値を高域乗算部 307に出力する。
[数 13] . . . (1 4)
Figure imgf000014_0001
なお、式(14)において、 r? 、 η は、それぞれ移動平均係数であり、 0< r? ≤ η
F S S F
<1なる関係がある。
[0062] そして、高域乗算部 307は、高域音声信号 S に抑圧係数の平均値を乗算して雑
H 音抑圧された高域音声信号 を生成し、それを帯域合成部 106の他方の入力端に 与える。
[0063] 斯くして、帯域合成部 106では、低域雑音抑圧された音声信号 Sと高域雑音抑圧
I
された音声信号 Sとを合成し、帯域分割型雑音抑圧装置 100の出力を得る。例えば 、帯域合成部 106では、まず、イメージング成分を除去するために、低域雑音抑圧さ れた音声信号 S及び高域雑音抑圧された音声信号 Sに対してそれぞれ帯域分割時
I J
と同じローパスフィルタ及びハイパスフィルタを用いてフィルタリングを行う。次に、フィ ルタリング結果をフレーム毎に加算して帯域分割型雑音抑圧装置 100の出力とする
[0064] このように、本実施の形態によれば、入力音声信号を低域周波数成分が含まれる 音声信号と高域周波数成分が含まれる音声信号とに分割し、入力音声信号のパヮ 一が大きい低域周波数の信号に対して間引き処理を行うので、少ない演算量でより 高度な雑音抑圧処理を行うことができる。また、入力音声信号のパワーが小さい高域 周波数の信号に対して低域雑音抑圧処理よりも簡単な雑音抑圧処理手法を適用す るので、より少ない演算量で音声歪を少なくしかつ雑音を十分に除去することができ る。
[0065] このとき、低域雑音の抑圧処理では、まず、有音帯域及び雑音帯域を検出し、推定 されたピッチ周波数に基づいて雑音に埋もれて欠落した音声ピッチ調波パワースぺ タトルを修復する。次に、ピッチ調波パワースペクトルと有音帯域及び雑音帯域の検 出結果とを組合せて有音帯域及び雑音帯域の判定結果を修正するので、より精度 の高い有音帯域及び雑音帯域の判定を行うことができる。その結果、有音帯域及び 雑音帯域の各々に対して減衰度合 、の弱 、減算処理と強 、減衰処理とが行えるの で、減衰量を大きくしても音声歪の少ない雑音抑圧を行うことができる。
[0066] また、高域雑音の抑圧処理では、高域周波数の信号成分に対して雑音抑圧係数 及びその平均値を計算し、雑音抑圧処理を時間領域にお!、て行うようにしたので、 演算量やメモリ量を大幅に減少することができる。
[0067] また、高域雑音の抑圧処理では、抑圧係数の計算を高域周波数の音声信号パヮ 一の加算値及び高域ノイズベースの推定値に基づ 、て行うので、少な!/、処理量で抑 圧係数を計算することができる。
[0068] また、高域雑音の抑圧処理では、高域の SN比推定結果を利用して高域の雑音抑 圧を行うので、 SN比の変化による高域の雑音抑圧量を調整することができ、低域と 高域の間での雑音抑圧性能を改善することができる。また、高域の音声 Z雑音フレ ームの判定結果を利用して高域の雑音抑圧を行うので、雑音フレームにおいて更な る雑音の低減を行うことができ、聴感上では聞き取られやすい高域の雑音をより大き く抑圧することがでさる。
[0069] また、高域雑音の抑圧処理では、抑圧係数の平均処理を行うので、フレーム間の 連続性を向上することができ、音質の良い雑音抑圧性能を得ることができる。
[0070] 本明細書は、 2005年 1月 21日出願の特願 2005— 014772に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0071] 本発明は、少ない処理量で音声歪を小さくしてかつ雑音を十分に除去できる雑音 抑圧装置として有用であり、特に携帯電話機に用いるのに好適である。

Claims

請求の範囲
[1] 入力音声信号を低域周波数雑音成分が含まれる低域音声信号と高域周波数雑音 成分が含まれる高域音声信号とに帯域分割する帯域分割手段と、前記低域音声信 号をダウンサンプリングして間弓 Iく処理を行う間弓 Iき処理手段と、前記間弓 Iき処理を 受けた低域音声信号に含まれる雑音を抑圧する低域雑音抑圧手段と、前記雑音が 抑圧された低域音声信号をアップサンプリングして補間処理を行う補間処理手段と、 前記高域音声信号に含まれる雑音を抑圧する高域雑音抑圧手段と、前記補間処理 を受けた低域音声信号と前記雑音抑圧処理を受けた高域音声信号とを合成する帯 域合成手段と、を具備する帯域分割型雑音抑圧装置。
[2] 前記低域雑音抑圧手段は、低域音声パワースペクトルから雑音成分のスペクトルで あるノイズベースを推定する低域ノイズベース推定手段と、前記音声パワースぺタト ル及び前記ノイズベースを用いて前記音声パワースペクトル力 有音帯域と雑音帯 域とを検出する有音 Z雑音検出手段と、前記音声パワースペクトル及び前記ノイズ ベースを用いて前記音声パワースペクトル力 ピッチ調波パワースペクトルを抽出す るピッチ調波構造抽出手段と、前記音声パワースペクトル及び前記ノイズベースを用 いて前記音声パワースペクトルにおけるピッチ周波数を推定するピッチ周波数推定 手段と、抽出した前記ピッチ調波パワースペクトルを推定した前記ピッチ周波数を用
Vヽて修復するピッチ調波構造修復手段と、検出した前記有音帯域と雑音帯域とを修 復した前記ピッチ調波パワースペクトルを用いて修正する有音 Z雑音修正手段と、 前記音声パワースペクトル及び前記ノイズベースを用いて修正された有音帯域と雑 音帯域に対して減算と減衰を行うための減算 Z減衰係数を計算する減算 Z減衰係 数計算手段と、前記低域音声パワースペクトルに前記減算 Z減衰係数を乗算し雑音 成分が抑圧された音声パワースペクトルを再構成する再構成手段と、を具備する請 求項 1記載の帯域分割型雑音抑圧装置。
[3] 前記高域雑音抑圧手段は、所定の時間単位で雑音の抑圧度合!ヽを示す抑圧係数 を計算する抑圧係数計算手段と、計算された前記抑圧係数のパラメータを調整する 抑圧係数調整手段と、調整された前記抑圧係数の平均処理を行う平均処理手段と、 を具備する請求項 1記載の帯域分割型雑音抑圧装置。
[4] 前記所定の時間単位にお!、て、前記高域音声信号のパワー加算値に基づ!、て雑 音成分である高域ノイズベースを推定する高域ノイズベース推定手段を備え、前記 抑圧係数計算手段は、前記高域音声信号パワーの加算値及び前記高域ノイズべ一 ス推定値に基づき抑圧係数を計算する請求項 3記載の帯域分割型雑音抑圧装置。
[5] 前記所定の時間単位において、音声信号パワーと雑音信号パワーの比率である S N比を推定する SN比推定手段と、前記高域音声信号及び前記高域ノイズベースに 基づき音声フレームと雑音フレームとを判定する音声 Z雑音フレーム判定手段とを 備え、前記抑圧係数調整手段は、推定した前記 SN比と判定した前記音声フレーム 及び雑音フレームとに基づき抑圧係数のパラメータを調整する請求項 3記載の帯域 分割型雑音抑圧装置。
[6] 前記平均処理手段は、求められた前記抑圧係数の平均処理を行い、その平均処 理結果を用いて所定の時間単位で高域音声信号に対して雑音の抑圧処理を行う請 求項 3記載の帯域分割型雑音抑圧装置。
[7] 入力音声信号を低域周波数雑音成分が含まれる低域音声信号と高域周波数雑音 成分が含まれる高域音声信号とに帯域分割する帯域分割工程と、前記低域音声信 号をダウンサンプリングして間弓 Iく処理を行う間弓 Iき処理工程と、前記間弓 Iき処理を 受けた低域音声信号に含まれる雑音を抑圧する低域雑音抑圧工程と、前記雑音が 抑圧された低域音声信号をアップサンプリングして補間処理を行う補間処理工程と、 前記高域音声信号に含まれる雑音を抑圧する高域雑音抑圧工程と、前記補間処理 を受けた低域音声信号と前記雑音抑圧処理を受けた高域音声信号とを合成する帯 域合成工程と、を具備する帯域分割型雑音抑圧方法。
[8] 前記低域雑音抑圧工程は、低域音声パワースペクトル力 雑音成分のスペクトルで あるノイズベースを推定する工程と、前記音声パワースペクトル及び前記ノイズべ一 スを用いて前記音声パワースぺ外ルカ 有音帯域と雑音帯域とを検出する工程と、 前記音声パワースペクトル及び前記ノイズベースを用いて前記音声パワースペクトル 力 ピッチ調波パワースペクトルを抽出する工程と、前記音声パワースペクトル及び 前記ノイズベースを用いて前記音声パワースペクトルにおけるピッチ周波数を推定す る工程と、抽出した前記ピッチ調波パワースペクトルを推定した前記ピッチ周波数を 用いて修復する工程と、検出した前記有音帯域と雑音帯域とを修復した前記ピッチ 調波パワースペクトルを用いて修正する工程と、前記音声パワースペクトル及び前記 ノイズベースを用いて修正された有音帯域と雑音帯域に対して減算と減衰を行うため の減算 Z減衰係数を計算する工程と、前記低域音声パワースペクトルに前記減算 Z 減衰係数を乗算し雑音成分が抑圧された音声パワースペクトルを再構成する工程と
、を具備する請求項 7記載の帯域分割型雑音抑圧方法。
前記高域雑音抑圧工程は、所定の時間単位において、前記高域音声信号のパヮ 一加算値に基づ 、て雑音成分である高域ノイズベースを推定する工程と、音声信号 パワーと雑音信号パワーの比率である SN比を推定する工程と、前記高域音声信号 及び前記高域ノイズベースに基づき音声フレームと雑音フレームとを判定する工程と 、前記高域音声信号パワーの加算値及び前記高域ノイズベース推定値に基づき雑 音の抑圧度合!、を示す抑圧係数を計算する工程と、計算された前記抑圧係数のパ ラメータを推定した前記 SN比と判定した前記音声フレーム及び雑音フレームとに基 づき調整する工程と、調整された前記抑圧係数の平均処理を行い、その平均処理結 果を用いて所定の時間単位で高域音声信号に対して雑音の抑圧処理を行う工程と 、を具備する請求項 7記載の帯域分割型雑音抑圧方法。
PCT/JP2006/300756 2005-01-21 2006-01-19 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法 WO2006077934A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-014772 2005-01-21
JP2005014772A JP2006201622A (ja) 2005-01-21 2005-01-21 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法

Publications (1)

Publication Number Publication Date
WO2006077934A1 true WO2006077934A1 (ja) 2006-07-27

Family

ID=36692319

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/300756 WO2006077934A1 (ja) 2005-01-21 2006-01-19 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法

Country Status (2)

Country Link
JP (1) JP2006201622A (ja)
WO (1) WO2006077934A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170302B (zh) * 2006-10-27 2011-11-23 索尼株式会社 音频处理方法和音频处理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2416315B1 (en) 2009-04-02 2015-05-20 Mitsubishi Electric Corporation Noise suppression device
JP5672437B2 (ja) * 2010-09-14 2015-02-18 カシオ計算機株式会社 雑音抑制装置、雑音抑制方法およびプログラム
DE112010005895B4 (de) * 2010-09-21 2016-12-15 Mitsubishi Electric Corporation Störungsunterdrückungsvorrichtung

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1032804A (ja) * 1996-07-12 1998-02-03 Ricoh Co Ltd テレビ会議装置
JP2001215999A (ja) * 1999-12-21 2001-08-10 Texas Instr Inc <Ti> サブバンド音声コーディングシステム
JP2001228893A (ja) * 2000-02-18 2001-08-24 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001255876A (ja) * 2000-03-13 2001-09-21 Yamaha Corp 時間軸方向における楽音波形信号の伸縮方法
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP3309895B2 (ja) * 1996-03-25 2002-07-29 日本電信電話株式会社 雑音低減方法
JP2003008521A (ja) * 2001-06-20 2003-01-10 Fujitsu Ltd 雑音キャンセル方法及び装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3309895B2 (ja) * 1996-03-25 2002-07-29 日本電信電話株式会社 雑音低減方法
JPH1032804A (ja) * 1996-07-12 1998-02-03 Ricoh Co Ltd テレビ会議装置
JP2001215999A (ja) * 1999-12-21 2001-08-10 Texas Instr Inc <Ti> サブバンド音声コーディングシステム
JP2001228893A (ja) * 2000-02-18 2001-08-24 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001255876A (ja) * 2000-03-13 2001-09-21 Yamaha Corp 時間軸方向における楽音波形信号の伸縮方法
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2003008521A (ja) * 2001-06-20 2003-01-10 Fujitsu Ltd 雑音キャンセル方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101170302B (zh) * 2006-10-27 2011-11-23 索尼株式会社 音频处理方法和音频处理装置

Also Published As

Publication number Publication date
JP2006201622A (ja) 2006-08-03

Similar Documents

Publication Publication Date Title
US20080243496A1 (en) Band Division Noise Suppressor and Band Division Noise Suppressing Method
US8249861B2 (en) High frequency compression integration
US8010355B2 (en) Low complexity noise reduction method
EP2031583B1 (en) Fast estimation of spectral noise power density for speech signal enhancement
US6377637B1 (en) Sub-band exponential smoothing noise canceling system
JP4162604B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP3454206B2 (ja) 雑音抑圧装置及び雑音抑圧方法
EP1806739B1 (en) Noise suppressor
US8489394B2 (en) Method, apparatus, and computer program for suppressing noise
EP1744305B1 (en) Method and apparatus for noise reduction in sound signals
EP2828852B1 (en) Post-processing gains for signal enhancement
US8804980B2 (en) Signal processing method and apparatus, and recording medium in which a signal processing program is recorded
EP1772855A1 (en) Method for extending the spectral bandwidth of a speech signal
US20030023430A1 (en) Speech processing device and speech processing method
JP4296622B2 (ja) エコー消去装置及び方法、並びに音声再生装置
US20100104113A1 (en) Noise suppression device and noise suppression method
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
JP3960834B2 (ja) 音声強調装置及び音声強調方法
JP2000330597A (ja) 雑音抑圧装置
WO2006077934A1 (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP2003140700A (ja) ノイズ除去方法及び装置
JP4445460B2 (ja) 音声処理装置及び音声処理方法
JPH11265199A (ja) 送話器
JP2004020679A (ja) 雑音抑圧装置および雑音抑圧方法
JP2006126859A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10592749

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06712002

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 6712002

Country of ref document: EP