WO2012070670A1 - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法、及び信号処理プログラム Download PDF

Info

Publication number
WO2012070670A1
WO2012070670A1 PCT/JP2011/077285 JP2011077285W WO2012070670A1 WO 2012070670 A1 WO2012070670 A1 WO 2012070670A1 JP 2011077285 W JP2011077285 W JP 2011077285W WO 2012070670 A1 WO2012070670 A1 WO 2012070670A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
suppression
background sound
unit
noise
Prior art date
Application number
PCT/JP2011/077285
Other languages
English (en)
French (fr)
Inventor
昭彦 杉山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to CN2011800568616A priority Critical patent/CN103238180A/zh
Priority to JP2012545814A priority patent/JPWO2012070670A1/ja
Priority to US13/989,689 priority patent/US20130246060A1/en
Publication of WO2012070670A1 publication Critical patent/WO2012070670A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to a signal processing technique for enhancing a first signal by suppressing a second signal in a deteriorated signal.
  • Patent Document 1 discloses a method for suppressing noise by multiplying an input signal by a suppression coefficient smaller than 1
  • Patent Document 2 discloses that the estimated noise is converted into a degraded signal. A method of suppressing noise by subtracting directly from is disclosed.
  • an object of the present invention is to provide a signal processing technique that solves the above-described problems.
  • an apparatus includes a suppression unit that processes a mixed signal in which a first signal and a second signal are mixed to suppress the second signal, and a background sound included in the mixed signal.
  • Background sound estimation means for estimating a signal
  • suppression means for suppressing suppression of the second signal so that a suppression result by the suppression means does not become smaller than the background sound.
  • a method inputs a mixed signal in which a first signal and a second signal are mixed, estimates a background sound signal included in the mixed signal, and a suppression result is the background sound. The second signal is suppressed while being suppressed so as not to become smaller.
  • a program according to the present invention includes an input step for inputting a mixed signal in which a first signal and a second signal are mixed, and a background sound estimating step for estimating a background sound signal included in the mixed signal. And a suppression step of suppressing the second signal while suppressing the suppression result from becoming smaller than the background sound.
  • a high-quality output signal can be obtained by performing noise suppression in consideration of the background sound.
  • the signal processing apparatus 100 is an apparatus for processing a mixed signal in which a first signal and a second signal are mixed to suppress the second signal.
  • the signal processing device 100 includes a background sound estimation unit 101, a suppression suppression unit 102, and a signal suppression unit 103.
  • the background sound estimation unit 101 estimates a background sound signal included in the mixed signal.
  • the suppression suppression unit 102 suppresses suppression of the second signal so that the suppression result does not become smaller than the background sound signal.
  • the signal suppression unit 103 processes the mixed signal and suppresses the second signal. With the above configuration, it is possible to achieve higher quality signal processing while leaving background sound.
  • a noise suppression apparatus as a second embodiment of the present invention will be described with reference to FIGS.
  • the noise suppression device 200 according to the present embodiment also functions as a part of a device such as a digital camera, a notebook computer, or a mobile phone.
  • the present invention is not limited to this, and can be applied to any signal processing apparatus that is required to remove noise from an input signal.
  • FIG. 2 is a block diagram showing the overall configuration of the noise suppression apparatus 200.
  • the noise suppression apparatus 200 includes an input terminal 201, a conversion unit 202, an inverse conversion unit 203, an output terminal 204, a noise suppression unit 205, a noise estimation unit 206, and a background sound estimation unit 207. And a noise correction unit 208.
  • a deterioration signal (a mixed signal in which a desired signal as the first signal and noise as the second signal are mixed) is supplied to the input terminal 201 as a sample value series.
  • the degradation signal supplied to the input terminal 201 is subjected to transformation such as Fourier transformation in the transformation unit 202 and is divided into a plurality of frequency components. A plurality of frequency components are processed independently for each frequency.
  • the description will be continued focusing on a specific frequency component.
  • the amplitude spectrum 220 is supplied to the noise suppression unit 205, and the phase spectrum 230 is supplied to the inverse conversion unit 203.
  • the amplitude spectrum 220 is supplied to the noise suppression unit 205 here, the present invention is not limited to this, and a power spectrum corresponding to the square thereof may be supplied to the noise suppression unit 205.
  • the noise estimation unit 206 estimates noise using the deteriorated signal amplitude spectrum 220 supplied from the conversion unit 202, and generates noise information 250 (estimated noise) as an example of the estimated second signal.
  • the background sound estimation unit 207 sequentially estimates the background sound and updates the estimated background sound.
  • the background sound estimation unit 207 can obtain the estimated background sound by averaging the amplitudes of the deterioration signals. As an averaging method, a method using a sliding window with a finite number of samples or a method using leakage integration can be applied.
  • the former is known as computation of a finite impulse response length filter in the field of signal processing, and the number of taps of the filter corresponds to the length of the sliding window.
  • the background sound estimation unit 207 can obtain an average value using the following equation.
  • first-order leakage integration such as the following equation is most widely used.
  • is a constant that satisfies 0 ⁇ ⁇ 1.
  • the background sound estimation unit 207 can also estimate the background sound only when the amplitude of the deterioration signal is close to the background sound estimation value (within a predetermined multiple or within a predetermined value difference).
  • the background sound estimation unit 207 can obtain the initial value of the background sound estimation as an average of the deterioration signal amplitude.
  • FIG. 3 is a block diagram illustrating a configuration of the conversion unit 202. As illustrated in FIG.
  • the conversion unit 202 includes a frame division unit 301, a windowing unit 302, and a Fourier transform unit 303.
  • the deteriorated signal samples are supplied to the frame dividing unit 301 and divided into frames for every K / 2 samples. Here, K is an even number.
  • the deteriorated signal samples divided into frames are supplied to the windowing processing unit 302, and are multiplied by w (t) which is a window function.
  • the windowing processing unit 302 may create a window by overlapping (overlapping) a part of two consecutive frames.
  • the left side obtained by the following equation is the output of the windowing processing unit 302.
  • the description will be continued by taking as an example a case in which 50% of two consecutive frames overlap each other.
  • the windowing processing unit 302 may use, for example, a Hanning window represented by the following equation as w (t).
  • various window functions such as a Hamming window, a Kaiser window, and a Blackman window are known.
  • the windowed output is supplied to the Fourier transform unit 303 and converted into a degraded signal amplitude spectrum Yn (k).
  • the deteriorated signal spectrum Yn (k) is separated into phase and amplitude, the deteriorated signal phase spectrum arg Yn (k) is supplied to the inverse transform unit 203, and the deteriorated signal amplitude spectrum
  • a power spectrum may be used instead of the amplitude spectrum.
  • FIG. 4 is a block diagram showing the configuration of the inverse transform unit 203.
  • the inverse transform unit 203 includes an inverse Fourier transform unit 401, a windowing processing unit 402, and a frame synthesis unit 403.
  • the inverse Fourier transform unit 401 multiplies the enhancement signal amplitude spectrum 240 supplied from the noise suppression unit 205 and the deteriorated signal phase spectrum 230 supplied from the conversion unit 202 to obtain an enhancement signal (the left side of the following expression).
  • the windowing processing unit 402 performs multiplication of xn (t) and the window function w (t).
  • the obtained output signal is transmitted from the frame synthesis unit 403 to the output terminal 204.
  • the transformation in the transformation unit 202 and the inverse transformation unit 203 has been described as Fourier transformation, but instead of Fourier transformation, cosine transformation, modified cosine transformation, Hadamard transformation, Haar transformation, wavelet transformation, etc. May be used.
  • the cosine transform and the modified cosine transform can obtain only the amplitude as a conversion result.
  • FIG. 5 is a block diagram showing a configuration of the noise estimation unit 206 of FIG.
  • the noise estimation unit 206 includes an estimated noise calculation unit 501, a weighted deteriorated speech calculation unit 502, and a counter 503.
  • the deteriorated speech power spectrum supplied to the noise estimator 206 is transmitted to the estimated noise calculator 501 and the weighted degraded speech calculator 502.
  • the weighted deteriorated sound calculation unit 502 calculates a weighted deteriorated sound power spectrum using the supplied deteriorated sound power spectrum and the estimated noise power spectrum, and transmits the weighted deteriorated sound power spectrum to the estimated noise calculation unit 501.
  • the estimated noise calculation unit 501 estimates the noise power spectrum using the degraded speech power spectrum, the weighted degraded speech power spectrum, and the count value supplied from the counter 503, and outputs the estimated noise power spectrum as well as the weighted noise spectrum. Return to the deteriorated voice calculation unit 502. FIG.
  • the estimated noise calculation unit 501 includes an update determination unit 601, a register length storage unit 602, an estimated noise storage unit 603, a switch 604, a shift register 605, an adder 606, a minimum value selection unit 607, a division unit 608, and a counter 609.
  • the switch 604 is supplied with a weighted degraded voice power spectrum. When switch 604 closes the circuit, the weighted degraded voice power spectrum is transmitted to shift register 605.
  • the shift register 605 shifts the stored value of the internal register to the adjacent register in accordance with the control signal supplied from the update determination unit 601.
  • the shift register length is equal to a value stored in a register length storage unit 602 described later.
  • All register outputs of the shift register 605 are supplied to the adder 606.
  • the adder 606 adds all the supplied register outputs and transmits the addition result to the division unit 608.
  • the update determination unit 601 is supplied with a count value, a frequency-specific degraded speech power spectrum and a frequency-specific estimated noise power spectrum.
  • the update determination unit 601 always indicates “1” until the count value reaches a preset value, and after the count value reaches the preset value, the input deteriorated speech signal is noise. When it is determined, “1” is output, and “0” is output otherwise, and is transmitted to the counter 609, the switch 604, and the shift register 605.
  • the switch 604 closes the circuit when the signal supplied from the update determination unit is “1”, and opens when the signal is “0”.
  • the counter 609 increases the count value when the signal supplied from the update determination unit 601 is “1”, and does not change when the signal is “0”.
  • the shift register 605 captures one sample of the signal sample supplied from the switch 604 when the signal supplied from the update determination unit 601 is “1”, and simultaneously shifts the stored value of the internal register to the adjacent register.
  • the minimum value selection unit 607 is supplied with the output of the counter 609 and the output of the register length storage unit 602. The minimum value selection unit 607 selects the smaller one of the supplied count value and register length and transmits it to the division unit 608.
  • FIG. 7 is a block diagram illustrating a configuration of the update determination unit 601 included in FIG.
  • the update determination unit 601 includes a logical sum calculation unit 701, comparison units 702 and 704, threshold storage units 705 and 703, and a threshold calculation unit 706.
  • the count value supplied from the counter 503 in FIG. 5 is transmitted to the comparison unit 702.
  • the threshold value that is the output of the threshold value storage unit 703 is also transmitted to the comparison unit 702.
  • the comparison unit 702 compares the supplied count value with a threshold value, and transmits “1” to the logical sum calculation unit 701 when the count value is smaller than the threshold value and “0” when the count value is larger than the threshold value.
  • the threshold value calculation unit 706 calculates a value corresponding to the estimated noise power spectrum supplied from the estimated noise storage unit 603 in FIG. 6 and outputs the value to the threshold value storage unit 705 as a threshold value.
  • the simplest threshold calculation method is to multiply the estimated noise power spectrum by a constant.
  • the threshold calculation unit 706 can also calculate the threshold using a high-order polynomial or a nonlinear function.
  • the threshold storage unit 705 stores the threshold output from the threshold calculation unit 706 and outputs the threshold stored one frame before to the comparison unit 704.
  • the comparison unit 704 compares the threshold value supplied from the threshold value storage unit 705 with the deteriorated sound power spectrum supplied from the conversion unit 202, and if the deteriorated sound power spectrum is smaller than the threshold value, it is “1”, and if it is larger, it is “0”. Is output to the logical sum calculation unit 701. That is, the comparison unit 704 determines whether or not the deteriorated speech signal is noise based on the magnitude of the estimated noise power spectrum.
  • the logical sum calculation unit 701 calculates a logical sum of the output value of the comparison unit 702 and the output value of the comparison unit 704, and outputs the calculation result to the switch 604, the shift register 605, and the counter 609 in FIG.
  • the update determination unit 601 outputs “1” when the deteriorated voice power is small not only in the initial state and the silent period but also in the voiced period. That is, the estimated noise is updated. Since the threshold value is calculated for each frequency, the estimated noise can be updated for each frequency.
  • FIG. 8 is a block diagram illustrating a configuration of the weighted deteriorated speech calculation unit 502.
  • the weighted deteriorated speech calculation unit 502 includes an estimated noise storage unit 801, a frequency-specific SNR calculation unit 802, a nonlinear processing unit 804, and a multiplier 803.
  • the estimated noise storage unit 801 stores the estimated noise power spectrum supplied from the estimated noise calculation unit 501 in FIG. 5, and outputs the estimated noise power spectrum stored one frame before to the SNR calculation unit 802 for each frequency.
  • the frequency-specific SNR calculation unit 802 calculates an SNR (Signal-to-Noise Ratio) for each frequency band using the estimated noise power spectrum supplied from the estimated noise storage unit 801 and the degraded speech power spectrum supplied from the conversion unit 202. Obtained and output to the nonlinear processing unit 804.
  • the frequency-specific SNR calculation unit 802 obtains the frequency-specific SNR ⁇ n (k) hat by dividing the supplied degraded speech power spectrum by the estimated noise power spectrum according to the following equation.
  • ⁇ n ⁇ 1 (k) is an estimated noise power spectrum stored one frame before.
  • the nonlinear processing unit 804 calculates a weighting coefficient vector using the SNR supplied from the frequency-specific SNR calculating unit 802 and outputs the weighting coefficient vector to the multiplier 803.
  • Multiplier 803 calculates the product of the degraded speech power spectrum supplied from conversion unit 202 and the weighting coefficient vector supplied from nonlinear processing unit 804 for each frequency band, and calculates the weighted degraded speech power spectrum in FIG. Output to the noise calculation unit 501.
  • the nonlinear processing unit 804 has a nonlinear function that outputs a real value corresponding to each of the multiplexed input values.
  • FIG. 9 shows an example of a nonlinear function.
  • f1 is an input value
  • the output value f2 of the nonlinear function shown in FIG. 9 is expressed by the following equation.
  • a and b are arbitrary real numbers.
  • the non-linear processing unit 804 processes the SNR for each frequency band supplied from the SNR calculation unit for frequency 802 by a non-linear function to obtain a weighting factor, and transmits the weight coefficient to the multiplier 803. That is, the nonlinear processing unit 804 outputs a weighting coefficient from 1 to 0 corresponding to the SNR.
  • the nonlinear processing unit 804 outputs 1 when the SNR is small and 0 when the SNR is large.
  • the weighting coefficient multiplied by the degraded speech power spectrum by the multiplier 803 in FIG. 8 has a value corresponding to the SNR.
  • the greater the SNR that is, the greater the speech component included in the degraded speech, the greater the weighting factor value. Becomes smaller.
  • a degraded speech power spectrum is used to update the estimated noise.
  • the multiplier 803 weights the degraded speech power spectrum used for updating the estimated noise according to the SNR.
  • the noise suppression apparatus 200 can reduce the influence of the voice component included in the deteriorated voice power spectrum, and can perform more accurate noise estimation.
  • FIG. 10 is a block diagram showing a schematic configuration of a noise suppression apparatus 1000 as the third embodiment of the present invention. Unlike the second embodiment, the noise suppression apparatus 1000 according to the present embodiment feeds back the output of the noise suppression unit 205 to the background sound estimation unit 1007.
  • the background sound estimation unit 1007 determines whether it is necessary to estimate the background sound according to the presence or absence of the desired signal. That is, the background sound information is updated only when there is no desired signal. Other operations of the background sound estimation unit 1007 are the same as those described in the background sound estimation of the second embodiment, and thus the details thereof are omitted. As described above, in addition to the effects of the second embodiment, the background sound can be estimated efficiently and accurately.
  • FIG. 11 is a block diagram showing a schematic configuration of a noise suppression apparatus 1100 as the fourth embodiment of the present invention. Unlike the second embodiment, the noise suppression apparatus 1100 according to this embodiment is corrected by the noise correction unit 208 using the noise information read from the noise storage unit 1106.
  • the noise storage unit 1106 includes a storage element such as a semiconductor memory, and stores noise information (information regarding noise characteristics).
  • the noise storage unit 1106 stores a noise spectrum shape as noise information.
  • the noise storage unit 1106 may store a phase frequency characteristic, a feature amount such as strength and time change at a specific frequency, and the like.
  • the noise information may be a statistic (maximum, minimum, variance, median) or the like.
  • the noise storage unit 1106 stores 1024 amplitude (or power) data.
  • FIG. 12 is a block diagram showing a schematic configuration of a noise suppression apparatus 1200 as the fifth embodiment of the present invention. Unlike the fourth embodiment, the noise suppression apparatus 1200 according to the present embodiment feeds back the output of the noise suppression unit 205 to the background sound estimation unit 1007.
  • the background sound estimation unit 1007 updates the background sound information only when there is no desired signal. Other operations of the background sound estimation unit 1007 are the same as those described in the background sound estimation of the second embodiment, and thus the details thereof are omitted.
  • the noise suppression apparatus 1300 is a block diagram which shows schematic structure of the noise suppression apparatus 1300 as 6th Embodiment of this invention. Unlike the fourth embodiment, the noise suppression apparatus 1300 according to the present embodiment corrects the output from the noise storage unit 1106 by the noise correction unit 1301 and then supplies the output to the noise correction unit 208. Since other configurations and operations are the same as those in the fourth embodiment, the same components are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the noise correction unit 1301 receives the enhanced signal amplitude spectrum 240 supplied from the noise suppression unit 205 and corrects noise according to the feedback of the noise suppression result. Specifically, the noise correction information is updated so that the noise suppression result becomes zero.
  • the output signal is not smaller than the background sound, and high-quality signal processing that does not perceive discontinuity can be performed. By correcting the noise accordingly, more accurate noise suppression can be performed.
  • the output of the noise suppression unit 205 may be fed back to the background sound estimation unit 207 (dotted line arrow). In that case, the background sound estimation unit 207 updates the background sound information only when there is no desired signal. The background sound estimation unit 207 does not update the background sound when the desired signal is strong for each frequency component.
  • FIG. 14 is a block diagram showing a schematic configuration of a noise suppression apparatus 1400 as the seventh embodiment of the present invention. Comparing FIG. 2 and FIG. 14, the noise suppression apparatus 1400 according to the present embodiment includes a suppression coefficient generation unit 1410 that generates a suppression coefficient using noise information and a degraded signal, unlike the second embodiment.
  • FIG. 15 is a block diagram showing the configuration of the suppression coefficient generation unit 1410 included in FIG. As illustrated in FIG. 15, the suppression coefficient generation unit 1410 includes an acquired SNR calculation unit 1501, an estimated innate SNR calculation unit 1502, a noise suppression coefficient calculation unit 1503, and a speech nonexistence probability storage unit 1504.
  • the acquired SNR calculation unit 1501 calculates an acquired SNR for each frequency using the input degraded speech power spectrum and the estimated noise power spectrum, and supplies the acquired SNR to the estimated innate SNR calculation unit 1502 and the noise suppression coefficient calculation unit 1503.
  • the estimated innate SNR calculation unit 1502 estimates the innate SNR using the input acquired SNR and the suppression coefficient fed back from the noise suppression coefficient calculation unit 1503, and the noise suppression coefficient calculation unit as the estimated innate SNR 1503.
  • the noise suppression coefficient calculation unit 1503 generates a noise suppression coefficient using the acquired SNR supplied as input, the estimated innate SNR, and the speech non-existence probability supplied from the speech non-existence probability storage unit 1504, and suppresses the suppression coefficient Gn. (K) Output as a bar.
  • the estimated innate SNR calculation unit 1502 includes a range limitation processing unit 1601, an acquired SNR storage unit 1602, a suppression coefficient storage unit 1603, multipliers 1604 and 1605, a weight storage unit 1606, a weighted addition unit 1607, and an adder 1608. .
  • the acquired SNR storage unit 1602 stores the acquired SNR ⁇ n (k) in the nth frame and transmits the acquired SNR ⁇ n ⁇ 1 (k) in the n ⁇ 1th frame to the multiplier 1605.
  • the suppression coefficient storage unit 1603 stores the suppression coefficient Gn (k) bar in the nth frame and transmits the suppression coefficient Gn ⁇ 1 (k) bar in the n ⁇ 1th frame to the multiplier 1604.
  • the multiplier 1604 obtains a Gn-12 (k) bar by squaring the supplied Gn (k) bar and transmits it to the multiplier 1605.
  • the other terminal of the adder 1608 is supplied with ⁇ 1, and the addition result ⁇ n (k) ⁇ 1 is transmitted to the range limitation processing unit 1601.
  • the range limitation processing unit 1601 performs an operation using the range limitation operator P [•] on the addition result ⁇ n (k) ⁇ 1 supplied from the adder 1608 and weights the result P [ ⁇ n (k) ⁇ 1]. This is transmitted to the adder 1607 as the instantaneous estimated SNR.
  • P [x] is defined by the following equation.
  • the weighted addition unit 1607 is also supplied with weights from the weight storage unit 1606.
  • the weighted addition unit 1607 obtains an estimated innate SNR using the supplied instantaneous estimated SNR, past estimated SNR, and weight.
  • FIG. 17 is a block diagram illustrating a configuration of the weighted addition unit 1607 included in FIG.
  • the weighted addition unit 1607 includes multipliers 1701 and 1703, a constant multiplier 1705, and adders 1702 and 1704. 16 is supplied as an input from the frequency range limiting processing unit 1601 of FIG. 16, the frequency band instantaneous estimated SNR, the multiplier 1605 of FIG. 16 of the past frequency band SNR, and the weight storage unit 1606 of FIG.
  • the weight having the value ⁇ is transmitted to the constant multiplier 1705 and the multiplier 1703.
  • the constant multiplier 1705 transmits - ⁇ obtained by multiplying the input signal by ⁇ 1 to the adder 1704. 1 is supplied as the other input of the adder 1704, and the output of the adder 1704 is 1- ⁇ which is the sum of both.
  • 1- ⁇ is supplied to a multiplier 1701 and multiplied by the other input, instantaneous estimation SNRP [ ⁇ n (k) ⁇ 1] for each frequency band, and (1 ⁇ ) P [ ⁇ n (k) which is a product. ⁇ 1] is transmitted to the adder 1702.
  • FIG. 18 is a block diagram showing the noise suppression coefficient calculation unit 1503 included in FIG.
  • the noise suppression coefficient calculation unit 1503 includes an MMSE STSA gain function value calculation unit 1801, a generalized likelihood ratio calculation unit 1802, and a suppression coefficient calculation unit 1803.
  • the frame number is n
  • the frequency number is k
  • ⁇ n (k) is the acquired frequency-specific SNR supplied from the acquired SNR calculator 1501
  • ⁇ n (k) is the frequency supplied from the estimated acquired SNR calculator 1502.
  • Another estimated innate SNR, q is a speech non-existence probability supplied from the speech non-existence probability storage unit 1504.
  • the MMSE STSA gain function value calculation unit 1801 includes an acquired SNR ⁇ n (k) supplied from the acquired SNR calculation unit 1501, an estimated innate SNR ⁇ n (k) hat supplied from the estimated innate SNR calculation unit 1502, and a voice. Based on the speech non-existence probability q supplied from the non-existence probability storage unit 1504, an MMSE STSA gain function value is calculated for each frequency band and output to the suppression coefficient calculation unit 1803.
  • the MMSE STSA gain function value Gn (k) for each frequency band is given by the following equation.
  • the generalized likelihood ratio calculation unit 1802 includes an acquired SNR ⁇ n (k) supplied from the acquired SNR calculation unit 1501, an estimated innate SNR ⁇ n (k) hat supplied from the estimated innate SNR calculation unit 1502, and speech. Based on the speech non-existence probability q supplied from the non-existence probability storage unit 1504, a generalized likelihood ratio is calculated for each frequency band and transmitted to the suppression coefficient calculation unit 1803.
  • the generalized likelihood ratio ⁇ n (k) for each frequency band is given by the following equation.
  • the suppression coefficient calculation unit 1803 receives the MMSE STSA gain function value Gn (k) supplied from the MMSE STSA gain function value calculation unit 1801 and the generalized likelihood ratio ⁇ n (k) supplied from the generalized likelihood ratio calculation unit 1802. ) To calculate the suppression coefficient for each frequency band.
  • the suppression coefficient Gn (k) bar for each frequency band is given by the following equation.
  • the suppression coefficient calculation unit 1803 can also obtain an SNR common to a wide band composed of a plurality of frequency bands and use this. With the above configuration, the noise suppression device 1400 performs control so that the noise is reduced in accordance with the ratio of the desired signal to the noise even in the noise suppression using the suppression coefficient, thereby enabling high-quality signal processing.
  • FIG. 19 is a block diagram showing a schematic configuration of a noise suppression apparatus 1900 as the eighth embodiment of the present invention. Unlike the seventh embodiment (FIG. 14), the noise suppression apparatus 1900 according to the present embodiment feeds back the output of the noise suppression unit 1405 to the background sound estimation unit 1007.
  • the background sound estimation unit 1007 updates the background sound information only when there is no desired signal.
  • the background sound estimation unit 1007 does not update the background sound when the desired signal is strong for each frequency component.
  • the background sound estimation unit 1007 does not estimate the background sound when the surroundings are noisy.
  • FIG. 20 is a block diagram showing a schematic configuration of a noise suppression device 2000 as the ninth embodiment of the present invention. Unlike the seventh embodiment (FIG. 14), the noise suppression apparatus 2000 according to the present embodiment does not have the noise correction unit 208, but instead uses the suppression coefficient supplied from the suppression coefficient generation unit 1410 as the background sound. A suppression coefficient correction unit 2001 is provided to correct accordingly.
  • the background sound estimation unit 2007 receives the deteriorated signal amplitude from the conversion unit 202 and estimates the background sound.
  • the background sound estimation unit 2007 further calculates a ratio ⁇ between the obtained background sound estimation value and the input and supplies it to the suppression coefficient correction unit 2001. Since other configurations and operations are the same as those of the fifth embodiment, the same components are denoted by the same reference numerals and detailed description thereof is omitted.
  • the suppression coefficient correction unit 2001 corrects the suppression coefficient generated by the suppression coefficient generation unit 1410 according to the importance of the input signal (frequency). As a result, the suppression coefficient correction unit 2001 reduces the suppression coefficient for the frequency component signal estimated to have background sound, and suppresses signal suppression in the noise suppression unit 1405.
  • FIG. 21 is a block diagram showing a schematic configuration of a noise suppression device 2100 according to the tenth embodiment of the present invention.
  • the output of the noise suppression unit 1405 is fed back to the background sound estimation unit 2107 in addition to the configuration of the ninth embodiment (FIG. 20).
  • the background sound estimation unit 2107 updates the background sound information only when there is no desired signal.
  • the background sound estimation unit 2107 does not update the background sound when the desired signal is strong for each frequency component.
  • the background sound estimation unit 2107 does not estimate the background sound when the surroundings are noisy.
  • the background sound estimation unit 2107 performs new background sound estimation when the amplitude is close (within a predetermined multiple or within a predetermined value difference).
  • the background sound estimation unit 2107 performs new estimation only when the amplitude is close to the estimated background sound.
  • the background sound can be estimated efficiently and accurately.
  • FIG. 22 is a block diagram showing a schematic configuration of a noise suppression device 2200 as the eleventh embodiment of the present invention.
  • the noise suppression apparatus 2200 does not have the noise estimation unit 206 and uses the noise information read from the noise storage unit 1106 to Correction is performed. Since other configurations and operations are the same as those of the second embodiment, the same reference numerals are given to the same configurations, and detailed descriptions thereof are omitted.
  • FIG. 23 is a block diagram showing a schematic configuration of a noise suppression apparatus 2300 as the twelfth embodiment of the present invention.
  • the noise suppression apparatus 2300 according to the present embodiment feeds back the output of the noise suppression unit 1405 to the background sound estimation unit 1007 in addition to the configuration of the eleventh embodiment (FIG. 22).
  • the background sound estimation unit 1007 updates the background sound information only when there is no desired signal.
  • the background sound estimation unit 1007 does not update the background sound when the desired signal is strong for each frequency component.
  • the background sound estimation unit 1007 does not estimate the background sound when the surroundings are noisy.
  • FIG. 24 is a block diagram showing a schematic configuration of a noise suppression device 2400 as a thirteenth embodiment of the present invention. Comparing FIG. 20 with FIG. 24, the noise suppression apparatus 2400 according to the present embodiment does not have the noise estimation unit 206 of the ninth embodiment (FIG. 20), and uses noise information read from the noise storage unit 1106.
  • FIG. 25 is a block diagram showing a schematic configuration of a noise suppression device 2500 as a fourteenth embodiment of the present invention.
  • the noise suppression device 2500 according to the present embodiment feeds back the output of the noise suppression unit 1405 to the background sound estimation unit 2107 in addition to the configuration of the thirteenth embodiment (FIG. 24).
  • the background sound estimation unit 2107 updates the background sound information only when there is no desired signal.
  • the background sound estimation unit 2107 does not update the background sound when the desired signal is strong for each frequency component.
  • the background sound estimation unit 2107 does not estimate the background sound when the surroundings are noisy.
  • the background sound estimation unit 2107 performs new background sound estimation when the amplitude is close (within a predetermined multiple or within a predetermined value difference).
  • the background sound estimation unit 2107 performs new estimation only when the amplitude is close to the estimated background sound.
  • the background sound can be estimated efficiently and accurately. (Fifteenth embodiment) FIG.
  • FIG. 26 is a block diagram showing a schematic configuration of a noise suppression apparatus 2600 as the fifteenth embodiment of the present invention.
  • the noise suppression apparatus 2600 according to the present embodiment has the configuration of the fourteenth embodiment (FIG. 25), and further feeds back the suppression coefficient corrected by the suppression coefficient correction unit 2001 to the suppression coefficient generation unit 2610. is doing.
  • the suppression coefficient generation unit 2610 generates the next suppression coefficient using the fed back suppression coefficient. This increases the accuracy of the suppression coefficient and leads to an improvement in sound quality. Since other configurations and operations are the same as those in the fourteenth embodiment, the same components are denoted by the same reference numerals and detailed description thereof is omitted.
  • FIG. 27 is a block diagram showing a schematic configuration of a noise suppression device 2700 as a sixteenth embodiment of the present invention.
  • the noise suppression apparatus 2700 according to the present embodiment is obtained by feeding back the output of the noise suppression unit 1405 to the background sound estimation unit 2107.
  • the background sound estimation unit 2107 updates the background sound information only when there is no desired signal.
  • the background sound estimation unit 2107 does not update the background sound when the desired signal is strong for each frequency component.
  • FIG. 28 is a block diagram showing a schematic configuration of a noise suppression device 2800 as a seventeenth embodiment of the present invention.
  • a noise suppression apparatus 2800 according to this embodiment is obtained by adding a noise correction unit 1301 to the configuration of the eleventh embodiment (FIG. 22).
  • the noise suppression apparatus 2800 corrects the output from the noise storage unit 1106 by the noise correction unit 1301 and supplies the corrected noise information to the noise correction unit 208.
  • the noise correction unit 1301 receives the output 240 from the noise suppression unit 1405 and corrects the noise according to the feedback of the noise suppression result. Since other configurations and operations are the same as those in the eleventh embodiment, the same components are denoted by the same reference numerals and detailed description thereof is omitted. Also in the present embodiment, as in the eleventh embodiment, control is performed so that the noise is reduced according to the ratio of the desired signal to noise, so that high-quality signal processing can be performed, and further, according to the suppression result. By correcting the noise, more accurate noise suppression can be performed. (Eighteenth embodiment) FIG.
  • a noise suppression apparatus 2900 is obtained by adding a noise correction unit 1301 to the configuration of the thirteenth embodiment (FIG. 24).
  • the noise suppression apparatus 2900 corrects the output from the noise storage unit 1106 by the noise correction unit 1301 and supplies the corrected noise information to the suppression coefficient generation unit 1410.
  • the noise correction unit 1301 receives the output 240 from the noise suppression unit 1405 and corrects the noise according to the feedback of the noise suppression result. Since other configurations and operations are the same as those in the thirteenth embodiment, the same components are denoted by the same reference numerals and detailed description thereof is omitted.
  • FIG. 30 is a block diagram showing a schematic configuration of a noise suppression device 3000 as a nineteenth embodiment of the present invention.
  • the noise suppression apparatus 3000 according to the present embodiment has the configuration of the eighteenth embodiment (FIG. 29), and further feeds back the suppression coefficient corrected by the suppression coefficient correction unit 2001 to the suppression coefficient generation unit 2610. is doing.
  • the suppression coefficient generation unit 2610 generates the next suppression coefficient using the fed back suppression coefficient.
  • FIG. 31 is a configuration diagram of a computer 3100 that executes a signal processing program when the first embodiment is configured by a signal processing program.
  • the computer 3100 includes an input unit 3101, a CPU 3102, a memory 3103, and an output unit 3104.
  • the CPU 3102 controls the operation of the computer 3100 by reading a signal processing program. That is, the CPU 3102 executes the signal processing program stored in the memory 3103, and inputs a mixed signal in which the first signal and the second signal are mixed (S3111). Next, the CPU 3102 estimates a background sound signal included in the mixed signal (S3112). Subsequently, the CPU 3102 suppresses the second signal while suppressing the suppression result from becoming lower than the background sound (S3113). Thereby, the effect similar to 1st Embodiment can be acquired. While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

 背景音を考慮して雑音抑圧を行なうことにより高品質な出力信号を得ること。 本願により開示された信号処理装置は、第1信号と第2信号とが混在した混在信号を処理して第2信号を抑圧する抑圧手段を備えている。また信号処理装置は、この信号処理装置、混在信号に含まれる背景音信号を推定する背景音推定手段を含む。さらに、信号処理装置は、抑圧手段による抑圧結果が背景音より小さくならないように第2信号の抑圧を抑制する抑制手段を備える。

Description

信号処理装置、信号処理方法、及び信号処理プログラム
 本発明は、劣化信号中の第2信号を抑圧して第1信号を強調するための信号処理技術に関する。
 劣化信号(第1信号に第2信号が重畳された信号)から第2信号を抑圧し、強調信号(第1信号を強調した信号)を出力する雑音抑圧技術(noise suppressing technology)が知られている。ノイズサプレッサは、所望の音声信号に重畳されている雑音(ノイズ)を抑圧するシステムである。ノイズサプレッサは、たとえば、携帯電話など様々な音声端末において利用されている。
 この種の技術に関し、特許文献1には、入力信号に1より小さな抑圧係数を乗算することによって、ノイズを抑圧する方法が開示されており、特許文献2には、推定された雑音を劣化信号から直接減算することによって、雑音を抑圧する方法が開示されている。
特許第4282227号 特開平8−221092号
 しかしながら、上述の特許文献1に開示された方法によって雑音を抑圧した結果、出力信号が背景音よりも小さくなり、出力信号が人等にとって不自然に聞こえる場合があった。この問題は、不連続な雑音を消去するときに、より顕著となる。これは、雑音を抑圧したときの出力が背景音より小さく、抑圧しないときの出力が背景音よりも大きく、その不連続性が知覚されやすいためである。
 以上を踏まえ、本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
 上記目的を達成するため、本発明に係る装置は、第1信号と第2信号とが混在した混在信号を処理して前記第2信号を抑圧する抑圧手段と、前記混在信号に含まれる背景音信号を推定する背景音推定手段と、前記抑圧手段による抑圧結果が前記背景音より小さくならないように前記第2信号の抑圧を抑制する抑制手段と、を備える。
 上記目的を達成するため、本発明に係る方法は、第1信号と第2信号とが混在した混在信号を入力し、前記混在信号に含まれる背景音信号を推定し、抑圧結果が前記背景音より小さくならないように抑制しつつ前記第2信号の抑圧を行なう。
 上記目的を達成するため、本発明に係るプログラムは、第1信号と第2信号とが混在した混在信号を入力する入力ステップと、前記混在信号に含まれる背景音信号を推定する背景音推定ステップと、抑圧結果が前記背景音より小さくならないように抑制しつつ前記第2信号の抑圧を行なう抑圧ステップと、をコンピュータに実行させる。
 本発明によれば、背景音を考慮して雑音抑圧を行なうことにより高品質な出力信号を得ることができる。
本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第2実施形態に係る変換部の構成を示すブロック図である。 本発明の第2実施形態に係る逆変換部の構成を示すブロック図である。 本発明の第2実施形態に係る雑音推定部の構成を示すブロック図である。 本発明の第2実施形態に係る推定雑音計算部の構成を示すブロック図である。 本発明の第2実施形態に係る更新判定部の構成を示すブロック図である。 本発明の第2実施形態に係る重み付き劣化音声計算部の構成を示すブロック図である。 本発明の第2実施形態に係る非線形関数の例を示す図である。 本発明の第3実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第4実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第5実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第6実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第7実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第7実施形態に係る抑圧係数生成部の構成を示すブロック図である。 本発明の第7実施形態に係る推定先天的SNR計算部の構成を示すブロック図である。 本発明の第7実施形態に係る重み付き加算部の構成を示すブロック図である。 本発明の第7実施形態に係る雑音抑圧係数計算部の構成を示すブロック図である。 本発明の第8実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第9実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第10実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第11実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第12実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第13実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第14実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第15実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第16実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第17実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第18実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第19実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の他の実施形態に係る雑音抑圧装置の構成を示すブロック図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 (第1実施形態)
 本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。
信号処理装置100は、第1信号と第2信号とが混在した混在信号を処理して前記第2信号を抑圧するための装置である。
 図1に示すように、信号処理装置100は、背景音推定部101と抑圧抑制部102と信号抑圧部103とを含む。背景音推定部101は、混在信号に含まれる背景音信号を推定する。抑圧抑制部102は、抑圧結果が前記背景音信号より小さくならないように前記第2信号の抑圧を抑制する。信号抑圧部103は、混在信号を処理して第2信号を抑圧する。
 以上の構成により、背景音を残して、より高品質な信号処理を達成できる。
 (第2実施形態)
 本発明の第2実施形態としての雑音抑圧装置について図2乃至図11を用いて説明する。本実施形態の雑音抑圧装置200は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能する。しかし、本発明はこれに限定されるものではなく、入力信号から雑音の除去を要求されるあらゆる信号処理装置に適用可能である。
 《全体構成》
 図2は、雑音抑圧装置200の全体構成を示すブロック図である。図2に示すように、雑音抑圧装置200は、入力端子201と、変換部202と、逆変換部203と出力端子204の他、雑音抑圧部205と雑音推定部206と背景音推定部207と雑音補正部208とを含む。入力端子201には、劣化信号(第1信号としての所望信号と第2信号としての雑音の混在する混在信号)が、サンプル値系列として供給される。入力端子201に供給された劣化信号は、変換部202においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は各周波数ごとに独立に処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル220は雑音抑圧部205へ供給され、位相スペクトル230は逆変換部203に供給される。なお、ここでは雑音抑圧部205に振幅スペクトル220が供給されているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルが雑音抑圧部205に供給されても良い。
 雑音推定部206は、変換部202から供給される劣化信号振幅スペクトル220を用いて、雑音を推定し、推定第2信号の一例としての雑音情報250(推定雑音)を生成する。また、背景音推定部207は、変換部202から供給された劣化信号振幅スペクトル220を用いて背景音を推定し、入力(劣化信号振幅スペクトル220)から背景音を減算した値αを雑音補正部208に渡す。そして、雑音補正部208は、周波数ごとにαと雑音情報X1の小さい方を選択して、雑音抑圧部205に供給する。雑音補正部208は、雑音情報が、値α(=入力−背景音)を超えないように調整する。つまり、雑音補正部208は、雑音抑圧結果が背景音よりも小さくならないように、雑音の抑圧程度を抑えめにする。具体的には、雑音補正部208は、α(=入力−背景音)が雑音情報X1よりも小さい場合にはαを雑音抑圧部205に提供し、α(=入力−背景音)が雑音情報X1よりも大きい場合にはX1を雑音抑圧部205に提供する。
 背景音推定部207は、逐次背景音の推定を行なって推定背景音を更新する。背景音推定部207は、推定背景音を、劣化信号の振幅を平均して求めることができる。平均化の手法としては、有限サンプル数のスライディング窓を用いた方法や漏れ積分を用いた方法を適用することができる。前者は、信号処理の分野では、有限インパルス応答長フィルタの演算として知られており、フィルタのタップ数がスライディング窓の長さに対応する。有限サンプル数をLとすると、背景音推定部207は、次式で平均値を求めることができる。
Figure JPOXMLDOC01-appb-M000001
漏れ積分では、以下の式のような一次漏れ積分が最も広く用いられている。
Figure JPOXMLDOC01-appb-M000002
ただし、βは0<β<1を満たす定数である。
 背景音推定部207は、背景音の推定を、劣化信号の振幅が背景音推定値に近い(所定倍以内又は所定値差以内の)ときだけ行なうこともできる。背景音推定部207は、背景音推定の初期値を、劣化信号振幅の平均として求めることができる。背景音推定部207は、初期値を得た後は、背景音推定値に近い劣化信号だけを平均化操作に利用する。
 補正後の雑音情報260は、雑音抑圧部205に供給されて劣化信号振幅スペクトル220から減算され、強調信号振幅スペクトル240として逆変換部203に供給される。逆変換部203は、変換部202から供給された位相スペクトル230と、強調信号振幅スペクトル240とを合成して逆変換を行い、強調信号として、出力端子204に供給する。
 《変換部の構成》
 図3は、変換部202の構成を示すブロック図である。図3に示すように、変換部202はフレーム分割部301、窓がけ処理部(windowing unit)302、及びフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。
Figure JPOXMLDOC01-appb-M000003
 また、窓がけ処理部302は、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0,1,...,K/2−1に対して、以下の式で得られる左辺が、窓がけ処理部302の出力となる。
Figure JPOXMLDOC01-appb-M000004
 窓がけ処理部302は、実数信号に対しては、左右対称窓関数を用いてもよい。また、窓関数は、MMSE STSA法における抑圧係数を1に設定したとき、又はSS法においてゼロを減算したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
 以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。窓かけ処理部302は、w(t)として、たとえば、次式に示すハニング窓を用いてもよい。
Figure JPOXMLDOC01-appb-M000005
 このほかにも、ハミング窓、ケイザー窓、ブラックマン窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部303に供給され、劣化信号振幅スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトルarg Yn(k)は逆変換部203に、劣化信号振幅スペクトル|Yn(k)|は雑音推定部206に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルが利用されても良い。
 《逆変換部の構成》
 図4は、逆変換部203の構成を示すブロック図である。図4に示すように、逆変換部203は逆フーリエ変換部401、窓がけ処理部402、及び、フレーム合成部403を含む。逆フーリエ変換部401は、雑音抑圧部205から供給された強調信号振幅スペクトル240と変換部202から供給された劣化信号位相スペクトル230とを乗算して、強調信号(以下の式の左辺)を求める。
Figure JPOXMLDOC01-appb-M000006
 逆フーリエ変換部401は、得られた強調信号に逆フーリエ変換を施し、1フレームがKサンプルを含む時間領域サンプル値系列xn(t)(t=0,1,...,K−1)として、窓がけ処理部402に供給する。窓がけ処理部402は、xn(t)と窓関数w(t)との乗算を行なう。第nフレームの入力信号xn(t)(t=0,1,...,K/2−1)に対してw(t)で窓がけされた信号は、次式の左辺で与えられる。
Figure JPOXMLDOC01-appb-M000007
 また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけすることも広く行なわれている。フレーム長の50%をオーバラップ長として仮定すれば、t=0,1,...,K/2−1に対して、以下の式の左辺が、窓がけ処理部402の出力となり、フレーム合成部403に伝達される。
Figure JPOXMLDOC01-appb-M000008
 フレーム合成部403は、窓がけ処理部402からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式によって、t=0,1,...,K−1における出力信号(以下の式の左辺)を得る。得られた出力信号は、フレーム合成部403から出力端子204に伝達される。
Figure JPOXMLDOC01-appb-M000009
 なお、図3と図4において変換部202と逆変換部203における変換をフーリエ変換として説明したが、フーリエ変換に代えて、コサイン変換、修正コサイン変換、アダマール変換、ハール変換、ウェーブレット変換など、他の変換が用いられても良い。たとえば、コサイン変換や修正コサイン変換は、変換結果として振幅だけしか得られない。このため、図2における変換部202から逆変換部203に至る経路は不要になる。変換部202、逆変換部203がハール変換を用いた場合は、乗算が不要となり、LSI化したときの面積を小さくすることができる。変換部202、逆変換部203がウェーブレット変換を用いた場合は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
 《雑音推定部の構成》
 図5は、図2の雑音推定部206の構成を示すブロック図である。雑音推定部206は、推定雑音計算部501、重み付き劣化音声計算部502、及びカウンタ503から構成される。雑音推定部206に供給された劣化音声パワースペクトルは、推定雑音計算部501、及び重み付き劣化音声計算部502に伝達される。重み付き劣化音声計算部502は、供給された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて重み付き劣化音声パワースペクトルを計算し、推定雑音計算部501に伝達する。推定雑音計算部501は、劣化音声パワースペクトル、重み付き劣化音声パワースペクトル、及びカウンタ503から供給されるカウント値を用いて雑音のパワースペクトルを推定し、推定雑音パワースペクトルとして出力すると同時に、重み付き劣化音声計算部502に帰還する。
 図6は、図5に含まれる推定雑音計算部501の構成を示すブロック図である。推定雑音計算部501は、更新判定部601、レジスタ長記憶部602、推定雑音記憶部603、スイッチ604、シフトレジスタ605、加算器606、最小値選択部607、除算部608、カウンタ609を有する。スイッチ604には、重み付き劣化音声パワースペクトルが供給されている。スイッチ604が回路を閉じたときに、重み付き劣化音声パワースペクトルは、シフトレジスタ605に伝達される。シフトレジスタ605は、更新判定部601から供給される制御信号に応じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述するレジスタ長記憶部602に記憶されている値に等しい。シフトレジスタ605の全レジスタ出力は、加算器606に供給される。加算器606は、供給された全レジスタ出力を加算して、加算結果を除算部608に伝達する。
 一方、更新判定部601には、カウント値、周波数別劣化音声パワースペクトル及び周波数別推定雑音パワースペクトルが供給されている。更新判定部601は、カウント値が予め設定された値に到達するまでは常に″1″を、カウント値が予め設定された値に到達した後は、入力された劣化音声信号が雑音であると判定されたときに″1″を、それ以外のときに″0″を出力し、カウンタ609、スイッチ604、及びシフトレジスタ605に伝達する。スイッチ604は、更新判定部から供給された信号が″1″のときに回路を閉じ、″0″のときに開く。カウンタ609は、更新判定部601から供給された信号が″1″のときにカウント値を増加し、″0″のときには変更しない。シフトレジスタ605は、更新判定部601から供給された信号が″1″のときにスイッチ604から供給される信号サンプルを1サンプル取り込むと同時に、内部レジスタの記憶値を隣接レジスタにシフトする。最小値選択部607には、カウンタ609の出力とレジスタ長記憶部602の出力が供給されている。
 最小値選択部607は、供給されたカウント値とレジスタ長のうち、小さい方を選択して、除算部608に伝達する。除算部608は、加算器606から供給された劣化音声パワースペクトルの加算値を、カウント値又はレジスタ長の小さい方の値で除算し、商を周波数別推定雑音パワースペクトルλn(k)として出力する。Bn(k)(n=0,1,...,N−1)をシフトレジスタ605に保存されている劣化音声パワースペクトルのサンプル値とすると、λn(k)は、以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000010
 ただし、Nはカウント値とレジスタ長のうち、小さい方の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で除算が行なわれ、後にはレジスタ長で除算が行なわれる。レジスタ長で除算が行なわれることは、シフトレジスタに格納された値の平均値を求めることになる。最初は、シフトレジスタ605に十分多くの値が記憶されていないために、実際に値が記憶されているレジスタの数で除算が行なわれる。実際に値が記憶されているレジスタの数は、カウント値がレジスタ長より小さいときはカウント値に等しく、カウント値がレジスタ長より大きくなると、レジスタ長と等しくなる。
 図7は、図6に含まれる更新判定部601の構成を示すブロック図である。更新判定部601は、論理和計算部701、比較部702、704、閾値記憶部705、703、閾値計算部706を有する。図5のカウンタ503から供給されるカウント値は、比較部702に伝達される。閾値記憶部703の出力である閾値も、比較部702に伝達される。比較部702は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに″1″を、カウント値が閾値より大きいときに″0″を、論理和計算部701に伝達する。一方、閾値計算部706は、図6の推定雑音記憶部603から供給される推定雑音パワースペクトルに応じた値を計算し、閾値として閾値記憶部705に出力する。最も簡単な閾値の計算方法は、推定雑音パワースペクトルを定数倍することである。
 その他に、閾値計算部706は、高次多項式や非線形関数を用いて閾値を計算することも可能である。閾値記憶部705は、閾値計算部706から出力された閾値を記憶し、1フレーム前に記憶された閾値を比較部704へ出力する。比較部704は、閾値記憶部705から供給される閾値と変換部202から供給される劣化音声パワースペクトルを比較し、劣化音声パワースペクトルが閾値よりも小さければ″1″を、大きければ″0″を論理和計算部701に出力する。すなわち、比較部704は、推定雑音パワースペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。論理和計算部701は、比較部702の出力値と比較部704の出力値との論理和を計算し、計算結果を図6のスイッチ604、シフトレジスタ605及びカウンタ609に出力する。このように、初期状態や無音区間だけでなく、有音区間でも劣化音声パワーが小さい場合には、更新判定部601は″1″を出力する。すなわち、推定雑音の更新が行われる。閾値の計算は各周波数ごとに行われるため、各周波数ごとに推定雑音の更新を行うことができる。
 図8は、重み付き劣化音声計算部502の構成を示すブロック図である。重み付き劣化音声計算部502は、推定雑音記憶部801、周波数別SNR計算部802、非線形処理部804、及び乗算器803を有する。推定雑音記憶部801は、図5の推定雑音計算部501から供給される推定雑音パワースペクトルを記憶し、1フレーム前に記憶された推定雑音パワースペクトルを周波数別SNR計算部802へ出力する。周波数別SNR計算部802は、推定雑音記憶部801から供給される推定雑音パワースペクトルと変換部202から供給される劣化音声パワースペクトルを用いてSNR(Signal−to−Noise Ratio)を周波数帯域ごとに求め、非線形処理部804に出力する。具体的には、周波数別SNR計算部802は、次式にしたがって、供給された劣化音声パワースペクトルを推定雑音パワースペクトルで除算して周波数別SNRγn(k)ハットを求める。ここに、λn−1(k)は1フレーム前に記憶された推定雑音パワースペクトルである。
Figure JPOXMLDOC01-appb-M000011
 非線形処理部804は、周波数別SNR計算部802から供給されるSNRを用いて重み係数ベクトルを計算し、重み係数ベクトルを乗算器803に出力する。乗算器803は、変換部202から供給される劣化音声パワースペクトルと、非線形処理部804から供給される重み係数ベクトルの積を周波数帯域ごとに計算し、重み付き劣化音声パワースペクトルを図5の推定雑音計算部501に出力する。
 非線形処理部804は、多重化された入力値それぞれに応じた実数値を出力する、非線形関数を有する。図9に、非線形関数の例を示す。f1を入力値としたとき、図9に示される非線形関数の出力値f2は、以下の式で表わされる。ただし、aとbは任意の実数である。
Figure JPOXMLDOC01-appb-M000012
 非線形処理部804は、周波数別SNR計算部802から供給される周波数帯域別SNRを、非線形関数によって処理して重み係数を求め、乗算器803に伝達する。すなわち、非線形処理部804はSNRに応じた1から0までの重み係数を出力する。非線形処理部804はSNRが小さい時は1を、大きい時は0を出力する。
 図8の乗算器803で劣化音声パワースペクトルと乗算される重み係数は、SNRに応じた値になっており、SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースペクトルが用いられる。しかし、本実施の形態では、推定雑音の更新に用いられる劣化音声パワースペクトルに対して、乗算器803がSNRに応じた重みづけを行う。これにより、雑音抑圧装置200は、劣化音声パワースペクトルに含まれる音声成分の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。なお、重み係数の計算に乗算器803が非線形関数を用いた例を示したが、乗算器803は非線形関数以外にも線形関数や高次多項式など、他の形で表されるSNRの関数を用いることも可能である。
 以上のように本実施形態の構成によれば、出力信号が背景音よりも小さくならず、不連続性を知覚することのない高品質な信号処理を達成できる。
 (第3実施形態)
 図10は、本発明の第3実施形態としての雑音抑圧装置1000の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置1000は、第2実施形態と異なり、背景音推定部1007に雑音抑圧部205の出力がフィードバックされている。
 背景音推定部1007は、所望信号の有無に応じて背景音の推定の要否を判定する。つまり、所望信号がないときのみ背景音情報を更新する。これ以外の背景音推定部1007の動作は、第2実施形態の背景音推定で説明した通りであるので、詳細を省略する。
 以上により、第2実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第4実施形態)
 図11は、本発明の第4実施形態としての雑音抑圧装置1100の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置1100は、第2実施形態と異なり、雑音記憶部1106から読出された雑音情報を用いて雑音補正部208での補正が行なわれる。他の構成及び動作は、第2実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 雑音記憶部1106は、半導体メモリなどの記憶素子を含み、雑音情報(雑音の特性に関する情報)を記憶している。雑音記憶部1106は、雑音情報として、雑音のスペクトルの形を記憶している。雑音記憶部1106は、スペクトルに加えて、位相の周波数特性、特定の周波数における強弱や時間変化などの特徴量などを記憶しても良い。雑音情報は、その他、統計量(最大、最小、分散、メジアン)などでも良い。スペクトルが1024の周波数成分で表わされている場合、雑音記憶部1106には、1024の振幅(又はパワー)データが記憶されている。雑音記憶部1106に記録された雑音情報250は、雑音補正部208に供給される。
 雑音補正部208は、周波数成分ごとに、α(=入力−背景音)と、X2(=記憶雑音)のいずれか小さい方を選択して雑音抑圧部205に出力する。
 本実施形態によっても、第2実施形態と同様に、出力信号が背景音よりも小さくならず、不連続性を知覚することのない高品質な信号処理を行なうことができる。
 (第5実施形態)
 図12は、本発明の第5実施形態としての雑音抑圧装置1200の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置1200は、第4実施形態と異なり、背景音推定部1007に雑音抑圧部205の出力がフィードバックされている。他の構成及び動作は、第4実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 背景音推定部1007は、所望信号がないときのみ背景音情報を更新する。これ以外の背景音推定部1007の動作は、第2実施形態の背景音推定で説明した通りであるので、詳細を省略する。
 雑音補正部208は、周波数成分ごとに、α(=入力−背景音)と、X2(=記憶雑音)のいずれか小さい方を選択して雑音抑圧部205に出力する。
 以上により、第4実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第6実施形態)
 図13は、本発明の第6実施形態としての雑音抑圧装置1300の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置1300は、第4実施形態と異なり、雑音記憶部1106からの出力に対して雑音修正部1301で修正を加えた上で雑音補正部208に供給している。他の構成及び動作は、第4実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 雑音修正部1301は、雑音抑圧部205から供給された強調信号振幅スペクトル240を受けとり、雑音抑圧結果のフィードバックに応じて雑音を修正する。具体的には、雑音抑圧結果がゼロとなるように、雑音修正情報を更新する。雑音補正部208は、周波数成分ごとに、α(=入力−背景音)と、X3(=修正雑音)のいずれか小さい方を選択して雑音抑圧部205に出力する。
 本実施形態によっても、第4実施形態と同様に、出力信号が背景音よりも小さくならず、不連続性を知覚することのない高品質な信号処理を行なうことができ、さらに、抑圧結果に応じて雑音を修正することで、より精度の高い雑音抑圧を実行できる。
 なお、本実施形態において、背景音推定部207に雑音抑圧部205の出力がフィードバックされてもよい(点線矢印)。その場合、背景音推定部207は、所望信号がないときのみ背景音情報を更新する。背景音推定部207は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。さらに背景音推定部207は、周りがうるさいときに背景音を推定しない。背景音推定部207は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。振幅が、推定背景音に近いときのみ新たな推定を行なう。そうすれば、上記効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第7実施形態)
 図14は、本発明の第7実施形態としての雑音抑圧装置1400の概略構成を示すブロック図である。図2と図14を見比べると、本実施形態に係る雑音抑圧装置1400は、第2実施形態と異なり、雑音情報と劣化信号とを用いて抑圧係数を生成する抑圧係数生成部1410を備えている。また、本実施形態に係る雑音抑圧装置1400は、乗算を行なう雑音抑圧部1405を備えている。その他の構成及び動作は、第2実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 《抑圧係数生成部の構成》
 図15は、図14に含まれる抑圧係数生成部1410の構成を示すブロック図である。図15に示すように、抑圧係数生成部1410は、後天的SNR計算部1501と推定先天的SNR計算部1502と雑音抑圧係数計算部1503と、音声非存在確率記憶部1504とを備えている。
 後天的SNR計算部1501は、入力された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて周波数別に後天的SNRを計算し、推定先天的SNR計算部1502と雑音抑圧係数計算部1503に供給する。推定先天的SNR計算部1502は、入力された後天的SNR、及び雑音抑圧係数計算部1503から帰還された抑圧係数を用いて先天的SNRを推定し、推定先天的SNRとして、雑音抑圧係数計算部1503に伝達する。雑音抑圧係数計算部1503は、入力として供給された後天的SNR、推定先天的SNR及び音声非存在確率記憶部1504から供給される音声非存在確率を用いて雑音抑圧係数を生成し、抑圧係数Gn(k)バーとして出力する。
 図16は、図15に含まれる推定先天的SNR計算部1502の構成を示すブロック図である。推定先天的SNR計算部1502は、値域限定処理部1601、後天的SNR記憶部1602、抑圧係数記憶部1603、乗算器1604、1605、重み記憶部1606、重み付き加算部1607、加算器1608を有する。後天的SNR計算部1501から供給される後天的SNRγn(k)(k=0,1,...,M−1)は、後天的SNR記憶部1602と加算器1608とに伝達される。後天的SNR記憶部1602は、第nフレームにおける後天的SNRγn(k)を記憶すると共に、第n−1フレームにおける後天的SNRγn−1(k)を乗算器1605に伝達する。
 抑圧係数記憶部1603は、第nフレームにおける抑圧係数Gn(k)バーを記憶すると共に、第n−1フレームにおける抑圧係数Gn−1(k)バーを乗算器1604に伝達する。乗算器1604は、供給されたGn(k)バーを2乗してGn−12(k)バーを求め、乗算器1605に伝達する。乗算器1605は、Gn−12(k)バーとγn−1(k)とをk=0,1,...,M−1に対して乗算して、Gn−12(k)バーγn−1(k)を求め、結果を重み付き加算部1607に過去の推定SNRとして伝達する。
 加算器1608の他方の端子には−1が供給されており、加算結果γn(k)−1が値域限定処理部1601に伝達される。値域限定処理部1601は、加算器1608から供給された加算結果γn(k)−1に値域限定演算子P[・]による演算を施し、結果であるP[γn(k)−1]を重み付き加算部1607に瞬時推定SNRとして伝達する。ただし、P[x]は次式で定められる。
Figure JPOXMLDOC01-appb-M000013
 重み付き加算部1607には、また、重み記憶部1606から重みが供給されている。重み付き加算部1607は、これらの供給された瞬時推定SNR、過去の推定SNR、重みを用いて推定先天的SNRを求める。重みをαとし、ξn(k)ハットを推定先天的SNRとすると、ξn(k)ハットは、次式によって計算される。ここに、Gn−12(k)γ−1(k)バー=1とする。
Figure JPOXMLDOC01-appb-M000014
 図17は、図16に含まれる重み付き加算部1607の構成を示すブロック図である。重み付き加算部1607は、乗算器1701、1703、定数乗算器1705、加算器1702、1704を有する。図16の値域限定処理部1601から周波数帯域別瞬時推定SNRが、図16の乗算器1605から過去の周波数帯域別SNRが、図16の重み記憶部1606から重みが、それぞれ入力として供給される。値αを有する重みは、定数乗算器1705と乗算器1703に伝達される。定数乗算器1705は入力信号を−1倍して得られた−αを、加算器1704に伝達する。加算器1704のもう一方の入力としては1が供給されており、加算器1704の出力は両者の和である1−αとなる。1−αは乗算器1701に供給されて、もう一方の入力である周波数帯域別瞬時推定SNRP[γn(k)−1]と乗算され、積である(1−α)P[γn(k)−1]が加算器1702に伝達される。一方、乗算器1703では、重みとして供給されたαと過去の推定SNRが乗算され、積であるαGn−12(k)バーγn−1(k)が加算器1702に伝達される。加算器1702は、(1−α)P[γn(k)−1]とαGn−12(k)バーγn−1(k)の和を、周波数帯域別推定先天的SNRとして、出力する。
 図18は、図15に含まれる雑音抑圧係数計算部1503を示すブロック図である。雑音抑圧係数計算部1503は、MMSE STSAゲイン関数値計算部1801、一般化尤度比計算部1802、及び抑圧係数計算部1803を有する。以下、IEEE TRANSACTIONS ON ACOUSTICS,SPEECH,AND SIGNAL PROCESSING,VOL.32,NO.6,PP.1109−1121,DEC,1984、1109~1121ページに記載されている計算式をもとに、抑圧係数の計算方法を説明する。
 フレーム番号をn、周波数番号をkとし、γn(k)を後天的SNR計算部1501から供給される周波数別後天的SNR、ξn(k)ハットを推定先天的SNR計算部1502から供給される周波数別推定先天的SNR、qを音声非存在確率記憶部1504から供給される音声非存在確率とする。
 また、ηn(k)=ξn(k)ハット/(1−q)、vn(k)=(ηn(k)γn(k))/(1+ηn(k))とする。
 MMSE STSAゲイン関数値計算部1801は、後天的SNR計算部1501から供給される後天的SNRγn(k)、推定先天的SNR計算部1502から供給される推定先天的SNRξn(k)ハット、及び、音声非存在確率記憶部1504から供給される音声非存在確率qをもとに、周波数帯域ごとにMMSE STSAゲイン関数値を計算し、抑圧係数計算部1803に出力する。周波数帯域毎のMMSE STSAゲイン関数値Gn(k)は、以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000015
 ここに、I0(z)は0次変形ベッセル関数、I1(z)は1次変形ベッセル関数である。変形ベッセル関数については、1985年、数学辞典、岩波書店、374.Gページに記載されている。
 一般化尤度比計算部1802は、後天的SNR計算部1501から供給される後天的SNRγn(k)、推定先天的SNR計算部1502から供給される推定先天的SNRξn(k)ハット、及び、音声非存在確率記憶部1504から供給される音声非存在確率qをもとに、周波数帯域ごとに一般化尤度比を計算し、抑圧係数計算部1803に伝達する。周波数帯域毎の一般化尤度比Λn(k)は、以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000016
 抑圧係数計算部1803は、MMSE STSAゲイン関数値計算部1801から供給されるMMSE STSAゲイン関数値Gn(k)と、一般化尤度比計算部1802から供給される一般化尤度比Λn(k)から、周波数帯域ごとに抑圧係数を計算する。周波数帯域毎の抑圧係数Gn(k)バーは、以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000017
 抑圧係数計算部1803は、周波数帯域別にSNRを計算する代わりに、複数の周波数帯域から構成される広い帯域に共通なSNRを求めて、これを用いることも可能である。
 以上の構成により、雑音抑圧装置1400は、抑圧係数を用いた雑音抑圧においても、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質の信号処理が可能となる。つまり、本実施形態によっても、第2実施形態と同様に、出力信号が背景音よりも小さくならず、不連続性を知覚することのない高品質な信号処理を行なうことができ、さらに、より精度の高い雑音抑圧を実行できる。
 (第8実施形態)
 図19は、本発明の第8実施形態としての雑音抑圧装置1900の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置1900は、第7実施形態(図14)と異なり、背景音推定部1007に雑音抑圧部1405の出力がフィードバックされている。
 背景音推定部1007は、所望信号がないときのみ背景音情報を更新する。背景音推定部1007は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。背景音推定部1007は、さらに周りがうるさいときに背景音を推定しない。背景音推定部1007は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。背景音推定部1007は、振幅が、推定背景音に近いときのみ新たな推定を行なう。
 以上により、第7実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第9実施形態)
 図20は、本発明の第9実施形態としての雑音抑圧装置2000の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2000は、第7実施形態(図14)と異なり、雑音補正部208を有さず、その代わりに、抑圧係数生成部1410から供給された抑圧係数を背景音に応じて補正する抑圧係数補正部2001を備えている。また、背景音推定部2007は、劣化信号振幅を変換部202から受けて、背景音を推定する。背景音推定部2007は、さらに、得られた背景音推定値と入力の比βを計算して、抑圧係数補正部2001に供給する。その他の構成及び動作は、第5実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 抑圧係数補正部2001は、抑圧係数生成部1410で生成された抑圧係数を入力信号(周波数)の重要度別に補正する。
 これにより、抑圧係数補正部2001は、背景音があると推定される周波数成分信号については、抑圧係数を小さくして、雑音抑圧部1405における信号の抑圧を抑制する。
 以上の構成により、抑圧係数を用いた雑音抑圧においても、同様に所望信号と雑音の比に応じて抑圧係数が小さくなるように制御するので、高品質の信号処理が可能となる。つまり、本実施形態によっても、第2実施形態と同様に、出力信号が背景音よりも小さくならず、不連続性を知覚することのない高品質な信号処理を行なうことができ、さらに、より精度の高い雑音抑圧を実行できる。
 (第10実施形態)
 図21は、本発明の第10実施形態としての雑音抑圧装置2100の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2100は、第9実施形態(図20)の構成に加えて、背景音推定部2107に雑音抑圧部1405の出力がフィードバックされている。
 背景音推定部2107は、所望信号がないときのみ背景音情報を更新する。背景音推定部2107は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。背景音推定部2107は、さらに周りがうるさいときに背景音を推定しない。背景音推定部2107は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。背景音推定部2107は、振幅が、推定背景音に近いときのみ新たな推定を行なう。
 以上により、第9実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第11実施形態)
 図22は、本発明の第11実施形態としての雑音抑圧装置2200の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2200は、第7実施形態(図14)と比較すると、雑音推定部206を持たず、雑音記憶部1106から読出された雑音情報を用いて雑音補正部208での補正が行なわれる。他の構成及び動作は、第2実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。雑音補正部208は、周波数成分ごとに、α(=入力−背景音)と、X2(=記憶雑音)のいずれか小さい方を選択して抑圧係数生成部1410に出力する。
 本実施形態によっても、第7実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができる。
 (第12実施形態)
 図23は、本発明の第12実施形態としての雑音抑圧装置2300の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2300は、第11実施形態(図22)の構成に加えて、背景音推定部1007に雑音抑圧部1405の出力をフィードバックしている。
 背景音推定部1007は、所望信号がないときのみ背景音情報を更新する。背景音推定部1007は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。背景音推定部1007は、さらに周りがうるさいときに背景音を推定しない。背景音推定部1007は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。背景音推定部1007は、振幅が、推定背景音に近いときのみ新たな推定を行なう。
 以上により、第11実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第13実施形態)
 図24は、本発明の第13実施形態としての雑音抑圧装置2400の概略構成を示すブロック図である。図20と図24とを見比べると、本実施形態に係る雑音抑圧装置2400は、第9実施形態(図20)の雑音推定部206を持たず、雑音記憶部1106から読出された雑音情報を用いて抑圧係数生成部1410が抑圧係数の生成を行なう。他の構成及び動作は、第9実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 本実施形態によっても、第9実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができる。
 (第14実施形態)
 図25は、本発明の第14実施形態としての雑音抑圧装置2500の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2500は、第13実施形態(図24)の構成に加えて、背景音推定部2107に雑音抑圧部1405の出力をフィードバックしている。
 背景音推定部2107は、所望信号がないときのみ背景音情報を更新する。背景音推定部2107は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。背景音推定部2107は、さらに周りがうるさいときに背景音を推定しない。背景音推定部2107は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。背景音推定部2107は、振幅が、推定背景音に近いときのみ新たな推定を行なう。
 以上により、第13実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第15実施形態)
 図26は、本発明の第15実施形態としての雑音抑圧装置2600の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2600は、第14実施形態(図25)の構成を有し、さらに、抑圧係数生成部2610に対して、抑圧係数補正部2001での補正後の抑圧係数をフィードバックしている。抑圧係数生成部2610は、フィードバックされた抑圧係数を用いて次の抑圧係数を生成する。これにより抑圧係数の精度が上がり音質の向上につながる。
 その他の構成及び動作は、第14実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 本実施形態によっても、第14実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができ、さらに、より精度の高い雑音抑圧を実行できる。
 (第16実施形態)
 図27は、本発明の第16実施形態としての雑音抑圧装置2700の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2700は、第15実施形態(図26)の構成に加えて、背景音推定部2107に雑音抑圧部1405の出力をフィードバックしたものである。
 背景音推定部2107は、所望信号がないときのみ背景音情報を更新する。背景音推定部2107は、周波数成分ごとに、所望信号が強い場合には、背景音の更新を行なわない。背景音推定部2107は、さらに周りがうるさいときに背景音を推定しない。背景音推定部2107は、一度背景音を推定したら、それに近い(所定倍以内又は所定値差以内の)振幅の時に新たな背景音推定を行なう。背景音推定部2107は、振幅が、推定背景音に近いときのみ新たな推定を行なう。
 以上により、第15実施形態の効果に加えて、効率的かつ的確に背景音を推定することができる。
 (第17実施形態)
 図28は、本発明の第17実施形態としての雑音抑圧装置2800の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2800は、第11実施形態(図22)の構成に雑音修正部1301を追加したものである。雑音抑圧装置2800は、雑音記憶部1106からの出力に対して雑音修正部1301で修正を加え、修正された雑音情報を雑音補正部208に供給している。雑音修正部1301は、雑音抑圧部1405からの出力240を受けとり、雑音抑圧結果のフィードバックに応じて雑音を修正する。
 その他の構成及び動作は、第11実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 本実施形態によっても、第11実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができ、さらに、抑圧結果に応じて雑音を修正することで、より精度の高い雑音抑圧を実行できる。
 (第18実施形態)
 図29は、本発明の第18実施形態としての雑音抑圧装置2900の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置2900は、第13実施形態(図24)の構成に雑音修正部1301を追加したものである。雑音抑圧装置2900は、雑音記憶部1106からの出力に対して雑音修正部1301で修正を加え、修正された雑音情報を抑圧係数生成部1410に供給している。雑音修正部1301は、雑音抑圧部1405からの出力240を受けとり、雑音抑圧結果のフィードバックに応じて雑音を修正する。
 その他の構成及び動作は、第13実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 本実施形態によっても、第13実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができ、さらに、抑圧結果に応じて雑音を修正することで、より精度の高い雑音抑圧を実行できる。
 (第19実施形態)
 図30は、本発明の第19実施形態としての雑音抑圧装置3000の概略構成を示すブロック図である。本実施形態に係る雑音抑圧装置3000は、第18実施形態(図29)の構成を有し、さらに、抑圧係数生成部2610に対して、抑圧係数補正部2001での補正後の抑圧係数をフィードバックしている。抑圧係数生成部2610は、フィードバックされた抑圧係数を用いて次の抑圧係数を生成する。これにより抑圧係数の精度が上がり音質の向上につながる。
 その他の構成及び動作は、第18実施形態と同様であるため、同じ構成については同じ符号を付して、詳細な説明を省略する。
 本実施形態によっても、第18実施形態と同様に、所望信号と雑音の比に応じて雑音が小さくなるように制御するので、高品質な信号処理を行なうことができ、さらに、抑圧係数のフィードバック制御により、より精度の高い雑音抑圧を実行できる。
 (他の実施形態)
 以上説明してきた第1乃至第19実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用しても良いし、単体の装置に適用しても良い。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
 図31は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ3100の構成図である。コンピュータ3100は、入力部3101と、CPU3102と、メモリ3103と、出力部3104とを含む。
 CPU3102は、信号処理プログラムを読み込むことにより、コンピュータ3100の動作を制御する。すなわち、CPU3102は、メモリ3103に格納された信号処理プログラムを実行し、第1信号と第2信号とが混在した混在信号を入力する(S3111)。次にCPU3102は、混在信号に含まれる背景音信号を推定する(S3112)。さらに続けて、CPU3102は、抑圧結果が背景音以下にならないように抑制しつつ、第2信号を抑圧する(S3113)。これにより、第1実施形態と同様の効果を得ることができる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
 この出願は、2010年11月25日に出願された日本出願特願2010−263022を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (9)

  1.  第1信号と第2信号とが混在した混在信号を処理して前記第2信号を抑圧する抑圧手段と、
     前記混在信号から背景音信号を推定する背景音推定手段と、
     前記抑圧手段による出力が、推定された前記背景音信号よりも小さくならないように前記第2信号の抑圧を抑制する抑制手段と、
     を備える信号処理装置。
  2.  前記混在信号に混在すると推定される推定第2信号を提供する推定手段を備え、
     前記抑制手段は、前記推定手段によって提供される前記推定第2信号に対して、前記背景音に応じた補正を加えて補正値を出力し、
     前記抑圧手段は、前記混在信号から前記補正値を減算することで前記第2信号の抑圧を抑制する請求項1に記載の信号処理装置。
  3.  前記混在信号に混在すると推定される推定第2信号を記憶する記憶手段を備え、
     前記抑圧手段は、前記記憶手段によって提供される前記推定第2信号に対して、前記背景音に応じた補正を加えて補正値を出力し、
     前記抑圧手段は、前記混在信号から前記補正値を減算することで前記第2信号の抑圧を抑制する請求項1に記載の信号処理装置。
  4.  前記抑圧手段による前記抑圧結果に応じて、前記記憶手段から読出した前記推定第2信号を修正する修正手段をさらに備え、
     前記抑圧手段は、修正された前記推定第2信号に対して前記補正を加える請求項3に記載の信号処理装置。
  5.  前記推定第2信号に基づいて抑圧係数を生成する抑圧係数生成手段をさらに備え、
     前記抑圧手段は、生成された前記抑圧係数を前記混在信号に乗算することによって前記混在信号中の前記第2信号を抑圧する請求項2乃至4のいずれか1項に記載の信号処理装置。
  6.  前記推定第2信号に基づいて抑圧係数を生成する抑圧係数生成手段と、
     前記背景音に応じて前記抑圧係数を補正する抑圧係数補正手段と、
     をさらに備え、
     前記抑圧手段は、前記抑圧係数補正手段により補正された前記抑圧係数を前記混在信号に乗算することによって前記混在信号中の前記第2信号を抑圧する手段である請求項2乃至4のいずれか1項に記載の信号処理装置。
  7.  前記背景音推定手段は、
     前記抑圧手段による抑圧結果が所定条件を満たす場合には前記背景音の推定を行わない請求項1乃至6のいずれか1項に記載の信号処理装置。
  8.  第1信号と第2信号とが混在した混在信号を入力し、
     前記混在信号に含まれる背景音信号を推定し、
     出力結果が推定された前記背景音信号より小さくならないように抑制しつつ前記第2信号の抑圧を行なう信号処理方法。
  9.  第1信号と第2信号とが混在した混在信号を入力する入力ステップと、
     前記混在信号に含まれる背景音信号を推定する背景音推定ステップと、
     出力結果が推定された前記背景音信号より小さくならないように抑制しつつ前記第2信号の抑圧を行なう抑圧ステップと、
     をコンピュータに実行させる信号処理プログラム。
PCT/JP2011/077285 2010-11-25 2011-11-21 信号処理装置、信号処理方法、及び信号処理プログラム WO2012070670A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011800568616A CN103238180A (zh) 2010-11-25 2011-11-21 信号处理设备、信号处理方法及信号处理程序
JP2012545814A JPWO2012070670A1 (ja) 2010-11-25 2011-11-21 信号処理装置、信号処理方法、及び信号処理プログラム
US13/989,689 US20130246060A1 (en) 2010-11-25 2011-11-21 Signal processing device, signal processing method and signal processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-263022 2010-11-25
JP2010263022 2010-11-25

Publications (1)

Publication Number Publication Date
WO2012070670A1 true WO2012070670A1 (ja) 2012-05-31

Family

ID=46146005

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/077285 WO2012070670A1 (ja) 2010-11-25 2011-11-21 信号処理装置、信号処理方法、及び信号処理プログラム

Country Status (4)

Country Link
US (1) US20130246060A1 (ja)
JP (1) JPWO2012070670A1 (ja)
CN (1) CN103238180A (ja)
WO (1) WO2012070670A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9666206B2 (en) * 2011-08-24 2017-05-30 Texas Instruments Incorporated Method, system and computer program product for attenuating noise in multiple time frames
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
JP6565500B2 (ja) * 2015-08-31 2019-08-28 富士通株式会社 発話状態判定装置、発話状態判定方法、及び判定プログラム
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193548A (ja) * 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
JPH09269799A (ja) * 1996-03-29 1997-10-14 Toshiba Corp 雑音抑圧処理機能を備えた音声符号化回路
JP2000099096A (ja) * 1998-09-18 2000-04-07 Toshiba Corp 音声信号の成分分離方法及びこれを用いた音声符号化方法
JP2002198918A (ja) * 2000-10-24 2002-07-12 Alcatel 適応雑音レベル推定器
JP2004289614A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 音声強調装置
WO2005046076A1 (ja) * 2003-11-11 2005-05-19 Mitsubishi Denki Kabushiki Kaisha エコー抑圧装置
JP2009069503A (ja) * 2007-09-13 2009-04-02 Fujitsu Ltd 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
WO2009087923A1 (ja) * 2008-01-11 2009-07-16 Nec Corporation 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3396393B2 (ja) * 1997-04-30 2003-04-14 沖電気工業株式会社 エコー・雑音成分除去装置
WO2007049644A1 (ja) * 2005-10-26 2007-05-03 Nec Corporation エコー抑圧方法及び装置
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
JP5413575B2 (ja) * 2009-03-03 2014-02-12 日本電気株式会社 雑音抑圧の方法、装置、及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07193548A (ja) * 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
JPH09269799A (ja) * 1996-03-29 1997-10-14 Toshiba Corp 雑音抑圧処理機能を備えた音声符号化回路
JP2000099096A (ja) * 1998-09-18 2000-04-07 Toshiba Corp 音声信号の成分分離方法及びこれを用いた音声符号化方法
JP2002198918A (ja) * 2000-10-24 2002-07-12 Alcatel 適応雑音レベル推定器
JP2004289614A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 音声強調装置
WO2005046076A1 (ja) * 2003-11-11 2005-05-19 Mitsubishi Denki Kabushiki Kaisha エコー抑圧装置
JP2009069503A (ja) * 2007-09-13 2009-04-02 Fujitsu Ltd 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
WO2009087923A1 (ja) * 2008-01-11 2009-07-16 Nec Corporation 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム

Also Published As

Publication number Publication date
US20130246060A1 (en) 2013-09-19
CN103238180A (zh) 2013-08-07
JPWO2012070670A1 (ja) 2014-05-19

Similar Documents

Publication Publication Date Title
KR101052445B1 (ko) 잡음 억압을 위한 방법과 장치, 및 컴퓨터 프로그램
WO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
KR100927897B1 (ko) 잡음억제방법과 장치, 및 컴퓨터프로그램
JP5435204B2 (ja) 雑音抑圧の方法、装置、及びプログラム
WO2011055830A1 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JP6064600B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP5788873B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JP2008216721A (ja) 雑音抑圧の方法、装置、及びプログラム
JP6070953B2 (ja) 信号処理装置、信号処理方法、及び記憶媒体
JP5413575B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP6011536B2 (ja) 信号処理装置、信号処理方法、およびコンピュータ・プログラム
JP2011100031A (ja) 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム
JP5787126B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JP6182862B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
WO2011055829A1 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
WO2013021960A1 (ja) 信号処理装置、信号処理方法、および信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843993

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012545814

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13989689

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843993

Country of ref document: EP

Kind code of ref document: A1