WO2007058121A1 - 残響抑圧の方法、装置及び残響抑圧用プログラム - Google Patents

残響抑圧の方法、装置及び残響抑圧用プログラム Download PDF

Info

Publication number
WO2007058121A1
WO2007058121A1 PCT/JP2006/322444 JP2006322444W WO2007058121A1 WO 2007058121 A1 WO2007058121 A1 WO 2007058121A1 JP 2006322444 W JP2006322444 W JP 2006322444W WO 2007058121 A1 WO2007058121 A1 WO 2007058121A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
coefficient
reverberation
suppression
Prior art date
Application number
PCT/JP2006/322444
Other languages
English (en)
French (fr)
Inventor
Akihiko Sugiyama
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2007545219A priority Critical patent/JP4973873B2/ja
Priority to US12/084,968 priority patent/US8073147B2/en
Publication of WO2007058121A1 publication Critical patent/WO2007058121A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the present invention relates to a reverberation suppression method, apparatus, and reverberation suppression program for suppressing reverberation superimposed on a desired signal.
  • a reverberation suppression system is a system that suppresses reverberation superimposed on a desired audio signal.
  • Reverberation is generated by convolution of the original signal and the impulse response from the signal source to the observation point. Therefore, in general, reverberation suppression is achieved by convolving the inverse characteristic of the impulse response with a signal with reverberation superimposed.
  • the impulse response or its inverse characteristic is unknown, it is a problem how to obtain it.
  • One method for performing reverberation suppression by obtaining the inverse characteristic of the impulse response and convolving it with a signal including reverberation is disclosed in Non-Patent Document 1.
  • the obtained linear prediction error is transmitted to the inverse filter 4, and after the convolution result with the filter coefficient is obtained, the result is supplied to the coefficient update unit 5.
  • the coefficient update unit 5 obtains a coefficient update component that maximizes the kurtosis of the output of the inverse filter 4 using an LMS algorithm or the like.
  • the coefficient update component is fed back to the inverse filter 4 and is used to update the coefficient. By repeating this coefficient update, the characteristics of the inverse filter 4 finally become equal to the inverse characteristics of the impulse response from the signal source to the observation point.
  • the characteristics of the inverse filter 4 are sequentially copied to the inverse filter 2, and the convolution result with the degraded speech supplied to the input terminal 1 is calculated.
  • This convolution result is the output of the first stage.
  • the inverse filter 4 can be updated using a normalized LMS (NLMS) algorithm, LS algorithm, affine projection algorithm, or the like.
  • the inverse filter 4 and the coefficient updating unit 5 can be configured using a frequency domain algorithm or a subband algorithm as disclosed in Non-Patent Document 3.
  • the frame dividing unit 6 divides the signal supplied from the first-stage inverse filter 2 into frames each having a specific number of samples, and transmits the frame to the windowing processing unit 7.
  • the windowing processing unit 7 multiplies the signal divided into frames by the window function and transmits the result to the Fourier transform unit 8.
  • the window function used in the windowing process has such characteristics that the frame edge is suppressed more than the frame center and the transition to the adjacent frame can be performed smoothly.
  • the windowed signal is decomposed into a plurality of frequency components by the Fourier transform unit 8 and further separated into amplitude and phase.
  • the Fourier transform unit 8 performs Fourier transform on the windowed signal, divides the signal into a plurality of frequency components, squares the amplitude value, obtains power, and supplies the power to the reverberation estimation unit 111.
  • the phase is supplied to the inverse Fourier transform unit 15.
  • the reverberation estimation unit 111 estimates the current reverberation power from the past deteriorated speech power using the Rayleigh distribution function. By subtracting the estimated reverberation power from the power of the windowed signal by the subtractor 141, the late reflection component is removed.
  • the subtraction result is transmitted to the selection unit 121.
  • the power of the windowed signal is also supplied to the constant multiplier 20, multiplied by ⁇ by the constant multiplier 20, and then supplied to the selection unit 121.
  • the selection unit 121 selects the larger one of the output of the subtractor 141 and the output of the constant multiplier 20 and transmits it to the silent gap attenuation unit 19.
  • the silent gap attenuating unit 19 detects a silent section sandwiched between voiced sections and forcibly attenuates the power to a predetermined small value. This operation prevents the silent gap from being trapped in the reverberation.
  • the output of the silent gap attenuating unit 19 is supplied to the inverse Fourier transform unit 15.
  • the inverse Fourier transform unit 15 performs an inverse Fourier transform by combining the square root of the dereverberation suppressed power supplied from the silence gap attenuating unit 19 and the phase of the reverberant speech supplied from the Fourier transform unit 8, and performs a dereverberation suppressed speech signal sample.
  • the frame synthesizing unit 17 synthesizes the output audio sample of the frame using the dereverberation suppressed audio sampler of the adjacent frame and supplies it to the output terminal 18.
  • Non-Patent Document 1 May 2001, “I-I-I-I-I-I”, Procedindas “Ob” Internationale Conference, on-a-Costitus, Speech, and Signanore (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.370 to 3704, MAY, 2001), pages 3701-37
  • Non-Patent Document 2 March 2005, “I-I-I-I-I-I”, Procedindas “Ob” Internationale Conference, On-a-Costitus, Speech, and “Signanore” Processing (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.1085-1088, MAR, 2005), 1085-10 88
  • Non-Patent Document 3 January 1992, “I-I-I-I-I-I” Signal “Processing” Magazine (I
  • the reverberation estimation unit 111 uses the Rayleigh distribution function to reverberate from the past degraded speech power. Estimate power. In other words, the envelope of the impulse response to the signal source observation point is approximated by a Rayleigh distribution function, and the late reflection component is estimated by convolution of this envelope and past degraded speech. However, since the reverberation estimation unit 111 optimizes only the expansion / contraction factor, the Rayleigh distribution function cannot approximate the envelope of the impulse response with sufficient accuracy, and high-quality reverberation suppression cannot be performed. .
  • the second stage for suppressing late reflection does not have a noise suppression function even though it has a configuration equivalent to a noise suppression device. For this reason, in an environment where reverberation and noise coexist, independent noise suppression must be further performed as post-processing, which increases the amount of computation as a whole.
  • the present invention has been invented in view of the above problems, and an object of the present invention is dereverberation capable of obtaining a high-quality dereverberation signal even in a noisy environment with a small amount of calculation. It is providing the method, apparatus, and program of this.
  • an input signal is converted into a frequency domain signal
  • noise is estimated using the frequency domain signal
  • an impulse response from a signal source to an observation point and a past Reverberation is estimated using emphasized speech
  • the estimated noise and the estimated reverberation are mixed to obtain a mixed signal
  • a suppression coefficient is determined using the mixed signal and the frequency domain signal
  • the frequency is determined by the suppression coefficient.
  • a second invention that solves the above-described problem is the above-described first invention, in which the estimated noise is removed from the estimated reverberation instead of the past emphasized sound, and the frequency domain Reverberation is estimated using a signal.
  • an integrated frequency domain signal is obtained by integrating bands of the frequency domain signal, and the integrated frequency domain signal It is characterized in that the suppression coefficient is obtained by using it instead of the area signal.
  • a fourth invention for solving the above-mentioned problems is the invention according to any one of the first to third inventions, wherein correlation between input signal samples is removed to obtain a correlation removal signal, and the correlation removal signal is applied to an adaptive frame.
  • a temporary early echo suppression signal is obtained by processing with a filter, the coefficient of the adaptive filter is updated so as to maximize the kurtosis of the temporary early echo suppression signal, and a fixed coefficient having the same coefficient as the coefficient of the adaptive filter is obtained.
  • the input signal is processed by a filter to obtain an early echo removal signal, the impulse response is obtained using a coefficient of the adaptive filter, and the early echo suppression signal is used as the input signal.
  • the reference signal is processed by the first adaptive filter to obtain pseudo noise, and the pseudo noise is obtained from the input signal.
  • obtain a noise cancellation signal update the coefficient of the first adaptive filter using the noise removal signal and the reference signal so that the noise removal signal is minimized, and The impulse response is obtained using a coefficient of an adaptive filter, and the noise removal signal is used as the input signal.
  • a sixth invention for solving the above-mentioned problem is the fifth invention according to the fifth invention, wherein a correlation removal signal is obtained by removing a correlation between samples of the noise removal signal, and the correlation removal signal is obtained as a second adaptive filter.
  • a correlation removal signal is obtained by removing a correlation between samples of the noise removal signal
  • the correlation removal signal is obtained as a second adaptive filter.
  • update the coefficient of the second adaptive filter so as to maximize the kurtosis of the provisional early echo suppression signal, and the same coefficient as that of the second adaptive filter
  • the input signal is processed by a fixed filter having a coefficient of the following to obtain an early echo removal signal, the impulse response is obtained using the coefficient of the first adaptive filter, and the early echo suppression signal is used as the input signal. It is characterized by using.
  • a seventh invention that solves the above-described problem includes a conversion unit that converts an input signal into a frequency domain signal, a noise estimation unit that obtains estimated noise using the frequency domain signal, and a signal source to an observation point.
  • a reverberation estimation unit that estimates reverberation using an impulse response and past emphasized speech
  • a mixing unit that obtains a mixed signal by mixing the estimated noise and the estimated reverberation, and suppression using the mixed signal and the frequency domain signal
  • a reverberation suppression apparatus comprising: a suppression coefficient generation unit that determines a coefficient; and a multiplication unit that weights the frequency domain signal with the suppression coefficient.
  • a ninth invention that solves the above-mentioned problem has a band integration unit that obtains an integrated frequency domain signal by integrating the bands of the frequency domain signals in the seventh or eighth invention, and the integrated frequency
  • a special feature is to obtain the suppression coefficient by using a domain signal instead of the frequency domain signal.
  • a tenth invention for solving the above-mentioned problem is the correlation removing unit according to any one of the seventh to ninth inventions, wherein a correlation removing unit for removing a correlation between input signal samples to obtain a correlation removal signal, and the correlation removal
  • a correlation removing unit for removing a correlation between input signal samples to obtain a correlation removal signal, and the correlation removal An adaptive filter for processing a signal to obtain a provisional early echo suppression signal, a fixed filter for processing the input signal with the same coefficient as the coefficient for the adaptive filter to obtain an early echo cancellation signal, and a coefficient for the adaptive filter.
  • a reverberation estimation unit that obtains the impulse response, updates the coefficient of the adaptive filter so as to maximize the kurtosis of the temporary early echo suppression signal, and uses the early echo suppression signal as the input signal It is characterized by this.
  • An eleventh invention for solving the above-described problem is the first adaptive filter according to any one of the seventh to ninth inventions, wherein the reference signal is processed to obtain pseudo noise, and the pseudo noise is input to the input signal.
  • a subtractor for subtracting force to obtain a noise cancellation signal, and a reverberation estimation unit for obtaining the impulse response using the coefficient of the first adaptive filter, and the noise removal signal and the noise removal signal are minimized.
  • the coefficient of the first adaptive filter is updated using the reference signal, and the noise removal signal is used as the input signal.
  • a correlation removing unit for removing a correlation between samples of the noise removal signal to obtain a correlation removal signal, and processing the correlation removal signal
  • a second adaptive filter for obtaining a provisional early echo suppression signal
  • a fixed filter for obtaining an early echo cancellation signal by processing the input signal with the same coefficient as that of the second adaptive filter
  • the first adaptation A reverberation estimation unit that obtains the impulse response using a coefficient of the filter, updates the coefficient of the second adaptive filter so as to maximize the kurtosis of the temporary early echo suppression signal, and the early echo A suppression signal is used as the input signal.
  • a computer converts a process of converting an input signal into a frequency domain signal, a process of estimating noise using the frequency domain signal, and a signal source.
  • a process for estimating reverberation using an impulse response to an observation point and past emphasized speech a process for obtaining a mixed signal by mixing the estimated noise and the estimated reverberation, and using the mixed signal and the frequency domain signal
  • a reverberation suppression program for executing a process for determining a suppression coefficient and a process for weighting the frequency domain signal with the suppression coefficient.
  • a computer converts a process of converting an input signal into a frequency domain signal, a process of estimating noise using the frequency domain signal, and a signal source to an observation point Impulse response, estimated reverberation force
  • the process of estimating reverberation using the frequency domain signal after removing the effect of the estimated noise, and mixing the estimated noise and the estimated reverberation to obtain a mixed signal
  • a reverberation suppression program for executing a process, a process of determining a suppression coefficient using the mixed signal and the frequency domain signal, and a process of weighting the frequency domain signal with the suppression coefficient.
  • the late reflection component estimated using the information related to the impulse response from the signal source to the observation point and the noise estimated using the input signal are It is characterized by suppressing the input signal after mixing properly
  • a reverberation estimation unit that estimates late reflection components using information on the impulse response from the signal source to the observation point, a noise estimation unit that estimates noise using the input signal, and an estimation A mixing unit that mixes reverberation and estimated noise is provided.
  • the signal source power also uses information related to the impulse response to the observation point, the late reflection component is estimated, the noise is estimated using the input signal, and these are appropriately mixed to suppress the force. Therefore, it is possible to achieve high quality reverberation suppression and noise suppression simultaneously with a small amount of computation.
  • FIG. 1 is a block diagram showing a first embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a noise estimation unit included in the first embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of an estimated noise calculation unit included in FIG.
  • FIG. 4 is a block diagram showing a configuration of an update determination unit included in FIG. 5]
  • FIG. 7 A block diagram showing the configuration of the suppression coefficient generator included in FIG.
  • FIG. 8 A block diagram showing the configuration of the estimated innate SNR calculation unit included in FIG.
  • FIG. 9 A block diagram showing the configuration of the multi-weighted addition unit included in FIG.
  • FIG. 10 A block diagram showing the configuration of the suppression coefficient calculation unit included in FIG.
  • FIG. 11 A block diagram showing the configuration of the suppression coefficient correction unit included in FIG.
  • FIG. 20 is a block diagram showing a configuration example of a conventional dereverberation apparatus.
  • FIG. 1 is a block diagram showing the best mode of the present invention.
  • Fig. 1 shows a conventional example.Reverberation estimation unit 111, subtractor 141, constant multiplier 20, selection unit 121, silence gap attenuation unit 19 in Fig. 20, noise estimation unit 10, reverberation estimation unit 30, mixing unit 12, suppression The coefficient generator 13 and the multiplier 14 are replaced. In the following, detailed operations will be described focusing on these differences.
  • the estimated noise calculation unit 10 includes a plurality of frequency components supplied from the Fourier transform unit 8, respectively.
  • the noise is estimated and transmitted to the mixing unit 12.
  • a noise estimation method there is a method in which degraded speech is weighted with a past signal-to-noise ratio to obtain a noise component, and details thereof are described in, for example, Patent Document 1 (Japanese Patent Laid-Open No. 2002-204175). ing.
  • the reverberation estimation unit 30 estimates the current reverberation by obtaining the end characteristic of the impulse response representing the late reflection and convolving with the past reverberation suppression signal supplied from the multiplier 14.
  • the reverberation estimation unit 30 is supplied with information related to the filter coefficient from the inverse filter 4 and uses this information to estimate the late reflection component.
  • the inverse characteristics of the inverse filter 4 are obtained using the filter coefficients supplied from the inverse filter 4, this becomes the impulse response from the signal source to the observation point. Since the end of this impulse response causes late reflections, the reverberation component can be estimated using the coefficient value at the end.
  • the end of the impulse response of an acoustic space in a room is approximated by an exponential decay function. Therefore, instead of using the impulse response coefficient value as it is, an exponential function that approximates the end is used. It is also possible to use the sampnore value. Since the coefficient value at the end is guaranteed to be exponentially attenuated, it is possible to avoid a local calculation error that may occur in the calculation in the inverse filter 4 and to estimate accurate reverberation.
  • the logarithm of the sumnoire value at the end may be taken, these sample values may be linearly approximated in the logarithmic region, and the slope of the obtained straight line may be used as the exponent.
  • the coefficient supplied from the inverse filter can be averaged and used for the exponential function determination. This averaging is also effective in the above-described embodiment in which reverberation is estimated by directly using coefficient values without using an exponential function.
  • the reverberation estimated in this manner is transmitted to the mixing unit 12.
  • the mixing unit 12 mixes the supplied estimated noise and estimated reverberation and transmits them to the suppression coefficient generating unit 13.
  • the simplest process of mixing estimated noise and estimated reverberation is one of the choices.
  • the estimated noise and the estimated reverberation are compared, and the larger one is supplied to the suppression coefficient generator 13 as the output of the mixer 12. This means that the dominant one of reverberation and noise is suppressed preferentially, and clear speech with small noise and reverberation contained in the output signal can be obtained.
  • estimated miscellaneous The smaller of the sound and the estimated reverberation can be supplied to the suppression coefficient generation unit 13 as the output of the mixing unit 12.
  • the reverberation and noise remaining in the output signal are larger than when the larger one is selected.
  • the distortion contained in the voice can be kept small.
  • An intermediate process between these two examples is a mixture of estimated noise and estimated reverberation. When mixing, add the two as they are, normalize them to the same full band power as the larger one after addition, normalize to the same full band power as the smaller one, or average the both Can be normalized to the same full-band power.
  • the suppression coefficient generation unit 13 generates a suppression coefficient for each of a plurality of frequency components for obtaining enhanced speech in which reverberation and noise are suppressed by multiplying the input signal.
  • suppression coefficient generation the minimum mean square short-time spectrum amplitude method that minimizes the expected mean square error of the emphasized speech is widely used in noise suppression, and details thereof are described in Patent Document 1. .
  • the generation of the suppression coefficient is performed based on the estimated noise and the degraded speech.
  • the suppression coefficient is generated based on the mixed signal of the estimated reverberation and the estimated noise and the degraded speech.
  • the suppression coefficient generated for each frequency is supplied to the multiplier 14.
  • the multiplier 14 multiplies the deteriorated speech supplied from the Fourier transform unit 8 and the suppression coefficient supplied from the suppression coefficient generation unit 13 independently at each frequency, and uses the product as the power of the emphasized speech.
  • the inverse Fourier transform unit 15 performs an inverse Fourier transform by combining the square root of the emphasized speech power supplied from the multiplier 14 and the phase of the deteriorated speech supplied from the Fourier transform unit 3, and as an enhanced speech signal sample, Supply to window processing unit 16.
  • the windowing processing unit 16 processes the enhanced speech signal sample by the same operation as the windowing processing unit 7 and supplies it to the frame synthesis unit 17.
  • the windowing processing unit 16 improves the continuity of the signal at the frame boundary and contributes to obtaining a smooth output signal.
  • the frame synthesizing unit 17 synthesizes the output audio sample of the frame using the emphasized audio sample of the adjacent frame and supplies it to the output terminal 18.
  • FIG. 2 is a block diagram showing the configuration of the noise estimation unit 10 for the method described in Patent Document 1. It is assumed that noise is estimated for the sake of convenience. Estimate the mixed signal of noise and reverberation. First, the degraded speech that is the input of the noise estimation unit 10 is supplied to the estimated noise calculation unit 101 and the weighted degraded speech calculation unit 102. The weighted degraded speech calculation unit 102 calculates a weighted degraded speech power vector using the degraded speech power spectrum and transmits it to the estimated noise calculation unit 101. Estimated noise calculation section 101 estimates the noise power spectrum using the deteriorated sound power spectrum, the weighted deteriorated sound power spectrum, and the count value supplied from counter 103, and outputs it as an estimated noise power spectrum.
  • FIG. 3 is a block diagram showing a configuration of estimated noise calculation section 101 included in FIG.
  • the estimated noise calculation unit 101 includes an update determination unit 1010, a register length storage unit 1011, an estimated noise storage unit 1012, a switch 1013, a shift register 1014, an adder 1015, a minimum value selection unit 1016, a division unit 1017, and a counter 1018.
  • the switch 1013 is supplied with a frequency-by-frequency weighted deteriorated sound power spectrum from the weighted deteriorated sound calculation unit 102 in FIG. When the switch 1013 closes the circuit, the frequency-specific weighted degraded sound power spectrum is transmitted to the shift register 1014.
  • the shift register 1014 shifts the stored value of the internal register to the adjacent register in accordance with the control signal supplied from the update determination unit 1010.
  • the shift register length is equal to the value stored in the register length storage unit 1011 described later. All register outputs of the shift register 1014 are supplied to the adder 1015.
  • the adder 1015 adds all the supplied register outputs and transmits the addition result to the division unit 1017.
  • the update determination unit 1010 is supplied with a count value, a frequency-specific degraded speech power spectrum and a frequency-specific estimated noise power spectrum.
  • the update determination unit 1010 always sets ' ⁇ ' until the count value reaches a preset value, and after reaching the value, determines ' ⁇ ' when the input deteriorated speech signal is determined to be noise. Otherwise, ⁇ 0 '' is output and transmitted to the force counter 1018, the switch 1013, and the shift register 1014.
  • the switch 1013 switches the circuit when the signal supplied from the update judgment unit is ' ⁇ '. Close and open when "0" Counter 1
  • the count value is incremented when the signal supplied from the update judgment unit is “ ⁇ ”, and is not changed when it is “0”.
  • the shift register 1014 captures one sample of the signal sample supplied from the switch 1013 when the signal power I "supplied from the update determination unit is shifted, and simultaneously shifts the stored value of the internal register to the adjacent register.
  • Minimum value selection unit 1016 has a counter 101 The output of 8 and the output of the register length storage unit 1011 are supplied.
  • the minimum value selection unit 1016 selects the smaller one of the supplied count value and register length, and transmits it to the division unit 1017.
  • N_l is a sample value of the degraded speech power spectrum stored in the shift register 1014
  • ⁇ (k) is a sample value of the degraded speech power spectrum stored in the shift register 1014
  • N is the smaller value of the count value and register length. Since the count value starts monotonically and increases monotonically, division is performed first by the count value, and later by the register length. When division is performed by register length, the average value stored in the shift register is obtained. At first, since there are not enough values stored in the shift register 1014, the value is actually stored and divided by the number of registers. The number of registers in which values are actually stored is equal to the register length when the count value equal to the count value becomes larger than the register length when the count value is smaller than the S register length.
  • FIG. 4 is a block diagram showing a configuration of update determination section 1010 included in FIG.
  • the update determination unit 1010 includes a logical sum calculation unit 1101, comparison units 1102 and 1104, threshold storage units 1103 and 1105, and a threshold calculation unit 1106.
  • the count value supplied from the counter 103 in FIG. 2 is transmitted to the comparison unit 1102.
  • the threshold value that is the output of the threshold value storage unit 1103 is also transmitted to the comparison unit 1102.
  • the comparison unit 1 102 compares the supplied count value with the threshold value, and when the count value is smaller than the threshold value, “1” is output to the logical sum calculation unit 1101.
  • the threshold value calculation unit 1106 calculates a value corresponding to the estimated noise power spectrum for each frequency supplied from the estimated noise storage unit 1012 in FIG.
  • the simplest threshold calculation method is a constant multiple of the estimated noise power spectrum for each frequency.
  • the threshold value storage unit 1105 stores the threshold value output by the threshold value calculation unit 1106, and outputs the threshold value stored one frame before to the comparison unit 1104.
  • the comparison unit 1104 compares the threshold value to which the threshold storage unit 1105 is also supplied with the frequency-specific degraded speech power spectrum supplied from the Fourier transform unit 8 in FIG. If “” is large, “0” is output to the logical sum calculation unit 1101. That is, it is determined based on the size of the estimated noise power spectrum whether the deteriorated speech signal is noise.
  • the sum calculation unit 1101 calculates the logical sum of the output value of the comparison unit 1103 and the output value of the comparison unit 1104, and outputs the calculation result to the switch 1013, the shift register 1014, and the counter 1018 in FIG.
  • the update determination unit 1010 outputs, that is, the estimated noise is updated. To be done independently The estimated noise can be updated independently for each frequency.
  • FIG. 5 is a block diagram showing a configuration of the weighted deteriorated speech calculation unit 102 of FIG.
  • the weighted degraded speech calculation unit 102 includes an estimated noise storage unit 1021, a frequency-specific SNR calculation unit 1022, a multiple nonlinear processing unit 1024, and a multiplier 1023.
  • the estimated noise storage unit 1021 stores the estimated noise power spectrum supplied from the estimated noise calculation unit 101 in FIG. 2, and outputs the estimated noise power spectrum stored one frame before to the SNR calculation unit 1022 for each frequency.
  • Frequency-specific SNR calculation section 1022 obtains an SNR for each frequency band using the estimated noise power spectrum and degraded speech power spectrum supplied from estimated noise storage section 1021, and outputs the SNR to multiple nonlinear processing section 1024.
  • the multiple nonlinear processing unit 1024 calculates the weighting factor scale using the SNR to which the frequency-specific SNR calculating unit 1022 is also supplied, and outputs the weighting factor scale to the multiplier 1023.
  • Multiple nonlinear processing section 1024 has a nonlinear function that outputs a real value corresponding to an input value corresponding to each frequency band.
  • FIG. 6 shows an example of a nonlinear function.
  • f is an input value
  • the multiple nonlinear processing unit 1024 obtains a weighting coefficient by processing the SNR for each frequency band using a nonlinear function, and transmits the weighting coefficient to the multiplier 1023. That is, the multiple nonlinear processing unit 1024 calculates the weighting coefficient from 1 to 0 according to the SNR in each frequency band, and transmits it to the multiplier 1023 as a weighting coefficient vector. When the SNR is small, 1 is output, and when the SNR is large, 0 is output.
  • the weighting coefficient multiplied by the degraded speech power spectrum by the multiplier 1023 is a value corresponding to the SNR.
  • a degraded speech power spectrum is used to update the estimated noise, but it is included in the degraded speech power spectrum by weighting the degraded speech power spectrum used to update the estimated noise according to the SNR. The influence of speech components can be reduced, and more accurate noise estimation can be performed.
  • Multiplier 1 023 calculates the product of the degraded speech power spectrum and the weighting coefficient vector supplied from multiple nonlinear processing unit 1024 for each frequency band, and calculates the weighted degraded speech power spectrum as estimated noise calculation unit 101 in FIG. Output to.
  • FIG. 7 is a block diagram showing a configuration of the suppression coefficient generation unit 13 included in FIG.
  • the suppression coefficient generation unit 13 includes a frequency-specific SNR calculation unit 131, an estimated innate SNR calculation unit 132, a noise suppression coefficient calculation unit 133, a speech nonexistence probability storage unit 134, and a suppression coefficient correction unit 135.
  • the SNR calculation unit 6 for each frequency is a degraded speech power spectrum input from the Fourier transform unit 8 in FIG. 1 and the mixed power spectrum of the estimated noise and the estimated reverberation input from the mixing unit 12 in FIG. 1 are used to calculate the SNR for each frequency band. Supply.
  • the estimated innate SNR calculation unit 132 estimates the innate SNR using the acquired acquired SNR and the corrected suppression coefficient supplied from the suppression coefficient correction unit 135, and uses the suppression coefficient calculation unit as the estimated innate SNR. Communicate to 133.
  • the suppression coefficient calculation unit 1 33 calculates the suppression coefficient using the acquired SNR supplied as input, the estimated innate SNR, and the speech non-existence probability supplied from the speech non-existence probability storage unit 134, and the suppression coefficient correction unit Communicate to 135.
  • the suppression coefficient correction unit 135 corrects the suppression coefficient using the input estimated innate SNR and the suppression coefficient, and supplies the corrected suppression coefficient G (k) bar to the multiplier 14 in FIG.
  • FIG. 8 is a block diagram showing a configuration of estimated innate SNR calculation section 132 included in FIG.
  • the estimated innate SNR calculation unit 132 includes a multi-value range limiting processing unit 1321, an acquired SNR storage unit 1322, a suppression coefficient storage unit 1323, multipliers 1324 and 1325, a weight storage unit 1326, a multiple weighted addition unit 1327, and an adder 1328.
  • Have The acquired SNR y (k) (k 0, 1,..., M-l) supplied from the frequency-specific SNR calculation unit 131 in FIG. 7 is transmitted to the acquired SNR storage unit 1322 and the adder 1328.
  • the acquired SNR storage unit 1322 stores n acquired SNR y (k) in the nth frame.
  • the suppression coefficient storage unit 1323 stores the corrected suppression coefficient G (k) bar in the nth frame and the corrected suppression coefficient G (k) in the n_l frame.
  • n n-1 bar is transmitted to multiplier 1324.
  • the multiplier 1324 squares the supplied G (k) bar to give G 2 (
  • [0049] 1 is supplied to the other terminal of the adder 1328, and the addition result ⁇ (k) _l is a multiple value.
  • the multi-range limitation processing unit 1321 performs an operation on the addition result ⁇ (k) -l supplied from the adder 1328 using the range limitation operator ⁇ [ ⁇ ], and the result ⁇ [
  • a weight 923 is supplied from the weight storage unit 1326 to the multiple weighted addition unit 1327.
  • the multiple weighted addition unit 1327 obtains an estimated innate SNR 924 using the supplied instantaneous estimated SNR 921, past estimated SNR 922, and weight 923. Assuming weight 923 and ⁇ (k) hat as the estimated innate SNR, ⁇ (k) hat is calculated by the following equation.
  • FIG. 9 is a block diagram showing a configuration of weighted addition section 1327 included in FIG.
  • the weighted adder 1327 includes multipliers 1391 and 1393, a constant multiplier 1395, adders 1392 and 1394.
  • SNR921 for each frequency band is supplied from the multi-value range limiting processing unit 1321 in FIG. 8 and the SNR922 power for each past frequency band is supplied from the multiplier 1325 in FIG. 8 to the weight 923 from the weight storage unit 1326 in FIG.
  • the weight 923 having the value ⁇ is transmitted to the constant multiplier 1395 and the multiplier 1393.
  • the constant multiplier 1395 transmits ⁇ obtained by multiplying the input signal by 1 to the adder 1394.
  • the adder 1392 has (1 a) P [y (k) — 1] and a G 2 n-1 n n-1
  • FIG. 10 is a block diagram showing the suppression coefficient generation unit 133 included in FIG.
  • the suppression coefficient generation unit 133 includes an MMSE STSA gain function value calculation unit 1331, a generalized likelihood ratio calculation unit 1332, and a suppression coefficient calculation unit 1333.
  • Non-Patent Document 4 (December 1984, “I-I-I-I ----- Transactions on aquititas speech and“ Signal processing, ”No. 32, No. 6, (IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AN D SIGNAL PROCESSING, VO 32, NO.6, PP.1109-1121, DEC, 1984), pages 1109 to 1121).
  • a coefficient calculation method will be described.
  • Fig. 7 shows the estimated innate SNR calculation unit in Fig. 7.
  • ⁇ (k) ⁇ (k) hat / (1-q)
  • V (k) (7) (k) ⁇ (k)) / (l + ⁇ (k)).
  • the MMSE STSA gain function value calculation unit 1331 uses the acquired SNR y (k) supplied from the frequency-specific SNR calculation unit 131 in FIG. 7 and the estimation supplied from the estimated innate SNR calculation unit 132 in FIG. Ahead
  • the MMSE STSA gain function value is calculated independently in each frequency band and output to the suppression coefficient calculation unit 1333.
  • the MMSE STSA gain function value G (k) for each frequency band is
  • the generalized likelihood ratio calculation unit 1332 provides the acquired SNR y (k) supplied from the frequency-specific SNR calculation unit 131 in FIG. 7, and the estimation supplied from the estimated innate SNR calculation unit 132 in FIG. Innate SNR
  • the generalized likelihood ratio is calculated for each frequency band and transmitted to the suppression coefficient calculation unit 1333 .
  • the generalized likelihood ratio ⁇ (k) for each frequency band is
  • the suppression coefficient calculation unit 1333 includes the M MSE STSA gain function value G (k) supplied from the MMSE STSA gain function value calculation unit 1331 and the generalized likelihood ratio supplied from the generalized likelihood ratio calculation unit 1332.
  • the suppression coefficient is calculated for each frequency from the frequency ratio ⁇ (k) and output to the suppression coefficient correction unit 135 in FIG.
  • the The suppression coefficient G (k) bar for each frequency band is
  • FIG. 11 is a block diagram showing the suppression coefficient correction unit 135 included in FIG.
  • the suppression coefficient correction unit 135 includes a maximum value selection unit 1351, a suppression coefficient lower limit value storage unit 1352, a threshold storage unit 1353, a comparison unit 1354, a switch 1355, a correction value storage unit 1356, and a multiplier 1357 for each band.
  • the comparison unit 1354 compares the threshold supplied from the threshold storage unit 1353 with the estimated innate SNR for each frequency band supplied from the estimated innate SNR calculation unit 132 in FIG. If the value is greater than the threshold, '0' is supplied to the switch 1355.
  • the switch 1355 outputs the suppression coefficient for each frequency band supplied from the suppression coefficient calculation unit 133 in FIG.
  • the multiplier 1357 calculates the product of the output value of the switch 1355 and the output value of the correction value storage unit 1356 and transmits the product to the maximum value selection unit 1351. Reach.
  • the suppression coefficient lower limit value storage unit 1352 stores and supplies the lower limit value of the suppression coefficient to the maximum value selection unit 1351.
  • the maximum value selection unit 1351 is the suppression coefficient for each frequency band supplied from the suppression coefficient calculation unit 133 in FIG. 7 or the product calculated by the multiplier 1357 and the suppression coefficient lower limit value supplied from the suppression coefficient lower limit value storage unit 1352. The value is compared, and the larger value is output to the multiplier 14 in FIG. In other words, the suppression coefficient is always larger than the lower limit value stored in the suppression coefficient lower limit value storage unit 1352.
  • the reverberation estimation unit 112 sequentially obtains the impulse response from the signal source to the observation point and estimates the reverberation generated by the late reflection, so that a high-quality reverberation suppression signal can be obtained. it can. Since the reverberation estimation unit 112 estimates reverberation, the noise estimation unit 10 estimates noise, the mixing unit generates a mixed signal of estimated reverberation and estimated noise, and generates a suppression coefficient based on this mixed signal. High-quality noise suppression and dereverberation can be achieved simultaneously with a small amount of computation.
  • FIG. 12 is a block diagram showing a second embodiment of the present invention.
  • the difference from FIG. 1 showing the first embodiment is a band integration unit 9.
  • the band integration unit 9 integrates signal samples corresponding to a plurality of frequency components to reduce the total number, and transmits the total to the noise estimation unit 10, the suppression coefficient generation unit 13, and the multiplier 14.
  • the average value is obtained by adding multiple signal samples and dividing by the number of added samples.
  • FIG. 13 is a diagram for explaining a state in which a plurality of frequency samples are integrated in the band integrating unit 9.
  • 8kHz sampling that is, a case where a signal with a bandwidth of 4kHz is Fourier-transformed with a block length of L is shown.
  • the number of Fourier-transformed degraded speech signal samples is equal to the block length L of the Fourier transform.
  • the ones that are independent of each other are half L / 2.
  • these L / 2 samples are partially integrated to reduce the number of independent frequency components. At that time, more samples are integrated into one sample in the high frequency region.
  • the band division according to the critical band is widely used because of its high consistency with human auditory characteristics.
  • the critical band is composed of a total of 18 band forces.
  • FIG. 13 in the second embodiment of the present invention, deterioration of sound quality is prevented by subdividing the critical band in the low frequency range.
  • the same frequency division as the critical band is adopted from frequencies higher than 1156Hz to 4kHz, but the band is further subdivided at lower frequencies.
  • the 14 components that follow are combined into 7 groups of 2 components each.
  • the following 6 components are combined into 2 groups of 3 components each.
  • the four components are combined with one group, and the components are combined so that more than the critical band.
  • the band integration unit 9 it is important that frequency components are not integrated at a frequency of about 400 Hz or less. If the frequency components are integrated in this frequency range, the resolution is lowered and the sound quality is lowered. On the other hand, at frequencies of about 1156 Hz or higher, frequency components may be integrated according to the critical band. Also, when the bandwidth of the input signal becomes wider, it is necessary to maintain the sound quality by increasing the Fourier transform block length L. This is because the frequency component of 400 Hz or less is not integrated and the frequency band per frequency component increases and the resolution deteriorates.
  • L 256 and the bandwidth of 4 kHz are used as a reference, the block length L of the Fourier transform is obtained by L> fs / 31.25, so that the sound quality equivalent to that in the 4 kHz band can be maintained even for wideband signals. it can.
  • the integrated degraded voice power spectrum for each frequency band in which the bands are integrated is expressed as noise. This is supplied to the estimation unit 10, the suppression coefficient generation unit 13, and the multiplier 14.
  • the reverberation estimation unit 30 also estimates reverberation in each of the frequency bands integrated in the pattern of FIG.
  • the mixing unit 12 mixes the estimated noise and the estimated reverberation for the integrated band, and supplies the result to the suppression coefficient generation unit 13.
  • the suppression coefficient generation unit 13 calculates a suppression coefficient for the mixed signal of reverberation and noise in the integrated band, and supplies it to the multiplier 14.
  • the multiplier 14 multiplies the input degraded speech spectrum and the suppression coefficient, and transmits the result to the inverse Fourier transform unit 15 as an enhanced speech amplitude vector.
  • FIG. 14 is a block diagram showing a noise estimation unit 40 included in the third embodiment of the present invention.
  • the difference from the noise estimation unit 10 included in the first and second embodiments is an estimated noise correction unit 104.
  • the estimated noise correction unit 104 corrects the estimated noise supplied from the estimated noise calculation unit 101 and transmits this to the mixing unit 12 in FIG. 1 as an estimated noise power spectrum.
  • the most basic operation of the correction in the estimated noise correction unit 104 is to multiply all frequency components by the same constant. It is also possible to make the constants different for each frequency. In this special case, the constant for a specific frequency is set to 1.0.
  • FIG. 15 is a block diagram showing a fourth embodiment of the present invention.
  • the difference from FIG. 1 showing the first embodiment is a reverberation estimation unit 31.
  • the reverberation estimation unit 31 is supplied with deteriorated speech and estimated noise that is the output of the noise estimation unit 10 instead of the past emphasized speech.
  • the reverberation estimator 31 uses the estimated noise supplied from the noise estimator to influence the noise in the degraded speech. After reverberation, estimate reverberation.
  • FIG. 16 is a block diagram showing an embodiment of the reverberation estimation unit 31.
  • the reverberation estimation unit 31 includes a subtractor 311, an exponential function calculation unit 312, and a multiplier 313.
  • the estimated noise supplied with the 10 noise estimators in FIG. 15 is supplied to the subtractor 311.
  • the subtractor 311 is also supplied with the deteriorated speech power spectrum from the Fourier transform unit 8 in FIG. 15, and the result obtained by subtracting the estimated noise power spectrum is transmitted to the multiplier 313.
  • the filter coefficient supplied from the inverse filter 4 is supplied to the exponential function calculation unit 312.
  • the exponential function calculation unit 312 estimates the exponential function corresponding to the late reflection component using the information regarding the filter coefficient supplied from the inverse filter 4.
  • Exponential function calculation section 312 further shifts the obtained exponential function by a predetermined number of samples and transmits the shifted exponential function to multiplier 313.
  • Multiplier 313 obtains the product of the output of subtractor 311 and the shifted exponential function as the estimated reverberation power spectrum.
  • the obtained estimated reverberation power spectrum is supplied to the mixing unit 12 in FIG. Reverberation estimation in the exponential function calculator 312 and the multiplier 313 is described in Non-Patent Document 7 (Mar. 2005, Proceedings of Ob. International. Conf.
  • the reverberation is estimated using the degraded speech power vector from which the influence of the estimated noise is eliminated by the reverberation estimation unit 31, accurate reverberation can be estimated, and the strong speech Can improve the quality.
  • FIG. 17 is a block diagram showing a fifth embodiment of the present invention.
  • the difference between the fourth embodiment and the fifth embodiment is that the band integration unit 9 is equal to the relationship between the first embodiment and the second embodiment. Since the operation of the band integration unit 9 has been described in the description of the second embodiment, a description thereof will be omitted.
  • FIG. 18 is a block diagram showing a sixth embodiment of the present invention.
  • a two-input noise canceller 200 is cascaded on the input side of the first embodiment. 2
  • the coefficient of adaptive filter 26, which is the main component of input noise canceller 200, is used to estimate reverberation. Supplied to part 32.
  • the reverberation estimation unit 32 estimates reverberation using the impulse response in the same procedure as the reverberation estimation unit 30.
  • the two-input noise canceller 200 includes at least an adaptive filter 26 and a subtractor 27.
  • the second input terminal 25 is supplied with a signal having a correlation with the noise component included in the deteriorated speech supplied to the first input terminal 1.
  • the signal supplied to the input terminal 25 is transmitted to the adaptive filter 26, and the adaptive filter 26 outputs the result of the convolution operation with the coefficient.
  • the output convolution result is supplied to the subtractor 27.
  • the degraded sound is supplied to the other input of the subtractor 27.
  • the subtractor 27 subtracts the output of the adaptive filter 26 from the deteriorated voice, and outputs the result as a noise cancellation signal.
  • the coefficients of the adaptive filter 26 are updated with the output of the subtractor 27 so that the output signal of the subtractor 27 is minimized on some basis.
  • One that uses mean square instantaneous power as the criterion for minimization is known as an LMS algorithm, and one that uses cumulative square power is known as an LS algorithm.
  • the coefficient of the adaptive filter 26 optimized in this way is known to approximate the impulse response from the observation point of the signal supplied to the input terminal 25 to the observation point of the signal supplied to the input terminal 1. Yes. Therefore, the output of the adaptive filter 26 approximates the noise component contained in the signal supplied to the input terminal 1, and the signal from which noise is eliminated is obtained at the output of the subtractor 27.
  • the coefficients of the adaptive filter 26 approximate the impulse response of the environment in which the dereverberation apparatus of the present invention is used, and the reverberation estimation unit 32 can estimate the reverberation using these coefficients. it can.
  • the reverberation estimation unit 30 obtains the impulse response based on the inverse characteristic of the impulse response from the signal source supplied from the inverse filter 4 to the observation point.
  • the impulse response itself is directly supplied to the reverberation estimation unit 32 from the adaptive filter 26 which is a main component of the two-input noise canceller 200.
  • the reverberation estimation unit 32 estimates reverberation using the impulse response in the same procedure as the reverberation estimation unit 30.
  • coefficient averaging is effective as long as the number of coefficients to be used is two or more. Note that an acoustic echo canceller can be used instead of the two-input noise canceller 200.
  • reverberation can be estimated in exactly the same procedure as in the case of the two-input noise canceller.
  • the same effect can be obtained by using part, all, or the average value of the adaptive filter coefficients of the multi-input canceller unit of the microphone array.
  • the two-input noise canceller and the cascade connection of the first embodiment have been described. However, the same applies to the two-input noise canceller and the cascade connection of the second to fifth embodiments. Has an effect. Similarly, a microphone array can be used instead of a 2-input noise canceller.
  • Non-Patent Document 9 (See page 04) and the Wiener filter method disclosed in Non-Patent Document 9 (April 1979, I.I.I.I.I.Transactions on acourtitas speech and signal. Processing, Vol. 27, No. 2 (IEEE TRANSACTIONS ON ACOUSTICS, SPEE CH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113—120, APR, 1979), pages 113-120)
  • the power that has the spectral subtraction method, etc., will not be described for these detailed configuration examples.
  • FIG. 19 is a block diagram showing a seventh embodiment of the present invention.
  • the seventh embodiment of the present invention comprises a computer (central processing unit; processor; data processing unit) 1000 that operates by program control, input terminals 1 and 25, and an output terminal 18.
  • computer central processing unit; processor; data processing unit 1000 that operates by program control, input terminals 1 and 25, and an output terminal 18.
  • the computer (central processing unit; processor; data processing unit) 1000 includes a noise estimation unit 10, a reverberation estimation unit 30, a mixing unit 12, a suppression coefficient generation unit 13, a multiplier 14, and a noise canceller 200.
  • the reverberation estimation unit 30 either the reverberation estimation unit 31 or 32 may be included, or the noise estimation unit 40 may be included instead of the noise estimation unit 10.
  • the deteriorated sound supplied to the input terminals 1 and 25 is supplied to a noise canceler in the computer 1000, and noise is eliminated.
  • the reverberation estimation unit 30 estimates the reverberation included, and the noise estimation unit 10 estimates the noise that has not been completely eliminated.
  • the coefficient value of the adaptive filter 26 included in the noise canceller 200 is used. These estimation signals are mixed by the mixing unit 12 and supplied to the suppression coefficient generation unit 13.
  • the suppression coefficient generation unit generates an appropriate suppression coefficient from the supplied mixed signal of estimated noise and estimated reverberation. Using the generated suppression coefficient, the multiplier 14 suppresses reverberation and the noise that has not been completely eliminated, and supplies it to the output terminal 18.
  • a configuration using an inverse filter that maximizes the kurtosis of the linear prediction residual of the degraded speech supplied from the input terminal 1 without using the noise canceller 200 is also possible. In that case, the input terminal 25 becomes unnecessary. Further, in place of the noise canceller 200, a configuration combining an echo canceller or a microphone array is also possible.
  • the impulse response from the signal source to the observation point is used for reverberation estimation, accurate reverberation estimation is possible and effective reverberation suppression can be performed.
  • reverberation and noise are estimated and mixed after being appropriately mixed, the reverberation and noise can be suppressed simultaneously with a small amount of computation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

信号源から観測地点までのインパルス応答に関する情報を用いて、後期反射成分を推定する残響推定部と、雑音推定部及び混合部を備えていることを特徴とする。この結果、少ない演算量で、雑音がある環境でも、高品質な残響抑圧信号を得ることができる。

Description

明 細 書
残響抑圧の方法、装置及び残響抑圧用プログラム
技術分野
[0001] 本発明は、所望の信号に重畳されている残響を抑圧するための残響抑圧の方法、 装置及び残響抑圧用プログラムに関する。
背景技術
[0002] 残響抑圧システムは、所望の音声信号に重畳されている残響を抑圧するシステム である。残響は、原信号と信号源から観測地点までのインパルス応答の畳み込み演 算によって発生する。従って、一般的に、残響の重畳された信号にインパルス応答の 逆特性を畳み込むことによって、残響抑圧が達成される。し力 ながら、前記インパ ルス応答またはその逆特性が未知であるので、これをどのようにして求めるかが問題 となる。前記インパルス応答の逆特性を求めて、残響を含む信号と畳み込むことによ つて残響抑圧を行う一つの方法が、非特許文献 1に開示されてレ、る。
[0003] 開示されている方法では、まず、残響を含む入力音声を線形予測分析して隣接サ ンプノレ間の相関を除去する。次に、相関除去信号をフィルタ処理した出力の尖度 (力 一トシス、 kurtosis)を最大化するように、前記フィルタの係数を最小平均二乗法 (LMS アルゴリズム)などを用いて更新する。このようにして得られたフィルタの係数を前記ィ ンパルス応答の逆特性として、残響を含む入力音声に畳み込むことで、残響を抑圧 する。この方法は元々、複数の異なった空間的位置における入力信号に対して適用 されているが、非特許文献 2では一つの入力信号に適用する例が開示されている。
[0004] 空間的に異なる複数の位置における信号を用いないために生じる性能の劣化を力 バーするために、第 1段と第 2段の 2段構成で、残響を抑圧する。第 1段では、前記ィ ンパルス応答の逆特性を非特許文献 1の方法で求めて、残響を含む入力音声に畳 み込むことによって、早期反射を抑圧する。続いて、第 2段では、雑音抑圧と同様な 構成で後期反射を抑圧する。すなわち、第 1段の出力に含まれる後期反射成分を推 定し、これを第 1段の出力から差し引くことで、後期反射成分を抑圧する。非特許文 献 2に開示されている方法のブロック図を、図 20に示す。以下、図 20を参照して、非 特許文献 2に開示された残響抑圧の方法について説明する。
[0005] 入力端子 1に供給された残響を含む信号、すなわち劣化音声は、線形予測 (LP)分 析部 3に供給され、隣接サンプノレ間の相関を除去される。得られた線形予測誤差は 逆フィルタ 4に伝達され、フィルタ係数との畳込み結果を求めた後、結果が係数更新 部 5に供給される。係数更新部 5では、逆フィルタ 4の出力の尖度が最大化されるよう な係数更新成分を LMSアルゴリズムなどを用いて求める。係数更新成分は逆フィルタ 4に帰還され、これを用いて係数更新が行われる。この係数更新を反復することによ つて、最終的に逆フィルタ 4の特性は、信号源から観測地点までのインパルス応答の 逆特性に等しくなる。一方、逆フィルタ 4の特性は逆フィルタ 2に逐次コピーされてお り、入力端子 1に供給される劣化音声との畳み込み結果が、計算される。この畳み込 み結果が、前記第 1段の出力となる。逆フィルタ 4の係数更新には、 LMSアルゴリズム の他にも、正規化 LMS(NLMS)アルゴリズム、 LSアルゴリズム、ァフィン射影アルゴリズ ムなどを用いることができる。また、逆フィルタ 4と係数更新部 5は、非特許文献 3に開 示されるような、周波数領域アルゴリズム、またはサブバンドアルゴリズムを用いて構 成することが可能である。
[0006] 第 2段では、フレーム分割部 6で、第 1段の逆フィルタ 2から供給された信号を特定 数のサンプノレを単位としたフレームに分割し、窓掛け処理部 7へ伝達する。窓掛け処 理部 7は、フレームに分割された信号と窓関数を乗算し、その結果をフーリエ変換部 8へ伝達する。窓がけ処理に用いられる窓関数は、フレーム端がフレーム中心よりも 大きく抑圧され、隣接フレームへの遷移が滑らかに行うことができるような特性を有す る。窓がけされた信号は、フーリエ変換部 8で複数の周波数成分に分解され、さらに 振幅と位相に分離される。フーリエ変換部 8は、窓掛けされた信号にフーリエ変換を 施して複数の周波数成分に分割し、振幅値を二乗してパワーを求め、残響推定部 11 1へ供給する。位相は、逆フーリエ変換部 15に供給される。残響推定部 111では、レイ リー分布関数を用いて、過去の劣化音声パワーから現在の残響パワーを推定する。 推定された残響パワーを減算器 141で前記窓がけされた信号のパワーから差し引くこ とによって、後期反射成分の除去が行われる。減算結果は、選択部 121に伝達される [0007] 一方、前記窓がけされた信号のパワーは定数乗算器 20にも供給されており、定数 乗算器 20で ε倍されてから、選択部 121に供給される。選択部 121は、減算器 141の 出力と定数乗算器 20の出力のうち大きいほうを選択して、無音間隙減衰部 19に伝達 する。選択部 121の動作により、減算結果の最低値を前記窓がけされた信号の ε倍 に制限することができ、過剰な残響抑圧を防止することができる。無音間隙減衰部 19 は、有音区間に挟まれた無音区間を検出し、パワーを予め定められた小さな値まで 強制的に減衰させる。この操作によって、無音間隙が残響に坦もれることを防止する 。無音間隙減衰部 19の出力は、逆フーリエ変換部 15に供給される。逆フーリエ変換 部 15は、無音間隙減衰部 19から供給された残響抑圧音声パワーの平方根とフーリエ 変換部 8から供給された残響音声の位相を合わせて逆フーリエ変換を行い、残響抑 圧音声信号サンプルとして、フレーム合成部 17に供給する。フレーム合成部 17では、 隣接フレームの残響抑圧音声サンプノレを用いて当該フレームの出力音声サンプル を合成し、出力端子 18に供給する。
[0008] 非特許文献 1 : 2001年 5月、アイ'ィ一'ィ一'ィ一'プロシーディンダス'ォブ'インター ナショナノレ'カンファレンス ·オン.ァクースティタス.スピーチ ·アンド ·シグナノレ'プロセ シング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.370ト 3704, MAY, 2001)、 3701〜37 04ページ
非特許文献 2 : 2005年 3月、アイ'ィ一'ィ一'ィ一'プロシーディンダス'ォブ'インター ナショナノレ'カンファレンス.オン.ァクースティタス.スピーチ.アンド'シグナノレ'プロセ シング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTI CS, SPEECH, AND SIGNAL PROCESSING, PP.1085-1088, MAR, 2005)、 1085〜10 88ページ
非特許文献 3 : 1992年 1月、アイ'ィ一'ィ一'ィ一'シグナル 'プロセシング 'マガジン (I
EEE SIGNAL PROCESSING MAGAZINE, PP.15-36, JAN, 1992)、 15〜36ページ 発明の開示
発明が解決しょうとする課題
[0009] 残響推定部 111では、レイリー分布関数を用いて、過去の劣化音声パワーから残響 パワーを推定する。すなわち、信号源力 観測地点までのインパルス応答の包絡線 をレイリー分布関数で近似して、この包絡線と過去の劣化音声の畳み込み演算で、 後期反射成分を推定している。しかし、残響推定部 111ではその拡大縮小係数だけ を最適化しているため、レイリー分布関数が前記インパルス応答の包絡線を十分な 精度で近似せず、高音質な残響抑圧を行うことができなかった。
[0010] また、後期反射を抑圧するための第 2段は、雑音抑圧装置と等価な構成であるにも かかわらず、雑音抑圧機能を有さない。このため、残響と雑音が混在する環境にお いては、さらに後処理として独立な雑音抑圧を行わなければならず、全体としての演 算量が増大するという問題があった。
[0011] そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、少ない 演算量で、雑音がある環境でも、高品質な残響抑圧信号を得ることのできる残響抑 圧の方法、装置及びプログラムを提供することである。
課題を解決するための手段
[0012] 上記課題を解決する第 1の発明は、入力信号を周波数領域信号に変換し、該周波 数領域信号を用いて雑音を推定し、信号源から観測地点までのインパルス応答と過 去の強調音声を用いて残響を推定し、前記推定雑音と前記推定残響を混合して混 合信号を求め、該混合信号と前記周波数領域信号を用いて抑圧係数を定め、該抑 圧係数で前記周波数領域信号を重みづけすることによって、残響を抑圧することを 特徴とする残響抑圧の方法である。
[0013] 上記課題を解決する第 2の発明は、上記第 1の発明において、前記過去の強調音 声に代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波 数領域信号とを用いて残響を推定することを特徴とする。
[0014] 上記課題を解決する第 3の発明は、上記第 1又は第 2の発明において、前記周波 数領域信号の帯域を統合して統合周波数領域信号を求め、該統合周波数領域信号 を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求めることを特 徴とする。
[0015] 上記課題を解決する第 4の発明は、第 1から第 3のいずれかの発明において、入力 信号サンプル間の相関を除去して相関除去信号を求め、該相関除去信号を適応フ ィルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最 大化するように前記適応フィルタの係数を更新し、前記適応フィルタの係数と同一の 係数を有する固定フィルタで前記入力信号を処理して早期反響除去信号を求め、前 記適応フィルタの係数を用いて前記インパルス応答を求め、前記早期反響抑圧信号 を前記入力信号として用いることを特徴とする。
[0016] 上記課題を解決する第 5の発明は、第 1から第 3のいずれかの発明において、参照 信号を第一の適応フィルタで処理して擬似雑音を求め、該擬似雑音を入力信号から 差し弓 [レ、て雑音消去信号を求め、該雑音除去信号が最小となるように前記雑音除去 信号と前記参照信号を用いて、前記第一の適応フィルタの係数を更新し、前記第一 の適応フィルタの係数を用いて前記インパルス応答を求め、前記雑音除去信号を前 記入力信号として用いることを特徴とする。
[0017] 上記課題を解決する第 6の発明は、第 5の発明において、前記雑音除去信号のサ ンプル間相関を除去して相関除去信号を求め、該相関除去信号を第二の適応フィ ルタで処理して仮早期反響抑圧信号を求め、該仮早期反響抑圧信号の尖度を最大 化するように前記第二の適応フィルタの係数を更新し、前記第二の適応フィルタの係 数と同一の係数を有する固定フィルタで前記入力信号を処理して早期反響除去信 号を求め、前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、前 記早期反響抑圧信号を前記入力信号として用いることを特徴とする。
[0018] 上記課題を解決する第 7の発明は、入力信号を周波数領域信号に変換する変換 部と、該周波数領域信号を用いて推定雑音を求める雑音推定部と、信号源から観測 地点までのインパルス応答と過去の強調音声を用いて残響を推定する残響推定部と 、前記推定雑音と前記推定残響を混合して混合信号を求める混合部と、該混合信号 と前記周波数領域信号を用いて抑圧係数を定める抑圧係数生成部と、該抑圧係数 で前記周波数領域信号を重みづけする乗算部とを有することを特徴とする残響抑圧 の装置である。
[0019] 上記課題を解決する第 8の発明は、第 7の発明において、前記過去の強調音声に 代えて、前記推定残響から前記推定雑音の影響を取り除いたものと、前記周波数領 域信号とを用いて残響を推定する残響推定部を有することを特徴とする。 [0020] 上記課題を解決する第 9の発明は、第 7又は第 8の発明において、前記周波数領 域信号の帯域を統合して統合周波数領域信号を求める帯域統合部を有し、該統合 周波数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数 を求めることを特 ί敷とする。
[0021] 上記課題を解決する第 10の発明は、第 7から第 9の発明のいずれかにおいて、入 力信号サンプル間の相関を除去して相関除去信号を求める相関除去部と、該相関 除去信号を処理して仮早期反響抑圧信号を求める適応フィルタと、前記適応フィル タの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める固定 フィルタと、前記適応フィルタの係数を用いて前記インパルス応答を求める残響推定 部とを有し、前記仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタ の係数を更新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴と する。
[0022] 上記課題を解決する第 11の発明は、第 7から第 9の発明のいずれかにおいて、参 照信号を処理して擬似雑音を求める第一の適応フィルタと、該擬似雑音を入力信号 力 差し引いて雑音消去信号を求める減算器と、前記第一の適応フィルタの係数を 用いて前記インパルス応答を求める残響推定部を有し、前記雑音除去信号が最小と なるように前記雑音除去信号と前記参照信号を用いて、前記第一の適応フィルタの 係数を更新し、前記雑音除去信号を前記入力信号として用いることを特徴とする。
[0023] 上記課題を解決する第 12の発明は、第 11の発明において、前記雑音除去信号の サンプル間相関を除去して相関除去信号を求める相関除去部と、該相関除去信号 を処理して仮早期反響抑圧信号を求める第二の適応フィルタと、前記第二の適応フ ィルタの係数と同一の係数で前記入力信号を処理して早期反響除去信号を求める 固定フィルタと、前記第一の適応フィルタの係数を用いて前記インパルス応答を求め る残響推定部とを有し、前記仮早期反響抑圧信号の尖度を最大化するように前記第 二の適応フィルタの係数を更新し、前記早期反響抑圧信号を前記入力信号として用 レ、ることを特徴とする。
[0024] 上記課題を解決する第 13の発明は、コンピュータに、入力信号を周波数領域信号 に変換する処理と、該周波数領域信号を用いて雑音を推定する処理と、信号源から 観測地点までのインパルス応答と過去の強調音声を用いて残響を推定する処理と、 前記推定雑音と前記推定残響を混合して混合信号を求める処理と、該混合信号と前 記周波数領域信号を用いて抑圧係数を定める処理と、該抑圧係数で前記周波数領 域信号を重みづけする処理とを実行させるための残響抑圧用プログラムである。
[0025] 上記課題を解決する第 14の発明は、コンピュータに、入力信号を周波数領域信号 に変換する処理と、該周波数領域信号を用いて雑音を推定する処理と、信号源から 観測地点までのインパルス応答と、前記推定残響力 前記推定雑音の影響を取り除 いたものと、前記周波数領域信号とを用いて残響を推定する処理と、前記推定雑音 と前記推定残響を混合して混合信号を求める処理と、該混合信号と前記周波数領域 信号を用いて抑圧係数を定める処理と、該抑圧係数で前記周波数領域信号を重み づけする処理とを実行させるための残響抑圧用プログラムである。
[0026] すなわち、本発明の残響抑圧の方法及び装置では、信号源から観測地点までのィ ンパルス応答に関する情報を用いて、推定した後期反射成分と、入力信号を用いて 推定した雑音とを、適切に混合してから入力信号において抑圧することを特徴とする
[0027] より具体的には、信号源から観測地点までのインパルス応答に関する情報を用い て、後期反射成分を推定する残響推定部と、入力信号を用いて雑音を推定する雑音 推定部と、推定残響と推定雑音を混合する混合部とを備えていることを特徴とする。 発明の効果
[0028] 本発明では、信号源力も観測地点までのインパルス応答に関する情報を用いて、 後期反射成分を推定し、入力信号を用いて雑音を推定し、これらを適切に混合して 力 抑圧するので、少ない演算量で高品質な残響抑圧と雑音抑圧を同時に達成す ること力 Sできる。
図面の簡単な説明
[0029] [図 1]本発明の第 1の実施の形態を示すブロック図。
[図 2]本発明の第 1の実施の形態に含まれる雑音推定部の構成を示すブロック図。
[図 3]図 2に含まれる推定雑音計算部の構成を示すブロック図。
[図 4]図 3に含まれる更新判定部の構成を示すブロック図。 園 5]図 2に含まれる重み付き劣化音声計算部の構成を示すブロック図。
園 6]非線形処理部における非線形関数の一例を示す図。
園 7]図 1に含まれる抑圧係数生成部の構成を示すブロック図。
園 8]図 7に含まれる推定先天的 SNR計算部の構成を示すブロック図。
園 9]図 8に含まれる多重重み付き加算部の構成を示すブロック図。
園 10]図 7に含まれる抑圧係数計算部の構成を示すブロック図。
園 11]図 7に含まれる抑圧係数補正部の構成を示すブロック図。
園 12]本発明の第 2の実施の形態を示すブロック図。
園 13]周波数サンプルの統合を説明する図。
園 14]本発明の第 3の実施の形態に含まれる残響推定部の構成を示すブロック図。 園 15]本発明の第 4の実施の形態を示すブロック図。
園 16]本発明の第 4の実施の形態に含まれる残響推定部の構成を示すブロック図。 園 17]本発明の第 5の実施の形態を示すブロック図。
園 18]本発明の第 6の実施の形態を示すブロック図。
園 19]本発明の第 7の実施の形態を示すブロック図。
[図 20]従来の残響抑圧装置の構成例を示すブロック図。
符号の説明
1. 25入力端子
2, 4逆フイノレタ
3 LP分析部
5係数更新部
6フレーム分割部
7, 16窓がけ処理部
8フーリエ変換部
9帯域統合部
10雑音推定部
12混合部
13抑圧係数生成部 14, 313, 1324, 1325, 1391, 1293, 1357乗算器
15逆フーリエ変換部
17フレーム合成部
18出力端子
19無音間隙減衰部
20, 1395定数乗算器
26適応フィルタ
27, 1015, 1328, 1392, 1394加算器
30, 31, 32, 40, 111残響推定部
101推定雑音計算部
102重みつき劣化音声計算部
103, 1018カウンタ
104推定雑音補正部
121選択部
131, 1022周波数別 SNR計算部
132推定先天的 SNR計算部
133, 1333抑圧係数計算部
134音声非存在確率記憶部
135抑圧係数補正部
141、 311減算器
200ノイズキャンセラ
312指数関数計算部
921瞬時推定 SNR
922過去の推定 SNR
923重み
924推定先天的 SNR
1000コンピュータ
1010更新判定部 1011レジスタ長記憶部
1012, 1021推定雑音記憶部
1013,1355スィッチ
1014シフトレジスタ
1016最小値選択部
1017除算部
1024多重非線形処理部
1101論理和計算部
1102, 1104,1354比較部
1103, 1105, 1353閾値記憶部
1106閾値計算部
1321多重値域限定処理部
1322後天的 SNR記憶部
1323抑圧係数記憶部
1326重み記憶部
1327多重重みつき加算部
1331 MMSE STSAゲイン関数値計算部
1332一般化尤度比計算部
1351最大値選択部
1352抑圧係数下限値記憶部
1356修正値記憶部
発明を実施するための最良の形態
[0031] 図 1は、本発明の最良の実施の形態を示すブロック図である。図 1は従来例である 図 20における残響推定部 111、減算器 141、定数乗算器 20、選択部 121、無音間隙 減衰部 19を、雑音推定部 10、残響推定部 30、混合部 12、抑圧係数生成部 13、乗算 器 14で置換した構成を有する。以下、これらの相違点を中心に詳細な動作を説明す る。
[0032] 推定雑音計算部 10は、フーリエ変換部 8から供給された複数の周波数成分それぞ れに対して雑音を推定し、混合部 12へ伝達する。雑音推定の方式の一例としては、 過去の信号対雑音比で劣化音声を重み付けて雑音成分とする方式があり、その詳 細は、例えば、特許文献 1 (特開 2002— 204175号)に記載されている。
[0033] 残響推定部 30は、後期反射を表すインパルス応答末尾の特性を求め、乗算器 14か ら供給された過去の残響抑圧信号と畳み込むことによって、現在の残響を推定する。 残響推定部 30には逆フィルタ 4からフィルタ係数に関する情報が供給されており、こ れを用いて後期反射成分を推定する。逆フィルタ 4から供給されるフィルタ係数を用 レヽて逆フィルタ 4の逆特性を求めると、これは信号源から観測地点までのインパルス 応答になる。このインパルス応答の末尾が後期反射を引き起こすので、末尾の係数 値を用いて、残響成分を推定することができる。また、室内における音響空間のイン ノ ルス応答末尾が指数減衰関数で近似されることはよく知られているので、求めたィ ンパルス応答の係数値をそのまま用いる代わりに、末尾を近似する指数関数を求め て、そのサンプノレ値を用いることもできる。末尾の係数値が指数減衰することが保証 されるので、逆フィルタ 4における演算で発生する可能性のある局所的な演算誤差を 避け、正確な残響を推定することができる。末尾を近似する指数関数を求める際には 、末尾のサンプノレ値の対数をとり、対数領域でこれらのサンプル値を直線近似し、得 られた直線の傾きを指数として用いても良い。また、最低 2点で唯一の指数関数を決 定することができるので、上記で使用する係数の数は 2以上であればレ、くつでもよレ、。 さらに、逆フィルタにおける係数更新によって発生する係数値の微小な変化による影 響を避けるために、逆フィルタから供給される係数を平均化してから、指数関数決定 に使用することもできる。この平均化は、指数関数を用いずに係数値を直接用いて残 響を推定する前記の実施例にも有効である。
[0034] このようにして推定された残響は、混合部 12へ伝達される。混合部 12は、供給され た推定雑音と推定残響を混合して、抑圧係数生成部 13へ伝達する。推定雑音と推 定残響の混合のうち、最も簡単な処理は、いずれか一方の選択である。推定雑音と 推定残響を比較し、どちらか大きい方を混合部 12の出力として抑圧係数生成部 13に 供給する。これは、残響と雑音のうち支配的な方を優先して抑圧することになり、出力 信号に含まれる雑音と残響が小さぐ明瞭な音声を得ることができる。一方、推定雑 音と推定残響のうち小さい方を、混合部 12の出力として抑圧係数生成部 13に供給す ることもできる。この場合には、大きい方を選択した場合と比較して、出力信号に残留 する残響と雑音は大きくなる。しかし、反対に、音声に含まれる歪みを小さく保つこと ができる。これらの二つの例の中間的な処理が、推定雑音と推定残響の混合である。 混合に際しては、両者をそのまま加算したり、加算した後にどちらか大きい方と同じ全 帯域パワーになるように正規化したり、小さいほうと同じ全帯域パワーになるように正 規化したり、両者の平均と同じ全帯域パワーになるように正規化したりすることができ る。
[0035] 抑圧係数生成部 13では、入力信号に乗算することによって残響と雑音が抑圧され た強調音声を求めるための、抑圧係数を複数の周波数成分それぞれに対して生成 する。抑圧係数生成の一例としては、強調音声の平均二乗誤差の期待値を最小化 する最小平均二乗短時間スペクトル振幅法が雑音抑圧において広く用いられており 、その詳細は特許文献 1に記載されている。雑音抑圧における抑圧係数の生成は推 定雑音と劣化音声に基づいて行うが、本発明では、推定残響と推定雑音の混合信 号と劣化音声に基づいて抑圧係数を生成する。
[0036] 周波数別に生成した抑圧係数は、乗算器 14に供給される。乗算器 14は、フーリエ 変換部 8から供給された劣化音声と抑圧係数生成部 13から供給された抑圧係数を、 各周波数で独立に乗算し、その積を強調音声のパワーとして逆フーリエ変換部 15に 伝達する。逆フーリエ変換部 15は、乗算器 14力 供給された強調音声パワーの平方 根とフーリエ変換部 3から供給された劣化音声の位相を合わせて逆フーリエ変換を 行レ、、強調音声信号サンプルとして、窓がけ処理部 16に供給する。窓がけ処理部 16 は、窓がけ処理部 7と同じ動作で強調音声信号サンプルを処理し、フレーム合成部 1 7に供給する。窓がけ処理部 16は、フレーム境界における信号の連続性を改善し、滑 らかな出力信号を得ることに貢献する。フレーム合成部 17では、隣接フレームの強調 音声サンプルを用いて当該フレームの出力音声サンプルを合成し、出力端子 18に供 給する。
[0037] 図 2は、雑音推定部 10の構成を、特許文献 1に記載された方式について表したプロ ック図である。便宜的に雑音を推定するものとして説明するが、実際は雑音の代わり に雑音と残響の混合信号を推定する。まず、雑音推定部 10の入力である劣化音声は 、推定雑音計算部 101と重みつき劣化音声計算部 102に供給される。重みつき劣化 音声計算部 102は、劣化音声パワースペクトルを用いて重みつき劣化音声パワース ベクトルを計算し、推定雑音計算部 101に伝達する。推定雑音計算部 101は、劣化音 声パワースペクトル、重みつき劣化音声パワースペクトル、及びカウンタ 103から供給 されるカウント値を用いて雑音のパワースペクトルを推定し、推定雑音パワースぺタト ルとして出力する。
[0038] 図 3は、図 2に含まれる推定雑音計算部 101の構成を示すブロック図である。推定雑 音計算部 101は、更新判定部 1010、レジスタ長記憶部 1011、推定雑音記憶部 1012、 スィッチ 1013、シフトレジスタ 1014、加算器 1015、最小値選択部 1016、除算部 1017、 カウンタ 1018を有する。スィッチ 1013には、図 2の重みつき劣化音声計算部 102から、 周波数別重みつき劣化音声パワースペクトルが供給されている。スィッチ 1013が回路 を閉じたときに、周波数別重みつき劣化音声パワースペクトルは、シフトレジスタ 1014 に伝達される。シフトレジスタ 1014は、更新判定部 1010から供給される制御信号に応 じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述す るレジスタ長記憶部 1011に記憶されている値に等しレ、。シフトレジスタ 1014の全レジ スタ出力は、加算器 1015に供給される。加算器 1015は、供給された全レジスタ出力を 加算して、加算結果を除算部 1017に伝達する。
[0039] 一方、更新判定部 1010には、カウント値、周波数別劣化音声パワースペクトル及び 周波数別推定雑音パワースペクトルが供給されている。更新判定部 1010は、カウント 値が予め設定された値に到達するまでは常に 'τ'を、到達した後は入力された劣化 音声信号が雑音であると判定されたときに 'τ'を、それ以外のときに'' 0"を出力し、力 ゥンタ 1018、スィッチ 1013、及びシフトレジスタ 1014に伝達する。スィッチ 1013は、更 新判定部から供給された信号が 'τ'のときに回路を閉じ、 "0"のときに開く。カウンタ 1
018は、更新判定部から供給された信号が 'Τ'のときにカウント値を増加し、 "0"のと きには変更しなレ、。シフトレジスタ 1014は、更新判定部から供給された信号力 I"の ときにスィッチ 1013から供給される信号サンプルを 1サンプノレ取り込むと同時に、内部 レジスタの記憶値を隣接レジスタにシフトする。最小値選択部 1016には、カウンタ 101 8の出力とレジスタ長記憶部 1011の出力が供給されている。
[0040] 最小値選択部 1016は、供給されたカウント値とレジスタ長のうち、小さい方を選択し て、除算部 1017に伝達する。除算部 1017は、加算器 1015から供給された周波数別劣 化音声パワースペクトルの加算値をカウント値又はレジスタ長の小さい方の値で除算 し、商を周波数別推定雑音パワースペクトル λ (k)として出力する。 B (k)(n=0, 1, ·· ., n n
N_l)をシフトレジスタ 1014に保存されている劣化音声パワースペクトルのサンプル値 とすると、 λ (k)は、
n
[0041] [数 1コ
Figure imgf000016_0001
で与えられる。ただし、 kは周波数番号、 Nはカウント値とレジスタ長のうち、小さい方 の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で 除算が行なわれ、後にはレジスタ長で除算が行なわれる。レジスタ長で除算が行な われることは、シフトレジスタに格納された値の平均値を求めることになる。最初は、シ フトレジスタ 1014に十分多くの値が記憶されていないために、実際に値が記憶されて レ、るレジスタの数で除算する。実際に値が記憶されているレジスタの数は、カウント値 力 Sレジスタ長より小さいときはカウント値に等しぐカウント値がレジスタ長より大きくな ると、レジスタ長と等しくなる。
[0042] 図 4は、図 3に含まれる更新判定部 1010の構成を示すブロック図である。更新判定 部 1010は、論理和計算部 1101、比較部 1102、 1104、閾値記憶部 1103、 1105、閾値計 算部 1106を有する。図 2のカウンタ 103から供給されるカウント値は、比較部 1102に伝 達される。閾値記憶部 1103の出力である閾値も、比較部 1102に伝達される。比較部 1 102は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに "1" を、カウント値が閾値より大きいときに' '0"を、論理和計算部 1101に伝達する。一方、 閾値計算部 1106は、図 3の推定雑音記憶部 1012から供給される周波数別推定雑 音パワースペクトルに応じた値を計算し、閾値として閾値記憶部 1105に出力する。 最も簡単な閾値の計算方法は、周波数別推定雑音パワースぺ外ルの定数倍である 。その他に、高次多項式や非線形関数を用いて閾値を計算することも可能である。 閾値記憶部 1105は、閾値計算部 1106力 出力された閾値を記憶し、 1フレーム前 に記憶された閾値を比較部 1104へ出力する。比較部 1104は、閾値記憶部 1105 力も供給される閾値と図 1のフーリエ変換部 8から供給される周波数別劣化音声パヮ 一スペクトルを比較し、周波数別劣化音声パワースペクトルが閾値よりも小さければ'' を、大きければ'' 0"を論理和計算部 1101に出力する。すなわち、推定雑音パワー スペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。論理 和計算部 1101は、比較部 1103の出力値と比較部 1104の出力値との論理和を計 算し、計算結果を図 3のスィッチ 1013、シフトレジスタ 1014及びカウンタ 1018に出力す る。このように、初期状態や無音区間だけでなぐ有音区間でも劣化音声パワーが小 さい場合には、更新判定部 1010は を出力する。すなわち、推定雑音の更新が行 われる。閾値の計算は各周波数で独立に行われるため、各周波数で独立に推定雑 音の更新を行うことができる。
[0043] 図 5は、図 2の重みつき劣化音声計算部 102の構成を示すブロック図である。重み つき劣化音声計算部 102は、推定雑音記憶部 1021、周波数別 SNR計算部 1022、多 重非線形処理部 1024、及び乗算器 1023を有する。推定雑音記憶部 1021は、図 2の 推定雑音計算部 101から供給される推定雑音パワースペクトルを記憶し、 1フレーム 前に記憶された推定雑音パワースペクトルを周波数別 SNR計算部 1022へ出力する。 周波数別 SNR計算部 1022は、推定雑音記憶部 1021から供給される推定雑音パワー スペクトルと劣化音声パワースペクトルを用いて SNRを各周波数帯域に対して求め、 多重非線形処理部 1024に出力する。具体的には、後者を前者で除した商を各周波 数帯域で求め、 SNRとする。多重非線形処理部 1024は、周波数別 SNR計算部 1022 力も供給される SNRを用いて重み係数べ外ルを計算し、重み係数べ外ルを乗算器 1023に出力する。多重非線形処理部 1024は、各周波数帯域に対応して、入力値に 応じた実数値を出力する非線形関数を有する。
[0044] 図 6に、非線形関数の例を示す。 f を入力値としたとき、図 6に示される非線形関数
1
の出力値 f は、 [0045] ほ ]
Figure imgf000018_0001
で与えられる。但し、 aと bは任意の実数である。
多重非線形処理部 1024は、周波数帯域別 SNRを非線形関数によって処理して重み 係数を求め、乗算器 1023に伝達する。すなわち、多重非線形処理部 1024は、 SNRに 応じた 1から 0までの重み係数を各周波数帯域で計算し、重み係数ベクトルとして乗 算器 1023に伝達する。 SNRが小さい時は 1を、大きい時は 0を出力する。
[0046] 乗算器 1023で劣化音声パワースペクトルと乗算される重み係数は、 SNRに応じた 値になっており、 SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい 程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースぺク トルが用いられるが、推定雑音の更新に用いる劣化音声パワースペクトルに対して、 SNRに応じた重みづけを行うことで、劣化音声パワースペクトルに含まれる音声成分 の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。なお、重 み係数の計算に非線形関数を用いた例を示したが、非線形関数以外にも線形関数 や高次多項式など、他の形で表される SNRの関数を用いる事も可能である。乗算器 1 023は、劣化音声パワースペクトルと、多重非線形処理部 1024から供給される重み係 数ベクトルの積を周波数帯域毎に計算し、重みつき劣化音声パワースペクトルを図 2 の推定雑音計算部 101に出力する。
[0047] 図 7は、図 1に含まれる抑圧係数生成部 13の構成を示すブロック図である。抑圧係 数生成部 13は、周波数別 SNR計算部 131、推定先天的 SNR計算部 132、雑音抑圧係 数計算部 133、音声非存在確率記憶部 134、抑圧係数補正部 135を有する。周波数 別 SNR計算部 6は、図 1のフーリエ変換部 8から入力された劣化音声パワースぺクトノレ と図 1の混合部 12から入力された推定雑音と推定残響の混合パワースペクトルを用 いて、周波数帯域別に SNRを計算し、後天的 SNRとして推定先天的 SNR計算部 132と 抑圧係数計算部 133に供給する。推定先天的 SNR計算部 132は、入力された後天的 S NR、及び抑圧係数補正部 135から供給された補正抑圧係数を用いて先天的 SNRを 推定し、推定先天的 SNRとして、抑圧係数計算部 133に伝達する。抑圧係数計算部 1 33は、入力として供給された後天的 SNR、推定先天的 SNR及び音声非存在確率記憶 部 134から供給される音声非存在確率を用いて抑圧係数を計算し、抑圧係数補正部 135に伝達する。抑圧係数補正部 135は、入力された推定先天的 SNRと抑圧係数を 用いて抑圧係数を補正し、補正抑圧係数 G (k)バーとして図 1の乗算器 14に供給する n
[0048] 図 8は、図 7に含まれる推定先天的 SNR計算部 132の構成を示すブロック図である。
推定先天的 SNR計算部 132は、多重値域限定処理部 1321、後天的 SNR記憶部 1322 、抑圧係数記憶部 1323、乗算器 1324、 1325、重み記憶部 1326、多重重みつき加算 部 1327、加算器 1328を有する。図 7の周波数別 SNR計算部 131から供給される後天 的 SNR y (k) (k=0, 1, . ··, M-l)は、後天的 SNR記憶部 1322と加算器 1328に伝達され n
る。後天的 SNR記憶部 1322は、第 nフレームにおける後天的 SNR y (k)を記憶すると n
共に、第 n-1フレームにおける後天的 SNR y (k)を乗算器 1325に伝達する。図 7の抑 n-1
圧係数補正部 135から供給される補正抑圧係数 G (k)バー(k=0, 1, M-l)は、抑圧 n
係数記憶部 1323に伝達される。抑圧係数記憶部 1323は、第 nフレームにおける補正 抑圧係数 G (k)バーを記憶すると共に、第 n_lフレームにおける補正抑圧係数 G (k)
n n-1 バーを乗算器 1324に伝達する。乗算器 1324は、供給された G (k)バーを 2乗して G2 (
n n-1 k)バーを求め、乗算器 1325に伝達する。乗算器 1325は、 G (k)バーと γ (k)を k=0,
n-1 n-1
1,..., M-lに対して乗算して G2 (k)バー γ (k)を求め、結果を多重重み付き加算部
11 - 1 n-1
1327に過去の推定 SNR 922として伝達する。
[0049] 加算器 1328の他方の端子には一 1が供給されており、加算結果 γ (k)_lが多重値
11
域限定処理部 1321に伝達される。多重値域限定処理部 1321は、加算器 1328から供 給された加算結果 γ (k)-lに値域限定演算子 Ρ[·]による演算を施し、結果である Ρ[
η
y (k)-l]を多重重みつき加算部 1327に瞬時推定 SNR 921として伝達する。ただし、 P[ X]は次式で定められる。
[0050] 圖
Figure imgf000020_0001
多重重みつき加算部 1327には、また、重み記憶部 1326から重み 923が供給されて いる。多重重みつき加算部 1327は、これらの供給された瞬時推定 SNR 921、過去の 推定 SNR 922、重み 923を用いて推定先天的 SNR 924を求める。重み 923をひとし、 ξ (k)ハットを推定先天的 SNRとすると、 ξ (k)ハットは、次式によって計算される。
n n
[0051] [数 4コ
I (k) = γη_χ H (k) + (1 -
Figure imgf000020_0002
l] ここに、 G2 (k) (k)バー =1とする。
- 1 - 1
[0052] 図 9は、図 8に含まれる重みつき加算部 1327の構成を示すブロック図である。重み つき加算部 1327は、乗算器 1391、 1393、定数乗算器 1395、加算器 1392、 1394を有す る。図 8の多重値域限定処理部 1321から周波数帯域別瞬時推定 SNR921が、図 8の 乗算器 1325から過去の周波数帯域別 SNR922力 図 8の重み記憶部 1326から重み 92 3が、それぞれ入力として供給される。値 αを有する重み 923は、定数乗算器 1395と 乗算器 1393に伝達される。定数乗算器 1395は入力信号を 1倍して得られた αを 、加算器 1394に伝達する。加算器 1394のもう一方の入力としては 1が供給されており 、加算器 1394の出力は両者の和である 1― αとなる。 1 - aは乗算器 1391に供給さ れて、もう一方の入力である周波数帯域別瞬時推定 SNR P[ y (k)— 1]と乗算され、
n
積である (1 α )Ρ[ γ (k)— 1]が加算器 1392に伝達される。一方、乗算器 1393では、
n
重み 923として供給された αと過去の推定 SNR 922が乗算され、積である a G2 (k)バ
n-1 一 y (k)が加算器 1392に伝達される。加算器 1392は、(1 a )P[ y (k)— 1]と a G2 n-1 n n-1
(k)バー γ (k)の和を、周波数帯域別推定先天的 SNR 924として、出力する。 [0053] 図 10は、図 7に含まれる抑圧係数生成部 133を示すブロック図である。抑圧係数生 成部 133は、 MMSE STSAゲイン関数値計算部 1331、一般化尤度比計算部 1332、 及び抑圧係数計算部 1333を有する。以下、非特許文献 4 (1984年 12月、アイ 'ィ一 'イ^ ~ .イ^ ~ .トランザクションズ.オン.ァクースティタス.スピーチ.アンド 'シグナル.プ ロセシング、第 32卷、第 6号 (IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AN D SIGNAL PROCESSING,VOし 32, NO.6, PP.1109- 1121, DEC, 1984)、 1109〜1121 ページ)に記載されている計算式をもとに、抑圧係数の計算方法を説明する。
[0054] フレーム番号を n、周波数番号を kとし、 γ (k)を図 7の周波数別 SNR計算部 131か
11
ら供給される周波数別後天的 SNR、 ξ (k)ハットを図 7の推定先天的 SNR計算部 132
n
から供給される周波数別推定先天的 SNR、 qを図 7の音声非存在確率記憶部 134か ら供給される音声非存在確率とする。
[0055] また、 η (k) = ξ (k)ハット/ (1- q)、 V (k) = ( 7] (k) γ (k))/(l+ η (k)) とする。
n n n n n n
[0056] MMSE STSAゲイン関数値計算部 1331は、図 7の周波数別 SNR計算部 131から供 給される後天的 SNR y (k)、図 7の推定先天的 SNR計算部 132から供給される推定先
n
天的 SNR ξ (k)ハット及び図 7の音声非存在確率記憶部 134から供給される音声非
n
存在確率 qをもとに、各周波数帯域で独立に MMSE STSAゲイン関数値を計算し、抑 圧係数計算部 1333に出力する。各周波数帯域の MMSE STSAゲイン関数値 G (k)は
[0057] ほ女 5] )
Figure imgf000021_0001
Figure imgf000021_0002
で与えられる。ここに、 I (z)は 0次変形ベッセル関数、 I (z)は 1次変形ベッセル関数
0 1
である。変形ベッセル関数については、非特許文献 5 (1985年、数学辞典、岩波書店 、 374.Gページ)に記載されている。
[0058] 一般化尤度比計算部 1332は、図 7の周波数別 SNR計算部 131から供給される後 天的 SNR y (k)、図 7の推定先天的 SNR計算部 132から供給される推定先天的 SNR
11
a (k)ハット及び図 7の音声非存在確率記憶部 134から供給される音声非存在確率 q n
をもとに、周波数帯域毎に一般化尤度比を計算し、抑圧係数計算部 1333に伝達する 。周波数帯域毎の一般化尤度比 Λ (k)は、
[0059] ほ女 6]
Figure imgf000022_0001
で与えられる。
[0060] 抑圧係数計算部 1333は、 MMSE STSAゲイン関数値計算部 1331から供給される M MSE STSAゲイン関数値 G (k)と一般化尤度比計算部 1332から供給される一般化尤
n
度比 Λ (k)から周波数毎に抑圧係数を計算し、図 7の抑圧係数補正部 135へ出力す n
る。周波数帯域毎の抑圧係数 G (k)バーは、
[0061] [数 7]
Figure imgf000022_0002
で与えられる。
[0062] 図 11は、図 7に含まれる抑圧係数補正部 135を示すブロック図である。抑圧係数補 正部 135は、最大値選択部 1351、抑圧係数下限値記憶部 1352、閾値記憶部 1353、 比較部 1354、スィッチ 1355、修正値記憶部 1356及び乗算器 1357を各帯域に対して 有する。比較部 1354は、閾値記憶部 1353から供給される閾値と、図 7の推定先天的 S NR計算部 132から供給される周波数帯域別推定先天的 SNRを比較し、周波数帯域 別推定先天的 SNRが閾値よりも大きければ' '0"を、小さければ " をスィッチ 1355に 供給する。スィッチ 1355は、図 7の抑圧係数計算部 133から供給される周波数帯域 別抑圧係数を、比較部 1354の出力値が "1"のときに乗算器 1357に出力し、 "0"の ときに最大値選択部 1351に出力する。すなわち、周波数帯域別推定先天的 SNRが 閾値よりも小さいときに、抑圧係数の補正が行われる。乗算器 1357は、スィッチ 1355 の出力値と修正値記憶部 1356の出力値との積を計算し、最大値選択部 1351に伝 達する。
[0063] 一方、抑圧係数下限値記憶部 1352は、記憶してレ、る抑圧係数の下限値を、最大 値選択部 1351に供給する。最大値選択部 1351は、図 7の抑圧係数計算部 133から 供給される周波数帯域別抑圧係数、又は乗算器 1357で計算された積と、抑圧係数 下限値記憶部 1352から供給される抑圧係数下限値とを比較し、大きい方の値を図 1 の乗算器 14に出力する。すなわち、抑圧係数は抑圧係数下限値記憶部 1352が記憶 する下限値より、必ず大きい値になる。
[0064] 図 1の構成では、残響推定部 112で信号源から観測地点までのインパルス応答を逐 次求めて、後期反射によって発生する残響を推定するので、高品質な残響抑圧信号 を得ることができる。また、残響推定部 112で残響を推定し、雑音推定部 10で雑音を 推定し、混合部で推定残響と推定雑音の混合信号を生成し、この混合信号に基づい て抑圧係数を生成するので、少ない演算量で高品質な雑音抑圧と残響抑圧を同時 に達成することができる。
[0065] 図 12は、本発明の第二の実施の形態を示すブロック図である。第一の実施の形態 を示す図 1との違いは、帯域統合部 9である。帯域統合部 9は、複数の周波数成分に 対応した信号サンプルを統合して総数を削減し、雑音推定部 10、抑圧係数生成部 13 、及び乗算器 14へ伝達する。統合に際しては、複数の信号サンプノレを加算し、加算 したサンプル数で除することによって、平均値を求める。
[0066] 図 13は、帯域統合部 9において複数の周波数サンプルが統合される様子を説明 するための図である。ここでは、 8kHzサンプリング、すなわち帯域が 4kHzである信号 を、ブロック長 Lでフーリエ変換する場合を示している。本発明の第一の実施の形態 では、フーリエ変換された劣化音声信号サンプルは、フーリエ変換のブロック長 Lと等 しい数だけ生じる。しかし、このうち互いに独立なものは、その半分の L/2となる。本 発明の第二の実施の形態では、これら L/2サンプルを部分的に統合し、独立な周波 数成分の数を削減する。その際に、高周波領域でより多くのサンプルを一つのサン プルに統合する。すなわち、高域成分ほどたくさんの周波数成分を一つに統合する ことになり、不等分割されることになる。このような不等分割の例としては、低域側に向 力つて 2のべき乗で帯域が狭くなるオクターブ分割、人間の聴覚特性に基づいて帯 域分割された臨界帯域などが知られている。臨界帯域の詳細に関しては、非特許文 献 6 (1992年、心理音響学、西村書店)を参照することができる。
[0067] 特に、臨界帯域に従った帯域分割は、人間の聴覚特性と整合性が高いために、広 く用いられている。 4kHz帯域では、臨界帯域は全部で 18の帯域力も構成される。一 方、図 13に示すように、本発明の第二の実施の形態では、特に低域で臨界帯域より も細分化することによって、音質の劣化を防ぐ。 1156Hzより高い周波数から 4kHzまで は、臨界帯域と同じ帯域分割を採用するが、それよりも低域ではさらに帯域を細分化 することに特徴がある。図 13には、 L = 256の例を示している。直流から 13番目の周 波数成分までは、統合せずにそのまま独立に取り扱う。これらに続く 14成分は 2成分 ずつの 7グループに統合する。さらに続く 6成分は 3成分ずつの 2グループに統合する 。この後、 4成分で 1グループと統合し、それ以上は臨界帯域に一致するように成分を 統合する。このように周波数成分を統合することによって、独立な周波数成分の数を 、 128から 32に低減することができる。フーリエ変換後の 128周波数成分と統合後の 32 周波数成分の対応を表 1に示す。周波数成分一つあたり 4000/128=31·25Ηζとなるの で、これを用いて計算した対応周波数が一番右の欄に示されている。
[0068] 帯域統合部 9の動作においては、 400Hz程度以下の周波数で周波数成分の統合 を行わないことが重要である。この周波数領域で周波数成分の統合を行うと、分解能 が低下し、音質の低下をもたらす。一方、 1156Hz程度以上の周波数では、臨界帯域 に従って周波数成分を統合してもよい。また、入力信号の帯域が広くなつたときには 、フーリエ変換のブロック長 Lを長くして、音質を保つ必要がある。これは、上記 400Hz 以下の周波数成分の統合を行わない帯域で、一つの周波数成分あたりの帯域が増 加し、分解能が劣化するためである。例えば、 L = 256、帯域 4kHzを基準にすると、フ 一リエ変換のブロック長 Lを L>fs/31.25で求めることによって、広帯域信号でも 4kH z帯域のときと同程度の音質を維持することができる。この法則に従って Lを 2のべき 乗に選ぶと、 8kHz< fs≤16kHzで L = 512、 16kHz< fs≤32kHzで L = 1024、 32kHz < fs≤64kHzで L = 2048となる。表 1に対応した fs= 16kHzの例を表 2に示す。表 2は一 例であり、帯域統合の境界が少しだけ異なるものは、同等の効果を有する。
[0069] 帯域が統合された各周波数帯域に対する統合劣化音声パワースペクトルは、雑音 推定部 10、抑圧係数生成部 13、及び乗算器 14に供給される。残響推定部 30でも、図 13のパターンに統合した周波数帯域のそれぞれにおいて残響を推定し、混合部 12 に供給する。混合部 12は、統合された帯域に対する推定雑音と推定残響を混合し、 その結果を抑圧係数生成部 13に供給する。抑圧係数生成部 13は、統合された帯域 における残響と雑音の混合信号に対して抑圧係数を計算し、乗算器 14に供給する。 乗算器 14は、入力された劣化音声スペクトルと抑圧係数を乗算し、強調音声振幅ス ベクトルとして逆フーリエ変換部 15へ伝達する。
[0070] 本発明の第三の実施の形態として、第二の実施の形態を表す図 12において、雑 音推定部 10を雑音推定部 40で置換した構成が可能である。図 14は、本発明の第三 の実施の形態に含まれる雑音推定部 40を示すブロック図である。第一及び第二の実 施の形態に含まれる雑音推定部 10との違いは、推定雑音補正部 104である。推定雑 音補正部 104は、推定雑音計算部 101から供給される推定雑音を補正して、これを推 定雑音パワースペクトルとして図 1の混合部 12に伝達する。推定雑音補正部 104にお ける補正の最も基本的な動作は、全周波数成分に同じ定数を乗じることである。定数 を周波数毎に異なったものとすることも可能である。この特殊な場合が、特定の周波 数に対する定数を 1.0に設定することであり、定数 1.0が適用された周波数におけるデ 一タには補正が行われず、それ以外の周波数のデータに対して補正が行われる。す なわち、周波数に対して選択的な補正が可能となる。このほかにも、周波数毎に異な つた値を加算したり、非線形処理したりするなどの補正が可能である。このような補正 を行うことによって、帯域統合によって生じた推定雑音値の真値からのずれを低減し 、出力である強調音声の音質を高く保つことが可能となる。残響がゼロである場合に 対しては、 8kHzサンプリングにおいて、 1000Hz相当以上の帯域の推定雑音に定数 0. 7を乗じることが適切であることが、非公式な主観評価によって明らかになつている。
[0071] [表 1] 表 1. 周波数成分統合による不等分割サブバンド生成 (f s=8kHz)
Figure imgf000026_0001
2] 表 2 . 周波数成分統合による不等分割サブバンド生成 ( f s= 16kHz)
Figure imgf000027_0001
図 15は、本発明の第四の実施の形態を示すブロック図である。第一の実施の形態 を示す図 1との違いは、残響推定部 31である。残響推定部 31には、過去の強調音声 に代えて、劣化音声と雑音推定部 10の出力である推定雑音が供給されている。残響 推定部 31は、雑音推定部から供給された推定雑音を用いて劣化音声中の雑音の影 響を軽減してから、残響の推定を行う。
[0073] 図 16は、残響推定部 31の実施の形態を示すブロック図である。残響推定部 31は、 減算器 311、指数関数計算部 312、乗算器 313を含む。図 15の雑音推定部 10力も供 給された推定雑音は、減算器 311に供給される。減算器 311は、図 15のフーリエ変換 部 8から劣化音声パワースペクトルも供給されており、推定雑音パワースペクトルを差 し引いた結果が乗算器 313に伝達される。一方、逆フィルタ 4から供給されたフィルタ 係数は、指数関数計算部 312に供給される。指数関数計算部 312は、逆フィルタ 4から 供給されたフィルタ係数に関する情報を用いて後期反射成分に対応する指数関数 を推定する。指数関数計算部 312はさらに、予め定めされたサンプル数だけ、得られ た指数関数をシフトして、シフトされた指数関数を乗算器 313に伝達する。乗算器 313 は、減算器 311の出力とシフトされた指数関数の積を、推定残響パワースペクトルとし て求める。求めた推定残響パワースペクトルは、図 15の混合部 12に供給される。指数 関数計算部 312と乗算器 313における残響の推定は、非特許文献 7 (2005年 3月、ァ ィ.ィ^ ィ^ ィ^ プロシーディングス.ォブ.インターナショナル.カンフアレンス.ォ ン ·ァクースティタス ·スピーチ ·アンド ·シグナノレ ·プロセシング (IEEE PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PP.173- 176, MAR, 2005)、 173〜176ページ)に詳細に示されている
[0074] 第四の実施の形態では、残響推定部 31で推定雑音の影響を排除した劣化音声パ ワースベクトルを用いて残響の推定を行うので、正確な残響の推定が可能となり、強 調音声の品質を改善することができる。
[0075] 図 17は、本発明の第五の実施の形態を示すブロック図である。第四の実施の形態 と第五の実施の形態の関係は、第一の実施の形態と第二の実施の形態の関係に等 しぐ帯域統合部 9の存在が相違点となる。帯域統合部 9の動作については、第二の 実施の形態の説明におレ、て説明したので、省略する。
[0076] 図 18は、本発明の第六の実施の形態を示すブロック図である。第六の実施の形態 は第一の実施の形態の入力側に 2入力ノイズキャンセラ 200が縦続接続されている。 2 入力ノイズキャンセラ 200の主要構成要素である適応フィルタ 26の係数は、残響推定 部 32に供給される。残響推定部 32は、このインパルス応答を用いて、残響推定部 30 と同様の手順によって、残響を推定する。 2入力ノイズキャンセラ 200は、少なくとも、 適応フィルタ 26と減算器 27を含む。第二の入力端子 25には、第一の入力端子 1に供 給される劣化音声に含まれる雑音成分と相関のある信号が供給される。入力端子 25 に供給された信号は、適応フィルタ 26に伝達され、適応フィルタ 26は係数と畳込み演 算を行った結果を出力する。出力された畳込み結果は減算器 27に供給される。一方 、減算器 27の他方の入力には前記劣化音声が供給されている。減算器 27は、前記 劣化音声から適応フィルタ 26の出力を減算して、その結果を雑音消去信号として出 力する。適応フィルタ 26の係数は、減算器 27の出力信号が何らかの基準で最小化さ れるように、減算器 27の出力を用いて更新される。前記最小化の基準として平均二 乗瞬時パワーを用いるものが LMSアルゴリズムとして、累積二乗パワーを用いるもの が LSアルゴリズムとして知られている。このようにして最適化した適応フィルタ 26の係 数は、入力端子 25に供給される信号の観測地点から入力端子 1に供給される信号の 観測地点に至るインパルス応答を近似することが知られている。従って、適応フィル タ 26の出力は入力端子 1に供給される信号に含まれる雑音成分を近似しており、減 算器 27の出力には雑音の消去された信号が得られる。以上の説明から明らかなよう に、適応フィルタ 26の係数は本発明の残響抑圧装置が使用される環境のインパルス 応答を近似しており、これらを用いて残響推定部 32において残響を推定することがで きる。
第一の実施の形態では、逆フィルタ 4から供給された信号源から観測地点に至るィ ンパルス応答の逆特性に基づいて、残響推定部 30が前記インパルス応答を求めて いた。第六の実施の形態では、 2入力ノイズキャンセラ 200の主要構成要素である適 応フィルタ 26から前記インパルス応答自体が直接、残響推定部 32に供給される。残 響推定部 32は、このインパルス応答を用いて、残響推定部 30と同様の手順によって、 残響を推定する。また、第一の実施の形態で説明したように、利用する係数の数は 2 以上であればいくつでもよ 係数平均化も、有効である。なお、 2入力ノイズキャンセ ラ 200に代えて、音響エコーキャンセラを用いることもできる。これは、音響エコーキヤ ンセラ力 S、スピーカからマイクロフォンに至る音響特性を同定する適応フィルタを内部 に含むからである。この適応フィルタの係数を残響推定部 32に供給することにより、 2 入力ノイズキャンセラの場合と全く同様の手順で、残響を推定することができる。同様 の理由で、 2入力ノイズキャンセラ 200に代えて、マイクロフォンアレイの多入力キャン セラ部の適応フィルタ係数の一部、全部、またはこれらの平均値を用いることによって 、同様の効果を得ることができる。
[0078] 第六の実施の形態では、 2入力ノイズキャンセラと第一の実施の形態の縦続接続に ついて説明したが、 2入力ノイズキャンセラと第二から第五の実施の形態の縦続接続 も、同様の効果を有する。また、 2入力ノイズキャンセラに代えて、音響エコーキャンセ ラゃマイクロフォンアレイを利用できることも同様である。
[0079] これまで説明した全ての実施の形態では、抑圧係数生成部 13を主な構成要素とす る抑圧部として、最小平均 2乗誤差短時間スペクトル振幅法を仮定してきたが、 その 他の方法も適用することができる。このような方法の例として、 非特許文献 8 (1979年
12月、プロシーディンダス'ォブ'ザ'アイ 'ィ一'ィ一'ィー、第 67卷、第 12号(PROC
EEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586- 1604, DEC, 1979)、 1586〜16
04ページ)に開示されているウイーナーフィルタ法や、非特許文献 9 (1979年 4月、 アイ.ィ一.ィー.ィ一.トランザクションズ.オン.ァクースティタス.スピーチ.アンド.シグ ナル.プロセシング、第 27卷、第 2号 (IEEE TRANSACTIONS ON ACOUSTICS, SPEE CH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113— 120, APR, 1979)、 113〜 120ページ)に開示されているスペクトル減算法などがある力 これらの詳細な構成 例については説明を省略する。
[0080] 図 19は、本発明の第七の実施の形態を示すブロック図である。本発明の第七の実 施の形態は、プログラム制御により動作するコンピュータ(中央処理装置;プロセッサ; データ処理装置) 1000と、入力端子 1及び 25、及び出力端子 18とから構成されている
[0081] コンピュータ(中央処理装置;プロセッサ;データ処理装置) 1000は、雑音推定部 10 、残響推定部 30、混合部 12、抑圧係数生成部 13、乗算器 14、ノイズキャンセラ 200を 含む。残響推定部 30に代えて、残響推定部 31または 32のいずれかを含んでもよいし 、雑音推定部 10に代えて雑音推定部 40を含んでもよい。 [0082] 入力端子 1及び 25に供給された劣化音声は、コンピュータ 1000内のノイズキャンセ ラに供給され、雑音が消去される。雑音が消去された信号を用いて、含まれる残響が 残響推定部 30で、消去し切れなかった雑音が雑音推定部 10で推定される。残響の 推定に際しては、ノイズキャンセラ 200の内部に含まれる適応フィルタ 26の係数値を用 いる。これらの推定信号は、混合部 12で混合され、抑圧係数生成部 13に供給される 。抑圧係数生成部は、供給された推定雑音と推定残響の混合信号から適切な抑圧 係数を生成する。生成された抑圧係数を用いて、乗算器 14は残響と前記消去し切れ なかった雑音の抑圧を行レ、、出力端子 18に供給する。なお、ノイズキャンセラ 200を 用いずに、入力端子 1から供給された劣化音声の線形予測残差の尖度を最大化す るような逆フィルタを用いる構成も可能である。その際には、入力端子 25は不要となる 。また、ノイズキャンセラ 200に代えて、エコーキャンセラやマイクロフォンアレイと組み 合わせる構成も可能である。
[0083] 本発明では、残響推定に信号源から観測地点までのインパルス応答を用いるよう に構成されているため、正確な残響推定が可能となり、効果的な残響抑圧を行うこと ができる。また、残響と雑音の推定を行い、これらを適切に混合してから抑圧するよう に構成されているため、少ない演算量で残響と雑音の抑圧を同時に行うことができる

Claims

請求の範囲
[1] 入力信号を周波数領域信号に変換し、
該周波数領域信号を用いて雑音を推定し、
信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定 し、
前記推定雑音と前記推定残響を混合して混合信号を求め、
該混合信号と前記周波数領域信号を用いて抑圧係数を定め、
該抑圧係数で前記周波数領域信号を重みづけすることによって、残響を抑圧する ことを特徴とする残響抑圧の方法。
[2] 前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除 いたものと、前記周波数領域信号とを用いて残響を推定することを特徴とする請求項 1に記載の雑音抑圧の方法。
[3] 前記周波数領域信号の帯域を統合して統合周波数領域信号を求め、該統合周波 数領域信号を前記周波数領域信号に代えて用いることによって、前記抑圧係数を求 めることを特徴とする請求項 1または請求項 2に記載の雑音抑圧の方法。
[4] 入力信号サンプル間の相関を除去して相関除去信号を求め、
該相関除去信号を適応フィルタで処理して仮早期反響抑圧信号を求め、 該仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更新 し、
前記適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信号を処 理して早期反響除去信号を求め、
前記適応フィルタの係数を用レ、て前記インノ^レス応答を求め、
前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 1から 請求項 3のいずれかに記載の雑音抑圧の方法。
[5] 参照信号を第一の適応フィルタで処理して擬似雑音を求め、
該擬似雑音を入力信号から差し引いて雑音消去信号を求め、
該雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて、 前記第一の適応フィルタの係数を更新し、 前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、
前記雑音除去信号を前記入力信号として用いることを特徴とする請求項 1から請求 項 3のいずれかに記載の雑音抑圧の方法。
[6] 前記雑音除去信号のサンプル間相関を除去して相関除去信号を求め、
該相関除去信号を第二の適応フィルタで処理して仮早期反響抑圧信号を求め、 該仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係数 を更新し、
前記第二の適応フィルタの係数と同一の係数を有する固定フィルタで前記入力信 号を処理して早期反響除去信号を求め、
前記第一の適応フィルタの係数を用いて前記インパルス応答を求め、 前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 5に 記載の雑音抑圧の方法。
[7] 入力信号を周波数領域信号に変換する変換部と、
該周波数領域信号を用いて推定雑音を求める雑音推定部と、
信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定 する残響推定部と、
前記推定雑音と前記推定残響を混合して混合信号を求める混合部と、 該混合信号と前記周波数領域信号を用いて抑圧係数を定める抑圧係数生成部と 該抑圧係数で前記周波数領域信号を重みづけする乗算部と、
を有することを特徴とする残響抑圧の装置。
[8] 前記過去の強調音声に代えて、前記推定残響から前記推定雑音の影響を取り除 いたものと、前記周波数領域信号とを用いて残響を推定する残響推定部を有するこ とを特徴とする請求項 7に記載の雑音抑圧の装置。
[9] 前記周波数領域信号の帯域を統合して統合周波数領域信号を求める帯域統合部 を有し、
該統合周波数領域信号を前記周波数領域信号に代えて用いることによって、前記 抑圧係数を求めることを特徴とする請求項 7または請求項 8に記載の雑音抑圧の装 置。
[10] 入力信号サンプル間の相関を除去して相関除去信号を求める相関除去部と、 該相関除去信号を処理して仮早期反響抑圧信号を求める適応フィルタと、 前記適応フィルタの係数と同一の係数で前記入力信号を処理して早期反響除去 信号を求める固定フィルタと、
前記適応フィルタの係数を用いて前記インパルス応答を求める残響推定部と を有し、
前記仮早期反響抑圧信号の尖度を最大化するように前記適応フィルタの係数を更 新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする請求項 7 から請求項 9のいずれかに記載の雑音抑圧の装置。
[11] 参照信号を処理して擬似雑音を求める第一の適応フィルタと、
該擬似雑音を入力信号力 差し引いて雑音消去信号を求める減算器と、 前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部 を有し、
前記雑音除去信号が最小となるように前記雑音除去信号と前記参照信号を用いて 、前記第一の適応フィルタの係数を更新し、前記雑音除去信号を前記入力信号とし て用いることを特徴とする請求項 7から請求項 9のいずれかに記載の雑音抑圧の装 置。
[12] 前記雑音除去信号のサンプル間相関を除去して相関除去信号を求める相関除去 部と、
該相関除去信号を処理して仮早期反響抑圧信号を求める第二の適応フィルタと、 前記第二の適応フィルタの係数と同一の係数で前記入力信号を処理して早期反 響除去信号を求める固定フィルタと、
前記第一の適応フィルタの係数を用いて前記インパルス応答を求める残響推定部 と
を有し、
前記仮早期反響抑圧信号の尖度を最大化するように前記第二の適応フィルタの係 数を更新し、前記早期反響抑圧信号を前記入力信号として用いることを特徴とする 請求項 11に記載の雑音抑圧の装置。
[13] コンピュータに、
入力信号を周波数領域信号に変換する処理と、
該周波数領域信号を用いて雑音を推定する処理と、
信号源から観測地点までのインパルス応答と過去の強調音声を用いて残響を推定 する処理と、
前記推定雑音と前記推定残響を混合して混合信号を求める処理と、
該混合信号と前記周波数領域信号を用いて抑圧係数を定める処理と、 該抑圧係数で前記周波数領域信号を重みづけする処理と
を実行させるための残響抑圧用プログラム。
[14] コンピュータに、
入力信号を周波数領域信号に変換する処理と、
該周波数領域信号を用いて雑音を推定する処理と、
信号源から観測地点までのインパルス応答と、前記推定残響から前記推定雑音の 影響を取り除いたものと、前記周波数領域信号とを用いて残響を推定する処理と、 前記推定雑音と前記推定残響を混合して混合信号を求める処理と、
該混合信号と前記周波数領域信号を用いて抑圧係数を定める処理と、 該抑圧係数で前記周波数領域信号を重みづけする処理と
を実行させるための残響抑圧用プログラム。
PCT/JP2006/322444 2005-11-15 2006-11-10 残響抑圧の方法、装置及び残響抑圧用プログラム WO2007058121A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007545219A JP4973873B2 (ja) 2005-11-15 2006-11-10 残響抑圧の方法、装置及び残響抑圧用プログラム
US12/084,968 US8073147B2 (en) 2005-11-15 2006-11-10 Dereverberation method, apparatus, and program for dereverberation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-329737 2005-11-15
JP2005329737 2005-11-15

Publications (1)

Publication Number Publication Date
WO2007058121A1 true WO2007058121A1 (ja) 2007-05-24

Family

ID=38048508

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/322444 WO2007058121A1 (ja) 2005-11-15 2006-11-10 残響抑圧の方法、装置及び残響抑圧用プログラム

Country Status (3)

Country Link
US (1) US8073147B2 (ja)
JP (1) JP4973873B2 (ja)
WO (1) WO2007058121A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009005261A (ja) * 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
WO2011055829A1 (ja) * 2009-11-06 2011-05-12 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
WO2011055834A1 (ja) * 2009-11-06 2011-05-12 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
CN102763343A (zh) * 2010-02-24 2012-10-31 松下电器产业株式会社 通信终端以及通信方法
JP2013030956A (ja) * 2011-07-28 2013-02-07 Fujitsu Ltd 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP2021149084A (ja) * 2020-03-13 2021-09-27 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4916394B2 (ja) * 2007-07-03 2012-04-11 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
JP5486179B2 (ja) * 2008-11-25 2014-05-07 三星電子株式会社 送信装置、受信装置、信号送信方法、及び信号受信方法
EP2237271B1 (en) * 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8682670B2 (en) * 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
EP2943954B1 (en) * 2013-01-08 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
US9858946B2 (en) * 2013-03-05 2018-01-02 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
JP6169910B2 (ja) * 2013-07-08 2017-07-26 本田技研工業株式会社 音声処理装置
JP6077957B2 (ja) * 2013-07-08 2017-02-08 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP6371167B2 (ja) * 2014-09-03 2018-08-08 リオン株式会社 残響抑制装置
US9390723B1 (en) * 2014-12-11 2016-07-12 Amazon Technologies, Inc. Efficient dereverberation in networked audio systems
WO2017160294A1 (en) * 2016-03-17 2017-09-21 Nuance Communications, Inc. Spectral estimation of room acoustic parameters
US9831905B1 (en) 2016-10-12 2017-11-28 Pelican Products, Inc. Control feature of a protective case for engaging a switch of an electronic device
US10262672B2 (en) * 2017-07-25 2019-04-16 Verizon Patent And Licensing Inc. Audio processing for speech
CN110136733B (zh) * 2018-02-02 2021-05-25 腾讯科技(深圳)有限公司 一种音频信号的解混响方法和装置
US10726857B2 (en) * 2018-02-23 2020-07-28 Cirrus Logic, Inc. Signal processing for speech dereverberation
WO2024060112A1 (en) * 2022-09-22 2024-03-28 Qualcomm Incorporated Neural-network-based adaptive line enhancer

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204175A (ja) * 2000-12-28 2002-07-19 Nec Corp ノイズ除去の方法及び装置
JP2003131689A (ja) * 2001-10-25 2003-05-09 Nec Corp ノイズ除去方法及び装置
JP2003140700A (ja) * 2001-11-05 2003-05-16 Nec Corp ノイズ除去方法及び装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002204175A (ja) * 2000-12-28 2002-07-19 Nec Corp ノイズ除去の方法及び装置
JP2003131689A (ja) * 2001-10-25 2003-05-09 Nec Corp ノイズ除去方法及び装置
JP2003140700A (ja) * 2001-11-05 2003-05-16 Nec Corp ノイズ除去方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GILESPIE B.W. ET AL.: "Speech dereverberation via maximum-kurtosis subband adaptive filtering", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2001. PROCEEDINGS. IEEE INTERNATIONAL CONFERENCE, IEEE, vol. 6, 2001, pages 3701 - 3704, XP010803487 *
WU M. AND WANG D.: "A Two-Stage Algorithm for Enhancement of Reverberant Speech", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. IEEE INTERNATIONAL CONFERENCE, IEEE, vol. 1, 23 March 2005 (2005-03-23), pages 1085 - 1088, XP010792294 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009005261A (ja) * 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
US9190070B2 (en) 2009-11-06 2015-11-17 Nec Corporation Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
US8736359B2 (en) 2009-11-06 2014-05-27 Nec Corporation Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
JP2011100030A (ja) * 2009-11-06 2011-05-19 Nec Corp 信号処理方法、情報処理装置、及び信号処理プログラム
JP2011100029A (ja) * 2009-11-06 2011-05-19 Nec Corp 信号処理方法、情報処理装置、及び信号処理プログラム
CN102598127A (zh) * 2009-11-06 2012-07-18 日本电气株式会社 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质
CN102598128A (zh) * 2009-11-06 2012-07-18 日本电气株式会社 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质
WO2011055834A1 (ja) * 2009-11-06 2011-05-12 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
WO2011055829A1 (ja) * 2009-11-06 2011-05-12 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
US8694326B2 (en) 2010-02-24 2014-04-08 Panasonic Corporation Communication terminal and communication method
CN102763343A (zh) * 2010-02-24 2012-10-31 松下电器产业株式会社 通信终端以及通信方法
CN102763343B (zh) * 2010-02-24 2014-08-20 松下电器产业株式会社 通信终端
JP2013030956A (ja) * 2011-07-28 2013-02-07 Fujitsu Ltd 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP2021149084A (ja) * 2020-03-13 2021-09-27 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体
JP7062727B2 (ja) 2020-03-13 2022-05-06 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド オーディオ信号処理方法および装置、記憶媒体
US11490200B2 (en) 2020-03-13 2022-11-01 Beijing Xiaomi Pinecone Electronics Co., Ltd. Audio signal processing method and device, and storage medium

Also Published As

Publication number Publication date
JPWO2007058121A1 (ja) 2009-04-30
JP4973873B2 (ja) 2012-07-11
US20100211382A1 (en) 2010-08-19
US8073147B2 (en) 2011-12-06

Similar Documents

Publication Publication Date Title
WO2007058121A1 (ja) 残響抑圧の方法、装置及び残響抑圧用プログラム
JP4172530B2 (ja) 雑音抑圧の方法及び装置並びにコンピュータプログラム
KR100843522B1 (ko) 노이즈 억제를 위한 방법 및 장치
JP5435204B2 (ja) 雑音抑圧の方法、装置、及びプログラム
US8477963B2 (en) Method, apparatus, and computer program for suppressing noise
KR100594563B1 (ko) 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소
WO2002054387A1 (fr) Dispositif et procede d&#39;eliminaton du bruit
US6549586B2 (en) System and method for dual microphone signal noise reduction using spectral subtraction
Faller et al. Suppressing acoustic echo in a spectral envelope space
US20010005822A1 (en) Noise suppression apparatus realized by linear prediction analyzing circuit
KR20130117795A (ko) 후부 잔향 성분들의 모델링을 포함하는 에코 억제 장치 및 방법
JP5788873B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JP2008216721A (ja) 雑音抑圧の方法、装置、及びプログラム
JP2003140700A (ja) ノイズ除去方法及び装置
JP5413575B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP6707914B2 (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
JP2003131689A (ja) ノイズ除去方法及び装置
JP4209348B2 (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
AU2011322792B9 (en) Echo suppression comprising modeling of late reverberation components

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007545219

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12084968

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06832496

Country of ref document: EP

Kind code of ref document: A1