WO2012070671A1 - 信号処理装置、信号処理方法、及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法、及び信号処理プログラム Download PDFInfo
- Publication number
- WO2012070671A1 WO2012070671A1 PCT/JP2011/077286 JP2011077286W WO2012070671A1 WO 2012070671 A1 WO2012070671 A1 WO 2012070671A1 JP 2011077286 W JP2011077286 W JP 2011077286W WO 2012070671 A1 WO2012070671 A1 WO 2012070671A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- component
- signal
- amplitude
- phase
- unit
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims 2
- 238000006243 chemical reaction Methods 0.000 claims abstract description 63
- 230000008859 change Effects 0.000 claims abstract description 35
- 230000003111 delayed effect Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 abstract description 7
- 238000001228 spectrum Methods 0.000 description 120
- 230000001629 suppression Effects 0.000 description 65
- 238000000034 method Methods 0.000 description 43
- 238000004364 calculation method Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 27
- 230000014509 gene expression Effects 0.000 description 27
- 230000009466 transformation Effects 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 15
- 230000015556 catabolic process Effects 0.000 description 15
- 238000006731 degradation reaction Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 230000006866 deterioration Effects 0.000 description 12
- 238000012935 Averaging Methods 0.000 description 10
- 230000007423 decrease Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000001934 delay Effects 0.000 description 3
- 230000000593 degrading effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101100001678 Emericella variicolor andM gene Proteins 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
- H04B1/10—Means associated with receiver for limiting or suppressing noise or interference
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Definitions
- the present invention relates to a signal processing technique for controlling a phase component of a signal.
- Patent Document 1 and Non-Patent Document 1 disclose a noise suppression technique that focuses on a phase spectrum.
- the techniques described in Patent Document 1 and Non-Patent Document 1 suppress the amplitude spectrum related to noise and simultaneously shift the phase spectrum by a random value up to ⁇ / 4.
- the techniques described in Patent Document 1 and Non-Patent Document 1 realize noise suppression that cannot be suppressed only by attenuation of the noise spectrum by randomly shifting the phase spectrum.
- An object of this invention is to provide the signal processing technique which solves the above-mentioned subject.
- an apparatus includes a conversion unit that converts a mixed signal in which a first signal and a second signal are mixed into a phase component and an amplitude component or a power component for each frequency, and a predetermined frequency.
- a first control unit that rotates the phase component; and a second unit that corrects the amplitude component or power component of the predetermined frequency in accordance with a change amount of the amplitude component or power component caused by the rotation performed by the first control unit.
- a method includes a conversion step of converting a mixed signal in which a first signal and a second signal are mixed into a phase component and an amplitude component or a power component for each frequency, and the predetermined frequency.
- a combining step of combining the phase component rotated by the first control step and the amplitude component or power component corrected by the second control step.
- a program stored in a program recording medium converts a mixed signal in which a first signal and a second signal are mixed into a phase component and an amplitude component or a power component for each frequency.
- a computer executes a second control step for correcting the component, and a combining step for combining the phase component rotated by the first control step and the amplitude component or power component corrected by the second control step.
- FIG. 1 is a block diagram showing a schematic configuration of a signal processing apparatus as a first embodiment of the present invention. It is a block diagram which shows schematic structure of the noise suppression apparatus as 2nd Embodiment of this invention. It is a block diagram which shows the structure of the conversion part contained in 2nd Embodiment of this invention. It is a block diagram which shows the structure of the inverse transformation part contained in 2nd Embodiment of this invention. It is a block diagram which shows the structure of the noise suppression part contained in 2nd Embodiment of this invention. It is a figure which shows the flow of a signal when not performing phase rotation in 2nd Embodiment of this invention in a frequency domain.
- FIG. 1 is a diagram showing a schematic configuration of a signal processing apparatus 100 according to the first embodiment of the present invention.
- the signal processing apparatus 100 includes a conversion unit 101, a first control unit 102, a second control unit 103, and a synthesis unit 104.
- the conversion unit 101 converts the mixed signal 110 in which the first signal and the second signal are mixed into a phase component 120 and an amplitude component or power component 130 for each frequency.
- the first control unit 102 rotates the phase component 120 having a predetermined frequency.
- the second control unit 103 corrects the amplitude component or power component of the predetermined frequency in accordance with the amount of change in the amplitude component or power component due to the rotation performed by the first control unit 102.
- the combining unit 104 combines the phase component 140 rotated by the first control unit 102 and the amplitude component or power component 150 corrected by the second control unit 103.
- the signal processing apparatus 100 according to the first embodiment can control the phase component of the input signal without degrading the quality of the output signal.
- FIG. 2 is a block diagram showing the overall configuration of the noise suppression apparatus 200.
- the noise suppression apparatus 200 of this embodiment functions also as a part of apparatuses, such as a digital camera, a notebook personal computer, a mobile phone, etc., for example, this invention is not limited to this.
- the noise suppression apparatus 200 can be applied to any information processing apparatus that is required to remove noise from an input signal.
- a degradation signal (a signal in which a desired signal and noise are mixed) is supplied to the input terminal 206 as a sample value series.
- the conversion unit 201 performs transformation such as Fourier transformation on the supplied degradation signal and divides the degradation signal into a plurality of frequency components.
- the conversion unit 201 processes a plurality of frequency components independently at each frequency. Here, the description will be continued focusing on a specific frequency component.
- the conversion unit 201 supplies an amplitude spectrum (amplitude component) 230 among the plurality of frequency components to the noise suppression unit 205.
- the conversion unit 201 supplies a phase spectrum (phase component) 220 among the plurality of frequency components to the phase control unit 202.
- the conversion unit 201 supplies the degraded signal amplitude spectrum 230 to the noise suppression unit 205, but the present invention is not limited to this.
- the conversion unit 201 may supply a power spectrum corresponding to the square of the deteriorated signal amplitude spectrum 230 to the noise suppression unit 205.
- the noise suppression unit 205 estimates noise using the degraded signal amplitude spectrum 230 supplied from the conversion unit 201, and generates an estimated noise spectrum.
- the noise suppression unit 205 suppresses noise using the deteriorated signal amplitude spectrum 230 supplied from the conversion unit 201 and the generated estimated noise spectrum.
- the noise suppression unit 205 transmits the enhanced signal amplitude spectrum as the noise suppression result to the amplitude control unit 203.
- the phase control unit 202 rotates (shifts) the deteriorated signal phase spectrum 220 supplied from the conversion unit 201 and supplies it to the inverse conversion unit 204 as the enhanced signal phase spectrum 240.
- the phase control unit 202 transmits the phase rotation amount (shift amount) to the amplitude control unit 203.
- the amplitude control unit 203 receives the amount of phase rotation (shift amount) from the phase control unit 202 and calculates an amplitude correction amount.
- the amplitude control unit 203 uses the amplitude correction amount to correct the emphasized signal amplitude spectrum at each frequency, and generates a corrected amplitude spectrum 250.
- the amplitude control unit 203 supplies the corrected amplitude spectrum 250 to the inverse conversion unit 204.
- the inverse conversion unit 204 synthesizes the enhancement signal phase spectrum 240 supplied from the phase control unit 202 and the corrected amplitude spectrum 250 supplied from the amplitude control unit 203, performs inverse conversion, and outputs the enhancement signal as an output terminal 207.
- FIG. 3 is a block diagram illustrating a configuration of the conversion unit 201. As illustrated in FIG.
- the conversion unit 201 includes a frame division unit 301, a windowing unit 302, and a Fourier transform unit 303.
- the deteriorated signal samples are supplied to the frame dividing unit 301 and divided into frames for every K / 2 samples. Here, K is an even number.
- the degraded signal samples divided into frames are supplied to the windowing processing unit 302, and are multiplied by w (t) which is a window function.
- the windowing processing unit 302 may create a window by overlapping (overlapping) a part of two consecutive frames.
- the left side obtained by the following equation (2) is the output of the windowing processing unit 302.
- the windowing processing unit 302 may use a symmetric window function for a real signal.
- the description will be continued by taking as an example a case where 50% of two consecutive frames are overlapped and opened.
- the windowing processing unit 302 may use, for example, a Hanning window represented by the following equation (3) as w (t).
- various window functions such as a Hamming window and a triangular window are known.
- the windowed output is supplied to the Fourier transform unit 303 and converted into a degraded signal spectrum Yn (k).
- the deteriorated signal spectrum Yn (k) is separated into phase and amplitude, the deteriorated signal phase spectrum argYn (k) is supplied to the phase control unit 202, and the deteriorated signal amplitude spectrum
- a power spectrum may be used instead of the amplitude spectrum.
- FIG. 4 is a block diagram showing the configuration of the inverse transform unit 204.
- the inverse transform unit 204 includes an inverse Fourier transform unit 401, a windowing processing unit 402, and a frame composition unit 403.
- the inverse Fourier transform unit 401 multiplies the corrected amplitude spectrum 250 supplied from the amplitude control unit 203 by the enhanced signal phase spectrum argXn (k) supplied from the phase control unit 202 to obtain an enhanced signal (the following formula (4) )).
- the inverse Fourier transform unit 401 performs inverse Fourier transform on the obtained enhancement signal.
- the multiplication with the window function w (t) is performed.
- the left side of the following expression becomes the output of the windowing processing unit 402 and is transmitted to the frame synthesis unit 403.
- the obtained output signal is transmitted from the frame synthesis unit 403 to the output terminal 207. 3 and 4, the transformation in the transformation unit 201 and the inverse transformation unit 204 has been described as a Fourier transformation.
- the transformation unit 201 and the inverse transformation unit 204 are replaced with a Hadamard transformation, a Haar transformation, and a wavelet transformation in place of the Fourier transformation. Other conversions may be used.
- the conversion unit 201 and the inverse conversion unit 204 use Haar transform, multiplication is not necessary, and the area of the LSI can be reduced.
- the transform unit 201 and the inverse transform unit 204 use wavelet transform, the time resolution can be changed depending on the frequency, so that an improvement in noise suppression effect can be expected.
- the noise suppression unit 205 may perform actual suppression after integrating a plurality of frequency components obtained by the conversion unit 201.
- a higher sound quality can be achieved by integrating a larger number of frequency components from a low frequency region having a high ability to discriminate auditory characteristics toward a high frequency region having a low ability.
- the noise suppression unit 205 estimates noise using the deteriorated signal amplitude spectrum supplied from the conversion unit 201 and generates an estimated noise spectrum.
- the noise suppression unit 205 obtains a suppression coefficient using the deteriorated signal amplitude spectrum from the conversion unit 201 and the generated estimated noise spectrum.
- the noise suppression unit 205 multiplies the obtained suppression coefficient by the deterioration signal amplitude spectrum and supplies the result to the amplitude control unit 203 as an enhanced signal amplitude spectrum.
- noise estimation M.M. Kato, A .; Sugiyama, andM. Serizawa, “Noisesuppression with high speed quality based weighted noise estimation and MMSESTSA,“ IEICE Trans. Fundamentals (Japan Edition), vol. J87-A, no. 7, pp. 851-860, July 2004. (Reference 1) and R.A. Martin, “Spectral Subtraction Basedon Minimistics,” EUSPICO-94, pp. 1182-1185, Sept. As shown in 1994 (Document 2), various estimation methods can be used.
- the estimated noise spectrum is an average value of degraded signal amplitude spectra of frames in which the target sound is not generated.
- the section in which the target sound is generated can be determined by the power of the enhancement signal.
- the enhancement signal is a target sound other than noise.
- the target sound and noise levels do not change greatly between adjacent frames.
- the enhancement signal level in the past of one frame is used as an index for determining the noise interval.
- the current frame is determined as a noise interval.
- the noise spectrum is estimated by averaging the deteriorated signal amplitude spectrum of the frame determined as the noise interval.
- the estimated noise spectrum is an average value at the initial stage of estimation when the deteriorated signal amplitude spectrum starts to be supplied. In this case, it is necessary to satisfy the condition that the target sound is not included immediately after the estimation is started. When the condition is satisfied, the degradation signal amplitude spectrum at the initial stage of estimation is set as the estimated noise spectrum.
- Reference 2 for obtaining an estimated noise spectrum from a statistical minimum value of a degraded signal amplitude spectrum.
- the minimum value of the degradation signal amplitude spectrum in a certain period of time is statistically maintained, and the noise spectrum is estimated from the minimum value. Since the minimum value of the degraded signal amplitude spectrum is similar to the spectrum shape of the noise spectrum, it can be used as an estimated value of the noise spectrum shape. However, the minimum value is smaller than the original noise level. For this reason, a value obtained by appropriately amplifying the minimum value is used as the estimated noise spectrum.
- the noise suppression unit 205 can perform various suppressions. As typical suppression methods, there are an SS (Spectrum Subtraction) method and an MMSESTSA (Minimum Mean-SquareError Short-Time Spectral Amplitude Estimator) method.
- the noise suppression unit 205 subtracts the estimated noise spectrum from the deteriorated signal amplitude spectrum supplied from the conversion unit 201.
- the noise suppression unit 205 uses the MMSESTSA method, the noise suppression unit 205 calculates a suppression coefficient using the deteriorated signal amplitude spectrum supplied from the conversion unit 201 and the generated estimated noise spectrum, and degrades the suppression coefficient. Multiply the signal amplitude spectrum. This suppression coefficient is determined so as to minimize the mean square power of the enhancement signal.
- the noise suppression unit 205 can perform various noise estimations.
- FIG. 5 is a block diagram showing the configuration of the phase control unit 202 and the amplitude control unit 203. As shown in FIG.
- the phase control unit 202 includes a phase rotation unit 501 and a rotation amount generation unit 502.
- the amplitude control unit 203 includes a correction amount calculation unit 503 and an amplitude correction unit 504.
- the rotation amount generation unit 502 generates a rotation amount of the deterioration signal phase spectrum and supplies the rotation amount to the phase rotation unit 501 and the correction amount calculation unit 503.
- the phase rotation unit 501 is supplied with the degradation signal phase spectrum 220 from the conversion unit 201 and is supplied with the rotation amount from the rotation amount generation unit 502.
- the phase rotation unit 501 rotates (shifts) the deteriorated signal phase spectrum 220 by the supplied rotation amount, and supplies it to the inverse conversion unit 204 as the enhanced signal phase spectrum 240.
- the correction amount calculation unit 503 determines an amplitude correction coefficient based on the rotation amount supplied from the rotation amount generation unit 502 and supplies the amplitude correction coefficient to the amplitude correction unit 504.
- the rotation amount generation unit 502 generates a rotation amount using, for example, a random number.
- the phase rotation unit 501 rotates the degradation signal phase spectrum at each frequency using the rotation amount generated by the rotation amount generation unit 502 using random numbers.
- the shape of the degradation signal phase spectrum 220 changes due to the rotation performed by the phase rotation unit 501. This shape change can weaken the characteristics of noise.
- the random number includes a uniform random number having a uniform occurrence probability, and a normal random number having a normal distribution of occurrence probabilities.
- Uniform random numbers are generated by the linear congruential method.
- the explanation is continued by taking a uniform random number in the linear congruential method as an example.
- Uniform random numbers generated by the linear congruential method are uniformly distributed in the range of 0 to (2 ⁇ M) -1.
- M is an arbitrary integer
- ⁇ represents a power.
- the phase rotation amount ⁇ needs to be distributed in the range of 0 to 2 ⁇ . Therefore, the generated uniform random numbers are converted so as to be distributed in the range of 0 to 2 ⁇ .
- the conversion is performed by the following equation (8).
- R is a uniform random number.
- the value of R may be used as the rotation amount as it is. Since it is the amount of rotation, 2 ⁇ represents exactly one rotation. When the phase is rotated by 2 ⁇ , it is the same as when the phase is not rotated. Therefore, the rotation amount of 2 ⁇ + ⁇ is the same as that when the rotation amount is ⁇ .
- the rotation amount ⁇ may be obtained by Expression (8).
- the phase rotation unit 501 receives the rotation amount from the rotation amount generation unit 502 and rotates the deterioration signal phase spectrum.
- the phase rotation unit 501 rotates the angle by adding the value of the rotation amount ⁇ to the angle.
- the phase rotation unit 501 obtains a normal vector of the rotation amount ⁇ and rotates the deteriorated signal phase spectrum by multiplying it.
- a normal vector of the rotation amount ⁇ is obtained by Expression (9).
- ⁇ is a rotation vector.
- j represents sqrt (-1). Note that sqrt represents the square root.
- a correction coefficient calculation method by the correction amount calculation unit 503 will be described. First, it will be described with reference to FIGS. 6 and 7 that the output level is lowered due to the rotation of the phase.
- FIG. 6 and 7 show signals when the degradation signal is processed by the block diagram shown in FIG. The difference between FIG. 6 and FIG. 7 is the presence or absence of phase rotation.
- FIG. 6 shows a signal when phase rotation is not performed
- FIG. 7 shows a signal when phase rotation is performed from the frame 3.
- a signal when the phase is not rotated will be described with reference to FIG. Depicted at the top of FIG. 6 is a degraded signal.
- the deteriorated signal is divided into frames by the frame dividing unit 301.
- the second signal from the top divided by the dotted line is a signal after frame division.
- FIG. 6 shows signals for four consecutive frames.
- the overlap rate of frames is 50%.
- the windowing processing unit 302 performs windowing on the signal divided into frames.
- the third signal from the top divided by the dotted line is the signal after the windowing process.
- weighting by a rectangular window is performed in order to clearly show the influence of phase rotation.
- the signal is converted into a frequency domain signal by the Fourier transform unit 303, but the signal in the frequency domain is omitted in FIG.
- the signal converted into the time domain by the inverse Fourier transform unit 401 of the inverse transform unit 204 is illustrated.
- the fourth signal from the top divided by the dotted line is the signal after phase rotation.
- phase rotation is not performed in FIG. 6, there is no change from the signal after the windowing process.
- FIG. 6 shows a case where weighting by a rectangular window is performed.
- the signal subjected to the windowing process is synthesized by the frame synthesis unit 403. At this time, it is necessary to align the time between frames. Since the overlap rate of frames is 50%, the frames overlap by exactly half.
- FIG. 7 shows a signal when the phase rotation is performed from the frame 3. Depicted at the top is the same degraded signal as in FIG.
- FIG. 7 illustrates a case where a constant phase rotation is performed from the frame 3. Pay attention to the right-triangulated section shown below the dotted line in the phase rotation process. Due to the phase rotation processing, the signals of the frames 3 and 4 are shifted in the time direction. The signal subjected to the phase rotation is subjected to windowing processing again, and frame synthesis is performed. At this time, the signals of the frame 2 and the frame 3 are different in the section ii where the frames 2 and 3 overlap. As a result, the output signal level after frame synthesis decreases in the interval ii. That is, when phase rotation is performed, the output signal level decreases in the section ii in FIG.
- FIG. 8 shows the deteriorated signals of two consecutive frames after the frame division and windowing processing as x1 [n] and x2 [m].
- the overlap rate is 50%.
- n represents a discrete time of x1.
- m represents a discrete time of x2.
- the overlap rate is 50%, the following equation (10) is established.
- the relationship between x1 and x2 is expressed by the following equation (11).
- equations for conversion from time domain signals to frequency domain signals and inverse transformation are shown.
- the frequency domain signal X [k] is expressed as the following Expression (12) by Fourier transform of the time domain signal x [n].
- k represents a discrete frequency
- L is a frame length.
- the frequency domain signal X [k] is returned to the time domain signal x [n] by inverse transformation, it is expressed as the following Expression (13).
- the time domain signals x1 [n] and x2 [m] are converted into the frequency domain signals X1 [k] and X2 [k]
- they are expressed as the following equations (14) and (15). Is done.
- the frequency domain signals X1 [k] and X2 [k] are returned to the time domain signals x1 [n] and x2 [m] by inverse transformation, respectively, the following formulas (16) and (17) are obtained from the formula (13). ).
- the inverse transform unit transforms the frequency domain signal into a time domain signal by inverse Fourier transform.
- m L / 2 to L-1.
- the correction amount calculation unit 503 determines the amplitude correction amount of the emphasized signal amplitude spectrum so as to correct the decrease amount of the output signal level.
- the phase rotation amount is determined by a uniform random number, a method of calculating the correction amount will be specifically described.
- each frequency component is normalized to a unit vector by paying attention to the magnitude variation due to phase rotation.
- the combined vector in the case where the phases are the same between consecutive frames is the vector S shown in FIG. 11, and the magnitude
- the continuous inter-frame phase difference ⁇ is uniformly distributed in a range from ⁇ to + ⁇ .
- the combined vector when the phases are different between the consecutive frames is a vector S ′ shown in FIG.
- is expressed by the following equation (34).
- ⁇ 2) is obtained, the following equation (35) is obtained.
- ⁇ is uniformly distributed from ⁇ to + ⁇ , the following equation (36) is obtained.
- ⁇ 2 is represented by the following equation (37).
- ⁇ 2) when the phase is not rotated is expressed by the following equation (38) from the equation (33).
- the ratio of Expression (37) and Expression (38) is taken, the following Expression (39) is established. That is, when the phase is rotated with a uniform random number, the power average value of the output signal is reduced by 1 ⁇ 2 compared to the input.
- the amplitude correction unit 504 corrects the amplitude value. Therefore, the correction amount calculation unit 503 sets the correction coefficient to sqrt (2) and transmits it to the amplitude correction unit 504.
- the correction coefficient is uniquely determined if the variance and average value are determined even with normal random numbers and the like. Derivation of the correction coefficient when using normal random numbers will be described below.
- the probability of occurrence of ⁇ is determined by a normal distribution. Therefore, in order to obtain the expected power value when phase rotation is performed using normal random numbers, weighting based on the occurrence probability of ⁇ needs to be performed. Specifically, a weight function f ( ⁇ ) based on the occurrence probability of ⁇ is introduced. Cos ( ⁇ ) is weighted by the weight function f ( ⁇ ).
- the expected power value can be obtained by normalizing with the integral value of the weighting function f ( ⁇ ).
- the output power expected value E (S ′ ′ ⁇ 2) when the phase rotation is performed by the normal random number is expressed by the weighting function f ( ⁇ ) and its integral value in the equation (35) which is the output power expected value of the uniform random number.
- the weight function f ( ⁇ ) can be expressed by a normal distribution, the following equation (41) is established.
- ⁇ represents the variance
- the correction amount calculation unit 503 transmits the correction coefficient as sqrt (1 / 0.805) to the amplitude correction unit 504 when the phase is rotated by a normal random number of the standard normal distribution.
- the phase control unit 202 may perform phase rotation on all frequencies or a part of frequencies.
- the amplitude control unit 203 performs amplitude correction only on the frequency on which phase rotation has been performed. Therefore, the correction coefficient for the frequency at which phase rotation is not performed is 1.0. Only the correction coefficient for the frequency at which the phase is rotated is derived.
- the amplitude control unit 203 calculates an amplitude correction coefficient using the phase rotation amount transmitted from the phase control unit 202.
- the amplitude control unit 203 multiplies the calculated amplitude correction coefficient by the enhanced signal amplitude spectrum supplied from the noise suppression unit 205 and supplies the product to the inverse conversion unit 204.
- the noise suppression apparatus 200 can rotate the deteriorated signal phase spectrum and eliminate the output level drop when the enhanced signal phase spectrum is obtained.
- the noise suppression apparatus 200 according to the present embodiment can remove the influence on the output signal level by rotating the phase spectrum by using the amplitude control unit 203.
- FIG. 12 is a block diagram showing the configuration of the phase control unit 1202 and the amplitude control unit 203 according to this embodiment. As shown in FIG. 12, the phase control unit 1202 in the present embodiment includes a rotation amount limiting unit 1221 in addition to the rotation amount generation unit 502 and the phase rotation unit 501 described in the second embodiment.
- the rotation amount generation unit 502 generates a rotation amount of the deteriorated signal phase spectrum while being limited by the rotation amount limitation unit 1221, and supplies the rotation amount to the phase rotation unit 501.
- the rotation amount restriction unit 1221 restricts the rotation amount generated by the rotation amount generation unit 502 within a certain range. That is, the rotation amount limiting unit 1221 limits the distribution of ⁇ to an arbitrary range from 0 to 2 ⁇ . For example, the rotation amount restriction unit 1221 restricts the distribution of ⁇ to 0 to ⁇ / 2. As a result, the characteristic of the deteriorated signal phase spectrum remains in the enhanced signal phase spectrum to some extent.
- the present invention according to this embodiment can reduce the deterioration of the target sound by limiting the amount of phase rotation.
- a fourth embodiment of the present invention will be described with reference to FIG.
- the present invention according to this embodiment is different from the second embodiment in that the phase component is delayed, the difference between the phase components between frames is obtained, and the correction amount is calculated therefrom. That is, the internal configurations of the phase control unit 1302 and the amplitude control unit 1303 are different from those of the second embodiment.
- FIG. 13 is a block diagram illustrating the configuration of the phase control unit 1302 and the amplitude control unit 1303 in the present embodiment.
- the phase control unit 1302 in the fourth embodiment includes a rotation amount generation unit 502 and a phase rotation unit 501 included in the second embodiment.
- the phase control unit 1302 supplies the rotated phase to the amplitude control unit 1303.
- the amplitude control unit 1303 includes a phase component delay unit 1331, a correction amount calculation unit 1333, and an amplitude correction unit 504.
- the phase component delay unit 1331 holds the emphasized signal phase spectrum supplied from the phase rotation unit 501 for one frame and supplies it to the correction amount calculation unit 1333.
- the correction amount calculation unit 1333 calculates an amplitude correction amount from the enhancement signal phase spectrum one frame before from the phase component delay unit 1331 and the current enhancement signal phase spectrum from the phase rotation unit 501, and transmits the amplitude correction amount to the amplitude correction unit 504.
- the phase component delay unit 1331 holds one frame of the emphasized signal phase spectrum, delays it by one frame, and supplies it to the correction amount calculation unit 1333.
- the phase component delay unit 1331 is realized by simply delaying the emphasized signal phase spectrum by one frame.
- the present invention according to the present embodiment can correct the output level even when the expected value of the output level cannot be derived mathematically from the phase rotation amount.
- the correction amount calculation unit 1333 obtains the magnitude of the combined vector at each frequency from the emphasized signal phase spectra of the previous frame and the current frame, and determines the correction coefficient from the magnitude.
- of the combined vector is expressed by the following equation (46).
- in the case where the phases coincide in consecutive frames is
- 2 as already derived in the equation (33). Therefore, the amplitude correction amount is expressed by the following equation (47).
- FIG. 14 is a block diagram illustrating configurations of the phase control unit 202 and the amplitude control unit 1403 according to the present embodiment.
- the present invention according to this embodiment is different from the second embodiment in that an input / output ratio calculation unit 1431 is included.
- the input / output ratio calculation unit 1431 receives the deterioration signal from the input terminal 206 and the enhancement signal from the inverse conversion unit 204, and calculates the input / output level ratio.
- the input / output ratio calculation unit 1431 supplies the input / output level ratio to the correction amount calculation unit 1433.
- the correction amount calculation unit 1433 calculates the correction amount so that the level of the enhancement signal is equal to the deterioration signal.
- the amplitude correction unit 504 corrects the emphasized signal amplitude spectrum with the calculated correction amount.
- the input / output ratio calculation unit 1431 obtains the level ratio from the time domain signal of the degradation signal and the enhancement signal.
- the level ratio R between the degradation signal yn (t) of the nth frame and the enhancement signal xn (t) of the nth frame is expressed by the following equation (48).
- t indicates a sample time.
- L indicates the frame length of the Fourier transform.
- the correction amount calculation unit 1433 obtains the amplitude correction amount G from the ratio value R and the number of frequency components subjected to phase rotation.
- the amplitude correction amount G is obtained by the following equation (49).
- the amplitude control unit 1403 performs amplitude correction using only the frequency at which the phase rotation is performed based on the information on the presence / absence of the phase rotation transmitted from the phase control unit 202.
- the configuration and operation other than the input / output ratio calculation unit 1431 and the correction amount calculation unit 1433 are the same as those in the second embodiment, description thereof is omitted here. Since the present invention according to the present embodiment obtains the correction coefficient from the signal in the time domain, the output level can be corrected regardless of how the phase rotation amount is determined.
- FIG. 15 is a block diagram showing the configuration of the phase control unit 202 and the amplitude control unit 1503 according to this embodiment.
- the amplitude control unit 1503 in the present embodiment includes an averaging processing unit 1531 in addition to the input / output ratio calculation unit 1431 included in the fifth embodiment. Since the configuration and operation other than the averaging processing unit 1531 are the same as those in the fifth embodiment, description thereof is omitted here.
- the averaging processing unit 1531 receives the deterioration signal from the input terminal 206, performs an averaging process, and supplies the average value to the input / output ratio calculation unit 1431.
- the averaging processing unit 1531 receives the enhancement signal from the inverse transform unit 204, performs an averaging process, and supplies the average value to the input / output ratio calculation unit 1431.
- the input / output ratio calculation unit 1431 receives the average value of the deterioration signal and the enhancement signal from the averaging processing unit 1531 and calculates the level ratio thereof.
- the averaging processing unit 1531 averages the levels of the deterioration signal and the enhancement signal with an arbitrary time length. Specifically, the averaging processing unit 1531 averages the levels of the deterioration signal and the enhancement signal using a moving average, a leakage integral, or the like. Since the present invention according to the present embodiment uses an averaged level in addition to the effects of the fifth embodiment, fluctuations in the correction amount are suppressed, and the quality of the output signal can be improved. (Seventh embodiment) A seventh embodiment of the present invention will be described with reference to FIGS. 16 and 17. FIG.
- the noise suppression apparatus 1600 includes an amplitude component delay unit 1611, a phase component delay unit 1612, and an inverse conversion unit 1613 in addition to the configuration of FIG. 2 of the second embodiment. There is also a difference in the internal configuration of the amplitude controller 1603. In the present embodiment, operations other than the amplitude component delay unit 1611, the phase component delay unit 1612, and the amplitude control unit 1603 are the same as those in the sixth embodiment, and thus the description thereof is omitted here.
- the deterioration signal supplied to the input terminal 206 is supplied to the conversion unit 201 and the amplitude control unit 1603.
- the conversion unit 201 supplies the degraded signal amplitude spectrum 230 to the amplitude component delay unit 1611 and the inverse conversion unit 1613. Further, the conversion unit 201 supplies the degraded signal phase spectrum 220 to the phase control unit 202.
- the phase control unit 202 rotates the deteriorated signal phase spectrum 220 supplied from the conversion unit 201 and supplies it to the inverse conversion unit 1613 and the phase component delay unit 1612 as an enhanced signal phase spectrum. Further, the phase control unit 202 transmits the presence / absence of phase rotation at each frequency to the amplitude control unit 1603.
- the inverse conversion unit 1613 uses the deteriorated signal amplitude spectrum 230 supplied from the conversion unit 201 and the deteriorated signal phase spectrum supplied from the phase control unit 202, to the amplitude control unit 1603. introduce.
- the amplitude component delay unit 1611 delays the degraded signal amplitude spectrum 230 from the conversion unit 201 and supplies the delayed signal amplitude spectrum 230 to the noise suppression unit 205.
- the phase component delay unit 1612 delays the enhanced signal phase spectrum from the phase control unit 202 and supplies the delayed signal to the inverse conversion unit 204.
- the noise suppression unit 205 estimates noise using the degraded signal amplitude spectrum supplied from the amplitude component delay unit 1611 and generates an estimated noise spectrum.
- the inverse conversion unit 204 combines the enhancement signal phase spectrum 240 supplied from the phase control unit 202 via the phase component delay unit 1612 and the corrected amplitude spectrum 250 supplied from the amplitude control unit 1603 to perform inverse conversion. And supplied to the output terminal 207 as an emphasis signal.
- the deteriorated signal phase spectrum 220 is controlled by the phase control unit 202 and converted into a time domain signal by the inverse conversion unit 1613.
- the amplitude control unit 1603 uses the signal and the degradation signal 210 to obtain a level fluctuation amount due to phase rotation. This variation is a variation of only the rotation process by the phase rotation unit 501. Therefore, the amplitude control unit 1603 can accurately grasp level fluctuations due to phase rotation.
- FIG. 17 is a block diagram for explaining the internal configuration of the phase control unit 202 and the amplitude control unit 1603 according to this embodiment.
- the input / output ratio calculation unit 1731 calculates a level ratio from the deterioration signal supplied from the input terminal 206 and the signal supplied from the inverse conversion unit 1613 and includes the level decrease due to phase rotation, and the correction amount calculation unit 1233. To supply.
- the correction amount calculation unit 1233 receives information on the presence or absence of phase rotation at each frequency from the phase control unit 202, and calculates an amplitude correction amount.
- the amplitude correction unit 504 corrects the emphasized signal phase spectrum at each frequency based on the amplitude correction amount and supplies the corrected signal phase spectrum to the inverse conversion unit 204.
- the amplitude component delay unit 1611 may be introduced between the noise suppression unit 205 and the amplitude control unit 1603.
- the noise suppression apparatus 1600 according to the present embodiment can avoid the delay of the input / output ratio that was unavoidable in the fifth and sixth embodiments, and can correct the output level more accurately. realizable. (Eighth embodiment)
- An eighth embodiment of the present invention will be described with reference to FIG.
- the noise suppression device 1800 includes a frame overlap control unit 1808 in addition to the configuration of the second embodiment.
- the frame overlap control unit 1808 controls the overlap rate when the conversion unit 201 and the inverse conversion unit 204 divide and combine frames.
- the frame overlap control unit 1808 supplies the overlap rate to the amplitude control unit 203.
- the level drop due to phase rotation is caused by overlap. This level reduction amount changes depending on the overlap rate, and the decrease amount increases as the overlap rate increases. Therefore, when the overlap rate changes, it is necessary to control the amplitude correction amount. Specifically, the correction amount is obtained based on the amplitude correction amount G when the overlap ratio is 50%. When the overlap rate is 0%, amplitude correction is not necessary.
- the amplitude correction amount is G when the overlap ratio is 50%. Therefore, using the ratio between the frame length L and the overlap length Q, the following equation (50) is obtained.
- the amplitude control unit 203 corrects the enhancement signal amplitude spectrum by correcting the correction coefficient transmitted from the phase control unit 202 based on the equation (50). In the present embodiment, since the configuration and operation other than the frame overlap control unit 1808 are the same as those in the second embodiment, the description thereof is omitted here.
- the noise suppression apparatus 1800 can freely set the frame overlap rate.
- a ninth embodiment of the present invention will be described with reference to FIG.
- a noise storage unit 1909 is connected to the noise suppression unit 205.
- the noise suppression apparatus 1900 according to the present embodiment suppresses noise using a known noise spectrum.
- the noise storage unit 1909 stores a spectrum of noise to be suppressed. Based on the stored noise spectrum, the noise suppression unit 205 performs noise suppression, so that the noise suppression apparatus 1900 can suppress only the noise to be suppressed.
- the noise storage unit 1909 may store an average spectrum, a maximum spectrum, a minimum spectrum, and the like of the noise as a spectrum of the noise.
- the noise storage unit 1909 may store a combination of them.
- the configuration and operation other than the noise storage unit 1909 are the same as those in the second embodiment, the description thereof is omitted here.
- the noise suppression apparatus 1900 according to the present embodiment can apply the effects of the second embodiment only to specific noise, and can obtain a higher-quality enhanced signal when the noise to be suppressed is clear. it can. (Other embodiments)
- noise suppression devices having different characteristics have been described.
- noise suppression devices that combine these features in any way are also included in the scope of the present invention.
- the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device.
- FIG. 20 is a configuration diagram of a computer 2000 that executes a signal processing program when the first embodiment is configured by a signal processing program.
- the computer 2000 includes an input unit 2001, a CPU 2002, an output unit 2003, and a memory 2004.
- the CPU 2002 controls the operation of the computer 2000 by reading the signal processing program.
- the CPU 2002 executes a signal processing program stored in the memory 2004, and converts a mixed signal in which the first signal and the second signal are mixed into a phase component and an amplitude component or a power component for each frequency (S2011). .
- the CPU 2002 rotates a phase component having a predetermined frequency (S2012).
- the CPU 2002 corrects the amplitude component or power component of the predetermined frequency according to the amount of change in the amplitude component or power component in the output signal caused by the rotation of the phase component (S2013).
- the CPU 2002 synthesizes the phase component rotated in step S2012 and the amplitude component or power component corrected in step S2013 (S2014). Thereby, the effect similar to 1st Embodiment can be acquired.
- a part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
- (Appendix 1) A conversion unit that converts a mixed signal in which the first signal and the second signal are mixed into a phase component and an amplitude component or a power component for each frequency; a first control unit that rotates the phase component of a predetermined frequency; A second control unit that corrects the amplitude component or power component of the predetermined frequency in accordance with a change amount of the amplitude component or power component caused by the rotation performed by the one control unit; and a phase rotated by the first control unit.
- a signal processing apparatus comprising: combining means for combining the component and the amplitude component or power component corrected by the second control means.
- the first control unit includes a rotation amount generation unit that generates a rotation amount of the phase component, and the second control unit calculates the change amount based on the rotation amount provided from the rotation amount generation unit.
- the signal processing apparatus according to appendix 1 wherein the amplitude component or the power component is corrected according to the calculated change amount.
- the second control means includes phase component delay means for delaying the phase component, and calculates the change amount by comparing the phase components before and after the delay, and the amplitude component according to the calculated change amount Alternatively, the signal processing apparatus according to appendix 1, wherein the power component is corrected.
- the second control unit calculates the amount of change by comparing the output from the combining unit and the mixed signal, and corrects the amplitude component or the power component according to the calculated amount of change.
- the signal processing apparatus according to Supplementary Note 1.
- the second control unit calculates the change amount by comparing an average value of the output from the combining unit and an average value of the mixed signal, and the amplitude component or power component according to the calculated change amount.
- the signal processing apparatus according to appendix 4, wherein: (Appendix 6) Amplitude component delay means for delaying the amplitude component or power component, and the second control means calculates the amount of change by comparing the output from the synthesis means and the mixed signal, The signal processing apparatus according to claim 1, wherein the amplitude component or the power component delayed by the amplitude component delay unit is corrected according to the calculated change amount. (Appendix 7)
- the converting unit includes a dividing unit that divides the mixed signal into a plurality of frames that partially overlap each other, and the second control unit further includes the amplitude of the predetermined frequency according to a frame overlap rate.
- the signal processing device according to any one of appendices 1 to 6, wherein the signal processing device corrects the component or the power component.
- a synthesizing step for synthesizing the amplitude component or the power component corrected in the second control step A conversion step of converting a mixed signal in which the first signal and the second signal are mixed into a phase component and an amplitude component or a power component for each frequency; a first control step of rotating the phase component of a predetermined frequency; and the first A second control step for correcting the amplitude component or power component of the predetermined frequency according to a change amount of the amplitude component or power component generated by rotation in the control step; and a phase component rotated by the first control step. And a synthesis step for synthesizing the amplitude component or the power component corrected in the second control step.
- a program recording medium storing a signal processing program, wherein the computer executes the synthesis step.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Noise Elimination (AREA)
Abstract
Description
本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
上記目的を達成するため、本発明に係る方法は、第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと所定周波数の前記位相成分を回転させる第1制御ステップと、前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、を含む。
上記目的を達成するため、本発明に係るプログラム記録媒体に格納されるプログラムは、第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと所定周波数の前記位相成分を回転させる第1制御ステップと、前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、をコンピュータに実行させる。
(第1実施形態)
図1は、本発明の第1実施形態に係る信号処理装置100の概略構成を示す図である。
図1において、信号処理装置100は、変換部101と第1制御部102と第2制御部103と合成部104とを含む。変換部101は、第1信号と第2信号とが混在した混在信号110を、周波数ごとの位相成分120及び振幅成分又はパワー成分130に変換する。また、第1制御部102は、所定周波数の位相成分120を回転させる。さらに、第2制御部103は、第1制御部102が施した回転による振幅成分又はパワー成分の変化量に応じて、所定周波数の振幅成分又はパワー成分を補正する。一方、合成部104は、第1制御部102により回転された位相成分140と、第2制御部103により補正された振幅成分又はパワー成分150と、を合成する。
以上の構成により、第1実施形態に係る信号処理装置100は、出力信号の品質を低下させずに入力信号の位相成分を制御することができる。
(第2実施形態)
《全体構成》
本発明の第2実施形態としての雑音抑圧装置200について図2乃至図11を用いて説明する。図2は、雑音抑圧装置200の全体構成を示すブロック図である。本実施形態の雑音抑圧装置200は、たとえばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではない。雑音抑圧装置200は、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に劣化信号が供給されると、変換部201は、供給された劣化信号にフーリエ変換などの変換を施して、複数の周波数成分に分割する。変換部201は、複数の周波数成分を各周波数で独立に処理する。ここでは、特定の周波数成分に注目して説明を続ける。変換部201は、複数の周波数成分のうち振幅スペクトル(振幅成分)230を雑音抑圧部205に供給する。変換部201は、複数の周波数成分のうち位相スペクトル(位相成分)220を位相制御部202に供給する。なお、ここでは、変換部201は、雑音抑圧部205に劣化信号振幅スペクトル230を供給しているが、本発明はこれに限定されるものではない。変換部201は、劣化信号振幅スペクトル230の二乗に相当するパワースペクトルを雑音抑圧部205に供給しても良い。
雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトル230を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部205は、変換部201から供給された劣化信号振幅スペクトル230と、生成した推定雑音スペクトルとを用いて雑音を抑圧する。雑音抑圧部205は、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部203に伝達する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。また、位相制御部202は、位相の回転量(シフト量)を、振幅制御部203へ伝達する。振幅制御部203は、位相制御部202から位相の回転量(シフト量)を受け取って振幅補正量を算出する。振幅制御部203は、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル250を生成する。振幅制御部203は、補正振幅スペクトル250を逆変換部204へ供給する。逆変換部204は、位相制御部202から供給された強調信号位相スペクトル240と、振幅制御部203から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
《変換部201の構成》
図3は、変換部201の構成を示すブロック図である。図3に示すように、変換部201はフレーム分割部301、窓がけ処理部(windowingunit)302、及びフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(windowfunction)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
以後、連続する2フレームの50%をオーバーラップして窓がけする場合を例として説明を続ける。窓がけ処理部302は、w(t)として、たとえば、次式(3)に示すハニング窓を用いても良い。
《逆変換部204の構成》
図4は、逆変換部204の構成を示すブロック図である。図4に示すように、逆変換部204は逆フーリエ変換部401、窓がけ処理部402及びフレーム合成部403を含む。逆フーリエ変換部401は、振幅制御部203から供給された補正振幅スペクトル250と位相制御部202から供給された強調信号位相スペクトルargXn(k)とを乗算して、強調信号(以下の式(4)の左辺)を求める。
また、変換部201において得られる周波数成分を複数統合してから、雑音抑圧部205で実際の抑圧を行っても良い。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合して、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
《雑音抑圧部205の構成》
雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトルを用いて雑音を推定し、推定雑音スペクトルを生成する。雑音抑圧部205は、変換部201からの劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて抑圧係数を求める。雑音抑圧部205は、求めた抑圧係数を劣化信号振幅スペクトルに乗じ、強調信号振幅スペクトルとして、振幅制御部203へ供給する。
雑音の推定には、
M.Kato,A.Sugiyama,andM.Serizawa,″NoisesuppressionwithhighspeechqualitybasedonweightednoiseestimationandMMSESTSA,″IEICETrans.Fundamentals(JapaneseEdition),vol.J87−A,no.7,pp.851−860,July2004.(文献1)やR.Martin,″Spectralsubtractionbasedonminimumstatistics,″EUSPICO−94,pp.1182−1185,Sept.1994(文献2)に示されるように、様々な推定方法が利用できる。
たとえば、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法(文献1)がある。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルが雑音区間判定の指標とされる。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームは雑音区間と判定される。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定される。
また、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法(文献1)もある。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルが推定雑音スペクトルとされる。
さらに、推定雑音スペクトルを、統計的な劣化信号振幅スペクトルの最小値から求める方法(文献2)もある。この方法では、統計的に一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとして用いる。
雑音抑圧部205は、様々な抑圧を行うことが可能である。抑圧方法には、代表的なものとして、SS(SpectrumSubtraction:スペクトル減算)法とMMSESTSA(MinimumMean−SquareErrorShort−TimeSpectralAmplitudeEstimator:最小二乗平均誤差短時間振幅スペクトル推定)法とがある。雑音抑圧部205がSS法を用いる場合は、雑音抑圧部205は変換部201から供給された劣化信号振幅スペクトルから推定雑音スペクトルを減算する。雑音抑圧部205がMMSESTSA法を用いる場合は、雑音抑圧部205は変換部201から供給された劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて、抑圧係数を計算し、この抑圧係数を劣化信号振幅スペクトルに乗算する。この抑圧係数は、強調信号の平均二乗パワーを最小化するように決定される。
雑音抑圧部205は、様々な雑音推定を行うことが可能である。推定方法には、たとえば目的音が発生していないフレームの劣化信号振幅スペクトルを利用し、その平均値を推定雑音スペクトルとする方法がある。また、劣化信号振幅スペクトルが供給され始めた初期段階の平均値を推定雑音スペクトルとする方法もある。さらには、統計的に劣化信号振幅スペクトルの最小値を観測し、その最小値を推定雑音スペクトルとする方法などもある。
《位相制御部202及び振幅制御部203の構成》
図5は位相制御部202及び振幅制御部203の構成を示すブロック図である。図5に示すように、位相制御部202は位相回転部501と回転量生成部502とを含む。振幅制御部203は、補正量算出部503と振幅補正部504とを含む。
回転量生成部502は、劣化信号位相スペクトルの回転量を生成し、位相回転部501と補正量算出部503に供給する。
位相回転部501は、変換部201から劣化信号位相スペクトル220が供給され、回転量生成部502から回転量が供給される。位相回転部501は、劣化信号位相スペクトル220を供給された回転量だけ回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。
補正量算出部503は、回転量生成部502から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部504に供給する。
回転量生成部502は、たとえば乱数によって回転量を生成する。位相回転部501は、回転量生成部502が乱数により生成した回転量を用いて劣化信号位相スペクトルを各周波数で回転させる。位相回転部501が行う回転により、劣化信号位相スペクトル220の形状が変化する。この形状の変化により、雑音の特徴を弱めることができる。
乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがある。ここでは一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生する。ここでは、線形合同法での一様乱数を例に挙げ、説明を続ける。線形合同法で発生させた一様乱数は、0~(2^M)−1の範囲に一様に分布する。
ここで、Mは任意の整数であり、^はべき乗を表している。位相の回転量φは、0~2πの範囲に分布させる必要がある。そこで、発生させた一様乱数は、0~2πの範囲に分布されるように変換される。変換は、以下の式(8)で行う。ここで、Rは一様乱数である。Rmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)−1となる。
位相回転部501は、回転量生成部502から回転量を受け取り、劣化信号位相スペクトルを回転させる。もし、劣化信号位相スペクトルが角度で表現されている場合には、位相回転部501は、その角度に回転量φの値を加算することで回転させる。劣化信号位相スペクトルが複素数の正規ベクトルで表現されている場合には、位相回転部501は、回転量φの正規ベクトルを求め、劣化信号位相スペクトルに乗算することで回転させる。
回転量φの正規ベクトルは、式(9)で求められる。ここで、Φは回転ベクトルである。jはsqrt(−1)を示す。なお、sqrtは二乗根を表す。
図6及び図7は、劣化信号が図2に示すブロック図で処理された場合の信号を示している。図6と図7の違いは位相回転の有無である。図6は位相回転を行わない場合の信号を、図7は位相回転をフレーム3から行った場合の信号を示している。
まず、位相を回転しない場合の信号について図6を用いて説明する。図6の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部301においてフレーム分割される。点線で区切られた、上から2番目の信号が、フレーム分割後の信号である。図6では、連続した4フレーム分の信号を図示した。また、フレームのオーバーラップ率は50%としている。
窓掛け処理部302は、フレームに分割された信号に窓掛けを行う。点線で区切られた、上から3番目の信号が窓掛け処理後の信号である。図6では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
次に、フーリエ変換部303によって、周波数領域の信号に変換されるが、図6では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部204の逆フーリエ変換部401により、時間領域へ変換された信号を図示している。点線で区切られた、上から4番目の信号が位相回転後の信号である。ただし、図6では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
逆変換部204の逆フーリエ変換部401から出力された強調信号は、窓掛け処理を再度実施される。図6では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部403において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバーラップ率が50%であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図6のように入力信号と出力信号は一致する。
一方、位相を回転する場合の信号について図7を用いて説明する。図7に示したのは位相回転をフレーム3から実施した場合の信号である。最上部に描かれているのは、図6と同じ劣化信号である。フレーム分割後及び窓掛け処理後の信号も図6と同様である。
図7では、フレーム3から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム3及び4の信号が時間方向にシフトしている。位相回転を施した信号は、再度窓掛け処理が行われ、フレーム合成される。このとき、フレーム2とフレーム3が重なるiiの区間で、フレーム2とフレーム3の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図7のiiの区間で出力信号レベルが低下する。
この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
図8に、フレーム分割及び窓掛け処理後の連続した2フレームの劣化信号を、x1[n]及びx2[m]として示す。なお、オーバーラップ率は50%としている。ここで、nはx1の離散時間を表す。mはx2の離散時間を表す。オーバーラップ率が50%の場合には、以下の式(10)が成立する。
たとえば、図示した例のオーバーラップ率50%では、フレーム合成部403は、離散時間m=L/2~L−1の区間で隣接フレームの加算を行う。この加算区間m=L/2~L−1を考える。
時間領域の加算に、式(16)及び式(17)を代入すると、以下の式(18)のように表現される。
X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式(27)となる。
式(31)の絶対値を求めると、以下の式(32)となる。
この出力信号レベルの低下量を補正するように、補正量算出部503は、強調信号振幅スペクトルの振幅補正量を決定する。
ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図11に示されるベクトルSのようになり、そのベクトルの大きさ|S|は、以下の式(33)で表わされる。
ここでは、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数は一意に定められる。正規乱数を使う場合の補正係数の導出を以下に説明する。
正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいた重み付けが行われる必要がある。
具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)は、重みづけされる。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。
正規乱数による位相回転を行った場合の出力パワー期待値E(S′′^2)は、一様乱数の出力パワー期待値である式(35)に、重み付け関数f(φ)及びその積分値を導入することで、以下の式(40)のように表現される。
たとえば、平均値μ=0,分散σ=1の標準正規分布では、以下の式(42)となるので、となるので、これを式(40)に代入すると、式(43)のようになる。
《振幅補正部504の説明》
振幅制御部203は、位相制御部202から伝達された位相の回転量を用いて振幅補正係数を算出する。振幅制御部203は、算出した振幅補正係数を雑音抑圧部205から供給された強調信号振幅スペクトルに乗じ、逆変換部204に供給する。強調信号振幅スペクトルに振幅補正係数を乗じることにより、雑音抑圧装置200は、劣化信号位相スペクトルを回転させ、強調信号位相スペクトルを得た場合の出力レベル低下を解消することができる。
以上のように、本実施形態に係る雑音抑圧装置200は、位相スペクトルを回転操作することによる出力信号レベルへの影響を振幅制御部203により取り除くことができる。そのため、雑音抑圧装置200は、高品質な強調信号を得ることができる。
(第3実施形態)
本発明の第3実施形態について、図12を用いて説明する。本実施形態では、位相の回転量の上限を制限する点で第2実施形態と異なる。それ以外の構成及び動作については第2実施形態と同様であるためここでは詳しい説明を省略する。
図12は、本実施形態に係る位相制御部1202及び振幅制御部203の構成を示すブロック図である。図12に示すように、本実施形態における位相制御部1202は、第2実施形態で説明した回転量生成部502と位相回転部501に加え、回転量制限部1221を含む。回転量生成部502は、回転量制限部1221からの制限を受けつつ、劣化信号位相スペクトルの回転量を生成し、位相回転部501に供給する。
回転量制限部1221は、回転量生成部502によって生成される回転量を一定範囲内に制限する。つまり、回転量制限部1221は、φの分布を、0~2πから任意の範囲に制限する。たとえば、回転量制限部1221は、φの分布を、0~π/2のように制限する。これにより、強調信号位相スペクトルに劣化信号位相スペクトルの特徴がある程度残ることになる。完全に位相をランダムに回転させる場合に比較し、劣化信号の特徴がある程度保持されるため、目的音への影響が少なくなる。そのため、目的音の歪が軽減される。
本実施形態に係る本発明は、第2実施形態の効果に加えて、位相の回転量を制限することにより、目的音の劣化を低減させることができる。
(第4実施形態)
本発明の第4実施形態について、図13を用いて説明する。本実施形態に係る本発明は、位相成分を遅延させ、フレーム間での位相成分の差分を求めた上でそこから補正量を算出する点で第2実施形態と異なる。つまり、位相制御部1302と振幅制御部1303の内部構成において第2実施形態と異なる。他の構成及び動作は第2実施形態と同様であるためここではその説明を省略する。
図13は、本実施形態における位相制御部1302及び振幅制御部1303の構成を示すブロック図である。図13に示すように、第4実施形態における位相制御部1302は、第2実施形態に含まれる回転量生成部502と位相回転部501を含む。位相制御部1302は、回転後の位相を振幅制御部1303に供給する。また振幅制御部1303は、位相成分遅延部1331、補正量算出部1333及び振幅補正部504を含む。
位相成分遅延部1331は、位相回転部501から供給された強調信号位相スペクトルを1フレーム分保持し、補正量算出部1333に供給する。
補正量算出部1333は位相成分遅延部1331からの1フレーム前の強調信号位相スペクトルと位相回転部501からの現在の強調信号位相スペクトルから振幅補正量を算出し、振幅補正部504に伝達する。
位相成分遅延部1331は、強調信号位相スペクトルを1フレーム保持し、1フレーム分遅延させ、補正量算出部1333に供給する。位相成分遅延部1331は、単純に1フレーム分強調信号位相スペクトルを遅延することで実現される。
本実施形態に係る本発明は、第2実施形態の効果に加えて、位相回転量を数学的に出力レベルの期待値を導出できない場合でも出力レベルを補正することができる。たとえば、乱数テーブルによる乱数ではその発生確率に偏りがあるが、本実施形態に係る本発明は出力レベルを問題なく補正できる。
補正量算出部1333は、前フレームと現フレームの強調信号位相スペクトルから各周波数で合成ベクトルの大きさを求め、その大きさから補正係数を決定する。前フレームの位相をα,現フレームの位相をβとすると、その合成ベクトルの大きさ|S′|は、以下の式(46)で表わされる。
(第5実施形態)
本発明の第5実施形態について、図14を用いて説明する。図14は、本実施形態に係る位相制御部202及び振幅制御部1403の構成を示すブロック図である。
本実施形態に係る本発明は、入出力比算出部1431を含む点で、第2実施形態と異なる。入出力比算出部1431は、入力端子206からの劣化信号及び逆変換部204からの強調信号を受け取り、その入出力レベル比を算出する。入出力比算出部1431は、入出力レベル比を補正量算出部1433に供給する。補正量算出部1433は、強調信号のレベルが劣化信号と同等になるように、補正量を算出する。振幅補正部504は、算出された補正量により強調信号振幅スペクトルを補正する。
入出力比算出部1431は、劣化信号と強調信号の時間領域信号から、そのレベルの比を求める。
第nフレームの劣化信号yn(t)と第nフレームの強調信号xn(t)のレベル比Rは、以下の式(48)で表わされる。ここで、tはサンプル時間を示す。Lはフーリエ変換のフレーム長を示す。
本実施形態に係る本発明は、時間領域の信号から補正係数を求めているため、位相回転量がいかなる方法で決定されても、出力レベルを補正できる。
(第6実施形態)
本発明の第6実施形態について、図15を用いて説明する。図15は、本実施形態に係る位相制御部202及び振幅制御部1503の構成を示すブロック図である。図15に示すように、本実施形態における振幅制御部1503は、第5実施形態に含まれる入出力比算出部1431に加え、平均化処理部1531を含む。平均化処理部1531以外の構成及び動作については、第5実施形態と同様であるためここではその説明を省略する。
平均化処理部1531は、入力端子206から劣化信号を受け取り、平均化処理を施した上で、その平均値を入出力比算出部1431に供給する。また、平均化処理部1531は逆変換部204から強調信号を受け取り、平均化処理を施した上で、その平均値を入出力比算出部1431に供給する。入出力比算出部1431は平均化処理部1531から劣化信号及び強調信号の平均値を受け取り、そのレベル比を算出する。
平均化処理部1531は、任意の時間長で劣化信号及び強調信号のレベルを平均化する。具体的には、平均化処理部1531は、移動平均や漏れ積分などを用いて劣化信号及び強調信号のレベルを平均化する。
本実施形態に係る本発明は、第5実施形態の効果に加えて、平均化されたレベルを使用するため、補正量の変動が抑制され、出力信号の品質向上が実現できる。
(第7実施形態)
本発明の第7実施形態について、図16及び図17を用いて説明する。図16は、本実施形態に係る雑音抑圧装置1600の構成を示す図である。本実施形態に係る雑音抑圧装置1600は、第2実施形態の図2の構成に加え、振幅成分遅延部1611、位相成分遅延部1612及び逆変換部1613を含む。また、振幅制御部1603の内部構成にも差異がある。本実施形態において、振幅成分遅延部1611、位相成分遅延部1612及び振幅制御部1603以外の動作については、第6実施形態と同様であるためここではその説明を省略する。
入力端子206に供給された劣化信号は、変換部201と振幅制御部1603に供給される。変換部201は、劣化信号振幅スペクトル230を振幅成分遅延部1611及び逆変換部1613に供給する。また、変換部201は、劣化信号位相スペクトル220を位相制御部202に供給する。位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転させ、強調信号位相スペクトルとして逆変換部1613及び位相成分遅延部1612に供給する。また、位相制御部202は、各周波数における位相回転の有無を、振幅制御部1603へ伝達する。
逆変換部1613は、変換部201から供給された劣化信号振幅スペクトル230と位相制御部202から供給される劣化信号位相スペクトルを用いて、位相回転によるレベル低下の生じた信号を振幅制御部1603に伝達する。
振幅成分遅延部1611は、変換部201からの劣化信号振幅スペクトル230を遅延させ、雑音抑圧部205に供給する。
位相成分遅延部1612は、位相制御部202からの強調信号位相スペクトルを遅延させ、逆変換部204に供給する。雑音抑圧部205は、振幅成分遅延部1611から供給される劣化信号振幅スペクトルを用いて、雑音を推定し、推定雑音スペクトルを生成する。
逆変換部204は、位相制御部202から位相成分遅延部1612を介して供給された、強調信号位相スペクトル240と、振幅制御部1603から供給された補正振幅スペクトル250とを合成して逆変換を行い、強調信号として、出力端子207に供給する。
劣化信号位相スペクトル220は、位相制御部202で制御され、逆変換部1613において時間領域の信号に変換される。振幅制御部1603は、その信号と劣化信号210とを用いて、位相回転によるレベルの変動量を求める。
この変動量は位相回転部501による回転処理のみの変動である。そのため、振幅制御部1603は、位相の回転によるレベル変動を正確に捉えることができる。振幅制御部1603は、このレベル比を用いて振幅補正を行うが、求まるレベル比は1フレーム前のものである。
そこで、振幅成分遅延部1611と位相成分遅延部1612を導入し、1フレーム前の周波数成分に対して、振幅制御部1603において振幅補正を行う。
図17は、本実施形態に係る位相制御部202及び振幅制御部1603の内部構成を説明するためのブロック図である。入出力比算出部1731は、入力端子206から供給される劣化信号と逆変換部1613から供給される、位相回転によるレベル低下分を含んだ信号から、レベル比を算出し、補正量算出部1233に供給する。
補正量算出部1233は、位相制御部202から各周波数における位相回転の有無の情報を受け取り、振幅補正量を算出する。振幅補正部504は、その振幅補正量に基づいて、強調信号位相スペクトルを各周波数で補正し、逆変換部204へ供給する。なお、振幅成分遅延部1611は、雑音抑圧部205と振幅制御部1603の間に導入しても構わない。
本実施形態に係る雑音抑圧装置1600は、第5実施形態の効果に加え、第5実施形態及び第6実施形態では不可避だった入出力比の遅延を回避でき、より正確な出力レベルの補正を実現できる。
(第8実施形態)
本発明の第8実施形態について、図18を用いて説明する。図18に示すように、本実施形態に係る雑音抑圧装置1800は、第2実施形態の構成に加え、フレームオーバーラップ制御部1808を含む。フレームオーバーラップ制御部1808は、変換部201及び逆変換部204において、フレーム分割、合成されるときのオーバーラップ率の制御を行う。フレームオーバーラップ制御部1808は、そのオーバーラップ率を振幅制御部203に供給する。既に説明したとおり、位相回転によるレベル低下はオーバーラップによって生じる。このレベル低下量はオーバーラップ率により変化し、オーバーラップ率が大きくなるほど、低下量も大きくなる。よって、オーバーラップ率が変化した場合には、振幅補正量を制御する必要がある。
具体的には、オーバーラップ率50%の場合の振幅補正量Gを基準に補正量を求める。
オーバーラップ率が0%のとき振幅補正は必要無い。また、オーバーラップ率50%のとき振幅補正量はGである。そこで、フレーム長Lとオーバーラップ長Qの比を用いて、以下の式(50)のようになる。ここで、G′はオーバーラップ率による補正を行った振幅補正量である。
本実施形態に係る雑音抑圧装置1800は、第2実施形態の効果に加えて、フレームのオーバーラップ率を自由に設定できる。
(第9実施形態)
本発明の第9実施形態について、図19を用いて説明する。図19では、雑音抑圧部205に雑音記憶部1909が接続されている。本実施形態に係る雑音抑圧装置1900は、既知の雑音スペクトルを用いて雑音を抑圧する。雑音記憶部1909は、抑圧すべき雑音のスペクトルを記憶する。その記憶された雑音スペクトルに基づき、雑音抑圧部205が雑音抑圧を行うことで、雑音抑圧装置1900は、抑圧対象の雑音のみを抑圧することができる。
ここで、雑音記憶部1909は、雑音のスペクトルとして、その雑音の平均スペクトルや最大スペクトル、最小スペクトルなどを記憶していても良い。あるいは、雑音記憶部1909は、それらを組み合わせを記憶していても良い。本実施形態において、雑音記憶部1909以外の構成及び動作については、第2実施形態と同様であるためここではその説明を省略する。
本実施形態に係る雑音抑圧装置1900は、第2実施形態の効果を、特定の雑音にのみ適用することができ、抑圧したい雑音が明確な場合には、より高品質な強調信号を得ることができる。
(他の実施形態)
以上説明してきた第1乃至第9実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用しても良いし、単体の装置に適用しても良い。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
図20は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ2000の構成図である。コンピュータ2000は、入力部2001と、CPU2002と、出力部2003と、メモリ2004とを含む。
CPU2002は、信号処理プログラムを読み込むことにより、コンピュータ2000の動作を制御する。すなわち、CPU2002は、メモリ2004に格納された信号処理プログラムを実行し、第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する(S2011)。次に、CPU2002は、所定周波数の位相成分を回転させる(S2012)。位相成分の回転によって生じる、出力信号における振幅成分又はパワー成分の変化量に応じて、CPU2002は、所定周波数の振幅成分又はパワー成分を補正する(S2013)。CPU2002は、ステップS2012により回転された位相成分と、ステップS2013により補正された振幅成分又はパワー成分と、を合成する(S2014)。
これにより、第1実施形態と同様の効果を得ることができる。
[実施形態の他の表現]
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換手段と、所定周波数の前記位相成分を回転させる第1制御手段と、前記第1制御手段が施した回転による前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御手段と、前記第1制御手段により回転された位相成分と、前記第2制御手段により補正された振幅成分又はパワー成分と、を合成する合成手段と、を備えたことを特徴とする信号処理装置。
(付記2)
前記第1制御手段は、前記位相成分の回転量を生成する回転量生成手段を含み、前記第2制御手段は、前記回転量生成手段から提供された前記回転量に基づいて前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正することを特徴とする付記1に記載の信号処理装置。
(付記3)
前記第2制御手段は、前記位相成分を遅延させる位相成分遅延手段を含み、遅延前後の前記位相成分を比較することにより、前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正することを特徴とする付記1に記載の信号処理装置。
(付記4)
前記第2制御手段は、前記合成手段からの出力と前記混在信号とを比較することにより前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正することを特徴とする付記1に記載の信号処理装置。
(付記5)
前記第2制御手段は、前記合成手段からの出力の平均値と前記混在信号の平均値とを比較することにより前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正することを特徴とする付記4に記載の信号処理装置。
(付記6)
前記振幅成分又はパワー成分を遅延させる振幅成分遅延手段と、をさらに有し、前記第2制御手段は、前記合成手段からの出力と前記混在信号とを比較することにより前記変化量を算出し、算出した前記変化量に応じて、前記振幅成分遅延手段により遅延した前記振幅成分又はパワー成分を補正することを特徴とする付記1に記載の信号処理装置。
(付記7)
前記変換手段は、前記混在信号を、互いに一部オーバーラップした複数フレームに分割する分割手段を含み、前記第2制御手段は、さらに、フレームのオーバーラップ率に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正することを特徴とする付記1乃至6のいずれか1項に記載の信号処理装置。
(付記8)
前記第1制御手段は、前記位相成分の回転量を制限する回転量制限手段を含むことを特徴とする付記1乃至7のいずれか1項に記載の信号処理装置。
(付記9)
第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと所定周波数の前記位相成分を回転させる第1制御ステップと、前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、を備えたことを特徴とする信号処理方法。
(付記10)
第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと所定周波数の前記位相成分を回転させる第1制御ステップと、前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、をコンピュータに実行させることを特徴とする信号処理プログラムを格納したプログラム記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
この出願は、2010年11月24日に出願された日本出願特願2010−261831を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (10)
- 第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換手段と、
所定周波数の前記位相成分を回転させる第1制御手段と、
前記第1制御手段が施した回転による前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御手段と、
前記第1制御手段により回転された位相成分と、前記第2制御手段により補正された振幅成分又はパワー成分と、を合成する合成手段と、
を含む信号処理装置。 - 前記第1制御手段は、前記位相成分の回転量を生成する回転量生成手段を含み、
前記第2制御手段は、前記回転量生成手段から提供された前記回転量に基づいて前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正する、
請求項1に記載の信号処理装置。 - 前記第2制御手段は、前記位相成分を遅延させる位相成分遅延手段を含み、遅延前後の前記位相成分を比較することにより、前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正する、
請求項1に記載の信号処理装置。 - 前記第2制御手段は、前記合成手段からの出力と前記混在信号とを比較することにより前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正する、
請求項1に記載の信号処理装置。 - 前記第2制御手段は、前記合成手段からの出力の平均値と前記混在信号の平均値とを比較することにより前記変化量を算出し、算出した前記変化量に応じて前記振幅成分又はパワー成分を補正する、
請求項4に記載の信号処理装置。 - 前記振幅成分又はパワー成分を遅延させる振幅成分遅延手段と、をさらに含み、
前記第2制御手段は、前記合成手段からの出力と前記混在信号とを比較することにより前記変化量を算出し、算出した前記変化量に応じて、前記振幅成分遅延手段により遅延した前記振幅成分又はパワー成分を補正する、
請求項1に記載の信号処理装置。 - 前記変換手段は、前記混在信号を、互いに一部オーバーラップした複数フレームに分割する分割手段を含み、
前記第2制御手段は、さらに、フレームのオーバーラップ率に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する、
請求項1乃至6のいずれか1項に記載の信号処理装置。 - 前記第1制御手段は、前記位相成分の回転量を制限する回転量制限手段を含む、
請求項1乃至7のいずれか1項に記載の信号処理装置。 - 第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと、
所定周波数の前記位相成分を回転させる第1制御ステップと、
前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、
前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、
を含む信号処理方法。 - 第1信号と第2信号とが混在した混在信号を、周波数ごとの位相成分及び振幅成分又はパワー成分に変換する変換ステップと、
所定周波数の前記位相成分を回転させる第1制御ステップと、
前記第1制御ステップにおける回転によって生じた前記振幅成分又はパワー成分の変化量に応じて、前記所定周波数の前記振幅成分又はパワー成分を補正する第2制御ステップと、
前記第1制御ステップにより回転された位相成分と、前記第2制御ステップにより補正された振幅成分又はパワー成分と、を合成する合成ステップと、
をコンピュータに実行させる信号処理プログラムを格納したプログラム記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11842659.2A EP2645368B1 (en) | 2010-11-24 | 2011-11-21 | Signal processing device, signal processing method and signal processing program |
CN201180056539.3A CN103250208B (zh) | 2010-11-24 | 2011-11-21 | 信号处理装置和信号处理方法 |
US13/988,690 US9030240B2 (en) | 2010-11-24 | 2011-11-21 | Signal processing device, signal processing method and computer readable medium |
JP2012545815A JP6079236B2 (ja) | 2010-11-24 | 2011-11-21 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-261831 | 2010-11-24 | ||
JP2010261831 | 2010-11-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012070671A1 true WO2012070671A1 (ja) | 2012-05-31 |
Family
ID=46146006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/077286 WO2012070671A1 (ja) | 2010-11-24 | 2011-11-21 | 信号処理装置、信号処理方法、及び信号処理プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9030240B2 (ja) |
EP (1) | EP2645368B1 (ja) |
JP (1) | JP6079236B2 (ja) |
CN (1) | CN103250208B (ja) |
WO (1) | WO2012070671A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014083999A1 (ja) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
WO2014084000A1 (ja) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
WO2015141103A1 (ja) * | 2014-03-17 | 2015-09-24 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
CN104955525A (zh) * | 2013-02-01 | 2015-09-30 | 3M创新有限公司 | 呼吸器面罩语音增强装置和方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715885B2 (en) * | 2013-03-05 | 2017-07-25 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
KR101746799B1 (ko) | 2015-11-04 | 2017-06-14 | 주식회사 쏠리드 | 분산 안테나 시스템 |
CN109767760A (zh) * | 2019-02-23 | 2019-05-17 | 天津大学 | 基于振幅和相位信息的多目标学习的远场语音识别方法 |
TWI692719B (zh) * | 2019-03-21 | 2020-05-01 | 瑞昱半導體股份有限公司 | 音訊處理方法與音訊處理系統 |
CN112037816B (zh) * | 2020-05-06 | 2023-11-28 | 珠海市杰理科技股份有限公司 | 语音信号频域频率的校正、啸叫检测、抑制方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149198A (ja) * | 1996-11-21 | 1998-06-02 | Matsushita Electric Ind Co Ltd | ノイズ削減装置 |
WO1999030315A1 (fr) * | 1997-12-08 | 1999-06-17 | Mitsubishi Denki Kabushiki Kaisha | Procede et dispositif de traitement du signal sonore |
JP2000181498A (ja) * | 1998-12-15 | 2000-06-30 | Toshiba Corp | ビームフォーマを用いた信号入力装置及び信号入力用プログラムを記録した記録媒体 |
JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
JP2004102287A (ja) * | 2002-09-06 | 2004-04-02 | Microsoft Corp | 劣化信号から雑音を除去する非線形観測モデル |
WO2007026691A1 (ja) * | 2005-09-02 | 2007-03-08 | Nec Corporation | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
WO2007029536A1 (ja) * | 2005-09-02 | 2007-03-15 | Nec Corporation | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
JP2008227595A (ja) * | 2007-03-08 | 2008-09-25 | Sony Corp | 信号処理装置、信号処理方法、プログラム |
JP2010261831A (ja) | 2009-05-08 | 2010-11-18 | Toyota Motor Corp | 歪み量計測方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0795672B2 (ja) * | 1987-12-28 | 1995-10-11 | アルパイン株式会社 | ディジタル位相制御回路 |
JP4003240B2 (ja) * | 1996-11-07 | 2007-11-07 | 松下電器産業株式会社 | 音声符号化装置及び音声復号化装置 |
US7254195B2 (en) * | 2003-08-25 | 2007-08-07 | M/A-Com, Inc. | Apparatus, methods and articles of manufacture for dynamic differential delay correction |
US7945223B2 (en) * | 2007-02-14 | 2011-05-17 | Infineon Technologies Ag | Polar modulator with signed amplitude reducing phase transitions |
JP4818955B2 (ja) | 2007-02-27 | 2011-11-16 | 三菱電機株式会社 | 雑音除去装置 |
WO2009047704A1 (en) * | 2007-10-09 | 2009-04-16 | St Wireless Sa | Transmitter |
US7932763B2 (en) * | 2009-04-02 | 2011-04-26 | Mediatek Inc. | Signal processing circuit and signal processing method |
US8107898B2 (en) * | 2009-10-23 | 2012-01-31 | Panasonic Corporation | Transmitter circuit and communication device using the same |
US8488497B2 (en) * | 2010-06-10 | 2013-07-16 | Panasonic Corporation | Transmission circuit and transmission method |
JP6070953B2 (ja) * | 2011-02-26 | 2017-02-01 | 日本電気株式会社 | 信号処理装置、信号処理方法、及び記憶媒体 |
US8660209B2 (en) * | 2012-01-20 | 2014-02-25 | Mediatek Inc. | Transmitter and frequency deviation reduction method thereof |
-
2011
- 2011-11-21 EP EP11842659.2A patent/EP2645368B1/en active Active
- 2011-11-21 WO PCT/JP2011/077286 patent/WO2012070671A1/ja active Application Filing
- 2011-11-21 CN CN201180056539.3A patent/CN103250208B/zh active Active
- 2011-11-21 JP JP2012545815A patent/JP6079236B2/ja active Active
- 2011-11-21 US US13/988,690 patent/US9030240B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149198A (ja) * | 1996-11-21 | 1998-06-02 | Matsushita Electric Ind Co Ltd | ノイズ削減装置 |
WO1999030315A1 (fr) * | 1997-12-08 | 1999-06-17 | Mitsubishi Denki Kabushiki Kaisha | Procede et dispositif de traitement du signal sonore |
JP2000181498A (ja) * | 1998-12-15 | 2000-06-30 | Toshiba Corp | ビームフォーマを用いた信号入力装置及び信号入力用プログラムを記録した記録媒体 |
JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
JP2004102287A (ja) * | 2002-09-06 | 2004-04-02 | Microsoft Corp | 劣化信号から雑音を除去する非線形観測モデル |
WO2007026691A1 (ja) * | 2005-09-02 | 2007-03-08 | Nec Corporation | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
WO2007029536A1 (ja) * | 2005-09-02 | 2007-03-15 | Nec Corporation | 雑音抑圧の方法及び装置並びにコンピュータプログラム |
JP2008227595A (ja) * | 2007-03-08 | 2008-09-25 | Sony Corp | 信号処理装置、信号処理方法、プログラム |
JP2010261831A (ja) | 2009-05-08 | 2010-11-18 | Toyota Motor Corp | 歪み量計測方法 |
Non-Patent Citations (4)
Title |
---|
AKIHIKO SUGIYAMA: "Single-Channel Impact-Noise Suppression with no Auxiliary Information for its Detection", PROC. IEEE WORKSHOP ON APPLICATION OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA, 21 October 2007 (2007-10-21), pages 127 - 130, XP031167148 |
M. KATO; A. SUGIYAMA; M. SERIZAWA: "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA", IEICE TRANS. FUNDAMENTALS, vol. J87-A, no. 7, July 2004 (2004-07-01), pages 851 - 860 |
R. MARTIN: "Spectral subtraction based on minimum statistics", EUSPICO-94, September 1994 (1994-09-01), pages 1182 - 1185, XP009026531 |
See also references of EP2645368A4 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014083999A1 (ja) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
WO2014084000A1 (ja) * | 2012-11-27 | 2014-06-05 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
US9401746B2 (en) | 2012-11-27 | 2016-07-26 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
US10447516B2 (en) | 2012-11-27 | 2019-10-15 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
CN104955525A (zh) * | 2013-02-01 | 2015-09-30 | 3M创新有限公司 | 呼吸器面罩语音增强装置和方法 |
WO2015141103A1 (ja) * | 2014-03-17 | 2015-09-24 | 日本電気株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
US10043532B2 (en) | 2014-03-17 | 2018-08-07 | Nec Corporation | Signal processing apparatus, signal processing method, and signal processing program |
Also Published As
Publication number | Publication date |
---|---|
US20130251079A1 (en) | 2013-09-26 |
JPWO2012070671A1 (ja) | 2014-05-19 |
EP2645368B1 (en) | 2019-05-08 |
CN103250208B (zh) | 2015-06-17 |
US9030240B2 (en) | 2015-05-12 |
EP2645368A4 (en) | 2014-08-20 |
CN103250208A (zh) | 2013-08-14 |
EP2645368A1 (en) | 2013-10-02 |
JP6079236B2 (ja) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6079236B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6070953B2 (ja) | 信号処理装置、信号処理方法、及び記憶媒体 | |
JP5435204B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
WO2011148860A1 (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
WO2014136628A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6300031B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP5788873B2 (ja) | 信号処理方法、情報処理装置、及び信号処理プログラム | |
WO2012070670A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
WO2012070668A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2008216721A (ja) | 雑音抑圧の方法、装置、及びプログラム | |
WO2015029545A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5413575B2 (ja) | 雑音抑圧の方法、装置、及びプログラム | |
JP6119604B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP6182862B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP6662413B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
WO2013032025A1 (ja) | 信号処理装置、信号処理方法、およびコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11842659 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2012545815 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13988690 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011842659 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |