WO2011055830A1 - 信号処理方法、情報処理装置、及び信号処理プログラム - Google Patents

信号処理方法、情報処理装置、及び信号処理プログラム Download PDF

Info

Publication number
WO2011055830A1
WO2011055830A1 PCT/JP2010/069870 JP2010069870W WO2011055830A1 WO 2011055830 A1 WO2011055830 A1 WO 2011055830A1 JP 2010069870 W JP2010069870 W JP 2010069870W WO 2011055830 A1 WO2011055830 A1 WO 2011055830A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
impact sound
information
unit
noise
Prior art date
Application number
PCT/JP2010/069870
Other languages
English (en)
French (fr)
Inventor
昭彦 杉山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to EP10828388.8A priority Critical patent/EP2500902B1/en
Priority to US13/508,694 priority patent/US9042576B2/en
Priority to CN201080050832.4A priority patent/CN102612711B/zh
Publication of WO2011055830A1 publication Critical patent/WO2011055830A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the present invention relates to a signal processing technique for suppressing a noise in a deteriorated signal and enhancing a desired signal.
  • Noise suppression technology is known that suppresses noise from a deteriorated signal (a signal in which noise is superimposed on a desired signal) and outputs an enhanced signal (a signal in which the desired signal is enhanced).
  • a noise suppressor is a system that suppresses noise superimposed on a desired audio signal, and is used in various audio terminals such as mobile phones.
  • Patent Document 1 discloses a method of suppressing noise by multiplying an input signal by a suppression coefficient smaller than 1.
  • Patent Document 2 discloses a method for suppressing noise by directly subtracting estimated noise from a degraded signal.
  • the techniques described in Patent Documents 1 and 2 include an average operation in the noise estimation, and it is not possible to sufficiently suppress sudden noise such as impact sound.
  • Non-Patent Document 1 discloses a noise suppression system that detects an impact sound based on flatness of a degraded signal power spectrum and an increment from the past.
  • the system described in Non-Patent Document 1 estimates background noise when no impact sound is detected in a non-speech section.
  • the system described in Non-Patent Document 1 suppresses the impact sound by replacing the degraded signal with the estimated value of the background noise, and the difference between the degraded signal and the background noise is reduced. To update the impact sound estimate.
  • the system described in Non-Patent Document 1 suppresses the impact sound by subtracting the estimated impact sound value from the degradation signal when the impact sound is detected in the voice section.
  • an object of the present invention is to provide a signal processing technique that solves the above-described problems.
  • a signal processing method detects an impact sound in the degraded signal and suppresses phase information of the detected impact sound in order to suppress the impact sound in the degraded signal. Processing is performed with phase information of signals other than the impact sound in the deteriorated signal so that the amount of change in information becomes small.
  • an information processing apparatus is an information processing apparatus that suppresses an impact sound in a deterioration signal, a detection unit that detects the impact sound in the deterioration signal, and a detected impact Phase processing means for processing the phase information of the sound with the phase information of the signal other than the impact sound in the deteriorated signal.
  • a signal processing program stored in a program recording medium is a signal processing program for suppressing an impact sound in a deteriorated signal, and an impact sound in the deteriorated signal is transmitted to a computer.
  • the signal discontinuity due to the phase can be reduced and the impact sound can be sufficiently suppressed.
  • FIG. 1 is a block diagram showing a schematic configuration of a noise suppression device 100 as a first embodiment of the present invention.
  • the block diagram which shows the structure of the conversion part 2 contained in the noise suppression apparatus 100 as 1st Embodiment of this invention.
  • the block diagram which shows the structure of the inverse transformation part 4 contained in the noise suppression apparatus 100 as 1st Embodiment of this invention.
  • the block diagram which shows the structure of the impact sound suppression part 11 contained in the noise suppression apparatus 100 as 1st Embodiment of this invention.
  • the block diagram which shows the structure of the impact sound detection part 10 contained in the noise suppression apparatus 100 as 2nd Embodiment of this invention.
  • the block diagram which shows schematic structure of the noise suppression apparatus 300 as 3rd Embodiment of this invention.
  • FIG. 1 is a block diagram showing the overall configuration of the noise suppression device 100.
  • FIG. 1 is a block diagram showing the overall configuration of the noise suppression device 100.
  • the noise suppression device 100 also functions as a part of a device such as a digital camera, a notebook computer, or a mobile phone.
  • the present invention is not limited to this, and any noise removal from an input signal is required. It can be applied to an information processing apparatus.
  • a degraded signal (a signal in which a desired signal and noise are mixed) is supplied to the input terminal 1 as a sample value series.
  • the degraded signal supplied to the input terminal 1 is subjected to transformation such as Fourier transformation in the transformation unit 2 and is divided into a plurality of frequency components.
  • the amplitude is multiplexed as an amplitude spectrum and transmitted to the impact sound detection unit 10 and the inverse conversion unit 4.
  • the phase is supplied to the impact sound suppression unit 11 as a phase spectrum.
  • the impact sound detection unit 10 detects the presence of an impact sound based on the frequency characteristic and time characteristic of the deteriorated signal spectrum.
  • the impact sound detection unit 10 may use either the frequency characteristic or the time characteristic for detection, or may use both.
  • the impact sound detection part 10 can also use the integration result expressed by the weighted sum of each characteristic evaluation result, or a more complicated function.
  • FIG. 2 is a block diagram illustrating a configuration of the conversion unit 2. As shown in FIG.
  • the converting unit 2 includes a frame dividing unit 21, a windowing unit 22, and a Fourier transform unit 23.
  • the deteriorated signal samples are supplied to the frame dividing unit 21 and divided into frames for every K / 2 samples.
  • K is an even number.
  • the degraded signal sample divided into frames is supplied to the windowing processing unit 22 and is multiplied by w (t) which is a window function.
  • the windowing processing unit 22 may window by overlapping (overlapping) a part of two consecutive frames.
  • the left side obtained by the following equation (2) is the output of the windowing processing unit 22.
  • the description will be continued by taking as an example a case in which 50% of two consecutive frames overlap each other.
  • the windowing processing unit 22 may use, for example, a Hanning window represented by the following equation (3) as w (t).
  • various window functions such as a Hamming window, a Kaiser window, and a Blackman window are known.
  • the windowed output is supplied to the Fourier transform unit 23 and converted into a degraded signal spectrum Yn (k).
  • the deteriorated signal spectrum Yn (k) is separated into a phase and an amplitude, the deteriorated signal phase spectrum arg Yn (k) is opposite to the impact sound suppressing unit 11, and the deteriorated signal amplitude spectrum
  • FIG. 3 is a block diagram showing the configuration of the inverse transform unit 4.
  • the inverse transform unit 4 includes an inverse Fourier transform unit 43, a windowing processing unit 42, and a frame composition unit 41.
  • the inverse Fourier transform unit 43 combines the enhanced signal phase spectrum supplied from the impact sound suppression unit 11 and the deteriorated signal amplitude spectrum supplied from the conversion unit 2 to generate an enhanced signal (the left side of the following equation (4)). Ask.
  • the inverse Fourier transform unit 43 performs inverse Fourier transform on the obtained enhancement signal.
  • the multiplication with the window function w (t) is performed.
  • the left side of the following expression becomes the output of the windowing processing unit 42 and is transmitted to the frame synthesis unit 41.
  • the obtained output signal is transmitted from the frame synthesis unit 41 to the output terminal 5.
  • the transformation in the transformation unit 2 and the inverse transformation unit 4 has been described as Fourier transformation.
  • the transform unit 2 and the inverse transform unit 4 can use other transforms such as cosine transform, modified cosine transform, Hadamard transform, Haar transform, and wavelet transform instead of the Fourier transform.
  • the cosine transform and the modified cosine transform can obtain only the amplitude as a conversion result. For this reason, the path
  • the noise information recorded in the noise information storage unit 6 also has only amplitude (or power), which contributes to reduction in storage capacity and calculation amount in noise suppression processing.
  • the conversion unit 2 and the inverse conversion unit 4 use Haar transform, multiplication is not necessary, and the area of the LSI can be reduced.
  • FIG. 4 is a block diagram showing an internal configuration of the impact sound suppression unit 11.
  • the impact sound suppression unit 11 includes a delay unit 111 and a synthesis unit 112.
  • the delay unit 111 delays the input degraded signal phase spectrum.
  • the delay amount does not have to be one, and the delay unit 111 can also generate a plurality of delay signals by delaying the input by a plurality of delay amounts.
  • the combining unit 112 combines the enhanced signal phase spectrum using the deteriorated signal phase spectrum and the delayed deteriorated signal phase spectrum supplied from the delay unit 111.
  • the synthesizing unit 112 performs the phase processing only when the detection of the impact sound is transmitted from the impact sound detection unit 10.
  • the synthesizing unit 112 can apply the process shown in the following mathematical formula (8) to the phase by using the past value (before the impact sound is generated) as the phase process.
  • N represents a frequency range
  • M represents a frame number range
  • clp represents a coefficient for a frequency p and a degraded signal phase spectrum before l frames. That is, the synthesizer 112 calculates the phase of the enhancement signal by linear combination of the deteriorated signal phase spectrum in the frequency range k ⁇ N / 2 to k + N / 2 and the frame number n to n ⁇ M + 1.
  • the simplest example is the average of the previous phase at each frequency.
  • the combining unit 112 may apply (replace) the same phase as the phase one frame before.
  • the impact sound suppression unit 11 delays the entire signal and uses the phase of the future signal component following the impact sound in the same manner as the phase of the past signal component to suppress the phase change. Therefore, the impact sound suppression effect can be improved.
  • the impact sound suppression effect by this phase processing is very large, and the impact sound suppression effect can be obtained only by the phase processing without performing power control and amplitude control.
  • the impact sound suppression unit 11 can also add a component unrelated to the past value to the phase.
  • An example of such a component is a random phase.
  • the impact sound suppression unit 11 can also limit the range of the random phase such that the random phase is 45 degrees or less.
  • the impact sound suppression unit 11 can effectively suppress the impact sound by adding a component unrelated to the past value to the phase.
  • the noise suppression device 100 when the noise suppression device 100 suppresses the impact sound in the deteriorated signal, the noise suppression device 100 detects the impact sound in the deteriorated signal and detects the phase component of the detected impact sound. Was processed using the phase component of the signal other than the impact sound in the degraded signal. Thereby, the noise suppression apparatus 100 can suppress an impact sound more effectively.
  • the noise suppression apparatus 100 detects the impact sound in the deteriorated signal and detects the phase component of the detected impact sound.
  • the noise suppression apparatus 100 can suppress an impact sound more effectively.
  • FIG. 5 is a block diagram illustrating a configuration of the impact sound detection unit 10. Referring to FIG.
  • the impact sound detection unit 10 includes a spectral frequency characteristic evaluation unit 101, a spectral time characteristic evaluation unit 102, and an integration unit 103.
  • the spectral frequency characteristic evaluation unit 101 evaluates characteristics related to changes in the frequency direction of the spectrum and supplies them to the integration unit 103.
  • the spectrum frequency characteristic evaluation unit 101 evaluates the frequency direction flatness of the spectrum as a characteristic relating to the change in the frequency direction of the spectrum.
  • the spectral frequency characteristic evaluating unit 101 can use the sum of absolute difference values of spectra at adjacent frequency points as the spectral flatness.
  • the spectral frequency characteristic evaluation unit 101 can obtain the spectral flatness Fmf (n) at the frame n by the following equation (9). .
  • the spectral frequency characteristic evaluating unit 101 can also use the sum of absolute differences from the average spectrum as the spectral flatness.
  • the spectral frequency characteristic evaluation unit 101 can obtain the spectral flatness Fmf (n) in the frame n by the following equation (10).
  • the spectral frequency characteristic evaluation unit 101 can also limit the frequency for flatness calculation by k.
  • the spectral frequency characteristic evaluating unit 101 can increase the detection accuracy by limiting the range of k to the high frequency range. . Further, the spectral frequency characteristic evaluation unit 101 may obtain flatness individually for a plurality of subbands, and obtain the overall flatness by linear or nonlinear combination thereof. The spectral frequency characteristic evaluation unit 101 can also use the subband processing to identify impact sound and friction sound. Both the impact sound and the friction sound have a flat spectral characteristic over a wide band, but generally the friction sound has a narrower band and a lower low-frequency power.
  • the spectral frequency characteristic evaluation unit 101 compares the flatness obtained in this way with a threshold value to obtain a flatness score.
  • the flatness score is an index indicating how flat the image is, and can be expressed as a value normalized between 1 and 0, for example. Assuming that the upper threshold of flatness is ⁇ H, the lower threshold is ⁇ L, and the flatness corresponding to these is FH and FL, the spectral frequency characteristic evaluation unit 101 determines the flatness score Sf (n) by equation (11). be able to. In the equation (11), linear interpolation is performed between the upper threshold and the lower threshold.
  • the threshold value is, for example, a predetermined value, a past average or median value of flatness, or a value calculated based on them.
  • the spectral frequency characteristic evaluation unit 101 can prepare a plurality of threshold values and selectively use them based on the result of analyzing the deteriorated signal spectrum. Examples of such analysis results are a degraded signal amplitude spectrum, a power spectrum, and statistics (average value, median value, maximum value, minimum value, variance) of these.
  • the spectral time characteristic evaluation unit 102 evaluates characteristics related to changes in the time direction of the spectrum and supplies them to the integration unit 103.
  • the spectrum time characteristic evaluation unit 102 can use the amplitude or the increment of the power spectrum as the time direction change of the spectrum.
  • the spectral time characteristic evaluation unit 102 evaluates changes in the time direction at each frequency point.
  • the spectral time characteristic evaluation unit 102 may obtain an overall change by these linear or non-linear combinations.
  • the spectral time characteristic evaluation unit 102 can obtain the change in the time direction in the subband.
  • the spectral time characteristic evaluation unit 102 can obtain the change Fmt (n) in the time direction in one subband by the following equation (12).
  • the subband lower limit is determined by the value of k.
  • the spectrum time characteristic evaluation part 102 can designate a subband upper limit, if a specific frequency number is used instead of N-1.
  • the spectral time characteristic evaluation unit 102 may obtain the change in the time direction individually in a plurality of subbands, and obtain the overall change by linear or non-linear combination thereof. Since the impact sound spectrum is strong in the high frequency range and the spectrum of the normal signal is strong in the low frequency range, the spectral time characteristic evaluation unit 102 can increase the detection accuracy by evaluating the change only in the high frequency range.
  • the spectral time characteristic evaluation unit 102 can also use statistics in the frequency direction of the amplitude or power spectrum (average value, median value, maximum value, minimum value, variance), or some combination thereof. For example, when the minimum value is used, the spectral time characteristic evaluation unit 102 can obtain the time change by the following equation (13).
  • the impact sound detection unit 10 can detect the impact sound very accurately. This is because the statistics in the frequency direction of the deteriorated signal can usually take a wide range of values, but the impact sound tends to have a large minimum value in the frequency direction. In particular, when any of these statistics has a small variance, the spectral time characteristic evaluation unit 102 can improve the detection accuracy by using the statistics having a small variance.
  • 2 can be used instead of the deteriorated signal amplitude spectrum
  • the spectral time characteristic evaluation unit 102 compares the time change thus obtained with a threshold value to obtain a time change score.
  • the time change score is an index indicating how much time change exists, and can be expressed as a value normalized between 1 and 0, for example.
  • the spectral time characteristic evaluation unit 102 can determine the score St (n) for time change in the same manner as in equation (11). . Similar to the flatness score, the spectral time characteristic evaluation unit 102 can apply interpolation using an arbitrary function or polynomial instead of linear interpolation.
  • the spectral time characteristic evaluating unit 102 may use a past average or median value of time change or a value calculated based on the average, in addition to a predetermined value as a threshold value. Further, the spectral time characteristic evaluation unit 102 can prepare a plurality of threshold values and selectively use them based on the result of analyzing the degradation signal amplitude spectrum. Examples of such analysis results are a degraded signal amplitude spectrum, a power spectrum, and statistics (average value, median value, maximum value, minimum value, variance) of these.
  • the integration unit 103 integrates the characteristics related to the frequency direction change of the spectrum supplied from the spectral frequency characteristic evaluation unit 101 and the characteristics related to the time direction change of the spectrum supplied from the spectral time characteristic evaluation unit 102 to generate impact sound data.
  • the impact sound data is, for example, the likelihood of impact sound normalized to a value between 0 and 1. For example, when the impact sound data is 1, it is determined as an impact sound with 100% confidence, and when it is 0.8, it is determined as an impact sound with 20% uncertainty.
  • the simplest method of integrating the characteristics is the logical product of the flatness score and the time change score.
  • the integration unit 103 sets the impact sound data to 1 when both of the two scores are equal to 1. Further, the integration unit 103 can use a logical sum instead of a logical product. If any one of the scores is 1, the integration unit 103 sets the impact sound data to 1.
  • the integration unit 103 can also calculate impact sound data using an integrated score obtained by integrating these scores.
  • the integration unit 103 can set the impact sound to 1 or more even when the sum of the two is the impact sound data, even if the sum is more uncertain than the logical product or logical sum.
  • the integration of scores may be not only a simple sum of the two but also various integrations including linear and nonlinear functions. Depending on the function used for the integration, it is possible to adjust how much of the frequency characteristic or the time characteristic is emphasized. If the impact sound data obtained in this way is 1 or more, the noise suppressing device determines that the impact sound exists reliably and completely suppresses the impact sound. If the impact sound data is 1 or less, the noise suppression device weakens the degree of impact sound suppression according to the value.
  • the noise suppression device extracts the amplitude or power component from the degradation signal when suppressing the impact sound in the degradation signal, and the statistics of the time direction change of the amplitude or power component. Is used to detect an impact sound. Thereby, the noise suppression device can detect the impact sound more accurately.
  • the impact sound detection unit 10 as a part of the first embodiment has been described.
  • the impact sound detection method of the present embodiment is limited to the impact sound suppression method described in the first embodiment. It doesn't matter how the impact sound is suppressed. That is, the noise suppression device may suppress the impact sound by the phase processing and control the amplitude and power with respect to the impact sound detected by the method of the present embodiment as described in the first embodiment.
  • FIG. 6 is a diagram illustrating a noise suppression device 300 according to the present embodiment.
  • the noise suppression device 300 includes a first impact sound suppression unit 11 and a second impact sound suppression unit 12.
  • is supplied from the conversion unit 2 to the impact sound detection unit 10 and the second impact sound suppression unit 12.
  • the inverse conversion unit 4 is supplied with the enhancement signal phase spectrum arg Xn (k) bar from the first impact sound suppression unit and the enhancement signal amplitude spectrum
  • FIG. 7 is a block diagram showing an internal configuration of the second impact sound suppression unit 12.
  • the second impact sound suppression unit 12 includes a delay unit 121 and a synthesis unit 122.
  • the delay unit 121 delays the degraded signal amplitude spectrum as an input. The amount of delay need not be one.
  • the delay unit 121 can also generate a plurality of delayed signals by delaying input by a plurality of delay amounts.
  • the combining unit 122 combines the input deteriorated signal amplitude spectrum and the delayed deteriorated signal amplitude spectrum supplied from the delay unit 121 to generate an enhanced signal amplitude spectrum.
  • the synthesis unit 122 performs the synthesis process with the delay signal only when the impact sound is detected by the impact sound detection unit 10.
  • the synthesizing unit 122 can apply the process represented by the following equation (14) as the synthesizing process, using the past value and applying the process represented by the equation (8) of the first embodiment.
  • clp represents a coefficient for the degraded signal amplitude spectrum delayed by the frequency p and l frames. That is, the synthesizer 122 calculates the emphasized signal amplitude spectrum by linear combination of the deteriorated signal amplitude spectra whose frequency range is in the range of k ⁇ N / 2 to k + N / 2 and the frame number n to n ⁇ M + 1.
  • the simplest example is the average with the previous sample at each frequency.
  • the synthesis unit 122 may limit the current sample with a value (for example, an average value or a maximum value) obtained from a past sample as an upper limit. This synthesis method also makes the difference from the past sample smaller than the case of the current sample alone, and makes it difficult to perceive it as an impact sound.
  • the second impact sound suppression unit 12 delays the entire signal, similarly to the process for the phase, and uses the amplitude spectrum of the future signal component following the impact sound in the same manner as the amplitude spectrum of the past signal component, By suppressing the change of the amplitude spectrum, the impact sound suppression effect can be improved.
  • the degraded signal power spectrum can be used instead of the degraded signal amplitude spectrum, as already described in other explanations.
  • processing is performed using a signal other than the impact sound in the deteriorated signal so that the amplitude or power component of the detected impact sound is reduced. By processing the impact sound from both the phase and amplitude or power in this way, the noise suppression apparatus 300 can suppress the impact sound more effectively.
  • the noise suppression device 400 of the present embodiment has an input terminal 9 for inputting noise presence information.
  • the impact sound suppression unit 31 in FIG. 8 suppresses the impact sound by performing the phase processing described in the first embodiment at each frequency using the noise presence information supplied from the input terminal 9. Then, the impact sound suppression unit 31 transmits the impact sound suppression result to the inverse conversion unit 4 as an enhanced signal spectrum.
  • the enhanced signal phase spectrum is obtained by applying the phase processing described in the first embodiment to the deteriorated signal phase spectrum when the noise presence information indicates the presence of noise and suppressing the impact sound.
  • FIG. 9 shows an internal configuration of the second impact sound suppression unit 52 according to the present embodiment.
  • FIG. 9 is a block diagram showing a configuration of the impact sound suppression unit 52. As shown in FIG.
  • the second impact sound suppression unit 52 includes an importance level evaluation unit 123 in addition to the delay unit 121 and the synthesis unit 124. Since the delay unit 121 has the same configuration as that described with reference to FIG. 7 in the third embodiment, the description thereof is omitted here.
  • the importance level evaluation unit 123 generates information (importance level information) for performing processing according to the importance level, and supplies the information to the synthesis unit 124.
  • the synthesis unit 124 performs a process according to the importance level according to the importance level information supplied from the importance level evaluation unit 123.
  • a first example of the importance information generated by the importance evaluation unit 123 is a peak of the degradation signal amplitude spectrum.
  • the importance level evaluation unit 123 can detect and detect the peak of the spectrum by comparing the spectrum at each frequency point with the spectrum at the adjacent frequency point to determine whether it is sufficiently large.
  • the simplest example is to compare the spectrum of each frequency point with the spectrum of its both neighbors (low band side and high band side) and determine that it is a peak when the difference is greater than a threshold value.
  • the threshold for the difference need not be equal for the spectra on both sides.
  • Japanese Industrial Standards JIS x 4332-3 “Encoding of Audio-Video Objects—Part 3 Sound—” in March 2002, the difference threshold on the high frequency side was made smaller than the differential threshold on the low frequency side. It is described that it matches the characteristics.
  • the importance level evaluation unit 123 can obtain a difference for a plurality of frequency points on the low frequency side and the high frequency side, and can detect the peak by combining these pieces of information. That is, a difference is large with respect to the immediately adjacent frequency point, but if a frequency point with a small difference is detected between adjacent frequency points that are further away from each other, it becomes a peak.
  • the importance level evaluation unit 123 supplies the peak position (frequency) and size (importance level) detected in this way to the synthesis unit 124.
  • a second example of the importance information generated by the importance evaluation unit 123 is the magnitude of the degradation signal amplitude spectrum. Even if the spectrum does not form a peak, the importance level evaluation unit 123 detects the frequency as a large amplitude when the value is large.
  • the importance level evaluation unit 123 supplies the detected position (frequency) and magnitude (importance level) of the large amplitude to the synthesis unit 124.
  • a third example of the importance level information generated by the importance level evaluation unit 123 is the noise likelihood of the degraded signal amplitude spectrum.
  • the above-described peak detection is performed, and among the detected peaks, a peak particularly present in a low band has a low possibility of noise. Further, the noise value is high at a position where the spectrum value is small and not at the peak. That is, the peak is less likely to be noise, and the peak is more likely to be noise when the spectrum value is small.
  • the importance level evaluation unit 123 supplies the position (frequency) and size (importance level) of these peaks to the synthesis unit 124.
  • the importance level information generated by the importance level evaluation unit 123 may appropriately combine the peak, the large amplitude, and the noise likelihood already described. For example, the threshold for peak detection is lowered for a large amplitude spectrum, and control is performed so that a small peak is detected in a band with a large amplitude.
  • the importance level evaluation unit 123 can obtain more accurate importance level information by using a combination of indices. Further, as described above, the importance level evaluation unit 123 can apply subband processing or the like that limits processing to a specific frequency band.
  • the synthesis unit 124 performs the same enhancement signal spectrum synthesis process as the synthesis unit 122 described with reference to FIG. 7 except for the frequency points supplied from the importance level evaluation unit 123.
  • the impact sound suppression unit 52 applies suppression according to the importance at these frequency points. That is, the impact sound suppression unit 52 applies weak suppression when the importance is high, and applies strong suppression when the importance is low.
  • FIG. 10A is an overall configuration diagram of the noise suppression device according to the present embodiment. Although it is very similar to the configuration of FIG. 6, the second impact sound suppression unit 62 is different in that noise presence information is supplied from the input terminal 9. Since other configurations and operations are the same as those in FIG. 6, detailed description thereof is omitted here.
  • FIG. 10B is a block diagram showing an internal configuration of the second impact sound suppression unit 62. As illustrated in FIG.
  • the impact sound suppression unit 62 includes a delay unit 121, a synthesis unit 134, and a background sound estimation unit 125.
  • the delay unit 121 is the same as that described with reference to FIG.
  • the background sound estimation unit 125 receives the degradation signal amplitude spectrum from the conversion unit 2, receives noise presence information from the input terminal 9, estimates the background sound level, and supplies the background sound level estimation value to the synthesis unit 134.
  • the background sound estimation unit 125 uses the background sound level estimated value as an estimated value of the background sound amplitude spectrum when the deteriorated signal amplitude spectrum is supplied as an input, and as an estimated value of the background sound power spectrum when the deteriorated signal power spectrum is supplied. Ask.
  • the background sound estimation unit 125 performs the background sound estimation only when noise is determined to be present based on the noise presence information, and updates the estimated value of the background sound.
  • the synthesis unit 134 performs different processing depending on the background sound estimation value supplied from the background sound estimation unit 125 in addition to the same enhanced signal spectrum synthesis processing as the synthesis unit 122.
  • the synthesis unit 134 performs suppression using the background sound estimation value supplied from the background sound estimation unit 125 as a lower limit value. That is, when the synthesized result is smaller than the background sound estimated value, the synthesizing unit 134 weakens the suppression until it becomes equal to the background sound estimated value, and outputs it as an enhanced signal spectrum.
  • the synthesis unit 134 When the synthesis result is equal to or larger than the background sound estimated value, the synthesis unit 134 outputs the synthesis result as it is as an enhanced signal spectrum.
  • the noise presence information supplied from the input terminal 9 indicates the absence of noise, the synthesis unit 134 does not perform processing using the background sound estimation value as the lower limit value, and outputs the synthesis result as it is as an enhanced signal spectrum.
  • the impact sound suppression unit 62 can obtain an enhanced signal that gives a natural audibility by avoiding excessive suppression by performing suppression using the estimated background sound value as a lower limit value.
  • FIG. 11 is a block diagram showing an internal configuration of the second impact sound suppression unit 72.
  • the second impact sound suppression unit 72 includes a delay unit 121, a synthesis unit 122, and a whitening processing unit 127. Since the relationship between the delay unit 121 and the combining unit 122 is as described with reference to FIGS. 5 to 7, the description thereof is omitted here.
  • the whitening processing unit 127 is supplied with the enhanced signal spectrum from the synthesizing unit 122, whitens this, and outputs it as a whitened enhanced signal spectrum.
  • the whitening processing unit 127 obtains an average value of the emphasized signal amplitude spectrum, and makes the variance from the average value equal to or less than the reference value. Specifically, the whitening processing unit 127 replaces the amplitude spectrum value exceeding the average value + ⁇ with the average value + ⁇ . Further, the whitening processing unit 127 replaces the amplitude spectrum value smaller than the average value ⁇ with the average value ⁇ . The whitening processing unit 127 leaves the other emphasized signal amplitude spectrum as it is. Further, the whitening processing unit 127 may replace with a random number in the range of the average value ⁇ ⁇ instead of replacing with the average value ⁇ ⁇ .
  • the whitening processing unit 127 replaces the amplitude spectrum value exceeding the average value + ⁇ with a random number between the average value + ⁇ and the average value. Further, the whitening processing unit 127 replaces the amplitude spectrum value smaller than the average value ⁇ with a random number between the average value ⁇ and the average value.
  • the whitening process makes the amplitude spectrum value uniform and makes it difficult to perceive noise.
  • the importance level evaluation unit 123 described with reference to FIG. 9 may be provided. In that case, the whitening processing unit 127 can also use the output of the importance level evaluation unit 123 for the whitening processing.
  • the importance degree evaluation unit 123 obtains the likelihood of noise, and the whitening processing unit 127 applies the whitening process only when the likelihood of noise is large. By doing in this way, when there are few desired signal components, an emphasis signal becomes close to a white signal, and it becomes difficult to perceive it as noise.
  • the whitening processing unit 127 can also perform individual processing with a plurality of subbands in the whitening processing.
  • the whitening processing unit 127 can also avoid whitening in a specific subband. In this case, since the whitening processing unit 127 uses different average values for each subband, it is possible to obtain an enhanced signal that gives a natural audibility.
  • FIG. 12 is a block diagram showing the configuration of the noise suppression apparatus according to the eighth embodiment of the present invention.
  • FIG. 13 is a block diagram showing the configuration of the noise suppression apparatus according to the ninth embodiment of the present invention.
  • the impact sound detection unit 90 detects the impact sound using the result of the noise suppression performed by the noise suppression unit 3. Since others are the same structure, the same code
  • the output from the noise suppression unit 3 is input to the impact sound detection unit 90. Since the configuration of the impact sound detection unit 90 is the same as that of the impact sound detection unit 10 described in the first embodiment, detailed description thereof is omitted here. With the above configuration, the impact sound detection unit 90 can detect the impact sound more accurately using the result of the noise suppression performed by the noise suppression unit 3. (10th Embodiment) FIG.
  • the impact sound detection unit 91 detects the impact sound using the supplied noise information (for example, information indicating the presence of noise (noise presence information), noise information including information on the spectrum shape, etc.). Since others are the same structure, the same code
  • the impact sound detection unit 91 detects the impact sound when the noise information indicates the presence of noise, using the deterioration signal amplitude spectrum supplied from the conversion unit 2 and the input noise information.
  • the noise suppression device can accurately detect and suppress the impact sound.
  • noise suppression devices having different characteristics have been described.
  • noise suppression devices that combine these features in any way are also included in the scope of the present invention.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device.
  • the present invention is also applicable to a case where a software signal processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus.
  • FIG. 15 is a configuration diagram of a computer 1100 that executes a signal processing program when the first embodiment is configured by a signal processing program.
  • the computer 1100 includes an input unit 1101, a CPU 1102, an output unit 1103, a memory 1104, and a communication control unit 1106.
  • the CPU 1102 controls the operation of the computer 1100 by reading a signal processing program. That is, the CPU 1102 that has executed the signal processing program detects an impact sound from the deterioration signal (S801).
  • the CPU 1102 processes the phase information of the impact sound detected in the deterioration signal using the phase information of the signal other than the impact sound (S802). Thereby, the effect similar to 1st Embodiment can be acquired.
  • the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2009-256596 for which it applied on November 9, 2009, and takes in those the indications of all here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

 劣化信号中の衝撃音を十分に抑圧すること。 劣化信号中の衝撃音を抑圧する。そのために、劣化信号中において衝撃音を検出する。そして、検出された衝撃音の位相情報を、位相情報の変化量が小さくなるように劣化信号中の衝撃音以外の信号の位相情報で処理することを特徴とする。

Description

信号処理方法、情報処理装置、及び信号処理プログラム
 本発明は、劣化信号中の雑音を抑圧して所望の信号を強調するための信号処理技術に関する。
 劣化信号(所望の信号に雑音が重畳された信号)から、雑音を抑圧し、強調信号(所望の信号を強調した信号)を出力する雑音抑圧技術(noise suppressing technology)が知られている。例えば、ノイズサプレッサは、所望の音声信号に重畳されている雑音(ノイズ)を抑圧するシステムであり、携帯電話など様々な音声端末において利用されている。
 この種の技術に関し、特許文献1には、入力信号に1より小さな抑圧係数を乗算することによって、ノイズを抑圧する方法が開示されている。また、特許文献2には、推定された雑音を劣化信号から直接減算することによって、雑音を抑圧する方法が開示されている。しかし、特許文献1及び2に記載の技術は、雑音の推定に平均操作が含まれており、衝撃音のような突発的な雑音を十分に抑圧することができない。
 これに対し、非特許文献1は、劣化信号パワースペクトルの平坦度と過去からの増分に基づいて衝撃音を検出する雑音抑圧システムを開示している。非特許文献1に記載のシステムは、非音声区間で衝撃音が検出されなかったときに、背景雑音を推定する。非特許文献1に記載のシステムは、非音声区間で衝撃音が検出されたときには、劣化信号を背景雑音の推定値で置換することで衝撃音を抑圧し、劣化信号と背景雑音との差を用いて衝撃音推定値を更新する。非特許文献1に記載のシステムは、音声区間で衝撃音が検出されたときには、衝撃音推定値を劣化信号から減算することで衝撃音を抑圧する。
特許第4282227号 特開平8−221092号
A.Sugiyama,Single−channel impact−noise suppression with no auxiliary information for its detection,″Proceedings of WASPAA2007,pp.127−−130,Oct.2007.
 しかしながら、上述の非特許文献1に開示された構成では、位相に関して衝撃音抑圧処理を適用しておらず、位相の不連続性がそのまま存在した。その結果、ユーザにとって、衝撃音の抑圧が十分に感じられない場合があった。
 以上を踏まえ、本発明は、上述の課題を解決する信号処理技術を提供することを目的とする。
 上記目的を達成するため、本発明に係る信号処理方法は、劣化信号中の衝撃音を抑圧するために、前記劣化信号中において衝撃音を検出し、検出された衝撃音の位相情報を、位相情報の変化量が小さくなるように前記劣化信号中の前記衝撃音以外の信号の位相情報で処理する。
 上記目的を達成するため、本発明に係る情報処理装置は、劣化信号中の衝撃音を抑圧する情報処理装置であって、前記劣化信号中において衝撃音を検出する検出手段と、検出された衝撃音の位相情報を、前記劣化信号中の前記衝撃音以外の信号の位相情報で処理する位相処理手段と、を備える。
 上記目的を達成するため、本発明に係るプログラム記録媒体に格納される信号処理プログラムは、劣化信号中の衝撃音を抑圧する信号処理プログラムであって、コンピュータに、前記劣化信号中において衝撃音を検出する工程と、検出された衝撃音の位相情報を、前記劣化信号中の前記衝撃音以外の信号の位相情報を用いて処理する工程と、を実行させる。
 本発明によれば、劣化信号中の位相情報に関して衝撃音抑圧処理を適用することにより、位相に起因する信号の不連続性を低減し、衝撃音を十分に抑圧することができる。
本発明の第1実施形態としての雑音抑圧装置100の概略構成を示すブロック図。 本発明の第1実施形態としての雑音抑圧装置100に含まれる変換部2の構成を示すブロック図。 本発明の第1実施形態としての雑音抑圧装置100に含まれる逆変換部4の構成を示すブロック図。 本発明の第1実施形態としての雑音抑圧装置100に含まれる衝撃音抑圧部11の構成を示すブロック図。 本発明の第2実施形態としての雑音抑圧装置100に含まれる衝撃音検出部10の構成を示すブロック図。 本発明の第3実施形態としての雑音抑圧装置300の概略構成を示すブロック図。 本発明の第3実施形態としての雑音抑圧装置300に含まれる衝撃音抑圧部12の構成を示すブロック図。 本発明の第4実施形態としての雑音抑圧装置400の概略構成を示すブロック図。 本発明の第5実施形態としての雑音抑圧装置に含まれる衝撃音抑圧部52の構成を示すブロック図。 本発明の第6実施形態としての雑音抑圧装置の概略構成を示すブロック図。 本発明の第6実施形態としての雑音抑圧装置に含まれる衝撃音抑圧部62の構成を示すブロック図。 本発明の第7実施形態としての雑音抑圧装置に含まれる衝撃音抑圧部72の構成を示すブロック図。 本発明の第8実施形態としての雑音抑圧装置800の概略構成を示すブロック図。 本発明の第9実施形態としての雑音抑圧装置900の概略構成を示すブロック図。 本発明の第10実施形態としての雑音抑圧装置1000の概略構成を示すブロック図。 本発明の他の実施形態としての信号処理プログラムを実行するコンピュータ1100の概略構成図。 雑音抑圧装置100の別の構成例を示すブロック図。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 なお、本明細書中の「雑音」は、処理対象となる情報以外の不要な情報一般を示し、音に限定されるものではない。また、本明細書中の「衝撃音」は、雑音の一種であり、短時間に急激な変化を示す情報一般を示し、音に限定されるものではない。
 (第1実施形態)
 <全体構成>
 本発明に係る信号処理方法を実現する第1実施形態として、雑音抑圧装置について説明する。図1は、雑音抑圧装置100の全体構成を示すブロック図である。図16は、雑音抑圧装置100の別の構成例を示すブロック図である。雑音抑圧装置100は、例えばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能するが、本発明はこれに限定されるものではなく、入力信号からのノイズ除去を要求されるあらゆる情報処理装置に適用可能である。
 入力端子1には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子1に供給された劣化信号は、変換部2においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分のうち、振幅は振幅スペクトルとして多重化され、衝撃音検出部10と逆変換部4に伝達される。一方、位相は、位相スペクトルとして衝撃音抑圧部11へ供給される。
 衝撃音検出部10は、劣化信号スペクトルの周波数特性と時間特性に基づいて、衝撃音の存在を検出する。衝撃音検出部10は、検出に当って、周波数特性と時間特性のいずれかを用いてもよいし、双方を用いてもよい。また、双方を用いる際に、衝撃音検出部10は、それぞれの特性評価結果の重み付き和またはより複雑な関数で表現される統合結果を用いることもできる。衝撃音抑圧部11は、変換部2から供給された劣化信号に対し、衝撃音検出部10から供給された衝撃音検出情報に基づいて、各周波数で衝撃音を抑圧し、衝撃音抑圧結果を強調信号位相スペクトルとして逆変換部4に伝達する。
 逆変換部4は、衝撃音抑圧部11から供給された強調信号位相スペクトルと変換部2から供給された劣化信号振幅スペクトルとを合わせて逆変換を行い、強調信号サンプルとして、出力端子5に供給する。
 <変換部2の構成>
 図2は、変換部2の構成を示すブロック図である。図2に示すように、変換部2はフレーム分割部21、窓がけ処理部(windowing unit)22、及びフーリエ変換部23を含む。劣化信号サンプルは、フレーム分割部21に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部22に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t)(t=0,1,...,K/2−1)に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
Figure JPOXMLDOC01-appb-M000001
 また、窓がけ処理部22は、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0,1,...,K/2−1に対して、以下の式(2)で得られる左辺が、窓がけ処理部22の出力となる。
Figure JPOXMLDOC01-appb-M000002
 窓がけ処理部22は、実数信号に対しては、左右対称窓関数を用いてもよい。また、窓関数は、MMSE STSA法における抑圧係数を1に設定したとき、又はSS法においてゼロを減算したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
 以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。窓かけ処理部22は、w(t)として、例えば、次式(3)に示すハニング窓を用いてもよい。
Figure JPOXMLDOC01-appb-M000003
 このほかにも、ハミング窓、ケイザー窓、ブラックマン窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部23に供給され、劣化信号スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトルarg Yn(k)は衝撃音抑圧部11に、劣化信号振幅スペクトル|Yn(k)|は衝撃音検出部10と逆変換部4に供給される。既に説明したように、変換部2は、振幅スペクトルの代わりにパワースペクトルを利用することもできる。
 <逆変換部4の構成>
 図3は、逆変換部4の構成を示すブロック図である。図3に示すように、逆変換部4は逆フーリエ変換部43、窓がけ処理部42、及び、フレーム合成部41を含む。逆フーリエ変換部43は、衝撃音抑圧部11から供給された強調信号位相スペクトルと変換部2から供給された劣化信号振幅スペクトルとを組み合わせて、強調信号(以下の式(4)の左辺)を求める。
Figure JPOXMLDOC01-appb-M000004
 逆フーリエ変換部43は、得られた強調信号に逆フーリエ変換を施す。逆フーリエ変換された強調信号は、1フレームがKサンプルを含む時間領域サンプル値系列xn(t)(t=0,1,...,K−1)として、窓がけ処理部42に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号xn(t)(t=0,1,...,K/2−1)に対してw(t)で窓がけされた信号は、次式(5)の左辺で与えられる。
Figure JPOXMLDOC01-appb-M000005
 また、窓がけ処理部42は、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。フレーム長の50%をオーバラップ長として仮定すれば、t=0,1,...,K/2−1に対して、以下の式の左辺が、窓がけ処理部42の出力となり、フレーム合成部41に伝達される。
Figure JPOXMLDOC01-appb-M000006
 フレーム合成部41は、窓がけ処理部42からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式(7)によって、t=0,1,...,K−1における出力信号(式(7)の左辺)を得る。得られた出力信号は、フレーム合成部41から出力端子5に伝達される。
Figure JPOXMLDOC01-appb-M000007
 なお、図2と図3において変換部2と逆変換部4における変換をフーリエ変換として説明した。変換部2、逆変換部4は、フーリエ変換に代えて、コサイン変換、修正コサイン変換、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。例えば、コサイン変換や修正コサイン変換は、変換結果として振幅だけしか得られない。このため、図1における変換部2から逆変換部4に至る経路は不要になる。また、雑音情報記憶部6に記録する雑音情報も、振幅(又はパワー)だけとなり、記憶容量の削減、雑音抑圧処理における演算量の削減に貢献する。変換部2、逆変換部4がハール変換を用いた場合には、乗算が不要となり、LSI化したときの面積を小さくすることができる。変換部2、逆変換部4がウェーブレット変換を用いた場合には、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
 また、変換部2が周波数成分を複数統合してから、衝撃音抑圧部11が実際の抑圧を行うこともできる。その際、変換部2は、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合することにより、高い音質を達成することができる。このように、複数の周波数成分を統合してから衝撃音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、雑音抑圧装置100は、全体の演算量を削減することができる。
 <衝撃音抑圧部11の構成>
 図4は、衝撃音抑圧部11の内部構成を示すブロック図である。図4に示すように、衝撃音抑圧部11は、遅延部111と合成部112とを含む。遅延部111は、入力である劣化信号位相スペクトルを遅延させる。遅延量は一つである必要はなく、遅延部111は、複数の遅延量で入力を遅延して、複数の遅延信号を生成することもできる。合成部112は、劣化信号位相スペクトルと遅延部111から供給される遅延した劣化信号位相スペクトルを用いて、強調信号位相スペクトルを合成する。
 合成部112は、位相処理を、衝撃音検出部10から衝撃音の検出が伝達されたときだけ行う。合成部112は、位相処理として、過去(衝撃音発生前)の値を用いて、以下の数式(8)に示す処理を位相に適用することができる。
Figure JPOXMLDOC01-appb-M000008
 ここで、Nは周波数の範囲を、Mはフレーム番号の範囲を表わし、clpは周波数p、lフレーム前の劣化信号位相スペクトルに対する係数を表わす。
 すなわち、合成部112は、周波数範囲k−N/2からk+N/2、フレーム番号nからn−M+1の範囲にある劣化信号位相スペクトルの線形結合で、強調信号の位相を計算する。最も簡単な例が、各周波数における1フレーム前の位相との平均である。或いは、合成部112は、1フレーム前の位相と同じ位相を適用(置換)しても良い。これにより、現在の位相そのものよりも過去の位相との差が小さくなり、衝撃音として知覚されにくくなる。この考え方を拡張すると、衝撃音抑圧部11は、信号全体を遅延させ、衝撃音に続く未来の信号成分の位相を、過去の信号成分の位相と同様に用いて、位相の変化を抑圧することによって、衝撃音抑圧効果を向上させることもできる。この位相処理による衝撃音抑圧効果は非常に大きく、パワー制御や振幅制御を行なわなくても、位相処理だけで、衝撃音抑圧効果を得ることができる。
 さらに、衝撃音抑圧部11は、位相に過去の値とは無関係な成分を加算することもできる。このような成分の例としては、ランダム位相がある。さらに、衝撃音抑圧部11は、ランダム位相が45度以下であるというように、ランダム位相の範囲に制約を加えることもできる。衝撃音抑圧部11は、位相に過去の値と無関係な成分を付加することで、衝撃音を効果的に抑圧できる。
 以上説明したように、本実施形態にあっては、雑音抑圧装置100は、劣化信号中の衝撃音を抑圧する際に、劣化信号中において衝撃音を検出し、検出された衝撃音の位相成分を、劣化信号中の衝撃音以外の信号の位相成分を用いて処理した。これにより、雑音抑圧装置100は、衝撃音を一層効果的に抑圧することができる。
 (第2実施形態)
 次に、図5を用いて本発明の第2実施形態について説明する。本実施形態は衝撃音の検出方法に特徴を有する衝撃音抑圧装置及び方法に関するものである。従来の衝撃音検出方法では十分な検出精度を得られていなかったが、本実施形態のように衝撃音の検出を行なうことで、非常に精度良く劣化信号中の衝撃音を検出できるようになる。
 本実施形態における衝撃音検出部10は、劣化信号振幅スペクトルの周波数特性と時間特性に基づいて、衝撃音の存在を検出する。衝撃音検出部10は、検出に当って、周波数特性と時間特性のいずれかを用いてもよいし、双方を用いてもよい。また、衝撃音検出部10は、双方を用いる際に、それぞれの特性評価結果の重み付き和またはより複雑な関数で表現される統合結果を用いることもできる。
 <衝撃音検出部の構成>
 図5は、衝撃音検出部10の構成を示すブロック図である。図5を参照すると、衝撃音検出部10は、スペクトル周波数特性評価部101、スペクトル時間特性評価部102、及び統合部103を含む。
 スペクトル周波数特性評価部101は、スペクトルの周波数方向変化に関する特性を評価して、統合部103に供給する。スペクトル周波数特性評価部101は、スペクトルの周波数方向変化に関する特性として、スペクトルの周波数方向平坦度を評価する。スペクトル周波数特性評価部101は、スペクトル平坦度として、隣接周波数点におけるスペクトルの差分絶対値の総和を用いることができる。周波数k、フレームnにおける劣化信号振幅スペクトル|Yn(k)|を用いると、スペクトル周波数特性評価部101は、フレームnにおけるスペクトル平坦度Fmf(n)を、次式(9)で求めることができる。
Figure JPOXMLDOC01-appb-M000009
 また、スペクトル周波数特性評価部101は、スペクトル平坦度として、平均スペクトルとの差分絶対値の総和を用いることもできる。フレームnにおける平均劣化信号振幅スペクトル|Yn|バーを用いると、スペクトル周波数特性評価部101は、フレームnにおけるスペクトル平坦度Fmf(n)を、次式(10)で求めることができる。
Figure JPOXMLDOC01-appb-M000010
 スペクトル周波数特性評価部101は、kによって平坦度計算の対象とする周波数を制限することもできる。特に、衝撃音スペクトルは高域で強く、通常信号のスペクトルは低域で強いので、スペクトル周波数特性評価部101は、kの範囲を高周波領域に限定することで、検出精度を高くすることができる。また、スペクトル周波数特性評価部101は、平坦度を複数のサブバンドで個別に求め、これらの線形または非線形結合によって、全体的な平坦度を求めてもよい。スペクトル周波数特性評価部101は、サブバンド処理を、衝撃音と摩擦音の識別に利用することもできる。衝撃音と摩擦音はいずれも広帯域にわたって平坦なスペクトル特性を有するが、一般的に摩擦音の方が狭帯域であり、低域パワーが弱い。このような特性の違いを識別するために、サブバンド処理と複数のサブバンド平坦度の結合は有効である。
 スペクトル周波数特性評価部101は、このようにして求めた平坦度を閾値と比較して、平坦度のスコアを求める。平坦度のスコアは、どの程度平坦であるかを表す指標で、例えば、1と0の間に正規化した値として表現することができる。平坦度の上限閾値をσH、下限閾値をσL、これらに対応した平坦度をFH、FLとすると、スペクトル周波数特性評価部101は、平坦度のスコアSf(n)を、式(11)で定めることができる。
Figure JPOXMLDOC01-appb-M000011
 式(11)においては、上限閾値と下限閾値の間を線形補間しているが、これは任意の関数または多項式などによる補間を適用することができる。
 閾値は、例えば、予め定められた値の他、平坦度の過去の平均や中央値など、あるいはそれらに基づいて計算した値などである。また、スペクトル周波数特性評価部101は、複数の閾値を用意しておき、劣化信号スペクトルを分析した結果に基づいて、選択的に用いることもできる。このような分析結果の例は、劣化信号振幅スペクトル、パワースペクトル、これらの統計量(平均値、中央値、最大値、最小値、分散)などである。
 一方、スペクトル時間特性評価部102は、スペクトルの時間方向変化に関する特性を評価して、統合部103に供給する。スペクトル時間特性評価部102は、スペクトルの時間方向変化として、振幅又はパワースペクトルの増分を用いることができる。スペクトル時間特性評価部102は、時間方向変化の評価を、各周波数点で行う。スペクトル時間特性評価部102は、これらの線形または非線形結合によって、全体的な変化を求めてもよい。また、スペクトル時間特性評価部102は、時間方向変化をサブバンドで求めることもできる。例えば、スペクトル時間特性評価部102は、次式(12)によって、一つのサブバンドにおける時間方向の変化Fmt(n)を求めることができる。
Figure JPOXMLDOC01-appb-M000012
 kの値によって、サブバンド下限が決定される。また、スペクトル時間特性評価部102は、N−1の代わりに特定の周波数番号を用いれば、サブバンド上限を指定できる。また、スペクトル時間特性評価部102は、時間方向変化を複数のサブバンドで個別に求め、これらの線形または非線形結合によって、全体的な変化を求めてもよい。衝撃音スペクトルは高域で強く、通常信号のスペクトルは低域で強いので、スペクトル時間特性評価部102は、高周波領域に限定して変化を評価することで、検出精度を高くすることができる。
 また、スペクトル時間特性評価部102は、振幅又はパワースペクトルの周波数方向の統計量(平均値、中央値、最大値、最小値、分散)、あるいはそれらのうちいくつかの組合せを用いることもできる。例えば、スペクトル時間特性評価部102は、最小値を用いた場合、次式(13)によって時間変化を求めることができる。
Figure JPOXMLDOC01-appb-M000013
 スペクトル時間特性評価部102がこのような最小値の時間変化を用いることで、衝撃音検出部10は、非常に的確に衝撃音を検出することができる。これは、劣化信号の周波数方向の統計量は、通常、幅広い値を取り得るが、衝撃音に関しては、周波数方向の最小値が大きい傾向があるからである。
 特に、これらの統計量のいずれかが小さな分散を有している場合には、スペクトル時間特性評価部102は、分散の小さい統計量を利用することで、検出の精度を高くすることができる。
 なお、数式(9)~(12)に対しては、劣化信号振幅スペクトル|Yn(k)|に代えてパワースペクトル|Yn(k)|2を用いることもできる。
 スペクトル時間特性評価部102は、このようにして求めた時間変化を閾値と比較して、時間変化のスコアを求める。時間変化のスコアは、どの程度の時間変化が存在するかを表す指標で、例えば、1と0の間に正規化した値として表現することができる。時間変化の上限閾値、下限閾値、これらに対応した時間変化量を用いて、スペクトル時間特性評価部102は、時間変化のスコアSt(n)を、式(11)と同様にして定めることができる。スペクトル時間特性評価部102は、平坦度のスコアと同じように、線形補間の代わりに任意の関数または多項式などによる補間を適用することができる。
 スペクトル時間特性評価部102は、閾値として予め定められた値の他、時間変化の過去の平均や中央値など、あるいはそれらに基づいて計算した値などを用いてもよい。また、スペクトル時間特性評価部102は、複数の閾値を用意しておき、劣化信号振幅スペクトルを分析した結果に基づいて、選択的に用いることもできる。このような分析結果の例は、劣化信号振幅スペクトル、パワースペクトル、これらの統計量(平均値、中央値、最大値、最小値、分散)などである。
 統合部103は、スペクトル周波数特性評価部101から供給されたスペクトルの周波数方向変化に関する特性とスペクトル時間特性評価部102から供給されたスペクトルの時間方向変化に関する特性を統合して、衝撃音データを生成し、これを出力する。衝撃音データは、例えば、0と1の間の値に正規化された衝撃音らしさである。例えば、衝撃音データが1であることは、100%の確信をもって衝撃音と判定することであり、0.8であることは、20%の不確定性をもって衝撃音と判定することである。
 前記特性の統合の最も簡単な方法は、前記平坦度のスコアと時間変化のスコアの論理積である。統合部103は、2つのスコアの双方が1に等しいときに衝撃音データを1とする。また、統合部103は、論理積の代わりに論理和を用いることもできる。統合部103は、いずれか一方のスコアが1であれば、衝撃音データを1とする。
 統合部103は、これらのスコアを統合した統合スコアを用いて衝撃音データを計算することもできる。例えば、統合部103は、両者の和を衝撃音データとすると、論理積や論理和より不確実な場合も、衝撃音を1以上に設定することができる。スコアの統合は、両者の単純な和だけでなく、線形、非線形関数を含む様々な統合でもよい。この統合に用いる関数によって、周波数特性または時間特性のどちらをどの程度重視するのかを調整することができる。
 このようにして求めた衝撃音データが1以上であれば、雑音抑圧装置は、衝撃音が確実に存在すると判定して、衝撃音を完全に抑圧する。衝撃音データが1以下であれば、雑音抑圧装置は、その値に応じて衝撃音抑圧の程度を弱くする。
 以上のように、本実施形態では、雑音抑圧装置は、劣化信号中の衝撃音を抑圧する際に、劣化信号から振幅又はパワー成分を抽出し、その振幅又はパワー成分の時間方向変化の統計量を用いて、衝撃音を検出する。これにより、雑音抑圧装置は、より正確に衝撃音を検出することが可能となる。
 なお、本実施形態では、第1実施形態の一部としての衝撃音検出部10について説明したが、本実施形態の衝撃音検出方法は、第1実施形態に記載の衝撃音抑圧方法に限定されるものではなく、どのように衝撃音を抑圧するかについては問わない。すなわち、雑音抑圧装置は、本実施形態の方法で検出した衝撃音に対し、第1実施形態で説明したように、位相処理によって衝撃音を抑圧してもよいし、振幅やパワーを制御することによって衝撃音を抑圧してもよい。
 (第3実施形態)
 ここで、本発明の第3実施形態としての雑音抑圧装置について説明する。図6は、本実施形態に係る雑音抑圧装置300を示す図である。雑音抑圧装置300は、第1衝撃音抑圧部11と第2衝撃音抑圧部12とを備える。衝撃音検出部10と第2衝撃音抑圧部12には、変換部2から劣化信号振幅スペクトル|Yn(k)|が供給される。逆変換部4には、第1衝撃音抑圧部から強調信号位相スペクトルarg Xn(k)バーが、第2衝撃音抑圧部12から強調信号振幅スペクトル|Xn(k)バー|が供給される。第1衝撃音抑圧部11の構成は、第1実施形態で説明した衝撃音抑圧部と同じであるため、ここでは詳しい説明を省略する。
 図7は、第2衝撃音抑圧部12の内部構成を示すブロック図である。図7に示すように、第2衝撃音抑圧部12は、遅延部121と合成部122とを含む。遅延部121は、入力である劣化信号振幅スペクトルを遅延させる。遅延量は一つである必要はない。遅延部121は、複数の遅延量で入力を遅延して、複数の遅延信号を生成することもできる。合成部122は、入力した劣化信号振幅スペクトルと遅延部121から供給される遅延した劣化信号振幅スペクトルとを合成して、強調信号振幅スペクトルを生成する。合成部122は、遅延信号との合成処理を、衝撃音検出部10において衝撃音が検出されたときだけ行う。
 合成部122は、合成処理として、過去の値を用いて、第1実施形態の数式(8)に示す処理を適用したように、次式(14)に示す処理を適用することができる。
Figure JPOXMLDOC01-appb-M000014
 数式(14)においてclpは、周波数p、lフレーム遅延した劣化信号振幅スペクトルに対する係数を表わす。すなわち、合成部122は、周波数範囲がk−N/2からk+N/2、フレーム番号nからn−M+1の範囲にある劣化信号振幅スペクトの線形結合で、強調信号振幅スペクトルを計算する。最も簡単な例が、各周波数における1フレーム前のサンプルとの平均である。平均を用いることで、現在のサンプル単独の場合よりも過去のサンプルとの差が小さくなり、衝撃音として知覚されにくくなる。
 合成の別の例として、合成部122は、過去のサンプルから求めた値(例えば平均値、最大値)を上限として、現在のサンプルに制限をかけてもよい。この合成法も、現在のサンプル単独の場合よりも過去のサンプルとの差を小さくし、衝撃音として知覚されにくくする。また、第2衝撃音抑圧部12は、位相に対する処理と同様に、信号全体を遅延させ、衝撃音に続く未来の信号成分の振幅スペクトルを、過去の信号成分の振幅スペクトルと同様に用いて、振幅スペクトルの変化を抑圧することによって、衝撃音抑圧効果を向上させることもできる。なお、これらの合成において、劣化信号振幅スペクトルに代えて劣化信号パワースペクトルを利用できることは、すでに他の説明で述べた通りである。
 以上のように本実施形態は、検出された衝撃音の振幅又はパワー成分が小さくなるように、劣化信号中の衝撃音以外の信号を用いて処理する。このように位相と振幅又はパワーの両面から衝撃音を処理することで、雑音抑圧装置300は、より一層効果的に衝撃音を抑圧することが可能となる。
 (第4実施形態)
 次に、本発明の第4実施形態としての雑音抑圧装置400について図8を用いて説明する。本実施形態の雑音抑圧装置400は、第1実施形態の雑音抑圧装置100に加えて、雑音存在情報を入力する入力端子9を有する。図8における衝撃音抑圧部31は、入力端子9から供給された雑音存在情報を用いて、各周波数で、第1実施形態で説明した位相処理を行なうことにより衝撃音を抑圧する。そして、衝撃音抑圧部31は、衝撃音抑圧結果を強調信号スペクトルとして逆変換部4に伝達する。強調信号位相スペクトルは、雑音存在情報が雑音の存在を示すときには劣化信号位相スペクトルに対して第1実施形態で説明した位相処理を施し衝撃音を抑圧したものとなる。一方、雑音存在情報が雑音の不存在を示すときには劣化信号位相スペクトルそのものとなる。
 これにより、より効率の良い衝撃音抑圧を行なうことができる。
 (第5実施形態)
 次に本発明の第5実施形態としての雑音抑圧装置について説明する。本実施形態は、図6を用いて説明した第3実施形態に係る雑音抑圧装置をベースにしたものであり、第3実施形態とは、第2衝撃音抑圧部12の内部構成が異なるものである。その他の構成及び動作は、第3実施形態と同様であるため、ここでは詳しい説明を省略する。
 本実施形態に係る第2衝撃音抑圧部52の内部構成について、図9に示す。図9は、衝撃音抑圧部52の構成を示すブロック図である。図9に示すように、第2衝撃音抑圧部52は、遅延部121、合成部124に加えて、重要度評価部123を備えている。遅延部121については、第3実施形態において図7を用いて説明した通りの構成であるためここでは説明を省略する。
 重要度評価部123は、重要度に応じた処理を遂行するための情報(重要度情報)を生成し、合成部124に供給する。合成部124は、強調信号スペクトル合成処理に加えて、重要度評価部123から供給された重要度情報に従って、重要度に応じた処理を行う。
 重要度評価部123の生成する重要度情報の第1の例は、劣化信号振幅スペクトルのピークである。重要度評価部123は、スペクトルのピークを、各周波数点におけるスペクトルを隣接する周波数点におけるスペクトルと比較して、十分に大きいかどうかを評価して検出することができる。最も簡単な例は、各周波数点のスペクトルをその両隣(低域側及び高域側)のスペクトルと比較して、その差が閾値より大きいときにピークと判定することである。差に対する閾値は、両側のスペクトルに対して等しい必要はない。日本工業規格 JIS×4332−3「音響映像オブジェクトの符号化 —第3部 音響—」、2002年3月には、高域側の差分閾値を低域側差分閾値よりも小さくすることが、聴覚特性に合致すると記載されている。同様にして、重要度評価部123は、低域側及び高域側の複数の周波数点に対して差分を求め、これらの情報を総合してピークを検出することもできる。すなわち、すぐ隣の周波数点に対しては差分が大きいが、それよりも離れた隣接周波数点同志においては差分が小さい周波数点を検出すれば、それがピークとなる。重要度評価部123は、このようにして検出したピークの位置(周波数)と大きさ(重要度)を、合成部124へ供給する。
 重要度評価部123の生成する重要度情報の第2の例は、劣化信号振幅スペクトルの大きさである。重要度評価部123は、スペクトルがピークを形成しなくても、その値が大きいときには、その周波数を大振幅として検出する。例えば、大きな値のスペクトルが周波数方向に連続すると、ピークとしては検出されない。しかし、このような部分は、聴覚にとって重要である。そこで、重要度評価部123は、検出した大振幅の位置(周波数)と大きさ(重要度)を、合成部124へ供給する。
 重要度評価部123の生成する重要度情報の第3の例は、劣化信号振幅スペクトルの雑音らしさである。前述のピーク検出を行い、検出されたピークのうち、特に低域に存在するピークは雑音の可能性が低い。また、スペクトル値が小さくピークでない位置では雑音らしさが高い。すなわち、ピークは雑音らしさが低く、非ピークでスペクトル値が小さいときは雑音らしさが高い。重要度評価部123は、これらのピークの位置(周波数)と大きさ(重要度)を、合成部124へ供給する。
 重要度評価部123の生成する重要度情報は、既に説明したピーク、大振幅、及び雑音らしさを適切に組み合わせてもよい。例えば、大振幅のスペクトルに対してピーク検出の閾値を低くして、振幅が大きい帯域では小さなピークも検出されるように制御することなどがその例である。重要度評価部123は、指標を組み合わせて用いることで、より正確な重要度情報を得ることができる。また、これまでの他の説明のように、重要度評価部123は、処理を特定の周波数帯域に限定する、サブバンド処理などを適用することが可能である。
 具体的に合成部124は、重要度評価部123から供給された周波数点以外では、図7で説明した合成部122と同じ強調信号スペクトル合成処理を行う。重要度評価部123から供給された周波数点には重要な信号成分が存在し、これらは強調信号の音質に重要な役割を果たす。そこで、衝撃音抑圧部52は、これらの周波数点においてはその重要度に応じた抑圧を適用する。つまり、衝撃音抑圧部52は、重要度が高い場合には弱い抑圧を、重要度が低い場合には強い抑圧を適用する。
 以上、本実施形態によれば、雑音の振幅又はパワースペクトルに対して、重要度を加味した抑圧を行なうことができ、より高品質の出力を得ることができる。
 (第6実施形態)
 次に本発明の第6実施形態としての雑音抑圧装置について説明する。本実施形態は、図6を用いて説明した第3実施形態に係る雑音抑圧装置をベースにしたものであり、第3実施形態とは、第2衝撃音抑圧部12の内部構成が異なるものである。その他の構成及び動作は、第3実施形態と同様であるため、ここでは詳しい説明を省略する。
 図10Aは、本実施形態に係る雑音抑圧装置の全体構成図である。図6の構成によく似ているが、第2衝撃音抑圧部62が、入力端子9から雑音存在情報が供給される点で異なる。その他の構成及び動作については、図6と同様であるためここでは詳細な説明を省略する。
 図10Bは、第2衝撃音抑圧部62の内部構成を示すブロック図である。図10Bに示すように、衝撃音抑圧部62は、遅延部121、合成部134及び背景音推定部125を含んでいる。遅延部121については、図7で説明したものと同様であるのでここでは説明を省略する。背景音推定部125は、劣化信号振幅スペクトルを変換部2から受け、雑音存在情報を入力端子9から受けて背景音レベルを推定し、背景音レベル推定値として合成部134に供給する。背景音推定部125は、背景音レベル推定値を、入力として劣化信号振幅スペクトルが供給されるときには背景音振幅スペクトルの推定値、劣化信号パワースペクトルが供給されるときには背景音パワースペクトルの推定値として求める。背景音推定部125は、背景音の推定を、雑音存在情報によって雑音が存在するとされるときだけ行い、背景音の推定値を更新する。合成部134は、合成部122と同じ強調信号スペクトル合成処理に加えて、背景音推定部125から供給された背景音推定値によって異なる処理を行う。
 合成部134は、入力端子9から供給される雑音存在情報が雑音の存在を表すときに、背景音推定部125から供給された背景音推定値を下限値とした抑圧を行う。すなわち、合成部134は、合成した結果が背景音推定値より小さいときには、背景音推定値と等しくなるまで抑圧を弱くし、それを強調信号スペクトルとして出力する。合成部134は、合成結果が背景音推定値に等しいかそれよりも大きいときは、合成結果をそのまま強調信号スペクトルとして出力する。入力端子9から供給される雑音存在情報が雑音の非存在を表すときには、合成部134は背景音推定値を下限値とした処理を行わず、合成結果をそのまま強調信号スペクトルとして出力する。
 以上のように、衝撃音抑圧部62は、背景音推定値を下限値とした抑圧を行うことにより、過剰抑圧を回避し、自然な聴感を与える強調信号を得ることができる。
 (第7実施形態)
 次に、本発明の第7実施形態としての雑音抑圧装置について図11を用いて説明する。本実施形態は、図6を用いて説明した第3実施形態に係る雑音抑圧装置をベースにしたものであり、第3実施形態とは、第2衝撃音抑圧部72の内部構成が異なるものである。その他の構成及び動作は、第3実施形態と同様であるため、ここでは詳しい説明を省略する。
 図11は、第2衝撃音抑圧部72の内部構成を示すブロック図である。図11に示すように、第2衝撃音抑圧部72は、遅延部121、合成部122及び白色化処理部127を含んでいる。遅延部121と合成部122との関係については、図5から図7で説明した通りであるためここでは説明を省略する。白色化処理部127は、合成部122から強調信号スペクトルを供給され、これを白色化して、白色化強調信号スペクトルとして出力する。
 白色化処理部127は、強調信号振幅スペクトルの平均値を求め、この平均値からの分散を基準値以下にする。具体的には、白色化処理部127は、平均値+εを超える振幅スペクトル値を平均値+εで置き換える。また、白色化処理部127は、平均値−εより小さい振幅スペクトル値を平均値−εで置き換える。白色化処理部127は、それ以外の強調信号振幅スペクトルについては、そのままとする。また、白色化処理部127は、平均値±εで置き換える代わりに、平均値±εの範囲の乱数で置き換えても良い。例えば、白色化処理部127は、平均値+εを超える振幅スペクトル値は平均値+εと平均値の間の乱数で置き換える。また、白色化処理部127は、平均値−εより小さい振幅スペクトル値は平均値−εと平均値の間の乱数で置き換える。白色化処理によって振幅スペクトルの値が均一化し、雑音が知覚されにくくなる。
 さらに、図11の構成に加えて、図9を用いて説明した重要度評価部123を設けても良い。その場合、白色化処理部127は、白色化処理に重要度評価部123の出力を利用することもできる。重要度評価部123が雑音らしさを求め、雑音らしさが大きいときだけ、白色化処理部127が白色化処理を適用する。このようにすることで、所望信号成分が少ないときに強調信号が白色信号に近くなり、雑音として知覚されにくくなる。
 白色化処理部127は、これら白色化処理において、複数のサブバンドで個別の処理を行うこともできる。また、白色化処理部127は、特定のサブバンドで白色化を回避することもできる。この場合、白色化処理部127は、サブバンド毎に異なる平均値を用いるので、自然な聴感を与える強調信号を得ることができる。
 (第8実施形態)
 図12は、本発明の第8実施形態に係る雑音抑圧装置の構成を示すブロック図である。本実施形態を、第1実施形態と比べた場合、雑音抑圧部3が追加されている他は、同様の構成である。したがって、同じ構成については同じ符号を付してその説明を省略する。
 雑音抑圧部3は、変換部2から供給された劣化信号振幅スペクトルと入力した雑音情報(外部から供給される雑音に関する情報)とを用いて、各周波数で雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルを逆変換部4に伝達する。
 以上の構成により、雑音抑圧装置は、衝撃音以外のノイズをも的確に抑圧することが可能となる。
 (第9実施形態)
 図13は、本発明の第9実施形態に係る雑音抑圧装置の構成を示すブロック図である。本実施形態を、第8実施形態と比べた場合、衝撃音検出部90が、雑音抑圧部3によって雑音を抑圧された結果を用いて衝撃音の検出を行なう点で異なる。その他は、同様の構成であるため、同じ構成については同じ符号を付してその説明を省略する。
 雑音抑圧部3からの出力は衝撃音検出部90に入力される。衝撃音検出部90の構成は、第1実施形態で説明した衝撃音検出部10と同じであるため、ここでは詳しい説明を省略する。
 以上の構成により、衝撃音検出部90は、雑音抑圧部3によって雑音を抑圧された結果を用いて、より正確に衝撃音を検出することが可能となる。
 (第10実施形態)
 図14は、本発明の第10実施形態に係る雑音抑圧装置の構成を示すブロック図である。本実施形態を、第8実施形態と比べた場合、衝撃音検出部91が、雑音情報を用いて衝撃音の検出を行なう点で異なる。衝撃音検出部91は、供給された雑音情報(例えば、雑音の存在を示す情報(雑音存在情報)、スペクトル形状等に関する情報を含む雑音情報)を利用して、衝撃音の検出を行う。その他は、同様の構成であるため、同じ構成については同じ符号を付してその説明を省略する。
 衝撃音検出部91は、変換部2から供給された劣化信号振幅スペクトルと入力した雑音情報とを用いて、雑音情報が雑音の存在を表すときに衝撃音を検出する。
 以上の構成により、雑音抑圧装置は、正確に衝撃音を検出し、これを抑圧することが可能となる。
 (他の実施形態)
 以上説明してきた第1乃至第10実施形態では、それぞれ別々の特徴を持つ雑音抑圧装置について説明したが、それらの特徴を如何様に組み合わせた雑音抑圧装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用しても良いし、単体の装置に適用しても良い。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システム或いは装置に直接或いは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、或いはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
 図15は、第1実施形態を信号処理プログラムにより構成する場合に、その信号処理プログラムを実行するコンピュータ1100の構成図である。コンピュータ1100は、入力部1101と、CPU1102と、出力部1103と、メモリ1104と、通信制御部1106とを含む。
 CPU1102は、信号処理プログラムを読み込むことにより、コンピュータ1100の動作を制御する。すなわち、信号処理プログラムを実行したCPU1102は、劣化信号中から衝撃音を検出する(S801)。次に、CPU1102は、劣化信号中において検出した衝撃音の位相情報を、衝撃音以外の信号の位相情報を用いて処理する(S802)。
 これにより、第1実施形態と同様の効果を得ることができる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
 この出願は、2009年11月9日に出願された日本出願特願2009−256596を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (20)

  1.  劣化信号中の衝撃音を抑圧するために、
     前記劣化信号中において衝撃音を検出し、
     検出された衝撃音の位相情報を、該位相情報の変化量が小さくなるように前記劣化信号中の前記衝撃音以外の信号の位相情報で処理する信号処理方法。
  2.  前記衝撃音の位相情報を、前記劣化信号中の衝撃音発生前の信号の位相情報で処理する請求項1に記載の信号処理方法。
  3.  前記衝撃音の位相情報を、前記劣化信号中の衝撃音発生前の信号の位相情報で置換する請求項2に記載の信号処理方法。
  4.  前記衝撃音の位相情報を、前記劣化信号中の衝撃音発生前の信号の位相情報と、前記衝撃音の位相情報との平均値で置換する請求項2に記載の信号処理方法。
  5.  前記劣化信号を遅延させ、前記衝撃音の位相情報を、前記劣化信号中の衝撃音発生前の信号の位相情報で処理する請求項2乃至4の何れか1項に記載の信号処理方法。
  6.  前記劣化信号を、前記位相情報と振幅又はパワー情報とに分解し、
     前記振幅又はパワー情報を用いて、前記劣化信号中の衝撃音を検出する請求項1乃至5の何れか1項に記載の信号処理方法。
  7.  検出された衝撃音の前記振幅又はパワー情報が小さくなるように、前記劣化信号中の前記衝撃音以外の信号の前記振幅又はパワー情報を用いて処理する請求項6に記載の信号処理方法。
  8.  検出された衝撃音の前記振幅又はパワー情報を、前記劣化信号中の前記衝撃音が発生する前の信号の振幅又はパワー情報と結合させる請求項7に記載の信号処理方法。
  9.  検出された衝撃音の前記振幅又はパワー情報を、前記劣化信号中の前記衝撃音が発生する前の信号の振幅又はパワー情報を用いて平均化する請求項7に記載の信号処理方法。
  10.  前記劣化信号中の前記衝撃音が発生する前の信号の振幅又はパワー情報を用いて、検出された衝撃音の前記振幅又はパワー情報に制限をかける請求項6に記載の信号処理方法。
  11.  前記劣化信号を遅延させ、前記衝撃音の振幅又はパワー情報を、前記劣化信号中の衝撃音発生前後の信号の振幅又はパワー情報で処理する請求項8乃至10の何れか1項に記載の信号処理方法。
  12.  雑音存在情報を入力し、該雑音存在情報が雑音の存在を示すときに前記衝撃音の抑圧を行なう請求項1乃至11の何れか1項に記載の信号処理方法。
  13.  前記劣化信号中の重要度を評価し、
     前記劣化信号中の重要度が高い部分は弱く、それ以外は強く前記衝撃音を抑圧する請求項1乃至12の何れか1項に記載の信号処理方法。
  14.  前記劣化信号中の背景音を推定し、
     前記劣化信号中の背景音推定値を下限値として、前記衝撃音を抑圧する請求項1乃至11の何れか1項に記載の信号処理方法。
  15.  前記振幅又はパワー情報の平均値を求め、該平均値からの分散を基準値以下にする請求項6に記載の信号処理方法。
  16.  前記振幅又はパワー情報中の雑音を、雑音情報を用いて抑圧し、その結果を用いて、前記衝撃音を検出する請求項6に記載の信号処理方法。
  17.  前記振幅又はパワー情報中の雑音を、雑音情報を用いて抑圧し、
     前記雑音情報を用いて、前記衝撃音を検出する請求項6に記載の信号処理方法。
  18.  入力信号を周波数領域信号に変換し、
     該周波数領域信号を用いて衝撃音を検出し、
     前記衝撃音が検出されたときに、
     振幅と位相の変化分が小さくなるように衝撃音を抑圧することを特徴とする雑音抑圧の方法。
  19.  劣化信号中の衝撃音を抑圧する情報処理装置であって、
     前記劣化信号中において衝撃音を検出する検出手段と、
     検出された衝撃音の位相情報を、該位相情報の変化量が小さくなるように前記劣化信号中の前記衝撃音以外の信号の位相情報で処理する位相処理手段と、
     を備える情報処理装置。
  20.  劣化信号中の衝撃音を抑圧する信号処理プログラムであって、
     コンピュータに、
     前記劣化信号中において衝撃音を検出する工程と、
     検出された衝撃音の位相情報を、該位相情報の変化量が小さくなるように前記劣化信号中の前記衝撃音以外の信号の位相情報を用いて処理する工程と、
     を実行させる信号処理プログラムを格納するプログラム記録媒体。
PCT/JP2010/069870 2009-11-09 2010-11-02 信号処理方法、情報処理装置、及び信号処理プログラム WO2011055830A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP10828388.8A EP2500902B1 (en) 2009-11-09 2010-11-02 Signal processing method, information processor, and signal processing program
US13/508,694 US9042576B2 (en) 2009-11-09 2010-11-02 Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
CN201080050832.4A CN102612711B (zh) 2009-11-09 2010-11-02 信号处理方法、信息处理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-256596 2009-11-09
JP2009256596A JP5310494B2 (ja) 2009-11-09 2009-11-09 信号処理方法、情報処理装置、及び信号処理プログラム

Publications (1)

Publication Number Publication Date
WO2011055830A1 true WO2011055830A1 (ja) 2011-05-12

Family

ID=43970062

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/069870 WO2011055830A1 (ja) 2009-11-09 2010-11-02 信号処理方法、情報処理装置、及び信号処理プログラム

Country Status (5)

Country Link
US (1) US9042576B2 (ja)
EP (1) EP2500902B1 (ja)
JP (1) JP5310494B2 (ja)
CN (1) CN102612711B (ja)
WO (1) WO2011055830A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120300100A1 (en) * 2011-05-27 2012-11-29 Nikon Corporation Noise reduction processing apparatus, imaging apparatus, and noise reduction processing program
JP6004792B2 (ja) * 2011-07-06 2016-10-12 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
WO2013032025A1 (ja) * 2011-08-29 2013-03-07 日本電気株式会社 信号処理装置、信号処理方法、およびコンピュータ・プログラム
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
JP6528679B2 (ja) * 2013-03-05 2019-06-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN103308804B (zh) * 2013-06-17 2016-09-14 湖南大学 基于快速k-s变换电能质量扰动信号时频参数提取方法
CN104575513B (zh) * 2013-10-24 2017-11-21 展讯通信(上海)有限公司 突发噪声的处理系统、突发噪声的检测及抑制方法与装置
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
CN107436451B (zh) * 2017-07-26 2019-10-11 西安交通大学 一种自动计算地震数据光缆耦合噪声强弱程度的振幅谱方法
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10360895B2 (en) * 2017-12-21 2019-07-23 Bose Corporation Dynamic sound adjustment based on noise floor estimate
CN108540893A (zh) * 2018-06-22 2018-09-14 会听声学科技(北京)有限公司 脉冲噪声抑制方法、系统及耳机
WO2020039598A1 (ja) * 2018-08-24 2020-02-27 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248783A (ja) * 1994-03-10 1995-09-26 Kubota Corp アクティブ消音装置
JPH08221092A (ja) 1995-02-17 1996-08-30 Hitachi Ltd スペクトルサブトラクションを用いた雑音除去システム
JP2008099163A (ja) * 2006-10-16 2008-04-24 Audio Technica Corp ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
JP2009256596A (ja) 2008-03-19 2009-11-05 Sumitomo Chemical Co Ltd 蛍光体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
US6668062B1 (en) * 2000-05-09 2003-12-23 Gn Resound As FFT-based technique for adaptive directionality of dual microphones
EP1290912B1 (en) * 2000-05-26 2005-02-02 Koninklijke Philips Electronics N.V. Method for noise suppression in an adaptive beamformer
EP2239733B1 (en) * 2001-03-28 2019-08-21 Mitsubishi Denki Kabushiki Kaisha Noise suppression method
JP4223350B2 (ja) * 2003-08-19 2009-02-12 パナソニック株式会社 補聴器
EP1581026B1 (en) * 2004-03-17 2015-11-11 Nuance Communications, Inc. Method for detecting and reducing noise from a microphone array
CN100347962C (zh) 2004-03-31 2007-11-07 清华大学 时域同步正交频分复用接收机去除相位噪声的方法及系统
CN101146080A (zh) 2007-10-15 2008-03-19 深圳国人通信有限公司 一种多载波快速削峰装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248783A (ja) * 1994-03-10 1995-09-26 Kubota Corp アクティブ消音装置
JPH08221092A (ja) 1995-02-17 1996-08-30 Hitachi Ltd スペクトルサブトラクションを用いた雑音除去システム
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
JP2008099163A (ja) * 2006-10-16 2008-04-24 Audio Technica Corp ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法
JP2009256596A (ja) 2008-03-19 2009-11-05 Sumitomo Chemical Co Ltd 蛍光体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. SUGIYAMA: "Single-channel impact-noise suppression with no auxiliary information for its detection", PROCEEDINGS OF WASPAA 2007, October 2007 (2007-10-01), pages 127 - 130
See also references of EP2500902A4

Also Published As

Publication number Publication date
EP2500902A4 (en) 2013-05-01
EP2500902B1 (en) 2017-08-16
CN102612711B (zh) 2016-07-06
EP2500902A1 (en) 2012-09-19
US9042576B2 (en) 2015-05-26
US20120224718A1 (en) 2012-09-06
CN102612711A (zh) 2012-07-25
JP2011100082A (ja) 2011-05-19
JP5310494B2 (ja) 2013-10-09

Similar Documents

Publication Publication Date Title
WO2011055830A1 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
JP5791092B2 (ja) 雑音抑圧の方法、装置、及びプログラム
WO2011148860A1 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
US20100207689A1 (en) Noise suppression device, its method, and program
JP6064600B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
Tabibian et al. Speech enhancement using a wavelet thresholding method based on symmetric Kullback–Leibler divergence
US20110022361A1 (en) Sound processing device, sound processing method, and program
JP5788873B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
WO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP6300031B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
WO2014168021A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5294085B2 (ja) 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム
JP5413575B2 (ja) 雑音抑圧の方法、装置、及びプログラム
JP6011536B2 (ja) 信号処理装置、信号処理方法、およびコンピュータ・プログラム
JP6182862B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP5787126B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
WO2011055829A1 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
WO2013021960A1 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP2018031819A (ja) 信号処理装置、信号処理方法、及び、信号処理プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080050832.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10828388

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010828388

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010828388

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13508694

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE