WO2014027419A1 - 雑音除去装置 - Google Patents

雑音除去装置 Download PDF

Info

Publication number
WO2014027419A1
WO2014027419A1 PCT/JP2012/070908 JP2012070908W WO2014027419A1 WO 2014027419 A1 WO2014027419 A1 WO 2014027419A1 JP 2012070908 W JP2012070908 W JP 2012070908W WO 2014027419 A1 WO2014027419 A1 WO 2014027419A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
level
noise
input
band
Prior art date
Application number
PCT/JP2012/070908
Other languages
English (en)
French (fr)
Inventor
貴司 山路
Original Assignee
Toa株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toa株式会社 filed Critical Toa株式会社
Priority to PCT/JP2012/070908 priority Critical patent/WO2014027419A1/ja
Publication of WO2014027419A1 publication Critical patent/WO2014027419A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the present invention relates to a noise removal apparatus, and more particularly to a noise removal apparatus that employs a spectral subtraction (hereinafter referred to as “SS”) method.
  • SS spectral subtraction
  • a frequency spectrum (amplitude spectrum) of a noise component included in an input speech signal is estimated, and the estimated noise spectrum is subtracted from an input spectrum that is a frequency spectrum of the input speech signal.
  • the estimated noise spectrum is multiplied by an appropriate magnification called a subtraction coefficient.
  • Patent Document 1 there is one disclosed in Patent Document 1. According to this prior art, the subtraction coefficient is changed for each frame, which is a calculation unit of a short-time spectrum as an input spectrum, and is set to a small value particularly in a frame with low audio power.
  • the frequency spectrum of the stationary noise is estimated as described above under the assumption that the noise is stationary and the speech is non-stationary.
  • the estimated noise spectrum is subtracted from the input spectrum, so that noise removal is realized, that is, unsteady speech is left. Therefore, for example, when the noise component included in the input voice signal is non-stationary, particularly when the noise component includes a sudden fluctuation component that is relatively intensely fluctuated, the sudden fluctuation component is a (true) voice.
  • noise, particularly sudden sound corresponding to the sudden fluctuation component is reproduced. That is, sudden fluctuation noise such as sudden sound cannot be removed satisfactorily.
  • the level of the subtracted spectrum after the estimated noise spectrum is subtracted from the input spectrum in particular, the level of the (true) speech spectrum inevitably becomes smaller than the level of the input spectrum.
  • amplification processing is conventionally performed on the subtracted spectrum or the subtracted signal that is a time-domain signal based on the subtracted spectrum.
  • the input speech signal includes a sudden fluctuation component as a noise component as described above, if such amplification processing is performed, even the sudden fluctuation component is amplified, resulting in a sudden sound such as sudden sound. The fluctuation noise increases and is reproduced. This is extremely inconvenient because it amplifies noise rather than removing noise.
  • the present invention appropriately copes with the noise removal apparatus employing the SS method so that, when suddenly varying noise such as sudden sound is input, it does not increase and is reproduced.
  • the purpose is to realize a simple countermeasure with a relatively simple configuration.
  • the present invention provides a noise spectrum estimation means for estimating a frequency spectrum of a noise component contained in an input speech signal, and an estimated noise spectrum estimated by the noise spectrum estimation means as a frequency of the input speech signal.
  • Spectral subtracting means for subtracting from the input spectrum, which is a spectrum
  • amplifying means for amplifying the subtracted spectrum by the spectral subtracting means or a subtracted signal that is a time domain signal based on the subtracted spectrum.
  • determination means for determining whether or not a sudden fluctuation component that changes rapidly as a noise component is included, and an amplification means when the determination result by the determination means indicates that a sudden fluctuation component is included as the noise component Suppression means for suppressing the amplification degree due to.
  • the frequency spectrum of the noise component included in the input speech signal is estimated by the noise spectrum estimation means. Then, the estimated estimated noise spectrum is subtracted from the input spectrum which is the frequency spectrum of the input speech signal by the spectrum subtracting means. Thereby, the noise component included in the input spectrum is removed, that is, noise removal by the SS method is realized.
  • the level of the spectrum after subtraction by the spectrum subtracting means is necessarily smaller than the level of the input spectrum.
  • the amplification means performs an amplification process on the subtracted spectrum or the subtracted signal that is the time domain signal of the subtracted spectrum.
  • the determination unit determines whether or not a sudden fluctuation component is included as a noise component.
  • the suppression means suppresses the degree of amplification by the amplification means. Therefore, when sudden fluctuation noise such as sudden sound is input, it does not increase and be reproduced. Further, such a countermeasure against sudden fluctuation noise is realized by a relatively simple configuration including a determination unit and a suppression unit. Note that when the determination result by the determination means is a negative determination result indicating that no sudden fluctuation component is included as a noise component, that is, when no sudden fluctuation noise is input, the amplification degree by the amplification means is suppressed. Not.
  • the suppression means in the present invention is such that the level after amplification by the amplification means of the subtracted spectrum is equal to or lower than the level of the input spectrum, or the level after amplification by the amplification means of the signal after subtraction is equal to or lower than the level of the input signal It is preferable to suppress the amplification degree by the amplification means. By adopting such a configuration, it is possible to reliably prevent the sudden fluctuation noise from being reproduced.
  • the determination unit performs the determination based on the subtracted spectrum, particularly based on a comparison between the subtracted spectrum and the input spectrum. That is, when the spectrum after subtraction was carefully observed, it was confirmed that the mode changes greatly between when a sudden fluctuation noise is input and when it is not normal. Specifically, the level of the spectrum after subtraction is higher overall (uniformly over the entire effective band, which is the noise removal target band in the present invention) when the sudden fluctuation noise is input compared to the normal time. When true speech is input, a plurality of peaks corresponding to so-called formants appear in the subtracted spectrum.
  • the determination means determines whether or not a sudden fluctuation component is included as a noise component based on the subtracted spectrum, in particular by comparing the post-subtraction spectrum and the input spectrum. It is judged whether it is a normal time or a sudden fluctuation noise is input.
  • the determination means performs amplification processing on the subtracted spectrum at a degree corresponding to the amplification degree when the amplification degree by the amplification means is not suppressed by the suppression means. Then, the determination is performed by comparing the level of the post-amplification spectrum after the amplification process and the level of the input spectrum.
  • the determination unit obtains the ratio of the excess band in which the level of the above-described spectrum after amplification processing exceeds the input level in the effective band in the present invention. And based on this ratio, it determines.
  • the ratio mentioned here is relatively small during normal times including when a true voice is input, and is relatively large when a sudden fluctuation noise is input. Therefore, when the ratio is relatively small, for example, when the ratio is equal to or less than a predetermined threshold value, it is determined that it is normal. Then, when the ratio is relatively large, that is, when the threshold value is exceeded, it is determined that the sudden fluctuation noise is being input.
  • the determination means obtains the number of excess bands in which the level of the spectrum after amplification exceeds the level of the input spectrum in the above-described effective band, and performs determination based on the number of excess bands. It may be.
  • the number of excess bands referred to here is, for example, plural when a true voice is input, zero during normal times (that is, when there is no sound) except when the true voice is input, and almost one when a sudden fluctuation noise is input. That is, when the number of excess bands referred to here is zero or plural, it is determined that the normal state including the time of true voice input is made, and when the number of excess bands is 1, A determination may be made that it is an input time.
  • the determination means performs an attenuation process on the input spectrum at a degree corresponding to the reciprocal of the amplification degree when the amplification degree by the amplification means is not suppressed by the suppression means.
  • the determination may be made by comparing the level of the attenuated spectrum after the attenuation process and the level of the subtracted spectrum.
  • the determination means obtains the ratio of the excess band in which the level of the spectrum after subtraction exceeds the level of the spectrum after attenuation processing in the effective band in the present invention. And based on this ratio, it determines.
  • the ratio mentioned here is also relatively small during normal times including when a true voice is input, and is relatively large when a sudden fluctuation noise is input. Therefore, when the ratio is relatively small, for example, when the ratio is equal to or less than a predetermined threshold value, it is determined that it is normal. Then, when the ratio is relatively large, that is, when the threshold value is exceeded, it is determined that the sudden fluctuation noise is being input.
  • the determination means may determine the number of excess bands in which the level of the subtracted spectrum exceeds the level of the spectrum after attenuation processing in the effective band and perform determination based on the number of excess bands.
  • the number of excess bands mentioned here is also plural when a true voice is input, is zero during normal times except when the true voice is input, and is mostly 1 when a sudden fluctuation noise is input. Therefore, when the number of excess bands is zero or plural, it is determined that the normal state including the time of true speech input is made, and when the number of excess bands is 1, when sudden fluctuation noise is input The determination is made.
  • a function for removing musical noise (hereinafter referred to as “MN”) may be further provided.
  • MN is a noise peculiar to the SS method which is caused mainly by insufficient subtraction (not adding) when the estimated noise spectrum is subtracted from the input spectrum by the spectrum subtracting means.
  • the time-frequency characteristics of the spectrum after subtraction by the spectrum subtracting means can be seen in the form of sesame salt.
  • a frequency direction processing means for which the MN is arranged in the frequency direction may be provided.
  • the level of the subtracted spectrum is binarized into two gradations for each of a plurality of subdivided frequency bands.
  • the discontinuous bands that do not continue a predetermined number or more along the arrangement direction of the frequency bands are frequency bands having low gradation levels. It is regarded as a low gradation band and is in the same mode as the low gradation band.
  • the identity of the signal component is considered to be MN, for example, the signal component is erased.
  • the aspect is equivalent to a low gradation band having almost no signal component.
  • a time direction processing unit that pays attention to the MN in the time direction.
  • the level of the subtracted spectrum is binarized into two gradations, high and low, for each of a plurality of subdivided frequency bands.
  • the high gradation band which is a frequency band having a low gradation level
  • the high gradation bands which is a frequency band having at least a high gradation level
  • It is regarded as a low gradation band and is in the same mode as the low gradation band.
  • the frequency band called the high gradation band having some signal component the frequency band called the sudden change band where the signal component did not exist at the immediately preceding timing is considered to be the MN as the true identity of the signal component.
  • the frequency band called the sudden change band where the signal component did not exist at the immediately preceding timing is considered to be the MN as the true identity of the signal component.
  • frequency direction processing means and time direction processing means may be provided. However, when both of these are provided, one of them is subjected to the subtracted spectrum as described above, and the other is subjected to the processed spectrum by the one.
  • FIG. 1st Embodiment It is a block diagram which shows schematic structure of the noise removal apparatus presupposed by 1st Embodiment of this invention. It is an illustration figure for demonstrating the process point of the audio
  • FIG. 5 is a block diagram illustrating a configuration example different from FIG. 4. It is an illustration figure which shows the time versus amplitude characteristic of each of the input audio
  • FIG. 3 is an illustrative view showing time-frequency characteristics of an input audio signal and an output audio signal in the first embodiment. It is a block diagram which shows schematic structure of the noise removal apparatus which concerns on 2nd Embodiment of this invention.
  • FIG. 21 It is a detailed block diagram of the MN removal part in FIG. It is an illustration figure for demonstrating the process point by the frequency-axis direction process part in FIG. It is an illustration figure which shows a certain part in FIG. It is an illustration figure following FIG. 15 and FIG. It is an illustration figure following FIG. It is an illustration figure for demonstrating the process point by the time-axis direction process part in FIG. It is an illustration figure which shows a certain part in FIG. It is an illustration figure following FIG. 19 and FIG. FIG. 22 is an illustrative view following FIG. 21.
  • a noise removal apparatus 10 which is a premise of a specific embodiment of the present invention includes a Fourier transform as a time domain-frequency domain transforming unit to which an audio signal x (t) (t: time) is input. Part 12 is provided. Note that the audio signal x (t) is obtained from, for example, a microphone as sound collection means (not shown), and is strictly a signal digitized by an A / D conversion circuit (not shown).
  • the Fourier transform unit 12 cuts out the input audio signal x (t) in the time domain at regular time intervals, that is, forms a frame.
  • the framed input audio signal x (t) is subjected to a Fourier transform process for each frame, so that the input spectrum (amplitude spectrum)
  • the frames may overlap depending on the situation. Further, the overlap amount is also appropriately set according to the situation, and is set to, for example, 1/4 to 3/4 of the frame length.
  • the frame length is also appropriately set according to the situation, and is set to 32 ms to 64 ms, for example. When this frame length is converted into the number of bits, for example, when the sampling frequency of the input audio signal x (t) (by the A / D conversion circuit) is 16 kH, the frame length is 512 bits to 1024 bits.
  • converted by the Fourier transform unit 12 is input to the noise estimation unit 14.
  • the noise estimation unit 14 estimates a noise component included in the input spectrum
  • the noise estimation algorithm mentioned here for example, there is an algorithm expressed by the following equation (1).
  • the noise estimation unit 14 may be configured by a low-pass filter, not limited to the noise estimation algorithm expressed by Equation (1).
  • i is a frame. That is, Ni (f) is an estimated noise spectrum of i frame, and Xi (f) is an input spectrum of the i frame.
  • Fs is a sampling frequency. This sampling Fs is, for example, 16 kHz as described above.
  • Ta is an attack time
  • Tr is a release time. Both the attack time Ta and the release time Tr are, for example, 250 ms to 1 s.
  • the noise estimation unit 14 performs the same function as the low-pass filter.
  • obtained by the noise estimation unit 14 is input to the spectrum subtraction unit 16.
  • the spectrum subtraction unit 16 receives the input spectrum
  • the spectrum subtraction unit 16 subtracts the estimated noise spectrum
  • is the subtraction coefficient described above.
  • This subtraction coefficient ⁇ is appropriately set according to the situation, and is appropriately set, for example, in the range of 1 or more, preferably in the range of 1.5 to 2.0.
  • is a flooring coefficient.
  • the flooring coefficient ⁇ is also appropriately set according to the situation, and is appropriately set, for example, in a range larger than 0 and smaller than 1, preferably in a range of 0.01 to 0.2.
  • As the spectrum after subtraction is obtained.
  • is necessarily smaller than the level of the input spectrum
  • is input to the amplifying unit 18 where it is subjected to amplification processing, and more specifically, a constant gain of ⁇ greater than 1 is given.
  • after the amplification processing by the amplification unit 18 is input to the inverse Fourier transform unit 20 as a frequency domain-time domain transform unit.
  • the inverse Fourier transform unit 20 performs inverse Fourier transform processing on the amplified speech spectrum ⁇ ⁇
  • the sound signal s (t) is converted.
  • the output audio signal s (t) is converted into an analog signal by a D / A conversion circuit (not shown), and then input to a speaker as an audio output means (not shown), for example.
  • the inverse Fourier transform unit 20 performs the inverse Fourier transform process by being given the phase spectrum argX (f) of the input audio signal x (t) from the Fourier transform unit 20, and the phase spectrum argX (f) is Even if it is not given, that is, only the post-amplification speech spectrum ⁇ ⁇
  • has an aspect as shown by a thick alternate long and short dash line in FIG.
  • is generally higher than the level of the input spectrum
  • the amplification process by the amplification unit 18 is performed on the sound spectrum
  • FIG. 2 is a spectrum diagram of a frame, that is, a so-called voice section when a true voice is input in an environment where there is no sudden sound described below.
  • a voice section generally, a plurality of peaks corresponding to formants appear in the voice spectrum
  • the amplifying unit 18 is configured such that the levels of these peak portions are larger than the level of the input spectrum
  • the gain ⁇ of the amplifying unit 18 the noise removal effect by the SS method is obtained in which only the voice is emphasized and stationary noise is suppressed. It is done.
  • of a frame when a sudden noise such as sudden sound is input is generally shown as a bold solid line in FIG. It becomes a high level (strictly, it is uniform over the whole effective band A mentioned later strictly). This is due to the fact that the sudden sound has a frequency characteristic similar to the impulse (uniform throughout the effective band A).
  • after subtraction by the spectrum subtracting unit 16 is in a mode as shown by a thick one-dot chain line in FIG.
  • in this sudden sound section is almost similar to the input spectrum
  • of the sudden sound section does not have a plurality of peaks. Furthermore, the speech spectrum
  • the noise removal apparatus 100 is configured as shown in FIG.
  • the noise removal apparatus 100 performs a sudden sound as a determination unit with respect to the noise removal apparatus 10 that is the premise of the first embodiment shown in FIG.
  • a detection unit 30 and a gain control unit 32 as suppression means are added.
  • the amplifying unit 34 in the noise removing device 100 according to the first embodiment differs from the amplifying unit 18 in the noise removing device 10 which is the premise of the first embodiment, strictly speaking, for each frequency f,
  • the gain ⁇ (f) can be adjusted every time.
  • the sudden sound detection unit 30 compares the input spectrum
  • the sudden sound detection unit 30 applies the same constant gain ⁇ as the amplification unit 18 shown in FIG. 1 to the voice spectrum
  • the sudden sound detection unit 30 determines that the level of the amplified speech spectrum ⁇ ⁇
  • ) Band B is obtained. Then, the sum ⁇ B of the excess band B is obtained. Further, the sudden sound detection unit 30 has a ratio of the sum ⁇ B of the excess band B to the entire effective band A that is a substantial noise removal target band in the first embodiment, that is, a sudden sound rate R ( ( ⁇ B). / A), and the sudden sound rate R is compared with a predetermined threshold value ⁇ .
  • the effective band A is determined by the sampling frequency Fs described above.
  • the sampling frequency Fs is 16 kHz
  • the lower limit frequency fmin of the effective band A is about 16 Hz
  • the upper limit frequency fmax is about 8 kHz.
  • the frequency bin as the frequency resolution is determined by the effective band A and the number of frame samples (point size).
  • the sudden sound detection unit 30 when the sudden sound rate R is equal to or less than the threshold ⁇ (R ⁇ ⁇ ), the sudden sound detection unit 30 indicates that the current frame is a voice section, strictly (true Since there is a possibility of a silent section in which no voice is input, it is determined that it is not at least a sudden sound section. Then, a determination signal D representing the determination result is sent from the sudden sound detection unit 30 to the gain control unit 32.
  • the gain control unit 32 receives the determination signal D indicating that the current frame is a voice section (or silent section) from the sudden sound detection unit 30 as described above, in response to this, for example, as shown in FIG.
  • the gain ⁇ (f) of the amplifying unit 34 is set to amplify the speech spectrum
  • ( ⁇ (f) ⁇
  • ) after amplification processing by the amplifying unit 34 is the same as that shown in FIG. ⁇
  • the reproduced sound according to the output sound signal s ′ (t) is only the sound is enhanced and the stationary noise is suppressed (the reproduced sound when the current frame is a silent section is Will be virtually silent).
  • the sudden sound detection unit 30 determines that the current frame is a sudden sound section. Then, a determination signal D representing the determination result is sent from the sudden sound detection unit 30 to the gain control unit 32.
  • the gain control unit 32 When the gain control unit 32 receives the determination signal D indicating such a sudden sound interval, in response thereto, the level of the amplified speech spectrum ⁇ ⁇
  • the gain ⁇ (f) of the amplifying unit 34 is controlled for each frequency bin, and strictly speaking, a control signal C for instructing this control is given to the amplifying unit 34.
  • is equal to or lower than the level of the input spectrum
  • the gain ⁇ (f) of the amplifying unit 34 is set to the above-described constant gain ⁇ .
  • the noise removal apparatus 100 As described above, according to the noise removal apparatus 100 according to the first embodiment, only the voice is emphasized in the voice section and the stationary noise is suppressed, that is, the noise removal effect by the SS method is obtained. In the sudden sound section, at least the sudden sound is not increased and reproduced, that is, the sudden sound can be appropriately dealt with.
  • a sudden sound detection unit 30 and a gain control unit 32 are added to the premise noise removal apparatus 10 shown in FIG. 1, and a gain ⁇ (f) for each frequency bin as an amplification unit 34.
  • the threshold value ⁇ is appropriately set according to the situation, in particular, according to the gain ⁇ added to the speech spectrum
  • the amplifying unit 34 does not need to be able to adjust the gain ⁇ (f) for each frequency bin, and may be capable of adjusting with a constant gain of ⁇ , for example, over the entire effective band A.
  • the amplifying unit 34 may attenuate the speech spectrum
  • a value is set such that the level of the speech spectrum ⁇ ⁇
  • a time domain amplification unit 40 as shown in FIG. 10 may be employed instead of the so-called frequency domain amplification unit 34.
  • after subtraction by the spectrum subtracting unit 16 is converted into a time-domain speech signal s (t) by the inverse Fourier transform unit 20.
  • the audio signal s (t) in the time domain is preferably converted into an analog signal and then amplified by the amplifying unit 40 to obtain an output audio signal s ′ (t). Since the amplifier 40 in this case has a time-domain mode, the control signal C ′ given from the gain control unit 42 to the amplification unit 40 is also in a corresponding mode.
  • the sudden sound detection unit 30 determines whether or not the current frame is a sudden sound section depending on whether or not the sudden sound rate R described above exceeds the threshold ⁇
  • the present invention is not limited to this.
  • that is, the amplified speech spectrum ⁇ ⁇
  • the determination may be performed based on (f)
  • the sudden sound detection unit 30 determines the level of the amplified speech spectrum ⁇ ⁇
  • is subjected to attenuation processing by the reciprocal 1 / ⁇ of the gain ⁇ , and after this attenuation processing (so-called negative gain is added). The determination may be performed based on a comparison between the level of the spectrum ⁇ 1 / ⁇ ⁇
  • the sudden sound detection unit 30 determines based on only the speech spectrum
  • the noise estimation unit 14 is configured to obtain the estimated noise spectrum
  • may be obtained in advance or appropriately based on the input spectrum
  • a Fourier transform process by the Fourier transform unit 12 is employed as a time domain-frequency domain transform process for transforming the time domain input speech signal x (t) into a frequency domain input spectrum
  • the time domain-frequency domain conversion process may be realized by a filter bank in which a plurality of band pass filters are arranged in an array.
  • an appropriate process corresponding to the time domain-frequency domain transformation process is adopted instead of the inverse Fourier transformation process by the inverse Fourier transform unit 20. That is essential.
  • the noise removal apparatus 100 is, for example, a CPU (Central This is realized by a processing unit) or a combination of the CPU and a DSP (digital signal processor). And as an application example of this noise removal apparatus 100, for example, there are two-way communication devices such as an intercom, but it is of course applicable to other devices.
  • a CPU Central This is realized by a processing unit
  • DSP digital signal processor
  • the noise removal apparatus 100 when there is no sudden sound, a good noise removal effect can be obtained as described above. This is also clear from the comparison of the time vs. amplitude characteristics of the input audio signal x (t) and the output audio signal s ′ (t) shown in FIG.
  • noise removal in which the function of removing the MN is added to the configuration shown in FIG. 4 with respect to the noise removal apparatus 100 according to the first embodiment described above.
  • An apparatus 200 is proposed.
  • the noise removal apparatus 200 includes an MN removal unit 50 that performs the removal function of the MN, as shown in FIG.
  • the MN removal unit 50 is provided between the output side of the spectrum subtraction unit 16 and the input sides of the sudden sound detection unit 30 and the amplification unit 34.
  • the MN removal unit 50 includes a frequency axis direction processing unit 52 and a time axis direction processing unit 54, and the frequency axis direction processing unit 52 is subtracted by the spectrum subtraction unit 16.
  • is input.
  • the frequency axis direction processing unit 52 has a map 52a as shown in FIG.
  • This map 52a simulates the time-frequency characteristic of the speech spectrum
  • the frequency axis direction processing unit 52 binarizes the level of the voice spectrum
  • the frequency axis direction processing unit 52 compares the level of the speech spectrum
  • the threshold value ⁇ is appropriately set in a range larger than 0 and smaller than 1 (0 ⁇ ⁇ 1), for example, about 0.7 to 0.5.
  • the frequency axis direction processing unit 52 Attention is paid to the order along the frequency f axis in the direction from the small value to the large value.
  • FIG. 16 (a) when there are continuous p (p: plural) or more cells that are determined to have some signal component (filled in black), A signal component corresponding to successive cells is regarded as a true audio component. Then, the signal components corresponding to the squares regarded as the true audio components are left as they are.
  • FIG. 16 (a) when there are continuous p (p: plural) or more cells that are determined to have some signal component (filled in black), A signal component corresponding to successive cells is regarded as a true audio component. Then, the signal components corresponding to the squares regarded as the true audio components are left as they are.
  • the signal components corresponding to the discontinuous cells Is considered to be the MN component. Then, the signal component corresponding to the cell which is regarded as the MN component is removed. At this time, the signal component corresponding to the square that is considered to be the MN component may be completely removed (it may be set to 0), or the input spectrum
  • may be replaced by a minimum guarantee level ⁇ ⁇
  • the time axis direction processing unit 54 also has a map 54a as shown in FIG. Then, the time axis direction processing unit 54 uses the map 54a to change the level of the spectrum
  • the coefficient ⁇ in the time axis direction processing unit 54 is a value smaller than the coefficient ⁇ in the frequency axis direction processing unit 52, for example, about 0.1 to 0.3.
  • in the time axis direction processing unit 54 is smaller than the threshold value ⁇ ⁇
  • the time axis direction processing unit 54 compares the level of the spectrum
  • processed by the frequency axis direction processing unit 52 exceeds the threshold ⁇ ⁇
  • High-tone cells are determined as having some signal component and given a predetermined mark (shown in black in FIG. 19).
  • after processing by the frequency axis direction processing unit 52 is lower than the threshold ⁇
  • the time axis direction processing unit 54 For each frequency f (frequency bin), the square of the current frame is compared with the square of the immediately preceding frame.
  • the grid in the current frame represents the presence of some signal component (filled in black), and the grid in the immediately preceding frame is some
  • the time-axis direction processing unit 54 considers that the signal component corresponding to the square of the current frame is the MN component. Then, the signal component corresponding to the cell which is regarded as the MN component is removed.
  • the signal component corresponding to the square that is regarded as the MN component may be completely removed, or the input spectrum
  • the square of the current frame represents the presence of some signal component (filled in black), and the square of the immediately preceding frame also represents some signal.
  • the time axis direction processing unit 54 considers that the signal component corresponding to the square of the current frame is a true audio component. Then, the signal components corresponding to the squares regarded as the true audio components are left as they are.
  • the spectrum after further removal processing of the MN component that is, the spectrum
  • an output audio signal s ′′ (t) from which the MN has been removed is finally obtained.
  • This together with the noise removal effect by the SS method described in the first embodiment, greatly contributes to improving the quality of the output audio signal s ′′ (t).
  • the MN removal unit 50 that performs the MN removal function is provided between the output side of the spectrum subtraction unit 16 and the input side of each of the sudden sound detection unit 30 and the amplification unit 34.
  • the MN removal unit 50 may be provided between the output side of the amplification unit 34 and the input side of the inverse Fourier transform unit 20.
  • one of the frequency axis direction processing unit 52 and the time axis direction processing unit 54 constituting the MN removal unit 50 is connected to the output side of the spectrum subtraction unit 16, the sudden sound detection unit 30, and the amplification unit 34.
  • the other side of the frequency axis direction processing unit 52 and the time axis direction processing unit 54 is provided between the output side of the amplifying unit 34 and the input side of the inverse Fourier transform unit 20. May be.
  • the order in which the frequency axis direction processing unit 52 and the time axis direction processing unit 54 are provided may be reversed.
  • is input to the time axis direction processing unit 54, and the spectrum processed by the time axis direction processing unit 54 is input to the frequency axis direction processing unit 52. Entered.
  • the MN removal unit 50 may be added to the configuration shown in FIG. In this case, the MN removal unit 50 is provided between the output side of the spectrum subtraction unit 16 and the input sides of the sudden sound detection unit 30 and the inverse Fourier transform unit 20.
  • the frequency axis direction processing unit 52 and the time axis direction processing unit 54 are not provided, a relatively good MN removal effect can be obtained by only one of them.
  • the coefficient ⁇ in the time axis direction processing unit 54 is smaller than the coefficient ⁇ in the frequency axis direction processing unit 52, that is, compared with the threshold value ⁇ ⁇
  • in the time axis direction processing unit 54 is small is to reduce the influence of the time axis direction processing unit 54 on the reproduced sound. That is, when the threshold value ⁇ ⁇
  • in the time axis direction processing unit 54 is set to be small.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

【課題】 スペクトルサブトラクション法を採用する雑音除去装置において、突発音が入力されたときに当該突発音が増大して再生されることのないよう適切に対処する。 【解決手段】 本発明に係る雑音除去装置100によれば、入力音声信号x(t)の周波数スペクトル|X(f)|に含まれる雑音成分が、雑音推定部14によって推定される。そして、推定された雑音成分のスペクトル|N(f)|がスペクトル減算部16によって入力スペクトル|X(f)|から減算されることで、音声スペクトル|S(f)|が求められる。この音声スペクトル|S(f)|は、増幅部34によって増幅された上で、逆フーリエ変換部20によって出力音声信号s'(x)に変換される。ここで、突発音検知部30によって突発音が検知されると、これを受けて、ゲイン制御部32が増幅部34のゲインγ(f)を抑制する。これにより、突発音が増大して再生されることはない。

Description

雑音除去装置
 本発明は、雑音除去装置に関し、特に、スペクトルサブトラクション(以下、「SS」と言う。)法を採用する雑音除去装置に関する。
 SS法は、入力音声信号に含まれる雑音成分の周波数スペクトル(振幅スペクトル)を推定し、この推定された推定雑音スペクトルを当該入力音声信号の周波数スペクトルである入力スペクトルから減算することで、当該雑音成分を除去する技術である。なお厳密には、推定雑音スペクトルが入力スペクトルから減算される際に、当該推定雑音スペクトルに対して減算係数という適当な倍率が乗ぜられる。このようなSS法を採用する雑音除去装置として、従来、例えば特許文献1に開示されたものがある。この従来技術によれば、減算係数が、入力スペクトルとしての短時間スペクトルの算出単位であるフレーム毎に変更され、特に音声のパワーが小さいフレームにおいて小さな値とされる。これにより、減算係数が乗ぜられた推定雑音スペクトルが短時間スペクトルから減算される際の当該推定雑音スペクトルによる短時間スペクトルの引き過ぎが防止され、減算後の音声スペクトルの歪みが押さえられる、とされている。
特開平8-221092号公報
 ところで、上述の従来技術を含むSS法においては、基本的に、雑音は定常であり、音声は非定常である、という仮定の下、上述の如く当該定常な雑音の周波数スペクトルが推定され、この推定された推定雑音スペクトルが入力スペクトルから減算されることで、雑音除去が実現され、つまり非定常な音声が残される。従って例えば、入力音声信号に含まれる雑音成分が非定常である場合、特に当該雑音成分として比較的に変動の激しい言わば急変動成分が含まれる場合には、この急変動成分が(真の)音声成分と同様に取り扱われ、結果的に、当該急変動成分に応じた雑音、特に突発音が、再生される。即ち、突発音等の急変動雑音については、これを良好に除去することができない。
 加えて、SS法においては、入力スペクトルから推定雑音スペクトルが減算された後の減算後スペクトルのレベル、特に(真の)音声スペクトルのレベルが、必然的に当該入力スペクトルのレベルよりも小さくなる。これを補うために、減算後スペクトルに対して、または、当該減算後スペクトルに基づく時間領域信号である減算後信号に対して、常套的に増幅処理が施される。ところが、上述の如く入力音声信号が雑音成分として急変動成分を含むときに、このような増幅処理が施されると、当該急変動成分までもが増幅され、結果的に、突発音等の急変動雑音が増大して再生されてしまう。これでは、雑音除去どころか、却って雑音増幅することになり、極めて不都合である。
 そこで、本発明は、SS法を採用する雑音除去装置において、突発音等の急変動雑音が入力されたときに、これが増大して再生されることのないよう適切に対処し、しかも、この適切な対処を比較的に簡単な構成で実現することを、目的とする。
 この目的を達成するために、本発明は、入力音声信号に含まれる雑音成分の周波数スペクトルを推定する雑音スペクトル推定手段と、この雑音スペクトル推定手段によって推定された推定雑音スペクトルを入力音声信号の周波数スペクトルである入力スペクトルから減算するスペクトル減算手段と、このスペクトル減算手段による減算後スペクトルまたは当該減算後スペクトルに基づく時間領域信号である減算後信号を増幅する増幅手段と、を具備する。さらに、雑音成分として急激に変動する急変動成分が含まれているかどうかを判定する判定手段と、この判定手段による判定結果が当該雑音成分として急変動成分が含まれていることを表すとき増幅手段による増幅度合を抑制する抑制手段と、を具備する。
 即ち、本発明によれば、入力音声信号に含まれる雑音成分の周波数スペクトルが雑音スペクトル推定手段によって推定される。そして、推定された推定雑音スペクトルがスペクトル減算手段によって入力音声信号の周波数スペクトルである入力スペクトルから減算される。これにより、入力スペクトルに含まれる雑音成分が除去され、つまりSS法による雑音除去が実現される。ここで、スペクトル減算手段による減算後スペクトルのレベルは、必然的に入力スペクトルのレベルよりも小さくなる。これを補うために、増幅手段が、減算後スペクトルに対して、または、当該減算後スペクトルの時間領域信号である減算後信号に対して、増幅処理を施す。
 ところで、上述の雑音成分として突発音成分等の急変動成分が含まれる場合、この急変動成分を含む雑音成分の周波数スペクトル(言わば真の雑音スペクトル)が雑音スペクトル推定手段によって精確に推定されず、そのために、スペクトル減算手段による減算後スペクトルの中に当該急変動成分が残ってしまうことがある。この状態で、もし、増幅手段による増幅処理がそのまま実行されるとすると、当該急変動成分に応じた急変動雑音が増大して再生されることになり、極めて不都合である。この不都合を回避するべく、判定手段が、雑音成分として急変動成分が含まれているかどうかを判定する。そして、この判定手段による判定結果が当該雑音成分として急変動成分が含まれていることを表す肯定的な判定結果であるとき、抑制手段が、増幅手段による増幅度合を抑制する。従って、突発音等の急変動雑音が入力されたときに、これが増大して再生されることはない。また、このような急変動雑音への対処は、判定手段および抑制手段を含む比較的に簡単な構成によって実現される。なお、判定手段による判定結果が雑音成分として急変動成分が含まれていないことを表す否定的な判定結果であるとき、つまり急変動雑音が入力されていないときは、増幅手段による増幅度合は抑制されない。
 本発明における抑制手段は、減算後スペクトルの増幅手段による増幅後レベルが入力スペクトルのレベル以下となるように、または、減算後信号の増幅手段による増幅後レベルが入力信号のレベル以下となるように、当該増幅手段による増幅度合を抑制するのが、好ましい。このような構成とされることによって、急変動雑音が増大して再生されるのが、確実に防止される。
 そして、判定手段は、減算後スペクトルに基づいて、特に当該減算後スペクトルと入力スペクトルとの比較に基づいて、判定を行うのが、好ましい。即ち、減算後スペクトルを注意深く観測したところ、急変動雑音が入力されているときと、そうでない言わば平常時とで、その態様が大きく変わることが、確認された。具体的には、平常時に比べて急変動雑音入力時の方が、減算後スペクトルのレベルが全体的に(本発明における雑音除去対象帯域である有効帯域全体にわたって一様に)高い。また、真の音声が入力されているときには、いわゆるフォルマントに応じた複数のピークが当該減算後スペクトルに現れる。この点に着目して、判定手段は、減算後スペクトルに基づいて、特に当該減算後スペクトルと入力スペクトルとを比較することによって、雑音成分として急変動成分が含まれているかどうかを判定し、つまり平常時であるか急変動雑音入力時であるかを判定する。
 より具体的には、判定手段は、増幅手段による増幅度合が抑制手段によって抑制されていない非抑制時にあるときの当該増幅度合に相当する度合で、減算後スペクトルに増幅処理を施す。そして、この増幅処理が施された後の増幅処理後スペクトルのレベルと入力スペクトルのレベルとを比較することによって、判定を行う。
 一例として、判定手段は、本発明における有効帯域のうち、上述の増幅処理後スペクトルのレベルが入力レベルを超える超過帯域が占める割合を、求める。そして、この割合に基づいて、判定を行う。ここで言う割合は、真の音声入力時を含む平常時には比較的に小さく、急変動雑音入力時には比較的に大きい。従って、当該割合が比較的に小さいとき、例えば所定の閾値以下であるときに、平常時であるという判定が成される。そして、当該割合が比較的に大きいとき、つまり閾値を超えるときに、急変動雑音入力時であるという判定が成される。
 また、別例として、判定手段は、上述の有効帯域において、増幅処理後スペクトルのレベルが入力スペクトルのレベルを超える超過帯域の数を、求め、この超過帯域の数に基づいて、判定を行うものであってもよい。ここで言う超過帯域の数は、例えば真の音声入力時には複数であり、当該真の音声入力時を除く平常時(つまり無音時)にはゼロであり、急変動雑音入力時には大方1となる。即ち、ここで言う超過帯域の数がゼロまたは複数であるときに、真の音声入力時を含む平常時であるという判定が成され、当該超過帯域の数が1であるときに、急変動雑音入力時であるという判定が成されてもよい。
 これとは逆の発想で、判定手段は、増幅手段による増幅度合が抑制手段によって抑制されていない非抑制時にあるときの当該増幅度合の逆数に相当する度合で、入力スペクトルに減衰処理を施し、この減衰処理が施された後の減衰処理後スペクトルのレベルと減算後スペクトルのレベルとを比較することによって、判定を行うものであってもよい。
 具体的には、判定手段は、本発明における有効帯域のうち、減算後スペクトルのレベルが減衰処理後スペクトルのレベルを超える超過帯域が占める割合を、求める。そして、この割合に基づいて、判定を行う。ここで言う割合もまた、真の音声入力時を含む平常時には比較的に小さく、急変動雑音入力時には比較的に大きい。従って、当該割合が比較的に小さいとき、例えば所定の閾値以下であるときに、平常時であるという判定が成される。そして、当該割合が比較的に大きいとき、つまり閾値を超えるときに、急変動雑音入力時であるという判定が成される。
 また、判定手段は、有効帯域において、減算後スペクトルのレベルが減衰処理後スペクトルのレベルを超える超過帯域の数を、求め、この超過帯域の数に基づいて、判定を行うものであってもよい。ここで言う超過帯域の数もまた、真の音声入力時には複数であり、当該真の音声入力時を除く平常時にはゼロであり、急変動雑音入力時には大方1となる。従って、当該超過帯域の数がゼロまたは複数であるときに、真の音声入力時を含む平常時であるという判定が成され、当該超過帯域の数が1であるときに、急変動雑音入力時であるという判定が成される。
 本発明においては、さらに、ミュージカルノイズ(以下、「MN」と言う。)を除去するための機能が備えられてもよい。なお、MNとは、スペクトル減算手段によって入力スペクトルから推定雑音スペクトルが減算される際の減算不足(引き足らないこと)が主たる原因となって生じる言わばSS法特有のノイズであり、後述する図12の特に(a)に示すように、当該スペクトル減算手段による減算後スペクトルの時間対周波数特性において概略胡麻塩状に見受けられる。
 このMN除去機能を担う手段として、例えば周波数方向における当該MNの並びに注目した周波数方向処理手段が設けられてもよい。この周波数方向処理手段によれば、細分化された複数の周波数帯域別に減算後スペクトルのレベルが高低2つの階調に2値化される。そして、少なくとも高階調のレベルを持つ周波数帯域である高階調帯域のうち、各周波数帯域の並び方向に沿って所定数以上連続しない非連続帯域については、低階調のレベルを持つ周波数帯域である低階調帯域と見なされ、当該低階調帯域と同等の態様とされる。要するに、何らかの信号成分を有する高階調帯域という周波数帯域のうち、周波数方向において所定数以上連続しない非連続の帯域については、当該信号成分の正体がMNであると見なされ、例えば当該信号成分が消去または低減されることによって、当該信号成分を殆ど有しない低階調帯域と同等の態様とされる。
 これとは別の発想で、例えば時間方向におけるMNの並びに注目した時間方向処理手段が設けられてもよい。この時間方向処理手段においても、細分化された複数の周波数帯域別に減算後スペクトルのレベルが高低2つの階調に2値化される。そして、少なくとも高階調のレベルを持つ周波数帯域である高階調帯域のうち、低階調のレベルを持つ周波数帯域である低階調帯域から当該高階調帯域に遷移した直後の急変帯域については、当該低階調帯域と見なされ、当該低階調帯域と同等の態様とされる。要するに、何らかの信号成分を有する高階調帯域という周波数帯域のうち、直前のタイミングでは当該信号成分が存在しなかった急変帯域という周波数帯域については、当該信号成分の正体がMNであると見なされ、やはり例えば当該信号成分が消去または低減されることによって、当該信号成分を殆ど有しない低階調帯域と同等の態様とされる。
 なお、これら周波数方向処理手段および時間方向処理手段のいずれか一方または両方が設けられてもよい。ただし、これらの両方が設けられる場合には、そのうちの一方が上述の如く減算後スペクトルを処理対象とし、他方は当該一方による処理後スペクトルを処理対象とする。
本発明の第1実施形態が前提とする雑音除去装置の概略構成を示すブロック図である。 図1の雑音除去装置による音声区間の処理要領を説明するための図解図である。 図1の雑音除去装置による突発音区間の処理要領を説明するための図解図である。 本発明の第1実施形態に係る雑音除去装置の概略構成を示すブロック図である。 同第1実施形態における音声区間の判定要領を説明するための図解図である。 同第1実施形態における音声区間の処理要領を説明するための図解図である。 同第1実施形態における突発音区間の判定要領を説明するための図解図である。 同第1実施形態における突発音区間の処理要領を説明するための図解図である。 図8とは別の処理要領を説明するための図解図である。 図4とは別の構成例を示すブロック図である。 同第1実施形態における入力音声信号および出力音声信号それぞれの時間対振幅特性を示す図解図である。 同第1実施形態における入力音声信号および出力音声信号それぞれの時間対周波数特性を示す図解図である。 本発明の第2実施形態に係る雑音除去装置の概略構成を示すブロック図である。 図13におけるMN除去部の詳細ブロック図である。 図14における周波数軸方向処理部による処理要領を説明するための図解図である。 図15における或る部分を示す図解図である。 図15および図16に続く図解図である。 図17に続く図解図である。 図14における時間軸方向処理部による処理要領を説明するための図解図である。 図19における或る部分を示す図解図である。 図19および図20に続く図解図である。 図21に続く図解図である。
 本発明の具体的実施形態についての説明をする前に、その前提となる雑音除去装置10について説明する。
 図1に示すように、本発明の具体的実施形態の前提となる雑音除去装置10は、音声信号x(t)(t:時間)が入力される時間領域-周波数領域変換手段としてのフーリエ変換部12を有している。なお、音声信号x(t)は、例えば図示しない収音手段としてのマイクロホンから得られ、厳密には図示しないA/D変換回路によってデジタル化された信号である。
 フーリエ変換部12は、時間領域の入力音声信号x(t)を一定の時間間隔で切り出し、つまりフレーム化する。そして、フレーム化された入力音声信号x(t)は、当該フレームごとにフーリエ変換処理を施されることで、周波数領域の入力スペクトル(振幅スペクトル)|X(f)|(f:周波数)に変換される。なお、フレームは、状況に応じてオーバラップされることがある。また、そのオーバラップ量も、状況に応じて適宜に設定され、例えばフレーム長の1/4~3/4とされる。そして、フレーム長も、状況に応じて適宜に設定され、例えば32ms~64msとされる。このフレーム長をビット数で換算すると、例えば(A/D変換回路による)入力音声信号x(t)のサンプリング周波数が16kHである場合には、当該フレーム長は、512ビット~1024ビットとなる。
 フーリエ変換部12によって変換された入力スペクトル|X(f)|は、雑音推定部14に入力される。雑音推定部14は、公知の雑音推定アルゴリズムを用いて、当該入力スペクトル|X(f)|に含まれる雑音成分を推定し、つまり推定雑音スペクトル|N(f)|を求める。ここで言う雑音推定アルゴリズムとしては、例えば次の数1で表されるものがある。勿論、この数1で表される雑音推定アルゴリズムに限らず、極端にはローパスフィルタによって、雑音推定部14が構成されてもよい。
Figure JPOXMLDOC01-appb-M000001
 なお、この数1において、iは、フレームである。つまり、Ni(f)は、iフレームの推定雑音スペクトルであり、Xi(f)は、当該iフレームの入力スペクトルである。そして、Fsは、サンプリング周波数である。このサンプリングFsは、上述の如く例えば16kHzである。さらに、Taは、アタックタイムであり、Trは、リリースタイムである。これらアタックタイムTaおよびリリースタイムTrは、いずれも例えば250ms~1sである。また、これらアタックタイムTaおよびリリースタイムTrが互いに等価(Ta=Tr)であるときは、雑音推定部14は、ローパスフィルタと同様の機能を奏する。
 雑音推定部14によって求められた推定雑音スペクトル|N(f)|は、スペクトル減算部16に入力される。また、スペクトル減算部16には、フーリエ変換部12から入力スペクトル|X(f)|が入力される。スペクトル減算部16は、入力スペクトル|X(f)|から推定雑音スペクトル|N(f)|を減算し、厳密には次の数2で表されるスペクトル減算アルゴリズムを実行する。
Figure JPOXMLDOC01-appb-M000002
 なお、この数2において、βは、上述した減算係数である。この減算係数βは、状況に応じて適宜に設定され、例えば1以上の範囲、好ましくは1.5~2.0の範囲で、適宜に設定される。そして、αは、フロアリング係数である。このフロアリング係数αもまた、状況に応じて適宜に設定され、例えば0よりも大きくかつ1よりも小さい範囲で、好ましくは0.01~0.2の範囲で、適宜に設定される。
 この数2に基づくスペクトル減算アルゴリズムが実行されることで、減算後スペクトルとしての音声スペクトル|S(f)|が求められる。ただし、この音声スペクトル|S(f)|のレベルは、数2からも分かるように、必然的に入力スペクトル|X(f)|のレベルよりも小さくなる。これを補うために、音声スペクトル|S(f)|は、増幅部18に入力され、ここで増幅処理を施され、詳しくは1よりも大きいγという一定のゲインが与えられる。そして、この増幅部18による増幅処理後の音声スペクトルγ・|S(f)|は、周波数領域-時間領域変換手段としての逆フーリエ変換部20に入力される。
 逆フーリエ変換部20は、増幅後音声スペクトルγ・|S(f)|に逆フーリエ変換処理を施すことで、周波数領域の当該増幅後音声スペクトルγ・|S(f)|を時間領域の出力音声信号s(t)に変換する。この出力音声信号s(t)は、図示しないD/A変換回路によってアナログ信号に変換された後、例えば図示しない音声出力手段としてのスピーカに入力される。なお、逆フーリエ変換部20は、フーリエ変換部20から入力音声信号x(t)の位相スペクトルargX(f)が与えられることで、逆フーリエ変換処理を行うが、この位相スペクトルargX(f)が与えられなくとも、つまり変換対象である増幅後音声スペクトルγ・|S(f)|のみによって、当該逆フーリエ変換処理を実用に耐え得る(或る程度の)精確さで実現することができる。
 ここで例えば、或るフレームの入力スペクトル|X(f)|が図2(a)に太実線で誇張して示すような態様であるとき、スペクトル減算部16による減算後の音声スペクトル|S(f)|は、図2(b)に太い一点鎖線で示すような態様となる。この図2(b)からも分かるように、音声スペクトル|S(f)|のレベルは、全体的に(厳密には後述する有効帯域A全体にわたって)入力スペクトル|X(f)|のレベルよりも小さい。そして、この音声スペクトル|S(f)|に対して増幅部18による増幅処理が施されることで、当該音声スペクトル|S(f)|のレベルが全体的に増大され、つまり図2(c)に太破線で示すような増幅後音声スペクトルγ・|S(f)|が得られる。なお、図2は、次に説明する突発音が存在しない環境下で、真の音声が入力されているときのフレーム、いわゆる音声区間、のスペクトル図である。この音声区間においては、一般に、音声スペクトル|S(f)|(および増幅後音声スペクトルγ・|S(f)|)にフォルマントに応じた複数のピークが現れる。そして、これらピーク部分のレベルが入力スペクトル|X(f)|のレベルよりも大きくなり、それ以外の部分のレベルが入力スペクトル|X(f)|のレベルよりも小さくなるように、増幅部18による増幅処理が施されることで、言い換えれば当該増幅部18のゲインγが設定されることで、音声のみが強調され、定常的な雑音については抑えられる、というSS法による雑音除去効果が得られる。
 一方、突発音という変動の激しい雑音が入力されたときのフレーム、言わば突発音区間、の入力スペクトル|X(f)|は、例えば図3(a)に太実線で示すように、全体的に(厳密には後述する有効帯域A全体にわたって一様に)高いレベルとなる。これは、突発音がインパルスと同じような(有効帯域A全体にわたって均一な)周波数特性を持つことに起因する。そして、スペクトル減算部16による減算後の音声スペクトル|S(f)|は、図3(b)に太い一点鎖線で示すような態様となる。この突発音区間の音声スペクトル|S(f)|は、減算前の入力スペクトル|X(f)|と概ね相似形である。言い換えれば、当該突発音区間の音声スペクトル|S(f)|は、図2(b)に示した音声区間の音声スペクトル|S(f)|とは異なり、複数のピークを有しない。さらに、突発音区間の音声スペクトル|S(f)|は、音声区間の音声スペクトル|S(f)|に比べて、入力スペクトル|X(f)|に対するレベルの低下度合が全体的に小さい。この結果、突発音区間の増幅後音声スペクトルγ・|S(f)|は、図3(c)に太破線で示すように、比較的に広帯域にわたって入力スペクトル|X(f)|よりも高いレベルとなる。これでは、突発音が増大して再生されることになり、好ましくない。
 この好ましくない事態を回避するために、本発明の第1実施形態に係る雑音除去装置100は、図4に示すような構成とされている。
 即ち、図4に示すように、本第1実施形態に係る雑音除去装置100は、図1に示した当該第1実施形態の前提となる雑音除去装置10に対して、判定手段としての突発音検知部30と、抑制手段としてのゲイン制御部32とを、付加したものである。また、本第1実施形態に係る雑音除去装置100における増幅部34は、当該第1実施形態の前提となる雑音除去装置10における増幅部18とは異なり、周波数fごとに、厳密には周波数ビンごとに、ゲインγ(f)の調整が可能とされている。
 突発音検知部30は、入力スペクトル|X(f)|とスペクトル減算部16による減算後の音声スペクトル|S(f)|とを比較することによって、突発音区間であるかどうかの判定を行う。具体的には、当該突発音検知部30は、音声スペクトル|S(f)|に対して図1に示した増幅部18と同じ一定のゲインγを与えることで、当該増幅部18によるのと同様の増幅後音声スペクトルγ・|S(f)|を求める。そして、この増幅後音声スペクトルγ・|S(f)|のレベルと入力スペクトル|X(f)|のレベルとを、周波数ビンごとに比較する。この比較において、突発音検知部30は、増幅後音声スペクトルγ・|S(f)|のレベルが入力スペクトル|X(f)|のレベルを超える(γ・|S(f)|>|X(f)|)帯域Bを求める。そして、この言わば超過帯域Bの総和ΣBを求める。さらに、突発音検知部30は、この超過帯域Bの総和ΣBが本第1実施形態における実質的な雑音除去対象帯域である有効帯域A全体に占める割合、言わば突発音レートR(=(ΣB)/A)、を求め、その上で、この突発音レートRと予め定められた閾値δとを比較する。なお、有効帯域Aは、上述のサンプリング周波数Fsによって決まる。例えば、当該サンプリング周波数Fsが16kHzの場合、有効帯域Aの下限周波数fminは約16Hzであり、上限周波数fmaxは約8kHzである。また、この有効帯域Aとフレームのサンプル数(ポイントサイズ)とによって、周波数分解能である周波数ビンが決まる。
 ここで例えば、図5に示すように、突発音レートRが閾値δ以下(R≦δ)である場合、突発音検知部30は、現在のフレームが音声区間である、厳密には(真の音声が入力されていない無音区間である可能性もあるので)少なくとも突発音区間ではない、と判定する。そして、この判定結果を表す判定信号Dが、当該突発音検知部30からゲイン制御部32に送られる。
 ゲイン制御部32は、上述の如く現在のフレームが音声区間(または無音区間)であることを表す判定信号Dを突発音検知部30から受けると、これに応答して、例えば図6に示すように、有効帯域A全体(全ての周波数ビン)にわたって図1に示した増幅部18と同じ一定のゲインγで音声スペクトル|S(f)|を増幅するよう増幅部34のゲインγ(f)を制御し、厳密にはこの制御を指示するための制御信号Cを当該増幅部34に与える。これにより、この増幅部34による増幅処理後の音声スペクトル|S’(f)|(=γ(f)・|S(f)|)は、図2(c)に示したのと同様のγ・|S(f)|となる。この結果、出力音声信号s’(t)に従う再生音は、音声のみが強調され、定常的な雑音については抑えられたものとなる(なお、現在のフレームが無音区間である場合の再生音は、実質的に無音状態となる)。
 一方、図7に示すように、突発音レートRが閾値δを超える(R>δ)場合、突発音検知部30は、現在のフレームが突発音区間である、と判定する。そして、この判定結果を表す判定信号Dが、当該突発音検知部30からゲイン制御部32に送られる。
 ゲイン制御部32は、このような突発音区間であることを表す判定信号Dを受けると、これに応答して、増幅後音声スペクトルγ・|S(f)|のレベルが入力スペクトル|X(f)|のレベルを超える超過帯域Bにおいては、図8に示すように、増幅部34による増幅処理後の音声スペクトル|S’(f)|のレベルが入力スペクトル|X(f)|のレベルを上限として頭打ちとされるように、当該増幅部34のゲインγ(f)を周波数ビンごとに制御し、厳密にはこの制御を指示するための制御信号Cを当該増幅部34に与える。なお、増幅後音声スペクトルγ・|S(f)|のレベルが入力スペクトル|X(f)|のレベル以下(γ・|S(f)|≦|X(f)|)の帯域(有効帯域Aのうち超過帯域B以外の帯域)においては、増幅部34のゲインγ(f)は上述の一定ゲインγとされる。これにより、図3を参照しながら説明したのとは異なり、少なくとも突発音が増大して再生されることはなくなる。
 このように、本第1実施形態に係る雑音除去装置100によれば、音声区間においては、音声のみが強調され、定常的な雑音については抑えられ、つまりSS法による雑音除去効果が得られる。そして、突発音区間においては、少なくとも突発音が増大して再生されることはなく、つまり当該突発音に適切に対処できる。しかも、構成的には、図1に示した前提の雑音除去装置10に対して突発音検知部30およびゲイン制御部32が付加されると共に、増幅部34として周波ビンごとにゲインγ(f)の調整が可能なものが採用されるだけで、要するに一種の自動利得制御(Automatic Gain Control)回路が設けられるだけで、このような突発音への適切な対処が実現される。
 なお、閾値δは、状況に応じて、特に突発音検知部30において音声スペクトル|S(f)|に付されるゲインγに応じて、適宜に設定される。例えば、当該ゲインγが10dBである場合には、閾値δは、0.05(=5%)~0.1(=10%)の範囲で適宜に設定される。
 また、増幅部34は、周波ビンごとにゲインγ(f)の調整が可能なものである必要はなく、有効帯域A全体にわたって例えばεという一定のゲインで調整可能なものであってもよい。この場合、突発音区間においては、図9に示すように、当該増幅部34によって音声スペクトル|S(f)|が一定のゲインεで減衰されるようにしてもよい。この一定のゲインεとしては、少なくとも有効帯域A全体にわたって当該増幅部34による増幅後音声スペクトルε・|S(f)|のレベルが入力スペクトル|X(f)|のレベル以下となる値が設定され、例えば-3dB~-6dB程度が適当である。
 加えて、当該図9に示すような制御が成される場合、いわゆる周波数領域の増幅部34に代えて、例えば図10に示すような時間領域の増幅部40が採用されてもよい。この場合、スペクトル減算部16による減算後の音声スペクトル|S(f)|が、逆フーリエ変換部20によって時間領域の音声信号s(t)に変換される。そして、この時間領域の音声信号s(t)が、好ましくはアナログ信号に変換された上で、当該増幅部40によって増幅され、出力音声信号s’(t)とされる。なお、この場合の増幅器40は、時間領域態様のものであるので、ゲイン制御部42から当該増幅部40に与えられる制御信号C’もまた、それ相応の態様とされる。
 さらに、突発音検知部30は、上述した突発音レートRが閾値δを超えるかどうかによって、現在のフレームが突発音区間であるかどうかの判定を行うこととしたが、これに限らない。例えば、増幅後音声スペクトルγ・|S(f)|のレベルが入力スペクトル|X(f)|のレベルを超える超過帯域Bの数(つまり図5等に示した増幅後音声スペクトルγ・|S(f)|のピークの数)に基づいて、当該判定が行われるようにしてもよい。即ち、音声区間においては、当該超過帯域Bの数は複数であり、概ね2または3である。そして、無音区間においては、当該超過帯域Bの数はゼロである。一方、突発音区間においては、当該超過帯域Bの数は1であることが殆どである。このような超過帯域Bの性質に鑑み、当該超過帯域Bの数は1であるときに、突発音区間であるという判定が成され、そうでないときには、音声区間または無音区間(言わば非突発音区間)であるという判定が成されるようにしてもよい。
 併せて、突発音検知部30は、スペクトル減算部16による減算後の音声スペクトル|S(f)|に一定のゲインγが付された増幅後音声スペクトルγ・|S(f)|のレベルと入力スペクトル|X(f)|のレベルとを比較することによって、上述の超過帯域Bを含む突発音レートRを求め、ひいては突発音区間であるかどうかの判定を行うこととしたが、これに限らない。例えば、これとは逆の発想で、入力スペクトル|X(f)|に対して当該ゲインγの逆数1/γによる減衰処理が施され、この減衰処理後(言わばマイナスゲインが付された)のスペクトル{1/γ}・|X(f)|のレベルと音声スペクトル|S(f)|のレベルとの比較に基づいて、当該判定が行われるようにしてもよい。
 そしてさらに、突発音検知部30は、音声スペクトル|S(f)|のみに基づいて、例えば当該音声スペクトル|S(f)|のレベルと予め定められた閾値レベルとの比較に基づいて、判定を行ってもよい。さらに例えば、音声スペクトル|S(f)|ではなく、入力スペクトル|X(f)|に基づいて、当該判定が行われてもよい。
 加えて、雑音推定部14は、フレームごとに推定雑音スペクトル|N(f)|を求める構成であるが、これに限らない。例えば、事前に、若しくは適宜に、無音区間の入力スペクトル|X(f)|に基づいて、当該推定雑音スペクトル|N(f)|が求められてもよい。また、上述したのとは別のマイクロホンから得られる別の入力音声信号の周波数スペクトルに基づいて、当該推定雑音スペクトル|N(f)|が求められてもよい。
 そして、時間領域の入力音声信号x(t)を周波数領域の入力スペクトル|X(f)|に変換するための時間領域-周波数領域変換処理として、フーリエ変換部12によるフーリエ変換処理が採用されたが、これに限らない。例えば、一般に知られているウェーブレット変換処理等の他の変換処理が採用されてもよい。また、複数のバンドパスフィルタがアレイ状に並べられたフィルタバンクによって、当該時間領域-周波数領域変換処理が実現されてもよい。この場合、逆変換処理としての周波数領域-時間領域変換処理についても、逆フーリエ変換部20による逆フーリエ変換処理に代えて、当該時間領域-周波数領域変換処理に対応する適切な処理が採用されることが、肝要である。
 本第1実施形態に係る雑音除去装置100は、例えばCPU(Central
Processing Unit)によって、または、当該CPUとDSP(Digital Signal Processor)との組合せによって、実現される。そして、この雑音除去装置100の適用例としては、例えばインターカム等の双方向通信機器があるが、勿論、これ以外の機器にも適用可能である。
 ところで、本第1実施形態に係る雑音除去装置100によれば、突発音が存在しないときには、上述の如く良好な雑音除去効果が得られる。このことは、図11に示す入力音声信号x(t)および出力音声信号s’(t)それぞれの時間対振幅特性の比較からも明らかである。
 ところが、これら入力音声信号x(t)(厳密には入力スペクトル|X(f)|)および出力音声信号s’(t)(厳密には音声スペクトル|S(f)|または|S’(f)|)それぞれの時間対周波数特性を観察すると、図12のようになり、特に同図(b)に示すように、出力音声信号s’(t)の時間対周波数特性には、概略胡麻塩状の孤立したノイズが見受けられる。このノイズは、上述したようにSS法特有のMNであり、主にスペクトル減算部16による入力スペクトル|X(f)|からの推定雑音スペクトル|N(f)|の減算不足が原因となって生じる。そして、このMNは、再生音の品質低下を招く。
 そこで、本発明の第2実施形態においては、上述の第1実施形態に係る雑音除去装置100に対して、特に図4に示した構成に対して、当該MNを除去する機能を付加した雑音除去装置200を提案する。
 即ち、本第2実施形態に係る雑音除去装置200は、図13に示すように、当該MNの除去機能を担うMN除去部50を備えたものである。このMN除去部50は、スペクトル減算部16の出力側と、突発音検知部30および増幅部34それぞれの入力側と、の間に設けられている。さらに、当該MN除去部50は、図14に示すように、周波数軸方向処理部52と時間軸方向処理部54とから成り、このうちの周波数軸方向処理部52に、スペクトル減算部16による減算後の音声スペクトル|S(f)|が入力される。
 周波数軸方向処理部52は、図15に示すようなマップ52aを有している。このマップ52aは、上述の図12に倣って音声スペクトル|S(f)|の時間対周波数特性を模擬したものであり、つまり当該マップ52aの横軸は時間t軸であり、縦軸は周波数f軸である。また、このマップ52aの横軸である時間t軸の1目盛りは、言い換えれば当該マップ52aを構成する小区分領域としてのマス目の時間t軸に沿う一辺は、1フレームに対応する。そして、マップ52aの縦軸である周波数f軸の1目盛りは、言い換えれば当該マス目の周波数f軸に沿う一辺は、1周波数ビンに対応する。
 周波数軸方向処理部52は、このマップ52aを用いて、音声スペクトル|S(f)|のレベルを高低2つの階調に2値化する。具体的には、入力スペクトル|X(f)|のレベルにηという所定の係数が乗ぜられた閾値η・|X(f)|が設けられる。この閾値η・|X(f)|は、周波数f(周波数ビン)ごとおよび時間t(フレームi)ごとに設定され、つまりマス目ごとに設定される。そして、周波数軸方向処理部52は、当該マス目ごとに音声スペクトル|S(f)|のレベルと閾値η・|X(f)|とを比較して、音声スペクトル|S(f)|のレベルが閾値η・|X(f)|を超える(|S(f)|>η・|X(f)|)言わば高階調のマス目については、何らかの信号成分が存在するものと判定して、所定の(図15において黒色塗りつぶしで示す)マークを付する。一方、音声スペクトル|S(f)|のレベルが閾値η・|X(f)|以下(|S(f)|≦η・|X(f)|)の言わば低階調のマス目については、何らの信号成分もないものと判定して、別の(図15においては白色塗りつぶしで示す)マークを付する。なお、ここで言う閾値ηは、0よりも大きくかつ1よりも小さい(0<η<1)範囲で適宜に設定され、例えば0.7~0.5程度とされる。
 このようにして音声スペクトル|S(f)|のレベルを2値化した後、好ましくは1フレーム分2値化するたびに、周波数軸方向処理部52は、当該1フレーム分のマス目を、周波数f軸に沿って、かつ、当該周波数fが小さい値から大きい値に向かう方向に、順番に注目する。ここで例えば、図16(a)に示すように、何らかの信号成分が存在するものと判定された(黒色塗りつぶしの)マス目が予め定められたp(p:複数)個以上連続する場合、これら連続するマス目に対応する信号成分は真の音声成分である、と見なす。そして、この真の音声成分であると見なされたマス目に対応する信号成分については、そのまま残す。一方、図16(b)に示すように、何らかの信号成分が存在するものと判定された(黒色塗りつぶしの)マス目がp個以上連続しない場合には、この連続しないマス目に対応する信号成分はMN成分である、と見なす。そして、このMN成分であると見なされたマス目に対応する信号成分については、除去する。このとき、当該MN成分であると見なされたマス目に対応する信号成分を、完全に除去しても(0としても)よいし、上述したスペクトル減算アルゴリズムにおけるフロアリング処理と同様、入力スペクトル|X(f)|に適当な係数、例えばフロアリング係数α、が乗ぜられた言わば最小保証レベルα・|X(f)|に置き換えてもよい。
 なお、ここで言うpが例えばp=2である場合、図17に斜線模様で修飾して示すように、周波数f軸方向に沿って2個以上連続しない(つまり1個だけ独立した)マス目に対応する信号成分が、除去される。この結果、図18に示すマップ52aの態様に倣って、音声スペクトル|S(f)|からMN成分(と見なされた成分)が除去される。そして、このMN成分が除去された後のスペクトル、つまり周波数軸方向処理部52による処理後のスペクトル|Sd(f)|は、時間軸方向処理部54に入力される。
 時間軸方向処理部54もまた、周波数軸方向処理部52と同様、図19に示すようなマップ54aを有している。そして、時間軸方向処理部54は、このマップ54aを用いて、上述の周波数軸方向処理部52による処理後スペクトル|Sd(f)|のレベルを改めて高低2つの階調に第2値化する。具体的には、入力スペクトル|X(f)|のレベルに上述の周波数軸方向処理部52におけるのとは異なるθという係数が乗ぜられた閾値θ・|X(f)|が設けられる。なお、この時間軸方向処理部54における係数θは、周波数軸方向処理部52における係数ηよりも小さい値であり、例えば0.1~0.3程度である。言い換えれば、この時間軸方向処理部54における閾値θ・|X(f)|は、周波数軸方向処理部52における閾値η・|X(f)|よりも小さい。そして、時間軸方向処理部54は、それぞれのマス目ごとに上述の周波数軸方向処理部52による処理後スペクトル|Sd(f)|のレベルと閾値θ・|X(f)|とを比較して、当該周波数軸方向処理部52による処理後スペクトル|Sd(f)|のレベルが閾値θ・|X(f)|を超える(|Sd(f)|>θ・|X(f)|)高階調のマス目については、何らかの信号成分が存在するものと判定して、所定の(図19において黒色塗りつぶしで示す)マークを付する。一方、周波数軸方向処理部52による処理後スペクトル|Sd(f)|のレベルが閾値θ|X(f)|以下(|Ss(f)|≦θ・|X(f)|)の低階調のマス目については、何らの信号成分もないものと判定して、別の(図19においては白色塗りつぶしで示す)マークを付する。
 このようにして周波数軸方向処理部52による処理後スペクトル|Sd(f)|のレベルを2値化した後、好ましくは1フレーム分2値化するたびに、時間軸方向処理部54は、それぞれの周波数f(周波数ビン)ごとに、現在のフレームのマス目と、その直前のフレームのマス目と、を比較する。ここで例えば、図20(a)に示すように、現在のフレームのマス目が何らかの信号成分の存在を表しており(黒色で塗りつぶされており)、かつ、その直前のフレームのマス目が何らかの信号成分の不存在を表す(白色で塗りつぶされている)場合、時間軸方向処理部54は、現在のフレームのマス目に対応する信号成分はMN成分である、と見なす。そして、このMN成分であると見なされたマス目に対応する信号成分については、除去する。このときも、周波数軸方向処理部52による処理と同様、当該MN成分であると見なされたマス目に対応する信号成分を、完全に除去してもよいし、入力スペクトル|X(f)|に適当な係数、例えばフロアリング係数α、が乗ぜられた最小保証レベルα・|X(f)|に置き換えてもよい。一方、図20(b)に示すように、現在のフレームのマス目が何らかの信号成分の存在を表しており(黒色で塗りつぶされており)、かつ、その直前のフレームのマス目もまた何らかの信号成分の存在を表す(黒色で塗りつぶされている)場合、時間軸方向処理部54は、現在のフレームのマス目に対応する信号成分は真の音声成分である、と見なす。そして、この真の音声成分であると見なされたマス目に対応する信号成分については、そのまま残す。
 この結果、図21に斜線模様で修飾して示すように、時間t軸方向に沿って2個以上連続しない(つまり1個だけ独立した)マス目に対応する信号成分と、2個以上連続するマス目のうち最も古い(図21において左側に位置する)フレームのマス目に対応する信号成分とが、除去される。これにより、図22に示すマップ54aの態様に倣って、周波数軸方向処理部52による処理後スペクトル|Sd(f)|からMN成分(と見なされた成分)がさらに除去される。そして、このMN成分のさらなる除去処理後のスペクトル、つまり時間軸方向処理部54による処理後スペクトル|S”(f)|が、MN除去部50の出力として、突発音検知部30および増幅部34のそれぞれに入力される。
 このように、本第2実施形態に係る雑音除去装置200によれば、MN除去機能が付加されることによって、最終的に当該MNが除去された出力音声信号s”(t)が得られる。このことは、上述の第1実施形態で説明したSS法による雑音除去効果と相俟って、当該出力音声信号s”(t)の高品質化に大きく貢献する。
 なお、本第2実施形態においては、MN除去機能を担うMN除去部50が、スペクトル減算部16の出力側と、突発音検知部30および増幅部34それぞれの入力側と、の間に設けられたが、これに限らない。例えば、増幅部34の出力側と、逆フーリエ変換部20の入力側と、の間に当該MN除去部50が設けられてもよい。また、極端には、MN除去部50を構成する周波数軸方向処理部52および時間軸方向処理部54の一方が、スペクトル減算部16の出力側と、突発音検知部30および増幅部34それぞれの入力側と、の間に設けられ、当該周波数軸方向処理部52および時間軸方向処理部54の他方が、増幅部34の出力側と、逆フーリエ変換部20の入力側と、の間に設けられてもよい。加えて、当該周波数軸方向処理部52および時間軸方向処理部54が設けられる順番は、逆でもよい。この場合、説明するまでもなく、時間軸方向処理部54に対して音声スペクトル|S(f)|が入力され、この時間軸方向処理部54による処理後のスペクトルが周波数軸方向処理部52に入力される。
 さらに、図10に示した構成に、MN除去部50が付加されてもよい。この場合、当該MN除去部50は、スペクトル減算部16の出力側と、突発音検知部30および逆フーリエ変換部20それぞれの入力側と、の間に設けられる。
 そして、周波数軸方向処理部52および時間軸方向処理部54の両方が設けられなくとも、いずれか片方のみによっても、比較的に良好なMN除去効果が得られる。この場合、周波数軸方向処理部52のみが設けられるのが、時間軸方向処理部54のみが設けられるよりも好ましい。即ち、時間軸方向処理部54によれば、上述の説明から分かるように、何らの信号成分も存在しないと見なされた直後に(次のフレームで)何らかの信号成分が存在すると見なされた周波数ビンについて、当該信号成分が消去されることから、いわゆる頭切れが生じる。これに対して、周波数軸方向処理部52は、時間軸方向処理部54のような頭切れを生じない。また、当該周波数軸方向処理部52のみによって、比較的に良好なMN除去効果が得られることが、実験で確認された。従って、時間軸方向処理部54のみが設けられるよりも、周波数軸方向処理部52のみが設けられる方が、適当である。
 なお、周波数軸方向処理部52における上述の係数ηに比べて、時間軸方向処理部54における係数θが小さいのは、つまり周波数軸方向処理部52における閾値η・|X(f)|に比べて、時間軸方向処理部54における閾値θ・|X(f)|が小さいのは、当該時間軸方向処理部54による再生音への影響を軽減するためである。即ち、時間軸方向処理部54における閾値θ・|X(f)|が大きいと、その分、何らかの信号成分が存在すると見なされるマス目が少なくなる。すると、真の音声成分が存在すると見なされたマス目が、MN成分の存在を表すマス目であると言わば誤判定される可能性が高くなり、再生音への影響が相応に大きくなる。このような影響を軽減するために、時間軸方向処理部54における閾値θ・|X(f)|は小さめとされている。
 12 フーリエ変換部
 14 雑音推定部
 16 スペクトル減算部
 20 フーリエ変換部
 30 突発音検知部
 32 増幅部

Claims (11)

  1.  入力音声信号に含まれる雑音成分の周波数スペクトルを推定する雑音スペクトル推定手段と、
     上記雑音スペクトル推定手段によって推定された推定雑音スペクトルを上記入力音声信号の周波数スペクトルである入力スペクトルから減算するスペクトル減算手段と、
     上記スペクトル減算手段による減算後スペクトルまたは該減算後スペクトルに基づく時間領域信号である減算後信号を増幅する増幅手段と、
     上記雑音成分として急激に変動する急変動成分が含まれているかどうかを判定する判定手段と、
     上記判定手段による判定結果が上記雑音成分として上記急変動成分が含まれていることを表すとき上記増幅手段による増幅度合を抑制する抑制手段と、
    を具備する、雑音除去装置。
  2.  上記抑制手段は、上記減算後スペクトルの上記増幅手段による増幅後レベルが上記入力スペクトルのレベル以下となるように、または、上記減算後信号の上記増幅手段による増幅後レベルが上記入力信号のレベル以下となるように、上記増幅度合を抑制する、
    請求項1に記載の雑音除去装置。
  3.  上記判定手段は、上記入力スペクトルと上記減算後スペクトルとの比較に基づいて判定を行う、
    請求項1または2に記載の雑音除去装置。
  4.  上記判定手段は、上記増幅手段による上記増幅度合が上記抑制手段によって抑制されていない非抑制時にあるときの該増幅度合に相当する度合で上記減算後スペクトルに増幅処理を施すと共に該増幅処理が施された後の増幅処理後スペクトルのレベルと上記入力スペクトルのレベルとの比較に基づいて判定を行う、
    請求項3に記載の雑音除去装置。
  5.  上記判定手段は、予め定められた有効帯域のうち上記増幅処理後スペクトルのレベルが上記入力スペクトルのレベルを超える超過帯域が占める割合に基づいて判定を行う、
    請求項4に記載の雑音除去装置。
  6.  上記判定手段は、予め定められた有効帯域において上記増幅処理後スペクトルのレベルが上記入力スペクトルのレベルを超える超過帯域の数に基づいて判定を行う、
    請求項4に記載の雑音除去装置。
  7.  上記判定手段は、上記増幅手段による上記増幅度合が上記抑制手段によって抑制されていない非抑制時にあるときの該増幅度合の逆数に相当する度合で上記入力スペクトルに減衰処理を施すと共に該減衰処理が施された後の減衰処理後スペクトルのレベルと上記減算後スペクトルのレベルとの比較に基づいて判定を行う、
    請求項3に記載の雑音除去装置。
  8.  上記判定手段は、予め定められた有効帯域のうち上記減算後スペクトルのレベルが上記減衰処理後スペクトルのレベルを超える超過帯域が占める割合に基づいて判定を行う、
    請求項7に記載の雑音除去装置。
  9.  上記判定手段は、予め定められた有効帯域において上記減算後スペクトルのレベルが上記減衰処理後スペクトルのレベルを超える超過帯域の数に基づいて判定を行う、
    請求項7に記載の雑音除去装置。
  10.  細分化された複数の周波数帯域別に上記減算後スペクトルのレベルを高低2つの階調に2値化すると共に、少なくとも高階調の該レベルを持つ該周波数帯域である高階調帯域のうち該複数の周波数帯域の並び方向に沿って所定数以上連続しない非連続帯域については低階調の該レベルを持つ該周波数帯域である低階調帯域と見なして該低階調帯域と同等の態様とする、周波数方向処理手段をさらに備える、
    請求項1ないし9のいずれかに記載の雑音除去装置。
  11.  細分化された複数の周波数帯域別に上記減算後スペクトルのレベルを高低2つの階調に2値化すると共に、少なくとも高階調の該レベルを持つ該周波数帯域である高階調帯域のうち低階調の該レベルを持つ該周波数帯域である低階調帯域から該高階調帯域に遷移した直後の急変帯域については該低階調帯域と見なして該低階調帯域と同等の態様とする、時間方向処理手段をさらに備える、
    請求項1ないし9のいずれかに記載の雑音除去装置。
PCT/JP2012/070908 2012-08-17 2012-08-17 雑音除去装置 WO2014027419A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/070908 WO2014027419A1 (ja) 2012-08-17 2012-08-17 雑音除去装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/070908 WO2014027419A1 (ja) 2012-08-17 2012-08-17 雑音除去装置

Publications (1)

Publication Number Publication Date
WO2014027419A1 true WO2014027419A1 (ja) 2014-02-20

Family

ID=50685482

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/070908 WO2014027419A1 (ja) 2012-08-17 2012-08-17 雑音除去装置

Country Status (1)

Country Link
WO (1) WO2014027419A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置
CN109841208A (zh) * 2017-11-29 2019-06-04 宁波方太厨具有限公司 一种应用于吸油烟机中的语音增强方法
US11881200B2 (en) 2019-09-05 2024-01-23 Nec Corporation Mask generation device, mask generation method, and recording medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1098346A (ja) * 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 自動利得調整装置
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
WO2011077636A1 (ja) * 2009-12-25 2011-06-30 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2012113190A (ja) * 2010-11-26 2012-06-14 Nara Institute Of Science & Technology 音響処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1098346A (ja) * 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 自動利得調整装置
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
WO2011077636A1 (ja) * 2009-12-25 2011-06-30 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2012113190A (ja) * 2010-11-26 2012-06-14 Nara Institute Of Science & Technology 音響処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置
CN109841208A (zh) * 2017-11-29 2019-06-04 宁波方太厨具有限公司 一种应用于吸油烟机中的语音增强方法
US11881200B2 (en) 2019-09-05 2024-01-23 Nec Corporation Mask generation device, mask generation method, and recording medium

Similar Documents

Publication Publication Date Title
KR100860805B1 (ko) 음성 강화 시스템
JP5265056B2 (ja) 雑音抑圧装置
CN111583949A (zh) 啸叫抑制的方法、装置和设备
JP5898534B2 (ja) 音響信号処理装置および音響信号処理方法
US9380386B2 (en) Distortion sound correction complement device and distortion sound correction complement method
JP5453740B2 (ja) 音声強調装置
KR101624652B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
US8391471B2 (en) Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium
US9319015B2 (en) Audio processing apparatus and method
WO2013118192A1 (ja) 雑音抑圧装置
US9414157B2 (en) Method and device for reducing voice reverberation based on double microphones
US20130301841A1 (en) Audio processing device, audio processing method and program
WO2014027419A1 (ja) 雑音除去装置
JP2004341339A (ja) 雑音抑圧装置
CN110136734B (zh) 使用非线性增益平滑以降低音乐伪声的方法和音频噪声抑制器
JP5985306B2 (ja) 雑音低減装置および雑音低減方法
WO2020203258A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2020197651A (ja) ミキシング処理装置及びミキシング処理方法
EP1211671A2 (en) Automatic gain control with noise suppression
JP5036283B2 (ja) オートゲインコントロール装置、音響信号記録装置、映像・音響信号記録装置および通話装置
JP5056654B2 (ja) 雑音抑制装置、及び雑音抑制方法
JP2010217551A (ja) 音処理装置およびプログラム
JPH05137191A (ja) ハウリング抑制装置
KR101607902B1 (ko) 복합 하울링 제거 장치
CN115240700A (zh) 一种声学设备及其声音处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12891402

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12891402

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP