WO2018221206A1 - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム - Google Patents

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム Download PDF

Info

Publication number
WO2018221206A1
WO2018221206A1 PCT/JP2018/018774 JP2018018774W WO2018221206A1 WO 2018221206 A1 WO2018221206 A1 WO 2018221206A1 JP 2018018774 W JP2018018774 W JP 2018018774W WO 2018221206 A1 WO2018221206 A1 WO 2018221206A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
spectrum
echo
value
input
Prior art date
Application number
PCT/JP2018/018774
Other languages
English (en)
French (fr)
Inventor
祐樹 里見
Original Assignee
株式会社トランストロン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社トランストロン filed Critical 株式会社トランストロン
Priority to EP18810819.5A priority Critical patent/EP3633865B1/en
Priority to RU2019138975A priority patent/RU2732362C1/ru
Priority to US16/605,252 priority patent/US11039245B2/en
Publication of WO2018221206A1 publication Critical patent/WO2018221206A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/231Echo cancellers using readout of a memory to provide the echo replica
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/234Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/238Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using initial training sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present invention relates to an echo suppression device, an echo suppression method, and an echo suppression program.
  • Patent Document 1 a double talk state in which a signal is simultaneously transmitted to a reception side signal path for transmitting a reception signal from a call terminal and a transmission side signal path for transmitting a transmission signal to the call terminal is detected.
  • a speech signal processing device is disclosed that calculates an attenuation amount of an echo suppressor based on a detection result of a detection unit and signal levels of a reception side signal path and a transmission side signal path.
  • the call signal processing apparatus described in Patent Document 1 has a problem that it is difficult to determine whether or not the transmission signal is included in the residual echo when the signal level on the transmission side is low. Therefore, in the call signal processing device described in Patent Document 1, the double talk state cannot be detected accurately, and the echo may not be appropriately suppressed using the echo suppressor.
  • the present invention has been made in view of such circumstances.
  • An echo suppressor, an echo suppression method, and an echo suppression program capable of accurately detecting a double talk state and appropriately suppressing an echo based on the detection result are provided.
  • the purpose is to provide.
  • an echo suppression apparatus is an echo provided in a transmission signal path for transmitting a signal input from the microphone of a near-end terminal having a speaker and a microphone, for example.
  • a frequency mask storage unit that stores a frequency mask generated based on the input signal, a first spectrum calculation unit that calculates an input signal spectrum that is a power spectrum or an amplitude spectrum of an input signal input from the microphone, and the input Result of comparing signal spectrum value and frequency mask value for each frequency band
  • a double talk detector for detecting whether or not a double talk state in which a signal is simultaneously transmitted to the transmitter signal path and the receiver signal path for transmitting a signal to the speaker, and the double talk detector To suppress echo on the input signal when it is detected that no signal is transmitted through the transmitter signal path and that a signal is transmitted through the receiver signal path.
  • an echo suppressor for performing.
  • the echo suppression device of the present invention when a sound is output from the speaker and only the output sound is input to the microphone, the power spectrum or amplitude of the learning signal transmitted through the transmission side signal path
  • the frequency mask generated based on the spectrum and the value of the power spectrum or amplitude spectrum of the input signal input from the microphone are compared for each frequency band, and it is detected whether or not a double talk state is present.
  • the echo suppression apparatus of the present invention when it is detected that no signal is transmitted through the transmission side signal path and the signal is transmitted through the reception side signal path, the echo suppressor is used. Is used to suppress echo on the input signal. Thereby, an echo can be suppressed appropriately without deteriorating the near-end voice.
  • an echo removing unit that removes residual echo is provided, and the frequency mask is generated based on a power spectrum or an amplitude spectrum of the learning signal from which the residual echo has been removed by the echo removing unit,
  • the one spectrum calculation unit may calculate a power spectrum or an amplitude spectrum for the input signal from which the residual echo is removed by the echo removal unit as the input signal spectrum.
  • the first spectrum calculation unit calculates a power spectrum or an amplitude spectrum for the learning signal for each predetermined section to obtain a plurality of learning spectra
  • the frequency mask storage unit stores the frequency spectrum for each frequency band.
  • the maximum value among the plurality of learning spectrum values may be acquired and used as the frequency mask. Thereby, the frequency characteristic of the residual echo can be stored accurately.
  • the double talk detector compares the signal level of the reference signal transmitted through the receiver signal path with a second threshold, and the frequency band in which the value of the input signal spectrum exceeds the value of the frequency mask When the excess number is less than or equal to a first threshold value and the signal level of the reference signal is greater than or equal to the second threshold value, a signal is transmitted through the transmitter signal path. In addition, it may be detected that a signal is transmitted through the receiver signal path. Thereby, the double talk state can be detected accurately.
  • the double talk detector compares the signal level of the reference signal transmitted through the receiver signal path with a second threshold value, and the frequency of the input signal spectrum does not exceed the value of the frequency mask.
  • the signal level of the reference signal is equal to or higher than the second threshold with respect to the band, no signal is transmitted through the transmitter signal path, and a signal is transmitted through the receiver signal path. You may detect that. Thereby, the double talk state can be accurately detected for each frequency band, and the echo suppression process can be made effective for each frequency band.
  • a second spectrum calculation unit that calculates a reference signal spectrum that is a power spectrum or an amplitude spectrum of a reference signal transmitted through the receiver signal path
  • the double talk detection unit includes a value of the reference signal spectrum and Compared with a third threshold value, an excess number that is the number of frequency bands in which the value of the input signal spectrum exceeds the value of the frequency mask is counted, the excess number is equal to or less than the first threshold value, and the reference signal spectrum
  • a second spectrum calculation unit that calculates a reference signal spectrum that is a power spectrum or an amplitude spectrum of a reference signal transmitted through the receiver signal path
  • the double talk detection unit includes a value of the reference signal spectrum and For the frequency band in which the value of the input signal spectrum is lower than the value of the frequency mask and the value of the input signal spectrum is not higher than the value of the frequency mask, It may be detected that a signal is not transmitted through the path and a signal is transmitted through the receiver signal path. Thereby, the double talk state can be accurately detected for each frequency band, and the echo suppression process can be made effective for each frequency band.
  • the echo suppression method for example, when sound is output from the speaker of the near-end terminal, and only the output sound is input to the microphone of the near-end terminal, Generating a frequency mask based on a power spectrum or an amplitude spectrum for a learning signal transmitted through a transmission side signal path for transmitting a signal input from the microphone, and storing the generated frequency mask; Calculating an input signal spectrum which is a power spectrum or an amplitude spectrum of an input signal input from the microphone, and calculating the calculated input signal spectrum value and the stored frequency mask value for each frequency band; Compared to the transmitter side signal path for transmitting the signal input from the microphone and the front Detecting whether or not a double-talk state in which a signal is simultaneously transmitted to a receiver-side signal path for transmitting a signal to a speaker; and no signal is transmitted through the transmitter-side signal path; and Performing echo suppression processing for suppressing echo on the input signal when it is detected that a signal is transmitted through the side signal path.
  • an echo suppression program is provided, for example, by an echo provided in a transmission-side signal path for transmitting a signal input from the microphone of a near-end terminal having a speaker and a microphone.
  • a power spectrum for a learning signal transmitted through the transmitter signal path when a sound is output from the speaker and only the output sound is input to the microphone.
  • a frequency mask storage unit that stores a frequency mask generated based on an amplitude spectrum, and a first spectrum calculation unit that calculates an input signal spectrum that is a power spectrum or an amplitude spectrum for an input signal input from the microphone; , The value of the input signal spectrum and the value of the frequency mask Double-talk detection that detects whether or not a double-talk state in which a signal is simultaneously transmitted to the transmitting-side signal path and the receiving-side signal path that transmits a signal to the speaker, based on a comparison result for each frequency band And the double-talk detection unit detect that the signal is not transmitted through the transmission-side signal path and the signal is transmitted through the reception-side signal path. It is made to function as an echo suppressor that performs processing for suppressing echo.
  • the present invention it is possible to accurately detect the double talk state and appropriately suppress the echo based on the detection result.
  • FIG. 1 is a block diagram showing a schematic configuration of an echo suppression device 1.
  • FIG. It is a figure which shows the flow of a signal when producing
  • FIG. 5 is an example of a frequency mask when a plurality of learning spectra including the learning spectrum shown in FIG. 4 are input. It is a figure which shows typically a mode that the value of an input signal spectrum is compared with the value of a frequency mask. It is a figure which shows typically a mode that the value of an input signal spectrum is compared with the value of a frequency mask.
  • FIG. 2 is a block diagram showing a schematic configuration of an echo suppression device 2.
  • FIG. 2 is a block diagram showing a schematic configuration of an echo suppression device 3.
  • FIG. It is a figure which shows typically a mode that the value of an input signal spectrum and the value of a frequency mask are compared when the signal level of a reference signal is more than threshold value II.
  • 2 is a block diagram showing a schematic configuration of an echo suppression device 4.
  • FIG. It is a figure which shows typically a mode that the value of an input signal spectrum is compared with the value of a frequency mask, and a reference signal spectrum and the threshold value III are compared.
  • 2 is a block diagram showing a schematic configuration of an echo suppression device 5.
  • FIG. It is a figure which shows typically a mode that the value of an input signal spectrum is compared with the value of a frequency mask, and a reference signal spectrum and the threshold value III are compared.
  • the echo suppression device is a device that suppresses an echo generated during a call in a voice communication system.
  • FIG. 1 is a diagram schematically showing an audio communication system 100 provided with an echo suppression apparatus 1 according to the first embodiment.
  • the voice communication system 100 mainly includes a terminal 50 having a microphone 51 and a speaker 52, two mobile phones 53 and 54, a speaker amplifier 55, and an echo suppression device 1.
  • a user who uses the terminal 50 uses a mobile phone 54 (far-end terminal) which is on the far-end side.
  • This is a system for performing voice communication with the person B).
  • a voice signal input via the mobile phone 54 is amplified by the speaker 52, and a voice uttered by the user at the near end is collected by the microphone 51 and transmitted to the mobile phone 54.
  • A can make a voice call (hands-free call) without holding the mobile phone 53.
  • the cellular phone 53 and the cellular phone 54 are connected by a general telephone line.
  • the echo suppression device 1 is provided in a transmission side signal path for transmitting a signal input via the microphone 51 from the terminal 50 to the mobile phone 53.
  • the echo suppression device 1 may be constructed as a dedicated board mounted on, for example, a communication terminal or the like (for example, an in-vehicle device, a conference system, or a mobile terminal) in the voice communication system 100. Further, the echo suppression device 1 may be configured by computer hardware and software (echo suppression program), for example.
  • the echo suppression program may be stored in advance in an HDD as a storage medium built in a device such as a computer or a ROM in a microcomputer having a CPU, and then installed in the computer.
  • the echo suppression program may be stored (stored) temporarily or permanently in a removable storage medium such as a semiconductor memory, memory card, optical disk, magneto-optical disk, or magnetic disk.
  • FIG. 2 is a block diagram showing a schematic configuration of the echo suppression device 1.
  • the echo suppression apparatus 1 mainly includes an echo removal unit 11, a frequency analyzer (FFT unit) 12, a frequency mask storage unit 13, a double talk detection unit 14, an echo suppressor 15, and a restoration unit (IFFT unit) 16. And having.
  • the upper signal path is a transmitting signal path that transmits an input signal input from the microphone 51
  • the lower signal path is a receiving signal path that transmits a signal to the speaker 52.
  • the echo removing unit 11 removes residual echo using, for example, an adaptive filter.
  • the echo removing unit 11 updates the filter coefficient according to a given procedure, generates a pseudo echo signal from the signal transmitted through the reception side signal path, and generates a pseudo echo signal from the signal transmitted through the transmission side signal path. By subtracting, residual echo is removed.
  • the adaptive filter is already known and will not be described.
  • the adaptive filter is applied to the echo removing unit 11, but other known echo removing techniques can also be applied to the echo removing unit 11.
  • the frequency analyzer (FFT unit) 12 performs a fast Fourier transform (FFT, Fast Fourier Transform) on a signal transmitted through the transmission side signal path.
  • the FFT unit 12 processes the signal that has passed through the echo removal unit 11.
  • the FFT unit 12 divides power, which is average energy per unit time, for each frequency band, and calculates a power spectrum that represents the power for each frequency band as a function of frequency.
  • the power spectrum is a graph of the power of the time signal x (t) obtained by performing FFT analysis for each frequency band (frequency resolution ⁇ f), with the horizontal axis representing the frequency.
  • the power is the square of the amplitude, and is expressed by Equation (1).
  • an amplitude spectrum with the amplitude taking the square root of power as the vertical axis and the frequency as the horizontal axis can be used.
  • the FFT unit 12 calculates a power spectrum for the input signal (hereinafter referred to as an input signal spectrum) every unit time. Further, the power spectrum of the learning signal (detailed later) is calculated.
  • the FFT unit 12 performs frequency analysis using fast Fourier transform.
  • frequency analysis is performed using discrete Fourier transform (DFT, Discrete Fourier Transform). Can do.
  • DFT discrete Fourier transform
  • the frequency mask storage unit 13 generates a frequency mask based on the power spectrum for the learning signal calculated by the FFT unit 12, and stores the generated frequency mask. Hereinafter, the generation of the frequency mask will be described in detail.
  • the frequency mask is generated in advance before the echo suppression apparatus 1 performs the process of suppressing the echo.
  • FIG. 3 is a diagram illustrating a signal flow when the echo suppression apparatus 1 generates a frequency mask.
  • a part where a signal is transmitted when generating a frequency mask is indicated by a solid line, and the other part is indicated by a dotted line.
  • a sound is output from the speaker 52, and only the sound output from the speaker 52 is input to the microphone 51.
  • Repeat A signal transmitted through the transmission side signal path during single talk is used as a learning signal.
  • the signal from which the residual echo is removed by the echo removing unit 11 is the learning signal.
  • the learning signal is input to the FFT unit 12.
  • the FFT unit 12 calculates a power spectrum for the learning signal for each predetermined section to obtain a plurality of learning spectra.
  • the fixed section is a predetermined time region that is arbitrarily determined, and is indicated by times t1, t2, t3,.
  • FIG. 4 is an example of a learning spectrum at time t1.
  • the value on the vertical axis in the power spectrum is referred to as the value of the power spectrum.
  • a plurality of learning spectra calculated for each predetermined section are input to the frequency mask storage unit 13.
  • the frequency mask storage unit 13 stores a plurality of input learning spectra.
  • the frequency mask storage unit 13 acquires the maximum value among the plurality of input learning spectrum values for each frequency band, and uses this as a frequency mask.
  • FIG. 5 is an example of a frequency mask when a plurality of learning spectra including the learning spectrum shown in FIG. 4 are input.
  • storage part 13 memorize
  • the double talk detection unit 14 compares the value of the input signal spectrum input from the FFT unit 12 with the value of the frequency mask stored in the frequency mask storage unit 13 for each frequency band. Then, based on the comparison result, the double talk detection unit 14 detects whether or not a double talk state in which signals are simultaneously transmitted to the transmission side signal path and the reception side signal path. The double talk detecting unit 14 performs a process of detecting whether or not the double talk state is present for each unit time in which the input signal spectrum is calculated.
  • the double talk detection unit 14 compares the value of the input signal spectrum with the value of the frequency mask for each frequency band, and the number of frequency bands in which the value of the input signal spectrum exceeds the value of the frequency mask (hereinafter, excess). Count). The double talk detector 14 determines whether the excess number is equal to or less than a threshold I (corresponding to the first threshold) prepared in advance.
  • the threshold value I can be set to an arbitrary value.
  • the double talk detection unit 14 acquires a reference signal transmitted from the mobile phone 53 to the terminal 50 and obtains the signal level.
  • the reference signal is acquired from the receiver signal path.
  • the double talk detector 14 compares the signal level of the reference signal with a threshold value II (corresponding to the second threshold value) prepared in advance.
  • the threshold value II can be set to an arbitrary value.
  • FIGS. 6 and 7 are diagrams schematically showing how the value of the input signal spectrum is compared with the value of the frequency mask, respectively. 6 and 7, a solid line indicates an input signal spectrum, and a broken line indicates a frequency mask.
  • the double-talk detection unit 14 receives sound from the microphone 51, and the signal is transmitted through the transmission-side signal path. Detects transmission (near-end utterance).
  • the double talk detection unit 14 since the excess number is equal to or less than the threshold value I, the double talk detection unit 14 does not receive sound from the microphone 51 and does not transmit a signal on the transmission side signal path (near end). ).
  • the double talk detecting unit 14 transmits the signal through the transmission side signal path. It is detected that the signal is transmitted through the signal path on the receiver side (with far-end utterance) and is not in a double talk state.
  • the echo suppressor 15 performs echo suppression processing (processing for strongly suppressing echoes) on the input signal that has passed through the FFT unit 12.
  • the echo suppressor 15 is a single talk of only the far-end utterance.
  • the echo suppressor 15 is enabled, and in other cases, the echo suppressor is disabled. Since the echo suppression process is already known, a detailed description thereof will be omitted.
  • the result of detecting whether or not a double talk state is detected is input from the double talk detector 14 to the echo suppressor 15 every unit time. Therefore, the echo suppressor 15 switches whether the echo suppression process is enabled or disabled every unit time.
  • the restoration unit (IFFT unit) 16 performs an inverse fast Fourier transform (IFFT, Inverse FFT) on the input signal that has passed through the FFT unit 12.
  • IFFT inverse fast Fourier transform
  • IDFT inverse discrete Fourier transform
  • IFT Inverse Discrete Fourier Transform
  • the frequency characteristics of the residual echo are stored as a frequency mask, and the input signal
  • the double-talk state is accurately detected by comparing the frequency characteristics of the signal and the frequency mask, and the echo suppression processing is enabled when the double-talk state is not established, thereby degrading the near-end sound (the sound input from the microphone 51).
  • the echo can be suppressed without fail.
  • the FFT unit 12 generates a frequency mask using the learning signal from which the residual echo has been removed by the echo removing unit 11, so that even when the input signal is small, the double talk can be accurately performed.
  • the state can be detected.
  • the echo removing unit 11 removes the residual echo and does not act on the input signal. Therefore, by generating a frequency mask using the learning signal from which the residual echo has been removed by the echo removing unit 11, the frequency mask is generated. The value of becomes smaller. Therefore, even when the input signal is small, the value of the input signal spectrum easily exceeds the value of the frequency mask, and the double-talk detector 14 can more accurately detect the presence of a near-end utterance.
  • the first embodiment of the present invention includes the echo removing unit 11, the echo removing unit 11 is not essential.
  • the echo removal unit 11 is not provided.
  • the echo suppression device 2 according to the second embodiment will be described.
  • symbol is attached
  • FIG. 8 is a block diagram showing a schematic configuration of the echo suppression device 2.
  • the echo suppression device 2 mainly includes an FFT unit 12, a frequency mask storage unit 13, a double talk detection unit 14, an echo suppressor 15, and an IFFT unit 16.
  • the FFT unit 12 Since the echo suppressor 2 does not have the echo removing unit 11, a signal transmitted through the receiving side signal path during single talk (a signal from which residual echo is not removed) is used as a learning signal.
  • the FFT unit 12 generates and stores a frequency mask generated based on the power spectrum (or amplitude spectrum) for the learning signal from which the residual echo is not removed.
  • the double-talk state can be accurately detected by comparing the frequency characteristics of the input signal with the frequency mask.
  • a double talk state is detected for each frequency band.
  • an echo suppression device 3 according to a third embodiment will be described.
  • symbol is attached
  • the power spectrum can be replaced with an amplitude spectrum as in the echo suppression apparatus 1 according to the first embodiment.
  • FIG. 9 is a block diagram showing a schematic configuration of the echo suppression device 3.
  • the echo suppression device 3 mainly includes an echo removal unit 11, an FFT unit 12, a frequency mask storage unit 13, a double talk detection unit 14A, an echo suppressor 15A, and an IFFT unit 16.
  • the upper signal path is the transmitting signal path
  • the lower signal path is the receiving signal path.
  • the double talk detecting unit 14A detects whether or not it is in a double talk state for each frequency band. Note that the double-talk detector 14A performs a process of detecting whether or not it is in a double-talk state for each unit time in which the input signal spectrum is calculated.
  • the double talk detecting unit 14A compares the value of the input signal spectrum input from the FFT unit 12 with the value of the frequency mask stored in the frequency mask storage unit 13 for each frequency band.
  • the double talk detecting unit 14A acquires a reference signal transmitted from the mobile phone 53 to the terminal, and obtains the signal level.
  • the double talk detector 14A compares the signal level of the reference signal with the threshold value II.
  • the double-talk detector 14A performs single-talk only for the far-end utterance when the signal level of the reference signal is equal to or higher than the threshold value II in a frequency band in which the value of the input signal spectrum does not exceed the value of the frequency mask. Yes, it is detected that it is not in a double talk state.
  • FIG. 10 is a diagram schematically showing a state in which the value of the input signal spectrum is compared with the value of the frequency mask when the signal level of the reference signal is equal to or higher than the threshold value II.
  • a solid line shows an input signal spectrum
  • a broken line shows a frequency mask.
  • the double-talk detector 14A detects that there is a far-end utterance and a near-end utterance, that is, a double-talk state.
  • the double-talk detector 14A detects that there is a far-end utterance but no far-end utterance only single-talk, that is, no double-talk state.
  • the echo suppressor 15A performs echo suppression processing (processing for strongly suppressing echoes) on the input signal that has passed through the FFT unit 12.
  • the echo suppressor 15A enables the echo suppression process for the frequency band detected as the single talk of only the far-end utterance, and disables the echo suppression process for the other frequency bands.
  • the echo suppressor 15A switches whether the echo suppression process is enabled or disabled every unit time.
  • the frequency characteristic of the reference signal is used to detect the double talk state.
  • an echo suppression device 4 according to a fourth embodiment will be described.
  • the same parts as those of the echo suppression devices 1 to 3 according to the first to third embodiments are denoted by the same reference numerals and the description thereof is omitted.
  • the power spectrum can be replaced with an amplitude spectrum as in the echo suppression apparatus 1 according to the first embodiment.
  • FIG. 11 is a block diagram showing a schematic configuration of the echo suppression device 4.
  • the echo suppression device 4 mainly includes an echo removal unit 11, FFT units 12 and 17, a frequency mask storage unit 13, a double talk detection unit 14 ⁇ / b> B, an echo suppressor 15, and an IFFT unit 16.
  • the upper signal path is the transmitting signal path
  • the lower signal path is the receiving signal path.
  • the FFT unit 17 performs fast Fourier transform on the reference signal transmitted through the receiver signal path, and calculates a power spectrum (hereinafter referred to as a reference signal spectrum) for the reference signal for each unit time.
  • the double talk detecting unit 14B detects whether or not a double talk state is present based on the input signal spectrum, the frequency mask, and the frequency mask.
  • the double talk detecting unit 14B performs a process of detecting whether or not the double talk state is present for each unit time in which the input signal spectrum and the reference signal spectrum are calculated.
  • the double talk detector 14B compares the value of the input signal spectrum input from the FFT unit 12 with the value of the frequency mask stored in the frequency mask storage unit 13 for each frequency band, and compares the input signal spectrum. Count the number of frequency bands whose value exceeds the value of the frequency mask (excess number).
  • the double talk detection unit 14B compares the reference signal spectrum input from the FFT unit 17 with a threshold value III (corresponding to a third threshold value) prepared in advance.
  • the threshold III can be set to an arbitrary value.
  • the double-talk detection unit 14B has no near-end utterance and only a far-end utterance. It is detected that it is a single talk and not a double talk state.
  • FIG. 12 is a diagram schematically showing a state in which the value of the input signal spectrum is compared with the value of the frequency mask, and the reference signal spectrum is compared with the threshold value III.
  • a solid line shows an input signal spectrum
  • a broken line shows a frequency mask.
  • a thick solid line indicates the reference signal spectrum
  • a thick broken line indicates the threshold value III.
  • the excess number is equal to or less than a threshold value I (for example, 3). Therefore, the double talk detector 14B detects that there is no near-end utterance. In the case shown in FIG. 12, there is a frequency band in which the value of the reference signal spectrum exceeds the threshold value III. Therefore, the double talk detector 14B detects that there is a far-end utterance. That is, in the case shown in FIG. 12, the double talk detector 14B detects that the single talk is a far-end speech only.
  • a threshold value I for example, 3
  • the echo suppressor 15 is a single talk of far-end utterance only, and when it is not in a double talk state, the echo suppressor 15 enables the echo suppression processing for the entire peripheral fraction band of the input signal that has passed through the FFT unit 12, and in other cases Disables echo suppression processing.
  • the present embodiment it is possible to more accurately detect the double talk state by detecting the presence or absence of the far-end utterance based on the reference signal spectrum.
  • ⁇ Fifth embodiment> a double talk state is detected for each frequency band.
  • an echo suppression device 5 according to a fifth embodiment will be described.
  • the same parts as those of the echo suppression apparatuses 1 to 4 according to the first to fourth embodiments are denoted by the same reference numerals and the description thereof is omitted.
  • the power spectrum can be replaced with an amplitude spectrum as in the echo suppression apparatus 1 according to the first embodiment.
  • FIG. 13 is a block diagram showing a schematic configuration of the echo suppression device 5.
  • the echo suppression device 5 mainly includes an echo removal unit 11, FFT units 12 and 17, a frequency mask storage unit 13, a double talk detection unit 14C, an echo suppressor 15A, and an IFFT unit 16.
  • the upper signal path is the transmitting signal path
  • the lower signal path is the receiving signal path.
  • the double talk detecting unit 14C detects, for each frequency band, whether or not it is in the double talk state based on the input signal spectrum, the frequency mask, and the frequency mask.
  • the double talk detector 14C performs a process of detecting whether or not a double talk state is present for each unit time in which the input signal spectrum and the reference signal spectrum are calculated.
  • the double talk detector 14C compares the value of the input signal spectrum input from the FFT unit 12 with the value of the frequency mask stored in the frequency mask storage unit 13 for each frequency band.
  • the double talk detector 14C compares the value of the reference signal spectrum input from the FFT unit 17 with the threshold value III.
  • the double-talk detection unit 14C performs single-talk only for the far-end utterance when the value of the reference signal spectrum is greater than or equal to the threshold value III for a frequency band in which the value of the input signal spectrum does not exceed the value of the frequency mask. Yes, it is detected that it is not in a double talk state.
  • FIG. 14 is a diagram schematically showing a state in which the value of the input signal spectrum is compared with the value of the frequency mask, and the reference signal spectrum is compared with the threshold value III.
  • a solid line shows an input signal spectrum
  • a broken line shows a frequency mask.
  • a thick solid line indicates the reference signal spectrum
  • a thick broken line indicates the threshold value III.
  • the value of the input signal spectrum exceeds the value of the frequency mask in a frequency band surrounded by a solid line and a circle indicated by hatching. Therefore, for this frequency band, the double talk detector 14A detects that there is a near-end utterance.
  • the double-talk detector 14A detects that there is no near-end speech or far-end speech.
  • the value of the input signal spectrum does not exceed the value of the frequency mask, and the value of the reference signal spectrum is not less than the threshold value III. Therefore, it is detected that the single talk is only the far-end utterance and not the double talk state.
  • the echo suppressor 15A enables the echo suppression process for the frequency band detected as a single talk of only the far-end utterance, and disables the echo suppression process in other cases.
  • Echo suppression device 11 Echo removal unit 12
  • 17 Frequency analyzer (FFT unit)
  • 13 Frequency mask storage unit 14
  • 14A, 14B, 14C Double talk detection unit 15
  • 15A Echo suppressor 16: Restoration unit (IFFT unit) 50: Terminal 51: Microphone 52: Speakers 53, 54: Mobile phone 55: Speaker amplifier 100: Voice communication system

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができる。 スピーカから音が出力され、出力された音のみがマイクロホンに入力されるときに、送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいた周波数マスクと、マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルの値とを周波数帯域毎に比較して、ダブルトーク状態であるか否かを検知する。送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて、入力信号に対してエコーを抑圧する処理を行う。

Description

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
 本発明は、エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムに関する。
 特許文献1には、通話端末からの受話信号を伝送する受話側信号経路及び通話端末に送話信号を伝送する送話側信号経路に同時に信号が伝送されるダブルトーク状態を検知し、ダブルトーク検知部の検知結果と受話側信号経路や送話側信号経路の信号レベルとに基づいてエコーサプレッサの減衰量を算出する通話信号処理装置が開示されている。
特許5923705号公報
 しかしながら、特許文献1に記載の通話信号処理装置では、送話側の信号レベルが低いときに、残留エコーに送話信号が含まれるかどうか判断することが難しいという問題がある。したがって、特許文献1に記載の通話信号処理装置では、ダブルトーク状態の検知が正確にできず、エコーサプレッサを用いて適切にエコーが抑圧できないおそれがある。
 本発明はこのような事情に鑑みてなされたもので、ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができるエコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムを提供することを目的とする。
 上記課題を解決するために、本発明に係るエコー抑圧装置は、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第1スペクトル計算部と、前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、を備えたことを特徴とする。
 本発明に係るエコー抑圧装置によれば、スピーカから音が出力され、出力された音のみがマイクロホンに入力されるときに、送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクと、マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルの値とを周波数帯域毎に比較して、ダブルトーク状態であるか否かを検知する。このように、周波数特性を用いることで、マイクロホンから入力された音声(近端音声)より残留エコーのパワーが大きい場合においても、ダブルトーク状態を正確に検知することができる。また、本発明に係るエコー抑圧装置によれば、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて、入力信号に対してエコーを抑圧する処理を行う。これにより、近端音声を劣化させず、適切にエコーを抑圧することができる。
 ここで、残留エコーを除去するエコー除去部を備え、前記周波数マスクは、前記エコー除去部により前記残留エコーが除去された前記学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成され、前記第1スペクトル計算部は、前記エコー除去部により前記残留エコーが除去された前記入力信号についてのパワースペクトル又は振幅スペクトルを前記入力信号スペクトルとして計算してもよい。これにより、入力信号が小さい場合においても、正確にダブルトーク状態を検知することができる。
 ここで、前記第1スペクトル計算部は、前記学習用信号についてのパワースペクトル又は振幅スペクトルを一定区間毎に計算して複数の学習用スペクトルを求め、前記周波数マスク記憶部は、周波数帯域毎に、前記複数の学習用スペクトルの値のうちの最大値を取得し、これを前記周波数マスクとしてもよい。これにより、残留エコーの周波数特性を正確に記憶することができる。
 ここで、前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第2閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第1閾値以下であり、かつ前記参照信号の信号レベルが前記第2閾値以上である場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、正確にダブルトーク状態を検知することができる。
 ここで、前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第2閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域について、前記参照信号の信号レベルが前記第2閾値以上である場合には、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。
 ここで、前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第2スペクトル計算部を備え、前記ダブルトーク検知部は、前記参照信号スペクトルの値と第3閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第1閾値以下であり、かつ前記参照信号スペクトルの値が前記第3閾値を上回った周波数帯域が存在する場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、正確にダブルトーク状態を検知することができる。
 ここで、前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第2スペクトル計算部を備え、前記ダブルトーク検知部は、前記参照信号スペクトルの値と第3閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を下回り、かつ前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域については、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。
 上記課題を解決するために、本発明に係るエコー抑圧方法は、例えば、近端端末のスピーカから音が出力され、当該出力された音のみが前記近端端末のマイクロホンに入力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて周波数マスクを生成し、当該生成された周波数マスクを記憶するステップと、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算するステップと、前記計算された入力信号スペクトルの値と前記記憶された周波数マスクの値とを周波数帯域毎に比較して、前記マイクロホンから入力された信号を伝送する送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するステップと、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、を含むことを特徴とする。
 上記課題を解決するために、本発明に係るエコー抑圧プログラムは、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、コンピュータを、前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第1スペクトル計算部と、前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、として機能させることを特徴とする。
 本発明によれば、ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができる。
第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。 エコー抑圧装置1の概略構成を示すブロック図である。 エコー抑圧装置1において周波数マスクを生成するときの信号の流れを示す図である。 時刻t1における学習用スペクトルの一例である。 図4に示す学習用スペクトルを含む複数の学習用スペクトルが入力されたときの周波数マスクの一例である。 入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。 入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。 エコー抑圧装置2の概略構成を示すブロック図である。 エコー抑圧装置3の概略構成を示すブロック図である。 参照信号の信号レベルが閾値II以上であるときに、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。 エコー抑圧装置4の概略構成を示すブロック図である。 入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値IIIとを比較する様子を模式的に示す図である。 エコー抑圧装置5の概略構成を示すブロック図である。 入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値IIIとを比較する様子を模式的に示す図である。
 以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置である。
 <第1の実施の形態>
 図1は、第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。音声通信システム100は、主として、マイクロホン51及びスピーカ52を有する端末50と、2台の携帯電話53、54と、スピーカアンプ55と、エコー抑圧装置1と、を有する。
 音声通信システム100は、端末50(近端端末)を利用する利用者(近端側にいる利用者A)が、携帯電話54(遠端端末)を利用する利用者(遠端側にいる利用者B)と音声通信を行なうシステムである。携帯電話54を介して入力された音声信号をスピーカ52によって拡声出力し、かつ、近端側にいる利用者の発する音声をマイクロホン51により集音して携帯電話54へ伝送することで、利用者Aは、携帯電話53を把持することなく拡声通話(ハンズフリー通話)が可能となる。携帯電話53と携帯電話54とは、一般的な電話回線により接続されている。
 エコー抑圧装置1は、マイクロホン51を介して入力された信号を、端末50から携帯電話53へ伝送する送話側信号経路に設けられる。
 エコー抑圧装置1は、例えば、音声通信システム100内の通信端末等(例えば、車載装置、会議システム、携帯端末)に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置1は、例えば、コンピュータのハードウエア及びソフトウエア(エコー抑圧プログラム)によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記憶しておき、そこからコンピュータにインストールされてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納(記憶)しておいてもよい。
 図2は、エコー抑圧装置1の概略構成を示すブロック図である。エコー抑圧装置1は、主として、エコー除去部11と、周波数分析器(FFT部)12と、周波数マスク記憶部13と、ダブルトーク検知部14と、エコーサプレッサ15と、復元部(IFFT部)16と、を有する。図2において、上側の信号経路は、マイクロホン51から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ52へ信号を伝送する受話側信号経路である。
 エコー除去部11は、例えば、適応フィルタを用いて残留エコーを除去する。エコー除去部11は、与えられた手順に従ってフィルタ係数を更新して、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される信号から擬似エコー信号を減算することで、残留エコーを除去するものである。なお、適応フィルタについては既に公知であるため、説明を省略する。
 なお、本実施の形態では、エコー除去部11に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部11に適用することもできる。
 周波数分析器(FFT部)12は、送話側信号経路を伝送される信号に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行う。FFT部12は、エコー除去部11を通過した信号に対して処理を行う。FFT部12は、単位時間当たりの平均エネルギーであるパワーを周波数帯域毎に分割し、周波数帯域毎のパワーを周波数の関数として表したパワースペクトルを算出する。
 パワースペクトルとは、時間信号x(t)のパワーを、FFT分析することによりある周波数帯域(周波数分解能Δf)毎のパワーをもとめ、横軸を周波数としてグラフ化したものである。ここで、パワーは、振幅の二乗であり、数式(1)により表される。
Figure JPOXMLDOC01-appb-M000001
 ・・・(1)
 なお、本発明では、パワースペクトルの代わりに、パワーの平方根を取った振幅を縦軸、周波数を横軸とした振幅スペクトルを用いることができる。本実施の形態では、パワースペクトルを用いて説明するが、本実施の形態におけるパワースペクトルは、振幅スペクトルに置き換え可能である。
 FFT部12は、入力信号についてのパワースペクトル(以下、入力信号スペクトルという)を単位時間毎に計算する。また、学習用信号(後に詳述)についてのパワースペクトルを計算する。
 なお、本実施の形態では、FFT部12において高速フーリエ変換を用いて周波数分析を行なったが、高速フーリエ変換の代わりに、離散フーリエ変換(DFT、Discrete Fourier Transform)を用いて周波数分析を行なうことができる。
 周波数マスク記憶部13は、FFT部12により計算された学習用信号についてのパワースペクトルに基づいて周波数マスクを生成し、生成した周波数マスクを記憶する。以下、周波数マスクの生成について詳細に説明する。周波数マスクは、エコー抑圧装置1がエコーを抑圧する処理を行なう前に、前もって生成される。
 図3は、エコー抑圧装置1において周波数マスクを生成するときの信号の流れを示す図である。図3では、周波数マスクを生成するときに信号が伝送される部分を実線で示し、その他の部分を点線で示す。
 まず、エコー除去部11において十分に適応フィルタの学習を終えた後に、スピーカ52から音が出力され、マイクロホン51にはスピーカ52から出力された音のみが入力される遠端側の片側発話(シングルトーク)を繰り返す。そして、シングルトーク時に送話側信号経路を伝送される信号を学習用信号とする。エコー抑圧装置1においては、エコー除去部11により残留エコーが除去された信号が学習用信号となる。
 学習用信号は、FFT部12に入力される。FFT部12は、学習用信号についてのパワースペクトルを一定区間毎に計算して、複数の学習用スペクトルを求める。ここで、一定区間とは、任意に定められた所定の時間領域であり、時刻t1、t2、t3・・・で示す。図4は、時刻t1における学習用スペクトルの一例である。以下、パワースペクトルにおける縦軸の値を、パワースペクトルの値という。
 一定区間毎に計算された複数の学習用スペクトルは、周波数マスク記憶部13に入力される。周波数マスク記憶部13は、入力された複数の学習用スペクトルを記憶する。
 周波数マスク記憶部13は、周波数帯域毎に、入力された複数の学習用スペクトルの値のうちの最大値を取得し、これを周波数マスクとする。図5は、図4に示す学習用スペクトルを含む複数の学習用スペクトルが入力されたときの周波数マスクの一例である。そして、周波数マスク記憶部13は、周波数マスクを記憶する。これにより、残留エコーの周波数特性を正確に記憶することができる。
 図2の説明に戻る。ダブルトーク検知部14は、FFT部12から入力された入力信号スペクトルの値と、周波数マスク記憶部13に記憶された周波数マスクの値とを周波数帯域毎に比較する。そして、ダブルトーク検知部14は、比較した結果に基づいて、送話側信号経路及び受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知する。ダブルトーク検知部14は、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトルが計算される単位時間毎に行う。
 以下、ダブルトーク検知部14において、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部14は、周波数帯域毎に、入力信号スペクトルの値と、周波数マスクの値とを比較し、入力信号スペクトルの値が周波数マスクの値を上回る周波数帯域の数(以下、超過数という)を数える。ダブルトーク検知部14は、超過数が予め用意した閾値I(第1閾値に相当)以下であるか求める。なお、閾値Iは、任意の値に設定することができる。
 また、ダブルトーク検知部14は、携帯電話53から端末50とへ送信される参照信号を取得し、その信号レベルを求める。参照信号は、受話側信号経路から取得される。ダブルトーク検知部14は、参照信号の信号レベルと、予め用意した閾値II(第2閾値に相当)とを比較する。なお、閾値IIは、任意の値に設定することができる。
 図6、7は、それぞれ、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。図6、7において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。
 図6に示す場合は、超過数が閾値I(例えば、閾値I=3)以上であるため、ダブルトーク検知部14は、マイクロホン51から音が入力されており、送話側信号経路を信号が伝送されている(近端発話あり)ことを検知する。
 図7に示す場合は、超過数が閾値I以下であるため、ダブルトーク検知部14は、マイクロホン51から音が入力されておらず、送話側信号経路を信号が伝送されていない(近端発話なし)ことを検知する。
 ダブルトーク検知部14は、超過数が閾値I以下であり、参照信号の信号レベルが予め用意した閾値II(第2閾値に相当)以上の場合に、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されている(遠端発話あり)シングルトークであり、ダブルトーク状態ではないと検知する。
 図2の説明に戻る。エコーサプレッサ15は、FFT部12を通過した入力信号に対してエコーサプレス処理(エコーを強く抑圧する処理)を行なう。エコーサプレッサ15は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。エコーサプレス処理は、既に公知であるため、詳細な説明を省略する。
 ダブルトーク検知部14からエコーサプレッサ15へは、ダブルトーク状態であるか否かを検知した結果が単位時間毎に入力される。したがって、エコーサプレッサ15は、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。
 復元部(IFFT部)16は、FFT部12を通過した入力信号に対して逆高速フーリエ変換(IFFT、Inverse FFT)を行なう。なお、復元部(IFFT部)16において、IFFTの代わりに、逆離散フーリエ変換(IDFT、Inverse Discrete Fourier Transform)を用いることができる。
 本実施の形態によれば、近端発話による入力信号と、遠端発話の残留エコーとが異なる周波数特性をもつことに着目し、残留エコーの周波数特性を周波数マスクとして記憶しておき、入力信号の周波数特性と周波数マスクとを比較することでダブルトーク状態を正確に検知し、ダブルトーク状態でないときにはエコーサプレス処理を有効にすることで、近端音声(マイクロホン51から入力された音声)を劣化させず、確実にエコーを抑圧することができる。
 例えば、音声パワーで近端音声か残留エコーかを判断する従来の方法では、入力信号より残留エコーのパワーが大きい場合には、ダブルトークの判断が難しいという問題がある。それに対し、本実施の形態では、周波数特性を用いることで、入力信号より残留エコーのパワーが大きい場合においても、ダブルトーク状態か否かを検知することができる。
 また、本実施の形態によれば、FFT部12は、エコー除去部11により残留エコーが除去された学習用信号を用いて周波数マスクを生成するため、入力信号が小さい場合においても正確にダブルトーク状態を検知することができる。エコー除去部11は、残留エコーを除去するものであり、入力信号には作用しないため、エコー除去部11により残留エコーが除去された学習用信号を用いて周波数マスクを生成することで、周波数マスクの値が小さくなる。したがって、入力信号が小さい場合であっても、入力信号スペクトルの値が周波数マスクの値を超えやすくなり、ダブルトーク検知部14において、近端発話があることをより正確に検知することができる。
 <第2の実施の形態>
 本発明の第1の実施の形態は、エコー除去部11を有したが、エコー除去部11は必須ではない。第2の実施の形態は、エコー除去部11を有しない形態である。以下、第2の実施の形態に係るエコー抑圧装置2について説明する。なお、第1の実施の形態に係るエコー抑圧装置1と同一の部分については、同一の符号を付し、説明を省略する。
 図8は、エコー抑圧装置2の概略構成を示すブロック図である。エコー抑圧装置2は、主として、FFT部12と、周波数マスク記憶部13と、ダブルトーク検知部14と、エコーサプレッサ15と、IFFT部16と、を有する。
 エコー抑圧装置2はエコー除去部11を有しないため、シングルトーク時に受話側信号経路を伝送される信号(残留エコーが除去されていない信号)を学習用信号とする。FFT部12は、残留エコーが除去されていない学習用信号についてのパワースペクトル(又は振幅スペクトル)に基づいて生成された周波数マスクを生成し、記憶する。
 このように、残留エコーが除去されていない学習用信号を用いたとしても、入力信号の周波数特性と周波数マスクとを比較することでダブルトーク状態を正確に検知することができる。ただし、入力信号が小さい場合においてもダブルトーク状態を正確に検知するためには、エコー除去部11を通過した学習用信号を用いて周波数マスクを生成することが望ましい。
 <第3の実施の形態>
 第3の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第3の実施の形態に係るエコー抑圧装置3について説明する。なお、第1の実施の形態に係るエコー抑圧装置1と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第1の実施の形態に係るエコー抑圧装置1と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。
 図9は、エコー抑圧装置3の概略構成を示すブロック図である。エコー抑圧装置3は、主として、エコー除去部11と、FFT部12と、周波数マスク記憶部13と、ダブルトーク検知部14Aと、エコーサプレッサ15Aと、IFFT部16と、を有する。図9において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。
 ダブルトーク検知部14Aは、ダブルトーク状態であるか否かを周波数帯域毎に検知する。なお、ダブルトーク検知部14Aは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトルが計算される単位時間毎に行う。
 以下、ダブルトーク検知部14Aにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部14Aは、周波数帯域毎に、FFT部12から入力された入力信号スペクトルの値と、周波数マスク記憶部13に記憶された周波数マスクの値とを比較する。
 また、ダブルトーク検知部14Aは、携帯電話53から端末とへ送信される参照信号を取得し、その信号レベルを求める。ダブルトーク検知部14Aは、参照信号の信号レベルと、閾値IIとを比較する。
 そして、ダブルトーク検知部14Aは、入力信号スペクトルの値が周波数マスクの値を上回っていない周波数帯域について、参照信号の信号レベルが閾値II以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。
 図10は、参照信号の信号レベルが閾値II以上であるときに、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。図10において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。
 図10の実線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部14Aは、遠端発話があり、かつ近端発話がある、すなわちダブルトーク状態であると検知する。
 それに対し、図10の点線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っていない。したがって、この周波数帯域については、ダブルトーク検知部14Aは、遠端発話があるが近端発話がない遠端発話のみのシングルトーク、すなわちダブルトーク状態ではないと検知する。
 図9の説明に戻る。エコーサプレッサ15Aは、FFT部12を通過した入力信号に対してエコーサプレス処理(エコーを強く抑圧する処理)を行なう。エコーサプレッサ15Aは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の周波数帯域についてはエコーサプレス処理を無効にする。エコーサプレッサ15Aは、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。
 本実施の形態によれば、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。
 <第4の実施の形態>
 第4の実施の形態は、ダブルトーク状態の検知に参照信号の周波数特性を用いる形態である。以下、第4の実施の形態に係るエコー抑圧装置4について説明する。なお、第1の実施の形態~第3の実施の形態に係るエコー抑圧装置1~3と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第1の実施の形態に係るエコー抑圧装置1と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。
 図11は、エコー抑圧装置4の概略構成を示すブロック図である。エコー抑圧装置4は、主として、エコー除去部11と、FFT部12、17と、周波数マスク記憶部13と、ダブルトーク検知部14Bと、エコーサプレッサ15と、IFFT部16と、を有する。図11において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。
 FFT部17は、受話側信号経路を伝送される参照信号に対して高速フーリエ変換を行い、参照信号についてのパワースペクトル(以下、参照信号スペクトルという)を単位時間毎に計算する。
 ダブルトーク検知部14Bは、入力信号スペクトルと、周波数マスクと、周波数マスクとに基づいて、ダブルトーク状態であるか否かを検知する。ダブルトーク検知部14Bは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトル及び参照信号スペクトルが計算される単位時間毎に行う。
 以下、ダブルトーク検知部14Bにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部14Bは、周波数帯域毎に、FFT部12から入力された入力信号スペクトルの値と、周波数マスク記憶部13に記憶された周波数マスクの値とを比較し、入力信号スペクトルの値が周波数マスクの値を上回る周波数帯域の数(超過数)を数える。
 また、ダブルトーク検知部14Bは、FFT部17から入力された参照信号スペクトルと、予め用意した閾値III(第3閾値に相当)とを比較する。なお、閾値IIIは、任意の値に設定することができる。
 そして、ダブルトーク検知部14Bは、超過数が閾値I以下であり、かつ参照信号スペクトルの値が閾値IIIを上回った周波数帯域が存在する場合には、近端発話が無く、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。
 図12は、入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値IIIとを比較する様子を模式的に示す図である。図12において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。また、図12において、太い実線は参照信号スペクトルを示し、太い破線は閾値IIIを示す。
 図12に示す場合は、超過数が閾値I(例えば、3)以下である。したがって、ダブルトーク検知部14Bは、近端発話がないことを検知する。また、図12に示す場合は、参照信号スペクトルの値が閾値IIIを上回った周波数帯域が存在する。したがって、ダブルトーク検知部14Bは、遠端発話があることを検知する。すなわち、図12に示す場合には、ダブルトーク検知部14Bは、遠端発話のみのシングルトークであることを検知する。
 図11の説明に戻る。エコーサプレッサ15は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、FFT部12を通過した入力信号の全周端数帯域に対してエコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。
 本実施の形態によれば、参照信号スペクトルに基づいて遠端発話の有無を検知することで、ダブルトーク状態をより正確に検知することができる。
 <第5の実施の形態>
 第5の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第5の実施の形態に係るエコー抑圧装置5について説明する。なお、第1の実施の形態~第4の実施の形態に係るエコー抑圧装置1~4と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第1の実施の形態に係るエコー抑圧装置1と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。
 図13は、エコー抑圧装置5の概略構成を示すブロック図である。エコー抑圧装置5は、主として、エコー除去部11と、FFT部12、17と、周波数マスク記憶部13と、ダブルトーク検知部14Cと、エコーサプレッサ15Aと、IFFT部16と、を有する。図13において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。
 ダブルトーク検知部14Cは、入力信号スペクトルと、周波数マスクと、周波数マスクとに基づいて、ダブルトーク状態であるか否かを周波数帯域毎に検知する。ダブルトーク検知部14Cは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトル及び参照信号スペクトルが計算される単位時間毎に行う。
 以下、ダブルトーク検知部14Cにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部14Cは、周波数帯域毎に、FFT部12から入力された入力信号スペクトルの値と、周波数マスク記憶部13に記憶された周波数マスクの値とを比較する。また、ダブルトーク検知部14Cは、FFT部17から入力された参照信号スペクトルの値と閾値IIIとを比較する。
 そして、ダブルトーク検知部14Cは、入力信号スペクトルの値が周波数マスクの値を上回っていない周波数帯域について、参照信号スペクトルの値が閾値III以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。
 図14は、入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値IIIとを比較する様子を模式的に示す図である。図14において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。また、図14において、太い実線は参照信号スペクトルを示し、太い破線は閾値IIIを示す。
 図14において、実線かつ網掛け表示をした丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部14Aは、近端発話があることを検知する。
 図14において、実線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っていない。しかしながら、これらの周波数帯域は、参照信号スペクトルの値が閾値III以上でない。したがって、この周波数帯域については、ダブルトーク検知部14Aは、近端発話及び遠端発話がないことを検知する。
 それに対し、図14の点線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っておらず、かつ、参照信号スペクトルの値が閾値III以上である。したがって、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。
 図13の説明に戻る。エコーサプレッサ15Aは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。
 本実施の形態によれば、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。
 以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
1、2、3、4、5     :エコー抑圧装置
11            :エコー除去部
12、17         :周波数分析器(FFT部)
13            :周波数マスク記憶部
14、14A、14B、14C:ダブルトーク検知部
15、15A        :エコーサプレッサ
16            :復元部(IFFT部)
50            :端末
51            :マイクロホン
52            :スピーカ
53、54         :携帯電話
55            :スピーカアンプ
100           :音声通信システム

Claims (9)

  1.  スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、
     前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、
     前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第1スペクトル計算部と、
     前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、
     前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、
     を備えたことを特徴とするエコー抑圧装置。
  2.  残留エコーを除去するエコー除去部を備え、
     前記周波数マスクは、前記エコー除去部により前記残留エコーが除去された前記学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成され、
     前記第1スペクトル計算部は、前記エコー除去部により前記残留エコーが除去された前記入力信号についてのパワースペクトル又は振幅スペクトルを前記入力信号スペクトルとして計算する
     ことを特徴とする請求項1に記載のエコー抑圧装置。
  3.  前記第1スペクトル計算部は、前記学習用信号についてのパワースペクトル又は振幅スペクトルを一定区間毎に計算して複数の学習用スペクトルを求め、
     前記周波数マスク記憶部は、周波数帯域毎に、前記複数の学習用スペクトルの値のうちの最大値を取得し、これを前記周波数マスクとする
     ことを特徴とする請求項1又は2に記載のエコー抑圧装置。
  4.  前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第2閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第1閾値以下であり、かつ前記参照信号の信号レベルが前記第2閾値以上である場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  5.  前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第2閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域について、前記参照信号の信号レベルが前記第2閾値以上である場合には、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  6.  前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第2スペクトル計算部を備え、
     前記ダブルトーク検知部は、前記参照信号スペクトルの値と第3閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第1閾値以下であり、かつ前記参照信号スペクトルの値が前記第3閾値を上回った周波数帯域が存在する場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  7.  前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第2スペクトル計算部を備え、
     前記ダブルトーク検知部は、前記参照信号スペクトルの値と第3閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を下回り、かつ前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域については、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  8.  近端端末のスピーカから音が出力され、当該出力された音のみが前記近端端末のマイクロホンに入力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて周波数マスクを生成し、当該生成された周波数マスクを記憶するステップと、
     前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算するステップと、
     前記計算された入力信号スペクトルの値と前記記憶された周波数マスクの値とを周波数帯域毎に比較して、前記マイクロホンから入力された信号を伝送する送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するステップと、
     前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、
     を含むことを特徴とするエコー抑圧方法。
  9.  スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、
     コンピュータを、
     前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、
     前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第1スペクトル計算部と、
     前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、
     前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、
     として機能させることを特徴とするエコー抑圧プログラム。
PCT/JP2018/018774 2017-05-29 2018-05-15 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム WO2018221206A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18810819.5A EP3633865B1 (en) 2017-05-29 2018-05-15 Echo suppression device, echo suppression method and echo suppression program
RU2019138975A RU2732362C1 (ru) 2017-05-29 2018-05-15 Устройство эхоподавления, способ эхоподавления и программа эхоподавления
US16/605,252 US11039245B2 (en) 2017-05-29 2018-05-15 Echo suppression device, echo suppression method and echo suppression program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017105560A JP6833616B2 (ja) 2017-05-29 2017-05-29 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2017-105560 2017-05-29

Publications (1)

Publication Number Publication Date
WO2018221206A1 true WO2018221206A1 (ja) 2018-12-06

Family

ID=64454572

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/018774 WO2018221206A1 (ja) 2017-05-29 2018-05-15 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Country Status (5)

Country Link
US (1) US11039245B2 (ja)
EP (1) EP3633865B1 (ja)
JP (1) JP6833616B2 (ja)
RU (1) RU2732362C1 (ja)
WO (1) WO2018221206A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992190A (zh) * 2021-02-02 2021-06-18 北京字跳网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7196002B2 (ja) 2019-04-05 2022-12-26 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP7382273B2 (ja) 2020-04-13 2023-11-16 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN112165558B (zh) * 2020-09-21 2021-10-29 普联国际有限公司 一种双讲状态检测方法、装置、存储介质及终端设备
CN113179354B (zh) * 2021-04-26 2023-10-10 北京有竹居网络技术有限公司 声音信号处理方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5923705B2 (ja) 1981-03-19 1984-06-04 株式会社クラレ ゴムホ−スの加硫方法
JP2009094802A (ja) * 2007-10-09 2009-04-30 Renesas Technology Corp 通信装置
WO2010035308A1 (ja) * 2008-09-24 2010-04-01 三菱電機株式会社 エコー消去装置
US20140334620A1 (en) * 2013-05-13 2014-11-13 Christelle Yemdji Method for processing an audio signal and audio receiving circuit

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785382B2 (en) * 2001-02-12 2004-08-31 Signalworks, Inc. System and method for controlling a filter to enhance speakerphone performance
AU2006323242B2 (en) * 2005-12-05 2010-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Echo detection
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
JP4916394B2 (ja) * 2007-07-03 2012-04-11 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
US7809129B2 (en) * 2007-08-31 2010-10-05 Motorola, Inc. Acoustic echo cancellation based on noise environment
RU2546717C2 (ru) * 2009-06-02 2015-04-10 Конинклейке Филипс Электроникс Н.В. Многоканальное акустическое эхоподавление
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
RU2011103938A (ru) * 2011-02-03 2012-08-10 ЭлЭсАй Корпорейшн (US) Управление акустическими эхо-сигналами на основе временной области
JP5923705B2 (ja) 2012-03-09 2016-05-25 パナソニックIpマネジメント株式会社 通話信号処理装置
JP6160403B2 (ja) * 2013-09-26 2017-07-12 沖電気工業株式会社 エコー抑圧装置及びエコー抑圧プログラム
GB201321052D0 (en) * 2013-11-29 2014-01-15 Microsoft Corp Detecting nonlinear amplitude processing
US10122863B2 (en) * 2016-09-13 2018-11-06 Microsemi Semiconductor (U.S.) Inc. Full duplex voice communication system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5923705B2 (ja) 1981-03-19 1984-06-04 株式会社クラレ ゴムホ−スの加硫方法
JP2009094802A (ja) * 2007-10-09 2009-04-30 Renesas Technology Corp 通信装置
WO2010035308A1 (ja) * 2008-09-24 2010-04-01 三菱電機株式会社 エコー消去装置
US20140334620A1 (en) * 2013-05-13 2014-11-13 Christelle Yemdji Method for processing an audio signal and audio receiving circuit

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TONG, YING ET AL.: "Acoustic echo suppression based on speech presence probability", IEEE INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP, 16 October 2016 (2016-10-16), pages 35 - 38, XP033070519 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992190A (zh) * 2021-02-02 2021-06-18 北京字跳网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质
CN112992190B (zh) * 2021-02-02 2021-12-10 北京字跳网络技术有限公司 音频信号的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP3633865A1 (en) 2020-04-08
US11039245B2 (en) 2021-06-15
RU2732362C1 (ru) 2020-09-16
US20210144474A1 (en) 2021-05-13
JP6833616B2 (ja) 2021-02-24
JP2018201147A (ja) 2018-12-20
EP3633865A4 (en) 2020-04-08
EP3633865B1 (en) 2020-12-16

Similar Documents

Publication Publication Date Title
WO2018221206A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
US10074380B2 (en) System and method for performing speech enhancement using a deep neural network-based signal
CN109716743B (zh) 全双工语音通信系统和方法
KR100989266B1 (ko) 스펙트럼 음향 특성에 기초한 더블 토크 검출 방법
US7881927B1 (en) Adaptive sidetone and adaptive voice activity detect (VAD) threshold for speech processing
KR101422984B1 (ko) 잔류 에코를 억제하는 방법 및 장치
JP4568439B2 (ja) エコー抑圧装置
CN101719969A (zh) 判断双端对话的方法、系统以及消除回声的方法和系统
KR20060067881A (ko) 수신 오디오의 제한 시스템
JPWO2002095975A1 (ja) エコー処理装置
US20140341386A1 (en) Noise reduction
CN111524532B (zh) 回声抑制方法、装置、设备及存储介质
JP2009094802A (ja) 通信装置
JP2019216389A (ja) エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
JP7196002B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
WO2021210473A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP4534529B2 (ja) ハウリング抑圧方法及び装置
JP6369192B2 (ja) エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末
WO2022202012A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
RU2799561C2 (ru) Устройство эхоподавления, способ эхоподавления и программа эхоподавления
JP2012105217A (ja) ハンズフリー電話装置、ハンズフリー通話方法及びハンズフリー通話プログラム
JP6121047B2 (ja) エコーキャンセラ装置
KR20130005805A (ko) 음성 잔여 반향 억제 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18810819

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2018810819

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2018810819

Country of ref document: EP

Effective date: 20200102