WO2021210473A1 - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム - Google Patents

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム Download PDF

Info

Publication number
WO2021210473A1
WO2021210473A1 PCT/JP2021/014808 JP2021014808W WO2021210473A1 WO 2021210473 A1 WO2021210473 A1 WO 2021210473A1 JP 2021014808 W JP2021014808 W JP 2021014808W WO 2021210473 A1 WO2021210473 A1 WO 2021210473A1
Authority
WO
WIPO (PCT)
Prior art keywords
mask
signal
input
echo
received signal
Prior art date
Application number
PCT/JP2021/014808
Other languages
English (en)
French (fr)
Inventor
祐樹 里見
Original Assignee
株式会社トランストロン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社トランストロン filed Critical 株式会社トランストロン
Priority to EP21788431.1A priority Critical patent/EP4138307A4/en
Priority to US17/801,955 priority patent/US20230079749A1/en
Priority to CN202180013053.5A priority patent/CN115053460A/zh
Publication of WO2021210473A1 publication Critical patent/WO2021210473A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Definitions

  • the present invention relates to an echo suppression device, an echo suppression method, and an echo suppression program.
  • Patent Document 1 a mask based on the power spectrum of a learning signal transmitted on the receiving side signal path and a value of the power spectrum of an input signal input from a microphone are compared for each frequency band and double talked.
  • an echo suppressor is used.
  • An echo suppression device that performs processing for suppressing the echo of an input signal is disclosed.
  • the mask is generated assuming that the signal of the receiving side signal path is large, the user (near-end speaker) on the microphone side speaks. If the received signal is small and the received signal transmitted on the receiving side signal path is large, the echo suppressor may be strongly applied to the input signal transmitted on the receiving side signal path, and the voice of the near-end speaker may disappear. be.
  • the present invention has been made in view of such circumstances, and provides an echo suppression device, an echo suppression method, and an echo suppression program capable of detecting an utterance and appropriately suppressing an echo even when the utterance is small. With the goal.
  • the echo suppression device for example, in a transmitting side signal path for transmitting an input signal input from the microphone among near-end terminals having a speaker and a microphone.
  • An echo suppressor one or more generated based on a learning signal transmitted through the transmitter signal path when no speech is input to the microphone and sound is output from the speaker.
  • a mask selection unit that sequentially generates or selects an optimum mask according to the magnitude of the received signal from the basic mask based on the received signal acquired within a predetermined period, and each time the optimum mask is generated or selected.
  • the double talk detection unit that sequentially detects whether or not the double talk state is established based on the result of comparing the input signal with the optimum mask, and the double talk detection unit do not input speech to the microphone.
  • an echo suppressor that sequentially performs a process of suppressing the echo with respect to the input signal is provided.
  • the echo suppression device each time a sample point of the received signal transmitted on the receiving side signal path for transmitting the signal to the speaker is acquired, within a predetermined period before the time when the sample point is acquired.
  • the optimum mask is sequentially generated or selected from the basic masks which are one or more masks generated based on the learning signal. Every time the optimum mask is selected, it is sequentially detected whether or not it is in the double talk state based on the result of comparing the input signal and the optimum mask, and no utterance is input to the microphone and the received signal utters.
  • the process of suppressing the echo of the input signal is sequentially performed. In this way, by changing the size of the mask according to the size of the received signal, it is possible to detect the utterance even when the utterance is small and appropriately suppress the echo.
  • a mask generation unit for changing the magnitude of the learning signal to generate a plurality of masks is provided, and the mask storage unit stores a plurality of masks generated by the mask generation unit as the basic mask and selects the mask.
  • the unit selects the optimum mask from the basic masks based on the magnitude of the input signal.
  • a mask generation unit that generates one mask based on the learning signal is provided, the mask storage unit stores one mask generated by the mask generation unit as the basic mask, and the mask selection unit is the mask selection unit.
  • the optimum mask is generated by multiplying the basic mask by a coefficient based on the magnitude of the input signal.
  • a signal is transmitted along the transmitting side signal path.
  • a signal measuring unit for measuring a first time which is a time when transmission is stopped, is provided, and the mask selecting unit sequentially generates or selects the optimum mask with the first time as the predetermined period. Thereby, a predetermined period can be set according to the length of the echo generated by the received signal.
  • a first power spectrum calculation unit for calculating an input signal power spectrum which is a power spectrum of the input signal and a learning power spectrum which is a power spectrum of the learning signal is provided, and the mask is acquired during a certain interval. It is the maximum value for each frequency band of the learning power spectrum, the optimum mask has a value for each frequency band, and the double talk detection unit has a value of the input signal power spectrum and a value of the optimum mask. Is detected whether or not it is in a double talk state based on the result of comparing with and for each frequency band. As a result, the double talk state can be detected accurately.
  • a second power spectrum calculation unit for calculating the reception signal power spectrum, which is a power spectrum of the reception signal, is provided, and the mask selection unit compares the maximum value of the reception signal power spectrum with the optimum mask for each frequency band. To generate or select the optimum mask. As a result, the optimum mask can be appropriately generated or selected in consideration of the frequency characteristics of the received signal.
  • the double talk detection unit compares the input signal power spectrum and the optimum mask for each frequency band, and when the number of frequency bands in which the input signal power spectrum exceeds the optimum mask is smaller than the first threshold value, or the above. When the integrated value in the region where the input signal power spectrum exceeds the optimum mask is smaller than the second threshold value, it is detected that the signal is not transmitted to the receiving side signal path. As a result, the near-end utterance can be accurately detected.
  • the echo suppression method is, for example, input from the microphone when no speech is input to the microphone of the near-end terminal and sound is output from the speaker of the near-end terminal.
  • the step of sequentially generating or selecting the optimum mask which is a mask having a size corresponding to the size of the input signal, and once the optimum mask is selected, double based on the result of comparing the input signal and the optimum mask.
  • the echo suppression program according to the present invention is, for example, an echo provided in a transmitting side signal path for transmitting a signal input from the microphone among near-end terminals having a speaker and a microphone. 1 or a suppression program generated by a computer based on a learning signal transmitted through the transmitter signal path when no speech is input to the microphone and sound is output from the speaker.
  • a mask storage unit that stores basic masks, which are a plurality of masks, and a sample point of a received signal transmitted through a receiving side signal path for transmitting a signal to the speaker are acquired, a time when the sample point is acquired.
  • a mask selection unit that sequentially generates or selects an optimum mask according to the magnitude of the received signal from the basic mask based on the received signal acquired within a predetermined period before, and each time the optimum mask is selected.
  • a double talk detection unit that sequentially detects whether or not a double talk state is established based on the result of comparing an input signal input from the microphone with the optimum mask, and the double talk detection unit provide the microphone with the double talk detection unit. It is characterized in that it functions as an echo suppressor that sequentially performs a process of suppressing an echo with respect to the input signal when it is detected that no utterance is input and the received signal includes an utterance.
  • the utterance even when the utterance is small, the utterance can be detected and the echo can be appropriately suppressed.
  • FIG. 1 It is a figure which shows typically the voice communication system 100 provided with the echo suppression device 1 which concerns on 1st Embodiment. It is a figure which shows the outline of the functional block of the echo suppression device 1. It is a figure which shows the outline of the functional block at the time of generating a mask in an echo suppression apparatus 1. This is an example of a learning power spectrum at time t1. This is an example of a mask when a plurality of learning power spectra including the learning power spectrum shown in FIG. 4 are input. It is a figure which shows the example of two masks with different reception levels. It is a figure which shows the relationship between the received signal and the input signal when there is no near-end utterance, (A) shows the received signal, and (B) shows the input signal.
  • the echo suppression device is a device that suppresses echoes generated during a call in a voice communication system.
  • FIG. 1 is a diagram schematically showing a voice communication system 100 provided with the echo suppression device 1 according to the first embodiment.
  • the voice communication system 100 mainly includes a terminal 50 having a microphone 51 and a speaker 52, two mobile phones 53 and 54, a speaker amplifier 55, and an echo suppression device 1.
  • the near-end speaker (user A on the near-end side) who uses the terminal 50 (near-end terminal) uses the mobile phone 54 (far-end terminal), and the far-end speaker (far-end terminal) uses the mobile phone 54 (far-end terminal). It is a system that performs voice communication with the user B) on the side.
  • the voice signal input via the mobile phone 54 is loudened and output by the speaker 52, and the sound emitted by the user on the near end side is collected by the microphone 51 and transmitted to the mobile phone 54.
  • A can make a loudspeaker call (hands-free call) without holding the mobile phone 53.
  • the mobile phone 53 and the mobile phone 54 are connected by a general telephone line.
  • the echo suppression device 1 is provided in the transmitting side signal path for transmitting the signal input via the microphone 51 from the terminal 50 to the mobile phone 53.
  • the echo suppression device 1 may be constructed as a dedicated board mounted on a communication terminal or the like (for example, an in-vehicle device, a conference system, a mobile terminal) in the voice communication system 100, for example.
  • the echo suppression device 1 is, for example, a computer mainly including a computing device such as a CPU (Central Processing Unit) for executing information processing, and a storage device such as a RAM (Random Access Memory) or a ROM (Read Only Memory). It may be configured by a system and software (echo suppression program).
  • the echo suppression program may be stored in advance in an HDD as a storage medium built in a device such as a computer, a ROM in a microcomputer having a CPU, or the like, and installed in the computer from there. Further, the echo suppression program may be temporarily or permanently stored (stored) in a removable storage medium such as a semiconductor memory, a memory card, an optical disk, a magneto-optical disk, or a magnetic disk.
  • FIG. 2 is a diagram showing an outline of a functional block of the echo suppression device 1.
  • the echo suppression device 1 mainly includes an echo removing unit 11, frequency analyzers (FFT units) 12 and 19, a mask storage unit 13, a mask selection unit 14, and a double talk detection unit 15. It has an echo suppressor 16 and a restoration unit (IFFT unit) 17.
  • the upper signal path is the transmitting side signal path for transmitting the input signal input from the microphone 51
  • the lower signal path is the receiving side signal path for transmitting the signal to the speaker 52.
  • the functional components of the echo suppression device 1 may be further classified into more components according to the processing content, or one component may execute the processing of a plurality of components.
  • the echo removing unit 11 removes echoes using, for example, an adaptive filter.
  • the echo canceling unit 11 updates the filter coefficient according to a given procedure, generates a pseudo-echo signal from the signal transmitted on the receiving side signal path, and generates a pseudo-echo signal from the signal transmitted on the transmitting side signal path. Echo is removed by subtraction. Since the adaptive filter is already known, the description thereof will be omitted.
  • the adaptive filter is applied to the echo removing unit 11, but other known echo removing techniques can also be applied to the echo removing unit 11.
  • the echo removing unit 11 is not essential, by generating a mask using the learning signal from which a part of the echo is removed, the mask value becomes smaller and the input signal becomes smaller, as will be described in detail later. Even if it is small, the value of the power spectrum (hereinafter referred to as the input signal power spectrum) for the input signal tends to exceed the mask value, and there is a near-end utterance (speech of user A (see FIG. 1)). It is desirable to provide the echo removing unit 11 because this can be detected more accurately.
  • the frequency analyzers (FFT units) 12 and 19 perform a fast Fourier transform (FFT, Fast Fourier Transform) on the signal.
  • the FFT unit 12 performs a fast Fourier transform on the signal transmitted through the transmitting side signal path, here the signal passing through the echo removing unit 11, and the FFT unit 19 performs a fast Fourier transform on the receiving signal transmitted through the receiving side signal path. Performs a fast Fourier transform on the.
  • the FFT units 12 and 19 obtain the result of converting the time function into the frequency function as X [i] for each frequency band i.
  • the mask storage unit 13 stores the mask generated by the mask generation unit 18 (see FIG. 3). Hereinafter, the generation of the mask will be described in detail.
  • the mask is generated in advance before the echo suppression device 1 performs the process of suppressing the echo.
  • FIG. 3 is a diagram showing an outline of a functional block when a mask is generated in the echo suppression device 1.
  • the echo suppression device 1 functionally has a mask generation unit 18.
  • the mask generation process is mainly performed by the mask generation unit 18.
  • the learning signal is input to the FFT unit 12.
  • the FFT unit 12 performs a fast Fourier transform on the learning signal and inputs it to the mask generation unit 18.
  • the mask generation unit 18 calculates the power spectrum of the learning signal at regular intervals to obtain a plurality of learning power spectra.
  • the fixed section is an arbitrarily determined predetermined time domain, and is indicated by times t1, t2, t3, and so on.
  • the power spectrum P [i] represents the power of X [i] for each frequency element i obtained by the fast Fourier transform as a function of the frequency element (see formula (1)).
  • FIG. 4 is an example of the learning power spectrum at time t1.
  • the power (value on the vertical axis) in the power spectrum is referred to as a value in the power spectrum.
  • the horizontal axis of the power spectrum is frequency.
  • the mask generation unit 18 stores a plurality of learning power spectra calculated for each fixed section.
  • the mask generation unit 18 acquires the maximum value among the values of the plurality of learning power spectra for each frequency band, and uses this as a mask.
  • FIG. 5 is an example of a mask when a plurality of learning power spectra including the learning power spectrum shown in FIG. 4 are input. Then, the mask generation unit 18 outputs the generated mask to the mask storage unit 13, and the mask storage unit 13 stores the mask.
  • the mask generation unit 18 changes the magnitude (received level) of the learning signal to generate a plurality of masks.
  • FIG. 6 is a diagram showing an example of two masks having different reception levels. The solid line in FIG. 6 is a mask when the reception level is high, that is, when the echo can be returned greatly, and the broken line in FIG. 6 is a mask when the reception level is low.
  • the mask generation unit 18 changes the magnitude of the learning signal and performs the process of generating the mask a plurality of times to generate a plurality of masks. As a result, the frequency characteristics of the residual echo can be accurately stored for each reception level.
  • the number of masks generated by the mask generation unit 18 and stored by the mask storage unit 13 is not limited to two, and may be three or more.
  • a plurality of masks stored by the mask storage unit 13 are referred to as basic masks.
  • the power spectrum of the received signal (hereinafter referred to as the received signal power spectrum) is sequentially input to the mask selection unit 14 from the double talk detection unit 15. After the received signal power spectrum is sequentially input (sample points are acquired), the mask selection unit 14 determines the received signal based on the received signal acquired within a predetermined period before the time when the sample points are acquired. Masks according to size (hereinafter referred to as optimum masks) are sequentially selected from the basic masks.
  • the predetermined period before the time when the sample points are acquired is based on the time required from when the received signal becomes 0 (after the sound is no longer output from the speaker 52) until the value of the input signal becomes 0. Is required.
  • This predetermined time varies depending on the magnitude of the received signal, but is about several tens of seconds to several hundreds of seconds in the short case and about 1 second to 2 seconds in the long case.
  • FIG. 7 and 8 are diagrams showing the relationship between the received signal and the input signal when there is no near-end utterance (no utterance is input to the microphone 51), where (A) shows the received signal and (B). Indicates an input signal.
  • FIG. 7 shows a case where the level of the received signal is low
  • FIG. 8 shows a case where the level of the received signal is high.
  • the echo signal exists as an input signal even if there is no near-end utterance.
  • the input signal exists for about 100 msec even after the received signal becomes 0, and when the level of the received signal is high, the input signal exists even after the received signal becomes 0.
  • the predetermined time is set to about 100 msec to about 300 msec.
  • the mask selection unit 14 selects the optimum mask based on the maximum value of the power of the received signal acquired within approximately 100 msec to approximately 300 msec before the time when the sample point of the received signal power spectrum is acquired.
  • FIGS. 9 and 10 are diagrams schematically showing the relationship between the maximum value for each frequency band of the received signal power spectrum acquired within a predetermined period before the time when the sample points are acquired and the optimum mask.
  • the solid line shows the maximum value of the received signal spectrum acquired within a predetermined period
  • the dotted line shows the basic mask.
  • the mask selection unit 14 compares the maximum value of the power of the received signal and the basic mask for each frequency band, and receives the receiver so that the mask value does not become smaller than the maximum value of the received signal in any frequency band. Select the mask closest to the signal as the optimal mask. In the case shown in FIG.
  • the mask having the largest value is selected (see the thick dotted line in FIG. 9), and in the case shown in FIG. 10, the mask having an intermediate value is selected (see the thick dotted line in FIG. 10).
  • the optimum mask can be selected in consideration of the frequency characteristics of the received signal.
  • the mask selection unit 14 selects the optimum mask based on the maximum value of the power of the received signal acquired within approximately 100 msec to approximately 300 msec before the time when the sample point of the received signal power spectrum is acquired. Instead, the optimum mask may be selected based on the total or average value of the powers of the received signals acquired within approximately 100 msec to approximately 300 msec before the time when the sample points of the received signal power spectrum are acquired.
  • FIG. 11 is a diagram schematically showing an example of selecting an optimum mask based on the average value of the power of the received signal obtained for each frequency band.
  • the solid thin line is the maximum value of the power spectrum of the received signal
  • the thick solid line is the maximum value of the power spectrum of the received signal (thin line in FIG. 9) added by frequency band (sum), and the frequency is added. It is the average value divided by the band. That is, the average value is synonymous with the sum.
  • the dotted line is a mask.
  • the mask selection unit 14 compares the average value of the received signal and the mask for each frequency band, and selects the mask closest to the received signal as the optimum mask so that the mask does not become smaller than the average value of the received signal. In FIG. 11, the mask with the smallest value is selected (see the thick dotted line in FIG. 11).
  • the optimum mask When selecting the optimum mask based on the total power of the received signal obtained for each frequency band, compare the total power of the received signal obtained for each frequency band with the total power of the basic mask. However, the mask closest to the received signal is selected as the optimum mask so that the mask does not become smaller than the total power of the received signal. In this way, by selecting the optimum mask based on the sum or average value of the power of the received signal, it is possible to reduce the influence when only the power in one frequency band protrudes.
  • the double talk detection unit 15 calculates the input signal power spectrum and the received signal power spectrum for each unit time based on the spectral waveforms input from the FFT units 12 and 19, respectively.
  • a part of the FFT unit 12 and the double talk detection unit 15 corresponds to the first power spectrum calculation unit of the present invention, and a part of the FFT unit 19 and the double talk detection unit 15 corresponds to the second power spectrum calculation unit of the present invention. Corresponds to.
  • the double talk detection unit 15 sequentially selects the value of the input signal power spectrum and the value of the optimum mask selected by the mask selection unit 14 for each frequency band each time the optimum mask is selected by the mask selection unit 14. Compare to. Then, the double talk detection unit 15 detects whether or not it is in the double talk state based on the comparison result. The double talk detection unit 15 performs a process of detecting whether or not it is in the double talk state every unit time when the input signal power spectrum is calculated.
  • the double talk state is a state in which both the near-end speaker (user A) and the far-end speaker (user B) are speaking.
  • the double talk detection unit 15 compares the value of the input signal power spectrum with the value of the optimum mask for each frequency band, and the number of frequency bands in which the value of the input signal power spectrum exceeds the value of the optimum mask (hereinafter, , Called the excess number).
  • the double talk detection unit 15 determines whether the excess number is equal to or less than the threshold value I (corresponding to the first threshold value) prepared in advance.
  • the threshold value I can be set to any value.
  • FIGS. 12 and 13 are diagrams schematically showing how the value of the input signal power spectrum and the value of the mask are compared, respectively.
  • the solid line indicates the input signal power spectrum
  • the broken line indicates the received signal
  • the alternate long and short dash line indicates the mask.
  • a mask having a small received signal acquired within the latest predetermined period and a small value is selected as the optimum mask. Since the excess number (see the circle in FIG. 13) is equal to or greater than the threshold value I, the double talk detection unit 15 detects that there is a near-end utterance.
  • the double talk detection unit 15 acquires the power spectrum of the received signal transmitted from the mobile phone 53 to the terminal 50, and obtains the signal level thereof.
  • the power spectrum of the received signal is acquired from the receiving side signal path via the FFT unit 19.
  • the double talk detection unit 15 compares the signal level of the received signal with the threshold value III prepared in advance.
  • the threshold value III can be set to any value.
  • the double talk detection unit 15 detects that there is a far-end utterance (speech of user B (see FIG. 1)) when the signal level of the received signal is equal to or higher than the threshold value III prepared in advance, and the received signal includes the utterance. do.
  • the double talk detection unit 15 detects the presence or absence of near-end utterance and far-end utterance based on the thresholds I and III, so that the double-talk state with near-end utterance and far-end utterance or near-end utterance occurs. Detects whether it is a single talk with only utterances or a single talk with only distant utterances.
  • the method by which the double talk detection unit 15 detects the presence or absence of near-end utterance is not limited to the method based on whether or not the excess number is equal to or greater than the threshold value I.
  • the double talk detection unit 15 determines whether the sum (integral value) of the portion where the value of the input signal power spectrum exceeds the value of the mask is equal to or less than the threshold value II (corresponding to the second threshold value) prepared in advance, and this result.
  • the presence or absence of near-end utterance may be detected based on.
  • the threshold value II can be set to any value.
  • FIG. 14 is a diagram schematically showing how the value of the input signal power spectrum and the value of the optimum mask are compared.
  • the solid line shows the input signal power spectrum
  • the broken line shows the received signal
  • the alternate long and short dash line shows the optimum mask.
  • a portion where the value of the input signal power spectrum exceeds the value of the mask is shaded with diagonal lines.
  • the double talk detection unit 15 obtains the area of the shaded portion.
  • the area of the portion where the value of the input signal power spectrum exceeds the value of the mask is the threshold value III or more, it is detected that the signal is transmitted along the transmitting side signal path (with near-end utterance).
  • the echo suppressor 16 performs an echo suppress process (a process of strongly suppressing the echo) on the input signal that has passed through the FFT unit 12.
  • the echo suppressor 16 enables the echo suppress process when it is a single talk with only far-end utterances, and disables the echo suppress process in other cases. Since the echo suppress process is already known, detailed description thereof will be omitted.
  • the echo suppressor 16 disables the echo suppress process and switches the echo suppress process ON / OFF in the case other than the single talk of only the far-end utterance, but switches the strength of the echo suppress process. You may. For example, in the case of a single talk with only far-end utterances, the echo may be strongly suppressed, and in other cases, the echo may be weakly suppressed.
  • the result of detecting whether or not the double talk state is in the double talk state is input to the echo suppressor 16 from the double talk detection unit 15 every unit time. Therefore, the echo suppressor 16 switches whether to enable or disable the echo suppress process every unit time.
  • the IFFT unit 17 performs an inverse FFT (IFFT, Inverse FFT) with respect to the input signal that has passed through the FFT unit 12.
  • FIG. 15 is a flowchart showing a flow of processing in which the echo suppression device 1 sequentially reduces echoes. This process is continuously performed at predetermined time intervals while the received signal and the input signal are input to the echo suppression device 1.
  • the echo removing unit 11 removes the echo from the input signal (step S11), and the double talk detection unit 15 calculates the power spectrum of the input signal from which the echo has been removed (step S12). Further, the double talk detection unit 15 calculates the received signal power spectrum (step S13), and the mask selection unit 14 selects the optimum mask from the basic masks based on the received signal power spectrum (step S14). In addition, step S11 or step S12 and step S13 may be performed at the same time.
  • the double talk detection unit 15 detects whether or not it is in the double talk state based on the input signal power spectrum calculated in step S12 and the received signal power spectrum calculated in step S13 (step S15). Then, the echo suppressor 16 is a single talk of only far-end utterance, and when it is not in the double talk state, the echo suppress process is performed on the input signal power spectrum calculated in step S12 (step S16). Finally, the IFFT unit 17 returns the input signal power spectrum to the time axis signal (step S17).
  • the frequency characteristics of the residual echo are stored as a mask, and the input signal By comparing the frequency characteristics with the mask, the double talk state is accurately detected, and when it is not in the double talk state, the echo suppress process is enabled so that the near-end sound (voice input from the microphone 51) is not deteriorated. , The echo can be suppressed surely.
  • the utterance since the size of the mask is changed according to the size of the received signal, the utterance can be detected even when the utterance is small, and the echo can be appropriately suppressed.
  • the receiving side signal path is transmitted.
  • the echo suppressor is strongly applied to the input signal, and the voice of the near-end speaker may disappear.
  • the magnitude of the learning signal is changed to generate a plurality of masks, and the mask closest to the received signal is selected as the optimum mask, that is, the magnitude of the echo that can be generated. Since the double talk state is accurately detected by using the optimum mask according to the above, it is possible to detect the utterance even when the utterance is small, and it is possible to prevent the echo suppressor from being applied more strongly than necessary.
  • the voice of the speaker adjacent to the user B may enter the received signal.
  • the double talk state cannot be appropriately detected by the mask generated assuming that the received signal is large.
  • the double talk state is accurately detected by using the optimum mask according to the magnitude of the received signal, it is possible to cope with such a situation.
  • the mask selection unit 14 sets the optimum mask based on the received signal acquired within a predetermined period before the time when the sample point is acquired. Since the basic mask is selected sequentially, stable calls can be ensured without changing the effectiveness of the echo suppressor frequently.
  • the loudness of the sound output from the speaker 52 (the loudness of the received signal) changes frequently depending on the communication state.
  • the mask changes frequently due to the frequent change in the size of the received signal, and as a result, the far end It may be difficult for the speaker to hear the voice of the near-end speaker.
  • the optimum mask based on the received signal acquired within a predetermined period before the time when the sample points are acquired, it is possible to prevent the masks from switching frequently and stabilize the call quality. ..
  • the sound may be reflected in the vehicle or the sound may be output from the speaker 52 due to the vibration of the speaker 52 or the like.
  • the optimum mask is selected based only on the magnitude of the received signal at the time when the sample points are acquired, the received signal is 0, so the echo suppressor 16 does not work and the echo is erased. I can't.
  • the optimum mask including the previous state can be selected, and the optimum mask can be selected in the vehicle. It is possible to eliminate the echo caused by the sound reflection, the vibration of the speaker 52, and the like being output as sound from the speaker 52.
  • the mask selection unit 14 omits the predetermined period in advance when selecting the optimum mask based on the received signal acquired within the predetermined period before the time when the sample point of the received signal is acquired.
  • the value of the predetermined period and the method of determining the predetermined time are not limited to this.
  • the mask generation unit 18 may measure the time from when the received signal becomes 0 until the input signal becomes 0, and determine a predetermined time based on the measured time. good. Thereby, a predetermined period can be set according to the length of the echo generated by the received signal.
  • the mask generation unit 18 changes the magnitude of the learning signal to generate a plurality of masks, but the type of mask generated by the mask generation unit 18 is not limited to this.
  • the mask generation unit 18 generates a mask when only the echo signal due to the reflection of sound in the vehicle, the vibration of the speaker 52, etc. is output as sound from the speaker 52 as an input signal. You may.
  • the mask generation unit 18 outputs the sound reflection in the vehicle, the vibration of the speaker 52, and the like as sound from the speaker 52 after the echo removal unit 11 has sufficiently completed the learning of the adaptive filter.
  • the signal transmitted through the speaker signal path (see FIGS. 7 and 8 (B)) with only the echo signal generated is used as the learning signal, and the maximum value of the learning power spectrum values is set for each frequency band. Get it and use this as a mask.
  • the mask selection unit 14 sequentially acquires the power spectra of the received signal and the input signal, and when each sample point is acquired, the received signal and the input acquired within a predetermined period before the time when the sample point is acquired. Based on the signal, the optimum mask is sequentially selected from the basic masks. For example, when the received signal is 0 and the input signal is small for several milliseconds, the mask selection unit 14 outputs the reflection of sound in the vehicle, the vibration of the speaker 52, and the like as sound from the speaker 52. The mask corresponding to the state in which only the echo signal is generated is selected as the optimum mask. As a result, the echo signal caused by the reflection of sound in the vehicle, the vibration of the speaker 52, and the like being output as sound from the speaker 52 can be appropriately eliminated.
  • the second embodiment is a mode in which the double talk state is detected for each frequency band.
  • the echo suppression device 2 according to the second embodiment will be described.
  • the same parts as those of the echo suppression device 1 according to the first embodiment are designated by the same reference numerals, and the description thereof will be omitted.
  • FIG. 16 is a diagram showing an outline of a functional block of the echo suppression device 2.
  • the echo suppression device 2 mainly includes an echo removing unit 11, an FFT unit 12, 19, a mask storage unit 13, a mask selection unit 14, a double talk detection unit 15A, an echo suppressor 16A, an IFFT unit 17, and the like. It has a mask generation unit 18 (not shown).
  • the double talk detection unit 15A detects whether or not it is in the double talk state for each frequency band.
  • the double talk detection unit 15A sequentially performs a process of detecting whether or not it is in the double talk state every unit time when the input signal power spectrum is calculated.
  • the double talk detection unit 15A compares the value of the input signal power spectrum input from the FFT unit 12 with the value of the optimum mask selected by the mask selection unit 14 for each frequency band.
  • the double talk detection unit 15A acquires the received signal transmitted from the mobile phone 53 to the terminal and obtains the signal level.
  • the double talk detection unit 15A compares the signal level of the received signal with the threshold value II.
  • the double talk detection unit 15A has a single talk of only far-end speech. It detects that it is not in the double talk state.
  • FIG. 17 is a diagram schematically showing how the value of the input signal power spectrum when the signal level of the received signal is equal to or higher than the threshold value II is compared with the value of the optimum mask.
  • the solid line shows the input signal power spectrum and the broken line shows the optimum mask.
  • the double talk detection unit 15A detects that there is a far-end utterance and there is a near-end utterance, that is, a double talk state.
  • the double talk detection unit 15A detects that the single talk is not a single talk, that is, a double talk state, in which there is a far end utterance but no near end utterance.
  • the echo suppressor 16A performs an echo suppress process on the input signal that has passed through the FFT unit 12.
  • the echo suppressor 16A enables the echo suppress processing for the frequency band detected as a single talk of only the far-end utterance, and disables the echo suppress processing for the other frequency bands.
  • the echo suppressor 16A switches whether to enable or disable the echo suppress process every unit time.
  • the double talk state can be accurately detected for each frequency band, and the echo suppress process can be enabled for each frequency band.
  • the mask storage unit holds one basic mask, and the mask selection unit generates the optimum mask.
  • the echo suppression device 3 according to the third embodiment will be described.
  • the same parts as those of the echo suppression devices 1 and 2 according to the first and second embodiments are designated by the same reference numerals, and the description thereof will be omitted.
  • FIG. 18 is a diagram showing an outline of a functional block of the echo suppression device 3.
  • the echo suppression device 3 mainly includes an echo canceling unit 11, an FFT unit 12, 19, a mask storage unit 13A, a mask selection unit 14A, a double talk detection unit 15, an echo suppressor 16, an IFFT unit 17, and the like. It has a mask generation unit 18 (not shown).
  • the mask generation unit 18 generates a mask based on the power spectrum of the learning signal calculated by the FFT unit 12, and stores the generated mask.
  • the mask generation unit 18 generates only a mask (see FIG. 5) generated assuming that the signal of the receiving side signal path is large, and only the mask is stored in the mask storage unit 13A as a basic mask.
  • the mask selection unit 14A sets the optimum mask by multiplying the basic mask by a coefficient based on the maximum value of the power of the received signal acquired within a predetermined period before the time when the sample point of the received signal power spectrum is acquired. Generate.
  • FIG. 19 is a diagram schematically showing a process in which the mask selection unit 14A generates an optimum mask.
  • the solid line shows the maximum value of the received signal spectrum acquired within a predetermined period
  • the dotted line shows the basic mask.
  • the mask selection unit 14A compares the maximum value of the power of the received signal and the basic mask for each frequency band so that the optimum mask value is not smaller than the maximum value of the received signal in any frequency band.
  • the optimum mask is generated by multiplying the basic mask by a coefficient so that the optimum mask is close to the maximum value of the received signal.
  • the mask selection unit 14A multiplies the power of each frequency band of the basic mask by a coefficient of 0.3 to generate an optimum mask.
  • the optimum mask can be generated in consideration of the frequency characteristics of the received signal.
  • this embodiment it is not necessary to store a plurality of basic masks, and the memory used can be reduced. This embodiment is effective when the shapes of the masks are similar regardless of the magnitude of the received signal.
  • the mask selection unit 14A generates the optimum mask by multiplying the power of each frequency band of the basic mask by an arbitrary coefficient regardless of the frequency band, but applies the basic mask to each frequency band.
  • the matching coefficient may be changed. For example, the coefficient may be reduced as the frequency band increases.
  • an expression showing the relationship between the size of the frequency band and the coefficient is stored in the mask storage unit 13A, and the mask selection unit 14A has the relationship between the coefficient at an arbitrary frequency and the size and the coefficient of the frequency band.
  • the coefficient in each frequency band may be obtained based on the equation showing. As a result, it is possible to generate an optimum mask that more reflects the frequency characteristics of the received signal.
  • the fourth embodiment is a mode in which the FFT unit 19 is not used.
  • the echo suppression device 4 according to the fourth embodiment will be described.
  • the same parts as those of the echo suppression devices 1 to 3 according to the first to third embodiments are designated by the same reference numerals, and the description thereof will be omitted.
  • FIG. 20 is a diagram showing an outline of a functional block of the echo suppression device 4.
  • the echo suppression device 4 mainly includes an echo removing unit 11, an FFT unit 12, a mask storage unit 13, a mask selection unit 14B, a double talk detection unit 15, an echo suppressor 16, an IFFT unit 17, and a mask generation. It has a part 18 (not shown).
  • Received signals are sequentially input to the mask selection unit 14B.
  • the mask selection unit 14 determines the magnitude of the received signal based on the received signal acquired within a predetermined period before the time when the sample points are acquired.
  • the mask according to the above (hereinafter referred to as the optimum mask) is sequentially selected from the basic masks.
  • the power of the received signal that is not divided for each frequency band is input to the mask selection unit 14B.
  • the mask selection unit 14A compares the total power of the received signals input during a certain period of time with the total power of each frequency band of the mask. Then, in the mask selection unit 14B, among the basic masks stored in the mask storage unit 13, the total power of the received signal is smaller than the total power of the mask, and the total power of the mask is the sum of the power of the received signal. Select the mask closest to the sum as the optimum mask.
  • the double talk detection unit 15B compares the input signal power spectrum input from the echo removal unit 11 with the value of the optimum mask selected by the mask selection unit 14C, and the value of the input signal power spectrum exceeds the value of the optimum mask. Count the number of frequency bands (excess number). Then, the double talk detection unit 15B detects that there is no near-end utterance when the excess number is equal to or less than an arbitrary threshold value.
  • the double talk detection unit 15B compares the magnitude of the received signal with the threshold value prepared in advance. When the magnitude of the received signal is equal to or larger than the threshold value prepared in advance, the double talk detection unit 15 has a far-end utterance (speech of user B (see FIG. 1)), and the signal is transmitted along the receiving side signal path. Detects the presence.
  • the amount of calculation for mask selection processing can be reduced.
  • the fifth embodiment is a mode in which the FFT units 12 and 19 are not used.
  • the echo suppression device 5 according to the fifth embodiment will be described.
  • the same parts as those of the echo suppression devices 1 to 4 according to the first to fourth embodiments are designated by the same reference numerals, and the description thereof will be omitted.
  • FIG. 21 is a diagram showing an outline of a functional block of the echo suppression device 5.
  • FIG. 22 is a diagram showing an outline of a functional block when a mask is generated in the echo suppression device 5.
  • the echo suppression device 5 mainly includes an echo removing unit 11, a mask storage unit 13B, a mask selection unit 14C, a double talk detection unit 15C, an echo suppressor 16B, and a mask generation unit 18A.
  • the mask generation process will be described in detail with reference to FIG. First, after the echo canceling unit 11 has sufficiently completed the learning of the adaptive filter, one-sided utterance (single talk) on the far end side in which sound is output from the speaker 52 is performed in a situation where sound is not input from the microphone 51. repeat. Then, the signal from which the echo has been removed by the echo removing unit 11 is used as the learning signal.
  • one-sided utterance single talk
  • the power of the learning signal calculated for each fixed section (learning power) is input to the mask generation unit 18A.
  • the mask generation unit 18A stores a plurality of input learning powers.
  • the mask generation unit 18A acquires the maximum value among the plurality of input learning power values, and uses this as a mask. Therefore, the generated mask has only one value.
  • the mask generation unit 18A performs a process of changing the magnitude (received level) of the learning signal to generate a plurality of masks a plurality of times to generate a plurality of masks. As a result, the magnitude of the residual echo can be accurately memorized for each reception level.
  • the mask storage unit 13B stores a plurality of masks generated by the mask generation unit 18A as basic masks.
  • Received signals are sequentially input to the mask selection unit 14C.
  • the mask selection unit 14C determines the received signal based on the received signal acquired within a predetermined period before the time when the sample points are acquired.
  • Masks according to the size (hereinafter referred to as the optimum mask) are sequentially selected from the basic masks.
  • the power of the received signal that is not divided for each frequency band is input to the mask selection unit 14C.
  • the mask selection unit 14C compares the total power of the received signals input during a certain period of time with the power of the mask. Then, in the mask selection unit 14C, among the basic masks stored in the mask storage unit 13B, the total power of the received signal is smaller than the power of the mask, and the total power of the mask becomes the total power of the received signal. Select the closest mask as the optimal mask.
  • the mask selection unit 14C selects the first mask as the optimum mask. Further, for example, when the power of the received signal input to the mask selection unit 14C is 4, the mask selection unit 14C selects the second mask as the optimum mask.
  • the double talk detection unit 15C compares the size of the input signal input from the echo removal unit 11 with the value of the optimum mask selected by the mask selection unit 14C, and when the size of the input signal is larger than the value of the optimum mask. Detects that there is a near-end utterance.
  • the double talk detection unit 15C compares the magnitude of the received signal with the threshold value prepared in advance.
  • the double talk detection unit 15C detects that there is a far-end utterance when the magnitude of the received signal is equal to or greater than a threshold value prepared in advance.
  • the echo suppressor 16B is a single talk of only far-end utterance, and when it is not in the double talk state, the echo suppress processing is enabled for the input signal passing through the echo removing unit 11, and in other cases, the echo suppress processing is performed. Disable.
  • FIG. 23 is a flowchart showing the flow of processing in which the echo suppression device 5 sequentially reduces echoes. This process is continuously performed at predetermined time intervals while the received signal and the input signal are input to the echo suppression device 1.
  • the echo removing unit 11 removes the echo from the input signal (step S11), and the mask selecting unit 14 selects the optimum mask from the basic mask based on the power of the received signal (step S18).
  • the double talk detection unit 15 detects whether or not it is in the double talk state based on the power of the input signal from which the echo has been removed in step S11 and the power of the received signal (step S19). Then, when the echo suppressor 16 is a single talk having only far-end utterances, the echo suppressor 16 performs an echo suppress process on the input signal from which the echo has been removed in step S11 (step S20).
  • the FFT process and the IFFT process are not performed, the amount of calculation can be reduced.
  • the generation of the basic mask, the generation and selection of the optimum mask, the detection of the double talk state, and the like are performed based on the power represented by the square of the amplitude, but these processes are the absolute values of the amplitude. It may be done based on.
  • Echo suppression device 11 Echo cancellation unit 12: FFT unit 13, 13A, 13B: Mask storage unit 14, 14A, 14B, 14C: Mask selection unit 15, 15A, 15B: Double talk Detection unit 16, 16A, 16B: Echo suppressor 17: IFFT unit 18, 18A: Mask generation unit 19: FFT unit 50: Terminal 51: Microphone 52: Speaker 53, 54: Mobile phone 55: Speaker amplifier 100: Voice communication system

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。 スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、学習用信号に基づいて生成された1又は複数のマスクである基礎マスクから最適マスクを逐次生成又は選択する。最適マスクが選択される毎に、入力信号と最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知し、マイクロホンに発話が入力されず、かつ、受話信号が発話を含むことが検知された場合に、入力信号に対してエコーを抑圧する処理を逐次行う。

Description

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
 本発明は、エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムに関する。
 特許文献1には、受話側信号経路を伝送される学習用信号についてのパワースペクトルに基づいたマスクと、マイクロホンから入力された入力信号についてのパワースペクトルの値を周波数帯域毎に比較してダブルトーク状態であるか否かを検知し、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて入力信号のエコーを抑圧する処理を行うエコー抑圧装置が開示されている。
特開2018-201147号公報
 しかしながら、特許文献1に記載の通話信号処理装置では、受話側信号経路の信号が大きい場合を想定してマスクを生成しているため、マイクロホン側にいる利用者(近端話者)の発話が小さく、かつ受話側信号経路を伝送される受話信号が大きい場合には、受話側信号経路を伝送される入力信号にエコーサプレッサが強くかかってしまい、近端話者の声が消えてしまうおそれがある。
 本発明はこのような事情に鑑みてなされたもので、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができるエコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムを提供することを目的とする。
 上記課題を解決するために、本発明に係るエコー抑圧装置は、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された1又は複数のマスクである基礎マスクを記憶するマスク記憶部と、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、前記最適マスクが生成又は選択される毎に、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、を備えたことを特徴とする。
 本発明に係るエコー抑圧装置によれば、スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、学習用信号に基づいて生成された1又は複数のマスクである基礎マスクから最適マスクを逐次生成又は選択する。最適マスクが選択される毎に、入力信号と最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知し、マイクロホンに発話が入力されず、かつ、受話信号が発話を含むことが検知された場合に、入力信号に対してエコーを抑圧する処理を逐次行う。このように、受話信号の大きさに応じてマスクの大きさを変えることにより、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。
 前記学習用信号の大きさを変更して複数のマスクを生成するマスク生成部を備え、前記マスク記憶部は、前記マスク生成部が生成した複数のマスクを前記基礎マスクとして記憶し、前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクの中から前記最適マスクを選択する。これにより、受話レベル毎に残留エコーの周波数特性を正確に記憶し、受話信号の大きさに応じてマスクの大きさを変えることができる。また、エコーサプレッサの効き方を頻繁に変えることなく、安定した通話を確保することができる。
 前記学習用信号に基づいて1つのマスクを生成するマスク生成部を備え、前記マスク記憶部は、前記マスク生成部が生成した1つのマスクを前記基礎マスクとして記憶し、前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクに係数を掛け合わせることで前記最適マスクを生成する。これにより、受話レベル毎に残留エコーの周波数特性を正確に記憶し、受話信号の大きさに応じてマスクの大きさを変えることができる。また、複数の基礎マスクを記憶する必要がなく、使用するメモリを減らすことができる。
 前記マイクロホンに発話が入力されず前記スピーカから音が出力された状態から、前記マイクロホンに発話が入力されず前記スピーカから音が出力されない状態に移行したときに、前記送話側信号経路を信号が伝送されなくなる時間である第1時間を測定する信号測定部を備え、前記マスク選択部は、前記第1時間を前記所定期間として前記最適マスクを逐次生成又は選択する。これにより、受話信号により発生するエコーの長さに応じて所定期間を定めることができる。
 前記入力信号についてのパワースペクトルである入力信号パワースペクトル及び前記学習用信号のパワースペクトルである学習用パワースペクトルを計算する第1パワースペクトル計算部を備え、前記マスクは、一定区間の間に取得された前記学習用パワースペクトルの周波数帯域毎の最大値であり、前記最適マスクは、周波数帯域毎に値を有し、前記ダブルトーク検知部は、前記入力信号パワースペクトルの値と前記最適マスクの値とを周波数帯域毎に比較した結果に基づいてダブルトーク状態であるか否かを検知する。これにより、正確にダブルトーク状態を検知することができる。
 前記受話信号についてのパワースペクトルである受話信号パワースペクトルを計算する第2パワースペクトル計算部を備え、前記マスク選択部は、前記受話信号パワースペクトルの最大値と前記最適マスクとを周波数帯域毎に比較して前記最適マスクを生成又は選択する。これにより、受話信号の周波数特性を考慮して最適マスクを適切に生成又は選択ことができる。
 前記ダブルトーク検知部は、前記入力信号パワースペクトルと前記最適マスクとを周波数帯域毎に比較し、前記入力信号パワースペクトルが前記最適マスクを上回る周波数帯域数が第1閾値より小さい場合、又は、前記入力信号パワースペクトルが前記最適マスクを上回る領域の積分値が第2閾値より小さい場合には、前記受話側信号経路に信号が伝達されていないことを検知する。これにより、近端発話を正確に検知することができる。
 上記課題を解決するために、本発明に係るエコー抑圧方法は、例えば、近端端末のマイクロホンに発話が入力されず、前記近端端末のスピーカから音が出力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号に基づいて1又は複数のマスクである基礎マスクを生成及び記憶するステップと、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号と、前記基礎マスクとに基づいて、前記マイクロホンから入力された入力信号の大きさに応じた大きさのマスクである最適マスクを逐次生成又は選択するステップと、前記最適マスクが選択されたら、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するステップと、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、を含むことを特徴とする。
 上記課題を解決するために、本発明に係るエコー抑圧プログラムは、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、コンピュータを、前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された1又は複数のマスクである基礎マスクを記憶するマスク記憶部と、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、前記最適マスクが選択される毎に、前記マイクロホンから入力された入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサとして機能させることを特徴とする。
 本発明によれば、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。
第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。 エコー抑圧装置1の機能ブロックの概略を示す図である。 エコー抑圧装置1においてマスクを生成するときの機能ブロックの概略を示す図である。 時刻t1における学習用パワースペクトルの一例である。 図4に示す学習用パワースペクトルを含む複数の学習用パワースペクトルが入力されたときのマスクの一例である。 受話レベルが異なる2つのマスクの例を示す図である。 近端発話がないときの受話信号と入力信号との関係を示す図であり、(A)は受話信号を示し、(B)は入力信号を示す。 近端発話がないときの受話信号と入力信号との関係を示す図であり、(A)は受話信号を示し、(B)は入力信号を示す。 サンプル点が取得された時点以前の所定期間内に取得された受話信号の周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。 サンプル点が取得された時点以前の所定期間内に取得された受話信号の周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。 周波数帯域別に求められている受話信号のパワーの総和に基づいて最適マスクを選択する例を模式的に示す図である。 入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。 入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。 入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。 エコー抑圧装置1がエコーを逐次低減する処理の流れを示すフローチャートである。 エコー抑圧装置2の機能ブロックの概略を示す図である。 受話信号の信号レベルが閾値II以上のときの入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。 エコー抑圧装置3の機能ブロックの概略を示す図である。 マスク選択部14Aが最適マスクを生成する処理を模式的に示す図である。 エコー抑圧装置4の機能ブロックの概略を示す図である。 エコー抑圧装置5の機能ブロックの概略を示す図である。 エコー抑圧装置5においてマスクを生成するときの機能ブロックの概略を示す図である。 エコー抑圧装置5がエコーを逐次低減する処理の流れを示すフローチャートである。
 以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置である。
 <第1の実施の形態>
 図1は、第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。音声通信システム100は、主として、マイクロホン51及びスピーカ52を有する端末50と、2台の携帯電話53、54と、スピーカアンプ55と、エコー抑圧装置1とを有する。
 音声通信システム100は、端末50(近端端末)を利用する近端話者(近端側にいる利用者A)が、携帯電話54(遠端端末)を利用する遠端話者(遠端側にいる利用者B)と音声通信を行なうシステムである。携帯電話54を介して入力された音声信号をスピーカ52によって拡声出力し、かつ、近端側にいる利用者の発する音声をマイクロホン51により集音して携帯電話54へ伝送することで、利用者Aは、携帯電話53を把持することなく拡声通話(ハンズフリー通話)が可能となる。携帯電話53と携帯電話54とは、一般的な電話回線により接続されている。
 エコー抑圧装置1は、マイクロホン51を介して入力された信号を、端末50から携帯電話53へ伝送する送話側信号経路に設けられる。
 エコー抑圧装置1は、例えば、音声通信システム100内の通信端末等(例えば、車載装置、会議システム、携帯端末)に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置1は、例えば、主として、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を含むコンピュータシステム及びソフトウエア(エコー抑圧プログラム)によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記憶しておき、そこからコンピュータにインストールされてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納(記憶)しておいてもよい。
 図2は、エコー抑圧装置1の機能ブロックの概略を示す図である。エコー抑圧装置1は、機能的には、主として、エコー除去部11と、周波数分析器(FFT部)12、19と、マスク記憶部13と、マスク選択部14と、ダブルトーク検知部15と、エコーサプレッサ16と、復元部(IFFT部)17とを有する。図2において、上側の信号経路は、マイクロホン51から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ52へ信号を伝送する受話側信号経路である。なお、エコー抑圧装置1の機能構成要素は、処理内容に応じてさらに多くの構成要素に分類されてもよいし、1つの構成要素が複数の構成要素の処理を実行してもよい。
 エコー除去部11は、例えば、適応フィルタを用いてエコーを除去する。エコー除去部11は、与えられた手順に従ってフィルタ係数を更新して、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される信号から擬似エコー信号を減算することで、エコーを除去するものである。なお、適応フィルタについては既に公知であるため、説明を省略する。
 なお、本実施の形態では、エコー除去部11に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部11に適用することもできる。また、エコー除去部11は必須ではないが、エコーの一部が除去された学習用信号を用いてマスクを生成することで、後に詳述するように、マスクの値が小さくなり、入力信号が小さい場合であっても、入力信号についてのパワースペクトル(以下、入力信号パワースペクトルという)の値がマスクの値を超えやすくなり、近端発話(利用者A(図1参照)の発話)があることをより正確に検知することができるため、エコー除去部11を設けることが望ましい。
 周波数分析器(FFT部)12、19は、信号に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行う。FFT部12は、送話側信号経路を伝送される信号、ここではエコー除去部11を通過した信号に対して高速フーリエ変換を行い、FFT部19は、受話側信号経路を伝送される受話信号に対して高速フーリエ変換を行う。FFT部12、19は、時間の関数を周波数の関数に変換した結果を周波数帯域i毎のX[i]として求める。
 マスク記憶部13は、マスク生成部18(図3参照)により生成されたマスクを記憶する。以下、マスクの生成について詳細に説明する。マスクは、エコー抑圧装置1がエコーを抑圧する処理を行なう前に、前もって生成される。
 図3は、エコー抑圧装置1においてマスクを生成するときの機能ブロックの概略を示す図である。エコー抑圧装置1は、マスク生成部18を機能的に有する。マスクの生成処理は、主として、マスク生成部18で行われる。
 マスクの生成処理について詳細に説明する。まず、エコー除去部11において十分に適応フィルタの学習を終えた後に、近端発話がない状況下で、スピーカ52から音が出力される遠端側の片側発話(シングルトーク)を繰り返す。そして、シングルトーク時に送話側信号経路を伝送される信号を学習用信号とする。エコー抑圧装置1においては、エコー除去部11によりエコーが除去された信号が学習用信号となる。
 学習用信号は、FFT部12に入力される。FFT部12は、学習用信号に対して高速フーリエ変換を行い、マスク生成部18に入力する。マスク生成部18は、学習用信号についてのパワースペクトルを一定区間毎に計算して、複数の学習用パワースペクトルを求める。ここで、一定区間とは、任意に定められた所定の時間領域であり、時刻t1、t2、t3・・・で示す。
 なお、パワースペクトルP[i]とは、高速フーリエ変換によって求められた周波数要素i毎のX[i]のパワーを周波数要素の関数として表したものである(数式(1)参照)。
Figure JPOXMLDOC01-appb-M000001
・・・(1)
 図4は、時刻t1における学習用パワースペクトルの一例である。以下、パワースペクトルにおけるパワー(縦軸の値)を、パワースペクトルの値という。パワースペクトルの横軸は周波数である。マスク生成部18は、一定区間毎に計算された複数の学習用パワースペクトルを記憶する。
 マスク生成部18は、周波数帯域毎に、複数の学習用パワースペクトルの値のうちの最大値を取得し、これをマスクとする。図5は、図4に示す学習用パワースペクトルを含む複数の学習用パワースペクトルが入力されたときのマスクの一例である。そして、マスク生成部18は生成したマスクをマスク記憶部13に出力し、マスク記憶部13はマスクを記憶する。
 本実施の形態では、マスク生成部18は、学習用信号の大きさ(受話レベル)を変更して複数のマスクを生成する。図6は、受話レベルが異なる2つのマスクの例を示す図である。図6における実線は、受話レベルが大きい場合、すなわちエコーが大きく返り得る場合のマスクであり、図6における破線は、受話レベルが小さい場合のマスクである。このように、マスク生成部18は、学習用信号の大きさを変更してマスクを生成する処理を複数回行い、複数のマスクを生成する。これにより、受話レベル毎に、残留エコーの周波数特性を正確に記憶することができる。
 なお、マスク生成部18が生成し、マスク記憶部13が記憶するマスクの数は2つに限られず、3つ以上であってもよい。以下、マスク記憶部13が記憶する複数のマスクを基礎マスクという。
 図2の説明に戻る。マスク選択部14には、ダブルトーク検知部15から受話信号についてのパワースペクトル(以下、受話信号パワースペクトルという)が逐次入力される。マスク選択部14は、受話信号パワースペクトルが逐次入力された(サンプル点が取得された)ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク(以下、最適マスクという)を基礎マスクから逐次選択する。
 ここで、サンプル点が取得された時点以前の所定期間は、受話信号が0になってから(スピーカ52から音が出力されなくなってから)入力信号の値が0となるまでに要する時間を基準に求められる。この所定時間は、受話信号の大きさによっても変化するが、短い場合で数10m秒~数100m秒程度であり、長い場合で1秒~2秒程度である。
 図7、8は、近端発話がない(マイクロホン51に発話が入力されていない)ときの受話信号と入力信号との関係を示す図であり、(A)は受話信号を示し、(B)は入力信号を示す。図7は受話信号のレベルが小さい場合であり、図8は受話信号のレベルが大きい場合を示す。
 車内での音の反射や、スピーカ52の振動等がスピーカ52から音になって出力されるため、近端発話が無くてもエコー信号が入力信号として存在する。受話信号のレベルが小さい場合には、受話信号が0になってからも入力信号が略100m秒程度存在し、受話信号のレベルが大きい場合には、受話信号が0になってからも入力信号が略150m秒程度存在する。したがって、本実施の形態では、所定時間を略100m秒~略300m秒とする。
 マスク選択部14は、受話信号パワースペクトルのサンプル点が取得された時点以前の略100m秒~略300m秒内に取得された受話信号のパワーの最大値に基づいて最適マスクを選択する。
 図9、10は、サンプル点が取得された時点以前の所定期間内に取得された受話信号パワースペクトルの周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。図9、10において、実線は所定期間内に取得された受話信号スペクトルの最大値を示し、点線は基礎マスクを示す。ここでは、3つのマスクが基礎マスクとして記憶されているものとする。マスク選択部14は、受話信号のパワーの最大値と基礎マスクとを周波数帯域毎に比較して、いずれの周波数帯域においても、受話信号の最大値よりもマスクの値が小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。図9に示す場合には、最も値が大きいマスクが選択され(図9太点線参照)、図10に示す場合には、中間の値のマスクが選択される(図10太点線参照)。これにより、受話信号の周波数特性を考慮して最適マスクを選択することができる。
 なお、マスク選択部14は、受話信号パワースペクトルのサンプル点が取得された時点以前の略100m秒~略300m秒内に取得された受話信号のパワーの最大値に基づいて最適マスクを選択するのではなく、受話信号パワースペクトルのサンプル点が取得された時点以前の略100m秒~略300m秒内に取得された受話信号のパワーの総和や平均値に基づいて最適マスクを選択してもよい。
 図11は、周波数帯域別に求められている受話信号のパワーの平均値に基づいて最適マスクを選択する例を模式的に示す図である。図11において、実線の細線は受話信号のパワースペクトルの最大値であり、実線の太線は受話信号のパワースペクトルの最大値(図9における細線)を周波数帯域別に足し合わせ(総和)、それを周波数帯域で割った平均値である。つまり、平均値は総和と同義である。また、図11において、点線はマスクである。
 マスク選択部14は、受話信号の平均値とマスクとを周波数帯域毎に比較し、受話信号の平均値よりもマスクが小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。図11においては、最も小さい値のマスクが選択される(図11太点線参照)。
 なお、周波数帯域別に求められている受話信号のパワーの総和に基づいて最適マスクを選択する場合には、周波数帯域別に求められている受話信号のパワーの総和と基礎マスクのパワーの総和とを比較し、受話信号のパワーの総和よりもマスクが小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。このように、受話信号のパワーの総和や平均値に基づいて最適マスクを選択することで、1つの周波数帯域におけるパワーのみが突出した場合にその影響を低減することができる。
 図2の説明に戻る。ダブルトーク検知部15は、FFT部12、19から入力されたスペクトル波形に基づいて、それぞれ、入力信号パワースペクトル及び受話信号パワースペクトルを単位時間毎に計算する。なお、FFT部12及びダブルトーク検知部15の一部が本発明の第1パワースペクトル計算部に相当し、FFT部19及びダブルトーク検知部15の一部が本発明の第2パワースペクトル計算部に相当する。
 また、ダブルトーク検知部15は、マスク選択部14で最適マスクが選択される毎に、逐次、入力信号パワースペクトルの値と、マスク選択部14で選択された最適マスクの値とを周波数帯域毎に比較する。そして、ダブルトーク検知部15は、比較した結果に基づいて、ダブルトーク状態であるか否かを検知する。ダブルトーク検知部15は、ダブルトーク状態であるか否かを検知する処理を、入力信号パワースペクトルが計算される単位時間毎に行う。
 以下、ダブルトーク検知部15において、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。ここで、ダブルトーク状態とは、近端話者(利用者A)及び遠端話者(利用者B)が共に発話している状態である。
 まず、ダブルトーク検知部15は、周波数帯域毎に、入力信号パワースペクトルの値と、最適マスクの値とを比較し、入力信号パワースペクトルの値が最適マスクの値を上回る周波数帯域の数(以下、超過数という)を数える。ダブルトーク検知部15は、超過数が予め用意した閾値I(第1閾値に相当)以下であるかを求める。なお、閾値Iは、任意の値に設定することができる。
 図12、13は、それぞれ、入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。図12、13において、実線は入力信号パワースペクトルを示し、破線は受話信号を示し、一点鎖線はマスクを示す。
 図12に示す場合は、直近の所定期間内に取得された受話信号が大きく、値が大きいマスクが最適マスクとして選択されている。ダブルトーク検知部15は、超過数が0であり閾値I(例えば、閾値I=3)以下であるため、近端発話無しであることを検知する。
 図13に示す場合は、直近の所定期間内に取得された受話信号が小さく、値が小さいマスクが最適マスクとして選択されている。ダブルトーク検知部15は、超過数(図13丸印参照)が閾値I以上であるため、近端発話有りであることを検知する。
 また、ダブルトーク検知部15は、携帯電話53から端末50へと送信される受話信号のパワースペクトルを取得し、その信号レベルを求める。受話信号のパワースペクトルは、受話側信号経路からFFT部19を介して取得される。ダブルトーク検知部15は、受話信号の信号レベルと、予め用意した閾値IIIとを比較する。なお、閾値IIIは、任意の値に設定することができる。
 ダブルトーク検知部15は、受話信号の信号レベルが予め用意した閾値III以上の場合に、遠端発話(利用者B(図1参照)の発話)があり、受話信号が発話を含むことを検知する。
 このように、ダブルトーク検知部15は、閾値I、IIIに基づいて近端発話及び遠端発話の有無を検知することで、近端発話及び遠端発話が有るダブルトーク状態か、近端発話のみのシングルトークであるか、遠端発話のみのシングルトークであるかを検知する。
 なお、ダブルトーク検知部15が近端発話の有無を検知する方法は、超過数が閾値I以上か否かに基づいて行う方法に限られない。例えば、ダブルトーク検知部15は、入力信号パワースペクトルの値がマスクの値を上回る部分の総和(積分値)が予め用意した閾値II(第2閾値に相当)以下であるかを求め、この結果に基づいて近端発話の有無を検知してもよい。なお、閾値IIは、任意の値に設定することができる。
 図14は、入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。図14において、実線は入力信号パワースペクトルを示し、破線は受話信号を示し、一点鎖線は最適マスクを示す。また、図14において、入力信号パワースペクトルの値がマスクの値を上回る部分には、斜線で網掛け表示している。ダブルトーク検知部15は、網掛け部分の面積を求める。図14では、入力信号パワースペクトルの値がマスクの値を上回る部分の面積が閾値III以上であるため、送話側信号経路を信号が伝送されている(近端発話あり)ことを検知する。
 図2の説明に戻る。エコーサプレッサ16は、FFT部12を通過した入力信号に対してエコーサプレス処理(エコーを強く抑圧する処理)を行なう。エコーサプレッサ16は、遠端発話のみのシングルトークである場合には、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。エコーサプレス処理は、既に公知であるため、詳細な説明を省略する。
 なお、本実施の形態では、エコーサプレッサ16は、遠端発話のみのシングルトーク以外の場合にエコーサプレス処理を無効にしてエコーサプレス処理のON/OFFを切り替えたが、エコーサプレス処理の強弱を切り替えてもよい。例えば、遠端発話のみのシングルトークである場合にはエコーを強く抑圧し、その他の場合にはエコーを弱く抑圧してもよい。
 ダブルトーク検知部15からエコーサプレッサ16へは、ダブルトーク状態であるか否かを検知した結果が単位時間毎に入力される。したがって、エコーサプレッサ16は、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。
 IFFT部17は、FFT部12を通過した入力信号に対して逆FFT(IFFT、Inverse FFT)を行う。
 図15は、エコー抑圧装置1がエコーを逐次低減する処理の流れを示すフローチャートである。この処理は、受話信号及び入力信号がエコー抑圧装置1に入力される間、所定時間毎に連続して行われる。
 まず、エコー除去部11は入力信号からエコーを除去し(ステップS11)、ダブルトーク検知部15はエコーが除去された入力信号のパワースペクトルを算出する(ステップS12)。また、ダブルトーク検知部15は受話信号パワースペクトルを算出し(ステップS13)、マスク選択部14は受話信号パワースペクトルに基づいて基礎マスクから最適マスクを選択する(ステップS14)。なお、ステップS11又はステップS12と、ステップS13とは同時に行なってもよい。
 次に、ダブルトーク検知部15は、ステップS12で算出された入力信号パワースペクトル及びステップS13で算出された受話信号パワースペクトルに基づいてダブルトーク状態か否かを検知する(ステップS15)。そして、エコーサプレッサ16は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、ステップS12で算出された入力信号パワースペクトルに対してエコーサプレス処理を行う(ステップS16)。最後に、IFFT部17が入力信号パワースペクトルを時間軸信号に戻す(ステップS17)。
 本実施の形態によれば、近端発話による入力信号と、遠端発話の残留エコーとが異なる周波数特性をもつことに着目し、残留エコーの周波数特性をマスクとして記憶しておき、入力信号の周波数特性とマスクとを比較することでダブルトーク状態を正確に検知し、ダブルトーク状態でないときにはエコーサプレス処理を有効にすることで、近端音声(マイクロホン51から入力された音声)を劣化させず、確実にエコーを抑圧することができる。
 また、本実施の形態によれば、受話信号の大きさに応じてマスクの大きさを変えるため、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。
 例えば、受話信号が大きい時を想定して生成されたマスクのみを用いる場合、マイクロホン側にいる利用者(近端話者)の発話が小さく、かつ受話信号が大きいときには、受話側信号経路を伝送される入力信号にエコーサプレッサが強くかかってしまい、近端話者の声が消えてしまうおそれがある。それに対し、本実施の形態では、学習用信号の大きさを変更して複数のマスクを生成し、その中から受話信号に最も近いマスクを最適マスクとして選択する、すなわち発生し得るエコーの大きさに合わせた最適マスクを用いてダブルトーク状態を正確に検知するため、発話が小さい場合にも発話を検知することができ、かつエコーサプレッサが必要以上に強くかかることを防ぐことができる。
 また、例えば、遠端話者(利用者B)がコールセンターである場合には、利用者Bに隣接する話者の声が受話信号に入ってしまうことがある。このような場合には、小さい受話信号が継続するため、受話信号が大きい時を想定して生成されたマスクではダブルトーク状態を適切に検知することができない。それに対し、本実施の形態では、受話信号の大きさに合わせた最適マスクを用いてダブルトーク状態を正確に検知するため、このような状況下においても対応可能である。
 また、本実施の形態によれば、マスク選択部14は、受話信号パワースペクトルが逐次入力されたら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを基礎マスクから逐次選択するため、エコーサプレッサの効き方を頻繁に変えることなく、安定した通話を確保することができる。
 携帯電話53と携帯電話54とは一般的な電話回線により接続されているため、通信状態によっては、スピーカ52から出力される音の大きさ(受話信号の大きさ)が頻繁に変わる。サンプル点が取得された時点の受話信号の大きさのみに基づいて最適マスクを選択する場合には、受話信号の大きさが頻繁に変わることでマスクが頻繁に切り替わってしまい、その結果、遠端話者が近端話者の声を聞きとり難くなる恐れがある。それに対し、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択することで、マスクが頻繁に切り替わることを防ぐことができ、通話の品質が安定する。
 また、受話側から信号が入力されていない場合であっても、車内で音が反射したり、スピーカ52の振動等によりスピーカ52から音が出力されたりすることがある。このような場合には、サンプル点が取得された時点の受話信号の大きさのみに基づいて最適マスクを選択すると、受話信号は0であるため、エコーサプレッサ16が機能せず、エコーを消すことができない。それに対し、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択することで、以前の状態を含めて最適マスクを選択することができ、車内での音の反射やスピーカ52の振動等がスピーカ52から音になって出力されることによるエコーを消すことができる。
 なお、本発明の形態では、マスク選択部14は、受話信号のサンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択するにあたり、所定期間を予め略100m秒~略300m秒と定めたが、所定期間の値及び所定時間の定め方はこれに限られない。例えば、マスク生成部18は、マスクを生成するときに、受話信号が0になってから入力信号が0になるまでの時間を測定し、当該測定された時間に基づいて所定時間を定めてもよい。これにより、受話信号により発生するエコーの長さに応じて所定期間を定めることができる。
 また、本発明の形態では、マスク生成部18は、学習用信号の大きさを変更して複数のマスクを生成したが、マスク生成部18が生成するマスクの種類はこれに限られない。例えば、マスク生成部18は、車内での音の反射やスピーカ52の振動等がスピーカ52から音になって出力されることによるエコー信号のみが入力信号として入力されているときのマスクを生成してもよい。このとき、マスク生成部18は、エコー除去部11において十分に適応フィルタの学習を終えた後に、車内での音の反射やスピーカ52の振動等がスピーカ52から音になって出力されることによるエコー信号のみが発生した状態で送話側信号経路を伝送される信号(図7、8(B)参照)を学習用信号とし、学習用パワースペクトルの値のうちの最大値を周波数帯域毎に取得し、これをマスクとする。
 そして、マスク選択部14は、受話信号及び入力信号のパワースペクトルを逐次取得し、それぞれのサンプル点が取得されたら、サンプル点が取得された時点以前の所定期間内に取得された受話信号及び入力信号に基づいて、最適マスクを基礎マスクから逐次選択する。例えば、受話信号が0で入力信号が小さい状態が数ミリ秒継続した場合には、マスク選択部14は、車内での音の反射やスピーカ52の振動等がスピーカ52から音になって出力されることによるエコー信号のみが発生した状態に対応するマスクを最適マスクとして選択する。これにより、車内での音の反射やスピーカ52の振動等がスピーカ52から音になって出力されることによるエコー信号を適切に消すことができる。
 <第2の実施の形態>
 第2の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第2の実施の形態に係るエコー抑圧装置2について説明する。なお、第1の実施の形態に係るエコー抑圧装置1と同一の部分については、同一の符号を付し、説明を省略する。
 図16は、エコー抑圧装置2の機能ブロックの概略を示す図である。エコー抑圧装置2は、主として、エコー除去部11と、FFT部12、19と、マスク記憶部13と、マスク選択部14と、ダブルトーク検知部15Aと、エコーサプレッサ16Aと、IFFT部17と、マスク生成部18(図示省略)とを有する。
 ダブルトーク検知部15Aは、ダブルトーク状態であるか否かを周波数帯域毎に検知する。なお、ダブルトーク検知部15Aは、ダブルトーク状態であるか否かを検知する処理を、入力信号パワースペクトルが計算される単位時間毎に逐次行う。
 以下、ダブルトーク検知部15Aにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部15Aは、周波数帯域毎に、FFT部12から入力された入力信号パワースペクトルの値と、マスク選択部14で選択された最適マスクの値とを比較する。
 また、ダブルトーク検知部15Aは、携帯電話53から端末へと送信される受話信号を取得し、その信号レベルを求める。ダブルトーク検知部15Aは、受話信号の信号レベルと、閾値IIとを比較する。
 そして、ダブルトーク検知部15Aは、入力信号パワースペクトルの値が最適マスクの値を上回っていない周波数帯域について、受話信号の信号レベルが閾値II以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないことを検知する。
 図17は、受話信号の信号レベルが閾値II以上のときの入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。図17において、実線は入力信号パワースペクトルを示し、破線は最適マスクを示す。
 図17の実線の丸印で囲んだ周波数帯域は、入力信号パワースペクトルの値が最適マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部15Aは、遠端発話があり、かつ近端発話がある、すなわちダブルトーク状態であることを検知する。
 それに対し、図17の点線の丸印で囲んだ周波数帯域は、入力信号パワースペクトルの値が最適マスクの値を上回っていない。したがって、この周波数帯域については、ダブルトーク検知部15Aは、遠端発話があるが近端発話がない遠端発話のみのシングルトーク、すなわちダブルトーク状態ではないことを検知する。
 図16の説明に戻る。エコーサプレッサ16Aは、FFT部12を通過した入力信号に対してエコーサプレス処理を行う。エコーサプレッサ16Aは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の周波数帯域についてはエコーサプレス処理を無効にする。エコーサプレッサ16Aは、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。
 本実施の形態によれば、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。
 <第3の実施の形態>
 第3の実施の形態は、マスク記憶部が1つの基礎マスクを保持し、マスク選択部で最適マスクを生成する形態である。以下、第3の実施の形態に係るエコー抑圧装置3について説明する。なお、第1、2の実施の形態に係るエコー抑圧装置1、2と同一の部分については、同一の符号を付し、説明を省略する。
 図18は、エコー抑圧装置3の機能ブロックの概略を示す図である。エコー抑圧装置3は、主として、エコー除去部11と、FFT部12、19と、マスク記憶部13Aと、マスク選択部14Aと、ダブルトーク検知部15と、エコーサプレッサ16と、IFFT部17と、マスク生成部18(図示省略)とを有する。
 マスク生成部18は、FFT部12により計算された学習用信号についてのパワースペクトルに基づいてマスクを生成し、生成したマスクを記憶する。マスク生成部18は、受話側信号経路の信号が大きい時を想定して生成されたマスク(図5参照)のみを生成し、当該マスクのみが基礎マスクとしてマスク記憶部13Aに記憶される。
 マスク選択部14Aは、受話信号パワースペクトルのサンプル点が取得された時点以前の所定期間内に取得された受話信号のパワーの最大値に基づいて、基礎マスクに係数を掛け合わせることで最適マスクを生成する。
 図19は、マスク選択部14Aが最適マスクを生成する処理を模式的に示す図である。図19において、実線は所定期間内に取得された受話信号スペクトルの最大値を示し、点線は基礎マスクを示す。マスク選択部14Aは、受話信号のパワーの最大値と基礎マスクとを周波数帯域毎に比較して、いずれの周波数帯域においても、受話信号の最大値よりも最適マスクの値が小さくならないように、かつ、最適マスクが受話信号の最大値に近接するように、基礎マスクに係数を掛け合わせることで最適マスクを生成する。図18に示す例では、マスク選択部14Aは、基礎マスクの各周波数帯域のパワーに係数0.3をかけて最適マスクを生成する。これにより、受話信号の周波数特性を考慮して最適マスクを生成することができる。
 本実施の形態によれば、複数の基礎マスクを記憶する必要がなく、使用するメモリを減らすことができる。本実施の形態は、受話信号の大きさによらずマスクの形状が類似するときに有効である。
 なお、本実施の形態では、マスク選択部14Aは、周波数帯域によらず、基礎マスクの各周波数帯域のパワーに任意の係数をかけて最適マスクを生成したが、周波数帯域毎に基礎マスクに掛け合わせる係数を変えてもよい。例えば、周波数帯域が大きくなるにつれて係数を小さくしてもよい。この場合には、周波数帯域の大きさと係数との関係を示す式をマスク記憶部13Aに保持しておき、マスク選択部14Aは、任意の周波数における係数と、周波数帯域の大きさと係数との関係を示す式に基づいて各周波数帯域における係数を求めればよい。これにより、受話信号の周波数特性をより反映した最適マスクを生成することができる。
 <第4の実施の形態>
 第4の実施の形態は、FFT部19を用いない形態である。以下、第4の実施の形態に係るエコー抑圧装置4について説明する。なお、第1の実施の形態~第3の実施の形態に係るエコー抑圧装置1~3と同一の部分については、同一の符号を付し、説明を省略する。
 図20は、エコー抑圧装置4の機能ブロックの概略を示す図である。エコー抑圧装置4は、主として、エコー除去部11と、FFT部12と、マスク記憶部13と、マスク選択部14Bと、ダブルトーク検知部15と、エコーサプレッサ16と、IFFT部17と、マスク生成部18(図示省略)とを有する。
 マスク選択部14Bには、受話信号が逐次入力される。マスク選択部14は、受話信号が逐次入力された(サンプル点が取得された)ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク(以下、最適マスクという)を基礎マスクから逐次選択する。
 本実施の形態ではFFT部19を用いないため、マスク選択部14Bには、周波数帯域毎に分かれていない受話信号のパワーが入力される。そして、マスク選択部14Aは、一定時間の間に入力された受話信号のパワーの総和と、マスクの周波数帯域毎のパワーの総和とを比較する。そして、マスク選択部14Bは、マスク記憶部13に記憶された基礎マスクのうち、マスクのパワーの総和よりも受話信号のパワーの総和が小さく、かつ、マスクのパワーの総和が受話信号のパワーの総和に最も近いマスクを最適マスクとして選択する。
 ダブルトーク検知部15Bは、エコー除去部11から入力された入力信号パワースペクトルと、マスク選択部14Cが選択した最適マスクの値とを比較し、入力信号パワースペクトルの値が最適マスクの値を上回る周波数帯域の数(超過数)を数える。そして、ダブルトーク検知部15Bは、超過数が任意の閾値以下である場合に近端発話無しであることを検知する。
 また、ダブルトーク検知部15Bは、受話信号の大きさと、予め用意した閾値とを比較する。ダブルトーク検知部15は、受話信号の大きさが予め用意した閾値以上の場合に、遠端発話(利用者B(図1参照)の発話)があり、受話側信号経路を信号が伝送されていることを検知する。
 本実施の形態によれば、マスクの選択処理の演算量を減らすことができる。
 <第5の実施の形態>
 第5の実施の形態は、FFT部12、19を用いない形態である。以下、第5の実施の形態に係るエコー抑圧装置5について説明する。なお、第1の実施の形態~第4の実施の形態に係るエコー抑圧装置1~4と同一の部分については、同一の符号を付し、説明を省略する。
 図21は、エコー抑圧装置5の機能ブロックの概略を示す図である。図22は、エコー抑圧装置5においてマスクを生成するときの機能ブロックの概略を示す図である。エコー抑圧装置5は、主として、エコー除去部11と、マスク記憶部13Bと、マスク選択部14Cと、ダブルトーク検知部15Cと、エコーサプレッサ16Bと、マスク生成部18Aとを有する。
 まず、図22を用いてマスクの生成処理について詳細に説明する。まず、エコー除去部11において十分に適応フィルタの学習を終えた後に、マイクロホン51から音が入力されていない状況下で、スピーカ52から音が出力される遠端側の片側発話(シングルトーク)を繰り返す。そして、エコー除去部11によりエコーが除去された信号を学習用信号とする。
 一定区間毎に計算された学習用信号のパワー(学習用パワー)は、マスク生成部18Aに入力される。マスク生成部18Aは、入力された複数の学習用パワーを記憶する。マスク生成部18Aは、入力された複数の学習用パワーの値のうちの最大値を取得し、これをマスクとする。したがって、生成されたマスクは値を1つだけ有する。
 本実施の形態では、マスク生成部18Aは、学習用信号の大きさ(受話レベル)を変更して複数のマスクを生成する処理を複数回行い、複数のマスクを生成する。これにより、受話レベル毎に、残留エコーの大きさを正確に記憶することができる。
 図21の説明に戻る。マスク記憶部13Bは、マスク生成部18Aにより生成された複数のマスクを基礎マスクとして記憶する。
 マスク選択部14Cには、受話信号が逐次入力される。マスク選択部14Cは、受話信号パワースペクトルが逐次入力された(サンプル点が取得された)ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク(以下、最適マスクという)を基礎マスクから逐次選択する。
 本実施の形態ではFFT部19を用いないため、マスク選択部14Cには、周波数帯域毎に分かれていない受話信号のパワーが入力される。マスク選択部14Cは、一定時間の間に入力された受話信号のパワーの総和と、マスクのパワーとを比較する。そして、マスク選択部14Cは、マスク記憶部13Bに記憶された基礎マスクのうち、マスクのパワーよりも受話信号のパワーの総和が小さく、かつ、マスクのパワーの総和が受話信号のパワーの総和に最も近いマスクを最適マスクとして選択する。
 例えば、マスク記憶部13Bに3つのマスク(受話レベルが3のときの第1マスク、受話レベルが6のときの第2マスク、受話レベルが9の時の第3マスク)が記憶されており、マスク選択部14Cに入力された受話信号のパワーが2である場合には、マスク選択部14Cは第1マスクを最適マスクとして選択する。また、例えば、マスク選択部14Cに入力された受話信号のパワーが4である場合には、マスク選択部14Cは第2マスクを最適マスクとして選択する。
 ダブルトーク検知部15Cは、エコー除去部11から入力された入力信号の大きさと、マスク選択部14Cが選択した最適マスクの値とを比較し、入力信号の大きさが最適マスクの値より大きい場合には、近端発話ありと検知する。
 また、ダブルトーク検知部15Cは、受話信号の大きさと、予め用意した閾値とを比較する。ダブルトーク検知部15Cは、受話信号の大きさが予め用意した閾値以上の場合に、遠端発話有りであることを検知する。
 エコーサプレッサ16Bは、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、エコー除去部11を通過した入力信号に対してエコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。
 図23は、エコー抑圧装置5がエコーを逐次低減する処理の流れを示すフローチャートである。この処理は、受話信号及び入力信号がエコー抑圧装置1に入力される間、所定時間毎に連続して行われる。
 まず、エコー除去部11は入力信号からエコー除去し(ステップS11)、マスク選択部14は受話信号のパワーに基づいて基礎マスクから最適マスクを選択する(ステップS18)。
 次に、ダブルトーク検知部15は、ステップS11でエコーが除去された入力信号のパワー及び受話信号のパワーに基づいてダブルトーク状態か否かを検知する(ステップS19)。そして、エコーサプレッサ16は、遠端発話のみのシングルトークである場合には、ステップS11でエコーが除去された入力信号に対してエコーサプレス処理を行う(ステップS20)。
 本実施の形態によれば、FFT処理及びIFFT処理を行わないため、演算量を削減することができる。
 以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。特に、実施の形態においては、振幅の二乗で表されるパワーに基づいて基礎マスクの生成、最適マスクの生成や選択、ダブルトーク状態の検知等を行ったが、これらの処理は振幅の絶対値に基づいて行ってもよい。
1、2、3、4、5:エコー抑圧装置
11  :エコー除去部
12  :FFT部
13、13A、13B:マスク記憶部
14、14A、14B、14C:マスク選択部
15、15A、15B:ダブルトーク検知部
16、16A、16B:エコーサプレッサ
17  :IFFT部
18、18A:マスク生成部
19  :FFT部
50  :端末
51  :マイクロホン
52  :スピーカ
53、54:携帯電話
55  :スピーカアンプ
100 :音声通信システム

Claims (9)

  1.  スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、
     前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された1又は複数のマスクである基礎マスクを記憶するマスク記憶部と、
     前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、
     前記最適マスクが生成又は選択される毎に、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、
     前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、
     を備えたことを特徴とするエコー抑圧装置。
  2.  前記学習用信号の大きさを変更して複数のマスクを生成するマスク生成部を備え、
     前記マスク記憶部は、前記マスク生成部が生成した複数のマスクを前記基礎マスクとして記憶し、
     前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクの中から前記最適マスクを選択する
     ことを特徴とする請求項1に記載のエコー抑圧装置。
  3.  前記学習用信号に基づいて1つのマスクを生成するマスク生成部を備え、
     前記マスク記憶部は、前記マスク生成部が生成した1つのマスクを前記基礎マスクとして記憶し、
     前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクに係数を掛け合わせることで前記最適マスクを生成する
     ことを特徴とする請求項1に記載のエコー抑圧装置。
  4.  前記マイクロホンに発話が入力されず前記スピーカから音が出力された状態から、前記マイクロホンに発話が入力されず前記スピーカから音が出力されない状態に移行したときに、前記送話側信号経路を信号が伝送されなくなる時間である第1時間を測定する信号測定部を備え、
     前記マスク選択部は、前記第1時間を前記所定期間として前記最適マスクを逐次生成又は選択する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  5.  前記入力信号についてのパワースペクトルである入力信号パワースペクトル及び前記学習用信号のパワースペクトルである学習用パワースペクトルを計算する第1パワースペクトル計算部を備え、
     前記マスクは、一定区間の間に取得された前記学習用パワースペクトルの周波数帯域毎の最大値であり、
     前記最適マスクは、周波数帯域毎に値を有し、
     前記ダブルトーク検知部は、前記入力信号パワースペクトルの値と前記最適マスクの値とを周波数帯域毎に比較した結果に基づいてダブルトーク状態であるか否かを検知する
     ことを特徴とする請求項1から4のいずれか一項に記載のエコー抑圧装置。
  6.  前記受話信号についてのパワースペクトルである受話信号パワースペクトルを計算する第2パワースペクトル計算部を備え、
     前記マスク選択部は、前記受話信号パワースペクトルの最大値と前記最適マスクとを周波数帯域毎に比較して前記最適マスクを生成又は選択する
     ことを特徴とする請求項5に記載のエコー抑圧装置。
  7.  前記ダブルトーク検知部は、前記入力信号パワースペクトルと前記最適マスクとを周波数帯域毎に比較し、前記入力信号パワースペクトルが前記最適マスクを上回る周波数帯域数が第1閾値より小さい場合、又は、前記入力信号パワースペクトルが前記最適マスクを上回る領域の積分値が第2閾値より小さい場合には、前記マイクロホンに発話が入力されていないことを検知する
     ことを特徴とする請求項5又は6に記載のエコー抑圧装置。
  8.  近端端末のマイクロホンに発話が入力されず、前記近端端末のスピーカから音が出力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号に基づいて1又は複数のマスクである基礎マスクを生成及び記憶するステップと、
     前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号と、前記基礎マスクとに基づいて、前記マイクロホンから入力された入力信号の大きさに応じた大きさのマスクである最適マスクを逐次生成又は選択するステップと、
     前記最適マスクが選択されたら、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するステップと、
     前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、
     を含むことを特徴とするエコー抑圧方法。
  9.  スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、
     コンピュータを、
     前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された1又は複数のマスクである基礎マスクを記憶するマスク記憶部と、
     前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、
     前記最適マスクが生成又は選択される毎に、前記マイクロホンから入力された入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、
     前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、
     して機能させることを特徴とするエコー抑圧プログラム。
PCT/JP2021/014808 2020-04-13 2021-04-07 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム WO2021210473A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21788431.1A EP4138307A4 (en) 2020-04-13 2021-04-07 ECHO CANCELLATION DEVICE, ECHO CANCELLATION METHOD, AND ECHO CANCELLATION PROGRAM
US17/801,955 US20230079749A1 (en) 2020-04-13 2021-04-07 Echo suppression device, echo suppression method, and echo suppression program
CN202180013053.5A CN115053460A (zh) 2020-04-13 2021-04-07 回波抑制装置、回波抑制方法以及回波抑制程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-071463 2020-04-13
JP2020071463A JP7382273B2 (ja) 2020-04-13 2020-04-13 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Publications (1)

Publication Number Publication Date
WO2021210473A1 true WO2021210473A1 (ja) 2021-10-21

Family

ID=78079895

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/014808 WO2021210473A1 (ja) 2020-04-13 2021-04-07 エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Country Status (5)

Country Link
US (1) US20230079749A1 (ja)
EP (1) EP4138307A4 (ja)
JP (1) JP7382273B2 (ja)
CN (1) CN115053460A (ja)
WO (1) WO2021210473A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192126B1 (en) * 1996-11-27 2001-02-20 Nokia Mobile Phones Ltd. Double talk detector, method for double talk detection and device incorporating such a detector
JP2006033789A (ja) * 2004-06-16 2006-02-02 Nippon Telegr & Teleph Corp <Ntt> 反響路結合量推定方法、反響路結合量推定装置、反響路結合量推定プログラム、エコー抑圧方法、エコー抑圧装置、エコー抑圧プログラム、エコーサプレス方法、エコーサプレッサ、エコーサプレッサプログラム、通信路上の損失量制御方法、通信路上の損失量制御装置、通信路上の損失制御プログラム、多チャネルエコー抑圧方法、多チャネルエコー抑圧装置、多チャネルエコー抑圧プログラム、記録媒体
JP2009021741A (ja) * 2007-07-11 2009-01-29 Yamaha Corp エコーキャンセラ
JP2018201147A (ja) 2017-05-29 2018-12-20 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192126B1 (en) * 1996-11-27 2001-02-20 Nokia Mobile Phones Ltd. Double talk detector, method for double talk detection and device incorporating such a detector
JP2006033789A (ja) * 2004-06-16 2006-02-02 Nippon Telegr & Teleph Corp <Ntt> 反響路結合量推定方法、反響路結合量推定装置、反響路結合量推定プログラム、エコー抑圧方法、エコー抑圧装置、エコー抑圧プログラム、エコーサプレス方法、エコーサプレッサ、エコーサプレッサプログラム、通信路上の損失量制御方法、通信路上の損失量制御装置、通信路上の損失制御プログラム、多チャネルエコー抑圧方法、多チャネルエコー抑圧装置、多チャネルエコー抑圧プログラム、記録媒体
JP2009021741A (ja) * 2007-07-11 2009-01-29 Yamaha Corp エコーキャンセラ
JP2018201147A (ja) 2017-05-29 2018-12-20 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Also Published As

Publication number Publication date
JP2021168455A (ja) 2021-10-21
CN115053460A (zh) 2022-09-13
US20230079749A1 (en) 2023-03-16
EP4138307A4 (en) 2023-07-26
JP7382273B2 (ja) 2023-11-16
EP4138307A1 (en) 2023-02-22

Similar Documents

Publication Publication Date Title
CN105472189B (zh) 回波消除检测器、消除回波的方法和比较发生器
CN101719969B (zh) 判断双端对话的方法、系统以及消除回声的方法和系统
KR100989266B1 (ko) 스펙트럼 음향 특성에 기초한 더블 토크 검출 방법
US8111840B2 (en) Echo reduction system
US6510224B1 (en) Enhancement of near-end voice signals in an echo suppression system
CN109716743B (zh) 全双工语音通信系统和方法
EP2348645B1 (en) Method and apparatus for detecting double talk
JP6833616B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2002501337A (ja) 通信システムのコンフォートノイズ提供方法及び装置
US9330677B2 (en) Method and apparatus for generating a noise reduced audio signal using a microphone array
CN111524532B (zh) 回声抑制方法、装置、设备及存储介质
US11375066B2 (en) Echo suppression device, echo suppression method, and echo suppression program
JP2009094802A (ja) 通信装置
WO2021210473A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
WO2020203258A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
EP4319192A1 (en) Echo suppressing device, echo suppressing method, and echo suppressing program
WO2024009892A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2016025471A (ja) エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21788431

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021788431

Country of ref document: EP

Effective date: 20221114