WO2013121749A1 - エコー消去装置、エコー消去方法、及び、通話装置 - Google Patents

エコー消去装置、エコー消去方法、及び、通話装置 Download PDF

Info

Publication number
WO2013121749A1
WO2013121749A1 PCT/JP2013/000672 JP2013000672W WO2013121749A1 WO 2013121749 A1 WO2013121749 A1 WO 2013121749A1 JP 2013000672 W JP2013000672 W JP 2013000672W WO 2013121749 A1 WO2013121749 A1 WO 2013121749A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
echo
echo cancellation
filter
pseudo
Prior art date
Application number
PCT/JP2013/000672
Other languages
English (en)
French (fr)
Inventor
剛樹 西川
古川 博基
丈郎 金森
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201380001050.5A priority Critical patent/CN103493384B/zh
Priority to US14/110,938 priority patent/US9312913B2/en
Priority to EP13748795.5A priority patent/EP2816734B1/en
Publication of WO2013121749A1 publication Critical patent/WO2013121749A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Definitions

  • the present invention relates to an echo canceling device, an echo canceling method, and a communication device.
  • an echo cancellation apparatus for generating and outputting an echo cancellation signal from which an echo signal has been deleted from a second audio signal including an echo signal generated by collecting a reproduced sound of the first audio signal
  • the present invention relates to an echo cancellation method and a communication device.
  • Patent Document 2 a technique for applying NLMS using a nonlinear function having a dead zone or an overcorrection zone is disclosed (for example, Patent Document 2).
  • the filter characteristic cannot be made equivalent to the echo transfer characteristic at the time of a simultaneous call (double talk) in which the voice and echo of the user at the local point exist simultaneously in the microphone signal. There is a problem.
  • the present invention provides an echo canceling method that can cancel echoes even during double talk.
  • An echo canceller is an echo canceler in which the echo signal is deleted from a second sound signal including an echo signal generated by collecting a reproduced sound of the first sound signal.
  • An echo canceller for generating and outputting a signal, wherein signal processing using a filter having a characteristic equivalent to a transfer characteristic until the reproduced sound is collected is performed on the first audio signal.
  • Subtracting the first pseudo echo signal generated by the first pseudo echo generation unit from the second audio signal and a first pseudo echo generation unit that generates a first pseudo echo signal by performing A first echo cancellation unit that generates and outputs a first echo cancellation signal, and performs non-linear conversion on the first echo cancellation signal generated by the first echo cancellation unit
  • Non-linear A converted echo cancellation signal is generated, and the non-linearly converted echo cancellation signal, the first audio signal, and the norm of the first audio signal are used, and the characteristic of the filter is the transfer characteristic.
  • a filter update unit that updates the characteristics of the filter so as to be equivalent.
  • echo canceling apparatus and the like of the present invention echo can be canceled even during double talk.
  • FIG. 1 is an overall configuration diagram of the video conference system according to the first embodiment.
  • FIG. 2 is a functional block diagram of the video conference system according to the first embodiment.
  • FIG. 3 is a functional block diagram of the echo cancellation apparatus according to the first embodiment.
  • FIG. 4 is a functional block diagram of the filter update unit in the first embodiment.
  • FIG. 5 is a flowchart of the echo cancellation method in the first embodiment.
  • FIG. 6 is a functional block diagram of the echo cancellation apparatus according to the second embodiment.
  • FIG. 7 is a flowchart of the echo cancellation method in the second embodiment.
  • FIG. 8 is a functional block diagram of an echo canceller in a modification of the second embodiment.
  • FIG. 9 is a functional block diagram of the echo cancellation apparatus according to the third embodiment.
  • FIG. 1 is an overall configuration diagram of the video conference system according to the first embodiment.
  • FIG. 2 is a functional block diagram of the video conference system according to the first embodiment.
  • FIG. 3 is a functional block diagram of the echo cancellation apparatus
  • FIG. 10 is a flowchart of the echo cancellation method in the third embodiment.
  • FIG. 11 is a flowchart of an echo cancellation signal selection method according to the third embodiment.
  • FIG. 12 is a functional block diagram of the echo cancellation apparatus according to the fourth embodiment.
  • FIG. 13 is a functional block diagram of an echo canceller according to a modification of the fourth embodiment.
  • FIG. 14 is a flowchart of the echo cancellation method in the fourth embodiment.
  • a video conference using the video conference system is held.
  • a video conference system device (hereinafter simply referred to as a device) at a local point and a device at a partner point mutually transmit and receive video and audio via a communication line.
  • the local device transmits the video captured by the local camera and the sound collected by the local microphone to the partner site.
  • the device at the local location receives the video taken by the camera at the other location and displays it on the screen at the local location, and also receives the sound picked up by the microphone at the other location and plays it back on the speaker at the local location. .
  • communication is performed by bidirectionally transmitting and receiving video and audio.
  • the microphone at the local site collects not only the user voice at the local site, but also the audio received from the partner site side reproduced from the speaker at the local site.
  • the sound collected by the local microphone reproduced from the local speaker is called acoustic echo (hereinafter simply referred to as echo). If the voice is transmitted to the other party without erasing the echo in a state where the echo is generated, the voice uttered by itself is reproduced from the speaker with a time difference at the other party. Such an echo hinders communication. Smooth communication can be realized by canceling the echo with the echo canceller.
  • the echo canceller generates a pseudo echo by convolving the speaker signal using a filter that simulates the echo transfer characteristic from the speaker to the microphone, and cancels the echo by subtracting the pseudo echo from the microphone signal. Further, the filter characteristic is updated so as to be equivalent to the echo transfer characteristic by using the echo cancellation signal (signal from which the echo is canceled) and the speaker signal.
  • a filter characteristic updating method a method based on a minimum mean square error (LMS) or a method based on a normalized minimum mean square error (NLMS) is widely known.
  • LMS minimum mean square error
  • NLMS normalized minimum mean square error
  • the filter is updated so that the echo cancellation signal becomes 0 on the premise that only the echo exists in the microphone signal (single talk).
  • the filter characteristics are not necessarily updated to approach the echo transfer characteristics.
  • the echo may be changed to be larger.
  • the conventional echo canceller cannot appropriately generate the pseudo echo signal, and as a result, the echo may increase.
  • Patent Document 1 A technology that applies independent component analysis for the purpose of making the filter characteristic equivalent to the echo transfer characteristic even during double talk and performing correct echo cancellation is disclosed (for example, Patent Document 1). Further, a technique for applying NLMS using a nonlinear function having a dead zone or an overcorrection zone is disclosed (for example, Patent Document 2).
  • the filter characteristic cannot be made equivalent to the echo transfer characteristic at the time of a simultaneous call (double talk) in which the voice and echo of the user at the local point exist simultaneously in the microphone signal.
  • the conventional echo canceller performs an operation to reduce the magnitude of the microphone signal on the assumption that the microphone signal includes only the echo signal. This is because the filter characteristics are not correctly updated and the echo may increase.
  • Patent Document 1 applies independent component analysis.
  • the filter update depends on the loudspeaker signal. For this reason, when the magnitude of the speaker signal changes from moment to moment, the convergence speed of the filter characteristic to the echo transfer characteristic decreases. A low convergence speed means that echoes remain until convergence. Therefore, it cannot be said that the echo can be appropriately canceled when the conversation of the caller is continued. Therefore, the above-described problem cannot be solved by the technique disclosed in Patent Document 1.
  • Patent Document 2 NLMS using a non-linear function having a dead zone or an overcorrected zone is applied to the above problem. According to this technique, the convergence speed is improved as compared with the conventional NLMS.
  • normalization is not correctly performed in filter update.
  • the pseudo echo generated by the filter update depends only on the size of the user voice. For this reason, the update equivalent to the echo transfer characteristic at the time of double talk of the conventional NLMS is not performed correctly. Therefore, the above-described problem cannot be solved by the technique disclosed in Patent Document 2.
  • the present invention provides an echo canceling method that can cancel echoes even during double talk. More specifically, the present invention provides an echo cancellation method and the like that can cancel echoes by equalizing the filter characteristics to the echo transmission characteristics not only during single talk but also during double talk.
  • An echo canceller is an echo canceler in which the echo signal is deleted from a second sound signal including an echo signal generated by collecting a reproduced sound of the first sound signal.
  • An echo canceller for generating and outputting a signal, wherein signal processing using a filter having a characteristic equivalent to a transfer characteristic until the reproduced sound is collected is performed on the first audio signal.
  • Subtracting the first pseudo echo signal generated by the first pseudo echo generation unit from the second audio signal and a first pseudo echo generation unit that generates a first pseudo echo signal by performing A first echo cancellation unit that generates and outputs a first echo cancellation signal, and performs non-linear conversion on the first echo cancellation signal generated by the first echo cancellation unit
  • Non-linear A converted echo cancellation signal is generated, and the non-linearly converted echo cancellation signal, the first audio signal, and the norm of the first audio signal are used, and the characteristic of the filter is the transfer characteristic.
  • a filter update unit that updates the characteristics of the filter so as to be equivalent.
  • the filter update amount depending on the first sound signal (speaker signal) normalized by the norm and the second sound signal (microphone signal) subjected to nonlinear transformation.
  • the pseudo echo signal generated by the calculation of the filter updated using the filter update amount and the first sound signal is given by the first power dimension of the amplitude of the first sound signal. Therefore, it is possible to stably make the filter characteristics equivalent to the echo transfer characteristics during single talk and double talk. Therefore, the echo signal can be eliminated by making the filter characteristic equivalent to the echo transfer characteristic not only during single talk but also during double talk.
  • the filter update unit updates the characteristics of the filter using a ratio of the first audio signal to a norm of the first audio signal and the non-linearly transformed echo cancellation signal. .
  • the filter update unit calculates a product of a ratio of the first audio signal to a norm of the first audio signal, the non-linearly converted echo cancellation signal, and a predetermined coefficient, before the update.
  • the characteristic of the filter is updated by adding to the characteristic of the filter.
  • the pseudo echo signal generated by the calculation of the filter updated using the filter update amount and the first sound signal is given by the first power dimension of the amplitude of the first sound signal. Therefore, it is possible to stably make the filter characteristics equivalent to the echo transfer characteristics during single talk and double talk. Therefore, the echo signal can be eliminated by making the filter characteristic equivalent to the echo transfer characteristic not only during single talk but also during double talk.
  • the filter update unit may be +1 when the first echo cancellation signal is positive, -1 when the first echo cancellation signal is negative, and the first echo cancellation signal is 0.
  • the non-linear transformation is performed using a sign function that is a function that takes 0 respectively.
  • the echo canceller further includes a second pseudo echo signal generation unit that generates a second pseudo echo signal using the norm of the first audio signal and the non-linearly transformed echo cancel signal.
  • a second echo cancellation signal is generated by subtracting the second pseudo echo signal generated by the second pseudo echo signal generation unit from the first echo cancellation signal, and is output.
  • the second pseudo echo signal for canceling the echo remaining in the echo cancellation signal can be reduced with a small amount of computation by using the norm of the speaker signal, the echo cancellation signal subjected to nonlinear conversion, and the first echo cancellation signal. Can be generated. Therefore, the echo can be canceled with higher accuracy by equalizing the filter characteristics to the echo transmission characteristics not only during single talk but also during double talk.
  • the echo canceller further generates a second pseudo echo signal using the norm of the first sound signal, the non-linearly transformed echo cancel signal, and the first sound signal. And generating a second echo cancellation signal by subtracting the second pseudo echo signal generated by the second pseudo echo signal generation unit from the first echo cancellation signal And a second echo canceling unit for outputting.
  • the second pseudo echo signal for canceling the echo remaining in the echo cancellation signal by the speaker signal, the norm of the speaker signal, the non-linearly converted echo cancellation signal, and the first echo cancellation signal is obtained. It can be generated with a small amount of calculation. Therefore, the filter characteristic can be made equivalent to the echo transmission characteristic not only at the time of single talk but also at the time of double talk, and the echo can be eliminated with higher accuracy.
  • the echo canceller may further change the second echo cancel signal to a new second echo cancel signal when the magnitude of the second echo cancel signal is smaller than the magnitude of the first echo cancel signal.
  • Output as an echo cancellation signal, and output the first echo cancellation signal as a new second echo cancellation signal when the magnitude of the second echo cancellation signal is greater than the magnitude of the first echo cancellation signal The selection part to perform is provided.
  • the output of the echo canceller as the output of the first echo cancel signal and the second echo cancel signal, in which the echo is effectively canceled.
  • the case where the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal means that the first echo cancellation signal is different from the intention in the calculation intended to cancel the echo of the first echo cancellation signal. This corresponds to the case where the echo contained in is increased.
  • the first cancellation signal is appropriate as the output of the echo cancellation apparatus.
  • the filter update unit does not update the filter characteristics when the selection unit outputs the first echo cancellation signal as a new second echo cancellation signal.
  • the echo cancellation signal differs from the intention in the filter update calculation intended to generate the first pseudo echo.
  • the filter is updated so as to increase the size of.
  • the filter characteristic can be stably equivalent to the echo transmission characteristic, and the echo can be eliminated with higher accuracy.
  • the filter update unit calculates the second pseudo echo signal by calculating the square sum of the magnitudes of the first audio signals within a predetermined time in the past.
  • the calculation for generating the second pseudo echo signal can be executed at high speed. This is because, in order to calculate the sum of squares of the magnitude of the first audio signal at the current time, the square of the oldest time is calculated from the sum of squares of the magnitude of the first audio signal calculated at the previous processing time. The sum of squares of the speaker signal at the current processing time can be calculated by simply subtracting the value and adding the square value of the latest time acquired at the current time. Therefore, the calculation amount of the second echo cancellation can be reduced.
  • the echo signal is deleted from the second audio signal including the echo signal generated by collecting the reproduced sound of the first audio signal.
  • An echo cancellation method for generating and outputting an echo cancellation signal which uses a filter having a characteristic equivalent to a transfer characteristic until the reproduced sound is collected with respect to the first audio signal.
  • a first pseudo echo generation step for generating a first pseudo echo signal by performing processing, and the first pseudo echo signal generated in the first pseudo echo generation step from the second audio signal Is subtracted from the first echo cancellation step for generating and outputting the first echo cancellation signal, and the first echo cancellation signal generated in the first echo cancellation step is nonlinearly changed.
  • the characteristics of the filter A filter update step of updating the filter characteristics so that is equivalent to the transfer characteristics.
  • the echo cancellation method further uses a norm of the first audio signal, the nonlinearly converted echo cancellation signal, and the first audio signal.
  • a second pseudo echo signal generating step for generating a second pseudo echo signal; and subtracting the second pseudo echo signal generated in the second pseudo echo signal generating step from the first echo cancellation signal.
  • a call device includes an echo canceller, a microphone that picks up surrounding sound and generates a sound signal, a speaker that reproduces sound based on the sound signal, and a sound signal.
  • a communication unit that transmits to the other party and receives a voice signal from the other party, and the echo canceller receives the voice signal received from the other party by the communication unit as the first voice signal, The voice signal generated by the microphone is received as the second voice signal, and the first echo cancellation signal or the second echo cancellation signal is output to the communication unit as a voice signal transmitted to the other party.
  • a recording medium recording medium such as a system, method, integrated circuit, computer program, or computer-readable CD-ROM, and the system, method, integrated circuit, You may implement
  • Embodiment 1 will be described with reference to the drawings.
  • a video conference system is described as an example.
  • the present invention can be applied to a voice conference system, a web conference service, and a system that performs a two-way call using a speaker and a microphone, such as a telephone. .
  • FIG. 1 is an overall configuration diagram of a video conference system. As shown in FIG. 1, the overall configuration of the video conference system includes a video conference system 1, a television 2, a microphone (microphone) 3, a camera 4, and the Internet 5.
  • a video conference system 1 includes a video conference system 1, a television 2, a microphone (microphone) 3, a camera 4, and the Internet 5.
  • the video conference system 1 receives the audio signal (microphone signal) generated by the microphone 3 and the video signal generated by the camera 4 and transmits them to the other party's video conference system via the Internet 5. In addition, the video conference system 1 transmits an audio signal (speaker signal) and a video signal received from the video conference system of the other party to the television 2.
  • the speaker signal is an example of the first audio signal.
  • the microphone signal is an example of a second audio signal.
  • the television 2 receives the video signal and the audio signal (speaker signal), reproduces the video based on the received video signal, and reproduces the audio based on the received audio signal (speaker signal).
  • the microphone 3 picks up the user voice and generates a voice signal (microphone signal).
  • Camera 4 captures the user and generates a video signal.
  • the Internet 5 is a network to which the video conference system 1 is connected, and a video conference system (not shown) of the other party is also connected.
  • the video conference system 1 realizes communication between the user and the user's other party by bidirectionally transmitting and receiving video and audio of the user and the other party.
  • FIG. 2 is a functional block diagram of the video conference system.
  • the video conference system 1 shown in FIG. 1 will be described in detail with reference to FIG.
  • the arrow in FIG. 2 shows the direction through which data flows.
  • the video conference system 1 includes an audio ADC 6, a video ADC (Analog Digital Converter) 7, an encoder 8, a decoder 9, an audio DAC (Digital Analog Converter) 10, a video DAC 11, A communication unit 14 and an echo canceller 20 are provided.
  • the communication unit 14 transmits and receives video data and audio data.
  • the decoder 9 decodes the video data and audio data received from the video conference system of the other party received by the communication unit 14, and generates a video signal and a digital speaker signal.
  • the audio DAC 10 converts the digital speaker signal generated by the decoder 9 into an analog speaker signal.
  • the video conference system 1 may transmit a digital speaker signal to the speaker 12.
  • the video DAC 11 converts the digital video signal generated by the decoder 9 into an analog video signal.
  • the video conference system 1 may transmit a digital video signal to the display 13.
  • the video ADC 7 converts the analog video signal generated by the camera 4 into a digital video signal.
  • the camera 4 may include the video ADC 7 to generate a digital video signal and transmit it to the video conference system 1.
  • the audio ADC 6 converts the analog microphone signal generated by the microphone 3 into a digital microphone signal.
  • the microphone 3 may include the audio ADC 6 to generate a digital microphone signal and transmit it to the video conference system 1.
  • the echo canceling device 20 inputs a microphone signal and a speaker signal and outputs an echo canceling signal.
  • the encoder 8 encodes the digital video signal output from the video ADC 7 and the echo cancellation signal output from the echo cancellation device 20.
  • the television 2 connected to the video conference system includes a speaker 12 and a display 13.
  • the speaker 12 reproduces the analog speaker signal from the video conference system 1.
  • the display 13 displays an analog video signal from the video conference system 1.
  • speaker signal when simply referred to as a speaker signal, a microphone signal, and a video signal, it means a digital speaker signal, a digital microphone signal, and a digital video signal, respectively.
  • FIG. 2 shows the configuration of one speaker and one microphone
  • the video conference system 1 includes an encoder that can encode audio signals corresponding to the number of microphones, a decoder that can decode audio signals corresponding to the number of speakers, and microphone signals corresponding to the corresponding number of speaker signals.
  • an echo canceling device for generating one or more echo canceling signals.
  • the video conference system 1 includes an audio DAC
  • the video conference system 1 includes audio DACs corresponding to the number of speakers.
  • the video conference system 1 includes a voice ADC
  • the video conference system 1 includes the number of voice ADCs corresponding to the number of microphones.
  • the video ADC 7, the audio ADC 6, the audio DAC 10, and the video DAC 11 are unnecessary.
  • the video conference system configured as shown in FIG. 2 reproduces the received voice of the other party from the speaker 12 of the television 2.
  • the microphone 3 picks up the voice at the call partner point reproduced from the speaker 12.
  • the sound reproduced from the speaker 12 and mixed into the microphone 3 is an echo. If the voice is transmitted to the call partner point without erasing the echo in a state where the echo is generated, the voice uttered by the call partner is reproduced from the speaker with a time difference, which hinders communication. Therefore, the echo canceller 20 cancels the echo contained in the microphone signal picked up by the microphone 3 and transmits the echo cancel signal to the other party. Thereby, smooth communication without echo is realized.
  • the video conference system configured as described above will be described.
  • the video signal generated by the camera 4 is converted into a digital video signal by the video ADC 7 and sent to the encoder 8.
  • the audio signal generated by the microphone 3 is converted into a digital microphone signal by the audio ADC 6, the echo is canceled by the echo canceling device 20, and sent to the encoder 8.
  • the video data and audio data generated by the encoding of the encoder 8 are transmitted from the communication unit 14 to the video conference system of the other party via the Internet 5.
  • the video data and audio data received from the video conference system of the other party in the communication unit 14 are decoded by the decoder 9, and the video signal and the speaker signal are output to the television 2 via the audio DAC 10 and the video DAC 11. .
  • communication is performed by bidirectionally transmitting and receiving video and audio data.
  • FIG. 3 is a functional block diagram of the echo canceller 21 in the present embodiment.
  • the echo canceller 21 corresponds to the echo canceller 20 shown in FIG.
  • the microphone 3 contains not only the user's voice at the local point but also a speaker signal reproduced from the speaker 12 as an echo.
  • the echo cancellation apparatus 21 includes a first pseudo echo generation unit 200, a first echo cancellation unit 201, and a filter update unit 202.
  • the first pseudo echo generation unit 200 generates a pseudo echo signal by a convolution operation between a speaker signal and a filter simulating echo transfer characteristics.
  • the first echo cancellation unit 201 generates an echo cancellation signal by subtracting the pseudo echo generated by the first pseudo echo generation unit 200 from the microphone signal.
  • the filter update unit 202 is for updating the characteristics of the filter using the echo cancellation signal generated by the echo cancellation unit and the speaker signal.
  • FIG. 4 is a functional block diagram of the filter update unit 202 in the present embodiment.
  • the filter update unit 202 includes a norm calculation unit 300, a non-linear conversion unit 301, and a filter update amount calculation unit 302.
  • the norm calculation unit 300 calculates the norm of the speaker signal.
  • the norm of the speaker signal is the sum of the magnitudes of the speaker signals within the past predetermined time, and is a value indicating the degree of the magnitude of the signal within the time.
  • the non-linear conversion unit 301 generates a non-linearly converted echo cancellation signal by performing non-linear conversion on the echo cancellation signal.
  • the filter update amount calculation unit 302 calculates the update amount of the filter characteristic using the norm calculated by the norm calculation unit 300, the non-linearly transformed echo cancellation signal, and the speaker signal.
  • the filter update amount is calculated using the norm of the speaker signal, the nonlinearly converted echo cancellation signal, and the speaker signal, and the filter is updated using the calculated filter update amount.
  • FIG. 5 is a flowchart of the echo cancellation method in the present embodiment.
  • the echo cancellation method in the present embodiment will be described with reference to a flowchart and mathematical expressions.
  • the echo cancellation apparatus 20 acquires the microphone signal m (t) (step S501).
  • t represents the time in the digitized signal
  • x (t) represents the speaker signal at time t.
  • the microphone signal m (t) is given by (Equation 1) using the user voice s (t) and the echo e (t) (s (t) includes not only the user voice but also a plurality of user voices or Background noise is included.)
  • the echo e (t) is given by (Equation 2) from the echo transfer characteristic h ( ⁇ ) from the speaker 12 to the microphone 3 and the speaker signal x (t).
  • represents the filter sample number
  • L represents the length of the echo transfer characteristic.
  • the echo canceller 20 acquires the speaker signal x (t) (step S502).
  • the first pseudo echo generation unit 200 generates a pseudo echo z (t) (step S503).
  • the pre-update filter for simulating the echo transfer characteristic is w t ⁇ 1 ( ⁇ )
  • the first pseudo echo generator 200 generates a pseudo echo z (t) by (Equation 3).
  • T is the length of the filter.
  • the first echo canceller 201 generates an echo cancel signal o (t) by canceling the echo included in the microphone signal (step S504).
  • the first echo canceller 201 generates an echo cancel signal o (t) by subtracting the pseudo echo z (t) from the microphone signal m (t) according to (Equation 4).
  • the norm calculation unit 300 calculates the norm n (t) of the speaker signal x (t) (step S505).
  • the norm calculation unit 300 calculates the norm n (t) of the speaker signal x (t) using (Equation 5).
  • the norm is a cumulative value of the absolute value of the speaker signal, but can be calculated by other calculation methods. For example, it can be calculated by the Euclidean norm given by the square root of the cumulative value of the square of the speaker signal or the maximum norm given by the maximum value of the signal magnitude.
  • the nonlinear conversion unit 301 generates an echo cancellation signal ⁇ (o (t)) subjected to nonlinear conversion (step S506).
  • the nonlinear conversion unit 301 generates a nonlinearly converted echo cancellation signal ⁇ (o (t)) by performing nonlinear conversion on the echo cancellation signal o (t).
  • Specific examples of the nonlinear function used for nonlinear transformation include +1 when the variable to be converted is positive, ⁇ 1 when the variable to be converted is negative, and 0 when the variable to be converted is 0.
  • There are sign functions that take Another specific example of the nonlinear function is a hyperbolic tangent tanh (o (t)). That is, ⁇ (o (t)) takes a value between ⁇ 1 and +1 regardless of the magnitude of the microphone signal.
  • the filter update amount calculation unit 302 calculates the filter update amount ⁇ w ( ⁇ ) (step S506).
  • the filter update amount calculation unit 302 uses the echo cancellation signal ⁇ (o (t)) subjected to nonlinear conversion, the speaker signal x (t), and the norm n (t), and the filter update amount ⁇ w according to (Expression 6). ( ⁇ ) is calculated.
  • the ratio of the speaker signal x (t) to the norm n (t) is a value indicating a relative change amount from the average value of the magnitude of the speaker signal at a certain time. Note that taking the ratio of the speaker signal x (t) to the norm n (t) is expressed as normalizing the speaker signal x (t) by the norm.
  • ⁇ w ( ⁇ ) is obtained from the nonlinearly converted echo cancellation signal ⁇ (o (t)), the speaker signal x (t), and the norm n (t). As long as it is a dimensionless amount that can be used, it may be calculated by other calculations.
  • the first pseudo echo generation unit 200 updates the filter (step S507).
  • the first pseudo echo generator 200 uses the updated filter w t ( ⁇ ), the filter w t ⁇ 1 ( ⁇ ) before the update, the filter update amount ⁇ w ( ⁇ ), and the step gain ⁇ .
  • the step gain ⁇ is a coefficient for adjusting the update amount.
  • the updated filter is used at time (t + 1), which is the next time after time t.
  • the filter update amount ⁇ w ( ⁇ ) is defined as (Equation 8).
  • the speaker signal x (t ⁇ ) is not normalized by the norm. Therefore, the filter update amount ⁇ w ( ⁇ ) varies depending on the magnitude of the speaker signal. Therefore, when the magnitude of the speaker signal changes from moment to moment, the convergence speed, which is the speed at which the filter characteristics approach the echo transfer characteristics, decreases.
  • a signal whose signal magnitude changes from moment to moment is a speech signal for conversation.
  • ⁇ w ( ⁇ ) in the update formula (formula 6) of the present embodiment is normalized by the norm of the speaker signal, and thus does not depend on the magnitude of the speaker signal. Therefore, even when the loudspeaker signal changes from moment to moment, fluctuations in the filter characteristics can be kept small. As a result, the filter characteristic approaches the echo transfer characteristic relatively quickly.
  • ⁇ w ( ⁇ ) is given by the product of ⁇ (o (t)) and the speaker signal whose numerator is independent of the magnitude of the speaker signal, and the denominator is given by the sum of squares of the speaker signal. Therefore, it is normalized to the minus power dimension of the amplitude of the speaker signal. Therefore, the correct update amount is not calculated due to the influence of the magnitude change of the speaker signal, and the convergence speed, which is the speed at which the filter characteristic approaches the echo transfer characteristic, is reduced.
  • the dimension of the update amount can be correctly normalized by the norm, and the update for stably equalizing the filter to the echo transfer characteristic can be correctly performed even during double talk. Can be done.
  • the echo can be eliminated by stably equalizing the filter characteristic to the echo transfer characteristic not only during single talk but also during double talk. The reason is explained as follows.
  • the filter update amount ⁇ w ( ⁇ ) is less dependent on the magnitude of the user voice s (t).
  • ⁇ w ( ⁇ ) depends on the non-linearly transformed echo cancellation signal ⁇ (o (t)) as shown in (Equation 6).
  • the user speech s (t) is included in the echo cancellation signal o (t).
  • the filter update amount ⁇ w ( ⁇ ) is the magnitude of the user speech s (t). It does not increase or decrease excessively depending on.
  • the amount of update ⁇ w ( ⁇ ) of the filter w t ( ⁇ ) reduces the dependency on the magnitude of the speaker signal x (t).
  • ⁇ w ( ⁇ ) depends on the normalized form x (t), that is, x (t ⁇ ) / n (t), as shown in (Equation 6). Therefore, ⁇ w ( ⁇ ) does not increase or decrease excessively depending on the magnitude of the speaker signal x (t) during single talk or double talk.
  • the first pseudo echo generation unit 200 generates a pseudo echo with a signal of the same dimension. Specifically, this is because the pseudo echo having the amplitude first dimension is generated with the first amplitude dimension of the speaker signal x (t). In this case, since the pseudo echo signal is generated with a signal of the same dimension, a more correct pseudo echo can be generated stably.
  • the filter update amount depends on the relative change amount of the echo cancellation signal and the relative change amount of the speaker signal, and the pseudo echo signal is represented by the first power amplitude dimension of the speaker signal. Therefore, the characteristics of the filter can be made equivalent to the echo transfer characteristics during double talk.
  • the echo canceller depends on the first sound signal (speaker signal) normalized by the norm and the second sound signal (microphone signal) subjected to nonlinear conversion.
  • the filter update amount to be calculated can be calculated.
  • the pseudo echo signal generated by the calculation of the filter updated using the filter update amount and the first sound signal is given by the first power dimension of the amplitude of the first sound signal. Therefore, it is possible to stably make the filter characteristics equivalent to the echo transfer characteristics during single talk and double talk. Therefore, the echo signal can be eliminated by making the filter characteristic equivalent to the echo transfer characteristic not only during single talk but also during double talk.
  • the filter update amount that depends on the relative change amount with respect to the average value of the first audio signal and the second audio signal subjected to nonlinear transformation.
  • the pseudo echo signal generated by the calculation of the filter updated using the filter update amount and the first sound signal is given by the first power dimension of the amplitude of the first sound signal. Therefore, it is possible to stably make the filter characteristics equivalent to the echo transfer characteristics during single talk and double talk. Therefore, the echo signal can be eliminated by making the filter characteristic equivalent to the echo transfer characteristic not only during single talk but also during double talk.
  • FIG. 6 is a functional block diagram of the echo canceller 22 according to Embodiment 3 of the present invention.
  • the echo canceller 22 corresponds to the echo canceller 20 in the first embodiment.
  • FIG. 6 the same components as those in FIGS. 2, 3, and 4 are denoted by the same reference numerals, and description thereof is omitted.
  • the echo canceller 22 includes a second pseudo echo generator 400 and a second echo canceler 401.
  • the second pseudo echo generator 400 generates a second pseudo echo signal using the calculated norm, the nonlinearly converted echo cancellation signal, and the speaker signal.
  • the second echo cancellation unit 401 generates a second echo cancellation signal by subtracting the second pseudo echo signal from the echo cancellation signal.
  • the second pseudo echo signal generated by the second pseudo echo generation unit 400 is subtracted from the echo cancellation signal of the first embodiment (hereinafter also referred to as the first echo cancellation signal).
  • the second echo cancellation signal can be generated.
  • the second echo cancellation signal is generated by a filter updated using the filter update amount calculated by (Equation 6).
  • the second echo cancellation signal has higher echo cancellation performance than the first echo cancellation signal.
  • the echo cancellation method in the present embodiment will be described using a flow diagram and mathematical formulas.
  • FIG. 7 is a flowchart of the echo cancellation method in the present embodiment.
  • the difference between the flow in the present embodiment and the flow in the first embodiment is processing after the filter update (step S508).
  • processing after the filter update step S508
  • the second pseudo echo generation unit 400 After the filter update (step S508), the second pseudo echo generation unit 400 generates a second pseudo echo (step S709).
  • the second pseudo echo z2 (t) is given by (Equation 10) using the filter update amount ⁇ w ( ⁇ ) and the speaker signal x (t).
  • Equation 10 Equation 10 convolves the filter update amount ⁇ w ( ⁇ ) with the speaker signal x (t).
  • the amount of calculation of this convolution calculation is enormous. Therefore, it is not necessary to perform a convolution operation by expanding the mathematical expression as the following expression.
  • the second pseudo echo generation unit 400 uses the already calculated norm, the nonlinearly converted echo cancellation signal, and the square sum of the speaker signals to obtain the second pseudo echo.
  • x2 (t) can be generated.
  • Equation 11 the square value of the latest time acquired at the current time is obtained by subtracting the square value of the oldest time from the square sum calculated at the previous processing time without calculating the square sum of each time.
  • the sum of squares of the speaker signal at the current processing time can be calculated simply by adding. Therefore, the calculation amount of the second echo cancellation can be greatly reduced.
  • the second echo canceling unit 401 generates a second echo canceling signal by canceling the echo included in the first echo canceling signal (step S710).
  • the second echo canceling unit 401 generates a second echo canceling signal by subtracting the second pseudo echo signal expressed by (Expression 11) from the first echo canceling signal expressed by (Expression 4). To do.
  • the second pseudo echo corresponds to a change amount of the pseudo echo that is changed by updating the filter.
  • the second pseudo echo signal (amplitude squared dimension) is updated with the power of the speaker signal (amplitude squared dimension).
  • the second pseudo echo signal has a first power dimension and has different dimensions, meaning that it cannot be updated correctly.
  • the second pseudo echo signal is updated with a non-linearly converted echo cancellation signal (dimensionless).
  • a particular problem in Patent Document 2 is during double talk.
  • the speaker signal is not included. That is, the update amount of the pseudo echo is determined without depending on the speaker signal, and is updated without determining whether or not the echo signal remains at the time of double talk.
  • the second pseudo echo signal is updated.
  • Patent Document 2 has a drawback that the filter cannot be updated correctly during the conventional NLMS double talk.
  • the convergence speed that is equivalent to the echo transfer characteristic is improved, so a certain degree of echo cancellation effect can be obtained. It cannot be said that they are using it.
  • Patent Document 1 and Patent Document 2 cannot correctly update the filter to be equivalent to the echo transfer characteristic at the time of double talk.
  • the second pseudo echo signal is generated in the first power dimension of the amplitude.
  • the norm of the speaker signal is the first power dimension of the amplitude
  • the non-linearly converted echo cancellation signal ⁇ (o (t)) is dimensionless since it takes a value between ⁇ 1 and +1 regardless of the magnitude of the microphone signal. . Therefore, the dimensions of both sides are the same, and the dependence of the user's voice volume can be reduced by non-linear transformation, so it is possible to generate pseudo echoes stably regardless of single talk or double talk. Become.
  • the echo cancellation method according to the present embodiment is calculated based on the independence between the nonlinearly converted echo cancellation signal and the speaker signal even when the filter update amount is in the double talk state, and the magnitude of the speaker signal is Since the dependency can be reduced, the update for equalizing the echo transfer characteristic of the filter can be performed correctly.
  • the echo canceller remains in the echo canceling signal by using the speaker signal, the norm of the speaker signal, the non-linearly converted echo canceling signal, and the first echo canceling signal.
  • the second pseudo echo signal for eliminating the echo to be generated can be generated with a small amount of calculation. Therefore, the filter characteristic can be made equivalent to the echo transmission characteristic not only at the time of single talk but also at the time of double talk, and the echo can be eliminated with higher accuracy.
  • the calculation for generating the second pseudo echo signal can be executed at high speed. This is because, in order to calculate the sum of squares of the magnitude of the first audio signal at the current time, the square of the oldest time is calculated from the sum of squares of the magnitude of the first audio signal calculated at the previous processing time. The sum of squares of the speaker signal at the current processing time can be calculated by simply subtracting the value and adding the square value of the latest time acquired at the current time. Therefore, the calculation amount of the second echo cancellation can be reduced.
  • the echo canceller 22 shown in FIG. 6 can adopt the configuration of the echo canceller 23 shown in FIG. 8 by approximation of (Equation 15). According to this modification, the amount of calculation of the echo canceller can be reduced compared to the case according to the present embodiment. That is, in the present embodiment, the second echo cancellation signal is obtained from the sum of the squares of the speaker signal, the norm, and the echo cancellation signal subjected to nonlinear transformation as shown in (Equation 11). On the other hand, in the present modification, the second echo cancellation signal is obtained only from the norm and the nonlinearly converted echo cancellation signal.
  • FIG. 8 is a functional block diagram of an echo canceller in a modification of the present embodiment.
  • the second pseudo-echo generation unit 402 can calculate using the norm calculated by the norm calculation unit 300 and the non-linearly converted echo cancellation signal as shown in (Equation 15), and the first calculation with a small amount of computation. 2 pseudo echoes can be generated.
  • the echo canceller cancels echo remaining in the echo cancel signal by using the norm of the speaker signal, the nonlinearly converted echo cancel signal, and the first echo cancel signal. Therefore, the second pseudo echo signal to be generated can be generated with a small amount of calculation. Therefore, the echo can be canceled with higher accuracy by equalizing the filter characteristics to the echo transmission characteristics not only during single talk but also during double talk.
  • FIG. 9 is a functional block diagram of the echo canceller 24 in the present embodiment.
  • the echo canceller 24 corresponds to the echo canceller 20 in the first embodiment. 9, the same components as those in FIGS. 2, 3, 4, and 6 are denoted by the same reference numerals, and the description thereof is omitted.
  • the echo canceller 24 includes a selection unit 500.
  • the selection unit 500 compares the magnitude of the first echo cancellation signal with the magnitude of the second echo cancellation signal, and if the magnitude of the second echo cancellation signal is smaller than the magnitude of the first echo cancellation signal, The second echo cancellation signal is output as a new second echo cancellation signal. When the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal, the first echo cancellation signal is output as a new second echo cancellation signal.
  • the second pseudo echo signal may be generated by the second pseudo echo generation unit 400 or may be generated by the second pseudo echo generation unit 402.
  • the echo canceling device 24 can select an echo canceling signal having high echo canceling performance among the first echo canceling signal and the second echo canceling signal.
  • the echo cancellation method in the present embodiment will be described using a flow diagram and mathematical formulas.
  • FIG. 10 is a flowchart of the echo cancellation method in the present embodiment.
  • the difference between the flowchart of the present embodiment and the flow of the second embodiment is the processing after the second echo cancellation (step S710) in the present embodiment.
  • step S710 the processing after the second echo cancellation
  • the selection unit 500 selects an echo cancellation signal (step S1011).
  • FIG. 11 is a flowchart of an echo cancellation signal selection method in the present embodiment.
  • the selection unit 500 compares the magnitude of the first echo cancellation signal generated by (Equation 4) with the magnitude of the second echo cancellation signal generated by (Equation 12) (step S1101). If the magnitude of the second echo cancellation signal is smaller than the magnitude of the first echo cancellation signal (Yes in step S1101), the second echo cancellation signal is replaced with a new second echo cancellation signal o3 (t). (Step S1102). When the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal (No in step S1101), the first echo cancellation signal is replaced with a new second echo cancellation signal o3 (t). (Step S1103). In this way, a new second echo cancellation signal o3 (t) is generated.
  • the magnitude of the second echo cancellation signal (the absolute value of o2 (t)) in (Equation 12) is the magnitude of the first echo cancellation signal before calculating the second echo cancellation signal.
  • the second echo cancellation signal may not be calculated.
  • o2 (t) is not used for subsequent processing.
  • the magnitude relationship between o (t) and z2 (t) in (Expression 12) is compared, and when 0 ⁇ z2 (t) ⁇ 2 ⁇ o (t) holds, o2 (t ) May not be calculated.
  • 2 ⁇ o (t) ⁇ z2 (t) ⁇ 0 holds, o2 (t) may not be calculated.
  • the echo cancellation apparatus outputs the output of the echo cancellation apparatus that has effectively canceled the echo among the first echo cancellation signal and the second echo cancellation signal. It can be.
  • the case where the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal means that the first echo cancellation signal is different from the intention in the calculation intended to cancel the echo of the first echo cancellation signal. This corresponds to the case where the echo contained in is increased. In such a case, the first cancellation signal is appropriate as the output of the echo cancellation apparatus.
  • FIG. 12 is a functional block diagram of the echo canceller 25 in the present embodiment.
  • the echo canceller 25 corresponds to the echo canceller 20 in the first embodiment. 12, the same components as those in FIGS. 2, 3, 4, 6, and 9 are denoted by the same reference numerals, and the description thereof is omitted.
  • the echo canceller 25 includes a filter update amount calculation unit 303.
  • the filter update amount calculation unit 303 compares the first echo cancellation signal and the second echo cancellation signal. If the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal, the filter update amount calculation unit 303 compares the first echo cancellation signal with the second echo cancellation signal. Will not be updated. Further, when the magnitude of the second echo cancellation signal is smaller than the magnitude of the first echo cancellation signal, the norm calculated by the norm calculation unit 300, the first echo cancellation signal, and the speaker signal are used. A filter update amount is calculated, and the filter is updated using the calculated update amount. Note that the second pseudo echo signal may be generated by the second pseudo echo generation unit 400 or may be generated by the second pseudo echo generation unit 402.
  • the echo cancellation method in the present embodiment will be described using a flow diagram and mathematical formulas.
  • the flow diagram of the present embodiment differs from the flow of the third embodiment in the present embodiment is the processing after the calculation of the norm of the speaker signal (step S506).
  • step S506 the processing after the calculation of the norm of the speaker signal
  • FIG. 14 is a flowchart of the echo cancellation method in the present embodiment.
  • the echo canceller 25 After calculating the norm of the speaker signal (step S506), the echo canceller 25 performs second pseudo echo generation (step S1407), second echo cancel (step S1408), and echo cancel signal selection (step S1409). Do. These processes are the same as steps S709, S710, and S1011, respectively.
  • step S1410 when the magnitude of the second echo cancellation signal is larger than the magnitude of the echo cancellation signal (No in step S1410), the second echo cancellation signal is used as a new second echo cancellation signal. Output (step S1414). At this time, the filter update amount calculation unit 303 does not update the filter.
  • step S1410 when the magnitude of the second echo cancellation signal is smaller than the magnitude of the echo cancellation signal (Yes in step S1410), the first echo cancellation signal is replaced with a new second echo cancellation signal. It outputs as a signal (step S1411).
  • the filter update amount calculation unit 303 calculates the filter update amount (step S1412), and updates the filter (step S1413).
  • the case where the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal is different from the intention in the filter update calculation intended to generate the first pseudo echo.
  • the filter update determination is performed by comparing the magnitude of the first echo cancellation signal and the magnitude of the second echo cancellation signal, the filter update amount is not used in the determination. Therefore, it is possible to determine update before calculating the update amount of the filter, and it is possible to reduce the calculation amount of the echo canceller.
  • FIG. 13 is a functional block diagram of the echo canceller 26 in a modification of the present embodiment.
  • the selection unit 500 determines whether or not to update the filter using the magnitude of the echo cancellation signal.
  • the filter update amount calculation unit 304 uses the first echo cancellation signal and the second echo cancellation signal. Using the echo canceling signal and the echo canceling signal subjected to nonlinear conversion, the same thing as in the fourth embodiment is realized.
  • the magnitude of the echo cancellation signal and the magnitude of the second echo cancellation signal are compared to determine whether or not the calculated filter update quantity is equivalent to the echo transfer characteristic. Can be determined, and inappropriate updating is not performed. As a result, the convergence performance equivalent to the echo transfer characteristic of the filter is improved, and the filter can be made more equivalent to the echo transfer characteristic.
  • the echo cancellation apparatus generates the first pseudo echo when the magnitude of the second echo cancellation signal is larger than the magnitude of the first echo cancellation signal.
  • this corresponds to the case where the filter is updated so as to increase the magnitude of the echo cancellation signal.
  • the filter characteristic can be stably equivalent to the echo transmission characteristic, and the echo can be eliminated with higher accuracy.
  • the filter update determination is made by comparing the magnitude of the first echo cancellation signal with the magnitude of the second echo cancellation signal. Therefore, the filter update amount is not used in the determination.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the echo canceller and the like of each of the above embodiments is the following program.
  • this program generates an echo cancellation signal in which the echo signal is deleted from the second audio signal including the echo signal generated by collecting the reproduced sound of the first audio signal in the computer.
  • an echo canceling method for outputting the first audio signal by performing signal processing using a filter having a characteristic equivalent to a transmission characteristic until the reproduced sound is collected.
  • An echo canceling method including a filter updating step for updating the filter characteristics is executed so that the transmission characteristics are equivalent to the transfer characteristics.
  • the program further generates a second pseudo echo signal using the norm of the first audio signal, the non-linearly transformed echo cancellation signal, and the first audio signal. And generating a second echo cancellation signal by subtracting the second pseudo echo signal generated in the second pseudo echo signal generation step from the first echo cancellation signal. And executing an echo cancellation method including an output second echo cancellation step.
  • the echo canceller according to one or a plurality of aspects has been described based on the embodiment, the present invention is not limited to this embodiment. Unless it deviates from the gist of the present invention, various modifications conceived by those skilled in the art have been made in this embodiment, and forms constructed by combining components in different embodiments are also within the scope of one or more aspects. May be included.
  • An echo canceling apparatus and method according to the present invention and a communication device equipped with the echo canceling apparatus, have an echo transmission characteristic and a filter characteristic from a speaker to a microphone even in a double talk where a user voice and an echo exist simultaneously. It is possible to make them equivalent. Therefore, it is useful as a video conference system, an audio conference system, a hands-free telephone, a Web conference service, and the like.
  • the present invention can also be applied to an echo cancellation method in the case where sound reproduced from a speaker is mixed into a microphone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

第1の音声信号のエコー信号を含む第2の音声信号から、エコー信号が消去されたエコー消去信号を生成及び出力するエコー消去装置(21)であって、第1の音声信号に対して再生音が収音されるまでの伝達特性と等価な特性のフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成部(200)と、第2の音声信号から第1の擬似エコー信号を減算して第1のエコー消去信号を生成し出力する第1のエコー消去部(201)と、第1のエコー消去信号に対して非線形変換を行って非線形変換されたエコー消去信号を生成し、非線形変換されたエコー消去信号と第1の音声信号と第1の音声信号のノルムとを用いて、フィルタの特性が伝達特性と等価となるように、フィルタの特性の更新を行うフィルタ更新部(202)とを備える。

Description

エコー消去装置、エコー消去方法、及び、通話装置
 本発明は、エコー消去装置、エコー消去方法、及び、通話装置に関する。特に、第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去装置、エコー消去方法、及び、通話装置に関する。
 マイク信号に自地点のユーザーの音声とエコーとが同時に存在する同時通話(ダブルトーク)時でもフィルタ特性をエコー伝達特性と等価にし、正しくエコー消去を行うことを目的に、独立成分分析を適用する技術が開示されている(例えば、特許文献1)。
 また、不感帯や過修正帯を有する非線形関数を用いたNLMSを適用する技術が開示されている(例えば、特許文献2)。
特開2004―048253号公報 特開2010-226629号公報
 上述のように、従来のエコー消去装置では、マイク信号に自地点のユーザーの音声とエコーとが同時に存在する同時通話(ダブルトーク)時に、フィルタの特性をエコー伝達特性と等価にすることができないという問題がある。
 そこで、本発明は、ダブルトーク時にもエコーを消去することができるエコー消去方法等を提供する。
 本発明の一態様に係るエコー消去装置は、第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去装置であって、前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成部と、前記第2の音声信号から、前記第1の擬似エコー生成部により生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去部と、前記第1のエコー消去部により生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新部とを備える。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本発明のエコー消去装置等によれば、ダブルトーク時にもエコーを消去することができる。
図1は、実施の形態1におけるビデオ会議システムの全体構成図である。 図2は、実施の形態1におけるビデオ会議システムの機能ブロック図である。 図3は、実施の形態1におけるエコー消去装置の機能ブロック図である。 図4は、実施の形態1におけるフィルタ更新部の機能ブロック図である。 図5は、実施の形態1におけるエコー消去方法のフロー図である。 図6は、実施の形態2におけるエコー消去装置の機能ブロック図である。 図7は、実施の形態2におけるエコー消去方法のフロー図である。 図8は、実施の形態2の変形例におけるエコー消去装置の機能ブロック図である。 図9は、実施の形態3におけるエコー消去装置の機能ブロック図である。 図10は、実施の形態3におけるエコー消去方法のフロー図である。 図11は、実施の形態3におけるエコー消去信号の選択方法のフロー図である。 図12は、実施の形態4におけるエコー消去装置の機能ブロック図である。 図13は、実施の形態4の変形例におけるエコー消去装置の機能ブロック図である。 図14は、実施の形態4におけるエコー消去方法のフロー図である。
 (本発明の基礎となった知見)
 本発明者は、「背景技術」の欄において記載したエコー消去装置に関し、以下の問題が生じることを見出した。
 ビデオ会議システムを利用したビデオ会議が行われている。ビデオ会議システムを利用したビデオ会議では、自地点のビデオ会議システム装置(以降、単に装置と称する)と相手地点の装置とが、通信回線を介して映像及び音声を相互に送受信する。自地点の装置は、自地点のカメラで撮像された映像と自地点のマイクロホン(マイク)で収音された音声とを相手地点へ送信する。また、自地点の装置は、相手地点のカメラで撮影された映像を受信し自地点の画面に表示するとともに、相手地点のマイクで収音された音声を受信し、自地点のスピーカーで再生する。このように双方向に映像及び音声を送受信することでコミュニケーションを行う。このようなビデオ会議システムでは、自地点のマイクは、自地点のユーザー音声だけでなく、自地点のスピーカーから再生される相手地点側から受信された音声も収音する。自地点のスピーカーから再生された相手地点の音声が自地点のマイクに収音される音を音響エコー(以降、単にエコーと称する)という。エコーが生じる状態でエコーを消去せずに相手地点に音声を送信すると、相手地点では、自身の発声した音声が時間差をもってスピーカーから再生される。このようなエコーは、コミュニケーションの妨げとなる。エコー消去装置によりエコーを消去することで円滑なコミュニケーションが実現できる。
 エコー消去装置では、スピーカーからマイクまでのエコー伝達特性を模擬したフィルタを用いてスピーカー信号を畳み込むことで擬似エコーを生成し、マイク信号から擬似エコーを減算することでエコーを消去する。さらにエコー消去信号(エコーが消去された信号)とスピーカー信号とを用いて、エコー伝達特性と等価になるようにフィルタ特性が更新される。
 フィルタ特性の更新方法として、最小平均2乗誤差(LMS)に基づく方法や正規化最小平均2乗誤差(NLMS)に基づく方法が広く知られている。これらの方法では、マイク信号にエコーのみ存在する(シングルトーク)という前提で、エコー消去信号が0になるようにフィルタの更新を行う。
 マイク信号に自地点のユーザーの音声とエコーとが同時に存在する同時通話(ダブルトーク)時にこれらの方法を用いると、フィルタ特性は必ずしもエコー伝達特性に近づくように更新されない。場合によっては、エコーがより大きくなるように変更されることがある。このように、従来のエコー消去装置は、適切に擬似エコー信号を生成できず、その結果、エコーを増大させてしまうことがある。
 ダブルトーク時でもフィルタ特性をエコー伝達特性と等価にし、正しくエコー消去を行うことを目的として、独立成分分析を適用する技術が開示されている(例えば、特許文献1)。また、不感帯や過修正帯を有する非線形関数を用いたNLMSを適用する技術が開示されている(例えば、特許文献2)。
 上述のように、従来のエコー消去装置では、マイク信号に自地点のユーザーの音声とエコーとが同時に存在する同時通話(ダブルトーク)時に、フィルタの特性をエコー伝達特性と等価にすることができないという問題がある。なぜなら、従来のエコー消去装置ではマイク信号がエコー信号のみを含むという前提でマイク信号の大きさを減少させる演算を行うが、マイク音声にユーザーの音声が混在しているダブルトーク時には、この演算ではフィルタ特性の更新が正しく行われず、エコーを増加させてしまう場合があるためである。
 よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコーを消去することが課題となる。
 上記課題に対し、特許文献1では、独立成分分析を適用する。しかし、フィルタの更新がスピーカー信号の大きさに依存している。このため、スピーカー信号の大きさが時々刻々と変化すると、フィルタ特性のエコー伝達特性への収束速度が低下する。収束速度が低いことは、収束するまでの間、エコーが残存することを意味する。したがって、通話者の会話が継続しているときに適切にエコー消去できるとはいえない。よって特許文献1に開示される技術によって上記課題は解決されない。
 一方、上記課題に対し、特許文献2では、不感帯や過修正帯を有する非線形関数を用いたNLMSを適用する。この技術によれば、従来のNLMSに比べて収束速度は向上する。しかし、特許文献2では、フィルタ更新において正規化が正しく行われない。また、フィルタ更新により生成される擬似エコーがユーザー音声の大きさにのみ依存している。このため、従来のNLMSのダブルトーク時にエコー伝達特性と等価にする更新が正しくされない。よって特許文献2に開示される技術によって上記課題は解決されない。
 そこで、本発明は、ダブルトーク時にもエコーを消去することができるエコー消去方法等を提供する。より詳細には、本発明は、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコーを消去することができるエコー消去方法等を提供する。
 本発明の一態様に係るエコー消去装置は、第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去装置であって、前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成部と、前記第2の音声信号から、前記第1の擬似エコー生成部により生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去部と、前記第1のエコー消去部により生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新部とを備える。
 これにより、ノルムにより正規化された第1の音声信号(スピーカー信号)と、非線形変換された第2の音声信号(マイク信号)とに依存するフィルタ更新量を算出することができる。このフィルタ更新量を用いて更新されるフィルタと第1の音声信号との演算により生成される擬似エコー信号は、第1の音声信号の振幅1乗次元で与えられる。このため、シングルトーク時及びダブルトーク時において安定してフィルタの特性をエコー伝達特性と等価にすることが可能となる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコー信号を消去することができる。
 また、例えば、前記フィルタ更新部は、前記第1の音声信号のノルムに対する前記第1の音声信号の比と、前記非線形変換されたエコー消去信号とを用いて、前記フィルタの特性の更新を行う。
 また、例えば、前記フィルタ更新部は、前記第1の音声信号のノルムに対する前記第1の音声信号の比と、前記非線形変換されたエコー消去信号と、所定の係数との積を、更新前の前記フィルタの特性に加算することにより、前記フィルタの特性の更新を行う。
 これにより、第1の音声信号の平均値に対する相対変化量と、非線形変換された第2の音声信号とに依存するフィルタ更新量を算出することができる。このフィルタ更新量を用いて更新されるフィルタと第1の音声信号との演算により生成される擬似エコー信号は、第1の音声信号の振幅1乗次元で与えられる。このため、シングルトーク時及びダブルトーク時において安定してフィルタの特性をエコー伝達特性と等価にすることが可能となる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコー信号を消去することができる。
 また、例えば、前記フィルタ更新部は、前記第1のエコー消去信号が正のときに+1を、前記第1のエコー消去信号が負のときに-1を、前記第1のエコー消去信号が0のときに0をそれぞれとる関数である符号関数を用いて、前記非線形変換を行う。
 これにより、エコー消去信号の大きさを0に近づける方向へ変化させるための計算に使われる符号に対応する値を得ることができる。
 また、例えば、前記エコー消去装置は、さらに、前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成部と、前記第1のエコー消去信号から前記第2の擬似エコー信号生成部により生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去部とを備える。
 これにより、スピーカー信号のノルムと、非線形変換されたエコー消去信号と、第1のエコー消去信号とにより、エコー消去信号に残留するエコーを消去するための第2の擬似エコー信号を少ない演算量で生成することができる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることにより、さらに高い精度でエコーを消去することが可能となる。
 また、例えば、前記エコー消去装置は、さらに、前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号と前記第1の音声信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成部と、前記第1のエコー消去信号から前記第2の擬似エコー信号生成部により生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去部とを備える。
 これにより、スピーカー信号と、スピーカー信号のノルムと、非線形変換されたエコー消去信号と、第1のエコー消去信号とにより、エコー消去信号に残留するエコーを消去するための第2の擬似エコー信号を少ない演算量で生成することができる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることができ、さらに高い精度でエコーを消去することが可能となる。
 また、例えば、前記エコー消去装置は、さらに、前記第2のエコー消去信号の大きさが前記第1のエコー消去信号の大きさより小さい場合に、前記第2のエコー消去信号を新たな第2のエコー消去信号として出力し、前記第2のエコー消去信号の大きさが前記第1のエコー消去信号の大きさより大きい場合に、前記第1のエコー消去信号を新たな第2のエコー消去信号として出力する選択部を備える。
 これらにより、第1のエコー消去信号と第2のエコー消去信号とのうちで、効果的にエコーが消去された方をエコー消去装置の出力とすることができる。第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きい場合とは、第1のエコー消去信号のエコー消去を意図した演算において、当該意図と異なり第1のエコー消去信号に含まれるエコーを増大させた場合に相当する。このような場合には、エコー消去装置の出力として第1の消去信号が適切であるためである。
 また、例えば、前記フィルタ更新部は、前記選択部が前記第1のエコー消去信号を新たな第2のエコー消去信号として出力した場合に、前記フィルタの特性の更新を行わない。
 これにより、第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きい場合とは、第1の擬似エコーの生成を意図したフィルタ更新算出において、当該意図と異なりエコー消去信号の大きさを増大させるようにフィルタ更新がされる場合に相当する。このような場合には、フィルタ更新を行わないことで、安定にフィルタの特性をエコー伝達特性と等価にすることができ、さらに高い精度でエコーを消去することが可能となる。
 また、例えば、前記フィルタ更新部は、過去の所定時間内の第1の音声信号の大きさの2乗和を算出することにより、第2の擬似エコー信号を算出する。
 これにより、第2の擬似エコー信号を生成するための計算を高速に実行することができる。なぜなら、現時刻における第1の音声信号の大きさの2乗和を算出するには、前の処理時刻で算出した第1の音声信号の大きさの2乗和から、最も古い時刻の2乗値を減じ、現時刻で取得した最新時刻の2乗値を加えるだけで現処理時刻におけるスピーカー信号の2乗和を算出できる。よって、第2のエコー消去の演算量を削減することができる。
 また、本発明の一態様に係るエコー消去方法は、第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去方法であって、前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成ステップと、前記第2の音声信号から、前記第1の擬似エコー生成ステップで生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去ステップと、前記第1のエコー消去ステップで生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新ステップとを含む。
 また、本発明の一態様に係るエコー消去方法は、前記エコー消去方法は、さらに、前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号と前記第1の音声信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成ステップと、前記第1のエコー消去信号から前記第2の擬似エコー信号生成ステップで生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去ステップとを含む。
 これらにより、上記エコー消去装置と同様の効果を奏する。
 また、本発明の一態様に係る通話装置は、エコー消去装置と、周囲の音声を収音して音声信号を生成するマイクと、音声信号に基づいて音声を再生するスピーカーと、音声信号を通話相手へ送信し、かつ、通話相手から音声信号を受信する通信部とを備え、前記エコー消去装置は、前記通信部が通話相手から受信した音声信号を前記第1の音声信号として受信し、前記マイクにより生成された音声信号を前記第2の音声信号として受信し、前記第1のエコー消去信号または前記第2のエコー消去信号を通話相手に送信される音声信号として通信部へ出力する。
 これにより、上記エコー消去装置と同様の効果を奏する。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 なお、同一の構成要素には同一の符号を付し、説明を省略する場合がある。
 (実施の形態1)
 以下、実施の形態1について、図面を参照しながら説明する。なお、本実施の形態では、ビデオ会議システムを例に説明するが、音声会議システム、Web会議サービス及び電話のようにスピーカーとマイクロホンとを用いて双方向に通話を行うシステムに適用することができる。
 図1を用いて、本実施の形態のビデオ会議システムの構成について説明する。図1は、ビデオ会議システムの全体構成図である。図1に示されるように、ビデオ会議システムの全体構成には、ビデオ会議システム1と、テレビ2と、マイクロホン(マイク)3と、カメラ4と、インターネット5とが含まれる。
 ビデオ会議システム1は、マイクロホン3により生成された音声信号(マイク信号)と、カメラ4により生成された映像信号とを受信し、インターネット5を介して通話相手のビデオ会議システムへ送信する。また、ビデオ会議システム1は、通話相手のビデオ会議システムから受信した音声信号(スピーカー信号)と映像信号とをテレビ2へ送信する。なお、スピーカー信号は、第1の音声信号の一例である。また、マイク信号は、第2の音声信号の一例である。
 テレビ2は、映像信号と音声信号(スピーカー信号)とを受信し、受信した映像信号に基づいて映像を再生し、受信した音声信号(スピーカー信号)に基づいて音声を再生する。
 マイクロホン3は、ユーザー音声を収音し、音声信号(マイク信号)を生成する。
 カメラ4は、ユーザーを撮像し、映像信号を生成する。
 インターネット5は、ビデオ会議システム1が接続されるネットワークであり、通話相手のビデオ会議システム(不図示)も接続されている。
 ビデオ会議システム1はユーザー及びユーザーの通話相手の映像と音声とを双方向で送受信することで、ユーザー及びユーザーの通話相手のコミュニケーションを実現する。
 図2は、ビデオ会議システムの機能ブロック図である。図1に示されるビデオ会議システム1について、図2を用いて詳細に説明する。なお、図2における矢印はデータが流れる方向を示す。
 図2に示されるように、ビデオ会議システム1は、音声ADC6と、映像ADC(Analog Digital Converter)7と、エンコーダー8と、デコーダー9と、音声DAC(Digital Analog Converter)10と、映像DAC11と、通信部14と、エコー消去装置20とを備える。
 通信部14は、映像データ、及び、音声データを送受信する。
 デコーダー9は、通信部14にて受信した通話相手のビデオ会議システムから受信した映像データと音声データとをデコードし、映像信号とデジタルスピーカー信号とを生成する。
 音声DAC10は、デコーダー9により生成されたデジタルスピーカー信号をアナログスピーカー信号に変換する。ビデオ会議システム1はデジタルスピーカー信号をスピーカー12へ送信してもよい。
 映像DAC11は、デコーダー9により生成されたデジタル映像信号をアナログ映像信号に変換する。ビデオ会議システム1はデジタル映像信号をディスプレイ13へ送信してもよい。
 映像ADC7は、カメラ4により生成されたアナログ映像信号をデジタル映像信号に変換する。カメラ4が映像ADC7を備えてデジタル映像信号を生成し、ビデオ会議システム1へ送信してもよい。
 音声ADC6は、マイク3により生成されたアナログマイク信号をデジタルマイク信号に変換する。マイク3が音声ADC6を備えてデジタルマイク信号を生成し、ビデオ会議システム1へ送信してもよい。
 エコー消去装置20は、マイク信号とスピーカー信号を入力してエコー消去信号を出力する。
 エンコーダー8は、映像ADC7から出力されたデジタル映像信号とエコー消去装置20から出力されたエコー消去信号とをエンコードする。
 また、ビデオ会議システムに接続されるテレビ2は、スピーカー12とディスプレイ13とを備える。スピーカー12は、ビデオ会議システム1からのアナログスピーカー信号を再生する。ディスプレイ13は、ビデオ会議システム1からのアナログ映像信号を表示する。
 なお、以降で、単にスピーカー信号、マイク信号、及び、映像信号と記したときには、それぞれ、デジタルスピーカー信号、デジタルマイク信号、及び、デジタル映像信号を意味する。
 なお、図2ではスピーカー1個、マイクロホン1個の構成が示されているが、スピーカーとマイクロホンとはそれぞれ2個以上であってもよい。その場合、ビデオ会議システム1は、対応するマイクロホンの数の音声信号をエンコードできるエンコーダーと、対応するスピーカーの数の音声信号をデコードできるデコーダーと、対応する数のスピーカー信号と対応する数のマイク信号とを用いて1個以上のエコー消去信号を生成するエコー消去装置とを備える。ビデオ会議システム1は、音声DACを内蔵する場合は、対応するスピーカーの数の音声DACを備える。ビデオ会議システム1は、音声ADCを内蔵する場合は、対応するマイクロホンの数の音声ADCを備える。
 なお、テレビ2、マイクロホン3、及び、カメラ4が、デジタル信号を入出力する場合には、映像ADC7、音声ADC6、音声DAC10、及び、映像DAC11は不要である。
 ここで、エコー消去装置20について説明する。図2のように構成されるビデオ会議システムは、受信した相手地点の音声をテレビ2のスピーカー12から再生する。このとき、マイクロホン3には、自地点のユーザー音声に加えて、スピーカー12から再生された通話相手地点の音声が収音される。このように、スピーカー12から再生されてマイクロホン3に混入する音声がエコーである。エコーが生じる状態でエコーを消去せずに通話相手地点に音声を送信すると、通話相手にとっては、自分の発声した音声が時間差をもってスピーカーから再生されるため、コミュニケーションの妨げとなる。そこで、エコー消去装置20が、マイクロホン3で収音したマイク信号に含まれるエコーを消去し、エコー消去信号を相手地点に送信する。これにより、エコーのない円滑なコミュニケーションを実現する。
 上記のように構成されたビデオ会議システムの動作について説明する。ビデオ会議システム1と通話相手のビデオ会議システムとによってビデオ会議を開始すると、カメラ4で生成された映像信号が、映像ADC7によりデジタル映像信号に変換され、エンコーダー8に送られる。マイクロホン3で生成された音声信号が、音声ADC6によりデジタルマイク信号に変換され、エコー消去装置20によりエコーが消去され、エンコーダー8に送られる。そして、エンコーダー8のエンコードにより生成された映像データ及び音声データが、通信部14からインターネット5を介して通話相手のビデオ会議システムに送信される。また、通信部14にて通話相手のビデオ会議システムから受信した映像データ及び音声データは、デコーダー9によってデコードされ、音声DAC10、映像DAC11を介して、映像信号、スピーカー信号それぞれをテレビ2に出力する。上記のように映像と音声データを双方向に送受信することで、コミュニケーションを行う。
 図3は、本実施の形態におけるエコー消去装置21の機能ブロック図である。エコー消去装置21は、図2に示されるエコー消去装置20に相当する。図3において、マイクロホン3には自地点のユーザー音声だけでなく、スピーカー12から再生されたスピーカー信号がエコーとして混入する。
 エコー消去装置21は、第1の擬似エコー生成部200と、第1のエコー消去部201と、フィルタ更新部202とを備える。
 第1の擬似エコー生成部200は、スピーカー信号とエコー伝達特性を模擬したフィルタとの畳み込み演算により擬似エコー信号を生成する。
 第1のエコー消去部201は、マイク信号から、第1の擬似エコー生成部200により生成された擬似エコーを減算することでエコー消去信号を生成する。
 フィルタ更新部202は、エコー消去部より生成されたエコー消去信号と、スピーカー信号とを用いてフィルタの特性を更新するためのものである。
 図4は、本実施の形態におけるフィルタ更新部202の機能ブロック図である。フィルタ更新部202は、ノルム算出部300と、非線形変換部301と、フィルタ更新量算出部302とを備える。
 ノルム算出部300は、スピーカー信号のノルムを算出する。ここで、スピーカー信号のノルムとは、過去の所定時間内のスピーカー信号の大きさの総和であり、当該時間内の信号の大きさの度合いを示す値である。
 非線形変換部301は、エコー消去信号に対して非線形変換を行うことにより、非線形変換されたエコー消去信号を生成する。
 フィルタ更新量算出部302は、ノルム算出部300より算出されたノルムと、非線形変換されたエコー消去信号と、スピーカー信号とを用いてフィルタ特性の更新量を算出する。
 かかる構成によればスピーカー信号のノルムと、非線形変換されたエコー消去信号と、スピーカー信号とを用いてフィルタ更新量を算出し、算出されたフィルタ更新量を用いてフィルタの更新を行う。これにより、ダブルトーク時であっても、フィルタをエコー伝達特性と等価にするための更新が可能となり、擬似エコーを正しく生成することができ、常時エコーを正しく消去することができる。
 図5は本実施の形態におけるエコー消去方法のフロー図である。本実施の形態におけるエコー消去方法についてフロー図と数式とを用いて説明する。
 本エコー消去方法では、まず、エコー消去装置20が、マイク信号m(t)を取得する(ステップS501)。ここで、tはデジタル化された信号における時刻を表し、x(t)は時刻tにおけるスピーカー信号を表す。マイク信号m(t)は、ユーザー音声s(t)とエコーe(t)とを用いて(式1)により与えられる(s(t)には、ユーザー音声だけでなく、複数のユーザー音声または背景ノイズが含まれる。)。
Figure JPOXMLDOC01-appb-M000001
 また、エコーe(t)は、スピーカー12からマイクロホン3までのエコー伝達特性h(τ)と、スピーカー信号x(t)とより(式2)により与えられる。ここで、τはフィルタのサンプル番号、Lはエコー伝達特性の長さを表す。
Figure JPOXMLDOC01-appb-M000002
 次に、エコー消去装置20が、スピーカー信号x(t)を取得する(ステップS502)。
 次に、第1の擬似エコー生成部200は、擬似エコーz(t)を生成する(ステップS503)。エコー伝達特性を模擬するための更新前のフィルタをwt-1(τ)とすると、第1の擬似エコー生成部200は、擬似エコーz(t)を(式3)により生成する。ここで、Tはフィルタの長さである。
Figure JPOXMLDOC01-appb-M000003
 次に、第1のエコー消去部201は、マイク信号に含まれるエコーを消去することにより、エコー消去信号o(t)を生成する(ステップS504)。第1のエコー消去部201は、(式4)により、マイク信号m(t)から擬似エコーz(t)を減算することでエコー消去信号o(t)を生成する。
Figure JPOXMLDOC01-appb-M000004
 次に、ノルム算出部300は、スピーカー信号x(t)のノルムn(t)を算出する(ステップS505)。ノルム算出部300は、(式5)によりスピーカー信号x(t)のノルムn(t)を算出する。
Figure JPOXMLDOC01-appb-M000005
 なお、(式5)において、ノルムは、スピーカー信号の絶対値の累積値としたが、他の算出方法でも算出され得る。例えば、スピーカー信号の2乗の累積値の平方根で与えられるユークリッドノルム、または、信号の大きさの最大値で与えられる最大値ノルムにより算出され得る。
 次に、非線形変換部301は、非線形変換されたエコー消去信号φ(o(t))を生成する(ステップS506)。非線形変換部301は、エコー消去信号o(t)に対して非線形変換を行うことにより、非線形変換されたエコー消去信号φ(o(t))を生成する。なお、非線形変換に用いられる非線形関数の具体例には、変換対象の変数が正のときに+1を、変換対象の変数が負のときに-1を、変換対象の変数が0のときに0をそれぞれとるような符号関数がある。また、非線形関数の他の具体例には、双曲線正接tanh(o(t))がある。つまり、φ(o(t))はマイク信号の大きさによらず-1以上+1以下の値をとる。
 次に、フィルタ更新量算出部302は、フィルタ更新量Δw(τ)を算出する(ステップS506)。フィルタ更新量算出部302は、非線形変換されたエコー消去信号φ(o(t))と、スピーカー信号x(t)と、ノルムn(t)とを用いて(式6)によりフィルタ更新量Δw(τ)を算出する。
Figure JPOXMLDOC01-appb-M000006
 ここで、ノルムn(t)に対するスピーカー信号x(t)の比は、ある時間のスピーカー信号の大きさの平均値からの相対変化量を示す値である。なお、ノルムn(t)に対するスピーカー信号x(t)の比をとることを、スピーカー信号x(t)をノルムにより正規化する、と表現する。
 なお、Δw(τ)は、非線形変換されたエコー消去信号φ(o(t))と、スピーカー信号x(t)と、ノルムn(t)とにより求められるものであって、フィルタ更新量として用いることができる無次元量であれば、他の計算により算出されてもよい。
 次に、第1の擬似エコー生成部200は、フィルタを更新する(ステップS507)。第1の擬似エコー生成部200は、更新後のフィルタw(τ)を、更新前のフィルタwt-1(τ)と、フィルタ更新量Δw(τ)と、ステップゲインαとを用いて(式7)により算出する。ここで、ステップゲインαは、更新量を調整するための係数である。更新後のフィルタは時刻tの次の時刻である時刻(t+1)で用いられる。
Figure JPOXMLDOC01-appb-M000007
 以上の一連の処理によって、フィルタ特性を用いてマイク信号に含まれるエコーを消去し、フィルタ特性を更新することができる。更新されたフィルタ特性は、次の時刻のエコーの消去に用いられる。
 以下で、本発明におけるエコー消去方法の特徴を先行技術文献との比較をしながら説明する。
 特許文献1に開示される技術によれば、フィルタ更新量Δw(τ)は(式8)のように定義される。
Figure JPOXMLDOC01-appb-M000008
 (式8)において、スピーカー信号x(t-τ)は、ノルムによる正規化が行われていない。そのため、フィルタ更新量Δw(τ)は、スピーカー信号の大きさに依存して変動する。よって、スピーカー信号の大きさが時々刻々と変化する場合には、フィルタ特性がエコー伝達特性に近づく速度である収束速度が低下する。なお、信号の大きさが時々刻々と変化する信号の具体例の一つは会話の音声信号である。
 これに対し、本実施の形態の更新式(式6)おけるΔw(τ)は、スピーカー信号のノルムで正規化されているため、スピーカー信号の大きさに依存しない。よって、スピーカー信号の大きさが時々刻々と変化する場合にも、フィルタ特性の変動は小さく抑えられる。その結果、フィルタ特性が比較的早くエコー伝達特性に近づく。
 一方、特許文献2に開示される技術によれば、更新量は(式9)のように定義される。
Figure JPOXMLDOC01-appb-M000009
 (式9)では、Δw(τ)は、分子がスピーカー信号の大きさに非依存のφ(o(t))とスピーカー信号との積で与えられ、分母がスピーカー信号の2乗和で与えられているため、スピーカー信号の振幅の-1乗次元に正規化されている。そのため、スピーカー信号の大きさ変化の影響を受け、正しい更新量が算出されず、フィルタ特性がエコー伝達特性に近づく速度である収束速度が低下する。
 特許文献1及び特許文献2のように、フィルタ更新量Δw(τ)の正規化が正しくない場合、適切なフィルタ更新ができないことはいうまでもない。フィルタ更新が適切でない場合、ステップゲインαを試行錯誤により調整することにより、誤差を小さくすることが従来実現されていたが、あくまで限定的な範囲内での調整に限られていた。
 これに対し、本実施の形態におけるフィルタ更新方法では、ノルムにより更新量の次元を正しく正規化でき、ダブルトーク時であっても安定してフィルタをエコー伝達特性と等価にするための更新を正しく行うことが可能となる。
 以上より、本実施の形態によれば、シングルトーク時だけでなくダブルトーク時においても、安定してフィルタの特性をエコー伝達特性と等価にすることにより、エコーを消去することができる。その理由は以下のように説明される。
 第一に、フィルタの更新量Δw(τ)がユーザー音声s(t)の大きさに対する依存を軽減できているからである。Δw(τ)は、(式6)に示されるとおり、非線形変換されたエコー消去信号φ(o(t))に依存する。ダブルトーク時にはエコー消去信号o(t)にユーザー音声s(t)が含まれるが、その場合でも非線形変換を行っているため、フィルタ更新量Δw(τ)はユーザー音声s(t)の大きさに依存して過度に増減することはない。
 第二に、フィルタw(τ)の更新量Δw(τ)がスピーカー信号x(t)の大きさに対する依存度を軽減しているためである。Δw(τ)は、(式6)に示されるとおり、正規化された形のx(t)、つまり、x(t-τ)/n(t)に依存する。よって、シングルトーク時でもダブルトーク時でもスピーカー信号x(t)の大きさに依存して、Δw(τ)が過度に増減することはない。
 第三に、第1の擬似エコー生成部200において、擬似エコーが同次元の信号で生成されるためである。具体的には、振幅1乗次元である擬似エコーはスピーカー信号x(t)の振幅1乗次元で生成されるためである。この場合に、同次元の信号で擬似エコー信号を生成しているため、安定してより正しい擬似エコーを生成することができる。
 以上の理由により、フィルタの更新量が、エコー消去信号の相対変化量とスピーカー信号の相対変化量とに依存し、擬似エコー信号がスピーカー信号の振幅1乗次元で表されるようになる。そのため、ダブルトーク時においてフィルタの特性をエコー伝達特性と等価にすることができる。
 以上のように、本発明の一態様に係るエコー消去装置は、ノルムにより正規化された第1の音声信号(スピーカー信号)と、非線形変換された第2の音声信号(マイク信号)とに依存するフィルタ更新量を算出することができる。このフィルタ更新量を用いて更新されるフィルタと第1の音声信号との演算により生成される擬似エコー信号は、第1の音声信号の振幅1乗次元で与えられる。このため、シングルトーク時及びダブルトーク時において安定してフィルタの特性をエコー伝達特性と等価にすることが可能となる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコー信号を消去することができる。
 また、第1の音声信号の平均値に対する相対変化量と、非線形変換された第2の音声信号とに依存するフィルタ更新量を算出することができる。このフィルタ更新量を用いて更新されるフィルタと第1の音声信号との演算により生成される擬似エコー信号は、第1の音声信号の振幅1乗次元で与えられる。このため、シングルトーク時及びダブルトーク時において安定してフィルタの特性をエコー伝達特性と等価にすることが可能となる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることによりエコー信号を消去することができる。
 また、エコー消去信号の大きさを0に近づける方向へ変化させるための計算に使われる符号に対応する値を得ることができる。
 (実施の形態2)
 図6は、本発明の実施の形態3におけるエコー消去装置22の機能ブロック図である。エコー消去装置22は、実施の形態1におけるエコー消去装置20に相当する。図6において、図2、図3及び図4と同じ構成要素については同じ符号を用い、説明を省略する。
 図6において、エコー消去装置22は、第2の擬似エコー生成部400と、第2のエコー消去部401とを備える。
 第2の擬似エコー生成部400は、前記算出したノルムと前記非線形変換されたエコー消去信号と前記スピーカー信号とを用いて第2の擬似エコー信号を生成する。
 第2のエコー消去部401は前記エコー消去信号から前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成する。
 かかる構成によれば、実施の形態1のエコー消去信号(以降、第1のエコー消去信号とも称する)から、第2の擬似エコー生成部400により生成された第2の擬似エコー信号を減算することで、第2のエコー消去信号を生成することができる。第2のエコー消去信号は、(式6)により算出されるフィルタ更新量を用いて更新されるフィルタにより生成される。第2のエコー消去信号は、第1のエコー消去信号に比べてエコー消去性能が高い。
 本実施の形態におけるエコー消去方法についてフロー図と数式とを用いて説明する。
 図7は本実施の形態におけるエコー消去方法のフロー図である。本実施の形態におけるフローが実施の形態1のフローと異なる点は、フィルタ更新(ステップS508)の後の処理である。以降で、フィルタ更新(ステップS508)の後の処理のフローについてのみ説明する。
 フィルタ更新(ステップS508)の後、第2の擬似エコー生成部400は、第2の擬似エコーを生成する(ステップS709)。第2の擬似エコーz2(t)は、フィルタ更新量Δw(τ)とスピーカー信号x(t)とを用いて(式10)により与えられる。
Figure JPOXMLDOC01-appb-M000010
 (式10)では、フィルタ更新量Δw(τ)とスピーカー信号x(t)とを畳み込んでいる。この畳み込み演算の演算量は膨大である。そこで、次式のように数式展開することにより、畳み込み演算を行う必要がなくなる。
Figure JPOXMLDOC01-appb-M000011
 (式11)を利用すれば、第2の擬似エコー生成部400は、既に算出したノルムと非線形変換されたエコー消去信号と、スピーカー信号の2乗和とを用いることで、第2の擬似エコーx2(t)を生成することが可能となる。
 (式11)において、毎時刻2乗和を計算しなくとも、前の処理時刻で算出した2乗和から、最も古い時刻の2乗値を減じ、現時刻で取得した最新時刻の2乗値を加えるだけで現処理時刻におけるスピーカー信号の2乗和を算出できる。よって、第2のエコー消去の演算量を大幅に削減することができる。
 次に、第2のエコー消去部401は、第1のエコー消去信号に含まれるエコーを消去することにより、第2のエコー消去信号を生成する(ステップS710)。第2のエコー消去部401は、(式4)に示される第1のエコー消去信号から(式11)に示される第2の擬似エコー信号を減算することにより、第2のエコー消去信号を生成する。
Figure JPOXMLDOC01-appb-M000012
 このように第2のエコー消去を行うことで、第1のエコー消去信号に比べ、エコー消去性能の高いエコー消去信号を生成することができる。
 以下で本発明におけるエコー消去方法の特徴を先行技術文献との比較をしながら説明する。第2の擬似エコーの構成要素について物理的な意味を解釈することで、エコー消去方法の特徴が理解される。第2の擬似エコーは、フィルタの更新により変化する擬似エコーの変化量に対応する。
 仮に、特許文献1に開示されるエコー消去方法により算出されるフィルタ更新量を用いて、第2の擬似エコー信号を生成すると(式13)のようになる。
Figure JPOXMLDOC01-appb-M000013
 特許文献1では、第2の擬似エコー信号(振幅の1乗次元)が、スピーカー信号のパワー(振幅の2乗次元)で更新される。第2の擬似エコー信号は1乗次元であり、次元が異なるため、正しい更新ができないことを意味している。
 また、仮に、特許文献2に開示されるエコー消去方法により算出されるフィルタ更新量を用いて、第2の擬似エコーを生成すると(式14)のようになる。
Figure JPOXMLDOC01-appb-M000014
 特許文献2では、第2の擬似エコー信号が、非線形変換されたエコー消去信号(無次元)で更新される。特許文献2で特に問題になるのはダブルトークの時である。(式14)ではスピーカー信号が含まれていない。つまり、スピーカー信号に依存せず擬似エコーの更新量が決まることとなり、ダブルトーク時にエコー信号が残存しているか否かを判断せずに更新される。典型的な例として、エコーがなく、ユーザー音声のみあるような場合には、本来、擬似エコーの更新は不要であるが、(式14)によれば、第2の擬似エコー信号が更新される。つまり、特許文献2では、従来のNLMSのダブルトーク時に正しくフィルタを更新できないという欠点を有する。不感帯または過修正帯を有する非線形関数を用いることで、エコー伝達特性と等価になる収束速度の改善が図られているため、一定の程度のエコー消去効果が得られるが、最適なエコー消去信号を利用しているとはいえない。
 以上のように、特許文献1及び特許文献2ではダブルトーク時において、正しくフィルタをエコー伝達特性と等価にする更新はできない。
 以下で、本実施の形態よる方法について説明する。(式11)は、変形及び近似により、(式15)となる。
Figure JPOXMLDOC01-appb-M000015
 (式15)に示されるように、本実施の形態におけるエコー消去方法では、第2の擬似エコー信号は、振幅の1乗次元で生成される。スピーカー信号のノルムは振幅の1乗次元であり、非線形変換されたエコー消去信号φ(o(t))はマイク信号の大きさによらず-1以上+1以下の値をとるため無次元である。よって、両辺の次元が一致しており、非線形変換によりユーザー音声の大きさの依存度を軽減できているため、シングルトーク時やダブルトーク時によらず安定して擬似エコーを生成することが可能となる。
 以上のように、本実施の形態におけるエコー消去方法は、フィルタ更新量がダブルトーク状態においても、非線形変換されたエコー消去信号とスピーカー信号との独立性により算出され、かつスピーカー信号の大きさの依存度を軽減できているため、フィルタのエコー伝達特性と等価にするための更新を正しく行うことができる。
 以上のように、本発明の一態様に係るエコー消去装置は、スピーカー信号と、スピーカー信号のノルムと、非線形変換されたエコー消去信号と、第1のエコー消去信号とにより、エコー消去信号に残留するエコーを消去するための第2の擬似エコー信号を少ない演算量で生成することができる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることができ、さらに高い精度でエコーを消去することが可能となる。
 また、第2の擬似エコー信号を生成するための計算を高速に実行することができる。なぜなら、現時刻における第1の音声信号の大きさの2乗和を算出するには、前の処理時刻で算出した第1の音声信号の大きさの2乗和から、最も古い時刻の2乗値を減じ、現時刻で取得した最新時刻の2乗値を加えるだけで現処理時刻におけるスピーカー信号の2乗和を算出できる。よって、第2のエコー消去の演算量を削減することができる。
 (実施の形態2の変形例)
 図6で示されるエコー消去装置22は、(式15)の近似により、図8に示されるエコー消去装置23の構成をとることも可能である。本変形例によれば、本実施の形態による場合に比べて、エコー消去装置の計算量を削減することができる。つまり、本実施の形態では、(式11)のようにスピーカー信号の2乗和とノルムと非線形変換されたエコー消去信号とから、第2のエコー消去信号が求められる。一方、本変形例ではノルムと非線形変換されたエコー消去信号とのみから第2のエコー消去信号が求められる。
 図8は、本実施の形態の変形例におけるエコー消去装置の機能ブロック図である。第2の擬似エコー生成部402は、(式15)のように、ノルム算出部300より算出したノルムと、非線形変換されたエコー消去信号とを用いて算出することができ、少ない演算量で第2の擬似エコーを生成することが可能となる。
 かかる構成によれば、極めて少ない演算量でエコー消去性能の改善を図ることが可能となる。
 以上のように、本発明の一態様に係るエコー消去装置は、スピーカー信号のノルムと、非線形変換されたエコー消去信号と、第1のエコー消去信号とにより、エコー消去信号に残留するエコーを消去するための第2の擬似エコー信号を少ない演算量で生成することができる。よって、シングルトーク時だけでなくダブルトーク時にも、フィルタの特性をエコー伝達特性と等価にすることにより、さらに高い精度でエコーを消去することが可能となる。
 (実施の形態3)
 図9は、本実施の形態におけるエコー消去装置24の機能ブロック図である。エコー消去装置24は、実施の形態1におけるエコー消去装置20に相当する。図9において、図2、図3、図4及び図6と同じ構成要素については同じ符号を用い、説明を省略する。
 図9において、エコー消去装置24は、選択部500を備える。
 選択部500は、第1のエコー消去信号の大きさと第2のエコー消去信号の大きさとを比較し、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより小さい場合に、第2のエコー消去信号を新たな第2のエコー消去信号として出力する。また、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより大きい場合に、第1のエコー消去信号を新たな第2のエコー消去信号として出力する。なお、第2の擬似エコー信号は、第2の擬似エコー生成部400により生成されたものでもよいし、第2の擬似エコー生成部402により生成されたものでもよい。
 かかる構成によれば、エコー消去装置24は第1のエコー消去信号及び第2のエコー消去信号のうち、エコー消去性能の高いエコー消去信号を選択することが可能となる。
 本実施の形態におけるエコー消去方法についてフロー図と数式とを用いて説明する。
 図10は本実施の形態におけるエコー消去方法のフロー図である。本実施の形態のフロー図が実施の形態2のフローと異なる点は、本実施の形態では、第2のエコー消去(ステップS710)の後の処理である。以降で、第2のエコー消去(ステップS710)の後の処理についてのみ説明する。
 第2のエコー消去(ステップS710)の後、選択部500は、エコー消去信号の選択を行う(ステップS1011)。
 図11は、本実施の形態におけるエコー消去信号の選択方法のフロー図である。
 選択部500は、(式4)により生成された第1のエコー消去信号の大きさと、(式12)により生成された第2のエコー消去信号の大きさとを比較する(ステップS1101)。そして、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより小さい場合(ステップS1101でYes)に、第2のエコー消去信号を新たな第2のエコー消去信号o3(t)とする(ステップS1102)。また、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより大きい場合(ステップS1101でNo)に、第1のエコー消去信号を新たな第2のエコー消去信号o3(t)とする(ステップS1103)。このようにして新たな第2のエコー消去信号o3(t)を生成する。
Figure JPOXMLDOC01-appb-M000016
 このように、第1のエコー消去信号と第2のエコー消去信号とのうち、その大きさの小さいエコー消去信号を選択することで、エコー消去性能の高いエコー消去信号を選択することが可能となる。
 なお、第2のエコー消去信号を算出する前の時点で、(式12)の第2のエコー消去信号の大きさ(o2(t)の絶対値)が、第1のエコー消去信号の大きさ(o(t)の絶対値)より大きくなることが判明したときには、第2のエコー消去信号を算出しないようにしてもよい。なぜなら、結果的にo2(t)がその後の処理に利用されないためである。具体的には、例えば、(式12)のo(t)とz2(t)との大小関係を比較し、0<z2(t)<2×o(t)が成立するときには、o2(t)を算出しないようにしてもよい。また、同様に、2×o(t)<z2(t)<0が成立するときには、o2(t)を算出しないようにしてもよい。
 以上のように、本発明の一態様に係るエコー消去装置は、第1のエコー消去信号と第2のエコー消去信号とのうちで、効果的にエコーが消去された方をエコー消去装置の出力とすることができる。第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きい場合とは、第1のエコー消去信号のエコー消去を意図した演算において、当該意図と異なり第1のエコー消去信号に含まれるエコーを増大させた場合に相当する。このような場合には、エコー消去装置の出力として第1の消去信号が適切であるためである。
 (実施の形態4)
 図12は、本実施の形態におけるエコー消去装置25の機能ブロック図である。エコー消去装置25は、実施の形態1におけるエコー消去装置20に相当する。図12において、図2、図3、図4、図6及び図9と同じ構成要素については同じ符号を用い、説明を省略する。
 図12において、エコー消去装置25は、フィルタ更新量算出部303を備える。
 フィルタ更新量算出部303は、第1のエコー消去信号と第2のエコー消去信号とを比較し、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより大きい場合にはフィルタの更新を行わない。また、第2のエコー消去信号の大きさが第1のエコー消去信号の大きさより小さい場合に、ノルム算出部300より算出されたノルムと、第1のエコー消去信号と、スピーカー信号とを用いてフィルタ更新量を算出し、算出された更新量を用いてフィルタを更新する。なお、第2の擬似エコー信号は、第2の擬似エコー生成部400により生成されたものでもよいし、第2の擬似エコー生成部402により生成されたものであってもよい。
 本実施の形態におけるエコー消去方法についてフロー図と数式とを用いて説明する。本実施の形態のフロー図が実施の形態3のフローと異なる点は、本実施の形態では、スピーカー信号のノルム算出(ステップS506)の後の処理である。以降で、スピーカー信号のノルム算出(ステップS506)の後の処理についてのみ説明する。
 図14は本実施の形態におけるエコー消去方法のフロー図である。
 スピーカー信号のノルム算出(ステップS506)の後、エコー消去装置25は、第2の擬似エコー生成(ステップS1407)、第2のエコー消去(ステップS1408)、及び、エコー消去信号選択(ステップS1409)を行う。これらの処理は、それぞれ、ステップS709、S710、及び、S1011と同じである。
 次に、(式4)で生成された第1のエコー消去信号の大きさと、(式12)で生成された第2のエコー消去信号の大きさとを比較する(ステップS1410)。
 ステップS1410での比較の結果、第2のエコー消去信号の大きさがエコー消去信号の大きさより大きい場合(ステップS1410でNo)に、第2のエコー消去信号を新たな第2のエコー消去信号として出力する(ステップS1414)。このとき、フィルタ更新量算出部303は、フィルタの更新を行わない。
 一方、ステップS1410での比較の結果、第2のエコー消去信号の大きさがエコー消去信号の大きさより小さい場合(ステップS1410でYes)に、第1のエコー消去信号を新たな第2のエコー消去信号として出力する(ステップS1411)。フィルタ更新量算出部303は、フィルタの更新量を算出し(ステップS1412)、フィルタの更新を行う(ステップS1413)。
 本実施の形態において、第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きい場合とは、第1の擬似エコーの生成を意図したフィルタ更新算出において、当該意図と異なりエコー消去信号の大きさを増大させるようにフィルタ更新がされる場合に相当する。このような場合には、フィルタ更新を行わないことが適切である。また、フィルタ更新の判定は第1のエコー消去信号の大きさと第2のエコー消去信号の大きさとの比較により行っているため、判定においてフィルタの更新量は用いられない。よって、フィルタの更新量を算出する前に更新の判定することができ、エコー消去装置の演算量を削減することができる。
 (実施の形態4の変形例)
 図13は、本実施の形態の変形例におけるエコー消去装置26の機能ブロック図である。実施の形態4では、選択部500がエコー消去信号の大きさを用いてフィルタ更新の有無を決定するが、本変形例では、フィルタ更新量算出部304において、第1のエコー消去信号と第2のエコー消去信号と非線形変換されたエコー消去信号を用いて、実施の形態4と同様のことが実現される。
 かかる構成によれば算出されたフィルタの更新量がエコー伝達特性と等価になるような更新量か否かを、前記エコー消去信号の大きさと前記第2のエコー消去信号の大きさとを比較することで判定することができ、不適切な更新がされなくなる。その結果、フィルタのエコー伝達特性と等価になる収束性能が改善し、フィルタをよりエコー伝達特性と等価にできる。
 以上のように、本発明の一態様に係るエコー消去装置は、第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きい場合とは、第1の擬似エコーの生成を意図したフィルタ更新算出において、当該意図と異なりエコー消去信号の大きさを増大させるようにフィルタ更新がされる場合に相当する。このような場合には、フィルタ更新を行わないことで、安定にフィルタの特性をエコー伝達特性と等価にすることができ、さらに高い精度でエコーを消去することが可能となる。また、第2のエコー消去信号の大きさが、第1のエコー消去信号の大きさより大きいときに、エコー消去装置の演算量を削減することができる。フィルタ更新の判定は第1のエコー消去信号の大きさと第2のエコー消去信号の大きさとの比較により行っている。したがって、判定においてフィルタの更新量は用いられないためである。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態のエコー消去装置などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、このプログラムは、コンピュータに、第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去方法であって、前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成ステップと、前記第2の音声信号から、前記第1の擬似エコー生成ステップで生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去ステップと、前記第1のエコー消去ステップで生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新ステップとを含むエコー消去方法を実行させる。
 また、このプログラムは、コンピュータに、さらに、前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号と前記第1の音声信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成ステップと、前記第1のエコー消去信号から前記第2の擬似エコー信号生成ステップで生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去ステップとを含むエコー消去方法を実行させる。
 以上、一つまたは複数の態様に係るエコー消去装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本発明に係るエコー消去装置及び方法、並びに、本エコー消去装置を搭載する通話装置は、ユーザー音声とエコーが同時に存在するダブルトーク時においても、スピーカーからマイクロホンまでのエコー伝達特性とフィルタ特性とを等価にすることが可能である。そのため、ビデオ会議システム、音声会議システム、ハンズフリー電話、Web会議サービス等として有用である。また、その他にも、マイクロホンにスピーカーから再生される音が混入してしまうような場合のエコー消去方法にも応用できる。
    1 ビデオ会議システム
    2 ビデオ会議端末
    3 マイク
    4 カメラ
    5 インターネット
    6 音声ADC
    7 映像ADC
    8 エンコーダー
    9 デコーダー
   10 音声DAC
   11 映像DAC
   12 スピーカー
   13 ディスプレイ
   14 通信部
   20、21、22、23、24、25、26 エコー消去装置
  100 マイク信号取得部
  101 スピーカー信号取得部
  200 第1の擬似エコー生成部
  201 第1のエコー消去部
  202 フィルタ更新部
  300 ノルム算出部
  301 非線形変換部
  302、303、304 フィルタ更新量算出部
  400、402 第2の擬似エコー生成部
  401 第2のエコー消去部
  500 選択部

Claims (14)

  1.  第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去装置であって、
     前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成部と、
     前記第2の音声信号から、前記第1の擬似エコー生成部により生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去部と、
     前記第1のエコー消去部により生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新部と
     を備えるエコー消去装置。
  2.  前記フィルタ更新部は、
     前記第1の音声信号のノルムに対する前記第1の音声信号の比と、前記非線形変換されたエコー消去信号とを用いて、前記フィルタの特性の更新を行う
     請求項1に記載のエコー消去装置。
  3.  前記フィルタ更新部は、
     前記第1の音声信号のノルムに対する前記第1の音声信号の比と、前記非線形変換されたエコー消去信号と、所定の係数との積を、更新前の前記フィルタの特性に加算することにより、前記フィルタの特性の更新を行う
     請求項1または請求項2に記載のエコー消去装置。
  4.  前記フィルタ更新部は、
     前記第1のエコー消去信号が正のときに+1を、前記第1のエコー消去信号が負のときに-1を、前記第1のエコー消去信号が0のときに0をそれぞれとる関数である符号関数を用いて、前記非線形変換を行う
     請求項1に記載のエコー消去装置。
  5.  前記エコー消去装置は、さらに、
     前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成部と、
     前記第1のエコー消去信号から前記第2の擬似エコー信号生成部により生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去部とを備える
     請求項1~4のいずれか1項に記載のエコー消去装置。
  6.  前記エコー消去装置は、さらに、
     前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号と前記第1の音声信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成部と、
     前記第1のエコー消去信号から前記第2の擬似エコー信号生成部により生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去部とを備える
     請求項1~4のいずれか1項に記載のエコー消去装置。
  7.  前記エコー消去装置は、さらに、
     前記第2のエコー消去信号の大きさが前記第1のエコー消去信号の大きさより小さい場合に、前記第2のエコー消去信号を新たな第2のエコー消去信号として出力し、前記第2のエコー消去信号の大きさが前記第1のエコー消去信号の大きさより大きい場合に、前記第1のエコー消去信号を新たな第2のエコー消去信号として出力する選択部を備える
     請求項5または請求項6に記載のエコー消去装置。
  8.  前記フィルタ更新部は、
     前記選択部が前記第1のエコー消去信号を新たな第2のエコー消去信号として出力した場合に、前記フィルタの特性の更新を行わない
     請求項7に記載のエコー消去装置。
  9.  前記フィルタ更新部は、
     過去の所定時間内の第1の音声信号の大きさの2乗和を算出することにより、第2の擬似エコー信号を算出する
     請求項1~8のいずれか1項に記載のエコー消去装置。
  10.  第1の音声信号の再生音が収音されることで生成されたエコー信号を含む第2の音声信号から、前記エコー信号が消去されたエコー消去信号を生成及び出力するためのエコー消去方法であって、
     前記第1の音声信号に対して、前記再生音が収音されるまでの伝達特性と等価な特性を有するフィルタを用いた信号処理を行うことにより第1の擬似エコー信号を生成する第1の擬似エコー生成ステップと、
     前記第2の音声信号から、前記第1の擬似エコー生成ステップで生成された前記第1の擬似エコー信号を減算することにより、第1のエコー消去信号を生成し、出力する第1のエコー消去ステップと、
     前記第1のエコー消去ステップで生成された前記第1のエコー消去信号に対して非線形変換を行うことにより非線形変換されたエコー消去信号を生成し、前記非線形変換されたエコー消去信号と、前記第1の音声信号と、前記第1の音声信号のノルムとを用いて、前記フィルタの特性が前記伝達特性と等価となるように、前記フィルタの特性の更新を行うフィルタ更新ステップと
     を含むエコー消去方法。
  11.  前記エコー消去方法は、さらに、
     前記第1の音声信号のノルムと前記非線形変換されたエコー消去信号と前記第1の音声信号とを用いて第2の擬似エコー信号を生成する第2の擬似エコー信号生成ステップと、
     前記第1のエコー消去信号から前記第2の擬似エコー信号生成ステップで生成された前記第2の擬似エコー信号を減算することで第2のエコー消去信号を生成し、出力する第2のエコー消去ステップと
     を含む請求項10に記載のエコー消去方法。
  12.  請求項10に記載のエコー消去方法をコンピュータに実行させるためのプログラム。
  13.  請求項11に記載のエコー消去方法をコンピュータに実行させるためのプログラム。
  14.  請求項1~9のいずれか1項に記載のエコー消去装置と、
     周囲の音声を収音して音声信号を生成するマイクと、
     音声信号に基づいて音声を再生するスピーカーと、
     音声信号を通話相手へ送信し、かつ、通話相手から音声信号を受信する通信部と
     を備え、
     前記エコー消去装置は、前記通信部が通話相手から受信した音声信号を前記第1の音声信号として受信し、前記マイクにより生成された音声信号を前記第2の音声信号として受信し、前記第1のエコー消去信号または前記第2のエコー消去信号を通話相手に送信される音声信号として通信部へ出力する
     通話装置。
PCT/JP2013/000672 2012-02-17 2013-02-07 エコー消去装置、エコー消去方法、及び、通話装置 WO2013121749A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201380001050.5A CN103493384B (zh) 2012-02-17 2013-02-07 回声消除装置、回声消除方法及通话装置
US14/110,938 US9312913B2 (en) 2012-02-17 2013-02-07 Echo cancellation apparatus, echo cancellation method and communications apparatus
EP13748795.5A EP2816734B1 (en) 2012-02-17 2013-02-07 Echo canceling apparatus, echo canceling method, and telephone communication apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-033272 2012-02-17
JP2012033272A JP5887535B2 (ja) 2012-02-17 2012-02-17 エコー消去装置、エコー消去方法、及び、通話装置

Publications (1)

Publication Number Publication Date
WO2013121749A1 true WO2013121749A1 (ja) 2013-08-22

Family

ID=48983886

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/000672 WO2013121749A1 (ja) 2012-02-17 2013-02-07 エコー消去装置、エコー消去方法、及び、通話装置

Country Status (5)

Country Link
US (1) US9312913B2 (ja)
EP (1) EP2816734B1 (ja)
JP (1) JP5887535B2 (ja)
CN (1) CN103493384B (ja)
WO (1) WO2013121749A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6349899B2 (ja) * 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置
JP6201949B2 (ja) * 2014-10-08 2017-09-27 株式会社Jvcケンウッド エコーキャンセル装置、エコーキャンセルプログラム及びエコーキャンセル方法
EP3193513B1 (en) 2014-10-17 2020-02-19 Panasonic Intellectual Property Management Co., Ltd. Apparatus for removing howling and method for removing howling
KR101694592B1 (ko) * 2014-11-18 2017-01-09 재단법인 다차원 스마트 아이티 융합시스템 연구단 골전도 스피커를 이용하는 착용형 장치
JP6396829B2 (ja) * 2015-03-16 2018-09-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、判定方法及びコンピュータプログラム
EP3312839B1 (en) * 2015-10-16 2020-08-05 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
JP7194900B2 (ja) * 2018-11-30 2022-12-23 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004048253A (ja) 2002-07-10 2004-02-12 Denso Corp エコーキャンセラ装置、及び音声通信装置
JP2007235848A (ja) * 2006-03-03 2007-09-13 Denso Corp 適応フィルタの制御装置及び適応フィルタの制御方法
JP2008516545A (ja) * 2004-10-13 2008-05-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコーキャンセル
JP2010226629A (ja) 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887059A (en) * 1996-01-30 1999-03-23 Advanced Micro Devices, Inc. System and method for performing echo cancellation in a communications network employing a mixed mode LMS adaptive balance filter
US6278744B1 (en) * 1996-11-15 2001-08-21 Conexant Systems, Inc. System for controlling and shaping the spectrum and redundancy of signal-point limited transmission
US7672445B1 (en) * 2002-11-15 2010-03-02 Fortemedia, Inc. Method and system for nonlinear echo suppression
JP4509126B2 (ja) * 2007-01-24 2010-07-21 沖電気工業株式会社 エコーキャンセラ及びエコーキャンセル方法
CN101719969B (zh) * 2009-11-26 2013-10-02 美商威睿电通公司 判断双端对话的方法、系统以及消除回声的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004048253A (ja) 2002-07-10 2004-02-12 Denso Corp エコーキャンセラ装置、及び音声通信装置
JP2008516545A (ja) * 2004-10-13 2008-05-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコーキャンセル
JP2007235848A (ja) * 2006-03-03 2007-09-13 Denso Corp 適応フィルタの制御装置及び適応フィルタの制御方法
JP2010226629A (ja) 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2816734A4

Also Published As

Publication number Publication date
CN103493384B (zh) 2016-06-08
CN103493384A (zh) 2014-01-01
JP5887535B2 (ja) 2016-03-16
US9312913B2 (en) 2016-04-12
US20140056423A1 (en) 2014-02-27
EP2816734B1 (en) 2017-05-10
EP2816734A1 (en) 2014-12-24
JP2013172199A (ja) 2013-09-02
EP2816734A4 (en) 2015-03-04

Similar Documents

Publication Publication Date Title
WO2013121749A1 (ja) エコー消去装置、エコー消去方法、及び、通話装置
JP6446893B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
JP6703525B2 (ja) 音源を強調するための方法及び機器
US9398374B2 (en) Systems and methods for nonlinear echo cancellation
JP4377952B1 (ja) 適応フィルタ及びこれを有するエコーキャンセラ
JP4660578B2 (ja) 信号補正装置
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
JP2010507105A (ja) 音声会議通信システムにおいて音響エコーをキャンセルするためのシステム及び方法
JP2018046452A (ja) 信号処理装置、プログラム及び方法、並びに、通話装置
JP6422884B2 (ja) エコー抑圧
JP5016581B2 (ja) エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体
JP4413205B2 (ja) エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体
WO2022142984A1 (zh) 语音处理方法、装置、系统、智能终端以及电子设备
CN115278465A (zh) 啸叫抑制方法、装置、音响及扩音系统
KR20220157475A (ko) 반향 잔류 억제
JP4903843B2 (ja) 適応フィルタ及びこれを有するエコーキャンセラ
JP2015201787A (ja) エコー消去装置、その方法及びプログラム
JP3917116B2 (ja) 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体
JP2010141402A (ja) 音声処理装置、及び、音声処理方法
US20230115316A1 (en) Double talk detection using capture up-sampling
JP4209348B2 (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
JP6356087B2 (ja) エコー消去装置、その方法及びプログラム
JP5264687B2 (ja) エコーキャンセル方法、エコーキャンセル装置、エコーキャンセルプログラム
CN115440236A (zh) 一种回声抑制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13748795

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2013748795

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013748795

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14110938

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE