WO2019239977A1 - エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム - Google Patents

エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム Download PDF

Info

Publication number
WO2019239977A1
WO2019239977A1 PCT/JP2019/022289 JP2019022289W WO2019239977A1 WO 2019239977 A1 WO2019239977 A1 WO 2019239977A1 JP 2019022289 W JP2019022289 W JP 2019022289W WO 2019239977 A1 WO2019239977 A1 WO 2019239977A1
Authority
WO
WIPO (PCT)
Prior art keywords
echo
learning
algorithm
unit
reference signal
Prior art date
Application number
PCT/JP2019/022289
Other languages
English (en)
French (fr)
Inventor
祐樹 里見
Original Assignee
株式会社トランストロン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社トランストロン filed Critical 株式会社トランストロン
Priority to RU2020139025A priority Critical patent/RU2767297C1/ru
Priority to EP19818729.6A priority patent/EP3809601B1/en
Priority to US16/973,930 priority patent/US11375066B2/en
Publication of WO2019239977A1 publication Critical patent/WO2019239977A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/238Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using initial training sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Definitions

  • the present invention relates to an echo suppression device, an echo suppression method, and an echo suppression program.
  • Patent Document 1 discloses that the learning of the echo path estimation / pseudo echo generation circuit is stopped when the far-end speaker is in a no-transmission state.
  • the index ERLE indicating the high cancellation capability of the echo suppressor is smaller than the S / N ratio between the true echo and noise to some extent
  • Patent Document 2 an amplifier that investigates a reception signal level at which the speaker amplifier is saturated is provided on the reception signal input side, and a clipping circuit having a clipping threshold corresponding to the investigation result is provided on the input side of the prediction filter.
  • An echo suppressor that does not deteriorate the amount of echo cancellation even if the output of the signal is saturated is disclosed.
  • Patent Documents 1 and 2 have a problem that the calculation load becomes heavy.
  • the present invention has been made in view of such circumstances, and provides an echo suppression device, an echo suppression method, and an echo suppression program capable of effectively performing echo removal while reducing the processing load on the arithmetic device. For the purpose.
  • An echo suppression apparatus is an echo suppression apparatus provided in a transmission-side signal path for transmitting an input signal picked up by a microphone of a terminal having a speaker and a microphone, and is transmitted to the speaker
  • An algorithm selection unit that selects a learning algorithm for learning an echo based on the magnitude of the reference signal, an echo learning unit that learns an echo using the learning algorithm selected by the algorithm selection unit, and the echo learning
  • An echo removing unit that removes echoes included in the input signal based on a learning result by the unit, and the algorithm selecting unit uses nonlinear processing when the magnitude of the reference signal is equal to or greater than a first threshold value. If the magnitude of the reference signal is smaller than the first threshold, linear processing is performed. And selects the learning algorithm had.
  • a learning algorithm using non-linear processing is selected and the magnitude of the reference signal is smaller than the first threshold. Selects a learning algorithm using linear processing, learns an echo using the selected learning algorithm, and removes an echo contained in the input signal collected by the microphone based on the learning result. Since the learning algorithm using linear processing has a small amount of calculation, the processing load of the arithmetic device can be reduced. In addition, by using a learning algorithm that uses nonlinear processing, echo can be effectively removed when nonlinear distortion occurs.
  • the apparatus further comprises a conversion unit that converts the reference signal into a frequency domain function, wherein the algorithm selection unit selects the learning algorithm for each frequency band divided into a plurality at predetermined intervals, and the echo learning unit
  • the echo included in the reference signal may be learned using the learning algorithm for each frequency band, and the echo removing unit may remove the echo based on a learning result by the echo learning unit for each frequency band. As described above, by removing the echo for each frequency band, the echo can be more reliably removed.
  • a removal necessity determination unit that determines whether or not to remove an echo based on the magnitude of the reference signal is further included, and the removal necessity determination unit includes a first signal whose magnitude is smaller than the first threshold. If it is smaller than two thresholds, it may be determined not to remove the echo by the echo removal unit. Thereby, unnecessary computations can be omitted, the processing load on the computing device can be reduced, and the collected voice can be transmitted clearly.
  • the echo removal unit may remove echo using the same calculation formula for the learning result learned by any learning algorithm. According to this configuration, the learning algorithm to be used can be switched naturally without a sense of incongruity.
  • the echo suppression method uses, for example, an algorithm selection step for selecting a learning algorithm for learning an echo based on the magnitude of a reference signal transmitted to a speaker, and a learning algorithm selected by the algorithm selection step.
  • a learning algorithm using nonlinear processing is selected when the signal magnitude is greater than or equal to a threshold, and a learning algorithm using linear processing is selected when the magnitude of the reference signal is smaller than the threshold.
  • An echo suppression program is, for example, an echo suppression program provided in a transmission side signal path for transmitting an input signal picked up by a microphone of a terminal having a speaker and a microphone.
  • An algorithm selection unit that selects a learning algorithm for learning an echo based on the magnitude of a reference signal transmitted to the speaker, and uses nonlinear processing when the magnitude of the reference signal is greater than or equal to a threshold value When a learning algorithm is selected and the reference signal is smaller than the threshold, an algorithm selection unit that selects a learning algorithm using linear processing, and an echo using the learning algorithm selected by the algorithm selection unit Based on the learning result by the echo learning unit to learn and the echo learning unit An echo removing portion that removes an echo contained in the filling power signal, characterized in that to function with.
  • echo can be effectively removed while reducing the processing load on the arithmetic unit.
  • FIG. 1 is a block diagram showing a schematic configuration of an echo suppression device 1.
  • FIG. It is a flowchart which shows the flow of the process which the echo suppression apparatus 1 performs.
  • FIG. It is a block diagram which shows schematic structure of the echo suppression apparatus 2 which concerns on 2nd Embodiment.
  • An echo suppression device is a device that suppresses echo generated during a call in a voice communication system, and is a product in which a speaker and a microphone are incorporated, for example, a headset for a conference call or a video conference, an in-vehicle call device And intercom.
  • FIG. 1 is a diagram schematically showing an audio communication system 100 provided with an echo suppression apparatus 1 according to the first embodiment.
  • the audio communication system 100 mainly includes a terminal 50 (for example, an in-vehicle device, a conference system, and a mobile terminal) having a microphone 51 and a speaker 52, two communication devices 53 and 54, a speaker amplifier 55, and an echo suppression device 1. And having.
  • a user who uses the terminal 50 uses a communication apparatus 54 (far-end terminal) which is a user who is on the far-end side.
  • This is a system for performing voice communication with the person B).
  • a voice signal input via the communication device 54 is amplified by the speaker 52, and a voice uttered by the user at the near end is collected by the microphone 51 and transmitted to the communication device 54.
  • A can make a voice call (hands-free call) without holding the communication device 53.
  • the communication device 53 and the communication device 54 are connected by a general telephone line and can talk to each other.
  • the echo suppression device 1 is provided on the transmission side signal path for transmitting the input signal input from the microphone 51 from the terminal 50 to the communication device 53.
  • the echo suppression device 1 may be constructed as a dedicated board mounted on the terminal 50 or the like in the voice communication system 100, for example. Further, the echo suppression device 1 may be configured by computer hardware and software (echo suppression program), for example.
  • the echo suppression program may be stored in advance in an HDD as a storage medium built in a device such as a computer or a ROM in a microcomputer having a CPU, and then installed in the computer.
  • the echo suppression program may be stored (stored) temporarily or permanently in a removable storage medium such as a semiconductor memory, memory card, optical disk, magneto-optical disk, or magnetic disk.
  • FIG. 2 is a block diagram showing a schematic configuration of the echo suppression device 1.
  • the echo suppression device 1 is connected between the microphone 51 and the signal input terminal 531 on the transmission side of the communication device 53.
  • the upper signal path is a transmitting signal path that transmits an input signal input from the microphone 51
  • the lower signal path is a receiving signal path that transmits a signal to the speaker 52.
  • the input signal picked up by the microphone 51 and the voice signal received by the communication device 53 are input to the echo suppression device 1.
  • the echo suppression device 1 removes an echo of an input signal based on a reference signal which is a voice signal received by the communication device 53 and transmitted through the reception side signal path, and outputs it to the signal input terminal 531 on the transmission side.
  • the echo suppression device 1 mainly includes an echo removal unit 11, a removal necessity determination unit 22, an algorithm selection unit 23, and an echo learning unit 24.
  • the echo removal unit 11 is a functional unit that removes echoes from the input signal collected by the microphone 51.
  • the echo removing unit 11 removes an echo using a pseudo echo signal generated by an echo learning unit 24 described later. Since the process of the echo removal part 11 is already well-known, description is abbreviate
  • the signal output from the echo removing unit 11 is output to the signal input terminal 531 on the transmission side, and is transmitted to the communication device 54 of the user B via the communication device 53.
  • the removal necessity determination unit 22 is a functional unit that determines whether or not echo removal by the echo removal unit 11 is performed based on the magnitude of the reference signal. When the magnitude of the reference signal is smaller than the threshold value T2, the removal necessity determination unit 22 determines not to remove the echo by the echo removal unit 11. If the magnitude of the reference signal is equal to or greater than the threshold value T2, the removal necessity determination unit 22 determines to perform echo removal by the echo removal unit 11.
  • the magnitude of the reference signal is obtained from the sum of the sound pressures of the reference signal at a predetermined time.
  • the magnitude of the reference signal may be obtained by summing up the absolute values of the reference signal at a predetermined time. Further, the average value of the absolute values of the reference signal per unit time may be used as the magnitude of the reference signal.
  • the threshold value T2 is determined based on the environmental noise on the communication device 54 side. This is because the environmental noise that is always input from the communication device 54 side is usually not a major obstacle when the user A listens to the voice from the user B.
  • the maximum value of the reference signal when the noise level input from the communication device 54 to the signal output terminal 532 is 30 dB (SPL) or less can be set as the threshold value T2.
  • the maximum value of the reference signal in the case where the position is 1 m away from the speaker 52 and is sufficiently quiet (30 dB (SPL) or less) can be set as the threshold value T2.
  • the echo learning unit 24 is a functional unit that learns an echo included in an input signal using an echo learning algorithm and generates a pseudo echo signal used for echo removal by the echo removal unit 11.
  • the echo learning unit 24 is configured to be able to execute a plurality of types of learning algorithms.
  • the echo learning unit 24 can execute a learning algorithm using nonlinear processing and a learning algorithm using linear processing.
  • the echo learning unit 24 learns an echo using one learning algorithm selected by the algorithm selection unit 23 described in detail below.
  • the algorithm selection unit 23 is a functional unit that selects a learning algorithm that the echo learning unit 24 uses for learning an echo.
  • the algorithm selection unit 23 selects an algorithm based on at least one threshold for the magnitude of the reference signal.
  • the algorithm selection unit 23 determines whether the magnitude of the reference signal is greater than or equal to the threshold T1 that is greater than the threshold T2, and determines a learning algorithm that learns echoes based on the determination result.
  • the threshold value T1 may be an average value of the reference signal when the speaker distortion is measured at a place 1 m away from the speaker 52, for example, and the distortion level of the sine wave is 1% or more.
  • the speaker distortion is measured using, for example, a method defined in “JIS C 5532: 2014 Acoustic System Speaker”.
  • the algorithm selection unit 23 selects a learning algorithm using nonlinear processing when the magnitude of the reference signal is equal to or greater than the threshold T1, and selects a learning algorithm using linear processing when the magnitude of the reference signal is smaller than the threshold T1. To do.
  • a learning algorithm using linear processing is, for example, NLMS or LMS.
  • the removal necessity determination unit 22 and the algorithm selection unit 23 periodically determine the magnitude of the reference signal at every predetermined time interval, and switch the mode of echo learning. That is, the echo suppression apparatus 1 relates to an aspect of echo learning, an aspect in which echo learning is not performed, an aspect in which an echo is learned by a learning algorithm using nonlinear processing, and an aspect in which an echo is learned by a learning algorithm using linear processing
  • the echo learning mode is automatically switched to each other based on the magnitude of the reference signal that changes every moment.
  • FIG. 3 is a flowchart showing a flow of processing performed by the echo suppression apparatus 1.
  • an input signal is picked up by the microphone 51 (step S1), and a reference signal is acquired from the signal output terminal 532 on the receiving side (step S2).
  • the removal necessity determination part 22 determines whether the magnitude
  • the echo suppression device 1 does not remove the echo and outputs the input signal to the signal input terminal 531 (step S8). As a result, the sound output from the microphone 51 is not distorted and is output to the communication device 54 as a clean sound.
  • the algorithm selection unit 23 determines whether or not the magnitude of the reference signal is greater than or equal to the threshold T1 (step S4).
  • the echo learning unit 24 learns echoes by a learning algorithm using nonlinear processing (step S5).
  • the learning algorithm using nonlinear processing has a large amount of calculation, but can remove distortion more reliably.
  • the echo learning unit 24 learns an echo using a learning algorithm that uses a low-computation linear process (step S6). Since the learning algorithm using the linear processing has a small amount of calculation, the load of the arithmetic device is reduced by applying the learning algorithm using the linear processing.
  • the echo removing unit 11 removes the echo included in the input signal based on the learned result (step S7).
  • the echo removing unit 11 removes the echo of the reference signal using the same calculation formula for the learning result learned by any learning algorithm.
  • the echo suppression device 1 outputs a signal from which the echo is removed to the signal input terminal 531 (step S8).
  • the echo learning algorithm is selected based on the magnitude of the reference signal, it is possible to effectively remove the echo while reducing the processing load on the arithmetic device.
  • the learning algorithm to be used is frequently switched because the echo of the reference signal is removed using the same calculation formula for the learning result learned by any learning algorithm.
  • the echo can be removed naturally without a sense of incongruity.
  • the threshold value T1 and the threshold value T2 referred to by the removal necessity determination unit 22 and the algorithm selection unit 23 are determined in advance.
  • the threshold value T1 is based on the value of the past reference signal or input signal.
  • the threshold value T2 may be varied.
  • the echo suppression device 1 may be configured such that the threshold value T1 and the threshold value T2 can be rewritten by an external device connected as appropriate.
  • the algorithm selection unit 23 selects a learning algorithm based on a single threshold.
  • the algorithm selection unit 23 may select a learning algorithm based on a plurality of thresholds. . That is, the echo learning unit 24 may execute each of three or more types of learning algorithms, and the algorithm selection unit 23 may be configured to select one learning algorithm based on a plurality of different threshold values. .
  • the algorithm selection unit 23 determines that the magnitude of the reference signal is the threshold T1 among the learning algorithms using nonlinear processing.
  • a learning algorithm having a learning convergence speed higher than that of the learning algorithm used when the threshold is equal to or lower than the threshold T5 is selected.
  • the threshold value T5 can be an average value of reference signals when a speaker distortion test is performed at a location 1 m away from the speaker 52, for example, and a sine wave distortion level of 2% or more occurs.
  • the learning algorithm using nonlinear processing changes in convergence speed and accuracy depending on a mathematical algorithm used for designing a nonlinear filter.
  • a mathematical algorithm having a faster convergence speed than when the magnitude of the reference signal is equal to or larger than the threshold value T1 and equal to or smaller than the threshold value T5 is selected. In this way, when large distortion occurs, priority is given to the speed over the accuracy of the echo component removal, and the target voice from which the echo is removed to some extent is generated earlier.
  • the algorithm selection unit 23 prioritizes accuracy over the speed of removing the echo component, Among learning algorithms using linear processing, a learning algorithm having a slow learning convergence speed and high estimation accuracy is selected.
  • the threshold value T6 is, for example, the maximum value of the reference signal when it is sufficiently quiet (30 dB (SPL) or less) at a location 1 m away from the speaker 52.
  • the reference signal is larger than the threshold value T2 and equal to or less than the threshold value T6, LMS with high accuracy is used, and when the reference signal is larger than the threshold value T6 and equal to or less than the threshold value T1, NLMS with high speed is used.
  • the accuracy is prioritized over the speed of removing the echo component, and the echo component is reliably removed.
  • the algorithm selection unit 23 may be configured so that the parameters included in the selected learning algorithm can be changed based on the magnitude of the reference signal. By changing the parameter, the update speed of the learning algorithm is changed.
  • the algorithm selection unit 23 may continuously change the parameter in proportion to the magnitude of the reference signal, or may switch the parameter stepwise.
  • the algorithm selection part 23 may be comprised so that the parameter regarding learning speed can be changed with the external apparatus connected suitably. According to this configuration, the learning speed can be adjusted more finely according to the magnitude of the reference signal.
  • the echo learning unit 24 generates the pseudo echo signal.
  • the echo learning unit 24 inputs the pseudo echo signal from the time immediately after the reproduction of the speaker 52 until a predetermined period elapses.
  • a pseudo echo signal may not be generated from the signal. This is because the sound generated by the continuous vibration of the speaker 52 and the like circulates into the microphone 51 from immediately after the reproduction of the speaker 52 until a predetermined period elapses, so that an input signal not caused by the reference signal is generated. .
  • the echo learning unit 24 does not generate a pseudo echo signal, and the echo removing unit 11 generates a sound generated by vibration. It is desirable to detect and suppress the echo. Whether or not the reference signal is input may be detected based on the magnitude of the reference signal, or the utterance detection unit may detect the utterance. Since the detection of the utterance is already known, the description is omitted.
  • the echo suppression apparatus 2 includes a conversion unit that converts a reference signal into a function in the frequency domain, and an inverse conversion unit that converts the signal from which the echo has been removed into a function in the time domain. This is different from the echo suppression device 1 according to the first embodiment.
  • the same components as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • FIG. 4 is a block diagram showing a schematic configuration of the echo suppression apparatus 2 according to the second embodiment.
  • the echo suppression device 2 mainly includes an echo removal unit 12, conversion units 30 and 31, a removal necessity determination unit 32, an algorithm selection unit 33, an echo learning unit 34, and an inverse conversion unit 35.
  • the conversion unit 30 is a functional unit that converts a reference signal into a frequency domain function.
  • the conversion unit 31 is a functional unit that converts an input signal into a function in the frequency domain.
  • the conversion units 30 and 31 perform Fourier transform in the present embodiment, but may be converted into a frequency domain function by other conversion methods.
  • the removal necessity determination unit 32 determines whether echo removal by the echo removal unit 11 is performed for each frequency band divided into a plurality at predetermined intervals. The removal necessity determination unit 32 determines whether or not to remove echo based on the threshold value T4. The threshold value T4 is determined for each frequency band. The threshold value T4 is obtained by the same method as the threshold value T2.
  • the algorithm selection unit 33 selects a learning algorithm for each frequency band divided into a plurality at predetermined intervals.
  • the algorithm selection unit 33 selects an algorithm based on the threshold T3.
  • the threshold value T3 is determined for each frequency band.
  • the threshold value T3 is larger than the threshold value T4.
  • the threshold value T3 is obtained by the same method as the threshold value T1.
  • the echo learning unit 34 learns echoes using a learning algorithm selected for each frequency band.
  • the echo removing unit 12 removes echoes based on the learning result obtained for each frequency band.
  • the inverse transform unit 35 is a functional unit that inversely transforms the power spectral density of the signal from which the echo has been removed, and converts it into a time domain function.
  • the inverse transform unit 26 performs, for example, inverse Fourier transform.
  • the output signal in the time domain converted by the inverse conversion unit 35 is input to the signal input terminal 531 on the transmission side, and transmitted to the communication device 54 of the user B via the communication device 53.
  • FIG. 5 is a flowchart showing a flow of processing performed by the echo suppression apparatus 2.
  • the conversion unit 30 converts the reference signal into a function in the frequency domain (step S2).
  • Step S10 converts the input signal into a frequency domain function (step S11).
  • the reference signal and the input signal are divided into a plurality of frequency bands.
  • the removal necessity determination unit 22 determines whether or not to remove echo for each frequency band. That is, the removal necessity determination unit 22 determines whether or not the sound pressure of the reference signal is greater than or equal to the threshold T4 for each frequency band (step S12). For frequency bands in which the power spectrum density of the reference signal is smaller than the threshold T4 (No in step S12), the echo suppression device 2 does not perform echo removal in each frequency band, and proceeds to step S18 described later.
  • the algorithm selection unit 23 determines whether the sound pressure of the reference signal is equal to or higher than the threshold T3 for each frequency band (Step S12). S13).
  • the echo learning unit 24 uses nonlinear processing based on the input signal converted into the frequency domain function in step S11. The echo of the frequency band is learned by the learning algorithm (step S14).
  • the echo learning unit 24 is based on the input signal converted into the frequency domain function in Step S11. Then, an echo of the frequency band is learned by a learning algorithm using linear processing (step S15).
  • the echo removal unit 12 removes echoes included in the input signal for each frequency band based on the results learned in steps S14 and S15 (step S17).
  • the inverse transform unit 35 transforms the frequency domain function from which the echo has been removed by the echo removal unit 12 into a time domain function (step S18). Further, the inverse transform unit 35 converts the signal converted into the frequency domain function in step S11 into the time domain function again for the frequency band in which the power spectrum density of the reference signal is smaller than the threshold T4 (No in step S12). (Step S18). Finally, the echo suppression device 2 outputs the signal converted by the inverse conversion unit 35 to the signal input terminal 531 (step S19).
  • echo since echo can be effectively removed for each frequency band, echo can be more reliably removed.
  • step S11 is performed after step S10. However, step S11 may be performed immediately before steps S14 and S15.
  • Echo suppression device 11 Echo suppression device 11, 12: Echo removal unit 22, 32: Removal necessity determination unit 23, 33: Algorithm selection unit 24, 34: Echo learning unit 26: Inverse conversion unit 30, 31: Conversion unit 35: Inverse conversion Unit 50: Terminal 51: Microphone 52: Speaker 53, 54: Communication device 55: Speaker amplifier 100: Audio communication system 531: Signal input terminal 532: Signal output terminal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

演算装置の処理負荷を軽減しつつ、エコーの除去を効果的に行うことができる。 スピーカへ伝送される参照信号の大きさが第1閾値以上の場合には、非線形処理を用いた学習アルゴリズムを選択し、参照信号の大きさが第1閾値より小さい場合には、線形処理を用いた学習アルゴリズムを選択し、選択された学習アルゴリズムを用いてエコーを学習し、学習結果に基づいてマイクロホンにより収音された入力信号に含まれるエコーを除去する。

Description

エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
 本発明は、エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラムに関する。
 特許文献1には、遠端話者が無送話状態のときにエコーパス推定/疑似エコー生成回路の学習を停止することが開示されている。特許文献1に記載の発明では、エコー抑圧装置のキャンセル能力の高さを表す指標ERLEが真のエコーと雑音とのS/N比よりある程度以上小さいときは学習アルゴリズムで用いるパラメータα=1にし、ERLEがS/N比に近づきまたはS/N比より大きくなるにつれてαを徐々に小さくする。
 特許文献2には、受信信号入力側にスピーカアンプが飽和する受信信号レベルを調査する増幅器を設け、その調査結果に応じたクリッピング閾値を持つクリッピング回路を予測フィルタの入力側に設けて、スピーカアンプの出力が飽和してもエコーキャンセル量を悪化させないエコー抑圧装置が開示されている。
特開平7-303068号公報 特開2003-134004号公報
 しかしながら、特許文献1、2に記載の発明では、演算負荷が重くなってしまうという問題がある。
 本発明はこのような事情を鑑みてなされたもので、演算装置の処理負荷を軽減しつつ、エコーの除去を効果的に行うことができるエコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラムを提供することを目的とする。
 本発明にかかるエコー抑圧装置は、スピーカとマイクロホンとを有する端末のうちの前記マイクロホンにより収音された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、前記スピーカへ伝送される参照信号の大きさに基づいて、エコーを学習する学習アルゴリズムを選択するアルゴリズム選択部と、前記アルゴリズム選択部により選択された学習アルゴリズムを用いてエコーを学習するエコー学習部と、前記エコー学習部による学習結果に基づいて前記入力信号に含まれるエコーを除去するエコー除去部と、を備え、前記アルゴリズム選択部は、前記参照信号の大きさが第1閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記第1閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択することを特徴とする。
 本発明によれば、スピーカへ伝送される参照信号の大きさが第1閾値以上の場合には、非線形処理を用いた学習アルゴリズムを選択し、参照信号の大きさが第1閾値より小さい場合には、線形処理を用いた学習アルゴリズムを選択し、選択された学習アルゴリズムを用いてエコーを学習し、学習結果に基づいてマイクロホンにより収音された入力信号に含まれるエコーを除去する。線形処理を用いた学習アルゴリズムは計算量が少ないため、演算装置の処理負荷を軽減することができる。また、非線形処理を用いた学習アルゴリズムを用いることで、非線形の歪みが発生する場合において、エコーの除去を効果的に行うことができる。
 前記参照信号を周波数領域の関数に変換する変換部をさらに備え、前記アルゴリズム選択部は、所定の間隔で複数に分けられた周波数帯域ごとに前記学習アルゴリズムを選択し、前記エコー学習部は、前記周波数帯域ごとに前記学習アルゴリズムを用いて前記参照信号に含まれるエコーを学習し、前記エコー除去部は、前記周波数帯域ごとに前記エコー学習部による学習結果に基づいてエコーを除去してもよい。このように周波数帯域ごとにエコーの除去を行うことで、より確実にエコーを除去することができる。
 前記参照信号の大きさに基づいてエコーを除去するか否かを決定する除去要否判定部をさらに備え、前記除去要否判定部は、前記参照信号の大きさが前記第1閾値より小さい第2閾値より小さい場合には、前記エコー除去部によるエコーの除去をしないことを決定してもよい。これにより、不要な演算を省略し、演算装置の処理負荷を軽減するとともに、収音された音声を明瞭に送信することができる。
 前記エコー除去部は、いずれの学習アルゴリズムにより学習された学習結果に対しても同一の計算式を用いてエコーを除去してもよい。この構成によれば、使用する学習アルゴリズムを違和感なく自然に切り替えることができる。
 本発明にかかるエコー抑圧方法は、例えば、スピーカへ伝送される参照信号の大きさに基づいてエコーを学習する学習アルゴリズムを選択するアルゴリズム選択ステップと、前記アルゴリズム選択ステップにより選択される学習アルゴリズムを用いてエコーを学習するエコー学習ステップと、前記エコー学習ステップにおける学習結果に基づいてマイクロホンにより収音された入力信号に含まれるエコーを除去するエコー除去ステップと、含み、前記アルゴリズム選択ステップは、前記参照信号の大きさが閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択することを特徴とする。
 本発明にかかるエコー抑圧プログラムは、例えば、スピーカとマイクロホンとを有する端末のうちの前記マイクロホンにより収音された入力信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、コンピュータを、前記スピーカへ伝送される参照信号の大きさに基づいて、エコーを学習する学習アルゴリズムを選択するアルゴリズム選択部であって、前記参照信号の大きさが閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択するアルゴリズム選択部と、前記アルゴリズム選択部により選択された学習アルゴリズムを用いてエコーを学習するエコー学習部と、前記エコー学習部による学習結果に基づいて前記入力信号に含まれるエコーを除去するエコー除去部と、して機能させることを特徴とする。
 本発明によれば、演算装置の処理負荷を軽減しつつ、エコーの除去を効果的に行うことができる。
第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。 エコー抑圧装置1の概略構成を示すブロック図である。 エコー抑圧装置1が行う処理の流れを示すフローチャートである。 第2の実施の形態に係るエコー抑圧装置2の概略構成を示すブロック図である。 エコー抑圧装置2が行う処理の流れを示すフローチャートである。
 以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置であり、スピーカおよびマイクが組み込まれてなる製品、例えば電話会議やテレビ会議用のヘッドセット、車載用の通話装置、およびインターホン等に用いられる。
 <第1の実施の形態>
 図1は、第1の実施の形態に係るエコー抑圧装置1が設けられた音声通信システム100を模式的に示す図である。音声通信システム100は、主として、マイクロホン51及びスピーカ52を有する端末50(例えば、車載装置、会議システム、携帯端末)と、2台の通信装置53、54と、スピーカアンプ55と、エコー抑圧装置1と、を有する。
 音声通信システム100は、端末50(近端端末)を利用する利用者(近端側にいる利用者A)が、通信装置54(遠端端末)を利用する利用者(遠端側にいる利用者B)と音声通信を行なうシステムである。通信装置54を介して入力された音声信号をスピーカ52によって拡声出力し、かつ、近端側にいる利用者の発する音声をマイクロホン51により集音して通信装置54へ伝送することで、利用者Aは、通信装置53を把持することなく拡声通話(ハンズフリー通話)が可能となる。通信装置53と通信装置54とは、一般的な電話回線により接続されており、相互に通話が可能である。
 エコー抑圧装置1は、マイクロホン51から入力された入力信号を、端末50から通信装置53へ伝送する送話側信号経路に設けられる。
 エコー抑圧装置1は、例えば、音声通信システム100内の端末50等に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置1は、例えば、コンピュータのハードウエア及びソフトウエア(エコー抑圧プログラム)によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記憶しておき、そこからコンピュータにインストールされてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納(記憶)しておいてもよい。
 図2は、エコー抑圧装置1の概略構成を示すブロック図である。エコー抑圧装置1は、マイクロホン51と通信装置53の送話側の信号入力端531との間に接続されている。図2において、上側の信号経路は、マイクロホン51から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ52へ信号を伝送する受話側信号経路である。
 マイクロホン51で収音される入力信号および通信装置53によって受信された音声信号は、エコー抑圧装置1に入力される。エコー抑圧装置1は、通信装置53に受信され、受話側信号経路を伝達される音声信号である参照信号に基づいて入力信号のエコーを除去し、送話側の信号入力端531へ出力する。
 エコー抑圧装置1は、主として、エコー除去部11と、除去要否判定部22と、アルゴリズム選択部23と、エコー学習部24と、を有する。
 エコー除去部11は、マイクロホン51で収音された入力信号からエコーを除去する機能部である。エコー除去部11は、後述するエコー学習部24により生成された疑似エコー信号を用いてエコーを除去する。エコー除去部11の処理は既に公知であるため、説明を省略する。エコー除去部11から出力された信号は、送話側の信号入力端531へ出力され、通信装置53を介して利用者Bが有する通信装置54に伝達される。
 除去要否判定部22は、参照信号の大きさに基づいて、エコー除去部11によるエコーの除去を行うか否かを判定する機能部である。除去要否判定部22は、参照信号の大きさが閾値T2より小さい場合、エコー除去部11によるエコーの除去をしないことを決定する。除去要否判定部22は、参照信号の大きさが閾値T2以上である場合、エコー除去部11によるエコーの除去を行うことを決定する。
 参照信号の大きさは、所定時間における参照信号の音圧の総和により求められる。また、参照信号の大きさは、所定時間における参照信号の絶対値を総和することにより求められてもよい。また、単位時間あたりの参照信号の絶対値の平均値を参照信号の大きさとしてもよい。
 閾値T2は、通信装置54側の環境騒音に基づいて定められる。通信装置54側から常に入力されている環境騒音に関しては、利用者Bからの音声を利用者Aが聞き取る場合に大きな障害にならない場合が通常であるためである。例えば、通信装置54から信号出力端532へ入力される騒音レベルが30dB(SPL)以下である場合における参照信号の最大値を閾値T2とすることができる。また例えば、スピーカ52から1m離れた場所で十分静かな場合(30dB(SPL)以下)である場合における参照信号の最大値を閾値T2とすることができる。
 エコー学習部24は、エコーの学習アルゴリズムを用いて入力信号に含まれるエコーを学習し、エコー除去部11によりエコーの除去に用いられる疑似エコー信号を生成する機能部である。エコー学習部24は、複数種類の学習アルゴリズムを実行可能に構成されている。エコー学習部24は、非線形処理を用いた学習アルゴリズムと、線形処理を用いた学習アルゴリズムムと、を実行することができる。エコー学習部24は、次に詳述するアルゴリズム選択部23により選択される1の学習アルゴリズムを用いて、エコーを学習する。
 アルゴリズム選択部23は、エコー学習部24がエコーの学習に用いる学習アルゴリズムを選択する機能部である。アルゴリズム選択部23は、参照信号の大きさに対する少なくとも1つの閾値に基づいてアルゴリズムを選択する。ここでは、アルゴリズム選択部23は、参照信号の大きさが閾値T2より大きい閾値T1以上か否かを判定し、判定結果に基づいてエコーを学習する学習アルゴリズムを決定する。
 閾値T1は、例えばスピーカ52から1mはなれた場所でスピーカ歪みを測定し、正弦波の歪みレベルが1%以上発生する場合の参照信号の平均値とすることができる。スピーカ歪みの測定は、例えば、「JIS C 5532:2014 音響システム用スピーカ」で定められた方法を用いる。
 アルゴリズム選択部23は、参照信号の大きさが閾値T1以上の場合は非線形処理を用いた学習アルゴリズムを選択し、参照信号の大きさが閾値T1より小さい場合は線形処理を用いた学習アルゴリズムを選択する。線形処理を用いた学習アルゴリズムは、例えばNLMSやLMSである。
 除去要否判定部22およびアルゴリズム選択部23は、所定時間間隔ごとに、定期的に参照信号の大きさを判定し、エコー学習の態様を切り替える。すなわち、エコー抑圧装置1は、エコー学習の態様に関して、エコー学習を行わない態様、非線形処理を用いた学習アルゴリズムによりエコーを学習する態様、および線形処理を用いた学習アルゴリズムムによりエコーを学習する態様の3種類から選択可能であり、刻々と変化する参照信号の大きさに基づいて、エコー学習の態様が自動的に相互に切り替わるように構成されている。
 図3は、エコー抑圧装置1が行う処理の流れを示すフローチャートである。まず、マイクロホン51により入力信号を収音し(ステップS1)、受話側の信号出力端532から参照信号を取得する(ステップS2)。そして、除去要否判定部22は、参照信号の大きさが閾値T2以上か否かを判定する(ステップS3)。
 参照信号の大きさが閾値T2より小さい場合(ステップS3でNo)は、参照信号が小さい、すなわちエコーも小さく、エコー抑圧自体が必要ない場合である。したがって、この場合には、エコー抑圧装置1は、エコーの除去を行わず、入力信号を信号入力端531へ出力する(ステップS8)。これにより、マイクロホン51から出力された音声が歪まないで、きれいな音声のまま通信装置54へ出力される。
 参照信号の大きさが閾値T2以上の場合(ステップS3でYes)には、アルゴリズム選択部23は、参照信号の大きさが、閾値T1以上か否かを判定する(ステップS4)。
 参照信号の大きさが閾値T1以上の場合(ステップS4でYes)は、スピーカ52からの音が大きい、すなわちエコーが大きく、スピーカ52からの音が歪む場合である。歪み成分は非線形であるため、線形処理を用いた学習ではエコーを除去するのが困難である。したがって、この場合には、エコー学習部24は、非線形処理を用いた学習アルゴリズムによりエコーを学習する(ステップS5)。非線形処理を用いた学習アルゴリズムは、計算量が多いが、歪みをより確実に除去することができる。
 参照信号の大きさが閾値T2以上であって閾値T1より小さい場合(ステップS4でNo)は、エコー成分が気になるが、そのレベルが低い場合である。したがって、この場合には、エコー学習部24は、低演算量の線形処理を用いた学習アルゴリズムによりエコーを学習する(ステップS6)。線形処理を用いた学習アルゴリズムは計算量が少ないため、線形処理を用いた学習アルゴリズムを適用することで演算装置の負荷を低減する。
 ステップS5又はステップS6によりエコー学習が行われると、エコー除去部11は、学習された結果に基づいて入力信号に含まれるエコーを除去する(ステップS7)。エコー除去部11は、いずれの学習アルゴリズムにより学習された学習結果に対しても同一の計算式を用いて参照信号のエコーを除去する。次いで、エコー抑圧装置1は、エコーが除去されている信号を信号入力端531へ出力する(ステップS8)。
 本実施の形態によれば、参照信号の大きさに基づいてエコーの学習アルゴリズムを選択するため、演算装置の処理負荷を軽減しつつ、エコーの除去を効果的に行うことができる。
 また、本実施の形態によれば、参照信号の大きさが大きい場合には非線形処理を用いたアルゴリズムによる学習に切り替えることで、参照信号の大きさが大きい場合に生じる非線形の歪みを確実に除去することができる。
 また、本実施の形態によれば、いずれの学習アルゴリズムにより学習された学習結果に対しても同一の計算式を用いて前記参照信号のエコーを除去するため、使用する学習アルゴリズムが頻繁に切り替わっても、違和感なく自然にエコーを除去することができる。
 なお、本実施の形態では、除去要否判定部22およびアルゴリズム選択部23が参照する閾値T1および閾値T2は、あらかじめ定められていたが、過去の参照信号又は入力信号の値に基づいて閾値T1および閾値T2を変動させてもよい。また、エコー抑圧装置1は、適宜接続される外部機器により閾値T1および閾値T2を書き換え可能に構成されていてもよい。
 また、本実施の形態では、アルゴリズム選択部23が1個の閾値に基づいて学習アルゴリズムを選択するものであったが、アルゴリズム選択部23は複数の閾値に基づいて学習アルゴリズムを選択してもよい。すなわち、エコー学習部24は3種類以上の学習アルゴリズムをそれぞれ実行可能であって、アルゴリズム選択部23は、互いに異なる複数の閾値に基づいて1の学習アルゴリズムを選択するように構成されていてもよい。
 例えばアルゴリズム選択部23は、参照信号の大きさが大きい場合、例えば閾値T1より大きい閾値T5よりも参照信号が大きい場合は、非線形処理を用いた学習アルゴリズムのうち、参照信号の大きさが閾値T1以上かつ閾値T5以下の場合に用いる学習アルゴリズムよりも学習の収束速度が速い学習アルゴリズムを選択する。閾値T5は、例えばスピーカ52から1mはなれた場所でスピーカ歪みの試験を行い、正弦波の歪みレベルが2%以上発生する場合の参照信号の平均値とすることができる。非線形処理を用いた学習アルゴリズムは、非線形フィルタの設計に用いる数理アルゴリズムにより収束速度及び精度が変わる。したがって、参照信号の大きさが閾値T5よりも大きい場合は、参照信号の大きさが閾値T1以上かつ閾値T5以下の場合よりも収束速度が速い数理アルゴリズムを選択する。このように、大きな歪みが発生する場合には、エコー成分除去の精度よりも速さを優先し、ある程度エコーが除去されている目的音声を早く生成する。
 また例えば、アルゴリズム選択部23は、参照信号の大きさが小さい場合、例えば参照信号が閾値T1より小さく閾値T2より大きい閾値T6以下である場合は、エコー成分除去の速さよりも精度を優先し、線形処理を用いた学習アルゴリズムのうち、学習の収束速度が遅く、推定精度の高い学習アルゴリズムを選択する。閾値T6は、例えば、スピーカ52から1m離れた場所で十分静かな場合(30dB(SPL)以下)である場合の参照信号の最大値とする。例えば、参照信号が閾値T2より大きくかつ閾値T6以下である場合は精度が高いLMSを用い、参照信号が閾値T6より大きくかつ閾値T1以下である場合は速度が速いNLMSを用いる。このように、エコー成分が小さい場合には、エコー成分除去の速さよりも精度を優先し、エコー成分を確実に除去する。
 また、アルゴリズム選択部23は、選択される学習アルゴリズムに含まれるパラメータを、参照信号の大きさに基づいて変更できるように構成されていてもよい。パラメータを変えることで、学習アルゴリズムの更新速度が変更される。アルゴリズム選択部23は、参照信号の大きさに比例して当該パラメータを連続的に変化させてもよいし、段階的に切り替えてもよい。またアルゴリズム選択部23は、適宜接続される外部機器により学習速度に関するパラメータを変更できるように構成されていてもよい。この構成によれば、参照信号の大きさに応じてより細かく学習速度を調整することができる。
 また、本実施の形態では、エコー学習部24が擬似エコー信号の生成を行ったが、エコー学習部24は、擬似エコー信号の生成において、スピーカ52の再生直後から所定期間が経過するまでの入力信号からは擬似エコー信号を生成しないようにしてもよい。スピーカ52の再生直後から所定期間が経過するまでは、スピーカ52等が継続して振動することにより発生した音がマイクロホン51に回り込むため、参照信号に起因しない入力信号が発生してしまうからである。ただし、スピーカ52の再生直後から所定期間が経過するまでに参照信号が入力された場合には、エコー学習部24が擬似エコー信号の生成をしないで、エコー除去部11が振動により発生した音を検知してエコーを抑圧することが望ましい。参照信号が入力されたか否かは、参照信号の大きさに基づいて検知してもよいし、発話検知部が発話を検知するようにしてもよい。発話の検知は既に公知であるため説明を省略する。
<第2の実施の形態>
 本発明に係るエコー抑圧装置の第2の実施形態について、第1の実施形態と異なる部分を中心に説明する。第2の実施形態にかかるエコー抑圧装置2は、参照信号を周波数領域の関数に変換する変換部、およびエコーが除去されている信号を時間領域の関数に変換する逆変換部を備える点において、第1の実施形態にかかるエコー抑圧装置1とは異なる。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
 図4は、第2の実施の形態に係るエコー抑圧装置2の概略構成を示すブロック図である。エコー抑圧装置2は、主として、エコー除去部12と、変換部30、31と、除去要否判定部32と、アルゴリズム選択部33と、エコー学習部34と、逆変換部35と、を有する。
 変換部30は、参照信号を周波数領域の関数に変換する機能部である。変換部31は、入力信号を周波数領域の関数に変換する機能部である。変換部30、31は、本実施形態においてはフーリエ変換を行うが、他の変換手法によって周波数領域の関数に変換してもよい。
 除去要否判定部32は、所定の間隔で複数に分けられた周波数帯域ごとに、エコー除去部11によるエコーの除去を行うか否かを判定する。除去要否判定部32は、閾値T4に基づいて、エコーの除去を行うか否かを判定する。閾値T4は、周波数帯域ごとに定められている。閾値T4は、閾値T2と同様の方法により求められる。
 アルゴリズム選択部33は、所定の間隔で複数に分けられた周波数帯域ごとに学習アルゴリズムを選択する。アルゴリズム選択部33は、閾値T3に基づいて、アルゴリズムを選択する。閾値T3は、周波数帯域ごとに定められている。閾値T3は、閾値T4より大きい。閾値T3は、閾値T1と同様の方法により求められる。
 エコー学習部34は周波数帯域ごとに選択される学習アルゴリズムを用いてエコーを学習する。エコー除去部12は、周波数帯域ごとに得られる学習結果に基づいてエコーを除去する。
 逆変換部35は、エコーが除去されている信号のパワースペクトル密度を逆変換し、時間領域の関数に変換する機能部である。逆変換部26は、例えば逆フーリエ変換を行う。逆変換部35により変換された時間領域の出力信号は、送話側の信号入力端531に入力され、通信装置53を介して利用者Bが有する通信装置54に伝達される。
 図5は、エコー抑圧装置2が行う処理の流れを示すフローチャートである。マイクロホン51により入力信号が収音され(ステップS1)、受話側の信号出力端532から参照信号が入力されると(ステップS2)、変換部30は、参照信号を周波数領域の関数に変換する(ステップS10)。また、変換部31は、入力信号を周波数領域の関数に変換する(ステップS11)。これにより、参照信号及び入力信号が複数の周波数帯域に分けられる。
 除去要否判定部22は、周波数帯域ごとに、エコーの除去を行うか否かを判定する。すなわち除去要否判定部22は、周波数帯域ごとに、参照信号の音圧が閾値T4以上か否かを判定する(ステップS12)。参照信号のパワースペクトル密度が閾値T4より小さい(ステップS12でNo)周波数帯域については、エコー抑圧装置2は、当該各周波数帯域のエコー除去を行わず、後述するステップS18に進む。
 参照信号のパワースペクトル密度が閾値T4以上(ステップS12でYes)の周波数帯域については、アルゴリズム選択部23は、周波数帯域ごとに、参照信号の音圧が閾値T3以上か否かを判定する(ステップS13)。
 参照信号のパワースペクトル密度が閾値T3以上(ステップS13でYes)の周波数帯域については、エコー学習部24は、ステップS11で周波数領域の関数に変換された入力信号に基づいて、非線形処理を用いた学習アルゴリズムにより当該周波数帯域のエコーを学習する(ステップS14)。
 参照信号の大きさが閾値T4以上であって閾値T3より小さい(ステップS13でNo)の周波数帯域については、エコー学習部24は、ステップS11で周波数領域の関数に変換された入力信号に基づいて、線形処理を用いた学習アルゴリズムにより当該周波数帯域のエコーを学習する(ステップS15)。
 エコー除去部12は、ステップS14、S15で学習された結果に基づいて周波数帯域ごとに入力信号に含まれるエコーを除去する(ステップS17)。
 逆変換部35は、エコー除去部12によりエコーが除去された周波数領域の関数を時間領域の関数に変換する(ステップS18)。また、逆変換部35は、参照信号のパワースペクトル密度が閾値T4より小さい(ステップS12でNo)周波数帯域については、ステップS11で周波数領域の関数に変換された信号を再び時間領域の関数に変換する(ステップS18)。最後に、エコー抑圧装置2は、逆変換部35により変換された信号を信号入力端531へ出力する(ステップS19)。
 本実施の形態によれば、周波数帯域ごとにエコーの除去を効果的に行うことができるため、より確実にエコーを除去することができる。
 なお、本実施の形態では、ステップS10の後にステップS11を行ったが、ステップS11はステップS14、S15の直前に行ってもよい。
 以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
1    :エコー抑圧装置
11、12:エコー除去部
22、32:除去要否判定部
23、33:アルゴリズム選択部
24、34:エコー学習部
26   :逆変換部
30、31:変換部
35   :逆変換部
50   :端末
51   :マイクロホン
52   :スピーカ
53、54:通信装置
55   :スピーカアンプ
100  :音声通信システム
531  :信号入力端
532  :信号出力端

Claims (6)

  1.  スピーカとマイクロホンとを有する端末のうちの前記マイクロホンにより収音された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、
     前記スピーカへ伝送される参照信号の大きさに基づいて、エコーを学習する学習アルゴリズムを選択するアルゴリズム選択部と、
     前記アルゴリズム選択部により選択された学習アルゴリズムを用いてエコーを学習するエコー学習部と、
     前記エコー学習部による学習結果に基づいて前記入力信号に含まれるエコーを除去するエコー除去部と、
    を備え、
     前記アルゴリズム選択部は、前記参照信号の大きさが第1閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記第1閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択する
     ことを特徴とするエコー抑圧装置。
  2.  前記参照信号を周波数領域の関数に変換する変換部をさらに備え、
     前記アルゴリズム選択部は、所定の間隔で複数に分けられた周波数帯域ごとに前記学習アルゴリズムを選択し、
     前記エコー学習部は、前記周波数帯域ごとに前記学習アルゴリズムを用いて前記参照信号に含まれるエコーを学習し、
     前記エコー除去部は、前記周波数帯域ごとに前記エコー学習部による学習結果に基づいてエコーを除去する
     ことを特徴とする請求項1に記載のエコー抑圧装置。
  3.  前記参照信号の大きさに基づいてエコーを除去するか否かを決定する除去要否判定部をさらに備え、
     前記除去要否判定部は、前記参照信号の大きさが前記第1閾値より小さい第2閾値より小さい場合には、前記エコー除去部によるエコーの除去をしないことを決定する
     ことを特徴とする請求項1又は2に記載のエコー抑圧装置。
  4.  前記エコー除去部は、いずれの学習アルゴリズムにより学習された学習結果に対しても同一の計算式を用いて前記入力信号に含まれるエコーを除去する
     ことを特徴とする請求項1から3のいずれか一項に記載のエコー抑圧装置。
  5.  スピーカへ伝送される参照信号の大きさに基づいてエコーを学習する学習アルゴリズムを選択するアルゴリズム選択ステップと、
     前記アルゴリズム選択ステップにより選択される学習アルゴリズムを用いてエコーを学習するエコー学習ステップと、
     前記エコー学習ステップにおける学習結果に基づいてマイクロホンにより収音された入力信号に含まれるエコーを除去するエコー除去ステップと、
    を含み、
     前記アルゴリズム選択ステップは、前記参照信号の大きさが閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択する
     ことを特徴とするエコー抑圧方法。
  6.  スピーカとマイクロホンとを有する端末のうちの前記マイクロホンにより収音された入力信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、
     コンピュータを、
     前記スピーカへ伝送される参照信号の大きさに基づいて、エコーを学習する学習アルゴリズムを選択するアルゴリズム選択部であって、前記参照信号の大きさが閾値以上の場合には非線形処理を用いた学習アルゴリズムを選択し、前記参照信号の大きさが前記閾値より小さい場合には線形処理を用いた学習アルゴリズムを選択するアルゴリズム選択部と、
     前記アルゴリズム選択部により選択された学習アルゴリズムを用いてエコーを学習するエコー学習部と、
     前記エコー学習部による学習結果に基づいて前記入力信号に含まれるエコーを除去するエコー除去部と、
     して機能させることを特徴とするエコー抑圧プログラム。
PCT/JP2019/022289 2018-06-14 2019-06-05 エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム WO2019239977A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2020139025A RU2767297C1 (ru) 2018-06-14 2019-06-05 Устройство эхоподавления, способ эхоподавления и программа эхоподавления
EP19818729.6A EP3809601B1 (en) 2018-06-14 2019-06-05 Echo suppression device, echo suppression method, and echo suppression program
US16/973,930 US11375066B2 (en) 2018-06-14 2019-06-05 Echo suppression device, echo suppression method, and echo suppression program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-113575 2018-06-14
JP2018113575A JP7187183B2 (ja) 2018-06-14 2018-06-14 エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム

Publications (1)

Publication Number Publication Date
WO2019239977A1 true WO2019239977A1 (ja) 2019-12-19

Family

ID=68842214

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/022289 WO2019239977A1 (ja) 2018-06-14 2019-06-05 エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム

Country Status (5)

Country Link
US (1) US11375066B2 (ja)
EP (1) EP3809601B1 (ja)
JP (1) JP7187183B2 (ja)
RU (1) RU2767297C1 (ja)
WO (1) WO2019239977A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022202012A1 (ja) * 2021-03-26 2022-09-29 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7187183B2 (ja) * 2018-06-14 2022-12-12 株式会社トランストロン エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
KR20210056146A (ko) * 2019-11-08 2021-05-18 엘지전자 주식회사 고장 진단을 하는 인공 지능 장치 및 그 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04196624A (ja) * 1990-11-26 1992-07-16 Fujitsu Ltd エコーキャンセラ装置
JPH0514131A (ja) * 1991-07-02 1993-01-22 Hitachi Ltd 自動等化器
JPH07303068A (ja) 1994-05-07 1995-11-14 N T T Idou Tsuushinmou Kk エコーキャンセラ学習方法
JP2000165301A (ja) * 1998-11-27 2000-06-16 Matsushita Electric Ind Co Ltd 帯域分割型適応フィルタによる未知システムの同定方法及び同定プログラムを記録した記録媒体、及び同定装置
JP2002501336A (ja) * 1998-01-09 2002-01-15 エリクソン インコーポレイテッド 通信システムにおけるエコー抑圧制御方法および装置
JP2003134004A (ja) 2001-10-22 2003-05-09 Oki Electric Ind Co Ltd エコーキャンセラ
JP2010226629A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005175809A (ja) * 2003-12-10 2005-06-30 Sony Corp 発音装置
EP1827002A1 (en) 2006-02-22 2007-08-29 Alcatel Lucent Method of controlling an adaptation of a filter
EP2420050B1 (en) * 2009-04-15 2013-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multichannel echo canceller
FR2946486B1 (fr) * 2009-06-09 2012-04-20 Parrot Procede de detection d'une situation de double parole pour dispositif telephonique "mains libres"
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
CN102118530B (zh) 2010-01-06 2013-08-14 杭州华三通信技术有限公司 一种回声消除的方法和装置
JP5982069B2 (ja) * 2013-03-19 2016-08-31 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理のための方法及び装置
US9818424B2 (en) * 2013-05-06 2017-11-14 Waves Audio Ltd. Method and apparatus for suppression of unwanted audio signals
CN105791611B (zh) * 2016-02-22 2020-07-07 腾讯科技(深圳)有限公司 回声消除方法、装置、终端以及存储介质
KR101721621B1 (ko) * 2016-03-02 2017-03-30 (주) 로임시스템 마이크 스피커 일체형 오디오 증폭 장치
CN105872156B (zh) * 2016-05-25 2019-02-12 腾讯科技(深圳)有限公司 一种回声时延跟踪方法及装置
KR102146816B1 (ko) * 2016-06-30 2020-08-21 구글 엘엘씨 모바일 디바이스들에서 비선형 반향 제거를 위한 이중 크기 처리 프레임워크
CN110169041B (zh) * 2016-12-30 2022-03-22 哈曼贝克自动系统股份有限公司 一种声回波消除的方法和系统
KR102423744B1 (ko) * 2016-12-30 2022-07-21 하만 베커 오토모티브 시스템즈 게엠베하 음향 반향 제거
US10446165B2 (en) * 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
JP7187183B2 (ja) * 2018-06-14 2022-12-12 株式会社トランストロン エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
US11039015B2 (en) * 2019-03-20 2021-06-15 Zoom Video Communications, Inc. Method and system for facilitating high-fidelity audio sharing
US10938992B1 (en) * 2019-05-06 2021-03-02 Polycom, Inc. Advanced audio feedback reduction utilizing adaptive filters and nonlinear processing
US10984815B1 (en) * 2019-09-27 2021-04-20 Cypress Semiconductor Corporation Techniques for removing non-linear echo in acoustic echo cancellers
JP2022025908A (ja) * 2020-07-30 2022-02-10 ヤマハ株式会社 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04196624A (ja) * 1990-11-26 1992-07-16 Fujitsu Ltd エコーキャンセラ装置
JPH0514131A (ja) * 1991-07-02 1993-01-22 Hitachi Ltd 自動等化器
JPH07303068A (ja) 1994-05-07 1995-11-14 N T T Idou Tsuushinmou Kk エコーキャンセラ学習方法
JP2002501336A (ja) * 1998-01-09 2002-01-15 エリクソン インコーポレイテッド 通信システムにおけるエコー抑圧制御方法および装置
JP2000165301A (ja) * 1998-11-27 2000-06-16 Matsushita Electric Ind Co Ltd 帯域分割型適応フィルタによる未知システムの同定方法及び同定プログラムを記録した記録媒体、及び同定装置
JP2003134004A (ja) 2001-10-22 2003-05-09 Oki Electric Ind Co Ltd エコーキャンセラ
JP2010226629A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3809601A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022202012A1 (ja) * 2021-03-26 2022-09-29 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Also Published As

Publication number Publication date
EP3809601A4 (en) 2021-04-28
EP3809601B1 (en) 2023-03-01
US11375066B2 (en) 2022-06-28
EP3809601A1 (en) 2021-04-21
JP7187183B2 (ja) 2022-12-12
US20210211546A1 (en) 2021-07-08
JP2019216389A (ja) 2019-12-19
RU2767297C1 (ru) 2022-03-17

Similar Documents

Publication Publication Date Title
EP2845189B1 (en) A universal reconfigurable echo cancellation system
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
EP3348047B1 (en) Audio signal processing
KR100716377B1 (ko) 디지털 적응형 필터 및 이를 사용하는 반향 제거기
KR101422984B1 (ko) 잔류 에코를 억제하는 방법 및 장치
JP5501527B2 (ja) エコー消去装置およびエコー検出装置
WO2019239977A1 (ja) エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
CN109273019B (zh) 用于回声抑制的双重通话检测的方法及回声抑制
KR20060067881A (ko) 수신 오디오의 제한 시스템
JP6833616B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN110956975A (zh) 回声消除方法及装置
CN111524532B (zh) 回声抑制方法、装置、设备及存储介质
CN109215672B (zh) 一种声音信息的处理方法、装置及设备
CN106297816B (zh) 一种回声消除的非线性处理方法和装置及电子设备
KR100272131B1 (ko) 계층적 구조의 적응반향 제거장치
JP7196002B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP7382273B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
US20160065743A1 (en) Stereo echo suppressing device, echo suppressing device, stereo echo suppressing method, and non transitory computer-readable recording medium storing stereo echo suppressing program
JP4534529B2 (ja) ハウリング抑圧方法及び装置
JP2024008271A (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2013005106A (ja) 場内拡声装置、場内拡声方法、及びそのプログラム
JP2004274683A (ja) エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
KR20230150182A (ko) 에코 제거 방법、 장치 및 전자 장비
JP6121047B2 (ja) エコーキャンセラ装置
CN117063231A (zh) 回波抑制装置、回波抑制方法以及回波抑制程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19818729

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019818729

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019818729

Country of ref document: EP

Effective date: 20210114