WO2009107750A1 - 音響エコーキャンセラ - Google Patents

音響エコーキャンセラ Download PDF

Info

Publication number
WO2009107750A1
WO2009107750A1 PCT/JP2009/053605 JP2009053605W WO2009107750A1 WO 2009107750 A1 WO2009107750 A1 WO 2009107750A1 JP 2009053605 W JP2009053605 W JP 2009053605W WO 2009107750 A1 WO2009107750 A1 WO 2009107750A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound
spectrum
echo
sound signal
Prior art date
Application number
PCT/JP2009/053605
Other languages
English (en)
French (fr)
Inventor
利晃 石橋
良 田中
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2009107750A1 publication Critical patent/WO2009107750A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Definitions

  • the present invention relates to an acoustic echo canceller that removes an echo echo including an echo echo and a stationary noise based on an installation environment or the like from a collected sound signal.
  • Patent Document 1 discloses an echo cancellation apparatus including an echo canceller having an adaptive filter and an echo suppression unit that suppresses echoes by calculation in the frequency domain.
  • the echo cancellation apparatus of Patent Document 1 performs echo suppression processing in the frequency domain based on the frequency spectrum of the pseudo echo signal at each timing estimated by the echo canceller using the adaptive filter and the echo canceller.
  • it has been difficult to effectively remove reverberant echoes and stationary noises that cannot be dealt with originally by echo cancellers.
  • a very large amount of resources are required.
  • an object of the present invention is to realize an acoustic echo canceller that can effectively remove echoes and noises that cannot be removed only by an echo canceller using an adaptive filter, and can relatively reduce the amount of required resources. There is.
  • the present invention relates to an acoustic echo canceller that removes sounds other than the target voice included in the collected voice signal.
  • the acoustic echo canceller includes an adaptive filter that generates a pseudo reverberation signal based on a sound signal for sound emission, and a first difference that outputs a first corrected sound signal by subtracting the pseudo reverberation signal from the collected sound signal.
  • Second difference means for outputting a second corrected sound signal.
  • a pseudo echo sound signal is generated by the adaptive filter, and a frequency spectrum of disturbance echo that cannot be handled by the adaptive filter is calculated.
  • the acoustic echo canceller of the present invention first performs the first-stage echo cancellation of the linear component by subtracting the pseudo-resonance signal from the collected sound signal, and further performs the first-stage echo cancellation.
  • a further second-stage echo cancellation is performed by subtracting the frequency spectrum of the disturbance echo from the frequency spectrum of the signal after being broken. Thereby, echoes and noises that cannot be removed by the adaptive filter are removed.
  • reverberation echo an echo that is not removed by the pseudo-resonance signal generated by the adaptive filter
  • stationary noise is estimated.
  • the reverberant echo is estimated based on the pseudo echo sound signal
  • the stationary noise is estimated based on the first corrected speech signal that is obtained by subtracting the pseudo echo signal from the collected sound signal.
  • the acoustic echo canceller of the present invention further performs state determination of sound emission based on the sound output sound signal and the first corrected sound signal, and the state determination result for the adaptive filter and the disturbance spectrum estimation means.
  • the state determination means which gives is provided.
  • the state determination means is based on the signal level of the sound signal for sound emission and the signal level of the first corrected sound signal, the soundless state, the sound-only state, the state in which there is no sound and only the sound is collected, It is detected whether the sound is collected or not.
  • This result is given to the adaptive filter and the disturbance spectrum estimation means.
  • the adaptive filter and the disturbance spectrum estimation means obtain timing suitable for learning based on the state detection result. As a result, the adaptive filter and the disturbance spectrum estimation means can learn at the optimum timing, and effective echo cancellation and echo cancellation are realized.
  • the acoustic echo canceller of the present invention further includes a band dividing unit that separates the collected sound signal into a low frequency component and a high frequency component and outputs the low frequency component of the collected sound signal to the first difference unit; And an attenuator for attenuating the high frequency component of the collected sound signal output from the band dividing means according to the result of the state determination.
  • the low-frequency component and high-frequency component of the collected sound signal are separated, and the above processing is performed only with the low-frequency component, thereby reducing the computation load of echo cancellation processing and echo cancellation processing and increasing the speed.
  • the level of the high frequency component of the voice uttered by the human is smaller than the level of the low frequency component.
  • the level of the high frequency component that is originally reflected and collected by the microphone is smaller than the level of the low frequency component. Therefore, even if the high-frequency component is merely attenuated by the attenuator, the influence on the sound quality is small. That is, effective echo cancellation and echo removal as described above are performed more efficiently while maintaining a predetermined sound quality.
  • the present invention it is possible to effectively cancel and cancel echoes of reverberation and stationary noise that cannot be removed only by an echo canceller using an adaptive filter. Furthermore, it is possible to efficiently perform echo cancellation and echo removal processing with a relatively small amount of necessary resources while maintaining a predetermined sound quality.
  • FIG. 4 is a diagram illustrating the attenuation amount of an echo suppressor 40.
  • FIG. 1 is a block diagram showing a schematic configuration of main elements of the acoustic echo canceller of the present embodiment.
  • the acoustic echo canceller 1 includes a speaker SP, a microphone MIC (sound collecting means), a state determination unit 10, an adaptive filter 20, a disturbance spectrum estimation unit 30, and an addition corresponding to the sound emission unit of the present invention.
  • a device 60 (first difference means) and an adder 70 (second difference means) are provided.
  • the state determination unit 10 determines whether the sound emission and sound collection are both present (W talk state), Detects whether there is only sound emission of sound signal for sound emission, “no sound emission and sound collection signal”, or “no sound emission and sound collection (no sound)” Then, the detection state is given to the adaptive filter 20 and the disturbance spectrum estimation unit 30.
  • FIG. 2 is a diagram showing the determination concept of the state determination and learning process of the state determination unit 10 shown in FIG.
  • the state determination unit 10 detects that all of the sound emission sound signal FEt, the sound collection sound signal NEt, and the first corrected sound signal NE't are at a level equal to or higher than a preset threshold value, the state determination unit 10 releases the sound. It is determined that both sound and speaker utterance are being performed, and it is determined to be in the “W talk” state. In addition, if the sound emission sound signal FEt is at a level equal to or higher than the threshold value and the first corrected sound signal NE′t is less than the threshold value, the state determination unit 10 determines that “only sound emission of the sound emission sound signal is generated. It is determined that the state is “present”.
  • the state determination unit 10 determines that “there is no sound emission” if the collected sound signal NEt and the first corrected sound signal NE′t are at a level equal to or higher than the threshold value and the sound emission sound signal FEt is less than the threshold value. It is determined that there is a collected sound signal. Furthermore, when the state determination unit 10 detects that all of the sound emission sound signal FEt, the sound collection sound signal NEt, and the first corrected sound signal NE't are less than the threshold value, the state determination unit 10 determines that the state is “silent”.
  • the sound signal for sound emission (far end signal) FEt input from the outside is input to the speaker SP and the FFT 911.
  • Speaker SP emits sound based on sound output sound signal FEt.
  • FFT 911 is a fast Fourier transform circuit, converts the sound output sound signal FEt that is a function in the time domain into a sound output sound signal FEn that is a function in the frequency domain, and supplies the sound to the adaptive filter 20.
  • the adaptive filter 20 includes a pseudo echo signal generation unit 201 and a pseudo echo signal estimation unit 202.
  • the pseudo echo sound signal generation unit 201 is, for example, an FIR filter having a predetermined number of taps, and is set by a coefficient given from the pseudo echo sound signal estimation unit 202.
  • the pseudo reverberation signal generation unit 201 generates a pseudo reverberation signal FE′n based on the sound output sound signal FEn.
  • the generated pseudo reverberation signal FE′n is input to IFFT 921 and the echo spectrum estimation unit 301 of the disturbance spectrum estimation unit 30.
  • the pseudo reverberation signal estimator 202 estimates a pseudo reverberation signal FE'n from a frequency spectrum S (NE'n) of a first corrected sound signal NE'n, which will be described later, using an adaptive algorithm such as LMS.
  • the pseudo echo signal estimation unit 202 estimates coefficients for causing the pseudo echo signal generation unit 201 to generate the pseudo echo signal FE′n, and supplies these coefficients to the pseudo echo signal generation unit 201.
  • the pseudo reverberation signal estimation unit 202 performs learning based on the above-described estimation only when information on the state “only sound emission of the sound emission sound signal is present” is acquired from the state determination unit 10. Note that such estimation, generation of the pseudo echo sound signal FE′n, and learning are repeatedly performed during the operation of the acoustic echo canceller 1.
  • the disturbance spectrum estimation unit 30 includes an echo spectrum estimation unit 301 and a noise spectrum estimation unit 302.
  • the echo spectrum estimation unit 301 is a calculation unit that estimates an echo component that cannot be removed only by the pseudo-resonance signal FE′n
  • the noise spectrum estimation unit 302 is a calculation unit that estimates stationary noise. .
  • the echo spectrum estimation unit 301 sequentially acquires and temporarily stores the frequency spectrum S (FE'n) of the pseudo echo sound signal FE'n at each sampling timing.
  • the echo spectrum estimation unit 301 estimates the reverberation echo spectrum S (FE ′′ n) based on the frequency spectrum S (FE′n) of the multiple times of the acquired and stored pseudo echo sound signal FE′n.
  • the reverberation echo spectrum at a certain sampling timing N is S (FE ′′ n (N))
  • the frequency spectrum of the pseudo reverberation signal at the sampling timing N is S (FE′n (N))
  • S (FE′n (N ⁇ 1)) be the frequency spectrum of the pseudo reverberation signal at the sampling timing N ⁇ 1
  • ⁇ and ⁇ be constants.
  • the reverberant echo frequency spectrum that cannot be removed by the adaptive filter 20 is acquired by estimating the reverberant echo spectrum S (FE ′′ n) based on the frequency spectrum of the pseudo-reverberation signal FE′n. That is, the adaptive filter 20 is composed of an FIR filter or the like, and the pseudo reverberation signal FE′n that can be expressed by a specification such as the number of taps is limited.
  • the echo spectrum estimation unit 301 repeats learning based on the above estimation at the same timing as the pseudo echo signal estimation unit 202 of the adaptive filter 20.
  • the noise spectrum estimation unit 302 sequentially acquires and temporarily stores the frequency spectrum S (NE'n) of the first corrected audio signal NE'n at each sampling timing.
  • the noise spectrum estimation unit 302 estimates the noise spectrum S (NE ′′ n) based on the frequency spectrum S (NE′n) of the first corrected speech signal NE′n obtained and stored.
  • the noise spectrum at a certain sampling timing N is S (NE "n (N))
  • the frequency spectrum of the first corrected audio signal at the sampling timing N is S (NE'n (N))
  • S (NE′n (N ⁇ 1)) be the frequency spectrum of the first corrected audio signal at the sampling timing N ⁇ 1
  • ⁇ ′ and ⁇ ′ be constants.
  • noise spectrum S (NE "n (N)) is expressed by the following equation and calculated.
  • the noise spectrum estimation unit 302 performs learning based on the above-described estimation only when information on the “silent” state is acquired from the state determination unit 10. Note that such estimation and learning are also repeatedly performed during the operation of the acoustic echo canceller 1.
  • IFFT 922 is an inverse fast Fourier transform circuit, which converts the second corrected speech signal NOn, which is a function in the frequency domain, into a second corrected speech signal NOt, which is a function in the time domain, and outputs it to the outside.
  • FIG. 3 is a block diagram showing a schematic configuration of main elements of the acoustic echo canceller 1 ′ of the present embodiment.
  • the acoustic echo canceller 1 ′ of the present embodiment is configured by adding an echo suppressor 40, a band dividing unit 50, and an adder 80 to the acoustic echo canceller 1 of the first embodiment.
  • Other configurations are the same as those of the first embodiment, but the contents of signal processing are partially different, so only the different portions will be described below.
  • the state determination unit 10 of the acoustic echo canceller 1 ′ performs the first operation based on the signal levels of the sound output sound signal FEt, the sound pickup sound signal low-frequency component NLEt, which will be described later, and the low-frequency component first corrected sound signal NLE′t.
  • the detection state is given to the adaptive filter 20, the disturbance spectrum estimation unit 30, and the echo suppressor 40.
  • the collected sound signal low-frequency component NLEt (NLEn) of the present embodiment corresponds to the collected sound signal NEt (NEn) in FIG. 1 of the first embodiment, and the low-frequency component first correction of the present embodiment.
  • the audio signal NLE't (NLE'n) corresponds to the first corrected audio signal NE't (NE'n) in FIG.
  • the adaptive filter 20 of the acoustic echo canceller 1 generates a pseudo echo signal FE'n using the above-described adaptive algorithm from the frequency spectrum of the low-frequency component first corrected speech signal NLE'n.
  • the FFT 912 is a fast Fourier transform circuit, which converts the low-frequency component first corrected speech signal NLE't that is a function in the time domain into a low-frequency component first corrected speech signal NLE'n that is a function in the frequency domain and outputs it. To do.
  • the frequency spectrum S (NLE'n) of the low-frequency component first corrected speech signal NLE'n is input to the above-described pseudo reverberation signal estimation unit 202 and the noise spectrum estimation unit 302 of the disturbance spectrum estimation unit 30.
  • the noise spectrum estimation unit 302 of the disturbance spectrum estimation unit 30 sequentially acquires and temporarily stores the frequency spectrum S (NLE'n) of the low-frequency component first corrected speech signal NLE'n.
  • the noise spectrum estimation unit 302 estimates the noise spectrum S (NLE ′′ n) based on the frequency spectrum S (NLE′n) of the acquired and stored low frequency component first corrected speech signal NLE′n. .
  • the adder 70 is an adder that performs an operation in the frequency domain. From the frequency spectrum S (NLE'n) of the low-frequency component first corrected speech signal NLE'n, the reverberation echo spectrum S (FE "n) and the noise spectrum. By subtracting S (NLE "n), the low-frequency component second corrected audio signal NLOn is generated and output. This process is performed so that each spectrum is synchronized.
  • the synchronization process by the adder 70 is the same as the synchronization process performed in the first embodiment.
  • the echo suppressor 40 includes an attenuator 401 and a delay circuit 402.
  • the attenuator 401 adjusts the attenuation amount of the high frequency component NHEt of the collected sound signal NEt based on the state determination result from the state determination unit 10, and outputs the attenuated high frequency component NHE't.
  • FIG. 4 is a diagram illustrating the attenuation amount of the attenuator 401 of the echo suppressor 40.
  • the attenuator 401 when the attenuator 401 obtains the “W talk” state information, the attenuator 401 sets the attenuation amount to a predetermined value set in advance. This is set to a certain amount of attenuation because the component of the sound emission sound signal FEt to be removed and the speaker sound component are mixed during W talk. As a result, it is possible to attenuate the echo component due to the sound output sound signal FEt, while sacrificing the speaker sound slightly.
  • the attenuated high frequency component NHE′t output from the attenuator 401 is input to the delay circuit 402.
  • the delay circuit 402 adds the high-frequency component NHEt (NHE't) that is easy to process and high-speed and the low-frequency component second corrected audio signal NLOt subjected to the above-described echo cancellation and echo removal processing in time synchronization. Delay processing is performed. By this delay processing, a delayed attenuation processed high frequency component NHE ′′ t is generated and applied to the adder 80.
  • the adder 80 adds the low-frequency component second corrected audio signal NLOt and the delay attenuated high-frequency component NHE "t that is time-synchronized with the low-frequency component second corrected audio signal NLOt, generates an output audio signal NO't, and outputs it to the outside .
  • the state determination unit 10 performs the state determination based only on the signal level is shown, but the state determination may be performed based on the correlation of each signal.
  • an acoustic echo canceller including a speaker and a microphone is shown as an example.
  • an output terminal to a sound emitting element such as a speaker and an input terminal from a sound collecting element such as a microphone are provided.
  • the sound element and the sound collection element may be separated.
  • the state determination unit 10 stores the learning timing condition of each unit, and the state determination unit 10 learns from each unit. Timing may be given.

Abstract

 適応型フィルタを用いたエコーキャンセラのみでは除去しきれないエコーやノイズも効果的に除去できる音響エコーキャンセラを実現する。  適応型フィルタ20は、放音用音声信号FEtに基づいて擬似反響音信号FE’tを生成する。加算器60は収音信号NEtから擬似反響音信号FE’tを差分することで第1補正音声信号NE’tを生成する。エコースペクトル推定部301は、今回および前回の擬似反響音信号FE’nに基づいて、擬似反響音信号FE’tで除去しきれない残響エコーの周波数スペクトルFE”nを推定算出する。ノイズスペクトル推定部302は、今回および前回の第1補正音声信号NE’nに基づいて、定常ノイズNE”nの周波数スペクトルを推定算出する。加算器70は、第1補正音声信号NE’nの周波数スペクトルから残響エコーの周波数スペクトルFE”nおよび定常ノイズNE”nの周波数スペクトルを差分する。

Description

音響エコーキャンセラ
 この発明は、設置環境等に基づく反響エコーや定常ノイズを含む音響エコーを、収音音声信号から除去する音響エコーキャンセラに関するものである。
 従来、スピーカとマイクとが1つの筐体に設置される音声会議装置などでは、スピーカとマイクとが近接する等の理由により音響エコーが発生し易い。このため、このような音響エコーを除去するエコーキャンセル装置が各種考案されている。例えば、特許文献1では、適応型フィルタを有するエコーキャンセラと、周波数領域による演算でエコーを抑圧するエコー抑圧部とを備えたエコーキャンセル装置が開示されている。
特許第3420705号公報
 しかしながら、特許文献1のエコーキャンセル装置では、適応型フィルタを用いたエコーキャンセラと、該エコーキャンセラが推定するそれぞれのタイミングでの擬似エコー信号の周波数スペクトルに基づいた周波数領域によるエコー抑圧処理を行うため、エコーキャンセラで元々対応しきれていない残響のエコーや定常的なノイズに関しては効果的に除去することが難しかった。さらに、このようなエコーキャンセルやエコー抑圧処理を並行して効果的に行うためには非常に大量のリソースを必要としてしまう。
 したがって、本発明の目的は、適応型フィルタを用いたエコーキャンセラのみでは除去しきれないエコーやノイズも効果的に除去でき、さらに必要なリソース量を比較的抑えることができる音響エコーキャンセラを実現することにある。
 この発明は、収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラに関するものである。この音響エコーキャンセラは、放音用音声信号に基づいて擬似反響音信号を生成する適応型フィルタと、収音音声信号から擬似反響音信号を差分して第1補正音声信号を出力する第1差分手段と、擬似反響音信号の周波数スペクトルおよび第1補正音声信号の周波数スペクトルに基づいて外乱スペクトルを推定する外乱スペクトル推定手段と、第1補正音声信号の周波数スペクトルに対して外乱スペクトルを差分して第2補正音声信号を出力する第2差分手段と、を備える。
 この構成では、適応型フィルタにより擬似反響音信号が生成されるとともに、適応型フィルタでは対応しきれない外乱エコーの周波数スペクトルが算出される。そして、この発明の音響エコーキャンセラは、収音音声信号に対して、まず擬似反響音信号を差分することで線形成分の第一段のエコーキャンセルを行い、さらに、第一段のエコーキャンセルが行われた後の信号の周波数スペクトルに対して、外乱エコーの周波数スペクトルを差分することで更なる第二段のエコー除去を行う。これにより、適応型フィルタで除去しきれないエコーやノイズが除去される。
 また、この発明の音響エコーキャンセラの外乱スペクトル推定手段は、擬似反響音信号の周波数スペクトルに基づいて残響エコースペクトルを推定するエコースペクトル推定手段と、第1補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定するノイズスペクトル推定手段と、を備える。
 この構成では、外乱エコーとして、適応型フィルタで生成された擬似反響音信号では除去されないエコー(以下、説明の便宜上このエコーを「残響エコー」と称する。)と、定常ノイズとが推定される。この際、残響エコーは擬似反響音信号に基づいて推定され、定常ノイズは、収音信号から擬似反響音信号を差分する第1補正音声信号により推定される。これにより、それぞれに異なる要因からなる残響エコーと定常ノイズとが個別に且つ効果的に推定される。
 また、この発明の音響エコーキャンセラは、さらに、放音用音声信号と第1補正音声信号とに基づいて放収音の状態判定を行い、適応型フィルタおよび外乱スペクトル推定手段に対して状態判定結果を与える状態判定手段を、備える。
 この構成では、状態判定手段が放音用音声信号の信号レベル、第1補正音声信号の信号レベルに基づいて、無音状態、放音のみ状態、放音がなく収音のみの状態、放音および収音がある状態、のいずれの状態であるかを検出する。この結果は、適応型フィルタおよび外乱スペクトル推定手段へ与えられる。適応型フィルタおよび外乱スペクトル推定手段は、この状態検出結果に基づいて、学習するに適するタイミングを取得する。これにより、適応型フィルタおよび外乱スペクトル推定手段が最適なタイミングで学習することができ、効果的なエコーキャンセルおよびエコー除去が実現される。
 また、この発明の音響エコーキャンセラは、さらに、収音音声信号を低域成分と高域成分とに分離して収音音声信号の低域成分を第1差分手段へ出力する帯域分割手段と、帯域分割手段から出力される収音音声信号の高域成分を状態判定の結果に応じて減衰する減衰器と、を備える。
 この構成では、収音音声信号の低域成分と高域成分とを分離し、低域成分のみで上述の処理を行うことで、エコーキャンセル処理およびエコー除去処理の演算負荷が低減され、高速化も可能となる。この際、人間の発声する音声の高域成分のレベルは、低域成分のレベルに比べて小さい。さらに、元々反響してマイクに回り込んで収音される高域成分のレベルは、低域成分のレベルに対して小さい。したがって、高域成分を単なる減衰器による減衰処理のみとしても、音質への影響が少ない。すなわち、上述のような効果的なエコーキャンセルおよびエコー除去が、所定の音質を保ちながら、さらに効率的に行われる。
 この発明によれば、適応型フィルタを用いたエコーキャンセラのみでは除去しきれない残響のエコーや定常ノイズも効果的にエコーキャンセル及びエコー除去することができる。さらに、所定音質を保ちながら必要なリソース量を比較的抑えて、効率的にエコーキャンセルおよびエコー除去処理を行うことができる。
第1の実施形態の音響エコーキャンセラの主要構成を示すブロック図である。 図1に示した音響エコーキャンセラの状態判定および学習処理の判断概念を示した図である。 第2の実施形態の音響エコーキャンセラの主要構成を示すブロック図である。 エコーサプレッサ40の減衰量を示す図である。
符号の説明
1 音響エコーキャンセラ、
10 状態判定部
20 適応型フィルタ
201 擬似反響音信号生成部
202 擬似反響音信号推定部
30 外乱スペクトル推定部
301 エコースペクトル推定部
302 ノイズスペクトル推定部
40 エコーサプレッサ
401 減衰器
402 ディレイ回路
50 帯域分割部
60,70,80 加算器
900 周波数領域演算部
911,912 FFT演算部
921,922 IFFT演算部
SP スピーカ
MIC マイク
 本発明の第1の実施形態に係る音響エコーキャンセラについて図を参照して説明する。なお、以下の説明では、時間領域の信号は末端の記号をtで示し、周波数領域の信号は末端の記号をnで示す。
 図1は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。
 図1に示すように、音響エコーキャンセラ1は、本発明の放音手段に相当するスピーカSP、マイクMIC(収音手段)、状態判定部10、適応型フィルタ20、外乱スペクトル推定部30、加算器60(第1差分手段)、加算器70(第2差分手段)を備える。
 状態判定部10は、放音用音声信号FEt、収音音声信号NEt、第1補正音声信号NE’tの信号レベルに基づいて、「放音、収音ともに有り状態(Wトーク状態)」、「放音用音声信号の放音のみ有り状態」、「放音が無く収音信号が有り状態」、「放音、収音ともに無し状態(無音状態)」のいずれかであることを検出して、検出状態を適応型フィルタ20および外乱スペクトル推定部30へ与える。図2は図1に示した状態判定部10の状態判定および学習処理の判断概念を示した図である。
 具体的には、状態判定部10は、放音用音声信号FEt、収音音声信号NEt、第1補正音声信号NE’tの全てが予め設定した閾値以上のレベルであることを検出すると、放音、話者発話の双方が行われていると判断し、「Wトーク」状態と判定する。また、状態判定部10は、放音用音声信号FEtが前記閾値以上のレベルであり、第1補正音声信号NE’tが前記閾値未満であれば、「放音用音声信号の放音のみが有る」状態と判定する。また、状態判定部10は、収音音声信号NEtおよび第1補正音声信号NE’tが前記閾値以上のレベルであり、放音用音声信号FEtが前記閾値未満であれば、「放音が無く収音音声信号が有る」状態と判定する。さらに、状態判定部10は、放音用音声信号FEt、収音音声信号NEt、第1補正音声信号NE’tの全てが前記閾値未満であることを検出すると、「無音」状態と判定する。
 外部から入力された放音用音声信号(遠端信号)FEtは、スピーカSPおよびFFT911へ入力される。
 スピーカSPは、放音用音声信号FEtに基づいて放音する。
 FFT911は、高速フーリエ変換回路であり、時間領域の関数である放音用音声信号FEtを周波数領域の関数である放音用音声信号FEnへ変換して、適応型フィルタ20へ与える。
 適応型フィルタ20は、擬似反響音信号生成部201と擬似反響音信号推定部202とを備える。擬似反響音信号生成部201は、例えば、所定のタップ数からなるFIRフィルタであり、擬似反響音信号推定部202から与えられた係数により設定される。擬似反響音信号生成部201は、放音用音声信号FEnに基づいて擬似反響音信号FE’nを生成する。生成された擬似反響音信号FE’nは、IFFT921および外乱スペクトル推定部30のエコースペクトル推定部301へ入力される。
 擬似反響音信号推定部202は、LMS等の適応アルゴリズムを用いて、後述する第1補正音声信号NE’nの周波数スペクトルS(NE’n)から、擬似反響音信号FE’nを推定する。擬似反響音信号推定部202は、当該擬似反響音信号FE’nを擬似反響音信号生成部201に生成させるための係数を推定して、これら係数を擬似反響音信号生成部201へ与える。この際、擬似反響音信号推定部202は、状態判定部10から「放音用音声信号の放音のみ有り」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、擬似反響音信号FE’nの生成、学習は、音響エコーキャンセラ1の動作中に繰り返し行われる。
 IFFT921は、逆高速フーリエ変換回路であり、周波数領域の関数である擬似反響音信号FE’nを時間領域の関数である擬似反響音信号FE’tに変換して、加算器60へ出力する。
 マイクMICは、当該音響エコーキャンセラ1が設置された周囲から収音して、収音音声信号(近端信号)NEtを生成する。この収音音声信号NEtには、スピーカSPからの放音があれば、当該放音音声が設置環境に基づいて反響されてなる反響音の成分が含まれる。また、マイクMIC周囲の話者が発話すれば、収音音声信号NEtに話者音声の成分が含まれる。さらに、会議室等の設置環境によって当該環境に特有の定常的なノイズが存在すると、収音音声信号NEtには、この定常ノイズの成分も含まれる。
 加算器60は、マイクMICからの収音音声信号NEtから擬似反響音信号FE’tを差分することで、第1補正音声信号NE’tを生成して出力する。
 FFT912は、高速フーリエ変換回路であり、時間領域の関数である第1補正音声信号NE’tを周波数領域の関数である第1補正音声信号NE’nへ変換して出力する。第1補正音声信号NE’nの周波数スペクトルS(NE’n)は、上述の擬似反響音信号推定部202および外乱スペクトル推定部30のノイズスペクトル推定部302へ入力される。
 外乱スペクトル推定部30は、エコースペクトル推定部301とノイズスペクトル推定部302とを備える。簡単には、エコースペクトル推定部301は、擬似反響音信号FE’nのみで除去しきれないエコー成分を推定する演算部であり、ノイズスペクトル推定部302は、定常ノイズを推定する演算部である。
 エコースペクトル推定部301は、擬似反響音信号FE’nの周波数スペクトルS(FE’n)をサンプリングタイミング毎に順次取得するとともに、一時記憶する。エコースペクトル推定部301は、この取得および記憶した複数回の擬似反響音信号FE’nの周波数スペクトルS(FE’n)に基づいて、残響エコースペクトルS(FE”n)を推定する。
 例えば、或るサンプリングタイミングNでの残響エコースペクトルをS(FE”n(N))とし、同サンプリングタイミングNでの擬似反響音信号の周波数スペクトルをS(FE’n(N))とし、直前のサンプリングタイミングN-1での擬似反響音信号の周波数スペクトルをS(FE’n(N-1))とする。また、α,βを定数とする。
 そして、この設定において、残響エコースペクトルS(FE”n(N))を次式で表し、算出する。
 S(FE”n(N))=αS(FE’n(N-1))+βS(FE’n(N))
 このように、擬似反響音信号FE’nの周波数スペクトルに基づいて残響エコースペクトルS(FE”n)を推定することで、適応型フィルタ20で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ20は、FIRフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号FE’nが制限される。これにより、時間軸上に復元した場合に擬似反響音信号FE’tと現実の回り込み音とで差が生じる。しかしながら、周波数領域で残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号FE’tでは除去しきれない残響エコーを推定することができる。
 エコースペクトル推定部301は、適応型フィルタ20の擬似反響音信号推定部202と同じタイミングで、上述の推定による学習を繰り返す。
 ノイズスペクトル推定部302は、第1補正音声信号NE’nの周波数スペクトルS(NE’n)をサンプリングタイミング毎に順次取得するとともに、一時記憶する。ノイズスペクトル推定部302は、この取得および記憶した複数回の第1補正音声信号NE’nの周波数スペクトルS(NE’n)に基づいて、ノイズスペクトルS(NE”n)を推定する。
 例えば、或るサンプリングタイミングNでのノイズスペクトルをS(NE”n(N))とし、同サンプリングタイミングNでの第1補正音声信号の周波数スペクトルをS(NE’n(N))とし、直前のサンプリングタイミングN-1での第1補正音声信号の周波数スペクトルをS(NE’n(N-1))とする。また、α’,β’を定数とする。
 そして、この設定において、ノイズスペクトルS(NE”n(N))を次式で表し、算出する。
 S(NE”n(N))=α’S(NE’n(N-1))+β’S(NE’n(N))
 このように、エコーキャンセル後の信号である第1補正音声信号NE’nの周波数スペクトルに基づいてノイズスペクトルS(NE”n)を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部302は、状態判定部10から「無音」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ1の動作中に繰り返し行われる。
 加算器70は、周波数領域で演算を行う加算器であり、第1補正音声信号NE’nの周波数スペクトルS(NE’n)から、残響エコースペクトルS(FE”n)およびノイズスペクトルS(NE”n)を減算することで、第2補正音声信号S(NOn)を生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。すなわち、ここで言う同期とは、同じサンプリングタイミングに形成された各スペクトルを用いて演算することであり、例えば、サンプリングタイミングNの場合、S(NOn(N))=S(NE’n(N))-S(FE”n(N))-S(NE”n(N))の演算処理を行うことを意味する。
 IFFT922は、逆高速フーリエ変換回路であり、周波数領域の関数である第2補正音声信号NOnを時間領域の関数であるに第2補正音声信号NOtへ変換して、外部へ出力する。
 以上のような構成および処理を行うことで、適応型フィルタのみで行われるエコーキャンセル処理では除去しきれない残響エコーや定常ノイズを精度良く効果的に除去することができる。
 次に、第2の実施形態に係る音響エコーキャンセラについて、図を参照して説明する。
 図3は、本実施形態の音響エコーキャンセラ1’の主要要素の概略構成を示すブロック図である。
 本実施形態の音響エコーキャンセラ1’は、図3に示すように、第1の実施形態の音響エコーキャンセラ1に、エコーサプレッサ40、帯域分割部50、加算器80を追加した構成からなる。なお、他の構成は、第1の実施形態と同じであるが、信号処理の内容が一部異なるので、異なる部分のみを以下で説明する。
 音響エコーキャンセラ1’の状態判定部10は、放音用音声信号FEt、後述する収音音声信号低域成分NLEt、低域成分第1補正音声信号NLE’tの信号レベルに基づいて、第1の実施形態の場合と同様に、「放音、収音ともに有り状態(Wトーク状態)」、「放音用音声信号の放音のみ有り状態」、「放音が無く収音信号が有り状態」、「放音、収音ともに無し状態(無音状態)」のいずれかであることを検出して、検出状態を適応型フィルタ20、外乱スペクトル推定部30およびエコーサプレッサ40へ与える。この際、本実施形態の収音音声信号低域成分NLEt(NLEn)が第1の実施形態の図1における収音音声信号NEt(NEn)に相当し、本実施形態の低域成分第1補正音声信号NLE’t(NLE’n)が図1における第1補正音声信号NE’t(NE’n)に相当する。
 音響エコーキャンセラ1’の適応型フィルタ20は、低域成分第1補正音声信号NLE’nの周波数スペクトルから上述の適応アルゴリズムを用いて擬似反響音信号FE’nを生成する。
 マイクMICと加算器60との間には帯域分割部50が設置されている。帯域分割部50は、収音音声信号NEtを、低域成分NLEtと高域成分NHEtとに分離する。ここで、低域と高域とを区分する閾値周波数は、例えば8kHzに設定されており、人の音声の主たる成分となる8kHz以下の低域成分が、加算器60へ与えられ、8kHzよりも高い高域成分が、エコーサプレッサ40へ与えられる。
 加算器60は、収音音声信号低域成分NLEtから擬似反射音信号FE’tを差分することで、低域成分第1補正音声信号NLE’tを生成して出力する。
 FFT912は、高速フーリエ変換回路であり、時間領域の関数である低域成分第1補正音声信号NLE’tを周波数領域の関数である低域成分第1補正音声信号NLE’nへ変換して出力する。低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)は、上述の擬似反響音信号推定部202および外乱スペクトル推定部30のノイズスペクトル推定部302へ入力される。
 外乱スペクトル推定部30のノイズスペクトル推定部302は、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)を順次取得するとともに、一時記憶する。ノイズスペクトル推定部302は、この取得および記憶した複数回の低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)に基づいて、ノイズスペクトルS(NLE”n)を推定する。
 加算器70は、周波数領域で演算を行う加算器であり、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)から、残響エコースペクトルS(FE”n)およびノイズスペクトルS(NLE”n)を減算することで、低域成分第2補正音声信号NLOnを生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。この加算器70による同期処理は、第1の実施形態で行った同期処理と同じである。
 IFFT922は、逆高速フーリエ変換回路であり、周波数領域の関数である低域成分第2補正音声信号NLOnを時間領域の関数である低域成分第2補正音声信号NLOtへ変換して、加算器80へ与える。
 エコーサプレッサ40は、減衰器401とディレイ回路402とからなる。減衰器401は、状態判定部10からの状態判定結果に基づいて、収音音声信号NEtの高域成分NHEtの減衰量を調整し、減衰処理済高域成分NHE’tを出力する。
 図4はエコーサプレッサ40の減衰器401の減衰量を示す図である。
 減衰器401は、「放音用音声信号の放音のみ有り」状態または「無音」状態の情報を取得すると、減衰量を無限大、すなわち、高域成分NHEtを遮断する(NHE’t=0)。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、エコーや定常ノイズをより確実に除去することができるからである。
 また、減衰器401は、「放音が無く収音音声信号が有り」状態の情報を取得すると、減衰量を「0」、すなわち、高域成分NHEtを減衰することなく通過させる(NHE’t=NHEt)。このように収音音声信号のみの場合、高域成分が話者音声に支配されるので、この高域成分を減衰させないことにより、話者音声をより正確に出力することができるからである。
 さらに、減衰器401は、「Wトーク」状態の情報を取得すると、減衰量を予め設定した所定値に設定する。これは、Wトーク時には、除去したい放音用音声信号FEtの成分と、話者音声成分とが混在しているために、或程度の減衰量に設定する。これにより、話者音声を若干犠牲にしながらも、放音用音声信号FEtによるエコー成分を減衰させることができる。
 減衰器401から出力された減衰処理済高域成分NHE’tは、ディレイ回路402へ入力される。ディレイ回路402は、処理演算が容易で高速な高域成分NHEt(NHE’t)と、上述のエコーキャンセルおよびエコー除去処理を行った低域成分第2補正音声信号NLOtとを時間同期して加算するためのディレイ処理を行う。このディレイ処理により、遅延減衰処理済高域成分NHE”tが生成され、加算器80へ与えられる。
 加算器80は、低域成分第2補正音声信号NLOtとこれに時間同期する遅延減衰処理済高域成分NHE”tとを加算して、出力音声信号NO’tを生成し、外部へ出力する。
 以上のように、低域成分のみをエコーキャンセルおよびエコー除去処理して、高域成分を減衰処理することで処理演算量を低減することができる。この際、高域成分に上述のエコーキャンセルおよびエコー除去処理を行わなくても、人の音声の主成分が低域成分側にあるとともに、高域成分は低域成分と比較して反射回り込み量が少ないので、音質の劣化を抑制することができる。さらに、上述のように放収音状態毎に減衰量を変化させることで、より確実にエコーを除去し、且つ話者音声の音質の劣化を抑制することができる。
 なお、上述の説明では、適応型フィルタを周波数領域演算で実現する例を示したが、時間領域による適応型フィルタを用いてもよい。
 さらに、上述の説明では、状態判定部10において信号レベルのみで状態判定を行う例を示したが、各信号の相関に基づいて状態判定を行ってもよい。
 また、上述の説明では、スピーカとマイクとを備える音響エコーキャンセラを例に示したが、スピーカ等の放音素子への出力端子と、マイク等の収音素子からの入力端子とを備え、放音素子や収音素子を別体にしたものであってもよい。
 また、上述の説明では、状態判定部10から各部へ状態判定結果を与える例を示したが、状態判定部10が各部の学習タイミングの条件を記憶しておき、状態判定部10から各部へ学習タイミングを与えてもよい。
 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
 本出願は、2008年2月29日出願の日本特許出願(特願2008-048960)に基づくものであり、その内容はここに参照として取り込まれる。
 適応型フィルタを用いたエコーキャンセラのみでは除去しきれないエコーやノイズも効果的に除去でき、さらに必要なリソース量を比較的抑えることができる音響エコーキャンセラを提供することができる。

Claims (4)

  1.  収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラであって、
     放音用音声信号に基づいて擬似反響音信号を生成する適応型フィルタと、
     前記収音音声信号から前記擬似反響音信号を差分して第1補正音声信号を出力する第1差分手段と、
     前記擬似反響音信号の周波数スペクトルおよび前記第1補正音声信号の周波数スペクトルに基づいて外乱スペクトルを推定する外乱スペクトル推定手段と、
     前記第1補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して第2補正音声信号を出力する第2差分手段と、
    を備えた音響エコーキャンセラ。
  2.  前記外乱スペクトル推定手段は、
     前記擬似反響音信号の周波数スペクトルに基づいて残響エコースペクトルを推定するエコースペクトル推定手段と、
     前記第1補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定するノイズスペクトル推定手段と、
    を備えた請求項1に記載の音響エコーキャンセラ。
  3.  前記放音用音声信号と前記第1補正音声信号とに基づいて放収音の状態判定を行い、前記適応型フィルタおよび前記外乱スペクトル推定手段に対して状態判定結果を与える状態判定手段を、備えた請求項1または請求項2に記載の音響エコーキャンセラ。
  4.  前記収音音声信号を低域成分と高域成分とに分離し、前記収音音声信号の低域成分を前記第1差分手段へ出力する帯域分割手段と、
     前記帯域分割手段から出力される前記収音音声信号の高域成分を、前記状態判定の結果に応じて減衰する減衰器と、
    を備えた請求項3に記載の音響エコーキャンセラ。
PCT/JP2009/053605 2008-02-29 2009-02-26 音響エコーキャンセラ WO2009107750A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-048960 2008-02-29
JP2008048960A JP2009207021A (ja) 2008-02-29 2008-02-29 音響エコーキャンセラ

Publications (1)

Publication Number Publication Date
WO2009107750A1 true WO2009107750A1 (ja) 2009-09-03

Family

ID=41016137

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/053605 WO2009107750A1 (ja) 2008-02-29 2009-02-26 音響エコーキャンセラ

Country Status (2)

Country Link
JP (1) JP2009207021A (ja)
WO (1) WO2009107750A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ706162A (en) * 2012-10-23 2018-07-27 Interactive Intelligence Inc System and method for acoustic echo cancellation
JP6349899B2 (ja) 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置
JP2019220917A (ja) * 2018-06-22 2019-12-26 日本電信電話株式会社 エコー消去装置、エコー消去方法、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS645233A (en) * 1987-06-29 1989-01-10 Oki Electric Ind Co Ltd Echo canceller
JPH0865211A (ja) * 1994-08-17 1996-03-08 Ricoh Co Ltd エコーキャンセラー
JP2002528995A (ja) * 1998-10-23 2002-09-03 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 周波数ドメインの非線形プロセッシングを使用したエコー・サプレッションを提供するための方法および装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP2003264483A (ja) * 2002-03-08 2003-09-19 Matsushita Electric Ind Co Ltd エコー抑圧装置、エコー抑圧方法、電話機、及びテレビ電話システム
JP2004056453A (ja) * 2002-07-19 2004-02-19 Nec Corp エコー抑圧方法及び装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS645233A (en) * 1987-06-29 1989-01-10 Oki Electric Ind Co Ltd Echo canceller
JPH0865211A (ja) * 1994-08-17 1996-03-08 Ricoh Co Ltd エコーキャンセラー
JP2002528995A (ja) * 1998-10-23 2002-09-03 テレフォンアクチーボラゲット エル エム エリクソン(パブル) 周波数ドメインの非線形プロセッシングを使用したエコー・サプレッションを提供するための方法および装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP2003264483A (ja) * 2002-03-08 2003-09-19 Matsushita Electric Ind Co Ltd エコー抑圧装置、エコー抑圧方法、電話機、及びテレビ電話システム
JP2004056453A (ja) * 2002-07-19 2004-02-19 Nec Corp エコー抑圧方法及び装置

Also Published As

Publication number Publication date
JP2009207021A (ja) 2009-09-10

Similar Documents

Publication Publication Date Title
WO2009148049A1 (ja) 音響エコーキャンセラ及び音響エコーキャンセル方法
US9461702B2 (en) Systems and methods of echo and noise cancellation in voice communication
JP3727258B2 (ja) エコー抑制処理システム
US9607603B1 (en) Adaptive block matrix using pre-whitening for adaptive beam forming
EP2675073A1 (en) Adaptive equalizer, acoustic echo canceller device, and active noise control device
WO2016056167A1 (ja) エコーキャンセル装置、エコーキャンセルプログラム及びエコーキャンセル方法
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
KR101254876B1 (ko) 노이즈 게이트, 수음 장치 및 노이즈 제거 방법
US10129410B2 (en) Echo canceller device and echo cancel method
JP2009105620A (ja) エコーキャンセラ
JP5292931B2 (ja) 音響エコーキャンセラおよびエコーキャンセル装置
EP2490218B1 (en) Method for interference suppression
WO2009107750A1 (ja) 音響エコーキャンセラ
US11386911B1 (en) Dereverberation and noise reduction
JP4690243B2 (ja) デジタルフィルタ、周期性騒音低減装置および騒音低減装置
JP2010011272A (ja) 音響エコーキャンセラ
US20200195783A1 (en) Acoustic echo cancellation device, acoustic echo cancellation method and non-transitory computer readable recording medium recording acoustic echo cancellation program
KR102063824B1 (ko) 보청기를 위한 음향 피드백 제거 장치 및 방법
JP5640393B2 (ja) エコー除去装置、方法及びプログラム
KR101283105B1 (ko) 능동잡음 제어장치 및 그 방법
JP6369192B2 (ja) エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末
JP2003218745A (ja) ノイズキャンセラ及び音声検出装置
JP2006014359A (ja) エコー抑制処理システム
JP5058052B2 (ja) エコー消去装置
KR100842681B1 (ko) 오디오 증폭 장치 및 오디오 증폭 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09716181

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09716181

Country of ref document: EP

Kind code of ref document: A1