WO2009148049A1 - 音響エコーキャンセラ及び音響エコーキャンセル方法 - Google Patents

音響エコーキャンセラ及び音響エコーキャンセル方法 Download PDF

Info

Publication number
WO2009148049A1
WO2009148049A1 PCT/JP2009/060055 JP2009060055W WO2009148049A1 WO 2009148049 A1 WO2009148049 A1 WO 2009148049A1 JP 2009060055 W JP2009060055 W JP 2009060055W WO 2009148049 A1 WO2009148049 A1 WO 2009148049A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
spectrum
echo
sound signal
sound
Prior art date
Application number
PCT/JP2009/060055
Other languages
English (en)
French (fr)
Inventor
利晃 石橋
良 田中
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to EP09758316A priority Critical patent/EP2293595A1/en
Priority to US12/995,650 priority patent/US20110110526A1/en
Priority to CN2009801204728A priority patent/CN102047689A/zh
Publication of WO2009148049A1 publication Critical patent/WO2009148049A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present invention relates to an acoustic echo canceller and an acoustic echo cancellation method for removing a reverberant echo based on an installation environment or the like and an acoustic echo including stationary noise from a collected voice signal.
  • Patent Document 1 discloses an echo cancellation apparatus including an echo canceller having an adaptive filter and an echo suppression unit that suppresses echoes by calculation in the frequency domain.
  • the echo cancellation apparatus of Patent Document 1 performs echo suppression processing in the frequency domain based on the frequency spectrum of the pseudo echo signal at each timing estimated by the echo canceller using the adaptive filter and the echo canceller.
  • the basic characteristics of the reverberant echo vary depending on the installation status of the conference apparatus equipped with the echo canceling apparatus. For this reason, unless an appropriate algorithm (an arithmetic expression or the like) according to the situation is used, the echo cannot be effectively removed and an extra echo is generated.
  • an object of the present invention is to effectively remove echoes and noises that cannot be removed only by an echo canceller using an adaptive filter, and can further appropriately perform reverberation echo removal according to the installation environment. It is to realize a canceller and an acoustic echo cancellation method.
  • An acoustic echo canceller includes an adaptive filter, first difference means, disturbance spectrum estimation means, and second difference means.
  • the adaptive filter generates a pseudo echo sound signal based on the sound output sound signal.
  • the first difference means generates a first corrected sound signal by subtracting the pseudo reverberation signal from the collected sound signal.
  • the disturbance spectrum estimation means estimates the disturbance spectrum included in the first corrected sound signal by using the spectrum of the pseudo echo sound signal and the acoustic environment parameter based on the installation environment.
  • the second difference means outputs the disturbance spectrum as a difference with respect to the frequency spectrum of the first corrected sound signal.
  • a pseudo reverberation signal is generated by the adaptive filter, and the frequency spectrum of disturbance echo that cannot be handled by the adaptive filter is estimated.
  • the acoustic echo canceller of the present invention first performs echo cancellation of the first stage of the linear component by subtracting the pseudo echo sound signal from the collected voice signal by the sound collecting means, and further, A further second-stage echo removal is performed by subtracting the frequency spectrum of the disturbance echo from the frequency spectrum of the signal after the echo cancellation is performed.
  • the frequency spectrum of the disturbance echo is estimated using the spectrum of the pseudo echo sound signal and the acoustic environment parameters based on the installation environment. In this way, by combining the pseudo echo sound signal and the acoustic environment parameter, a reverberation echo component that changes according to the acoustic environment and cannot be removed by the pseudo echo signal is appropriately estimated.
  • the acoustic echo canceller of the present invention further includes acoustic environment parameter setting means.
  • the acoustic environment parameter setting means sets the acoustic environment parameter based on the filter coefficient constituting the adaptive filter.
  • the coefficient in the time domain of the adaptive filter corresponds to the impulse response between the speaker and the microphone, the length and level of the reverberant sound can be obtained by detecting the envelope characteristic, and the acoustic environment parameter is can get. That is, the acoustic environment parameter corresponding to the installation position is automatically set without manual input by the operator.
  • the acoustic echo canceller of the present invention further includes a state determining means.
  • the state determining means determines the state of sound emission and collection based on the sound emission sound signal and the first corrected sound signal, and provides the state determination result to the acoustic environment parameter setting means. Then, the acoustic environment parameter setting unit performs the acoustic environment parameter setting process when acquiring the silence state determination as the state determination result.
  • the state determination means identifies the silent state, the sound emission only state, the sound collection only state, and the sound emission state (W talk state). Then, in the silent state, the acoustic environment parameter is set by the impulse response described above. Thereby, the reverberation echo by an impulse response is acquired correctly.
  • the acoustic echo canceller of the present invention includes band dividing means and an attenuator.
  • the band dividing means separates the collected sound signal into a low frequency component and a high frequency component, and outputs the collected sound signal low frequency component to the first difference means.
  • the attenuator attenuates the collected sound signal high-frequency component output from the band dividing unit according to the result of the state determination.
  • the low-frequency component and high-frequency component of the collected sound signal are separated, and the above processing is performed only with the low-frequency component, thereby reducing the computation load of echo cancellation processing and echo cancellation processing and increasing the speed.
  • the level of the high frequency component of the audio signal uttered by a human is smaller than the level of the low frequency component.
  • the level of the high frequency component that is originally reflected and collected by the microphone is smaller than the level of the low frequency component. Therefore, even if the high-frequency component is merely attenuated by the attenuator, the influence on the sound quality is small. That is, effective echo cancellation and echo removal as described above are performed more efficiently while maintaining a predetermined sound quality.
  • the disturbance spectrum estimation means of the acoustic echo canceller of the present invention includes an echo spectrum estimation means and a noise spectrum estimation means.
  • the echo spectrum estimation means estimates the reverberation echo spectrum based on the frequency spectrum of the pseudo-reverberation sound signal and the acoustic environment parameter.
  • the noise spectrum estimation means estimates a stationary noise spectrum based on the frequency spectrum of the first corrected speech signal.
  • the disturbance spectrum is estimated by separating it into an echo spectrum that depends on reverberation sound (reverberation sound) and a noise spectrum that depends on stationary noise such as background noise other than the reverberation sound.
  • An acoustic echo canceling method for removing sounds other than the target voice included in the collected voice signal Generating a pseudo echo signal based on the sound signal for sound emission; Subtracting the simulated reverberation signal from the collected sound signal to generate a first corrected sound signal; Estimating a disturbance spectrum included in the first corrected sound signal using a spectrum of the pseudo-resonance signal and an acoustic environment parameter based on an installation environment; Differentially outputting the disturbance spectrum with respect to the frequency spectrum of the first corrected audio signal; and including.
  • the present invention it is possible to accurately estimate a disturbance echo including a reverberation echo that cannot be removed only by an echo canceller using an adaptive filter, and to remove the disturbance echo with high accuracy. Accordingly, the first correction by the adaptive filter and the second correction by disturbance echo removal can be performed, and the voice of the speaker on the own device side can be output more clearly.
  • FIG. 4 is a diagram illustrating the attenuation amount of an echo suppressor 40. It is a block diagram which shows the main structures of the acoustic echo canceller which consists of another structure.
  • a time-domain signal indicates a terminal symbol by t
  • a frequency-domain signal indicates a terminal symbol by n.
  • FIG. 1 is a block diagram showing a schematic configuration of main elements of the acoustic echo canceller of the present embodiment.
  • the acoustic echo canceller 1 includes a speaker SP, a microphone MIC, a state determination unit 10, a control unit 11, an operation unit 12, a display unit 13, an acoustic environment detection unit 14, an adaptive filter 20, and disturbance spectrum estimation.
  • Unit 30 an echo suppressor 40, a band dividing unit 50, an adder 60 corresponding to the first difference means of the present invention, an adder 70 corresponding to the second difference means of the present invention, and an adder 80.
  • the state determination unit 10 determines that “the sound emission and sound collection are both present ( "W Talk state"), "Only sound emission sound emission is present”, “No sound emission and sound collection sound signal is present”, “No sound emission and sound collection (silenced state)” And the detection state is given to the adaptive filter 20, the disturbance spectrum estimation unit 30, the echo suppressor 40, and the acoustic environment detection unit 14.
  • FIG. 2 is a diagram showing the determination concept of the state determination and learning process of the state determination unit 10 shown in FIG.
  • the state determination unit 10 determines that “the sound emission sound signal is released. It is determined that there is only sound.
  • the state determination unit 10 determines that the collected sound signal low-frequency component NLEt and the low-frequency component first corrected sound signal NLE't are at a level equal to or higher than the threshold value and the sound emission sound signal FEt is lower than the threshold value. , “There is no sound emission and there is a collected sound signal” is determined. Further, when the state determination unit 10 detects that the sound emission sound signal FEt, the collected sound signal low-frequency component NLEt, and the low-frequency component first corrected sound signal NLE't are all less than the threshold value, “silence” ] State.
  • the control unit 11 performs overall control including power control, operation input control, display control, and the like of the acoustic echo canceller 1.
  • the control unit 11 receives an acoustic environment parameter setting instruction from the operation unit 12 or the acoustic environment detection unit 14, the control unit 11 obtains the update coefficient ⁇ corresponding to the designated acoustic environment parameter by the echo spectrum estimation unit 301 of the disturbance spectrum estimation unit 30.
  • the set value of the update coefficient ⁇ shown here is an example, and may be set as appropriate according to the device specifications and environment, and the update coefficient ⁇ may be set in multiple stages.
  • the operation unit 12 is a user interface with a user including a speaker, and has various operators (not shown). When the operation unit 12 receives an operation input for acoustic environment setting from the user, the operation unit 12 outputs an acoustic environment parameter setting instruction corresponding to the acoustic environment input to the control unit 11.
  • the display unit 13 includes a display element such as a liquid crystal display, and displays an operation menu or the like according to display control from the control unit 11.
  • the user manually sets the acoustic environment parameters by using the operation unit 12 and the display unit 13. That is, when the user receives an acoustic environment parameter setting change instruction from the operation unit 12 by the user, the acoustic environment parameter setting screen, for example, “room size” shown in FIG. ”And“ Small ”are displayed on the display unit 13. The user inputs the size of the room in which the apparatus having the acoustic echo canceller 1 is installed according to the display screen.
  • the operation unit 12 gives a sound environment parameter setting instruction (for example, “minimum echo”, “during reverberation”, “high reverberation” in FIG. 3) to the control unit 11 based on the operation input result.
  • the control unit 11 gives the update coefficient ⁇ corresponding to the acoustic environment parameter to the echo spectrum estimation unit 301 as described above.
  • FIG. 4 is a diagram showing envelope characteristics of an impulse response signal.
  • (A) is an envelope characteristic (CHen1) when the echo is minimal
  • (B) is an envelope characteristic (CHen2) when (B) is being echoed. Shows the envelope characteristic (CHen3) when is large.
  • the acoustic environment detection unit 14 acquires the reverberation echo time by detecting the amplitude and attenuation characteristics of the envelope waveform CHen, and gives an acoustic environment parameter setting instruction to the control unit 11 based on the reverberation echo time. For example, as shown in FIG. 3, if the echo time is “substantially none” as shown in FIG. 3, the acoustic environment parameter “resonance minimum” is given to the control unit 11. 4B, if the echo time is “short” as shown in FIG. 3, the acoustic environment parameter “during reverberation” is given to the control unit 11. If the echo time is “long” as shown in FIG. 3 with the characteristics shown in FIG.
  • the acoustic environment parameter “large reverberation” is given to the control unit 11.
  • the control unit 11 By performing such processing, it is possible to automatically set the acoustic environment parameters without manually inputting them. Furthermore, by performing this process every time a silent state is detected, for example, the acoustic environment parameters are dynamically changed in consideration of changes in the acoustic environment due to changes in the number of users or changes in the position of the users. Can be made.
  • the speaker SP emits sound based on the sound output sound signal FEt input from the outside.
  • This sound emission sound signal (far end signal) FEt is also input to FFT 911.
  • FFT 911 is a fast Fourier transform circuit, converts the sound output sound signal FEt that is a function in the time domain into a sound output sound signal FEn that is a function in the frequency domain, and supplies the sound to the adaptive filter 20.
  • the adaptive filter 20 includes a pseudo echo signal generation unit 201 and a pseudo echo signal estimation unit 202.
  • the pseudo echo sound signal generation unit 201 is, for example, an FIR filter having a predetermined number of taps, and is set by a coefficient given from the pseudo echo sound signal estimation unit 202.
  • the pseudo reverberation signal generation unit 201 generates a pseudo reverberation signal FE′n based on the sound output sound signal FEn.
  • the generated pseudo reverberation signal FE′n is input to IFFT 921 and the echo spectrum estimation unit 301 of the disturbance spectrum estimation unit 30.
  • the pseudo echo signal estimation unit 202 estimates the pseudo echo signal FE′n from a frequency spectrum S (NLE′n) of a low-frequency component first correction signal NLE′n, which will be described later, using an adaptive algorithm such as LMS. To do.
  • the pseudo reverberation signal estimation unit 202 estimates coefficients (coefficients of each tap, that is, a filter coefficient) for causing the pseudo reverberation signal signal generation unit 201 to generate the pseudo reverberation signal FE′n, and simulates these coefficients. This is given to the reverberation signal generation unit 201.
  • the pseudo reverberation signal estimation unit 202 performs learning based on the above-described estimation only when information on the state “only sound emission of the sound emission sound signal is present” is acquired from the state determination unit 10. Note that such estimation, generation of the pseudo echo sound signal FE′n, and learning are repeatedly performed during the operation of the acoustic echo canceller 1.
  • IFFT 921 is an inverse fast Fourier transform circuit, which converts a pseudo reverberation signal FE′n, which is a function in the frequency domain, into a pseudo reverberation signal FE′t, which is a function in the time domain, and outputs it to the adder 60.
  • the microphone MIC collects sound from the surroundings where the acoustic echo canceller 1 is installed, and generates a collected sound signal (near-end signal) NEt. If there is a sound emitted from the speaker SP, the collected sound signal NEt includes a component of a reverberant sound obtained by reverberating the sound emitted based on the installation environment. In addition, if a speaker around the microphone MIC speaks, the collected voice signal NEt includes a speaker voice component. Furthermore, if there is stationary noise peculiar to the environment depending on the installation environment such as a conference room, the collected sound signal NEt also includes this stationary noise component.
  • the band dividing unit 50 is installed between the microphone MIC and the adder 60.
  • the band dividing unit 50 separates the collected sound signal NEt into a low frequency component NLEt and a high frequency component NHEt.
  • the threshold frequency for distinguishing the low range and the high range is set to 8 kHz, for example, and a low frequency component NLEt of 8 kHz or less, which is a main component of human speech, is given to the adder 60, and from 8 kHz
  • the higher high frequency component NHEt is given to the echo suppressor 40. Note that reverberant echo and stationary noise are mostly included in the low-frequency component NLEt because the main component is a low frequency band.
  • the adder 60 generates and outputs a low frequency component first corrected audio signal NLE't by subtracting the pseudo reverberation signal FE't from the collected audio signal low frequency component NLEt. Thereby, as a first-stage correction, an adaptive echo canceling process using the pseudo echo sound signal is executed.
  • the FFT 912 is a fast Fourier transform circuit, which converts the low-frequency component first corrected speech signal NLE't that is a function in the time domain into a low-frequency component first corrected speech signal NLE'n that is a function in the frequency domain and outputs it. To do.
  • the frequency spectrum S (NLE'n) of the low-frequency component first corrected speech signal NLE'n is input to the above-described pseudo reverberation signal estimation unit 202 and the noise spectrum estimation unit 302 of the disturbance spectrum estimation unit 30.
  • the disturbance spectrum estimation unit 30 includes an echo spectrum estimation unit 301 and a noise spectrum estimation unit 302.
  • the echo spectrum estimation unit 301 is a calculation unit that estimates an echo component that cannot be removed only by the pseudo-resonance signal FE′n
  • the noise spectrum estimation unit 302 is a calculation unit that estimates stationary noise. .
  • the echo spectrum estimation unit 301 sequentially acquires and temporarily stores the frequency spectrum S (FE'n) of the pseudo echo sound signal FE'n at each sampling timing.
  • the echo spectrum estimation unit 301 is supplied from the control unit 11 with the frequency spectrum S (FE′n) of the acquired and stored pseudo echo sound signal FE′n, the reverberation echo spectrum S (FE ′′ n) estimated last time.
  • the current reverberation echo spectrum S (FE ′′ n) is estimated based on the updated coefficient ⁇ , and the estimated reverberation echo spectrum S (FE ′′ n) is stored.
  • the reverberation echo spectrum at a certain sampling timing N is S (FE ′′ n (N))
  • the frequency spectrum of the pseudo reverberation signal at the sampling timing N is S (FE′n (N))
  • the reverberation echo spectrum at the sampling timing N ⁇ 1 is S (FE ′′ n (N ⁇ 1)).
  • is an update coefficient.
  • the estimation algorithm (the above-described arithmetic expression (1)) can be more optimally adjusted according to the installation environment of the apparatus provided with the acoustic echo canceller 1. Specifically, by appropriately setting the update coefficient ⁇ , the frequency spectrum S (FE′n (N)) of the pseudo echo sound signal at the current sampling timing N and the reverberation at the previous sampling timing N ⁇ 1. The level ratio at the time of addition with the frequency spectrum S (FE ′′ n (N ⁇ 1)) of the echo is adjusted.
  • the update coefficient ⁇ is larger as the echo is smaller, and is smaller as the echo is larger.
  • the noise spectrum estimation unit 302 sequentially acquires and temporarily stores the frequency spectrum S (NLE'n) of the low-frequency component first corrected audio signal NLE'n.
  • the noise spectrum estimation unit 302 estimates the noise spectrum S (NLE ′′ n) based on the frequency spectrum S (NLE′n) of the acquired and stored low frequency component first corrected speech signal NLE′n. .
  • the noise spectrum at a certain sampling timing N is S (NLE "n (N)), and the frequency spectrum of the low frequency component first corrected speech signal at the sampling timing N is S (NLE'n (N)).
  • S (NLE'n (N-1)) be the frequency spectrum of the low-frequency component first corrected speech signal at the immediately preceding sampling timing N-1, and let ⁇ and ⁇ be constants.
  • noise spectrum S (NLE “n (N)) is expressed by the following equation and calculated.
  • the noise spectrum estimation unit 302 performs learning based on the above-described estimation only when information on the “silent” state is acquired from the state determination unit 10. Note that such estimation and learning are also repeatedly performed during the operation of the acoustic echo canceller 1.
  • the IFFT 922 is an inverse fast Fourier transform circuit, converts the low-frequency component second corrected speech signal NLOn, which is a function in the frequency domain, into a low-frequency component second corrected speech signal NLOT, which is a function in the time domain, and adds the adder 80 Give to.
  • the echo suppressor 40 includes an attenuator 401 and a delay circuit 402.
  • the attenuator 401 adjusts the attenuation amount of the high frequency component NHEt of the collected sound signal NEt based on the state determination result from the state determination unit 10, and outputs the attenuated high frequency component NHE't.
  • FIG. 5 is a diagram showing the attenuation amount of the attenuator 401 of the echo suppressor 40.
  • the attenuator 401 when the attenuator 401 obtains the “W talk” state information, the attenuator 401 sets the attenuation amount to a predetermined value set in advance. This is set to a certain amount of attenuation because the component of the sound emission sound signal FEt to be removed and the speaker sound component are mixed during W talk. As a result, it is possible to attenuate the echo component due to the sound output sound signal FEt, while sacrificing the speaker sound slightly.
  • the attenuated high frequency component NHE′t output from the attenuator 401 is input to the delay circuit 402.
  • the delay circuit 402 adds the high-frequency component NHEt (NHE't) that is easy to process and high-speed and the low-frequency component second corrected audio signal NLOt subjected to the above-described echo cancellation and echo removal processing in time synchronization. Delay processing is performed. By this delay processing, a delayed attenuation processed high frequency component NHE ′′ t is generated and applied to the adder 80.
  • the adder 80 adds the low-frequency component second corrected audio signal NLOt and the delay attenuated high-frequency component NHE "t that is time-synchronized with the low-frequency component second corrected audio signal NLOt, generates an output audio signal NO't, and outputs it to the outside .
  • the state determination unit 10 performs state determination based on only the signal level. However, state determination may be performed based on the correlation of each signal.
  • an acoustic echo canceller including a speaker and a microphone is shown as an example.
  • an output terminal to a sound emitting element such as a speaker and an input terminal from a sound collecting element such as a microphone are provided.
  • the sound element and the sound collection element may be separated.
  • the state determination unit 10 stores the learning timing condition of each unit, and the state determination unit 10 learns from each unit. Timing may be given.
  • the disturbance spectrum estimation unit includes the echo spectrum estimation unit and the noise spectrum estimation unit.
  • the reverberant echo is accurately removed. be able to.
  • 1-acoustic echo canceller 10-state determination unit, 11-control unit, 12-operation unit, 13-display unit, 14-acoustic environment detection unit, 20-adaptive filter, 201-pseudo echo signal generation unit, 202 -Pseudo echo signal estimation unit, 30-disturbance spectrum estimation unit, 301-echo spectrum estimation unit, 302-noise spectrum estimation unit, 40-echo suppressor, 401-attenuator, 402-delay circuit, 50-band division unit, 60, 70, 80-adder, 900-frequency domain computing unit, 911, 912-FFT computing unit, 921, 922, 141-IFFT computing unit, SP-speaker, MIC-microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

 適応型フィルタは、放音用音声信号に基づいて擬似反響音信号を生成する。加算器は収音音声信号低域成分から擬似反響音信号を差分することで低域成分第1補正音声信号を生成する。エコースペクトル推定部は、今回の擬似反響音信号のスペクトルと前回の残響エコーの周波数スペクトルと音響環境に基づく更新係数とから、今回の残響エコーの周波数スペクトルを推定算出する。加算器は、低域成分第1補正音声信号のスペクトルから残響エコーの周波数スペクトルおよび定常ノイズの周波数スペクトルを差分する。

Description

音響エコーキャンセラ及び音響エコーキャンセル方法
 この発明は、設置環境等に基づく残響エコーや定常ノイズを含む音響エコーを、収音音声信号から除去する音響エコーキャンセラ及び音響エコーキャンセル方法に関するものである。
 従来、スピーカとマイクとが1つの筐体に設置される音声会議装置などでは、スピーカとマイクとが近接する等の理由により音響エコーが発生し易い。このため、このような音響エコーを除去するエコーキャンセル装置が各種考案されている。例えば、特許文献1では、適応型フィルタを有するエコーキャンセラと、周波数領域による演算でエコーを抑圧するエコー抑圧部とを備えたエコーキャンセル装置が開示されている。
日本国特許第3420705号公報
 しかしながら、特許文献1のエコーキャンセル装置では、適応型フィルタを用いたエコーキャンセラと、該エコーキャンセラが推定するそれぞれのタイミングでの擬似エコー信号の周波数スペクトルに基づいた周波数領域によるエコー抑圧処理を行うため、エコーキャンセラで元々対応しきれていない残響エコーや定常的なノイズに関しては効果的に除去することが難しかった。さらに、残響エコーの基本特性は、エコーキャンセル装置が搭載された会議装置の設置状況等により変化する。このため、その場に応じた適正なアルゴリズム(演算式等)を用いなければ、効果的にエコーを除去できない上に、さらに余分なエコーを発生してしまうこととなる。
 したがって、本発明の目的は、適応型フィルタを用いたエコーキャンセラのみでは除去しきれないエコーやノイズも効果的に除去でき、さらに設置環境に応じて適正に残響エコー除去を行うことができる音響エコーキャンセラおよび音響エコーキャンセル方法を実現することにある。
 この発明は、収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラ及び音響エコーキャンセル方法に関するものである。本発明の様態に係る音響エコーキャンセラは、適応型フィルタ、第1差分手段、外乱スペクトル推定手段、および第2差分手段を備える。適応型フィルタは、放音用音声信号に基づいて擬似反響音信号を生成する。第1差分手段は、収音音声信号から擬似反響音信号を差分して第1補正音声信号を生成する。外乱スペクトル推定手段は、第1補正音声信号に含まれる外乱スペクトルを、擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する。第2差分手段は、第1補正音声信号の周波数スペクトルに対して外乱スペクトルを差分して出力する。
 この構成では、適応型フィルタにより擬似反響音信号が生成されるとともに、適応型フィルタでは対応しきれない外乱エコーの周波数スペクトルが推定される。そして、この発明の音響エコーキャンセラは、収音手段による収音音声信号に対して、まず擬似反響音信号を差分することで線形成分の第一段のエコーキャンセルを行い、さらに、第一段のエコーキャンセルが行われた後の信号の周波数スペクトルに対して、外乱エコーの周波数スペクトルを差分することで更なる第二段のエコー除去を行う。この際、外乱エコーの周波数スペクトルは、擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定される。このように擬似反響音信号と音響環境パラメータとを組み合わせることで、音響環境に応じて変化し、且つ擬似反響音信号では除去しきれない残響エコー成分が適切に推定される。
 また、この発明の音響エコーキャンセラは、さらに、音響環境パラメータ設定手段を備える。この音響環境パラメータ設定手段は、適応型フィルタを構成するフィルタ係数に基づいて音響環境パラメータを設定する。
 この構成では、適応型フィルタの時間領域における係数がスピーカとマイクとの間のインパルス応答に相当するので、そのエンベロープ特性を検出することで、反響音の長さやレベルが得られ、音響環境パラメータが得られる。すなわち、操作者が手入力することなく、設置位置に応じた音響環境パラメータが自動で設定される。
 また、この発明の音響エコーキャンセラは、さらに状態判定手段を備える。状態判定手段は、放音用音声信号と第1補正音声信号とに基づいて放収音の状態判定を行い、状態判定結果を音響環境パラメータ設定手段へ与える。そして、音響環境パラメータ設定手段は、状態判定結果として無音状態の判定を取得すると、音響環境パラメータの設定処理を行う。
 この構成では、状態判定手段で、無音状態、放音のみ状態、収音のみ状態、放収音あり状態(Wトーク状態)の識別が行われる。そして、無音状態の場合に上述のインパルス応答による音響環境パラメータの設定が行われる。これにより、インパルス応答による残響エコーが正確に取得される。
 また、この発明の音響エコーキャンセラは、帯域分割手段と減衰器とを備える。帯域分割手段は、収音音声信号を低域成分と高域成分とに分離し、収音音声信号低域成分を第1差分手段へ出力する。減衰器は、帯域分割手段から出力される収音音声信号高域成分を、状態判定の結果に応じて減衰する。
 この構成では、収音音声信号の低域成分と高域成分とを分離し、低域成分のみで上述の処理を行うことで、エコーキャンセル処理およびエコー除去処理の演算負荷が低減され、高速化も可能となる。この際、人間の発声する音声信号の高域成分のレベルは、低域成分のレベルに比べて小さい。さらに、元々反響してマイクに回り込んで収音される高域成分のレベルは、低域成分のレベルに対して小さい。したがって、高域成分を単なる減衰器による減衰処理のみとしても、音質への影響が少ない。すなわち、上述のような効果的なエコーキャンセルおよびエコー除去が、所定の音質を保ちながら、さらに効率的に行われる。
 また、この発明の音響エコーキャンセラの外乱スペクトル推定手段は、エコースペクトル推定手段とノイズスペクトル推定手段とを備える。エコースペクトル推定手段は、擬似反響音信号の周波数スペクトルと音響環境パラメータとに基づいて残響エコースペクトルを推定する。ノイズスペクトル推定手段は、第1補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定する。
 この構成では、外乱スペクトルを、反響音(残響音)に依存するエコースペクトルと、反響音以外の暗騒音等の定常的なノイズに依存するノイズスペクトルとに分離して推定する。これにより、外乱スペクトルが要因に応じてより適切に推定されるので、より効果的にエコー除去が行われる。
 本発明の様態に係る収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセル方法は、
 放音用音声信号に基づいて擬似反響音信号を生成する工程と、
 前記収音音声信号から前記擬似反響音信号を差分して第1補正音声信号を生成する工程と、
 前記第1補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する工程と、
 前記第1補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する工程と、
 を含む。
 この発明によれば、適応型フィルタを用いたエコーキャンセラのみでは除去しきれない残響エコーを含む外乱エコーを正確に推定でき、当該外乱エコーを高精度に除去することができる。これにより、適応型フィルタによる第1の補正と、外乱エコー除去による第2の補正とを行い、自装置側の発話者の音声を、よりクリアに出力することができる。
第1の実施形態の音響エコーキャンセラの主要構成を示すブロック図である。 図1に示した音響エコーキャンセラの状態判定および学習処理の判断概念を示した図である。 更新係数βの設定概念を示す図である。 スピーカからマイクまでのインパルス応答信号のエンベロープ特性を示した図である。 エコーサプレッサ40の減衰量を示す図である。 他の構成からなる音響エコーキャンセラの主要構成を示すブロック図である。
 本発明の第1の実施形態に係る音響エコーキャンセラについて図を参照して説明する。なお、以下の説明では、時間領域の信号は末端の記号をtで示し、周波数領域の信号は末端の記号をnで示す。
 図1は本実施形態の音響エコーキャンセラの主要要素の概略構成を示すブロック図である。
 図1に示すように、音響エコーキャンセラ1は、スピーカSP、マイクMIC、状態判定部10、制御部11、操作部12、表示部13、音響環境検出部14、適応型フィルタ20、外乱スペクトル推定部30、エコーサプレッサ40、帯域分割部50、本発明の第1差分手段に相当する加算器60、本発明の第2差分手段に相当する加算器70、および加算器80を備える。
 状態判定部10は、放音用音声信号FEt、収音音声信号低域成分NLEt、低域成分第1補正音声信号NLE’tの信号レベルに基づいて、「放音、収音ともに有り状態(Wトーク状態)」、「放音用音声信号の放音のみ有り状態」、「放音が無く収音音声信号が有り状態」、「放音、収音ともに無し状態(無音状態)」のいずれかであることを検出して、検出状態を適応型フィルタ20、外乱スペクトル推定部30、エコーサプレッサ40および音響環境検出部14へ与える。図2は図1に示した状態判定部10の状態判定および学習処理の判断概念を示した図である。
 具体的には、状態判定部10は、放音用音声信号FEt、収音音声信号低域成分NLEt、低域成分第1補正音声信号NLE’tの全てが予め設定した閾値以上のレベルであることを検出すると、放音、話者発話の双方が行われていると判断し、「Wトーク」状態と判定する。また、状態判定部10は、放音用音声信号FEtが前記閾値以上のレベルであり、低域成分第1補正音声信号NLE’tが前記閾値未満であれば、「放音用音声信号の放音のみが有る」状態と判定する。また、状態判定部10は、収音音声信号低域成分NLEtおよび低域成分第1補正音声信号NLE’tが前記閾値以上のレベルであり、放音用音声信号FEtが前記閾値未満であれば、「放音が無く収音音声信号が有る」状態と判定する。さらに、状態判定部10は、放音用音声信号FEt、収音音声信号低域成分NLEt、低域成分第1補正音声信号NLE’tの全てが前記閾値未満であることを検出すると、「無音」状態と判定する。
 制御部11は、当該音響エコーキャンセラ1の電源制御、操作入力制御、表示制御等を含む全体制御を行う。また、制御部11は、操作部12または音響環境検出部14から音響環境パラメータ設定指示を受け付けると、指定された音響環境パラメータに対応した更新係数βを外乱スペクトル推定部30のエコースペクトル推定部301へ与える。図3は、更新係数βの設定パラメータの概念の一例を示す図である。例えば、図3に示すように、制御部11は、音響環境パラメータとして「反響極小」の情報を得るとエコースペクトル推定部301へβ=1を与える。また、制御部11は、音響環境パラメータとして「反響中」の情報を得るとエコースペクトル推定部301へβ=0.6を与える。さらに、制御部11は、音響環境パラメータとして「反響大」の情報を得るとエコースペクトル推定部301へβ=0.2を与える。なお、ここに示す更新係数βの設定値は一例であり、装置仕様や環境により適宜設定するとよく、さらに多段で更新係数βを設定してもよい。
 操作部12は、発話者を含む使用者とのユーザインタフェースであり、各種の操作子(図示せず)を有する。操作部12は、使用者から音響環境設定の操作入力を受け付けると、制御部11へ操作入力された音響環境に対応する音響環境パラメータ設定指示を出力する。
 表示部13は、液晶ディスプレイ等の表示素子を備え、制御部11からの表示制御に従い操作メニュー等を表示する。
 使用者は、これら操作部12と表示部13とにより、音響環境パラメータを手入力で設定する。すなわち、使用者により操作部12から音響環境パラメータの設定変更指示を受けると、音響環境パラメータ設定用の画面、例えば、図3に示す「ルームサイズ」と、大きさを示す「大」、「中」、「小」が表示部13に表示される。使用者は、この表示画面に従って、当該音響エコーキャンセラ1を有する装置の設置される部屋の大きさ等を入力する。操作部12は、この操作入力結果に基づく音響環境パラメータ設定指示(例えば図3の「反響極小」、「反響中」、「反響大」)を制御部11へ与える。制御部11は、上述のように音響環境パラメータに応じた更新係数βをエコースペクトル推定部301へ与える。
 音響環境検出部14は、状態判定部10から無音状態判定結果を取得すると、擬似反響音信号推定部202の各タップ係数に応じたインパルス応答をIFFT141で逆フーリエ変換してなるインパルス応答信号(図4のSRim)を取得し、エンベロープ特性(図4のCHen)を検出する。図4は、インパルス応答信号のエンベロープ特性を示した図であり、(A)が反響極小の場合のエンベロープ特性(CHen1)、(B)が反響中の場合のエンベロープ特性(CHen2)、(C)が反響大の場合のエンベロープ特性(CHen3)を示す。
 音響環境検出部14は、エンベロープ波形CHenの振幅および減衰特性を検出することで残響エコー時間を取得し、当該残響エコー時間に基づいて音響環境パラメータ設定指示を制御部11へ与える。例えば、図4(A)の特性からなり図3に示すようにエコー時間が「略無し」であれば音響環境パラメータ「反響極小」を制御部11へ与える。図4(B)の特性からなり図3に示すようにエコー時間が「短」であれば音響環境パラメータ「反響中」を制御部11へ与える。図4(C)の特性からなり図3に示すようにエコー時間が「長」であれば音響環境パラメータ「反響大」を制御部11へ与える。このような処理を行うことで、音響環境パラメータを手入力することなく自動で設定することができる。さらに、この処理を、無音状態の検出毎に行うことで、例えば使用者数が変化したり、使用者の位置が変化することによる音響環境変化をも加味して音響環境パラメータを動的に変化させることができる。
 スピーカSPは、外部から入力された放音用音声信号FEtに基づいて放音する。この放音用音声信号(遠端信号)FEtは、FFT911へも入力される。
 FFT911は、高速フーリエ変換回路であり、時間領域の関数である放音用音声信号FEtを周波数領域の関数である放音用音声信号FEnへ変換して、適応型フィルタ20へ与える。
 適応型フィルタ20は、擬似反響音信号生成部201と擬似反響音信号推定部202とを備える。擬似反響音信号生成部201は、例えば、所定のタップ数からなるFIRフィルタであり、擬似反響音信号推定部202から与えられた係数により設定される。擬似反響音信号生成部201は、放音用音声信号FEnに基づいて擬似反響音信号FE’nを生成する。生成された擬似反響音信号FE’nは、IFFT921および外乱スペクトル推定部30のエコースペクトル推定部301へ入力される。
 擬似反響音信号推定部202は、LMS等の適応アルゴリズムを用いて、後述する低域成分第1補正信号NLE’nの周波数スペクトルS(NLE’n)から、擬似反響音信号FE’nを推定する。擬似反響音信号推定部202は、当該擬似反響音信号FE’nを擬似反響音信号生成部201に生成させるための係数(各タップの係数、すなわちフィルタ係数)を推定して、これら係数を擬似反響音信号生成部201へ与える。この際、擬似反響音信号推定部202は、状態判定部10から「放音用音声信号の放音のみ有り」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、擬似反響音信号FE’nの生成、学習は、音響エコーキャンセラ1の動作中に繰り返し行われる。
 IFFT921は、逆高速フーリエ変換回路であり、周波数領域の関数である擬似反響音信号FE’nを時間領域の関数である擬似反響音信号FE’tに変換して、加算器60へ出力する。
 マイクMICは、当該音響エコーキャンセラ1が設置された周囲から収音して、収音音声信号(近端信号)NEtを生成する。この収音音声信号NEtには、スピーカSPからの放音があれば、当該放音音声が設置環境に基づいて反響されてなる反響音の成分が含まれる。また、マイクMIC周囲の話者が発話すれば、収音音声信号NEtに話者音声の成分が含まれる。さらに、会議室等の設置環境によって当該環境に特有の定常的なノイズが存在すると、収音音声信号NEtには、この定常ノイズの成分も含まれる。
 帯域分割部50は、マイクMICと加算器60との間に設置されている。帯域分割部50は、収音音声信号NEtを、低域成分NLEtと高域成分NHEtとに分離する。ここで、低域と高域とを区分する閾値周波数は、例えば8kHzに設定されており、人の音声の主たる成分となる8kHz以下の低域成分NLEtが、加算器60へ与えられ、8kHzよりも高い高域成分NHEtは、エコーサプレッサ40へ与えられる。なお、残響エコーや定常ノイズは、低い周波数帯域が主成分であるので、低域成分NLEtに殆ど含まれている。
 加算器60は、収音音声信号低域成分NLEtから擬似反響音信号FE’tを差分することで、低域成分第1補正音声信号NLE’tを生成して出力する。これにより、第一段の補正として、擬似反響音信号による適応型のエコーキャンセル処理が実行される。
 FFT912は、高速フーリエ変換回路であり、時間領域の関数である低域成分第1補正音声信号NLE’tを周波数領域の関数である低域成分第1補正音声信号NLE’nへ変換して出力する。低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)は、上述の擬似反響音信号推定部202および外乱スペクトル推定部30のノイズスペクトル推定部302へ入力される。
 外乱スペクトル推定部30は、エコースペクトル推定部301とノイズスペクトル推定部302とを備える。簡単には、エコースペクトル推定部301は、擬似反響音信号FE’nのみで除去しきれないエコー成分を推定する演算部であり、ノイズスペクトル推定部302は、定常ノイズを推定する演算部である。
 エコースペクトル推定部301は、擬似反響音信号FE’nの周波数スペクトルS(FE’n)をサンプリングタイミング毎に順次取得するとともに、一時記憶する。エコースペクトル推定部301は、この取得および記憶した擬似反響音信号FE’nの周波数スペクトルS(FE’n)と、前回推定した残響エコースペクトルS(FE”n)と、制御部11から与えられた更新係数βとに基づいて、今回の残響エコースペクトルS(FE”n)を推定するとともに、この推定した残響エコースペクトルS(FE”n)を記憶する。
 例えば、或るサンプリングタイミングNでの残響エコースペクトルをS(FE”n(N))とし、同サンプリングタイミングNでの擬似反響音信号の周波数スペクトルをS(FE’n(N))とし、直前のサンプリングタイミングN-1での残響エコースペクトルをS(FE”n(N-1))とする。また、βを更新係数とする。
 そして、この設定において、残響エコースペクトルS(FE”n(N))を次式で表し、算出する。
 S(FE”n(N))=(1-β)S(FE”n(N-1))+βS(FE’n(N))
                        ---演算式(1)
 このように、擬似反響音信号FE’nの周波数スペクトルS(FE’n)に基づいて残響エコースペクトルS(FE”n)を推定することで、適応型フィルタ20で除去しきれない残響エコーの周波数スペクトルを取得することができる。すなわち、適応型フィルタ20は、FIRフィルタ等からなり、タップ数等の仕様により表現可能な擬似反響音信号FE’nが制限される。これにより、時間軸上に復元した場合に擬似反響音信号FE’tと現実の回り込み音とで差が生じる。しかしながら、周波数領域で擬似反響音信号FE’nから残響エコーを推定することで、この時間軸上の制限を取り除くことができ、擬似反響音信号FE’tでは除去しきれない残響エコーを推定することができる。
 さらに、更新係数βを用いることで、当該音響エコーキャンセラ1が備えられた装置の設置環境に応じて推定アルゴリズム(上述の演算式(1))をより最適に調整することができる。具体的には、更新係数βを適宜設定することで、今回のサンプリングタイミングNでの擬似反響音信号の周波数スペクトルS(FE’n(N))と、前回のサンプリングタイミングN-1での残響エコーの周波数スペクトルS(FE”n(N-1))との加算時のレベル比が調整される。ここで、更新係数βは、反響が小さいほど値が大きく、反響が大きいほど値が小さくなるように設定されている。これにより、反響が小さい場合には更新係数βが大きくなり、演算式(1)から、今回のサンプリングタイミングNでの擬似反響音信号の周波数スペクトルS(FE’n(N))が残響エコースペクトルS(FE”n(N))の推定に大きな影響を与える。一方で、反響が大きい場合には更新係数βが小さくなり、前回のサンプリングタイミングN-1での残響エコーの周波数スペクトルS(FE”n(N-1))が今回のサンプリングタイミングNでの残響エコースペクトルS(FE”n(N))に大きな影響を与える。これは、すなわち、反響が小さい場合には、残響エコーが殆ど残らないので、この極短時間の部分を今回のサンプリングタイミングNでの擬似反響音信号の周波数スペクトルS(FE’n(N))のみで推定できることを意味する。一方で、反響が大きい場合には、残響エコーが長時間存在しているので、この過去の部分を前回のサンプリングタイミングN-1での残響エコーの周波数スペクトルS(FE”n(N-1))で推定できることを意味する。このように更新係数βを用いることで、音響環境に応じて残響エコースペクトルS(FE”n(N))を精度良く推定することができる。
 ノイズスペクトル推定部302は、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)を順次取得するとともに、一時記憶する。ノイズスペクトル推定部302は、この取得および記憶した複数回の低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)に基づいて、ノイズスペクトルS(NLE”n)を推定する。
 例えば、或るサンプリングタイミングNでのノイズスペクトルをS(NLE”n(N))とし、同サンプリングタイミングNでの低域成分第1補正音声信号の周波数スペクトルをS(NLE’n(N))とし、直前のサンプリングタイミングN-1での低域成分第1補正音声信号の周波数スペクトルをS(NLE’n(N-1))とする。また、α,γを定数とする。
 そして、この設定において、ノイズスペクトルS(NLE”n(N))を次式で表し、算出する。
 S(NLE”n(N))=αS(NLE’n(N-1))+γS(NLE’n(N))
 このように、エコーキャンセル後の信号である低域成分第1補正音声信号NLE’nの周波数スペクトルに基づいてノイズスペクトルS(NLE”n)を推定することで、エコーとは別の暗騒音等の定常ノイズを推定することができる。この際、ノイズスペクトル推定部302は、状態判定部10から「無音」状態の情報を取得した場合にのみ、上述の推定による学習を行う。なお、このような推定、学習も、音響エコーキャンセラ1の動作中に繰り返し行われる。
 加算器70は、周波数領域で演算を行う加算器であり、低域成分第1補正音声信号NLE’nの周波数スペクトルS(NLE’n)から、残響エコースペクトルS(FE”n)およびノイズスペクトルS(NLE”n)を減算することで、低域成分第2補正音声信号S(NLOn)を生成して出力する。なお、この処理は各スペクトルが同期するようにして行われる。すなわち、ここで言う同期とは、同じサンプリングタイミングに形成された各スペクトルを用いて演算することであり、例えば、サンプリングタイミングNの場合、S(NLOn(N))=S(NLE’n(N))-S(FE”n(N))-S(NLE”n(N))の演算処理を行うことを意味する。これにより、第二段の補正として、適応型のエコーキャンセルとは別方式で、残響エコーや定常ノイズの除去が行われる。
 IFFT922は、逆高速フーリエ変換回路であり、周波数領域の関数である低域成分第2補正音声信号NLOnを時間領域の関数である低域成分第2補正音声信号NLOtへ変換して、加算器80へ与える。
 エコーサプレッサ40は、減衰器401とディレイ回路402とからなる。減衰器401は、状態判定部10からの状態判定結果に基づいて、収音音声信号NEtの高域成分NHEtの減衰量を調整し、減衰処理済高域成分NHE’tを出力する。
 図5はエコーサプレッサ40の減衰器401の減衰量を示す図である。
 減衰器401は、「放音用音声信号の放音のみ有り」状態または「無音」状態の判定結果を取得すると、減衰量を無限大、すなわち、高域成分NHEtを遮断する(NHE’t=0)。これは、放音用音声信号のみの場合や無音状態の場合、話者音声が含まれていないので、高域成分を遮断することで、高域成分として存在するエコーや定常ノイズをより確実に除去することができるからである。
 また、減衰器401は、「放音が無く収音音声信号が有り」状態の情報を取得すると、減衰量を「0」、すなわち、高域成分NHEtを減衰することなく通過させる(NHE’t=NHEt)。このように収音音声信号のみの場合、高域成分が話者音声に支配されるので、この高域成分を減衰させないことにより、話者音声をより正確に出力することができるからである。
 さらに、減衰器401は、「Wトーク」状態の情報を取得すると、減衰量を予め設定した所定値に設定する。これは、Wトーク時には、除去したい放音用音声信号FEtの成分と、話者音声成分とが混在しているために、或程度の減衰量に設定する。これにより、話者音声を若干犠牲にしながらも、放音用音声信号FEtによるエコー成分を減衰させることができる。
 減衰器401から出力された減衰処理済高域成分NHE’tは、ディレイ回路402へ入力される。ディレイ回路402は、処理演算が容易で高速な高域成分NHEt(NHE’t)と、上述のエコーキャンセルおよびエコー除去処理を行った低域成分第2補正音声信号NLOtとを時間同期して加算するためのディレイ処理を行う。このディレイ処理により、遅延減衰処理済高域成分NHE”tが生成され、加算器80へ与えられる。
 加算器80は、低域成分第2補正音声信号NLOtとこれに時間同期する遅延減衰処理済高域成分NHE”tとを加算して、出力音声信号NO’tを生成し、外部へ出力する。
 以上のような構成および処理を行うことで、適応型フィルタのみで行われるエコーキャンセル処理では除去しきれない残響エコーや定常ノイズを精度良く効果的に除去することができる。この際、部屋等の設置環境の残響エコー等の音響環境を検出して、当該音響環境に応じた推定アルゴリズムを用いて残響エコースペクトルを得ることで、より高精度に残響エコーを除去することができる。
 さらに、低域成分のみをエコーキャンセルおよびエコー除去処理して、高域成分を減衰処理することで処理演算量を低減することができる。この際、高域成分に上述のエコーキャンセルおよびエコー除去処理を行わなくても、人の音声の主成分が低域成分側にあるとともに、高域成分は低域成分と比較して反射回り込み量が少ないので、音質の劣化を抑制することができる。さらに、上述のように放収音状態毎に減衰量を変化させることで、より確実にエコーを除去し、且つ話者音声の音質の劣化を抑制することができる。
 なお、上述の説明では、適応型フィルタを周波数領域演算で実現する例を示したが、時間領域による適応型フィルタを用いてもよい。
 また、上述の説明では、状態判定部10において信号レベルのみで状態判定を行う例を示したが、各信号の相関に基づいて状態判定を行ってもよい。
 また、上述の説明では、スピーカとマイクとを備える音響エコーキャンセラを例に示したが、スピーカ等の放音素子への出力端子と、マイク等の収音素子からの入力端子とを備え、放音素子や収音素子を別体にしたものであってもよい。
 また、上述の説明では、状態判定部10から各部へ状態判定結果を与える例を示したが、状態判定部10が各部の学習タイミングの条件を記憶しておき、状態判定部10から各部へ学習タイミングを与えてもよい。
 また、上述の説明では、収音音声信号を低域成分と高域成分とに分離する例を示したが、図6に示すように、これらを分離せずにエコーキャンセル処理およびエコー除去処理を行うようにしても、上述の作用効果を得ることができる。
 また、上述の説明では、外乱スペクトル推定部に、エコースペクトル推定部とノイズスペクトル推定部とを備えた例を示したが、エコースペクトル推定部のみであっても、残響エコーを高精度に除去することができる。
1-音響エコーキャンセラ、10-状態判定部、11-制御部、12-操作部、13-表示部、14-音響環境検出部、20-適応型フィルタ、201-擬似反響音信号生成部、202-擬似反響音信号推定部、30-外乱スペクトル推定部、301-エコースペクトル推定部、302-ノイズスペクトル推定部、40-エコーサプレッサ、401-減衰器、402-ディレイ回路、50-帯域分割部、60,70,80-加算器、900-周波数領域演算部、911,912-FFT演算部、921,922,141-IFFT演算部、SP-スピーカ、MIC-マイク

Claims (6)

  1.  収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセラであって、
     放音用音声信号に基づいて擬似反響音信号を生成する適応型フィルタと、
     前記収音音声信号から前記擬似反響音信号を差分して第1補正音声信号を生成する第1差分手段と、
     前記第1補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する外乱スペクトル推定手段と、
     前記第1補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する第2差分手段と、
     を備えた音響エコーキャンセラ。
  2.  前記適応型フィルタのフィルタ係数に基づいて前記音響環境パラメータを設定する音響環境パラメータ設定手段を備えた、請求項1に記載の音響エコーキャンセラ。
  3.  前記放音用音声信号と前記第1補正音声信号とに基づいて放収音の状態判定を行い、前記音響環境パラメータ設定手段に対して状態判定結果を与える状態判定手段を備え、
     前記音響環境パラメータ設定手段は、前記状態判定手段から無音状態の判定を取得すると、前記音響環境パラメータの設定処理を行う、請求項2に記載の音響エコーキャンセラ。
  4.  前記収音音声信号を低域成分と高域成分とに分離し、収音音声信号低域成分を前記第1差分手段へ出力する帯域分割手段と、
     該帯域分割手段から出力される収音音声信号高域成分を、前記状態判定の結果に応じて減衰する減衰器と、を備えた請求項3に記載の音響エコーキャンセラ。
  5.  前記外乱スペクトル推定手段は、
     前記擬似反響音信号の周波数スペクトルと前記音響環境パラメータとに基づいて残響エコースペクトルを推定するエコースペクトル推定手段と、
     前記第1補正音声信号の周波数スペクトルに基づいて定常ノイズスペクトルを推定するノイズスペクトル推定手段と、を備える、請求項1~請求項4に記載の音響エコーキャンセラ。
  6.  収音音声信号に含まれる目的音声以外の音を除去する音響エコーキャンセル方法は、
     放音用音声信号に基づいて擬似反響音信号を生成する工程と、
     前記収音音声信号から前記擬似反響音信号を差分して第1補正音声信号を生成する工程と、
     前記第1補正音声信号に含まれる外乱スペクトルを、前記擬似反響音信号のスペクトルと設置環境に基づく音響環境パラメータとを用いて推定する工程と、
     前記第1補正音声信号の周波数スペクトルに対して前記外乱スペクトルを差分して出力する工程と、
     を含む。
PCT/JP2009/060055 2008-06-02 2009-06-02 音響エコーキャンセラ及び音響エコーキャンセル方法 WO2009148049A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP09758316A EP2293595A1 (en) 2008-06-02 2009-06-02 Acoustic echo canceller and acoustic echo cancel method
US12/995,650 US20110110526A1 (en) 2008-06-02 2009-06-02 Acoustic echo canceller and acoustic echo cancellation method
CN2009801204728A CN102047689A (zh) 2008-06-02 2009-06-02 音响回波消除器和音响回波消除方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-144132 2008-06-02
JP2008144132A JP2009290825A (ja) 2008-06-02 2008-06-02 音響エコーキャンセラ

Publications (1)

Publication Number Publication Date
WO2009148049A1 true WO2009148049A1 (ja) 2009-12-10

Family

ID=41398125

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/060055 WO2009148049A1 (ja) 2008-06-02 2009-06-02 音響エコーキャンセラ及び音響エコーキャンセル方法

Country Status (5)

Country Link
US (1) US20110110526A1 (ja)
EP (1) EP2293595A1 (ja)
JP (1) JP2009290825A (ja)
CN (1) CN102047689A (ja)
WO (1) WO2009148049A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4929740B2 (ja) * 2006-01-31 2012-05-09 ヤマハ株式会社 音声会議装置
JP5975290B2 (ja) 2011-10-14 2016-08-23 パナソニックIpマネジメント株式会社 ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
JP6019969B2 (ja) * 2011-11-22 2016-11-02 ヤマハ株式会社 音響処理装置
US9595997B1 (en) * 2013-01-02 2017-03-14 Amazon Technologies, Inc. Adaption-based reduction of echo and noise
US9697847B2 (en) * 2013-03-14 2017-07-04 Semiconductor Components Industries, Llc Acoustic signal processing system capable of detecting double-talk and method
JP6111795B2 (ja) * 2013-03-28 2017-04-12 富士通株式会社 信号処理装置、及び信号処理方法
JP6201949B2 (ja) * 2014-10-08 2017-09-27 株式会社Jvcケンウッド エコーキャンセル装置、エコーキャンセルプログラム及びエコーキャンセル方法
CN106448691B (zh) * 2015-08-10 2020-12-11 深圳市潮流网络技术有限公司 一种用于扩音通信系统的语音增强方法
GB2545263B (en) * 2015-12-11 2019-05-15 Acano Uk Ltd Joint acoustic echo control and adaptive array processing
US10554822B1 (en) * 2017-02-28 2020-02-04 SoliCall Ltd. Noise removal in call centers
CN110136733B (zh) * 2018-02-02 2021-05-25 腾讯科技(深圳)有限公司 一种音频信号的解混响方法和装置
CN110176244B (zh) * 2018-06-19 2023-10-03 腾讯科技(深圳)有限公司 回声消除方法、装置、存储介质和计算机设备
CN109716432B (zh) * 2018-11-30 2023-05-02 深圳市汇顶科技股份有限公司 增益处理方法及其装置、电子设备、信号采集方法及其系统
CN112542177B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999017526A1 (de) * 1997-09-30 1999-04-08 Siemens Aktiengesellschaft Echokompensationsverfahren, echokompensationsvorrichtung und telekommunikationsgerät
JP3420705B2 (ja) 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
JP2004537219A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
JP2008516545A (ja) * 2004-10-13 2008-05-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコーキャンセル

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69738288T2 (de) * 1996-05-31 2008-09-25 Koninklijke Philips Electronics N.V. Einrichtung zur unterdrückung einer störenden komponente eines eingangssignals
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
KR100842590B1 (ko) * 2004-11-09 2008-07-01 삼성전자주식회사 이동 단말에서 음향 반향 제거 방법 및 장치
US8335311B2 (en) * 2005-07-28 2012-12-18 Kabushiki Kaisha Toshiba Communication apparatus capable of echo cancellation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999017526A1 (de) * 1997-09-30 1999-04-08 Siemens Aktiengesellschaft Echokompensationsverfahren, echokompensationsvorrichtung und telekommunikationsgerät
JP3420705B2 (ja) 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
JP2004537219A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
JP2008516545A (ja) * 2004-10-13 2008-05-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコーキャンセル

Also Published As

Publication number Publication date
JP2009290825A (ja) 2009-12-10
US20110110526A1 (en) 2011-05-12
EP2293595A1 (en) 2011-03-09
CN102047689A (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
WO2009148049A1 (ja) 音響エコーキャンセラ及び音響エコーキャンセル方法
JP5347794B2 (ja) エコー抑圧方法およびその装置
US9461702B2 (en) Systems and methods of echo and noise cancellation in voice communication
EP3080975B1 (en) Echo cancellation
JP4913155B2 (ja) 音響エコーキャンセラ
AU756511B2 (en) Signal noise reduction by spectral subtraction using linear convolution and causal filtering
US20150281840A1 (en) Single-channel, binaural and multi-channel dereverberation
KR20190105619A (ko) 혼합후 음향 반향 제거 시스템들 및 방법들
EP1080463B1 (en) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
US11380312B1 (en) Residual echo suppression for keyword detection
JP5292931B2 (ja) 音響エコーキャンセラおよびエコーキャンセル装置
EP2490218B1 (en) Method for interference suppression
JP4690243B2 (ja) デジタルフィルタ、周期性騒音低減装置および騒音低減装置
US11386911B1 (en) Dereverberation and noise reduction
WO2009107750A1 (ja) 音響エコーキャンセラ
JP2008005094A (ja) エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体
Ykhlef et al. A post-filter for acoustic echo cancellation in frequency domain
JP2010011272A (ja) 音響エコーキャンセラ
JP4239993B2 (ja) ハウリングキャンセラ
KR101283105B1 (ko) 능동잡음 제어장치 및 그 방법
JP5640393B2 (ja) エコー除去装置、方法及びプログラム
JP6356087B2 (ja) エコー消去装置、その方法及びプログラム
US11259117B1 (en) Dereverberation and noise reduction
JPH11289283A (ja) エコー除去方法およびエコーキャンセラ

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980120472.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09758316

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009758316

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12995650

Country of ref document: US