WO2019244535A1

WO2019244535A1 - エコー消去装置、エコー消去方法、プログラム

Info

Publication number: WO2019244535A1
Application number: PCT/JP2019/019835
Authority: WO
Inventors: 江村　暁
Original assignee: 日本電信電話株式会社
Priority date: 2018-06-22
Filing date: 2019-05-20
Publication date: 2019-12-26
Also published as: JP2019220917A

Abstract

ダブルトーク状態において、マルチチャネル適応フィルタ出力に含まれる後部残響由来の残留エコー成分を、入出力信号のフレーム長を伸ばすことなく消去する技術を提供する。M個のスピーカと1個以上のマイクロホンが配置された音場において、M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介してマイクロホンに回り込むエコーを消去するエコー消去装置であって、エコーレプリカY^(f, j)と誤差信号U(f, j)から、残留エコーである第２残留エコー成分ΔY^3(f, j)を推定する第２残留エコー成分推定部と、誤差信号U(f, j)を用いて第１残留エコー成分ΔY^1(f, j)と第２残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部とを含む。

Description

エコー消去装置、エコー消去方法、プログラム

　本発明は、スピーカから受話信号を再生した際にエコー経路を介してマイクロホンに回り込む音響エコー（以下、単に“エコー”という）を消去する技術に関し、特にテレビ会議システムなどの拡声通話系におけるエコー消去技術に関する。

　エコーは、スピーカで再生された受話信号の音声がマイクロホンで収音されることにより生じる。エコーをそのまま送信すると、通話における障害や不快感になる。また、スピーカやマイクロホンの音量が大きい場合にはハウリングが生じ、通話が不可能になる。特に拡声通話系では、このような問題が顕著となる。

　この問題を解決するために、従来、適応フィルタを用いたエコー消去技術がある（非特許文献１）。

　しかし、実際の環境で非特許文献１に記載の多チャネルエコー消去技術を使用すると、常にエコーが十分に消去されるとは限らず、残留エコーが生じ、通話品質が劣化することがある。その一因は、適応フィルタによるエコー経路推定が瞬時には完了しないことにある。また、ダブルトーク状態ではエコー経路推定が若干乱れてしまうことにある。

　通話品質の劣化が抑制された快適な拡声通話を実現するには、適応フィルタによるエコー経路推定及びエコー消去が十分でない状態において、受話信号のチャネル数や会話状態によらず、迅速に残留エコーを低減する必要がある。このようなチャネル数や会話状態によらず残留エコーを低減させる方法として、非特許文献２に記載の方法がある。非特許文献２に記載の方法では、収音したエコー信号と適応フィルタによる予測エコー信号の誤差信号から残留エコーを差し引く。この方法では、周波数毎に受話信号と誤差信号の相関を利用することで、受話信号から残留エコーへの伝達特性を高速に推定し、残留エコーを推定する。その際、伝達特性と残留エコーを振幅だけでなく位相も含む複素数として推定する。また、この方法では、会話状態に応じて残留エコー推定値のバイアスを補正する。以上のような特徴を有するため、非特許文献２に記載の方法は、チャネル数によらず適用可能であり、振幅のみを用いるエコー消去方法と比較してダブルトーク時の送話音質歪みが小さくなる。

M.M. Sondhi, D.R. Morgan, and J.L. Hall, "Stereophonic Acoustic Echo Cancellation - An Overview of the Fundamental Problem", IEEE Signal Processing Letters, vol.2, no.8, pp.148-151, 1995. S. Emura and Y. Haneda, "A method for posterior frequency-domain multi-channel residual echo canceling", in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2011, pp.421-424, 2011.

　しかし、非特許文献２に記載の方法では、送話パワーが残留エコーパワーよりもずっと大きいとき、送話の品質が低下するという問題がある。このような状況は、ダブルトーク状態において適応フィルタがエコーを良好に消去している場合に現れる。

　非特許文献２に記載の方法では、上述の通り、受話信号と誤差信号の相関を利用して残留エコーを推定する。この方法では、入出力信号のフレーム長（数十ms）が部屋の残響時間（数百ms）よりずっと短いために、部屋の初期反射に由来する残留エコー成分は良好に消去できる一方で、部屋の残響、特に後部残響に由来する残留エコー成分の推定及び消去が困難になる。

　この問題を解決するために、入出力信号のフレーム長を伸ばすことが考えられる。入出力信号のフレーム長を伸ばすことにより、非特許文献２に記載の方法でも部屋の後部残響に対応することは可能である。しかし、フレーム長を伸ばすと、エコー消去処理による処理遅延が大きくなるという問題が生じてしまう。これは、エコー消去処理では、フレームごとに信号を時間領域から周波数領域に変換し、周波数領域で処理し、時間領域に戻していることに起因している。また、処理遅延が大きくなると、遠隔地の音声が収音され、伝送後に再生されるまでの時間が長くなり、拡声通話の使い勝手が悪くなってしまうという問題も生じる。例えば、ＩＰ電話では通話の使い勝手を劣化させないためにフレーム長が数十msに設定されている。

　そこで、本発明は、ダブルトーク状態において、マルチチャネル適応フィルタ出力に含まれる後部残響由来の残留エコー成分を、入出力信号のフレーム長を伸ばすことなく消去する技術を提供することを目的とする。

　本発明の一態様は、M個（ただし、Mは1以上の整数）のスピーカと1個以上のマイクロホンが配置された音場において、前記M個のスピーカからスピーカ再生信号x₁(k), …, x_M(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、前記スピーカ再生信号x₁(k), …, x_M(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタ部と、前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第１減算部と、前記スピーカ再生信号x₁(k), …, x_M(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X₁(f, j), …, X_M(f, j)を生成する第１周波数領域変換部と、前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第２周波数領域変換部と、前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第３周波数領域変換部と、前記スピーカ再生信号X₁(f, j), …, X_M(f, j)と前記誤差信号U(f, j)から、残留エコーである第１残留エコー成分ΔY^₁(f, j)を推定する第１残留エコー成分推定部と、前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第２残留エコー成分ΔY^₃(f, j)を推定する第２残留エコー成分推定部と、前記誤差信号U(f, j)を用いて前記第１残留エコー成分ΔY^₁(f, j)と前記第２残留エコー成分ΔY^₃(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部と、前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第２減算部と、前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換部とを含む。

　本発明によれば、後部残響に由来する残留エコー成分を消去することが可能となる。

エコー消去装置１００の構成を示すブロック図。エコー消去装置１００の動作を示すフローチャート。関数mixr(x)の一例を示す図。エコー消去装置２００の構成を示すブロック図。エコー消去装置２００の動作を示すフローチャート。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜技術的背景＞
　各実施形態の発明は、後部残響に由来する残留エコー成分を推定するために、マルチチャネル適応フィルタ（以下、適応フィルタという）の出力であるエコーレプリカを用いる。適応フィルタによりエコーが良好に推定されている場合、エコーレプリカには後部残響に由来する成分が十分に含まれているため、エコーレプリカを用いることにより、後部残響に由来する残留エコー成分を良好に推定することが可能になる。

＜第１実施形態＞
　エコー消去装置１００は、M個（ただし、Mは1以上の整数）のスピーカと1個以上のマイクロホンが配置された音場において、M個のスピーカからスピーカ再生信号x₁(k), …, x_M(k)を再生した際にエコー経路を介してマイクロホンに回り込むエコーを消去する。ここで、スピーカ再生信号は、先述の受話信号に対応するものである。

　以下、図１～図２を参照してエコー消去装置１００を説明する。図１は、エコー消去装置１００の構成を示すブロック図である。図２は、エコー消去装置１００の動作を示すフローチャートである。図１の音場は、M個のスピーカ２₁，…，２_Mと1個のマイクロホン３が共通に配置されていることを示している。図１ではマイクロホンの数を1としているが、音場に配置されるマイクロホンの数は1に限らず、一般に1以上でよい。スピーカ２₁，…，２_Mからそれぞれスピーカ再生信号x₁(k), …, x_M(k)を再生した場合に、エコー消去装置１００は、M本のエコー経路h₁(k), …, h_M(k)を介してマイクロホンに回り込むエコーを消去する。エコー消去装置１００には、受話側のMチャネルの受話端子１₁，…，１_Mと、送話側の1チャネルの送話端子４と、マイクロホン３とが接続されており、スピーカ再生信号x₁(k), …, x_M(k)及びマイクロホン３に回り込むエコーを収音した収音信号y(k)が入力され、送信信号v(k)を送話端子４に出力する。

　図１に示すようにエコー消去装置１００は、適応フィルタ部１１０と、第１減算部１２０と、第１周波数領域変換部１３０と、第２周波数領域変換部１３１と、第３周波数領域変換部１３２と、第１残留エコー成分推定部１４０と、第２残留エコー成分推定部１５０と、混合部１６０と、第２減算部１７０と、時間領域変換部１８０と、記録部１９０（図示しない）を含む。記録部１９０は、エコー消去装置１００の処理に必要な情報を適宜記録する構成部である。

　以下、図２を参照して、エコー消去装置１００の動作について説明する。

［適応フィルタ部１１０］
　Ｓ１１０において、適応フィルタ部１１０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)を入力とし、スピーカ再生信号x₁(k), …, x_M(k)を適応フィルタによりフィルタリングすることにより、収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成し、出力する。任意の適応フィルタを用いることができる。

　また、Ｓ１１１において、適応フィルタ部１１０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)と、収音信号y(k)とエコーレプリカy^(k)との差である誤差信号u(k)を入力とし、スピーカ再生信号x₁(k), …, x_M(k)と誤差信号u(k)を用いて、適応フィルタのフィルタ係数を更新する。

［第１減算部１２０］
　Ｓ１２０において、第１減算部１２０は、M個のスピーカ２₁，…，２_Mからスピーカ再生信号x₁(k), …, x_M(k)を再生した際にエコー経路を介してマイクロホン３に回り込むエコーを収音した収音信号y(k)とＳ１１０で生成したエコーレプリカy^(k)を入力とし、収音信号y(k)とエコーレプリカy^(k)との差である誤差信号u(k)を生成し、出力する。つまり、u(k)=y(k)-y^(k)である。

［第１周波数領域変換部１３０／第２周波数領域変換部１３１／第３周波数領域変換部１３２］
　Ｓ１３０において、第１周波数領域変換部１３０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)を入力とし、スピーカ再生信号x₁(k), …, x_M(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X₁(f, j), …, X_M(f, j)を生成し、出力する。ただし、fは周波数インデックス、jはフレーム番号を表す。周波数領域変換は信号フレームごとに行われる。

　Ｓ１３１において、第２周波数領域変換部１３１は、Ｓ１２０で生成した誤差信号u(k)を入力とし、誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成し、出力する。

　Ｓ１３２において、第３周波数領域変換部１３２は、Ｓ１１０で生成したエコーレプリカy^(k)を入力とし、エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成し、出力する。

［第１残留エコー成分推定部１４０］
　Ｓ１４０において、第１残留エコー成分推定部１４０は、Ｓ１３０で生成したスピーカ再生信号X₁(f, j), …, X_M(f, j)とＳ１３１で生成した誤差信号U(f, j)を入力とし、スピーカ再生信号X₁(f, j), …, X_M(f, j)と誤差信号U(f, j)から残留エコーである第１残留エコー成分ΔY^₁(f, j)を推定し、出力する。以下、推定処理について詳しく説明する。

　まず、第１残留エコー成分推定部１４０は、スピーカ再生信号X₁(f, j), …, X_M(f, j)のM×Mクロススペクトル行列P(f, j)と、スピーカ再生信号X₁(f, j), …, X_M(f, j)と誤差信号U(f, j)とのM次元クロススペクトルベクトルQ(f, j)を求める。クロススペクトル行列P(f, j)の(a, b)要素P_(a, b)(f, j)及びクロススペクトルベクトルQ(f, j)の(a)要素Q_(a)(f, j)は、次式で計算する。ただし、a, bは、1≦a≦M, 1≦b≦Mを満たすインデックスである。

　ここで、X^*はXの複素共役を表す。また、E[・]は平均をとる処理を表す。

　例えば、Q_(a)(f, j)を、1フレーム前の処理結果Q_(a)(f, j-1)と平滑化定数β(0<β<1)を用いて、

により、求めてもよい。また、過去の数フレームに時定数を乗じて求めてもよい。

　次に、第１残留エコー成分推定部１４０は、次式により、スピーカ再生信号X₁(f, j), …, X_M(f, j)から誤差信号U(f, j)への伝達特性ΔH^₁(f, j)を求める。

　最後に、第１残留エコー成分推定部１４０は、次式により、第１残留エコー成分ΔY^₁(f, j)を求める。

［第２残留エコー成分推定部１５０］
　Ｓ１５０において、第２残留エコー成分推定部１５０は、Ｓ１３２で生成したエコーレプリカY^(f, j)とＳ１３１で生成した誤差信号U(f, j)を入力とし、エコーレプリカY^(f, j)と誤差信号U(f, j)から残留エコーである第２残留エコー成分ΔY^₃(f, j)を推定し、出力する。以下、推定処理について詳しく説明する。

　第２残留エコー成分ΔY^₃(f, j)の推定に際して、誤差信号U(f, j)とエコーレプリカY^(f, j)との相関

に着目する。

　周波数領域において、誤差信号は送信信号と残留エコーからなる。残留エコーを変形されたエコーレプリカとしてモデル化できると仮定すると、変形に相当する伝達特性ΔH^₂(f, j)は、次式により求めることができる。

したがって、補正前の第２残留エコー成分ΔY^₂(f, j)は次式により求めることができる。

　送信信号のパワーが残留エコーのパワーよりずっと大きい場合、補正前の第２残留エコー成分ΔY^₂(f, j)が過大に推定されることが知られている。この影響は、誤差信号U(f, j)とエコーレプリカY^(f, j)から算出されるコヒーレンスγ^²(f, j)が、真のコヒーレンスγ²(f, j)よりも大きくなる現象として現れる。

　この過大な推定を補正する方法として、参考文献１の方法がある。
（参考文献１： V. Benignus, “Estimation of the coherence spectrum and its confidence interval using the fast Fourier transform”, IEEE Transactions on Audio and Electroacoustics, vol.17, no.2, pp.145-150, 1969.）
　参考文献１の方法によれば、真のコヒーレンスγ²(f, j)の近似値であるγ’²(f, j)を次式で求めることができる。

　ここでは、平滑化定数βを用いて各クロススペクトルを求めている場合、フレーム数1/(1-β)を用いて平均化を行っているとみなしている。

　補正後の第２残留エコー成分ΔY^₃(f, j)は、次式により求まる。

　つまり、第２残留エコー成分推定部１５０は、第２残留エコー成分ΔY^₃(f, j)を式

（ただし、βは0<β<1を満たす平滑化定数である）により推定する。
［混合部１６０］
　Ｓ１６０において、混合部１６０は、Ｓ１３１で生成した誤差信号U(f, j)とＳ１４０で推定した第１残留エコー成分ΔY^₁(f, j)とＳ１５０で推定した第２残留エコー成分ΔY^₃(f, j)を入力とし、誤差信号U(f, j)を用いて第１残留エコー成分ΔY^₁(f, j)と第２残留エコー成分ΔY^₃(f, j)を混合することにより、残留エコーΔY^(f, j)を生成し、出力する。以下、混合処理について詳しく説明する。

　まず、混合部１６０は、誤差信号U(f, j)と第１残留エコー成分ΔY1^(f, j)とのコヒーレンスcを次式により求める。

　コヒーレンスcは、その値が0に近いほど、誤差信号U(f, j)に含まれる残留エコーが少ないことを示す。

　そして、混合部１６０は、所定の関数mixr(x)を用いて、次式により第１残留エコー成分ΔY^₁(f, j)と第２残留エコー成分ΔY^₃(f, j)を混合し、残留エコーΔY^(f, j)を生成する。

　ただし、関数mixr(x)は定義域を[0, 1]、値域を[0, 1]とする単調減少関数である。図３は、関数mixr(x)の一例を示す。なお、TH1, TH2はそれぞれ0<TH1<0.5, 0.5<TH2<1を満たすように設定するとよい。

［第２減算部１７０］
　Ｓ１７０において、第２減算部１７０は、Ｓ１３１で生成した誤差信号U(f, j)とＳ１６０で生成した残留エコーΔY^(f, j)を入力とし、誤差信号U(f, j)と残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成し、出力する。つまり、V(f, j)=U(f, j)- ΔY^(f, j)である。これにより、誤差信号から残留エコーが消去される。
［時間領域変換部１８０］
　Ｓ１８０において、時間領域変換部１８０は、Ｓ１７０で生成した送信信号V(f, j)を入力とし、送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成し、出力する。出力された送信信号v(k)は送話端子４を介して遠隔地に送信される。

　本実施形態の発明によれば、後部残響に由来する成分が含まれるエコーレプリカを用いて後部残響に由来する残留エコー成分を推定することにより、後部残響に由来する残留エコー成分を消去することが可能となる。

＜第２実施形態＞
　残留エコーΔY^(f, j)を用いることにより、非エコー信号が含まれる状況において、適応フィルタのフィルタ係数を頑健に更新することができるようになる。ここでは、そのような実施形態について説明する。

　以下、図４～図５を参照してエコー消去装置２００を説明する。図４は、エコー消去装置２００の構成を示すブロック図である。図５は、エコー消去装置２００の動作を示すフローチャートである。図４に示すようにエコー消去装置２００は、適応フィルタ部２１０と、第１減算部１２０と、第１周波数領域変換部１３０と、第２周波数領域変換部１３１と、第３周波数領域変換部１３２と、第１残留エコー成分推定部１４０と、第２残留エコー成分推定部１５０と、混合部１６０と、第２減算部１７０と、時間領域変換部１８０と、残留エコーパワー比率推定部２８０と、記録部１９０（図示しない）を含む。記録部１９０は、エコー消去装置２００の処理に必要な情報を適宜記録する構成部である。

　つまり、エコー消去装置２００は、適応フィルタ部１１０の代わりに適応フィルタ部２１０を含む点と、更に残留エコーパワー比率推定部２８０を含む点とにおいてエコー消去装置１００と異なる。後述するように、適応フィルタ部１１０と適応フィルタ部２１０はフィルタ係数の更新方法が異なる。

　以下、図５を参照して、エコー消去装置２００の動作について説明する。

［残留エコーパワー比率推定部２８０］
　Ｓ２８０において、残留エコーパワー比率推定部２８０は、Ｓ１３１で生成した誤差信号U(f, j)とＳ１６０で生成した残留エコーΔY^(f, j)を入力とし、誤差信号U(f, j)と残留エコーΔY^(f, j)を用いて残留エコーパワー比率ρ(f, j)を生成し、出力する。残留エコーパワー比率ρ(f, j)は、各周波数における誤差信号に占める残留エコーのパワー比率である。残留エコーパワー比率推定部２８０は、次式により残留エコーパワー比率ρ(f, j)を求める。

［適応フィルタ部２１０］
　Ｓ２１０において、適応フィルタ部２１０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)を入力とし、スピーカ再生信号x₁(k), …, x_M(k)を適応フィルタによりフィルタリングすることにより、収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成し、出力する。

　また、Ｓ２１１において、適応フィルタ部２１０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)とＳ１２０で生成した誤差信号u(k)とＳ２８０で生成した残留エコーパワー比率ρ(f, j)を入力とし、残留エコーパワー比率ρ(f, j)とスピーカ再生信号x₁(k), …, x_M(k)と誤差信号u(k)を用いて、適応フィルタのフィルタ係数を更新する。つまり、適応フィルタ部２１０は、残留エコーパワー比率ρ(f, j)に基づいてフィルタ更新量（フィルタ係数の更新）を制御する。例えば、適応フィルタとしてマルチディレイフィルタを用いる場合、参考文献２に記載の方法を用いてフィルタ係数を更新することができる。
（参考文献２：特開２０１５－２０１７８７号公報）

＜第２実施形態の変形例＞
　ここでは、適応フィルタとして参考文献３に記載のリカーシブ・リースト・スクエア(recursive least square)型適応フィルタを用いる場合における、フィルタ係数の更新方法について説明する。
（参考文献３： J. Benesty and D.R. Morgan, “Frequency-domain adaptive filtering revisited, generalization to the multi-channel case, and application to acoustic echo cancellation”, Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2000, pp.789-792, 2000.）
　まず、フィルタ係数の更新方法に関する技術的背景について説明する。

［技術的背景］
　以下、適応フィルタのフレーム長をLとする。

　収音信号y(k)を用いて、L次元ベクトルy~(j)（以下、収音信号ベクトルという）を次式により定義する。

　収音信号ベクトルy~(j)を用いて、周波数領域の2L次元ベクトルY~(j)（以下、収音信号ベクトルという）を次式により定義する。

　ただし、0_LはL次元ゼロベクトル、Fは2L×2Lのフーリエ変換行列である。

　また、第mスピーカ再生信号x_m(k)(1≦m≦M)を用いて、L次元ベクトルx~_m(j)（以下、第mスピーカ再生信号ベクトルという）を次式により定義する。

　さらに、第mスピーカ再生信号ベクトルx~_m(j)から生成されるL×Lテプリッツ行列をX~_m(j)とする。

　ここで、テプリッツ行列X~_m(j)を用いて、2L×2Lの巡回行列C_mを次式により定義すると、X~’_m(j)はL×Lテプリッツ行列となる（参考文献３参照）。

　この巡回行列C_mを用いて、2L×2Lの行列D_m(j)(1≦m≦M)、2L×2LMの行列D(j)を次式により定義する。

　周波数領域におけるMチャネル分のフィルタ係数を2LM次元ベクトルH(j)（以下、フィルタ係数ベクトルという）として表すことにすると、フィルタ係数の更新式は以下のようになる。

　ただし、A^Hは行列Aの共役転置行列（つまり、右肩のHは共役転置）を表す。また、0_LはL×L零行列、I_LはL×L単位行列である。λおよびμは所定の定数である。

　式(1)では、フィルタ係数ベクトルH(j-1)を更新するときに、固定のステップサイズμを用いている。このμに、誤差信号に占める残留エコーのパワー比率を乗じることで、フィルタ係数の更新を非エコー信号に対して頑健にすることができる。以下、詳しく説明する。

　残留エコー消去処理のフレーム長が適応フィルタのフレーム長と同一、つまりLである場合、残留エコーパワー比率ρ(f, j) (f=1, …, L)からなるL次元ベクトルをρ~(j)とする。

　L次元ベクトルρ~(j)を用いて、2L×2L対角行列R(j)を次式により定義する。

　ただし、diag(v)はベクトルvの各要素を対角成分にもつ行列を生成する関数、flipud(v)はベクトルvの上下をひっくり返す関数である。

　M個のR(j)を対角にもつ2LM×2LMのブロック行列Bを次式により定義する。

　ただし、0_2Lは2L×2L零行列である。

　このブロック行列Bを用いて、式(1)を以下のように修正する。

　式(3)を用いてフィルタ係数ベクトルH(j)を更新すると、残留エコーパワー比率に応じてフィルタ係数を更新することができる。

　以上の議論では、残留エコー消去処理のフレーム長と適応フィルタのフレーム長とが同一であるものとして、式(3)を導出した。しかし、実際には、処理遅延を減らすために、残留エコー消去処理のフレーム長を適応フィルタのフレーム長Lよりも小さくする必要がある。

　そこで、以下では、残留エコー消去処理のフレーム長がL/T（ただし、Tは1以上の整数）の場合におけるフィルタ係数の更新式を導出する。

　残留エコー消去処理のフレーム長がL/Tである場合、残留エコーパワー比率はρ(f, j) (f=1, …, L/T)になるため、適応フィルタと残留エコー消去処理では周波数の分解能が異なる。この周波数分解能の違いを吸収することを考える。

　残留エコーパワー比率ρ(f, j) (f=1, …, T)からなるT次元ベクトルをρ^-(j)（以下、残留エコーパワー比率ベクトルという）とする。上記フレーム長の関係から、適応フィルタにおける周波数インデックスf’は、f’=T(f-1)+1, …, TfのT個の周波数インデックスfと対応する。そこで、同じ値をT個繰り返すことで違いを吸収することにする。そのために、ベクトルvからベクトル長をT倍にしたベクトルを生成する関数ext(v, T)を用いることにする。例えば、v=[v1 v2]である場合、ext(v, 2)は次式のようになる。

　この関数ext(v, T)と長さL/Tの残留エコーパワー比率ベクトルρ^-(j)を用いて、2L×2L対角行列R^-(j)を次式により定義する。

　式(4)は式(2)の自然な拡張になっており、式(4)においてT=1とすると式(2)が得られる。

　M個のR^-(j)を対角にもつ2LM×2LMのブロック行列B^-を次式により定義する。

　このブロック行列B^-を用いて、式(3)を以下のように修正する。

　これにより、式(3)を用いた場合と同様、残留エコーパワー比率に応じてフィルタ係数を更新することができ、非エコー信号に対してフィルタ係数を頑健に更新できるようになる。

　この変形例では、適応フィルタ部２１０におけるフィルタ係数の更新処理が第２実施形態の適応フィルタ部２１０におけるフィルタ係数の更新処理と異なるものとなる。以下、説明する。
［適応フィルタ部２１０］
　Ｓ２１１において、適応フィルタ部２１０は、受話端子１₁，…，１_Mからの入力であるスピーカ再生信号x₁(k), …, x_M(k)と収音信号y(k)とＳ２８０で生成した残留エコーパワー比率ρ(f, j)を入力とし、残留エコーパワー比率ρ(f, j)とスピーカ再生信号x₁(k),
…, x_M(k)と収音信号y(k)を用いて、適応フィルタのフィルタ係数を更新する。具体的には、適応フィルタ部２１０は、次式によりフィルタ係数、つまり、周波数領域におけるMチャネル分のフィルタ係数を表す2LM次元ベクトルH(j)を更新する。

　ただし、Lは適応フィルタのフレーム長、λは所定の定数、μは所定の定数である。また、Y~(j)は収音信号y(k)を用いて定義される2L次元ベクトル、D(j)はスピーカ再生信号x₁(k), …, x_M(k)を用いて定義される2L×2LMの行列、B^-は残留エコーパワー比率ρ(f, j)を用いて定義される2L×2Lの対角行列R^-(j)を対角にもつ2LM×2LMのブロック行列である。

　本実施形態の発明によれば、後部残響に由来する成分が含まれるエコーレプリカを用いて後部残響に由来する残留エコー成分を推定することにより、後部残響に由来する残留エコー成分を消去することが可能となる。また、残留エコーを用いて適応フィルタのフィルタ係数を更新することにより、フィルタ係数を頑健に更新することが可能となる。

＜補記＞
　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　M個（ただし、Mは1以上の整数）のスピーカと1個以上のマイクロホンが配置された音場において、前記M個のスピーカからスピーカ再生信号x₁(k), …, x_M(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、
　y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、
　前記スピーカ再生信号x₁(k), …, x_M(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタ部と、
　前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第１減算部と、
　前記スピーカ再生信号x₁(k), …, x_M(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X₁(f, j), …, X_M(f, j)を生成する第１周波数領域変換部と、
　前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第２周波数領域変換部と、
　前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第３周波数領域変換部と、
　前記スピーカ再生信号X₁(f, j), …, X_M(f, j)と前記誤差信号U(f, j)から、残留エコーである第１残留エコー成分ΔY^₁(f, j)を推定する第１残留エコー成分推定部と、
　前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第２残留エコー成分ΔY^₃(f, j)を推定する第２残留エコー成分推定部と、
　前記誤差信号U(f, j)を用いて前記第１残留エコー成分ΔY^₁(f, j)と前記第２残留エコー成分ΔY^₃(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部と、
　前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第２減算部と、
　前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換部と
　を含むエコー消去装置。
　請求項１に記載のエコー消去装置であって、
　更に、
　前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)を用いて、残留エコーパワー比率ρ(f, j)を生成する残留エコーパワー比率推定部を含み、
　前記適応フィルタ部は、
　前記残留エコーパワー比率ρ(f, j)と前記スピーカ再生信号x₁(k), …, x_M(k)と前記誤差信号u(k)を用いて、前記適応フィルタのフィルタ係数を更新する
　ことを特徴とするエコー消去装置。
　請求項１または２に記載のエコー消去装置であって、
　前記第２残留エコー成分推定部は、前記第２残留エコー成分ΔY^₃(f, j)を式

（ただし、βは0<β<1を満たす平滑化定数である）により推定することを特徴とするエコー消去装置。
　請求項１または２に記載のエコー消去装置であって、
　前記混合部は、前記残留エコーΔY^(f, j)を式

（ただし、cは前記誤差信号U(f, j)と前記第１残留エコー成分ΔY^₁(f, j)とのコヒーレンス、関数mixr(x):[0, 1]→[0, 1]は単調減少関数である）により生成することを特徴とするエコー消去装置。
　M個（ただし、Mは1以上の整数）のスピーカと1個以上のマイクロホンが配置された音場において、エコー消去装置が、前記M個のスピーカからスピーカ再生信号x₁(k), …, x_M(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去方法であって、
　y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、
　前記スピーカ再生信号x₁(k), …, x_M(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタステップと、
　前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第１減算ステップと、
　前記スピーカ再生信号x₁(k), …, x_M(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X₁(f, j), …, X_M(f, j)を生成する第１周波数領域変換ステップと、
　前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第２周波数領域変換ステップと、
　前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第３周波数領域変換ステップと、
　前記スピーカ再生信号X₁(f, j), …, X_M(f, j)と前記誤差信号U(f, j)から、残留エコーである第１残留エコー成分ΔY^₁(f, j)を推定する第１残留エコー成分推定ステップと、
　前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第２残留エコー成分ΔY^₃(f, j)を推定する第２残留エコー成分推定ステップと、
　前記誤差信号U(f, j)を用いて前記第１残留エコー成分ΔY^₁(f, j)と前記第２残留エコー成分ΔY^₃(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合ステップと、
　前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第２減算ステップと、
　前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換ステップと
　を含むエコー消去方法。
　請求項１ないし４のいずれか１項に記載のエコー消去装置としてコンピュータを機能させるためのプログラム。