WO2019044176A1

WO2019044176A1 - 音声処理装置及び音声処理方法、並びに情報処理装置

Info

Publication number: WO2019044176A1
Application number: PCT/JP2018/025794
Authority: WO
Inventors: 和也立石
Original assignee: ソニー株式会社
Priority date: 2017-08-28
Filing date: 2018-07-06
Publication date: 2019-03-07
Also published as: JPWO2019044176A1; US20210195324A1; CN111052767B; US11245983B2; CN111052767A

Abstract

ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、情報処理装置、並びにコンピュータ・プログラムを提供する。　音声処理装置は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部を具備する。前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する。

Description

音声処理装置及び音声処理方法、並びに情報処理装置

　本明細書で開示する技術は、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置に関する。

　スピーカとマイクを搭載した機器から音声や音楽を再生すると、自らのマイクに回り込み、音声通話や音声認識が正しく行えない。それを解決する技術にエコーキャンセラがある。エコーキャンセラは、自機器が発する音が空間を伝達し、マイクに到達する時点までの信号の反射パスの合成波を作り出す伝達特性を推定し、自機器が再生する信号にその推定伝達特性を畳み込み、マイク入力後に差引くことでキャンセルする技術である。

　空間の伝達経路は、ユーザーの環境毎に異なり、人が動くだけでも変化する。音声通話や音声認識ではリアルタイム性が求められるため、この時々刻々と変化する伝達特性を適応的に推定する必要がある。推定アルゴリズムとして、演算量の少ないＬＭＳ（Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕａｒｅ：最小二乗平均）がリアルタイム・アプリケーションには適している。この種の推定アルゴリズムでは、エコー処理後の誤差を最小にするように、伝達特性フィルタを適応的に学習する。しかしながら、ある時刻で自機器以外にユーザー発話などが同時に含まれるダブルトークが発生すると、その誤差を最小にするように学習してしまうため、誤った伝達特性フィルタが推定され、伝達特性のミスマッチが起こり、エコーが消し残る（湧き出し）現象が発生するという問題がある。

　ダブルトークに起因するエコーの消去性能劣化を抑圧するために、ダブルトーク判定器を用いたエコーキャンセラについて提案がなされている（例えば、特許文献１を参照のこと）。ダブルトーク判定器は、エコーの消し残り量が大きくなったときにユーザー発話と認識し、伝達特性フィルタの学習速度（ステップサイズ）を急激に低下させる機能を有する。ダブルトーク判定器を活用して、学習速度を低下させることにより、ダブルトーク中の誤学習を抑制することができる。

特開２００８－９８９２９号公報特開２００８－１４１７３４号公報

　本明細書で開示する技術の目的は、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置を提供することにある。

　本明細書で開示する技術の第１の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部を具備する音声処理装置である。

　前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する。すなわち、前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを０に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを１に近づける。

　また、本明細書で開示する技術の第２の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップを有する音声処理方法である。

　また、本明細書で開示する技術の第３の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部を具備する音声処理装置である。

　また、本明細書で開示する技術の第４の側面は、音声信号を出力するスピーカと、音声信号を入力するマイクと、前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部を具備する情報処理装置である。

　本明細書で開示する技術によれば、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置を提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、エコーキャンセラ１００の機能的構成例を示した図である。図２は、エコーキャンセラ１００がダブルトーク問題を発生する様子を示した図である。図３は、ダブルトークによりエコーが発生した様子を示した図である。図４は、系変動によりエコーが発生した様子を示した図である。図５は、タップ毎の伝達特性Ｗ（ｎ）の２乗ノルムの変化を例示した図である。図６は、ダブルトーク発生時におけるタップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図７は、ダブルトーク発生時におけるタップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図８は、ダブルトーク発生時におけるタップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図９は、系変動時における、タップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図１０は、系変動時における、タップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図１１は、系変動時における、タップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図１２は、ダブルトーク発生時におけるタップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示した図である。図１３は、適応フィルタ１０３の具体的な構成を示した図である。

　以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

　エコーキャンセラには、ダブルトークの他にも、系変動と言われる問題についても注意すべきである。系変動は、例えば、機器にユーザーが近づく、カーテンが閉まる、自機器が移動する、といった音が伝達される空間の環境が変化することである。適応的に求めた伝達特性から空間の環境が突然変わると、伝達特性のミスマッチが起こり、エコーが消し残る。

　系変動に起因するエコーの消去性能劣化を抑圧するためには、変化した空間の伝達特性に一刻も早く推定伝達特性を近づけたい。このため、系変動が発生したときには、ダブルトークのときとは逆に、伝達特性フィルタの学習速度を上げる（又は、ステップサイズなどの設定値をキープする）必要がある。

　ところが、ダブルトーク判定器を導入すると、エコーの消し残りが大きくなると収束速度を遅くしてしまう機能が働くため、系変動時には環境への追従がなかなか進まないことになる。ダブルトーク対策と系変動対策はトレードオフの関係にあり、同時解決は難しいと言うことができる。

　そこで、本明細書では、エコーの消し残りに基づいてダブルトークを判定するダブルトーク判定器（前述）の代わりに、別の尺度に基づいてダブルトークを判定する判定器、並びに別の尺度に基づく判定器を適用するエコーキャンセラについて、以下で提案する。

　本明細書で提案するエコーキャンセラによれば、系変動には反応して伝達特性フィルタの学習速度を上げる一方、ダブルトーク時には伝達特性フィルタの学習速度を遅くさせつつ、系変動時には反応しない、という効果がある。したがって、本明細書で提案するエコーキャンセラによれば、ダブルトーク対策と系変動対策はトレードオフの関係を解消することができる。

　本明細書で提案するエコーキャンセラでは、フィルタを更新させたい伝達特性の変化量に着目して、ダブルトーク時と系変動時の挙動の違いから、ダブルトーク又は系変動のうち一方にだけ反応する判定器を作成する。そして、このような判定器を用いることで、ダブルトーク時にはフィルタ更新を遅らせつつ、系変動時には設定通りの速いフィルタ更新速度で学習を進めることができる。

　エコーキャンセル技術は、テレビ電話などで既に広く応用されてきている。通信相手が人間である場合には、自機器で再生する音が多少回り込んでも、意思の疎通は可能である。これに対し、近年では、スピーカとマイクを搭載した音声対話エージェントが普及し始めている。例えば、マイクに入力されたユーザー発話をネットワークに接続された音声認識エンジンに投入して、低遅延でテキスト化する必要が生じてきている。機器に向かってユーザーが近づくだけでも空間の伝達特性は変化する。その間に自機器が音を発すると、エコーの消し残りが発生し、ユーザー発話と誤認して音声認識エンジンに投入して誤動作してしまう、といった問題が顕在化してきている。本明細書で提案するエコーキャンセラは、ダブルトークと系変動時の各々に適切に対応して、低遅延で伝達特性フィルタを更新することが可能であり、音声対話エージェントにも好適に適用することができる。

　図１には、エコーキャンセラ１００の機能的構成例を模式的に示している。同図において、スピーカ１０１は、参照信号ｘ（ｎ）が入力されると、これを再生すなわち音声出力する。一方、マイク１０２には、音声信号ｄ（ｎ）が入力される。なお、ｎは、タップ数、すなわち適応フィルタ１０３のタップ位置を表す引き数である（なお、以下の説明では、タップ数の固定長をＬ個と設定し、その固定長Ｌの中でのインデックスをｌ（小文字のエル）で表すことにする。したがって、ｌの範囲は、１≦ｌ≦Ｎとなる。また、Ｌ個の選択は最新のインデックスｎから過去Ｌ個なので、インデックスは（ｎ－Ｌ＋１）までの値である）。以下では、ｎをサンプル時刻のインデックスをも意味するものとして使用する。

　ここで、マイク１０２への入力信号ｄ（ｎ）は、スピーカ１０１からの回り込み信号Ｈ^Hｘ（ｎ）、すなわちエコー信号を含む。但し、Ｈは実際の伝達特性であり、タップ数分の伝達特性ｈ（ｌ）を成分とする実伝達特性ベクトルとする（具体的には、Ｈ＝［ｈ（１），ｈ（２），…，ｈ（Ｌ）］^T）。回り込み信号Ｈ^H（ｎ）は、スピーカ１０１から直接届く直接波ｘ（ｎ）の他に、環境からの反射信号を含む。反射信号は、近いものからの反射信号と、遠いものからの反射信号が混在したベクトルである。通常、近いものからの反射信号のパワーは大きく、遠いものからの反射信号のパワーは小さい。

　適応フィルタ１０３は、自分の出力信号が目標信号に近づくように、自己のフィルタ特性を適応的に変更していく。具体的には、適応フィルタ１０３は、スピーカ１０１に入力される参照信号Ｘ（ｎ）に、推定した伝達特性Ｗ（ｎ）を掛けて、擬似エコー信号を出力する。但し、Ｘ（ｎ）は、タップ数分の参照信号ｘ（ｌ）を成分とする参照信号ベクトルであり（下式（６）を参照のこと）、Ｗ（ｎ）は、タップ数分の伝達特性（ｌ）を成分とする推定伝達特性ベクトルである（下式（７）を参照のこと）。減算器１０４は、目標信号としてのマイク１０２への入力信号ｄ（ｎ）と、適応フィルタ１０３から出力される擬似エコー信号Ｗ（ｎ）^HＸ（ｎ）との差分すなわち誤差信号ｅ（ｎ）を求めて（下式（１）を参照のこと）、適応フィルタ１０３に帰還する。

　そして、適応フィルタ１０３は、誤差信号ｅ（ｎ）のパワーが最小となるように、自分自身のフィルタ特性すなわち推定伝達特性Ｗ（ｎ）を調整する。

　誤差信号ｅ（ｎ）のパワーが最小になったとき、適応フィルタ１０３のフィルタ係数Ｗ（ｎ）は実際の伝達特性Ｈを表すことになる。仮に、目標信号ｄ（ｎ）と適応フィルタ１０３の出力信号Ｗ（ｎ）^HＸ（ｎ）の差分ｅ（ｎ）が０であれば、適応フィルタの特性Ｗ（ｎ）は実際の伝達特性Ｈと一致するはずです。

　適応フィルタ１０３では、所定の推定アルゴリズムに従って、伝達特性を表すフィルタを推定する。例えば、ＬＭＳ法の正規化されたＮＬＭＳ（Ｎｏｒｍａｌｉｚｅｄ－ＬＭＳ：正規化最小二乗平均）を採用した伝達特性の推定式（若しくは、フィルタの学習式）を、下式（２）に示しておく。

　但し、上式（２）中のμは、収束速度若しくは更新速度を調整する定数、すなわち、ステップサイズである。ステップサイズμが大きいと、収束速度が速く、環境の変化（系変動など）にも追従し易いが、ステップサイズμが大き過ぎると発散し易くなる。当業界では、μをゼロから２の間の値にすることが好ましいことが知られている。

　なお、エコーキャンセラには、上述したＬＭＳやＮＬＭＳ以外にも、ＡＰＡ（Ａｆｆｉｎｅ　Ｐｒｏｊｅｃｔｉｏｎ　Ａｌｇｏｒｉｔｈｍ：アフィン射影アルゴリズム）、ＲＬＳ（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ　Ｓｑｕａｒｅ：再帰的最小二乗）などの手法を採用することができる。また、機械学習を利用して、伝達特性Ｗ（ｎ）を推定（学習）することもできる。各手法の特徴を、以下の表１にまとめておく。

　ＲＬＳ、ＡＰＡ、ＮＬＭＳ、ＬＭＳの順に性能が高いが、高性能なほど演算量も増大する。したがって、リアルタイム・アプリケーションに利用するには、ＮＬＭＳやＬＭＳあたりが妥当ということもできる。

　マイク１０２では、エコー信号ｄ（ｎ）の他に、近端話者の発話ｓ（ｎ）や、テレビやその他のＡＶ機器の出力音など突発雑音ｖ（ｎ）が収音されることも想定される（図２を参照のこと）。マイク１０２の入力信号ｄ（ｎ）に近端話者の発話ｓ（ｎ）が入った状態で、適応フィルタ１０３が伝達特性の推定処理を進めてしまうと、真の伝達特性をうまく学習できず、ダブルトークの問題（前述）が発生する。例えば、ＮＬＭＳやＬＭＳのようにエコー処理後の誤差を最小にするように伝達特性フィルタの学習を行う推定アルゴリズムでは、その誤差を最小にするように学習してしまうため、誤った伝達特性フィルタが推定され、エコーが消し残る現象が発生する。なお、本明細書では、突発雑音ｖ（ｎ）の抑圧若しくは除去に関しては扱わないことにする。

　このため、ダブルトークが発生したときには、それを検出して、適応フィルタ１０３の学習速度を低下させることにより、ダブルトーク中の誤学習を抑制することが好ましい。例えば、上式（２）に示した伝達特性の推定式を、下式（３）に示すように、ダブルトーク発生時に収束速度を抑制する式に変形する。

　上式（３）では、上式（２）中のステップサイズμが、μ_c・μ_dtに置き換えられている。ここで、μ_cは固定値であり、μ_dtはダブルトークの発生に応じて変化する変数である。したがって、ダブルトークが発生したときには、係数μ_dtをゼロに近づけることで、推定式（３）中のステップサイズμを小さくすることにより収束速度を抑制して、伝達特性のミスマッチ、エコーの消去性能劣化といったダブルトークの悪影響を抑圧することができる。

　例えば、マイク１０２への入力信号ｄ（ｎ）と、適応フィルタ１０３の出力信号Ｗ（ｎ）^HＸ（ｎ）との差分、すなわち誤差信号ｅ（ｎ）が大きくなったときにダブルトークと判定する、ウィーナ（Ｗｉｅｎｅｒ）型のダブルトーク判定器が知られている（例えば、特許文献２を参照のこと）。

　ウィーナ型のダブルトーク判定器を、係数μ_dtを算出する下式（４）に落とし込むことができる。

　上式（４）中の分母のｅ（ｎ）^*ｅ（ｎ）は、誤差信号ｅ（ｎ）の２乗である。誤差信号ｅ（ｎ）が大きくなったときに、係数μ_dtが小さな値となる。すなわち、μ_dtは、誤差信号ｅ（ｎ）が大きくなるほどゼロに近づく関数である。したがって、ステップサイズμを小さくすることにより適応フィルタ１０３の学習速度を低下させて、ダブルトーク中の誤学習を抑制することができる。なお、上式（４）中の分母のｃ_dtは、ダブルトーク判定器の反応速度を調整するパラメータ（感度重み）である。

　ダブルトークや突発雑音（前述）が発生すると、マイク１０２の入力信号ｄ（ｎ）が急激に大きくなることに伴って誤差信号ｅ（ｎ）が大きくなる。そこで、適応フィルタ１０３は、上式（３）及び（４）に従って、ステップサイズμ（＝μ_c・μ_dt）を調整することで、ダブルトーク中の誤学習を抑制することができる。

　ところが、ダブルトークや突発雑音以外にも、誤差信号ｅ（ｎ）が大きくなる要因がある。具体的には、周囲の伝達特性が変わるような状況、すなわち系変動によっても、誤差信号ｅ（ｎ）が大きくなる。例えば、真の伝達特性がＨからＨ´に変化すると、これに伴って適応フィルタ１０３で推定する伝達特性Ｗ（ｎ）が真の伝達特性Ｈ´から大きくずれることによって、誤差信号ｅ（ｎ）が大きくなる。

　ダブルトークや突発雑音のときには、上式（１）の右辺第１項のマイク１０２の入力信号ｄ（ｎ）が大きくなることにより誤差信号ｅ（ｎ）が大きくなる。これに対し、系変動が生じたときには、上式（１）の右辺第２項の推定伝達特性Ｗ（ｎ）が真の伝達特性から大きくずれることにより誤差信号ｅ（ｎ）が大きくなる。ダブルトークや突発雑音と、系変動のいずれの場合も誤差信号ｅ（ｎ）は大きくなる。上式（４）のように、誤差信号ｅ（ｎ）に基づいてステップサイズμを調整する方法では、ダブルトークや突発雑音と系変動とを峻別することは難しい。

　ダブルトークや突発雑音のときには学習速度を低下させて誤学習を抑圧すべきであるが、系変動のときには逆に学習速度を上げて変化した環境に素早く追従すべきである。適応フィルタ１０３が上式（３）及び（４）に従って学習速度を調整すると、ダブルトークや突発雑音、及び系変動のいずれにおいても学習速度が低下する。何故ならば、ダブルトークや突発雑音、及び系変動のいずれにおいても、上式（４）中の分母のｅ（ｎ）^*ｅ（ｎ）が大きくなるからである。

　図３には、ダブルトークによりエコーが発生した様子を例示している。また、図４には、系変動によりエコーが発生した様子を例示している。但し、各図において、横軸は時間軸とし、縦軸はパワーとする。図３に示す例では、ユーザーの発話ｓ（ｎ）を学習したことにより、直後のシステム発話にエコーが発生している。一方、図４に示す例では、人が動くなどの系変動に対して十分な学習速度で追従できないために、直後のシステム発話にエコーが発生している。

　上式（４）で表されるようなダブルトーク判定器では、ダブルトークと系変動のいずれの要因であるかに拘わらず、誤差信号ｅ（ｎ）が大きくなると、すべて反応してしまう。反応感度調整パラメータｃ_dtを大きくして、ダブルトーク判定器の誤動作を低減する方法も考えられるが、系変動時には学習が進まないというトレードオフの問題がある。

　ダブルトーク発生時には、適応フィルタ１０３が推定する伝達特性Ｗ（ｎ）が変化することに起因してエコーが発生する。したがって、ダブルトーク発生時には、適応フィルタ１０３の学習を止めたい（若しくは、学習速度を低下させたい）。これに対し、系変動時には、実際の伝達特性Ｈが変化することに起因してエコーが発生する。したがって、系変動時には、むしろ適応フィルタ１０３の学習速度を速めたい。

　ダブルトーク発生時には、μ_dtをゼロに近づけたい。ダブルトーク発生時には、反応感度調整パラメータｃ_dtを大きくすることで、上式（４）よりμ_dtをゼロに近づけて、適応フィルタ１０３の学習速度を低下させて、エコーを抑圧することができる。

　しかしながら、反応感度調整パラメータｃ_dtを大きくすると、系変動時の学習速度が遅くなってしまう。系変動が発生したとき（例えば、音声合成（ＴＴＳ：Ｔｅｘｔ　ｔｏ　Ｓｐｅａｃｈ）時に人が動いたとき）には、学習速度が遅くならないように、μ_dtを１に張り付けたままにしたい。

　誤差信号のパワーの大小に反応する判定器の場合、ダブルトークと系変動ともに誤差信号が大きくなる挙動となることから、ダブルトークと系変動のいずれか一方しか解決することができない。

　ダブルトークと系変動ともに、エコーの消し残りが大きくなる。このため、上式（４）に落とし込まれたダブルトーク判定器では、ダブルトークと系変動の両方に反応してしまい、それぞれの状況に適したステップサイズμの調整ができない。ダブルトークのときにだけ現れる現象、あるいは系変動のときにだけ現れる現象があれば、それを検出するダブルトーク判定器を作成することが望ましい。

　そこで、ダブルトーク発生時における適応フィルタ１０３の誤学習のメカニズムについて着目してみる。

　下式（５）に示すように、次の時刻のフィルタＷ（ｎ＋１）を作成するために、現在の時刻ｎのフィルタＷ（ｎ）にフィルタ更新係数ΔＷ（ｎ）を足し合わせる。すなわち、本来は既に推定が完了している推定フィルタＷ（ｎ）に対してわずかな変化量ΔＷ（ｎ）を足し合わせて、推定フィルタＷ（ｎ）を少しずつ更新していく。但し、フィルタ更新係数ΔＷ（ｎ）は、伝達特性を表すフィルタを学習するために適用される推定アルゴリズムによって異なる。

　時刻ｎにおいて、スピーカ１０１から再生され、マイク１０２に到達する参照信号Ｘ（ｎ）は、下式（６）のように、適応フィルタ１０３のタップ長Ｌに相当する個数の成分からなるベクトルとして表される。但し、ｘ（ｎ）はスピーカ１０１からマイク１０２に直接届く直接波の成分である。その他の成分ｘ（ｎ－１）、ｘ（ｎ－２）、…、ｘ（ｎ－Ｌ＋１）は壁などから反射された反射信号の成分である。遅延時間が大きな反射信号ほど、より遠く離れた壁からの反射信号である。

　また、伝達特性を表す推定フィルタＷは、下式（７）に示すように、参照信号の各成分ｘ（ｎ）、ｘ（ｎ－１）、ｘ（ｎ－２）、…、ｘ（ｎ－Ｌ＋１）に掛ける係数からなる。但し、ｗ（１）は直接信号ｘ（ｎ）に掛ける係数であり、その他の係数ｗ（２）、ｗ（３）、…、ｗ（Ｌ）はそれぞれ反射信号ｘ（ｎ－１）、ｘ（ｎ－２）、…、ｘ（ｎ－Ｌ＋１）に掛ける係数である。

　そして、時刻ｎにおいて、伝達特性を推定した後の信号（すなわち、適応フィルタ１０３から出力される擬似エコー信号）ｙ（ｎ）は、下式（８）のように表される。

　上式（７）で表される推定フィルタＷ自体は、実空間での伝達特性を表したものになっている。Ｗの値のうち、ｗ（Ｌ）に近い後半の部分は、より遠く離れた壁からの反射信号に掛ける成分に相当する。より遠く離れた壁からの反射信号ほど、直接波に比べて非常に小さなパワーでマイク１０２に到達する参照信号成分となる（基本的に、音声信号のパワーは距離の２乗で減衰していく）。したがって、ｗ（Ｌ）に近い後半の部分の係数ほど、小さな値となる。

　ダブルトークは、スピーカ１０１とは別の、マイク１０２から離間した音源から発させる音声信号であり、言い換えれば、壁からの小さな反射成分しかないはずのタップに関しても強いパワーの音声信号としてマイク１０２に入力されることになる。このため、適応フィルタ１０３は、遠い壁の反射であるはずが大きな音で入力されているタップに関して、大きく係数を変更しようとする（すなわち、フィルタの形状が大きくなるように修正しようとする）。

　したがって、ダブルトークにおいては、直接波以降の、本来は減衰していくはずの反射波の伝達特性パワーに対して大きく外れる現象をとらえ、そのときの収束速度を遅らせるためにステップサイズμを調整する式に落とし込む。一方、系変動時はもともと再生されているスピーカ１０１のパワーは変わらないため、推定されているフィルタの反射経路が変わることによる位相変化はあるものの、フィルタのパワー変化は微小である。

　ダブルトーク発生時には、適応フィルタ１０３が推定する伝達特性Ｗ（ｎ）が変化する。これに対し、系変動時には、推定する伝達特性Ｗ（ｎ）はあまり変化せず、実際の伝達特性Ｈが変化する。

　そこで、ダブルトークと系変動とで伝達特性の変化に相違があることに着目して、フィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変動について比較してみる。フィルタ更新係数ΔＷ（ｎ）を下式（９）とし、伝達特性Ｗ（ｎ）の２乗ノルム及びフィルタ更新係数ΔＷ（ｎ）の２乗ノルムをそれぞれ下式（１０）及び（１１）に従って計算する。但し、ｌはタップＩＤ、ｋは周波数ビン（周波数分解能（ビン幅）に応じた離散値）である（以下、同様）。タップＩＤは、適応フィルタ１０３のタップ位置を表す引き数、及び、サンプル時刻のインデックスの双方を意味するものとする。

　図５には、タップ毎の伝達特性Ｗ（ｎ）の２乗ノルムの変化を例示している。但し、横軸をタップとし、縦軸をフィルタＷの２乗ノルムとする。図示の例では、ダブルトークや系変動が発生しない場合を想定しているが、伝達特性Ｗ（ｎ）の２乗ノルムは、固定遅延に相当するタップ位置でピークとなり、その後、壁からの反射波などの残響成分により緩やかに減衰する。

　図６～図８には、ダブルトーク発生時における、タップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示している。但し、横軸をタップとし（但し、１タップ当たり１６ミリ秒とする）、縦軸をフィルタ更新係数ΔＷの２乗ノルムとする。フィルタ更新係数ΔＷの２乗ノルムを実線で描き、参考のため、フィルタＷの２乗ノルムを点線で描いている。

　図６～図８から分かるように、ダブルトーク発生時には、フィルタ更新係数ΔＷの２乗ノルムは、急峻に変化し、フィルタＷの２乗ノルムの最大値をも超える。例えば図８を参照すると、２００ミリ秒遅れて、直接波以上のパワーがフィルタ更新係数ΔＷに入っている。ダブルトーク発生時には、誤差信号ｅ（ｎ）が大きくなると、伝達特性フィルタＷ（ｎ）の誤学習が行なわれてしまうので、空間（伝達特性ｈ）の特徴とは無相関な学習の挙動が現れるため、と思料される。

　また、図９～図１１には、系変動時における、タップ毎の伝達特性のフィルタ更新係数ΔＷ（ｎ）の２乗ノルムの変化を例示している。但し、横軸をタップとし（但し、１タップ当たり１６ミリ秒とする）、縦軸をフィルタ更新係数ΔＷの２乗ノルムとする。フィルタ更新係数ΔＷの２乗ノルムを実線で描き、参考のため、フィルタＷの２乗ノルムを点線で描いている。

　図９～図１１から分かるように、系変動時には、フィルタ更新係数ΔＷの２乗ノルムは低パワーで、穏やかに変化する。系変動時には、誤差信号ｅ（ｎ）が大きくなるが、伝達特性フィルタＷ（ｎ）の正しい学習が行なわれる。また、スピーカ１０１からの再生信号ｘ（ｎ）のパワーは同じである。このため、フィルタ更新係数ΔＷの２乗ノルムは、伝達特性フィルタＷ（ｎ）のパワーを保持したまま波形だけがわずかに変化する挙動になる、と思料される。

　図６～図８、並びに図９～図１１などから、ダブルトークにおいては直接波以降の本来は減衰していくはずの反射波の伝達特性パワーに対して大きく外れるが、系変動時においてはフィルタのパワー変化が微小である、というフィルタ形状に関する事前知識を得ることができる。

　図５を参照しても分かるように、ダブルトークが発生しない状況下では、壁からの反射波などによる残響成分は緩やかに減衰するので、フィルタＷの２乗ノルムの最大値に匹敵するようなフィルタ更新係数ΔＷの２乗ノルムの動きはない、と仮定することができる。他方、図８に示したダブルトーク発生時の例では、図１２に改めて示すように、固定遅延した以降のタップ数、すなわち時刻が経過した後に、参照番号１２０１で示すように、フィルタＷの２乗ノルムの最大値に匹敵し又は超えるようなフィルタ更新係数ΔＷの２乗ノルムの動きが起こる。このようなフィルタ更新係数ΔＷの２乗ノルムの動きは、残響成分によるものでないことは明らかであり、空間（伝達特性Ｈ）の特徴とは無相関な学習の挙動が現れるため、と思料される。

　そこで、本明細書で開示する技術では、タップＩＤ毎（言い換えれば、時刻の経過に応じて）フィルタを形成するとともに、ダブルトークと系変動で異なる特徴を持つこと（上述）に着目して、下式（１２）に示すように、ダブルトークの発生に応じて変化する変数μ_dt´を新たに定義する。そして、最終的なフィルタの学習式は、下式（１３）に示す通りとなる。但し、ｌはタップＩＤ、ｋは周波数ビンである（同上）。

　なお、上式（１３）において、フィルタ更新係数ΔＷ（ｎ）は、上式（９）に示した通りである。また、上式（１２）において、ｗ（ｌ）の２乗ノルム、並びに、Δｗ（ｌ）の２乗ノルムは、それぞれ上式（１０）及び（１１）に示した通りである。なお、ｃ_dt´は、ダブルトーク判定器の反応速度を調整するパラメータ（感度重み）である。

　フィルタの学習式（１３）では、収束速度を調整するステップサイズμが、μ_c・μ_dt´に置き換えられている。ここで、μ_cは固定値であり、μ_dt´はダブルトークには反応するが系変動には反応しない変数である。

　上式（１２）に示すμ_dt´は、フィルタＷの２乗ノルムの最大値と、フィルタ更新係数の２乗ノルムの和を分母とし、フィルタＷの２乗ノルムの最大値を分子とする。したがって、フィルタ更新係数の２乗ノルムが大きくなったときに係数μ_dt´は小さな値となる。すなわち、μ_dt´は、フィルタ更新係数の２乗ノルムが大きくなるほどゼロに近づく関数である。

　図１２（若しくは、図８）に示したように、フィルタＷの２乗ノルムの最大値に匹敵し又は超えるようなフィルタ更新係数ΔＷの２乗ノルムの動きが起こることを想定すると、μ_dt´を用いてステップサイズが表される学習式を適用すれば、ダブルトーク発生時には適応フィルタ１０３の学習速度を低下させて、ダブルトーク中の誤学習を抑制することができる。

　また、図９～図１１に示したように、系変動時にはフィルタ更新係数ΔＷの２乗ノルムの動きは緩やかであり、μ_dt´は１に張り付いたままであるから、μ_dt´を用いてステップサイズが表される学習式を適用すれば、学習速度が遅くなることはない。すなわち、上式（１２）及び（１３）で表される学習式によれば、系変動にも対応することができる。

　上式（１２）及び（１３）について、さらに詳しく説明する。

　フィルタ更新係数ΔＷには、参照信号ｘのタップ長分の過去のデータがエコー成分ｄに掛け合わされる。参照信号ｘとなるスピーカ再生音源が音声読み上げＴＴＳなどの場合、音声をフーリエ変化して周波数毎に見ると、時間方向にスパース（疎）となる。このため、タップ長分の参照信号からなる参照信号ベクトルＸの中でも、一部のタップ周辺には強い成分を持つが、残りのタップ区間では無信号のためゼロになる、ということが起こる。

　上式（１２）によれば、ダブルトークの判定に必要なのはフィルタ更新係数ΔＷの大きな変動である。ところが、ＴＴＳの場合には、一部のタップでは反応が見られないため、何らかの平均処理をしてしまうとダブルトーク判定器の精度が落ちてしまう。そこで、ダブルトークにより大きく反応したタップの変化を純粋に判定するために、それぞれのタップ毎に上式（１２）で表されるダブルトーク判定器を用いることにする。そして、ステップサイズμの調整もこれにならい、タップ毎にきめ細かく行う。

　また、上式（１２）は、ダブルトーク判定器を数式に落とし込んだものであるが、フィルタＷ及びそのフィルタ更新係数ΔＷのパワー成分を含む。ここで、フィルタＷ及びそのフィルタ更新係数ΔＷのパワー成分の最大値は、入力信号ｘの大きさや、スピーカとマイク間の距離、マイクの感度、ユーザー発話の音量などによって異なり、一意に決定することができない。

　以下の（ａ）及び（ｂ）を満たす場合には、μ_dt´はダブルトーク判定器として使い易い形である、ということができる。

（ａ）フィルタの学習式では、フィルタ更新係数ΔＷに収束速度（若しくは、更新速度）を表すステップサイズμとして掛け合わせること。
（ｂ）ゼロから１の間の値で、且つダブルトーク発生時にだけゼロに近づくような挙動である。

　そのためには、何らかの基準となる値に対して、特定状態で変化する値を組み込む必要がある。上式（１２）に示すμ_dt´の計算式は、推定されたフィルタＷのパワーの全タップの中の最大値を基準にして、フィルタ更新係数ΔＷのパワーを特定の状態として反応する式である。すなわち、上式（１２）は、推定されたフィルタＷのパワーの最大値の基準を分子とし、この最大値の基準とフィルタ更新係数ΔＷのパワーに反応感度を設定する定数ｃ_dt´を掛けたものとの和を分母とする。これにより、フィルタ更新係数ΔＷのパワーの変化がゼロのとき、つまりエコーが正しく消えているときは、分母と分子が一致してμ_dt´は１になる。一方、ダブルトークが発生したときには、フィルタ更新係数ΔＷのパワーが大きくなることから、μ_dt´の値がゼロに近づき、最終的にフィルタの更新を遅らせることができる。

　これまでの説明では、ダブルトークが発生する区間の検出を目的としているので、上式（１２）に示したように、処理の対象とする周波数帯域を統合して、μ_dt´を計算している。しかしながら、周波数毎にＳＮ比が異なるため、感度重みｃ_dt´の設計に無理が生じるという問題がある。そこで、下式（１４）に示すように、周波数毎に独立してフィルタ更新係数ΔＷの２乗ノルムを計算するようにして、ダブルトークの発生に応じて変化する、周波数毎の変数μ_dt″を新たに定義する。この場合、フィルタ更新係数ΔＷとともに、フィルタの２乗ノルムの最大値についても、下式（１５）に示すように、周波数毎に独立して計算したものの最大値とする。但し、ｌはタップＩＤ、ｋは周波数ビンである（同上）。

　また、この場合の最終的なフィルタの学習式は、下式（１６）に示す通りとなる。但し、同式（１６）において、μ_dt″はタップ長分のフレーム数のベクトルとなる。

　上式（１４）で表されるμ_dt″も、ダブルトーク判定器を数式に落とし込んだものということができる。

　上式（１２）若しくは（１４）で表されるダブルトーク判定器は、フィルタＷの最大パワーに対するフィルタ更新係数ΔＷのパワーの比、という言い方もできる。これに対し、下式（１７）に示すような、シグモイド（ｓｉｇｍｏｉｄ）型のダブルトーク判定器μ_dt ⁽³⁾を新たに定義することができる。なお、式（１７）中のＰ_e（ｋ，ｌ）は、下式（１８）に示す通りである。但し、ｌはタップＩＤ、ｋは周波数ビンである（同上）。Ｐ_e（ｋ，ｌ）は、フィルタの２乗ノルムの最大値と、周波数ビンｋ及びタップｌにおけるフィルタ更新係数の２乗ノルムの各デシベル値の差である。

　また、この場合の最終的なフィルタの学習式は、下式（１９）に示す通りとなる。但し、同式（１９）において、μ_dt ⁽³⁾はタップ長分のフレーム数のベクトルとなる。

　既に述べたように、ダブルトーク発生時には、μ_dt ⁽³⁾をゼロに近づけたいが、系変動時には、μ_dt ⁽³⁾を１に張り付けたままにしたい。シグモイド型によれば、μ_dt ⁽³⁾がゼロから１の間の変化をよりどちらかに近づくように２極化させ易い、という特徴がある。具体的には、シグモイド関数で表される上式（１７）中のゲインａをより大きな値とすることで、２極化が進む。

　なお、フィルタＷの最大パワーに対するフィルタ更新係数ΔＷのパワーの比を好適に表現することができれば、シグモイド関数以外のさまざまな関数を用いて、その他のダブルトーク判定器を構成することもできる。２極化が容易な関数であることがより好ましい。

　図１には、エコーキャンセラ１００の機能的構成例を模式的に示したが、適応フィルタ１０３の具体的な構成を図１３に示しておく。図１３に示す適応フィルタ１０３は、フィルタ部１３０１と、推定部１３０２と、調整部１３０３と、更新部１３０４を備えている。

　フィルタ部１３０１は、スピーカ１０１に入力される参照信号に、伝達特性を表す推定フィルタを掛けて、擬似エコー信号を出力する。

　推定部１３０２は、所定の推定アルゴリズムに従って、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する。推定アルゴリズムとしては、上述したように、ＬＭＳ、ＮＬＭＳ、ＡＰＡ、ＲＬＳを挙げることができる。例えばＮＬＭＳアルゴリズムを適用する場合には、推定部１３０２は、マイク１０２の入力信号と、フィルタ部１３０１で算出される擬似エコー信号との誤差を最小にするように、フィルタを推定し、フィルタ更新係数を得る。

　調整部１３０３は、推定部１３０２によって推定されたフィルタ更新係数に基づいて、フィルタの学習式において収束速度を決定するためのステップサイズμを決定する。本実施形態では、ステップサイズμを固定値μ_cとダブルトークには反応するが系変動には反応しない変数で表し（すなわち、μ＝μ_c・μ_dt´）、フィルタの最大パワーに対するフィルタ更新係数のパワーの比に基づいて、μ_dt´を計算する。

　具体的には、調整部１３０３は、上式（１２）に従って、フィルタのパワーの最大値の基準を分子とし、その最大値の基準とフィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、変数μ_dt´を計算する。但し、調整部１３０３は、フィルタのタップ毎に変数μ_dt´を計算する。調整部１３０３は、変数μ_dt´の計算式に落とし込まれたダブルトーク判定器ということもできる。

　あるいは、調整部１３０３は、上式（１４）に従って、周波数毎に独立して計算したフィルタ及びフィルタ更新係数を用いて、周波数毎の変数μ_dt´を計算するようにしてもよい。

　あるいは、調整部１３０３は、上式（１７）に従って、フィルタの最大パワーに対するフィルタ更新係数のパワーの比に応じたシグモイド関数を用いて、周波数毎の変数μ_dt´を計算するようにしてもよい。

　そして、更新部１３０４は、算出された変数μ_dt´で表されるステップサイズμ（＝μ_c・μ_dt´）をフィルタ更新係数に掛けて、次の時刻の推定フィルタを作成して、これをフィルタ部１３０１に設定する。

　本明細書で提案するダブルトーク判定器は、例えば上式（１２）、（１４）、若しくは（１７）で表されるが、推定されたフィルタＷのタップ毎のパワーに対する各タップのフィルタ更新係数ΔＷのパワーを監視し、推定されたｗから極端に大きなパワーとなるフィルタ更新係数ΔＷが出現したときに、自機器のスピーカ１０１とは異なる信号成分すなわちダブルトークが混入したと判定するように構成される。

　すなわち、本明細書で提案するダブルトーク判定器は、空間の伝達特性を表した推定フィルタＷを更新するフィルタ更新係数ΔＷに着目し、推定フィルタの２乗ノルムの形状からの変化を利用して、ダブルトークを判定する。本明細書で提案するダブルトーク判定器は、フィルタ更新係数ΔＷの変化の仕方がダブルトークと系変動とで異なる挙動となることを利用するものである。

　したがって、本明細書で提案するダブルトーク判定器は、ダブルトーク発生時における、通常のフィルタの更新では想定されないΔＷの挙動を捉えて、ダブルトークだけに反応することができ、系変動時に誤動作し難いという特徴がある。本明細書で提案するダブルトーク判定器は、フィルタの形状が乱れると、瞬時に反応するので、例えば無音から急に音が出るＴＴＳに強い、ということができる。また、本明細書で提案するダブルトーク判定器は、再生音量、音源、周波数、スピーカ１０１とマイク１０２の位置を意識せず、フィルタの２乗ノルムの最大値からの比をとることから、ダブルトークを判定する閾値の設定がシンプルである。

　また、上式（１２）、（１４）、若しくは（１７）を用いれば、フィルタの学習式の収束速度を決定するステップサイズμをフィルタＷのタップ毎のパワーを算出し、その最大値を基準にして、フィルタ更新係数ΔＷの変化量に合わせてゼロから１の間で変化する量に正規化することができる。すなわち、フィルタの学習式の収束速度を決定するステップサイズμを適切に自動調整することができる。

　なお、上式（１２）、（１４）並びに（１７）はいずれもタップ毎にステップサイズμを調整するための計算式であるが、全タップを平均処理して１つのステップサイズμを求めるようにしてもよい。全タップを平均処理する計算式を以下に示しておく。下式（２０）は、上式（１２）の変形例である。

　したがって、本明細書で開示する技術を適用したエコーキャンセラは、適応フィルタ１０３の収束速度を決定するステップサイズμを適切に自動調整することができる。また、本明細書で開示する技術を適用したエコーキャンセラは、ダブルトーク発生時にはフィルタＷの収束を遅らせる一方、系変動時には収束速度をそのままに保持してフィルタのＷの学習を進めることで、適切なフィルタ学習を実現することができる。本明細書で開示する技術によれば、フィルタの収束速度の向上を、低演算量で実現することができる。

　以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書で開示する技術は、テレビ電話など既にエコーキャンセル技術が広く応用されている分野だけでなく、スピーカとマイクを搭載した音声対話エージェントなどにも適用することができる。本明細書で開示する技術を音声対話エージェントに適用した場合、ダブルトークと系変動時の各々の場合に適応的に低遅延で伝達特性フィルタを更新することが可能であり、音声認識エンジンに投入しても誤動作し難くなる。

　本明細書で開示する技術は、デジタルシグナルプロセッサなどのハードウェアを使って実装することが可能であり、また、ソフトウェアで実装することも可能である。後者によれば、スピーカとマイクを搭載したさまざまな情報機器に本明細書で開示する技術を適用して、ダブルトークと系変動時の各々に適切に対応してエコーキャンセルを実現することができる。

　要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
を具備する音声処理装置。
（２）前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する、
上記（１）に記載の音声処理装置。
（３）前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを０に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを１に近づける、
上記（１）又は（２）のいずれかに記載の音声処理装置。
（４）前記調整部は、前記推定部が推定したフィルタのパワーの最大値の基準を分子とし、前記最大値の基準と前記フィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、前記ステップサイズを計算する、
上記（１）乃至（３）のいずれかに記載の音声処理装置。
（５）前記調整部は、前記フィルタのタップ毎に前記ステップサイズの調整を行う、
上記（１）乃至（４）のいずれかに記載の音声処理装置。
（６）前記調整部は、周波数毎に独立して計算したフィルタ及び前記フィルタ更新係数を用いて、周波数毎の前記ステップサイズを計算する、
上記（１）乃至（５）のいずれかに記載の音声処理装置。
（７）前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じて前記ステップサイズを２極化させる関数を用いて前記ステップサイズを計算する、
上記（１）乃至（３）のいずれかに記載の音声処理装置。
（８）前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じたシグモイド関数を用いて前記ステップサイズを計算する、
上記（１）乃至（３）のいずれかに記載の音声処理装置。
（９）前記推定部は、所定のアルゴリズムに従って、前記フィルタを推定する、
上記（１）乃至（８）のいずれかに記載の音声処理装置。
（１０）前記推定部は、ＬＭＳ、ＮＬＭＳ、ＡＰＡ、又はＲＬＳのうちいずれかにアルゴリズムに従って、前記フィルタを推定する、
上記（９）に記載の音声処理装置。
（１１）スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、
　前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップと、
を有する音声処理方法。
（１２）スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部と、
を具備する音声処理装置。
（１３）前記判定部は、前記フィルタ更新係数のパワーが前記フィルタの最大パワーに匹敵するときに、ダブルトークを検出する、
上記（１２）に記載の音声処理装置。
（１４）音声信号を出力するスピーカと、
　音声信号を入力するマイクと、
　前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
　前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部と、
を具備する情報処理装置。
（１５）スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部、
　前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータ・プログラム。

　１００…エコーキャンセラ
　１０１…スピーカ、１０２…マイク
　１０３…適応フィルタ、１０４…減算器
　１３０１…フィルタ部、１３０２…推定部
　１３０３…調整部、１３０４…更新部

Claims

　スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
を具備する音声処理装置。
　前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する、
請求項１に記載の音声処理装置。
　前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを０に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを１に近づける、
請求項１に記載の音声処理装置。
　前記調整部は、前記推定部が推定したフィルタのパワーの最大値の基準を分子とし、前記最大値の基準と前記フィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、前記ステップサイズを計算する、
請求項１に記載の音声処理装置。
　前記調整部は、前記フィルタのタップ毎に前記ステップサイズの調整を行う、
請求項１に記載の音声処理装置。
　前記調整部は、周波数毎に独立して計算したフィルタ及び前記フィルタ更新係数を用いて、周波数毎の前記ステップサイズを計算する、
請求項１に記載の音声処理装置。
　前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じて前記ステップサイズを２極化させる関数を用いて前記ステップサイズを計算する、
請求項１に記載の音声処理装置。
　前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じたシグモイド関数を用いて前記ステップサイズを計算する、
請求項１に記載の音声処理装置。
　前記推定部は、所定のアルゴリズムに従って、前記フィルタを推定する、
請求項１に記載の音声処理装置。
　前記推定部は、ＬＭＳ、（Ｌｅａｓｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）、ＮＬＭＳ（Ｎｏｒｍａｌｉｚｅｄ－ＬＭＳ）、ＡＰＡ（Ａｆｆｉｎｅ　Ｐｒｏｊｅｃｔｉｏｎ　Ａｌｇｏｒｉｔｈｍ）、又はＲＬＳ（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ　Ｓｑｕａｒｅ）のうちいずれかにアルゴリズムに従って、前記フィルタを推定する、
請求項９に記載の音声処理装置。
　スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、
　前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップと、
を有する音声処理方法。
　スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部と、
を具備する音声処理装置。
　前記判定部は、前記フィルタ更新係数のパワーが前記フィルタの最大パワーに匹敵するときに、ダブルトークを検出する、
請求項１２に記載の音声処理装置。
　音声信号を出力するスピーカと、
　音声信号を入力するマイクと、
　前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
　前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
　前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
　前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部と、
を具備する情報処理装置。