WO2019044176A1 - 音声処理装置及び音声処理方法、並びに情報処理装置 - Google Patents
音声処理装置及び音声処理方法、並びに情報処理装置 Download PDFInfo
- Publication number
- WO2019044176A1 WO2019044176A1 PCT/JP2018/025794 JP2018025794W WO2019044176A1 WO 2019044176 A1 WO2019044176 A1 WO 2019044176A1 JP 2018025794 W JP2018025794 W JP 2018025794W WO 2019044176 A1 WO2019044176 A1 WO 2019044176A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- filter
- step size
- power
- coefficient
- unit
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/002—Applications of echo suppressors or cancellers in telephonic connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/021—Casings; Cabinets ; Supports therefor; Mountings therein incorporating only one transducer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/007—Protection circuits for transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、情報処理装置、並びにコンピュータ・プログラムを提供する。 音声処理装置は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部を具備する。前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する。
Description
本明細書で開示する技術は、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置に関する。
スピーカとマイクを搭載した機器から音声や音楽を再生すると、自らのマイクに回り込み、音声通話や音声認識が正しく行えない。それを解決する技術にエコーキャンセラがある。エコーキャンセラは、自機器が発する音が空間を伝達し、マイクに到達する時点までの信号の反射パスの合成波を作り出す伝達特性を推定し、自機器が再生する信号にその推定伝達特性を畳み込み、マイク入力後に差引くことでキャンセルする技術である。
空間の伝達経路は、ユーザーの環境毎に異なり、人が動くだけでも変化する。音声通話や音声認識ではリアルタイム性が求められるため、この時々刻々と変化する伝達特性を適応的に推定する必要がある。推定アルゴリズムとして、演算量の少ないLMS(Least Mean Square:最小二乗平均)がリアルタイム・アプリケーションには適している。この種の推定アルゴリズムでは、エコー処理後の誤差を最小にするように、伝達特性フィルタを適応的に学習する。しかしながら、ある時刻で自機器以外にユーザー発話などが同時に含まれるダブルトークが発生すると、その誤差を最小にするように学習してしまうため、誤った伝達特性フィルタが推定され、伝達特性のミスマッチが起こり、エコーが消し残る(湧き出し)現象が発生するという問題がある。
ダブルトークに起因するエコーの消去性能劣化を抑圧するために、ダブルトーク判定器を用いたエコーキャンセラについて提案がなされている(例えば、特許文献1を参照のこと)。ダブルトーク判定器は、エコーの消し残り量が大きくなったときにユーザー発話と認識し、伝達特性フィルタの学習速度(ステップサイズ)を急激に低下させる機能を有する。ダブルトーク判定器を活用して、学習速度を低下させることにより、ダブルトーク中の誤学習を抑制することができる。
本明細書で開示する技術の目的は、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置を提供することにある。
本明細書で開示する技術の第1の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部を具備する音声処理装置である。
前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する。すなわち、前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを0に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを1に近づける。
また、本明細書で開示する技術の第2の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップを有する音声処理方法である。
また、本明細書で開示する技術の第3の側面は、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部を具備する音声処理装置である。
また、本明細書で開示する技術の第4の側面は、音声信号を出力するスピーカと、音声信号を入力するマイクと、前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部を具備する情報処理装置である。
本明細書で開示する技術によれば、ダブルトークに応じたエコーキャンセルを行う音声処理装置及び音声処理方法、並びに情報処理装置を提供することができる。
なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
エコーキャンセラには、ダブルトークの他にも、系変動と言われる問題についても注意すべきである。系変動は、例えば、機器にユーザーが近づく、カーテンが閉まる、自機器が移動する、といった音が伝達される空間の環境が変化することである。適応的に求めた伝達特性から空間の環境が突然変わると、伝達特性のミスマッチが起こり、エコーが消し残る。
系変動に起因するエコーの消去性能劣化を抑圧するためには、変化した空間の伝達特性に一刻も早く推定伝達特性を近づけたい。このため、系変動が発生したときには、ダブルトークのときとは逆に、伝達特性フィルタの学習速度を上げる(又は、ステップサイズなどの設定値をキープする)必要がある。
ところが、ダブルトーク判定器を導入すると、エコーの消し残りが大きくなると収束速度を遅くしてしまう機能が働くため、系変動時には環境への追従がなかなか進まないことになる。ダブルトーク対策と系変動対策はトレードオフの関係にあり、同時解決は難しいと言うことができる。
そこで、本明細書では、エコーの消し残りに基づいてダブルトークを判定するダブルトーク判定器(前述)の代わりに、別の尺度に基づいてダブルトークを判定する判定器、並びに別の尺度に基づく判定器を適用するエコーキャンセラについて、以下で提案する。
本明細書で提案するエコーキャンセラによれば、系変動には反応して伝達特性フィルタの学習速度を上げる一方、ダブルトーク時には伝達特性フィルタの学習速度を遅くさせつつ、系変動時には反応しない、という効果がある。したがって、本明細書で提案するエコーキャンセラによれば、ダブルトーク対策と系変動対策はトレードオフの関係を解消することができる。
本明細書で提案するエコーキャンセラでは、フィルタを更新させたい伝達特性の変化量に着目して、ダブルトーク時と系変動時の挙動の違いから、ダブルトーク又は系変動のうち一方にだけ反応する判定器を作成する。そして、このような判定器を用いることで、ダブルトーク時にはフィルタ更新を遅らせつつ、系変動時には設定通りの速いフィルタ更新速度で学習を進めることができる。
エコーキャンセル技術は、テレビ電話などで既に広く応用されてきている。通信相手が人間である場合には、自機器で再生する音が多少回り込んでも、意思の疎通は可能である。これに対し、近年では、スピーカとマイクを搭載した音声対話エージェントが普及し始めている。例えば、マイクに入力されたユーザー発話をネットワークに接続された音声認識エンジンに投入して、低遅延でテキスト化する必要が生じてきている。機器に向かってユーザーが近づくだけでも空間の伝達特性は変化する。その間に自機器が音を発すると、エコーの消し残りが発生し、ユーザー発話と誤認して音声認識エンジンに投入して誤動作してしまう、といった問題が顕在化してきている。本明細書で提案するエコーキャンセラは、ダブルトークと系変動時の各々に適切に対応して、低遅延で伝達特性フィルタを更新することが可能であり、音声対話エージェントにも好適に適用することができる。
図1には、エコーキャンセラ100の機能的構成例を模式的に示している。同図において、スピーカ101は、参照信号x(n)が入力されると、これを再生すなわち音声出力する。一方、マイク102には、音声信号d(n)が入力される。なお、nは、タップ数、すなわち適応フィルタ103のタップ位置を表す引き数である(なお、以下の説明では、タップ数の固定長をL個と設定し、その固定長Lの中でのインデックスをl(小文字のエル)で表すことにする。したがって、lの範囲は、1≦l≦Nとなる。また、L個の選択は最新のインデックスnから過去L個なので、インデックスは(n-L+1)までの値である)。以下では、nをサンプル時刻のインデックスをも意味するものとして使用する。
ここで、マイク102への入力信号d(n)は、スピーカ101からの回り込み信号HHx(n)、すなわちエコー信号を含む。但し、Hは実際の伝達特性であり、タップ数分の伝達特性h(l)を成分とする実伝達特性ベクトルとする(具体的には、H=[h(1),h(2),…,h(L)]T)。回り込み信号HH(n)は、スピーカ101から直接届く直接波x(n)の他に、環境からの反射信号を含む。反射信号は、近いものからの反射信号と、遠いものからの反射信号が混在したベクトルである。通常、近いものからの反射信号のパワーは大きく、遠いものからの反射信号のパワーは小さい。
適応フィルタ103は、自分の出力信号が目標信号に近づくように、自己のフィルタ特性を適応的に変更していく。具体的には、適応フィルタ103は、スピーカ101に入力される参照信号X(n)に、推定した伝達特性W(n)を掛けて、擬似エコー信号を出力する。但し、X(n)は、タップ数分の参照信号x(l)を成分とする参照信号ベクトルであり(下式(6)を参照のこと)、W(n)は、タップ数分の伝達特性(l)を成分とする推定伝達特性ベクトルである(下式(7)を参照のこと)。減算器104は、目標信号としてのマイク102への入力信号d(n)と、適応フィルタ103から出力される擬似エコー信号W(n)HX(n)との差分すなわち誤差信号e(n)を求めて(下式(1)を参照のこと)、適応フィルタ103に帰還する。
そして、適応フィルタ103は、誤差信号e(n)のパワーが最小となるように、自分自身のフィルタ特性すなわち推定伝達特性W(n)を調整する。
誤差信号e(n)のパワーが最小になったとき、適応フィルタ103のフィルタ係数W(n)は実際の伝達特性Hを表すことになる。仮に、目標信号d(n)と適応フィルタ103の出力信号W(n)HX(n)の差分e(n)が0であれば、適応フィルタの特性W(n)は実際の伝達特性Hと一致するはずです。
適応フィルタ103では、所定の推定アルゴリズムに従って、伝達特性を表すフィルタを推定する。例えば、LMS法の正規化されたNLMS(Normalized-LMS:正規化最小二乗平均)を採用した伝達特性の推定式(若しくは、フィルタの学習式)を、下式(2)に示しておく。
但し、上式(2)中のμは、収束速度若しくは更新速度を調整する定数、すなわち、ステップサイズである。ステップサイズμが大きいと、収束速度が速く、環境の変化(系変動など)にも追従し易いが、ステップサイズμが大き過ぎると発散し易くなる。当業界では、μをゼロから2の間の値にすることが好ましいことが知られている。
なお、エコーキャンセラには、上述したLMSやNLMS以外にも、APA(Affine Projection Algorithm:アフィン射影アルゴリズム)、RLS(Recursive Least Square:再帰的最小二乗)などの手法を採用することができる。また、機械学習を利用して、伝達特性W(n)を推定(学習)することもできる。各手法の特徴を、以下の表1にまとめておく。
RLS、APA、NLMS、LMSの順に性能が高いが、高性能なほど演算量も増大する。したがって、リアルタイム・アプリケーションに利用するには、NLMSやLMSあたりが妥当ということもできる。
マイク102では、エコー信号d(n)の他に、近端話者の発話s(n)や、テレビやその他のAV機器の出力音など突発雑音v(n)が収音されることも想定される(図2を参照のこと)。マイク102の入力信号d(n)に近端話者の発話s(n)が入った状態で、適応フィルタ103が伝達特性の推定処理を進めてしまうと、真の伝達特性をうまく学習できず、ダブルトークの問題(前述)が発生する。例えば、NLMSやLMSのようにエコー処理後の誤差を最小にするように伝達特性フィルタの学習を行う推定アルゴリズムでは、その誤差を最小にするように学習してしまうため、誤った伝達特性フィルタが推定され、エコーが消し残る現象が発生する。なお、本明細書では、突発雑音v(n)の抑圧若しくは除去に関しては扱わないことにする。
このため、ダブルトークが発生したときには、それを検出して、適応フィルタ103の学習速度を低下させることにより、ダブルトーク中の誤学習を抑制することが好ましい。例えば、上式(2)に示した伝達特性の推定式を、下式(3)に示すように、ダブルトーク発生時に収束速度を抑制する式に変形する。
上式(3)では、上式(2)中のステップサイズμが、μc・μdtに置き換えられている。ここで、μcは固定値であり、μdtはダブルトークの発生に応じて変化する変数である。したがって、ダブルトークが発生したときには、係数μdtをゼロに近づけることで、推定式(3)中のステップサイズμを小さくすることにより収束速度を抑制して、伝達特性のミスマッチ、エコーの消去性能劣化といったダブルトークの悪影響を抑圧することができる。
例えば、マイク102への入力信号d(n)と、適応フィルタ103の出力信号W(n)HX(n)との差分、すなわち誤差信号e(n)が大きくなったときにダブルトークと判定する、ウィーナ(Wiener)型のダブルトーク判定器が知られている(例えば、特許文献2を参照のこと)。
ウィーナ型のダブルトーク判定器を、係数μdtを算出する下式(4)に落とし込むことができる。
上式(4)中の分母のe(n)*e(n)は、誤差信号e(n)の2乗である。誤差信号e(n)が大きくなったときに、係数μdtが小さな値となる。すなわち、μdtは、誤差信号e(n)が大きくなるほどゼロに近づく関数である。したがって、ステップサイズμを小さくすることにより適応フィルタ103の学習速度を低下させて、ダブルトーク中の誤学習を抑制することができる。なお、上式(4)中の分母のcdtは、ダブルトーク判定器の反応速度を調整するパラメータ(感度重み)である。
ダブルトークや突発雑音(前述)が発生すると、マイク102の入力信号d(n)が急激に大きくなることに伴って誤差信号e(n)が大きくなる。そこで、適応フィルタ103は、上式(3)及び(4)に従って、ステップサイズμ(=μc・μdt)を調整することで、ダブルトーク中の誤学習を抑制することができる。
ところが、ダブルトークや突発雑音以外にも、誤差信号e(n)が大きくなる要因がある。具体的には、周囲の伝達特性が変わるような状況、すなわち系変動によっても、誤差信号e(n)が大きくなる。例えば、真の伝達特性がHからH´に変化すると、これに伴って適応フィルタ103で推定する伝達特性W(n)が真の伝達特性H´から大きくずれることによって、誤差信号e(n)が大きくなる。
ダブルトークや突発雑音のときには、上式(1)の右辺第1項のマイク102の入力信号d(n)が大きくなることにより誤差信号e(n)が大きくなる。これに対し、系変動が生じたときには、上式(1)の右辺第2項の推定伝達特性W(n)が真の伝達特性から大きくずれることにより誤差信号e(n)が大きくなる。ダブルトークや突発雑音と、系変動のいずれの場合も誤差信号e(n)は大きくなる。上式(4)のように、誤差信号e(n)に基づいてステップサイズμを調整する方法では、ダブルトークや突発雑音と系変動とを峻別することは難しい。
ダブルトークや突発雑音のときには学習速度を低下させて誤学習を抑圧すべきであるが、系変動のときには逆に学習速度を上げて変化した環境に素早く追従すべきである。適応フィルタ103が上式(3)及び(4)に従って学習速度を調整すると、ダブルトークや突発雑音、及び系変動のいずれにおいても学習速度が低下する。何故ならば、ダブルトークや突発雑音、及び系変動のいずれにおいても、上式(4)中の分母のe(n)*e(n)が大きくなるからである。
図3には、ダブルトークによりエコーが発生した様子を例示している。また、図4には、系変動によりエコーが発生した様子を例示している。但し、各図において、横軸は時間軸とし、縦軸はパワーとする。図3に示す例では、ユーザーの発話s(n)を学習したことにより、直後のシステム発話にエコーが発生している。一方、図4に示す例では、人が動くなどの系変動に対して十分な学習速度で追従できないために、直後のシステム発話にエコーが発生している。
上式(4)で表されるようなダブルトーク判定器では、ダブルトークと系変動のいずれの要因であるかに拘わらず、誤差信号e(n)が大きくなると、すべて反応してしまう。反応感度調整パラメータcdtを大きくして、ダブルトーク判定器の誤動作を低減する方法も考えられるが、系変動時には学習が進まないというトレードオフの問題がある。
ダブルトーク発生時には、適応フィルタ103が推定する伝達特性W(n)が変化することに起因してエコーが発生する。したがって、ダブルトーク発生時には、適応フィルタ103の学習を止めたい(若しくは、学習速度を低下させたい)。これに対し、系変動時には、実際の伝達特性Hが変化することに起因してエコーが発生する。したがって、系変動時には、むしろ適応フィルタ103の学習速度を速めたい。
ダブルトーク発生時には、μdtをゼロに近づけたい。ダブルトーク発生時には、反応感度調整パラメータcdtを大きくすることで、上式(4)よりμdtをゼロに近づけて、適応フィルタ103の学習速度を低下させて、エコーを抑圧することができる。
しかしながら、反応感度調整パラメータcdtを大きくすると、系変動時の学習速度が遅くなってしまう。系変動が発生したとき(例えば、音声合成(TTS:Text to Speach)時に人が動いたとき)には、学習速度が遅くならないように、μdtを1に張り付けたままにしたい。
誤差信号のパワーの大小に反応する判定器の場合、ダブルトークと系変動ともに誤差信号が大きくなる挙動となることから、ダブルトークと系変動のいずれか一方しか解決することができない。
ダブルトークと系変動ともに、エコーの消し残りが大きくなる。このため、上式(4)に落とし込まれたダブルトーク判定器では、ダブルトークと系変動の両方に反応してしまい、それぞれの状況に適したステップサイズμの調整ができない。ダブルトークのときにだけ現れる現象、あるいは系変動のときにだけ現れる現象があれば、それを検出するダブルトーク判定器を作成することが望ましい。
そこで、ダブルトーク発生時における適応フィルタ103の誤学習のメカニズムについて着目してみる。
下式(5)に示すように、次の時刻のフィルタW(n+1)を作成するために、現在の時刻nのフィルタW(n)にフィルタ更新係数ΔW(n)を足し合わせる。すなわち、本来は既に推定が完了している推定フィルタW(n)に対してわずかな変化量ΔW(n)を足し合わせて、推定フィルタW(n)を少しずつ更新していく。但し、フィルタ更新係数ΔW(n)は、伝達特性を表すフィルタを学習するために適用される推定アルゴリズムによって異なる。
時刻nにおいて、スピーカ101から再生され、マイク102に到達する参照信号X(n)は、下式(6)のように、適応フィルタ103のタップ長Lに相当する個数の成分からなるベクトルとして表される。但し、x(n)はスピーカ101からマイク102に直接届く直接波の成分である。その他の成分x(n-1)、x(n-2)、…、x(n-L+1)は壁などから反射された反射信号の成分である。遅延時間が大きな反射信号ほど、より遠く離れた壁からの反射信号である。
また、伝達特性を表す推定フィルタWは、下式(7)に示すように、参照信号の各成分x(n)、x(n-1)、x(n-2)、…、x(n-L+1)に掛ける係数からなる。但し、w(1)は直接信号x(n)に掛ける係数であり、その他の係数w(2)、w(3)、…、w(L)はそれぞれ反射信号x(n-1)、x(n-2)、…、x(n-L+1)に掛ける係数である。
そして、時刻nにおいて、伝達特性を推定した後の信号(すなわち、適応フィルタ103から出力される擬似エコー信号)y(n)は、下式(8)のように表される。
上式(7)で表される推定フィルタW自体は、実空間での伝達特性を表したものになっている。Wの値のうち、w(L)に近い後半の部分は、より遠く離れた壁からの反射信号に掛ける成分に相当する。より遠く離れた壁からの反射信号ほど、直接波に比べて非常に小さなパワーでマイク102に到達する参照信号成分となる(基本的に、音声信号のパワーは距離の2乗で減衰していく)。したがって、w(L)に近い後半の部分の係数ほど、小さな値となる。
ダブルトークは、スピーカ101とは別の、マイク102から離間した音源から発させる音声信号であり、言い換えれば、壁からの小さな反射成分しかないはずのタップに関しても強いパワーの音声信号としてマイク102に入力されることになる。このため、適応フィルタ103は、遠い壁の反射であるはずが大きな音で入力されているタップに関して、大きく係数を変更しようとする(すなわち、フィルタの形状が大きくなるように修正しようとする)。
したがって、ダブルトークにおいては、直接波以降の、本来は減衰していくはずの反射波の伝達特性パワーに対して大きく外れる現象をとらえ、そのときの収束速度を遅らせるためにステップサイズμを調整する式に落とし込む。一方、系変動時はもともと再生されているスピーカ101のパワーは変わらないため、推定されているフィルタの反射経路が変わることによる位相変化はあるものの、フィルタのパワー変化は微小である。
ダブルトーク発生時には、適応フィルタ103が推定する伝達特性W(n)が変化する。これに対し、系変動時には、推定する伝達特性W(n)はあまり変化せず、実際の伝達特性Hが変化する。
そこで、ダブルトークと系変動とで伝達特性の変化に相違があることに着目して、フィルタ更新係数ΔW(n)の2乗ノルムの変動について比較してみる。フィルタ更新係数ΔW(n)を下式(9)とし、伝達特性W(n)の2乗ノルム及びフィルタ更新係数ΔW(n)の2乗ノルムをそれぞれ下式(10)及び(11)に従って計算する。但し、lはタップID、kは周波数ビン(周波数分解能(ビン幅)に応じた離散値)である(以下、同様)。タップIDは、適応フィルタ103のタップ位置を表す引き数、及び、サンプル時刻のインデックスの双方を意味するものとする。
図5には、タップ毎の伝達特性W(n)の2乗ノルムの変化を例示している。但し、横軸をタップとし、縦軸をフィルタWの2乗ノルムとする。図示の例では、ダブルトークや系変動が発生しない場合を想定しているが、伝達特性W(n)の2乗ノルムは、固定遅延に相当するタップ位置でピークとなり、その後、壁からの反射波などの残響成分により緩やかに減衰する。
図6~図8には、ダブルトーク発生時における、タップ毎の伝達特性のフィルタ更新係数ΔW(n)の2乗ノルムの変化を例示している。但し、横軸をタップとし(但し、1タップ当たり16ミリ秒とする)、縦軸をフィルタ更新係数ΔWの2乗ノルムとする。フィルタ更新係数ΔWの2乗ノルムを実線で描き、参考のため、フィルタWの2乗ノルムを点線で描いている。
図6~図8から分かるように、ダブルトーク発生時には、フィルタ更新係数ΔWの2乗ノルムは、急峻に変化し、フィルタWの2乗ノルムの最大値をも超える。例えば図8を参照すると、200ミリ秒遅れて、直接波以上のパワーがフィルタ更新係数ΔWに入っている。ダブルトーク発生時には、誤差信号e(n)が大きくなると、伝達特性フィルタW(n)の誤学習が行なわれてしまうので、空間(伝達特性h)の特徴とは無相関な学習の挙動が現れるため、と思料される。
また、図9~図11には、系変動時における、タップ毎の伝達特性のフィルタ更新係数ΔW(n)の2乗ノルムの変化を例示している。但し、横軸をタップとし(但し、1タップ当たり16ミリ秒とする)、縦軸をフィルタ更新係数ΔWの2乗ノルムとする。フィルタ更新係数ΔWの2乗ノルムを実線で描き、参考のため、フィルタWの2乗ノルムを点線で描いている。
図9~図11から分かるように、系変動時には、フィルタ更新係数ΔWの2乗ノルムは低パワーで、穏やかに変化する。系変動時には、誤差信号e(n)が大きくなるが、伝達特性フィルタW(n)の正しい学習が行なわれる。また、スピーカ101からの再生信号x(n)のパワーは同じである。このため、フィルタ更新係数ΔWの2乗ノルムは、伝達特性フィルタW(n)のパワーを保持したまま波形だけがわずかに変化する挙動になる、と思料される。
図6~図8、並びに図9~図11などから、ダブルトークにおいては直接波以降の本来は減衰していくはずの反射波の伝達特性パワーに対して大きく外れるが、系変動時においてはフィルタのパワー変化が微小である、というフィルタ形状に関する事前知識を得ることができる。
図5を参照しても分かるように、ダブルトークが発生しない状況下では、壁からの反射波などによる残響成分は緩やかに減衰するので、フィルタWの2乗ノルムの最大値に匹敵するようなフィルタ更新係数ΔWの2乗ノルムの動きはない、と仮定することができる。他方、図8に示したダブルトーク発生時の例では、図12に改めて示すように、固定遅延した以降のタップ数、すなわち時刻が経過した後に、参照番号1201で示すように、フィルタWの2乗ノルムの最大値に匹敵し又は超えるようなフィルタ更新係数ΔWの2乗ノルムの動きが起こる。このようなフィルタ更新係数ΔWの2乗ノルムの動きは、残響成分によるものでないことは明らかであり、空間(伝達特性H)の特徴とは無相関な学習の挙動が現れるため、と思料される。
そこで、本明細書で開示する技術では、タップID毎(言い換えれば、時刻の経過に応じて)フィルタを形成するとともに、ダブルトークと系変動で異なる特徴を持つこと(上述)に着目して、下式(12)に示すように、ダブルトークの発生に応じて変化する変数μdt´を新たに定義する。そして、最終的なフィルタの学習式は、下式(13)に示す通りとなる。但し、lはタップID、kは周波数ビンである(同上)。
なお、上式(13)において、フィルタ更新係数ΔW(n)は、上式(9)に示した通りである。また、上式(12)において、w(l)の2乗ノルム、並びに、Δw(l)の2乗ノルムは、それぞれ上式(10)及び(11)に示した通りである。なお、cdt´は、ダブルトーク判定器の反応速度を調整するパラメータ(感度重み)である。
フィルタの学習式(13)では、収束速度を調整するステップサイズμが、μc・μdt´に置き換えられている。ここで、μcは固定値であり、μdt´はダブルトークには反応するが系変動には反応しない変数である。
上式(12)に示すμdt´は、フィルタWの2乗ノルムの最大値と、フィルタ更新係数の2乗ノルムの和を分母とし、フィルタWの2乗ノルムの最大値を分子とする。したがって、フィルタ更新係数の2乗ノルムが大きくなったときに係数μdt´は小さな値となる。すなわち、μdt´は、フィルタ更新係数の2乗ノルムが大きくなるほどゼロに近づく関数である。
図12(若しくは、図8)に示したように、フィルタWの2乗ノルムの最大値に匹敵し又は超えるようなフィルタ更新係数ΔWの2乗ノルムの動きが起こることを想定すると、μdt´を用いてステップサイズが表される学習式を適用すれば、ダブルトーク発生時には適応フィルタ103の学習速度を低下させて、ダブルトーク中の誤学習を抑制することができる。
また、図9~図11に示したように、系変動時にはフィルタ更新係数ΔWの2乗ノルムの動きは緩やかであり、μdt´は1に張り付いたままであるから、μdt´を用いてステップサイズが表される学習式を適用すれば、学習速度が遅くなることはない。すなわち、上式(12)及び(13)で表される学習式によれば、系変動にも対応することができる。
上式(12)及び(13)について、さらに詳しく説明する。
フィルタ更新係数ΔWには、参照信号xのタップ長分の過去のデータがエコー成分dに掛け合わされる。参照信号xとなるスピーカ再生音源が音声読み上げTTSなどの場合、音声をフーリエ変化して周波数毎に見ると、時間方向にスパース(疎)となる。このため、タップ長分の参照信号からなる参照信号ベクトルXの中でも、一部のタップ周辺には強い成分を持つが、残りのタップ区間では無信号のためゼロになる、ということが起こる。
上式(12)によれば、ダブルトークの判定に必要なのはフィルタ更新係数ΔWの大きな変動である。ところが、TTSの場合には、一部のタップでは反応が見られないため、何らかの平均処理をしてしまうとダブルトーク判定器の精度が落ちてしまう。そこで、ダブルトークにより大きく反応したタップの変化を純粋に判定するために、それぞれのタップ毎に上式(12)で表されるダブルトーク判定器を用いることにする。そして、ステップサイズμの調整もこれにならい、タップ毎にきめ細かく行う。
また、上式(12)は、ダブルトーク判定器を数式に落とし込んだものであるが、フィルタW及びそのフィルタ更新係数ΔWのパワー成分を含む。ここで、フィルタW及びそのフィルタ更新係数ΔWのパワー成分の最大値は、入力信号xの大きさや、スピーカとマイク間の距離、マイクの感度、ユーザー発話の音量などによって異なり、一意に決定することができない。
以下の(a)及び(b)を満たす場合には、μdt´はダブルトーク判定器として使い易い形である、ということができる。
(a)フィルタの学習式では、フィルタ更新係数ΔWに収束速度(若しくは、更新速度)を表すステップサイズμとして掛け合わせること。
(b)ゼロから1の間の値で、且つダブルトーク発生時にだけゼロに近づくような挙動である。
(b)ゼロから1の間の値で、且つダブルトーク発生時にだけゼロに近づくような挙動である。
そのためには、何らかの基準となる値に対して、特定状態で変化する値を組み込む必要がある。上式(12)に示すμdt´の計算式は、推定されたフィルタWのパワーの全タップの中の最大値を基準にして、フィルタ更新係数ΔWのパワーを特定の状態として反応する式である。すなわち、上式(12)は、推定されたフィルタWのパワーの最大値の基準を分子とし、この最大値の基準とフィルタ更新係数ΔWのパワーに反応感度を設定する定数cdt´を掛けたものとの和を分母とする。これにより、フィルタ更新係数ΔWのパワーの変化がゼロのとき、つまりエコーが正しく消えているときは、分母と分子が一致してμdt´は1になる。一方、ダブルトークが発生したときには、フィルタ更新係数ΔWのパワーが大きくなることから、μdt´の値がゼロに近づき、最終的にフィルタの更新を遅らせることができる。
これまでの説明では、ダブルトークが発生する区間の検出を目的としているので、上式(12)に示したように、処理の対象とする周波数帯域を統合して、μdt´を計算している。しかしながら、周波数毎にSN比が異なるため、感度重みcdt´の設計に無理が生じるという問題がある。そこで、下式(14)に示すように、周波数毎に独立してフィルタ更新係数ΔWの2乗ノルムを計算するようにして、ダブルトークの発生に応じて変化する、周波数毎の変数μdt″を新たに定義する。この場合、フィルタ更新係数ΔWとともに、フィルタの2乗ノルムの最大値についても、下式(15)に示すように、周波数毎に独立して計算したものの最大値とする。但し、lはタップID、kは周波数ビンである(同上)。
また、この場合の最終的なフィルタの学習式は、下式(16)に示す通りとなる。但し、同式(16)において、μdt″はタップ長分のフレーム数のベクトルとなる。
上式(14)で表されるμdt″も、ダブルトーク判定器を数式に落とし込んだものということができる。
上式(12)若しくは(14)で表されるダブルトーク判定器は、フィルタWの最大パワーに対するフィルタ更新係数ΔWのパワーの比、という言い方もできる。これに対し、下式(17)に示すような、シグモイド(sigmoid)型のダブルトーク判定器μdt
(3)を新たに定義することができる。なお、式(17)中のPe(k,l)は、下式(18)に示す通りである。但し、lはタップID、kは周波数ビンである(同上)。Pe(k,l)は、フィルタの2乗ノルムの最大値と、周波数ビンk及びタップlにおけるフィルタ更新係数の2乗ノルムの各デシベル値の差である。
また、この場合の最終的なフィルタの学習式は、下式(19)に示す通りとなる。但し、同式(19)において、μdt
(3)はタップ長分のフレーム数のベクトルとなる。
既に述べたように、ダブルトーク発生時には、μdt
(3)をゼロに近づけたいが、系変動時には、μdt
(3)を1に張り付けたままにしたい。シグモイド型によれば、μdt
(3)がゼロから1の間の変化をよりどちらかに近づくように2極化させ易い、という特徴がある。具体的には、シグモイド関数で表される上式(17)中のゲインaをより大きな値とすることで、2極化が進む。
なお、フィルタWの最大パワーに対するフィルタ更新係数ΔWのパワーの比を好適に表現することができれば、シグモイド関数以外のさまざまな関数を用いて、その他のダブルトーク判定器を構成することもできる。2極化が容易な関数であることがより好ましい。
図1には、エコーキャンセラ100の機能的構成例を模式的に示したが、適応フィルタ103の具体的な構成を図13に示しておく。図13に示す適応フィルタ103は、フィルタ部1301と、推定部1302と、調整部1303と、更新部1304を備えている。
フィルタ部1301は、スピーカ101に入力される参照信号に、伝達特性を表す推定フィルタを掛けて、擬似エコー信号を出力する。
推定部1302は、所定の推定アルゴリズムに従って、スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する。推定アルゴリズムとしては、上述したように、LMS、NLMS、APA、RLSを挙げることができる。例えばNLMSアルゴリズムを適用する場合には、推定部1302は、マイク102の入力信号と、フィルタ部1301で算出される擬似エコー信号との誤差を最小にするように、フィルタを推定し、フィルタ更新係数を得る。
調整部1303は、推定部1302によって推定されたフィルタ更新係数に基づいて、フィルタの学習式において収束速度を決定するためのステップサイズμを決定する。本実施形態では、ステップサイズμを固定値μcとダブルトークには反応するが系変動には反応しない変数で表し(すなわち、μ=μc・μdt´)、フィルタの最大パワーに対するフィルタ更新係数のパワーの比に基づいて、μdt´を計算する。
具体的には、調整部1303は、上式(12)に従って、フィルタのパワーの最大値の基準を分子とし、その最大値の基準とフィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、変数μdt´を計算する。但し、調整部1303は、フィルタのタップ毎に変数μdt´を計算する。調整部1303は、変数μdt´の計算式に落とし込まれたダブルトーク判定器ということもできる。
あるいは、調整部1303は、上式(14)に従って、周波数毎に独立して計算したフィルタ及びフィルタ更新係数を用いて、周波数毎の変数μdt´を計算するようにしてもよい。
あるいは、調整部1303は、上式(17)に従って、フィルタの最大パワーに対するフィルタ更新係数のパワーの比に応じたシグモイド関数を用いて、周波数毎の変数μdt´を計算するようにしてもよい。
そして、更新部1304は、算出された変数μdt´で表されるステップサイズμ(=μc・μdt´)をフィルタ更新係数に掛けて、次の時刻の推定フィルタを作成して、これをフィルタ部1301に設定する。
本明細書で提案するダブルトーク判定器は、例えば上式(12)、(14)、若しくは(17)で表されるが、推定されたフィルタWのタップ毎のパワーに対する各タップのフィルタ更新係数ΔWのパワーを監視し、推定されたwから極端に大きなパワーとなるフィルタ更新係数ΔWが出現したときに、自機器のスピーカ101とは異なる信号成分すなわちダブルトークが混入したと判定するように構成される。
すなわち、本明細書で提案するダブルトーク判定器は、空間の伝達特性を表した推定フィルタWを更新するフィルタ更新係数ΔWに着目し、推定フィルタの2乗ノルムの形状からの変化を利用して、ダブルトークを判定する。本明細書で提案するダブルトーク判定器は、フィルタ更新係数ΔWの変化の仕方がダブルトークと系変動とで異なる挙動となることを利用するものである。
したがって、本明細書で提案するダブルトーク判定器は、ダブルトーク発生時における、通常のフィルタの更新では想定されないΔWの挙動を捉えて、ダブルトークだけに反応することができ、系変動時に誤動作し難いという特徴がある。本明細書で提案するダブルトーク判定器は、フィルタの形状が乱れると、瞬時に反応するので、例えば無音から急に音が出るTTSに強い、ということができる。また、本明細書で提案するダブルトーク判定器は、再生音量、音源、周波数、スピーカ101とマイク102の位置を意識せず、フィルタの2乗ノルムの最大値からの比をとることから、ダブルトークを判定する閾値の設定がシンプルである。
また、上式(12)、(14)、若しくは(17)を用いれば、フィルタの学習式の収束速度を決定するステップサイズμをフィルタWのタップ毎のパワーを算出し、その最大値を基準にして、フィルタ更新係数ΔWの変化量に合わせてゼロから1の間で変化する量に正規化することができる。すなわち、フィルタの学習式の収束速度を決定するステップサイズμを適切に自動調整することができる。
なお、上式(12)、(14)並びに(17)はいずれもタップ毎にステップサイズμを調整するための計算式であるが、全タップを平均処理して1つのステップサイズμを求めるようにしてもよい。全タップを平均処理する計算式を以下に示しておく。下式(20)は、上式(12)の変形例である。
したがって、本明細書で開示する技術を適用したエコーキャンセラは、適応フィルタ103の収束速度を決定するステップサイズμを適切に自動調整することができる。また、本明細書で開示する技術を適用したエコーキャンセラは、ダブルトーク発生時にはフィルタWの収束を遅らせる一方、系変動時には収束速度をそのままに保持してフィルタのWの学習を進めることで、適切なフィルタ学習を実現することができる。本明細書で開示する技術によれば、フィルタの収束速度の向上を、低演算量で実現することができる。
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書で開示する技術は、テレビ電話など既にエコーキャンセル技術が広く応用されている分野だけでなく、スピーカとマイクを搭載した音声対話エージェントなどにも適用することができる。本明細書で開示する技術を音声対話エージェントに適用した場合、ダブルトークと系変動時の各々の場合に適応的に低遅延で伝達特性フィルタを更新することが可能であり、音声認識エンジンに投入しても誤動作し難くなる。
本明細書で開示する技術は、デジタルシグナルプロセッサなどのハードウェアを使って実装することが可能であり、また、ソフトウェアで実装することも可能である。後者によれば、スピーカとマイクを搭載したさまざまな情報機器に本明細書で開示する技術を適用して、ダブルトークと系変動時の各々に適切に対応してエコーキャンセルを実現することができる。
要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
を具備する音声処理装置。
(2)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する、
上記(1)に記載の音声処理装置。
(3)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを0に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを1に近づける、
上記(1)又は(2)のいずれかに記載の音声処理装置。
(4)前記調整部は、前記推定部が推定したフィルタのパワーの最大値の基準を分子とし、前記最大値の基準と前記フィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(5)前記調整部は、前記フィルタのタップ毎に前記ステップサイズの調整を行う、
上記(1)乃至(4)のいずれかに記載の音声処理装置。
(6)前記調整部は、周波数毎に独立して計算したフィルタ及び前記フィルタ更新係数を用いて、周波数毎の前記ステップサイズを計算する、
上記(1)乃至(5)のいずれかに記載の音声処理装置。
(7)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じて前記ステップサイズを2極化させる関数を用いて前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(8)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じたシグモイド関数を用いて前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(9)前記推定部は、所定のアルゴリズムに従って、前記フィルタを推定する、
上記(1)乃至(8)のいずれかに記載の音声処理装置。
(10)前記推定部は、LMS、NLMS、APA、又はRLSのうちいずれかにアルゴリズムに従って、前記フィルタを推定する、
上記(9)に記載の音声処理装置。
(11)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、
前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップと、
を有する音声処理方法。
(12)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部と、
を具備する音声処理装置。
(13)前記判定部は、前記フィルタ更新係数のパワーが前記フィルタの最大パワーに匹敵するときに、ダブルトークを検出する、
上記(12)に記載の音声処理装置。
(14)音声信号を出力するスピーカと、
音声信号を入力するマイクと、
前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部と、
を具備する情報処理装置。
(15)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータ・プログラム。
(1)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
を具備する音声処理装置。
(2)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する、
上記(1)に記載の音声処理装置。
(3)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを0に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを1に近づける、
上記(1)又は(2)のいずれかに記載の音声処理装置。
(4)前記調整部は、前記推定部が推定したフィルタのパワーの最大値の基準を分子とし、前記最大値の基準と前記フィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(5)前記調整部は、前記フィルタのタップ毎に前記ステップサイズの調整を行う、
上記(1)乃至(4)のいずれかに記載の音声処理装置。
(6)前記調整部は、周波数毎に独立して計算したフィルタ及び前記フィルタ更新係数を用いて、周波数毎の前記ステップサイズを計算する、
上記(1)乃至(5)のいずれかに記載の音声処理装置。
(7)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じて前記ステップサイズを2極化させる関数を用いて前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(8)前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じたシグモイド関数を用いて前記ステップサイズを計算する、
上記(1)乃至(3)のいずれかに記載の音声処理装置。
(9)前記推定部は、所定のアルゴリズムに従って、前記フィルタを推定する、
上記(1)乃至(8)のいずれかに記載の音声処理装置。
(10)前記推定部は、LMS、NLMS、APA、又はRLSのうちいずれかにアルゴリズムに従って、前記フィルタを推定する、
上記(9)に記載の音声処理装置。
(11)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、
前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップと、
を有する音声処理方法。
(12)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部と、
を具備する音声処理装置。
(13)前記判定部は、前記フィルタ更新係数のパワーが前記フィルタの最大パワーに匹敵するときに、ダブルトークを検出する、
上記(12)に記載の音声処理装置。
(14)音声信号を出力するスピーカと、
音声信号を入力するマイクと、
前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部と、
を具備する情報処理装置。
(15)スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部、
としてコンピュータを機能させるようにコンピュータ可読形式で記述されたコンピュータ・プログラム。
100…エコーキャンセラ
101…スピーカ、102…マイク
103…適応フィルタ、104…減算器
1301…フィルタ部、1302…推定部
1303…調整部、1304…更新部
101…スピーカ、102…マイク
103…適応フィルタ、104…減算器
1301…フィルタ部、1302…推定部
1303…調整部、1304…更新部
Claims (14)
- スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
を具備する音声処理装置。 - 前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に基づいて、前記ステップサイズを調整する、
請求項1に記載の音声処理装置。 - 前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が大きくなるほど前記ステップサイズを0に近づけ、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比が小さくなると前記ステップサイズを1に近づける、
請求項1に記載の音声処理装置。 - 前記調整部は、前記推定部が推定したフィルタのパワーの最大値の基準を分子とし、前記最大値の基準と前記フィルタ更新係数のパワーに反応感度を設定する定数を掛けたものとの和を分母として、前記ステップサイズを計算する、
請求項1に記載の音声処理装置。 - 前記調整部は、前記フィルタのタップ毎に前記ステップサイズの調整を行う、
請求項1に記載の音声処理装置。 - 前記調整部は、周波数毎に独立して計算したフィルタ及び前記フィルタ更新係数を用いて、周波数毎の前記ステップサイズを計算する、
請求項1に記載の音声処理装置。 - 前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じて前記ステップサイズを2極化させる関数を用いて前記ステップサイズを計算する、
請求項1に記載の音声処理装置。 - 前記調整部は、前記フィルタの最大パワーに対する前記フィルタ更新係数のパワーの比に応じたシグモイド関数を用いて前記ステップサイズを計算する、
請求項1に記載の音声処理装置。 - 前記推定部は、所定のアルゴリズムに従って、前記フィルタを推定する、
請求項1に記載の音声処理装置。 - 前記推定部は、LMS、(Least Mean Square)、NLMS(Normalized-LMS)、APA(Affine Projection Algorithm)、又はRLS(Recursive Least Square)のうちいずれかにアルゴリズムに従って、前記フィルタを推定する、
請求項9に記載の音声処理装置。 - スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定ステップと、
前記推定ステップにおいて推定されたフィルタ更新係数に基づいてステップサイズを調整する調整ステップと、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新ステップと、
を有する音声処理方法。 - スピーカから出力された参照信号がマイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記フィルタの最大パワーに対する、前記推定部によって推定されたフィルタ更新係数のパワーの比に基づいて、ダブルトークを判定する判定部と、
を具備する音声処理装置。 - 前記判定部は、前記フィルタ更新係数のパワーが前記フィルタの最大パワーに匹敵するときに、ダブルトークを検出する、
請求項12に記載の音声処理装置。 - 音声信号を出力するスピーカと、
音声信号を入力するマイクと、
前記スピーカから出力された参照信号が前記マイクに回り込むまでの伝達特性を表すフィルタを推定する推定部と、
前記推定部によって推定されたフィルタ更新係数に基づいてステップサイズを調整する調整部と、
前記フィルタ更新係数及び前記ステップサイズに応じて前記フィルタを更新する更新部と、
前記フィルタを適用してエコーキャンセル又はその他の音声信号処理を実施する処理部と、
を具備する情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019539023A JPWO2019044176A1 (ja) | 2017-08-28 | 2018-07-06 | 音声処理装置及び音声処理方法、並びに情報処理装置 |
US16/640,137 US11245983B2 (en) | 2017-08-28 | 2018-07-06 | Audio processing device and method for echo cancellation |
CN201880053951.1A CN111052767B (zh) | 2017-08-28 | 2018-07-06 | 音频处理装置、音频处理方法以及信息处理装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017163806 | 2017-08-28 | ||
JP2017-163806 | 2017-08-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019044176A1 true WO2019044176A1 (ja) | 2019-03-07 |
Family
ID=65525289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/025794 WO2019044176A1 (ja) | 2017-08-28 | 2018-07-06 | 音声処理装置及び音声処理方法、並びに情報処理装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11245983B2 (ja) |
JP (1) | JPWO2019044176A1 (ja) |
CN (1) | CN111052767B (ja) |
WO (1) | WO2019044176A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277718A (zh) * | 2020-01-21 | 2020-06-12 | 上海推乐信息技术服务有限公司 | 一种回声消除系统及其方法 |
JPWO2021024373A1 (ja) * | 2019-08-06 | 2021-02-11 | ||
US20220310106A1 (en) * | 2021-03-29 | 2022-09-29 | Semiconductor Components Industries, Llc | Echo canceller with variable step-size control |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116914B (zh) * | 2020-08-03 | 2022-11-25 | 四川大学 | 基于变步长lms算法的声音处理方法及系统 |
US11863702B2 (en) * | 2021-08-04 | 2024-01-02 | Nokia Technologies Oy | Acoustic echo cancellation using a control parameter |
CN116016787A (zh) * | 2022-12-30 | 2023-04-25 | 南方医科大学南方医院 | 基于Sigmoid变换及RLS算法的非线性回波消除 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002039709A1 (en) * | 2000-11-07 | 2002-05-16 | Telit Mobile Terminals S.P.A. | Control system of acoustic echo cancellers for telephone terminals with handset or handsfree |
US7072465B1 (en) * | 1999-01-06 | 2006-07-04 | Agere Systems, Inc. | Adaptive filter for network echo cancellation |
JP2008022478A (ja) * | 2006-07-14 | 2008-01-31 | Toa Corp | エコーキャンセラ |
US7333605B1 (en) * | 2002-04-27 | 2008-02-19 | Fortemedia, Inc. | Acoustic echo cancellation with adaptive step size and stability control |
JP2008312199A (ja) * | 2007-05-11 | 2008-12-25 | Toa Corp | エコーキャンセラ |
US20110033059A1 (en) * | 2009-08-06 | 2011-02-10 | Udaya Bhaskar | Method and system for reducing echo and noise in a vehicle passenger compartment environment |
WO2012153451A1 (ja) * | 2011-05-10 | 2012-11-15 | 三菱電機株式会社 | 適応等化器、音響エコーキャンセラ装置および能動騒音制御装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6088445A (en) * | 1997-08-01 | 2000-07-11 | Crystal Semiconductor Corp. | Adaptive filter system having mixed fixed point or floating point and block scale floating point operators |
US6707912B2 (en) * | 1999-03-11 | 2004-03-16 | Motorola, Inc. | Method and apparatus for setting a step size for an adaptive filter coefficient of an echo canceller |
JP3973929B2 (ja) * | 2002-03-05 | 2007-09-12 | 松下電器産業株式会社 | ハウリング検出装置 |
KR100698630B1 (ko) * | 2004-06-28 | 2007-03-21 | 삼성전자주식회사 | 스텝사이즈 조정기능을 구비한 등화기 및 등화방법 |
JP4769161B2 (ja) | 2006-10-11 | 2011-09-07 | 日本電信電話株式会社 | エコーキャンセラ装置、その方法、そのプログラム、およびその記録媒体 |
JP4569618B2 (ja) | 2006-11-10 | 2010-10-27 | ソニー株式会社 | エコーキャンセラ及び通話音声処理装置 |
JP5321372B2 (ja) * | 2009-09-09 | 2013-10-23 | 沖電気工業株式会社 | エコーキャンセラ |
CN105391879B (zh) * | 2015-12-09 | 2018-06-12 | 天津大学 | 一种无回声残留双端通话鲁棒的声学回声消除方法 |
-
2018
- 2018-07-06 JP JP2019539023A patent/JPWO2019044176A1/ja active Pending
- 2018-07-06 WO PCT/JP2018/025794 patent/WO2019044176A1/ja active Application Filing
- 2018-07-06 US US16/640,137 patent/US11245983B2/en active Active
- 2018-07-06 CN CN201880053951.1A patent/CN111052767B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072465B1 (en) * | 1999-01-06 | 2006-07-04 | Agere Systems, Inc. | Adaptive filter for network echo cancellation |
WO2002039709A1 (en) * | 2000-11-07 | 2002-05-16 | Telit Mobile Terminals S.P.A. | Control system of acoustic echo cancellers for telephone terminals with handset or handsfree |
US7333605B1 (en) * | 2002-04-27 | 2008-02-19 | Fortemedia, Inc. | Acoustic echo cancellation with adaptive step size and stability control |
JP2008022478A (ja) * | 2006-07-14 | 2008-01-31 | Toa Corp | エコーキャンセラ |
JP2008312199A (ja) * | 2007-05-11 | 2008-12-25 | Toa Corp | エコーキャンセラ |
US20110033059A1 (en) * | 2009-08-06 | 2011-02-10 | Udaya Bhaskar | Method and system for reducing echo and noise in a vehicle passenger compartment environment |
WO2012153451A1 (ja) * | 2011-05-10 | 2012-11-15 | 三菱電機株式会社 | 適応等化器、音響エコーキャンセラ装置および能動騒音制御装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021024373A1 (ja) * | 2019-08-06 | 2021-02-11 | ||
WO2021024373A1 (ja) * | 2019-08-06 | 2021-02-11 | 日本電信電話株式会社 | エコー消去装置、エコー消去方法、プログラム |
JP7235117B2 (ja) | 2019-08-06 | 2023-03-08 | 日本電信電話株式会社 | エコー消去装置、エコー消去方法、プログラム |
CN111277718A (zh) * | 2020-01-21 | 2020-06-12 | 上海推乐信息技术服务有限公司 | 一种回声消除系统及其方法 |
US20220310106A1 (en) * | 2021-03-29 | 2022-09-29 | Semiconductor Components Industries, Llc | Echo canceller with variable step-size control |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019044176A1 (ja) | 2020-10-01 |
US20210195324A1 (en) | 2021-06-24 |
CN111052767B (zh) | 2022-04-15 |
US11245983B2 (en) | 2022-02-08 |
CN111052767A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019044176A1 (ja) | 音声処理装置及び音声処理方法、並びに情報処理装置 | |
US9088336B2 (en) | Systems and methods of echo and noise cancellation in voice communication | |
US8693704B2 (en) | Method and apparatus for canceling noise from mixed sound | |
JP3727258B2 (ja) | エコー抑制処理システム | |
JP5347794B2 (ja) | エコー抑圧方法およびその装置 | |
US20190122685A1 (en) | Signal processor for signal enhancement and associated methods | |
US9264807B2 (en) | Multichannel acoustic echo reduction | |
JP2685031B2 (ja) | 雑音消去方法及び雑音消去装置 | |
US9111543B2 (en) | Processing signals | |
US10978086B2 (en) | Echo cancellation using a subset of multiple microphones as reference channels | |
CN109767780B (zh) | 一种语音信号处理方法、装置、设备及可读存储介质 | |
WO2016013667A1 (ja) | エコーキャンセラ装置 | |
US11538486B2 (en) | Echo estimation and management with adaptation of sparse prediction filter set | |
JP2007189543A (ja) | エコーキャンセラ | |
US11189297B1 (en) | Tunable residual echo suppressor | |
CN115175063A (zh) | 啸叫抑制方法、装置、音响及扩音系统 | |
JP3787088B2 (ja) | 音響エコー消去方法、装置及び音響エコー消去プログラム | |
CN112929506B (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
WO2021016000A2 (en) | Frequency domain adaptation with dynamic step size adjustment based on analysis of statistic of adaptive filter coefficient movement | |
US20220310106A1 (en) | Echo canceller with variable step-size control | |
WO2021190274A1 (zh) | 回声声场状态确定方法及装置、存储介质、终端 | |
CA2524162C (en) | Periodic signal enhancement system | |
Jithin et al. | Real time suppression of howling noise in public address system | |
WO2019239723A1 (ja) | 信号処理装置、信号処理方法、プログラム | |
Tanwar et al. | Performance Comparison of APA, JO-APA, VSS-APA, and VR-APA for Acoustic Echo Canceller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18850647 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019539023 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18850647 Country of ref document: EP Kind code of ref document: A1 |