WO2021210473A1

WO2021210473A1 - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Info

Publication number: WO2021210473A1
Application number: PCT/JP2021/014808
Authority: WO
Inventors: 祐樹里見
Original assignee: 株式会社トランストロン
Priority date: 2020-04-13
Filing date: 2021-04-07
Publication date: 2021-10-21
Also published as: EP4138307A4; US20230079749A1; EP4138307A1; JP7382273B2; JP2021168455A; CN115053460A

Abstract

発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。　スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、学習用信号に基づいて生成された１又は複数のマスクである基礎マスクから最適マスクを逐次生成又は選択する。最適マスクが選択される毎に、入力信号と最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知し、マイクロホンに発話が入力されず、かつ、受話信号が発話を含むことが検知された場合に、入力信号に対してエコーを抑圧する処理を逐次行う。

Description

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

　本発明は、エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムに関する。

　特許文献１には、受話側信号経路を伝送される学習用信号についてのパワースペクトルに基づいたマスクと、マイクロホンから入力された入力信号についてのパワースペクトルの値を周波数帯域毎に比較してダブルトーク状態であるか否かを検知し、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて入力信号のエコーを抑圧する処理を行うエコー抑圧装置が開示されている。

特開２０１８－２０１１４７号公報

　しかしながら、特許文献１に記載の通話信号処理装置では、受話側信号経路の信号が大きい場合を想定してマスクを生成しているため、マイクロホン側にいる利用者（近端話者）の発話が小さく、かつ受話側信号経路を伝送される受話信号が大きい場合には、受話側信号経路を伝送される入力信号にエコーサプレッサが強くかかってしまい、近端話者の声が消えてしまうおそれがある。

　本発明はこのような事情に鑑みてなされたもので、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができるエコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムを提供することを目的とする。

　上記課題を解決するために、本発明に係るエコー抑圧装置は、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された１又は複数のマスクである基礎マスクを記憶するマスク記憶部と、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、前記最適マスクが生成又は選択される毎に、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、を備えたことを特徴とする。

　本発明に係るエコー抑圧装置によれば、スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、学習用信号に基づいて生成された１又は複数のマスクである基礎マスクから最適マスクを逐次生成又は選択する。最適マスクが選択される毎に、入力信号と最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知し、マイクロホンに発話が入力されず、かつ、受話信号が発話を含むことが検知された場合に、入力信号に対してエコーを抑圧する処理を逐次行う。このように、受話信号の大きさに応じてマスクの大きさを変えることにより、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。

　前記学習用信号の大きさを変更して複数のマスクを生成するマスク生成部を備え、前記マスク記憶部は、前記マスク生成部が生成した複数のマスクを前記基礎マスクとして記憶し、前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクの中から前記最適マスクを選択する。これにより、受話レベル毎に残留エコーの周波数特性を正確に記憶し、受話信号の大きさに応じてマスクの大きさを変えることができる。また、エコーサプレッサの効き方を頻繁に変えることなく、安定した通話を確保することができる。

　前記学習用信号に基づいて１つのマスクを生成するマスク生成部を備え、前記マスク記憶部は、前記マスク生成部が生成した１つのマスクを前記基礎マスクとして記憶し、前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクに係数を掛け合わせることで前記最適マスクを生成する。これにより、受話レベル毎に残留エコーの周波数特性を正確に記憶し、受話信号の大きさに応じてマスクの大きさを変えることができる。また、複数の基礎マスクを記憶する必要がなく、使用するメモリを減らすことができる。

　前記マイクロホンに発話が入力されず前記スピーカから音が出力された状態から、前記マイクロホンに発話が入力されず前記スピーカから音が出力されない状態に移行したときに、前記送話側信号経路を信号が伝送されなくなる時間である第１時間を測定する信号測定部を備え、前記マスク選択部は、前記第１時間を前記所定期間として前記最適マスクを逐次生成又は選択する。これにより、受話信号により発生するエコーの長さに応じて所定期間を定めることができる。

　前記入力信号についてのパワースペクトルである入力信号パワースペクトル及び前記学習用信号のパワースペクトルである学習用パワースペクトルを計算する第１パワースペクトル計算部を備え、前記マスクは、一定区間の間に取得された前記学習用パワースペクトルの周波数帯域毎の最大値であり、前記最適マスクは、周波数帯域毎に値を有し、前記ダブルトーク検知部は、前記入力信号パワースペクトルの値と前記最適マスクの値とを周波数帯域毎に比較した結果に基づいてダブルトーク状態であるか否かを検知する。これにより、正確にダブルトーク状態を検知することができる。

　前記受話信号についてのパワースペクトルである受話信号パワースペクトルを計算する第２パワースペクトル計算部を備え、前記マスク選択部は、前記受話信号パワースペクトルの最大値と前記最適マスクとを周波数帯域毎に比較して前記最適マスクを生成又は選択する。これにより、受話信号の周波数特性を考慮して最適マスクを適切に生成又は選択ことができる。

　前記ダブルトーク検知部は、前記入力信号パワースペクトルと前記最適マスクとを周波数帯域毎に比較し、前記入力信号パワースペクトルが前記最適マスクを上回る周波数帯域数が第１閾値より小さい場合、又は、前記入力信号パワースペクトルが前記最適マスクを上回る領域の積分値が第２閾値より小さい場合には、前記受話側信号経路に信号が伝達されていないことを検知する。これにより、近端発話を正確に検知することができる。

　上記課題を解決するために、本発明に係るエコー抑圧方法は、例えば、近端端末のマイクロホンに発話が入力されず、前記近端端末のスピーカから音が出力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号に基づいて１又は複数のマスクである基礎マスクを生成及び記憶するステップと、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号と、前記基礎マスクとに基づいて、前記マイクロホンから入力された入力信号の大きさに応じた大きさのマスクである最適マスクを逐次生成又は選択するステップと、前記最適マスクが選択されたら、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するステップと、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、を含むことを特徴とする。

　上記課題を解決するために、本発明に係るエコー抑圧プログラムは、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、コンピュータを、前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された１又は複数のマスクである基礎マスクを記憶するマスク記憶部と、前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、前記最適マスクが選択される毎に、前記マイクロホンから入力された入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサとして機能させることを特徴とする。

　本発明によれば、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。

第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。エコー抑圧装置１の機能ブロックの概略を示す図である。エコー抑圧装置１においてマスクを生成するときの機能ブロックの概略を示す図である。時刻ｔ１における学習用パワースペクトルの一例である。図４に示す学習用パワースペクトルを含む複数の学習用パワースペクトルが入力されたときのマスクの一例である。受話レベルが異なる２つのマスクの例を示す図である。近端発話がないときの受話信号と入力信号との関係を示す図であり、（Ａ）は受話信号を示し、（Ｂ）は入力信号を示す。近端発話がないときの受話信号と入力信号との関係を示す図であり、（Ａ）は受話信号を示し、（Ｂ）は入力信号を示す。サンプル点が取得された時点以前の所定期間内に取得された受話信号の周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。サンプル点が取得された時点以前の所定期間内に取得された受話信号の周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。周波数帯域別に求められている受話信号のパワーの総和に基づいて最適マスクを選択する例を模式的に示す図である。入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。エコー抑圧装置１がエコーを逐次低減する処理の流れを示すフローチャートである。エコー抑圧装置２の機能ブロックの概略を示す図である。受話信号の信号レベルが閾値ＩＩ以上のときの入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。エコー抑圧装置３の機能ブロックの概略を示す図である。マスク選択部１４Ａが最適マスクを生成する処理を模式的に示す図である。エコー抑圧装置４の機能ブロックの概略を示す図である。エコー抑圧装置５の機能ブロックの概略を示す図である。エコー抑圧装置５においてマスクを生成するときの機能ブロックの概略を示す図である。エコー抑圧装置５がエコーを逐次低減する処理の流れを示すフローチャートである。

　以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置である。

　＜第１の実施の形態＞
　図１は、第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。音声通信システム１００は、主として、マイクロホン５１及びスピーカ５２を有する端末５０と、２台の携帯電話５３、５４と、スピーカアンプ５５と、エコー抑圧装置１とを有する。

　音声通信システム１００は、端末５０（近端端末）を利用する近端話者（近端側にいる利用者Ａ）が、携帯電話５４（遠端端末）を利用する遠端話者（遠端側にいる利用者Ｂ）と音声通信を行なうシステムである。携帯電話５４を介して入力された音声信号をスピーカ５２によって拡声出力し、かつ、近端側にいる利用者の発する音声をマイクロホン５１により集音して携帯電話５４へ伝送することで、利用者Ａは、携帯電話５３を把持することなく拡声通話（ハンズフリー通話）が可能となる。携帯電話５３と携帯電話５４とは、一般的な電話回線により接続されている。

　エコー抑圧装置１は、マイクロホン５１を介して入力された信号を、端末５０から携帯電話５３へ伝送する送話側信号経路に設けられる。

　エコー抑圧装置１は、例えば、音声通信システム１００内の通信端末等（例えば、車載装置、会議システム、携帯端末）に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置１は、例えば、主として、情報処理を実行するためのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶装置を含むコンピュータシステム及びソフトウエア（エコー抑圧プログラム）によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記憶しておき、そこからコンピュータにインストールされてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納（記憶）しておいてもよい。

　図２は、エコー抑圧装置１の機能ブロックの概略を示す図である。エコー抑圧装置１は、機能的には、主として、エコー除去部１１と、周波数分析器（ＦＦＴ部）１２、１９と、マスク記憶部１３と、マスク選択部１４と、ダブルトーク検知部１５と、エコーサプレッサ１６と、復元部（ＩＦＦＴ部）１７とを有する。図２において、上側の信号経路は、マイクロホン５１から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ５２へ信号を伝送する受話側信号経路である。なお、エコー抑圧装置１の機能構成要素は、処理内容に応じてさらに多くの構成要素に分類されてもよいし、１つの構成要素が複数の構成要素の処理を実行してもよい。

　エコー除去部１１は、例えば、適応フィルタを用いてエコーを除去する。エコー除去部１１は、与えられた手順に従ってフィルタ係数を更新して、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される信号から擬似エコー信号を減算することで、エコーを除去するものである。なお、適応フィルタについては既に公知であるため、説明を省略する。

　なお、本実施の形態では、エコー除去部１１に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部１１に適用することもできる。また、エコー除去部１１は必須ではないが、エコーの一部が除去された学習用信号を用いてマスクを生成することで、後に詳述するように、マスクの値が小さくなり、入力信号が小さい場合であっても、入力信号についてのパワースペクトル（以下、入力信号パワースペクトルという）の値がマスクの値を超えやすくなり、近端発話（利用者Ａ（図１参照）の発話）があることをより正確に検知することができるため、エコー除去部１１を設けることが望ましい。

　周波数分析器（ＦＦＴ部）１２、１９は、信号に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。ＦＦＴ部１２は、送話側信号経路を伝送される信号、ここではエコー除去部１１を通過した信号に対して高速フーリエ変換を行い、ＦＦＴ部１９は、受話側信号経路を伝送される受話信号に対して高速フーリエ変換を行う。ＦＦＴ部１２、１９は、時間の関数を周波数の関数に変換した結果を周波数帯域ｉ毎のＸ［ｉ］として求める。

　マスク記憶部１３は、マスク生成部１８（図３参照）により生成されたマスクを記憶する。以下、マスクの生成について詳細に説明する。マスクは、エコー抑圧装置１がエコーを抑圧する処理を行なう前に、前もって生成される。

　図３は、エコー抑圧装置１においてマスクを生成するときの機能ブロックの概略を示す図である。エコー抑圧装置１は、マスク生成部１８を機能的に有する。マスクの生成処理は、主として、マスク生成部１８で行われる。

　マスクの生成処理について詳細に説明する。まず、エコー除去部１１において十分に適応フィルタの学習を終えた後に、近端発話がない状況下で、スピーカ５２から音が出力される遠端側の片側発話（シングルトーク）を繰り返す。そして、シングルトーク時に送話側信号経路を伝送される信号を学習用信号とする。エコー抑圧装置１においては、エコー除去部１１によりエコーが除去された信号が学習用信号となる。

　学習用信号は、ＦＦＴ部１２に入力される。ＦＦＴ部１２は、学習用信号に対して高速フーリエ変換を行い、マスク生成部１８に入力する。マスク生成部１８は、学習用信号についてのパワースペクトルを一定区間毎に計算して、複数の学習用パワースペクトルを求める。ここで、一定区間とは、任意に定められた所定の時間領域であり、時刻ｔ１、ｔ２、ｔ３・・・で示す。

　なお、パワースペクトルＰ［ｉ］とは、高速フーリエ変換によって求められた周波数要素ｉ毎のＸ［ｉ］のパワーを周波数要素の関数として表したものである（数式（１）参照）。

・・・（１）

　図４は、時刻ｔ１における学習用パワースペクトルの一例である。以下、パワースペクトルにおけるパワー（縦軸の値）を、パワースペクトルの値という。パワースペクトルの横軸は周波数である。マスク生成部１８は、一定区間毎に計算された複数の学習用パワースペクトルを記憶する。

　マスク生成部１８は、周波数帯域毎に、複数の学習用パワースペクトルの値のうちの最大値を取得し、これをマスクとする。図５は、図４に示す学習用パワースペクトルを含む複数の学習用パワースペクトルが入力されたときのマスクの一例である。そして、マスク生成部１８は生成したマスクをマスク記憶部１３に出力し、マスク記憶部１３はマスクを記憶する。

　本実施の形態では、マスク生成部１８は、学習用信号の大きさ（受話レベル）を変更して複数のマスクを生成する。図６は、受話レベルが異なる２つのマスクの例を示す図である。図６における実線は、受話レベルが大きい場合、すなわちエコーが大きく返り得る場合のマスクであり、図６における破線は、受話レベルが小さい場合のマスクである。このように、マスク生成部１８は、学習用信号の大きさを変更してマスクを生成する処理を複数回行い、複数のマスクを生成する。これにより、受話レベル毎に、残留エコーの周波数特性を正確に記憶することができる。

　なお、マスク生成部１８が生成し、マスク記憶部１３が記憶するマスクの数は２つに限られず、３つ以上であってもよい。以下、マスク記憶部１３が記憶する複数のマスクを基礎マスクという。

　図２の説明に戻る。マスク選択部１４には、ダブルトーク検知部１５から受話信号についてのパワースペクトル（以下、受話信号パワースペクトルという）が逐次入力される。マスク選択部１４は、受話信号パワースペクトルが逐次入力された（サンプル点が取得された）ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク（以下、最適マスクという）を基礎マスクから逐次選択する。

　ここで、サンプル点が取得された時点以前の所定期間は、受話信号が０になってから（スピーカ５２から音が出力されなくなってから）入力信号の値が０となるまでに要する時間を基準に求められる。この所定時間は、受話信号の大きさによっても変化するが、短い場合で数１０ｍ秒～数１００ｍ秒程度であり、長い場合で１秒～２秒程度である。

　図７、８は、近端発話がない（マイクロホン５１に発話が入力されていない）ときの受話信号と入力信号との関係を示す図であり、（Ａ）は受話信号を示し、（Ｂ）は入力信号を示す。図７は受話信号のレベルが小さい場合であり、図８は受話信号のレベルが大きい場合を示す。

　車内での音の反射や、スピーカ５２の振動等がスピーカ５２から音になって出力されるため、近端発話が無くてもエコー信号が入力信号として存在する。受話信号のレベルが小さい場合には、受話信号が０になってからも入力信号が略１００ｍ秒程度存在し、受話信号のレベルが大きい場合には、受話信号が０になってからも入力信号が略１５０ｍ秒程度存在する。したがって、本実施の形態では、所定時間を略１００ｍ秒～略３００ｍ秒とする。

　マスク選択部１４は、受話信号パワースペクトルのサンプル点が取得された時点以前の略１００ｍ秒～略３００ｍ秒内に取得された受話信号のパワーの最大値に基づいて最適マスクを選択する。

　図９、１０は、サンプル点が取得された時点以前の所定期間内に取得された受話信号パワースペクトルの周波数帯域毎の最大値と、最適マスクとの関係を模式的に示す図である。図９、１０において、実線は所定期間内に取得された受話信号スペクトルの最大値を示し、点線は基礎マスクを示す。ここでは、３つのマスクが基礎マスクとして記憶されているものとする。マスク選択部１４は、受話信号のパワーの最大値と基礎マスクとを周波数帯域毎に比較して、いずれの周波数帯域においても、受話信号の最大値よりもマスクの値が小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。図９に示す場合には、最も値が大きいマスクが選択され（図９太点線参照）、図１０に示す場合には、中間の値のマスクが選択される（図１０太点線参照）。これにより、受話信号の周波数特性を考慮して最適マスクを選択することができる。

　なお、マスク選択部１４は、受話信号パワースペクトルのサンプル点が取得された時点以前の略１００ｍ秒～略３００ｍ秒内に取得された受話信号のパワーの最大値に基づいて最適マスクを選択するのではなく、受話信号パワースペクトルのサンプル点が取得された時点以前の略１００ｍ秒～略３００ｍ秒内に取得された受話信号のパワーの総和や平均値に基づいて最適マスクを選択してもよい。

　図１１は、周波数帯域別に求められている受話信号のパワーの平均値に基づいて最適マスクを選択する例を模式的に示す図である。図１１において、実線の細線は受話信号のパワースペクトルの最大値であり、実線の太線は受話信号のパワースペクトルの最大値（図９における細線）を周波数帯域別に足し合わせ（総和）、それを周波数帯域で割った平均値である。つまり、平均値は総和と同義である。また、図１１において、点線はマスクである。

　マスク選択部１４は、受話信号の平均値とマスクとを周波数帯域毎に比較し、受話信号の平均値よりもマスクが小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。図１１においては、最も小さい値のマスクが選択される（図１１太点線参照）。

　なお、周波数帯域別に求められている受話信号のパワーの総和に基づいて最適マスクを選択する場合には、周波数帯域別に求められている受話信号のパワーの総和と基礎マスクのパワーの総和とを比較し、受話信号のパワーの総和よりもマスクが小さくならないように、受話信号に最も近いマスクを最適マスクとして選択する。このように、受話信号のパワーの総和や平均値に基づいて最適マスクを選択することで、１つの周波数帯域におけるパワーのみが突出した場合にその影響を低減することができる。

　図２の説明に戻る。ダブルトーク検知部１５は、ＦＦＴ部１２、１９から入力されたスペクトル波形に基づいて、それぞれ、入力信号パワースペクトル及び受話信号パワースペクトルを単位時間毎に計算する。なお、ＦＦＴ部１２及びダブルトーク検知部１５の一部が本発明の第１パワースペクトル計算部に相当し、ＦＦＴ部１９及びダブルトーク検知部１５の一部が本発明の第２パワースペクトル計算部に相当する。

　また、ダブルトーク検知部１５は、マスク選択部１４で最適マスクが選択される毎に、逐次、入力信号パワースペクトルの値と、マスク選択部１４で選択された最適マスクの値とを周波数帯域毎に比較する。そして、ダブルトーク検知部１５は、比較した結果に基づいて、ダブルトーク状態であるか否かを検知する。ダブルトーク検知部１５は、ダブルトーク状態であるか否かを検知する処理を、入力信号パワースペクトルが計算される単位時間毎に行う。

　以下、ダブルトーク検知部１５において、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。ここで、ダブルトーク状態とは、近端話者（利用者Ａ）及び遠端話者（利用者Ｂ）が共に発話している状態である。

　まず、ダブルトーク検知部１５は、周波数帯域毎に、入力信号パワースペクトルの値と、最適マスクの値とを比較し、入力信号パワースペクトルの値が最適マスクの値を上回る周波数帯域の数（以下、超過数という）を数える。ダブルトーク検知部１５は、超過数が予め用意した閾値Ｉ（第１閾値に相当）以下であるかを求める。なお、閾値Ｉは、任意の値に設定することができる。

　図１２、１３は、それぞれ、入力信号パワースペクトルの値と、マスクの値とを比較する様子を模式的に示す図である。図１２、１３において、実線は入力信号パワースペクトルを示し、破線は受話信号を示し、一点鎖線はマスクを示す。

　図１２に示す場合は、直近の所定期間内に取得された受話信号が大きく、値が大きいマスクが最適マスクとして選択されている。ダブルトーク検知部１５は、超過数が０であり閾値Ｉ（例えば、閾値Ｉ＝３）以下であるため、近端発話無しであることを検知する。

　図１３に示す場合は、直近の所定期間内に取得された受話信号が小さく、値が小さいマスクが最適マスクとして選択されている。ダブルトーク検知部１５は、超過数（図１３丸印参照）が閾値Ｉ以上であるため、近端発話有りであることを検知する。

　また、ダブルトーク検知部１５は、携帯電話５３から端末５０へと送信される受話信号のパワースペクトルを取得し、その信号レベルを求める。受話信号のパワースペクトルは、受話側信号経路からＦＦＴ部１９を介して取得される。ダブルトーク検知部１５は、受話信号の信号レベルと、予め用意した閾値ＩＩＩとを比較する。なお、閾値ＩＩＩは、任意の値に設定することができる。

　ダブルトーク検知部１５は、受話信号の信号レベルが予め用意した閾値ＩＩＩ以上の場合に、遠端発話（利用者Ｂ（図１参照）の発話）があり、受話信号が発話を含むことを検知する。

　このように、ダブルトーク検知部１５は、閾値Ｉ、ＩＩＩに基づいて近端発話及び遠端発話の有無を検知することで、近端発話及び遠端発話が有るダブルトーク状態か、近端発話のみのシングルトークであるか、遠端発話のみのシングルトークであるかを検知する。

　なお、ダブルトーク検知部１５が近端発話の有無を検知する方法は、超過数が閾値Ｉ以上か否かに基づいて行う方法に限られない。例えば、ダブルトーク検知部１５は、入力信号パワースペクトルの値がマスクの値を上回る部分の総和（積分値）が予め用意した閾値ＩＩ（第２閾値に相当）以下であるかを求め、この結果に基づいて近端発話の有無を検知してもよい。なお、閾値ＩＩは、任意の値に設定することができる。

　図１４は、入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。図１４において、実線は入力信号パワースペクトルを示し、破線は受話信号を示し、一点鎖線は最適マスクを示す。また、図１４において、入力信号パワースペクトルの値がマスクの値を上回る部分には、斜線で網掛け表示している。ダブルトーク検知部１５は、網掛け部分の面積を求める。図１４では、入力信号パワースペクトルの値がマスクの値を上回る部分の面積が閾値ＩＩＩ以上であるため、送話側信号経路を信号が伝送されている（近端発話あり）ことを検知する。

　図２の説明に戻る。エコーサプレッサ１６は、ＦＦＴ部１２を通過した入力信号に対してエコーサプレス処理（エコーを強く抑圧する処理）を行なう。エコーサプレッサ１６は、遠端発話のみのシングルトークである場合には、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。エコーサプレス処理は、既に公知であるため、詳細な説明を省略する。

　なお、本実施の形態では、エコーサプレッサ１６は、遠端発話のみのシングルトーク以外の場合にエコーサプレス処理を無効にしてエコーサプレス処理のＯＮ／ＯＦＦを切り替えたが、エコーサプレス処理の強弱を切り替えてもよい。例えば、遠端発話のみのシングルトークである場合にはエコーを強く抑圧し、その他の場合にはエコーを弱く抑圧してもよい。

　ダブルトーク検知部１５からエコーサプレッサ１６へは、ダブルトーク状態であるか否かを検知した結果が単位時間毎に入力される。したがって、エコーサプレッサ１６は、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。

　ＩＦＦＴ部１７は、ＦＦＴ部１２を通過した入力信号に対して逆ＦＦＴ（ＩＦＦＴ、ＩｎｖｅｒｓｅＦＦＴ）を行う。

　図１５は、エコー抑圧装置１がエコーを逐次低減する処理の流れを示すフローチャートである。この処理は、受話信号及び入力信号がエコー抑圧装置１に入力される間、所定時間毎に連続して行われる。

　まず、エコー除去部１１は入力信号からエコーを除去し（ステップＳ１１）、ダブルトーク検知部１５はエコーが除去された入力信号のパワースペクトルを算出する（ステップＳ１２）。また、ダブルトーク検知部１５は受話信号パワースペクトルを算出し（ステップＳ１３）、マスク選択部１４は受話信号パワースペクトルに基づいて基礎マスクから最適マスクを選択する（ステップＳ１４）。なお、ステップＳ１１又はステップＳ１２と、ステップＳ１３とは同時に行なってもよい。

　次に、ダブルトーク検知部１５は、ステップＳ１２で算出された入力信号パワースペクトル及びステップＳ１３で算出された受話信号パワースペクトルに基づいてダブルトーク状態か否かを検知する（ステップＳ１５）。そして、エコーサプレッサ１６は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、ステップＳ１２で算出された入力信号パワースペクトルに対してエコーサプレス処理を行う（ステップＳ１６）。最後に、ＩＦＦＴ部１７が入力信号パワースペクトルを時間軸信号に戻す（ステップＳ１７）。

　本実施の形態によれば、近端発話による入力信号と、遠端発話の残留エコーとが異なる周波数特性をもつことに着目し、残留エコーの周波数特性をマスクとして記憶しておき、入力信号の周波数特性とマスクとを比較することでダブルトーク状態を正確に検知し、ダブルトーク状態でないときにはエコーサプレス処理を有効にすることで、近端音声（マイクロホン５１から入力された音声）を劣化させず、確実にエコーを抑圧することができる。

　また、本実施の形態によれば、受話信号の大きさに応じてマスクの大きさを変えるため、発話が小さい場合にも発話を検知し、適切にエコーを抑圧することができる。

　例えば、受話信号が大きい時を想定して生成されたマスクのみを用いる場合、マイクロホン側にいる利用者（近端話者）の発話が小さく、かつ受話信号が大きいときには、受話側信号経路を伝送される入力信号にエコーサプレッサが強くかかってしまい、近端話者の声が消えてしまうおそれがある。それに対し、本実施の形態では、学習用信号の大きさを変更して複数のマスクを生成し、その中から受話信号に最も近いマスクを最適マスクとして選択する、すなわち発生し得るエコーの大きさに合わせた最適マスクを用いてダブルトーク状態を正確に検知するため、発話が小さい場合にも発話を検知することができ、かつエコーサプレッサが必要以上に強くかかることを防ぐことができる。

　また、例えば、遠端話者（利用者Ｂ）がコールセンターである場合には、利用者Ｂに隣接する話者の声が受話信号に入ってしまうことがある。このような場合には、小さい受話信号が継続するため、受話信号が大きい時を想定して生成されたマスクではダブルトーク状態を適切に検知することができない。それに対し、本実施の形態では、受話信号の大きさに合わせた最適マスクを用いてダブルトーク状態を正確に検知するため、このような状況下においても対応可能である。

　また、本実施の形態によれば、マスク選択部１４は、受話信号パワースペクトルが逐次入力されたら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを基礎マスクから逐次選択するため、エコーサプレッサの効き方を頻繁に変えることなく、安定した通話を確保することができる。

　携帯電話５３と携帯電話５４とは一般的な電話回線により接続されているため、通信状態によっては、スピーカ５２から出力される音の大きさ（受話信号の大きさ）が頻繁に変わる。サンプル点が取得された時点の受話信号の大きさのみに基づいて最適マスクを選択する場合には、受話信号の大きさが頻繁に変わることでマスクが頻繁に切り替わってしまい、その結果、遠端話者が近端話者の声を聞きとり難くなる恐れがある。それに対し、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択することで、マスクが頻繁に切り替わることを防ぐことができ、通話の品質が安定する。

　また、受話側から信号が入力されていない場合であっても、車内で音が反射したり、スピーカ５２の振動等によりスピーカ５２から音が出力されたりすることがある。このような場合には、サンプル点が取得された時点の受話信号の大きさのみに基づいて最適マスクを選択すると、受話信号は０であるため、エコーサプレッサ１６が機能せず、エコーを消すことができない。それに対し、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択することで、以前の状態を含めて最適マスクを選択することができ、車内での音の反射やスピーカ５２の振動等がスピーカ５２から音になって出力されることによるエコーを消すことができる。

　なお、本発明の形態では、マスク選択部１４は、受話信号のサンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて最適マスクを選択するにあたり、所定期間を予め略１００ｍ秒～略３００ｍ秒と定めたが、所定期間の値及び所定時間の定め方はこれに限られない。例えば、マスク生成部１８は、マスクを生成するときに、受話信号が０になってから入力信号が０になるまでの時間を測定し、当該測定された時間に基づいて所定時間を定めてもよい。これにより、受話信号により発生するエコーの長さに応じて所定期間を定めることができる。

　また、本発明の形態では、マスク生成部１８は、学習用信号の大きさを変更して複数のマスクを生成したが、マスク生成部１８が生成するマスクの種類はこれに限られない。例えば、マスク生成部１８は、車内での音の反射やスピーカ５２の振動等がスピーカ５２から音になって出力されることによるエコー信号のみが入力信号として入力されているときのマスクを生成してもよい。このとき、マスク生成部１８は、エコー除去部１１において十分に適応フィルタの学習を終えた後に、車内での音の反射やスピーカ５２の振動等がスピーカ５２から音になって出力されることによるエコー信号のみが発生した状態で送話側信号経路を伝送される信号（図７、８（Ｂ）参照）を学習用信号とし、学習用パワースペクトルの値のうちの最大値を周波数帯域毎に取得し、これをマスクとする。

　そして、マスク選択部１４は、受話信号及び入力信号のパワースペクトルを逐次取得し、それぞれのサンプル点が取得されたら、サンプル点が取得された時点以前の所定期間内に取得された受話信号及び入力信号に基づいて、最適マスクを基礎マスクから逐次選択する。例えば、受話信号が０で入力信号が小さい状態が数ミリ秒継続した場合には、マスク選択部１４は、車内での音の反射やスピーカ５２の振動等がスピーカ５２から音になって出力されることによるエコー信号のみが発生した状態に対応するマスクを最適マスクとして選択する。これにより、車内での音の反射やスピーカ５２の振動等がスピーカ５２から音になって出力されることによるエコー信号を適切に消すことができる。

　＜第２の実施の形態＞
　第２の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第２の実施の形態に係るエコー抑圧装置２について説明する。なお、第１の実施の形態に係るエコー抑圧装置１と同一の部分については、同一の符号を付し、説明を省略する。

　図１６は、エコー抑圧装置２の機能ブロックの概略を示す図である。エコー抑圧装置２は、主として、エコー除去部１１と、ＦＦＴ部１２、１９と、マスク記憶部１３と、マスク選択部１４と、ダブルトーク検知部１５Ａと、エコーサプレッサ１６Ａと、ＩＦＦＴ部１７と、マスク生成部１８（図示省略）とを有する。

　ダブルトーク検知部１５Ａは、ダブルトーク状態であるか否かを周波数帯域毎に検知する。なお、ダブルトーク検知部１５Ａは、ダブルトーク状態であるか否かを検知する処理を、入力信号パワースペクトルが計算される単位時間毎に逐次行う。

　以下、ダブルトーク検知部１５Ａにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部１５Ａは、周波数帯域毎に、ＦＦＴ部１２から入力された入力信号パワースペクトルの値と、マスク選択部１４で選択された最適マスクの値とを比較する。

　また、ダブルトーク検知部１５Ａは、携帯電話５３から端末へと送信される受話信号を取得し、その信号レベルを求める。ダブルトーク検知部１５Ａは、受話信号の信号レベルと、閾値ＩＩとを比較する。

　そして、ダブルトーク検知部１５Ａは、入力信号パワースペクトルの値が最適マスクの値を上回っていない周波数帯域について、受話信号の信号レベルが閾値ＩＩ以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないことを検知する。

　図１７は、受話信号の信号レベルが閾値ＩＩ以上のときの入力信号パワースペクトルの値と、最適マスクの値とを比較する様子を模式的に示す図である。図１７において、実線は入力信号パワースペクトルを示し、破線は最適マスクを示す。

　図１７の実線の丸印で囲んだ周波数帯域は、入力信号パワースペクトルの値が最適マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部１５Ａは、遠端発話があり、かつ近端発話がある、すなわちダブルトーク状態であることを検知する。

　それに対し、図１７の点線の丸印で囲んだ周波数帯域は、入力信号パワースペクトルの値が最適マスクの値を上回っていない。したがって、この周波数帯域については、ダブルトーク検知部１５Ａは、遠端発話があるが近端発話がない遠端発話のみのシングルトーク、すなわちダブルトーク状態ではないことを検知する。

　図１６の説明に戻る。エコーサプレッサ１６Ａは、ＦＦＴ部１２を通過した入力信号に対してエコーサプレス処理を行う。エコーサプレッサ１６Ａは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の周波数帯域についてはエコーサプレス処理を無効にする。エコーサプレッサ１６Ａは、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。

　本実施の形態によれば、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。

　＜第３の実施の形態＞
　第３の実施の形態は、マスク記憶部が１つの基礎マスクを保持し、マスク選択部で最適マスクを生成する形態である。以下、第３の実施の形態に係るエコー抑圧装置３について説明する。なお、第１、２の実施の形態に係るエコー抑圧装置１、２と同一の部分については、同一の符号を付し、説明を省略する。

　図１８は、エコー抑圧装置３の機能ブロックの概略を示す図である。エコー抑圧装置３は、主として、エコー除去部１１と、ＦＦＴ部１２、１９と、マスク記憶部１３Ａと、マスク選択部１４Ａと、ダブルトーク検知部１５と、エコーサプレッサ１６と、ＩＦＦＴ部１７と、マスク生成部１８（図示省略）とを有する。

　マスク生成部１８は、ＦＦＴ部１２により計算された学習用信号についてのパワースペクトルに基づいてマスクを生成し、生成したマスクを記憶する。マスク生成部１８は、受話側信号経路の信号が大きい時を想定して生成されたマスク（図５参照）のみを生成し、当該マスクのみが基礎マスクとしてマスク記憶部１３Ａに記憶される。

　マスク選択部１４Ａは、受話信号パワースペクトルのサンプル点が取得された時点以前の所定期間内に取得された受話信号のパワーの最大値に基づいて、基礎マスクに係数を掛け合わせることで最適マスクを生成する。

　図１９は、マスク選択部１４Ａが最適マスクを生成する処理を模式的に示す図である。図１９において、実線は所定期間内に取得された受話信号スペクトルの最大値を示し、点線は基礎マスクを示す。マスク選択部１４Ａは、受話信号のパワーの最大値と基礎マスクとを周波数帯域毎に比較して、いずれの周波数帯域においても、受話信号の最大値よりも最適マスクの値が小さくならないように、かつ、最適マスクが受話信号の最大値に近接するように、基礎マスクに係数を掛け合わせることで最適マスクを生成する。図１８に示す例では、マスク選択部１４Ａは、基礎マスクの各周波数帯域のパワーに係数０．３をかけて最適マスクを生成する。これにより、受話信号の周波数特性を考慮して最適マスクを生成することができる。

　本実施の形態によれば、複数の基礎マスクを記憶する必要がなく、使用するメモリを減らすことができる。本実施の形態は、受話信号の大きさによらずマスクの形状が類似するときに有効である。

　なお、本実施の形態では、マスク選択部１４Ａは、周波数帯域によらず、基礎マスクの各周波数帯域のパワーに任意の係数をかけて最適マスクを生成したが、周波数帯域毎に基礎マスクに掛け合わせる係数を変えてもよい。例えば、周波数帯域が大きくなるにつれて係数を小さくしてもよい。この場合には、周波数帯域の大きさと係数との関係を示す式をマスク記憶部１３Ａに保持しておき、マスク選択部１４Ａは、任意の周波数における係数と、周波数帯域の大きさと係数との関係を示す式に基づいて各周波数帯域における係数を求めればよい。これにより、受話信号の周波数特性をより反映した最適マスクを生成することができる。

　＜第４の実施の形態＞
　第４の実施の形態は、ＦＦＴ部１９を用いない形態である。以下、第４の実施の形態に係るエコー抑圧装置４について説明する。なお、第１の実施の形態～第３の実施の形態に係るエコー抑圧装置１～３と同一の部分については、同一の符号を付し、説明を省略する。

　図２０は、エコー抑圧装置４の機能ブロックの概略を示す図である。エコー抑圧装置４は、主として、エコー除去部１１と、ＦＦＴ部１２と、マスク記憶部１３と、マスク選択部１４Ｂと、ダブルトーク検知部１５と、エコーサプレッサ１６と、ＩＦＦＴ部１７と、マスク生成部１８（図示省略）とを有する。

　マスク選択部１４Ｂには、受話信号が逐次入力される。マスク選択部１４は、受話信号が逐次入力された（サンプル点が取得された）ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク（以下、最適マスクという）を基礎マスクから逐次選択する。

　本実施の形態ではＦＦＴ部１９を用いないため、マスク選択部１４Ｂには、周波数帯域毎に分かれていない受話信号のパワーが入力される。そして、マスク選択部１４Ａは、一定時間の間に入力された受話信号のパワーの総和と、マスクの周波数帯域毎のパワーの総和とを比較する。そして、マスク選択部１４Ｂは、マスク記憶部１３に記憶された基礎マスクのうち、マスクのパワーの総和よりも受話信号のパワーの総和が小さく、かつ、マスクのパワーの総和が受話信号のパワーの総和に最も近いマスクを最適マスクとして選択する。

　ダブルトーク検知部１５Ｂは、エコー除去部１１から入力された入力信号パワースペクトルと、マスク選択部１４Ｃが選択した最適マスクの値とを比較し、入力信号パワースペクトルの値が最適マスクの値を上回る周波数帯域の数（超過数）を数える。そして、ダブルトーク検知部１５Ｂは、超過数が任意の閾値以下である場合に近端発話無しであることを検知する。

　また、ダブルトーク検知部１５Ｂは、受話信号の大きさと、予め用意した閾値とを比較する。ダブルトーク検知部１５は、受話信号の大きさが予め用意した閾値以上の場合に、遠端発話（利用者Ｂ（図１参照）の発話）があり、受話側信号経路を信号が伝送されていることを検知する。

　本実施の形態によれば、マスクの選択処理の演算量を減らすことができる。

　＜第５の実施の形態＞
　第５の実施の形態は、ＦＦＴ部１２、１９を用いない形態である。以下、第５の実施の形態に係るエコー抑圧装置５について説明する。なお、第１の実施の形態～第４の実施の形態に係るエコー抑圧装置１～４と同一の部分については、同一の符号を付し、説明を省略する。

　図２１は、エコー抑圧装置５の機能ブロックの概略を示す図である。図２２は、エコー抑圧装置５においてマスクを生成するときの機能ブロックの概略を示す図である。エコー抑圧装置５は、主として、エコー除去部１１と、マスク記憶部１３Ｂと、マスク選択部１４Ｃと、ダブルトーク検知部１５Ｃと、エコーサプレッサ１６Ｂと、マスク生成部１８Ａとを有する。

　まず、図２２を用いてマスクの生成処理について詳細に説明する。まず、エコー除去部１１において十分に適応フィルタの学習を終えた後に、マイクロホン５１から音が入力されていない状況下で、スピーカ５２から音が出力される遠端側の片側発話（シングルトーク）を繰り返す。そして、エコー除去部１１によりエコーが除去された信号を学習用信号とする。

　一定区間毎に計算された学習用信号のパワー（学習用パワー）は、マスク生成部１８Ａに入力される。マスク生成部１８Ａは、入力された複数の学習用パワーを記憶する。マスク生成部１８Ａは、入力された複数の学習用パワーの値のうちの最大値を取得し、これをマスクとする。したがって、生成されたマスクは値を１つだけ有する。

　本実施の形態では、マスク生成部１８Ａは、学習用信号の大きさ（受話レベル）を変更して複数のマスクを生成する処理を複数回行い、複数のマスクを生成する。これにより、受話レベル毎に、残留エコーの大きさを正確に記憶することができる。

　図２１の説明に戻る。マスク記憶部１３Ｂは、マスク生成部１８Ａにより生成された複数のマスクを基礎マスクとして記憶する。

　マスク選択部１４Ｃには、受話信号が逐次入力される。マスク選択部１４Ｃは、受話信号パワースペクトルが逐次入力された（サンプル点が取得された）ら、サンプル点が取得された時点以前の所定期間内に取得された受話信号に基づいて、受話信号の大きさに応じたマスク（以下、最適マスクという）を基礎マスクから逐次選択する。

　本実施の形態ではＦＦＴ部１９を用いないため、マスク選択部１４Ｃには、周波数帯域毎に分かれていない受話信号のパワーが入力される。マスク選択部１４Ｃは、一定時間の間に入力された受話信号のパワーの総和と、マスクのパワーとを比較する。そして、マスク選択部１４Ｃは、マスク記憶部１３Ｂに記憶された基礎マスクのうち、マスクのパワーよりも受話信号のパワーの総和が小さく、かつ、マスクのパワーの総和が受話信号のパワーの総和に最も近いマスクを最適マスクとして選択する。

　例えば、マスク記憶部１３Ｂに３つのマスク（受話レベルが３のときの第１マスク、受話レベルが６のときの第２マスク、受話レベルが９の時の第３マスク）が記憶されており、マスク選択部１４Ｃに入力された受話信号のパワーが２である場合には、マスク選択部１４Ｃは第１マスクを最適マスクとして選択する。また、例えば、マスク選択部１４Ｃに入力された受話信号のパワーが４である場合には、マスク選択部１４Ｃは第２マスクを最適マスクとして選択する。

　ダブルトーク検知部１５Ｃは、エコー除去部１１から入力された入力信号の大きさと、マスク選択部１４Ｃが選択した最適マスクの値とを比較し、入力信号の大きさが最適マスクの値より大きい場合には、近端発話ありと検知する。

　また、ダブルトーク検知部１５Ｃは、受話信号の大きさと、予め用意した閾値とを比較する。ダブルトーク検知部１５Ｃは、受話信号の大きさが予め用意した閾値以上の場合に、遠端発話有りであることを検知する。

　エコーサプレッサ１６Ｂは、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、エコー除去部１１を通過した入力信号に対してエコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。

　図２３は、エコー抑圧装置５がエコーを逐次低減する処理の流れを示すフローチャートである。この処理は、受話信号及び入力信号がエコー抑圧装置１に入力される間、所定時間毎に連続して行われる。

　まず、エコー除去部１１は入力信号からエコー除去し（ステップＳ１１）、マスク選択部１４は受話信号のパワーに基づいて基礎マスクから最適マスクを選択する（ステップＳ１８）。

　次に、ダブルトーク検知部１５は、ステップＳ１１でエコーが除去された入力信号のパワー及び受話信号のパワーに基づいてダブルトーク状態か否かを検知する（ステップＳ１９）。そして、エコーサプレッサ１６は、遠端発話のみのシングルトークである場合には、ステップＳ１１でエコーが除去された入力信号に対してエコーサプレス処理を行う（ステップＳ２０）。

　本実施の形態によれば、ＦＦＴ処理及びＩＦＦＴ処理を行わないため、演算量を削減することができる。

　以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。特に、実施の形態においては、振幅の二乗で表されるパワーに基づいて基礎マスクの生成、最適マスクの生成や選択、ダブルトーク状態の検知等を行ったが、これらの処理は振幅の絶対値に基づいて行ってもよい。

１、２、３、４、５：エコー抑圧装置
１１　　：エコー除去部
１２　　：ＦＦＴ部
１３、１３Ａ、１３Ｂ：マスク記憶部
１４、１４Ａ、１４Ｂ、１４Ｃ：マスク選択部
１５、１５Ａ、１５Ｂ：ダブルトーク検知部
１６、１６Ａ、１６Ｂ：エコーサプレッサ
１７　　：ＩＦＦＴ部
１８、１８Ａ：マスク生成部
１９　　：ＦＦＴ部
５０　　：端末
５１　　：マイクロホン
５２　　：スピーカ
５３、５４：携帯電話
５５　　：スピーカアンプ
１００　：音声通信システム

Claims

　スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された入力信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、
　前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された１又は複数のマスクである基礎マスクを記憶するマスク記憶部と、
　前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得される毎に、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、
　前記最適マスクが生成又は選択される毎に、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、
　前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、
　を備えたことを特徴とするエコー抑圧装置。
　前記学習用信号の大きさを変更して複数のマスクを生成するマスク生成部を備え、
　前記マスク記憶部は、前記マスク生成部が生成した複数のマスクを前記基礎マスクとして記憶し、
　前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクの中から前記最適マスクを選択する
　ことを特徴とする請求項１に記載のエコー抑圧装置。
　前記学習用信号に基づいて１つのマスクを生成するマスク生成部を備え、
　前記マスク記憶部は、前記マスク生成部が生成した１つのマスクを前記基礎マスクとして記憶し、
　前記マスク選択部は、前記入力信号の大きさに基づいて前記基礎マスクに係数を掛け合わせることで前記最適マスクを生成する
　ことを特徴とする請求項１に記載のエコー抑圧装置。
　前記マイクロホンに発話が入力されず前記スピーカから音が出力された状態から、前記マイクロホンに発話が入力されず前記スピーカから音が出力されない状態に移行したときに、前記送話側信号経路を信号が伝送されなくなる時間である第１時間を測定する信号測定部を備え、
　前記マスク選択部は、前記第１時間を前記所定期間として前記最適マスクを逐次生成又は選択する
　ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
　前記入力信号についてのパワースペクトルである入力信号パワースペクトル及び前記学習用信号のパワースペクトルである学習用パワースペクトルを計算する第１パワースペクトル計算部を備え、
　前記マスクは、一定区間の間に取得された前記学習用パワースペクトルの周波数帯域毎の最大値であり、
　前記最適マスクは、周波数帯域毎に値を有し、
　前記ダブルトーク検知部は、前記入力信号パワースペクトルの値と前記最適マスクの値とを周波数帯域毎に比較した結果に基づいてダブルトーク状態であるか否かを検知する
　ことを特徴とする請求項１から４のいずれか一項に記載のエコー抑圧装置。
　前記受話信号についてのパワースペクトルである受話信号パワースペクトルを計算する第２パワースペクトル計算部を備え、
　前記マスク選択部は、前記受話信号パワースペクトルの最大値と前記最適マスクとを周波数帯域毎に比較して前記最適マスクを生成又は選択する
　ことを特徴とする請求項５に記載のエコー抑圧装置。
　前記ダブルトーク検知部は、前記入力信号パワースペクトルと前記最適マスクとを周波数帯域毎に比較し、前記入力信号パワースペクトルが前記最適マスクを上回る周波数帯域数が第１閾値より小さい場合、又は、前記入力信号パワースペクトルが前記最適マスクを上回る領域の積分値が第２閾値より小さい場合には、前記マイクロホンに発話が入力されていないことを検知する
　ことを特徴とする請求項５又は６に記載のエコー抑圧装置。
　近端端末のマイクロホンに発話が入力されず、前記近端端末のスピーカから音が出力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号に基づいて１又は複数のマスクである基礎マスクを生成及び記憶するステップと、
　前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号と、前記基礎マスクとに基づいて、前記マイクロホンから入力された入力信号の大きさに応じた大きさのマスクである最適マスクを逐次生成又は選択するステップと、
　前記最適マスクが選択されたら、前記入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するステップと、
　前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、
　を含むことを特徴とするエコー抑圧方法。
　スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、
　コンピュータを、
　前記マイクロホンに発話が入力されず、前記スピーカから音が出力されるときに、前記送話側信号経路を伝送される学習用信号に基づいて生成された１又は複数のマスクである基礎マスクを記憶するマスク記憶部と、
　前記スピーカへ信号を伝送する受話側信号経路を伝送される受話信号のサンプル点が取得されるごとに、当該サンプル点が取得された時点以前の所定期間内に取得された前記受話信号に基づいて、前記受話信号の大きさに応じた最適マスクを前記基礎マスクから逐次生成又は選択するマスク選択部と、
　前記最適マスクが生成又は選択される毎に、前記マイクロホンから入力された入力信号と前記最適マスクとを比較した結果に基づいてダブルトーク状態であるか否かを逐次検知するダブルトーク検知部と、
　前記ダブルトーク検知部により、前記マイクロホンに発話が入力されず、かつ、前記受話信号が発話を含むことが検知された場合に、前記入力信号に対してエコーを抑圧する処理を逐次行うエコーサプレッサと、
　して機能させることを特徴とするエコー抑圧プログラム。