WO2018221206A1

WO2018221206A1 - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Info

Publication number: WO2018221206A1
Application number: PCT/JP2018/018774
Authority: WO
Inventors: 祐樹里見
Original assignee: 株式会社トランストロン
Priority date: 2017-05-29
Filing date: 2018-05-15
Publication date: 2018-12-06
Also published as: JP6833616B2; US20210144474A1; EP3633865A4; US11039245B2; EP3633865B1; EP3633865A1; RU2732362C1; JP2018201147A

Abstract

ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができる。　スピーカから音が出力され、出力された音のみがマイクロホンに入力されるときに、送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいた周波数マスクと、マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルの値とを周波数帯域毎に比較して、ダブルトーク状態であるか否かを検知する。送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて、入力信号に対してエコーを抑圧する処理を行う。

Description

エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

　本発明は、エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムに関する。

　特許文献１には、通話端末からの受話信号を伝送する受話側信号経路及び通話端末に送話信号を伝送する送話側信号経路に同時に信号が伝送されるダブルトーク状態を検知し、ダブルトーク検知部の検知結果と受話側信号経路や送話側信号経路の信号レベルとに基づいてエコーサプレッサの減衰量を算出する通話信号処理装置が開示されている。

特許５９２３７０５号公報

　しかしながら、特許文献１に記載の通話信号処理装置では、送話側の信号レベルが低いときに、残留エコーに送話信号が含まれるかどうか判断することが難しいという問題がある。したがって、特許文献１に記載の通話信号処理装置では、ダブルトーク状態の検知が正確にできず、エコーサプレッサを用いて適切にエコーが抑圧できないおそれがある。

　本発明はこのような事情に鑑みてなされたもので、ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができるエコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムを提供することを目的とする。

　上記課題を解決するために、本発明に係るエコー抑圧装置は、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第１スペクトル計算部と、前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、を備えたことを特徴とする。

　本発明に係るエコー抑圧装置によれば、スピーカから音が出力され、出力された音のみがマイクロホンに入力されるときに、送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクと、マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルの値とを周波数帯域毎に比較して、ダブルトーク状態であるか否かを検知する。このように、周波数特性を用いることで、マイクロホンから入力された音声（近端音声）より残留エコーのパワーが大きい場合においても、ダブルトーク状態を正確に検知することができる。また、本発明に係るエコー抑圧装置によれば、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されていることが検知された場合に、エコーサプレッサを用いて、入力信号に対してエコーを抑圧する処理を行う。これにより、近端音声を劣化させず、適切にエコーを抑圧することができる。

　ここで、残留エコーを除去するエコー除去部を備え、前記周波数マスクは、前記エコー除去部により前記残留エコーが除去された前記学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成され、前記第１スペクトル計算部は、前記エコー除去部により前記残留エコーが除去された前記入力信号についてのパワースペクトル又は振幅スペクトルを前記入力信号スペクトルとして計算してもよい。これにより、入力信号が小さい場合においても、正確にダブルトーク状態を検知することができる。

　ここで、前記第１スペクトル計算部は、前記学習用信号についてのパワースペクトル又は振幅スペクトルを一定区間毎に計算して複数の学習用スペクトルを求め、前記周波数マスク記憶部は、周波数帯域毎に、前記複数の学習用スペクトルの値のうちの最大値を取得し、これを前記周波数マスクとしてもよい。これにより、残留エコーの周波数特性を正確に記憶することができる。

　ここで、前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第２閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第１閾値以下であり、かつ前記参照信号の信号レベルが前記第２閾値以上である場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、正確にダブルトーク状態を検知することができる。

　ここで、前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第２閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域について、前記参照信号の信号レベルが前記第２閾値以上である場合には、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。

　ここで、前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第２スペクトル計算部を備え、前記ダブルトーク検知部は、前記参照信号スペクトルの値と第３閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第１閾値以下であり、かつ前記参照信号スペクトルの値が前記第３閾値を上回った周波数帯域が存在する場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、正確にダブルトーク状態を検知することができる。

　ここで、前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第２スペクトル計算部を備え、前記ダブルトーク検知部は、前記参照信号スペクトルの値と第３閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を下回り、かつ前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域については、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知してもよい。これにより、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。

　上記課題を解決するために、本発明に係るエコー抑圧方法は、例えば、近端端末のスピーカから音が出力され、当該出力された音のみが前記近端端末のマイクロホンに入力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて周波数マスクを生成し、当該生成された周波数マスクを記憶するステップと、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算するステップと、前記計算された入力信号スペクトルの値と前記記憶された周波数マスクの値とを周波数帯域毎に比較して、前記マイクロホンから入力された信号を伝送する送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するステップと、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、を含むことを特徴とする。

　上記課題を解決するために、本発明に係るエコー抑圧プログラムは、例えば、スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、コンピュータを、前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第１スペクトル計算部と、前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、として機能させることを特徴とする。

　本発明によれば、ダブルトーク状態を正確に検知し、検知結果に基づいて適切にエコーを抑圧することができる。

第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。エコー抑圧装置１の概略構成を示すブロック図である。エコー抑圧装置１において周波数マスクを生成するときの信号の流れを示す図である。時刻ｔ１における学習用スペクトルの一例である。図４に示す学習用スペクトルを含む複数の学習用スペクトルが入力されたときの周波数マスクの一例である。入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。エコー抑圧装置２の概略構成を示すブロック図である。エコー抑圧装置３の概略構成を示すブロック図である。参照信号の信号レベルが閾値ＩＩ以上であるときに、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。エコー抑圧装置４の概略構成を示すブロック図である。入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値ＩＩＩとを比較する様子を模式的に示す図である。エコー抑圧装置５の概略構成を示すブロック図である。入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値ＩＩＩとを比較する様子を模式的に示す図である。

　以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置である。

　＜第１の実施の形態＞
　図１は、第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。音声通信システム１００は、主として、マイクロホン５１及びスピーカ５２を有する端末５０と、２台の携帯電話５３、５４と、スピーカアンプ５５と、エコー抑圧装置１と、を有する。

　音声通信システム１００は、端末５０（近端端末）を利用する利用者（近端側にいる利用者Ａ）が、携帯電話５４（遠端端末）を利用する利用者（遠端側にいる利用者Ｂ）と音声通信を行なうシステムである。携帯電話５４を介して入力された音声信号をスピーカ５２によって拡声出力し、かつ、近端側にいる利用者の発する音声をマイクロホン５１により集音して携帯電話５４へ伝送することで、利用者Ａは、携帯電話５３を把持することなく拡声通話（ハンズフリー通話）が可能となる。携帯電話５３と携帯電話５４とは、一般的な電話回線により接続されている。

　エコー抑圧装置１は、マイクロホン５１を介して入力された信号を、端末５０から携帯電話５３へ伝送する送話側信号経路に設けられる。

　エコー抑圧装置１は、例えば、音声通信システム１００内の通信端末等（例えば、車載装置、会議システム、携帯端末）に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置１は、例えば、コンピュータのハードウエア及びソフトウエア（エコー抑圧プログラム）によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記憶しておき、そこからコンピュータにインストールされてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納（記憶）しておいてもよい。

　図２は、エコー抑圧装置１の概略構成を示すブロック図である。エコー抑圧装置１は、主として、エコー除去部１１と、周波数分析器（ＦＦＴ部）１２と、周波数マスク記憶部１３と、ダブルトーク検知部１４と、エコーサプレッサ１５と、復元部（ＩＦＦＴ部）１６と、を有する。図２において、上側の信号経路は、マイクロホン５１から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ５２へ信号を伝送する受話側信号経路である。

　エコー除去部１１は、例えば、適応フィルタを用いて残留エコーを除去する。エコー除去部１１は、与えられた手順に従ってフィルタ係数を更新して、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される信号から擬似エコー信号を減算することで、残留エコーを除去するものである。なお、適応フィルタについては既に公知であるため、説明を省略する。

　なお、本実施の形態では、エコー除去部１１に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部１１に適用することもできる。

　周波数分析器（ＦＦＴ部）１２は、送話側信号経路を伝送される信号に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。ＦＦＴ部１２は、エコー除去部１１を通過した信号に対して処理を行う。ＦＦＴ部１２は、単位時間当たりの平均エネルギーであるパワーを周波数帯域毎に分割し、周波数帯域毎のパワーを周波数の関数として表したパワースペクトルを算出する。

　パワースペクトルとは、時間信号ｘ（ｔ）のパワーを、ＦＦＴ分析することによりある周波数帯域（周波数分解能Δｆ）毎のパワーをもとめ、横軸を周波数としてグラフ化したものである。ここで、パワーは、振幅の二乗であり、数式（１）により表される。

　・・・（１）

　なお、本発明では、パワースペクトルの代わりに、パワーの平方根を取った振幅を縦軸、周波数を横軸とした振幅スペクトルを用いることができる。本実施の形態では、パワースペクトルを用いて説明するが、本実施の形態におけるパワースペクトルは、振幅スペクトルに置き換え可能である。

　ＦＦＴ部１２は、入力信号についてのパワースペクトル（以下、入力信号スペクトルという）を単位時間毎に計算する。また、学習用信号（後に詳述）についてのパワースペクトルを計算する。

　なお、本実施の形態では、ＦＦＴ部１２において高速フーリエ変換を用いて周波数分析を行なったが、高速フーリエ変換の代わりに、離散フーリエ変換（ＤＦＴ、ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いて周波数分析を行なうことができる。

　周波数マスク記憶部１３は、ＦＦＴ部１２により計算された学習用信号についてのパワースペクトルに基づいて周波数マスクを生成し、生成した周波数マスクを記憶する。以下、周波数マスクの生成について詳細に説明する。周波数マスクは、エコー抑圧装置１がエコーを抑圧する処理を行なう前に、前もって生成される。

　図３は、エコー抑圧装置１において周波数マスクを生成するときの信号の流れを示す図である。図３では、周波数マスクを生成するときに信号が伝送される部分を実線で示し、その他の部分を点線で示す。

　まず、エコー除去部１１において十分に適応フィルタの学習を終えた後に、スピーカ５２から音が出力され、マイクロホン５１にはスピーカ５２から出力された音のみが入力される遠端側の片側発話（シングルトーク）を繰り返す。そして、シングルトーク時に送話側信号経路を伝送される信号を学習用信号とする。エコー抑圧装置１においては、エコー除去部１１により残留エコーが除去された信号が学習用信号となる。

　学習用信号は、ＦＦＴ部１２に入力される。ＦＦＴ部１２は、学習用信号についてのパワースペクトルを一定区間毎に計算して、複数の学習用スペクトルを求める。ここで、一定区間とは、任意に定められた所定の時間領域であり、時刻ｔ１、ｔ２、ｔ３・・・で示す。図４は、時刻ｔ１における学習用スペクトルの一例である。以下、パワースペクトルにおける縦軸の値を、パワースペクトルの値という。

　一定区間毎に計算された複数の学習用スペクトルは、周波数マスク記憶部１３に入力される。周波数マスク記憶部１３は、入力された複数の学習用スペクトルを記憶する。

　周波数マスク記憶部１３は、周波数帯域毎に、入力された複数の学習用スペクトルの値のうちの最大値を取得し、これを周波数マスクとする。図５は、図４に示す学習用スペクトルを含む複数の学習用スペクトルが入力されたときの周波数マスクの一例である。そして、周波数マスク記憶部１３は、周波数マスクを記憶する。これにより、残留エコーの周波数特性を正確に記憶することができる。

　図２の説明に戻る。ダブルトーク検知部１４は、ＦＦＴ部１２から入力された入力信号スペクトルの値と、周波数マスク記憶部１３に記憶された周波数マスクの値とを周波数帯域毎に比較する。そして、ダブルトーク検知部１４は、比較した結果に基づいて、送話側信号経路及び受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知する。ダブルトーク検知部１４は、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトルが計算される単位時間毎に行う。

　以下、ダブルトーク検知部１４において、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部１４は、周波数帯域毎に、入力信号スペクトルの値と、周波数マスクの値とを比較し、入力信号スペクトルの値が周波数マスクの値を上回る周波数帯域の数（以下、超過数という）を数える。ダブルトーク検知部１４は、超過数が予め用意した閾値Ｉ（第１閾値に相当）以下であるか求める。なお、閾値Ｉは、任意の値に設定することができる。

　また、ダブルトーク検知部１４は、携帯電話５３から端末５０とへ送信される参照信号を取得し、その信号レベルを求める。参照信号は、受話側信号経路から取得される。ダブルトーク検知部１４は、参照信号の信号レベルと、予め用意した閾値ＩＩ（第２閾値に相当）とを比較する。なお、閾値ＩＩは、任意の値に設定することができる。

　図６、７は、それぞれ、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。図６、７において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。

　図６に示す場合は、超過数が閾値Ｉ（例えば、閾値Ｉ＝３）以上であるため、ダブルトーク検知部１４は、マイクロホン５１から音が入力されており、送話側信号経路を信号が伝送されている（近端発話あり）ことを検知する。

　図７に示す場合は、超過数が閾値Ｉ以下であるため、ダブルトーク検知部１４は、マイクロホン５１から音が入力されておらず、送話側信号経路を信号が伝送されていない（近端発話なし）ことを検知する。

　ダブルトーク検知部１４は、超過数が閾値Ｉ以下であり、参照信号の信号レベルが予め用意した閾値ＩＩ（第２閾値に相当）以上の場合に、送話側信号経路を信号が伝送されておらず、かつ、受話側信号経路を信号が伝送されている（遠端発話あり）シングルトークであり、ダブルトーク状態ではないと検知する。

　図２の説明に戻る。エコーサプレッサ１５は、ＦＦＴ部１２を通過した入力信号に対してエコーサプレス処理（エコーを強く抑圧する処理）を行なう。エコーサプレッサ１５は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。エコーサプレス処理は、既に公知であるため、詳細な説明を省略する。

　ダブルトーク検知部１４からエコーサプレッサ１５へは、ダブルトーク状態であるか否かを検知した結果が単位時間毎に入力される。したがって、エコーサプレッサ１５は、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。

　復元部（ＩＦＦＴ部）１６は、ＦＦＴ部１２を通過した入力信号に対して逆高速フーリエ変換（ＩＦＦＴ、ＩｎｖｅｒｓｅＦＦＴ）を行なう。なお、復元部（ＩＦＦＴ部）１６において、ＩＦＦＴの代わりに、逆離散フーリエ変換（ＩＤＦＴ、ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を用いることができる。

　本実施の形態によれば、近端発話による入力信号と、遠端発話の残留エコーとが異なる周波数特性をもつことに着目し、残留エコーの周波数特性を周波数マスクとして記憶しておき、入力信号の周波数特性と周波数マスクとを比較することでダブルトーク状態を正確に検知し、ダブルトーク状態でないときにはエコーサプレス処理を有効にすることで、近端音声（マイクロホン５１から入力された音声）を劣化させず、確実にエコーを抑圧することができる。

　例えば、音声パワーで近端音声か残留エコーかを判断する従来の方法では、入力信号より残留エコーのパワーが大きい場合には、ダブルトークの判断が難しいという問題がある。それに対し、本実施の形態では、周波数特性を用いることで、入力信号より残留エコーのパワーが大きい場合においても、ダブルトーク状態か否かを検知することができる。

　また、本実施の形態によれば、ＦＦＴ部１２は、エコー除去部１１により残留エコーが除去された学習用信号を用いて周波数マスクを生成するため、入力信号が小さい場合においても正確にダブルトーク状態を検知することができる。エコー除去部１１は、残留エコーを除去するものであり、入力信号には作用しないため、エコー除去部１１により残留エコーが除去された学習用信号を用いて周波数マスクを生成することで、周波数マスクの値が小さくなる。したがって、入力信号が小さい場合であっても、入力信号スペクトルの値が周波数マスクの値を超えやすくなり、ダブルトーク検知部１４において、近端発話があることをより正確に検知することができる。

　＜第２の実施の形態＞
　本発明の第１の実施の形態は、エコー除去部１１を有したが、エコー除去部１１は必須ではない。第２の実施の形態は、エコー除去部１１を有しない形態である。以下、第２の実施の形態に係るエコー抑圧装置２について説明する。なお、第１の実施の形態に係るエコー抑圧装置１と同一の部分については、同一の符号を付し、説明を省略する。

　図８は、エコー抑圧装置２の概略構成を示すブロック図である。エコー抑圧装置２は、主として、ＦＦＴ部１２と、周波数マスク記憶部１３と、ダブルトーク検知部１４と、エコーサプレッサ１５と、ＩＦＦＴ部１６と、を有する。

　エコー抑圧装置２はエコー除去部１１を有しないため、シングルトーク時に受話側信号経路を伝送される信号（残留エコーが除去されていない信号）を学習用信号とする。ＦＦＴ部１２は、残留エコーが除去されていない学習用信号についてのパワースペクトル（又は振幅スペクトル）に基づいて生成された周波数マスクを生成し、記憶する。

　このように、残留エコーが除去されていない学習用信号を用いたとしても、入力信号の周波数特性と周波数マスクとを比較することでダブルトーク状態を正確に検知することができる。ただし、入力信号が小さい場合においてもダブルトーク状態を正確に検知するためには、エコー除去部１１を通過した学習用信号を用いて周波数マスクを生成することが望ましい。

　＜第３の実施の形態＞
　第３の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第３の実施の形態に係るエコー抑圧装置３について説明する。なお、第１の実施の形態に係るエコー抑圧装置１と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第１の実施の形態に係るエコー抑圧装置１と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。

　図９は、エコー抑圧装置３の概略構成を示すブロック図である。エコー抑圧装置３は、主として、エコー除去部１１と、ＦＦＴ部１２と、周波数マスク記憶部１３と、ダブルトーク検知部１４Ａと、エコーサプレッサ１５Ａと、ＩＦＦＴ部１６と、を有する。図９において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。

　ダブルトーク検知部１４Ａは、ダブルトーク状態であるか否かを周波数帯域毎に検知する。なお、ダブルトーク検知部１４Ａは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトルが計算される単位時間毎に行う。

　以下、ダブルトーク検知部１４Ａにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部１４Ａは、周波数帯域毎に、ＦＦＴ部１２から入力された入力信号スペクトルの値と、周波数マスク記憶部１３に記憶された周波数マスクの値とを比較する。

　また、ダブルトーク検知部１４Ａは、携帯電話５３から端末とへ送信される参照信号を取得し、その信号レベルを求める。ダブルトーク検知部１４Ａは、参照信号の信号レベルと、閾値ＩＩとを比較する。

　そして、ダブルトーク検知部１４Ａは、入力信号スペクトルの値が周波数マスクの値を上回っていない周波数帯域について、参照信号の信号レベルが閾値ＩＩ以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。

　図１０は、参照信号の信号レベルが閾値ＩＩ以上であるときに、入力信号スペクトルの値と、周波数マスクの値とを比較する様子を模式的に示す図である。図１０において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。

　図１０の実線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部１４Ａは、遠端発話があり、かつ近端発話がある、すなわちダブルトーク状態であると検知する。

　それに対し、図１０の点線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っていない。したがって、この周波数帯域については、ダブルトーク検知部１４Ａは、遠端発話があるが近端発話がない遠端発話のみのシングルトーク、すなわちダブルトーク状態ではないと検知する。

　図９の説明に戻る。エコーサプレッサ１５Ａは、ＦＦＴ部１２を通過した入力信号に対してエコーサプレス処理（エコーを強く抑圧する処理）を行なう。エコーサプレッサ１５Ａは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の周波数帯域についてはエコーサプレス処理を無効にする。エコーサプレッサ１５Ａは、エコーサプレス処理を有効にするか無効にするかを単位時間毎に切り替える。

　本実施の形態によれば、周波数帯域毎にダブルトーク状態を正確に検知し、周波数帯域毎にエコーサプレス処理を有効にすることができる。

　＜第４の実施の形態＞
　第４の実施の形態は、ダブルトーク状態の検知に参照信号の周波数特性を用いる形態である。以下、第４の実施の形態に係るエコー抑圧装置４について説明する。なお、第１の実施の形態～第３の実施の形態に係るエコー抑圧装置１～３と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第１の実施の形態に係るエコー抑圧装置１と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。

　図１１は、エコー抑圧装置４の概略構成を示すブロック図である。エコー抑圧装置４は、主として、エコー除去部１１と、ＦＦＴ部１２、１７と、周波数マスク記憶部１３と、ダブルトーク検知部１４Ｂと、エコーサプレッサ１５と、ＩＦＦＴ部１６と、を有する。図１１において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。

　ＦＦＴ部１７は、受話側信号経路を伝送される参照信号に対して高速フーリエ変換を行い、参照信号についてのパワースペクトル（以下、参照信号スペクトルという）を単位時間毎に計算する。

　ダブルトーク検知部１４Ｂは、入力信号スペクトルと、周波数マスクと、周波数マスクとに基づいて、ダブルトーク状態であるか否かを検知する。ダブルトーク検知部１４Ｂは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトル及び参照信号スペクトルが計算される単位時間毎に行う。

　以下、ダブルトーク検知部１４Ｂにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部１４Ｂは、周波数帯域毎に、ＦＦＴ部１２から入力された入力信号スペクトルの値と、周波数マスク記憶部１３に記憶された周波数マスクの値とを比較し、入力信号スペクトルの値が周波数マスクの値を上回る周波数帯域の数（超過数）を数える。

　また、ダブルトーク検知部１４Ｂは、ＦＦＴ部１７から入力された参照信号スペクトルと、予め用意した閾値ＩＩＩ（第３閾値に相当）とを比較する。なお、閾値ＩＩＩは、任意の値に設定することができる。

　そして、ダブルトーク検知部１４Ｂは、超過数が閾値Ｉ以下であり、かつ参照信号スペクトルの値が閾値ＩＩＩを上回った周波数帯域が存在する場合には、近端発話が無く、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。

　図１２は、入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値ＩＩＩとを比較する様子を模式的に示す図である。図１２において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。また、図１２において、太い実線は参照信号スペクトルを示し、太い破線は閾値ＩＩＩを示す。

　図１２に示す場合は、超過数が閾値Ｉ（例えば、３）以下である。したがって、ダブルトーク検知部１４Ｂは、近端発話がないことを検知する。また、図１２に示す場合は、参照信号スペクトルの値が閾値ＩＩＩを上回った周波数帯域が存在する。したがって、ダブルトーク検知部１４Ｂは、遠端発話があることを検知する。すなわち、図１２に示す場合には、ダブルトーク検知部１４Ｂは、遠端発話のみのシングルトークであることを検知する。

　図１１の説明に戻る。エコーサプレッサ１５は、遠端発話のみのシングルトークであり、ダブルトーク状態でない場合には、ＦＦＴ部１２を通過した入力信号の全周端数帯域に対してエコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。

　本実施の形態によれば、参照信号スペクトルに基づいて遠端発話の有無を検知することで、ダブルトーク状態をより正確に検知することができる。

　＜第５の実施の形態＞
　第５の実施の形態は、周波数帯域毎にダブルトーク状態の検知を行なう形態である。以下、第５の実施の形態に係るエコー抑圧装置５について説明する。なお、第１の実施の形態～第４の実施の形態に係るエコー抑圧装置１～４と同一の部分については、同一の符号を付し、説明を省略する。また、本実施の形態においても、第１の実施の形態に係るエコー抑圧装置１と同様、パワースペクトルは、振幅スペクトルに置き換え可能である。

　図１３は、エコー抑圧装置５の概略構成を示すブロック図である。エコー抑圧装置５は、主として、エコー除去部１１と、ＦＦＴ部１２、１７と、周波数マスク記憶部１３と、ダブルトーク検知部１４Ｃと、エコーサプレッサ１５Ａと、ＩＦＦＴ部１６と、を有する。図１３において、上側の信号経路は送話側信号経路であり、下側の信号経路は受話側信号経路である。

　ダブルトーク検知部１４Ｃは、入力信号スペクトルと、周波数マスクと、周波数マスクとに基づいて、ダブルトーク状態であるか否かを周波数帯域毎に検知する。ダブルトーク検知部１４Ｃは、ダブルトーク状態であるか否かを検知する処理を、入力信号スペクトル及び参照信号スペクトルが計算される単位時間毎に行う。

　以下、ダブルトーク検知部１４Ｃにおいて、ダブルトーク状態であるか否かを検知する方法について詳細に説明する。まず、ダブルトーク検知部１４Ｃは、周波数帯域毎に、ＦＦＴ部１２から入力された入力信号スペクトルの値と、周波数マスク記憶部１３に記憶された周波数マスクの値とを比較する。また、ダブルトーク検知部１４Ｃは、ＦＦＴ部１７から入力された参照信号スペクトルの値と閾値ＩＩＩとを比較する。

　そして、ダブルトーク検知部１４Ｃは、入力信号スペクトルの値が周波数マスクの値を上回っていない周波数帯域について、参照信号スペクトルの値が閾値ＩＩＩ以上である場合には、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。

　図１４は、入力信号スペクトルの値と周波数マスクの値とを比較し、参照信号スペクトルと閾値ＩＩＩとを比較する様子を模式的に示す図である。図１４において、実線は入力信号スペクトルを示し、破線は周波数マスクを示す。また、図１４において、太い実線は参照信号スペクトルを示し、太い破線は閾値ＩＩＩを示す。

　図１４において、実線かつ網掛け表示をした丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っている。したがって、この周波数帯域については、ダブルトーク検知部１４Ａは、近端発話があることを検知する。

　図１４において、実線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っていない。しかしながら、これらの周波数帯域は、参照信号スペクトルの値が閾値ＩＩＩ以上でない。したがって、この周波数帯域については、ダブルトーク検知部１４Ａは、近端発話及び遠端発話がないことを検知する。

　それに対し、図１４の点線の丸印で囲んだ周波数帯域は、入力信号スペクトルの値が周波数マスクの値を上回っておらず、かつ、参照信号スペクトルの値が閾値ＩＩＩ以上である。したがって、遠端発話のみのシングルトークであり、ダブルトーク状態ではないと検知する。

　図１３の説明に戻る。エコーサプレッサ１５Ａは、遠端発話のみのシングルトークと検知された周波数帯域については、エコーサプレス処理を有効にし、その他の場合にはエコーサプレス処理を無効にする。

　以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１、２、３、４、５　　　　　：エコー抑圧装置
１１　　　　　　　　　　　　：エコー除去部
１２、１７　　　　　　　　　：周波数分析器（ＦＦＴ部）
１３　　　　　　　　　　　　：周波数マスク記憶部
１４、１４Ａ、１４Ｂ、１４Ｃ：ダブルトーク検知部
１５、１５Ａ　　　　　　　　：エコーサプレッサ
１６　　　　　　　　　　　　：復元部（ＩＦＦＴ部）
５０　　　　　　　　　　　　：端末
５１　　　　　　　　　　　　：マイクロホン
５２　　　　　　　　　　　　：スピーカ
５３、５４　　　　　　　　　：携帯電話
５５　　　　　　　　　　　　：スピーカアンプ
１００　　　　　　　　　　　：音声通信システム

Claims

　スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧装置であって、
　前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、
　前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第１スペクトル計算部と、
　前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、
　前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、
　を備えたことを特徴とするエコー抑圧装置。
　残留エコーを除去するエコー除去部を備え、
　前記周波数マスクは、前記エコー除去部により前記残留エコーが除去された前記学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成され、
　前記第１スペクトル計算部は、前記エコー除去部により前記残留エコーが除去された前記入力信号についてのパワースペクトル又は振幅スペクトルを前記入力信号スペクトルとして計算する
　ことを特徴とする請求項１に記載のエコー抑圧装置。
　前記第１スペクトル計算部は、前記学習用信号についてのパワースペクトル又は振幅スペクトルを一定区間毎に計算して複数の学習用スペクトルを求め、
　前記周波数マスク記憶部は、周波数帯域毎に、前記複数の学習用スペクトルの値のうちの最大値を取得し、これを前記周波数マスクとする
　ことを特徴とする請求項１又は２に記載のエコー抑圧装置。
　前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第２閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第１閾値以下であり、かつ前記参照信号の信号レベルが前記第２閾値以上である場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
　ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
　前記ダブルトーク検知部は、前記受話側信号経路を伝送される参照信号の信号レベルと第２閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域について、前記参照信号の信号レベルが前記第２閾値以上である場合には、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
　ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
　前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第２スペクトル計算部を備え、
　前記ダブルトーク検知部は、前記参照信号スペクトルの値と第３閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を上回った周波数帯域の数である超過数を数え、当該超過数が第１閾値以下であり、かつ前記参照信号スペクトルの値が前記第３閾値を上回った周波数帯域が存在する場合に、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
　ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
　前記受話側信号経路を伝送される参照信号のパワースペクトル又は振幅スペクトルである参照信号スペクトルを計算する第２スペクトル計算部を備え、
　前記ダブルトーク検知部は、前記参照信号スペクトルの値と第３閾値とを比較し、前記入力信号スペクトルの値が前記周波数マスクの値を下回り、かつ前記入力信号スペクトルの値が前記周波数マスクの値を上回っていない周波数帯域については、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることを検知する
　ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
　近端端末のスピーカから音が出力され、当該出力された音のみが前記近端端末のマイクロホンに入力されるときに、前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて周波数マスクを生成し、当該生成された周波数マスクを記憶するステップと、
　前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算するステップと、
　前記計算された入力信号スペクトルの値と前記記憶された周波数マスクの値とを周波数帯域毎に比較して、前記マイクロホンから入力された信号を伝送する送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するステップと、
　前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧するエコーサプレス処理を行うステップと、
　を含むことを特徴とするエコー抑圧方法。
　スピーカとマイクロホンとを有する近端端末のうちの前記マイクロホンから入力された信号を伝送する送話側信号経路に設けられるエコー抑圧プログラムであって、
　コンピュータを、
　前記スピーカから音が出力され、当該出力された音のみが前記マイクロホンに入力されるときに、前記送話側信号経路を伝送される学習用信号についてのパワースペクトル又は振幅スペクトルに基づいて生成された周波数マスクを記憶する周波数マスク記憶部と、
　前記マイクロホンからから入力された入力信号についてのパワースペクトル又は振幅スペクトルである入力信号スペクトルを計算する第１スペクトル計算部と、
　前記入力信号スペクトルの値と前記周波数マスクの値とを周波数帯域毎に比較した結果に基づいて、前記送話側信号経路及び前記スピーカへ信号を伝送する受話側信号経路に同時に信号が伝送されるダブルトーク状態であるか否かを検知するダブルトーク検知部と、
　前記ダブルトーク検知部により、前記送話側信号経路を信号が伝送されておらず、かつ、前記受話側信号経路を信号が伝送されていることが検知された場合に、前記入力信号に対してエコーを抑圧する処理を行うエコーサプレッサと、
　として機能させることを特徴とするエコー抑圧プログラム。