WO2013032001A1

WO2013032001A1 - 音声処理装置、その制御方法および制御プログラム

Info

Publication number: WO2013032001A1
Application number: PCT/JP2012/072287
Authority: WO
Inventors: 宝珠山　治
Original assignee: 日本電気株式会社
Priority date: 2011-08-29
Filing date: 2012-08-28
Publication date: 2013-03-07
Also published as: JPWO2013032001A1

Abstract

　入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧する。　出力音声信号に基づいて音声を出力する音声出力手段と、音声を入力する第１音声入力手段と、第１音声入力手段よりも音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、第１音声入力手段から出力された第１入力音声信号と非線形エコー信号を合成して、第１音声入力手段および第２音声入力手段から見て音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、を含む。

Description

音声処理装置、その制御方法および制御プログラム

　本発明は、音声中のエコーを抑圧する技術に関する。

　上記技術分野において、特許文献１に示すようなエコーを抑圧する技術が知られている。特許文献１の技術は、適応フィルタを用いて出力音声信号（遠端信号）から擬似線形エコーを生成することで、入力音声信号中の線形エコー成分を抑圧し、さらに非線形エコー成分を抑圧している。特に、入力音声信号に混在する非線形エコーを、擬似線形エコーを用いて推定することにより、比較的クリアに入力音声信号から所望の音声信号を抽出している。

国際公開ＷＯ０９−０５１１９７号公報特開２００８−００５３４７号公報特開０６−０８３３７２号公報特開平５−１２９９８９号公報特開２０１０−１８３４３４号公報

　しかしながら、特許文献１に示す技術では、入力音声信号中に非線形エコー成分が混在している場合には、所望音声成分を劣化させずに非線形エコー成分を抑圧することができない場合があった。
　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係る装置は、
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
　を含む。
　上記目的を達成するため、本発明に係る方法は、
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御方法であって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む。
　上記目的を達成するため、本発明に係るプログラムは、
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御プログラムであって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む。

　本発明によれば、入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧することができる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置の効果を説明する図である。本発明の第２実施形態に係る音声処理装置の構成を説明する図である。本発明の第２実施形態に係る非線形エコー抑圧部の構成を説明する図である。本発明の第３実施形態に係る音声処理装置の効果を説明する図である。本発明の第３実施形態に係る音声処理装置の構成を説明する図である。本発明の第４実施形態に係る音声処理装置の構成を説明する図である。本発明の第５実施形態に係る音声処理装置の構成を説明する図である。本発明の第６実施形態に係る音声処理装置の構成を説明する図である。本発明の第７実施形態に係る音声処理装置の構成を説明する図である。本発明の第８実施形態に係る音声処理装置の構成を説明する図である。本発明の第９実施形態に係る音声処理装置の構成を説明する図である。本発明のその他の実施形態に係る音声処理装置の構成を説明する図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
　（第１実施形態）
　本発明の第１実施形態に係る音声処理装置１００について、図１を用いて説明する。図１に示すように、音声処理装置１００は、音声出力部１０１と第１音声入力部１０２と第２音声入力部１０３と指向性形成部１０４と非線形エコー抽出部１０５とを含む。
　音声出力部１０１は、出力音声信号に基づいて音声を出力する。第１音声入力部１０２および第２音声入力部１０３は、音声を入力する。第２音声入力部１０３は、第１音声入力部１０２よりも音声出力部１０１に近接して設けられる。非線形エコー抽出部１０５は、第２音声入力部１０３から出力された第２入力音声信号から非線形エコー信号を抽出する。
　そして、指向性形成部１０４は、第１音声入力部１０２から出力された第１入力音声信号と非線形エコー抽出部１０５から抽出した非線形エコー信号を合成する。それにより、第１音声入力部１０２および第２音声入力部１０３から見て音声出力部１０１から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する。
　以上の構成により、入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望の音声成分を劣化させずに非線形エコー成分を抑圧することができる。
　（第２実施形態）
　本発明の第２実施形態に係る音声処理装置について、図２乃至図４を用いて説明する。
　図２は、本実施形態に係る音声処理装置を携帯電話２１０に実装した概要を示す図である。図２に示すように、ハンズフリー通話用のスピーカ２０１が、音声を出力し、スピーカ２０１から異なる距離に設置された２つのマイク２０２、２０３が、音声を入力する。そして、図３以降で具体的に説明する音声処理により、２つのマイク２０２、２０３から見て、スピーカ２０１から出力された音声信号のうち非線形エコー成分（歪み成分）が到来する方向に対して感度が低くなるような指向性を形成する。言い換えれば、指向性のヌル点がマイク２０２、２０３から見て非線形エコー成分が到来する方向に位置するように指向性を形成する。これにより、ユーザ２３０の話し声である近端音声２４０を劣化させずに、スピーカ２０１からマイク２０２、２０３に漏れ込む非線形エコー成分を抑圧することが可能となる。
　《全体構成》
　図３は、本実施形態に係る音声処理装置３００の構成図である。音声処理装置３００は、スピーカ２０１、マイク２０２、２０３、指向性形成部３０４、擬似エコー生成部３０５、エコー抑圧部３０６および非線形エコー抽出部３０７を備えている。
　第２実施形態の非線形エコー抽出部３０７は、適応フィルタ３７１と減算器３７２とを含む。適応フィルタ３７１は、遠端信号から、擬似線形エコーを生成する。適応フィルタ３７１の機能は、適応フィルタ３５１と同様であることが望ましい。そして、減算器３７２は、マイク２０３で得た第２入力音声信号から、適応フィルタ３７１で生成された擬似線形エコーを減算する。
　第２実施形態の指向性形成部３０４は、遅延部３４１と適応フィルタ３４２と減算器３４３とを含む。遅延部３４１は、マイク２０２から入力した第１入力音声信号を遅延させる。適応フィルタ３４２は、マイク２０３からの第２入力音声信号から抽出された非線形エコー成分を入力して、第１入力音声信号に混在している非線形エコー成分に対応する擬似非線形エコーを生成する。減算器３４３は、遅延部３４１の出力から適応フィルタ３４２の出力を減算する。
　これにより、スピーカ２０１から出力された音声信号のうち非線形エコー成分（歪み成分）が到来する方向に対して感度が低くなるような指向性を形成できる。
　擬似エコー生成部３０５は、マイク２０２が入力した音声に混在すると推定される擬似線形エコーｙ（ｋ）を生成する適応フィルタ３５１を含む。
　エコー抑圧部３０６は、擬似線形エコーｙ（ｋ）を用いて、指向性形成部３０４からの出力に混在する線形エコーを抑圧する減算器３６１と、非線形エコー抑圧部３６２とを含む。非線形エコー抑圧部３６２は、擬似エコー生成部３０５が生成した擬似線形エコーを用いて擬似非線形エコーを生成する。さらに、非線形エコー抑圧部３６２は、その擬似非線形エコーを用いて、減算器３６１から出力された残差信号ｄ（ｋ）中の非線形エコー成分を抑圧する。
　以上の構成によれば、２つのマイクで指向性を形成して効果的に非線形エコーを減衰させることができ、かつ近端音声を十分に残すことができる。
　《非線形エコー抑圧部の構成》
　次に図４を用いて非線形エコー抑圧部３６２の構成について説明する。非線形エコー抑圧部３６２は、高速フーリエ変換部（ＦＦＴ）４０１、４０２と、スペクトル振幅推定部４０３と、スペクトルフロアリング部４０４と、スペクトル利得計算部４０５と、逆高速フーリエ変換部（ＩＦＦＴ）４０６とを備える。
　高速フーリエ変換部（ＦＦＴ）４０１、４０２は、それぞれ、残差信号ｄ（ｋ）と擬似線形エコーｙ（ｋ）とを周波数スペクトルに変換する。スペクトル振幅推定部４０３、スペクトルフロアリング部４０４、および、スペクトル利得計算部４０５は、周波数成分ごとに用意されている。逆高速フーリエ変換部（ＩＦＦＴ）４１４は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号ｚｉ（ｋ）、つまり通話先に送る音声波形に再合成する。
　線形エコーと非線形エコーはまったく違う波形である。しかし。周波数ごとのスペクトル振幅を見ると、擬似線形エコーが大きい時は非線形エコーも大きくなる傾向があり、振幅に相関が見られる。つまり、擬似線形エコーに基づいて、非線形エコーの量を推定することができる。
　そこで、スペクトル振幅推定部４０３は、推定した非線形エコーの量に基づいて、所望の音声信号のスペクトル振幅を推定する。推定された音声信号のスペクトル振幅には誤差があるが、その推定誤差が主観的に不快にならないようスペクトルフロアリング部４０４でフロアリング処理を加えている。例えば、音声信号の推定スペクトル振幅が過剰に小さく、背景雑音のスペクトル振幅を下回る場合、エコーの有無で信号レベルが変動し、違和感を生じさせる。その対策としてスペクトルフロアリング部４０４では、背景雑音レベルを推定して、推定スペクトル振幅の下限とすることにより、レベル変動を低減する。
　一方、推定誤差により推定スペクトル振幅にエコーが大きく残留してしまった場合、残留したエコーは断続的かつ急激に変化して、ミュージカルノイズと呼ばれる、人工的な付加音となる。その対策としてスペクトル利得計算部４０５では、エコーを消去するために、推定した非線形エコーを減算するのではなく、減算された程度の振幅になるように利得を乗じる。利得の急激な変化を防止する平滑化を行うことにより、残留エコーの断続的変化を抑えることができる。
　以下、スペクトル振幅推定部４０３、スペクトルフロアリング部４０４、スペクトル利得計算部４０５の内部構成について数式を用いて説明する。
　非線形エコー抑圧部３６２に入力される残差信号ｄ（ｋ）は、近端信号ｓ（ｋ）と、残留非線形エコーｑ（ｋ）の和である。
　ｄ（ｋ）　＝　ｓ（ｋ）　＋　ｑ（ｋ）・・・（１）
　適応フィルタ３５１と減算器３６１によって線形エコーがほぼ完全に除去されていると仮定して、非線形成分に着目した周波数領域を考える。ＦＦＴ４０１、４０２によって、式（１）は周波数領域に変換され、以下の式となる。
　Ｄ（ｍ）　＝　Ｓ（ｍ）　＋　Ｑ（ｍ）・・・（２）
ここでｍは、フレーム番号、ベクトルＤ（ｍ），Ｓ（ｍ），Ｑ（ｍ）は、ｄ（ｋ），ｓ（ｋ），ｑ（ｋ）を周波数領域に変換した表現である。各周波数を独立に考えて式（２）を変形すると、ｉ番目の周波数では、以下の式となる。
　Ｓｉ（ｍ）＝　Ｄｉ（ｍ）　−　Ｑｉ（ｍ）・・・（３）
　適応フィルタ３５１および減算器３６１は、相関除去を行うため、Ｄｉ（ｍ）とＹｉ（ｍ）の間にほとんど相関はない。したがって、減算器４３６で式（３）の二乗平均を取ることにより、以下のように

が得られる。

は、絶対値化回路４３１と平均化回路４３３とを用いてＤｉ（ｍ）から導かれる。一方、非線形エコー｜Ｑｉ（ｍ）｜は、回帰係数ａｉと平均エコーレプリカ

の積として以下の様にモデル化できる。

　そこで、絶対値化回路４３２と平均化回路４３４とを用いてＹｉ（ｍ）から平均エコーレプリカ

を導き、積算部４３５を用いてさらに回帰係数ａｉを乗算する。ここで回帰係数ａｉは、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との相関を示す回帰係数である。このモデルは、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との間に有意な相関があるという実験結果に基づいている。
　式（３）は、ノイズ抑圧で広く用いられている加法型のモデルである。図４のスペクトル整形では、ノイズ抑圧で、不快なミュージカルノイズを生じにくい、スペクトル乗算型の構成をとる。スペクトル乗算を用いて、出力信号の振幅｜Ｚｉ（ｍ）｜を、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積として得る。

　式（６）の平方根をとり、式（４）の

に

を代入することにより、以下のように｜Ｓｉ（ｍ）｜の推定値

が得られる。但し、

　モデルが精緻ではないため、推定した振幅

には無視できない誤差がある。誤差が大きく、オーバーサブトラクションがおきると、近端信号において、高域成分の減少、あるいは変調感を生じることになる。特に、近端信号が空調音のよう定常である場合、変調感は不快である。この変調感を主観的に低減するために、フロアリング部４０４でスペクトル上のフロアリングを用いる。
　フロアリングでは、まず、平均化回路４４１で近端信号Ｄｉ（ｍ）の定常成分｜Ｎｉ（ｍ）｜を推定し、最大値選択回路４４２でこれを下限とするフロアリングを行う。その結果、よりよい近端信号の振幅推定値

が得られる。その後、除算器４５１で、

と

の比を求め、さらに平均化回路４５２で平均化してスペクトルゲイン

を得る。
　最後に数式（５）に示したように、積算器４５３でスペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積を求めることで振幅｜Ｚｉ（ｍ）｜を出力信号として得ることができる。逆高速フーリエ変換部４０６は、振幅｜Ｚｉ（ｍ）｜を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号ｚｉ（ｋ）を出力する。
　《第２実施形態のまとめ》
　本実施形態によれば、以上の構成により、非常に効果的に線形エコーおよび非線形エコーを抑圧することができる。
　（第３実施形態）
　図５の上段５０１に示すように、上記第２実施形態は、指向性形成部３０４によって、非線形エコーの一部をキャンセルし（５１１）、さらに、適応フィルタ３５１で線形エコーをキャンセルし（５１２）、非線形エコー抑圧部３６２で非線形エコーを抑圧した（５１３）。
　これに対し、図５の下段５０２に示すように、第３実施形態の音声処理装置６００は、指向性形成部６０４によって、主に非線形エコーをキャンセルし（５２１）、さらに、非線形適応フィルタ３５１で線形エコーおよび非線形エコーをキャンセルし（５２２）、非線形エコー抑圧部３６２で非線形エコーを抑圧する（５２３）。
　第３実施形態に係る音声処理装置６００の具体的な構成について、図６を用いて説明する。第２実施形態との相違は、非線形適応フィルタ６７１を含む非線形エコー抽出部６０７と、非線形適応フィルタ６５１を含む擬似エコー生成部６０５とを採用した点にある。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
　非線形適応フィルタについては、以下の文献に詳細な説明がある。
　・Ｆ．Ｋｕｅｃｈ，Ａ．Ｍｉｔｎａｃｈｔ，Ｗ．Ｋｅｌｌｅｒｍａｎｎ，「Ｎｏｎｌｉｎｅａｒ　ａｃｏｕｓｔｉｃ　ｅｃｈｏ　ｃａｎｃｅｌｌａｔｉｏｎ　ｕｓｉｎｇ　ａｄａｐｔｉｖｅ　ｏｒｔｈｏｇｏｎａｌｉｚｅｄ　ｐｏｗｅｒ　ｆｉｌｔｅｒｓ」ｉｎ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，２００５．Ｐｒｏｃｅｅｄｉｎｇｓ
　・Ａ．Ｓｔｅｎｇｅｒ，Ｌ．Ｔｒａｕｔｍａｎｎ，Ｒ．Ｒａｂｅｎｓｔｅｉｎ，「Ｎｏｎｌｉｎｅａｒ　ａｃｏｕｓｔｉｃ　ｅｃｈｏ　ｃａｎｃｅｌｌａｔｉｏｎ　ｗｉｔｈ　２ｎｄ　ｏｒｄｅｒ　ａｄａｐｔｉｖｅ　Ｖｏｌｔｅｒｒａ　ｆｉｌｔｅｒｓ」ｉｎ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅｏｎ　Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，１９９９．ＩＣＡＳＳＰ　’９９．Ｐｒｏｃｅｅｄｉｎｇｓ，１９９９
　・ＫＧ　Ｂｕｔｔｌｅ−ＵＳ　Ｐａｔｅｎｔ　５，１４８，４２７，１９９２。
　非線形適応フィルタ６５１を採用することにより、擬似エコー生成部６０５およびエコー抑圧部３０６は、線形エコーに加え、非線形エコーをも効果的に抑圧可能となる。そこで、指向性形成部３０４を、非線形適応フィルタ６５１で対応できない非線形エコー成分の排除に集中させることが可能となる。そこで、非線形エコー抽出部６０７では、非線形適応フィルタ６７１で対応できない非線形エコーを抽出する。
　本実施形態によれば、以上の構成により、第２実施形態以上に効果的に線形エコーおよび非線形エコーを抑圧することができる。
　（第４実施形態）
　次に本発明の第４実施形態に係る音声処理装置７００について、図７を用いて説明する。第４実施形態に係る音声処理装置７００は、上記第３実施形態と比べると、指向性形成部６０４の代わりに、指向性形成部７０４を備えた点で相違する。その他の構成および動作は、第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
　指向性形成部７０４は、指向性形成部６０４の構成に加えて、マイク２０２からの入力音声信号の線形エコー成分を抑圧するエコー抑圧部７４５を含む。
　エコー抑圧部７４５は、遠端信号から擬似線形エコーを生成する適応フィルタ７９２と、マイク２０２からの入力音声信号からその擬似線形エコーを減算する減算器７９１とを備えている。
　適応フィルタ３４２は、線形エコー抑圧部６４４から出力された抑圧済の入力音声信号を用いて擬似エコーを生成する。そして、マイク２０２からの入力音声信号の線形エコー成分をエコー抑圧部７４５で抑圧した後に遅延部３４１で遅延させて遅延信号とする。
　減算器３４３は、マイク２０２からの入力音声信号を遅延部３４１で遅延させた遅延信号から、非線形エコー成分を減算する。これにより、スピーカ２０１から出力された音声信号のうち非線形エコー成分（歪み成分）が到来する方向に対して感度が低くなるような指向性を形成できる。
　ここでは分かりやすく、非線形エコー成分が到来する方向が明瞭であるように説明したが、実際には明瞭な方向がない場合もある。その場合も、非線形エコー成分（歪成分）に対する感度が低くなるような指向性が形成される。
　本実施形態によれば、以上の構成により、上記第３実施形態の効果に加えて、さらに効果的に線形エコーおよび非線形エコーを抑圧することができる。なお、図７、図８、図９において、適応フィルタ７９２を非線形適応フィルタに置換しても同様の効果を奏することができる。
　（第５実施形態）
　次に本発明の第５実施形態に係る音声処理装置８００について、図８を用いて説明する。第５実施形態に係る音声処理装置８００は、上記第４実施形態と比べると、擬似エコー生成部３０５を有していない点で相違する。その他の構成および動作は、第４実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
　エコー抑圧部８０６に含まれる非線形エコー抑圧部３６２は、図４を用いて説明したものと同じ構成であるが、その入力信号としての、擬似エコーｙ（ｋ）を、適応フィルタ７９２からの出力を流用する点で異なる。つまり、エコー抑圧部７４５は、遠端信号から導いた擬似エコーを用いて、第１入力音声信号の線形エコー成分を抑圧し、エコー抑圧部８０６は、エコー抑圧部７４５において導かれた擬似エコーを用いて、エコー抑圧処理を施す。
　本実施形態によれば、より単純な構成で、第４実施形態と同様のエコー抑圧を達成することができる。
　（第６実施形態）
　次に本発明の第６実施形態に係る音声処理装置９００について、図９を用いて説明する。第６実施形態に係る音声処理装置９００は、上記第５実施形態と比べると、擬似エコー生成部９０５を有する点で相違する。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
　エコー抑圧部８０６に含まれる非線形エコー抑圧部３６２は、図４を用いて説明したものと同じ構成であるが、その入力信号としての、擬似エコーｙ（ｋ）として、擬似エコー生成部９０５からの出力を用いる。
　擬似エコー生成部９０５は、適応フィルタ７９２で求めた擬似線形エコーを遅延させ、そこから、非線形適応フィルタ６７１で求めた擬似非線形エコーをさらに非線形適応フィルタ９５１に通したものを、減算器９５３で減算する。これによって新たな擬似エコーを導き出し、非線形エコー抑圧部３６２に送る。
　エコー抑圧部７４５は、遠端信号から導いた擬似エコーを用いて、マイク２０２からの入力音声信号の線形エコー成分を抑圧する。エコー抑圧部８０６は、エコー抑圧部７４５において導かれた擬似エコーを合成した新たな擬似エコーを用いて、エコー抑圧処理を施す。本実施形態によれば、第４実施形態と同様のエコー抑圧を達成することができる。
　（第７実施形態）
　図１０は、上記第２~第６実施形態の変形構成例としての第７実施形態について説明するための図である。図１０に示すように、指向性形成部３０４、６０４、７０４は、減算器３４３の出力および適応フィルタ３４２への入力によって適応フィルタ３４２を制御する制御部１０４４をさらに備えてもよい。制御部１０４４は、適応フィルタ３４２への入力が大きく減算器３４３の出力が小さい場合には、適応フィルタ３４２の係数を更新する。また、適応フィルタ３４２への入力が小さい場合には、適応フィルタ３４２の係数を更新しない。
　このように適応フィルタの係数更新を制御することにより、効果的に指向性を形成することが可能となる。
　（第８実施形態）
　図１１は、上記第２~第６実施形態の変形構成例としての第８実施形態について説明するための図である。図１１に示すように、指向性形成部３０４、６０４、７０４は、減算器３４３の出力、適応フィルタ３７１の出力、または、非線形適応フィルタ６７１の出力によって適応フィルタ３４２を制御する制御部１１４４をさらに備えてもよい。制御部１１４４は、擬似線形エコーが大きく減算器３４３の出力が小さい場合には、適応フィルタ３４２の係数を更新する。また、擬似線形エコーが小さい場合には、適応フィルタ３４２の係数を更新しない。
　このように適応フィルタの係数更新を制御することにより、より効果的に指向性を形成することが可能となる。
　（第９実施形態）
　上記第２~第６実施形態において、エコー抑圧部３０６に代えて図１２に示すエコー抑圧部１２０６を用いてもよい。エコー抑圧部１２０６は、非線形エコー抑圧部３６２に対して、減算器３６１での減算後の信号ではなく、減算前の信号を入力する。
　エコー抑圧部１２０６における減算器３６１は、適応フィルタ３５１で生成した擬似線形エコーを用いて、指向性形成部からの出力に混在する線形エコーをキャンセルする。また、エコー抑圧部１２０６における非線形エコー抑圧部３６２は、擬似線形エコーを用いて擬似非線形エコーを生成した上で、その擬似非線形エコーを用いて、指向性形成部からの出力に混在する非線形エコーと共に線形エコーを抑圧する。
　本実施形態によっても、上述の第２~第６実施形態と同様に非線形エコーを抑圧することが可能である。
　（他の実施形態）
　以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）サーバも、本発明の範疇に含まれる。
　以下、一例として、第３実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ１３００に設けられたＣＰＵ１３０２で実行される処理の流れを図１３を用いて説明する。まず、入力部１３０１を用いて、マイク２０２、２０３から音声信号を入力してそれぞれメモリ１３０４に格納する（Ｓ１３０１）。次に、マイク２０３から出力された第２入力音声信号から非線形エコー信号を抽出する（Ｓ１３０３）。さらに、ステップＳ１３０３での処理の結果に対し、マイク２０２の入力音声信号を遅延させて合成する（Ｓ１３０５）。ステップＳ１３０３、Ｓ１３０５の処理により２マイクでの指向性が形成される。すなわちスピーカ２０１から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性が形成される。
　以上の処理により、第２実施形態と同様の効果を得ることができる。
　なお、本明細書における音声とは、人間の声の他に環境音や動物の声など、音声帯域の信号一般を表すものである。
　また、第１実施形態において、音声出力部１０１、第２音声入力部１０２、１０３を音声処理装置１００に設けた例で説明したが、これに限られるものではない。例えば、無線ヘッドセット（図示せず）に音声出力部１０１と音声入力部１０２、１０３の機能を持たせ、音声処理装置１００から音声出力部１０１と音声入力部１０２、１０３の機能を外した形態にも適用できる。この場合、無線ヘッドセットと音声処理装置１００の間の音声信号は、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線の通信機能を無線ヘッドセットおよび音声処理装置に搭載することで伝送可能となる。
　なお、他の実施形態のスピーカ２０１、マイク２０２、マイク２０３も第１実施形態と同様に音声処理装置から離しても適用できることは上記説明から明らかである。
　音声出力部１０１（又はスピーカ２０１）、或いは、音声入力部１０２と１０３（マイク２０２、２０３）の何れかが一方が音声処理装置から離れた形態であってもよい。
　［実施形態の他の表現］
　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
　前記第１音声入力手段から出力された第１入力音声信号に対し、前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
　を含む音声処理装置。
（付記２）
　前記非線形エコー抽出手段は、
　前記出力音声信号に基づいて、前記第２入力音声信号中に混在している線形エコー成分に対応する擬似線形エコー成分を生成する適応フィルタと、
　前記第２入力音声信号から前記擬似線形エコー成分を減算する減算器と、
　を含む付記１に記載の音声処理装置。
（付記３）
　前記非線形エコー抽出手段は、
　前記出力音声信号に基づいて、前記第２入力音声信号中に混在している線形エコー成分および非線形エコー成分に対応する擬似エコー成分を生成する適応フィルタと、
　前記第２入力音声信号から前記擬似エコー成分を減算する減算器と、
　を含む付記１に記載の音声処理装置。
（付記４）
　前記指向性形成手段は、
　前記第１入力音声信号を遅延させる遅延部と、
　前記第２入力音声信号から、前記第１入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する適応フィルタと、
　前記遅延部の出力から前記擬似エコー成分を減算する減算器と、
　を含む付記１乃至３のいずれか１項に記載の音声処理装置。
（付記５）
　前記指向性形成手段は、
　前記指向性形成手段に含まれる前記減算器の出力および前記指向性形成手段に含まれる前記適応フィルタへの入力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた付記４に記載の音声処理装置。
（付記６）
　前記指向性形成手段は、
　前記指向性形成手段に含まれる前記減算器の出力および前記非線形エコー抽出手段に含まれる前記適応フィルタの出力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた付記４に記載の音声処理装置。
（付記７）
　前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
　前記指向性形成手段から出力された信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
　をさらに有する付記１乃至６のいずれか１項に記載の音声処理装置。
（付記８）
　前記擬似エコー生成手段は、前記第１音声入力手段が入力した音声に混在すると推定される擬似非線形エコーを生成する適応フィルタを含む付記７に記載の音声処理装置。
（付記９）
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御方法であって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号に対し、前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む音声処理装置の制御方法。
（付記１０）
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御プログラムであって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号に対し、前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む音声処理装置の制御プログラム。
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
　この出願は、２０１１年８月２９日に出願された日本出願特願２０１１−１８６６２５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
　を含む音声処理装置。
　前記非線形エコー抽出手段は、
　前記出力音声信号に基づいて、前記第２入力音声信号中に混在している線形エコー成分に対応する擬似線形エコー成分を生成する適応フィルタと、
　前記第２入力音声信号から前記擬似線形エコー成分を減算する減算器と、
　を含む請求項１に記載の音声処理装置。
　前記非線形エコー抽出手段は、
　前記出力音声信号に基づいて、前記第２入力音声信号中に混在している線形エコー成分および非線形エコー成分に対応する擬似エコー成分を生成する適応フィルタと、
　前記第２入力音声信号から前記擬似エコー成分を減算する減算器と、
　を含む請求項１に記載の音声処理装置。
　前記指向性形成手段は、
　前記第１入力音声信号を遅延させる遅延部と、
　前記第２入力音声信号から、前記第１入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する適応フィルタと、
　前記遅延部の出力から前記擬似エコー成分を減算する減算器と、
　を含む請求項１乃至３のいずれか１項に記載の音声処理装置。
　前記指向性形成手段は、
　前記指向性形成手段に含まれる前記減算器の出力および前記指向性形成手段に含まれる前記適応フィルタへの入力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた請求項４に記載の音声処理装置。
　前記指向性形成手段は、
　前記指向性形成手段に含まれる前記減算器の出力および前記非線形エコー抽出手段に含まれる前記適応フィルタの出力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた請求項４に記載の音声処理装置。
　前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
　前記指向性形成手段から出力された信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
　をさらに有する請求項１乃至６のいずれか１項に記載の音声処理装置。
　前記擬似エコー生成手段は、前記第１音声入力手段が入力した音声に混在すると推定される擬似非線形エコーを生成する適応フィルタを含む請求項７に記載の音声処理装置。
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御方法であって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む音声処理装置の制御方法。
　出力音声信号に基づいて音声を出力する音声出力手段と、
　音声を入力する第１音声入力手段と、
　前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
　を備えた音声処理装置の制御プログラムであって、
　前記第２音声入力手段から出力された第２入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
　前記第１音声入力手段から出力された第１入力音声信号と前記非線形エコー信号を合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
　を含む音声処理装置の制御プログラム。