JPWO2012157783A1

JPWO2012157783A1 - 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体

Info

Publication number: JPWO2012157783A1
Application number: JP2013515242A
Authority: JP
Inventors: 宝珠山　治; 治宝珠山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-05-19
Filing date: 2012-05-18
Publication date: 2014-07-31
Also published as: US20140066134A1; WO2012157783A1; CN103548362A; EP2712208A1; EP2712208A4

Abstract

本発明は、入力音声信号中に大きな非線形エコー成分が混在している場合でも、所望音声成分を劣化させずに非線形エコー成分を抑圧する音声処理装置を提供する。その音声処理装置は、出力音声信号に基づいて音声を出力する音声出力手段と、第１音声入力手段と、第１音声入力手段よりも音声出力手段に近接して設けられた第２音声入力手段と、第１および２音声入力手段から見て音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、第１および２音声入力手段それぞれからの音声信号を合成した合成信号を出力する手段と、第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、出力音声信号から生成する手段と、その合成信号に対し、その擬似エコーを用いてエコー抑圧処理を施す手段と、を備える。

Description

本発明は、音声中のエコーを抑圧する技術に関する。

上記技術分野において、特許文献１に示されているように、エコーを抑圧する技術が知られている。この技術は、適応フィルタを用いて出力音声信号（遠端信号）から擬似線形エコー信号を生成し、入力音声信号中の線形エコー成分を抑圧した上で、さらに非線形エコー成分を抑圧する技術である。特に、この技術は、入力音声信号に混在する非線形エコーを、擬似線形エコー信号を用いて推定する。こうすることにより、この技術は、比較的クリアに入力音声信号から所望音声信号を抽出している。

国際公開ＷＯ０９−０５１１９７号公報

しかしながら、特許文献１に記載の技術では、入力音声信号中に大きな非線形エコー成分が混在している場合には、所望音声成分を劣化させずに非線形エコー成分を抑圧することができなかった。
その理由は、特許文献１記載のエコー抑圧装置が、入力音声信号中に大きな非線形エコー成分が混在している場合に、その非線形エコー成分をそのまま含む信号に基づいて、漏れこみ係数を算出するからである。
本発明の目的は、上述の課題を解決する技術を提供することにある。

本発明の一態様における装置は、
出力音声信号に基づいて音声を出力する音声出力手段と、
音声を入力する第１音声入力手段と、
前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力する指向性形成手段と、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
前記指向性形成手段から出力された前記合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
を含む。
本発明の一態様における方法は、
音声を入力する第１音声入力手段および前記第１音声入力手段よりも、出力音声信号に基づいて音声を出力する音声出力手段に近接しても受けられた第２音声入力手段から見て当該音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力し、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成し、
前記合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施す。
本発明の一態様における不揮発性媒体に記録されたプログラムは、
音声を入力する第１音声入力手段および前記第１音声入力手段よりも、出力音声信号に基づいて音声を出力する音声出力手段に近接して設けられて音声を入力する第２音声入力手段から見て当該音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力する処理と、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する処理と、
前記合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施す処理と、
をコンピュータに実行させる。

本発明によれば、入力音声信号中に大きな非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧することができる。

図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。図２は、本発明の第２実施形態に係る音声処理装置の効果を説明する図である。図３は、本発明の第２実施形態に係る音声処理装置の構成を説明する図である。図４は、本発明の第２実施形態に係る非線形エコー抑圧部の構成を説明する図である。図５は、本発明の第３実施形態に係る音声処理装置の効果を説明する図である。図６は、本発明の第３実施形態に係る音声処理装置の構成を説明する図である。図７は、本発明の第４実施形態に係る音声処理装置の構成を説明する図である。図８は、本発明の第５実施形態に係る音声処理装置の構成を説明する図である。図９は、本発明の第６実施形態に係る音声処理装置の構成を説明する図である。図１０は、本発明の第７実施形態に係る音声処理装置の構成を説明する図である。図１１は、本発明の第８実施形態に係る音声処理装置の構成を説明する図である。図１２は、本発明の第９実施形態に係る音声処理装置の構成を説明する図である。図１３は、本発明のその他の実施形態に係る音声処理装置の構成を説明する図である。図１４は、本発明のプログラムを記録した記録媒体を示す図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
（第１実施形態）
本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。図１に示すように、音声処理装置１００は、音声出力部１０１と第１音声入力部１０２と第２音声入力部１０３と指向性形成部１０４と擬似エコー生成部１０５とエコー抑圧部１０６とを含む。
音声出力部１０１は、出力音声信号に基づいて音声を出力する。第１音声入力部１０２は、音声を入力する。第２音声入力部１０３は、第１音声入力部１０２よりも音声出力部１０１に近接して設けられ、音声を入力する。指向性形成部１０４は、第１音声入力部１０２から出力された第１入力音声信号に対し、第２音声入力部１０３からの第２入力音声信号を合成する。それにより、指向性形成部１０４は、第１音声入力部１０２および第２音声入力部１０３から見て音声出力部１０１の方向において、感度が低くなるような指向性を形成する。
一方、擬似エコー生成部１０５は、第１入力音声に混在するエコー成分に対応する、擬似エコーを出力音声信号から生成する。ここで、第１入力音声は、音声出力部１０１を要因として第１音声入力部１０２が入力した音声である。さらにエコー抑圧部１０６は、指向性形成部１０４からの出力に対し、擬似エコーを用いて、エコー抑圧処理を施す。
以上の構成により、入力音声信号中に大きな非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧することができる。
その理由は、音声処理装置１００が以下のような構成を備えるからである。第一に、指向性形成部１０４は、第１音声入力部１０２および第２音声入力部１０３から見て音声出力部１０１の方向において感度が低くなるような指向性を形成する。第二に、擬似エコー生成部１０５は、第１入力音声に混在するエコー成分に対応する擬似エコーを、出力音声信号から生成する。第三に、エコー抑圧部１０６は、指向性形成部１０４からの出力に対し、擬似エコーを用いて、エコー抑圧処理を施す。
（第２実施形態）
本発明の第２実施形態に係る音声処理装置について、図２乃至図４を用いて説明する。
本実施形態に係る音声処理装置は、携帯電話２１０内に実装され、ハンズフリー通話用のスピーカ２０１が音声の出力を行い、スピーカ２０１から異なる距離に設置された２つのマイクロフォン２０２および２０３が、音声の入力を行う。
そして、本実施形態に係る音声処理装置は、図３以降で説明する内部的な処理により、２つのマイクロフォン２０２、２０３から見てスピーカ２０１の方向に対して感度が低くなるような指向性を形成する。言い換えれば、本実施形態に係る音声処理装置は、指向性のヌル点がスピーカ２０１に向くように指向性を形成する。
これにより、ユーザ２３０の話し声である近端音声２４０を劣化させずに、スピーカ２０１からマイクロフォン２０２、２０３に漏れ込むエコー成分を抑圧することが可能となる。
《全体構成》
図３は、本実施形態に係る音声処理装置３００の構成図である。音声処理装置３００は、スピーカ２０１、マイクロフォン２０２、２０３の他に、指向性形成部３０４、擬似エコー生成部３０５およびエコー抑圧部３０６を備えている。
このうち、指向性形成部３０４は、遅延部３４１と適応フィルタ３４２と減算器３４３とを含む。
遅延部３４１は、マイクロフォン２０２から入力した第１入力音声信号を遅延させる。
適応フィルタ３４２は、マイクロフォン２０３から入力した第２入力音声信号を入力して、第１入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する。
減算器３４３は、遅延部３４１の出力から適応フィルタ３４２の出力を減算する。
擬似エコー生成部３０５は、適応フィルタ３５１を含む。適応フィルタ３５１は、第１入力音声に混在すると推定される擬似線形エコーｙ（ｋ）を生成する。ここで、第１入力音声は、マイクロフォン２０２が入力した音声である。
エコー抑圧部３０６は、減算器３６１と非線形エコー抑圧部３６２とを含む。減算器３６１は、擬似線形エコーｙ（ｋ）を用いて線形エコーを抑圧する。ここで、線形エコーは、指向性形成部３０４からの出力に混在する線形エコーである。
非線形エコー抑圧部３６２は、擬似エコー生成部３０５が生成した擬似線形エコーｙ（ｋ）を用いて擬似非線形エコーを生成する。そうした上で、非線形エコー抑圧部３６２は、その擬似非線形エコーを用いて、減算器３６１から出力された残差信号ｄ（ｋ）中の非線形エコー成分を抑圧する。
以上の構成によれば、２つのマイクで指向性を形成して効果的にエコーを減衰させることができ、かつ近端音声を十分に残すことができる。
《非線形エコー抑圧部の構成》
次に、図４を用いて非線形エコー抑圧部３６２の構成について説明する。非線形エコー抑圧部３６２は、高速フーリエ変換部（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）４０１と、高速フーリエ変換部４０２と、スペクトル振幅推定部４０３と、スペクトルフロアリング部４０４と、スペクトル利得計算部４０５と、逆高速フーリエ変換部（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＩＦＦＴ）４０６と、を備える。
高速フーリエ変換部４０１および高速フーリエ変換部４０２それぞれは、残差信号ｄ（ｋ）および擬似線形エコーｙ（ｋ）それぞれを、周波数スペクトルに変換する。
スペクトル振幅推定部４０３とスペクトルフロアリング部４０４とスペクトル利得計算部４０５とは、周波数成分ごとに用意されている。
逆高速フーリエ変換部４０６は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号ｚｉ（ｋ）に再合成する。尚、時間領域の出力信号ｚｉ（ｋ）は、つまり、通話相手に送る音声波形の信号である。
線形エコー信号と非線形エコー信号とはまったく違う波形である。しかし、線形エコーおよび非線形エコーそれぞれの周波数ごとにスペクトル振幅を見ると、擬似線形エコーが大きい時は非線形エコーも大きくなる傾向がある。すなわち、線形エコーと非線形エコーとには、振幅の相関がある。つまり、擬似線形エコーに基づいて、非線形エコーの量を推定することができる。
そこで、スペクトル振幅推定部４０３は、推定した非線形エコーの量に基づいて、所望の音声信号のスペクトル振幅を推定する。推定された音声信号のスペクトル振幅には誤差がある。そこで、その推定誤差が、通話相手に送る音声波形において、主観的に不快なものにならないよう、スペクトルフロアリング部４０４は、フロアリング処理を加える。
例えば、音声信号の推定スペクトル振幅が過剰に小さく、背景雑音のスペクトル振幅を下回る場合、エコーの有無で信号レベルが変動し、通話相手に違和感を生じさせる。その対策としてスペクトルフロアリング部４０４は、背景雑音レベルを推定して、推定スペクトル振幅の下限とすることにより、レベル変動を低減する。
一方、推定誤差により推定スペクトル振幅にエコーが大きく残留してしまった場合、残留したエコーは断続的かつ急激に変化して、ミュージカルノイズと呼ばれる、人工的な付加音となる。その対策としてスペクトル利得計算部４０５は、エコーを消去するために、推定した非線形エコーを減算するのではなく、減算された程度の振幅になるように利得を乗じる。利得の急激な変化を防止する平滑化を行うことにより、残留エコーの断続的変化を抑えることができる。
以下、スペクトル振幅推定部４０３、スペクトルフロアリング部４０４、スペクトル利得計算部４０５の内部構成について数式を用いて説明する。
非線形エコー抑圧部３６２に入力される残差信号ｄ（ｋ）は、近端信号ｓ（ｋ）と残留非線形エコーｑ（ｋ）との和である。
ｄ（ｋ）＝ｓ（ｋ）＋ｑ（ｋ）・・・（１）
適応フィルタ３５１と減算器３６１とによって線形エコーがほぼ完全に除去されていると仮定して、非線形成分のみを周波数領域で考える。高速フーリエ変換部４０１および高速フーリエ変換部４０２によって、式（１）で表される残差信号は周波数領域に変換され、以下の式で表される。
Ｄ（ｍ）＝Ｓ（ｍ）＋Ｑ（ｍ）・・・（２）
ここでｍはフレーム番号、ベクトルＤ（ｍ）、Ｓ（ｍ）およびＱ（ｍ）それぞれは、ｄ（ｋ）、ｓ（ｋ）およびｑ（ｋ）それぞれを、周波数領域に変換した表現である。各周波数を独立に考えて式（２）を変形すると、所望信号のｉ番目の周波数成分は、以下の式で表される。
Ｓｉ（ｍ）＝Ｄｉ（ｍ）−Ｑｉ（ｍ）・・・（３）
適応フィルタ３５１および減算器３６１が相関除去を行うため、Ｄｉ（ｍ）とＹｉ（ｍ）の間にはほとんど相関はない。従って、減算器４３６は、式（３）の二乗平均をとることにより、

ペクトルに変換した場合のｉ番目の周波数のエコーレプリカである。

の積として以下のようにモデル化できる。

そこで、絶対値化回路４３２と平均化回路４３４とが、Ｙｉ（ｍ）から平均エコーレプリカ

は、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との相関を示す回帰係数である。このモデルは、｜Ｑｉ（ｍ）｜と｜Ｙｉ（ｍ）｜との間に有意な相関があるという実験結果に基づいている。
式（３）は、ノイズ抑圧において広く用いられている、加法型のモデルである。図４に示す非線形エコー抑圧部３６２のスペクトル整形では、ノイズ抑圧において、不快なミュージカルノイズを生じにくい、スペクトル乗算型の構成をとる。スペクトル乗算を用いて、出力信号の振幅｜Ｚｉ（ｍ）｜を、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積として得る。

式（６）の平方根をとり、式（４）の｜Ｑｉ（ｍ）｜^２にａｉ^２・｜Ｙｉ（ｍ）｜^２を代入するこ

きない誤差がある。誤差が大きく、オーバーサブトラクションがおきると、近端信号において高域成分の減少を、あるいは通話相手に送る音声波形において変調感を生じることになる。特に、近端信号が空調音のように定常である場合、通話相手にとって、変調感は不快である。この変調感を主観的に低減するために、スペクトルフロアリング部４０４でスペクトル上のフロアリングを行う。
フロアリングでは、まず、平均化回路４４１が、近端信号Ｄｉ（ｍ）の定常成分｜Ｎｉ（ｍ）｜を推定する。次に、最大値選択回路４４２が、定常成分｜Ｎｉ（ｍ）｜を下限とするフロアリングを行う。その結果、最大値選択回路４４２は、よりよい近端信号の振幅推定値

る。
最後に数式（５）に示したように、積算器４５３が、スペクトルゲインＧｉ（ｍ）と残差信号｜Ｄｉ（ｍ）｜の積を求める。こうすることで、積算器４５３は求めた積を、振幅｜Ｚｉ（ｍ）｜を出力信号として出力する。逆高速フーリエ変換部４０６は、振幅｜Ｚｉ（ｍ）｜を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号ｚｉ（ｋ）を出力する。
《第２実施形態のまとめ》
本実施形態によれば、以上の構成により、非常に効果的に線形エコーおよび非線形エコーを抑圧することができる。
その理由は、音声処理装置３００が以下のような構成を備えるからである。第一に、指向性形成部３０４の遅延部３４１と適応フィルタ３４２と減算器３４３とが、指向性のヌル点がスピーカ２０１に向くように指向性を形成する。第二に、擬似エコー生成部３０５の適応フィルタ３５１は、マイクロフォン２０２が入力した音声に混在すると推定される擬似線形エコーｙ（ｋ）を生成する。第三に、エコー抑圧部３０６の減算器３６１と非線形エコー抑圧部３６２とは、擬似線形エコーｙ（ｋ）を用いて、指向性形成部３０４からの出力に混在する線形エコーを抑圧する。
（第３実施形態）
上記第２実施形態の音声処理装置３００は、図５の上段５０１に示すように動作した。即ち、指向性形成部３０４は、エコー全体をキャンセルする（５１１）。適応フィルタ３５１は、線形エコーをキャンセルする（５１２）。さらに、非線形エコー抑圧部３６２は、非線形エコーを抑圧する（５１３）。
これに対し、図６に示す本実施形態の音声処理装置６００は、図５の下段５０２に示すように動作する。即ち、指向性形成部６０４は、主に非線形エコーをキャンセルする（５２１）。適応フィルタ３５１は、線形エコーをキャンセルする（５２２）。さらに、非線形エコー抑圧部３６２は、非線形エコーを抑圧する（５２３）。
具体的な構成を、図６を用いて説明する。第２実施形態との相違は、指向性形成部３０４の代わりに、線形エコー抑圧部６４４を含む指向性形成部６０４を備えた点にある。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
指向性形成部６０４は、マイクロフォン２０３からの入力音声信号の線形エコー成分を抑圧する、線形エコー抑圧部６４４を含む。線形エコー抑圧部６４４は、遠端信号から擬似線形エコーを生成する適応フィルタ６８２と、マイクロフォン２０３からの入力音声信号から、その擬似線形エコーを減算する減算器６８１を備えている。即ち、指向性形成部６４４は、マイクロフォン２０３からの入力音声信号の線形エコー成分を抑圧し、こうして抽出した非線形エコー成分を抑圧済入力音声信号として出力する。
適応フィルタ３４２は、線形エコー抑圧部６４４から出力された抑圧済入力音声信号を用いて擬似エコーを生成する。
減算器３４３は、マイクロフォン２０２からの入力音声信号を遅延部３４１で遅延させた遅延信号からその擬似エコーを減算する。そして、減算器３４３は、指向性形成部６０４に、スピーカ２０１の方向に対して感度が低くなるような指向性を形成させる。言い換えれば、減算器３４３は、指向性のヌル点がスピーカ２０１に向くように、指向性形成部６０４に指向性を形成させる。
本実施形態によれば、以上の構成により、第２実施形態以上に効果的に線形エコーおよび非線形エコーを抑圧することができる。
その理由は、音声処理装置６００が以下のような構成を備えるからである。第一に、指向性形成部３０４は、主に非線形エコーをキャンセルする。第二に、適応フィルタ３５１は、線形エコーをキャンセルする。第三に、非線形エコー抑圧部３６２は、非線形エコーを抑圧する。
（第４実施形態）
次に本発明の第４実施形態に係る音声処理装置７００について、図７を用いて説明する。
本実施形態に係る音声処理装置７００は、上記第３実施形態と比べると、指向性形成部６０４の代わりに、指向性形成部７０４を備えた点で相違する。その他の構成および動作は、第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
指向性形成部７０４は、指向性形成部６０４の構成に加えて、マイクロフォン２０２からの入力音声信号の線形エコー成分を抑圧する線形エコー抑圧部７４５を含む。
線形エコー抑圧部７４５は、遠端信号から擬似線形エコーを生成する適応フィルタ７９２と、マイクロフォン２０２からの入力音声信号からその擬似線形エコーを減算する減算器７９１とを備えている。
適応フィルタ３４２は、線形エコー抑圧部６４４から出力された抑圧済入力音声信号を用いて擬似エコーを生成する。そして、線形エコー抑圧部７４５は、マイクロフォン２０２からの入力音声信号の線形エコー成分を抑圧する。そうした後に、遅延部３４１は、線形エコー成分を抑圧された入力音声信号を遅延させて、遅延信号とする。
減算器３４３は、マイクロフォン２０２からの入力音声信号を遅延部３４１で遅延させた遅延信号からその擬似エコーを減算する。そうして、減算器３４３は、指向性形成部７０４に、スピーカ２０１の方向に対して感度が低くなるような指向性を形成させる。言い換えれば、減算器３４３は、指向性のヌル点がスピーカ２０１に向くように、指向性形成部７０４に指向性を形成させる
本実施形態によれば、以上の構成により、効果的に線形エコーおよび非線形エコーを抑圧することができる。
その理由は、音声処理装置７００が、マイクロフォン２０２からの入力音声信号の線形エコー成分を抑圧する線形エコー抑圧部７４５を、さらに含むからである。
（第５実施形態）
次に本発明の第５実施形態に係る音声処理装置８００について、図８を用いて説明する。
本実施形態に係る音声処理装置８００は、上記第４実施形態と比べると、擬似エコー生成部３０５を有していない点で相違する。その他の構成および動作は、第４実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
エコー抑圧部８０６に含まれる非線形エコー抑圧部３６２は、図４を用いて説明したものとまったく同じ構成であるが、その入力信号としての擬似エコーｙ（ｋ）として、適応フィルタ７９２からの出力を流用する点で異なる。
つまり、線形エコー抑圧部７４５は、遠端信号から導いた擬似エコーを用いて、第１入力音声信号の線形エコー成分を抑圧する。そして、エコー抑圧部８０６は、線形エコー抑圧部７４５において導かれた擬似エコーを用いて、エコー抑圧処理を施す。
本実施形態によれば、より単純な構成で、第４実施形態と同様のエコーの抑圧を達成することができる。
その理由は、非線形エコー抑圧部３６２が、その入力信号としての擬似エコーｙ（ｋ）として、適応フィルタ７９２からの出力を流用するように、したからである。
（第６実施形態）
次に本発明の第６実施形態に係る音声処理装置９００について、図９を用いて説明する。
本実施形態に係る音声処理装置９００は、上記第５実施形態と比べると、擬似エコー生成部９０５を有する点で相違する。その他の構成および動作は、第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
エコー抑圧部８０６に含まれる非線形エコー抑圧部３６２は、図４を用いて説明したものとまったく同じ構成であるが、その入力信号としての、擬似エコーｙ（ｋ）として、擬似エコー生成部９０５からの出力を用いる。
擬似エコー生成部９０５は、適応フィルタ７９２が求めた擬似線形エコーを、遅延部９５２で遅延させる。また、擬似エコー生成部９０５は、適応フィルタ６８２が求めた擬似線形エコーを、さらに適応フィルタ９５１に通す。そして、擬似エコー生成部９０５は、遅延部９５２の出力から適応フィルタ９５１の出力を、減算器９５３で減算する。擬似エコー生成部９０５は、これによって新たな擬似エコーを導き出す。
線形エコー抑圧部６４４および線形エコー抑圧部７４５は、遠端信号から導いた擬似エコーを用いて、マイクロフォン２０２からの入力音声信号およびマイクロフォン２０３からの入力音声信号の線形エコー成分を抑圧する。
エコー抑圧部８０６は、線形エコー抑圧部６４４、７４５において導かれた擬似エコーを合成した、新たな擬似エコーを用いて、エコー抑圧処理を施す。本実施形態によれば、第４実施形態と同様のエコーの抑圧を達成することができる。
その理由は、音声処理装置９００が以下のような構成を備えるからである。第一に、擬似エコー生成部９０５は、適応フィルタ７９２で求めた擬似線形エコーを遅延させたものから、適応フィルタ６８２で求めた擬似線形エコーをさらに適応フィルタ９５１に通したものを、減算器９５３で減算する。第二に、エコー抑圧部８０６に含まれる非線形エコー抑圧部３６２は、その入力信号としての、擬似エコーｙ（ｋ）として、擬似エコー生成部９０５からの出力を用いる。
（第７実施形態）
上記第２〜第６実施形態において、図１０に示すように、指向性形成部３０４、６０４、７０４は、減算器３４３の出力および適応フィルタ３４２への入力によって適応フィルタ３４２を制御する制御部１０４４をさらに備えてもよい。
制御部１０４４は、適応フィルタ３４２への入力が大きく減算器３４３の出力が小さい場合には、適応フィルタ３４２の係数を更新する。また、適応フィルタ３４２への入力が小さい場合には、適応フィルタ３４２の係数を更新しない。
このように適応フィルタの係数更新を制御することにより効果的に、指向性を形成することが可能となる。
その理由は、以下のような構成を含むからである。第１に、適応フィルタ３４２の係数を更新する制御部１０４４は、適応フィルタ３４２の係数更新によって適切な指向性が形成される場合、すなわち適応フィルタ３４２への入力が大きく減算器３４３の出力が小さい場合を、検出する。第２に、制御部１０４４は、その場合のみに適応フィルタの係数更新を行うからである。
（第８実施形態）
上記第２〜第６実施形態において、図１１に示すように、指向性形成部３０４、６０４、７０４は、減算器３４３の出力および擬似線形エコーによって適応フィルタ３４２を制御する制御部１１４４をさらに備えてもよい。
制御部１１４４は、擬似線形エコーが大きく減算器３４３の出力が小さい場合には、適応フィルタ３４２の係数を更新する。また、擬似線形エコーが小さい場合には、制御部１１４４は、適応フィルタ３４２の係数を更新しない。
このように適応フィルタの係数更新を制御することにより、より効果的に指向性を形成することが可能となる。
その理由は、以下のような構成を含むからである。第１に、適応フィルタ３４２の係数を更新する制御部１０４４は、適応フィルタの係数更新によって適切な指向性が形成される場合、すなわち擬似線形エコーが大きく減算器３４３の出力が小さい場合を、検出する。第２に、制御部１０４４は、その場合のみに適応フィルタの係数更新を行うからである。
（第９実施形態）
上記第２〜第６実施形態において、エコー抑圧部３０６に代えて図１２に示すエコー抑圧部１２０６を用いてもよい。エコー抑圧部１２０６は、非線形エコー抑圧部３６２に対して、減算器３６１での減算後の信号ではなく、減算前の信号を入力する。
エコー抑圧部１２０６における減算器３６１は、適応フィルタ３５１で生成した擬似線形エコーを用いて、指向性形成部３０４、６０４、７０４からの出力に混在する線形エコーをキャンセルする。
また、エコー抑圧部１２０６における非線形エコー抑圧部３６２は、擬似線形エコーを用いて擬似非線形エコーを生成する。そうした上で、非線形エコー抑圧部３６２は、その擬似非線形エコーを用いて、指向性形成部３０４、６０４、７０４からの出力に混在する非線形エコーと共に線形エコーを抑圧する。
本実施形態によっても、上述の第２〜第６実施形態と同様に非線形エコーを抑圧することが可能である。
その理由は、各音声処理装置が、非線形エコー抑圧部３６２に対して、減算器３６１での減算後の信号ではなく、減算前の信号を入力するエコー抑圧部１２０６を、さらに備えるからである。
（他の実施形態）
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。
従って、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。
以下、一例として、第３実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ１３００に設けられたＣＰＵ１３０２で実行される処理の流れを、図１３を用いて説明する。
まず、ＣＰＵ１３０２は、入力部１３０１を用いて、マイクロフォン２０２、２０３から音声信号を入力してそれぞれメモリ１３０４に格納する（Ｓ１３０１）。次に、マイクロフォン２０３の入力音声信号中の線形エコー成分を抑圧する（Ｓ１３０３）。
さらに、ステップＳ１３０３での処理の結果に対し、ＣＰＵ１３０２は、マイクロフォン２０２の入力音声信号を遅延させて合成する（Ｓ１３０５）。ステップＳ１３０３、Ｓ１３０５の処理により２マイクでの指向性が形成される。
さらに、ＣＰＵ１３０２は、マイクロフォン２０３の入力音声信号中の線形エコー成分を抑圧する（Ｓ１３０７）。最後に、ＣＰＵ１３０２は、マイクロフォン２０３の入力音声信号中の非線形エコー成分を抑圧する（Ｓ１３０９）。
以上の処理により、第３実施形態と同様の効果を得ることができる。
図１４は、プログラムを記録（記憶）する、記録媒体（記憶媒体）１３０７の例を示す図である。記録媒体１３０７は、情報を非一時的に記憶する不揮発性記録媒体である。尚、記録媒体１３０７は、情報を一時的に記憶する記録媒体であってもよい。記録媒体１３０７は、図１３に示す動作をコンピュータ１３００（ＣＰＵ１３０２）に実行させるプログラム（ソフトウェア）を記録する。尚、記録媒体１３０７は、さらに、任意のプログラムやデータを記録してよい。
上述のプログラム（ソフトウェア）のコードを記録した記録媒体１３０７が、コンピュータ１３００に供給され、ＣＰＵ１３０２は、記録媒体１３０７に格納されたプログラムのコードを読み出して実行するようにしてもよい。あるいは、ＣＰＵ１３０２は、記録媒体１３０７に格納されたプログラムのコードを、メモリ１３０４に格納するようにしてもよい。すなわち、本実施形態は、コンピュータ１３００（ＣＰＵ１３０２）が実行するプログラムを、一時的にまたは非一時的に、記憶する記録媒体１３０７の実施形態を含む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２０１１年５月１９日に出願された日本出願特願２０１１−１１２０７６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００音声処理装置
１０１音声出力部
１０２第１音声入力部
１０３第２音声入力部
１０４指向性形成部
１０５擬似エコー生成部
１０６エコー抑圧部
２０１スピーカ
２０２マイクロフォン
２０３マイクロフォン
２１０携帯電話
２３０ユーザ
２４０近端音声
３０４指向性形成部
３０５擬似エコー生成部
３０６エコー抑圧部
３４１遅延部
３４２適応フィルタ
３４３減算器
３５１適応フィルタ
３６１減算器
３６２非線形エコー抑圧部
４０１高速フーリエ変換部
４０２高速フーリエ変換部
４０３スペクトル振幅推定部
４０４スペクトルフロアリング部
４０５スペクトル利得計算部
４０６逆高速フーリエ変換部
４３１絶対値化回路
４３２絶対値化回路
４３３平均化回路
４３４平均化回路
４３５積算部
４３６減算器
４４１平均化回路
４４２最大値選択回路
４５１除算器
４５２平均化回路
４５３積算器
５０１上段
５０２下段
６００音声処理装置
６０４指向性形成部
６４４線形エコー抑圧部
６８１減算器
６８２適応フィルタ
７００音声処理装置
７０４指向性形成部
７４５線形エコー抑圧部
７９１減算器
７９２適応フィルタ
８００音声処理装置
８０６エコー抑圧部
９００音声処理装置
９０５擬似エコー生成部
９５１適応フィルタ
９５３減算器
１０４４制御部
１１４４制御部
１２０６エコー抑圧部
１３００コンピュータ
１３０１入力部
１３０２ＣＰＵ
１３０４メモリ
１３０７記録媒体

Claims

出力音声信号に基づいて音声を出力する音声出力手段と、
音声を入力する第１音声入力手段と、
前記第１音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第２音声入力手段と、
前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力する指向性形成手段と、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
前記指向性形成手段から出力された合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
を含むことを特徴とする音声処理装置。
携帯電話内に実装され、
前記音声出力手段は、ハンズフリー通話用スピーカであって、前記第１、第２音声入力手段は、マイクロフォンであることを特徴とする請求項１に記載の音声処理装置。
前記指向性形成手段は、
前記第１入力音声信号を遅延させる遅延部と、
前記第２入力音声信号から、前記第１入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する適応フィルタと、
前記遅延部の出力から前記適応フィルタの出力を減算する減算器と、
を含むことを特徴とする請求項１または２に記載の音声処理装置。
前記指向性形成手段は、前記減算器の出力および前記適応フィルタへの入力によって前記適応フィルタを制御する制御手段をさらに備えたことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
前記指向性形成手段は、前記減算器の出力および前記擬似エコー成分によって前記適応フィルタを制御する制御手段をさらに備えたことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
前記擬似エコー生成手段は、前記第１音声入力手段が入力した音声に混在すると推定される擬似線形エコーを生成する適応フィルタを含むことを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
前記エコー抑圧手段は、
前記擬似線形エコーを用いて、前記指向性形成手段からの出力に混在する線形エコーを抑圧する線形エコー抑圧手段と、
前記擬似線形エコーを用いて擬似非線形エコーを生成した上で、その擬似非線形エコーを用いて、前記線形エコー抑圧手段からの出力に混在する非線形エコーを抑圧する非線形エコー抑圧手段と、
を含むことを特徴とする請求項６に記載の音声処理装置。
前記エコー抑圧手段は、
前記擬似線形エコーを用いて、前記指向性形成手段からの出力に混在する線形エコーを抑圧する線形エコー抑圧手段と、
前記擬似線形エコーを用いて擬似非線形エコーを生成した上で、その擬似非線形エコーを用いて、前記指向性形成手段からの出力に混在する非線形エコーを抑圧する非線形エコー抑圧手段と、
を含むことを特徴とする請求項６に記載の音声処理装置。
前記指向性形成手段は、
前記第２入力音声信号の線形エコー成分を抑圧する第２線形エコー抑圧手段を含み、
前記第２線形エコー抑圧手段から出力された抑圧済第２入力音声信号を、前記第１入力音声信号を遅延させた遅延信号に対して合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段の方向に対して感度が低くなるような指向性を形成させることを特徴とする請求項１乃至８のいずれか１項に記載の音声処理装置。
前記指向性形成手段は、
前記第１入力音声信号の線形エコー成分を抑圧する第１線形エコー抑圧手段をさらに含み、
前記第２線形エコー抑圧手段から出力された抑圧済第２入力音声信号を、前記第１線形エコー抑圧手段から出力された抑圧済第１入力音声信号を遅延させた遅延信号に対して合成して、前記第１音声入力手段および前記第２音声入力手段から見て前記音声出力手段の方向に対して感度が低くなるような指向性を形成させることを特徴とする請求項９に記載の音声処理装置。
前記第１線形エコー抑圧手段は、前記出力音声信号から導いた擬似エコーを用いて、前記第１入力音声信号の線形エコー成分を抑圧し、
前記エコー抑圧手段は、前記第１線形エコー抑圧手段において導かれた前記擬似エコーを用いて、エコー抑圧処理を施すことを特徴とする請求項１０に記載の音声処理装置。
前記第１線形エコー抑圧手段および第２線形エコー抑圧手段は、前記出力音声信号から導いた擬似エコーを用いて、前記第１入力音声信号および前記第２入力音声信号の線形エコー成分を抑圧し、
前記エコー抑圧手段は、前記第１、第２線形エコー抑圧手段において導かれた前記擬似エコーを用いて、エコー抑圧処理を施すことを特徴とする請求項１１に記載の音声処理装置。
音声を入力する第１音声入力手段および前記第１音声入力手段よりも出力音声信号に基づいて音声を出力する音声出力手段に近接して設けられて、音声を入力する第２音声入力手段から見て当該音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力し、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成し、
前記合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施す、
ことを特徴とする音声処理方法。
音声を入力する第１音声入力手段および前記第１音声入力手段よりも出力音声信号に基づいて音声を出力する音声出力手段に近接して設けられて、音声を入力する第２音声入力手段から見て当該音声出力手段の方向に対して感度が低くなるような指向性を形成させるように、前記第１音声入力手段から出力された第１入力音声信号に対し、前記第２音声入力手段からの第２入力音声信号を合成して合成信号を出力する処理と、
前記音声出力手段を要因として前記第１音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する処理と、
前記合成信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施す処理と、
をコンピュータに実行させることを特徴とする音声処理プログラムを記録した不揮発性媒体。