JPWO2012026126A1

JPWO2012026126A1 - 音源分離装置、音源分離方法、及び、プログラム

Info

Publication number: JPWO2012026126A1
Application number: JP2012530540A
Authority: JP
Inventors: 信也松井; 洋児石川; 克昌長濱
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2010-08-25
Filing date: 2011-08-25
Publication date: 2013-10-28
Anticipated expiration: 2031-08-25
Also published as: EP2562752A4; KR101339592B1; CN103098132A; EP2562752A1; TW201222533A; BR112012031656A2; JP5444472B2; KR20120123566A; US20130142343A1; WO2012026126A1

Abstract

従来の音源分離装置では、到来方向が特定の方向に定まらない拡散性雑音が存在する環境下においては、特定の周波数帯域が大きく削除される結果、拡散性雑音が音源分離結果に不規則に振り分けられてミュージカルノイズとなる場合がある。そこで、本発明の一態様は、音源分離装置（１）のビームフォーマ部（３）は、スペクトル分析後のマイクロホン（１０、１１）からの出力信号に対して複素共役の関係にある重み係数を乗算することにより、２つのマイクロホン（１０、１１）を結ぶ線分と交わる平面を境にして、目的音源のおおまかな方向が含まれる領域と、この領域とは反対の領域から到来する各音源信号をそれぞれ減衰させるためのビームフォーマ処理を行う。重み付け係数算出部（５０）は、パワー計算部（４０、４１）で計算されたパワースペクトル情報同士の差分に基づいて重み付け係数を算出する。

Description

本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音源分離方法、及び、プログラムに関する。

種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。

これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。

また、携帯電話機、あるいは携帯電話機と接続してハンズフリー通話を可能とするヘッドセットにおいても、背景雑音環境下で通話を行うと通話品質の劣化が同様に発生する。
上記のような問題を解決する方法として、複数のマイクロホンを備えた音源分離方法が存在する。例えば、特許文献１に記載の音源分離装置は、２つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させるためのビームフォーマ処理を行い、ビームフォーマ出力について計算したパワースペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する。

特許文献１に記載の音源分離装置を用いることにより、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。

特許第４２２５４３０号公報

Y.Ephraim and D.Malah, "Speech enhancement using minimum mean-square error short-time spectral amplitude estimator", IEEE Trans Acoust.,Speech, Signal Processing, ASSP-32, 6, pp.1109-1121, Dec.1984. S. Gustafsson, P. Jax, and P. Vary, "A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics,"IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP'98, vol. 1, ppt.397-400 vol.1, 12-15 May 1998.

ところで、特許文献１に記載の音源分離装置では、ビームフォーマ処理後に算出される２つのパワースペクトル情報の差分が所定の閾値以上である場合にはその差分を目的音であると認識してそのまま出力する一方、２つのパワースペクトル情報の差分が所定の閾値未満である場合にはその差分は雑音であると認識してその周波数帯域の出力を０としている。よって、例えば自動車の走行雑音のように到来方向が特定の方向に定まらない拡散性雑音が存在する環境下において特許文献１の音源分離装置を動作させると、特定の周波数帯域が大きく削除される結果、拡散性雑音が音源分離結果に不規則に振り分けられてミュージカルノイズとなる場合がある。なお、ミュージカルノイズとは雑音の消し残りであり、時間軸上および周波数軸上で孤立した成分であるため、不自然で耳障りな音として聞こえる。

また、特許文献１では、ポストフィルタ処理をビームフォーマ処理の前段に入れることによって、拡散性雑音、定常雑音などを低減し、音源分離後のミュージカルノイズの発生を防ぐことが開示されている。しかしながら、マイクロホンが離れて配置された場合や携帯電話やヘッドセットなどの筐体にマイクロホンがモールドされている場合、両方のマイクロホンに入力される雑音の音量差や位相差が大きくなる。そのため、片方のマイクロホンで求めたゲインをそのままもう片方のマイクロホンに適用すると帯域毎に目的音が抑圧されすぎたり、雑音が大きく残ったりする。その結果、ミュージカルノイズの発生を十分に防ぐことは困難となる。

そこで、本発明は、上述のような問題を解決するためになされたものであり、マイクロホンの配置の影響を受けることなくミュージカルノイズの発生を十分に低減させることが可能な音源分離装置、音源分離方法、及び、プログラムを提供することを目的とする。

上記課題を解決するために、本発明の一態様は、複数の音源から発せられた音源信号が混合された混合音から目的音源からの音源信号を分離する音源分離装置であって、前記混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして前記目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１のビームフォーマ処理部と、前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２のビームフォーマ処理部と、前記第１のビームフォーマ処理部により得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２のビームフォーマ処理部により得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算するパワー計算部と、前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１のビームフォーマ処理部で得られた信号に乗算するための周波数毎の重み付け係数を算出する重み付け係数算出部と、を備え、前記第１のビームフォーマ処理部により得られた信号と、前記重み付け係数算出部が算出する前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする音源分離装置である。

また、本発明の他の態様は、第１のビームフォーマ処理部と、第２のビームフォーマ処理部と、パワー計算部と、重み付け係数算出部と、を有する音源分離装置が実行する音源分離方法であって、前記第１のビームフォーマ処理部が、複数の音源から発せられた音源信号が混合された混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１のステップと、前記第２のビームフォーマ処理部が、前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２のステップと、前記パワー計算部が、前記第１の処理ステップにより得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２の処理ステップにより得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算する第３のステップと、前記重み付け係数算出部が、前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１のステップで得られた信号に乗算するための周波数毎の重み付け係数を算出する第４のステップと、を備え、前記第１のステップにより得られた信号と、前記第４のステップにおいて算出された前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする音源分離方法である。

また、本発明の他の態様は、コンピュータに、複数の音源から発せられた音源信号が混合された混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１の処理ステップと、前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２の処理ステップと、前記第１の処理ステップにより得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２の処理ステップにより得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算する第３の処理ステップと、前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１の処理ステップで得られた信号に乗算するための周波数毎の重み付け係数を算出する第４の処理ステップと、を備え、前記第１の処理ステップにより得られた信号と、前記第４の処理ステップにおいて算出された前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする音源分離プログラムである。

これらの構成によれば、特に、拡散性雑音の存在する環境下であっても、ミュージカルノイズの発生を抑制しつつ、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。

特許文献１の効果を維持しつつ、ミュージカルノイズの発生を十分に低減させることが可能となる。

第１実施形態に係る音源分離システムの構成を示す図である。第１実施形態に係るビームフォーマ部の構成を示す図である。パワー計算部の構成を示す図である。マイク入力信号に対する特許文献１に係る音源分離装置と本発明の第１実施形態に係る音源分離装置における処理結果を示す図である。図４の処理結果の一部の拡大図である。雑音推定部の構成を示す図である。雑音イコライザ部の構成を示す図である。第１実施形態に係る音源分離システムの別の構成を示す図である。第２実施形態に係る音源分離システムの構成を示す図である。制御部の構成を示す図である。第３実施形態に係る音源分離システムの構成の一例を示す図である。第３実施形態に係る音源分離システムの構成の一例を示す図である。第３実施形態に係る音源分離システムの構成の一例を示す図である。第４実施形態に係る音源分離システムの構成を示す図である。指向性制御部の構成を示す図である。本発明の音源分離装置の指向特性を示す図である。指向性制御部の別の構成を示す図である。目的音補正部を設けた場合の本発明の音源分離装置の指向特性を示す図である。音源分離システムにおける処理の一例を示すフロー図である。雑音推定部での処理の詳細を示すフロー図である。雑音イコライザ部での処理の詳細を示すフロー図である。残留雑音抑圧算出部での処理の詳細を示すフロー図である。ビームフォーマ３０の出力値について近接音と遠距離音の場合を比較したグラフを示す図である（マイク間隔３ｃｍ）。ビームフォーマ３０の出力値について近接音と遠距離音の場合を比較したグラフを示す図である（マイク間隔１ｃｍ）。特許文献１の音源分離装置における音源分離の境界面を示す図である。特許文献１の音源分離装置の指向特性を示す図である。

以下、本発明に係る実施の形態について、図面を参照しながら説明する。
［第１実施形態］
図１は、第１実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、２つのマイクロホン（以下「マイク」という）１０、１１と、音源分離装置１とで構成されている。以下、マイクロホンを二つとして実施形態の説明を行うが、マイクロホンの数は少なくとも２つ以上あればよく、２つに限定されない。

この音源分離装置１は、図示せぬ、全体を制御し演算処理を実行するＣＰＵと、ＲＯＭ、ＲＡＭ、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、音源分離装置１の各機能ブロックが実現される。

２つのマイク１０、１１は、平面上に互いに離して設置されており、２つの音源Ｒ１、Ｒ２から発せられた信号を受信する。このとき、これら２つの音源Ｒ１、Ｒ２は、２つのマイク１０、１１を結ぶ線分と交わる平面（以下、分離面とする）を境界として分割された２つの領域（以下「分離面の左右」という）にそれぞれ位置するものとするが、必ずしも分離面に対し左右対称の位置に存在する必要はない。尚、本実施形態では、分離面を、２つのマイク１０、１１を結ぶ線分を面内に含む平面と垂直に交わる平面であって、前記線分の中点を通る平面とした例で説明する。

また、音源Ｒ１から発生する音は取得すべき目的音、音源Ｒ２から発生する音は抑圧すべき雑音とする（本明細書を通じて同様）。また、雑音は１つに限定するものではなく、複数あってもよい。ただし、目的音と雑音の方向は異なるものとする。
このマイク１０、１１で得た２つの音源信号を、スペクトル分析部２０、２１においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部３においてこれらの周波数分析された信号を分離面の左右に死角を形成したビームフォーマ３０、３１でフィルタリングを行い、パワー計算部４０、４１においてそのフィルタ出力のパワーを計算する。なお、ビームフォーマ３０、３１は、好ましくは、分離面の左右において、分離面に対して対称に死角を形成するものである。

［ビームフォーマ部］
まず、図２を参照して、ビームフォーマ３０、３１からなるビームフォーマ部３の構成を説明する。スペクトル分析部２０、スペクトル分析部２１で周波数成分毎に分解された信号ｘ₁（ω）、ｘ₂（ω）を入力として、乗算器１００ａ、１００ｂ、１００ｃ、１００ｄにて、フィルタ係数ｗ₁（ω）、ｗ₂（ω）、ｗ₁ ^*（ω）、ｗ₂ ^*（ω）（＊は複素共役の関係にあることを示す）と乗算をそれぞれ行う。

そして、加算器１００ｅ、１００ｆにて２つの乗算結果を加算し、その出力としてフィルタリング処理結果ｄｓ₁（ω）、ｄｓ₂（ω）を出力する。目的方位θ₁に対するゲインを１とし、他方向θ₂に１つの死角（ゲイン０）を形成するビームフォーマ３０のフィルタベクトルをＷ₁（ω，θ₁，θ₂）＝［ｗ₁（ω，θ₁，θ₂），ｗ₂（ω，θ₁，θ₂）］^T、観測信号をＸ（ω，θ₁，θ₂）＝［ｘ₁（ω，θ₁，θ₂），ｘ₂（ω，θ₁，θ₂）］^Tとしたとき、ビームフォーマ３０の出力ｄｓ₁（ω）は次式で求めることが出来る。ただし、Ｔは転置操作、Ｈは共役転置操作を示す。

また、ビームフォーマ３１のフィルタベクトルをＷ₂（ω，θ₁，θ₂）＝［ｗ₁ ^*（＊ω，θ₁，θ₂），ｗ₂ ^*（ω，θ₁，θ₂）］^Tとしたとき、ビームフォーマ３１の出力ｄｓ₂（ω）は次式で求めることが出来る。

このように、ビームフォーマ部３は、複素共役フィルタ係数を使用することにより、分離面に対して対称な位置に死角を形成している。ここで、ωは角周波数を表わし、周波数ｆに対してω＝２πｆの関係にある。
［パワー計算部］
次に、図３を参照して、パワー計算部４０、４１について説明する。パワー計算部４０、４１は、以下の計算式により、ビームフォーマ３０、ビームフォーマ３１からの出力ｄｓ₁（ω）、ｄｓ₂（ω）を、パワースペクトル情報ｐｓ₁（ω）、ｐｓ₂（ω）に変換する。

［重み付け係数算出部］
パワー計算部４０、４１の出力ｐｓ₁（ω）、ｐｓ₂（ω）は、重み付け係数算出部５０の２つの入力として使用される。重み付け係数算出部５０は、この２つのビームフォーマ３０、３１の出力のパワースペクトル情報を入力として、周波数毎の重み付け係数Ｇ_BSA（ω）を出力する。

重み付け係数Ｇ_BSA（ω）は、前記パワースペクトル情報同士の差分に基づく値であり、重み付け係数Ｇ_BSA（ω）の一例としては、周波数毎にｐｓ₁（ω）とｐｓ₂（ω）の差分を計算し、ｐｓ₁（ω）の値がｐｓ₂（ω）の値より大きい場合にはｐｓ₁（ω）とｐｓ₂（ω）の差分の平方根をｐｓ₁（ω）の平方根で除算した値を示し、ｐｓ₁（ω）の値がｐｓ₂（ω）以下の値の場合に０を示す値を定義域とした単調増加関数の出力値が考えられる。重み付け係数Ｇ_BSA（ω）を式で表すと以下のようになる。

式（５）において、ｍａｘ（ａ，ｂ）は、ａ及びｂのうちいずれか大きい値を返す関数を意味する。また、Ｆ（ｘ）は定義域ｘ≧０においてｄＦ（ｘ）／ｄｘ≧０を満たす広義単調増加関数であり、例えばシグモイド関数や２次関数などが考えられる。
ここで、Ｇ_BSA（ω）ｄｓ₁（ω）について考察する。式（１）で示されるように、ｄｓ₁（ω）は観測信号Ｘ（ω，θ₁，θ₂）に対する線形処理により得られる信号である。一方、Ｇ_BSA（ω）ｄｓ₁（ω）はｄｓ₁（ω）に対する非線形処理により得られる信号である。

図４は、（ａ）マイクの入力信号に対する、（ｂ）特許文献１に係る音源分離装置の処理結果と、（ｃ）本実施形態に係る音源分離装置の処理結果とを示す図である。つまり、図４（ｂ）および（ｃ）は、Ｇ_BSA（ω）ｄｓ₁（ω）をスペクトログラムで表したものの一例である。本実施形態に係る音源分離装置の単調増加関数Ｆ（ｘ）にはシグモイド関数を適用した。一般的にシグモイド関数は、１／（１＋ｅｘｐ（ａ−ｂｘ））で表される関数であり、図４（ｃ）の処理結果においては、ａ＝４，ｂ＝６を適用している。

また、図５は、図４（ａ）〜（ｃ）の、ある時間帯におけるスペクトログラムの一部分（符号５）を時間軸方向に拡大した拡大図である。入力音声（図５（ａ））に対する特許文献１の音源分離装置の処理結果（図５（ｂ））のスペクトログラムを見ると、本実施形態の音源分離装置の処理結果（図５（ｃ））よりも、雑音成分のエネルギーが時間方向、周波数方向に偏在しており、ミュージカルノイズが生じている様子がわかる。
一方、図４（ｃ）のスペクトログラムの雑音成分は入力信号のように雑音成分のエネルギーが時間方向、周波数方向に偏在しておらず、ミュージカルノイズが少ない様子がわかる。

［ミュージカルノイズ低減ゲイン算出部］
Ｇ_BSA（ω）ｄｓ₁（ω）は、十分にミュージカルノイズが低減された目的音源からの音源信号であるが、拡散性雑音など様々な方向から到来するような雑音の場合、非線形処理であるＧ_BSA（ω）は周波数ビンごとおよびフレームごとに値が大きく変化し、ミュージカルノイズを生じさせる傾向がある。そこで、非線形処理後の出力にミュージカルノイズが生じていない非線形処理前の信号を付加することでミュージカルノイズを低減する。具体的には、出力Ｇ_BSA（ω）を、ビームフォーマ３０の出力ｄｓ₁（ω）に乗算して得られる信号Ｘ_BSA（ω）と、ビームフォーマ３０の出力ｄｓ₁（ω）を所定の割合で足し合わせてできる信号を算出する。

また、別の方法として、ビームフォーマ３０の出力ｄｓ₁（ω）に乗算するゲインを再算出する方法がある。ミュージカルノイズ低減ゲイン算出部６０では、重み付け係数算出部５０の出力Ｇ_BSA（ω）を、ビームフォーマ３０の出力ｄｓ₁（ω）に乗算して得られる信号Ｘ_BSA（ω）と、ビームフォーマ３０の出力ｄｓ₁（ω）を所定の割合で足し合わせるようなゲイン値Ｇ_S（ω）を再算出する。

ここで、Ｘ_BSA（ω）にビームフォーマ３０の出力ｄｓ₁（ω）をある割合で混合したもの（Ｘ_S（ω））は、以下の式で表される。γ_Sは、混合時の割合を決定する重み係数であり、０よりおおきく１よりも小さい値となる。

また、式（６）をビームフォーマ３０の出力ｄｓ₁（ω）にゲインを乗算する形に展開すると、以下のようになる。

すなわち、ミュージカルノイズ低減ゲイン算出部６０は、Ｇ_BSA（ω）から１を引く減算部と、それに重み係数γ_Sを掛ける乗算部と、それに１を加える加算部とから構成することができる。つまり、これらの構成から、ビームフォーマ３０の出力ｄｓ₁（ω）に乗ずるゲインとして、ミュージカルノイズが低減されたゲイン値Ｇ_S（ω）が再算出される。

ゲイン値Ｇ_S（ω）とビームフォーマ３０の出力ｄｓ₁（ω）との乗算結果に基づいて得られる信号は、Ｇ_BSA（ω）ｄｓ₁（ω）に比べミュージカルノイズが低減された目的音源からの音源信号となる。この信号を後述する時間波形変換部１２０で時間領域信号に変換し、出力することで、目的音源からの音源信号とすることも可能である。
ところで、ゲイン値Ｇ_S（ω）は、Ｇ_BSA（ω）に比較して必ず大きくなるため、ミュージカルノイズを低減する一方で、雑音成分を増加してしまう。そこで、残留雑音を抑圧するために、ミュージカルノイズ低減ゲイン算出部６０の後段に残留雑音抑圧ゲイン算出部１１０を設け、さらに最適なゲイン値を再算出する。

また、ビームフォーマ３０の出力ｄｓ₁（ω）にミュージカルノイズ低減ゲイン算出部６０で算出されたゲインＧ_S（ω）を乗算したＸ_S（ω）の残留雑音には、突発性雑音も含まれる。そこで、突発性雑音も推定できるように残留雑音抑圧ゲイン算出部１１０で利用する推定雑音の算出において、以下に説明するブロッキングマトリックス部７０と雑音イコライザ部１００を導入する。

［雑音推定部］
雑音推定部７０のブロック図を図６（ａ）〜（ｄ）に示す。雑音推定部７０は、マイク１０、１１で得た２つの信号から適応フィルタリング
を行い、目的音である音源Ｒ１からの信号成分をキャンセルすることで、雑音成分のみを取得する。
ここで、音源Ｒ１からの信号をＳ（ｔ）とする。なお、音源Ｒ１からの音は音源Ｒ２からの音よりも先にマイク１０に到達する。それ以外の音源から発せられる音の信号をｎ_j（ｔ）とし、それらを雑音とする。このとき、マイク１０の入力ｘ₁（ｔ）と、マイク１１の入力ｘ₂（ｔ）は、以下のようになる。

図６に示される適応フィルタ部７１は、マイク１０の入力信号と適応フィルタ係数を畳み込み、マイク１１で得られた信号成分と一致するような擬似信号を算出する。次に、減算部７２において、マイク１１の信号から擬似信号を減算し、マイク１１に含まれる音源Ｒ１からの信号中の誤差信号（雑音信号）を算出する。この誤差信号ｘ_ABM(ｔ)が、雑音推定部７０の出力信号となる。

さらに、適応フィルタ部７１において誤差信号から適応フィルタ係数の更新を行う。例えば、適応フィルタの係数Ｈ（ｔ）の更新にＮＬＭＳ（Normalized Least Mean Square）を利用する。また、外部のＶＡＤ(Voice Activity Detection)値や、後述する制御部１６０の情報から適応フィルタの更新を制御してもよい（図６（ｃ）、図６（ｄ））。具体的には、例えば、閾値比較部７４において、制御部１６０からの制御信号が所定の閾値よりも大きいと判断した場合に適応フィルタの係数Ｈ（ｔ）が更新されるようになっていてもよい。なお、ＶＡＤ値とは、目的音声が発話状態か非発話状態かを示す値である。値としては、Ｏｎ／Ｏｆｆの２値変移でもよいし、発話状態の確からしさを示すようなある範囲をもつ確率値でもよい。
また、このとき、目的音と雑音が無相関であると仮定すると、雑音推定部７０の出力ｘ_ABM（ｔ）は、以下のように算出される。

このとき、目的音を抑圧するような伝達関数が推定できたとすると、出力ｘ_ABM（ｔ）は以下のようになる。

以上により、目的音方向以外の雑音成分をある程度推定することができる。特に、Griffith-Jim手法と異なり固定フィルタを利用しないのでマイクゲインの違いにロバストに目的音を抑圧できる。また、図６（ｂ）〜図６（ｄ）に示されるように、遅延器７３におけるフィルタのDELAY値を変えることにより、雑音と判断される空間範囲を制御できる。よって、DELAY値に応じて指向性を狭めたり広げたりすることが出来る。

なお、適応フィルタとしては、上記で挙げたものの他、マイクのゲイン特性差にロバストになるようなものであれば良い。
また、雑音推定部７０の出力に対しては、スペクトル分析部８０において周波数分析し、雑音パワー計算部９０において周波数ビン毎のパワーを計算する。また、雑音推定部７０の入力としては、スペクトル分析後のマイク入力信号でもよい。

［雑音イコライザ部］
雑音推定部７０の出力を周波数分析したＸ_ABM（ω）に含まれる雑音量と、重み付け係数Ｇ_BSA（ω）を、ビームフォーマ３０の出力ｄｓ₁（ω）に乗算して得られる信号Ｘ_BSA（ω）と、ビームフォーマ３０の出力ｄｓ₁（ω）を所定の割合で足し合わせてできる信号Ｘ_S（ω）に含まれる雑音量は、スペクトルの形は似ているもののエネルギー量に乖離がある。よって、雑音イコライザ部１００では、両者のエネルギー量を一致させるために補正を行う。

雑音イコライザ部１００のブロック図を図７に示す。なお、以下、雑音イコライザ部１００の入力として、パワー計算部９０の出力ｐＸ_ABM（ω）、ミュージカルノイズ低減ゲイン算出部６０の出力Ｇ_S（ω）、ビームフォーマ３０の出力ｄｓ₁（ω）を使用した例を説明する。

まず、乗算部１０１は、ｄｓ₁（ω）とＧ_S（ω）の乗算を行う。その出力に対し、パワー計算部１０２ではパワーを求める。スムージング部１０３、１０４は、外部のＶＡＤ値や後述する制御部１６０からの信号を受け付けることによって雑音と判断した区間で、パワー計算部９０の出力ｐＸ_ABM（ω）とパワー計算部１０２の出力ｐＸ_S（ω）に対しそれぞれスムージング処理をする。「スムージング処理」とは、連続的なデータにおいて、他のデータよりも大きく乖離しているデータの影響を低減するためにデータを平均化する処理である。本実施形態では、一次ＩＩＲフィルタを用いてスムージング処理を行っており、スムージング処理されたパワー計算部９０の出力ｐＸ'_ABM（ω）とパワー計算部１０２の出力ｐＸ'_S（ω）は、現処理フレームにおけるパワー計算部９０の出力ｐＸ_ABM（ω）とパワー計算部１０２の出力ｐＸ_S（ω）に、過去のフレームにおけるスムージング処理されたパワー計算部９０の出力とパワー計算部１０２の出力を用いて算出されている。スムージング処理の一例として、スムージング処理されたパワー計算部９０の出力ｐＸ'_ABM（ω）とパワー計算部１０２の出力ｐＸ'_S（ω）は以下の式（１３−１）のように算出される。ここで、時系列をわかりやすくするため処理フレーム番号ｍを設け、現処理フレームをｍ、一つ前の処理フレームをｍ−１とする。なお、スムージング部１０３における処理は、閾値比較部１０５において、制御部１６０からの制御信号が所定の閾値よりも小さいと判断された場合に実行されるようになっていてもよい。

イコライザ更新部１０６は、ｐＸ'_ABM（ω）とｐＸ'_S（ω）の出力比を算出する。すなわち、イコライザ更新部１０６の出力は、以下のようになる。

イコライザ適用部１０７は、イコライザ更新部１０６の出力Ｈ_EQ（ω）とパワー計算部９０の出力ｐＸ_ABM（ω）とに基づきＸ_S（ω）に含まれる推定雑音のパワーｐλ_d（ω）を算出する。ｐλ_d（ω）は例えば以下のような計算に基づき算出すればよい。

［残留雑音抑圧ゲイン算出部］
残留雑音抑圧ゲイン算出部１１０では、ビームフォーマ３０の出力ｄｓ₁（ω）にゲイン値Ｇ_S（ω）を適用した際に残留する雑音成分を抑圧するため、ｄｓ₁（ω）に乗ずるゲインを再算出する。すなわち、残留雑音抑圧ゲイン算出部１１０では、ｄｓ₁（ω）にＧ_S（ω）を適用した値Ｘ_S（ω）に対し、残留雑音成分の推定値λ_d（ω）を基にＸ_S（ω）に含まれる雑音成分を適切に除去するゲインである残留雑音抑圧ゲインＧ_T（ω）を算出する。ゲインの算出には、ウィーナーフィルタやＭＭＳＥ−ＳＴＳＡ法（非特許文献１参照）がよく利用されている。しかし、ＭＭＳＥ−ＳＴＳＡ法は、雑音を正規分布として仮定しているため、突発性雑音などはＭＭＳＥ−ＳＴＳＡの仮定に当てはまらない場合がある。そこで、本実施形態では、比較的突発性雑音を抑圧しやすい推定器を利用する。但し、推定器には、どのような手法を用いてもよい。

残留雑音抑圧ゲイン算出部１１０は、以下のようにしてゲインＧ_T（ω）を算出する。まず、残留雑音抑圧ゲイン算出部１１０は、事後ＳＮＲ（ (S+N)/N ））をもとに導かれる瞬時の事前ＳＮＲ（クリーン音声対雑音比（ S/N ））を算出する。

次に、残留雑音抑圧ゲイン算出部１１０は、ＤＥＣＩＳＩＯＮ−ＤＩＲＥＣＴＥＤＡＰＰＲＯＡＣＨにより事前ＳＮＲ（クリーン音声対雑音比（ S/N ））を算出する。

そして、残留雑音抑圧ゲイン算出部１１０は、事前ＳＮＲを基に最適なゲイン値を算出する。以下の式（１８）におけるβ_p（ω）は、ゲインの下限値を規定するスペクトラルフロア値である。これを大きく設定することにより目的音の音質劣化が抑えられるが残留雑音量が増える。一方、小さく設定すると、残留雑音量が少なくなるが目的音の音質劣化が大きくなる。

残留雑音抑圧ゲイン算出部１１０の出力値は、以下のように表される。

これにより、ビームフォーマ３０の出力ｄｓ₁（ω）に乗ずるゲインとして、ミュージカルノイズが低減され、かつ残留雑音も小さくなるようなゲイン値Ｇ_T（ω）が再算出される。また、目的音の過剰抑圧を防ぐために外部ＶＡＤ情報や本発明の制御部１６０の制御信号の値に応じてλ_d（ω）の値を調整してもよい。

［ゲイン乗算部］
重み付け係数算出部５０の出力Ｇ_BSA（ω）、ミュージカルノイズ低減ゲイン算出部６０の出力Ｇ_S（ω）、又は残留雑音抑圧算出部１１０の出力Ｇ_T（ω）は、ゲイン乗算部１３０の入力として使用される。ゲイン乗算部１３０は、ビームフォーマ３０の出力ｄｓ₁（ω）と、重み付け係数Ｇ_BSA（ω）、ミュージカルノイズ低減ゲインＧ_S（ω）、又は残留雑音抑圧Ｇ_T（ω）との乗算結果に基づく信号Ｘ_BSA（ω）を出力する。すなわち、Ｘ_BSA（ω）の値としては、例えば、ｄｓ₁（ω）とＧ_BSA（ω）との乗算値、ｄｓ₁（ω）とＧ_S（ω）との乗算値、又はｄｓ₁（ω）とＧ_T（ω）との乗算値を用いればよい。
特に、ｄｓ₁（ω）とＧ_T（ω）との乗算値から得られた目的音源からの音源信号はミュージカルノイズ、雑音成分が極めて少ない信号となる。

［時間波形変換部］
時間波形変換部１２０は、ゲイン乗算部１３０の出力Ｘ_BSA（ω）を時間領域信号に変換する。
［音源分離システムの別の構成例］
また、図８は、本実施形態に係る音源分離システムの別の構成例を示す図である。本構成と図１に示される音源分離システムの構成との違いは、図１の音源分離システムでは雑音推定部７０を時間領域で実現していたのに対し、図８の音源分離システムでは周波数領域で実現している点である。なお、他の構成については図１の音源分離システムの構成と同様である。この構成の場合、スペクトル分析８０は不要となる。

［第２実施形態］
図９は、本発明の第２実施形態に係る音源分離システムの基本的構成を示す図である。本実施形態に係る音源分離システムにおいては、制御部１６０を有する点が特徴である。制御部１６０は、全周波数帯域の重み付け係数Ｇ_BSA（ω）をもとに、雑音推定部７０、雑音イコライザ部１００、残留雑音抑圧ゲイン算出部１１０の内部パラメータを制御することを特徴とする。内部パラメータの例としては、適応フィルタのステップサイズ、重み係数Ｇ_BSA（ω）のスペクトラムフロア値β、推定雑音の雑音量などが挙げられる。

制御部１６０は、具体的には以下のような処理を実行する。例えば、重み付け係数Ｇ_BSA（ω）の全周波数帯域に亘る平均値を算出する。その平均値が大きければ音声存在確率が高いと判断できるため、制御部１６０は、算出した平均値と所定の閾値とを比較し、その比較結果に基づいて他のブロックを制御する。

また、例えば、制御部１６０は、重み付け係数算出部５０で算出される重み付け係数Ｇ_BSA（ω）のヒストグラムを０〜１．０において０．１ごとに算出する。なお、Ｇ_BSA（ω）の値が大きい場合は音声が存在する確率が高く、Ｇ_BSA（ω）の値が小さい場合は音声が存在する確率が低いので、その傾向を表した重みテーブルをあらかじめ用意しておく。そして、算出したヒストグラムに重みテーブルを掛けそれらの平均値を算出し、閾値と比較し、その比較結果から他のブロックを制御する。

また、例えば、制御部１６０は、重み付け係数Ｇ_BSA（ω）のヒストグラムを０〜１．０において０．１ごとに算出した後、例えば、０．７〜１．０の範囲に分布する個数を数え、その数と閾値を比較し、その比較結果に基づいて他のブロックを制御する。

また、制御部１６０は２つのマイクロホン（マイク１０、１１）の少なくとも一方からの出力信号を受け付けてもよい。この場合の制御部１６０のブロック図を図１０に示す。制御部１６０における処理の基本的な考えとしては、ｄｓ₁（ω）とＧ_BSA（ω）との乗算結果に基づく信号Ｘ_BSA（ω）と、雑音推定部１６５およびスペクトル分析部１６６による処理の出力Ｘ_ABM（ω）のパワースペクトル密度を、エネルギー比較部１６７で比較する。

具体的には、Ｘ_BSA（ω）とＸ_ABM（ω）のパワースペクトル密度について、それぞれ対数をとりスムージングしたものを、Ｘ_BSA（ω）'、Ｘ_ABM（ω）'とすると、制御部１６０は目的音の推定ＳＮＲＤ（ω）を以下のように算出する。

そして、上述した雑音推定部７０およびスペクトル分析部８０での処理と同様に、Ｄ（ω）から定常（雑音）成分Ｄ_N（ω）を検出し、Ｄ（ω）からＤ_N（ω）を減算することで、Ｄ（ω）の突発雑音成分Ｄ_S（ω）を検出することができる。

最後に、Ｄ_S（ω）とあらかじめ決められた閾値とを比較し、その比較結果から他のブロックを制御する。
［第３実施形態］
（第１の構成）
図１１は、本発明の第３実施形態に係る音源分離システムの基本的構成の一例を示す図である。
図１１に示される音源分離システムにおける音源分離装置１は、スペクトル分析部２０、２１と、ビームフォーマ３０、３１と、パワー計算部４０、４１と、重み付け係数算出部５０と、重み付け係数乗算部３１０と、時間波形変換部１２０と、を有する。ここで、重み付け係数乗算部３１０以外の構成については、上述した他の実施形態における構成と同様である。
重み付け係数乗算部３１０は、ビームフォーマ３０により得られた信号ｄｓ₁（ω）と、重み付け係数算出部５０が算出する重み付け係数とを乗算する。

（第２の構成）
図１２は、本発明の第３実施形態に係る音源分離システムの基本的構成の別の例を示す図である。
図１２に示される音源分離システムにおける音源分離装置１は、スペクトル分析部２０、２１と、ビームフォーマ３０、３１と、パワー計算部４０、４１と、重み付け係数算出部５０と、重み付け係数乗算部３１０と、ミュージカルノイズ低減部３２０と、残留雑音抑圧部３３０と、雑音推定部７０と、スペクトル分析部８０と、パワー計算部９０と、雑音イコライザ部１００と、時間波形変換部１２０と、を有する。ここで、重み付け係数乗算部３１０と、ミュージカルノイズ低減部３２０と、残留雑音抑圧部３３０以外の構成については、上述した他の実施形態における構成と同様である。

ミュージカルノイズ低減部３２０は、重み付け係数乗算部３１０の出力結果とビームフォーマ３０から得られた信号とを、所定の割合で加算した結果を出力する。
残留雑音抑圧部３３０は、ミュージカルノイズ低減部３２０の出力結果と雑音イコライザ部１００の出力結果に基づき、ミュージカルノイズ低減部３２０の出力結果に含まれる残留雑音を抑圧する。

また、図１２の構成においては、雑音イコライザ部１００は、ミュージカルノイズ低減部の出力結果と、雑音推定部７０が算出した雑音成分に基づいて、ミュージカルノイズ低減部３２０の出力結果に含まれる雑音成分を算出する。
ここで、重み付け係数Ｇ_BSA（ω）を、ビームフォーマ３０の出力ｄｓ₁（ω）に乗算して得られる信号Ｘ_BSA（ω）と、ビームフォーマ３０の出力ｄｓ₁（ω）を所定の割合で足し合わせてできる信号Ｘ_S（ω）には、雑音環境に応じて突発性雑音が含まれる場合がある。そこで、突発性雑音も推定できるように以下に説明する雑音推定部７０と雑音イコライザ部１００を導入する。

以上のような構成により、図１２の音源分離装置１は、残留雑音抑圧部３３０の出力結果に基づき混合音から、目的音源からの音源信号を分離する。
すなわち、図１２の音源分離装置１では、ミュージカルノイズ低減ゲインＧ_S（ω）や、残留雑音抑圧ゲインＧ_T（ω）を算出しない点が第１実施形態および第２実施形態の音源分離装置１と異なる点である。図１２のような構成であっても、第１実施形態に係る音源分離装置１と同様の効果を奏する。

（第３の構成）
また、図１３は、本発明の第３実施形態に係る音源分離システムの基本的構成の別の例を示す図である。図１３に示される音源分離装置１は、図１２の音源分離装置１の構成に、制御部１６０が加えられている。制御部１６０の機能は、第２実施形態で説明した機能と同様である。

［第４実施形態］
図１４は、本発明の第４実施形態に係る音源分離システムの基本的構成を示す図である。本実施形態に係る音源分離システムにおいては、指向性制御部１７０、目的音補正部１８０、および到来方向推定部１９０を有する点が特徴である。

指向性制御部１７０は、到来方向推定部１９０で推定される目的音位置に基づいて、分離したい２つの音源Ｒ１、Ｒ２が仮想的に出来るだけ分離面に対して対称となるように、スペクトル分析部２０、２１で周波数分析されたマイク出力のうち片方のマイク出力に遅延操作を与える。すなわち、仮想的に分離面を回転させるが、この時の回転角について、周波数帯域に応じて最適な値を算出する。

ところで、指向性制御部１７０において指向性を狭めた後にビームフォーマ部３でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じるという問題がある。また、遅延量がビームフォーマ部３の入力信号に与えられることにより、出力ゲインが小さくなってしまう問題が生じる。そこで、目的音補正部１８０では、目的音出力の周波数特性を補正する。

［指向性制御部］
図２５は、２つの音源Ｒ１'（目的音）、音源Ｒ２'（雑音）がマイクを結ぶ線分と交わる元々の分離面に対してθτだけ回転した分離面に対し、左右対称となる状況を示している。特許文献１に記述されているように、片方のマイクで取得した信号に一定遅延量τ_dを与えることで、図２５に示される状況と等価な状況を実現可能である。すなわち、マイク間の位相差を操作し、指向特性を調整するため、上記の式（１）において、位相回転子Ｄ（ω）を乗ずる。なお、以下の式において、Ｗ₁（ω）＝Ｗ₁（ω，θ₁，θ₂）、Ｘ（ω）＝Ｘ（ω，θ₁，θ₂）である。

ここで、遅延量τ_dは以下のように算出される。

ｄはマイク間距離［ｍ］、ｃは音速［ｍ／ｓ］である。
しかしながら、位相情報をもとにアレイ処理をする場合、以下の式で表現される空間サンプリング定理を満たさなければならない。

この定理を満たすために許容される遅延量の最大値τ₀としては、

となる。すなわち、各周波数ωが大きくなるほど、許容される遅延量τ₀は小さくなってしまう。しかしながら、特許文献１の音源分離装置では、式（２７−２）で与えられる遅延量は一定であるため、周波数領域の高域において式（２９）を満たさなくなる場合が生ずる。結果として、図２６に示されるように、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまう。

そこで、本実施形態に係る音源分離装置においては、図１５に示されるように、指向性制御部１７０に最適遅延量算出部１７１を設け、仮想的に分離面を回転させる際の回転角θτに対し一定の遅延を与えるのではなく、周波数帯毎に空間サンプリング定理を満たす最適な遅延量を算出することで、上記の問題を解決する。

指向性制御部１７０は、最適遅延量算出部１７１において、式（２８）よりθτによる遅延量を与えたとき周波数毎に空間サンプリング定理を満たすかを判定し、空間サンプリング定理を満たすならばθτに対応する遅延量τ_dを位相回転子１７２に適用し、空間サンプリング定理を満たさないならば、遅延量τ₀を位相回転子１７２に適用する。

図１６は、本実施形態に係る音源分離装置１の指向特性を示す図である。図１６に示されるように、式（３１）の遅延量を適用することにより、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまうといった問題を解決することができる。

また、図１７は、指向性制御部１７０の別の構成を示す図である。この場合、最適遅延量算出部１７１において式（３１）に基づいて算出された遅延量を片方のマイク入力だけに与えるのではなく、位相回転子１７２、１７３によって、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現してもよい。つまり、片方のマイクで取得した信号に遅延量τ_d（またはτ₀）を与えるのではなく、片方のマイクで取得した信号に遅延量τ_d／２（またはτ₀／２）、もう片方のマイクで取得した信号に遅延量−τ_d／２（または−τ₀／２）を与えることで、全体の遅延差がτ_d（またはτ₀）
になるようにしてもよい。

［目的音補正部］
別の問題点として、指向性制御部１７０において指向性を狭めた後にビームフォーマ３０、３１でＢＳＡ処理を行うことにより、目的音の周波数特性に若干の歪が生じることが挙げられる。また、式（３１）の処理により、出力ゲインが小さくなってしまう問題が生じる。よって、目的音出力の周波数特性を補正するため目的音補正部１８０を設け周波数イコライジングを行う。つまり、目的音の場所はおおよそ固定されているため、推定される目的音位置に対して補正を行う。本実施形態では、ある点音源から各マイクまでの伝播時間や減衰量を表す伝達関数を簡易的に模した物理モデルを利用する。ここでは、マイク１０の伝達関数を基準値とし、マイク１１の伝達関数をマイク１０に対する相対値として表現する。このとき、目的音位置から各マイクに到達する音の伝播モデルＸ_m（ω）＝［Ｘ_m1（ω），Ｘ_m2（ω）］は、以下のように表せる。γ_sは、マイク１０と目的音の距離、θ_Sは、目的音の方向である。

この物理モデルを利用することで、推定される目的音位置から発せられた音声が各マイクにどのように入力されるのかが予め想定でき、目的音に対する歪具合も簡易的に算出される。上記の伝播モデルに対する重み付け係数はＧ_BSA（ω｜Ｘ_m（ω））となり、この逆数を目的音補正部１８０においてイコライザとして保持しておくことで、目的音の周波数歪を補正できる。よって、イコライザは、

と求めることが出来る。
以上より、重み付け係数算出部５０で算出された重み付け係数Ｇ_BSA（ω）は目的音補正部１８０によって、以下の式に表されるＧ_BSA'（ω）に補正される。

図１８は、θ_Sが０度、γ_Sが１．５［ｍ］として目的音補正部１８０のイコライザを設計した際の音源分離装置１の指向特性を示す図である。０度方向から到来する音源に対し、出力信号の周波数歪がないことが図１８より確認できる。
なお、ミュージカルノイズ低減ゲイン算出部６０では、この補正された重み付け係数Ｇ_BSA'（ω）を入力とする。すなわち、式（７）等のＧ_BSA（ω）は、Ｇ_BSA'（ω）に置きかえられる。
また、制御部１６０には、マイク１０、１１で得られた信号の少なくとも一方が入力されるようになっていてもよい。

［音源分離システムの処理フロー］
図１９、音源分離システムにおける処理の一例を示すフロー図である。
スペクトル分析部２０、２１において、マイク１０、２０のそれぞれにおいて得られた入力信号１、入力信号２に対し、周波数分析が実行される（ステップＳ１０１、Ｓ１０２）。また、ここで、到来方向推定部１９０において目的音の位置の推定が行われ、指向性制御部１７０において、推定された音源Ｒ１、Ｒ２の位置に基づいて最適遅延量が算出されて、この最適遅延量から入力信号１に位相回転子が乗算されるようになっていてもよい。

次に、ステップＳ１０１、Ｓ１０２において周波数分析された信号ｘ₁（ω）、ｘ₂（ω）に対して、ビームフォーマ３０、３１でフィルタリング処理が実行される（ステップＳ１０３、Ｓ１０４）。また、これらのフィルタリング処理の出力に対して、パワー計算部４０、４１でパワーが計算される（ステップＳ１０５、Ｓ１０６）。
重み付け係数算出部５０において、ステップＳ１０５、Ｓ１０６での計算結果から分離ゲイン値Ｇ_BSA（ω）が算出される（ステップＳ１０７）。また、ここで、目的音補正部１８０において重み付け係数値Ｇ_BSA（ω）が再算出されることにより、目的音の周波数特性が補正されるようになっていてもよい。

次に、ミュージカルノイズ低減ゲイン算出部６０において、ミュージカルノイズを低減させるようなゲイン値Ｇ_S（ω）が算出される（ステップＳ１０８）。また、制御部１６０において、ステップＳ１０７において算出された重み付け係数値Ｇ_BSA（ω）に基づいて、雑音推定部７０、雑音イコライザ部１００、残留雑音抑圧ゲイン算出部１１０を制御するための制御信号が算出される（ステップＳ１０９）。

次に、雑音推定部７０において、雑音推定が実行される（ステップＳ１１０）。さらに、ステップＳ１１０における雑音推定の結果ｘ_ABM(ｔ)に対して、スペクトル分析部８０において周波数分析が実行された後（ステップＳ１１１）、パワー計算部９０において周波数ビン毎のパワーが計算される（ステップＳ１１２）。また、雑音イコライザ部１００において、ステップＳ１１２で算出された推定雑音のパワーの補正が実行される。

次に、残留雑音抑圧ゲイン算出部１１０においては、ステップＳ１０３で処理されたビームフォーマ３０の出力値ｄｓ₁（ω）にステップＳ１０８において算出されたゲイン値Ｇ_S（ω）を適用した値に対して、雑音成分を除去するためのゲインＧ_T（ω）が算出される（ステップＳ１１４）。なお、ゲインＧ_T（ω）の算出は、ステップＳ１１２においてパワー補正された雑音成分の推定値λ_d（ω）に基づいて行われる。

そして、ゲイン乗算部１３０において、ステップＳ１０３でのビームフォーマ３０における処理の結果に対して、ステップＳ１１４で算出されたゲインが乗算される（ステップＳ１１７）。
最後に、時間波形変換部１２０において、ステップＳ１１７での乗算結果（目的音）が時間領域信号に変換される（ステップＳ１１８）。

また、第３実施形態で説明したように、ステップＳ１０８およびステップＳ１１４のゲインの算出を行わずに、ミュージカルノイズ低減部３２０と残留雑御抑圧部３３０とによって、ビームフォーマ３０の出力信号から雑音を除くようになっていてもよい。

なお、図１９のフロー図に示される各処理は、大きく分けて３つの処理に分けられる。３つの処理とは、すなわち、ビームフォーマ３０からの出力処理（ステップＳ１０１〜Ｓ１０３）と、ゲイン算出処理（ステップＳ１０１〜Ｓ１０８およびステップＳ１１４）と、雑音推定処理（ステップＳ１１０〜Ｓ１１３）である。
ゲイン算出処理と雑音推定処理については、ゲイン算出処理のステップＳ１０１〜Ｓ１０７で重み付け係数が算出された後、ステップＳ１０８の処理が実行されると同時に、ステップＳ１０９の処理と雑音推定処理（ステップＳ１１０〜Ｓ１１３）が処理された後、ステップＳ１１４でビームフォーマ３０の出力に乗算されるゲインが決定される。

［雑音推定部の処理フロー］
図２０は、図１９のステップＳ１１０における処理の詳細を示すフロー図である。まず、音源Ｒ１からの信号成分と一致するような擬似信号Ｈ^T（ｔ）・ｘ₁（ｔ）が算出される（ステップＳ２０１）。次に、図６の減算部７２において、マイク１１の信号ｘ₂（ｔ）から、ステップＳ２０１で算出された擬似信号が減算されることで、雑音推定部７０の出力となる誤差信号ｘ_ABM(ｔ)が算出される（ステップＳ２０２）。
その後、制御部１６０からの制御信号が所定の閾値よりも大きい場合には（ステップＳ２０３）、適応フィルタ部７１において、適応フィルタの係数Ｈ（ｔ）が更新される（ステップＳ２０４）。

［雑音イコライザ部の処理フロー］
図２１は、図１９のステップＳ１１３における処理の詳細を示すフロー図である。まず、ビームフォーマ３０の出力ｄｓ₁（ω）に対してミュージカルノイズ低減ゲイン算出部６０から出力されるゲインＧ_S（ω）が乗算されて出力Ｘ_S（ω）が得られる（ステップＳ３０１）。

制御部１６０からの制御信号が所定の閾値より小さい場合には（ステップＳ３０２）、図７のスムージング部１０３において、パワー計算部１０２の出力ｐＸ_S（ω）の時間スムージング処理が実行される。また、スムージング部１０４において、パワー計算部９０の出力ｐＸ_ABM（ω）の時間スムージング処理が実行される（ステップＳ３０３、Ｓ３０４）。

そして、イコライザ更新部１０６において、ステップＳ３０３およびステップＳ３０４の処理結果の比率Ｈ_EQ（ω）が算出されて、イコライザ値がＨ_EQ（ω）に更新される（ステップＳ３０５）。最後に、イコライザ適用部１０７において、Ｘ_S（ω）に含まれる推定雑音λ_d（ω）が算出される（ステップＳ３０６）。

［残留雑音抑圧ゲイン算出部１１０の処理フロー］
図２２は、図１９のステップＳ１１４における処理の詳細を示すフロー図である。制御部１６０からの制御信号が所定の閾値よりも大きい場合には（ステップＳ４０１）、雑音イコライザ部１００の出力であって、雑音成分の推定値であるλ_d（ω）の値が例えば０．７５倍等に小さくする処理が実行される（ステップＳ４０２）。次に、事後ＳＮＲが算出される（ステップＳ４０３）。また、事前ＳＮＲが算出される（ステップＳ４０４）。最後に、残留雑音抑圧ゲインＧ_T（ω）が算出される（ステップＳ４０５）。

［他の実施形態］
重み付け係数算出部５０でのゲイン値Ｇ_BSA（ω）の算出時において、所定のバイアス値γ（ω）を用いて前記重み付け係数を算出しても良い。例えば、ゲイン値Ｇ_BSA（ω）の分母に所定のバイアス値を加算して新たなゲイン値を算出しても良い。前記バイアス値の加算は、マイクのゲイン特性が揃っており、かつ、ヘッドセットやハンドセットなど目的音がマイクの近くに存在する場合において、特に低域のＳＮＲの改善が期待できる。

図２３および図２４は、ビームフォーマ３０の出力値について近接音と遠距離音の場合を比較したグラフを示す図である。図２３および図２４の（ａ１）〜（ａ３）は近接音についての出力値を表すグラフであり、（ｂ１）〜（ｂ３）は遠距離音についての出力値を表すグラフである。また、図２３においては、マイク１０とマイク１１の間隔は０．０３ｍであり、マイク１０と音源Ｒ１、Ｒ２との距離はそれぞれ０．０６ｍ（メートル）と１．５ｍである。また、図２４においては、マイク１０とマイク１１の間隔は０．０１ｍであり、マイク１０と音源Ｒ１、Ｒ２との距離はそれぞれ０．０２ｍ（メートル）と１．５ｍである。

例えば、図２３（ａ１）は近接音によるビームフォーマ３０の出力値ｄｓ₁（ω）（＝｜Ｘ（ω）Ｗ₁（ω）｜²）の値を示すグラフ、図２３（ｂ１）は遠距離音によるｄｓ₁（ω）の値を示すグラフである。ここでは、近接音を目的音位置として目的音補正部１８０を設計しており、遠距離音の場合には目的音補正部１８０の影響により低域においてｐｓ₁（ω）の値は小さくなる。また、ｄｓ₁（ω）の値が小さい場合（すなわち、ｐｓ₁（ω）の値が小さい場合）、γ（ω）の影響が大きくなる。つまり分子に比べ相対的に分母の項が大きくなるためＧ_BSA（ω）がさらに小さくなる。よって、遠距離音の低域が抑圧される。

また、図７の構成においては、上記の式（３５）で得られたＧ_BSA（ω）はビームフォーマ３０の出力値ｄｓ₁（ω）に適用され、Ｇ_BSA（ω）とｄｓ₁（ω）の乗算結果Ｘ_BSA（ω）は、以下のように算出される。なお、以下の式においては、一例として、音源分離装置１が図７に示される構成である場合を示す。

上述したように、図２３および図２４の（ａ１）、（ｂ１）は、ビームフォーマ３０の出力ｄｓ₁（ω）を表すグラフである。また、各図の（ａ２）、（ｂ２）は、式（３５）の分母にγ（ω）を挿入しない場合の出力Ｘ_BSA（ω）を表すグラフである。また、各図の（ａ３）、（ｂ３）は、式（３５）の分母にγ（ω）を挿入する場合の出力Ｘ_BSA（ω）を表すグラフである。各図より、遠距離音の低域が抑圧されているのがわかる。つまり、低域中心に存在する走行雑音などには効果が期待できる。
なお、上記説明において、ビームフォーマ３０は第１のビームフォーマ処理部を構成する。また、ビームフォーマ３１は第２のビームフォーマ処理部を構成する。また、ゲイン乗算部１３０は、音源分離部を構成する。

本発明は、音声認識装置、カーナビゲーション、集音装置、録音装置、音声コマンドによる機器の制御等、音源を精度よく分離する必要のあるあらゆる産業に利用可能である。

１音源分離装置
３ビームフォーマ部
１０、１１マイク
２０、２１スペクトル分析部
３０、３１ビームフォーマ
４０、４１パワー計算部
５０重み付け係数算出部
６０ミュージカルノイズ低減ゲイン算出部
７０雑音推定部
７１適応フィルタ部
７２減算部
７３遅延器
７４閾値比較部
８０スペクトル分析部
９０パワー計算部
１００雑音イコライザ部
１０１乗算部
１０２パワー計算部
１０３、１０４スムージング部
１０５閾値比較部
１０６イコライザ更新部
１０７イコライザ適用部
１１０残留雑音抑圧ゲイン算出部
１２０時間波形変換部
１３０ゲイン乗算部
１６０制御部
１６１Ａ、１６１Ｂスペクトル分析部
１６２Ａ、１６２Ｂビームフォーマ
１６３Ａ、１６３Ｂパワー計算部
１６４重み付け係数算出部
１６５雑音推定部
１６６スペクトル分析部
１６７エネルギー比較部
１７０指向性制御部
１７１最適遅延量算出部
１７２、１７３位相回転子
１８０目的音補正部
１９０到来方向推定部
３１０重み付け係数乗算部
３２０ミュージカルノイズ低減部
３３０残留雑音抑圧部

Claims

複数の音源から発せられた音源信号が混合された混合音から目的音源からの音源信号を分離する音源分離装置であって、
前記混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして前記目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１のビームフォーマ処理部と、
前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２のビームフォーマ処理部と、
前記第１のビームフォーマ処理部により得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２のビームフォーマ処理部により得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算するパワー計算部と、
前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１のビームフォーマ処理部で得られた信号に乗算するための周波数毎の重み付け係数を算出する重み付け係数算出部と、を備え、
前記第１のビームフォーマ処理部により得られた信号と、前記重み付け係数算出部が算出する前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離する音源分離部と、
を有することを特徴とする音源分離装置。
前記第１のビームフォーマ処理部により得られた信号と、前記重み付け係数算出部が算出する前記重み付け係数とを乗算する重み付け係数乗算部を更に有し、
前記音源分離部は、前記重み付け係数乗算部の出力結果と前記第１のビームフォーマ処理部から得られた信号とを、所定の割合で加算した結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする請求項１に記載の音源分離装置。
前記重み付け係数乗算部の出力結果と前記第１のビームフォーマ処理部から得られた信号とを、所定の割合で加算した結果を出力するミュージカルノイズ低減部と、
前記マイクロホン対のうち、前記目的音源に近いマイクロホンからの出力信号にフィルタ係数が可変な適応フィルタを適用することで前記マイクロホン対のうち、前記目的音源から遠いマイクロホンからの出力信号と一致するような擬似信号を算出し、前記目的音源から遠いマイクロホンからの出力信号と前記疑似信号との差分によって雑音成分を算出する雑音推定部と、
前記ミュージカルノイズ低減部の出力結果と、前記雑音推定部が算出した前記雑音成分に基づいて、前記ミュージカルノイズ低減部の出力結果に含まれる雑音成分を算出する雑音イコライザ部と、
前記ミュージカルノイズ低減部の出力結果と雑音イコライザ部の出力結果に基づき前記ミュージカルノイズ低減部の出力結果に含まれる残留雑音を抑圧する残留雑音抑圧部を有し、
前記音源分離部は、前記残留雑音抑圧部の出力結果に基づき前記混合音から前記目的音源からの音源信号を分離することを特徴とする請求項２に記載の音源分離装置。
前記雑音推定部、前記雑音イコライザ部、および前記残留雑音抑制部の少なくとも一つを前記周波数毎の重み付け係数に基づき制御する制御部を有する請求項３に記載の音源分離装置。
前記第１のビームフォーマ処理部で得られた音源信号に前記重み付け係数を乗算した乗算結果と、前記第１のビームフォーマ処理で得られた音源信号とを、所定の割合で加算するためのゲインを算出するミュージカルノイズ低減ゲイン算出部を有し、
前記音源分離部は、前記ミュージカルノイズ低減ゲイン算出部で算出されたゲインと前記第１のビームフォーマ処理にで得られた音源信号との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする請求項１に記載の音源分離装置。
前記マイクロホン対のうち、前記目的音源に近いマイクロホンからの出力信号にフィルタ係数が可変な適応フィルタを適用することで前記マイクロホン対のうち、前記目的音源から遠いマイクロホンからの出力信号と一致するような擬似信号を算出し、前記目的音源から遠いマイクロホンからの出力信号と前記疑似信号との差分によって雑音成分を算出する雑音推定部と、
前記第１のビームフォーマ処理部で得られた音源信号と前記ミュージカルノイズ低減ゲイン算出部において算出されたゲインとを乗算した乗算結果と、前記雑音推定部が算出した前記雑音成分に基づいて、前記第１のビームフォーマ処理部で得られた音源信号と前記ミュージカルノイズ低減ゲイン算出部において算出されたゲインとを乗算した乗算結果に含まれる雑音成分を算出する雑音イコライザ部と、
前記ミュージカルノイズ低減ゲイン算出部で算出されたゲインと、前記雑音イコライザ部で算出された前記雑音成分に基づいて、前記第１のビームフォーマ処理部で得られた音源信号に乗算するためのゲインであって、前記第１のビームフォーマ処理部で得られた音源信号と前記ミュージカルノイズ低減ゲイン算出部において算出されたゲインとを乗算した乗算結果に含まれる残留雑音を抑圧するためのゲインを算出する残留雑音抑圧ゲイン算出部を備え、
前記音源分離部は、残留雑音抑圧ゲイン算出部で算出されたゲインと前記第１のビームフォーマ処理で得られた音源信号との乗算結果に基づき前記混合音から前記目的音源からの音源信号を分離することを特徴とする請求項５に記載の音源分離装置。
前記雑音推定部、前記雑音イコライザ部、および前記残留雑音抑圧ゲイン算出部の少なくとも一つを前記周波数毎の重み付け係数に基づき制御する制御部を有する請求項６に記載の音源分離装置。
前記マイクロホン対の少なくとも一方のマイクロホンからの出力信号に乗算して、当該マイクロホンの位置を仮想的に移動させるための基準遅延量を周波数毎に算出する基準遅延量算出部と、前記マイクロホン対の少なくとも一方のマイクロホンからの出力信号に対して周波数帯域ごとに遅延量を与える指向性制御部を備え、
前記指向性制御部は、基準遅延量算出部が算出する前記基準遅延量が空間サンプリング定理を満たす周波数帯域では、当該基準遅延量を前記遅延量とし、前記基準遅延量が空間サンプリング定理を満たさない周波数帯域では、下記式（３０）によって求められる最適遅延量τ０を前記遅延量とすることを特徴とする請求項１から７のいずれか一項に記載の音源分離装置。
（ただし、下記式（３０）中、ｄは２つのマイクロホン間距離、ｃは音速、ωは周波数）
複数の音源から発せられた音源信号が混合された混合音から目的音源からの音源信号を分離する音源分離装置であって、
前記混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して異なる第１の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして前記目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１のビームフォーマ処理手段と、
前記マイクロホン対からのそれぞれの出力信号に対して、前記異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２のビームフォーマ処理手段と、
前記第１のビームフォーマ処理手段により得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２のビームフォーマ処理手段により得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算するパワー計算手段と、
前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１のビームフォーマ処理手段で得られた信号に乗算するための周波数毎の重み付け係数を算出する重み付け係数算出手段と、を備え、
前記第１のビームフォーマ処理手段により得られた信号と、前記重み付け係数算出手段が算出する前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離する音源分離手段と、
を有することを特徴とする音源分離装置。
前記第１のビームフォーマ処理手段により得られた信号と、前記重み付け係数算出手段が算出する前記重み付け係数とを乗算する重み付け係数乗算手段を更に有し、
前記音源分離手段は、前記重み付け係数乗算手段の出力結果と前記第１のビームフォーマ処理手段から得られた信号とを、所定の割合で加算した結果に基づき、前記混合音から前記目的音源からの音源信号を分離することを特徴とする請求項９に記載の音源分離装置。
第１のビームフォーマ処理部と、第２のビームフォーマ処理部と、パワー計算部と、重み付け係数算出部と、音源分離部と、を有する音源分離装置が実行する音源分離方法であって、
前記第１のビームフォーマ処理部が、複数の音源から発せられた音源信号が混合された混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１のステップと、
前記第２のビームフォーマ処理部が、前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２のステップと、
前記パワー計算部が、前記第１のステップにより得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２のステップにより得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算する第３のステップと、
前記重み付け係数算出部が、前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１のステップで得られた信号に乗算するための周波数毎の重み付け係数を算出する第４のステップと、
前記音源分離部が、前記第１のステップにより得られた信号と、前記第４のステップにおいて算出された前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離する第５のステップと、
を含むことを特徴とする音源分離方法。
コンピュータに、
複数の音源から発せられた音源信号が混合された混合音が入力される２つのマイクロホンからなるマイクロホン対からのそれぞれの出力信号に対して互いに異なる第１の係数を用いた周波数領域での積和演算を行うことにより、前記２つのマイクロホンを結ぶ線分と交わる平面を境にして目的音源の方向が含まれる領域とは反対の領域から到来する音源信号を減衰させる第１の処理ステップと、
前記マイクロホン対からのそれぞれの出力信号に対して、前記互いに異なる第１の係数と周波数領域で複素共役の関係にある第２の係数を乗算し、得られる結果を周波数領域で積和演算することにより、前記平面を境にして前記目的音源の方向が含まれる領域から到来する音源信号を減衰させる第２の処理ステップと、
前記第１の処理ステップにより得られた信号から周波数毎のパワー値を有する第１のスペクトル情報を計算し、更に、前記第２の処理ステップにより得られた信号から周波数毎のパワー値を有する第２のスペクトル情報を計算する第３の処理ステップと、
前記第１のスペクトル情報と前記第２のスペクトル情報の周波数毎のパワー値の差分に応じて、前記第１の処理ステップで得られた信号に乗算するための周波数毎の重み付け係数を算出する第４の処理ステップと、
前記第１の処理ステップにより得られた信号と、前記第４の処理ステップにおいて算出された前記重み付け係数との乗算結果に基づき、前記混合音から前記目的音源からの音源信号を分離する第５の処理ステップと、
を実行させるためのプログラム。