WO2020031594A1

WO2020031594A1 - 音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム

Info

Publication number: WO2020031594A1
Application number: PCT/JP2019/027241
Authority: WO
Inventors: 賢司小澤
Original assignee: 国立大学法人山梨大学
Priority date: 2018-08-06
Filing date: 2019-07-10
Publication date: 2020-02-13
Also published as: JPWO2020031594A1; JP7286896B2; US11317200B2; US20210297773A1

Abstract

【課題】複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することが可能な技術の提供。【解決手段】複数のマイクロホンからの実効的な距離が等しい第１位置に存在する第１音源と前記第１位置以外の位置に存在する第２音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部と、前記集音データに基づいて、前記第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する周波数スペクトル取得部と、前記周波数スペクトルに基づいて、前記第１音源から出力された音のスペクトルである第１音源スペクトルと、前記第２音源から出力された音のスペクトルである第２音源スペクトルと、を分離する、音源分離部と、を備える音源分離システムを構成する。

Description

音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム

　本発明は、音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラムに関する。

　従来、複数の音源から出力された音を音源毎の音に分離する技術が知られている。例えば、特許文献１においては、複数のマイクロホンを備えるマイクロホンアレイによって複数の音源から出力された音を集音し、音圧波形から得られた時空間音圧分布画像を画像信号処理することで音源を分離する技術が開示されている。

特開２０１８－３６３５９号公報

　特許文献１に開示された技術においては、マイクロホンアレイから見て第１の方向に存在する音源と第１の方向と異なる方向に存在する音源とに関して、集音された音を分離する。一方、複数のマイクロホンにおける集音においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合において特徴的な集音結果が得られるが、従来の技術においては、当該特徴的な集音結果が充分に利用されていなかった。
本発明は、前記課題にかんがみてなされたもので、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することが可能な技術を提供することを目的とする。

　上述の目的を達成するため、音源分離システムは、複数のマイクロホンからの実効的な距離が等しい第１位置に存在する第１音源と第１位置以外の位置に存在する第２音源とから出力された音を複数のマイクロホンで集音した集音データを取得する集音データ取得部と、集音データに基づいて、第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する周波数スペクトル取得部と、周波数スペクトルに基づいて、第１音源から出力された音のスペクトルである第１音源スペクトルと、第２音源から出力された音のスペクトルである第２音源スペクトルと、を分離する、音源分離部と、を備える。

　すなわち、第１位置に存在する第１音源からの実効的な距離が等しい位置に複数のマイクロホンが存在する場合、第１音源から出力された音は複数のマイクロホンの全てで位相が等しくなる。このため、第１位置が中心であり、マイクロホンと第１音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は時間方向にのみ変化し、周方向に変化しない状態となる。従って、このような周方向と時間方向との２次元に関する集音データをフーリエ変換すると、周方向において周波数が０である領域にのみ値を有し、周方向において他の周波数の領域には値を有さない周波数スペクトル（第１音源スペクトル）が得られる。

　一方、第１位置以外の位置に存在する第２音源から出力された音は、第１位置と各マイクロホンとの距離に応じた位相となり、各マイクロホンにおいて同一時刻に観測される音は異なる位相である。このため、第１位置が中心であり、マイクロホンと第１音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は周方向と時間方向との双方において変化する。従って、このような周方向と時間方向との２次元に関する集音データをフーリエ変換すると、周方向と時間方向との双方において非０の値を有し得る周波数スペクトル（第２音源スペクトル）が得られる。

　このため、第１音源と第２音源とが出力した音の集音データに基づいて周方向と時間方向とにおける周波数スペクトルを取得すると、両音源から出力した音の周波数スペクトルが重なった状態のスペクトルが得られるが、両者を明確に区別することができる。すなわち、第１音源から出力された音のスペクトルは、周方向の周波数が０である領域にのみ局在するため、当該領域のスペクトルに基づいて容易に第１音源スペクトルと第２音源スペクトルとを分離することができる。

　以上の構成によれば、複数のマイクロホンからの実効的な距離が等しい第１位置に音源が存在する場合に得られる第１音源スペクトルの特徴を有効に利用して、複数の音源のスペクトルを分離することができる。この結果、複数の音源が混在する環境において音源毎のスペクトルを取得することが可能になる。なお、本明細書において「複数のマイクロホンからの距離が等しい」又は「等しい距離に存在する複数のマイクロホン」などの表現は、実際の距離が等しくない場合であっても複数のマイクロホンの集音データを補正することにより距離が等しいことと等価であるとみなせる場合も含み、「実効的な距離が等しい」などとも記載することがある。

　さらに、上述の目的を達成するため、音源位置推定システムは、第１位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、第１位置が中心であり実効的な距離が半径である円の周方向と時間方向とについての２次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、参照音源から出力された音が複数のマイクロホンで集音され、２次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置と、を対応づけた参照データを取得する参照データ取得部と、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する位置推定部と、を備え、参照周波数スペクトルに対応づけられた参照音源の位置には、第１位置と、第１位置以外の位置とが含まれる構成であってもよい。

　すなわち、第１位置に存在する第１音源から出力された音の第１音源スペクトルと、第１位置以外の位置に存在する音源から出力された音の周波数スペクトルとは、明確に異なったスペクトルとなる。従って、複数の位置に存在する音源の周波数スペクトルを参照周波数スペクトルとし、参照周波数スペクトルと音源の位置との関係を対応付け、複数の位置に第１位置と第１位置以外の位置とが含まれるように構成すれば、音源位置を推定するための参照データを生成することができる。

　さらに、参照周波数スペクトルに対応づけられた位置に、第１位置と第１位置以外の位置が含まれることにより、第１位置とそれ以外の位置とで音源の位置が明確に変化するように参照データを定義することができる。従って、推定対象スペクトルに類似する参照周波数スペクトルを特定し、参照周波数スペクトルに対応づけられた位置に推定対象音源が存在すると推定する構成により、正確に推定対象音源の位置を推定することができる。特に、推定対象音源が第１位置に存在するか否かを正確に特定することが可能になる。以上の構成により、複数のマイクロホンからの距離が等しい第１位置に音源が存在する場合に得られる第１音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。

　さらに、上述の目的を達成するため、音源位置推定システムは、音を複数のマイクロホンで集音した集音データを取得する集音部と、複数の候補位置を設定し、複数のマイクロホンから候補位置までの実効的な距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う集音データ補正部と、複数の候補位置のそれぞれについて、候補位置が中心であり実効的な距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する候補スペクトル取得部と、周方向の周波数が０である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する位置推定部と、を備える構成であってもよい。

　すなわち、複数のマイクロホンでの集音結果を時間方向に補正すると、マイクロホンと音源との距離が異なる状況で集音された集音データと等価なデータを取得することができる。そして、複数のマイクロホンからの実効的な距離が等しい位置に存在する音源の周波数スペクトルは、周方向の周波数が０である領域にのみ局在するスペクトルとなり、極めて特徴的なスペクトルになる。従って、複数のマイクロホンから候補位置までの実効的な距離が等しくなるような補正を複数の候補位置について実施し、候補スペクトルにおいて当該特徴的なスペクトルが得られれば、当該候補スペクトルに対応する候補位置に音源が存在すると推定することができる。以上の構成により、複数のマイクロホンからの実効的な距離が等しい第１位置に音源が存在する場合に得られる第１音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。

図１Ａ、図１Ｂは、周波数スペクトルに特徴が現れる様子を説明する図である。図２Ａ，図２Ｃは集音結果を示す図であり、図２Ｂ，図２Ｄは周波数スペクトルを示す図である。図３Ａ、図３Ｂは、周波数スペクトルに特徴が現れる様子を説明する図である。音源分離システムのブロック図である。音源分離処理のフローチャートである。図６Ａ～図６Ｃは音源を分離するための処理を説明する図である。音源分離の実例を説明する図である。音源位置推定システムのブロック図である。図９Ａは音源位置推定処理のフローチャート、図９Ｂは参照データの例を示す図である。図１０Ａおよび図１０Ｂは参照データの算出を説明する図である。音源位置推定システムのブロック図である。図１２Ａは音源位置推定処理のフローチャート、図１２Ｂは極大値の導出を説明する図である。

　ここでは、下記の順序に従って本発明の実施の形態について説明する。
（１）原理：
（２）音源分離システムの構成：
（３）音源位置推定システムの構成：
（４）第２の音源位置推定システムの構成：
（５）他の実施形態：

　（１）原理：
本発明の実施形態は、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することによって実現されている。図１Ａ，図１Ｂ、図２Ａ～図２Ｄは、特徴的な集音結果が得られる原理を説明するための例として、マイクロホンが８個の場合について示した図である。図１Ａは、複数のマイクロホンＭ₀～Ｍ₇の位置と第１音源Ｓ₁の位置を例示した図である。図１Ａにおいては、第１音源Ｓ₁から等しい距離に複数のマイクロホンＭ₀～Ｍ₇が配置されている。すなわち、複数のマイクロホンＭ₀～Ｍ₇は、第１音源Ｓ₁を中心とした半径Ｒの円の周上に並べられている。

　なお、本例において、複数のマイクロホンＭ₀～Ｍ₇同士の距離は等しく、等間隔に並べられているが、必ずしも等間隔でなくてもよい。本例においては、等間隔に並べられた複数のマイクロホンＭ₀～Ｍ₇の中央、すなわち、マイクロホンＭ₃，Ｍ₄から等距離にある円の周上の点を通る円の接線をｘ軸、円の接線に対する垂線をｙ軸とした座標系を定義している。当該軸において、第１音源Ｓ₁は、ｙ軸上の点である。

　第１音源Ｓ₁から出力された音は球面波として、全方向に向けて等方的に進行する。従って、複数のマイクロホンＭ₀～Ｍ₇が、第１音源Ｓ₁から等距離の位置に配置されている場合、各マイクロホンＭ₀～Ｍ₇で集音される音は同一になる。このように、複数のマイクロホンＭ₀～Ｍ₇が、第１音源Ｓ₁から等距離の位置に配置されている場合において、第１音源Ｓ₁の位置を第１位置と呼ぶ。

　図２Ａは、各マイクロホンＭ₀～Ｍ₇での集音結果を示す図である。同図２Ａにおいては、縦方向にマイクロホンＭ₀～Ｍ₇を並べ、横方向を時間方向として示してある。なお、図２Ａにおいては、各マイクロホンＭ₀～Ｍ₇で集音された音圧を音圧の振幅の高低を画像の輝度の高低に変換しており、各マイクロホンＭ₀～Ｍ₇の振幅を縦方向に伸ばすことにより、複数のマイクロホンＭ₀～Ｍ₇の集音結果が縦方向に隙間無く並ぶように示してある。複数のマイクロホンＭ₀～Ｍ₇は、上述のように第１音源Ｓ₁を中心とした半径Ｒの円の周上に並べられているため、複数のマイクロホンＭ₀～Ｍ₇は当該円の周方向に並んでいると言える。従って、図２Ａに示すようにマイクロホンＭ₀～Ｍ₇の集音結果を縦方向に並べた場合、当該縦方向は周方向であると言える。

　図２Ｂは、図２Ａに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示している。フーリエ変換が行われると、周方向および時間方向のそれぞれにおける集音結果の周波数スペクトルが得られる。図２Ｂにおいては、周方向および時間方向のそれぞれについて標本化周波数により正規化された角周波数（ω＝２πｆ／ｆｓ：ωは正規化角周波数、ｆは周波数、ｆｓは標本化周波数）を単位として示している。なお、図２Ｂにおいては、周波数スペクトルのパワーを輝度によって示しており、パワー０が黒でありパワーが大きい程輝度が高くなるように示してある。

　図１Ａに示すように、複数のマイクロホンＭ₀～Ｍ₇が第１音源Ｓ₁を中心とした半径Ｒの円の周上に存在する場合、周波数スペクトルは、周方向の周波数が０である領域に局在し、周方向の周波数が非０である領域に値を有していない。一方、周方向において有意な値を有する領域（周波数０）において、時間方向には全角周波数に渡って周波数スペクトルが値を有している。従って、時間方向には種々の周波数が含まれ得る。

　以上の特性は、複数のマイクロホンＭ₀～Ｍ₇が第１音源Ｓ₁を中心とした半径Ｒの円の周上に存在することに起因している。すなわち、複数のマイクロホンＭ₀～Ｍ₇が第１音源Ｓ₁を中心とした半径Ｒの円の周上に存在する場合、全てのマイクロホンＭ₀～Ｍ₇で集音される音は同一である。この場合、全てのマイクロホンＭ₀～Ｍ₇の全てにおいて周方向に同一の音圧である状況が時間方向の全てにおいて繰り返される。この結果、図２Ａに示すように、周方向および時間方向の音圧は、縦方向に一切変化せず、横方向のみに変化する縦縞を形成する。これは、周方向において音圧が変化しないこと、すなわち、周方向の周波数が０（＝角周波数０）であることを示している。

　このような２次元の音圧の特性は、周方向に渡って無限に音圧を繰り返したとしても変化しない。従って、図２Ａに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われた場合であっても、その特性に誤差が入る余地は無い。この結果、フーリエ変換後の周波数スペクトルにおいては、周方向の周波数が０の領域に周波数スペクトルが局在し、当該局在した周波数スペクトルのみを抽出すれば、各マイクロホンＭ₀～Ｍ₇の特性を正確に抽出することができることを意味している。

　一方、音源が第１位置に存在しない場合においては、周波数スペクトルの特性が極めて異なった特性となる。図１Ｂは、図１Ａと同一の位置に複数のマイクロホンＭ₀～Ｍ₇が配置された状態において、第１位置Ｐ₁と異なるｙ軸上の位置に第２音源Ｓ₂が配置された場合の例を示している。図１Ｂにおいては、第１位置Ｐ₁よりもマイクロホンに近い位置に第２音源Ｓ₂が配置されている。従って、第２音源Ｓ₂から複数のマイクロホンＭ₀～Ｍ₇までの距離は一定ではない。

　従って、第２音源Ｓ₂から出力された音が球面波として全方向に向けて等方的に進行したとしても、各マイクロホンＭ₀～Ｍ₇で集音される音は同一にならない（ただし、ｙ軸に対して対称の位置（Ｍ₀とＭ₇等）に存在するマイクロホンにおいては同一になる）。

　図２Ｃは、各マイクロホンＭ₀～Ｍ₇での集音結果を示す図であり、図２Ａと同一のフォーマットで示してある。図１Ｂに示す例においては、第２音源Ｓ₂からの距離が複数のマイクロホンＭ₀～Ｍ₇で異なる。従って、複数のマイクロホンＭ₀～Ｍ₇の音圧を比較すると、図２Ｃに示すように、同一の音圧になる時間的位置が僅かずつ異なっている。

　図２Ｄは、図２Ｃに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示しており、図２Ｂと同一のフォーマットで示してある。

　図１Ｂに示すように、第２音源Ｓ₂が第１位置Ｐ₁と異なる位置に存在し、複数のマイクロホンＭ₀～Ｍ₇と第２音源Ｓ₂との距離が一定ではない場合、周波数スペクトルは、周方向および時間方向の双方に分布する。すなわち、第２音源Ｓ₂から複数のマイクロホンＭ₀～Ｍ₇までの距離が一定ではない場合、マイクロホンＭ₀～Ｍ₇で集音される音が少しずつ異なる。この場合、同一時間において周方向に音圧が変化する。従って、周波数スペクトルは周方向において周波数が０の領域に局在しない状態になる。

　さらに、周方向においても音圧の変化が存在する場合、周方向に渡って周期的に音圧を繰り返すことを前提としたフーリエ変換を行うと、その周期の境界において急峻な変化部分が発生する。この結果、図２Ｃに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われると、主に境界部分の急峻な変化に起因して周波数スペクトルが広がってしまう。

　この結果、第２音源Ｓ₂の周波数スペクトルは、図２Ｄにおいて周方向および時間方向の双方において広がりを有する。従って、第２音源Ｓ₂の周波数スペクトルは、第１位置Ｐ₁に存在する第１音源Ｓ₁の周波数スペクトルと著しく異なったスペクトルとなる。このように、複数のマイクロホンからの距離が等しい第１位置Ｐ₁に音源が存在する場合、他の位置に音源が存在する場合と著しく異なる特徴的な周波数スペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。すなわち、第１音源Ｓ₁と第２音源Ｓ₂とが混在する状況において、周波数スペクトルから第１音源Ｓ₁の周波数スペクトルを容易に分離することができる。また、周方向において周波数が０の領域に局在する周波数スペクトルが得られた場合に、第１位置Ｐ₁に音源が存在すると推定することができる。

　なお、図１Ａおよび図１Ｂに示す複数のマイクロホンＭ₀～Ｍ₇において、ｙ軸に対して互いに線対称の位置に存在するマイクロホンでの集音結果である集音データは同一である。従って、同一の集音データの一方を他方から生成する構成により、実際には存在しないマイクロホンの集音データを実際に存在するマイクロホンの集音データから生成することも可能である。例えば、マイクロホンＭ₀～Ｍ₃の集音データをコピーしてマイクロホンＭ₇～Ｍ₄の集音データを生成する構成であってもよい。

　さらに、複数のマイクロホンＭ₀～Ｍ₇が、第１音源Ｓ₁を中心とした半径Ｒの円の周上に実際に並んでいない場合であっても、当該周上に複数のマイクロホンＭ₀～Ｍ₇が並んでいると見なすことができるように集音データを補正することが可能である。図３ＡはマイクロホンＭ₀₀～Ｍ₀₃がｘ軸上で等距離に並んでいる例を示している。なお、Ｍ₀～Ｍ₇が上記の円周上に並んでいると見なせればよいので、マイクロホンをｙ軸に並行に移動させて上記の円上に移動させることでもよい。

　この状況において、ｙ軸上に第１音源Ｓ₁が存在する場合、第１音源Ｓ₁から各マイクロホンＭ₀₀～Ｍ₀₃までの距離は等しくない。しかし、各マイクロホンＭ₀₀～Ｍ₀₃においては同一の音源から出力された球面波を集音している。従って、時間方向に位相を変化させれば、各マイクロホンＭ₀₀～Ｍ₀₃が第１音源Ｓ₁を中心とした半径Ｒの円の周上に並んでいる場合の集音結果と同一になるように補正を行うことができる。

　例えば、マイクロホンＭ₀₀から第１音源Ｓ₁まで伸びる直線上で、第１音源Ｓ₁を中心とした半径Ｒの円の周と、マイクロホンＭ₀₀との距離がＬである場合、マイクロホンＭ₀₀の集音データはマイクロホンＭ₀の集音データに対し、当該距離分の位相（２πｆ×Ｌ／ｖ：ｆは音波の周波数、ｖは音波の速度）だけ遅延している。従ってその遅延量を補正すればマイクロホンＭ₀での集音データと等価なデータが得られる。このように、第１音源Ｓ₁を中心とした半径Ｒの円の周上に存在すると見なすことができるような補正を各マイクロホンＭ₀₀～Ｍ₀₃で実行すると、図３Ａに示すマイクロホンＭ₀～Ｍ₃で集音を行った場合と等価な集音データを得ることができる。

　従って、補正後の集音データを周方向に並べ、時間方向を含む２次元でフーリエ変換を行うことにより、図２Ｂに示す特徴的な周波数スペクトルが得られる。なお、図３Ａに示す例において、マイクロホンＭ₇～Ｍ₄の集音データは、マイクロホンＭ₀～Ｍ₃のデータがコピーされて生成されてもよいし、ｙ軸を基準にしてマイクロホンＭ₀₀～Ｍ₀₃から線対称の位置にマイクロホンを配置し、その集音データを補正することで生成されてもよい。

　一方、図３Ｂに示すように、第１音源Ｓ₁の位置である第１位置Ｐ₁と異なる位置に第２音源Ｓ₂が存在する場合を想定する。この場合において、第１音源Ｓ₁からの距離がＲである円の周上にマイクロホンが存在する状態の集音データと等価になるように補正が行われると、第２音源Ｓ₂と各マイクロホンＭ₀₀～Ｍ₀₃とを結ぶ直線上において集音が行われた場合のデータと等価なデータを取得することができる。

　しかし、図３Ａと同様の位相だけ遅延を与えるような補正を、それぞれのマイクロホンＭ₀₀～Ｍ₀₃での距離によって行われたとしても、図３Ｂに示すマイクロホンＭ₀～Ｍ₃の位置での集音データと等価になるように補正が行われるだけである。従って、第２音源Ｓ₂からマイクロホンＭ₀～Ｍ₃までの距離は同一にならない。従って、補正後の集音データを周方向に並べ、時間方向を含む２次元でフーリエ変換を行っても、図２Ｂに示す特徴的な周波数スペクトルにはならず、図２Ｄのように、周方向および時間方向に値を有する周波数スペクトルが得られる。従って、第２音源Ｓ₂の周波数スペクトルは、第１位置Ｐ₁に存在する第１音源Ｓ₁の周波数スペクトルと著しく異なったスペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。

　（２）音源分離システムの構成：
図４は、本発明の一実施形態にかかる音源分離システム１０のブロック図である。音源分離システム１０は、複数（Ｍ個、ただしＭ≧３）のＡ／ＤコンバータＣ₀～Ｃ_M-1と、制御部２０と、記録媒体３０と、距離センサ４０とを備えている。Ａ／ＤコンバータＣ₀～Ｃ_M-1のそれぞれには複数（Ｍ個）のマイクロホンＭＩ₀～ＭＩ_M-1が接続される。

　本実施形態において、マイクロホンＭＩ₀～ＭＩ_M-1は直線上に配置されたマイクロホンアレイであるが、上述のように、マイクロホンは既定の音源の位置からの距離が一定の円周上に配置されていてもよい。本実施形態において、マイクロホンＭＩ₀～ＭＩ_M-1はＭＥＭＳ（Ｍｉｃｒｏ　Ｅｌｅｃｔｒｏ　Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍ：微小電気機械システム）マイクロホンであり、それぞれのマイクロホンは、音をマイクロホンに取り入れる音孔を備えている。また、マイクロホン同士の距離は等間隔（距離Ｄ）であり、本実施形態においては音孔の中心の間隔が距離Ｄである。

　なお、ここでは、マイクロホンＭＩ₀～ＭＩ_M-1が等間隔（距離Ｄ）にアレイ状に配置された構成としたがマイクロホン間隔は不等間隔であってもよく、またマクロホンはＭＥＭＳ型に限るものではない。距離Ｄは可聴周波数帯域において空間折返し歪が発生しない間隔となるように設定されている。例えば、可聴周波数の上限を２０ｋＨｚとした場合には、Ｄ＜８．５ｍｍとなる。

　マイクロホンＭＩ₀～ＭＩ_M-1は、入力された音の音圧を示すアナログ信号ｙ₀（ｔ）～ｙ_M-1（ｔ）のそれぞれを出力する。Ａ／ＤコンバータＣ₀～Ｃ_M-1は、マイクロホンＭＩ₀～ＭＩ_M-1のそれぞれが出力したアナログ信号ｙ₀(ｔ)～ｙ_M-1（ｔ）をデジタルデータｙ₀（ｎ）～ｙ_M-1（ｎ）に変換して出力する。制御部２０は、図示しないインタフェースを介して当該デジタルデータｙ₀（ｎ）～ｙ_M-1（ｎ）を取得し、各種の処理に利用することができる。

　制御部２０は、図示しないＣＰＵ，ＲＡＭ，ＲＯＭを備えており、記録媒体３０等に記憶された各種プログラムを実行することができる。制御部２０、記録媒体３０、距離センサ４０、Ａ／ＤコンバータＣ₀～Ｃ_M-1は、一体的なコンピュータで構成されていてもよいし、少なくとも一部が別の装置であり、各種の通信線等によって接続される構成であってもよい。

　本実施形態において、音源分離システム１０と、マイクロホンＭＩ₀～ＭＩ_M-1はスマートフォン等の携帯端末に搭載されることが想定されている。制御部２０は携帯端末における各種の機能を実行する制御部として機能することが可能であり、記録媒体３０は携帯端末における各種の機能に必要な各種のデータを蓄積することが可能である。このような構成を備えるスマートフォン等の携帯端末においては、容易に本実施形態にかかる音源分離プログラム２１を実行可能である。すなわち、スマートフォン等の携帯端末においては、通常写真及び動画の撮影機能が搭載されており、各種の画像処理を実行可能である。本実施形態にかかる音源分離プログラム２１で実行する処理の少なくとも一部は、写真や動画に関する画像処理で利用する処理を流用して実行可能であるため、スマートフォン等の携帯端末で容易に実行可能である。

　距離センサ４０は、携帯端末の外部に存在するオブジェクトと携帯端末との距離を示す情報を出力するセンサであり、制御部２０は、図示しないインタフェースを介して当該距離を示す情報を取得し、携帯端末とオブジェクトとの距離を特定することができる。なお、距離センサ４０は、種々の態様で実現されてよく、例えば、超音波センサや光学センサなどの各種のセンサを利用可能である。また、携帯端末の写真撮影機能におけるオートフォーカス機能を利用することも可能である。

　本実施形態において、制御部２０は、音源分離プログラム２１を実行することができる。音源分離プログラム２１が実行されると、制御部２０は、集音データ取得部２１ａ、周波数スペクトル取得部２１ｂ、音源分離部２１ｃとして機能する。集音データ取得部２１ａは、複数のマイクロホンＭＩ₀～ＭＩ_M-1からの距離が等しい第１位置Ｐ₁に存在する第１音源Ｓ₁と第１位置Ｐ₁以外の位置に存在する第２音源Ｓ₂とから出力された音を複数のマイクロホンで集音した集音データを取得する機能を制御部２０に実行させるプログラムモジュールである。

　本実施形態においては、利用者所望の音源（例えば、発話している人物等）を第１音源Ｓ₁とし、他の音源（例えば、発話している他の人物や各種のノイズ等）を第２音源Ｓ₂とすることができる。第２音源Ｓ₂は、１個とは限らない。音源分離プログラム２１を実行する場合、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、または、集音データを補正することにより、距離センサ４０の正面（計測対象方向）に利用者所望の音源が配置されるように調整する。この状態において、直線上に並ぶマイクロホンＭＩ₀～ＭＩ_M-1が図３Ａに示すｘ軸上に配列し、利用者所望の音源がｙ軸上に存在する状態となる。以後、当該利用者所望の音源を第１音源Ｓ₁とみなす。

　この状態で、制御部２０は、図５に示す音源分離処理を実行する。音源分離処理が開始されると、制御部２０は、距離センサ４０の出力信号に基づいて第１音源Ｓ₁までの距離Ｒを測定する（ステップＳ１００）。すなわち、制御部２０は、距離センサ４０の出力信号に基づいて、携帯端末の正面に存在し、利用者が第１音源Ｓ₁と見なしている音源までの距離Ｒを特定する。

　次に、制御部２０は、第１音源Ｓ₁からマイクロホンＭＩ₀～ＭＩ_M-1までの距離が測定された距離Ｒになるように補正を行った集音データを取得する（ステップＳ１０５）。本実施形態にかかる携帯端末においては、マイクロホンＭＩ₀～ＭＩ_M-1が並ぶｘ軸とｘ軸上でのマイクロホンＭＩ₀～ＭＩ_M-1の位置、ｘ軸とｙ軸との関係は予め特定されている。そこで、制御部２０は、距離Ｒと各マイクロホンＭＩ₀～ＭＩ_M-1の位置に基づいて、第１音源Ｓ₁から距離Ｒの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンＭＩ₀が図３Ａに示すマイクロホンＭ₀₀の位置に存在する場合、当該位置を座標（Ｘ₀₀，０）とすれば、補正後のマイクロホンＭ₀とマイクロホンＭ₀₀との距離Ｌは（Ｒ²＋Ｘ₀₀ ²）^1/2－Ｒによって算出することができる。この結果、制御部２０は、時間方向の補正量（位相遅延量）を２πｆ×Ｌ／ｖ：ｆは音波の周波数、ｖは音波の速度によって取得することができる。

　そこで制御部２０は、集音データ取得部２１ａの機能により、Ａ／ＤコンバータＣ₀～Ｃ_M-1が出力するデジタルデータｙ₀（ｎ）～ｙ_M-1（ｎ）を取得する。そして、制御部２０は、マイクロホンＭＩ₀～ＭＩ_M-1の位置と、第１音源Ｓ₁までの距離Ｒとに基づいて、デジタルデータｙ₀（ｎ）～ｙ_M-1（ｎ）を補正し、第１音源Ｓ₁から各マイクロホンまでの距離が等しい場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体３０に、集音データ３０ａとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。

　なお、上述のように、あるマイクロホンからｙ軸に対して対称の位置に存在する集音データは当該あるマイクロホンの集音データを複製することによって生成することができる。すなわち、制御部２０は、集音データ取得部２１ａの機能により、第１音源Ｓ₁からの距離がＲである円の周上に存在するマイクロホンＭＩ₀～ＭＩ_M-1で集音された場合の集音データを複製し、マイクロホンＭＩ₀～ＭＩ_M-1の位置を円の半径（ｙ軸）に対して線対称の位置に移動させた位置に仮想的に存在するマイクロホンで集音された場合の集音データとして取得する構成であってもよい。この構成によれば、少ない数のマイクロホンによって実質的に多数のマイクロホンによるデータを集音することができる。

　周波数スペクトル取得部２１ｂは、集音データ３０ａに基づいて、第１位置Ｐ₁が中心であり距離Ｒが半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する機能を制御部２０に実行させるプログラムモジュールである。ステップＳ１０５において集音データ３０ａが取得されると、制御部２０は、当該周波数スペクトル取得部２１ｂの機能により、ＦＦＴ（Ｆａｓｔ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）によって周波数スペクトルを取得する（ステップＳ１１０）。

　すなわち、制御部２０は、第１音源Ｓ₁からの距離がＲである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ３０ａを参照し、それぞれが示す音圧値を輝度値に変換し１ピクセル幅の濃淡画素データに変換する。さらに制御部２０は、当該データの変換を連続するＮ点の時系列データについて実施し、Ｎ×Ｍの濃淡画素データからなる１枚の画像データを生成する。さらに、制御部２０は、当該画像データを、ＦＦＴによってフーリエ変換する。また、制御部２０は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを周波数スペクトル３０ｂとして記録媒体３０に記録する。

　以上のようなフーリエ変換によれば、例えば、図２Ｂと図２Ｄとが重ねられたような周波数スペクトル３０ｂが得られる。すなわち、本実施形態においては、マイクロホンＭＩ₀～ＭＩ_M-1からの距離が等しい第１位置Ｐ₁に存在する第１音源Ｓ₁と他の音源である第２音源Ｓ₂とが混在する状態で集音データ３０ａが取得される。従って、周波数スペクトル３０ｂにおいては、第１音源Ｓ₁によって得られ、図２Ｂに示すように周波数０に局在する周波数スペクトルと、第２音源Ｓ₂によって得られ、図２Ｄに示すように周方向と時間方向との双方に値を有する周波数スペクトルとが混在した状態となる。

　音源分離部２１ｃは、周波数スペクトルに基づいて、第１音源Ｓ₁から出力された音のスペクトルである第１音源スペクトルと、第２音源Ｓ₂から出力された音のスペクトルである第２音源スペクトルとを分離する機能を制御部２０に実行させるプログラムモジュールである。

　本実施形態においては、周方向の周波数が０である領域において第１音源スペクトルと第２音源スペクトルとが重なっており、周波数が非０である領域において第１音源スペクトルは存在しないと見なすことができる。そこで、制御部２０は、音源分離部２１ｃの機能により、周方向の周波数が非０の領域の第２音源スペクトルに基づいて周波数が０の領域を補間する（ステップＳ１１５）。

　具体的には、制御部２０は、周方向の周波数が非０である領域の周波数スペクトルを第２音源スペクトルと見なす。図６Ａは、周波数スペクトル３０ｂからある時間における周波数スペクトルを抜き出して例示した図である。このように、周波数スペクトル３０ｂにおいては、周波数が０である領域に第１音源Ｓ₁に起因して大きい値となっている周波数スペクトルが存在するが、その周囲にも第２音源Ｓ₂に起因して有意な大きさの周波数スペクトルが存在する。

　図６Ｂは、図６Ａに示す周波数スペクトルを音源毎に分離し、重ねて示した図であり、実線が第１音源スペクトル、破線が第２音源スペクトルである。このように、第１音源スペクトルは周方向の周波数が０（＝角周波数が０）の領域に局在するため、この領域外の第２音源スペクトルを利用すれば、この領域内の第２音源スペクトルを予想することができる。本実施形態においては、周方向の周波数が非０の領域における第２音源スペクトルを正負両側から周波数０の領域に向けて直線的に延長することで補間を行う。図６Ｃにおいては、補間によって推定された第２音源スペクトルを破線によって示している。制御部２０は、以上の処理を、周波数スペクトル３０ｂにおける時間方向の全てで実施することで第２音源スペクトルを推定する。

　周方向の周波数が０の領域における第２音源スペクトルが推定されると、制御部２０は、周波数スペクトルから第２音源スペクトルを除去することで第１音源スペクトルを取得する（ステップＳ１２０）。すなわち、制御部２０は、周波数スペクトル３０ｂから、ステップＳ１１５で推定された第２音源スペクトルを差し引くことで、第２音源スペクトルを除去し、第１音源スペクトルを分離する。

　以上の処理においては、複数のマイクロホンからの距離が等しい位置に第１音源Ｓ₁が存在する場合に、第１音源スペクトルは周方向の周波数が０の領域に局在することを利用して第２音源スペクトルを特定している。そして、第２音源スペクトルは周方向の周波数が非０の領域にも分布するため、当該周波数が非０の領域のスペクトルから周波数が０の領域のスペクトルを正確に推定することができる。従って、第２音源スペクトルの推定に基づいて、第２音源スペクトルと第１音源スペクトルとを正確に分離することができる。

　次に、制御部２０は、音源分離部２１ｃの機能により、逆ＦＦＴによって第１音源スペクトルを音圧データに変換する（ステップＳ１２５）。すなわち、制御部２０は、第１音源スペクトルに基づいて第１音源Ｓ₁から出力された音を復元する処理を実行する。この結果、第１音源Ｓ₁から出力された音を示す音圧データが得られたことになる。当該音圧データは、音の再生に利用されてもよいし、音の解析や保存等によって利用されてもよいし、他の装置での利用のために他の装置に送信されてもよい。いずれにしても、本実施形態においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合に現れる特徴を利用して第１音源スペクトルを分離している。このため、複数の音源が存在する環境においても正確に第１音源Ｓ₁から出力された音を分離することができる。

　以上のようにして第１音源Ｓ₁から出力された音が再現されると、制御部２０は、全音源について処理済みであるか否か判定する（ステップＳ１３０）。すなわち、本実施形態においては、複数の音源の音圧データを分離することが可能であり、制御部２０は、音源の分離が終了したか否かを判定する。判定は、種々の要素によって行われてよく、予め決められた数の音源の分離が行われるように構成されていてもよいし、利用者が音源の分離の終了を指示するまで音源の分離が行われるように構成されていてもよく、種々の構成が採用可能である。

　ステップＳ１３０において、全音源について処理済みであると判定された場合、制御部２０は、音源分離処理を終了する。一方、ステップＳ１３０において、全音源について処理済みであると判定されない場合、制御部２０は、ステップＳ１００以降の処理を繰り返す。ただし、ステップＳ１００以降の処理が繰り返される場合、直前のステップＳ１２５で音圧データが取得された音源と異なる音源が第１音源になる。すなわち、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、距離センサ４０の正面（計測対象方向）に新たな音源が配置されるように調整する。この結果、新たな音源が第１音源になってステップＳ１００以降の処理が実行される。

　なお、ステップＳ１０５においては、マイクロホンＭＩ₀～ＭＩ_M-1によって再度集音が行われてもよいし、既に記録された集音データ３０ａが流用されてもよい。例えば、新たな音源から継続して音が出力されており、出力中の音を分離するのであればマイクロホンＭＩ₀～ＭＩ_M-1によって再度集音が行われる。一方、既に記録された集音データ３０ａが集音された際に出力されていた音をさらに分離したいのであれば、保存済の集音データ３０ａに基づいて補正を行えばよい。すなわち、集音データ３０ａにおいて既に実施された補正をキャンセルした上で、第１音源Ｓ₁からの距離に応じて補正が行われればよい。この場合、新たな第１音源Ｓ₁までの距離は再測定されることが好ましい。以上の構成によれば、複数の音源が存在する状況において、各音源の音を正確に分離することが可能である。
　図７は、上述の実施形態にかかる音源分離システムを利用した処理結果の例を説明するための図である。本例においては、図３Ａに示すマイクロホンＭ₀₀～Ｍ₀₃のように４個のマイクロホンをｘ軸上に配置し、さらに、各マイクロホンＭ₀₀～Ｍ₀₃からｙ軸に対して対称の位置に４個のマイクロホンを配置した。隣接するマイクロホン同士の距離は２ｃｍである。
　また、第１音源Ｓ₁は、女性が"Ｗｅｌｃｏｍ　ｔｏ　Ｊａｐａｎ"と発音した場合の音声を出力する音源であり、ｙ軸上で原点から２ｍの位置に配置された。第２音源Ｓ₂は、男性が"Ｈｅｌｌｏ，ｈｅｌｌｏ"と発音した場合の音声を出力する音源である。本例においては、ｙ軸上で第２音源Ｓ₂が移動され、各位置に第２音源Ｓ₂が配置された状態で第１音源Ｓ₁と第２音源Ｓ₂とから音声が出力され、音源分離が行われた。
　図７において、横軸は第２音源Ｓ₂のｙ座標である。従って、横軸の値が２（ｍ）である状態で、第１音源Ｓ₁と第２音源Ｓ₂の位置は同一である。また、図７において、縦軸は雑音の減衰率である。すなわち、本例では、第２音源Ｓ₂の各位置においてマイクロホンによる測定を行い、第１音源Ｓ₁までの距離を２ｍとしてステップＳ１００～Ｓ１２５を行った。そして、当該処理を行った場合と行っていない場合とのそれぞれに含まれる雑音（第１音源Ｓ₁からの出力音以外の音）を対比することで雑音の減衰率を計算した。
　図７に示すように、第２音源Ｓ₂の位置が第１音源Ｓ₁の位置と同一である状態を除き、他の全ての領域において雑音の減衰率が３０ｄＢ程度またはそれ以下である。従って、第２音源Ｓ₂の位置が第１音源Ｓ₁の位置と同一である状態を除き、非常に広い範囲で正確に第１音源Ｓ₁を他の音から分離することができたといえる。また、図７に示す破線は同じ条件でビームフォーミング法（遅延和アレイ）による測定及び処理を行った場合の処理結果の例を示している。このように、ビームフォーミング法においては、同一方向に並ぶ２個の音源の出力音を全く分離できていない。従って、本実施形態にかかる音源分離システムは、ビームフォーミング法で従来分離できなかった位置に配置された複数の音源の出力音を正確に分離可能な技術である。

　（３）音源位置推定システムの構成：
図８は、本発明の一実施形態にかかる音源位置推定システム１１のブロック図である。音源位置推定システム１１は、上述の音源分離システム１０と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図８においては、音源位置推定システム１１を実現するために必要なハードウェアを図４から抜き出し、共通のハードウェアを共通の符号によって示している。

　本実施形態において、制御部２０は、音源位置推定プログラム２２を実行することができる。音源位置推定プログラム２２が実行されると、制御部２０は、推定対象周波数スペクトル取得部２２ａ、参照データ取得部２２ｂ、推定対象音源位置推定部２２ｃとして機能する。本実施形態においては、予め決められた第１位置Ｐ₁からの距離が等しい複数のマイクロホンＭＩ₀～ＭＩ_M-1で測定した場合に得られる周波数スペクトルに基づいて、ｙ軸上の任意の位置に配置された推定対象音源の位置を推定する構成が採用されている。なお、第１位置Ｐ₁からの距離が等しい複数のマイクロホンＭＩ₀～ＭＩ_M-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図３Ａと同様にｘ軸上に等間隔で複数のマイクロホンＭＩ₀～ＭＩ_M-1が並べられた状態であり、補正によって第１位置Ｐ₁から複数のマイクロホンＭＩ₀～ＭＩ_M-1までの距離が等しいと見なされる構成を想定する。

　推定対象周波数スペクトル取得部２２ａは、第１位置Ｐ₁から等しい距離に存在する複数のマイクロホンＭＩ₀～ＭＩ_M-1によって、推定対象音源から出力された音を集音し、第１位置Ｐ₁が中心であり距離が半径である円の周方向と時間方向とについての２次元の周波数スペクトルである推定対象周波数スペクトルに変換する機能を制御部２０に実行させるプログラムモジュールである。

　すなわち、本実施形態においては、参照データ３１ｃを生成する際に、予めｙ軸上の特定の位置に第１位置Ｐ₁が設定されている。この状況で、制御部２０は、図９Ａに示す音源位置推定処理を実行する。音源位置推定処理において制御部２０は、推定対象周波数スペクトル取得部２２ａの機能により、参照データ３１ｃ生成の際に設定された第１位置Ｐ₁から等しい距離にあるマイクロホンで集音した集音データを取得する（ステップＳ２００）。

　具体的には、制御部２０は、推定対象周波数スペクトル取得部２２ａにおいて推定対象周波数スペクトルを取得するために、第１位置Ｐ₁に基づいて複数のマイクロホンＭＩ₀～ＭＩ_M-1の仮想的な位置を設定する。複数のマイクロホンＭＩ₀～ＭＩ_M-1は、実際には図３Ａに示すようにｘ軸上で等間隔に配置されており、複数のマイクロホンＭＩ₀～ＭＩ_M-1は、この状態で未知の位置に存在する推定対象音源から出力された音を集音する。この結果、制御部２０は、Ａ／ＤコンバータＣ₀～Ｃ_M-1による変換後のデジタルデータを取得する。

　制御部２０は、当該デジタルデータを補正し、複数のマイクロホンＭＩ₀～ＭＩ_M-1が仮想的な位置に存在する場合の集音データを取得する。本実施形態においては、予め第１位置Ｐ₁が設定されており、ｘ軸から第１位置Ｐ₁までの距離Ｒは予め決められる。そこで、制御部２０は、第１音源Ｓ₁からマイクロホンＭＩ₀～ＭＩ_M-1までの距離がＲになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンＭＩ₀～ＭＩ_M-1が並ぶｘ軸とｘ軸上でのマイクロホンＭＩ₀～ＭＩ_M-1の位置、ｘ軸とｙ軸との関係は予め特定されている。

　そこで、制御部２０は、距離Ｒと各マイクロホンＭＩ₀～ＭＩ_M-1の位置に基づいて、第１音源Ｓ₁から距離Ｒの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンＭＩ₀が図３Ａに示すマイクロホンＭ₀₀の位置に存在する場合、当該位置を座標（Ｘ₀₀，０）とすれば、補正後のマイクロホンＭ₀とマイクロホンＭ₀₀との距離Ｌは（Ｒ²＋Ｘ₀₀ ²）^1/2－Ｒによって算出することができる。この結果、制御部２０は、時間方向の補正量（位相遅延量）を２πｆ×Ｌ／ｖ（ｆは音波の周波数、ｖは音波の速度）によって取得することができる。

　そこで制御部２０は、マイクロホンＭＩ₀～ＭＩ_M-1の位置と、第１音源Ｓ₁までの距離Ｒとに基づいて、デジタルデータｙ₀（ｎ）～ｙ_M-1（ｎ）を補正し、第１音源Ｓ₁から各マイクロホンまでの距離が等しいと見なした場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体３０に、集音データ３１ａとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。

　集音データ３１ａが取得されると、制御部２０は、推定対象周波数スペクトル取得部２２ａの機能により、ＦＦＴによって周波数スペクトルを取得する（ステップＳ２０５）。すなわち、制御部２０は、第１音源Ｓ₁からの距離がＲである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ３１ａを参照し、それぞれが示す音圧値を輝度値に変換し１ピクセル幅の濃淡画素データに変換する。

　さらに制御部２０は、当該データの変換を連続するＮ点の時系列データについて実施し、Ｎ×Ｍの濃淡画素データからなる１枚の画像データを生成する。さらに、制御部２０は、当該画像データを、ＦＦＴによってフーリエ変換する。また、制御部２０は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを推定対象周波数スペクトル３１ｂとして記録媒体３０に記録する。

　参照データ取得部２２ｂは、参照音源から出力された音が複数のマイクロホンで集音され、２次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置とを対応づけた参照データを取得する機能を制御部２０に実行させるプログラムモジュールである。参照データ３１ｃは、少なくともステップＳ２００が実行される前に生成されていればよく、予め作成されていてもよいし、音源位置推定処理が開始された後に生成されてもよい。

　本実施形態においては、音源位置推定処理が開始された後、ステップＳ２００が実行される前に参照データ３１ｃが生成される。この際、制御部２０は、第１位置Ｐ₁を決定した上で参照データ３１ｃを生成するため、当該生成の際に決定されていた第１位置Ｐ₁に基づいてステップＳ２００が実行されることになる。

　参照データ３１ｃは、第１位置Ｐ₁から等距離の位置に複数のマイクロホンＭＩ₀～ＭＩ_M-1を配置し、ｙ軸上の複数の位置に音源を配置した状態のそれぞれにおける集音データを測定し、または計算することによって定義することが可能である。計算によって定義する場合、例えば、以下の計算を行えばよい。

　まず、複数のマイクロホンＭＩ₀～ＭＩ_M-1を第１位置Ｐ₁からの距離が一定の円周上に配置した状態を想定する。図１０Ａは、この状態を示す図であり、マイクロホンＭ₀～Ｍ_M-1（ただしこの例ではＭ－１＝７）が、第１位置Ｐ₁からの距離Ｒの円周上に配置された図３Ａと同様の状態になっている例である。この場合において、Ｍ個のマイクロホンＭ₀～Ｍ_M-1から得られる時間長Ｎの集音データが時刻ｎ（ｎは０～Ｎ－１の整数）、マイクロホン番号ｍ（ｍは０～Ｍ－１の整数）の関数ｆ（ｎ，ｍ）で表現されるとする。

　この場合、周波数スペクトルＦ（ｋ_t，ｋ_s）は以下の式（１）で与えられる。

なお、ｔは時間方向、ｓは周方向を示す添え字であり、Ｗt＝ｅ^-2πj/N，Ｗs＝ｅ^-2πj/Mである。

　一方、図１０Ａの座標系に示すｙ軸上の任意の位置（０，Ｙ₀）に音源が配置された状態を想定し、図１０Ｂに示す。この場合、マイクロホン０番を基準にすると、マイクロホンｍ番から出力される集音データは、マイクロホン０番の集音データがτ_m＝（Ｄ_m－Ｄ₀）／ｃだけ遅延したものと等価であり、以下の（２）式のように表現できる。

なお、ここで、Ｄmは音源からマイクロホンＭ_ｍまでの距離であり、ｃは音速である。Ｄmは、マイクロホンＭ_ｍの座標を（Ｘ_m，Ｙ_m）とすれば、次の式（３）で与えられる。
Ｄm＝（Ｘ_m ²＋（Ｙ₀－Ｙ_m）²）^1/2・・・（３）

　式（２）を利用して与えられる集音データを利用して式（１）の周波数スペクトルを変形すると以下の式（４）のように変形可能である。

ここで、Ｆ₀（ｋ_t）はマイクロホン０番の集音データを周波数変換したスペクトルであり、ｆsは標本化周波数である。Ｗ_t ^τmｆsは遅延τmに対応する位相回転を示している。

　このようにして示された周波数スペクトルＦ（ｋ_t，ｋ_s）は、第１位置Ｐ₁からの距離が距離Ｒである円周上に配置された複数のマイクロホンＭＩ₀～ＭＩ_M-1によって、ｙ軸上の任意の位置（０，Ｙ₀）に音源が配置された場合に取得される音の周波数スペクトルを示している。従って実際の音源の位置を代入すれば各位置に音源が配置された場合に取得される周波数スペクトルを計算することができる。

　図９Ｂは、マイクロホンＭＩ₀～ＭＩ₇をｘ軸方向に関して２ｃｍの等間隔に配置した場合について、音源の位置をｘ軸から０．０１、０．１、０．５、１．０、２．０、３．０、４．０ｍの各距離にあるｙ軸上の位置として（すなわち、Ｙ₀＝０．０１、０．１、０．５ｍ等）計算した周波数スペクトルを示す図である。なお、ここでは、Ｆ₀（ｋ_t）＝１とし、周波数スペクトルＦ（ｋ_t，ｋ_s）の絶対値を計算した上で、周方向の周波数が０である場合の値を１とした相対値で示している。

　図９Ｂに示されるように、音源の位置がｘ軸から０．０１、０．１、０．５、１．０、２．０、３．０、４．０ｍと変化することに応じて周波数スペクトルの形状が変化する。従って、実際に測定した推定対象周波数スペクトルと類似する周波数スペクトルを特定すれば、推定対象音源の位置を推定することができる。特に、ｘ軸から２．０ｍの位置である第１位置Ｐ₁の周囲では周波数スペクトルの形状が劇的に変化する。従って、ｘ軸から２．０ｍの位置付近に音源が存在する場合には正確に推定対象音源の位置を推定することが可能になる。むろん、参照データ３１ｃとして記録されるデータの数は図９Ｂに示す数に限定されず、より多くのデータが記録されていることが好ましい。

　以上のように、音源の位置毎の周波数スペクトルは予め計算することが可能であるし、実際に測定して取得することも可能である。いずれにしても、本実施形態においては、ｙ軸上に複数の位置に音源（これを参照音源と呼ぶ）が配置された状態で取得される周波数スペクトルを参照周波数スペクトルとして取得し、参照音源の位置を予め対応付け、参照データ３１ｃとして定義してある。

　なお、本実施形態において、参照音源の位置には、第１位置Ｐ₁と、第１位置Ｐ₁以外の位置とが含まれるように構成されている。すなわち、参照周波数スペクトルは、第１位置Ｐ₁とその周囲で顕著に異なる形状になるため、参照音源の位置には必ず第１位置Ｐ₁が含まれるように構成されている。さらに、第１位置Ｐ₁以外の位置が参照音源の位置に含まれるように構成されている。これらの参照音源の位置が参照データ３１ｃに含まれることにより、推定対象周波数スペクトルと比較することで推定対象音源の位置を推定可能な参照データ３１ｃを定義することができる。

　なお、第１位置Ｐ₁とその周辺の位置において参照周波数スペクトルは大きく変化するため、当該変化に応じた位置の推定を実施できるような分解能で参照音源の位置が設定されていることが好ましい。いずれにしても、予め参照データ３１ｃが定義されている状態において、制御部２０は、参照データ取得部２２ｂの機能により、参照データ３１ｃを取得する（ステップＳ２１０）。

　推定対象音源位置推定部２２ｃは、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する機能を制御部２０に実行させるプログラムモジュールである。すなわち、制御部２０は、ステップＳ２０５で取得された推定対象周波数スペクトルと、ステップＳ２１０で取得された参照データが示す参照周波数スペクトルのそれぞれとを比較する（ステップＳ２１５）。

　そして、制御部２０は、最も類似する参照データに対応づけられた位置を、推定対象音源の位置として取得する（ステップＳ２２０）。なお、周波数スペクトルの類否は、種々の手法で特定されてよく、例えば、推定対象周波数スペクトルと参照周波数スペクトルとの差分を積分した値が小さいほど類似していると判定する構成等を採用可能である。

　以上の構成によれば、音源の位置を推定可能である。特に、音源が第１位置Ｐ₁付近に存在する場合、僅かな位置の変位で大きくプロファイルが変化するため、正確に音源の位置を推定可能である。なお、音源の位置は、種々の態様で定義されてよい。すなわち、上述の例は、ｘ軸からの距離によって音源の位置が定義されていたが、他の定義、例えば、第１位置Ｐ₁からの方向及び距離によって音源の位置が定義されてもよく、種々の構成が採用されてよい。

　（４）第２の音源位置推定システムの構成：
図１１は、本発明の一実施形態にかかる音源位置推定システム１２のブロック図である。音源位置推定システム１２は、上述の音源位置推定システム１１と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図１１においては、音源位置推定システム１２を実現するために必要なハードウェアを図８から抜き出し、共通のハードウェアを共通の符号によって示している。

　本実施形態において、制御部２０は、音源位置推定プログラム２３を実行することができる。音源位置推定プログラム２３が実行されると、制御部２０は、集音部２３ａ、集音データ補正部２３ｂ、候補スペクトル取得部２３ｃ、位置推定部２３ｄとして機能する。本実施形態においては、音源の位置を推定して第１位置Ｐ₁とし、第１位置Ｐ₁から複数のマイクロホンＭＩ₀～ＭＩ_M-1までの距離が等しくなるように設定する構成が採用されている。なお、第１位置Ｐ₁からの距離が等しい複数のマイクロホンＭＩ₀～ＭＩ_M-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図３Ａと同様にｘ軸上に等間隔で複数のマイクロホンＭＩ₀～ＭＩ_M-1が並べられた状態であり、補正によって第１位置Ｐ₁から複数のマイクロホンＭＩ₀～ＭＩ_M-1までの距離が等しいと見なされる構成を想定する。

　集音部２３ａは、音を複数のマイクロホンで集音した集音データを取得する機能を制御部２０に実行させるプログラムモジュールである。すなわち、図１２Ａに示す音源位置推定処理は、複数のマイクロホンＭＩ₀～ＭＩ_M-1が存在するｘ軸に垂直なｙ軸上に音源が存在する状態で開始される。音源位置推定処理が開始されると、複数のマイクロホンＭＩ₀～ＭＩ_M-1の出力信号がＡ／ＤコンバータＣ₀～Ｃ_M-1からデジタルデータが出力される。制御部２０は、出力されたデジタルデータに基づいて集音データ３２ａを取得し、記録媒体３０に記録する。

　集音データ補正部２３ｂは、複数の候補位置を設定し、複数のマイクロホンから候補位置までの距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う機能を制御部２０に実行させるプログラムモジュールである。具体的には、集音データ３２ａが取得されると、制御部２０は、候補位置に音源が存在する集音データとなるように補正を行う（ステップＳ３０５）。

　すなわち、制御部２０は、ｙ軸上に複数の候補位置を設定する。候補位置の設定法は種々の手法であってよく、例えば、一定距離毎に候補位置を設定する構成であってもよい。候補位置が設定されると、制御部２０は、候補位置から複数のマイクロホンＭＩ₀～ＭＩ_M-1までの距離が一定になるように集音データ３２ａを補正して候補スペクトルを取得する処理を、各候補位置について実施する。

　例えば、図３Ａに示す位置Ｐ₁が候補位置である場合、制御部２０は、位置Ｐ₁に存在する音源からマイクロホンＭＩ₀～ＭＩ_M-1までの距離がＲになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンＭＩ₀～ＭＩ_M-1が並ぶｘ軸とｘ軸上でのマイクロホンＭＩ₀～ＭＩ_M-1の位置、ｘ軸とｙ軸との関係は予め特定されている。

　そこで、制御部２０は、距離Ｒと各マイクロホンＭＩ₀～ＭＩ_M-1の位置に基づいて、位置Ｐ₁に存在する音源から距離Ｒの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンＭＩ₀が図３Ａに示すマイクロホンＭ₀₀の位置に存在する場合、当該位置を座標（Ｘ₀₀，０）とすれば、補正後のマイクロホンＭ₀とマイクロホンＭ₀₀との距離Ｌは（Ｒ²＋Ｘ₀₀ ²）^1/2－Ｒによって算出することができる。この結果、制御部２０は、時間方向の補正量（位相遅延量）を２πｆ×Ｌ／ｖ（ｆは音波の周波数、ｖは音波の速度）によって取得することができる。

　そこで制御部２０は、マイクロホンＭＩ₀～ＭＩ_M-1の位置と、位置Ｐ₁までの距離Ｒとに基づいて、集音データ３２ａを補正し、候補位置に存在する音源から各マイクロホンまでの距離が等しいと見なした場合の集音データを取得する。取得された集音データには、音源の位置として想定された位置Ｐ₁が候補位置として対応づけられる。制御部２０は、各候補位置について、補正後の集音データを取得する。

　候補スペクトル取得部２３ｃは、複数の候補位置のそれぞれについて、候補位置が中心であり距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する機能を制御部２０に実行させるプログラムモジュールである。すなわち、ステップＳ３０５において集音データが補正されると、制御部２０は、候補スペクトル取得部２３ｃの機能により、複数の候補位置についての集音データをＦＦＴによって候補スペクトルに変換する（ステップＳ３１０）。

　具体的には、制御部２０は、ステップＳ３０５の補正によって得られた集音データのそれぞれについて、音圧値を輝度値に変換し１ピクセル幅の濃淡画素データに変換する。さらに制御部２０は、当該データの変換を連続するＮ点の時系列データについて実施し、Ｎ×Ｍの濃淡画素データからなる１枚の画像データを生成する。さらに、制御部２０は、当該画像データを、ＦＦＴによってフーリエ変換する。また、制御部２０は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルに候補位置を対応付け、候補スペクトル３２ｂとして記録媒体３０に記録する。

　位置推定部２３ｄは、周方向の周波数が０である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する機能を制御部２０に実行させるプログラムモジュールである。すなわち、ステップＳ３１０において候補スペクトルが取得されると、制御部２０は、周波数が０の領域のスペクトルが極大となる候補位置を取得する（ステップＳ３１５）。

　具体的には、制御部２０は、記録媒体３０に記録された候補スペクトル３２ｂを参照し、周方向の周波数が０の値を取得する。図１２Ｂは、複数の候補スペクトル３２ｂから、ある時間におけるスペクトルを抜き出し、重ねて示した図である。この図においては、候補位置が異なることに起因して異なる形状のスペクトルが得られることが示されている。また、図１２Ｂにおいては、ある候補位置Ｐｃから各マイクロホンＭＩ₀～ＭＩ_M-1までの距離が同一である。このため、候補位置Ｐｃに対応づけられた候補スペクトルＰｃ３２ｂが他の候補位置のスペクトルと極めて異なる形状となっており、かつ極大値となっている。従って、候補位置Ｐｃに対応づけられた候補スペクトル３２ｂが極大になることを容易に特定することができる。

　なお、極大値は、特定の時刻における候補スペクトルにおいて周方向の周波数が０の領域の値が複数の候補位置について比較されることによって特定されてもよいし、他の手法で特定されてもよい。例えば、複数の時刻における候補スペクトルにおいて周方向の周波数が０の領域の値が取得され、累積値や平均値等の統計値が複数の候補位置について取得され、比較されることによって極大値が特定されてもよい。

　極大値を与える候補スペクトル３２ｂが特定されると、制御部２０は、当該極大値を与える候補スペクトル３２ｂに対応づけられている候補位置Ｐｃに音源が存在すると推定する。このように、本実施形態において制御部２０は、候補スペクトル３２ｂに基づいて音源の位置を推定することができる。本実施形態においては、各マイクロホンＭＩ₀～ＭＩ_M-1までの距離が同一である候補位置Ｐｃに音源が存在する場合、図１２Ｂに示すように、候補スペクトルの形状が他のスペクトルと明らかに異なり、また、値も大きくなる。従って、候補位置Ｐｃが音源の位置である場合には、特に正確に音源の位置を推定することができる。

　本実施形態において音源の位置が推定された後には、当該位置の音源からの音を集音するための処理が行われる。すなわち、制御部２０は、候補位置からの距離が等しくなるように集音データの補正量を設定する（ステップＳ３２０）。具体的には、制御部２０は、マイクロホンＭＩ₀～ＭＩ_M-1の位置と、候補位置までの距離とされる共通の値（図３Ａに示す例であれば例えばＲ）とに基づいて、時間方向の補正量（位相遅延量：図３ＡのマイクロホンＭ₀₀であれば２πｆ×Ｌ／ｖ（ｆは音波の周波数、ｖは音波の速度））を取得する。

　以後、制御部２０は、例えば、集音データを当該補正量によって補正し、ステップＳ１１０～Ｓ１２５と同様の処理を行えば、候補位置に存在する音源からの音のみを抽出することが可能になる。

　なお、本実施形態において極大値が複数個存在する場合、制御部２０は、それぞれの極大値を与える候補スペクトル３２ｂに対応づけられた候補位置のそれぞれに音源が存在すると推定してもよい。この場合において、集音データの補正量を設定するのであれば、例えば、どの候補位置に合わせて設定すべきか利用者に問い合わせる構成等を採用可能である。さらに、祖調整を行ってから微調整を行ってもよい。例えば、候補位置を粗い密度で複数箇所設定し、極大値に基づいて候補位置を仮設定した後、仮設定された位置を含む所定範囲でより高密度に候補位置を複数箇所設定し、極大値に基づいて候補位置を詳細に設定してもよい。

　（５）他の実施形態：
以上の実施形態は本発明を実施するための一例であり、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する限りにおいて、他にも種々の実施形態を採用可能である。上述の実施形態においては、周波数スペクトルに基づいて音源の分離や、音源の位置の推定等を行う構成を説明したが、当該構成は一例である。従って、他の手法、例えば、周波数スペクトルに対して分離後の周波数スペクトルを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。むろん、周波数スペクトルに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。

　さらに、周波数スペクトルではなく、集音データが教師データとなってもよい。例えば、集音データに対して分離後の集音データを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。また、集音データに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。

　さらに、本発明の実施形態は、携帯端末以外の装置で実現されてもよい。例えば、車両内に音源分離システムや音源位置推定システムを配置することにより、車室内で会話や音楽再生等が行われている状態で運転者の音声指示を受け付ける音声インタフェースが実現されてもよい。こうすることにより運転手の音声指示を走行ノイズや車室内の他の音声等から分離することができるので、音声指示の認識率が向上する。

　さらに、携帯端末が備えるカメラと共に音源分離システムや音源位置推定システムが利用されてもよい。例えば、カメラを備える携帯端末によって動画を撮影する際に、特定の音源の音声を動画と共に記録したい場合や、音源毎に音声を分離した状態で動画を記録したい場合等に音源分離システムや音源位置推定システムが利用されてもよい。さらに、複数のマイクロホンにおける集音結果を全て記録しておき、異なる位置に存在する異なる音源からの音を事後的に抽出するような利用態様も実現可能である。

　さらに、上述の音源分離システム１０は距離センサ４０を備えていたが、距離センサ４０による測距が行われない音源分離システム１０が構成されてもよい。例えば、車室内における運転者の口など、ある程度の範囲内に存在する音源を対象とする場合、当該範囲に第１位置Ｐ₁が含まれるように設定した音源分離システム１０を構成すれば、距離センサ４０は不要である。

　さらに、上述の実施形態においては、音源がｙ軸上に存在するものとして説明を行ったが、音源がｙ軸上に存在しない場合であっても一般性は失わない。例えば、複数のマイクロホンの集音結果は、時間方向にシフトさせることによって第１位置を変化させることが可能である。そして、このような時間方向へのシフトを利用すれば、ｙ軸上に存在しない位置を第１位置と見なすことができるように補正を行うことが可能である。また、音源がどのような位置にあっても、音源分離システムや音源位置推定システムを移動させれば、音源がｙ軸に存在する（またはほぼ存在する）状態を実現することは可能である。

　また、音源分離システムや音源位置推定システムは、複数の装置によって実現されてもよく、フーリエ変換や集音データの補正等がサーバで実施され、分離された音声の提供や推定後の音源の位置の提供等がクライアントで実施されるシステム等であってもよい。むろん、音源分離システムや音源位置推定システムを構成する各要素、例えば、集音データ取得部２１ａ、周波数スペクトル取得部２１ｂ、音源分離部２１ｃ、推定対象周波数スペクトル取得部２２ａ、参照データ取得部２２ｂ、推定対象音源位置推定部２２ｃ、集音部２３ａ、集音データ補正部２３ｂ、候補スペクトル取得部２３ｃ、位置推定部２３ｄ等が異なる装置に分散して存在してもよい。さらに、上述の実施形態の一部の構成が省略されてもよいし、処理の順序が変動または省略されてもよい。

　集音データ取得部は、複数のマイクロホンからの距離が等しい第１位置に存在する第１音源と第１位置以外の位置に存在する第２音源とから出力された音を複数のマイクロホンで集音した集音データを取得することができればよい。すなわち、集音データ取得部は、第１音源から出力された音の第１音源スペクトルが第２音源スペクトルと区別できるように各音源が配置された状態で集音することができればよい。

　前記音源分離システムの実施形態において、Ｍ個（Ｍ≧３）のマイクロホンを用いた場合を説明したが、複数のマイクロホンは２以上であればよく、数は限定されない。また、複数のマイクロホンは、第１音源からの距離が等しければよく、当該距離は、実空間上での実際の距離が等しい状態であってもよいし、仮想的な距離が等しい状態であってもよい。すなわち、集音データを時間方向に補正し、複数のマイクロホンと音源との実効的な距離を変化させた場合、当該実効的な距離によってマイクロホンと第１音源との距離が規定されてもよい。

　さらに、複数のマイクロホンは特性が同一のマイクロホン（例えば、素材、大きさ、構成が同一の複数のマイクロホン等）であることが好ましい。さらに、複数のマイクロホンの態様は限定されず、上述のＭＥＭＳマイクロホン以外にも、種々のマイクロホンが利用されてよい。

　第１位置は、第１音源が当該位置に存在することによって第１音源スペクトルが第２音源スペクトルと明確に区別できるようになっていればよい。従って、第１音源スペクトルと第２音源スペクトルとを区別できる限りにおいて、第１位置に誤差が含まれていてもよい。また、第１音源スペクトルと第２音源スペクトルとを区別できる限りにおいて、第１音源から各マイクロホンへの距離が誤差を有していてもよい。

　第１位置に第１音源が存在する状態は、各種の手段で実現されてよく、音源分離システムが人為的に移動されるなどして第１位置に第１音源が存在する状態が実現されてもよいし、集音データが補正されることによって第１位置に第１音源が存在する状態が実現されてもよい。集音データは、各マイクロホンで集音された音を示していればよく、例えば、音圧の時間変化を示すデータである。

　周波数スペクトル取得部は、集音データに基づいて、第１位置が中心であり距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得することができればよい。すなわち、周波数スペクトル取得部は、マイクロホンが分布する周方向と、各マイクロホンにおける音圧の時間変化を示す時間方向とで規定される２次元方向について、集音データを周波数スペクトルに変換することができればよい。

　円の周方向は、第１位置が中心であり、マイクロホンと第１位置との距離が半径である円の周上であればよい。第１位置から複数のマイクロホンまでの距離が一定である状態は、上述のように、集音データの時間方向への補正によっても実現可能である。従って、直線上に並ぶ複数のマイクロホンの集音データが特定の直線方向に並べられ、各集音データの音圧が当該直線に垂直な時間方向に変化するように座標軸を定義した場合であっても、周方向と時間方向との２次元について解析していると解釈可能である。すなわち、集音データの時間方向への補正によって第１位置から複数のマイクロホンまでの距離が一定である状態が実現されるのであれば、周方向と時間方向との２次元について解析が行われているといえる。

　音源分離部は、周波数スペクトルに基づいて、第１音源から出力された音のスペクトルである第１音源スペクトルと、第２音源から出力された音のスペクトルである第２音源スペクトルとを分離することができればよい。すなわち、第１音源スペクトルは、第２音源スペクトルと異なる極めて特徴的なスペクトルとなるため、当該特徴的なスペクトルである第１音源スペクトルを抽出する処理と、当該特徴的なスペクトルを除去して第２音源スペクトルを残す処理と、の少なくとも一方を行えば、音源毎のスペクトルを分離することができる。

　分離によって得られた第１音源スペクトルや第２音源スペクトルは、種々の用途で利用されてよい。すなわち、上述の実施形態のように、音を復元する処理が行われる構成以外にも種々の構成を採用可能である。例えば、各音源における周波数スペクトルの特性を解析したり、評価したりする構成等が採用されてもよい。

　上述の実施形態においては、第１音源スペクトルに基づいて第１音源から出力された音を復元する処理が行われたが、むろん、第２音源スペクトルに基づいて第２音源から出力された音を復元する処理が行われてもよいし、第１音源と第２音源との双方について音を復元する処理が行われてもよい。第２音源スペクトルに基づいて第２音源から出力された音を復元する処理は、第１音源スペクトルが除去されたことで得られた第２音源スペクトルを逆フーリエ変換する処理等によって実現可能である。

　周方向の周波数が０である領域は、複数のマイクロホンからの距離が等しい第１位置に音源が存在することに起因して、周方向において第１音源スペクトルが局在する領域であればよく、当該領域は、例えば、第１音源が第１位置上に正確に一致しているほど狭くなり、複数のマイクロホンから第１位置までの距離が複数のマイクロホンにおいて正確に一致しているほど狭くなる。従って、これらの誤差等に応じて第１音源スペクトルの周波数成分が周方向において広がる度合いに鑑みて、すなわち、第１音源スペクトルを抽出できるように、周波数が０である領域に幅を持たせてもよい。周方向の周波数が非０である領域は、第１音源スペクトルが値を有さない周波数域として設定されればよい。

　周方向の周波数が０である領域の第２音源スペクトルの推定は、各種の補間によって実施されてよい。すなわち、上述の実施形態のように周方向の周波数が非０である領域の第２音源スペクトルを周波数が０の領域まで延長することによる線形補間が利用されてもよいし、他の線形補間やスペクトルを多項式等によって近似することによって補間が行われてもよく、種々の構成を採用可能である。また、周波数が非０である第２音源スペクトルを参照する際に正負両側の周波数の双方が参照されてもよいし、正側のみ、負側のみの周波数が参照されてもよい。

　さらに、集音データ取得部が、第１位置を中心とした円の周上に配置された複数のマイクロホンで集音された集音データを取得する構成であってもよい。すなわち、複数のマイクロホンが、実際に第１位置を中心とした円の周上に配置されている状態で集音データが取得されてもよい。むろん、複数のマイクロホンの位置が可変であることによって第１位置を変化させることが可能であってもよい。マイクロホンの位置を変化させるための構成としては、種々のアクチュエータが採用されてよく、例えば、マイクロホンがＭＥＭＳマイクロホンである場合、ＭＥＭＳによってマイクロホンを駆動する機構が構成されてもよい。

　さらに、本発明のように、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する手法は、プログラムや方法としても適用可能である。また、以上のようなシステム、プログラム、方法は、単独の装置として実現される場合や、複数の装置によって実現される場合が想定可能であり、各種の態様を含むものである。例えば、以上のような手段を備えた携帯端末を提供することが可能である。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、システムを制御するプログラムの記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし半導体メモリであってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。

１０…音源分離システム、２０…制御部、２１…音源分離プログラム、２１ａ…集音データ取得部、２１ｂ…周波数スペクトル取得部、２１ｃ…音源分離部、３０…記録媒体、３０ａ…集音データ、３０ｂ…周波数スペクトル、１１…音源位置推定システム、２２…音源位置推定プログラム、２２ａ…推定対象周波数スペクトル取得部、２２ｂ…参照データ取得部、２２ｃ…推定対象音源位置推定部、３１ａ…集音データ、３１ｂ…推定対象周波数スペクトル、３１ｃ…参照データ、１２…音源位置推定システム、２３…音源位置推定プログラム、２３ａ…集音部、２３ｂ…集音データ補正部、２３ｃ…候補スペクトル取得部、２３ｄ…位置推定部、３２ａ…集音データ、３２ｂ…候補スペクトル、４０…距離センサ、Ｃ₀～Ｃ_M-1…Ａ／Ｄコンバータ、ＭＩ₀～ＭＩ_M-1…マイクロホン

Claims

　複数のマイクロホンからの実効的な距離が等しい第１位置に存在する第１音源と前記第１位置以外の位置に存在する第２音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部と、
　前記集音データに基づいて、前記第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する周波数スペクトル取得部と、
　前記周波数スペクトルに基づいて、前記第１音源から出力された音のスペクトルである第１音源スペクトルと、前記第２音源から出力された音のスペクトルである第２音源スペクトルとを分離する、音源分離部と、
を備える音源分離システム。
　前記音源分離部は、
　　前記第１音源スペクトルに基づいて前記第１音源から出力された音を復元する処理と、前記第２音源スペクトルに基づいて前記第２音源から出力された音を復元する処理と、の少なくとも一方を実行する、
請求項１に記載の音源分離システム。
　前記音源分離部は、
　　前記周方向の周波数が非０である領域の前記周波数スペクトルを前記第２音源スペクトルと見なし、当該第２音源スペクトルから補間することによって前記周方向の周波数が０である領域の前記第２音源スペクトルを推定し、推定された前記第２音源スペクトルを前記周波数スペクトルから除去することによって前記第１音源スペクトルを分離する、
請求項１または請求項２に記載の音源分離システム。
　前記集音データ取得部は、
　　前記第１位置から複数の前記マイクロホンまでの実距離が等しくない場合に、前記実距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果に対して時間方向への補正が行われた前記集音データを取得する、
請求項１～請求項３のいずれかに記載の音源分離システム。
　前記集音データ取得部は、
　　前記円の周上に存在する前記マイクロホンで集音された場合の前記集音データを複製し、前記マイクロホンの位置を前記円の半径に対して線対称の位置に移動させた位置に仮想的に存在する前記マイクロホンで集音された場合の前記集音データとして取得する、
請求項１～請求項４のいずれかに記載の音源分離システム。
　前記集音データ取得部は、
　　前記第１位置を中心とした円の周上に配置された複数の前記マイクロホンで集音された前記集音データを取得する、
請求項１～請求項５のいずれかに記載の音源分離システム。
　第１位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、前記第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向とについての２次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、
　参照音源から出力された音が複数の前記マイクロホンで集音され、前記２次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、前記参照音源の位置とを対応づけた参照データを取得する参照データ取得部と、
　前記推定対象周波数スペクトルと、前記参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた前記参照音源の位置に前記推定対象音源が存在すると推定する推定対象音源位置推定部と、を備え、
　前記参照周波数スペクトルに対応づけられた前記参照音源の位置には、
　　前記第１位置と、前記第１位置以外の位置とが含まれる、
音源位置推定システム。
　音を複数のマイクロホンで集音した集音データを取得する集音部と、
　複数の候補位置を設定し、複数の前記マイクロホンから前記候補位置までの実効的な距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果を時間方向に補正する処理を、複数の前記候補位置について行う集音データ補正部と、
　複数の前記候補位置のそれぞれについて、前記候補位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する候補スペクトル取得部と、
　前記周方向の周波数が０である領域の前記周波数スペクトルが極大になる前記候補位置に音源が存在すると推定する位置推定部と、
を備える音源位置推定システム。
　複数のマイクロホンからの実効的な距離が等しい第１位置に存在する第１音源と前記第１位置以外の位置に存在する第２音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得工程と、
　前記集音データに基づいて、前記第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する周波数スペクトル取得工程と、
　前記周波数スペクトルに基づいて、前記第１音源から出力された音のスペクトルである第１音源スペクトルと、前記第２音源から出力された音のスペクトルである第２音源スペクトルとを分離する、音源分離工程と、
を含む音源分離方法。
　コンピュータを、
　複数のマイクロホンからの実効的な距離が等しい第１位置に存在する第１音源と前記第１位置以外の位置に存在する第２音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部、
　前記集音データに基づいて、前記第１位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との２次元についての周波数スペクトルを取得する周波数スペクトル取得部、
　前記周波数スペクトルに基づいて、前記第１音源から出力された音のスペクトルである第１音源スペクトルと、前記第２音源から出力された音のスペクトルである第２音源スペクトルとを分離する、音源分離部、
として機能させる音源分離プログラム。