WO2017098949A1

WO2017098949A1 - 音声処理装置および方法、並びにプログラム

Info

Publication number: WO2017098949A1
Application number: PCT/JP2016/085284
Authority: WO
Inventors: 悠前野; 祐基光藤
Original assignee: ソニー株式会社
Priority date: 2015-12-10
Filing date: 2016-11-29
Publication date: 2017-06-15
Also published as: US20180359594A1; EP3389285A1; CN108370487A; JPWO2017098949A1; JP6841229B2; US10524075B2; EP3389285A4; EP3389285B1; CN108370487B

Abstract

本技術は、より適切に音場を再現することができるようにする音声処理装置および方法、並びにプログラムに関する。音源位置補正部は、音声の聴取位置に基づいて、各オブジェクト音源の位置を示す音源位置情報を補正して、補正音源位置情報を求める。再現エリア制御部は、オブジェクト音源の音声のオブジェクト音源信号と、聴取位置と、補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する。本技術は音声処理装置に適用することができる。

Description

音声処理装置および方法、並びにプログラム

　本技術は音声処理装置および方法、並びにプログラムに関し、特に、より適切に音場を再現することができるようにした音声処理装置および方法、並びにプログラムに関する。

　例えば、環状や球状のスピーカアレイを用いてHOA（Higher Order Ambisonics）により全方位の音場を再生するとき、所望の音場が正しく再現されるエリア（以下、再現エリアと称する）はスピーカアレイの中心付近に限定される。そのため、正しく再現した音場を同時に聴取できる人数は少数に限られてしまうことになる。

　また、全方位のコンテンツを再生する場合、聴取者は頭を回転させながらコンテンツを楽しむことが考えられる。しかしながら、そのような場合、再現エリアが人の頭と同じくらいの大きさであるときには、聴取者の頭が再現エリアの外に出てしまい、期待する体験が得られなくなってしまう可能性もある。

　さらに頭の回転だけでなく、聴取者が並進（移動）しながらコンテンツの音声を聴取することができれば、聴取者は音像の定位感をより感じることができ、臨場感のある音場を体験することができる。しかし、このような場合においても聴取者の頭部位置がスピーカアレイの中心付近から外れると、臨場感が損なわれる可能性がある。

　そこで、環状や球状のスピーカアレイの内部において、聴取者の位置に合わせて音場の再現エリアを移動させる技術が提案されている（例えば、非特許文献１参照）。この技術により聴取者の頭部の移動に合わせて再現エリアを移動させれば、聴取者は常に正しく再現された音場を体験することができる。

Jens Ahrens, Sascha Spors, "An Analytical Approach to Sound Field Reproduction with a Movable Sweet Spot Using Circular Distributions of Loudspeakers," ICASSP, 2009.

　しかしながら、上述した技術では再現エリアの移動に伴って音場全体がその移動に追従してしまうため、聴取者が移動すると音像も移動してしまうことになる。

　この場合、例えば再生される音声が遠方から届くような平面波であるときには、音場全体が移動したとしても波面の到来方向は変わらないため、音場再現に大きな影響は生じない。しかし、再生される音声が比較的聴取者に近い音源からの球面波である場合には、音源が聴取者に追従するように聞こえてしまう。

　このように、再現エリアを移動させる場合においても、音源が聴取者に近いときには適切に音場を再現することが困難であった。

　本技術は、このような状況に鑑みてなされたものであり、より適切に音場を再現することができるようにするものである。

　本技術の一側面の音声処理装置は、音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正する音源位置補正部と、前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する再現エリア制御部とを備える。

　前記再現エリア制御部には、前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号と、前記聴取位置と、前記補正音源位置情報とに基づいて、前記空間周波数スペクトルを算出させることができる。

　音声処理装置には、音源分離を行うことで、音声の信号を前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号とに分離させる音源分離部をさらに設けることができる。

　前記オブジェクト音源信号を、音声の時間信号または空間周波数スペクトルとすることができる。

　前記音源位置補正部には、前記聴取位置の移動量の分だけ前記オブジェクト音源の位置が移動するように前記補正を行わせることができる。

　前記再現エリア制御部には、前記聴取位置の前記移動量だけ前記再現エリアを移動させた前記空間周波数スペクトルを算出させることができる。

　前記再現エリア制御部には、球座標系上で前記再現エリアを移動させることで前記空間周波数スペクトルを算出させることができる。

　音声処理装置には、前記再現エリア制御部により算出された前記空間周波数スペクトルに対して空間周波数合成を行って時間周波数スペクトルを算出する空間周波数合成部と、前記時間周波数スペクトルに対して時間周波数合成を行って、前記スピーカアレイの駆動信号を算出する時間周波数合成部とをさらに設けることができる。

　本技術の一側面の音声処理方法またはプログラムは、音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正し、前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出するステップを含む。

　本技術の一側面においては、音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報が補正され、前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルが算出される。

　本技術の一側面によれば、より適切に音場を再現することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

本技術について説明する図である。音場制御器の構成例を示す図である。マイク配置情報について説明する図である。音源位置情報の補正について説明する図である。音場再現処理を説明するフローチャートである。音場制御器の構成例を示す図である。音場再現処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、音場再現時に聴取者の位置情報とオブジェクト音源の位置情報を用いて、再現エリアを聴取者の位置に追従させつつ、オブジェクト音源の位置を聴取者の移動によらず空間内で固定させることで、より適切に音場を再現できるようにするものである。

　例えば図１の矢印Ａ１１に示すように再生空間において音場を再現する場合について考える。なお、図１において再生空間における濃淡はスピーカアレイにより再生された音声の音圧を表している。また、再生空間内のバツ印（「×」印）はスピーカアレイを構成する各スピーカを表している。

　矢印Ａ１１に示す例では、環状のスピーカアレイの中心付近に、音場が正しく再現される領域、すなわち、いわゆるスイートスポットと呼ばれる再現エリアＲ１１が位置している。また、その再現エリアＲ１１のほぼ中心位置に再現された音場、つまりスピーカアレイで再生された音声を聴取する聴取者Ｕ１１がいる。

　いま、スピーカアレイにより音場を再現すると、聴取者Ｕ１１には音源ＯＢ１１からの音が聞こえているように感じられるものとする。この例では、音源ＯＢ１１は比較的聴取者Ｕ１１から近い位置にあり、この音源ＯＢ１１の位置に音像が定位する。

　このような音場再現を行っているときに、例えば聴取者Ｕ１１が再生空間内を図中、右方向に並進（移動）したとする。また、このとき聴取者Ｕ１１の移動に応じて、再現エリアを移動させる技術に基づいて、再現エリアＲ１１を移動させたとする。

　すると、例えば矢印Ａ１２に示すように聴取者Ｕ１１の移動に合わせて再現エリアＲ１１も移動し、聴取者Ｕ１１は移動後においても再現エリアＲ１１内で音声を聴取することができるようになる。

　しかし、この場合、再現エリアＲ１１とともに音源ＯＢ１１の位置も移動してしまい、移動の前後において、聴取者Ｕ１１と音源ＯＢ１１との相対的な位置関係が同じとなってしまう。したがって、聴取者Ｕ１１にとっては、自分が移動しているのにも関わらず、自分から見た音源ＯＢ１１の位置は移動しておらず、違和感が生じてしまう。

　そこで本技術では、再現エリアを移動させる技術に基づいて、聴取者Ｕ１１の移動に合わせて再現エリアＲ１１を移動させるとともに、再現エリアＲ１１の移動時に適切に音源ＯＢ１１の位置の補正も行うことで、より適切な音場再現を実現できるようにした。

　これにより、例えば矢印Ａ１３に示すように、移動後においても聴取者Ｕ１１が再現エリアＲ１１内で正しく再現された音場（音声）を聴取できるようにするだけでなく、再生空間内において、音源ＯＢ１１の位置を固定させることができる。

　この場合、聴取者Ｕ１１が移動しても再生空間内における音源ＯＢ１１の位置はそのままであるので、聴取者Ｕ１１に対してより臨場感のある音場再現を提供することができる。つまり、再現エリアＲ１１を聴取者Ｕ１１の移動に追従させつつ、音源ＯＢ１１の位置は固定されたままとなる音場再現を実現することができる。

　ここで、再現エリアＲ１１の移動時における音源ＯＢ１１の位置の補正には、聴取者Ｕ１１の位置を示す聴取者位置情報と、音源ＯＢ１１の位置、つまりオブジェクト音源の位置を示す音源位置情報とを用いればよい。

　なお、聴取者位置情報の取得は、例えば加速度センサなどのセンサを聴取者Ｕ１１に何らかの方法で装着させたり、カメラを用いて画像処理により聴取者Ｕ１１の位置を検出したりすることで実現することができる。

　また、音源ＯＢ１１、すなわちオブジェクト音源の音源位置情報については、音声の再生内容によって異なった取得方法が考えられる。

　例えば、オブジェクト音再生の場合には、メタデータとして与えられるオブジェクト音源の音源位置情報を取得し、それを用いればよい。

　これに対して、マイクロホンアレイを用いて波面収音された音場を再現する場合には、例えば各オブジェクト音源を分離する技術を用いて、音源位置情報を得るようにすればよい。

　なお、各オブジェクト音源を分離する技術については、例えば「小山翔一，村田直毅，猿渡洋，”超解像型音場収音・再現のためのグループスパース信号表現と分解アルゴリズム，” 春季日本音響学会講演論文集，2015．」（以下、参照文献１と称する）などに詳細に記載されている。

　また、スピーカアレイではなくヘッドホンで音場を再現することも考えられる。

　例えば一般的な技術として、オブジェクト音源から聴取者までの頭部伝達関数（HRTF（Head-Related Transfer Function））を用いることもできる。この場合、オブジェクト音源と聴取者との相対位置に応じて頭部伝達関数を切り替えることで音場再現が可能であるが、オブジェクト音源の数が増えるとその分だけ演算量も増加してしまう。

　そこで、本技術では、ヘッドホンで音場を再現する場合には、スピーカアレイを構成する各スピーカを仮想スピーカとして捉え、各仮想スピーカの駆動信号に対して、それらの仮想スピーカの位置に対応する頭部伝達関数を畳み込むようにした。これにより、スピーカアレイを用いた再生と同様の音場を再現することができる。また、オブジェクト音源の数によらず頭部伝達関数の畳み込み演算の回数を一定数とすることができる。

　さらに、以上のような本技術において、聴取者に近く、音源位置の補正が必要となるものをオブジェクト音源として音源位置の補正を行い、聴取者から遠く、音源位置の補正が不要であるものをアンビエント音源として音源位置の補正を行わないようにすれば、演算量をさらに削減することができる。

　ここで、オブジェクト音源の音声は、コンテンツに含まれる主たる音声ということができ、アンビエント音源の音声は、コンテンツに含まれる環境音等の周囲の音声であるということができる。以下では、オブジェクト音源の音声信号をオブジェクト音源信号とも称し、アンビエント音源の音声信号をアンビエント信号とも称することとする。

　なお、本技術によれば、各音源の音声信号に頭部伝達関数を畳み込み、ヘッドホンで音場を再現する場合においても、オブジェクト音源についてのみ頭部伝達関数を畳み込み、アンビエント音源については頭部伝達関数の畳み込みを行わないようにしても演算量を削減することができる。

　以上のような本技術によれば、聴取者の動きに合わせて再現エリアを移動させることができるため、聴取者の位置によらず、聴取者に対して正しく再現された音場を提示することができる。また、聴取者が並進運動をしても空間内におけるオブジェクト音源の位置は変化しないので、音源の定位感を向上させることができる。

〈音場制御器の構成例〉
　次に、本技術を音場制御器に適用した場合を例として、本技術を適用した具体的な実施の形態について説明する。

　図２は、本技術を適用した音場制御器の一実施の形態の構成例を示す図である。

　図２に示す音場制御器１１は、収音空間に配置された収録装置２１と、再生空間に配置された再生装置２２とを有している。

　収録装置２１は、収音空間の音場を収録して、その結果得られた信号を再生装置２２へと供給し、再生装置２２は、収録装置２１から信号の供給を受けて、その信号に基づいて収音空間の音場を再現する。

　収録装置２１は、マイクロホンアレイ３１、時間周波数分析部３２、空間周波数分析部３３、および通信部３４を備えている。

　マイクロホンアレイ３１は、例えば環状マイクロホンアレイや球状マイクロホンアレイからなり、収音空間の音声（音場）をコンテンツとして収音して、その結果得られたマルチチャンネルの音声信号である収音信号を時間周波数分析部３２に供給する。

　時間周波数分析部３２は、マイクロホンアレイ３１から供給された収音信号に対して時間周波数変換を行い、その結果得られた時間周波数スペクトルを空間周波数分析部３３に供給する。

　空間周波数分析部３３は、外部から供給されたマイク配置情報を用いて、時間周波数分析部３２から供給された時間周波数スペクトルに対して空間周波数変換を行い、その結果得られた空間周波数スペクトルを通信部３４に供給する。

　ここで、マイク配置情報は収録装置２１、つまりマイクロホンアレイ３１の方向を示す角度情報である。このマイク配置情報は、例えば収録装置２１により音場の収録、つまり音声の収音を開始した時点など、所定時刻におけるマイクロホンアレイ３１の方向、より詳細にはマイクロホンアレイ３１を構成する各マイクロホンの方向を示す情報である。

　通信部３４は、空間周波数分析部３３から供給された空間周波数スペクトルを、有線または無線により再生装置２２に送信する。

　また、再生装置２２は、通信部４１、音源分離部４２、聴取位置検出部４３、音源位置補正部４４、再現エリア制御部４５、空間周波数合成部４６、時間周波数合成部４７、およびスピーカアレイ４８を備えている。

　通信部４１は、収録装置２１の通信部３４から送信されてきた空間周波数スペクトルを受信して音源分離部４２に供給する。

　音源分離部４２は、音源分離を行うことで、通信部４１から供給された空間周波数スペクトルを、オブジェクト音源信号とアンビエント信号とに分離させるとともに、各オブジェクト音源の位置を示す音源位置情報を求める。

　音源分離部４２は、オブジェクト音源信号と、音源位置情報とを音源位置補正部４４に供給し、アンビエント信号を再現エリア制御部４５に供給する。

　聴取位置検出部４３は、外部から供給されたセンサ情報に基づいて、再生空間における聴取者の位置を検出するとともに、その検出結果から得られる聴取者の移動量Δｘを音源位置補正部４４および再現エリア制御部４５に供給する。

　ここで、センサ情報は、例えば聴取者に取り付けられた加速度センサやジャイロセンサから出力された情報などとされる。この場合、聴取位置検出部４３は、センサ情報として供給された、加速度や聴取者の変位量に基づいて聴取者の位置を検出する。

　また、例えばセンサ情報として、画像センサで得られた画像情報を取得するようにしてもよい。この場合、聴取者を被写体として含む画像のデータ（画像情報）、または聴取者から見た周囲の画像のデータがセンサ情報として取得され、聴取位置検出部４３は、センサ情報に対する画像認識等により聴取者の位置を検出する。

　さらに、移動量Δｘは、例えばスピーカアレイ４８の中心位置、つまりスピーカアレイ４８を構成する各スピーカにより囲まれる領域の中心位置から、再現エリアの中心位置までの移動量とされる。例えば聴取者が１人である場合には、その聴取者の位置が再現エリアの中心位置とされる。すなわち、スピーカアレイ４８の中心位置からの聴取者の移動量がそのまま移動量Δｘとされる。なお、再現エリアの中心位置は、スピーカアレイ４８を構成する各スピーカにより囲まれる領域内の位置であるとする。

　音源位置補正部４４は、聴取位置検出部４３から供給された移動量Δｘに基づいて、音源分離部４２から供給された音源位置情報を補正し、その結果得られた補正音源位置情報と、音源分離部４２から供給されたオブジェクト音源信号とを再現エリア制御部４５に供給する。

　再現エリア制御部４５は、聴取位置検出部４３から供給された移動量Δｘと、音源位置補正部４４から供給された補正音源位置情報およびオブジェクト音源信号と、音源分離部４２から供給されたアンビエント信号とに基づいて、再現エリアを移動量Δｘだけ移動させた空間周波数スペクトルを求め、空間周波数合成部４６に供給する。

　空間周波数合成部４６は、外部から供給されたスピーカ配置情報に基づいて、再現エリア制御部４５から供給された空間周波数スペクトルを空間周波数合成し、その結果得られた時間周波数スペクトルを時間周波数合成部４７に供給する。

　ここで、スピーカ配置情報は、スピーカアレイ４８の方向、より詳細にはスピーカアレイ４８を構成する各スピーカの方向を示す角度情報である。

　時間周波数合成部４７は、空間周波数合成部４６から供給された時間周波数スペクトルを時間周波数合成し、その結果得られた時間信号をスピーカ駆動信号としてスピーカアレイ４８に供給する。

　スピーカアレイ４８は、複数のスピーカから構成される環状スピーカアレイや球状スピーカアレイなどからなり、時間周波数合成部４７から供給されたスピーカ駆動信号に基づいて音声を再生する。

　続いて、音場制御器１１を構成する各部についてより詳細に説明する。

（時間周波数分析部）
　時間周波数分析部３２は、マイクロホンアレイ３１を構成する各マイクロホン（以下、マイクユニットとも称する）が音声を収音することで得られたマルチチャンネルの収音信号s(i,n_t)を、次式（１）の計算を行うことで、DFT（Discrete Fourier Transform）（離散フーリエ変換）を用いて時間周波数変換し、時間周波数スペクトルS(i,n_tf)を求める。

　なお、式（１）において、iは、マイクロホンアレイ３１を構成するマイクユニットを特定するマイクロホンインデックスを示しており、マイクロホンインデックスi＝0,1,2,…,I-1である。また、Iはマイクロホンアレイ３１を構成するマイクユニットの数を示しており、n_tは時間インデックスを示している。

　さらに式（１）において、n_tfは時間周波数インデックスを示しており、M_tはDFTのサンプル数を示しており、jは純虚数を示している。

　時間周波数分析部３２は、時間周波数変換により得られた時間周波数スペクトルS(i,n_tf)を空間周波数分析部３３に供給する。

（空間周波数分析部）
　空間周波数分析部３３は、外部から供給されたマイク配置情報を用いて、時間周波数分析部３２から供給された時間周波数スペクトルS(i,n_tf)に対して空間周波数変換を行う。

　例えば空間周波数変換では、球面調和級数展開が用いられて時間周波数スペクトルS(i,n_tf)が空間周波数スペクトルS'_n ^m(n_tf)に変換される。なお、空間周波数スペクトルS'_n ^m(n_tf)におけるn_tfは時間周波数インデックスを示しており、ｎおよびｍは球面調和領域の次数を示している。

　また、マイク配置情報は、例えば各マイクユニットの方向を示す仰角および方位角からなる角度情報とされる。

　すなわち、例えば図３に示すように原点Ｏを基準とし、ｘ軸、ｙ軸、およびｚ軸を各軸とする３次元の直交座標系を考えるとする。

　いま、マイクロホンアレイ３１を構成する所定のマイクユニットMU11と原点Ｏとを結ぶ直線を直線ＬＮとし、直線ＬＮをｚ軸方向からｘｙ平面に投影して得られる直線を直線ＬＮ’とする。

　このとき、ｘ軸と直線ＬＮ’とのなす角度φが、ｘｙ平面における原点Ｏから見たマイクユニットMU11の方向を示す方位角とされる。また、ｘｙ平面と直線ＬＮとのなす角度θが、ｘｙ平面と垂直な平面における原点Ｏから見たマイクユニットMU11の方向を示す仰角とされる。

　以下においては、マイク配置情報は、マイクロホンアレイ３１を構成する各マイクユニットの方向を示す情報からなるものとする。

　より具体的には、例えばマイクロホンインデックスがiであるマイクユニットの方向を示す情報は、基準となる方向に対するそのマイクユニットの相対的な方向を示す角度（θ_i,φ_i）とされる。ここで、θ_iは基準となる方向から見たマイクユニットの方向の仰角であり、φ_iは基準となる方向から見たマイクユニットの方向の方位角である。

　したがって、例えば図３に示した例においてｘ軸方向が基準となる方向であるときには、マイクユニットMU11の角度（θ_i,φ_i）は仰角θ_i＝θおよび方位角φ_i＝φとなる。

　ここで、空間周波数スペクトルS'_n ^m(n_tf)の具体的な算出方法について説明する。

　一般的に、ある球上の音場Ｓは次式（２）に示すように表すことができる。

　なお、式（２）において、Ｙは球面調和関数行列を示しており、Ｗは球の半径および空間周波数の次数による重み係数を示しており、Ｓ’は空間周波数スペクトルを示している。このような式（２）の計算は空間周波数逆変換に相当する。

　また、次式（３）を計算することで、空間周波数変換により空間周波数スペクトルＳ’を求めることができる。

　なお、式（３）においてＹ⁺は球面調和関数行列Ｙの疑似逆行列を示しており、球面調和関数行列Ｙの転置行列をＹ^Tとして次式（４）により得られるものである。

　以上のことから、時間周波数スペクトルS(i,n_tf)からなるベクトルＳに基づいて、次式（５）により、空間周波数スペクトルS'_n ^m(n_tf)からなるベクトルＳ’が得られることが分かる。空間周波数分析部３３は、式（５）を計算して空間周波数変換を行うことで、空間周波数スペクトルS'_n ^m(n_tf)を求める。

　なお、式（５）において、Ｓ’は空間周波数スペクトルS'_n ^m(n_tf)からなるベクトルを示しており、ベクトルＳ’は以下の式（６）により表される。また、式（５）において、Ｓは各時間周波数スペクトルS(i,n_tf)からなるベクトルを示しており、ベクトルＳは以下の式（７）により表される。

　さらに、式（５）において、Y_micは球面調和関数行列を示しており、球面調和関数行列Y_micは以下の式（８）により表される。また、式（５）において、Y_mic ^Tは球面調和関数行列Y_micの転置行列を示している。

　ここで、式（５）において、球面調和関数行列Y_micは、式（４）における球面調和関数行列Ｙに対応する。また、式（５）においては、式（３）に示した重み係数Ｗに対応する重み係数については省略されている。

　また、式（８）におけるY_n ^m(θ_i,φ_i)は次式（９）に示す球面調和関数である。

　式（９）において、ｎおよびｍは球面調和領域、つまり球面調和関数Y_n ^m(θ,φ)の次数を示しており、ｊは純虚数を示しており、ωは角周波数を示している。

　さらに、式（８）の球面調和関数におけるθ_iおよびφ_iは、マイク配置情報により示されるマイクユニットの角度（θ_i,φ_i）を構成する仰角θ_iおよび方位角φ_iを示している。

　以上の計算により空間周波数スペクトルS'_n ^m(n_tf)が得られると、空間周波数分析部３３は、空間周波数スペクトルS'_n ^m(n_tf)を、通信部３４および通信部４１を介して音源分離部４２に供給する。

　なお、空間周波数変換により空間周波数スペクトルを求める方法については、例えば「Jerome Daniel, Rozenn Nicol, Sebastien Moreau, “Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging,” AES 114th Convention, Amsterdam, Netherlands, 2003」などに詳細に記載されている。

（音源分離部）
　音源分離部４２は、音源分離を行うことで、通信部４１から供給された空間周波数スペクトルS'_n ^m(n_tf)を、オブジェクト音源信号とアンビエント信号とに分離させるとともに、各オブジェクト音源の位置を示す音源位置情報を求める。

　なお、音源分離の方法は、どのような方法であってもよいが、例えば上述した参照文献１に記載されている方法により音源分離を行うようにすることが可能である。

　この場合、収音空間内にはマイクロホンアレイ３１の近くに点音源であるオブジェクト音源がいくつかあり、その他の音源はアンビエント音源であるという仮定に基づいて音声の信号、つまり空間周波数スペクトルがモデル化され、各音源の信号に分離される。すなわち、この技術ではスパース信号処理により音源分離が行われている。このような音源分離では、各音源の位置も特定される。

　なお、音源分離をするにあたっては、何らかの基準により分離する音源数を制限するようにしてもよい。この基準は、例えば音源数そのものや、再現エリアの中心からの距離などが考えられる。すなわち、例えば予めオブジェクト音源とする音源の数を定めておくようにしてもよいし、再現エリアの中心からの距離、つまりマイクロホンアレイ３１の中心からの距離が所定の距離以下である音源をオブジェクト音源とするようにしてもよい。

　音源分離部４２は、音源分離の結果として得られた各オブジェクト音源の位置を示す音源位置情報と、それらのオブジェクト音源のオブジェクト音源信号とされた空間周波数スペクトルS'_n ^m(n_tf)とを音源位置補正部４４に供給する。

　また、音源分離部４２は、音源分離の結果、アンビエント信号とされた空間周波数スペクトルS'_n ^m(n_tf)を再現エリア制御部４５に供給する。

（聴取位置検出部）
　聴取位置検出部４３は、再生空間における聴取者の位置を検出し、その検出結果に基づいて、聴取者の移動量Δｘを求める。

　具体的には、例えば図４に示すように２次元平面上において位置ｘ₀にスピーカアレイ４８の中心位置があり、その中心位置の座標を中心座標ｘ₀と称することとする。

　なお、ここでは説明を簡単にするため、２次元平面のみを考えることとし、中心座標ｘ₀は、例えば球座標系の座標とされるものとする。

　また、２次元平面上において、聴取者の位置に基づいて求められる再現エリアの中心位置が位置ｘ_cであり、この再現エリアの中心位置を示す座標を中心座標ｘ_cと称することとする。但し、この中心位置ｘ_cは、スピーカアレイ４８の内側、つまりスピーカアレイ４８を構成する各スピーカユニットに囲まれる領域内であるとする。また、中心座標ｘ_cも中心座標ｘ₀と同様に球座標系の座標とされるものとする。

　例えば再生空間内に聴取者が１人だけいる場合、その聴取者の頭部の位置が聴取位置検出部４３により検出され、その聴取者の頭部位置がそのまま再現エリアの中心位置ｘ_cとされる。

　これに対して、再生空間内に複数の聴取者がいる場合には、それらの聴取者の頭部の位置が聴取位置検出部４３により検出され、それらの全聴取者の頭部の位置を内包し、半径が最小となる円の中心位置が再現エリアの中心位置ｘ_cとされる。

　なお、再生空間内に複数の聴取者がいる場合、各聴取者の頭部の位置の重心位置を再現エリアの中心位置ｘ_cとするなど、他の方法により再現エリアの中心位置ｘ_cを定めるようにしてもよい。

　このようにして再現エリアの中心座標ｘ_cが求まると、聴取位置検出部４３は次式（１０）を計算することで移動量Δｘを求める。

　図４では位置ｘ₀を始点とし、位置ｘ_cを終点とするベクトルｒ_cが移動量Δｘを示しており、式（１０）の計算では、球座標で表された移動量Δｘが求められる。したがって、音場再現開始時に聴取者が位置ｘ₀にいるものとすると、移動量Δｘは聴取者の頭部の移動量ともいうことができるし、再現エリアの中心位置の移動量であるということもできる。

　また、音場再現開始時に再現エリアの中心位置が位置ｘ₀にあり、２次元平面上の位置ｘに所定のオブジェクト音源があったとすると、音場再現開始時における再現エリアの中心位置からみたオブジェクト音源の位置は、ベクトルｒにより示される位置である。

　これに対して、再現エリアの中心位置が当初の位置ｘ₀から位置ｘ_cへと移動したとすると、その移動後における再現エリアの中心位置からみたオブジェクト音源の位置は、ベクトルｒ’により示される位置となる。

　この場合、移動前後における再現エリアの中心位置からみたオブジェクト音源の位置は、ベクトルｒ_cの分だけ、つまり移動量Δｘの分だけ変化している。そのため、再生空間内で再現エリアのみを移動させ、オブジェクト音源の位置は固定されたままとするためには、オブジェクト音源の位置ｘを適切に補正する必要があり、その補正が音源位置補正部４４で行われる。

　なお、位置ｘ₀から見たオブジェクト音源の位置ｘを、図４に示すベクトルｒの大きさである半径ｒと、方位角φとを用いて球座標により表すとｘ＝（ｒ，φ）となる。同様に、移動後の位置ｘ_cから見たオブジェクト音源の位置ｘを、図４に示すベクトルｒ’の大きさである半径ｒ’と、方位角φ’とを用いて球座標で表すとｘ＝（ｒ’，φ’）となる。

　さらに移動量Δｘもベクトルｒ_cの大きさである半径ｒ_cと、方位角φ_cとを用いて球座標によりΔｘ＝（ｒ_c，φ_c）と表すことができる。なお、ここでは各位置や移動量を球座標により表す例について説明するが、各位置や移動量を直交座標で表すようにしてもよい。

　聴取位置検出部４３は、以上の計算により得られた移動量Δｘを、音源位置補正部４４および再現エリア制御部４５に供給する。

（音源位置補正部）
　音源位置補正部４４は、聴取位置検出部４３から供給された移動量Δｘに基づいて、音源分離部４２から供給された音源位置情報を補正し、補正音源位置情報を得る。すなわち、音源位置補正部４４では、聴取者による音声の聴取位置に応じて、各オブジェクト音源の位置が補正される。

　具体的には、例えば音源位置情報により示されるオブジェクト音源の位置を示す座標がｘ_obj（以下、音源位置座標ｘ_objとも称する）であり、補正音源位置情報により示される補正後のオブジェクト音源の位置を示す座標がｘ’_obj（以下、補正音源位置座標ｘ’_objとも称する）であるとする。なお、これらの音源位置座標ｘ_objおよび補正音源位置座標ｘ’_objは、例えば球座標で表される。

　音源位置補正部４４は、音源位置座標ｘ_objと移動量Δｘとから次式（１１）を計算することで、補正音源位置座標ｘ’_objを算出する。

　これにより、移動量Δｘの分だけ、つまり聴取者による音声の聴取位置の移動分だけ、オブジェクト音源の位置が移動される。

　音源位置座標ｘ_objおよび補正音源位置座標ｘ’_objは、それぞれ移動前後における再現エリアの中心位置を基準とする、つまり聴取者の位置から見た各オブジェクト音源の位置を示す情報となっている。このように、オブジェクト音源の位置を示す音源位置座標ｘ_objを、再生空間上における移動量Δｘの分だけ補正して補正音源位置座標ｘ’_objとすれば、再生空間で見ると補正の前後でオブジェクト音源の位置は同じ位置のままとなる。

　また、音源位置補正部４４は、式（１１）の計算により得られた球座標で表される補正音源位置座標ｘ’_objを、そのまま補正音源位置情報とする。

　例えば図４に示した２次元平面のみを考える場合、オブジェクト音源の位置が位置ｘであるとすると、球座標系では、補正音源位置座標ｘ’_objは、ベクトルｒ’の大きさをｒ’とし、ベクトルｒ’の方位角をφ’としてｘ’_obj＝（ｒ’，φ’）となる。したがって、補正音源位置座標ｘ’_objは、移動後の再現エリアの中心位置から見たオブジェクト音源の相対的な位置を示す座標となる。

　音源位置補正部４４は、このようにして求められた補正音源位置情報と、音源分離部４２から供給されたオブジェクト音源信号とを再現エリア制御部４５に供給する。

（再現エリア制御部）
　再現エリア制御部４５は、聴取位置検出部４３から供給された移動量Δｘと、音源位置補正部４４から供給された補正音源位置情報およびオブジェクト音源信号と、音源分離部４２から供給されたアンビエント信号とに基づいて、再現エリアを移動量Δｘだけ移動させたときの空間周波数スペクトルS''_n ^m(n_tf)を求める。すなわち、空間周波数スペクトルS''_n ^m(n_tf)は、空間周波数スペクトルS'_n ^m(n_tf)に対して、音像（音源）位置を固定したまま再現エリアを移動量Δｘだけ移動させることにより得られるものである。

　但し、ここでは説明を簡単にするため、２次元座標系上にスピーカアレイ４８を構成するスピーカが環状に配置され、球面調和関数の代わりに環調和関数が用いられて空間周波数スペクトルが算出される場合について説明する。以下では、空間周波数スペクトルS''_n ^m(n_tf)に対応する、環調和関数が用いられて算出された空間周波数スペクトルを空間周波数スペクトルS'_n(n_tf)と記すこととする。

　空間周波数スペクトルS'_n(n_tf)は、次式（１２）に示すように分解することができる。

　なお、式（１２）においてS''_n(n_tf)は空間周波数スペクトルを示しており、J_n(n_tf,r)はｎ次ベッセル関数を示している。

　また、移動後の再現エリアの中心位置ｘ_cを中心としたときの時間周波数スペクトルS(n_tf)は、次式（１３）に示すように表すことができる。

　なお、式（１３）において、ｊは純虚数を示しており、ｒ’およびφ’は中心位置ｘ_cから見た音源の位置を示す半径および方位角を示している。

　ここから、移動前の再現エリアの中心位置ｘ₀を中心としたときの空間周波数スペクトルを求めるためには、式（１３）を以下の式（１４）に示すように変形すればよい。

　なお、式（１４）において、ｒおよびφは中心位置ｘ₀から見た音源の位置を示す半径および方位角を示してり、ｒ_cおよびφ_cは移動量Δｘの半径および方位角を示している。

　式（１２）による空間周波数スペクトルの分解や式（１４）に示した変形等については、例えば「Jens Ahrens, Sascha Spors, “An Analytical Approach to Sound Field Reproduction with a Movable Sweet Spot Using Circular Distributions of Loudspeakers,” ICASSP, 2009.」などに詳細に記載されている。

　さらに以上の式（１２）乃至式（１４）から、求めようとする空間周波数スペクトルS'_n(n_tf)は、次式（１５）のように表すことができる。この式（１５）の計算は、球座標系上で音場を移動させる処理に相当する。

　再現エリア制御部４５は、移動量Δｘ＝（ｒ_c，φ_c）、補正音源位置情報としての補正音源位置座標ｘ’_obj＝（ｒ’，φ’）、オブジェクト音源信号、およびアンビエント信号に基づいて、式（１５）を計算することで空間周波数スペクトルS'_n(n_tf)を求める。

　但し、式（１５）の計算時においては、再現エリア制御部４５は、オブジェクト音源信号の空間周波数スペクトルS''_n'(n_tf)として、次式（１６）に示される、補正音源位置座標ｘ’_objにより表される球面波モデルS''_n',SWを、オブジェクト音源信号としての空間周波数スペクトルに乗算して得られるものを用いる。

　なお、式（１６）においてｒ'_S，φ'_Sは、所定のオブジェクト音源についての補正音源位置座標ｘ’_objの半径および方位角を示しており、上述した補正音源位置座標ｘ’_obj＝（ｒ’，φ’）に対応する。すなわち、ここでは各オブジェクト音源を区別するために半径ｒ’および方位角φ’に、オブジェクト音源を識別するための文字Ｓが記されてｒ'_Sおよびφ'_Sとされている。また、H_n' ⁽²⁾(n_tf,r'_S)は第２種ｎ’次ハンケル関数を示している。

　式（１６）に示す球面波モデルS''_n',SWは補正音源位置座標ｘ’_objから得ることができる。

　これに対して、式（１５）の計算時において再現エリア制御部４５は、アンビエント信号の空間周波数スペクトルS''_n'(n_tf)として、次式（１７）に示される球面波モデルS''_n',PWを、アンビエント信号としての空間周波数スペクトルに乗算して得られるものを用いる。

　なお、式（１７）において、φ_PWは平面波の到来方向を示しており、この到来方向φ_PWは、例えば音源分離部４２における音源分離時に何らかの到来方向推定技術により特定された方向や、外部入力により指定された方向などとされる。式（１７）に示す球面波モデルS''_n',PWは、到来方向φ_PWから得ることができる。

　以上の計算によって、再生空間内において再現エリアの中心位置を移動量Δｘだけ移動させ、再現エリアを聴取者の移動に追従させた空間周波数スペクトルS'_n(n_tf)を得ることができる。換言すれば、聴取者による音の聴取位置に合わせた再現エリアの空間周波数スペクトルS'_n(n_tf)を得ることができる。この場合、空間周波数スペクトルS'_n(n_tf)により再現される音場の再現エリアの中心位置は、環状や球状のスピーカアレイ４８の内側における、移動後の聴取位置となる。

　また、ここでは２次元座標系における場合を例として説明したが、３次元座標系における場合にも球面調和関数を用いて同様の計算が可能である。すなわち、球面調和関数を用いて球座標系上で音場（再現エリア）を移動させることが可能である。

　球面調和関数を用いた場合の計算については、例えば「Jens Ahrens, Sascha Spors, “An Analytical Approach to 2.5D Sound Field Reproduction Employing Circular Distributions of Non-Omnidirectional Loudspeakers,” EUSIPCO, 2009.」などに詳細に記載されている。

　再現エリア制御部４５は、球面調和関数を用いて、球座標系上において音像を固定したまま再現エリアを移動させることで得られた空間周波数スペクトルS''_n ^m(n_tf)を空間周波数合成部４６に供給する。

（空間周波数合成部）
　空間周波数合成部４６は、再現エリア制御部４５から供給された空間周波数スペクトルS''_n ^m(n_tf)に対して、スピーカアレイ４８を構成する各スピーカの方向を示す角度（ξ_l,ψ_l）による球面調和関数行列を用いて空間周波数逆変換を行い、時間周波数スペクトルを求める。すなわち、空間周波数合成として空間周波数逆変換が行われる。

　なお、以下、スピーカアレイ４８を構成する各スピーカをスピーカユニットとも称することとする。ここで、スピーカアレイ４８を構成するスピーカユニットの数をスピーカユニット数Ｌとし、各スピーカユニットを示すスピーカユニットインデックスをｌとする。この場合、スピーカユニットインデックスｌ＝0,1,…,L-1である。

　いま、外部から空間周波数合成部４６に供給されるスピーカ配置情報が、スピーカユニットインデックスｌにより示される各スピーカユニットの方向を示す角度（ξ_l,ψ_l）であるとする。

　ここで、スピーカユニットの角度（ξ_l,ψ_l）を構成するξ_lおよびψ_lは、それぞれ上述した仰角θ_iおよび方位角φ_iに対応する、スピーカユニットの仰角および方位角を示す角度であり、所定の基準となる方向からの角度である。

　空間周波数合成部４６は、スピーカユニットインデックスｌにより示されるスピーカユニットの方向を示す角度（ξ_l,ψ_l）について得られる球面調和関数Y_n ^m(ξ_l,ψ_l)と、空間周波数スペクトルS''_n ^m(n_tf)とに基づいて次式（１８）を計算することで空間周波数逆変換を行い、時間周波数スペクトルD(l,n_tf)を求める。

　なお、式（１８）においてDは各時間周波数スペクトルD(l,n_tf)からなるベクトルを示しており、ベクトルDは以下の式（１９）により表される。また、式（１８）において、S_SPは各空間周波数スペクトルS''_n ^m(n_tf)からなるベクトルを示しており、ベクトルS_SPは以下の式（２０）により表される。

　さらに、式（１８）において、Y_SPは各球面調和関数Y_n ^m(ξ_l,ψ_l)からなる球面調和関数行列を示しており、球面調和関数行列Y_SPは以下の式（２１）により表される。

　空間周波数合成部４６は、このようにして得られた時間周波数スペクトルD(l,n_tf)を時間周波数合成部４７に供給する。

（時間周波数合成部）
　時間周波数合成部４７は、次式（２２）を計算することで、空間周波数合成部４６から供給された時間周波数スペクトルD(l,n_tf)に対してIDFT（Inverse Discrete Fourier Transform）（逆離散フーリエ変換）を用いた時間周波数合成を行い、時間信号であるスピーカ駆動信号d(l,n_d)を算出する。

　なお、式（２２）において、n_dは時間インデックスを示しており、M_dtはIDFTのサンプル数を示している。また、式（２２）においてｊは純虚数を示している。

　時間周波数合成部４７は、このようにして得られたスピーカ駆動信号d(l,n_d)を、スピーカアレイ４８を構成する各スピーカユニットに供給し、音声を再生させる。

〈音場再現処理の説明〉
　次に、音場制御器１１の動作について説明する。音場制御器１１は、音場の収録と再現が指示されると、音場再現処理を行って収音空間の音場を再生空間で再現する。以下、図５のフローチャートを参照して、音場制御器１１による音場再現処理について説明する。

　ステップＳ１１において、マイクロホンアレイ３１は、収音空間においてコンテンツの音声を収音し、その結果得られたマルチチャンネルの収音信号s(i,n_t)を時間周波数分析部３２に供給する。

　ステップＳ１２において、時間周波数分析部３２は、マイクロホンアレイ３１から供給された収音信号s(i,n_t)の時間周波数情報を分析する。

　具体的には、時間周波数分析部３２は収音信号s(i,n_t)を時間周波数変換し、その結果得られた時間周波数スペクトルS(i,n_tf)を空間周波数分析部３３に供給する。例えば、ステップＳ１２では上述した式（１）の計算が行われる。

　ステップＳ１３において、空間周波数分析部３３は、外部から供給されたマイク配置情報を用いて、時間周波数分析部３２から供給された時間周波数スペクトルS(i,n_tf)に対して空間周波数変換を行う。

　具体的には、空間周波数分析部３３は、マイク配置情報および時間周波数スペクトルS(i,n_tf)に基づいて、上述した式（５）を計算することで空間周波数変換を行う。

　空間周波数分析部３３は、空間周波数変換により得られた空間周波数スペクトルS'_n ^m(n_tf)を、通信部３４に供給する。

　ステップＳ１４において、通信部３４は、空間周波数分析部３３から供給された空間周波数スペクトルS'_n ^m(n_tf)を送信する。

　ステップＳ１５において、通信部４１は、通信部３４により送信された空間周波数スペクトルS'_n ^m(n_tf)を受信して、音源分離部４２に供給する。

　ステップＳ１６において、音源分離部４２は、通信部４１から供給された空間周波数スペクトルS'_n ^m(n_tf)に基づいて音源分離を行い、空間周波数スペクトルS'_n ^m(n_tf)をオブジェクト音源信号とするものとアンビエント信号とするものとに分離する。

　音源分離部４２は、音源分離の結果として得られた各オブジェクト音源の位置を示す音源位置情報と、オブジェクト音源信号とされた空間周波数スペクトルS'_n ^m(n_tf)とを音源位置補正部４４に供給する。また、音源分離部４２は、アンビエント信号とされた空間周波数スペクトルS'_n ^m(n_tf)を再現エリア制御部４５に供給する。

　ステップＳ１７において、聴取位置検出部４３は、外部から供給されたセンサ情報に基づいて、再生空間における聴取者の位置を検出し、その検出結果に基づいて、聴取者の移動量Δｘを求める。

　具体的には、聴取位置検出部４３は、センサ情報に基づいて聴取者の位置を求め、その聴取者の位置から、移動後の再現エリアの中心位置ｘ_cを算出する。そして、聴取位置検出部４３は、中心位置ｘ_cと、予め求まっているスピーカアレイ４８の中心の位置ｘ₀とから式（１０）により移動量Δｘを算出する。

　聴取位置検出部４３は、このようにして得られた移動量Δｘを音源位置補正部４４および再現エリア制御部４５に供給する。

　ステップＳ１８において、音源位置補正部４４は、聴取位置検出部４３から供給された移動量Δｘに基づいて、音源分離部４２から供給された音源位置情報を補正する。

　すなわち、音源位置補正部４４は、音源位置情報としての音源位置座標ｘ_objと、移動量Δｘとから式（１１）の計算を行い、補正音源位置情報としての補正音源位置座標ｘ’_objを算出する。

　音源位置補正部４４は、得られた補正音源位置情報と音源分離部４２から供給されたオブジェクト音源信号とを再現エリア制御部４５に供給する。

　ステップＳ１９において、再現エリア制御部４５は、聴取位置検出部４３からの移動量Δｘと、音源位置補正部４４からの補正音源位置情報およびオブジェクト音源信号と、音源分離部４２からのアンビエント信号とに基づいて、再現エリアを移動量Δｘだけ移動させた空間周波数スペクトルS''_n ^m(n_tf)を求める。

　すなわち、再現エリア制御部４５は、球面調和関数を用いて式（１５）と同様の計算を行うことで空間周波数スペクトルS''_n ^m(n_tf)を求め、得られた空間周波数スペクトルS''_n ^m(n_tf)を空間周波数合成部４６に供給する。

　ステップＳ２０において、空間周波数合成部４６は、再現エリア制御部４５から供給された空間周波数スペクトルS''_n ^m(n_tf)と、外部から供給されたスピーカ配置情報とに基づいて、上述した式（１８）を計算し、空間周波数逆変換を行う。空間周波数合成部４６は、空間周波数逆変換により得られた時間周波数スペクトルD(l,n_tf)を時間周波数合成部４７に供給する。

　ステップＳ２１において、時間周波数合成部４７は、上述した式（２２）を計算することで、空間周波数合成部４６から供給された時間周波数スペクトルD(l,n_tf)に対して時間周波数合成を行い、スピーカ駆動信号d(l,n_d)を算出する。

　時間周波数合成部４７は、得られたスピーカ駆動信号d(l,n_d)を、スピーカアレイ４８を構成する各スピーカユニットに供給する。

　ステップＳ２２において、スピーカアレイ４８は、時間周波数合成部４７から供給されたスピーカ駆動信号d(l,n_d)に基づいて音声を再生する。これにより、コンテンツの音声、すなわち収音空間の音場が再現されることになる。

　このようにして収音空間の音場が再生空間で再現されると、音場再現処理は終了する。

　以上のようにして、音場制御器１１は、オブジェクト音源について音源位置情報を補正するとともに、補正された音源位置情報を用いて再現エリアを移動させた空間周波数スペクトルを求める。

　これにより、聴取者の動きに合わせて再現エリアを移動させることができるとともに、オブジェクト音源の位置を再生空間内で固定させることができる。その結果、聴取者に対して正しく再現された音場を提示するだけでなく、音源の定位感を向上させることができ、より適切に音場を再現することができる。しかも、音場制御器１１では、音源をオブジェクト音源とアンビエント音源とに分離し、オブジェクト音源のみ音源位置の補正を行うようにすることで、演算量を削減することができる。

〈第２の実施の形態〉
〈音場制御器の構成例〉
　なお、以上においては、マイクロホンアレイ３１を用いて波面収音された音場を再現する場合について説明したが、オブジェクト音再生を行う場合には、メタデータとして音源位置情報が与えられるので、音源分離が不要となる。

　そのような場合、本技術を適用した音場制御器は、例えば図６に示すように構成される。なお、図６において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図６に示す音場制御器７１は、聴取位置検出部４３、音源位置補正部４４、再現エリア制御部４５、空間周波数合成部４６、時間周波数合成部４７、およびスピーカアレイ４８を有している。

　この例では、音場制御器７１が外部から各オブジェクトのオーディオ信号とそのメタデータとを取得し、例えばメタデータに含まれているオブジェクトの重要度等に基づいて、各オブジェクトを、オブジェクト音源とアンビエント音源とに分ける。

　そして、音場制御器７１は、オブジェクト音源としたオブジェクトのオーディオ信号をオブジェクト音源信号として音源位置補正部４４に供給するとともに、そのオブジェクト音源のメタデータに含まれる音源位置情報も音源位置補正部４４に供給する。

　また、音場制御器７１は、アンビエント音源としたオブジェクトのオーディオ信号をアンビエント信号として再現エリア制御部４５に供給するとともに、必要に応じてそのアンビエント音源のメタデータに含まれる音源位置情報も再現エリア制御部４５に供給する。

　なお、この実施の形態では、オブジェクト音源信号やアンビエント信号として供給されるオーディオ信号は、図２の音場制御器１１において音源位置補正部４４等に供給される場合と同様に空間周波数スペクトルでもよいし、時間信号や時間周波数スペクトル、またはそれらの組み合わせであってもよい。

　例えばオーディオ信号が時間信号や時間周波数スペクトルとされる場合には、再現エリア制御部４５において、時間信号や時間周波数スペクトルが空間周波数スペクトルに変換された後、再現エリアを移動させた空間周波数スペクトルが求められる。

〈音場再現処理の説明〉
　次に、図７のフローチャートを参照して、図６に示した音場制御器７１により行われる音場再現処理について説明する。なお、ステップＳ５１の処理は図５のステップＳ１７の処理と同様であるので、その説明は省略する。

　ステップＳ５２において、音源位置補正部４４は、聴取位置検出部４３から供給された移動量Δｘに基づいて、音場制御器７１から供給された音源位置情報を補正する。

　すなわち、音源位置補正部４４は、メタデータとして供給された音源位置情報である音源位置座標ｘ_objと、移動量Δｘとから式（１１）の計算を行い、補正音源位置情報としての補正音源位置座標ｘ’_objを算出する。

　音源位置補正部４４は、得られた補正音源位置情報と音場制御器７１から供給されたオブジェクト音源信号とを再現エリア制御部４５に供給する。

　ステップＳ５３において、再現エリア制御部４５は、聴取位置検出部４３からの移動量Δｘと、音源位置補正部４４からの補正音源位置情報およびオブジェクト音源信号と、音場制御器７１からのアンビエント信号とに基づいて、再現エリアを移動量Δｘだけ移動させた空間周波数スペクトルS''_n ^m(n_tf)を求める。

　例えばステップＳ５３では、図５のステップＳ１９における場合と同様に、球面調和関数を用いた計算により、音場（再現エリア）を移動させた空間周波数スペクトルS''_n ^m(n_tf)が求められ、空間周波数合成部４６に供給される。このとき、オブジェクト音源信号およびアンビエント信号が時間信号や時間周波数スペクトルである場合には、適宜、空間周波数スペクトルへの変換が行われた後、式（１５）と同様の計算が行われる。

　空間周波数スペクトルS''_n ^m(n_tf)が求められると、その後、ステップＳ５４乃至ステップＳ５６の処理が行われて音場再現処理は終了するが、これらの処理は図５のステップＳ２０乃至ステップＳ２２の処理と同様であるので、その説明は省略する。

　以上のようにして音場制御器７１は、オブジェクト音源について音源位置情報を補正するとともに、補正された音源位置情報を用いて再現エリアを移動させた空間周波数スペクトルを求める。したがって、音場制御器７１においても、より適切に音場を再現することができる。

　なお、以上においては、マイクロホンアレイ３１として、環状マイクロホンアレイや球状マイクロホンアレイを例として説明したが、マイクロホンアレイ３１として直線マイクロホンアレイを用いるようにしてもよい。そのような場合においても以上において説明した処理と同様の処理により音場を再現することが可能である。

　また、スピーカアレイ４８も環状スピーカアレイや球状スピーカアレイに限らず、直線スピーカアレイなど、どのようなものであってもよい。

　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正する音源位置補正部と、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する再現エリア制御部と
　を備える音声処理装置。
（２）
　前記再現エリア制御部は、前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号と、前記聴取位置と、前記補正音源位置情報とに基づいて、前記空間周波数スペクトルを算出する
　（１）に記載の音声処理装置。
（３）
　音源分離を行うことで、音声の信号を前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号とに分離させる音源分離部をさらに備える
　（２）に記載の音声処理装置。
（４）
　前記オブジェクト音源信号は、音声の時間信号または空間周波数スペクトルである
　（１）乃至（３）の何れか一項に記載の音声処理装置。
（５）
　前記音源位置補正部は、前記聴取位置の移動量の分だけ前記オブジェクト音源の位置が移動するように前記補正を行う
　（１）乃至（４）の何れか一項に記載の音声処理装置。
（６）
　前記再現エリア制御部は、前記聴取位置の前記移動量だけ前記再現エリアを移動させた前記空間周波数スペクトルを算出する
　（５）に記載の音声処理装置。
（７）
　前記再現エリア制御部は、球座標系上で前記再現エリアを移動させることで前記空間周波数スペクトルを算出する
　（６）に記載の音声処理装置。
（８）
　前記再現エリア制御部により算出された前記空間周波数スペクトルに対して空間周波数合成を行って時間周波数スペクトルを算出する空間周波数合成部と、
　前記時間周波数スペクトルに対して時間周波数合成を行って、前記スピーカアレイの駆動信号を算出する時間周波数合成部と
　をさらに備える（１）乃至（７）の何れか一項に記載の音声処理装置。
（９）
　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正し、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する
　ステップを含む音声処理方法。
（１０）
　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正し、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　音場制御器，　４２　音源分離部，　４３　聴取位置検出部，　４４　音源位置補正部，　４５　再現エリア制御部，　４６　空間周波数合成部，　４７　時間周波数合成部，　４８　スピーカアレイ

Claims

　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正する音源位置補正部と、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する再現エリア制御部と
　を備える音声処理装置。
　前記再現エリア制御部は、前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号と、前記聴取位置と、前記補正音源位置情報とに基づいて、前記空間周波数スペクトルを算出する
　請求項１に記載の音声処理装置。
　音源分離を行うことで、音声の信号を前記オブジェクト音源信号と、前記オブジェクト音源とは異なる音源の音声の信号とに分離させる音源分離部をさらに備える
　請求項２に記載の音声処理装置。
　前記オブジェクト音源信号は、音声の時間信号または空間周波数スペクトルである
　請求項１に記載の音声処理装置。
　前記音源位置補正部は、前記聴取位置の移動量の分だけ前記オブジェクト音源の位置が移動するように前記補正を行う
　請求項１に記載の音声処理装置。
　前記再現エリア制御部は、前記聴取位置の前記移動量だけ前記再現エリアを移動させた前記空間周波数スペクトルを算出する
　請求項５に記載の音声処理装置。
　前記再現エリア制御部は、球座標系上で前記再現エリアを移動させることで前記空間周波数スペクトルを算出する
　請求項６に記載の音声処理装置。
　前記再現エリア制御部により算出された前記空間周波数スペクトルに対して空間周波数合成を行って時間周波数スペクトルを算出する空間周波数合成部と、
　前記時間周波数スペクトルに対して時間周波数合成を行って、前記スピーカアレイの駆動信号を算出する時間周波数合成部と
　をさらに備える請求項１に記載の音声処理装置。
　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正し、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する
　ステップを含む音声処理方法。
　音声の聴取位置に基づいて、オブジェクト音源の位置を示す音源位置情報を補正し、
　前記オブジェクト音源の音声のオブジェクト音源信号と、前記聴取位置と、前記補正により得られた補正音源位置情報とに基づいて、球状または環状のスピーカアレイ内部の前記聴取位置に合わせた再現エリアとする空間周波数スペクトルを算出する
　ステップを含む処理をコンピュータに実行させるプログラム。