WO2023085140A1

WO2023085140A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2023085140A1
Application number: PCT/JP2022/040596
Authority: WO
Inventors: 光行畠中; 徹知念; 実辻; 康裕戸栗; 弘幸本間
Original assignee: ソニーグループ株式会社
Priority date: 2021-11-12
Filing date: 2022-10-31
Publication date: 2023-05-19
Also published as: TW202325370A

Abstract

本技術は、コンテンツ制作者の意図に基づいたコンテンツ再生を実現することができるようにする情報処理装置および方法、並びにプログラムに関する。情報処理装置は、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数のオブジェクトのメタデータからなるメタデータセットを複数生成し、複数の各制御視点について、空間における制御視点の位置を示す制御視点位置情報と、複数のメタデータセットのうちの制御視点に関連付けられたメタデータセットを示す情報とを含む制御視点情報を生成し、互いに異なる複数のメタデータセットと、複数の制御視点の制御視点情報を含む構成情報とを含むコンテンツデータを生成する制御部を備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本技術は、情報処理装置および方法、並びにプログラムに関し、特に、コンテンツ制作者の意図に基づいたコンテンツ再生を実現できるようにした情報処理装置および方法、並びにプログラムに関する。

　従来、自由視点オーディオはゲームでの利用がメインとなっており、そこではゲームで表示される画像上の位置関係、すなわち画音一致が重要となるため、絶対座標系のオブジェクトオーディオが用いられている（例えば特許文献１参照）。

　一方、音楽コンテンツの世界ではゲームと異なり、音楽性を高めるために画音一致よりも聴感上のバランスが優先される。そのため、２チャンネルステレオはもとより5.1chマルチチャンネルのコンテンツでも画音一致がなされていない。

　また、3DoF（Degree of Freedom）の商用サービスにおいても音楽性が優先されるため、音だけでコンテンツが成り立つ世界となり、画音一致しないものも多数存在している。

国際公開第２０１９／１９８５４０号

　ところで、上述したオブジェクトの位置を絶対座標系の座標で表現する手法では、高い臨場感は得られる一方、音楽制作者の意図する音楽性を満たす自由視点コンテンツを制作することは困難であった。すなわち、自由視点コンテンツにおいて、コンテンツ制作者の意図に基づいたコンテンツ再生を実現することは困難であった。

　本技術は、このような状況に鑑みてなされたものであり、コンテンツ制作者の意図に基づいたコンテンツ再生を実現できるようにするものである。

　本技術の第１の側面の情報処理装置は、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する制御部を備える。

　本技術の第１の側面の情報処理方法またはプログラムは、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成するステップを含む。

　本技術の第１の側面においては、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットが複数生成され、複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報が生成され、互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータが生成される。

　本技術の第２の側面の情報処理装置は、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得する取得部と、前記空間における受聴位置を示す受聴者位置情報を取得する受聴者位置情報取得部と、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する位置算出部とを備える。

　本技術の第２の側面の情報処理方法またはプログラムは、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得し、前記空間における受聴位置を示す受聴者位置情報を取得し、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出するステップを含む。

　本技術の第２の側面においては、空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とが取得され、前記空間における受聴位置を示す受聴者位置情報が取得され、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報が算出される。

2Dオーディオと3Dオーディオについて説明する図である。オブジェクト配置について説明する図である。 CVPとターゲット位置TPについて説明する図である。ターゲット位置TPとCVPの位置関係について説明する図である。オブジェクト配置について説明する図である。 CVPとオブジェクト位置パターンについて説明する図である。構成情報のフォーマット例を示す図である。フレーム長インデックスの例を示す図である。 CVP情報のフォーマット例を示す図である。オブジェクトメタデータセットのフォーマット例を示す図である。自由視点空間におけるCVPの配置例を示す図である。残響オブジェクトの配置例を示す図である。情報処理装置の構成例を示す図である。コンテンツ制作処理を説明するフローチャートである。サーバの構成例を示す図である。配信処理を説明するフローチャートである。クライアントの構成例を示す図である。再生オーディオデータ生成処理を説明するフローチャートである。補間処理に用いるCVPの選択について説明する図である。オブジェクト３次元位置ベクトルについて説明する図である。オブジェクト３次元位置ベクトルの合成について説明する図である。ベクトル合成について説明する図である。ベクトル合成について説明する図である。ベクトル合成時の各ベクトルの寄与率について説明する図である。受聴者の顔の向きに応じた受聴者基準オブジェクト位置情報について説明する図である。受聴者の顔の向きに応じた受聴者基準オブジェクト位置情報について説明する図である。 CVPのグループ化について説明する図である。 CVPグループと補間処理について説明する図である。 CVPグループと補間処理について説明する図である。 CVPグループと補間処理について説明する図である。 CVPグループと補間処理について説明する図である。構成情報のフォーマット例を示す図である。 CVPグループ情報のフォーマット例を示す図である。再生オーディオデータ生成処理を説明するフローチャートである。 CVPの配置パターン例を示す図である。共通絶対座標系におけるCVP等の配置例を示す図である。受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を示す図である。 CVPの配置パターン例を示す図である。共通絶対座標系におけるCVP等の配置例を示す図である。受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を示す図である。補間処理に用いられるCVPの選択例を示す図である。受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を示す図である。受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を示す図である。構成情報の例を示す図である。寄与係数算出処理を説明するフローチャートである。正規化寄与係数算出処理を説明するフローチャートである。正規化寄与係数算出処理を説明するフローチャートである。再生側でのCVPの選択について説明する図である。 CVPの選択画面の例を示す図である。構成情報の例を示す図である。クライアントの構成例を示す図である。選択的補間処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、芸術性を備えた自由視点コンテンツを実現するものである。

　まず、図１を参照して、2Dオーディオと3Dオーディオについて説明する。

　例えば図１の左側に示すように、2Dオーディオでは、音源は受聴者の耳の高さの位置にのみ配置可能である。2Dオーディオでは、音源の前後や左右への動きを表現することが可能である。

　これに対して、3Dオーディオでは、図中、右側に示すように、音源となるオブジェクトを受聴者の耳の高さよりも上方や下方の位置にも配置可能であり、これにより音源（オブジェクト）の上下方向の動きも表現することができる。

　また、3Dオーディオを利用したコンテンツとして、3DoFのコンテンツと6DoFのコンテンツとがある。

　例えば3DoFのコンテンツでは、ユーザは空間内において上下左右や斜め方向へと自身の頭部を回転させてコンテンツを視聴することができる。このような3DoFのコンテンツは固定視点コンテンツとも呼ばれている。

　これに対して、6DoFのコンテンツでは、ユーザは空間内において上下左右や斜め方向へと自身の頭部を回転させることができるのに加えて、空間内の任意の位置へと移動してコンテンツを視聴することができる。このような6DoFのコンテンツは自由視点コンテンツとも呼ばれている。

　以下において説明するコンテンツは、オーディオのみからなるオーディオコンテンツであってもよいし、ビデオと、そのビデオに付随するオーディオとからなるコンテンツであってもよいが、以下ではそれらのコンテンツを特に区別せずに、単にコンテンツと称する。特に、以下では、6DoFのコンテンツ、すなわち自由視点コンテンツを制作する例について説明する。また、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。

　コンテンツの制作過程において芸術（音楽）性を高めるためには、オブジェクトの物理的な配置に囚われず、敢えて目に見える場所とは異なる位置に意図的にオブジェクトが配置されることがある。

　このようなオブジェクトの配置は極座標系オブジェクト配置技術を用いることで、容易に表現することができる。図２は、実際のバンド演奏の例を用いて、絶対座標と極座標のオブジェクトの配置の違いを示している。

　例えば図２に示すように、バンドの演奏を例とした場合、ボーカルやギターの位置に、それらのボーカルやギターに対応するオブジェクト（オーディオオブジェクト）を物理的に配置するのではなく、音楽性を踏まえた配置とされる。

　図２では、図中、左側には楽曲を演奏するバンドメンバーの３次元空間における物理的な配置位置、すなわち物理空間（絶対座標空間）での配置位置が示されている。すなわちオブジェクトOV11はボーカル（ボーカリスト）であり、オブジェクトOD11はドラムであり、オブジェクトOG11はギターであり、オブジェクトOB11はベースである。

　特に、この例ではコンテンツの受聴者となるユーザの正面（正中面）から右側にずれた位置にオブジェクトOV11（ボーカル）が配置されており、ユーザから見て右側の端近傍にオブジェクトOG11（ギター）が配置されている。

　コンテンツ制作時には、音楽性を踏まえて図中、右側に示すようにバンドの各メンバー（楽器）に対応するオブジェクト（オーディオオブジェクト）が配置される。なお、音楽性を踏まえるということは、楽曲として聴きやすくすることを意味する。

　図中、右側には極座標空間でのオーディオオブジェクトの配置が示されている。

　具体的には、オブジェクトOV21は、オブジェクトOV11に対応するオーディオオブジェクト、すなわちボーカルの声（音）の定位位置を示している。

　オブジェクトOV11は正中面に対して右寄りに配置されているが、制作者は、ボーカルはコンテンツの中心的な存在と考え、ボーカルに対応するオブジェクトOV21は、目立つように極座標表現により正中面の高めの位置、つまりユーザから見て中央の高い位置に配置されている。

　オブジェクトOG21-1およびオブジェクトOG21-2は、オブジェクトOG11に対応する、ギターによるコード伴奏音のオーディオオブジェクトである。なお、以下、オブジェクトOG21-1およびオブジェクトOG21-2を特に区別する必要のない場合、単にオブジェクトOG21とも称する。

　ここでは、３次元空間の物理的なギタリストの位置、つまりオブジェクトOG11の位置にそのままモノラルのオブジェクトOG21が配置されるのではなく、音楽的な知見を踏まえた、ユーザから見て前方の左右の２つの位置への配置とされている。すなわち、ユーザから見て前方左右の各位置に幅を持たせてオブジェクトOG21を配置することで、受聴者（ユーザ）を包み込むようなオーディオ表現を実現することができる。換言すれば、広がり感（包まれ感）を表現することができる。

　オブジェクトOD21-1およびオブジェクトOD21-2は、オブジェクトOD11（ドラム）に対応するオーディオオブジェクトであり、オブジェクトOB21-1およびオブジェクトOB21-2は、オブジェクトOB11（ベース）に対応するオーディオオブジェクトである。

　なお、以下、オブジェクトOD21-1およびオブジェクトOD21-2を区別する必要のない場合、単にオブジェクトOD21とも称し、オブジェクトOB21-1およびオブジェクトOB21-2を区別する必要のない場合、単にオブジェクトOB21とも称する。

　オブジェクトOD21は、安定させることを目的として、ユーザから見て左右の低位置に幅を持たせて配置されており、オブジェクトOB21は、安定させるため、中央寄りでドラム（オブジェクトOD21）よりも少し高い位置に配置されている。

　このように、制作者（クリエイタ）は、音楽性を踏まえて各オブジェクトを極座標空間に配置し、自由視点コンテンツを制作する。

　このようにして物理的にオブジェクト位置が一意に決まってしまう絶対座標系でのオブジェクト配置よりも、極座標系でのオブジェクト配置の方が、制作者が意図する芸術性（音楽性）を付加した自由視点コンテンツの制作に適している。本技術は、上記の極座標系でのオブジェクト配置手法に基づき、複数の極座標系のオブジェクト配置パターンを用いることで実現する自由視点オーディオ技術である。

　ところで、極座標系オブジェクト配置による3DoFコンテンツの制作では、制作者は、空間内の１つの受聴位置を想定して、受聴者（受聴位置）を中心した極座標系を用いて各オブジェクトの配置を行う。

　このとき、各オブジェクトのメタデータは、主にAzimuth、Elevation、およびGainという３つの要素から構成される。

　ここで、Azimuthは受聴者から見たオブジェクトの位置を示す水平方向の角度であり、Elevationは受聴者から見たオブジェクトの位置を示す垂直方向の角度であり、Gainはオブジェクトのオーディオデータのゲインである。

　制作ツールは、各オブジェクトについて、上記のメタデータと、そのメタデータに対応したオブジェクトの音を再生するためのオーディオデータ（オブジェクトオーディオデータ）を成果物として出力する。

　ここで、3DoFコンテンツの制作手法の自由視点（6DoF）への展開、すなわち自由視点コンテンツへの展開について考える。

　例えば図３に示すように、自由視点コンテンツの制作者が自由視点空間（３次元空間）内の表現したい視点の位置を制御視点（Control Viewpoint（以下CVPとも称する））とし、複数のCVPを定めるとする。

　例えばCVPは、コンテンツの再生時に受聴位置として欲しい位置などである。以下では、ｉ番目のCVPを特にCVPiとも記すこととする。

　図３の例では、受聴者となるユーザがコンテンツを受聴する自由視点空間内に３つのCVP（制御視点）であるCVP1乃至CVP3が定められている。

　いま、自由視点空間内における絶対的な位置を示す絶対座標の座標系を共通絶対座標系とすると、図中、中央に示すように、共通絶対座標系は自由視点空間内の所定の位置を原点Oとし、互いに直交するX軸、Y軸、およびZ軸を軸とする直交座標系である。

　この例では、X軸は図中、横方向の軸であり、Y軸は奥行き方向の軸であり、Z軸は図中、縦方向の軸である。また、自由視点空間における原点Oの位置の設定は、コンテンツの制作者の意図に委ねられるが、想定される自由視点空間としての会場の中央などに設定されるなどしてもよい。

　ここでは、共通絶対座標系におけるCVP1乃至CVP3の各位置を示す座標、すなわち各CVPの絶対座標位置は、（X1,Y1,Z1）、（X2,Y2,Z2）、および（X3,Y3,Z3）となっている。

　また、コンテンツの制作者は、自由視点空間における１つの位置（１つの点）を、全てのCVPから見たと想定したターゲット位置TPとして定める。ターゲット位置TPは、オブジェクトの位置情報の補間処理のための基準となる位置であり、特に各CVPにいる仮想の受聴者は、全てターゲット位置TPの方向を向いているものとされる。

　この例では、共通絶対座標系におけるターゲット位置TPを示す座標（絶対座標位置）は（x_tp,y_tp,z_tp）となっている。

　また、各CVPでは、CVPの位置を中心とする極座標空間（以下、CVP極座標空間とも称する）が形成される。

　CVP極座標空間内の位置は、例えばCVPの位置、すなわちCVPの絶対座標位置を原点O’とし、互いに直交するx軸、y軸、およびz軸からなる極座標系（以下、CVP極座標系とも称する）の座標（極座標）によって表現される。

　特に、ここではCVPの位置からターゲット位置TPへと向かう方向がy軸の正の方向であり、CVPにいる仮想の受聴者から見た左右方向の軸がx軸であり、CVPにいる仮想の受聴者から見た上下方向の軸がz軸である。

　コンテンツ制作者によりCVPとターゲット位置TPが設定（指定）されると、CVPとターゲット位置TPとの間の位置関係を示す情報として、水平方向の角度であるYawと、垂直方向の角度であるPitchの関係が定まる。

　水平方向の角度「Yaw」は、共通絶対座標系のY軸と、CVP極座標系のy軸とのなす水平方向の角度である。すなわち、角度「Yaw」は、共通絶対座標系におけるY軸に対する、CVPにおり、ターゲット位置TPを見ている仮想の受聴者の顔の向きを示す水平方向の角度である。

　また、垂直方向の角度「Pitch」は、共通絶対座標系のX軸とY軸を含むXY平面に対するCVP極座標系のy軸のなす角度である。すなわち、角度「Pitch」は、共通絶対座標系におけるXY平面に対する、CVPにおり、ターゲット位置TPを見ている仮想の受聴者の顔の向きを示す垂直方向の角度である。

　具体的には、ターゲット位置TPの絶対座標位置を示す座標が（x_tp,y_tp,z_tp）であり、所定のCVPの絶対座標位置を示す座標、すなわち共通絶対座標系の座標が（x_cvp,y_cvp,z_cvp）であるとする。

　そのような場合、CVPの水平方向の角度「Yaw」および垂直方向の角度「Pitch」は、次式（１）により求まる。換言すれば、次式（１）の関係が成立する。

　図３では、例えば点線により表される、CVP2のCVP極座標系のy軸をXY平面に射影して得られる直線と、点線により表される、共通絶対座標系のY軸に平行な直線とのなす角度「Yaw2」が、式（１）により求まるCVP2についての水平方向の角度「Yaw」となっている。同様に、CVP2のCVP極座標系のy軸と、XY平面とのなす角度「Pitch2」が、式（１）により求まるCVP2についての垂直方向の角度「Pitch」となっている。

　自由視点コンテンツの送信側（生成側）は、構成情報として、共通絶対座標系におけるCVPの絶対座標位置を示すCVP位置情報と、式（１）により求まるCVPのYawおよびPitchを含むCVP向き情報とを受信側（再生側）に伝送する。

　なお、CVP向き情報の伝送の代替手段として、共通絶対座標系におけるターゲット位置TPを示す座標（絶対座標値）が送信側から受信側に伝送されるようにしてもよい。すなわち、CVP向き情報の代わりに、共通絶対座標系（自由視点空間）におけるターゲット位置TPを示すターゲット位置情報が構成情報に格納されているようにしてもよい。そのような場合、受信側（再生側）では、受信したターゲット位置TPを示す座標に基づいて、CVPごとに上述の式（１）によりYawおよびPitchが算出される。

　また、CVP向き情報には、CVPのYawおよびPitchだけでなく、CVP極座標系のy軸を回転軸とした、共通絶対座標系に対するCVP極座標系の回転角度（Roll）も含まれるようにしてもよい。以下では、CVP向き情報に含まれるYaw、Pitch、およびRollを、特にCVP Yaw情報、CVP Pitch情報、およびCVP Roll情報とも称することとする。

　ここで、図３に示したCVP3に着目して、CVP向き情報についてさらに説明する。

　図４は、図３に示したターゲット位置TPとCVP3の位置関係を示している。

　CVP3が設定（指定）されると、そのCVP3を中心とするCVP極座標系、つまり１つの極座標空間が定まり、この極座標空間ではCVP3から見たターゲット位置TPの方向が正中面の方向（水平方向の角度Azimuth=0、垂直方向の角度Elevation=0となる方向）となる。換言すれば、CVP3からターゲット位置TPへと向かう方向が、CVP3を中心とするCVP極座標系のy軸の正の方向となる。

　ここで、CVP3、つまりCVP3のCVP極座標系の原点O’を含み、共通絶対座標系のX軸およびY軸を含むXY平面と平行な平面をX’Y’平面とすると、直線LN11は、CVP3のCVP極座標系のy軸をX’Y’平面上に射影して得られる直線である。また、直線LN12は、X’Y’平面上における共通絶対座標系のY軸と平行な直線である。

　このとき、直線LN11と直線LN12のなす角度「Yaw3」が、式（１）により求まるCVP3についてのCVP Yaw情報となり、y軸と直線LN11のなす角度「Pitch3」が、式（１）により求まるCVP3についてのCVP Pitch情報となる。

　このようにして得られるCVP Yaw情報やCVP Pitch情報からなるCVP向き情報は、CVP3にいる仮想の受聴者が向いている方向、すなわち自由視点空間におけるCVP3からターゲット位置TPへと向かう方向を示す情報である。換言すれば、CVP向き情報は共通絶対座標系とCVP極座標系の向き（方向）に関する相対的な関係を示す情報であるといえる。

　また、各CVPのCVP極座標系が定まると、CVPと各オブジェクト（オーディオオブジェクト）との間には、CVPから見たオブジェクトの位置（方向）を示す、水平方向の角度Azimuthと垂直方向の角度Elevationを用いて表される相対的な位置関係が成立する。

　図５を参照して、CVP3から見た所定のオブジェクトの相対的な位置について説明する。なお、図５には、ターゲット位置TPとCVP3が図３における場合と同じ位置関係で示されている。

　この例では、自由視点空間内にオブジェクトobj1を含む４つのオーディオオブジェクトが配置されている。

　図中、左側には自由視点空間全体の様子が示されており、特にここではオブジェクトobj1がターゲット位置TPの近傍に配置されている。

　コンテンツの制作者は、同じオブジェクトであっても、そのオブジェクトの自由視点空間における絶対的な配置位置がCVPごとに異なる位置となるように、各CVPに対してオブジェクトの配置位置を定める（指定する）ことが可能である。

　例えば制作者は、CVP1から見たときの自由視点空間におけるオブジェクトobj1の配置位置と、CVP3から見たときの自由視点空間におけるオブジェクトobj1の配置位置とを個別に指定することが可能であり、それらの配置位置が一致するとは限らない。

　図中、右側にはCVP3のCVP極座標空間において、CVP3からターゲット位置TPやオブジェクトobj1を見たときの様子が示されており、オブジェクトobj1はCVP3から見て左前方に配置されていることが分かる。

　この場合、CVP3とオブジェクトobj1の間では、水平方向角度Azimuth_obj1と垂直方向角度Elevation_obj1とにより定まる相対的な位置関係が成立する。換言すれば、CVP3から見たオブジェクトobj1の相対的な位置は、水平方向角度Azimuth_obj1および垂直方向角度Elevation_obj1からなるCVP極座標系の座標（極座標）により表すことができる。

　このような極座標表現によるオブジェクト配置は、3DoFコンテンツ制作で用いられる配置手法と同じである。換言すれば本技術では、6DoFコンテンツであっても、3DoFコンテンツにおける場合と同様の極座標表現でオブジェクト配置を行うことが可能である。

　以上のように、本技術では、自由視点空間内に設定した複数の各CVPについて、3DoFコンテンツの場合と同じ手法により３次元空間内にオブジェクトを配置することができる。
これにより複数のCVPに対応したオブジェクト位置パターンが生成される。

　自由視点コンテンツの制作時には、制作者は自身が設定した各CVPに対して、全てのオブジェクトの配置位置を指定していくことになる。

　なお、各CVPにおけるオブジェクトの配置パターンは、個々の１つのCVPへの対応に限定されるものではなく、複数のCVPで同一の配置パターンが割り当てられるようにしてもよい。そうすれば、制作コストを効率的に削減しながら自由視点空間内のより広い範囲にある複数のCVPに対してオブジェクト位置を指定することができる。

　図６は、CVPを管理する構成情報（CVP set）と、オブジェクト位置パターン（Object Set）との関連付けの例を示している。

　図中、左側には、（N+2）個の各CVPが示されており、構成情報にはこれらの（N+2）個のCVPに関する情報が格納される。具体的には、例えば構成情報には、各CVPのCVP位置情報やCVP向き情報が含まれている。

　これに対して、図中、右側には、互いに異なるN個の各オブジェクト位置パターン、すなわちオブジェクトの配置パターンが示されている。

　例えば文字「OBJ Positions 1」により示されるオブジェクト位置パターン情報は、制作者等により定められた特定の１つの配置パターンでオブジェクトを配置した場合における、CVP極座標系での全オブジェクトの配置位置を示している。

　したがって、例えば「OBJ Positions 1」により示されるオブジェクトの配置パターンと、「OBJ Positions 2」により示されるオブジェクトの配置パターンとは、異なる配置パターンとなっている。

　また、図中、左側に示す各CVPから、図中、右側に示すオブジェクト位置パターンへと向かう矢印は、CVPとオブジェクト位置パターンのリンクの関係を表している。本技術では、各々のCVPに関する情報とオブジェクトの位置情報の組み合わせパターンはそれぞれ独立に存在し、図６に示すように両者の関係をリンク管理する実装とされる。

　具体的には、本技術では、例えばオブジェクトの配置パターンごとに、オブジェクトメタデータセットが用意される。

　例えばオブジェクトメタデータセットは、オブジェクトごとのオブジェクトメタデータからなり、各オブジェクトメタデータには、配置パターンに応じたオブジェクトのオブジェクト位置情報が含まれている。

　このオブジェクト位置情報は、対応する配置パターンでオブジェクトを配置した場合における、CVP極座標系でのオブジェクトの配置位置を示す極座標などとされる。より詳細には、例えばオブジェクト位置情報は、CVP極座標系と同様の極座標系の座標（極座標）によって表現された、自由視点空間におけるCVPからターゲット位置TPに向かう方向を正中面の方向としたときのCVPから見たオブジェクトの位置を示す座標情報である。

　また、構成情報には、CVPごとに、CVPについて制作者により設定されたオブジェクト位置パターン（オブジェクトの配置パターン）に対応するオブジェクトメタデータセットを示すメタデータセットインデックスが格納される。そして受信側（再生側）では、構成情報に含まれているメタデータセットインデックスに基づいて、対応するオブジェクト位置パターンでのオブジェクトメタデータセットを得る。

　このようなメタデータセットインデックスによって、CVPとオブジェクト位置パターン（オブジェクトメタデータセット）とをリンクさせることは、CVPとオブジェクト位置パターンの間のマッピング情報を持つことであるといえる。このようにすることで、データ管理や実装面でフォーマットとしての視認性をより高くすることができるとともに、メモリ量を削減することができる。

　例えば、オブジェクト位置パターンごとにオブジェクトメタデータセットを用意すれば、制作ツール上でコンテンツの制作者が、既にある複数のオブジェクトのオブジェクト位置情報の組み合わせパターンを複数のCVPで共有することができる。

　具体的には、例えば図中、左側に示すCVP2に対して、図中、右側に示す「OBJ Positions 2」により示されるオブジェクト位置パターンが指定されているが、CVPN+1に対してもCVP2における場合と同じ「OBJ Positions 2」により示されるオブジェクト位置パターンを指定することができる。

　この場合、CVP2が参照する（CVP2に関連付けられた）オブジェクト位置パターンと、CVPN+1が参照するオブジェクト位置パターンとは、ともに同じ「OBJ Positions 2」である。したがって、CVP2から見た「OBJ Positions 2」により示されるオブジェクトの相対的な配置位置と、CVPN+1から見た「OBJ Positions 2」により示されるオブジェクトの相対的な配置位置とは同じである。

　しかし、CVP2での「OBJ Positions 2」により示されるオブジェクトの自由視点空間における配置位置と、CVPN+1での「OBJ Positions 2」により示されるオブジェクトの自由視点空間における配置位置とは互いに異なる位置となる。これは、例えばオブジェクト位置パターン「OBJ Positions 2」におけるオブジェクト位置情報は、極座標系の極座標により表現されているが、その極座標系の自由視点空間における原点の位置とy軸の方向（正中面の方向）は、CVP2が「OBJ Positions 2」を参照するときと、CVPN+1が「OBJ Positions 2」を参照するときとで異なるからである。換言すれば、CVP2とCVPN+1とでは、CVP極座標系の原点の位置とy軸の方向が異なるからである。

　さらに、ここではN個のオブジェクト位置パターンが用意されているが、その後、新たなオブジェクト位置パターンを追加で生成してもCVPやオブジェクトメタデータの管理が煩雑になることはなく、体系立てて処理を行うことができる。これにより、ソフトウェア上でのデータの視認性を高め、実装を容易にすることができる。

　以上のように、本技術によれば、3DoFの手法を用い、各CVPに関連付けられた極座標上でのオブジェクト配置を行うだけで6DoFコンテンツ（自由視点コンテンツ）を制作することができる。

　各CVPで使用されるオブジェクトに対応したオーディオデータ群はコンテンツ制作者によって選定されるものであるが、それらのオーディオデータは複数のCVPで共通に使用することができる。なお、特定のCVPだけで使用するオブジェクトに対応したオーディオデータが追加されてもよい。

　このように各CVPで共通のオーディオデータを用いて、CVPごとにオブジェクトの位置やゲインなどを制御することで冗長性の低い伝送が可能となる。

　制作者の操作に応じて6DoFコンテンツ（自由視点コンテンツ）を生成する制作ツールは、構成情報およびオブジェクトメタデータセットという２つのデータ構造体をファイルまたはバイナリデータとして出力する。

　図７は構成情報のフォーマット（シンタックス）例を示す図である。

　図７に示す例では、構成情報には、フレーム長インデックス「FrameLengthIndex」、オブジェクト数情報「NumOfObjects」、CVP数情報「NumOfControlViewpoints」、およびメタデータセット数情報「NumOfObjectMetaSets」が含まれている。

　フレーム長インデックス「FrameLengthIndex」は、オブジェクトの音を再生するためのオーディオデータの１フレームの長さ、すなわち１フレームが何サンプルから構成されているかを示すインデックスである。

　例えばフレーム長インデックス「FrameLengthIndex」の各値と、フレーム長インデックスにより示されるフレーム長との対応は、図８に示すようになる。

　この例では、例えばフレーム長インデックスの値が「５」である場合には、フレーム長は「1024」とされている。すなわち、１フレームが1024サンプルにより構成されている。

　図７の説明に戻り、オブジェクト数情報「NumOfObjects」は、コンテンツを構成するオーディオデータの数、すなわちオブジェクト（オーディオオブジェクト）の数を示す情報である。CVP数情報「NumOfControlViewpoints」は、制作者により設定されたCVPの数（個数）を示す情報である。メタデータセット数情報「NumOfObjectMetaSets」は、オブジェクトメタデータセットの数（個数）を示す情報である。

　また、構成情報には、CVP数情報「NumOfControlViewpoints」により示されるCVPの数だけ、CVPに関する情報であるCVP情報「ControlViewpointInfo(i)」が含まれている。すなわち、制作者により設定されたCVPごとにCVP情報が格納されている。

　さらに構成情報には、各CVPについて、オブジェクトごとにオブジェクトメタデータに含まれているオブジェクト位置情報の記述方法を示すフラグ情報である座標モード情報「CoordinateMode[i][j]」が格納されている。

　例えば座標モード情報の値「０」は、オブジェクト位置情報が共通絶対座標系の絶対座標により記述されていることを示している。これに対して、座標モード情報の値「１」は、オブジェクト位置情報がCVP極座標系の極座標により記述されていることを示している。なお、以下では、座標モード情報の値が「１」であるものとして説明を続ける。

　また、構成情報に含まれるCVP情報「ControlViewpointInfo(i)」のフォーマット（シンタックス）の例を図９に示す。

　この例ではCVP情報には、CVPインデックス「ControlViewpointIndex[i]」およびメタデータセットインデックス「AssociatedObjectMetaSetIndex[i]」が含まれている。

　CVPインデックス「ControlViewpointIndex[i]」は、CVP情報に対応するCVPを識別するためのインデックス情報である。

　メタデータセットインデックス「AssociatedObjectMetaSetIndex[i]」は、CVPインデックスにより示されるCVPに対して制作者により指定されたオブジェクトメタデータセットを示すインデックス情報（指定情報）である。換言すれば、メタデータセットインデックスは、CVPに関連付けられたオブジェクトメタデータセットを示す情報である。

　また、CVP情報には、CVP位置情報とCVP向き情報が含まれている。

　すなわち、CVP位置情報として、共通絶対座標系におけるCVPの位置を示すX座標「CVPosX[i]」、Y座標「CVPosY[i]」、およびZ座標「CVPosZ[i]」が格納されている。

　また、CVP向き情報として、CVP Yaw情報「CVYaw[i]」、CVP Pitch情報「CVPitch[i]」、およびCVP Roll情報「CVRoll[i]」が格納されている。

　図１０はオブジェクトメタデータセット、より詳細にはオブジェクトメタデータセット群のフォーマット（シンタックス）例を示す図である。

　この例では、「NumOfObjectMetaSets」は、格納されているオブジェクトメタデータセットの数を示している。このオブジェクトメタデータセットの数は、構成情報に含まれているメタデータセット数情報から得ることができる。また、「ObjectMetaSetIndex[i]」はオブジェクトメタデータセットのインデックスを示しており、「NumOfObjects」は、オブジェクトの数を示している。

　「NumOfChangePoints」は、オブジェクトメタデータセットの内容が変化する時刻である変化点の数を示している。

　この例では、変化点間におけるオブジェクトメタデータセットは格納されていない。また、各オブジェクトメタデータセットについて、オブジェクトについての変化点ごとに、変化点を特定するためのフレームインデックス「frame_index[i][j][k]」と、オブジェクトの位置を示す「PosA[i][j][k]」、「PosB[i][j][k]」、および「PosC[i][j][k]」と、オブジェクトのゲイン「Gain[i][j][k]」とが格納されている。このゲイン「Gain[i][j][k]」は、CVPから見たときのオブジェクト（オーディオデータ）のゲインである。

　フレームインデックス「frame_index[i][j][k]」は、変化点となるオブジェクトのオーディオデータのフレームを示すインデックスである。受信側（再生側）においては、このフレームインデックス「frame_index[i][j][k]」、および構成情報に含まれているフレーム長インデックス「FrameLengthIndex」に基づいて、変化点となるオーディオデータのサンプル位置が特定される。

　オブジェクトの位置を示す「PosA[i][j][k]」、「PosB[i][j][k]」、および「PosC[i][j][k]」は、CVP極座標系におけるオブジェクトの位置（極座標）を示す水平方向角度Azimuth、垂直方向角度Elevation、および半径Radiusを示している。すなわち、「PosA[i][j][k]」、「PosB[i][j][k]」、および「PosC[i][j][k]」からなる情報がオブジェクト位置情報である。

　但し、ここでは座標モード情報の値が「１」であるとする。座標モード情報の値が「０」である場合には、「PosA[i][j][k]」、「PosB[i][j][k]」、および「PosC[i][j][k]」は、共通絶対座標系におけるオブジェクトの位置を示すX座標、Y座標、およびZ座標とされる。

　以上のように、図１０に示すフォーマットでは、各オブジェクトメタデータセットについて、変化点ごとに、オブジェクトごとのフレームインデックスと、各オブジェクトについてのオブジェクト位置情報およびゲインとが格納されている。

　オブジェクトの位置は常に固定的な場合もあるが、時間方向上で動的にオブジェクトの位置が変化する場合もある。

　図１０に示したフォーマット例では、オブジェクトの位置が変化する時刻の位置、つまり上述の変化点の位置がフレームインデックス「frame_index[i][j][k]」として記録されている。また、変化点間におけるオブジェクト位置情報やゲインは、例えば受信側（再生側）において、変化点でのオブジェクト位置情報やゲインに基づく、直線による補間処理により求められる。

　このように、図１０に示すフォーマットを採用すれば、オブジェクトの位置が動的に変化する場合にも対応することができ、全時刻（フレーム）のデータを保持する必要がなくなるため、ファイルサイズを小さくすることができる。

　図１１は、自由視点コンテンツとして実際のライブコンテンツを制作するときの自由視点空間におけるCVPの配置例を示している。

　この例では、ライブ会場全体を含む空間が自由視点空間となっており、ライブ会場ではステージST11上において、オブジェクトとしてのアーティストが楽曲の演奏等を行う。また、ライブ会場では、ステージST11を囲むように客席が設けられている。

　自由視点空間、すなわち共通絶対座標系における原点Oの位置の設定は、コンテンツの制作者の意図に委ねられるが、この例ではライブ会場の中央が原点Oの位置とされている。

　また、この例では、制作者によりステージST11上にターゲット位置TPが設定されており、ライブ会場内に７個のCVP1乃至CVP7が設定されている。

　上述のように各CVP（CVP極座標系）では、CVPからターゲット位置TPへと向かう方向が正中面の方向とされている。

　したがって、例えばCVP1を視点位置（受聴位置）とし、ターゲット位置TPの方向を向いているユーザには、矢印Q11に示すように自身が真正面からステージST11を見ているようなコンテンツ映像が提示される。

　同様に、例えばCVP4を視点位置とし、ターゲット位置TPの方向を向いているユーザには、矢印Q12に示すように自身が斜め前方からステージST11を見ているようなコンテンツ映像が提示される。さらに例えばCVP5を視点位置とし、ターゲット位置TPの方向を向いているユーザには、矢印Q13に示すように自身が斜め後方からステージST11を見ているようなコンテンツ映像が提示される。

　このような自由視点コンテンツを制作する場合、制作者による１つのCVPに対するオブジェクトの配置作業が3DoFコンテンツの制作作業と等価となる。

　図１１の例では、自由視点コンテンツの制作者は、１つのCVPに対するオブジェクト配置作業に加え、6DoFに対応するために、さらに６個のCVPを設定し、それらのCVPに対するオブジェクト配置作業を行えばよい。このように、本技術では、3DoFコンテンツにおける場合と同様の作業により自由視点コンテンツを制作することができる。

　ところで、空間内の残響成分は、本来、物理的な空間内の伝搬や反射によって生成されるものである。

　そのため、自由視点空間としてのコンサート会場内の反射や伝搬により到達する物理的な残響成分をオブジェクトとして捉えた場合には、CVP極座標系（CVP極座標空間）における残響オブジェクトの配置は、例えば図１２に示すようになる。なお、図１２は、図３に示したターゲット位置TPとCVP3が同じ位置関係で示されている。

　図１２では、ターゲット位置TPの近傍にある音源（演者）から発せられCVP3へと向かう残響音が点線の矢印により表されている。すなわち、図中の矢印は、物理的な残響パスを表している。特に、ここでは４つの残響パスが描かれている。

　そのため、それらの残響音を残響オブジェクトとしてCVP3のCVP極座標空間にそのまま配置すると、各残響オブジェクトは位置P11乃至位置P14に配置されることになる。

　しかしながら、このように狭い領域（自由視点空間）の残響成分が強い信号をそのまま用いた場合、高い臨場感を得ることができるものの本来の音楽信号が残響にかき消されてしまうことで、音楽性が低くなってしまうことが多い。

　本技術の制作ツールにおけるCVP極座標系でのオブジェクト配置を用いれば、コンテンツの制作者は、残響成分をオブジェクト（残響オブジェクト）として扱い、音楽性の観点から最適と考える到来方向を決定し、その決定結果に応じてオブジェクトを配置することができる。これにより、空間内の残響効果を演出することができる。

　具体的には、例えばCVP3を受聴位置とした場合、残響オブジェクトを位置P11乃至位置P14に配置すると、コンサート会場前方の狭い領域に残響音を主とした音が集中することになる。そこで制作者は、これらの残響オブジェクトを、CVP3にいる受聴者の後方である位置P’11乃至位置P’14に配置する。換言すれば、残響パス等が考慮されて、音楽性の付加のために、残響オブジェクトの配置位置が位置P11乃至位置P14から位置P’11乃至位置P’14へと移動される。

　このように、残響オブジェクトを全体的に受聴者の後方に意図的に配置することで、残響成分による埋もれ、すなわち音楽自体が聴きにくくなってしまうことを回避することができる。

〈情報処理装置の構成例〉
　続いて、制作ツールを実現し、以上において説明した自由視点コンテンツを制作する情報処理装置について説明する。

　そのような情報処理装置は、例えばパーソナルコンピュータなどからなり、図１３に示すように構成される。

　図１３に示す情報処理装置１１は、入力部２１、表示部２２、記録部２３、通信部２４、音響出力部２５、および制御部２６を有している。

　入力部２１は、例えばマウス、キーボード、タッチパネル、ボタン、スイッチなどからなり、コンテンツの制作者の操作に応じた信号を制御部２６に供給する。表示部２２は、制御部２６の制御に従って、コンテンツの制作ツールの表示画面など、任意の画像を表示する。

　記録部２３は、コンテンツの制作のための各オブジェクトのオーディオデータ、制御部２６から供給された構成情報やオブジェクトメタデータセットなどの各種のデータを記録するとともに、記録しているデータを適宜、制御部２６に供給する。

　通信部２４は、サーバ等の外部の装置との通信を行う。例えば通信部２４は、制御部２６から供給されたデータをサーバ等に送信したり、サーバ等から送信されてきたデータを受信して制御部２６に供給したりする。

　音響出力部２５は、例えばスピーカからなり、制御部２６から供給されたオーディオデータに基づいて音を出力する。

　制御部２６は、情報処理装置１１全体の動作を制御する。例えば制御部２６は、制作者の操作に応じて入力部２１から供給される信号に基づいて、自由視点コンテンツを生成（制作）する。

〈コンテンツ制作処理の説明〉
　次に、情報処理装置１１の動作について説明する。すなわち、以下、図１４のフローチャートを参照して、情報処理装置１１によるコンテンツ制作処理について説明する。

　例えば制御部２６が記録部２３に記録されているプログラムを読み出して実行すると、自由視点コンテンツを制作するための制作ツールが実現される。

　制作ツールが起動されると、制御部２６は、所定の画像データを表示部２２に供給して、制作ツールの表示画面を表示させる。この表示画面には、例えば自由視点空間の画像などが表示されている。

　また、例えば制御部２６は、制作者の操作に応じて、適宜、これから制作しようとする自由視点コンテンツを構成する各オブジェクトのオーディオデータを記録部２３から読み出して音響出力部２５に供給し、オブジェクトの音を再生させる。

　制作者は、適宜、オブジェクトの音を聴いたり、表示画面上の自由視点空間の画像等を確認したりしながら、入力部２１を操作することで、コンテンツ制作のための操作を行う。

　ステップＳ１１において制御部２６は、ターゲット位置TPを設定する。

　例えば制作者は、入力部２１を操作することで自由視点空間上の任意の位置（点）をターゲット位置TPとして指定する。

　制作者によりターゲット位置TPを指定する操作が行われると、入力部２１から制御部２６には制作者の操作に応じた信号が供給されるので、制御部２６は、入力部２１から供給された信号に基づいて、自由視点空間上の制作者により指定された位置をターゲット位置TPとする。すなわち、制御部２６は、ターゲット位置TPを設定する。

　なお、制作者の操作に応じて、制御部２６が自由視点空間（共通絶対座標系）における原点Oの位置の設定を行うようにしてもよい。

　ステップＳ１２において制御部２６は、CVP数とオブジェクトメタデータセット数を０とする。すなわち、制御部２６は、CVP数情報「NumOfControlViewpoints」の値を０とするとともに、メタデータセット数情報「NumOfObjectMetaSets」の値を０とする。

　ステップＳ１３において制御部２６は、入力部２１からの信号に基づいて、制作者の操作により選択された編集モードがCVP編集モードであるか否かを判定する。

　ここでは、編集モードには、CVPの編集を行うCVP編集モード、オブジェクトメタデータセットの編集を行うオブジェクトメタデータセット編集モード、およびCVPとオブジェクトメタデータセットの関連付け（紐づけ）を行う紐づけ編集モードがあるとする。

　ステップＳ１３においてCVP編集モードであると判定された場合、ステップＳ１４において制御部２６は、CVP構成を変更するか否かを判定する。

　例えば、制作者がCVP編集モードにおいて、新たなCVPの追加（設定）、または既存のCVPの削除を指示する操作を行った場合、CVP構成を変更すると判定される。

　ステップＳ１４においてCVP構成を変更しないと判定された場合、処理はステップＳ１３に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１４においてCVP構成を変更すると判定された場合、その後、処理はステップＳ１５に進む。

　ステップＳ１５において制御部２６は、制作者の操作に応じて入力部２１から供給される信号に基づいて、CVP数を更新する。

　例えば、制作者が新たなCVPを追加（設定）する操作を行った場合、制御部２６は、保持しているCVP数情報「NumOfControlViewpoints」の値に１を加算することでCVP数を更新する。これに対して、例えば制作者が既存の１つのCVPを削除する操作を行った場合、制御部２６は、保持しているCVP数情報「NumOfControlViewpoints」の値から１を減算することでCVP数を更新する。

　ステップＳ１６において制御部２６は、制作者の操作に応じてCVPの編集を行う。

　例えば制御部２６は、制作者によりCVPを指定（追加）する操作が行われると、入力部２１から供給された信号に基づいて、自由視点空間上の制作者により指定された位置を新たに追加するCVPの位置とする。すなわち、制御部２６は新たなCVPを設定する。また、例えば制御部２６は、制作者によりCVPを削除する操作が行われると、入力部２１から供給された信号に基づいて、自由視点空間上の制作者により指定されたCVPを削除する。

　CVPの編集が行われると、その後、処理はステップＳ１４に戻り、上述した処理が繰り返し行われる。すなわち、新たなCVPの編集が行われる。

　また、ステップＳ１３においてCVP編集モードでないと判定された場合、ステップＳ１７において制御部２６は、オブジェクトメタデータセット編集モードであるか否かを判定する。

　ステップＳ１７においてオブジェクトメタデータセット編集モードであると判定された場合、ステップＳ１８において制御部２６は、オブジェクトメタデータセットを変更するか否かを判定する。

　例えば、制作者がオブジェクトメタデータセット編集モードにおいて、新たなオブジェクトメタデータセットの追加（設定）、または既存のオブジェクトメタデータセットの削除を指示する操作を行った場合、オブジェクトメタデータセットを変更すると判定される。

　ステップＳ１８においてオブジェクトメタデータセットを変更しないと判定された場合、処理はステップＳ１３に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１８においてオブジェクトメタデータセットを変更すると判定された場合、その後、処理はステップＳ１９に進む。

　ステップＳ１９において制御部２６は、制作者の操作に応じて入力部２１から供給される信号に基づいて、オブジェクトメタデータセット数を更新する。

　例えば、制作者が新たなオブジェクトメタデータセットを追加（設定）する操作を行った場合、制御部２６は、保持しているメタデータセット数情報「NumOfObjectMetaSets」の値に１を加算することでオブジェクトメタデータセット数を更新する。これに対して、例えば制作者が既存の１つのオブジェクトメタデータセットを削除する操作を行った場合、制御部２６は、保持しているメタデータセット数情報「NumOfObjectMetaSets」の値から１を減算することでオブジェクトメタデータセット数を更新する。

　ステップＳ２０において制御部２６は、制作者の操作に応じてオブジェクトメタデータセットの編集を行う。

　例えば制御部２６は、制作者により新たなオブジェクトメタデータセットを設定（追加）する操作が行われると、入力部２１から供給された信号に基づいて、新たなオブジェクトメタデータセットを生成する。

　このとき、例えば制御部２６は、適宜、CVP極座標空間の画像を表示部２２に表示させ、制作者はCVP極座標空間の画像上の位置（点）を、新たなオブジェクトメタデータセットについてのオブジェクトの配置位置として指定する。

　制御部２６は、制作者により１または複数の各オブジェクトの配置位置を指定する操作が行われると、CVP極座標空間上の制作者により指定された位置をオブジェクトの配置位置とすることで、新たなオブジェクトメタデータセットを生成する。

　また、例えば制御部２６は、制作者によりオブジェクトメタデータセットを削除する操作が行われると、入力部２１から供給された信号に基づいて、制作者により指定されたオブジェクトメタデータセットを削除する。

　オブジェクトメタデータセットの編集が行われると、その後、処理はステップＳ１８に戻り、上述した処理が繰り返し行われる。すなわち、新たなオブジェクトメタデータセットの編集が行われる。なお、オブジェクトメタデータセットの編集として、既存のオブジェクトメタデータセットの変更を行うことも可能である。

　また、ステップＳ１７においてオブジェクトメタデータセット編集モードでないと判定された場合、ステップＳ２１において制御部２６は、紐づけ編集モードであるか否かを判定する。

　ステップＳ２１において紐づけ編集モードであると判定された場合、ステップＳ２２において制御部２６は、制作者の操作に応じて、CVPとオブジェクトメタデータセットを関連付ける。

　具体的には、例えば制御部２６は、入力部２１から供給された信号に基づいて、制作者により指定されたCVPについて、制作者により指定されたオブジェクトメタデータセットを示すメタデータセットインデックス「AssociatedObjectMetaSetIndex[i]」を生成する。これにより、CVPとオブジェクトメタデータセットの紐づけが行われる。

　ステップＳ２２の処理が行われると、その後、処理はステップＳ１３に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ２１において紐づけ編集モードでないと判定された場合、すなわち自由視点コンテンツの制作作業の終了が指示された場合、処理はステップＳ２３へと進む。

　ステップＳ２３において制御部２６は、通信部２４によりコンテンツデータを出力する。

　例えば制御部２６は、ターゲット位置TP、CVP、およびオブジェクトメタデータセットの設定結果や、CVPとオブジェクトメタデータセットの紐づけ結果に基づいて、構成情報を生成する。

　具体的には、例えば制御部２６は、図７や図９を参照して説明した、フレーム長インデックスやオブジェクト数情報、CVP数情報、メタデータセット数情報、CVP情報、座標モード情報を含む構成情報を生成する。このとき制御部２６は、適宜、上述の式（１）と同様の計算を行ってCVP向き情報を算出し、CVPインデックス、メタデータセットインデックス、CVP位置情報、およびCVP向き情報を含むCVP情報を生成する。

　また、制御部２６では、ステップＳ２０の処理によって、図１０を参照して説明したように、変化点ごとに、オブジェクトごとのフレームインデックスと、各オブジェクトについてのオブジェクト位置情報、およびゲインとが含まれるオブジェクトメタデータセットが複数生成されている。

　これにより、１つの自由視点コンテンツについて、各オブジェクトのオーディオデータ、構成情報、および互いに異なる複数のオブジェクトメタデータセットからなるコンテンツデータが生成されたことになる。制御部２６は、生成したコンテンツデータを適宜、記録部２３に供給して記録させるとともに、通信部２４に供給する。

　通信部２４は、制御部２６から供給されたコンテンツデータを出力する。すなわち、通信部２４は、任意のタイミングで、ネットワークを介してコンテンツデータをサーバに送信する。なお、コンテンツデータは、記録媒体等に供給され、記録媒体を介してサーバに提供されてもよい。

　コンテンツデータが出力されると、コンテンツ制作処理は終了する。

　以上のようにして情報処理装置１１は、制作者の操作に応じてターゲット位置TPの設定やCVPの設定、オブジェクトメタデータセットの設定などを行い、オーディオデータ、構成情報、およびオブジェクトメタデータセットからなるコンテンツデータを生成する。

　このようにすることで、再生側においては、制作者により指定されたオブジェクト配置に基づく自由視点コンテンツの再生が可能となる。したがって、コンテンツ制作者の意図に基づいた、音楽性のあるコンテンツ再生を実現することができる。

〈サーバの構成例〉
　次に、情報処理装置１１から自由視点コンテンツのコンテンツデータの供給を受け、そのコンテンツデータをクライアントへと配信するサーバについて説明する。

　そのようなサーバは、例えば図１５に示すように構成される。

　図１５に示すサーバ５１は、例えばコンピュータ等の情報処理装置からなる。サーバ５１は、通信部６１、制御部６２、および記録部６３を有している。

　通信部６１は、制御部６２の制御に従って、情報処理装置１１やクライアントとの通信を行う。例えば通信部６１は、情報処理装置１１から送信されてきた自由視点コンテンツのコンテンツデータを受信して制御部６２に供給したり、制御部６２から供給された符号化ビットストリームをクライアントに送信したりする。

　制御部６２は、サーバ５１全体の動作を制御する。例えば制御部６２は、符号化部７１を有しており、符号化部７１は、自由視点コンテンツのコンテンツデータを符号化することで、符号化ビットストリームを生成する。

　記録部６３は、例えば制御部６２から供給された自由視点コンテンツのコンテンツデータなど、各種のデータを記録しており、必要に応じて記録しているデータを制御部６２に供給する。なお、以下では、情報処理装置１１から受信された自由視点コンテンツのコンテンツデータが記録部６３に記録されているものとする。

〈配信処理の説明〉
　サーバ５１は、ネットワークを介して接続されているクライアントから、自由視点コンテンツの配信の要求があると、その要求に応じて自由視点コンテンツを配信する配信処理を行う。以下、図１６のフローチャートを参照して、サーバ５１による配信処理について説明する。

　ステップＳ５１において制御部６２は、符号化ビットストリームを生成する。

　すなわち、制御部６２は、記録部６３から自由視点コンテンツのコンテンツデータを読み出す。そして制御部６２の符号化部７１は、読み出したコンテンツデータを構成する各オブジェクトのオーディオデータ、構成情報、および複数のオブジェクトメタデータセットを符号化することで、符号化ビットストリームを生成する。制御部６２は、得られた符号化ビットストリームを通信部６１に供給する。

　この場合、例えば符号化部７１は、MPEG(Moving Picture Experts Group)-IやMPEG-Hで用いられる符号化方式に従って、オーディオデータや構成情報、オブジェクトメタデータセットの符号化を行う。これにより、データの伝送量を削減することができる。また、オブジェクトのオーディオデータは、全てのCVPで共通のものとなっているので、CVPの個数によらず、１つのオブジェクトにつき１つのオーディオデータを格納すればよい。

　ステップＳ５２において通信部６１は、制御部６２から供給された符号化ビットストリームをクライアントに送信し、配信処理は終了する。

　なお、ここでは符号化されたオーディオデータ、構成情報、およびオブジェクトメタデータセットが多重化されて１つの符号化ビットストリームが生成される例について説明したが、構成情報やオブジェクトメタデータセットは、オーディオデータと異なるタイミングでクライアントに送信されるようにしてもよい。例えば、最初に構成情報やオブジェクトメタデータセットがクライアントへと送信された後、オーディオデータのみがクライアントへと送信されるようにしてもよい。

　以上のようにしてサーバ５１は、オーディオデータ、構成情報、およびオブジェクトメタデータセットを含む符号化ビットストリームを生成し、クライアントへと送信する。このようにすることで、クライアントでは、コンテンツ制作者の意図に基づいた、音楽性のあるコンテンツ再生を実現することができる。

〈クライアントの構成例〉
　さらに、サーバ５１から符号化ビットストリームを受信して自由視点コンテンツの再生のための再生オーディオデータを生成するクライアントは、例えば図１７に示すように構成される。

　図１７に示すクライアント１０１は、例えばパーソナルコンピュータやスマートフォンなどの情報処理装置からなる。クライアント１０１は、受聴者位置情報取得部１１１、通信部１１２、復号部１１３、位置算出部１１４、およびレンダリング処理部１１５を有している。

　受聴者位置情報取得部１１１は、受聴者となるユーザにより入力された、自由視点空間内における受聴者の絶対的な位置、すなわち受聴位置を示す受聴者位置情報を取得し、位置算出部１１４に供給する。

　例えば受聴者位置情報は、自由視点空間、すなわち共通絶対座標系における受聴位置を示す絶対座標などとされる。

　なお、受聴者位置情報取得部１１１は、自由視点空間（共通絶対座標系）における受聴者の顔の向き（方向）を示す受聴者向き情報も取得し、位置算出部１１４に供給するようにしてもよい。

　通信部１１２は、サーバ５１から送信されてきた符号化ビットストリームを受信して復号部１１３に供給する。すなわち、通信部１１２は、符号化ビットストリームに含まれている、符号化された各オブジェクトのオーディオデータ、構成情報、およびオブジェクトメタデータセットを取得する取得部として機能する。

　復号部１１３は、通信部１１２から供給された符号化ビットストリーム、すなわち符号化された各オブジェクトのオーディオデータ、構成情報、およびオブジェクトメタデータセットに対する復号を行う。復号部１１３は、復号により得られた各オブジェクトのオーディオデータをレンダリング処理部１１５に供給するとともに、復号により得られた構成情報およびオブジェクトメタデータセットを位置算出部１１４に供給する。

　位置算出部１１４は、受聴者位置情報取得部１１１から供給された受聴者位置情報と、復号部１１３から供給された構成情報およびオブジェクトメタデータセットとに基づいて、受聴者（受聴位置）から見た各オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する。

　受聴者基準オブジェクト位置情報により示されるオブジェクトの位置は、受聴位置を原点（基準）とする極座標系の座標（極座標）により表現された、受聴者（受聴位置）から見たオブジェクトの相対的な位置を示す情報である。

　例えば受聴者基準オブジェクト位置情報は、全てのCVPまたは一部のCVPのCVP位置情報、およびオブジェクト位置情報と、受聴者位置情報とに基づく補間処理により算出される。補間処理は、ベクトル合成など、どのようなものであってもよい。なお、受聴者基準オブジェクト位置情報の算出には、CVP向き情報と受聴者向き情報も用いられるようにしてもよい。

　また、位置算出部１１４は、復号部１１３から供給されたオブジェクトメタデータセットに含まれているオブジェクトごとのゲインに基づいて、補間処理により受聴者位置情報により示される受聴位置における各オブジェクトの受聴者基準ゲインを算出する。受聴者基準ゲインは、受聴位置から見たときのオブジェクトのゲインである。

　位置算出部１１４は、受聴位置における各オブジェクトの受聴者基準ゲインと受聴者基準オブジェクト位置情報をレンダリング処理部１１５に供給する。

　レンダリング処理部１１５は、復号部１１３から供給された各オブジェクトのオーディオデータと、位置算出部１１４から供給された受聴者基準ゲインおよび受聴者基準オブジェクト位置情報とに基づいてレンダリング処理を行い、再生オーディオデータを生成する。

　レンダリング処理部１１５では、例えばVBAP（Vector Based Amplitude Panning）など、MPEG-Hで規定された極座標系でのレンダリング処理が行われて再生オーディオデータが生成される。この再生オーディオデータは、全オブジェクトの音を含む自由視点コンテンツの音を再生するためのオーディオデータである。

〈再生オーディオデータ生成処理の説明〉
　次に、クライアント１０１の動作について説明する。すなわち、以下、図１８のフローチャートを参照して、クライアント１０１による再生オーディオデータ生成処理について説明する。

　ステップＳ８１において通信部１１２は、サーバ５１から送信されてきた符号化ビットストリームを受信して復号部１１３に供給する。

　ステップＳ８２において復号部１１３は、通信部１１２から供給された符号化ビットストリームの復号を行う。

　復号部１１３は、復号により得られた各オブジェクトのオーディオデータをレンダリング処理部１１５に供給するとともに、復号により得られた構成情報およびオブジェクトメタデータセットを位置算出部１１４に供給する。

　なお、構成情報およびオブジェクトメタデータセットがオーディオデータとは異なるタイミングで受信されてもよい。

　ステップＳ８３において受聴者位置情報取得部１１１は、現時刻における受聴者位置情報を取得し、位置算出部１１４に供給する。なお、受聴者位置情報取得部１１１は、受聴者向き情報も取得して位置算出部１１４に供給するようにしてもよい。

　ステップＳ８４において位置算出部１１４は、受聴者位置情報取得部１１１から供給された受聴者位置情報と、復号部１１３から供給された構成情報およびオブジェクトメタデータセットとに基づいて補間処理を行う。

　具体的には、例えば位置算出部１１４は、補間処理としてベクトル合成を行うことで、受聴者基準オブジェクト位置情報を算出するとともに、補間処理により受聴者基準ゲインも算出し、それらの受聴者基準オブジェクト位置情報と受聴者基準ゲインをレンダリング処理部１１５に供給する。

　なお、補間処理を行うにあたり、現時刻（サンプル）が変化点間の時刻であり、オブジェクトメタデータに現時刻のオブジェクト位置情報やゲインが格納されていない場合がある。そのような場合、位置算出部１１４は、現時刻の直前および直後など、現時刻に近接する複数の変化点におけるオブジェクト位置情報やゲインに基づく補間処理により、現時刻における、CVPでのオブジェクト位置情報およびゲインを算出する。

　ステップＳ８５においてレンダリング処理部１１５は、復号部１１３から供給された各オブジェクトのオーディオデータと、位置算出部１１４から供給された受聴者基準ゲインおよび受聴者基準オブジェクト位置情報とに基づいてレンダリング処理を行う。

　例えばレンダリング処理部１１５は、各オブジェクトの受聴者基準ゲインに基づいて、それらの各オブジェクトのオーディオデータに対するゲイン補正を行う。

　そして、レンダリング処理部１１５は、ゲイン補正後の各オブジェクトのオーディオデータと、受聴者基準オブジェクト位置情報とに基づいてVBAP等のレンダリング処理を行い、再生オーディオデータを生成する。

　レンダリング処理部１１５は、生成した再生オーディオデータをスピーカ等の後段のブロックへと出力する。

　このようにすることで、自由視点空間内の任意の位置を受聴位置とした、すなわち多視点での自由視点コンテンツ（6DoFコンテンツ）の再生が可能となる。

　ステップＳ８６においてクライアント１０１は、処理を終了するか否かを判定する。例えばステップＳ８６では、自由視点コンテンツの全フレームについて符号化ビットストリームを受信し、再生オーディオデータが生成された場合、処理を終了すると判定される。

　ステップＳ８６において、まだ処理を終了しないと判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ８６において処理を終了すると判定された場合、クライアント１０１は各部の動作を終了させ、再生オーディオデータ生成処理は終了する。

　以上のようにしてクライアント１０１は、受聴者位置情報、構成情報、およびオブジェクトメタデータセットに基づいて補間処理を行い、受聴位置における受聴者基準ゲインおよび受聴者基準オブジェクト位置情報を算出する。

　このようにすることで、受聴者とオブジェクトの単なる物理的な関係ではなく、受聴位置に応じて、コンテンツ制作者の意図に基づいた、音楽性のあるコンテンツ再生を実現し、コンテンツの面白さを十分に受聴者に伝えることができる。

〈補間処理について〉
　ここで、図１８のステップＳ８４で行われる補間処理の具体的な例について説明する。特に、ここでは極座標ベクトル合成が行われる場合について説明する。

　例えば図１９に示すように、自由視点空間（共通絶対座標系）における受聴者位置情報により示される任意の視点位置、すなわち現時刻の受聴者の位置が受聴位置LP11であるとする。なお、図１９は自由視点空間を上方から俯瞰した様子を示している。

　例えば所定のオブジェクトを注目オブジェクトとすると、受聴位置LP11における再生オーディオデータをレンダリング処理により生成するには、受聴位置LP11を原点とする極座標系における注目オブジェクトの位置PosFを示す受聴者基準オブジェクト位置情報が必要である。

　そこで、位置算出部１１４は、例えば受聴位置LP11の周囲にある複数のCVPを補間処理に用いるCVPとして選択する。この例ではCVP0乃至CVP2の３つのCVPが、補間処理に用いるCVPとして選択されている。

　例えば受聴位置LP11を囲む位置にある、受聴位置LP11からの距離が最も短い３以上の所定個数のCVPが選択されるなど、CVPの選択はどのように行われてもよい。また、全てのCVPが用いられて補間処理が行われてもよい。このとき、位置算出部１１４は、構成情報に含まれているCVP位置情報を参照することで、共通絶対座標系における各CVPの位置を特定することができる。

　補間処理に用いるCVPとしてCVP0乃至CVP2が選択されると、位置算出部１１４は、例えば図２０に示すオブジェクト３次元位置ベクトルを求める。

　図２０では、図中、左側にはCVP0の極座標空間における注目オブジェクトの位置が示されている。この例では、位置Pos0がCVP0から見たときの注目オブジェクトの配置位置となっており、位置算出部１１４は、CVP0のCVP極座標系の原点O’を始点とし、位置Pos0を終点とするベクトルV11を、CVP0についてのオブジェクト３次元位置ベクトルとして算出する。

　また、図中、中央にはCVP1の極座標空間における注目オブジェクトの位置が示されている。この例では、位置Pos1がCVP1から見たときの注目オブジェクトの配置位置となっており、位置算出部１１４は、CVP1のCVP極座標系の原点O’を始点とし、位置Pos1を終点とするベクトルV12を、CVP1についてのオブジェクト３次元位置ベクトルとして算出する。

　同様に、図中、右側にはCVP2の極座標空間における注目オブジェクトの位置が示されている。この例では、位置Pos2がCVP2から見たときの注目オブジェクトの配置位置となっており、位置算出部１１４は、CVP2のCVP極座標系の原点O’を始点とし、位置Pos2を終点とするベクトルV13を、CVP2についてのオブジェクト３次元位置ベクトルとして算出する。

　ここで、オブジェクト３次元位置ベクトルの具体的な算出方法について説明する。

　例えばCVPiのCVP極座標系の原点O’を原点とし、そのCVPiのCVP極座標系のx軸、y軸、およびz軸を、そのままx軸、y軸、およびz軸とする絶対座標系（直交座標系）をCVP絶対座標系（CVP絶対座標空間）と称することとする。

　オブジェクト３次元位置ベクトルは、CVP絶対座標系の座標により表現されるベクトルである。

　例えばCVPiのCVP極座標系における注目オブジェクトの位置Posiを表す極座標が（Azi[i],Ele[i],rad[i]）であるとする。これらのAzi[i]、Ele[i]、およびrad[i]は、図１０を参照して説明したPosA[i][j][k]、PosB[i][j][k]、およびPosC[i][j][k]に対応する。また、CVPiから見たときの注目オブジェクトのゲインをg[i]と記すとする。このゲインg[i]は、図１０を参照して説明したGain[i][j][k]に対応する。

　さらに、CVPiのCVP絶対座標系における注目オブジェクトの位置Posiを表す絶対座標が（vx[i],vy[i],vz[i]）であるとする。

　この場合、CVPiについてのオブジェクト３次元位置ベクトルは、（vx[i],vy[i],vz[i]）となり、このオブジェクト３次元位置ベクトルは、次式（２）により得ることができる。

　位置算出部１１４は、構成情報に含まれているCVPiのCVP情報から、そのCVPiが参照するオブジェクトメタデータセットを示すメタデータセットインデックスを読み出す。また、位置算出部１１４は、読み出したメタデータセットインデックスにより示されるオブジェクトメタデータセットを構成する注目オブジェクトのオブジェクトメタデータから、CVPiにおける注目オブジェクトのオブジェクト位置情報およびゲインを読み出す。

　そして、位置算出部１１４は、CVPiにおける注目オブジェクトのオブジェクト位置情報に基づいて式（２）を計算し、オブジェクト３次元位置ベクトル（vx[i],vy[i],vz[i]）を得る。このような式（２）の計算は、極座標から絶対座標への変換である。

　位置算出部１１４は、式（２）により図２０に示したオブジェクト３次元位置ベクトルであるベクトルV11乃至ベクトルV13を求めると、例えば図２１に示すように、それらのベクトルV11乃至ベクトルV13のベクトル和を求める。なお、図２１において図２０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、ベクトルV11乃至ベクトルV13のベクトル和が求められて、その結果としてベクトルV21が得られている。すなわちベクトルV11乃至ベクトルV13に基づくベクトル合成により、ベクトルV21が求められる。

　より詳細には、位置PosFを示すベクトルV21の算出における各CVP（オブジェクト３次元位置ベクトル）の寄与率が重みとされて、それらの重みに基づきベクトルV11乃至ベクトルV13を合成することで、ベクトルV21が求められる。なお、図２１では説明を簡単にするため、各CVPの寄与率が１とされている。

　このベクトルV21は、受聴位置LP11から見たときの絶対座標系における注目オブジェクトの位置PosFを示すベクトルとなっている。この絶対座標系は、受聴位置LP11を原点とし、受聴位置LP11からターゲット位置TPの方向をy軸の正の方向とする座標系である。

　例えば受聴位置LP11を原点とする絶対座標系における位置PosFを表す絶対座標を（vxF,vyF,vzF）とすると、ベクトルV21は（vxF,vyF,vzF）となる。

　また、受聴位置LP11から見たときの注目オブジェクトのゲインをgFとし、CVP0乃至CVP2の寄与率をdep[0]乃至dep[2]とすると、ベクトル（vxF,vyF,vzF）、すなわちベクトルV21およびゲインgFは、次式（３）により得ることができる。

　このようにして得られたベクトルV21を、受聴位置LP11を原点とする極座標系における注目オブジェクトの位置PosFを示す極座標に変換することで、受聴者基準オブジェクト位置情報を得ることができる。また、式（３）により得られたゲインgFは、受聴者基準ゲインとなっている。

　本技術では、全てのCVPに共通する１つのターゲット位置TPを設定することで、簡単な計算により目的とする受聴者基準オブジェクト位置情報および受聴者基準ゲインを得ることができる。

　ここで、ベクトル合成についてさらに説明する。

　例えば図２２の左側に示すように、自由視点空間上の位置LP21が受聴位置であるとする。また、自由視点空間上にCVP1乃至CVP5が設定され、それらのCVP1乃至CVP5が用いられて受聴者基準オブジェクト位置情報が求められるとする。なお、図２２では、説明を簡単にするため、２次元平面上にCVPが配置されている例となっている。

　この例では、ターゲット位置TPを中心として、そのターゲット位置TPの周囲にCVP1乃至CVP5が位置している。また、各CVPのCVP極座標系のy軸の正の方向は、CVPからターゲット位置TPへと向かう方向となっている。

　さらに、CVP1乃至CVP5のそれぞれから見たときの同じ注目オブジェクトの位置のそれぞれが位置OBP1乃至位置OBP5となっている。すなわち、位置OBP1乃至位置OBP5を示すCVP極座標系の極座標が、CVP1乃至CVP5のオブジェクト位置情報である。

　このとき、各CVPについて、CVP極座標系のy軸が垂直方向、すなわち図中、上方向となるように軸回転を行ったとする。また、回転後の各CVPのCVP極座標系の原点O’が同じ１つのCVP極座標系の原点となるように注目オブジェクトを配置し直すと、CVP極座標系の原点から見た各CVPでの注目オブジェクトの位置OBP1乃至位置OBP5の関係は、図中、右側に示すようになる。すなわち、図中、右側には、各CVPを原点として正中面をY軸正方向としたときのオブジェクト位置を示している。

　各CVPのCVP極座標系では、正中面の方向がターゲット位置TPへと向かう方向であるという制約があるため、図中、右側に示す位置関係は容易に求めることができる。

　さらに、図中、右側においてCVPの位置、すなわち原点を始点とし、注目オブジェクトの位置OBP1乃至位置OBP5を終点とするベクトルを、ベクトルV41乃至ベクトルV45とする。これらのベクトルV41乃至ベクトルV45は、図２０に示したベクトルV11乃至ベクトルV13に相当する。

　したがって、図２３に示すように、各ベクトル（CVP）の寄与率を重みとして用いて、ベクトルV41乃至ベクトルV45を合成することで、受聴位置LP21から見たときの注目オブジェクトの位置を示すベクトルV51が得られる。このベクトルV51は、図２１に示したベクトルV21に相当する。なお、図２３では説明を簡単にするため、各CVPの寄与率が１とされている。

　また、ベクトル合成時の各CVPの寄与率は、例えば自由視点空間（共通絶対座標系）における受聴位置からCVPまでの距離の比により求めるようにしてもよい。

　具体的には、例えば図２４に示すように受聴者位置情報により示される受聴位置が位置Fであり、補間処理に用いられる３つのCVPの位置が位置A乃至位置Cであるとする。また、共通絶対座標系における位置Fの絶対座標が（xf,yf,zf）であり、位置A、位置B、および位置Cの共通絶対座標系における絶対座標が（xa,ya,za）、（xb,yb,zb）、および（xc,yc,zc）であるとする。なお、各CVPの共通絶対座標系における位置を示す絶対座標は、構成情報に含まれているCVP位置情報により得ることができる。

　このとき、位置算出部１１４は、位置Fから位置Aまでの距離AFと、位置Fから位置Bまでの距離BFと、位置Fから位置Cまでの距離CFとの比（距離比）を求め、その距離比の逆数を各位置にあるCVPの寄与率の比（依存比）とする。

　すなわち、位置算出部１１４は、AF:BF:CF＝a:b:cとし、位置A乃至位置Cにある各CVPの受聴位置（受聴者基準オブジェクト位置情報）に関する依存度をdp(AF)、dp(BF)、およびdp(CF)として、次式（４）を計算する。

　但し、式（４）におけるa、b、およびcは、次式（５）の通りである。

　さらに位置算出部１１４は、次式（６）を計算することで、式（４）に示した依存度dp(AF)、dp(BF)、およびdp(CF)を正規化し、正規化後の依存度であるndp(AF)、ndp(BF)、およびndp(CF)を最終的な寄与率として求める。なお、式（６）におけるa、b、およびcも式（５）により求まるものである。

　このようにして得られた寄与率ndp(AF)乃至ndp(CF)は、式（３）の寄与率dep[0]乃至dep[2]に相当し、受聴位置からCVPまでの距離が短くなるほど、そのCVPの寄与率は１に近い値となる。なお、各CVPの寄与率は、上述の例に限らず、他のどのような方法で求められるようにしてもよい。

　位置算出部１１４は、受聴者位置情報とCVP位置情報に基づいて、受聴位置からCVPまでの距離の比を求めることで、各CVPの寄与率を算出する。

　以上のことをまとめると、まず、位置算出部１１４は、受聴者位置情報と、構成情報に含まれているCVP位置情報とに基づいて、補間処理に用いるCVPを選択する。なお、補間処理に用いるCVPは、全CVPのうちの受聴位置の周囲にある一部のCVPであってもよいし、全てのCVPが用いられて補間処理が行われてもよい。

　位置算出部１１４は、選択した各CVPについて、オブジェクト位置情報に基づきオブジェクト３次元位置ベクトルを算出する。

　例えばi番目のCVPiから見たj番目のオブジェクトについてのオブジェクト３次元位置ベクトルを（Obj_vector_x[i][j],Obj_vector_y[i][j],Obj_vector_z[i][j]）とすると、オブジェクト３次元位置ベクトルは以下の式（７）を計算することで得ることができる。

　なお、ここではi番目のCVPiから見たj番目のオブジェクトのオブジェクト位置情報により示される極座標が（Azi[i][j],Ele[i][j],rad[i][j]）であるとされている。

　このような式（７）は、上述した式（２）と同様の式である。

　次に、位置算出部１１４は、受聴者位置情報と、構成情報に含まれている各CVPiのCVP位置情報とに基づいて、上述の式（４）乃至式（６）と同様の計算を行い、補間処理時の重み係数となる各CVPiの寄与率dp(i)を求める。寄与率dp(i)は、受聴位置からCVPiまでの距離の比、より詳細には距離の逆数比により定まる重み係数である。

　さらに位置算出部１１４は、式（７）の計算により得られたオブジェクト３次元位置ベクトルと、各CVPiの寄与率dp(i)と、CVPiから見たj番目のオブジェクトのゲインObj_gain[i][j]とに基づいて以下の式（８）を計算する。これにより、j番目のオブジェクトについての受聴者基準オブジェクト位置情報（Intp_x(j),Intp_y(j),Intp_z(j)）および受聴者基準ゲインIntp_gain(j)が得られる。

　式（８）では重み付きベクトル和が求められる。すなわち、寄与率dp(i)が乗算された各CVPiのオブジェクト３次元位置ベクトルの総和が受聴者基準オブジェクト位置情報として求められ、寄与率dp(i)が乗算された各CVPiのゲインの総和が受聴者基準ゲインとして求められる。この式（８）は上述した式（３）と同様の式である。

　なお、式（８）により求まる受聴者基準オブジェクト位置情報は、受聴位置を原点とし、受聴位置からターゲット位置TPへと向かう方向をy軸の正方向、つまり正中面の方向とする絶対座標系の絶対座標となっている。

　しかし、レンダリング処理部１１５では、極座標系でのレンダリング処理が行われるため、極座標表現の受聴者基準オブジェクト位置情報が必要となる。

　そこで位置算出部１１４は、式（８）により得られた絶対座標表現の受聴者基準オブジェクト位置情報（Intp_x(j),Intp_y(j),Intp_z(j)）を、次式（９）を計算することで極座標表現の受聴者基準オブジェクト位置情報（Intp_azi(j),Intp_ele(j),Intp_rad(j)）へと変換する。

　位置算出部１１４は、このようにして得られた受聴者基準オブジェクト位置情報（Intp_azi(j),Intp_ele(j),Intp_rad(j)）を最終的な受聴者基準オブジェクト位置情報としてレンダリング処理部１１５に出力する。

　なお、式（９）により得られる極座標表現の受聴者基準オブジェクト位置情報は、受聴位置を原点とし、受聴位置からターゲット位置TPへと向かう方向をy軸の正方向、つまり正中面の方向とする極座標系の極座標である。

　しかし、実際に受聴位置にいる受聴者は、必ずしもターゲット位置TPの方向を向いているとは限らない。そこで、受聴者位置情報取得部１１１で受聴者向き情報が得られる場合には、式（９）で得られた極座標表現の受聴者基準オブジェクト位置情報に対してさらに座標系の回転処理を施すなどして、最終的な受聴者基準オブジェクト位置情報としてもよい。

　この場合、例えば位置算出部１１４は、クライアント１０１側で既知となっているターゲット位置TPの位置と、受聴者位置情報と、受聴者向き情報とにより定まる回転角度だけ受聴位置から見たオブジェクトの位置を回転させる。このときの回転角度（補正量）は、自由視点空間において、受聴位置からターゲット位置TPへと向かう方向と、受聴者向き情報により示される受聴者の顔の向き（方向）とのなす角度である。

　なお、共通絶対座標系（自由視点空間）におけるターゲット位置TPは、位置算出部１１４において、複数のCVPについてのCVP位置情報とCVP向き情報から算出することができる。

　以上の処理により、最終的に、受聴者から見た、より正確なオブジェクトの位置を示す極座標表現の受聴者基準オブジェクト位置情報を得ることができる。

　ここで、図２５および図２６を参照して、受聴者の顔の向きに応じた受聴者基準オブジェクト位置情報の具体的な算出例について説明する。なお、図２５および図２６において互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば、自由視点空間（共通絶対座標系）のXY平面を見たときに、ターゲット位置TP、各CVP、および受聴位置LP41が図２５に示すような配置とされていたとする。

　なお、この例ではハッチ（斜線）の施されていない各円はCVPを表しており、各CVPについてのCVP向き情報を構成するCVP Pitch情報により示される垂直方向の角度は０度であるとする。すなわち、自由視点空間が実質的に２次元平面であるとする。また、ここではターゲット位置TPが共通絶対座標系の原点Oの位置となっている。

　さらに、ターゲット位置TPと受聴位置LP41とを結ぶ直線を直線LN31とし、受聴者向き情報により示される受聴者の顔の向きを表す直線を直線LN32とし、受聴位置LP41を通り、共通絶対座標系のY軸と平行な直線を直線LN33とする。

　Y軸正方向を水平方向角度＝０度とした場合の受聴者の顔の向きを示す水平方向角度、つまり直線LN32と直線LN33とのなす角度はθcur_azとなる。また、Y軸正方向を水平方向角度＝０度とした場合における、任意の受聴位置LP41から見たターゲット位置TPの方向を示す水平方向角度、つまり直線LN31と直線LN33とのなす角度はθtp_azとなる。

　このとき、任意の受聴位置LP41からターゲット位置TPへと向かう方向を正中面の方向としているので、直線LN31と直線LN32とのなす角度を補正量θcor_azとして、その補正量θcor_azの分だけ、各オブジェクトについての受聴者基準オブジェクト位置情報の水平方向の角度Intp_azi(j)を補正すればよいことになる。すなわち、位置算出部１１４は、水平方向の角度Intp_azi(j)に対して補正量θcor_azを加算し、最終的な受聴者基準オブジェクト位置情報の水平方向の角度とする。

　補正量θcor_azは、以下の式（１０）を計算することにより得ることができる。

　また、例えば自由視点空間（共通絶対座標系）をXY平面と平行な方向から見たときに、ターゲット位置TPと受聴位置LP41が図２６に示すような配置とされていたとする。

　ここで、ターゲット位置TPと受聴位置LP41とを結ぶ直線を直線LN41とし、受聴者向き情報により示される受聴者の顔の向きを表す直線を直線LN42とし、受聴位置LP41を通り、共通絶対座標系のXY平面と平行な直線を直線LN43とする。

　また、受聴者位置情報を構成する、共通絶対座標系における受聴位置LP41を示すZ座標がRzであり、共通絶対座標系におけるターゲット位置TPを示すZ座標がTPzであるとする。

　このとき、自由視点空間内での受聴位置LP41から見たターゲット位置TPの垂直方向の角度（仰角）の絶対値は、直線LN41と直線LN43とのなす角度θtp_elとなる。

　また、自由視点空間における受聴者の顔の向きを示す垂直方向の角度（仰角）は、水平線である直線LN43と、受聴者の顔の向きを示す直線LN42とのなす角度θcur_elとなる。この場合、受聴者が水平線よりも上を向いているときには、角度θcur_elは正の値となり、受聴者が水平線よりも下を向いているときには、角度θcur_elは負の値となる。

　この例では、直線LN41と直線LN42とのなす角度を補正量θcor_elとして、その補正量θcor_elの分だけ、各オブジェクトについての受聴者基準オブジェクト位置情報の垂直方向の角度Intp_ele(j)を補正すればよいことになる。すなわち、位置算出部１１４は、垂直方向の角度Intp_ele(j)に対して補正量θcor_elを加算し、最終的な受聴者基準オブジェクト位置情報の垂直方向の角度とする。

　補正量θcor_elは、以下の式（１１）を計算することにより得ることができる。

　なお、以上においては補間処理としてベクトル合成を用いる例について説明したが、その他、受聴位置の周囲にあるCVPを用いて、チェバの定理を利用した補間処理により受聴者基準オブジェクト位置情報を求めるようにしてもよい。

　例えばチェバの定理を利用した補間処理では、受聴位置を囲む３つのCVPにより三角形を構成するとともに、それらの３つのCVPに対応するオブジェクト位置により形成される三角形にチェバの定理を用いて写像を行うことで補間処理が実現される。

　この場合、CVPの三角形の外側の領域に受聴位置があると補間処理を行うことができないが、上述のベクトル合成の手法では受聴位置がCVPにより囲まれる領域外にある場合であっても、受聴者基準オブジェクト位置情報を求めることができる。また、ベクトル合成の手法では、より少ない処理量で簡単に受聴者基準オブジェクト位置情報を得ることができる。

〈第２の実施の形態〉
〈CVPグループについて〉
　ところで、本技術を用いることで、例えばライブ会場の建造物などによって閉ざされた空間内では受聴者に対して制作者が意図した視点の音場を再現しながら、受聴者の位置を自由に移動させることができる。さらに、受聴者がライブ会場の外へと移動する場合を考えると、ライブ会場内外での音場の差は大きく、ライブ会場内の音の多くはライブ会場外では聞こえないはずである。

　しかし、上述の第１の実施の形態の手法では、ライブ会場外の音を設定したとしてもライブ会場外の任意位置での音場再現時には、ライブ会場内のオブジェクト位置情報の組み合わせパターンの影響により、本来混入すべきでないライブ会場内の音が聞こえてしまうことがある。

　そこで、例えばライブ会場内、ライブ会場外、およびライブ会場内からライブ会場外へと遷移する領域といった３つの領域を設け、それぞれの領域で使用するCVPを分別するようにしてもよい。そのような場合、受聴者の位置に合わせて、受聴者が現在存在している領域が選択され、その領域に属するCVPのみが用いられて受聴者基準オブジェクト位置情報が求められる。なお、区分けする領域の数はクリエイタ側が任意に設定できるようにしてもよいし、各ライブ会場に応じて設定されるものであってもよい。

　そうすることで、ライブ会場内、ライブ会場外での両者間の音の混入を回避しながら、適切な受聴者基準オブジェクト位置情報および受聴者基準ゲインにより自由視点コンテンツのオーディオ再生を実現することができる。

　なお、自由視点空間を分割する領域の定義はいくつかの方法が考えられ、所定の中心座標からの同心円や多角形などが一般的な例として考えられる。また、それ以外の任意の数の様々な形の小領域などを設けるようにしてもよい。

　以下、自由視点空間を複数の領域に分けて補間処理に用いるCVPを選択する例について、具体的に説明する。

　例えば図２７に示すように、自由視点空間が３つのグループ領域R11乃至グループ領域R13に分けられているとする。なお、図２７において各小円はCVPを表している。

　グループ領域R11は円形状の領域（空間）であり、グループ領域R12はグループ領域R11の外側を囲む円環状の領域であり、グループ領域R13はグループ領域R12の外側を囲む円環状の領域である。

　この例では、グループ領域R12は、グループ領域R11とグループ領域R13の間の遷移区間の領域とされている。したがって、例えばライブ会場内の領域（空間）をグループ領域R11とし、ライブ会場外の領域をグループ領域R13とし、ライブ会場内とライブ会場外の間の領域をグループ領域R12とすることができる。なお、各グループ領域は互いに重なる部分（領域）がないように設定される。

　この例では、受聴者の位置に応じて、補間処理に用いられるCVPがグループ化される。換言すれば、制作者がグループ領域の範囲を指定することで、グループ領域によりCVPがグループ化される。

　例えば自由視点空間内に配置されたCVPが、グループ領域R11に対応するCVPグループGP1、グループ領域R12に対応するCVPグループGP2、およびグループ領域R13に対応するCVPグループGP3の少なくとも何れか１つに属すようにグループ化が行われる。この場合、１つのCVPは複数の異なるCVPグループに属すことが可能である。

　具体的には、グループ領域R11内にあるCVPはCVPグループGP1に属し、グループ領域R12内にあるCVPはCVPグループGP2に属し、グループ領域R13内にあるCVPはCVPグループGP3に属すようにグループ化される。

　したがって、例えばグループ領域R11内の位置P61にあるCVPはCVPグループGP1に属し、グループ領域R11とグループ領域R12の境界位置である位置P62にあるCVPは、CVPグループGP1とCVPグループGP2に属す。

　また、グループ領域R12とグループ領域R13の境界位置である位置P63にあるCVPは、CVPグループGP2とCVPグループGP3に属し、グループ領域R13内の位置P64にあるCVPはCVPグループGP3に属す。

　このようなグループ化を図１１に示した自由視点空間としてのライブ会場に適用すると、例えば図２８に示すようになる。

　この例では、例えば図中の黒い円で表されたCVP1乃至CVP7はライブ会場内に対応するグループ領域（グループ空間）に含まれており、図中の白い円で表されたCVPはライブ会場外に対応するグループ領域に含まれている。

　なお、例えば構成情報において、特定のライブ会場内のCVPとライブ会場外のCVPでリンクが張られる（関連付けられる）ようにすることもできる。そのような場合、例えば受聴者がそれらの２つのCVP間にあるときには、それらの２つのCVPを用いてベクトル合成により受聴者基準オブジェクト位置情報を求めるようにすることができる。また、この場合、所定のミュートとするオブジェクトのゲインは０とされるようにしてもよい。

　図２９および図３０を参照して、図２８の例をさらに具体的に説明する。なお、図２９および図３０において互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図２９に示すように、自由視点空間における共通絶対座標系の原点Oを中心とする円形状の領域がライブ会場内の領域となっているとする。

　特にここでは点線で描かれた円形状の領域R31がライブ会場内の領域となっており、領域R31外の領域がライブ会場外の領域となっている。

　また、ライブ会場内にはCVP1乃至CVP15が配置されており、ライブ会場外にはCVP16乃至CVP23が配置されている。

　このとき、例えば原点Oを中心とする半径Area1_borderの円内部の領域が１つのグループ領域R41とされ、そのグループ領域R41内に含まれているCVP1乃至CVP15からなるCVPのグループが、グループ領域R41に対応するCVPグループGPIとされる。グループ領域R41は、ライブ会場内の領域である。

　また、図中、右側に示すように原点Oを中心とする半径Area1_borderの円の境界から、原点Oを中心とする半径Area2_borderの円の境界までの間の領域がグループ領域R42とされる。このグループ領域R42は、ライブ会場内とライブ会場外の間の遷移領域である。

　グループ領域R42内に含まれているCVP8乃至CVP23からなるCVPのグループが、グループ領域R42に対応するCVPグループGPMとされる。

　特にこの例では、CVP8乃至CVP15は、グループ領域R41とグループ領域R42の境界に位置しているため、これらのCVP8乃至CVP15は、CVPグループGPIにもCVPグループGPMにも属している。

　さらに、図３０に示すように、原点Oを中心とする半径Area2_borderの円の境界を含む、その円の外側の領域がグループ領域R43とされる。グループ領域R43は、ライブ会場外の領域である。

　グループ領域R43内に含まれているCVP16乃至CVP23からなるCVPのグループが、グループ領域R43に対応するCVPグループGPOとされる。特にこの例では、CVP16乃至CVP23は、グループ領域R42とグループ領域R43の境界に位置しているため、これらのCVP16乃至CVP23は、CVPグループGPMにもCVPグループGPOにも属している。

　以上のようにグループ領域とCVPグループが設定された場合、位置算出部１１４は、以下のようにして補間処理を行い、受聴者基準オブジェクト位置情報や受聴者基準ゲインを求める。

　すなわち、例えば図２９の左側に示すように、受聴位置がグループ領域R41内にあるときには、位置算出部１１４はCVPグループGPIに属すCVP1乃至CVP15の一部または全部を利用して補間処理を行う。

　また、例えば図２９の右側に示すように、受聴位置がグループ領域R42内にあるときには、位置算出部１１４はCVPグループGPMに属すCVP8乃至CVP23の一部または全部を利用して補間処理を行う。

　さらに、例えば図３０に示すように、受聴位置がグループ領域R43内にあるときには、位置算出部１１４はCVPグループGPOに属すCVP16乃至CVP23の一部または全部を利用して補間処理を行う。

　なお、以上においては同心円状にグループ領域が定められる例について説明したが、例えば図３１に示すように、互いに中心位置が異なり、互いに重なる遷移領域をもつ円形状の領域R71と領域R72を設定してもよい。

　この例では、領域R71内にCVP1乃至CVP7が含まれており、領域R72内にCVP5、CVP6、およびCVP8乃至CVP12が含まれている。また、領域R71と領域R72が重なる領域である遷移領域内には、CVP5およびCVP6が含まれている。

　ここで、領域R71内の遷移領域を除く領域、領域R72内の遷移領域を除く領域、および遷移領域をグループ領域としたとする。

　そのような場合、例えば受聴位置が領域R71における遷移領域を除く領域内にあるときには、CVP1乃至CVP7の一部または全部が用いられて補間処理が行われる。

　また、例えば受聴位置が遷移領域内にあるときには、CVP5およびCVP6が用いられて補間処理が行われる。さらに受聴位置が領域R72における遷移領域を除く領域内にあるときにはCVP5、CVP6、およびCVP8乃至CVP12の一部または全部が用いられて補間処理が行われる。

　以上のように制作者がグループ領域、すなわちCVPグループを指定可能な場合、構成情報のフォーマットは、例えば図３２に示すようになる。

　図３２に示す例では、基本的には図７における場合と同様のフォーマットとなっており、構成情報には、フレーム長インデックス「FrameLengthIndex」、オブジェクト数情報「NumOfObjects」、CVP数情報「NumOfControlViewpoints」、メタデータセット数情報「NumOfObjectMetaSets」、CVP情報「ControlViewpointInfo(i)」、および座標モード情報「CoordinateMode[i][j]」が含まれている。

　さらに図３２に示す構成情報には、CVPグループ情報存在フラグ「cvp_group_present」も含まれている。

　このCVPグループ情報存在フラグ「cvp_group_present」は、CVPグループに関する情報であるCVPグループ情報「CvpGroupInfo2D()」が構成情報に含まれているか否かを示すフラグ情報である。

　例えばCVPグループ情報存在フラグの値が「１」である場合、構成情報にはCVPグループ情報「CvpGroupInfo2D()」が格納されており、CVPグループ情報存在フラグの値が「０」である場合、構成情報にはCVPグループ情報「CvpGroupInfo2D()」は格納されていない。

　また、構成情報に含まれるCVPグループ情報「CvpGroupInfo2D()」のフォーマットは、例えば図３３に示すようになっている。なお、ここでは、説明を簡単にするため、自由視点空間が２次元の領域（空間）である場合を例として説明するが、図３３に示すCVPグループ情報を自由視点空間が３次元の領域（空間）である場合に拡張することも勿論可能である。

　この例では、「numOfCVPGroup」は、CVPグループの数、すなわちCVPグループ数を示しており、CVPグループ情報には、CVPグループの数だけ以下において説明するCVPグループに関する情報が格納されている。

　「vertex_idx」は頂点数インデックスを示している。頂点数インデックスは、CVPグループに対応するグループ領域が有する頂点の数を示すインデックス情報である。

　例えば頂点数インデックスの値が０乃至５である場合、グループ領域は、頂点数インデックスの値に３を加算した頂点数の多角形の領域とされる。また、例えば頂点数インデックスの値が255である場合、グループ領域は円形状の領域とされる。

　頂点数インデックスの値が255である場合、すなわちグループ領域の形状タイプが円である場合、CVPグループ情報には円形状であるグループ領域（グループ領域の境界）を特定するための情報として、正規化X座標「center_x[i]」、正規化Y座標「center_y[i]」、および正規化半径「radius[i]」が格納されている。

　例えば正規化X座標「center_x[i]」および正規化Y座標「center_y[i]」は、共通絶対座標系（自由視点空間）におけるグループ領域である円の中心のX座標およびY座標を示す情報であり、正規化半径「radius[i]」はグループ領域である円の半径である。これにより、自由視点空間において、どの領域がグループ領域となっているかを特定することができる。

　また、頂点数インデックスの値が０乃至５の何れかである場合、すなわちグループ領域が多角形の領域である場合、CVPグループ情報にはグループ領域の各頂点について正規化X座標「border_pos_x[j]」および正規化Y座標「border_pos_y[j]」が格納されている。

　例えば正規化X座標「border_pos_x[j]」および正規化Y座標「border_pos_y[j]」は、共通絶対座標系（自由視点空間）におけるグループ領域である多角形の領域のj番目の頂点のX座標およびY座標を示す情報である。

　これらの各頂点の正規化X座標および正規化Y座標から、自由視点空間におけるグループ領域としての多角形の領域を特定することが可能である。

　また、CVPグループ情報には、CVPグループに属すCVPの数を示すグループ内CVP数情報「numOfCVP_ingroup[i]」が格納されており、さらにグループ内CVP数情報により示される数だけグループ内CVPインデックス「CvpIndex_ingroup[i][j]」が格納されている。グループ内CVPインデックス「CvpIndex_ingroup[i][j]」は、i番目のCVPグループに属すj番目のCVPを識別するインデックス情報である。

　例えば、所定のCVPを示すグループ内CVPインデックスの値は、CVP情報に含まれている、その所定のCVPを示すCVPインデックスの値と同じ値とすることができる。

　以上のように、CVPグループ情報には、CVPグループ数、グループ領域の形状タイプを示す頂点数インデックス、グループ領域を特定するための情報、グループ内CVP数情報、およびグループ内CVPインデックスが含まれている。特に、グループ領域を特定するための情報は、グループ領域の境界を特定するための情報であるといえる。

　なお、図３２に示したフォーマットの構成情報が生成される場合においても、情報処理装置１１では基本的には図１４を参照して説明したコンテンツ制作処理が行われる。

　但し、この場合、例えばステップＳ１１やステップＳ１６など、任意のタイミングで制作者によりグループ領域やCVPグループに属すCVPを指定する操作が行われる。

　すると、制御部２６は制作者の操作に応じて、グループ領域やCVPグループに属すCVPを決定（設定）する。そして、ステップＳ２３では、制御部２６は、グループ領域やCVPグループに属すCVPの設定結果に基づいて、適宜、図３３に示したCVPグループ情報が含まれる、図３２に示した構成情報を生成する。

〈再生オーディオデータ生成処理の説明〉
　また、構成情報が図３２に示したフォーマットとされる場合、クライアント１０１では、例えば図３４に示す再生オーディオデータ生成処理が行われる。

　以下、図３４のフローチャートを参照して、クライアント１０１による再生オーディオデータ生成処理について説明する。

　なお、ステップＳ１２１乃至ステップＳ１２３の処理は、図１８のステップＳ８１乃至ステップＳ８３の処理と同様であるので、その説明は省略する。

　ステップＳ１２４において位置算出部１１４は、受聴者位置情報と構成情報に基づいて、受聴位置が含まれるグループ領域に対応するCVPグループを特定する。

　例えば位置算出部１１４は、構成情報内のCVPグループ情報に含まれている、各グループ領域となっている領域を特定するための情報である正規化X座標や正規化Y座標に基づいて、受聴位置を含むグループ領域（以下、対象グループ領域とも称する）を特定する。

　なお、受聴位置が複数のグループ領域の境界位置にあるときには、それらの複数のグループ領域が対象グループ領域とされる。

　このようにして対象グループ領域が特定されると、その対象グループ領域に対応するCVPグループが特定されたことになる。

　ステップＳ１２５において位置算出部１１４は、特定されたCVPグループに属す各CVPを対象CVPとして、それらの対象CVPに関連付けられたオブジェクトメタデータセットを取得する。

　例えば位置算出部１１４は、対象グループ領域に対応するCVPグループのグループ内CVPインデックスをCVPグループ情報から読み出すことで、CVPグループに属すCVP、すなわち対象CVPを特定する。

　また、位置算出部１１４は、対象CVPについてのメタデータセットインデックスをCVP情報から読み出すことで、各対象CVPに関連付けられたオブジェクトメタデータセットを特定し、その特定されたオブジェクトメタデータセットを読み出す。

　ステップＳ１２５の処理が行われると、その後、ステップＳ１２６乃至ステップＳ１２８の処理が行われて再生オーディオデータ生成処理は終了するが、これらの処理は図１８のステップＳ８４乃至ステップＳ８６の処理と同様であるので、その説明は省略する。

　但し、ステップＳ１２６では、ステップＳ１２４およびステップＳ１２５により特定された対象CVPのうちの一部または全部が用いられて補間処理が行われる。すなわち、対象CVPのCVP位置情報やオブジェクト位置情報が用いられて、受聴者基準オブジェクト位置情報や受聴者基準ゲインが算出される。

　これにより、例えば受聴者がライブ会場内にいる場合や、受聴者がライブ会場外にいる場合など、受聴者の位置に応じた適切な音場を再現する再生オーディオデータを得ることができる。

　以上のようにしてクライアント１０１は、受聴者位置情報、構成情報、およびオブジェクトメタデータセットに基づいて、適切なCVPを用いた補間処理を行い、受聴位置における受聴者基準ゲインおよび受聴者基準オブジェクト位置情報を算出する。

　このようにすることで、コンテンツ制作者の意図に基づいた、音楽性のあるコンテンツ再生を実現し、コンテンツの面白さを十分に受聴者に伝えることができる。

〈第３の実施の形態〉
〈オブジェクト位置情報とゲインの補間処理について〉
　ところで、自由視点空間内には、コンテンツ制作者が予め設定した複数のCVPが存在する。以上においては、具体的な一例として受聴者基準オブジェクト位置情報や受聴者基準ゲインを求めるための補間処理に、現在の受聴者の任意位置（受聴位置）からそれぞれのCVPまでの距離の逆数比が用いられる例について説明した。

　そのような例において、例えば受聴位置からCVPまでの距離が離れているCVPについて、オブジェクトのゲインが大きい値に設定されているとする。

　この場合、本来は距離が離れているにもかかわらず、受聴位置から遠い位置にあるCVPについてのオブジェクトのゲインによる、受聴者基準ゲイン、つまり受聴者が聴取するオブジェクトの音に対する聴感上の影響を少なくすることができないことがある。そうすると、結果として受聴者に対して提示されるオブジェクトの音の音像移動が不自然になり、コンテンツの音の品質が低下してしまう。

　以下では、このような受聴位置とCVPの位置関係によって不自然な音像移動が生じてしまうケースをケースAとも称することとする。

　また、コンテンツ制作者が特定のCVPでのオブジェクトのゲインを0としたときに、そのオブジェクトのオブジェクト位置を意識しなくなり、結果としてオブジェクト位置が放置された状態となることがある。すなわち、コンテンツ制作者によりゲインが0とされたオブジェクトのオブジェクト位置の設定が行われずに放置され、結果としてオブジェクト位置情報が適切でない値に設定されてしまうことがある。

　しかし、そのような放置されたオブジェクト位置情報も、受聴者基準オブジェクト位置情報を求めるための補間処理に用いられる。そうすると、放置された適切でないオブジェクト位置情報の影響によって、受聴者から見たオブジェクトの位置が、コンテンツ制作者の意図しない位置となってしまうこともある。

　以下では、受聴者基準オブジェクト位置情報により示される、受聴者から見たオブジェクトの位置が、放置されたオブジェクト位置の影響によってコンテンツ制作者の意図しない位置となってしまうケースをケースBとも称することとする。

　以上のようなケースAやケースBの発生を抑制することができれば、コンテンツ制作者の意図に基づいた、より高品質なコンテンツ再生を実現することができる。

　そこで、第３の実施の形態では、このようなケースAやケースBの発生を抑制することができるようにした。

　例えば、現在の受聴位置から遠く離れているCVPでのオブジェクトのゲインが大きいと、受聴者基準ゲインへの影響が生じてしまうというケースAに対しては、全CVPを用いて距離のN乗で感度を調整する感度係数が適用されるようにした。

　これにより、受聴者基準ゲインを求めるための補間処理において、各CVPの依存度（寄与率）に重み付けが行われるようになる。以下、感度係数を適用することによりケースAの発生を抑制する手法を、特に手法SLA1とも称することとする。

　感度係数を適切に制御することで、現在の受聴位置から遠く離れているCVPの影響度をさらに低減させることが可能となり、ケースAの発生を抑制することができる。これにより、例えば受聴者がCVP間を移動するときなどに、不自然なゲイン変動が発生してしまうことを抑制することができる。

　なお、感度係数の値、すなわちNの値はFloat値などとされる。コンテンツ制作者の意図としてCVPごとの感度係数の値が構成情報にデフォルト値として記述され、クライアント１０１に伝送されるようにしてもよいし、感度係数の値が受聴者側で設定されるようにしてもよい。

　また、CVPごとの感度係数は全てのオブジェクトで共通の値が用いられてもよいが、各CVPについて、コンテンツ制作者の意図によりオブジェクトごとに個別に感度係数が設定されるようにしてもよい。さらに、１または複数のCVPからなるグループごとに、全てのオブジェクトで共通の感度係数やオブジェクトごとの感度係数が設定されるようにしてもよい。

　一方、ゲインが0である等の放置状態のオブジェクトのオブジェクト位置情報を、補間処理におけるベクトル和の要素に入れてしまうと、コンテンツ制作者の意図に沿わない受聴者基準オブジェクト位置情報が算出されてしまうというケースBに対しては、ゲインが寄与材料に追加されたり、ゲインが0よりも大きいオブジェクトのみが用いられたりするようにした。すなわち、以下に示す手法SLB1または手法SLB2によりケースBの発生が抑制されるようにした。

　手法SLB1では、CVPでのゲインが所定の閾値以下であるオブジェクトは、ゲインが0であるオブジェクト（以下、ミュートオブジェクトとも称する）とみなされる。そして、ミュートオブジェクトとされたCVPについては、そのCVPでのオブジェクト位置情報は補間処理に用いられないようにされる。すなわち、補間処理に用いられるCVPの対象から除外される。

　手法SLB2では、コンテンツ制作者等により指定された、オブジェクトのゲインが０であるか否か、すなわちミュートオブジェクトであるか否かを示すMuteフラグ（ミュートフラグ）が用いられる。

　具体的には、MuteフラグによりミュートオブジェクトとなっているCVPについては、そのCVPでのオブジェクト位置情報は補間処理に用いられないようにされる。すなわち、予め使用されないと分かっているオブジェクトに対応するCVPは、補間処理に用いられるCVPの対象から除外される。

　このような手法SLB1や手法SLB2によれば、放置されたゲインが0とみなされるオブジェクトのCVPを処理の対象から除外することで、ゲインが0とみなされないオブジェクトのCVPのみによる正しい補間処理を行うことができるようになる。

　特に手法SLB2では、手法SLB1においてフレームごとに行われる、全CVPの各オブジェクトについて行われる、ゲインが0とみなせるかの確認の処理を回避することができ、より処理負荷を軽減させることができる。

〈CVP配置パターンPTT1〉
　次に、上述のケースAやケースBが発生する実際のCVPの配置パターンの例について説明する。

　まず、図３５に１つ目のCVPの配置パターン（以下、CVP配置パターンPTT1とも称する）を示す。この例では各CVPの前方にオブジェクトが配置される。

　図３５では、数値が記された円は１つのCVPを表しており、特にCVPを表す円内に記された数値は何番目のCVPであるかを示している。以下では、数値k（但し、k＝1,2,…,6）が記されたk番目のCVPを特にCVPkとも称することとする。

　この例では、自由視点空間内にある１つのオブジェクトOBJ71に注目するものとする。

　例えば自由視点空間に配置されたCVP1乃至CVP6では、オブジェクトOBJ71について、各CVPから見たときのオブジェクト位置情報とゲインがそれぞれ定められている。

　いま、所定の受聴位置LP71について、CVP1乃至CVP6でのオブジェクト位置情報とゲインに基づき上述した式（７）乃至式（１１）により補間処理を行い、受聴者基準オブジェクト位置情報および受聴者基準ゲインを求めることを考える。

　そのような場合、例えばCVP1乃至CVP6において、オブジェクトOBJ71のゲインが0以外の同じ値であるときには、上述のケースAもケースBも発生しない。

　これに対して、例えばCVP1乃至CVP3でのオブジェクトOBJ71のゲインが、CVP5およびCVP6でのオブジェクトOBJ71のゲインに比べて大きいときには、ケースAが発生してしまうことがある。

　これは、受聴位置LP71からCVP1乃至CVP3までの距離は長い（遠い）ので、それらのCVPの按分比率は低い、すなわち式（４）乃至式（６）と同様の計算により求まる寄与率dp(i)は小さいが、もともとのゲインが大きいので受聴者基準ゲインに大きく影響してしまうからである。

　また、例えばCVP6ではオブジェクトOBJ71がミュートオブジェクトとされているが、オブジェクト位置情報としての水平方向の角度Azimuthが-180度など、他のCVPでの角度Azimuthと大きく異なるときには、ケースBが発生してしまう。これは、受聴者基準オブジェクト位置情報の算出時には、受聴位置LP71に最も近いCVP6でのオブジェクト位置情報の影響は大きくなるためである。

　ここで、自由視点空間が実質的に２次元平面であり、受聴者やCVPの位置関係が図３５に示した関係（CVP配置パターンPTT1）となるときの共通絶対座標系におけるCVP等の配置例を図３６に示す。なお、図３６において図３５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３６では、横軸および縦軸は、共通絶対座標系におけるX軸およびY軸を示している。また、共通絶対座標系の位置（座標）を（x,y）で表すとすると、例えば受聴位置LP71は（0,-0.8）により表される。

　このような共通絶対座標系における配置に対して、ケースAやケースBが発生するときの各CVPでのオブジェクトOBJ71のオブジェクト位置とゲイン、およびオブジェクトOBJ71の受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を図３７に示す。なお、図３７の例では、上述の式（４）乃至式（６）と同様の計算により寄与率dp(i)が求められている。

　図３７では、文字「CaseA」の欄には、ケースAが発生するときのオブジェクトOBJ71のオブジェクト位置とゲインの例が示されている。

　特に「azi(0)」はオブジェクトOBJ71のオブジェクト位置情報としての角度Azimuthを表しており、「Gain(0)」はオブジェクトOBJ71のゲインを表している。

　この例では、CVP1乃至CVP3でのゲイン（Gain(0)）は「1」となっており、CVP5およびCVP6でのゲイン（Gain(0)）は「0.2」となっている。すなわち、受聴位置LP71から遠いCVP1乃至CVP3でのゲインが、受聴位置LP71から近いCVP5およびCVP6でのゲインよりも大きくなっている。そのため、受聴位置LP71における受聴者基準ゲイン（Gain(0)）は「0.37501」となっている。

　この例では、受聴位置LP71はゲインが0.2であるCVP5とCVP6の間に位置している。そのため、受聴者基準ゲインは、それらのCVP5とCVP6でのゲイン「0.2」に近い値となることが理想的であるが、実際にはゲインの大きいCVP1乃至CVP3の影響により、「0.37501」という「0.2」よりも大きな値となってしまう。

　また、文字「CaseB」の欄には、ケースBが発生するときのオブジェクトOBJ71のオブジェクト位置とゲインの例が示されている。

　特に「azi(1)」はオブジェクトOBJ71のオブジェクト位置情報としての角度Azimuthを表しており、「Gain(1)」はオブジェクトOBJ71のゲインを表している。

　この例では、CVP1乃至CVP5でのゲイン（Gain(1)）および角度Azimuth（azi(1)）は、それぞれ「1」および「0」となっている。すなわち、CVP1乃至CVP5では、オブジェクトOBJ71はミュートオブジェクトとはなっていない。

　これに対して、CVP6でのゲイン（Gain(1)）および角度Azimuth（azi(1)）は、それぞれ「0」および「120」となっている。すなわち、CVP6では、オブジェクトOBJ71はミュートオブジェクトとなっている。

　また、受聴位置LP71における受聴者基準オブジェクト位置情報としての角度Azimuth（azi(1)）は、「67.87193」となっている。

　この例では、CVP6ではゲイン（Gain(1)）が「0」であるので、そのCVP6での角度Azimuth（azi(1)）「120」は無視してほしいが、実際にはCVP6での角度Azimuthが受聴者基準オブジェクト位置情報の算出に用いられてしまう。そのため、受聴位置LP71での角度Azimuth（azi(1)）は、「0」よりも大幅に大きい「67.87193」となってしまっている。

〈CVP配置パターンPTT2〉
　次に、２つ目のCVPの配置パターン（以下、CVP配置パターンPTT2とも称する）を図３８に示す。この例ではオブジェクトを囲むように各CVPが配置される。

　図３８においても図３５における場合と同様に、数値が記された円は１つのCVPを表しており、数値k（但し、k＝1,2,…,8）が記されたk番目のCVPを特にCVPkとも称することとする。

　この例では、１つのオブジェクトOBJ81に注目し、受聴位置LP81について、CVP1乃至CVP8でのオブジェクト位置情報とゲインに基づき上述した式（７）乃至式（１１）により補間処理を行うことを考える。

　そのような場合、例えばCVP1乃至CVP8において、オブジェクトOBJ81のゲインが0以外の同じ値であるときには、上述のケースAもケースBも発生しない。

　これに対して、例えばCVP1、CVP2、CVP6、CVP8でのオブジェクトOBJ81のゲインが、CVP3およびCVP4でのオブジェクトOBJ81のゲインに比べて大きいときには、ケースAが発生してしまうことがある。

　これは、受聴位置LP81からCVP1、CVP2、CVP6、CVP8までの距離は長い（遠い）ので、それらのCVPの按分比率は低いが、もともとのゲインが大きいので受聴者基準ゲインに大きく影響してしまうからである。

　また、例えばCVP3ではオブジェクトOBJ81がミュートオブジェクトとされているが、オブジェクト位置情報としての水平方向の角度Azimuthが-180度など、他のCVPでの角度Azimuthと大きく異なるときには、ケースBが発生してしまう。これは、受聴者基準オブジェクト位置情報の算出時には、受聴位置LP81に最も近いCVP3でのオブジェクト位置情報の影響は大きくなるためである。

　ここで、自由視点空間が実質的に２次元平面であり、受聴者やCVPの位置関係が図３８に示した関係（CVP配置パターンPTT2）となるときの共通絶対座標系におけるCVP等の配置例を図３９に示す。なお、図３９において図３８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３９では、横軸および縦軸は、共通絶対座標系におけるX軸およびY軸を示している。また、共通絶対座標系の位置（座標）を（x,y）で表すとすると、例えば受聴位置LP81は（-0.1768,0.176777）により表される。

　このような共通絶対座標系における配置に対して、ケースAやケースBが発生するときの各CVPでのオブジェクトOBJ81のオブジェクト位置とゲイン、およびオブジェクトOBJ81の受聴者基準オブジェクト位置情報と受聴者基準ゲインの例を図４０に示す。なお、図４０の例では、上述の式（４）乃至式（６）と同様の計算により寄与率dp(i)が求められている。

　図４０では、文字「CaseA」の欄には、ケースAが発生するときのオブジェクトOBJ81のオブジェクト位置とゲインの例が示されている。

　特に「azi(0)」はオブジェクトOBJ81のオブジェクト位置情報としての角度Azimuthを表しており、「Gain(0)」はオブジェクトOBJ81のゲインを表している。

　この例では、CVP1、CVP2、CVP6、CVP8でのゲイン（Gain(0)）は「1」となっており、CVP3およびCVP4でのゲイン（Gain(0)）は「0.2」となっている。そのため、受聴位置LP81における受聴者基準ゲイン（Gain(0)）は「0.501194」となっている。

　この例では、受聴位置LP81はゲインが0.2であるCVP3とCVP4の間に位置している。そのため、受聴者基準ゲインは、それらのCVP3とCVP4でのゲイン「0.2」に近い値となることが理想的であるが、実際にはゲインの大きいCVP1やCVP2などの影響により、「0.501194」という「0.2」よりも大きな値となってしまう。

　また、文字「CaseB」の欄には、ケースBが発生するときのオブジェクトOBJ81のオブジェクト位置とゲインの例が示されている。

　特に「azi(1)」はオブジェクトOBJ81のオブジェクト位置情報としての角度Azimuthを表しており、「Gain(1)」はオブジェクトOBJ81のゲインを表している。

　この例では、CVP3以外のCVPでのゲイン（Gain(1)）および角度Azimuth（azi(1)）は、それぞれ「1」および「0」となっている。すなわち、CVP3以外のCVPでは、オブジェクトOBJ81はミュートオブジェクトとはなっていない。

　これに対して、CVP3でのゲイン（Gain(1)）および角度Azimuth（azi(1)）は、それぞれ「0」および「120」となっている。すなわち、CVP3では、オブジェクトOBJ81はミュートオブジェクトとなっている。

　また、受聴位置LP81における受聴者基準オブジェクト位置情報としての角度Azimuth（azi(1)）は、「20.05743」となっている。

　この例では、CVP3ではゲイン（Gain(1)）が「0」であるので、そのCVP3での角度Azimuth（azi(1)）「120」は無視してほしいが、実際にはCVP3での角度Azimuthが受聴者基準オブジェクト位置情報の算出に用いられてしまう。そのため、受聴位置LP81での角度Azimuth（azi(1)）は、「0」よりも大幅に大きい「20.05743」となってしまっている。

　この実施の形態では、手法SLA1や手法SLB1、手法SLB2によって、以上のようなケースAやケースBの発生が抑制される。

　手法SLA1では、感度係数をNとし、受聴位置からCVPまでの距離のN乗の逆数に基づいて寄与率dp(i)が求められる。このとき、例えばコンテンツ制作者が任意の正の実数を感度係数として指定し、構成情報に感度係数が格納されるようにしてもよいし、受聴者等により感度係数の変更が許可されている場合には、クライアント１０１側で感度係数の設定が行われるようにしてもよい。

　また、手法SLB1では、各フレームにおいてオブジェクトごとにCVPでのオブジェクトのゲインが0、または0とみなすことができる値であるかが判定される。そして、オブジェクトのゲインが0、または0とみなすことができる値であるCVPは、補間処理に用いられないようにされる。すなわち、CVPが補間処理におけるベクトル和の演算対象から除外される。

　手法SLB2では、構成情報に各CVPについて、オブジェクトごとにミュートオブジェクトであるかをシグナリングするMuteフラグが格納される。そして、Muteフラグが1であるオブジェクト、すなわちミュートオブジェクトとなっているCVPは、補間処理におけるベクトル和の演算対象から除外される。

　これらの手法SLB1や手法SLB2では、例えば図４１に示すように補間処理に用いられるCVPが選択される。

　すなわち、例えば手法SLB1や手法SLB2を適用しない場合には、図中、左側に示すように受聴位置LP91の受聴者基準オブジェクト位置情報を求める補間処理では、その受聴位置LP91の周囲にあるCVP1乃至CVP4が全て用いられていた。すなわち、CVP1乃至CVP4の各CVPのオブジェクト位置情報が用いられて補間処理が行われていた。

　これに対して、手法SLB1や手法SLB2を適用する場合には、図中、右側に示すように、ミュートオブジェクトとされたCVP4は補間処理の対象から除外される。すなわち、受聴位置LP91の受聴者基準オブジェクト位置情報を求める補間処理では、CVP4を除いた３つのCVP1乃至CVP3でのオブジェクト位置情報が用いられる。

　手法SLA1と、手法SLB1または手法SLB2とを同時に行った場合、図３７および図４０のそれぞれに示した例では、補間処理の結果として、図４２および図４３のそれぞれに示す結果が得られるようになる。なお、図４２および図４３のそれぞれにおいて、図３７および図４０のそれぞれと対応する部分についてはその説明は適宜省略する。

　図４２は、図３６や図３７に示したCVP配置パターンPTT1において、手法SLA1と、手法SLB1または手法SLB2とを適用した場合の例を示している。

　図４２では、矢印Q71に示す部分には、「CaseA」と「CaseB」について、各CVPでの角度Azimuthとゲインが示されている。

　また、矢印Q72に示す部分には、「CaseA」と「CaseB」について、感度係数の値を変えた場合における受聴者基準オブジェクト位置情報としての角度Azimuthと、受聴者基準ゲインとが示されており、ケースAやケースBの発生が抑制されていることが分かる。

　例えば「CaseA」において、感度係数の値を「3」とした場合、すなわち「1/距離の３乗比」の欄の部分に注目すると、受聴位置LP71における受聴者基準ゲイン（Gain(0)）は「0.205033」となっている。

　この例では、手法SLA1の適用によって、受聴位置LP71から遠い位置にあるCVP1乃至CVP3の影響が大きく低下し、受聴者基準ゲインが、近くにあるCVP5とCVP6でのゲイン「0.2」に近い理想的な値となっていることが分かる。

　すなわち、CVP5とCVP6の間にある受聴位置LP71での受聴者基準ゲインが、それらのCVP5とCVP6でのゲインに近い値となり、不自然な音像移動の発生が抑制される。

　また、「CaseB」に注目すると、受聴位置LP71における受聴者基準オブジェクト位置情報としての角度Azimuth（azi(1)）は、感度係数の値によらず「0」となっている。

　この例では、手法SLB1または手法SLB2の適用によって、ゲインが「0」であるCVP6での角度Azimuth（azi(1)）の値「120」は、補間処理に用いられない。すなわち、CVP6での角度Azimuth「120」は、補間処理での対象から除外される。

　そのため、受聴位置LP71における角度Azimuth（azi(1)）は、対象から除外されていない全てのCVPでの角度Azimuthと同じ値「0」となり、適切な受聴者基準オブジェクト位置情報が得られることが分かる。

　図４３は、図３９や図４０に示したCVP配置パターンPTT2において、手法SLA1と、手法SLB1または手法SLB2とを適用した場合の例を示している。

　図４３では、矢印Q81に示す部分には、「CaseA」と「CaseB」について、各CVPでの角度Azimuthとゲインが示されている。

　また、矢印Q82に示す部分には、「CaseA」と「CaseB」について、感度係数の値を変えた場合における受聴者基準オブジェクト位置情報としての角度Azimuthと、受聴者基準ゲインとが示されており、ケースAやケースBの発生が抑制されていることが分かる。

　例えば「CaseA」において、感度係数の値を「3」とした場合に注目すると、受聴位置LP81における受聴者基準ゲイン（Gain(0)）は「0.25492」となっている。

　この例では、手法SLA1の適用によって、受聴位置LP81から遠い位置にあるCVP1、CVP2、CVP6、およびCVP8の影響が大きく低下し、受聴者基準ゲインが、近くにあるCVP3やCVP4でのゲイン「0.2」に近い理想的な値となっていることが分かる。

　すなわち、感度係数を制御することで、CVP3とCVP4の間にある受聴位置LP81での受聴者基準ゲインが、それらのCVP3とCVP4でのゲインに近い値となり、不自然な音像移動の発生が抑制されることが分かる。

　また、「CaseB」に注目すると、受聴位置LP81における受聴者基準オブジェクト位置情報としての角度Azimuth（azi(1)）は、感度係数の値によらず「0」となっている。

　この例では、手法SLB1または手法SLB2の適用によって、ゲインが「0」であるCVP3での角度Azimuth（azi(1)）の値「120」は、補間処理に用いられない。すなわち、CVP3での角度Azimuth「120」は、補間処理での対象から除外される。

　そのため、受聴位置LP81における角度Azimuth（azi(1)）は、対象から除外されていない全てのCVPでの角度Azimuthと同じ値「0」となり、適切な受聴者基準オブジェクト位置情報が得られることが分かる。

〈構成情報のフォーマット例〉
　また、手法SLB2を適用する場合、構成情報には、例えば図４４に示す構成（情報）が格納される。

　なお、図４４は、手法SLB2を適用する場合における構成情報の一部分のフォーマット（シンタックス）例を示している。

　より詳細には、構成情報には、図４４に示す構成の他、図７に示した構成が含まれている。換言すれば、構成情報には、図７に示した構成の一部に、図４４に示す構成が含まれている。その他、図３２に示した構成情報の一部に図４４に示す構成が含まれるようにしてもよい。

　図４４の例では、「NumOfControlViewpoints」は、CVP数情報、すなわち制作者により設定されたCVPの数を示しており、「numOfObjs」は、オブジェクトの数を示している。

　構成情報には、各CVPについて、オブジェクトの数だけ、それらのCVPとオブジェクトの組み合わせに対応するMuteフラグ「MuteObjIdx[i][j]」が格納されている。

　Muteフラグ「MuteObjIdx[i][j]」は、i番目のCVPから見たときに、すなわち受聴位置（視点位置）がi番目のCVPにあるときに、j番目のオブジェクトがミュートオブジェクトとされるか（ミュートオブジェクトとなっているか）を示すフラグ情報である。具体的には、Muteフラグ「MuteObjIdx[i][j]」の値「0」は、オブジェクトがミュートオブジェクトではないことを示しており、Muteフラグ「MuteObjIdx[i][j]」の値「1」は、オブジェクトがミュートオブジェクトであること、つまりミュート状態であることを示している。

　なお、ここでは、CVPにおいてミュートオブジェクトとされたオブジェクトを特定するためのミュート情報として、Muteフラグが構成情報に格納される例について説明した。しかし、これに限らず、例えば「MuteObjIdx[i][j]」は、ミュートオブジェクトとされたオブジェクトを示すインデックス情報とされてもよい。

　そのような場合には、構成情報には、全てのオブジェクトについて「MuteObjIdx[i][j]」を格納する必要がなく、ミュートオブジェクトとされたオブジェクトについてのみ、構成情報に「MuteObjIdx[i][j]」を格納すればよい。この例においてもクライアント１０１側では、「MuteObjIdx[i][j]」を参照することで、CVPにおいて各オブジェクトがミュートオブジェクトとされているか否かを特定することができる。

〈寄与係数算出処理の説明〉
　続いて、手法SLA1と、手法SLB1または手法SLB2とを適用する場合における情報処理装置１１およびクライアント１０１の動作について説明する。

　例えば手法SLB2が適用される場合、情報処理装置１１は、図１４を参照して説明したコンテンツ制作処理を行う。

　但し、この場合、例えば制御部２６は、任意のタイミングで、CVPにおいてオブジェクトをミュートオブジェクトとするか否かの指定操作を受け付け、ステップＳ２３では、指定操作に応じた値のMuteフラグを含む構成情報を生成する。

　また、例えば構成情報に感度係数が格納される場合には、制御部２６は、任意のタイミングで感度係数の指定操作を受け付け、ステップＳ２３では、指定操作により指定された感度係数を含む構成情報を生成する。

　また、手法SLA1と、手法SLB1または手法SLB2とが適用される場合、クライアント１０１は、基本的には図１８または図３４を参照して説明した再生オーディオデータ生成処理を行う。但し、図１８のステップＳ８４、または図３４のステップＳ１２６では、手法SLA1と、手法SLB1または手法SLB2とに基づく補間処理が行われる。

　具体的には、まずクライアント１０１は、図４５に示す寄与係数算出処理を行うことで、寄与率を得るための寄与係数を算出する。

　以下、図４５のフローチャートを参照して、クライアント１０１により行われる寄与係数算出処理について説明する。

　ステップＳ２０１において位置算出部１１４は、処理対象とするCVPを示すインデックスcvpidxを初期化する。これにより、インデックスcvpidxの値が0とされる。

　ステップＳ２０２において位置算出部１１４は、処理対象のCVPを示すインデックスcvpidxの値が全CVPの数numOfCVP未満であるか否か、すなわちcvpidx＜numOfCVPであるか否かを判定する。

　なお、CVPの数numOfCVPは、補間処理に用いられるCVPの候補の数である。具体的にはCVP数情報により示される数や、受聴位置の周囲にあるなどの特定の条件を満たすCVPの数、対象グループ領域に対応するCVPグループに属すCVPの数などがnumOfCVPとされる。

　ステップＳ２０２においてcvpidx＜numOfCVPであると判定された場合、まだ、補間処理に用いる候補となる全てのCVPについて寄与係数を算出していないので、処理はステップＳ２０３に進む。

　ステップＳ２０３において位置算出部１１４は、受聴者位置情報と処理対象のCVPのCVP位置情報とに基づいて、受聴位置から処理対象のCVPまでのユークリッド距離を算出し、その算出結果を距離情報dist[cvpidx]として保持する。例えば位置算出部１１４は、上述の式（５）と同様の計算を行うことで距離情報dist[cvpidx]を算出する。

　ステップＳ２０４において位置算出部１１４は、距離情報dist[cvpidx]と、感度係数WeightRatioFactorとに基づいて、処理対象のCVPの寄与係数cvp_contri_coef[cvpidx]を算出する。

　例えば感度係数WeightRatioFactorは、構成情報から読み出されるようにしてもよいし、図示せぬ入力部等に対する受聴者等の指定操作により指定されるようにしてもよい。その他、受聴位置と各CVPの位置関係、および各CVPでのオブジェクトのゲイン等に基づいて、位置算出部１１４が感度係数WeightRatioFactorを算出するようにしてもよい。

　なお、ここでは感度係数WeightRatioFactorは、例えば値が2以上である実数などとされる。しかし、これに限定されず、感度係数WeightRatioFactorは任意の値とすることができる。

　例えば位置算出部１１４は、感度係数WeightRatioFactorを指数として距離情報dist[cvpidx]のべき乗を算出し、得られたべき乗の値で1を除算する、つまりべき乗の値の逆数を求めることで、寄与係数cvp_contri_coef[cvpidx]を算出する。

　すなわち、cvp_contri_coef[cvpidx]＝1.0/pow(dist[cvpidx],WeightRatioFactor)の演算を行うことで、寄与係数cvp_contri_coef[cvpidx]が求められる。ここでpow()は、べき乗計算を行う関数を示している。

　ステップＳ２０５において位置算出部１１４は、CVPのインデックスcvpidxの値をインクリメントする。

　ステップＳ２０５の処理が行われると、その後、処理はステップＳ２０２に戻り、上述した処理が繰り返し行われる。すなわち、新たに処理対象とされたCVPについて、寄与係数cvp_contri_coef[cvpidx]が算出される。

　また、ステップＳ２０２においてcvpidx＜numOfCVPではないと判定された場合、全てのCVPが処理対象とされ、寄与係数cvp_contri_coef[cvpidx]が算出されたので、寄与係数算出処理は終了する。

　以上のようにしてクライアント１０１は、受聴位置とCVPとの距離に応じた寄与係数を算出する。このようにすることで、手法SLA1に基づく補間処理を行うことができるようになり、不自然な音像移動の発生を抑制することができる。

〈正規化寄与係数算出処理の説明〉
　また、クライアント１０１は、図４５を参照して説明した寄与係数算出処理を行うと、次に手法SLB1または手法SLB2に基づく、正規化寄与係数算出処理を行うことで、正規化された寄与係数を寄与率として求める。

　ここでは、まず図４６のフローチャートを参照して、クライアント１０１により行われる、手法SLB2に基づく正規化寄与係数算出処理について説明する。

　ここでいう手法SLB2に基づく正規化寄与係数算出処理とは、構成情報に含まれているMuteフラグに基づく正規化寄与係数算出処理である。

　ステップＳ２３１において位置算出部１１４は、処理対象とするCVPを示すインデックスcvpidxを初期化する。これにより、インデックスcvpidxの値が0とされる。

　なお、正規化寄与係数算出処理においては、図４５の寄与係数算出処理で処理対象とされたCVPと同じものが処理対象のCVPとして処理が行われる。したがって、処理対象とするCVPの数numOfCVPも図４５の寄与係数算出処理における場合と同じである。

　ステップＳ２３２において位置算出部１１４は、処理対象とするオブジェクトを示すインデックスobjidxを初期化する。

　これにより、インデックスobjidxの値が0とされる。ここでは、処理対象とされるオブジェクトの数numOfObjsは、コンテンツを構成する全てのオブジェクトの数、つまり構成情報内のオブジェクト数情報により示される数とされる。以降においては、インデックスcvpidxにより示されるCVPと、CVPから見たときのインデックスobjidxにより示されるオブジェクトとについて、順番に処理が行われる。

　ステップＳ２３３において位置算出部１１４は、インデックスobjidxの値が、全オブジェクトの数numOfObjs未満であるか否か、すなわちobjidx＜numOfObjsであるか否かを判定する。

　ステップＳ２３３においてobjidx＜numOfObjsであると判定された場合、ステップＳ２３４において位置算出部１１４は、係数総和変数total_coefの値を初期化する。これにより、インデックスobjidxにより示される処理対象のオブジェクトについての係数総和変数total_coefの値が0とされる。

　係数総和変数total_coefは、インデックスobjidxにより示される処理対象のオブジェクトについて各CVPの寄与係数cvp_contri_coef[cvpidx]を正規化するために用いられる係数である。後述するように、最終的には、１つのオブジェクトについて補間処理に用いられる全CVPの寄与係数cvp_contri_coef[cvpidx]の総和が係数総和変数total_coefとなる。

　ステップＳ２３５において位置算出部１１４は、処理対象のCVPを示すインデックスcvpidxの値が全CVPの数numOfCVP未満であるか否か、すなわちcvpidx＜numOfCVPであるか否かを判定する。

　ステップＳ２３５においてcvpidx＜numOfCVPであると判定された場合、ステップＳ２３６へと進む。

　ステップＳ２３６において位置算出部１１４は、インデックスcvpidxにより示されるCVPにおける、インデックスobjidxにより示される処理対象のオブジェクトのMuteフラグの値が1であるか否か、すなわちミュートオブジェクトであるか否かを判定する。

　ステップＳ２３６においてMuteフラグの値が1であると判定されなかった場合、すなわちミュートオブジェクトではない場合、ステップＳ２３７において位置算出部１１４は、保持している係数総和変数の値に処理対象のCVPの寄与係数を加算することで、係数総和変数を更新する。

　具体的には、total_coef+＝cvp_contri_coef[cvpidx]が計算される。すなわち、位置算出部１１４が保持している、インデックスobjidxにより示される処理対象のオブジェクトの係数総和変数total_coefの現在の値に、インデックスcvpidxにより示される処理対象のCVPの寄与係数cvp_contri_coef[cvpidx]が加算され、その加算結果が更新後の係数総和変数total_coefとされる。

　ステップＳ２３７の処理が行われると、その後、処理はステップＳ２３８へと進む。

　また、ステップＳ２３６においてMuteフラグの値が1であると判定された場合、すなわちミュートオブジェクトである場合、ステップＳ２３７の処理は行われず、その後、処理はステップＳ２３８へと進む。これは、処理対象のオブジェクトがミュートオブジェクトとなっているCVPは、補間処理の対象外とされるからである。

　ステップＳ２３７の処理が行われたか、またはステップＳ２３６においてMuteフラグの値が1であると判定された場合、ステップＳ２３８において位置算出部１１４は、処理対象とするCVPを示すインデックスcvpidxをインクリメントする。

　ステップＳ２３８の処理が行われると、その後、処理はステップＳ２３５に戻り、上述した処理が繰り返し行われる。

　ステップＳ２３５乃至ステップＳ２３８の処理を繰り返し行うことで、処理対象のオブジェクトについて、ミュートオブジェクトとなっていないCVPの寄与係数の総和が求められ、得られた総和が処理対象のオブジェクトの最終的な係数総和変数とされる。この係数総和変数は、上述した式（６）における変数ｔに対応するものである。

　また、ステップＳ２３５においてcvpidx＜numOfCVPでないと判定された場合、ステップＳ２３９において位置算出部１１４は、処理対象とするCVPを示すインデックスcvpidxを初期化する。これにより、処理対象のオブジェクトについて、新たに各CVPが順番に処理対象とされて以降の処理が行われることになる。

　ステップＳ２４０において位置算出部１１４は、cvpidx＜numOfCVPであるか否かを判定する。

　ステップＳ２４０においてcvpidx＜numOfCVPであると判定された場合、ステップＳ２４１へと進む。

　ステップＳ２４１において位置算出部１１４は、インデックスcvpidxにより示されるCVPにおける、インデックスobjidxにより示される処理対象のオブジェクトのMuteフラグの値が1であるか否かを判定する。

　ステップＳ２４１においてMuteフラグの値が1であると判定されなかった場合、すなわちミュートオブジェクトではない場合、ステップＳ２４２において位置算出部１１４は、正規化寄与係数contri_norm_ratio[objidx][cvpidx]を算出する。

　例えば、contri_norm_ratio[objidx][cvpidx]＝cvp_contri_coef[cvpidx]/total_coefの計算が行われて寄与係数が正規化され、正規化後の寄与係数が正規化寄与係数とされる。

　換言すれば、位置算出部１１４はインデックスcvpidxにより示される処理対象のCVPの寄与係数cvp_contri_coef[cvpidx]をインデックスobjidxにより示される処理対象のオブジェクトの係数総和変数total_coefで除算することで正規化を行う。これにより、インデックスobjidxにより示される処理対象のオブジェクトについて、インデックスcvpidxにより示される処理対象のCVPの正規化寄与係数contri_norm_ratio[objidx][cvpidx]が得られる。

　この実施の形態では、正規化寄与係数contri_norm_ratio[objidx][cvpidx]が式（８）における寄与率dp(i)、すなわちCVPの寄与度として用いられる。換言すれば、正規化寄与係数は、補間処理において各オブジェクトについてのCVPの重みとして用いられる。

　より詳細には、式（８）では同じCVPについては、全てのオブジェクトで共通する同じ寄与率dp(i)が用いられていたが、この実施の形態ではミュートオブジェクトとなるCVPを補間処理から除外するため、同じCVPでもオブジェクトごとに正規化寄与係数（寄与率dp(i)）が求められる。

　この場合、図４５の寄与係数算出処理において感度係数を指数とする距離情報のべき乗値により求められた寄与係数に基づき正規化寄与係数が算出されるので、手法SLA1に基づく補間処理を実現することが可能となる。

　ステップＳ２４２の処理が行われると、その後、処理はステップＳ２４４へと進む。

　また、ステップＳ２４１においてMuteフラグの値が1であると判定された場合、すなわちミュートオブジェクトである場合、ステップＳ２４２の処理は行われず、その後、処理はステップＳ２４３へと進む。

　ステップＳ２４３において位置算出部１１４は、インデックスobjidxにより示される処理対象のオブジェクトについてのインデックスcvpidxにより示される処理対象のCVPの正規化寄与係数contri_norm_ratio[objidx][cvpidx]の値を0とする。

　これにより、オブジェクトがミュートオブジェクトとなっているCVPは補間処理の対象から除外され、手法SLB2に基づく補間処理を実現することができるようになる。

　ステップＳ２４２またはステップＳ２４３の処理が行われると、ステップＳ２４４において位置算出部１１４は、処理対象とするCVPを示すインデックスcvpidxをインクリメントする。

　ステップＳ２４４の処理が行われると、その後、処理はステップＳ２４０に戻り、上述した処理が繰り返し行われる。

　ステップＳ２４０乃至ステップＳ２４４の処理を繰り返し行うことで、処理対象のオブジェクトについて、各CVPの正規化寄与係数が求められる。

　また、ステップＳ２４０においてcvpidx＜numOfCVPでないと判定された場合、ステップＳ２４５において位置算出部１１４は、処理対象とするオブジェクトを示すインデックスobjidxをインクリメントする。これにより、まだ処理対象とされていない新たなオブジェクトが処理対象とされる。

　ステップＳ２４５の処理が行われると、その後、処理はステップＳ２３３に戻り、上述した処理が繰り返し行われる。

　また、ステップＳ２３３においてobjidx＜numOfObjsではないと判定された場合、全てのオブジェクトについて、各CVPの正規化寄与係数、すなわち寄与率dp(i)が得られたので、正規化寄与係数算出処理は終了する。

　以上のようにしてクライアント１０１は、各オブジェクトのMuteフラグに応じて、オブジェクトごとに各CVPの正規化寄与係数を算出する。このようにすることで、手法SLB2に基づく補間処理を実現することができるようになり、適切な受聴者基準オブジェクト位置情報を得ることができる。

　以上においては、手法SLB2に基づく正規化寄与係数算出処理について説明したが、手法SLB2における場合と同様の処理が、手法SLB1に基づく正規化寄与係数算出処理として行われる。

　以下、図４７のフローチャートを参照して、クライアント１０１により行われる、手法SLB1に基づく正規化寄与係数算出処理について説明する。

　図４７に示す、手法SLB1に基づく正規化寄与係数算出処理、すなわちステップＳ２７１乃至ステップＳ２８５では、基本的には図４６を参照して説明した正規化寄与係数算出処理のステップＳ２３１乃至ステップＳ２４５と同様の処理が行われる。

　但し、ステップＳ２７６およびステップＳ２８１では、Muteフラグの値が1であるか否かではなく、インデックスcvpidxにより示されるCVPにおける、インデックスobjidxにより示される処理対象のオブジェクトのゲインが0とみなせるか否かが判定される。

　具体的には、オブジェクトのゲインの値が所定の閾値以下である場合、オブジェクトのゲインが0とみなせると判定される。

　ステップＳ２７６においてゲインが0とみなせないと判定された場合、ミュートオブジェクトとなっているCVPではないため、処理はステップＳ２７７へと進み、係数総和変数が更新される。

　これに対して、ステップＳ２７６においてゲインが0とみなせると判定された場合、ミュートオブジェクトとなっているCVPであるため、そのCVPは補間処理の対象外とされ、その後、処理はステップＳ２７８へと進む。

　また、ステップＳ２８１においてゲインが0とみなせないと判定された場合、ミュートオブジェクトとなっているCVPではないため、処理はステップＳ２８２へと進み、正規化寄与係数が算出される。

　これに対して、ステップＳ２８１においてゲインが0とみなせると判定された場合、ミュートオブジェクトとなっているCVPであるため、処理はステップＳ２８３へと進み、正規化寄与係数が0とされてCVPが補間処理の対象から除外される。

　以上のような手法SLB1に基づく正規化寄与係数算出処理によれば、手法SLB1に基づく補間処理を実現することができるようになり、適切な受聴者基準オブジェクト位置情報を得ることができる。

　図１８のステップＳ８４、または図３４のステップＳ１２６では、手法SLB1または手法SLB2に基づく正規化寄与係数算出処理が行われると、その後、位置算出部１１４は、得られた正規化寄与係数を用いて補間処理を行う。

　すなわち、位置算出部１１４は、式（７）の計算を行うことでオブジェクト３次元位置ベクトルを求めるとともに、寄与率dp(i)に代えて、上述した処理により得られた正規化寄与係数contri_norm_ratio[objidx][cvpidx]を用いて式（８）の計算を行う。すなわち、正規化寄与係数が用いられて式（８）の補間処理が行われる。

　さらに位置算出部１１４は、式（８）の計算結果に基づき式（９）の計算を行うとともに、適宜、式（１０）や式（１１）の計算により求まる補正量に基づく補正も行う。

　これにより、手法SLA1と、手法SLB1または手法SLB2とが適用された、最終的な受聴者基準オブジェクト位置情報および受聴者基準ゲインが得られたことになる。

　したがって、上述のケースAやケースBの発生が抑制される。すなわち、不自然な音像移動の発生を抑制するとともに、適切な受聴者基準オブジェクト位置情報を得ることができる。

　手法SLB1と手法SLB2の何れにおいても、位置算出部１１４は、実質的にオブジェクトがミュートオブジェクトとなっていないCVPのCVP位置情報、オブジェクト位置情報、およびオブジェクトのゲインと、受聴者位置情報とに基づいて補間処理を行い、受聴者基準オブジェクト位置情報および受聴者基準ゲインを算出する。

　このとき、手法SLB2では、位置算出部１１４は、ミュート情報としてのMuteフラグに基づいて、オブジェクトがミュートオブジェクトとなっていないCVPを特定する。これに対して、手法SLB1では、位置算出部１１４は、CVPから見たときのオブジェクトのゲインに基づいて、すなわちゲインが閾値以下であるか否かの判定結果に基づいて、オブジェクトがミュートオブジェクトとなっていないCVPを特定する。

〈第４の実施の形態〉
〈オブジェクト位置情報とゲインの補間処理について〉
　ところで、受聴者基準オブジェクト位置情報や受聴者基準ゲインを求めるための補間処理を行うにあたり、再生側、すなわち受聴者側で意図的に補間処理に用いられるCVPを選択できるようにしてもよい。

　そうすれば、受聴者は、自身の好みに合った、聴きたいと思うCVPだけを限定的に利用してコンテンツを楽しむことができる。例えば、オブジェクトとしての全てのアーティストの配置位置が受聴者の近くとなるCVPだけを使用したコンテンツ再生などを行うことができるようになる。

　具体的には、例えば図４８に示すように、自由視点空間における図１１に示した例と同様の位置に、ステージST11、ターゲット位置TP、および各CVPが配置されており、受聴者（ユーザ）が補間処理に用いるCVPを選択できるとする。なお、図４８において図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図４８に示す例では、例えば図中、左側に示すように、オリジナルのCVP構成、すなわちコンテンツ制作者により設定されたCVPとして、CVP1乃至CVP7があったとする。

　この場合に、例えば図中、右側に示すように、受聴者がそれらのCVP1乃至CVP7のうち、ステージST11の近くにあるCVP1、CVP3、CVP4、およびCVP6を選択したとする。

　そうすると、実際にコンテンツが再生される際には、全てのCVPが補間処理に用いられる場合と比較して、オブジェクトとしてのアーティストが、より受聴者の近くにあるように感じられるようになる。

　また、受聴者によるCVPの選択時には、例えば図４９に示すようなCVP選択画面がクライアント１０１に表示されるようにしてもよい。

　この例では、図中、左側には、図４８に示した各CVPについて、それらのCVPからターゲット位置TP、すなわちステージST11を見たときの様子を示す複数の視点画像が並べられたCVP選択画面DSP11が示されている。

　例えば視点画像SPC11乃至視点画像SPC14は、CVP5、CVP7、CVP2、およびCVP6のそれぞれを視点位置（受聴位置）としたときの視点画像となっている。また、CVP選択画面DSP11には、CVPの選択を促すメッセージ「再生したい視点を選択してください」も表示されている。

　このようなCVP選択画面DSP11が表示されると、受聴者（ユーザ）は好みのCVPに対応する視点画像を選択することで、補間処理に用いるCVPを選択する。これにより、例えば図中、左側に示したCVP選択画面DSP11の表示が更新されて、図中、右側に示すCVP選択画面DSP12が表示される。

　CVP選択画面DSP12では、受聴者により選択されなかったCVPの視点画像が薄くグレー表示されるなど、選択されたCVPの視点画像とは異なる表示形式で表示されている。

　ここでは、例えば視点画像SPC11乃至視点画像SPC13に対応するCVP5、CVP7、およびCVP2が選択されておらず、それらのCVPの視点画像はグレー表示となっている。また、受聴者により選択されたCVP6、CVP1、CVP3、およびCVP4に対応する視点画像の表示は、CVP選択画面DSP11における場合と同じ表示のままとなっている。

　このようなCVP選択画面を表示することで、受聴者は視覚的にCVPから見た様子を確認しながら適切にCVPの選択操作を行うことができる。また、CVP選択画面には図４８に示したような会場全体、つまり自由視点空間全体の画像も表示されるようにしてもよい。

　さらに、補間処理に用いるCVPを受聴者が選択できるようにする場合に、構成情報にCVPの選択可否に関する情報を格納することができるようにしてもよい。そうすれば、受聴者（クライアント１０１）側に対してコンテンツ制作者の意図を伝送することができる。

　構成情報にCVPの選択可否に関する情報が格納されている場合には、再生側において選択を許可されたCVPのみが対象とされて受聴者によるCVPの選択が行われ、受聴者によるCVPの選択の有無が検知（特定）される。そして、選択を許可されたCVPのなかに受聴者により選択されなかったCVP（以下、非選択CVPとも称する）がある場合には、非選択CVPが除外されて受聴者基準オブジェクト位置情報や受聴者基準ゲインを算出するための補間処理が行われる。

〈構成情報のフォーマット例〉
　この実施の形態では構成情報には、例えば図５０に示す情報がCVPの選択可否に関する情報、すなわち選択可否情報として格納される。

　なお、図５０は構成情報の一部分のフォーマット（シンタックス）例を示している。

　より詳細には、構成情報には図５０に示す構成の他、図７に示した構成が含まれている。換言すれば、構成情報には、図７に示した構成の一部に図５０に示す構成が含まれている。その他、図３２に示した構成情報の一部に図５０に示す構成が含まれるようにしてもよいし、構成情報にさらに図４４に示した情報が格納されるようにしてもよい。

　図５０の例では、「CVPSelectAllowPresentFlag」は、CVP選択情報存在フラグを示している。CVP選択情報存在フラグは、受聴者側で選択可能なCVPに関する情報が構成情報内に存在しているか否か、すなわち受聴者側でCVPの選択を行うことができるか否かを示すフラグ情報である。

　CVP選択情報存在フラグの値「0」は、構成情報には選択可能なCVPに関する情報が含まれていない（格納されていない）ことを示している。

　また、CVP選択情報存在フラグの値「1」は、構成情報には選択可能なCVPに関する情報が含まれていることを示している。

　CVP選択情報存在フラグの値が「1」である場合、構成情報には、さらに受聴者により選択可能なCVPの数を示す「numOfAllowedCVP」と、受聴者により選択可能なCVPを示すインデックス情報「AllowedCVPIdx[i]」とが格納されている。

　例えばインデックス情報「AllowedCVPIdx[i]」は、受聴者により選択可能なCVPを示す、図９に示したCVPインデックス「ControlViewpointIndex[i]」の値などとされる。また、構成情報には、「numOfAllowedCVP」により示される数だけ選択可能なCVPを示すインデックス情報「AllowedCVPIdx[i]」が格納されている。

　以上のように、図５０の例では、受聴者基準オブジェクト位置情報や受聴者基準ゲインの算出に用いるCVPの選択可否に関する選択可否情報として、CVP選択情報存在フラグ「CVPSelectAllowPresentFlag」、選択可能なCVPの数「numOfAllowedCVP」、およびインデックス情報「AllowedCVPIdx[i]」が構成情報に含まれている。

　このような構成情報を用いれば、クライアント１０１では、コンテンツを構成するCVPのうち、どのCVPが選択を許可されたCVPであるかを特定することができる。

　なお、この実施の形態は、上述の第１の実施の形態乃至第３の実施の形態のうちの任意の１以上のものと組み合わせることが可能である。

　構成情報に図５０に示す構成が含まれる場合においても、情報処理装置１１は、図１４を参照して説明したコンテンツ制作処理を行う。

　但し、この場合、例えば制御部２６は、ステップＳ１６などの任意のタイミングで、選択を許可するCVPとするか否かの指定操作を受け付ける。そしてステップＳ２３では、制御部２６は、指定操作に応じてCVP選択情報存在フラグ、選択可能なCVPの数、選択可能なCVPを示すインデックス情報のうちの必要な情報を含む構成情報を生成する。

〈クライアントの構成例〉
　また、クライアント１０１（受聴者）側において補間処理に用いるCVPを選択することができる場合、クライアント１０１は、例えば図５１に示す構成とされる。なお、図５１において図１７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図５１に示すクライアント１０１の構成は、図１７に示した構成に、新たに入力部２０１および表示部２０２を設けた構成とされている。

　入力部２０１は、例えばタッチパネルやマウス、キーボード、ボタンなどの入力デバイスからなり、受聴者（ユーザ）の入力操作に応じた信号を位置算出部１１４に供給する。

　表示部２０２は、ディスプレイからなり、位置算出部１１４等からの指示に応じてCVP選択画面等の各種の画像を表示する。

〈選択的補間処理の説明〉
　クライアント１０１側で、適宜、補間処理に用いるCVPの選択が可能な場合においても、クライアント１０１は、基本的には図１８または図３４を参照して説明した再生オーディオデータ生成処理を行う。

　但し、図１８のステップＳ８４、または図３４のステップＳ１２６では、図５２に示す選択的補間処理が行われて、受聴者基準オブジェクト位置情報および受聴者基準ゲインが求められる。

　以下、図５２のフローチャートを参照して、クライアント１０１による選択的補間処理について説明する。

　ステップＳ３１１において位置算出部１１４は、復号部１１３から構成情報を取得する。

　ステップＳ３１２において位置算出部１１４は、構成情報に基づいて、選択可能なCVPの数が0より大きいか否か、すなわちnumOfAllowedCVP＞0であるか否かを判定する。

　ステップＳ３１２においてnumOfAllowedCVP＞0であると判定された場合、すなわち受聴者により選択可能なCVPがある場合、ステップＳ３１３において位置算出部１１４は、選択可能なCVPの提示を行い、受聴者によるCVPの選択を受け付ける。

　例えば位置算出部１１４は、構成情報に含まれている選択可能なCVPを示すインデックス情報「AllowedCVPIdx[i]」に基づいて、そのインデックス情報により示されるCVPが選択可能なCVPとして提示されるCVP選択画面を生成し、表示部２０２に表示させる。この場合、表示部２０２は、例えば図４９に示したCVP選択画面を表示する。

　受聴者（ユーザ）は、表示部２０２に表示されたCVP選択画面を見ながら入力部２０１を操作することで、所望するCVPを補間処理に用いるCVPとして選択する。

　すると、入力部２０１から位置算出部１１４には、受聴者の選択操作に応じた信号が供給されるので、位置算出部１１４は、入力部２０１からの信号に応じて表示部２０２の画面を更新させる。これにより、例えば表示部２０２の表示が、図４９の左側に示した表示から、図４９の右側に示した表示へと更新される。

　なお、CVP選択画面における受聴者によるCVPの選択は、コンテンツの再生前に行われるようにしてもよいし、コンテンツの再生中の任意のタイミングで、任意の回数だけ行われるようにしてもよい。

　ステップＳ３１４において位置算出部１１４は、受聴者の選択操作に応じて入力部２０１から供給された信号に基づいて、選択可能なCVPのなかに補間処理から除外されたCVPがあるか否か、すなわち受聴者により選択されなかったCVPがあるか否かを判定する。

　ステップＳ３１４において除外されたCVPがあると判定された場合、その後、処理はステップＳ３１５へと進む。

　ステップＳ３１５において位置算出部１１４は、選択できないCVPと、受聴者により選択されたCVPを用いて補間処理を実施し、受聴者基準オブジェクト位置情報および受聴者基準ゲインを求める。

　より詳細には、選択できないCVPと受聴者により選択されたCVPとからなる複数の各CVPのCVP位置情報やオブジェクト位置情報、オブジェクトのゲイン等と、受聴者位置情報とに基づき補間処理が行われる。

　ここで、選択できないCVPとは、構成情報内にインデックス情報「AllowedCVPIdx[i]」が含まれていないCVPである。換言すれば、選択できないCVPとは、構成情報に含まれている選択可否情報により特定される選択可能とされていないCVPである。

　したがって、ステップＳ３１５では、全CVPから受聴者により選択されなかったCVP、すなわち非選択CVPを除外して残った全てのCVPが用いられて補間処理が行われる。

　すなわち、例えば非選択CVPを除く全てのCVPが用いられて、第１の実施の形態や第３の実施の形態における場合と同様にして補間処理が行われ、受聴者基準オブジェクト位置情報および受聴者基準ゲインが求められる。

　なお、全CVPから非選択CVPを除外する例に限らず、例えば受聴位置の周囲にあるなどの特定の条件を満たすCVPから非選択CVPを除外して得られるCVPや、対象グループ領域に対応するCVPグループに属すCVPから非選択CVPを除外して得られるCVPが用いられて補間処理が行われるようにしてもよい。

　ステップＳ３１５の処理が行われると、選択的補間処理は終了する。

　また、ステップＳ３１２においてnumOfAllowedCVP＞0でないと判定された場合、すなわち選択可能なCVPがない場合、またはステップＳ３１４において除外されたCVPがないと判定された場合、その後、処理はステップＳ３１６へと進む。

　ステップＳ３１６において位置算出部１１４は、全てのCVPを用いて補間処理を実施し、受聴者基準オブジェクト位置情報および受聴者基準ゲインを求め、選択的補間処理は終了する。

　ステップＳ３１６では、補間処理に用いられるCVPが異なるだけで、ステップＳ３１５における場合と同様の補間処理が行われる。なお、ステップＳ３１６においても特定の条件を満たすCVPや、対象グループ領域に対応するCVPグループに属すCVPが用いられて補間処理が行われるようにしてもよい。

　以上のようにしてクライアント１０１は、受聴者の選択等に応じたCVPを選択的に用いて補間処理を行う。このようにすることで、コンテンツ制作者の意図を反映しつつ、受聴者（ユーザ）の好みも反映されたコンテンツ再生を実現することができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図５３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　制御部を備える
　情報処理装置。
（２）
　前記メタデータには、前記オブジェクトのゲインが含まれている
　（１）に記載の情報処理装置。
（３）
　前記制御視点情報には、前記空間における前記制御視点から前記ターゲット位置へと向かう方向を示す制御視点向き情報、または前記空間における前記ターゲット位置を示すターゲット位置情報が含まれている
　（１）または（２）に記載の情報処理装置。
（４）
　前記構成情報には、コンテンツを構成する前記オブジェクトの数を示すオブジェクト数情報、前記制御視点の数を示す制御視点数情報、および前記メタデータセットの数を示すメタデータセット数情報のうちの少なくとも何れか１つが含まれている
　（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
　前記構成情報には、前記空間内の所定のグループ領域に含まれる前記制御視点からなる制御視点グループに関する制御視点グループ情報が含まれており、
　前記制御視点グループ情報には、１または複数の前記制御視点グループについて、前記制御視点グループに属す前記制御視点を示す情報と、前記制御視点グループに対応する前記グループ領域を特定するための情報とが含まれている
　（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
　前記構成情報には、前記制御視点グループ情報が含まれているか否かを示す情報が含まれている
　（５）に記載の情報処理装置。
（７）
　前記制御視点グループ情報には、前記制御視点グループに属す前記制御視点の数を示す情報、および前記制御視点グループの数を示す情報の少なくとも何れかが含まれている
　（５）または（６）に記載の情報処理装置。
（８）
　前記構成情報には、前記制御視点から見たときにミュートオブジェクトとされる前記オブジェクトを特定するためのミュート情報が含まれている
　（１）乃至（７）の何れか一項に記載の情報処理装置。
（９）
　前記構成情報には、受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報の算出、または前記受聴位置から見たときの前記オブジェクトのゲインの算出に用いる前記制御視点の選択可否に関する選択可否情報が含まれている
　（１）乃至（８）の何れか一項に記載の情報処理装置。
（１０）
　情報処理装置が、
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　情報処理方法。
（１１）
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　処理をコンピュータに実行させるプログラム。
（１２）
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得する取得部と、
　前記空間における受聴位置を示す受聴者位置情報を取得する受聴者位置情報取得部と、
　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する位置算出部と
　を備える情報処理装置。
（１３）
　前記取得部は、前記オブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセット、前記制御視点位置情報、および前記制御視点に関連付けられた前記メタデータセットを示す指定情報を取得し、
　前記位置算出部は、互いに異なる複数の前記メタデータセットのうち、前記指定情報により示される前記メタデータセットに含まれている前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　（１２）に記載の情報処理装置。
（１４）
　前記位置算出部は、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づく補間処理により前記受聴者基準オブジェクト位置情報を算出する
　（１２）または（１３）に記載の情報処理装置。
（１５）
　前記補間処理はベクトル合成である
　（１４）に記載の情報処理装置。
（１６）
　前記位置算出部は、前記受聴者位置情報および複数の前記制御視点の前記制御視点位置情報により求まる重みを用いて前記ベクトル合成を行う
　（１５）に記載の情報処理装置。
（１７）
　前記位置算出部は、前記オブジェクトがミュートオブジェクトとなっていない前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報に基づいて、前記補間処理を行う
　（１４）乃至（１６）の何れか一項に記載の情報処理装置。
（１８）
　前記取得部は、前記制御視点から見たときに前記ミュートオブジェクトとされる前記オブジェクトを特定するためのミュート情報をさらに取得し、
　前記位置算出部は、前記ミュート情報に基づいて、前記オブジェクトが前記ミュートオブジェクトとなっていない前記制御視点を特定する
　（１７）に記載の情報処理装置。
（１９）
　前記取得部は、複数の前記制御視点について、前記制御視点から見たときの前記オブジェクトのゲインをさらに取得し、
　前記位置算出部は、前記ゲインに基づいて、前記オブジェクトが前記ミュートオブジェクトとなっていない前記制御視点を特定する
　（１７）に記載の情報処理装置。
（２０）
　前記取得部は、前記受聴者基準オブジェクト位置情報の算出に用いる前記制御視点の選択可否に関する選択可否情報をさらに取得し、
　前記位置算出部は、前記選択可否情報により選択可能とされた前記制御視点のうちの受聴者により選択された前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報に基づいて、前記補間処理を行う
　（１４）乃至（１９）の何れか一項に記載の情報処理装置。
（２１）
　前記位置算出部は、前記選択可否情報により選択可能とされていない前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報と、前記受聴者により選択された前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報とに基づいて、前記補間処理を行う
　（２０）に記載の情報処理装置。
（２２）
　前記受聴者位置情報取得部は、前記空間における受聴者の向きを示す受聴者向き情報を取得し、
　前記位置算出部は、前記受聴者向き情報、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　（１２）乃至（２１）の何れか一項に記載の情報処理装置。
（２３）
　前記取得部は、複数の前記制御視点について、前記空間における前記制御視点から前記ターゲット位置へと向かう方向を示す制御視点向き情報をさらに取得し、
　前記位置算出部は、複数の前記制御視点の前記制御視点向き情報、前記受聴者向き情報、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　（２２）に記載の情報処理装置。
（２４）
　前記取得部は、複数の前記制御視点について、前記制御視点から見たときの前記オブジェクトのゲインをさらに取得し、
　前記位置算出部は、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記ゲインに基づく補間処理により、前記受聴位置から見たときの前記オブジェクトのゲインを算出する
　（１２）乃至（２３）の何れか一項に記載の情報処理装置。
（２５）
　前記位置算出部は、所定の感度係数を指数とした、前記受聴位置から前記制御視点までの距離のべき乗値の逆数から求まる重みに基づいて前記補間処理を行う
　（２４）に記載の情報処理装置。
（２６）
　前記感度係数は、前記制御視点ごと、または前記制御視点から見た前記オブジェクトごとに設定される
　（２５）に記載の情報処理装置。
（２７）
　前記取得部は、前記受聴位置から見たときの前記オブジェクトの前記ゲインの算出に用いる前記制御視点の選択可否に関する選択可否情報をさらに取得し、
　前記位置算出部は、前記選択可否情報により選択可能とされた前記制御視点のうちの受聴者により選択された前記制御視点の前記制御視点位置情報および前記ゲインに基づいて、前記補間処理を行う
　（２４）乃至（２６）の何れか一項に記載の情報処理装置。
（２８）
　前記位置算出部は、前記選択可否情報により選択可能とされていない前記制御視点の前記制御視点位置情報および前記ゲインと、前記受聴者により選択された前記制御視点の前記制御視点位置情報および前記ゲインとに基づいて、前記補間処理を行う
　（２７）に記載の情報処理装置。
（２９）
　前記オブジェクトのオーディオデータと、前記受聴者基準オブジェクト位置情報とに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
　（１２）乃至（２８）の何れか一項に記載の情報処理装置。
（３０）
　前記受聴者基準オブジェクト位置情報は、前記受聴位置を原点とする極座標系の座標により表現された、前記オブジェクトの位置を示す情報である
　（１２）乃至（２９）の何れか一項に記載の情報処理装置。
（３１）
　前記取得部は、前記空間内の所定のグループ領域に含まれる前記制御視点からなる制御視点グループに関する制御視点グループ情報であって、１または複数の前記制御視点グループについて、前記制御視点グループに属す前記制御視点を示す情報、および前記制御視点グループに対応する前記グループ領域を特定するための情報を含む制御視点グループ情報をさらに取得し、
　前記位置算出部は、前記受聴位置を含む前記グループ領域に対応する前記制御視点グループに属す前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報と、前記受聴者位置情報とに基づいて、前記受聴者基準オブジェクト位置情報を算出する
　（１２）乃至（３０）の何れか一項に記載の情報処理装置。
（３２）
　前記位置算出部は、前記制御視点位置情報を含む、複数の各前記制御視点の制御視点情報と、前記制御視点グループ情報が含まれているか否かを示す情報とを含む構成情報を取得し、
　前記構成情報には、前記制御視点グループ情報が含まれているか否かを示す情報に応じて、前記制御視点グループ情報が含まれている
　（３１）に記載の情報処理装置。
（３３）
　前記制御視点グループ情報には、前記制御視点グループに属す前記制御視点の数を示す情報、および前記制御視点グループの数を示す情報の少なくとも何れかが含まれている
　（３１）または（３２）に記載の情報処理装置。
（３４）
　前記取得部は、
　　前記制御視点位置情報を含む、複数の各前記制御視点の制御視点情報と、
　　コンテンツを構成する前記オブジェクトの数を示すオブジェクト数情報、前記制御視点の数を示す制御視点数情報、および前記オブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットの数を示すメタデータセット数情報のうちの少なくとも何れか１つと
　が含まれている構成情報を取得する
　（１２）乃至（３３）の何れか一項に記載の情報処理装置。
（３５）
　情報処理装置が、
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得し、
　前記空間における受聴位置を示す受聴者位置情報を取得し、
　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する
　情報処理方法。
（３６）
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得し、
　前記空間における受聴位置を示す受聴者位置情報を取得し、
　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する
　処理をコンピュータに実行させるプログラム。

　１１　情報処理装置，　２１　入力部，　２２　表示部，　２４　通信部，　２６　制御部，　５１　サーバ，　６１　通信部，　６２　制御部，　７１　符号化部，　１０１　クライアント，　１１１　受聴者位置情報取得部，　１１２　通信部，　１１３　復号部，　１１４　位置算出部，　１１５　レンダリング処理部

Claims

　　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　制御部を備える
　情報処理装置。
　前記メタデータには、前記オブジェクトのゲインが含まれている
　請求項１に記載の情報処理装置。
　前記制御視点情報には、前記空間における前記制御視点から前記ターゲット位置へと向かう方向を示す制御視点向き情報、または前記空間における前記ターゲット位置を示すターゲット位置情報が含まれている
　請求項１に記載の情報処理装置。
　前記構成情報には、コンテンツを構成する前記オブジェクトの数を示すオブジェクト数情報、前記制御視点の数を示す制御視点数情報、および前記メタデータセットの数を示すメタデータセット数情報のうちの少なくとも何れか１つが含まれている
　請求項１に記載の情報処理装置。
　前記構成情報には、前記空間内の所定のグループ領域に含まれる前記制御視点からなる制御視点グループに関する制御視点グループ情報が含まれており、
　前記制御視点グループ情報には、１または複数の前記制御視点グループについて、前記制御視点グループに属す前記制御視点を示す情報と、前記制御視点グループに対応する前記グループ領域を特定するための情報とが含まれている
　請求項１に記載の情報処理装置。
　前記構成情報には、前記制御視点グループ情報が含まれているか否かを示す情報が含まれている
　請求項５に記載の情報処理装置。
　前記制御視点グループ情報には、前記制御視点グループに属す前記制御視点の数を示す情報、および前記制御視点グループの数を示す情報の少なくとも何れかが含まれている
　請求項５に記載の情報処理装置。
　前記構成情報には、前記制御視点から見たときにミュートオブジェクトとされる前記オブジェクトを特定するためのミュート情報が含まれている
　請求項１に記載の情報処理装置。
　前記構成情報には、受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報の算出、または前記受聴位置から見たときの前記オブジェクトのゲインの算出に用いる前記制御視点の選択可否に関する選択可否情報が含まれている
　請求項１に記載の情報処理装置。
　情報処理装置が、
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　情報処理方法。
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットを複数生成し、
　複数の各前記制御視点について、前記空間における前記制御視点の位置を示す制御視点位置情報と、複数の前記メタデータセットのうちの前記制御視点に関連付けられた前記メタデータセットを示す情報とを含む制御視点情報を生成し、
　互いに異なる複数の前記メタデータセットと、複数の前記制御視点の前記制御視点情報を含む構成情報とを含むコンテンツデータを生成する
　処理をコンピュータに実行させるプログラム。
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得する取得部と、
　前記空間における受聴位置を示す受聴者位置情報を取得する受聴者位置情報取得部と、　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する位置算出部と
　を備える情報処理装置。
　前記取得部は、前記オブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセット、前記制御視点位置情報、および前記制御視点に関連付けられた前記メタデータセットを示す指定情報を取得し、
　前記位置算出部は、互いに異なる複数の前記メタデータセットのうち、前記指定情報により示される前記メタデータセットに含まれている前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　請求項１２に記載の情報処理装置。
　前記位置算出部は、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づく補間処理により前記受聴者基準オブジェクト位置情報を算出する
　請求項１２に記載の情報処理装置。
　前記補間処理はベクトル合成である
　請求項１４に記載の情報処理装置。
　前記位置算出部は、前記受聴者位置情報および複数の前記制御視点の前記制御視点位置情報により求まる重みを用いて前記ベクトル合成を行う
　請求項１５に記載の情報処理装置。
　前記位置算出部は、前記オブジェクトがミュートオブジェクトとなっていない前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報に基づいて、前記補間処理を行う
　請求項１４に記載の情報処理装置。
　前記取得部は、前記制御視点から見たときに前記ミュートオブジェクトとされる前記オブジェクトを特定するためのミュート情報をさらに取得し、
　前記位置算出部は、前記ミュート情報に基づいて、前記オブジェクトが前記ミュートオブジェクトとなっていない前記制御視点を特定する
　請求項１７に記載の情報処理装置。
　前記取得部は、複数の前記制御視点について、前記制御視点から見たときの前記オブジェクトのゲインをさらに取得し、
　前記位置算出部は、前記ゲインに基づいて、前記オブジェクトが前記ミュートオブジェクトとなっていない前記制御視点を特定する
　請求項１７に記載の情報処理装置。
　前記取得部は、前記受聴者基準オブジェクト位置情報の算出に用いる前記制御視点の選択可否に関する選択可否情報をさらに取得し、
　前記位置算出部は、前記選択可否情報により選択可能とされた前記制御視点のうちの受聴者により選択された前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報に基づいて、前記補間処理を行う
　請求項１４に記載の情報処理装置。
　前記位置算出部は、前記選択可否情報により選択可能とされていない前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報と、前記受聴者により選択された前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報とに基づいて、前記補間処理を行う
　請求項２０に記載の情報処理装置。
　前記受聴者位置情報取得部は、前記空間における受聴者の向きを示す受聴者向き情報を取得し、
　前記位置算出部は、前記受聴者向き情報、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　請求項１２に記載の情報処理装置。
　前記取得部は、複数の前記制御視点について、前記空間における前記制御視点から前記ターゲット位置へと向かう方向を示す制御視点向き情報をさらに取得し、
　前記位置算出部は、複数の前記制御視点の前記制御視点向き情報、前記受聴者向き情報、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴者基準オブジェクト位置情報を算出する
　請求項２２に記載の情報処理装置。
　前記取得部は、複数の前記制御視点について、前記制御視点から見たときの前記オブジェクトのゲインをさらに取得し、
　前記位置算出部は、前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記ゲインに基づく補間処理により、前記受聴位置から見たときの前記オブジェクトのゲインを算出する
　請求項１２に記載の情報処理装置。
　前記位置算出部は、所定の感度係数を指数とした、前記受聴位置から前記制御視点までの距離のべき乗値の逆数から求まる重みに基づいて前記補間処理を行う
　請求項２４に記載の情報処理装置。
　前記感度係数は、前記制御視点ごと、または前記制御視点から見た前記オブジェクトごとに設定される
　請求項２５に記載の情報処理装置。
　前記取得部は、前記受聴位置から見たときの前記オブジェクトの前記ゲインの算出に用いる前記制御視点の選択可否に関する選択可否情報をさらに取得し、
　前記位置算出部は、前記選択可否情報により選択可能とされた前記制御視点のうちの受聴者により選択された前記制御視点の前記制御視点位置情報および前記ゲインに基づいて、前記補間処理を行う
　請求項２４に記載の情報処理装置。
　前記位置算出部は、前記選択可否情報により選択可能とされていない前記制御視点の前記制御視点位置情報および前記ゲインと、前記受聴者により選択された前記制御視点の前記制御視点位置情報および前記ゲインとに基づいて、前記補間処理を行う
　請求項２７に記載の情報処理装置。
　前記オブジェクトのオーディオデータと、前記受聴者基準オブジェクト位置情報とに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
　請求項１２に記載の情報処理装置。
　前記受聴者基準オブジェクト位置情報は、前記受聴位置を原点とする極座標系の座標により表現された、前記オブジェクトの位置を示す情報である
　請求項１２に記載の情報処理装置。
　前記取得部は、前記空間内の所定のグループ領域に含まれる前記制御視点からなる制御視点グループに関する制御視点グループ情報であって、１または複数の前記制御視点グループについて、前記制御視点グループに属す前記制御視点を示す情報、および前記制御視点グループに対応する前記グループ領域を特定するための情報を含む制御視点グループ情報をさらに取得し、
　前記位置算出部は、前記受聴位置を含む前記グループ領域に対応する前記制御視点グループに属す前記制御視点の前記制御視点位置情報および前記オブジェクト位置情報と、前記受聴者位置情報とに基づいて、前記受聴者基準オブジェクト位置情報を算出する
　請求項１２に記載の情報処理装置。
　前記位置算出部は、前記制御視点位置情報を含む、複数の各前記制御視点の制御視点情報と、前記制御視点グループ情報が含まれているか否かを示す情報とを含む構成情報を取得し、
　前記構成情報には、前記制御視点グループ情報が含まれているか否かを示す情報に応じて、前記制御視点グループ情報が含まれている
　請求項３１に記載の情報処理装置。
　前記制御視点グループ情報には、前記制御視点グループに属す前記制御視点の数を示す情報、および前記制御視点グループの数を示す情報の少なくとも何れかが含まれている
　請求項３１に記載の情報処理装置。
　前記取得部は、
　　前記制御視点位置情報を含む、複数の各前記制御視点の制御視点情報と、
　　コンテンツを構成する前記オブジェクトの数を示すオブジェクト数情報、前記制御視点の数を示す制御視点数情報、および前記オブジェクト位置情報を含む複数の前記オブジェクトのメタデータからなるメタデータセットの数を示すメタデータセット数情報のうちの少なくとも何れか１つと
　が含まれている構成情報を取得する
　請求項１２に記載の情報処理装置。
　情報処理装置が、
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得し、
　前記空間における受聴位置を示す受聴者位置情報を取得し、
　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する
　情報処理方法。
　空間における制御視点からターゲット位置に向かう方向を正中面の方向としたときの前記制御視点から見たオブジェクトの位置を示すオブジェクト位置情報と、前記空間における前記制御視点の位置を示す制御視点位置情報とを取得し、
　前記空間における受聴位置を示す受聴者位置情報を取得し、
　前記受聴者位置情報、複数の前記制御視点の前記制御視点位置情報、および複数の前記制御視点の前記オブジェクト位置情報に基づいて、前記受聴位置から見た前記オブジェクトの位置を示す受聴者基準オブジェクト位置情報を算出する
　処理をコンピュータに実行させるプログラム。