WO2018180531A1

WO2018180531A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2018180531A1
Application number: PCT/JP2018/010165
Authority: WO
Inventors: 徹知念; 辻　実; 優樹山本
Original assignee: ソニー株式会社
Priority date: 2017-03-28
Filing date: 2018-03-15
Publication date: 2018-10-04
Also published as: JP2023040294A; US11074921B2; EP3605531B1; US20200043505A1; JPWO2018180531A1; JP7230799B2; CN110447071B; EP3605531A4; CN110447071A; EP3605531A1

Abstract

本技術は、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の一側面の情報処理装置は、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、統合して得られた統合オーディオオブジェクトのデータを、所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する。本技術は、オブジェクトベースのオーディオデータの処理が可能な装置に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　映像技術の取り組みとして自由視点映像技術が注目されている。複数のカメラによって撮影された多方向からの画像を組み合わせることによって対象物をポイントクラウド（point cloud）の動画像として保持し、見る方向や距離に応じた映像を生成するような技術がある（非特許文献１）。

　自由視点での映像の視聴が実現すると、音響についても、視点に応じて、あたかもその場所にいるかのような音響を聞きたいという要望が出てくる。そこで、近年、オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースのオーディオデータの再生は、各オーディオオブジェクトの波形データを、再生側のシステムに合わせた所望のチャンネル数の信号にメタデータに基づいてレンダリングするようにして行われる。

筑波大学ホームページ、"HOMETSUKUBA FUTURE-#042：自由視点映像でスポーツ観戦をカスタマイズ"、［平成２９年３月２２日検索］、<URL: http://www.tsukuba.ac.jp/notes/042/index.html >

　オブジェクトベースのオーディオデータを伝送する場合、伝送すべきオーディオオブジェクトの数が多いほど、データの伝送量も多くなる。

　本技術はこのような状況に鑑みてなされたものであり、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができるようにするものである。

　本技術の一側面の情報処理装置は、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部とを備える。

　前記統合部には、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成させることができる。

　前記伝送部には、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送させ、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送させることができる。

　前記統合部には、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合させることができる。

　前記統合部には、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合させることができる。

　前記統合部には、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合させることができる。

　前記統合部には、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行わせることができる。

　前記伝送部には、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送させることができる。

　前記伝送部には、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送させることができる。

　本技術の一側面においては、複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトが統合され、統合して得られた統合オーディオオブジェクトのデータが、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送される。

　本技術によれば、複数のオーディオオブジェクトのデータを伝送する場合において、伝送すべきデータ量を削減することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係る伝送システムの構成例を示す図である。伝送されるオブジェクトの種類の例を示す図である。各オブジェクトの配置例を示す平面図である。会場を斜め方向から見た図である。各オブジェクトの配置例を示す正面図である。各オブジェクトの配置例を示す平面図である。統合オブジェクトを含む各オブジェクトの配置例を示す平面図である。統合オブジェクトを含む各オブジェクトの配置例を示す正面図である。コンテンツ生成装置の構成例を示すブロック図である。コンテンツ生成装置の機能構成例を示すブロック図である。再生装置の機能構成例を示すブロック図である。コンテンツ生成装置のコンテンツ生成処理について説明するフローチャートである。コンテンツ生成装置の統合処理について説明するフローチャートである。コンテンツ生成装置の伝送処理について説明するフローチャートである。再生装置の再生処理について説明するフローチャートである。オブジェクトの他の配置の例を示す図である。オブジェクトの纏め方の他の例を示す図である。オブジェクトの纏め方のさらに他の例を示す図である。フラグ情報の伝送例を示す図である。フラグ情報の他の伝送例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．伝送システムの構成
　２．オブジェクトの纏め方
　３．各装置の構成例
　４．各装置の動作
　５．オブジェクトの纏め方の変形例
　６．変形例

＜＜伝送システムの構成＞＞
　図１は、本技術の一実施形態に係る伝送システムの構成例を示す図である。

　図１の伝送システムは、コンテンツ生成装置１と再生装置２が、インターネット３を介して接続されることによって構成される。

　コンテンツ生成装置１は、コンテンツの制作者により管理される装置であり、音楽ライブが行われている会場＃１に設置される。コンテンツ生成装置１により生成されたコンテンツは、インターネット３を介して再生装置２に伝送される。コンテンツの配信が図示せぬサーバを介して行われるようにしてもよい。

　一方、再生装置２は、コンテンツ生成装置１により生成された音楽ライブのコンテンツを視聴するユーザの自宅に設置される装置である。図１の例においては、コンテンツの配信を受ける再生装置として再生装置２のみが示されているが、実際には多くの再生装置がインターネット３に接続される。

　コンテンツ生成装置１によって生成されるコンテンツの映像は、視点を切り替えることが可能な映像である。また、コンテンツの音声も、例えば映像の視点の位置と同じ位置を聴取位置とするように、視点（想定聴取位置）を切り替えることが可能な音声である。視点が切り替えられた場合、音の定位が切り替わる。

　コンテンツの音声は、オブジェクトベースのオーディオとして用意される。コンテンツに含まれるオーディオデータには、それぞれのオーディオオブジェクトのオーディオ波形データと、各オーディオオブジェクトの音源を定位させるためのメタデータとしてのレンダリングパラメータが含まれる。以下、適宜、オーディオオブジェクトを単にオブジェクトという。

　再生装置２のユーザは、用意された複数の視点の中から任意の視点を選択し、視点に応じた映像と音声でコンテンツを視聴することができる。

　コンテンツ生成装置１から再生装置２に対しては、ユーザが選択した視点から見たときの映像のビデオデータと、ユーザが選択した視点のオブジェクトベースのオーディオデータを含むコンテンツが提供される。例えば、このようなオブジェクトベースのオーディオデータは、MPEG-H 3D Audioなどの所定の方式で圧縮した形で伝送される。

　なお、MPEG-H 3D Audioについては、「ISO/IEC 23008-3:2015“Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio”,< https://www.iso.org/standard/63878.html>」に開示されている。

　以下、オーディオデータに関する処理について主に説明する。図１に示すように、会場＃１で行われている音楽ライブは、ベース、ドラム、ギター１（メインギター）、ギター２（サイドギター）、およびボーカルを担当する５人がステージ上で演奏を行うライブであるものとする。ベース、ドラム、ギター１、ギター２、およびボーカルをそれぞれオブジェクトとして、各オブジェクトのオーディオ波形データと、視点毎のレンダリングパラメータがコンテンツ生成装置１において生成される。

　図２は、コンテンツ生成装置１から伝送されるオブジェクトの種類の例を示す図である。

　例えば、複数の視点の中から視点１がユーザにより選択された場合、図２のＡに示すように、ベース、ドラム、ギター１、ギター２、およびボーカルの５種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトのオーディオ波形データと、視点１用の、各オブジェクトのレンダリングパラメータが含まれる。

　また、視点２がユーザにより選択された場合、図２のＢに示すように、ギター１とギター２が１つのオブジェクトであるギターとして纏められ、ベース、ドラム、ギター、およびボーカルの４種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター、およびボーカルの各オブジェクトのオーディオ波形データと、視点２用の、各オブジェクトのレンダリングパラメータが含まれる。

　視点２は、例えば同じ方向から聞こえるために、人間の聴覚上、ギター１の音とギター２の音を弁別することができない位置に設定されている。このように、ユーザが選択した視点において弁別することができないオブジェクトについては、１つのオブジェクトとして纏められてデータの伝送が行われる。

　選択された視点に応じて、適宜、オブジェクトを纏めてデータの伝送を行うことにより、データの伝送量を削減することが可能になる。

＜＜オブジェクトの纏め方＞＞
　ここで、オブジェクトの纏め方について説明する。

　（１）複数のオブジェクトがあると仮定する。
　オブジェクトのオーディオ波形データは下のように定義される。
　　x(n,i)　i=0,1,2,…,L-1

　nは時間インデックスである。また、iはオブジェクトの種類を表す。ここでは、オブジェクトの数はLである。

　（２）複数の視点があると仮定する。
　各視点に対応するオブジェクトのレンダリング情報は下のように定義される。
　　r(i,j)　j=0,1,2,…,M-1

　jは視点の種類を表す。視点の数はMである。

　（３）各視点に対応するオーディオデータy(n,j)は下式（１）により表される。

　ここでは、レンダリング情報rは利得（ゲイン情報）であると仮定する。この場合、レンダリング情報rの値域は0～1である。各視点のオーディオデータは、各オブジェクトのオーディオ波形データに利得をかけ、全オブジェクトのオーディオ波形データを加算したものとして表される。式（１）に示すような演算が、再生装置２において行われる。

　（４）視点において音を弁別できない複数のオブジェクトが纏めて伝送される。例えば、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして選択される。一方、距離が近く、視点において音を弁別可能なオブジェクトについては、纏めることなく、独立したオブジェクトとして伝送される。

　（５）各視点に対応するオブジェクトのレンダリング情報は、オブジェクトの種類、オブジェクトの位置、および視点の位置によって下のように定義される。
　r(obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z)

　obj_typeは、オブジェクトの種類を示す情報であり、例えば楽器の種類を示す。

　obj_loc_x, obj_loc_y, obj_loc_zは、三次元空間上のオブジェクトの位置を示す情報である。

　lis_loc_x, lis_loc_y, lis_loc_zは、三次元空間上の視点の位置を示す情報である。

　独立して伝送するオブジェクトについては、このような、obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_zから構成されるパラメータ情報が、レンダリング情報rとともに伝送される。レンダリングパラメータは、パラメータ情報とレンダリング情報から構成される。

　以下、具体的に説明する。

　（６）例えば、ベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトが図３に示すように配置されるものとする。図３は、会場＃１にあるステージ＃１１を真上から見た図である。

　（７）会場＃１に対して、図４に示すようにＸＹＺの各軸が設定される。図４は、ステージ＃１１と観覧席を含む会場＃１全体を斜め方向から見た図である。原点Ｏはステージ＃１１上の中心位置である。観覧席には、視点１と視点２が設定されている。

　各オブジェクトの座標が以下のように表されるものとする。単位はメートルである。
　ベースの座標　：x=-20, y=0, z=0
　ドラムの座標　：x=0, y=-10, z=0
　ギター１の座標：x=20, y=0, z=0
　ギター２の座標：x=30, y=0, z=0
　ボーカルの座標：x=0, y=10, z=0

　（８）各視点の座標が以下のように表されるものとする。
　視点１：x=25, y=30, z=-1
　視点２：x=-35, y=30, z=-1

　なお、図における各オブジェクトおよび各視点の位置は、あくまで位置関係のイメージを表すものであり、上記各数値を正確に反映させた位置ではない。

　（９）このとき、視点１の各オブジェクトのレンダリング情報は、以下のように表される。
　ベースのレンダリング情報
　　：r(0, -20, 0, 0, 25, 30, -1)
　ドラムのレンダリング情報
　　：r(1, 0, -10, 0, 25, 30, -1)
　ギター１のレンダリング情報
　　：r(2, 20, 0, 0, 25, 30, -1)
　ギター２のレンダリング情報
　　：r(3, 30, 0, 0, 25, 30, -1)
　ボーカルのレンダリング情報
　　：r(4, 0, 10, 0, 25, 30, -1)

　各オブジェクトのobj_typeは以下の値をとるものとする。
　ベース　：obj_type=0
　ドラム　：obj_type=1
　ギター１：obj_type=2
　ギター２：obj_type=3
　ボーカル：obj_type=4

　視点２についても、以上のようにして表されるパラメータ情報とレンダリング情報を含むレンダリングパラメータがコンテンツ生成装置１において生成される。

　（１０）上式（１）から、視点１（j=0）を選択した場合のオーディオデータは下式（２）のように表される。

　ただし、x(n,i)について、iは以下のオブジェクトを表すものとする。
　i=0：ベースのオブジェクト
　i=1：ドラムのオブジェクト
　i=2：ギター１のオブジェクト
　i=3：ギター２のオブジェクト
　i=4：ボーカルのオブジェクト

　視点１から見た各オブジェクトの配置例を図５のＡに示す。図５のＡにおいて、薄い色をつけて示す下方の部分はステージ＃１１の側面を示す。他の図においても同様である。

　（１１）同様に、視点２（j=1）を選択した場合のオーディオデータは下式（３）のように表される。

　視点２から見た各オブジェクトの配置例を図５のＢに示す。

　（１２）ここで、図６に示すように、視点１を基準としたときのギター１の方向とギター２の方向の水平方向の角度である角度θ１と、視点２を基準としたときのギター１の方向とギター２の方向の水平方向の角度である角度θ２は異なる。角度θ１に対して、角度θ２は狭い。

　図６は、各オブジェクトと視点の位置関係を示す平面図である。角度θ１は、視点１とギター１を結ぶ破線Ａ１－１と視点１とギター２を結ぶ破線Ａ１－２の間の角度である。また、角度θ２は、視点２とギター１を結ぶ破線Ａ２－１と視点２とギター２を結ぶ破線Ａ２－２の間の角度である。

　（１３）角度θ１は、人間の聴覚上、弁別可能、すなわち、ギター１の音とギター２の音が異なる方向から聞こえる音として識別可能な角度であるものとする。一方、角度θ2は、人間の聴覚上、弁別が不可能な角度であるものとする。このとき、視点２のオーディオデータは、下式（４）のようにして置き換えることが可能である。

　式（４）において、x(n,5)は、下式（５）により表される。

　すなわち、式（５）は、ギター１とギター２を１つのオブジェクトとして纏め、その１つのオブジェクトのオーディオ波形データを、ギター１のオーディオ波形データとギター２のオーディオ波形データの和として表したものである。ギター１とギター２を纏めた１つのオブジェクトである統合オブジェクトのobj_typeは、obj_type=5とされている。

　また、統合オブジェクトのレンダリング情報は、ギター１のレンダリング情報とギター２のレンダリング情報の平均として、例えば下式（６）により表される。

　このように、obj_type=5として表される統合オブジェクトについては、オーディオ波形データをx(n,5)とするとともに、レンダリング情報をr(5, 25, 0, 0, -35, 30, -1)として処理が行われる。ギター１とギター２を１つのオブジェクトとして纏めた場合の各オブジェクトの配置の例を図７に示す。

　視点２から見た、統合オブジェクトを含む各オブジェクトの配置例を図８に示す。視点２における映像にはギター１とギター２がそれぞれ映っているが、オーディオオブジェクトとしては、１つのギターのみが配置されることになる。

　（１４）このように、選択された視点において聴覚上弁別できないオブジェクトについては、纏められて１つのオブジェクトとしてデータの伝送が行われる。

　これにより、コンテンツ生成装置１は、データを伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。また、レンダリングを行うオブジェクトの数が少ないため、再生装置２は、レンダリングに要する計算量を削減することが可能になる。

　なお、図６の例においては、視点２から見た水平角が角度θ２の範囲内にあるオブジェクトとしてギター１、ギター２の他にボーカルがあるが、ボーカルは、視点２からの距離が近く、ギター１、ギター２とは弁別可能なオブジェクトである。

＜＜各装置の構成例＞＞
＜コンテンツ生成装置１の構成＞
　図９は、コンテンツ生成装置１の構成例を示すブロック図である。

　CPU(Central Processing Unit)２１、ROM(Read Only Memory)２２、RAM(Random Access Memory)２３は、バス２４により相互に接続される。バス２４には、さらに入出力インタフェース２５が接続される。入出力インタフェース２５には、入力部２６、出力部２７、記憶部２８、通信部２９、およびドライブ３０が接続される。

　入力部２６は、キーボード、マウスなどにより構成される。入力部２６は、ユーザの操作の内容を表す信号を出力する。

　出力部２７は、LCD(Liquid Crystal Display)、有機ELディスプレイなどのディスプレイや、スピーカにより構成される。

　記憶部２８は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部２８は、CPU２１により実行されるプログラム、コンテンツなどの各種のデータを記憶する。

　通信部２９は、ネットワークインタフェースなどより構成され、インターネット３を介して外部の装置と通信を行う。

　ドライブ３０は、装着されたリムーバブルメディア３１に対するデータの書き込み、リムーバブルメディア３１に記録されたデータの読み出しを行う。

　図９に示すような構成と同じ構成を再生装置２も有している。以下、適宜、図９に示す構成を再生装置２の構成として引用して説明する。

　図１０は、コンテンツ生成装置１の機能構成例を示すブロック図である。

　図１０に示す構成のうちの少なくとも一部は、図９のCPU２１により所定のプログラムが実行されることによって実現される。コンテンツ生成装置１においては、オーディオエンコーダ５１、メタデータエンコーダ５２、オーディオ生成部５３、ビデオ生成部５４、コンテンツ記憶部５５、および伝送制御部５６が実現される。

　オーディオエンコーダ５１は、図示せぬマイクロホンにより集音された音楽ライブ中の音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。

　メタデータエンコーダ５２は、コンテンツ制作者による操作に従って、各オブジェクトのレンダリングパラメータを視点毎に生成する。会場＃１に設定された複数の視点のそれぞれのレンダリングパラメータがメタデータエンコーダ５２により生成される。

　オーディオ生成部５３は、オーディオエンコーダ５１により生成されたオーディオ波形データとメタデータエンコーダ５２により生成されたレンダリングパラメータを対応付けることによって、オブジェクトベースの各視点のオーディオデータを生成する。オーディオ生成部５３は、生成した各視点のオーディオデータをコンテンツ記憶部５５に出力する。

　オーディオ生成部５３においては、統合部６１が実現される。統合部６１は、適宜、オブジェクトの統合を行う。例えば、統合部６１は、コンテンツ記憶部５５に記憶された各視点のオーディオデータを読み出し、統合可能なオブジェクトを統合して、統合後のオーディオデータをコンテンツ記憶部５５に記憶させる。

　ビデオ生成部５４は、各視点の位置に設置されたカメラにより撮影されたビデオデータを取得し、所定の符号化方式で符号化することによって各視点のビデオデータを生成する。ビデオ生成部５４は、生成した各視点のビデオデータをコンテンツ記憶部５５に出力する。

　コンテンツ記憶部５５は、オーディオ生成部５３により生成された各視点のオーディオデータとビデオ生成部５４により生成された各視点のビデオデータを対応付けて記憶する。

　伝送制御部５６は、通信部２９を制御し、再生装置２と通信を行う。伝送制御部５６は、再生装置２のユーザにより選択された視点を表す情報である選択視点情報を受信し、選択された視点に応じたビデオデータとオーディオデータからなるコンテンツを再生装置２に送信する。

＜再生装置２の構成＞
　図１１は、再生装置２の機能構成例を示すブロック図である。

　図１１に示す構成のうちの少なくとも一部は、図９のCPU２１により所定のプログラムが実行されることによって実現される。再生装置２においては、コンテンツ取得部７１、分離部７２、オーディオ再生部７３、およびビデオ再生部７４が実現される。

　コンテンツ取得部７１は、ユーザにより視点が選択された場合、通信部２９を制御し、選択視点情報をコンテンツ生成装置１に送信する。コンテンツ取得部７１は、選択視点情報を送信することに応じてコンテンツ生成装置１から送信されてきたコンテンツを受信して取得する。コンテンツ生成装置１からは、ユーザにより選択された視点に応じたビデオデータとオーディオデータを含むコンテンツが送信されてくる。コンテンツ取得部７１は、取得したコンテンツを分離部７２に出力する。

　分離部７２は、コンテンツ取得部７１から供給されたコンテンツに含まれるビデオデータとオーディオデータを分離する。分離部７２は、コンテンツのビデオデータをビデオ再生部７４に出力し、オーディオデータをオーディオ再生部７３に出力する。

　オーディオ再生部７３は、分離部７２から供給されたオーディオデータを構成するオーディオ波形データをレンダリングパラメータに基づいてレンダリングし、コンテンツの音声を、出力部２７を構成するスピーカから出力させる。

　ビデオ再生部７４は、分離部７２から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像を、出力部２７を構成するディスプレイに表示させる。

　コンテンツの再生に用いられるスピーカとディスプレイが、再生装置２に接続された外部の機器として用意されるようにしてもよい。

＜＜各装置の動作＞＞
　次に、以上のような構成を有するコンテンツ生成装置１と再生装置２の動作について説明する。

＜コンテンツ生成装置１の動作＞
・コンテンツ生成処理
　はじめに、図１２のフローチャートを参照して、コンテンツを生成するコンテンツ生成装置１の処理について説明する。

　図１２の処理は、例えば、音楽ライブが開始され、各視点のビデオデータと、各オブジェクトの音声信号がコンテンツ生成装置１に入力されたときに開始される。

　会場＃１には複数のカメラが設置されており、それらのカメラにより撮影された映像がコンテンツ生成装置１に入力される。また、会場＃１の各オブジェクトの近くにマイクが設置されており、それらのマイクにより収音された音声信号がコンテンツ生成装置１に入力される。

　ステップＳ１において、ビデオ生成部５４は、各視点用のカメラにより撮影されたビデオデータを取得し、各視点のビデオデータを生成する。

　ステップＳ２において、オーディオエンコーダ５１は、各オブジェクトの音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。上述した例の場合、ベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトのオーディオ波形データが生成される。

　ステップＳ３において、メタデータエンコーダ５２は、コンテンツ制作者による操作に従って、各視点における、各オブジェクトのレンダリングパラメータを生成する。

　例えば、上述したように視点１と視点２が会場＃１に設定されている場合、視点１におけるベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトのレンダリングパラメータのセットと、視点２におけるベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトのレンダリングパラメータのセットが生成される。

　ステップＳ４において、コンテンツ記憶部５５は、オーディオデータとビデオデータを視点毎に対応付けることによって、各視点用のコンテンツを生成し、記憶する。

　以上の処理が、音楽ライブが行われている間、繰り返し行われる。例えば音楽ライブが終了したとき、図１２の処理は終了される。

・オブジェクト統合処理
　次に、図１３のフローチャートを参照して、オブジェクトを統合するコンテンツ生成装置１の処理について説明する。

　例えば、図１３の処理は、ベース、ドラム、ギター１、ギター２、およびボーカルの各オブジェクトのオーディオ波形データと、各視点における、各オブジェクトのレンダリングパラメータのセットが生成された後の所定のタイミングで行われる。

　ステップＳ１１において、統合部６１は、レンダリングパラメータが生成された複数の視点のうちの、所定の１つの視点に注目する。

　ステップＳ１２において、統合部６１は、レンダリングパラメータに含まれるパラメータ情報に基づいて各オブジェクトの位置を特定し、注目する視点を基準とした、各オブジェクトまでの距離を求める。

　ステップＳ１３において、統合部６１は、注目する視点からの距離が遠いオブジェクトが複数あるか否かを判定する。例えば、閾値として予め設定された距離以上離れた位置にあるオブジェクトが、距離が遠いオブジェクトとして扱われる。距離が遠いオブジェクトが複数ないとステップＳ１３において判定された場合、ステップＳ１１に戻り、注目する視点を切り替えて以上の処理が繰り返される。

　一方、距離が遠いオブジェクトが複数あるとステップＳ１３において判定された場合、処理はステップＳ１４に進む。注目する視点として視点２が選択されている場合、例えば、ドラム、ギター１、ギター２が、距離が遠いオブジェクトとして判定される。

　ステップＳ１４において、統合部６１は、距離が遠い複数のオブジェクトが、所定の水平角の範囲内にあるか否かを判定する。すなわち、この例においては、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして処理されることになる。

　距離が遠い複数のオブジェクトが所定の水平角の範囲内にないとステップＳ１４において判定した場合、ステップＳ１５において、統合部６１は、注目している視点については、全てのオブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、上述した視点１が選択された場合と同様に、全てのオブジェクトのオーディオ波形データと、その視点の各オブジェクトのレンダリングパラメータが伝送されることになる。

　一方、距離が遠い複数のオブジェクトが所定の水平角の範囲内にあるとステップＳ１４において判定した場合、ステップＳ１６において、統合部６１は、距離が遠く所定の水平角の範囲内にある複数のオブジェクトを纏め、統合オブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、統合オブジェクトのオーディオ波形データとレンダリングパラメータが、統合されていない独立のオブジェクトのオーディオ波形データとレンダリングパラメータとともに伝送されることになる。

　ステップＳ１７において、統合部６１は、距離が遠く所定の水平角の範囲内にあるオブジェクトのオーディオ波形データの和を求めることによって、統合オブジェクトのオーディオ波形データを生成する。この処理は、上式（５）を計算する処理に相当する。

　ステップＳ１８において、統合部６１は、距離が遠く、所定の水平角の範囲内にあるオブジェクトのレンダリングパラメータの平均を求めることによって、統合オブジェクトのレンダリングパラメータを生成する。この処理は、上式（６）を計算する処理に相当する。

　統合オブジェクトのオーディオ波形データとレンダリングパラメータはコンテンツ記憶部５５に記憶され、注目している視点が選択されたときに伝送するデータとして管理される。

　ステップＳ１５において伝送対象が設定された後、または、ステップＳ１８において統合オブジェクトのレンダリングパラメータが生成された後、ステップＳ１９において、統合部６１は、全ての視点に注目したか否かを判定する。注目していない視点があるとステップＳ１９において判定された場合、ステップＳ１１に戻り、注目する視点を切り替えて以上の処理が繰り返される。

　一方、全ての視点に注目したとステップＳ１９において判定された場合、図１３の処理は終了となる。

　以上の処理により、ある視点において音を弁別できないオブジェクトについては、統合オブジェクトとして纏められることになる。

　図１３の処理が、選択視点情報が再生装置２から送信されてきたことに応じて行われるようにしてもよい。この場合、ユーザにより選択された視点に注目して図１３の処理が行われ、適宜、オブジェクトの統合が行われることになる。

　視点からの距離が遠く、かつ、視点から見た水平角が所定の角度の範囲内にあるオブジェクトではなく、単に、視点からの距離が遠いオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。また、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。

　オブジェクト間の距離が算出され、閾値の距離より近くにあるオブジェクトが統合オブジェクトとして纏められるようにしてもよい。

　一方のオブジェクトのオーディオ波形データが、他方のオブジェクトのオーディオ波形データをマスクする成分の量が閾値より多い場合に、それらのオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。このように、音を弁別できないオブジェクトの判定の仕方は任意である。

・コンテンツ伝送処理
　次に、図１４のフローチャートを参照して、コンテンツを伝送するコンテンツ生成装置１の処理について説明する。

　例えば、図１４の処理は、コンテンツの伝送を開始することが再生装置２から要求され、選択視点情報が再生装置２から送信されてきたときに開始される。

　ステップＳ３１において、伝送制御部５６は、再生装置２から送信されてきた選択視点情報を受信する。

　ステップＳ３２において、伝送制御部５６は、再生装置２のユーザにより選択された視点のビデオデータ、および、選択された視点における各オブジェクトのオーディオ波形データとレンダリングパラメータをコンテンツ記憶部５５から読み出し、伝送する。統合されたオブジェクトについては、統合オブジェクトのオーディオデータとして生成されたオーディオ波形データとレンダリングパラメータが伝送される。

　以上の処理が、コンテンツの伝送が終了するまで繰り返し行われる。コンテンツの伝送が終了したとき、図１４の処理は終了される。

＜再生装置２の動作＞
　次に、図１５のフローチャートを参照して、コンテンツを再生する再生装置２の処理について説明する。

　ステップＳ１０１において、コンテンツ取得部７１は、ユーザにより選択された視点を表す情報を選択視点情報としてコンテンツ生成装置１に送信する。

　例えばコンテンツの視聴開始前、複数用意されている視点のうちのどの視点でコンテンツを視聴するのかの選択に用いられる画面が、コンテンツ生成装置１から送信されてきた情報に基づいて表示される。選択視点情報を送信することに応じて、コンテンツ生成装置１からは、ユーザが選択した視点のビデオデータとオーディオデータを含むコンテンツが送信されてくる。

　ステップＳ１０２において、コンテンツ取得部７１は、コンテンツ生成装置１から送信されてきたコンテンツを受信して取得する。

　ステップＳ１０３において、分離部７２は、コンテンツに含まれるビデオデータとオーディオデータを分離する。

　ステップＳ１０４において、ビデオ再生部７４は、分離部７２から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像をディスプレイに表示させる。

　ステップＳ１０５において、オーディオ再生部７３は、分離部７２から供給されたオーディオデータに含まれる各オブジェクトのオーディオ波形データを、各オブジェクトのレンダリングパラメータに基づいてレンダリングし、音声をスピーカから出力させる。

　以上の処理が、コンテンツの再生が終了するまで繰り返し行われる。コンテンツの再生が終了したとき、図１５の処理は終了される。

　以上のような一連の処理により、伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。

＜＜オブジェクトの纏め方の変形例＞＞
　（１）伝送ビットレートに応じた纏め方
　伝送ビットレートに応じて最大オブジェクト数が決定され、それを超えないようにオブジェクトが纏められるようにしてもよい。

　図１６は、オブジェクトの他の配置の例を示す図である。図１６は、ベース、ドラム、ギター１、ギター２、ボーカル１～６、ピアノ、トランペット、サックスによる演奏の例を示す。図１６の例においては、ステージ＃１１を正面から見る視点３が設定されている。

　例えば、伝送ビットレートに応じた最大オブジェクト数が３であり、視点３が選択された場合、上述したような角度による判定に基づいて、ピアノ、ベース、ボーカル１、ボーカル２が１つ目のオブジェクトとして纏められる。ピアノ、ベース、ボーカル１、ボーカル２は、視点３を基準としてステージ＃１１の左方に向けて設定された、破線Ａ１１と破線Ａ１２の間の角度の範囲内にあるオブジェクトである。

　同様に、ドラム、ボーカル３、ボーカル４が２つ目のオブジェクトとして纏められる。ドラム、ボーカル３、ボーカル４は、ステージ＃１１の中央に向けて設定された、破線Ａ１２と破線Ａ１３の間の角度の範囲内にあるオブジェクトである。

　また、トランペット、サックス、ギター１、ギター２、ボーカル５、ボーカル６が３つ目のオブジェクトとして纏められる。トランペット、サックス、ギター１、ギター２、ボーカル５、ボーカル６は、ステージ＃１１の右方に向けて設定された、破線Ａ１３と破線Ａ１４の間の角度の範囲内にあるオブジェクトである。

　上述したようにして各オブジェクト（統合オブジェクト）のオーディオ波形データとレンダリングパラメータが生成され、３つのオブジェクトのオーディオデータが伝送される。このように、統合オブジェクトとして纏めるオブジェクトの数を３以上とすることも可能である。

　図１７は、オブジェクトの纏め方の他の例を示す図である。例えば、伝送ビットレートに応じた最大オブジェクト数が６であり、視点３が選択された場合、上述したような角度と距離による判定に基づいて、図１７の破線で区切って示すようにして各オブジェクトが纏められる。

　図１７の例においては、ピアノとベースが１つ目のオブジェクトとして纏められ、ボーカル１とボーカル２が２つ目のオブジェクトとして纏められている。また、ドラムが独立の３つ目のオブジェクトとされ、ボーカル３とボーカルが４つ目のオブジェクトとして纏められている。トランペット、サックス、ギター１、ギター２が５つ目のオブジェクトとして纏められ、ボーカル５、ボーカル６が６つ目のオブジェクトとして纏められている。

　図１６に示す纏め方は、図１７に示す纏め方と比べて、伝送ビットレートが低い場合に選択される纏め方となる。

　伝送するオブジェクトの数を伝送ビットレートに応じて決定することにより、伝送ビットレートが高い場合には高音質での視聴が可能となり、伝送ビットレートが低い場合には低音質での視聴が可能となるといったように、伝送ビットレートに応じた音質でのコンテンツの伝送が可能になる。

　例えば、コンテンツ生成装置１のコンテンツ記憶部５５には、視点３が選択された場合に伝送するオーディオデータとして、図１６に示すように３つのオブジェクトのオーディオデータと、図１７に示すように６つのオブジェクトのオーディオデータが記憶される。

　伝送制御部５６は、コンテンツの伝送を開始する前、再生装置２の通信環境を判別し、伝送ビットレートに応じて、３つのオブジェクトのオーディオデータ、６つのオブジェクトのオーディオデータのうちのいずれかを選択して伝送を行うことになる。

　（２）オブジェクトのグルーピング
　以上の例においては、レンダリング情報が利得であるものとしたが、リバーブ情報とすることも可能である。リバーブ情報を構成するパラメータの中で、重要なパラメータは残響量である。残響量は、壁や床などの空間反射成分の量である。オブジェクト（楽器）と視聴者の距離に応じて残響量は異なる。一般的に、その距離が短いと残響量は少なく、長いと残響量は多くなる。

　音が弁別可能か否かを距離や角度に基づいて判定し、オブジェクトを纏めること以外に、別の指標として、オブジェクト間の距離に応じてオブジェクトを纏めるようにしてもよい。オブジェクト間の距離をも考慮してオブジェクトを纏める場合の例を図１８に示す。

　図１８の例においては、破線で区切って示すようにオブジェクトのグループ分けが行われ、各グループに属するオブジェクトが纏められる。各グループに属するオブジェクトは下のようになる。
　グループ１　ボーカル１、ボーカル２
　グループ２　ボーカル３、ボーカル４
　グループ３　ボーカル５、ボーカル６
　グループ４　ベース
　グループ５　ピアノ
　グループ６　ドラム
　グループ７　ギター１、２
　グループ８　トランペット、サックス

　この場合、コンテンツ生成装置１のコンテンツ記憶部５５には、視点３が選択された場合に伝送するオーディオデータとして、８つのオブジェクトのオーディオデータが記憶される。

　このように、音が弁別できない角度の範囲内にあるオブジェクトであっても、異なるリバーブを適用するオブジェクトとして処理されるようにしてもよい。

　このように、纏めることが可能なオブジェクトからなるグループが予め設定されるようにすることが可能である。距離や角度に基づく上述したような条件を満たすオブジェクトであって、同じグループに属するオブジェクトだけが統合オブジェクトとして纏められることになる。

　オブジェクト間の距離だけでなく、オブジェクトの種類、オブジェクトの位置等に応じてグループが設定されるようにしてもよい。

　なお、利得やリバーブ情報だけでなく、レンダリング情報が、イコライザ情報、コンプレッサー情報、リバーブ情報であってもよい。すなわち、レンダリング情報rについては、利得、イコライザ情報、コンプレッサー情報、リバーブ情報のうちの少なくともいずれかを表す情報とすることが可能である。

　（３）オブジェクトオーディオ符号化の高効率化
　２つの弦楽器のオブジェクトを１つの弦楽器オブジェクトとして纏める場合について説明する。統合オブジェクトとしての１つの弦楽器オブジェクトには新たなオブジェクトタイプ（obj_type）が割り当てられる。

　纏める対象のオブジェクトであるバイオリン１のオーディオ波形データをx(n,10)、バイオリン２のオーディオ波形データをx(n,11)とすると、統合オブジェクトとしての弦楽器オブジェクトのオーディオ波形データx(n,14)は、下式（７）により表される。

　ここで、バイオリン１とバイオリン２は同じ弦楽器であるので、２つのオーディオ波形データの相関は高い。

　下式（８）で示すバイオリン１とバイオリン２のオーディオ波形データの差成分x(n,15)は、情報エントロピーが低く、符号化する場合のビットレートも少なくて済む。

　式（８）で示す差成分x(n,15)を、和成分として表されるオーディオ波形データx(n,14)とともに伝送することにより、以下に説明するように、低いビットレートで高音質を実現することが可能になる。

　通常、コンテンツ生成装置１から再生装置２に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置２側において高音質化を行う場合には、差成分x(n,15)も伝送される。

　オーディオ波形データx(n,14)とともに差成分x(n,15)を受信した再生装置２は、以下の式（９）、式（１０）に示す計算を行うことにより、バイオリン１のオーディオ波形データx(n,10)と、バイオリン２のオーディオ波形データx(n,11)を再現することができる。

　この場合、コンテンツ生成装置１のコンテンツ記憶部５５には、所定の視点が選択された場合に伝送する弦楽器オブジェクトのオーディオデータとして、オーディオ波形データx(n,14)とともに差成分x(n,15)が記憶される。

　差成分のデータを保持していることを示すフラグがコンテンツ生成装置１において管理される。そのフラグは、例えば他の情報とともにコンテンツ生成装置１から再生装置２に対して送信され、差成分のデータを保持していることが再生装置２により特定される。

　このように、相関の高いオブジェクトのオーディオ波形データについては、差成分をもコンテンツ生成装置１側に保持させておくことにより、伝送ビットレートに応じた音質の調整を２段階で行うことが可能になる。すなわち、再生装置２の通信環境がよい場合（伝送ビットレートが高い場合）にはオーディオ波形データx(n,14)と差成分x(n,15)が伝送され、通信環境がよくない場合にはオーディオ波形データx(n,14)のみが伝送される。

　なお、オーディオ波形データx(n,14)と差成分x(n,15)を足し合わせたデータ量は、オーディオ波形データx(n,10)とx(n,11)を足し合わせたデータ量より少ない。

　オブジェクトの数が４つである場合も同様にして纏めることが可能である。４つの楽器を纏めると、その纏めたオブジェクトのオーディオ波形データx(n,14)は下式（１１）により表される。

　ここで、x(n,10)はバイオリン１のオーディオ波形データ、x(n,11)はバイオリン２のオーディオ波形データ、x(n,12)はバイオリン３のオーディオ波形データ、x(n,13)はバイオリン４のオーディオ波形データである。

　この場合、下式（１２）～（１４）で表される差成分のデータがコンテンツ生成装置１により保持される。

　通常、コンテンツ生成装置１から再生装置２に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置２側において高音質化を行う場合には、差成分x(n,15)、x(n,16)、x(n,17)も伝送される。

　オーディオ波形データx(n,14)とともに差成分x(n,15)、x(n,16)、x(n,17)を受信した再生装置２は、以下の式（１５）～（１８）に示す計算を行うことにより、バイオリン１のオーディオ波形データx(n,10)、バイオリン２のオーディオ波形データx(n,11)、バイオリン３のオーディオ波形データx(n,12)、バイオリン４のオーディオ波形データx(n,13)を再現することができる。

　さらに、下式（１９）から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン１のオーディオ波形データとバイオリン２のオーディオ波形データの和（x(n,10) + x(n,11)）を取得することが可能であることが分かる。また、下式（２０）から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン３のオーディオ波形データとバイオリン４のオーディオ波形データの和（x(n,12) + x(n,13)）を取得することが可能であることが分かる。

　例えば、再生装置２が対応可能な伝送ビットレートが第１の閾値より高く、通信環境が３段階のうち最もよい場合、４つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)、x(n,16)、x(n,17)がコンテンツ生成装置１から伝送される。

　再生装置２においては、式（１５）～（１８）に示す計算が行われ、バイオリン１、バイオリン２、バイオリン３、バイオリン４の各オブジェクトのオーディオ波形データが取得され、高品質での再生が行われる。

　また、再生装置２が対応可能な伝送ビットレートが上記第１の閾値より未満であるが、第２の閾値より高く、通信環境が比較的よい場合、４つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)がコンテンツ生成装置１から伝送される。

　再生装置２においては、式（１９）、式（２０）に示す計算が行われ、バイオリン１とバイオリン２を纏めたオーディオ波形データと、バイオリン３とバイオリン４を纏めたオーディオ波形データが取得され、オーディオ波形データx(n,14)だけを用いた場合より高品質での再生が行われる。

　再生装置２が対応可能な伝送ビットレートが上記第２の閾値未満である場合、４つのオブジェクトを纏めたオーディオ波形データx(n,14)がコンテンツ生成装置１から伝送される。

　このように、伝送ビットレートに応じた階層的な伝送（符号化）がコンテンツ生成装置１により行われるようにしてもよい。

　このような階層的な伝送が、再生装置２のユーザが支払った料金に応じて行われるようにしてもよい。例えば、ユーザが通常の料金を支払った場合にはオーディオ波形データx(n,14)のみの伝送が行われ、その料金より高い料金を支払った場合には、オーディオ波形データx(n,14)と差成分の伝送が行われる。

　（４）ポイントクラウド動画像データとの連携
　コンテンツ生成装置１が伝送するコンテンツのビデオデータがポイントクラウド動画像データであるものとする。ポイントクラウド動画像データとオブジェクトオーディオデータは、ともに３次元空間上の座標データを持ち、その座標における色データおよびオーディオデータとなる。

　なお、ポイントクラウド動画像データについては、例えば「Microsoft “A Voxelized Point Cloud Dataset”,<https://jpeg.org/plenodb/pc/microsoft/>」に開示されている。

　コンテンツ生成装置１は、例えば、ボーカルの位置情報として３次元座標を保持し、その座標に紐づける形で、ポイントクラウド動画像データおよびオーディオオブジェクトデータを保持する。これにより、再生装置２は、所望のオブジェクトのポイントクラウド動画像データとオーディオのオブジェクトデータを容易に取得することができる。

＜＜変形例＞＞
　コンテンツ生成装置１が伝送するオーディオビットストリーム中に、そのストリームにより伝送されるオブジェクトが、纏められていない独立のオブジェクトであるのか、統合オブジェクトであるのか否かを示すフラグ情報が含まれるようにしてもよい。フラグ情報を含むオーディオビットストリームを図１９に示す。

　図１９のオーディオビットストリームには、例えば、オブジェクトのオーディオ波形データとレンダリングパラメータも含まれる。

　図１９のフラグ情報が、ストリームにより伝送されるオブジェクトが独立のオブジェクトであるのか否かを示す情報、または、統合オブジェクトであるのか否かを示す情報であってもよい。

　これにより、再生装置２は、ストリームを解析することによって、当該ストリームに含まれるデータが、統合オブジェクトのデータであるのか、独立のオブジェクトのデータであるのかを特定することが可能になる。

　このようなフラグ情報が、図２０に示すように、ビットストリームとともに伝送される再生管理ファイルに記述されるようにしてもよい。再生管理ファイルには、当該再生管理ファイルが再生対象とするストリーム（当該再生管理ファイルを用いて再生が行われるストリーム）のストリームID等の情報も記述される。この再生管理ファイルは、MPEG-DASHのMPD(Media Presentation Description)fileとして構成されてもよい。

　これにより、再生装置２は、再生管理ファイルを参照することによって、当該ストリームにより伝送されるオブジェクトが、統合オブジェクトであるのか、独立のオブジェクトであるのかを特定することが可能になる。

　再生装置２により再生されるコンテンツが、ビデオデータと、オブジェクトベースのオーディオデータとを含むものであるとしたが、ビデオデータを含まずに、オブジェクトベースのオーディオデータからなるコンテンツであってもよい。レンダリングパラメータが用意されている聴取位置の中から所定の聴取位置が選択された場合、選択された聴取位置に対するレンダリングパラメータを用いて、各オーディオオブジェクトの再生が行われる。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

・プログラムについて
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

　インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図９に示されるリムーバブルメディア３１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM２２や記憶部２８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

・組み合わせについて
　本技術は、以下のような構成をとることもできる。
（１）
　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
　を備える情報処理装置。
（２）
　前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
　前記（１）に記載の情報処理装置。
（３）
　前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
　前記（２）に記載の情報処理装置。
（４）
　前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する
　前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（１０）
　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
　ステップを含む情報処理方法。
（１１）
　コンピュータに、
　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
　ステップを含む処理を実行させるためのプログラム。

　１　コンテンツ生成装置，　２　再生装置，　５１　オーディオエンコーダ，　５２　メタデータエンコーダ，　５３　オーディオ生成部，　５４　ビデオ生成部，　５５　コンテンツ記憶部，　５６　伝送制御部，　６１　統合部，　７１　コンテンツ取得部，　７２　分離部，　７３　オーディオ再生部，　７４　ビデオ再生部　７３　オーディオ再生部

Claims

　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
　を備える情報処理装置。
　前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
　請求項１に記載の情報処理装置。
　前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
　請求項２に記載の情報処理装置。
　前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
　請求項１に記載の情報処理装置。
　前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
　請求項１に記載の情報処理装置。
　前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する
　請求項１に記載の情報処理装置。
　前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
　請求項１に記載の情報処理装置。
　前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
　請求項１に記載の情報処理装置。
　前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
　請求項１に記載の情報処理装置。
　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
　ステップを含む情報処理方法。
　コンピュータに、
　複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
　統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
　ステップを含む処理を実行させるためのプログラム。