WO2016084592A1

WO2016084592A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2016084592A1
Application number: PCT/JP2015/081524
Authority: WO
Inventors: 高橋　和幸; 北里　直久
Original assignee: ソニー株式会社
Priority date: 2014-11-28
Filing date: 2015-11-09
Publication date: 2016-06-02
Also published as: US10880597B2; KR20170088843A; CA2967249C; KR102605480B1; MX2017006581A; EP3226241B1; CN107004419A; JPWO2016084592A1; CA2967249A1; JP6624068B2; EP3226241A4; EP3226241A1; US20180310049A1; CN107004419B

Abstract

　受信側でビュー切り替えを行う場合であっても３Ｄオーディオレンダリングを正しく行い得るようにする。　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第１のビューを基準とする位置情報を持つオーディオストリームを生成する。第１のビデオストリーム、第２のビデオストリームおよびオーディオストリームと、オブジェクト音源の位置情報を第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオストリームと共にオブジェクト音源のオーディオデータおよび位置情報を持つオーディオストリームを送信する送信装置等に関する。

　従来、立体（３Ｄ）音響技術として、オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする３Ｄオーディオレンダリングの技術が提案されている（例えば、特許文献１参照）。

特表２０１４－５２０４９１号公報

　上述したオブジェクト音源の位置情報は、一つのビューを基準としている。同じコンテンツに対して複数のビューを撮影する場合、使用するカメラの位置や方向は、カメラごとに異なる。そのため、受信側でビューを切り替える場合、基準としたビュー以外では、３Ｄオーディオレンダリングを正しく行うことができなくなる。

　本技術の目的は、受信側でビュー切り替えを行う場合であっても３Ｄオーディオレンダリングを正しく行い得るようにすることにある。

　本技術の概念は、
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
　送信装置にある。

　本技術において、エンコード部により、第１のビューのビデオデータを持つ第１のビデオストリームおよび第２のビューのビデオデータを持つ第２のビデオストリームと共に、オーディオストリームが生成される。このオーディオストリームは、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第１のビューを基準とする位置情報を持つものである。

　送信部により、第１のビデオストリーム、第２のビデオストリームおよびオーディオストリームと、オブジェクト音源の位置情報を第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナが送信される。例えば、位置補正情報は、第１のビューと第２のビューの位置および方向の差分成分である、ようにされてもよい。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。

　例えば、位置補正情報は、オーディオストリームのレイヤに挿入される、ようにされてもよい。この場合、オブジェクト音源のオーディオデータおよび位置情報と位置補正情報との同期が保証される。この場合、例えば、位置補正情報は、位置情報が含まれるメタデータ領域に挿入される、ようにされてもよい。また、この場合、例えば、位置補正情報は、ユーザデータ領域に挿入される、ようにされてもよい。

　また、この場合、例えば、第２のビューが複数であるとき、オーディオストリームのレイヤに、複数の第２のビューに対応して複数の位置補正情報が挿入され、コンテナのレイヤに、複数の位置補正情報のそれぞれが対応する第２のビデオストリームを示す情報が挿入される、ようにされてもよい。

　また、例えば、位置補正情報は、第２のビデオストリームのレイヤに挿入される、ようにされてもよい。この場合、位置補正情報と第２のビデオストリームとの対応付けが容易となる。この場合、例えば、位置補正情報は、ユーザデータ領域に挿入される、ようにされてもよい。

　また、例えば、位置補正情報は、コンテナのレイヤに挿入される、ようにされてもよい。この場合、例えば、位置補正情報は、シグナリング情報として挿入される、ようにされてもよい。この場合、受信側では、システムのレイヤで位置補正情報を得ることが可能となる。

　この場合、コンテナは、ＭＰＥＧ２―ＴＳであり、位置補正情報は、プログラムマップテーブルの第２のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される、ようにされてもよい。

　また、この場合、位置補正情報を含む情報ストリームが挿入される、ようにされてもよい。この場合、受信側では、オーディオストリームやビデオストリームとは独立した情報ストリームから位置補正情報を容易に取得可能となる。

　このように本技術においては、第１のビデオストリーム、第２のビデオストリームおよびオーディオストリームと共に、オブジェクト音源の位置情報を第２のビューを基準とする位置情報に補正するための位置補正情報が送信されるものである。そのため、受信側で第２のビューに切り替えを行う場合、オブジェクト音源の位置情報としてこの位置補正情報で第２のビューを基準とするように補正されたものを用いることができ、３Ｄオーディオレンダリングを正しく行い得るようになる。

　また、本技術の他の概念は、
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
　上記コンテナに含まれる情報を処理する処理部とを備える
　受信装置にある。

　本技術において、受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第１のビューを基準とする位置情報を持つオーディオストリームと共に、オブジェクト音源の位置情報を第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナが受信される。そして、処理部により、コンテナに含まれる情報が処理される。

　例えば、処理部は、第１のビデオストリーム、第２のビデオストリームおよびオーディオストリームから、第１のビューのビデオデータ、第２のビューのビデオデータ、オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、第１のビューのビデオデータまたは第２のビューのビデオデータを選択的に出力するセレクタと、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、レンダリング部は、セレクタで第２のビューのビデオデータが選択されるとき位置補正情報に基づいて第２のビューを基準とするように補正された位置情報を用いる、ようにされてもよい。

　このように本技術においては、例えば、第２のビューのビデオデータが選択されるとき、位置補正情報に基づいて第２のビューを基準とするように補正された位置情報が用いられてレンダリングが行われる。そのため、ビュー切り替えが行われる場合であっても、３Ｄオーディオレンダリングを正しく行い得るようになる。

　また、本技術の他の概念は、
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクタと、
　上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
　上記レンダリング部は、上記セレクタで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　受信装置にある。

　本技術において、受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよびこのオブジェクト音源の第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナが受信される。

　取得部により、オブジェクト音源の位置情報を第２のビューを基準とする位置情報に補正するための位置補正情報が取得される。例えば、取得部は、位置補正情報を、オーディオストリームのレイヤ、第２のビデオストリームのレイヤあるいはコンテナのレイヤから取得する、ようにされてもよい。また、例えば、取得部は、位置補正情報を、ネットワーク上のサーバから取得する、ようにされてもよい。

　デコード部により、第１のビデオストリーム、第２のビデオストリームおよびオーディオストリームから、第１のビューのビデオデータ、第２のビューのビデオデータ、オブジェクト音源のオーディオデータおよび位置情報が得られる。セレクタにより、第１のビューのビデオデータまたは第２のビューのビデオデータが選択的に出力される。

　レンダリング部により、オブジェクト音源のオーディオデータがオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングされる。このレンダリング部では、セレクタで第２のビューのビデオデータが選択されるとき、位置補正情報に基づいて第２のビューを基準とするように補正された位置情報が用いられる。

　このように本技術においては、第２のビューのビデオデータが選択されるとき、位置補正情報に基づいて第２のビューを基準とするように補正された位置情報が用いられてレンダリングが行われる。そのため、ビュー切り替えが行われる場合であっても、３Ｄオーディオレンダリングを正しく行い得るようになる。

　本技術によれば、受信側でビュー切り替えを行う場合であっても３Ｄオーディオレンダリングを正しく行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。カメラによるビュー（映像）撮影とマイクロホンによる音声聴取の想定される状況の一例を示す図である。ビュー１（View1）とオブジェクト音源の位置関係を示す図である。ビュー２（View2）とオブジェクト音源の位置関係を示す図である。オブジェクト音源の位置情報ｓ（ｒ，θ，φ）を補正（変換）するための変換式の一例を示す図である。送信装置の構成例を示すブロック図である。ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏのオーディオフレームの構造を説明するための図である。オブジェクトメタデータ（object_metadata()）の構成例などを示す図である。マルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）の構成例（Syntax）を示す図である。構成情報「userdataConfig()」の構成例を示す図である。コンポーネント・グループ・デスクリプタ（component_group_descriptor）の構造例を示す図である。差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入される場合におけるトランスポートストリームＴＳの構成例を示す図である。ビデオシーケンス（Video_sequence）の構成例を示す図である。ユーザデータの構成例などを示す図である。マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）の構成例を示す図である。ＭＰＥＧ４－ＡＶＣやＨＥＶＣにおけるユーザデータＳＥＩの構成例などを示す図である。差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入される場合におけるトランスポートストリームＴＳの構成例を示す図である。マルチビュー・ポジション・インフォメーション・デスクリプタの構成例を示す図である。差分成分ＶＰ２，ＶＰ３がコンテナ（システム）のレイヤにシグナリングとして挿入される場合におけるトランスポートストリームＴＳの構成例を示す図である。送信装置の他の構成例を示すブロック図である。位置補正情報ストリーム（エレメンタリストリーム）の構成例を示す図である。差分成分ＶＰ２，ＶＰ３が位置補正情報ストリームとして挿入される場合におけるトランスポートストリームＴＳの構成例を示す図である。位置補正情報の伝送方式をまとめて示す図である。受信装置の構成例を示すブロック図である。受信装置の他の構成例を示すブロック図である。受信装置の他の構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、送信装置１００と受信装置２００により構成されている。送信装置１００は、トランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて送信する。

　このトランスポートストリームＴＳは、複数のビューのビデオデータをそれぞれ持つ複数のビデオストリームと、一つまたは複数のオブジェクト音源のオーディオデータおよび位置情報を持つオーディオストリームを有している。図２は、カメラによるビュー（映像）撮影とマイクロホンによる音声聴取の想定される状況の一例を示している。この実施の形態において、トランスポートストリームＴＳには、この想定状況に対応したビデオストリームおよびオーディオストリームが含まれるものとする。

　すなわち、トランスポートストリームＴＳには、カメラ１１で撮影されて得られたビュー１（View1）のビデオデータＳＶ１を持つビデオストリームと、カメラ１２で撮影されて得られたビュー２（View2）のビデオデータＳＶ２を持つビデオストリームと、カメラ１３で撮影されて得られたビュー３（View3）のビデオデータＳＶ３を持つビデオストリームが含まれる。

　また、トランスポートストリームＴＳには、１つのオーディオストリームが含まれる。このオーディオストリームには、マイクロホン２１で得られたオーディオデータ（オブジェクト音源１（Object1）のオーディオデータ）と、このマイクロホン２１のビュー１を基準とする位置情報（オブジェクト音源１の位置情報）が含まれる。また、このオーディオストリームには、マイクロホン２２で得られたオーディオデータ（オブジェクト音源２（Object2）のオーディオデータ）と、このマイクロホン２２のビュー１を基準とする位置の情報（オブジェクト音源２の位置情報）が含まれる。

　また、このトランスポートストリームＴＳは、ビュー１とビュー２の位置および方向の差分成分を有している。この差分成分は、各オブジェクト音源の位置情報を、ビュー２を基準とする位置情報に補正するための位置補正情報を構成する。また、トランスポートストリームＴＳは、ビュー１とビュー３の位置および方向の差分成分を有している。この差分成分は、各オブジェクト音源の位置情報を、ビュー３を基準とする位置情報に補正するための位置補正情報を構成する。これらの差分成分は、オーディオストリームのレイヤ、あるいは第２のビューを構成するビュー２、ビュー３のビデオストリームのレイヤ、あるいはコンテナのレイヤに挿入される。

　受信装置２００は、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、上述したように、ビュー１、ビュー２およびビュー３のビデオデータをそれぞれ持つ３つのビデオストリームと、オブジェクト音源１およびオブジェクト音源２のオーディオデータおよび位置情報を持つ１つのオーディオストリームを有している。

　また、このトランスポートストリームＴＳは、各オブジェクト音源の位置情報を、ビュー２を基準とする位置情報に補正するための位置補正情報として、ビュー１とビュー２の位置および方向の差分成分を有している。また、このトランスポートストリームＴＳは、各オブジェクト音源の位置情報を、ビュー３を基準とする位置情報に補正するための位置補正情報として、ビュー１とビュー３の位置および方向の差分成分を有している。

　受信装置２００は、ビュー１、ビュー２、ビュー３のビデオデータによる画像を選択的に提示する。また、受信装置２００は、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリングを行って、音声再生をする。この際、ビュー２やビュー３が選択される場合には、差分成分により補正された位置情報が用いられ、レンダリングが正しく行い得るようにされる。

　すなわち、ビュー２が選択されるとき、ビュー１とビュー２の位置および方向の差分成分に基づいて第２のビューを基準とするように補正された位置情報が用いられる。また、ビュー３が選択されるとき、ビュー１とビュー３の位置および方向の差分成分に基づいて第３のビューを基準とするように補正された位置情報が用いられる。

　図３は、ビュー１（View1）とオブジェクト音源の位置の関係を示している。オブジェクト音源の位置は、ビュー１を基準として、極座標ｓ（ｒ，θ，φ）で表記でき、また、直交座標ｐ（ｘ，ｙ，ｚ）で表記できる。ここで、“ｒ”はラジアス（Radius）を示し、“θ”はエレベーション（Elevation）を示し、“φ”はアジマス（Azimuth）を示している。

　上述したように、送信装置１００は、オブジェクト音源のオーディオデータおよび位置情報を含むオーディオストリームを送信する。このオーディオストリームには、３Ｄオーディオのメタデータが含まれる。このメタデータとして、オブジェクト音源の極座標ｓ（ｒ，θ，φ）の各座標値やゲイン（Gain）値が挿入される。

　図４は、ビュー２（View2）とオブジェクト音源の位置関係を示している。オブジェクト音源の位置は、ビュー２を基準として、極座標ｓ’（ｒ’，θ’，φ’）で表記でき、また、直交座標ｐ’（ｘ’，ｙ’，ｚ’）で表記できる。ここで、ビュー１とビュー２の位置および方向の差分成分は、空間的な位置の差分成分（Δｘ，Δｙ，Δｚ）と、方向の差分成分（Δθ，Δφ）とからなる。

　受信装置２００は、これらの差分成分を用いて、オブジェクト音源の位置情報ｓ（ｒ，θ，φ）を、ビュー２を基準とする位置情報ｓ’（ｒ’，θ’，φ’）に補正（変換）できる。図５は、その場合における変換式の一例を示している。なお、この変換式において、（ｘ，ｙ，ｚ）はオブジェクト音源の直交座標ｐ（ｘ，ｙ，ｚ）の各座標値に対応し、（ｘ1，ｙ1，ｚ1）は差分成分（Δｘ，Δｙ，Δｚ）に対応する。

　なお、詳細説明は省略するが、ビュー３とオブジェクト音源の位置関係についても同様である。

　［送信装置の構成例］
　図６は、送信装置１００の構成例を示している。この送信装置１００は、制御部１１１と、ビデオエンコーダ１１２，１１３，１１４と、３Ｄオーディオエンコーダ１１５と、システムエンコーダ１１６と、送信部１１７を有している。制御部１１１は、送信装置１００の各部の動作を制御する。

　ビデオエンコーダ１１２，１１３，１１４は、それぞれ、ビュー１，２，３のビデオデータＳＶ１，ＳＶ２，ＳＶ３を入力し、このビデオデータＳＶ１，ＳＶ２，ＳＶ３に対して、例えば、ＭＰＥＧ２、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化を施し、ビデオストリームを得る。３Ｄオーディオエンコーダ１１５は、オブジェクト音源１，２に係るオブジェクトデータを入力し、このオブジェクトデータに対して、例えばＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの符号化を施し、オーディオストリームを得る。

　ここで、オブジェクト音源１に係るオブジェクトデータは、オブジェクトオーディオデータＳＡ１とオブジェクトメタデータＭＥＴＡ１とからなる。このオブジェクトメタデータＭＥＴＡ１には、オブジェクト音源１の極座標ｓ（ｒ，θ，φ）の各座標値やゲイン（Gain）値が含まれている。また、オブジェクト音源２に係るオブジェクトデータは、オブジェクトオーディオデータＳＡ２とオブジェクトメタデータＭＥＴＡ２からなる。このオブジェクトメタデータＭＥＴＡ２には、オブジェクト音源２の極座標ｓ（ｒ，θ，φ）の各座標値やゲイン（Gain）値が含まれている。

　システムエンコーダ１１６は、ビデオエンコーダ１１２，１１３，１１４から出力されるビデオストリームおよび３Ｄオーディオエンコーダ１１５から出力されるオーディオストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。送信部１１７は、このトランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて、受信装置２００に送信する。

　この実施の形態において、送信装置１００では、ビュー１とビュー２の位置および方向の差分成分ＶＰ２（Δｘ，Δｙ，Δｚ，Δθ，Δφ）と、ビュー１とビュー３の位置および方向の差分成分ＶＰ３（Δｘ，Δｙ，Δｚ，Δθ，Δφ）が、（１）オーディオストリームのレイヤ、（２）ビデオストリームのレイヤ、あるいは（３）コンテナのレイヤに挿入される。ここで、差分成分ＶＰ２は、オブジェクト音源１，２の位置情報を、ビュー２を基準とする位置情報に補正するための位置補正情報を構成する。また、差分成分ＶＰ３は、オブジェクト音源１，２の位置情報を、ビュー３を基準とする位置情報に補正するための位置補正情報を構成する。

　「（１）オーディオストリームのレイヤに挿入される場合」
　差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入される場合について説明する。この場合、３Ｄオーディオエンコーダ１１５は、オーディオストリームのレイヤに、位置補正情報としての差分成分ＶＰ２，ＶＰ３を挿入する。この場合、メタデータ領域あるいはユーザデータ領域に挿入される。

　図７は、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏのオーディオフレームの構造を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

　ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

　オブジェクト音源に係るオブジェクトデータは、上述したように、オブジェクトオーディオデータおよびオブジェクトメタデータとからなる。これらのデータは“Ｆｒａｍｅ”に含まれる。ここで、オブジェクトオーディオデータは、ＳＣＥ（Single Channel Element）の符号化サンプルデータとして含まれる。また、オブジェクトメタデータは、エクステンションエレメント（Ext_element）として含まれる。また、ユーザデータを含めるエクステンションエレメント（Ext_element）を定義することもできる。

　差分成分ＶＰ２，ＶＰ３がメタデータ領域に挿入される場合、この差分成分ＶＰ２，ＶＰ３は、オブジェクトメタデータが含まれるエクステンションエレメント（Ext_element）に挿入される。

　図８（ａ）は、オブジェクトメタデータ（object_metadata()）の構成例（Syntax）を示している。図８（ｂ）は、このオブジェクトメタデータに含まれる、オブジェクトメタデータ・エフィシェント（object_metadata_efficient()）の構成例（Syntax）を示している。このオブジェクト・メタデータ・エフィシェントのイントラコーデド・メタデータ・エフィシェント（intracoded_ object_metadata_efficient()）内に、差分成分ＶＰ２，ＶＰ３を持つマルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）が配置される。

　図９は、マルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）の構成例（Syntax）を示している。「process_multiview」の１ビットフィールドは、マルチビューであることを示すフラグである。マルチビューであるとき、「multiview_count」の８ビットフィールドが存在する。このフィールドは、ビューの総数を示す。図２に示す例では、ビューの総数は「３」である。

　そして、“総数－１”だけ、つまりビュー１（View1）以外の各ビューの差分成分のフィールドが存在する。図２に示す例では、ビュー２（View2）、ビュー３（View3）の差分成分ＶＰ２，ＶＰ３のフィールドが存在することになる。差分成分のフィールドは、「Δｘ」の８ビットフィールドと、「Δｙ」の８ビットフィールドと、「Δｚ」の８ビットフィールドと、「Δθ」の９ビットフィールドと、「Δφ」の７ビットフィールドとからなる。

　「Δｘ」のフィールドには、Δｘ、つまりビュー１（View1）を原点としたときの対象ビュー（View）のｘ座標の値を示す。「Δｙ」のフィールドには、Δｙ、つまりビュー１（View1）を原点としたときの対象ビュー（View）のｙ座標の値を示す。「Δｚ」のフィールドには、Δｚ、つまりビュー１（View1）を原点としたときの対象ビュー（View）のｚ座標の値を示す。「Δθ」のフィールドは、Δθ、つまりビュー１（View1）に対するθの差を示す。「Δφ」のフィールドは、Δφ、つまりビュー１（View1）に対するφの差を示す。

　差分成分ＶＰ２，ＶＰ３がユーザデータ領域に挿入される場合、この差分成分ＶＰ２，ＶＰ３は、ユーザデータを含めるエクステンションエレメント（Ext_element）に挿入される。

　この場合、エクステンションエレメント（Ext_element）としてユーザデータ（user_data()）が含まれるエレメント（Ext_userdata）が新たに定義される。これに伴って、“Ｃｏｎｆｉｇ”に、そのエレメント（Ext_userdata）の構成情報「userdataConfig()」が新たに定義される。

　図１０（ａ）は、構成情報「userdataConfig()」の構成例（syntax）を示している。「userdata_identifier」の３２ビットフィールドは、予め定義された配列の値がセットされることでユーザデータであることを示す。「userdata_frame_length」の１６ビットフィールドは、ユーザデータ（user_data()）のバイト数を示す。

　図１０（ｂ）は、ユーザデータ（user_data()）の構成例（syntax）を示している。「user_data_identifier」の３２ビットフィールドに“０ｘ４７４１３９３４”（“ＧＡ９４”）が挿入されることで、「user_structure()」のフィールドに、「ATSC_user_data()」が含まれる。図１０（ｃ）は、「ATSC_user_data()」の構成例（syntax）を示している。

　「user_data_type_code」の８ビットフィールドに、マルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）を示す、例えば“０ｘ０７”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）（図９参照）が含まれる。

　なお、このように差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入される場合、システムエンコーダ１１６は、コンテナ（システム）のレイヤに、複数の差分成分のそれぞれが対応するビデオストリームを示す情報を挿入する。例えば、システムエンコーダ１１６は、オーディオストリームに対応したオーディオ・エレメンタリストリームループ内に、コンポーネント・グループ・デスクリプタ（component_group_descriptor）を用いて挿入する。

　図１１は、コンポーネント・グループ・デスクリプタの構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、コンポーネント・グループ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

　「component_group_type」の４ビットフィールドは、コンポーネント・グループのタイプを示す。ここでは、“０”とされ、３Ｄオーディオのマルチビューに関連する映像・音声のコンポーネント・グループであることが示される。「num_video」の４ビットフィールドは、ビデオストリーム（ビデオエレメンタリストリーム）の個数を示す。そして、この個数分だけフォーループ（for loop）で、「component_tag」の８ビットフィールドが繰り返えされる。この「component_tag」のフィールドは、関連する映像コンポーネントのコンポーネントタグ（Component_tag）の値を示す。

　この実施の形態において、ビュー１（View1）、ビュー２（View2）、ビュー３（View3）のビデオデータを含むビデオストリームのコンポーネントタグの値が順に記述される。因みに、各ビデオストリームに対応したビデオ・エレメンタリストリームループ内には、パケット識別子（PID）、コンポーネントタグ（Component_tag）、ストリームタイプ（Stream_Type）等の情報が配置されている。これにより、ビュー２（View2）、ビュー３（View3）のビデオデータを含むビデオストリームが特定され、従って、オーディオストリームのレイヤに挿入される差分成分ＶＰ２，ＶＰ３のそれぞれが対応するビデオストリームが特定される。

　「num_audio」の８ビットフィールドは、オーディオストリーム（オーディオエレメンタリストリーム）の個数を示す。そして、この個数分だけフォーループ（for loop）で、「component_tag」の８ビットフィールドが繰り返される。この「component_tag」のフィールドは、関連する音声コンポーネントのコンポーネントタグ（Component_tag）の値を示す。

　図１２は、差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入される場合における、トランスポートストリームＴＳの構成例を示している。この場合、トランスポートストリームＴＳには、ビュー１（View1）のビデオデータを含むビデオストリームのＰＥＳパケット「Video PES1」と、ビュー２（View2）のビデオデータを含むビデオストリームのＰＥＳパケット「Video PES2」と、ビュー３（View3）のビデオデータを含むビデオストリームのＰＥＳパケット「Video PES3」が存在する。

　また、トランスポートストリームＴＳには、オーディオストリームのＰＥＳパケット「audio PES」が存在する。このオーディオストリームのＰＥＳパケットのＰＥＳペイロードには、上述したマルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）（図９参照）が挿入されている。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ（Program Descriptor）が存在する。

　また、このＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、３つのビデオストリームにそれぞれ対応したビデオ・エレメンタリストリームループ（Video ES loop）が存在すると共に、オーディオストリームに対応したオーディオ・エレメンタリストリームループ（Audio ES loop）が存在する。

　各ループには、パケット識別子（PID）、コンポーネントタグ（Component_tag）、ストリームタイプ（Stream_Type）等の情報が配置されている。また、オーディオ・エレメンタリストリームループには、上述したコンポーネント・グループ・デスクリプタ（component_group_descriptor）（図１１参照）が配置されている。

　「（２）ビデオストリームのレイヤに挿入される場合」
　差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入される場合について説明する。この場合、ビデオエンコーダ１１３は、ビデオストリームのレイヤに、位置補正情報としての差分成分ＶＰ２を挿入する。また、この場合、ビデオエンコーダ１１４は、ビデオストリームのレイヤに、位置補正情報としての差分成分ＶＰ３を挿入する。この場合、ユーザデータ領域に挿入される。

　最初にＭＰＥＧ２の符号化が施される場合について説明する。図１３は、ビデオシーケンス（Video_sequence）の構成例（Syntax）を示している。このビデオシーケンス（Video_sequence）にエクステンション・アンド・ユーザデータ（２）（extension_and_user_data(2)）のフィールドが存在する。図１４（ａ）は、このエクステンション・アンド・ユーザ・データ（２）の構成例（Syntax）を示している。

　このエクステンション・アンド・ユーザデータ（２）にユーザデータ（user_data()）のフィールドが存在する。図１４（ｂ）は、このユーザデータの構成例（Syntax）を示している。「user_data_identifier」の３２ビットフィールドに“０ｘ４７４１３９３４”（“ＧＡ９４”）が挿入されることで、「user_structure()」のフィールドに、「ATSC_user_data()」が含まれる。

　図１４（ｃ）は、「ATSC_user_data()」の構成例（syntax）を示している。「user_data_type_code」の８ビットフィールドに、マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）を示す、例えば“０ｘ０７”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）が含まれる。

　図１５は、マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）の構成例（Syntax）を示している。「process_multiview」の１ビットフィールドは、マルチビューであることを示すフラグである。マルチビューであるとき、差分成分のフィールドが存在する。

　ビュー２（View2）のビデオデータを含むビデオストリームのレイヤに挿入されるマルチビュー・ポジション・インフォメーション２には差分成分ＶＰ２のフィールドが存在し、ビュー３（View3）のビデオデータを含むビデオストリームのレイヤに挿入されるマルチビュー・ポジション・インフォメーション２には差分成分ＶＰ３のフィールドが存在することになる。

　差分成分のフィールドは、「Δｘ」の８ビットフィールドと、「Δｙ」の８ビットフィールドと、「Δｚ」の８ビットフィールドと、「Δθ」の９ビットフィールドと、「Δφ」の７ビットフィールドとからなる。

　次に、ＭＰＥＧ４－ＡＶＣやＨＥＶＣの符号化が施される場合について説明する。図１６（ａ）は、ユーザデータＳＥＩの構成例（syntax）を示している。「USER_identifier」の３２ビットフィールドに“０ｘ４７４１３９３４”（“ＧＡ９４”）が挿入されることで、「USER_structure()」のフィールドに、「ATSC1_data()」が含まれる。

　図１６（ｂ）は、「ATSC1_data()」の構成例（syntax）を示している。「user_data_type_code」の８ビットフィールドに、マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）を示す、例えば“０ｘ０７”が挿入されることで、「user_data_type_structure()」のフィールドに、マルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）が含まれる。

　図１７は、差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入される場合における、トランスポートストリームＴＳの構成例を示している。この図１７において、図１２と対応する部分については、適宜、その説明は省略する。

　ビュー２（View2）のビデオデータを含むビデオストリームのＰＥＳパケット「Video PES2」には、上述したマルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）（図１５参照）が挿入される。また、ビュー３（View3）のビデオデータを含むビデオストリームのＰＥＳパケット「Video PES3」には、上述したマルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）（図１５参照）が挿入される。

　なお、このように差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入される場合、差分成分とビデオストリームの対応関係は明白となる。そのため、この場合には、コンテナ（システム）のレイヤに、コンポーネント・グループ・デスクリプタ（component_group_descriptor）が挿入される必要はない。

　「（３）コンテナ（システム）のレイヤに挿入される場合」
　差分成分ＶＰ２，ＶＰ３がコンテナ（システム）のレイヤに挿入される場合について説明する。この場合、シグナリング情報として挿入されるか、あるいは位置補正情報ストリームとして挿入される。

　最初に、差分成分ＶＰ２，ＶＰ３がシグナリングとして挿入される場合について説明する。この場合、システムエンコーダ１１６は、ビュー２（View2）、ビュー３（View3）のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、マルチビュー・ポジション・インフォメーション・デスクリプタ（multiview_Position_information_descriptor）を挿入する。

　図１８は、マルチビュー・ポジション・インフォメーション・デスクリプタの構成例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、マルチビュー・ポジション・インフォメーション・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

　「PTS_flag」の１ビットフィールドは、オブジェクト音源の取得位置情報に対応する時刻情報（ＰＴＳ）があることを示すフラグ情報である。“１”であるとき、３３ビットの時刻情報が存在する。また、このデスクリプタには、差分成分のフィールドが存在する。

　ビュー２（View2）のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入されるマルチビュー・ポジション・インフォメーション・デスクリプタには差分成分ＶＰ２のフィールドが存在する。また、ビュー３（View3）のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入されるマルチビュー・ポジション・インフォメーション・デスクリプタには差分成分ＶＰ３のフィールドが存在する。

　図１９は、差分成分ＶＰ２，ＶＰ３がコンテナ（システム）のレイヤにシグナリングとして挿入される場合における、トランスポートストリームＴＳの構成例を示している。この図１９において、図１２と対応する部分については、適宜、その説明は省略する。

　ビュー２（View2）のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、上述した差分成分ＶＰ２が存在するマルチビュー・ポジション・インフォメーション・デスクリプタが挿入される。また、ビュー３（View3）のビデオストリームに対応したビデオ・エレメンタリストリームループ内に、上述した差分成分ＶＰ３が存在するマルチビュー・ポジション・インフォメーション・デスクリプタが挿入される。

　次に、差分成分ＶＰ２，ＶＰ３が位置補正情報ストリームとして挿入される場合について説明する。図２０は、その場合における、送信装置１００の構成例を示している。この図２０において、図６と対応する部分には、同一符号を付し、適宜、その詳細説明は省略する。

　この送信装置１００は、位置補正情報エンコーダ１１８，１１９を有している。位置補正情報エンコーダ１１８は、差分成分ＶＰ２に対して符号化を施し、位置補正情報ストリームを生成する。また、位置補正情報エンコーダ１１８は、差分成分ＶＰ３に対して符号化を施し、位置補正情報ストリームを生成する。

　システムエンコーダ１１６は、ビデオエンコーダ１１２，１１３，１１４から出力されるビデオストリーム、３Ｄオーディオエンコーダ１１５から出力されるオーディオストリーム、さらには位置補正情報エンコーダ１１８，１１９から出力される位置補正情報ストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る

　図２１は、位置補正情報ストリーム（エレメンタリストリーム）の構成例（Syntax）を示している。「data_identifier」の８ビットフィールドは、位置補正情報のＰＥＳデータであることを示す値とされる。「PES_data_packet_header_length」の４ビットフィールドは、「PES_Data_private_data_byte」のフィールドの長さを示す。「PES_Data_private_data_byte」のフィールドにサービス依存のプライベートデータが挿入される。

　そして、この位置補正情報ストリームには、対応するビューの差分成分のフィールドが存在する。この差分成分のフィールドは、「Δｘ」の８ビットフィールドと、「Δｙ」の８ビットフィールドと、「Δｚ」の８ビットフィールドと、「Δθ」の９ビットフィールドと、「Δφ」の７ビットフィールドとからなる。

　図２２は、差分成分ＶＰ２，ＶＰ３が位置補正情報ストリームとして挿入される場合における、トランスポートストリームＴＳの構成例を示している。この図２２において、図１２と対応する部分については、適宜、その説明は省略する。

　トランスポートストリームＴＳには、ビュー２（View2）に係る差分成分ＶＰ２を含む位置補正情報ストリームのＰＥＳパケット「Position PES1」と、ビュー３（View3）に係る差分成分ＶＰ３を含む位置補正情報ストリームのＰＥＳパケット「Position PES2」が存在する。また、ＰＭＴには、２つの位置補正情報ストリームにそれぞれ対応した位置補正情報・エレメンタリストリームループ（Position ES loop）が存在する。

　図２３は、上述した位置補正情報の伝送方式をまとめて示したものである。（１）オーディオストリームのレイヤに挿入される場合、例えば、「音声信号に、音声の聴取位置情報と、位置補正情報が付加される。音声信号のみから位置補正演算回路へ情報伝達すればよい。同一の音声信号に包含されているので、これらの信号の同期が保証される。」などの特徴がある。

　また、（２）ビデオストリームのレイヤに挿入される場合、例えば、「映像信号ごとに、それぞれの位置補正情報を付加する。それぞれの映像ごとに必要な情報が伝送されるので、余分な情報が伝送されない（伝送する情報が少ない）。再送信で映像を選択する場合、位置補正情報がそのまま伝送されるため、余分な処理が不要となる。」などの特徴がある。

　また、（３）コンテナ（システム）のレイヤに挿入される場合、シグナリングとして挿入するときには、例えば、「記述子として伝送することにより、システムレイヤで必要な情報が判別できる。」などの特徴があり、位置補正情報ストリームとして挿入するときには、例えば、「映像信号に対応した独立したストリームとして、タイムラインと共に位置補正情報を伝送する。再送信で映像を選択する場合、対応する位置補正情報を選択して伝送することができる。」などの特徴がある。

　図６に示す送信装置１００の動作を簡単に説明する。ビュー１，２，３のビデオデータＳＶ１，ＳＶ２，ＳＶ３はそれぞれビデオエンコーダ１１２，１１３，１１４に供給される。ビデオエンコーダ１１２，１１３，１１４では、それぞれ、ビデオデータＳＶ１，ＳＶ２，ＳＶ３に対して、例えば、ＭＰＥＧ２、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化が施され、ビデオストリームが得られる。

　オブジェクト音源１に係るオブジェクトデータＳＡ１，ＭＥＴＡ１と、オブジェクト音源２に係るオブジェクトデータＳＡ２，ＭＥＴＡ２は、３Ｄオーディオエンコーダ１１５に供給される。３Ｄオーディオエンコーダ１１５では、オブジェクト音源１，２に係るオブジェクトデータに対して、例えばＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの符号化が施され、オーディオストリームが得られる。

　ビデオエンコーダ１１２，１１３，１１４で得られるビデオストリームは、システムエンコーダ１１６に供給される。３Ｄオーディオエンコーダ１１５で得られるオーディオストリームは、システムエンコーダ１１６に供給される。システムエンコーダ１１６では、各エンコーダから供給されるストリームが、ＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

　システムエンコーダ１１６で得られるトランスポートストリームＴＳは、送信部１１７に供給される。送信部１１７では、このトランスポートストリームＴＳが、放送波あるいはネットのパケットに載せて、受信装置２００に送信される。

　また、送信装置１００では、ビュー１とビュー２の位置および方向の差分成分ＶＰ２と、ビュー１とビュー３の位置および方向の差分成分ＶＰ３が、（１）オーディオストリームのレイヤ、（２）ビデオストリームのレイヤ、あるいは（３）コンテナのレイヤに挿入されて、受信装置２００に送信される。

　［受信装置の構成例］
　図２４は、受信装置２００の構成例を示している。この受信装置２００は、制御部２１１と、受信部２１２と、システムデコーダ２１３と、セレクタ２１４と、ビデオデコーダ２１５と、表示部２１６と、３Ｄオーディオデコーダ２１７と、３Ｄオーディオレンダラ２１８と、スピーカシステム２１９を有している。制御部２１１は、受信装置２００の各部の動作を制御する。

　受信部２１２は、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビュー１、ビュー２およびビュー３のビデオデータをそれぞれ持つ３つのビデオストリームと、オブジェクト音源１およびオブジェクト音源２のオーディオデータおよび位置情報を持つオーディオストリームを有している（図２参照）。

　システムデコーダ２１３は、トランスポートストリームＴＳからビュー１、ビュー２およびビュー３のビデオデータをそれぞれ持つ３つのビデオストリームのパケットを抽出し、当該３つのビデオストリームを再構成する。また、システムデコーダ２１３は、トランスポートストリームＴＳからオーディオストリームのパケットを抽出し、当該オーディオストリームを再構成する。

　システムデコーダ２１３は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、制御部２１１に送る。各種情報には、差分成分ＶＰ２，ＶＰ３がシグナリングとして挿入されている場合におけるマルチビュー・ポジション・インフォメーション・デスクリプタ（multiview_Position_information_descriptor）（図１８参照）の情報も含まれる。また、この各種情報には、オーディオストリームのレイヤに挿入されている場合におけるコンポーネント・グループ・デスクリプタ（component_group_descriptor）（図１１参照）の情報も含まれる。

　セレクタ２１４は、ユーザのビュー選択に応じた制御部２１１の選択制御に基づいて、システムデコーダ２１３で再構成された３つのビデオストリームのうちのいずれかを選択的に出力する。ビデオデコーダ２１５は、セレクタ２１４から出力されるビデオストリームに対して復号化処理を施し、ユーザが選択したビューのビデオデータを得る。

　また、ビデオデコーダ２１５は、ビデオストリームのレイヤに挿入されている各種情報を抽出し、制御部２１１に送る。各種情報には、差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション２（multiview_Position_information2()）（図１５参照）の情報も含まれる。

　表示部２１６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などの表示パネルを備えている。表示部２１６は、ビデオデコーダ２１５で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って表示用ビデオデータを得、当該表示用ビデオデータによる画像を表示パネルに表示する。

　３Ｄオーディオデコーダ２１７は、システムデコーダ２１３で再構成されたオーディオストリームに対して復号化処理を施し、オブジェクト音源１，２に係るオブジェクトデータを得る。

　ここで、オブジェクト音源１に係るオブジェクトデータはオブジェクトオーディオデータＳＡ１とオブジェクトメタデータＭＥＴＡ１とからなり、オブジェクトメタデータＭＥＴＡ１にはオブジェクト音源１の極座標ｓ（ｒ，θ，φ）の各座標値やゲイン（Gain）値が含まれている。また、オブジェクト音源２に係るオブジェクトデータはオブジェクトオーディオデータＳＡ２とオブジェクトメタデータＭＥＴＡ２からなり、このオブジェクトメタデータＭＥＴＡ２にはオブジェクト音源２の極座標ｓ（ｒ，θ，φ）の各座標値やゲイン（Gain）値が含まれている。

　また、３Ｄオーディオデコーダ２１７は、オーディオストリームのレイヤに挿入されている各種情報を抽出し、制御部２１１に送る。各種情報には、差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション１（multiview_Position_information1()）（図９参照）の情報も含まれる。

　３Ｄオーディオレンダラ２１８は、３Ｄオーディオデコーダ２１７で得られるオブジェクト音源１，２に係るオブジェクトデータ（オーディオデータ、位置情報）に基づいて、スピーカシステム２１９に合わせた所定チャネルのオーディオデータを得る。この場合、３Ｄオーディオレンダラ２１８は、スピーカ配置情報を参照して、各オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする。

　３Ｄオーディオレンダラ２１８は、位置補正演算部２１８ａを備えている。ビュー１が選択される場合、３Ｄオーディオレンダラ２１８は、３Ｄオーディオデコーダ２１７で得られる音源１，２に係るオブジェクトデータ（オーディオデータ、位置情報）に含まれる位置情報（ｒ，θ，φ）をそのまま使用する。

　ビュー２あるいはビュー３が選択される場合、３Ｄオーディオレンダラ２１８は、３Ｄオーディオデコーダ２１７で得られる音源１，２に係るオブジェクトデータ（オーディオデータ、位置情報）に含まれる位置情報（ｒ，θ，φ）を位置補正演算部２１８ａで、図５に示す変換式を用いて補正した後の位置情報（ｒ’，θ’，φ’）を使用する。

　ここで、ビュー２が選択される場合、位置補正演算部２１８ａは、ビュー１とビュー２の位置および方向の差分成分ＶＰ２（Δｘ，Δｙ，Δｚ，Δθ，Δφ）を用いて、ビュー１を基準とする位置情報（ｒ，θ，φ）を、ビュー２を基準とする位置情報（ｒ’，θ’，φ’）に補正（変換）する。また、ビュー３が選択される場合、位置補正演算部２１８ａは、ビュー１とビュー３の位置および方向の差分成分ＶＰ３（Δｘ，Δｙ，Δｚ，Δθ，Δφ）を用いて、ビュー１を基準とする位置情報（ｒ，θ，φ）を、ビュー３を基準とする位置情報（ｒ’，θ’，φ’）に補正（変換）する。

　スピーカシステム２１９は、３Ｄオーディオレンダラ２１８で得られた所定チャネルのオーディオデータに基づいて、表示部２１６の表示画像に対応した音響出力を得る。

　図２４に示す受信装置２００の動作を簡単に説明する。受信部２１２では、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳには、ビュー１、ビュー２およびビュー３のビデオデータをそれぞれ持つ３つのビデオストリームと、オブジェクト音源１およびオブジェクト音源２のオーディオデータおよび位置情報を持つオーディオストリームが含まれている。このトランスポートストリームＴＳは、システムデコーダ２１３に供給される。

　システムデコーダ２１３では、トランスポートストリームＴＳからビュー１、ビュー２およびビュー３のビデオデータをそれぞれ持つ３つのビデオストリームのパケットが抽出され、当該３つのビデオストリームが再構成される。また、システムデコーダ２１３では、トランスポートストリームＴＳからオーディオストリームのパケットが抽出され、当該オーディオストリームが再構成される。

　また、システムデコーダ２１３では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、制御部２１１に送られる。各種情報には、差分成分ＶＰ２，ＶＰ３がシグナリングとして挿入されている場合におけるマルチビュー・ポジション・インフォメーション・デスクリプタ（図１８参照）の情報も含まれる。また、この各種情報には、オーディオストリームのレイヤに挿入されている場合におけるコンポーネント・グループ・デスクリプタ（図１１参照）の情報も含まれる。

　システムデコーダ２１３で再構成された３つのビデオストリームは、セレクタ２１４に供給される。セレクタ２１４では、ユーザのビュー選択に応じた制御部２１１の選択制御に基づいて、３つのビデオストリームのうちのいずれかが選択的に出力される。セレクタ２１４から出力されるビデオストリームは、ビデオデコーダ２１５に供給される。ビデオデコーダ２１５では、ビデオストリームに対して復号化処理が施され、ユーザが選択したビューのビデオデータが得られる。

　また、ビデオデコーダ２１５では、ビデオストリームのレイヤに挿入されている各種情報が抽出され、制御部２１１に送られる。各種情報には、差分成分ＶＰ２，ＶＰ３がビデオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション２（図１５参照）の情報も含まれる。

　ビデオデコーダ２１５で得られるビデオデータは、表示部２１６に供給される。表示部２１６では、ビデオデコーダ２１５で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて表示用ビデオデータが得られ、当該表示用ビデオデータによる画像が表示パネルに表示される。

　また、システムデコーダ２１３で再構成されたオーディオストリームは、３Ｄオーディオデコーダ２１７に供給される。３Ｄオーディオデコーダ２１７では、システムデコーダ２１３で再構成されたオーディオストリームに対して復号化処理が施され、オブジェクト音源１，２に係るオブジェクトデータ得られる。

　また、３Ｄオーディオデコーダ２１７で、オーディオストリームのレイヤに挿入されている各種情報が抽出され、制御部２１１に送られる。各種情報には、差分成分ＶＰ２，ＶＰ３がオーディオストリームのレイヤに挿入されている場合におけるマルチビュー・ポジション・インフォメーション１（図９参照）の情報も含まれる。

　３Ｄオーディオデコーダ２１７で得られるオブジェクト音源１，２に係るオブジェクトデータは、３Ｄオーディオレンダラ２１８に供給される。３Ｄオーディオレンダラ２１８では、オブジェクト音源１，２に係るオブジェクトデータ（オーディオデータ、位置情報）に基づいて、スピーカシステム２１９に合わせた所定チャネルのオーディオデータが得られる。この場合、３Ｄオーディオレンダラ２１８では、スピーカ配置情報が参照されて、各オブジェクト音源のオーディオデータがその位置情報に基づいて任意の位置に存在するスピーカにマッピングされる。

　この際、３Ｄオーディオレンダラ２１８では、ビュー２が選択される場合、３Ｄオーディオデコーダ２１７で得られる音源１，２に係るオブジェクトデータ（オーディオデータ、位置情報）に含まれる位置情報（ｒ，θ，φ）が、上述したようにコンテナのレイヤ、ビデオストリームのレイヤ、あるいはオーディオストリームのレイヤから抽出された差分成分（Δｘ，Δｙ，Δｚ，Δθ，Δφ）により補正されて用いられる。詳細説明は省略するが、ビュー３が選択される場合でも同様である。

　３Ｄオーディオレンダラ２１８から出力される所定チャネルのオーディオデータは、スピーカシステム２１９に供給される。スピーカシステム２１９では、この所定チャネルのオーディオデータに基づいて、表示部２１６の表示画像に対応した音響出力が得られる。

　図２５は、コンテナのレイヤに差分成分ＶＰ２，ＶＰ３が位置補正情報ストリームとして挿入されている場合における受信装置２００の構成例を示している。この図２５において、図２４と対応する部分には、同一符号を付し、その詳細説明は省略する。

　システムデコーダ２１３では、トランスポートストリームＴＳから差分情報ＶＰ２，ＶＰ３をそれぞれ含む２つの位置補正情報ストリームが得られる。差分情報ＶＰ２を含む位置補正情報ストリームは位置補正情報デコーダ２２１に供給される。位置補正情報デコーダ２２１では、位置補正情報ストリームに対して復号化が施され、差分成分ＶＰ２が得られる。また、差分情報ＶＰ３を含む位置補正情報ストリームは位置補正情報デコーダ２２２に供給される。位置補正情報デコーダ２２２では、位置補正情報ストリームに対して復号化が施され、差分成分ＶＰ３が得られる。

　これらの差分成分ＶＰ２，ＶＰ３は、３Ｄオーディオレンダラ２１８に供給される。３Ｄオーディオレンダラ２１８では、スピーカ配置情報が参照されて、各オブジェクト音源のオーディオデータがその位置情報（ｒ，θ，φ）に基づいて任意の位置に存在するスピーカにマッピングされる。ここで、ビュー２、ビュー３が選択される場合、それぞれ、差分成分ＶＰ２，ＶＰ３に基づいて、オブジェクト音源１，２の位置情報（ｒ’，θ’，φ’）が補正（変換）されて用いられる。

　上述したように、図１に示す送受信システム１０において、送信装置１００は、各オブジェクト音源のビュー１を基準とする位置情報（ｒ，θ，φ）を、ビュー２、ビュー３を基準とする位置情報（ｒ’，θ’，φ’）に補正（変換）するための位置補正情報（差分成分ＶＰ２，ＶＰ３）を、オーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤに挿入して送信するものである。そのため、受信側では、ビュー２やビュー３に切り替えを行う場合、オブジェクト音源の位置情報を補正して用いることができ、３Ｄオーディオレンダリングを正しく行い得るようになる。

　＜２．変形例＞
　なお、上述実施の形態においては、ビュー１の他にビュー２、ビュー３が存在し、またオブジェクト音源１，２が存在する例を示した。本技術において、ビューの数およびオブジェクト音源の数は、この例に限定されない。

　また、上述実施の形態においては、位置補正情報が差分成分（Δｘ，Δｙ，Δｚ，Δθ，Δφ）である例を示した。しかし、本技術において、位置補正情報は、差分成分（Δｘ，Δｙ，Δｚ，Δθ，Δφ）に限定されない。

　また、上述実施の形態において、受信装置２００は、差分成分ＶＰ２，ＶＰ３を、オーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤから取得する例を示した。しかし、この差分成分を、ネットワークに接続されたサーバから取得する構成も考えられる。この場合、送信装置１００から受信装置２００にサーバへのアクセス情報がオーディオストリームのレイヤ、ビデオストリームのレイヤあるいはコンテナのレイヤに挿入されて送られるようにされてもよい。

　図２６は、その場合における受信装置２００の構成例を示している。この図２６において、図２４と対応する部分には、同一符号を付し、その詳細説明は省略する。通信インタフェース２３１では、ネットワークに接続されたサーバにアクセスすることで、差分成分ＶＰ２，ＶＰ３が取得される。

　また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

　なお、本技術は、以下のような構成もとることができる。
　（１）第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
　送信装置。
　（２）上記位置補正情報は、上記第１のビューと上記第２のビューの位置および方向の差分成分である
　前記（１）に記載の送信装置。
　（３）上記位置補正情報は、上記オーディオストリームのレイヤに挿入される
　前記（１）または（２）に記載の送信装置。
　（４）上記位置補正情報は、上記位置情報が含まれるメタデータ領域に挿入される
　前記（３）に記載の送信装置。
　（５）上記位置補正情報は、ユーザデータ領域に挿入される
　前記（３）に記載の送信装置。
　（６）上記第２のビューが複数であるとき、上記オーディオストリームのレイヤに、上記複数の第２のビューに対応して複数の上記位置補正情報が挿入され、
　上記コンテナのレイヤに、上記複数の位置補正情報のそれぞれが対応する上記第２のビデオストリームを示す情報が挿入される
　前記（３）に記載の送信装置。
　（７）上記位置補正情報は、上記第２のビデオストリームのレイヤに挿入される
　前記（１）または（２）に記載の送信装置。
　（８）上記位置補正情報は、上記コンテナのレイヤに挿入される
　前記（１）または（２）に記載の送信装置。
　（９）上記位置補正情報は、シグナリング情報として挿入される
　前記（８）に記載の送信装置。
　（１０）上記コンテナは、ＭＰＥＧ２―ＴＳであり、
　上記位置補正情報は、プログラムマップテーブルの上記第２のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される
　前記（９）に記載の送信装置。
　（１１）上記位置補正情報を含む情報ストリームが挿入される
　前記（８）に記載の送信装置。
　（１２）第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームを生成するエンコードステップと、
　送信部により、上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信ステップとを有する
　送信方法。
　（１３）第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
　上記コンテナに含まれる情報を処理する処理部とを備える
　受信装置。
　（１４）上記処理部は、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクタと、
　上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、
　上記レンダリング部は、上記セレクタで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　前記（１３）に記載の受信装置。
　（１５）受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記コンテナに含まれる情報を処理する処理ステップとを有する
　受信方法。
　（１６）第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクタと、
　上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
　上記レンダリング部は、上記セレクタで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　受信装置。
　（１７）上記取得部は、上記位置補正情報を、上記オーディオストリームのレイヤ、上記第２のビデオストリームのレイヤあるいは上記コンテナのレイヤから取得する
　前記（１６）に記載の受信装置。
　（１８）上記取得部は、上記位置補正情報を、ネットワーク上のサーバから取得する
　前記（１６）に記載の受信装置。
　（１９）受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報を取得する取得ステップと、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコードステップと、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクトステップと、
　上記オブジェクト音源のオーディオデータおよび位置情報に基づいて、スピーカシステムに合わせたオーディオデータを得るレンダリングステップとを有し、
　上記レンダリングステップでは、上記セレクトステップで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　受信方法。

　１０・・・送受信システム
　１００・・・送信装置
　１１１・・・制御部
　１１２，１１３，１１４・・・ビデオエンコーダ
　１１５・・・３Ｄオーディオエンコーダ
　１１６・・・システムエンコーダ
　１１７・・・送信部
　１１８，１１９・・・位置補正情報エンコーダ
　２００・・・受信装置
　２１１・・・制御部
　２１２・・・受信部
　２１３・・・システムデコーダ
　２１４・・・セレクタ
　２１５・・・ビデオデコーダ
　２１６・・・表示部
　２１７・・・３Ｄオーディオデコーダ
　２１８・・・３Ｄオーディオレンダラ
　２１８ａ・・・位置補正演算部
　２１９・・・スピーカシステム
　２２１，２２２・・・位置補正情報デコーダ
　２３１・・・通信インタフェース

Claims

　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームを生成するエンコード部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信部とを備える
　送信装置。
　上記位置補正情報は、上記第１のビューと上記第２のビューの位置および方向の差分成分である
　請求項１に記載の送信装置。
　上記位置補正情報は、上記オーディオストリームのレイヤに挿入される
　請求項１に記載の送信装置。
　上記位置補正情報は、上記位置情報が含まれるメタデータ領域に挿入される
　請求項３に記載の送信装置。
　上記位置補正情報は、ユーザデータ領域に挿入される
　請求項３に記載の送信装置。
　上記第２のビューが複数であるとき、上記オーディオストリームのレイヤに、上記複数の第２のビューに対応して複数の上記位置補正情報が挿入され、
　上記コンテナのレイヤに、上記複数の位置補正情報のそれぞれが対応する上記第２のビデオストリームを示す情報が挿入される
　請求項３に記載の送信装置。
　上記位置補正情報は、上記第２のビデオストリームのレイヤに挿入される
　請求項１に記載の送信装置。
　上記位置補正情報は、上記コンテナのレイヤに挿入される
　請求項１に記載の送信装置。
　上記位置補正情報は、シグナリング情報として挿入される
　請求項８に記載の送信装置。
　上記コンテナは、ＭＰＥＧ２―ＴＳであり、
　上記位置補正情報は、プログラムマップテーブルの上記第２のビデオストリームに対応したビデオ・エレメンタリストリームループ内に挿入される
　請求項９に記載の送信装置。
　上記位置補正情報を含む情報ストリームが挿入される
　請求項８に記載の送信装置。
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームを生成するエンコードステップと、
　送信部により、上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを送信する送信ステップとを有する
　送信方法。
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信部と、
　上記コンテナに含まれる情報を処理する処理部とを備える
　受信装置。
　上記処理部は、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクタと、
　上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを有し、
　上記レンダリング部は、上記セレクタで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　請求項１３に記載の受信装置。
　受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームと、上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報とを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記コンテナに含まれる情報を処理する処理ステップとを有する
　受信方法。
　第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報を取得する取得部と、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコード部と、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクタと、
　上記オブジェクト音源のオーディオデータを上記オブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングするレンダリング部とを備え、
　上記レンダリング部は、上記セレクタで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　受信装置。
　上記取得部は、上記位置補正情報を、上記オーディオストリームのレイヤ、上記第２のビデオストリームのレイヤあるいは上記コンテナのレイヤから取得する
　請求項１６に記載の受信装置。
　上記取得部は、上記位置補正情報を、ネットワーク上のサーバから取得する
　請求項１６に記載の受信装置。
　受信部により、第１のビューのビデオデータを持つ第１のビデオストリームと、第２のビューのビデオデータを持つ第２のビデオストリームと、オブジェクト音源のオーディオデータおよび該オブジェクト音源の上記第１のビューを基準とする位置情報を持つオーディオストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記オブジェクト音源の位置情報を上記第２のビューを基準とする位置情報に補正するための位置補正情報を取得する取得ステップと、
　上記第１のビデオストリーム、上記第２のビデオストリームおよび上記オーディオストリームから、上記第１のビューのビデオデータ、上記第２のビューのビデオデータ、上記オブジェクト音源のオーディオデータおよび位置情報を得るデコードステップと、
　上記第１のビューのビデオデータまたは上記第２のビューのビデオデータを選択的に出力するセレクトステップと、
　上記オブジェクト音源のオーディオデータおよび位置情報に基づいて、スピーカシステムに合わせたオーディオデータを得るレンダリングステップとを有し、
　上記レンダリングステップでは、上記セレクトステップで上記第２のビューのビデオデータが選択されるとき、上記位置補正情報に基づいて上記第２のビューを基準とするように補正された位置情報を用いる
　受信方法。