JPWO2013038679A1

JPWO2013038679A1 - 符号化装置、復号装置、再生装置、符号化方法、及び復号方法

Info

Publication number: JPWO2013038679A1
Application number: JP2013533511A
Authority: JP
Inventors: 泰治佐々木; 洋矢羽田; 智輝小川; 西　孝啓; 孝啓西; 川口　透; 透川口; 由佳小澤
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-09-13
Filing date: 2012-09-13
Publication date: 2015-03-23
Anticipated expiration: 2032-09-13
Also published as: US20130243103A1; CN103202021A; JP2016220236A; EP2757783A4; WO2013038679A1; JP6025065B2; JP6229962B2; EP2757783A1; US9661320B2; CN103202021B

Abstract

符号化装置は、複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化する際に、基準視点のフレーム画像群を、他の視点のフレーム画像を参照画像として用いずにベースビュービデオストリームデータとして符号化する。また、複数の視点の内、前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータを参照画像として用い第１ディペンデントビュービデオストリームデータとして符号化する。更に、基準視点及び第１種視点以外の視点であり、他の視点に挟まれた第２種視点のフレーム画像群を、当該第２種視点を挟む２視点の同時刻におけるフレーム画像を参照して第２ディペンデントビュービデオストリームデータとして符号化する。

Description

本発明は、映像を記録又は伝送するための符号化、及び復号して再生する技術に関し、特に多視点の映像の符号化及び復号技術に関する。

従来、視聴者が選択した視点位置からの映像を再生するための技術に自由視点映像技術がある。

自由視点映像技術では、複数のカメラを用いてそれぞれ異なる視点から撮影した映像（以下、一の視点から撮影した映像を「視点映像」と呼ぶ。）の内、視聴者が選択した視点位置に最も近い視点映像の再生、又は、視聴者の視点位置に近い視点映像を用いて補間により生成した視聴者の視点位置における映像の再生を行う（特許文献１）。

このような自由視点映像技術において、様々な視点位置からの映像を精度よく再生するためには、できるだけ多数の視点映像が必要である。

特開２００８−２１２１０号公報

「ＭＰＥＧ−４Ｐａｒｔ１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ」、ＩＳＯ／ＩＥＣ、１４４９６−１０、２００３

ところが、多数の視点映像（以下、多数の視点映像のまとまりを「多視点映像」と呼ぶ。）を配信する場合には、単一視点の視点映像や、固定視点における３Ｄ映像の配信に比べて、配信するデータ量は増加する。

放送波などで配信する場合、放送波の帯域は有限であるので、配信するビデオストリーム全体のデータ量は、できるだけ少なくすることが望まれる。

そこで、本発明は、係る問題に鑑みてなされたものであり、多視点映像を符号化する際にビデオストリーム全体のデータ量を削減し得るビデオストリームを生成する符号化装置、及び符号化方法、並びにこのようなビデオストリームの復号装置、再生装置及び復号方法を提供することを目的とする。

上記課題を解決するために、本発明に係る符号化装置は、複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化したビデオストリームデータの生成を行う符号化装置であって、前記複数の視点それぞれのフレーム画像群の入力を受け付ける入力手段と、前記複数の視点のフレーム画像群の内の１つを基準視点のフレーム画像群とし、当該フレーム画像群を、他の視点のフレーム画像を参照画像として用いずに符号化したベースビュービデオストリームデータを生成するベースビュー符号化手段と、前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータを参照画像として用い符号化する第１ディペンデントビュービデオストリームデータを生成する第１ディペンデントビュー符号化手段と、前記基準視点及び第１種視点以外であり、他の視点に挟まれる位置関係にある第２種視点のフレーム画像群を、当該視点を挟む２視点の同時刻におけるフレーム画像を参照画像として用い符号化した第２ディペンデントビュービデオストリームデータを生成する第２ディペンデントビュー符号化手段と、前記ベースビュービデオストリームデータと前記第１及び第２ディペンデントビュービデオストリームデータとを出力するビデオストリームデータ出力手段とを備えることを特徴とする。

また、本発明に係る符号化方法は、複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化したビデオストリームデータの生成を行う符号化方法であって、前記複数の視点それぞれのフレーム画像群の入力を受け付ける入力ステップと、前記複数の視点のフレーム画像群の内の１つを基準視点のフレーム画像群とし、当該フレーム画像群を、他の視点のフレーム画像を参照画像として用いずに符号化したベースビュービデオストリームデータを生成するベースビュー符号化ステップと、前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータを参照画像として用い符号化する第１ディペンデントビュービデオストリームデータを生成する第１ディペンデントビュー符号化ステップと、前記ベースビュービデオストリームデータ及び前記第１ディペンデントビュービデオストリームデータとして符号化した視点以外であり、他の視点に挟まれる位置関係にある第２種視点のフレーム画像群を、当該視点を挟む２視点の同時刻におけるフレーム画像を参照画像として用い符号化した第２ディペンデントビュービデオストリームデータを生成する第２ディペンデントビュー符号化ステップと、前記ベースビュービデオストリームデータと前記第１及び第２ディペンデントビュービデオストリームデータとを出力するビデオストリームデータ出力ステップとを備えることを特徴とする。

また、本発明に係る復号装置は、上記の符号化装置で生成されたストリームデータを取得する取得手段と、前記ストリームデータに含まれるベースビュービデオストリームデータを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、第１ディペンデントビュービデオストリームデータを復号する際の参照先の１視点に対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第１ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、第２ディペンデントビュービデオストリームデータを復号する際の参照先の２視点それぞれに対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第２ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、前記ベースビュー復号手段で得られたフレーム画像群と、前記第１及び第２ディペンデントビュー復号手段で得られたフレーム画像群とを出力する出力手段とを備えることを特徴とする。

また、本発明に係る再生装置は、上記の符号化装置から送信されたトランスポートストリームを受信し再生する再生装置であって、前記トランスポートストリームを受信するストリーム受信手段と、前記トランスポートストリームに含まれるベースビュービデオストリームを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、前記トランスポートストリームに含まれる属性情報を抽出する属性情報抽出手段と、前記トランスポートストリームに含まれる第１ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、前記トランスポートストリームに含まれる第２ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、前記ベースビュー復号手段で得られたフレーム画像群と、前記第１、第２ディペンデントビュー復号手段で得られたフレーム画像群とを再生する再生手段とを備えることを特徴とする。

また、本発明に係る復号方法は、上記の符号化装置で生成されたストリームデータを復号する復号方法であって、前記ストリームデータを取得する取得ステップと、前記ストリームデータに含まれるベースビュービデオストリームデータを復号し、基準視点のフレーム画像群を得るベースビュー復号ステップと、第１ディペンデントビュービデオストリームデータを復号する際の参照先の１視点に対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第１ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第１ディペンデントビュー復号ステップと、第２ディペンデントビュービデオストリームデータを復号する際の参照先の２視点それぞれに対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第２ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第２ディペンデントビュー復号ステップと、前記ベースビュー復号ステップで得られたフレーム画像群と、前記第１及び第２ディペンデントビュー復号ステップで得られたフレーム画像群とを出力する出力ステップとを備えることを特徴とする。

上述の構成により、本発明に係る符号化装置及び符号化方法によれば、多視点映像を符号化する際にビデオストリーム全体のデータ量を削減し得るビデオストリームを生成することができる。

また、本発明に係る復号装置及び復号方法によれば、このようなビデオストリームを復号することができる。

また、本発明に係る再生装置によれば、このようなビデオストリームを含むトランスポートストリームを復号し、多視点映像を再生することができる。

複数の視点映像の符号化の際の視点間の参照関係を示す概念図（ｉ）１つの視点映像のみが参照される例、（ｉｉ）最も近い視点映像を参照する例、（ｉｉｉ）視点映像を挟む２視点を参照する例符号化装置２６００の構成を示すブロック図エンコードタイプテーブル１００の構成とその一例を示す図ディペンデントビューとして符号化する際のそれぞれの視点映像間の参照関係を示す参照情報２００の構成とその一例を示す図ベースビュービデオストリームとディペンデントビュービデオストリームのＧＯＰ構成を示す図ＭＰＥＧ−４ＭＶＣ形式の符号化方式を利用したベースビューとディペンデントビューとの参照関係を示す概念図複数の視点映像の符号化の際の視点間の参照関係を示す概念図、（ｉ）隣接する視点映像を逐次参照する場合の一例、（ｉｉ）本実施の形態における参照関係を示す一例図７（ｉ）で示される視点間の参照関係の場合のビデオストリームの参照関係を概念念的に表した図図７（ｉｉ）で示される視点間の参照関係の場合のビデオストリームの参照関係を概念的に表した図ビデオストリームのアクセスユニットの内部構成の概念図トランスポートストリームの構成とＰＭＴ関係を示す図ＭＶＣ情報ディスクリプタの構造を示す図ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタを示す図（図１４に続く）ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタを示す図（図１３から続く）ＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタを示す図ＭＶＣマルチビューディスクリプタを示す図各ビューのビュー間参照における参照関係を示す概念図マルチビューアクセスユニットにおけるアクセスユニットの格納順の一例を示す概念図符号化装置２６００における符号化処理の動作を示すフローチャート再生装置２８００の構成を示すブロック図である再生装置２８００におけるマルチビュービデオストリームの復号処理の動作を示すフローチャート多数の視点位置からの撮影の際の視点位置の一例を示す概念図多視点映像を受信する自由視点テレビの概略図自由視点テレビが受信する視点位置の一例を示す概略図ＭＰＥＧ−４ＭＶＣの符号化におけるビュー間の参照関係を示す概念図各ピクチャビデオの符号化の際の参照関係の変形例を示す図、（ｉ）ＳＩピクチャビデオとＳＰピクチャビデオの間にＳＰピクチャビデオを設定する場合、（ｉｉ）他の視点映像から参照されるＳＢｒピクチャビデオを設定する場合視点映像の視点間の参照関係とそれぞれの視点映像のデプスマップの視点間の参照関係とを示す図視点映像の視点位置を２次元行列上に配置した一例を示す概念図ＭＶＣマルチビューディスクリプタの変形例を示す図視点位置を２次元行列上に配置した場合の参照関係の一例を示す概念図視点位置を２次元行列上に配置した場合の参照関係の変形例の概念図（その１）視点位置を２次元行列上に配置した場合の参照関係の変形例の概念図（その２）視点映像を複数のＧＯＶに分割する場合の一例を示す概念図基準視点を変更する場合の一例を示す概念図ベースビューとディペンデントビューの参照関係を検証するための補足データの一例を示す概念図ユーザの視点位置における映像を生成する場合に、用いる視点映像の一例を示す概念図、（ｉ）ユーザの視点位置が移動している場合、（ｉｉ）ユーザの視点位置の移動がない場合視点映像を元に３Ｄ映像を生成する場合における各視点位置の間隔の一例を示す概念図トランスポートストリーム形式のデジタルストリームの構成の概念図ビデオストリームの構造の概念図ＰＥＳパケットの構成の概念図トランスポートストリームを構成するＴＳパケットのデータ構造を示す図ＰＭＴのデータ構造を示す図３Ｄ映像再生に対応した３Ｄデジタルテレビと２Ｄ映像再生の２Ｄデジタルテレビを示す図立体視画像の表示の一例を示す図Ｓｉｄｅ−ｂｙ−Ｓｉｄｅ方式の概念図ビデオストリームの時間方向のピクチャの参照関係を示す図ＭＰＥＧ−４ＭＶＣ形式のビュービデオストリームの内部構成の一例を示す図ベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるＰＴＳとＤＴＳの関係を示す図２Ｄ映像とデプスマップから左目用画像と右目用画像の視差画像を生成する場合の概念図クロッピング領域情報とスケーリング情報の概念図クロッピング領域情報とスケーリング情報の具体的な指定方法を示す図変形例における各ピクチャタイプの参照関係を示す図

＜１．実施の形態１＞
＜１−１．概要＞
図１は、複数の視点映像の符号化の際の視点間の参照関係を示す概念図である。

同図は、視点映像ａ〜ｃにおける参照関係を示す一例である。

各視点映像は、対応する視点における経時的な眺め、すなわちカメラで撮影した時間的に連続した画像を示すピクチャ群から構成され、各ピクチャは、再生装置で再生する際の１画面を構成する画像、すなわちフレーム又はフィールドを構成する画像を意味する。

同図の矢印は、矢印の先にある視点映像が、矢印の元にある視点映像から参照される関係にあることを示している。例えば、図１（ｉ）の視点映像ａは視点映像ｃの同時刻のピクチャを参照して符号化することを意味する。

図１（ｉ）で示す参照関係を持つ視点映像の場合、ＭＰＥＧ−４ＭＶＣ（Multi view coding）に準拠し、視点映像ｃを圧縮符号化したベースビューを生成する。そして、視点映像ａと視点映像ｂのピクチャそれぞれを、ベースビューの同時刻を示すピクチャを参照したピクチャ間予測符号化を用いて圧縮符号化したディペンデントビューを生成する。同時刻の近接する視点映像におけるピクチャ間には、ピクチャに類似性がある（相関性が大きい）。そして、ピクチャ間の相関性が大きい程、ピクチャ間の差分は小さくなり、ＭＰＥＧ−４ＭＶＣによる圧縮符号化においては、一般的に差分が小さい程、符号化したデータ量も小さくなる。そのため、その差分を圧縮符号化して生成するディペンデントビューは、ベースビューに比べてデータ量を削減できる。なお、以下、説明の都合上、ベースビューとディペンデントビューとを、単に「ビュー」と呼ぶこともある。また、異なる視点におけるビューのピクチャを参照することを「ビュー間参照」という。

図１（ｉｉ）で示す参照関係の場合は、視点映像ｃではなく視点映像ｂの同時刻のピクチャを参照したピクチャ間予測符号化を用いて、視点映像ａのピクチャを符号化したディペンデントビューを生成する。

視点映像ａが参照する視点映像ｂのピクチャは、図１（ｉ）の場合と比べて、距離の近い視点映像を参照するため、ピクチャ間の相関性が大きく、データ量をより削減して圧縮符号化できると考えられる。しかし、視点映像ａを復号する際には、図１（ｉ）では、視点映像ｂのピクチャの復号は必要ないが、この場合には、視点映像ｂのピクチャも復号しなければならない。このように隣り合う視点映像を参照して符号化する場合、視点映像が多くなればなるほど、基準視点から離れた視点映像を再生する際に復号する視点映像の数も多くなるという問題がある。

図１（ｉｉｉ）で示す視点映像の場合は、図１（ｉ）の場合と同様に、視点映像ａは視点映像ｃのピクチャを参照するが、視点映像ｂは、視点映像ｃと視点映像ａとの両方のピクチャを参照したピクチャ間予測符号化により符号化し、ディペンデントビューを生成する。この場合、視点映像ｂは、視点映像ｃと視点映像ａの両方のピクチャを参照するため、図１（ｉ）や（ｉｉ）の場合のように１つの視点映像だけを参照して符号化した場合に比べてデータ量をより削減して符号化し得る。２つの視点映像のピクチャを参照して符号化する視点映像の数が多くなればなるほど、図１（ｉ）や（ｉｉ）の場合に比べて、複数の視点映像全体としてデータ量をより削減し得ると考えられる。

そこで、本実施の形態に係る符号化装置は、２つの視点映像を参照しながら符号化する視点映像の場合には、図１（ｉｉｉ）で示すような参照関係の視点映像、すなわち、符号化する視点映像を挟む２つの視点映像を用いて符号化を行う。これにより、複数の視点映像全体でデータ量を削減した符号化を行い得る。この場合の圧縮符号化方法として、ＭＰＥＧ−２やＭＰＥＧ−４ＭＶＣの圧縮符号化方法における、時間方向においてＢピクチャとして符号化する場合と同様の符号化方法、すなわち、ピクチャ内のオブジェクトの動きベクトルを、前後２つのピクチャを参照することによって求め、マクロブロック単位で、その差分を圧縮符号化する符号化方法を用いて圧縮符号化する。

なお、本実施の形態では、符号化の際のピクチャタイプを３つに分類し、「ＳＩ（Spacial Intra）ピクチャ」、「ＳＰ（Spatial Predictive）ピクチャ」、「ＳＢ（Spatial Bi-directionally Predictive）ピクチャ」と呼ぶ。

ＳＩピクチャとは、他の視点映像のピクチャを参照せず、単独で復号可能なベースビューのピクチャである。

ＳＰピクチャとは、符号化対象の視点映像とは異なる視点映像を符号化したビューの内の１つのビューだけを参照して符号化したディペンデントビューのピクチャである。

ＳＢピクチャとは、符号化対象の視点映像とは異なる視点映像を符号化したビューの内の異なる２つのビューを参照して符号化したディペンデントビューのピクチャである。ＳＢピクチャは他の視点映像を符号化する際に参照されない。なお、他の視点映像を符号化する際に参照されるＳＢピクチャを特に「ＳＢｒピクチャ」と呼ぶ。

本実施の形態の符号化装置は、各視点映像を、全体を通して同じ種類のピクチャタイプで符号化したビュービデオストリームを生成する。ＳＩピクチャ群で構成されるビュービデオストリームを「ＳＩピクチャビデオ」、ＳＰピクチャ群で構成されるビュービデオストリームを「ＳＰピクチャビデオ」、ＳＢピクチャ群で構成されるビュービデオストリームを「ＳＢピクチャビデオ」、ＳＢｒピクチャ群で構成されるビュービデオストリームを「ＳＢｒピクチャビデオ」と呼ぶ。

以下、本発明の一実施形態に係る符号化装置と、復号装置を含む再生装置とについて説明する。

＜１−２．符号化装置＞
＜１−２−１．構成＞
図２は、本実施の形態に係る符号化装置２６００の構成を示すブロック図である。

符号化装置２６００は、複数の視点映像を入力として、各視点映像を符号化し、後述するデータフォーマットのベースビュービデオストリーム及びディペンデントビュービデオストリームを格納するトランスポートストリームを出力する。

符号化装置２６００は、制御部２６０１、ベースビュービデオエンコーダ２６０２、ディペンデントビュービデオエンコーダ２６０３、エンコーダセレクタ２６０４、ビデオデコーダ２６０５、ピクチャメモリ２６０６、ビュービデオ符号化情報記憶部２６０７、デコードビデオセレクタ２６０８、ビュービデオ記憶部２６０９、参照情報記憶部２６１０、ベースビュービデオストリーム生成部２６１１、ディペンデントビュービデオストリーム生成部２６１２、ＰＭＴ（Program Map Table）生成部２６１３、マルチプレクサ２６１４、トランスポートストリーム出力部２６１５から構成される。

符号化装置２６００は、図示しないプロセッサ及びメモリを含んで構成されており、制御部２６０１、ベースビュービデオストリーム生成部２６１１、ディペンデントビュービデオストリーム生成部２６１２、及びＰＭＴ生成部２６１３の機能は、このメモリに記憶されているプログラムをこのプロセッサが実行することにより実現される。
（制御部２６０１）
制御部２６０１は、入力された視点映像毎に、入力された視点映像をベースビュービデオエンコーダ２６０２とディペンデントビュービデオエンコーダ２６０３とのどちらに出力するのかをエンコーダセレクタ２６０４に対して指示する機能を備える。

制御部２６０１は、複数の視点映像それぞれに対して視点映像の提供者が予め指定したエンコードタイプの情報（例えば、以下に示すエンコードタイプテーブル１００）に基づいて、出力先のビデオエンコーダをどちらにするかを判断する。視点映像の提供者は、できるだけ効率よく符号化及び復号できるように各視点映像のエンコードタイプを指定する。例えば、各視点映像が一直線上に配置されている場合、ユーザが主に視聴するであろうと想定される中央の視点位置の視点映像を基準視点の視点映像と定め、ＳＩピクチャビデオとして符号化するように指定し、基準視点から両側に最も離れた２つの視点映像をＳＰピクチャビデオ、残りの視点映像をＳＢピクチャビデオとして符号化するように指定する。

ここで、図３に、ピクチャビデオのエンコードタイプを指定するエンコードタイプテーブル１００の一例を示す。

エンコードタイプテーブル１００は、視点映像１０１とビデオタイプ１０２とを関連付けたテーブルである。視点映像１０１は、符号化対象の視点映像の識別情報であり、ビデオタイプ１０２は、視点映像１０１で示される視点映像を符号化する際のビデオタイプを示す情報である。ビデオタイプは、視点映像のピクチャをＳＩピクチャ、ＳＰピクチャ、ＳＢ（ＳＢｒピクチャを含む）ピクチャのいずれのピクチャとして、符号化するかを示す情報である。同図の例では、視点映像ｅは、基準視点であるＳＩピクチャビデオとして符号化することを示し、視点映像ａ、ｉはＳＰピクチャビデオ、視点映像ｂ、ｃ、ｄ、ｆ、ｇ、ｈはＳＢピクチャビデオとして符号化することを示す。

制御部２６０１は、エンコードタイプテーブル１００を参照し、ビデオタイプ１０２がＳＩピクチャビデオである視点映像、ＳＰピクチャビデオである視点映像、ＳＢピクチャビデオである視点映像の順に符号化するように制御する。そして、入力された視点映像のエンコードタイプがＳＩピクチャビデオの場合には、ベースビュービデオエンコーダ２６０２に出力されるようにエンコーダセレクタ２６０４に指示し、ＳＰピクチャビデオ及びＳＢ（ＳＢｒを含む）ピクチャビデオの場合には、ディペンデントビュービデオエンコーダ２６０３に出力するように指示する。

また、制御部２６０１は、ディペンデントビュービデオエンコーダ２６０３が符号化の際に、後述するビュービデオ符号化情報に基づいて、同時刻の参照するピクチャを特定し、
ビデオデコーダ２６０５で参照先の視点映像における同時刻のピクチャを復号できるように、ビデオデコーダ２６０５へ参照先の視点映像のビューを出力する指示をデコードビデオセレクタ２６０８に対して行う機能を備える。制御部２６０１は、例えば、図１（ｉｉｉ）の視点映像ａを符号化する際には、ベースビュービデオエンコーダ２６０２によって視点映像ｃを符号化したＳＩピクチャビデオを、ビデオデコーダ２６０５に出力するようにデコードビデオセレクタ２６０８に指示する。また、視点映像ｂを符号化する際には、ベースビュービデオエンコーダ２６０２によって視点映像ｃを符号化したＳＩピクチャビデオと、ディペンデントビュービデオエンコーダ２６０３によって視点映像ａを符号化したＳＰピクチャビデオとをビデオデコーダ２６０５に、エンコードするピクチャ毎に、逐次切り替えて出力する指示をデコードビデオセレクタ２６０８に行う。
（ベースビュービデオエンコーダ２６０２）
ベースビュービデオエンコーダ２６０２は、エンコーダセレクタ２６０４を介して入力された視点映像から、ＭＰＥＧ−４ＭＶＣ形式に準拠して、他の視点映像を参照せず、符号化したベースビューを生成し、後述するビデオデコーダ２６０５及びビュービデオ記憶部２６０９に出力する機能を有する。
（ディペンデントビュービデオエンコーダ２６０３）
ディペンデントビュービデオエンコーダ２６０３は、エンコーダセレクタ２６０４を介して入力された視点映像から、ＭＰＥＧ−４ＭＶＣ形式に準拠して、ビュー間参照を用いて符号化したディペンデントビューを生成し、ビデオデコーダ２６０５及びビュービデオ記憶部に出力する機能を有する。ディペンデントビュービデオエンコーダ２６０３は、後述するビュービデオ符号化情報に含まれる情報を元に、ビュー間参照として、ビデオデコーダ２６０５で参照先の視点映像のビューを復号して得た同時刻のピクチャ（以下、「復号ピクチャ」と呼ぶ。）を用いて視点映像のピクチャの符号化を行う。更に、この時参照した視点映像を識別する情報に基づいて後述する参照情報２００を生成し、参照情報記憶部２６１０に出力する機能を備える。
（エンコーダセレクタ２６０４）
エンコーダセレクタ２６０４は、制御部２６０１が指示に従い、入力された視点映像を出力するエンコーダを切り替える機能を有する。エンコーダセレクタ２６０４は、制御部２６０１の指示がＳＩピクチャビデオを出力する指示である場合には、ベースビュービデオエンコーダ２６０２に入力された視点映像を出力し、ＳＰピクチャビデオ及びＳＢピクチャビデオを出力する指示である場合には、ディペンデントビュービデオエンコーダ２６０３に入力された視点映像を出力する。
（ビデオデコーダ２６０５）
ビデオデコーダ２６０５は、ディペンデントビュービデオエンコーダで圧縮符号化する際に参照するピクチャを復号する機能を備える。

ビデオデコーダ２６０５は、ＭＰＥＧ−４ＭＶＣの既存のデコーダと同等の機能を備え、復号したピクチャと共に、各視点映像のビューにおいて、復号の際に表示やデコード順の同期をとるためのＤＴＳ、ＰＴＳの情報を出力する。これらの情報に基づいて、ディペンデントビュービデオエンコーダ２６０３は、参照先のピクチャと同じＰＴＳを用いて符号化することができる。

ビデオデコーダ２６０５は、視点映像を符号化する際に、先に符号化されたＳＩピクチャビデオ及びＳＰピクチャビデオから、参照元の視点映像のピクチャと同時刻のピクチャを復号し、ピクチャメモリ２６０６に出力する。ビデオデコーダ２６０５は、例えば、ある１つの視点映像をＳＰピクチャビデオとして符号化する際には、制御部２６０１の指示に従い、デコードビデオセレクタ２６０８を介して入力された、先に符号化されたＳＩピクチャビデオを復号し、復号して得られたピクチャをビュー間参照用のピクチャとして、ピクチャメモリ２６０６に出力し、復号したビューに関するビュービデオ符号化情報を出力する。ビュービデオ符号化情報については、後述する。
（ピクチャメモリ２６０６）
ピクチャメモリ２６０６は、読書可能なメモリ（例えばＤＲＡＭ：Dynamic Random Access Memory）であり、メモリビデオデコーダ２６０５で復号したピクチャを格納する機能を備える。ピクチャメモリ２６０６に格納されたピクチャは、ディペンデントビュービデオエンコーダ２６０３で視点映像を符号化する際に参照される。
（ビュービデオ符号化情報記憶部２６０７）
ビュービデオ符号化情報記憶部２６０７は、例えば不揮発性メモリであり、ビデオデコーダ２６０５で復号した際に得られるビューの属性情報（解像度、アスペクト比、フレームレート、プログレッシブかインターレースかの区別など）、該当ピクチャのピクチャ属性情報（ピクチャタイプなど）、後述するＧＯＰ（Group of Pictures）構造、及び、ピクチャメモリ管理情報を含むビュービデオ符号化情報を記憶する。

ピクチャメモリ管理情報は、ピクチャメモリ２６０６に格納される復号ピクチャのメモリアドレスと該当ピクチャの表示順情報（ＰＴＳ：Presentation Time Stamp）と符号順情報（ファイルの符号順やＤＴＳ：Decoding Time Stamp）とを関連付した情報である。

これらの情報は、ビデオデコーダ２６０５でピクチャビデオを復号する際に得られる情報であり、基本的には、従来のＭＰＥＧ−４ＭＶＣの復号の際に得られる情報と同様の情報である。
（デコードビデオセレクタ２６０８）
デコードビデオセレクタ２６０８は、制御部２６０１の指示に従い、ビュー間参照するために復号するビューを切り替えてビデオデコーダ２６０５に出力する機能を備えるセレクタである。
（ビュービデオ記憶部２６０９）
ビュービデオ記憶部２６０９は、例えばハードディスクであり、ベースビュービデオエンコーダ２６０２及びディペンデントビュービデオエンコーダ２６０３で符号化されたビューのデータを記憶する。
（参照情報記憶部２６１０）
参照情報記憶部２６１０は、例えばハードディスクであり、１つの視点映像を符号化してディペンデントビューを生成する際に、その視点映像と参照先の視点映像との参照関係を示す参照情報２００を記憶する。

ここで、参照情報２００の一例を図４に示す。参照情報２００は、視点映像２０１と参照先２０２とを関連付けたテーブルである。視点映像２０１は、符号化対象の視点映像の識別情報であり、参照先２０２は、視点映像２０１で示される視点映像を符号化する際に参照した視点映像の識別情報を示す。参照先２０２の項目の「０」は、視点映像を符号化する際に、参照した視点映像はないことを意味する。つまり、参照先に「０」が記載されている視点映像は、ベースビューであるＳＩピクチャビデオとして符号化されたことを示す。同図では、視点映像ｅは、他の視点映像を参照せず、視点映像ａ、ｉは、視点映像ｅを参照し、視点映像ｂ、ｃ、ｄは、視点映像ａ、ｅの２つの視点映像を参照し、視点映像ｆ、ｇ、ｈは、視点映像ｅ、ｉの２つの視点映像を参照して符号化されたことを示す。
（ベースビュービデオストリーム生成部２６１１）
ベースビュービデオストリーム生成部２６１１は、ベースビュービデオエンコーダ２６０２で符号化され、ビュービデオ記憶部２６０９に保存されたベースビューのデータからマルチプレクサ２６１４でディペンデントビュービデオストリームと共に多重化してトランスポートストリームとして出力されるベースビュービデオストリームを生成する機能を備える。
（ディペンデントビュービデオストリーム生成部２６１２）
ディペンデントビュービデオストリーム生成部２６１２は、ディペンデントビュービデオエンコーダ２６０３で符号化され、ビュービデオ記憶部２６０９に保存されたディペンデントビューからマルチプレクサ２６１４でベースビュービデオストリームと共に多重化してトランスポートストリームとして出力されるディペンデントビュービデオストリームを生成する機能を備える。
（ＰＭＴ生成部２６１３）
ＰＭＴ生成部２６１３は、ＰＭＴヘッダ、トランスポートストリームに関する各種ディスクリプタ、及びトランスポートストリーム中に含まれる映像・音声・字幕などの各ストリームに関するストリーム情報とを備えるＰＭＴを生成する機能を備える。

マルチプレクサ２６１４は、ベースビュービデオストリーム生成部２６１１から出力されたベースビュービデオストリーム及びディペンデントビュービデオストリーム生成部２６１２から出力されたディペンデントビュービデオストリームを多重化し、ＰＥＳ（Packetized Elementary Stream）パケット化した後にＴＳパケット単位で分割して出力する機能を備える。なお、マルチプレクサ２６１４は、ビデオストリームだけではなく、各視点映像を再生する際に同期して再生される共通の音声のストリーム及び字幕のストリームがある場合は、これらのストリームをビデオストリームと多重化して出力する。
（トランスポートストリーム出力部２６１５）
トランスポートストリーム出力部２６１５は、マルチプレクサで多重化されたＴＳパケットをトランスポートストリームとして逐次出力する機能を備えるインターフェースである。

＜１−２−３．データフォーマット＞
次に、データフォーマットについて、図面を参照しながら説明を行う。

本実施の形態で用いる視点映像の各ピクチャを符号化したデータのデータフォーマットは、ＭＰＥＧ−４ＭＶＣ形式のデータフォーマットと同じである。

図５は、本実施の形態でのベースビュービデオストリームとディペンデントビュービデオストリームとのＧＯＰ構成を示している。ＭＰＥＧ−４ＭＶＣにおけるビデオストリームのＧＯＰと同じ構造である。

ＧＯＰは１つ以上のビデオアクセスユニット（以下、「ＡＵ」と呼ぶ。）により構成される。ＡＵは、ピクチャの圧縮符号化データを格納する単位であり、１つのＡＵには、１フレームのピクチャのデータが格納される。ベースビュービデオストリーム及びディペンデントビュービデオストリームは１つ以上のＧＯＰで構成され、ＧＯＰは、それぞれ１つ以上のＡＵで構成される。なお、ＡＵは従来のビデオストリームにおけるＡＵと同じ構造であり、詳細は後述する。

符号化の際には、再生装置での飛び込み再生などの特殊再生に対応するため、ベースビュービデオストリームのＧＯＰとディペンデントビュービデオストリームのＧＯＰ（以下、「ディペンデントＧＯＰ」と呼ぶ。）とは全て同じ枚数で構成される。つまり、各ディペンデントＧＯＰの先頭ピクチャは、ベースビュービデオストリームの各ＧＯＰ先頭のＩピクチャのＰＴＳと同じＰＴＳが付与されたピクチャである。

また、ＭＰＥＧ−４ＭＶＣの規格に基づいて、ＧＯＰ先頭のピクチャがファイル上のどこにあるかを示すエントリマップ情報を格納した管理情報を生成する。このとき、ベースビュービデオストリームのＧＯＰ先頭のピクチャの位置だけでなく、同時刻のディペンデントビューのピクチャのＧＯＰ先頭の位置を示すエントリマップ情報も格納する。

次に、多視点映像をＭＰＥＧ−４ＭＶＣ形式で視点映像を符号化して得られるベースビュー及びディペンデントビューとの参照関係とマルチビューアクセスユニットの構成について説明する。

図６は、ベースビューとディペンデントビューとを構成する各ピクチャ間の参照関係を示す概念図である。各ピクチャ間の参照関係には、同一ビュー内での時間的な参照関係と、各ビュー間の空間的な参照関係とがある。

同図の矢印は、矢印の先にあるピクチャが、矢印の元にあるピクチャから参照される関係にあることを示している。例えば、ベースビューのＩ０ピクチャは、時間方向では、ベースビューのＢｒ１、Ｂｒ２、Ｐ３ピクチャから、空間方向では、ディペンデントビュー１のＰ１０ピクチャ、ディペンデントビュー２のＰ２０ピクチャから参照されることを示す。

各マルチビュービデオアクセスユニット（以下、「マルチビューＡＵ」と呼ぶ。）は、ベースビューのＡＵと、ベースビューと同時刻の、複数のディペンデントビューのＡＵとで構成され、再生装置は、このマルチビューＡＵ単位で復号する。マルチビューＡＵ群で構成されるビデオストリームをマルチビュービデオストリームと呼ぶ。マルチビューＡＵの詳細は、後述する。

ここで、多視点映像を符号化して得られるベースビュー及びディペンデントビューとの関係を、具体例を挙げて説明する。

図７は、多視点映像の符号化の際の視点間の参照関係を示す概念図である。同図は、視点映像ａ〜ｉの９つの視点映像がある場合の一例である。

図７（ｉ）では、視点映像ｅが基準視点の視点映像であり、視点映像ｅを符号化したベースビューを生成する。そして、視点映像ｅに隣接する視点映像ｄ、ｆを、視点映像ｅのベースビューを参照して、符号化したディペンデントビューを生成する。

更に、図中、視点映像ｄに隣り合う視点映像ｃは、視点映像ｄを参照して符号化したディペンデントビューを生成する。このように順次隣り合う視点映像のビューを参照して符号化を行う。

ところで、再生装置で、図７（ｉ）のユーザ視点Ｘの位置の映像を生成するためには視点映像ａ、ｂが必要である。視点映像ａ、ｂを得るためには、まず、視点映像ｅのベースビューを復号し、次に、視点映像ｄ、ｃ、ｂ、ａの順にディペンデントビューを復号しなければならない。すなわち、視点映像ａ〜ｅの５つの視点映像のビューの復号処理を行う必要があり、基準視点から離れるに従って、再生装置にとって処理負荷が増大する。以下、復号対象のビューを復号する際に参照するピクチャを得るために復号が必要なビューの数を「必要デコードビュー数」と呼ぶ。この例の場合は、必要デコードビュー数は５である。

一方、図７（ｉｉ）は、符号化装置２６００で用いる視点間の参照関係の一例を示す図である。

図７（ｉｉ）の場合も、図７（ｉ）と同様に、視点映像ｅが基準視点の視点映像とし、視点映像ｅを符号化したベースビューを生成する。

次に、図中、両端の視点映像ａ、ｉを、視点映像ｅを符号化したベースビューを参照して符号化し、それぞれの視点映像のディペンデントビューを生成する。そして、視点映像ｅと視点映像ａとの間にある視点位置の視点映像ｂ、ｃ、ｄを、視点映像ｅと視点映像ａとをそれぞれ符号化したビューを参照して符号化し、それぞれの視点映像のディペンデントビューを生成する。また、視点映像ｆ、ｇ、ｈについては、視点映像ｅと視点映像ｉとをそれぞれ符号化したビューを参照して符号化し、それぞれディペンデントビューを生成する。

このように符号化した場合でも、再生装置で、ユーザ視点Ｘの位置の映像を生成するためには、上述の場合と同様に視点映像ａ、ｂが必要である。しかし、視点映像ａを得るためには視点映像ｅのビューを復号すれば足り、また、視点映像ｂは、視点映像ａ、ｅのビューを復号すれば足る。すなわち、この場合の必要デコードビュー数は３であり、図７（ｉ）の場合に比べて必要デコードビュー数を削減できる。更に、視点映像ａと視点映像ｅとの間の視点映像が多くなっても、視点映像ａと視点映像ｅとの間の視点映像の復号の際の必要デコードビュー数は３であり、必要デコードビュー数は増加しない。

次に、図７（ｉ）、（ｉｉ）で示される参照関係を持つ視点映像をＭＰＥＧ−４ＭＶＣ形式で符号化した場合の各ビューの参照関係について図を用いて説明する。

図８は、図７（ｉ）で示される視点間の参照関係の場合のビューの参照関係を概念的に示した図である。

同図のベースビューは視点映像ｅに対応し、ディペンデントビュー１は視点映像ｄに、ディペンデントビュー２は視点映像ｃに、ディペンデントビュー３は視点映像ｂに対応する。ディペンデントビュー１は、ベースビューを参照し、ディペンデントビュー２は、ディペンデントビュー１を参照し、ディペンデントビュー３は、ディペンデントビュー２を参照し符号化される。このため、例えば、ディペンデントビュー２のＰ２０ピクチャを復号する場合には、まずベースビューのＩ０ピクチャを復号し、次にディペンデントビュー１のＰ１０ピクチャを復号する必要がある。また、ディペンデントビュー３を復号するためには、同様にベースビューのＩ０ピクチャ、ディペンデントビューをＰ１０ピクチャ、ディペンデントビュー２のＰ２０ピクチャの順に復号する必要がある。

一方、図９は、図７（ｉｉ）で示される視点間の参照関係の場合のビューの参照関係を概念的に示した図である。

同図のベースビューは視点映像ｅに対応し、ディペンデントビュー１は視点映像ａに、ディペンデントビュー２は視点映像ｂに、ディペンデントビュー３は視点映像ｃにそれぞれ対応する。

ディペンデントビュー１は、ベースビューを参照し、ディペンデントビュー２及びディペンデントビュー３は、ベースビューとディペンデントビュー１とを参照する。従って、ディペンデントビュー３のピクチャを復号する場合でも、ディペンデントビュー２のピクチャの復号は必要なく、ベースビューとディペンデントビュー１のピクチャを復号すればよい。
（マルチビューＡＵ）
次に、マルチビューＡＵについて説明する。

図１０は、マルチビューＡＵの内部構成の概念図である。

マルチビューＡＵは、ベースビューと複数のディペンデントビューの同時刻のそれぞれのＡＵを連結させた構成である。

ＧＯＰ先頭のＡＵには、圧縮ピクチャデータとしてＩピクチャのデータが格納され、ＡＵ識別コード、シーケンスヘッダ、ピクチャヘッダ、圧縮ピクチャデータが必ず格納される。補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードは必要に応じて適宜格納される。

一方、ＧＯＰ先頭以外のＡＵには、ＡＵ識別コード、圧縮ピクチャデータが必ず格納され、補足データ、パディングデータ、シーケンス終端コード、ストリーム終端コードを必要に応じて適宜格納される。
（ＭＶＣ情報ディスクリプタ及びＭＶＣストリームディスクリプタ）
ここでは、多視点映像のトランスポートストリームを、受信した再生装置が多視点映像を利用できるように、トランスポートストリームに含める情報について説明する。

放送波などで配信されるトランスポートストリームには、多視点映像以外のトランスポートストリーム以外に２Ｄ映像、３Ｄ映像などのトランスポートストリームがあり、受信した再生装置は、受信したトランスポートストリームが、どのような映像であるかを識別できる必要がある。そこで、トランスポートストリームのＰＭＴ（Program Map Table）パケットに、このような映像の復号処理を行う上でのシグナリング情報を含める。

図１１は、トランスポートストリームの構成とＰＭＴ（Program Map Table）パケットの関係を示している。同図に示すように、ディスクリプタは、各ビデオストリームの関係や本方式の映像再生の開始・終了などの情報を記述したＭＶＣ情報ディスクリプタと、ビデオストリーム毎に設定されるＭＶＣストリームディスクリプタを含んで構成される。

以下、ＰＭＴに格納されるＭＶＣ情報ディスクリプタとＭＶＣストリームディスクリプタについて説明する。

図１２は、ＭＶＣ情報ディスクリプタの構造を示す。

ＭＶＣ情報ディスクリプタは、再生方式と再生情報ディスクリプタから構成される。

再生方式は、入力されたビデオストリームの映像再生方式を示す情報を示す識別子である。同図の例では、「１」の場合には２Ｄ映像の再生を示し、「２」の場合には２つの視点映像を用いた３Ｄ映像の再生を示し、「３」の場合には１枚の２Ｄ映像とデプスマップを用いた３Ｄ映像の再生を示し、「４」の場合には複数視点を用いた再生を示し、「５」は、拡張用のｒｅｓｅｒｖｅｄであることを示す。

なお、本実施の形態の符号化装置では、拡張用のｒｅｓｅｒｖｅｄの「５」は未使用であり、割り当てられている再生方式は割り当てられていないが、将来的には、例えば次のような再生方式を割り当ててもよい。

拡張用のｒｅｓｅｒｖｅｄの「５」に割り当てる再生方式の一例としては、再生時に色階調を変えて再生する方式がある。この再生方式では、例えば、８ビットの色階調で２Ｄ映像を圧縮符号化したベースビュービデオストリームを生成し、１２ビットの色階調を持つ映像とベースビュービデオストリームの復号結果との差分映像を圧縮符号化したディペンデントビュービデオストリームを生成したトランスポートストリームを配信する。このようなトランスポートストリームを受信した再生装置は、ベースビュービデオストリームを復号したピクチャに、ディペンデントビュービデオストリームを復号した差分ピクチャを合成して再生することで、異なる色階調で再生することができる。

再生情報ディスクリプタは、再生方式毎に用いるディスクリプタの種類を識別するための情報を示す識別子である。図１２の例では、再生方式の値が「１」の場合は、ＭＶＣ２Ｄディスクリプタ、「２」の場合は、ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタ、「３」の場合は、ＭＶＣ２Ｄ＋Ｄｅｐｔｈディスクリプタ、「４」の場合は、ＭＶＣマルチビューディスクリプタを用いることを意味する。つまり、本実施の形態において生成するビデオストリームに関するＭＶＣ情報ディスクリプタの再生方式の値は「４」であり、マルチビューディスクリプタを用いる。

次に、本実施の形態で用いられるＭＶＣマルチビューディスクリプタについて詳細に説明する。なお、ＭＶＣマルチビューディスクリプタは、２つの視点映像を用いる３Ｄ映像の場合のＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタと共通する部分が多いので、まず、ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタについて説明し、次に拡張部分について説明する。
（ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタ）
図１３及び図１４にＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタの各フィールドを示す。

以下、それぞれのフィールドについて説明する。
（ｂａｓｅ＿ｖｉｅｗ＿ｌｅｆｔ＿ｆｌａｇ）
ｂａｓｅ＿ｖｉｅｗ＿ｌｅｆｔ＿ｆｌａｇは、ベースビューが左目用、右目用の映像のどちらであるかを示す識別子である。ｂａｓｅ＿ｖｉｅｗ＿ｌｅｆｔ＿ｆｌａｇの値が「０」の場合は、ベースビューは左目用の映像であることを示し、「１」の場合は、右目用の映像であることを示す。再生装置は、この識別子を参照することで、３Ｄ映像として、テレビに表示する場合に、ベースビューを左目用、右目用のどちらの視点映像として出力するかを判断する。また、この識別子に値を設定することで、コンテンツのベースビューをどちらかに固定しなくてもよいため、コンテンツの符号化において、ベースビューとして符号化する視点映像を選択する際の自由度が増す。
（ＬＲ＿ｓａｍｅ＿ｃｏｎｔｅｎｔ＿ｆｌａｇ）
ＬＲ＿ｓａｍｅ＿ｃｏｎｔｅｎｔ＿ｆｌａｇは、ベースビューとディペンデントビューのコンテンツ（内容）が同じか否かを示す識別子である。つまり、左目映像と右目映像の内容がまったく同じである場合、すなわち実質的には２Ｄ映像での再生の場合には、この識別子を「１」とする。再生装置は、例えば、この識別子の値が「１」の場合には、ベースビューのみを復号し、左目用、右目用として同じ映像を出力すればよいので、復号の際の処理負荷を下げることが可能となる。
（ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇ）
ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇは、ベースビューとディペンデントビューの間に、ビュー間参照があるか否かを示す識別子である。ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇの値が「０」の場合には、ベースビューとディペンデントビューの間にビュー間参照がないことを示し、再生装置は、ベースビューとディペンデントビューを復号する際にそれぞれのビューストリームを独立して並列に復号処理することができる。また、例えば、この識別子の値が「０」の場合には、ビュー間参照用のピクチャメモリを用いず復号することができる。
（ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅ）
ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅは、ｉｎｔｅｒｅｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇの値が「１」の場合、すなわちビュー間参照する場合のビュー間参照の参照方法を示す識別子である。

ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅの値が「０」の場合には、ベースビューのＧＯＰ先頭のピクチャのみビュー間参照されることを示す。「１」の場合には、ベースビューのピクチャがＩピクチャの場合のみビュー間参照されることを示す。「２」の場合には、ベースビューのピクチャがＩピクチャ又はＰピクチャの場合のみ、ビュー間参照されることを示す。「３」の場合には、ベースビューのピクチャがＩピクチャ、Ｐピクチャ以外のピクチャ、すなわちＢピクチャであってもビュー間参照されることを示す。

再生装置は、復号処理を開始する前に、ビュー間参照の参照方法が分かるので、参照方法に応じた復号処理をすることができる。例えば、ｉｎｔｅｒｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｔｙｐｅの値が「０」の場合、すなわち、ビュー間参照がＧＯＰ先頭のみの場合には、ＧＯＰ先頭のピクチャの復号の際は、ベースビューのピクチャの復号を行った後にディペンデントビューを復号する。そして、この場合には、ＧＯＰ先頭のピクチャの復号以外のピクチャは、ベースビューのピクチャを参照せずにディペンデントビューのピクチャを復号できるので、再生装置は、両者の復号を並列して行うことで、復号にかかる時間を短縮することができる。
（ｓｕｂ＿ａｕｄｅｌｉｍｉｔｅｒ＿ｆｌａｇ）
ｓｕｂ＿ａｕｄｅｌｉｍｉｔｅｒ＿ｆｌａｇは、サブＡＵ識別コードがあるかないかを示す識別子である。再生装置は、この識別子を参照することで、サブＡＵ識別コードの存在有無に応じた制御を行うことができる。例えば、ｓｕｂ＿ａｕｄｅｌｉｍｉｔｅｒ＿ｆｌａｇの値が「１」の場合には、サブＡＵ識別コードの位置を調べることで、ディペンデントビューのデータの位置を迅速に特定できるので、ストリームの解析処理の負荷を下げられる。
（ｂａｓｅ＿ｖｉｅｗ＿ｆｉｒｓｔ＿ｆｌａｇ）
ｂａｓｅ＿ｖｉｅｗ＿ｆｉｒｓｔ＿ｆｌａｇは、「ベースビューのＩピクチャの先頭ＴＳパケット」が、「ディペンデントビューの対応するピクチャの先頭ＴＳパケット」より前にあるか否かを示す識別子である。なお、本実施の形態の説明では、トランスポートストリームの先頭に近い方を「前」、終端に近い方を「後」と表現する。

ｂａｓｅ＿ｖｉｅｗ＿ｆｉｒｓｔ＿ｆｌａｇの値が「１」の場合には、ベースビューのＩピクチャの先頭ＴＳパケットが、ディペンデントビューの対応するピクチャの先頭ＴＳパケットより必ず前にあることを意味する。従って、再生装置は、ランダムアクセス再生を行う場合に、ベースビューのＩピクチャのパケットから再生することで、対応するディペンデントビューのデータを更に読み出して復号し再生することができる。「０」の場合には、ベースビューのＩピクチャが対応するディペンデントビューのピクチャのＴＳパケットが後にあるとは限らないので、ランダムアクセス再生時に、ディペンデントビューのＴＳパケットの読出しが困難となり３Ｄでのランダムアクセス再生ができない可能性がある。この場合、再生装置は、２Ｄ映像としてベースビューのみを再生するといった処理で対応することができる。
（ｄｅｐｔ＿ｖｉｅｗ＿ｅｎｄ＿ｆｌａｇ）
ｄｅｐｔ＿ｖｉｅｗ＿ｅｎｄ＿ｆｌａｇは、「ベースビューのＩピクチャの先頭ＴＳパケット」が、「ディペンデントビューの対応するピクチャの再生順で一つ前のピクチャの終端ＴＳパケット」より後ろにあるか否かを示す識別子である。ｄｅｐｔ＿ｖｉｅｗ＿ｅｎｄ＿ｆｌａｇの値が「１」の場合には、「ベースビューのＩピクチャの先頭ＴＳパケット」が、「ディペンデントビューの対応するピクチャの再生順で一つ前のピクチャの終端ＴＳパケット」より必ず後ろにあることを意味する。従って、再生装置は、ベースビューのＩピクチャの先頭から、次のＩピクチャの先頭までを読み込み再生することで、対応するディペンデントビューも同時に再生することができる。なお、ｂａｓｅ＿ｖｉｅｗ＿ｆｉｒｓｔ＿ｆｌａｇやｄｅｐｔ＿ｖｉｅｗ＿ｅｎｄ＿ｆｌａｇで基準とするＩピクチャを、ＧＯＰ先頭のＩピクチャのみにしてもよい。
（ｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓ）
ｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓは、サブビットストリームの数を示す識別子である。サブビットストリームとはトランスポートストリーム内でＰＩＤが割り振られたビデオストリームのことである。

ｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓの値が「１」の場合は、サブビットストリームは１つを意味し、ベースビューとディペンデントビューは、結合して同じＰＩＤで格納されることを示す。「２」の場合は、サブビットストリームは２つを意味し、ベースビューとディペンデントビューは別々のＰＩＤで格納されることを示す。

サブビットストリームが１つの場合には、図１０のように、ベースビューのＡＵと、ディペンデントビューのＡＵが結合されたマルチビューＡＵの単位で、エレメンタリストリームを構成して、同一ＰＩＤで多重化される。再生装置では、ｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓを参照することによって、ビデオストリーム自体を解析する前に、ベースビューとディペンデントビューが一つのＰＩＤのストリームに格納されているのか、別々のＰＩＤで格納されているのかを判別することができるので、ビデオストリームの多重分離の処理の負荷を軽減することができる。なお、後述する、多視点映像に拡張した場合のＭＶＣマルチビューディスクリプタのｎｕｍ＿ｏｆ＿ｓｕｂｂｉｔｓｔｒｅａｍｓのループ内に、ＰＩＤの値を格納してもよい。これにより、再生装置では、ビデオストリーム自体を解析せずに全てのサブビットストリームのＰＩＤを取得することができる。
（ｍａｘ＿ｄｉｓｐａｒｉｔｙ）
ｍａｘ＿ｄｉｓｐａｒｉｔｙは、ベースビューとディペンデントビューの映像の最大視差の大きさ（ピクセル単位）を示す識別子である。再生装置では、この値を用いて、ベースビューとディペンデントビューのピクチャをシフトさせて、視差の大きさを調整することができる。例えば、テレビサイズに対して、視差が大きすぎれば、小さくするようにピクチャをシフトし、３Ｄ表示を調整する。
（ａｓｓｕｍｅｄ＿ＴＶ＿ｓｉｚｅ）
ａｓｓｕｍｅｄ＿ＴＶ＿ｓｉｚｅは、３Ｄ映像を視聴する場合の基準となるテレビサイズを示す識別子である。再生装置は、このサイズを参照することで、例えば、実際に視聴するテレビの大きさが、ａｓｓｕｍｅｄ＿ＴＶ＿ｓｉｚｅよりも大きければ、視差が大きくなりすぎ、視聴に適さない３Ｄ映像となる可能性があるので、視差が小さくなるようにピクチャをシフトし、視差の調整を行うことができる。
（ＢＢ＿ｄｕｒｉｎｇ＿ＰｏｐＵｐ）
ＢＢ＿ｄｕｒｉｎｇ＿ＰｏｐＵｐは、３Ｄ映像を視聴する際に、再生装置のＯＳＤ（ＯｎＳｃｒｅｅｎＤｉｓｐｌａｙ）ポップアップメニューを出す場合の映像再生方法を示す識別子である。再生装置は、ＢＢ＿ｄｕｒｉｎｇ＿ＰｏｐＵｐの値が「０」の場合は、３Ｄ映像再生のままで、「１」の場合には、ベースビューだけを再生して、２Ｄ映像として表示するように制御する。これにより、コンテンツの特性に合わせて、コンテンツ制作側が、３Ｄ映像視聴中のメニュー選択の表示を適切に制御するよう設定することができる。
（ｐｇ＿ｆｏｒ＿３Ｄ）
ｐｇ＿ｆｏｒ＿３Ｄは、３Ｄ向けのパレンタルロックの最低視聴年齢を示す識別子である。再生装置は、ｐｇ＿ｆｏｒ＿３Ｄに設定された値よりも、再生装置のパレンタルロックのために設定されている値が低ければ、３Ｄ映像として再生せずに、２Ｄ映像として再生する。従って、再生装置は、目の発達が未熟な成長過程の子供が３Ｄ映像を誤って視聴することを防止するよう制御することができる。
（ｃｌｏｓｅｄ＿ｃａｐｔｉｏｎ＿ｆｏｒ＿３Ｄ＿ｆｌａｇ）
ｃｌｏｓｅｄ＿ｃａｐｔｉｏｎ＿ｆｏｒ＿３Ｄ＿ｆｌａｇは、３Ｄ向けのＣｌｏｓｅｄＣａｐｔｉｏｎが存在するかを示す識別子である。ｃｌｏｓｅｄ＿ｃａｐｔｉｏｎ＿ｆｏｒ＿３Ｄ＿ｆｌａｇの値が「０」の場合は３Ｄ向けのＣｌｏｓｅｄＣａｐｔｉｏｎが存在しないことを意味し、「１」の場合は存在することを意味する。再生装置は、ＣｌｏｓｅｄＣａｐｔｉｏｎを表示させる場合には、この識別子の値が「０」であれば、３Ｄ映像を２Ｄ映像に切り替えて表示することで、３Ｄ映像に２Ｄ向けのＣｌｏｓｅｄＣａｐｔｉｏｎを表示することを回避することができる。
（ｂａｓｅ＿２Ｄ＿ｐｒｅｆｅｒａｂｌｅ＿ｆｌａｇ）
ｂａｓｅ＿２Ｄ＿ｐｒｅｆｅｒａｂｌｅ＿ｆｌａｇは、２Ｄ映像として再生する場合にベースビューを再生すべきかディペンデントビューを再生すべきかを示す識別子である。

ｂａｓｅ＿２Ｄ＿ｐｒｅｆｅｒａｂｌｅ＿ｆｌａｇの値が「０」の場合は、ベースビューを２Ｄ映像として表示することが好ましいことを示し、「１」の場合は、ディペンデントビューを２Ｄ映像として表示することが好ましいことを示す。映像によっては、ディペンデントビュー方が映像として綺麗なケースもあり、再生装置で、綺麗な方の映像を２Ｄ映像として選択できるように、符号化の際にコンテンツ制作者がこの識別子に優先的に２Ｄ再生する映像のビューを指定することができる。
（ｐｒｏｆｉｌｅ、ｌｅｖｅｌ）
ｐｒｏｆｉｌｅ及びｌｅｖｅｌは、３Ｄ映像を再生するために再生装置で必要な性能を示す識別子である。それぞれ、ＭＰＥＧ−４ＭＶＣ方式におけるｐｒｏｆｉｌｅ＿ｉｄｃ、ｌｅｖｅｌ＿ｉｄｃに相当する識別子である。
（ＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタ）
次に、ＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタについて説明する。

図１５に、ＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタの識別子を示す。ＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタは、ＰＩＤ毎に定義される。
（ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ）
ｎｕｍ＿ｏｆ＿ｖｉｅｗｓは、各ＰＩＤで示されるビデオストリームに含まれるビューの数を示す識別子である。ビデオストリームに、ベースビューとディペンデントビューとが両方格納されている場合（ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタのｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓの値が「１」の場合）には、ｎｕｍ＿ｏｆ＿ｖｉｅｗｓは「２」となる。
（ｖｉｅｗ＿ｉｄ）
ｖｉｅｗ＿ｉｄは、ビューを識別するためのＩＤを示し、ＭＰＥＧ−４ＭＶＣのｖｉｅｗ＿ｉｄに相当する識別子である。
（ｐｒｏｆｉｌｅ、ｌｅｖｅｌ）
ｐｒｏｆｉｌｅ及びｌｅｖｅｌは、当該ビューを再生するために再生装置で必要な性能を示す識別子であり、それぞれ、ＭＰＥＧ−４ＭＶＣ方式のｐｒｏｆｉｌｅ＿ｉｄｃ、ｌｅｖｅｌ＿ｉｄｃに相当する。
（ｉｎｔｅｒｖｉｅｗｅｄ＿ｆｌａｇ）
ｉｎｔｅｒｖｉｅｗｅｄ＿ｆｌａｇは当該ビューがビュー間参照されるか否かを示す識別子である。ｉｎｔｅｒｖｉｅｗｅｄ＿ｆｌａｇの値が「１」の場合は、当該ビューが他のビューからビュー間参照されることを示し、「０」の場合はビュー間参照されないことを示す。
（ｉｎｔｅｒｖｉｅｗ＿ｆｌａｇ）
ｉｎｔｅｒｖｉｅｗ＿ｆｌａｇは当該ビューがビュー間参照するか否かを示す識別子である。ｉｎｔｅｒｖｉｅｗ＿ｆｌａｇの値が「１」の場合は、当該ビューが他のビューをビュー間参照することを示し、「０」の場合はビュー間参照しないことを示す。
（ＭＶＣマルチビューディスクリプタ）
次に、ＭＶＣマルチビューディスクリプタについて、説明する。

図１６は、ＭＶＣマルチビューディスクリプタの識別子を示す図である。なお、ＭＶＣマルチビューディスクリプタには、図１６に示す識別子以外に、上述のＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタと同じフィールド名の識別子も含まれる。
（ｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓ）
ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタのｎｕｍ＿ｏｆ＿ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓと同様に、サブビットストリームの数を示す識別子である。
（ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｓｕｂｂｉｔｓｔｒｅａｍｓ］）
ｓｕｂ＿ｂｉｔｓｔｒｅａｍｓ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｓｕｂｂｉｔｓｔｒｅａｍｓ］はサブビットストリームの多重化順を示す配列の識別子である。サブビットストリームのＧＯＰ先頭ピクチャの先頭ＴＳパケットの並び順を示す。ｓｕｂ＿ｂｉｔｓｔｒｅａｍ＿ｉｄに記述されるＩＤを用いて並び順が格納される。再生装置は、このＩＤを参照することによって、飛び込み再生などを実現する場合に、どのサブストリームのＧＯＰ先頭のＴＳパケットから読み込んで処理を行えば、全てのサブビットストリームを読み出すことができるかを特定することができる。
（ｓｕｂ＿ｂｉｔｓｔｒｅａｍ＿ｉｄ）
ｓｕｂ＿ｂｉｔｓｔｒｅａｍ＿ｉｄは、サブビットストリームに付与されるユニークなＩＤを格納する識別子である。
（ＰＩＤ）
ＰＩＤは、当該サブビットストリームのＰＩＤである。これは多重化されるビデオストリームを区別できる情報であればよい。
（ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ）
ｎｕｍ＿ｏｆ＿ｖｉｅｗｓは、このマルチビューを構成する合計ビュー数を示す識別子である。例えば図７のように９つの視点映像を符号化してトランスポートストリームとして送信する場合にはｎｕｍ＿ｏｆ＿ｖｉｅｗｓは「９」である。

ｖｉｅｗ＿ｉｄは、ビューを識別するためのＩＤで、ＭＰＥＧ−４ＭＶＣ形式の場合のｖｉｅｗ＿ｉｄに相当する識別子である。
（ｖｉｅｗ＿ｔｙｐｅ）
ｖｉｅｗ＿ｔｙｐｅは、当該ビューが、ＳＩピクチャビデオ、ＳＰピクチャビデオ、ＳＢ（ＳＢｒを含む）ピクチャビデオのどれに該当するかを示す識別子である。
（ｐｒｏｆｉｌｅ、ｌｅｖｅｌ）
ｐｒｏｆｉｌｅ及びｌｅｖｅｌは、当該ビューを再生するために再生装置で必要な性能を示す識別子であり、それぞれ、ＭＰＥＧ−４ＭＶＣ方式のｐｒｏｆｉｌｅ＿ｉｄｃ、ｌｅｖｅｌ＿ｉｄｃに相当する。
（ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］）
ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］は、当該ビューのピクチャをビュー間参照に利用しているビューを示すｖｉｅｗ＿ｉｄのリストを示す識別子である。
（ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］）
ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］は、当該ビューがビュー間参照するビューを示すｖｉｅｗ＿ｉｄのリストを示す識別子である。

全てのビューのｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］とｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］とを参照することにより、各ビューの参照関係を知ることができ、図１７で示されるような参照関係を示すツリー構造を構築することができる。同図の例では、ｖｉｅｗ＿ＩＤが０のビューがベースビューであり、ｖｉｅｗ＿ＩＤが１〜７のビューから参照されるＳＩピクチャビデオである。ｖｉｅｗ＿ｉｄが１及び２のビューは、ＳＰピクチャビデオであり、ｖｉｅｗ＿ｉｄが１のビデオは、ｖｉｅｗ＿ｉｄが３〜５のビューから参照され、ｖｉｅｗ＿ｉｄが２のビデオはｖｉｅｗ＿ｉｄが６及び７のビューから参照されることを示す。ｖｉｅｗ＿ｉｄが３〜６のビューは、ＳＢピクチャビデオであり、ｖｉｅｗ＿ｉｄが０のビューと、ｖｉｅｗ＿ｉｄが１又は２のビューとを参照する関係であることを示す。
（ｌｅｆｔ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄ、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｌｅｆｔ等）
ｌｅｆｔ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄは、当該ビューに対応する視点映像の左側で最も近い位置にある視点映像に対応したビューのｖｉｅｗ＿ｉｄを示す識別子であり、
ｄｉｓｔａｎｃｅ＿ｔｏ＿ｌｅｆｔはその視点映像までの物理的な距離を示す識別子である。

同様にｒｉｇｈｔ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄ、ｕｐ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄ、ｄｏｕｗｎ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄはそれぞれ、当該ビューに対応する視点映像の右側、上側、下側において最も近い位置にある視点映像に対応したビューのｖｉｅｗ＿ｉｄを示す識別子であり、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｒｉｇｈｔ、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｕｐ、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｄｏｗｎはそれぞれ、その視点映像までの物理的距離を示す識別子である。再生装置では、これらの識別子を参照することにより、各ビューに対応した視点映像の位置関係を判断する。
（ｖｉｅｗ＿ｉｄ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ］）
ｖｉｅｗ＿ｉｄ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ］は、サブビットストリームに複数のビューが格納される場合のマルチビューＡＵ内の各ビューの並び順にｖｉｅｗ＿ｉｄを格納した配列の識別子ある。

図１８にその格納の一例を示す。図１８で示す様に、それぞれのマルチビューＡＵ内には、ｖｉｅｗ＿ｉｄの値が「０」〜「３」のＡＵがあり、ｖｉｅｗ＿ｉｄの値が「０」、「３」、「２」、「１」の順にビューのＡＵが格納されているとするとｖｉｅｗ＿ｉｄ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ］には、その値が、「０」、「３」、「２」、「１」の順で格納される。すなわち、再生装置では、ｖｉｅｗ＿ｉｄ＿ｏｒｄｅｒ［ｎｕｍ＿ｏｆ＿ｖｉｅｗｓ］の値を参照することにより、マルチビューＡＵには、図１８で示される順にＡＵが格納されていることを知ることができ、復号したいビューのＡＵを特定して抽出することができる。

＜１−２−４．動作＞
次に、符号化装置２６００の符号化処理の動作について説明する。

図１９は、符号化装置２６００における符号化処理の動作を示すフローチャートである。

符号化装置２６００には、複数のカメラで撮影された視点映像において、それぞれの視点映像の同時刻のフレーム画像が一定時間毎（例えば、１／３０秒毎）に逐次入力される。視点映像がＮ個ある場合には、１／３０秒毎にフレーム画像が入力されるとすると、全ての視点映像における同時刻のフレーム画像の入力にはＮ／３０秒かかる。

入力される各フレーム画像は、ＳＩピクチャ、ＳＰピクチャ、ＳＢピクチャビデオのどのピクチャタイプで符号化されるのかを示す情報が付加されて入力される。なお、説明の便宜上、以下の説明では、「視点映像のフレーム画像の入力」を、単に「視点映像の入力」などと表現する場合がある。また、視点映像のフレーム画像を出力する場合も、「視点映像の出力」という表現を用いる場合がある。

エンコーダセレクタ２６０４は、入力された視点映像が、基準視点の視点映像か否かをエンコードタイプテーブル１００に基づいて判断する（ステップＳ１０）。具体的には、エンコーダセレクタは、エンコードタイプテーブル１００の視点映像１０１に記載された視点映像の識別情報に対応したビデオタイプ１０２に記載されたＳＩ、ＳＰ、ＳＢを識別する情報に基づいて、ビデオタイプを判別する。例えば、入力された視点映像が視点映像ｅの場合、エンコードタイプテーブル１００には、視点映像ｅのエンコードタイプはＳＩピクチャビデオと記載されているので、エンコーダセレクタ２６０４は、入力された視点映像ｅを基準視点の視点映像と判断し、ベースビュービデオエンコーダ２６０２に出力する。

エンコーダセレクタ２６０４がベースビュービデオエンコーダ２６０２に視点映像を出力した場合（ステップＳ１０：ＹＥＳ）、ベースビュービデオエンコーダ２６０２は、入力された視点映像を、ＳＩピクチャビデオとして符号化する（ステップＳ１１）。そして、ベースビュービデオエンコーダ２６０２は、ビュービデオ記憶部２６０９とピクチャメモリ２６０６とにＳＩピクチャビデオを出力し、ビュービデオ記憶部２６０９は、ＳＩピクチャビデオを記憶する（ステップＳ２０）。

次に、エンコーダセレクタ２６０４は、視点映像が入力されたか否かを判断し（ステップＳ２１）、入力される視点映像がなければ（ステップＳ２１：ＮＯ）ステップＳ２２に進む。一方、入力される視点映像がある場合（ステップＳ２１：ＹＥＳ）、ステップＳ１０からの処理を行う。

一方、ステップＳ１０で、エンコーダセレクタ２６０４が、基準視点ではない視点の視点映像が入力されたと判定した場合（ステップＳ１０：ＮＯ）、入力された視点映像をディペンデントビュービデオエンコーダ２６０３に出力する。

デコードビデオセレクタ２６０８は、制御部２６０１の指示に従ってディペンデントビュービデオエンコーダ２６０３が符号化の際に参照するＳＩピクチャを復号するために、
ＳＩピクチャビデオをベースビュービデオエンコーダ２６０２からビデオデコーダ２６０５に出力する。ビデオデコーダ２６０５は、入力されたＳＩピクチャビデオを復号し、得られたＳＩピクチャをピクチャメモリ２６０６に出力し、符号化の際に得られるビュービデオ符号化情報をビュービデオ符号化情報記憶部２６０７に出力する（ステップＳ１２）。

次に、ディペンデントビュービデオエンコーダ２６０３は、入力された視点映像が、ＳＰピクチャビデオとして符号化する視点映像か否かを、エンコードタイプテーブル１００を参照して判断する（ステップＳ１３）。具体的には、エンコードタイプテーブル１００の視点映像１０１に記載された視点映像に対応したビデオタイプ１０２に記載されたビデオタイプに基づき判断する。例えば、視点映像ａが入力された場合には、視点映像ａに対応するビデオタイプ１０２にはＳＰが記載されているので、ＳＰピクチャビデオとして符号化すると判断する（ステップＳ１３：ＹＥＳ）。

ステップＳ１３でＹＥＳの場合、ディペンデントビュービデオエンコーダ２６０３は、ＳＰピクチャビデオとして符号化した視点映像の参照先視点映像を示す情報を参照情報２００に追加する（ステップＳ１４）。例えば、図７（ｉｉ）の視点映像ａの場合には、視点映像ａを符号化する際に参照する視点映像が視点映像ｅであることを示す参照情報を参照情報２００に追加する。

次に、ディペンデントビュービデオエンコーダ２６０３は、ビュービデオ符号化情報に基づいて、ピクチャメモリ２６０６に記憶されている、入力された視点映像のピクチャと同時刻のＳＩピクチャを参照して、入力された視点映像をＳＰピクチャビデオとして符号化する（ステップＳ１５）。ディペンデントビュービデオエンコーダ２６０３は、新たに参照情報を追加した参照情報２００を参照情報記憶部２６１０に出力し、参照情報記憶部２６１０は、新たな参照情報２００を記憶する（ステップＳ１９）。次に、ディペンデントビュービデオエンコーダ２６０３は、ＳＰピクチャビデオを、ビュービデオ記憶部２６０９に出力し、ビュービデオ記憶部２６０９は、ＳＰピクチャビデオを記憶する（ステップＳ２０）。

一方、ディペンデントビュービデオエンコーダ２６０３が、入力された視点映像をＳＰピクチャビデオとして符号化しないと判断した場合（ステップＳ１３：ＮＯ）、デコードビデオセレクタ２６０８は、ディペンデントビュービデオエンコーダ２６０３が符号化の際に参照するＳＰピクチャを生成するためのＳＰピクチャビデオをディペンデントビュービデオエンコーダ２６０３からビデオデコーダ２６０５に出力するように切り替える。ビデオデコーダ２６０５は、入力されたＳＰピクチャビデオを復号し、得られたＳＰピクチャをピクチャメモリ２６０６に出力し、符号化の際に得られるビュービデオ符号化情報をビュービデオ符号化情報記憶部２６０７に出力する（ステップＳ１６）。

次に、ディペンデントビュービデオエンコーダ２６０３は、ＳＢピクチャビデオとして符号化した視点映像の参照先視点映像を示す情報を参照情報２００に追加する（ステップＳ１７）。例えば、図７（ｉｉ）の視点映像ｂの場合には、視点映像ｂを符号化する際に参照する視点映像が視点映像ａ、ｅであることを示す参照情報を参照情報２００に追加する。

ディペンデントビュービデオエンコーダ２６０３は、ビュービデオ符号化情報に記載されているＰＴＳの情報に基づいて、ピクチャメモリ２６０６に記憶されている、入力された視点映像のピクチャとＰＴＳが同じＳＩピクチャとＳＢピクチャとを抽出し、これらピクチャを用いてビュー間参照により、入力された視点映像をＳＢピクチャビデオとして符号化する（ステップＳ１８）。ディペンデントビュービデオエンコーダ２６０３は、新たに参照情報を追加した参照情報２００を参照情報記憶部２６１０に出力し、参照情報記憶部２６１０は、新たな参照情報２００を記憶する（ステップＳ１９）。次に、ディペンデントビュービデオエンコーダ２６０３は、ＳＢピクチャビデオを、ビュービデオ記憶部２６０９に出力し、ビュービデオ記憶部２６０９は、ＳＢピクチャビデオを記憶する（ステップＳ２０）。

エンコーダセレクタ２６０４は、次に、視点映像が入力されたか否かを判断し（ステップＳ２１）、入力される視点映像がある場合（ステップＳ２１：ＹＥＳ）、ステップＳ１０からの処理を行う。

一方、入力される視点映像がなければ（ステップＳ２１：ＮＯ）、ベースビュービデオストリーム生成部２６１１は、ビュービデオ記憶部２６０９に記憶している基準視点を符号化したベースビューを読出しベースビュービデオストリームを生成する（ステップＳ２２）。次にディペンデントビュービデオストリーム生成部２６１２は、ビュービデオ記憶部２６０９に記憶している基準視点以外の視点映像を符号化した全てのディペンデントビューを読出しディペンデントビュービデオストリームを生成する（ステップＳ２３）。

ＰＭＴ生成部２６１３は、ベースビュービデオストリーム及びディペンデントビュービデオストリームに関するＭＶＣ情報ディスクリプタとＭＶＣストリームディスクリプタを含むストリーム情報並びにトランスポートストリームに関するディスクリプタを含むＰＭＴを生成する（ステップＳ２４）。具体的には、ＭＶＣ情報ディスクリプタの再生方式を示す識別子にマルチビューのストリームであることを示す値である「４」を記載する。

また、参照情報２００に記された参照関係に基づいてＭＶＣマルチビューディスクリプタのｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］及び、ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］の値を設定する。具体的には、参照情報２００の視点映像２０１に記載されている視点映像に対応するビューのｖｉｅｗ＿ｉｄに関する識別子を記述する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］に参照先２０２に記載された視点映像に対応したｖｉｅｗ＿ｉｄを記載する。

更に、参照先２０２に記載された視点映像に対応したｖｉｅｗ＿ｉｄに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］には、参照先２０２に対応した視点映像２０１に記載されている視点映像に対応したｖｉｅｗ＿ｉｄを記載する。例えば、参照情報２００の視点映像２０１が「ａ」に対応する参照先２０２に記載されているのは「ｅ」である。視点映像ａに対応したビューのｖｉｅｗ＿ｉｄを「１」、視点映像ｅに対応したｖｉｅｗ＿ｉｄを「２」とすると、ｖｉｅｗ＿ｉｄが「２」であるビューに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］には、ｖｉｅｗ＿ｉｄが「１」のビューから参照されるので「１」を記載し、自身のビューは、他のビューを参照しないのでｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］には値を記載しない。

一方、ｖｉｅｗ＿ｉｄが「１」であるビューに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］には、ｖｉｅｗ＿ｉｄが「２」のビューを参照することを示す「２」を記載する。

また、視点映像２０１が「ｂ」の場合には、参照先２０２に参照先として記載されているのは「ａ、ｅ」である。視点映像ｂに対応したビューのｖｉｅｗ＿ｉｄを「３」とすると、ｖｉｅｗ＿ｉｄが「３」であるビューに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］には、ｖｉｅｗ＿ｉｄが「１」と「２」とのビューを参照することを示す「１、２」を記載する。そして、ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］には、このビューは、他のビューから参照されないので値を記述しない。

更に、この場合、ｖｉｅｗ＿ｉｄが「２」であるビューに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］には、ｖｉｅｗ＿ｉｄが「３」のビューからも参照されることを示す、「３」が追記され、そして、ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］の値は「１、３」となる。

また、ｖｉｅｗ＿ｉｄが「１」であるビューに関する識別子を記載する箇所のｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］にも、ｖｉｅｗ＿ｉｄが「３」のビューからも参照されることを示す、「３」が記述される。このようにして、参照情報２００に記載された全ての視点映像に対して視点映像２０１と参照先２０２の参照関係に基づいてＭＶＣマルチビューディスクリプタのｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］及び、ｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］の値を設定する。

その他の識別子は、ＭＶＣマルチビューディスクリプタの各識別子の値をビュービデオ符号化情報に基づいて記載する。各識別子の値は、ＭＰＥＧ−４ＭＶＣ形式で符号化した際に構築されるｓｙｎｔａｘ要素に記載された情報に基づいて設定される。ｓｙｎｔａｘ要素とは、ＭＰＥＧ−４ＭＶＣ形式の圧縮符号化方式における符号化に必要な属性情報を規定した要素である。

次に、マルチプレクサ２６１４は、ＰＭＴ、ベースビュービデオストリーム及びディペンデントビュービデオストリームを多重化し、ＰＥＳパケット化する（ステップＳ２５）。

トランスポートストリーム出力部２６１５は、マルチプレクサ２６１４でＰＥＳパケット化されたトランスポートストリームをＴＳパケット単位に分割して出力する（ステップＳ２６）。

以上の処理により、符号化装置２６００は、多視点映像を符号化したデータを含むトランスポートストリームを出力する。

＜１−３．再生装置＞
ここでは、上述の符号化装置２６００で符号化されたトランスポートストリームを受信し再生する再生装置２８００について説明する。

＜１−３−１．構成＞
図２０は、本実施の形態に係る再生装置２８００の構成を示すブロック図である。

再生装置２８００は、ユーザ位置取得手段２８０１、ビュービデオストリーム決定手段２８０２、ＰＩＤフィルタ２８０３、データセレクタ２８０４、マルチビュービデオデコーダ２８２２、プレーンメモリ２８２０、及びオーディオデコーダ２８２４から構成される。

再生装置２８００は、図示しないプロセッサ及びメモリを含んで構成されており、ユーザ位置取得手段２８０１、ビュービデオストリーム決定手段の各機能は、このメモリに記憶されているプログラムをこのプロセッサが実行することにより実現される。
（ユーザ位置取得手段２８０１）
ユーザ位置取得手段２８０１は、ユーザを撮るためのカメラを備え、カメラ撮影した映像から顔認識技術を用いてユーザの顔の位置を検出し、検出した顔の位置からユーザの視点位置を特定し、視点位置に関する情報（例えば、視点位置の座標値）をビュービデオストリーム決定手段に出力する機能を有する。
（ビュービデオストリーム決定手段２８０２）
ビュービデオストリーム決定手段２８０２は、ユーザ位置取得手段２８０１から得た視点位置に関する情報（例えば、視点位置の座標値）に基づいて、復号すべき視点映像を特定し、特定した視点映像に対応するビデオストリームを選択する機能を備える。具体的には、ビュービデオストリーム決定手段２８０２は、ＰＩＤフィルタ２８０３でフィルタリングされて出力されたＰＭＴデータを取得し、ＰＭＴに含まれるＭＶＣ情報ディスクリプタとＭＶＣストリームディスクリプタから得られる各ビューの位置情報に関する識別子（ｌｅｆｔ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄ、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｌｅｆｔなど）に基づいて、ユーザ位置取得手段２８０１から得た視点位置に関する情報と比較し、ユーザの視点位置に最も近いビューを復号対象のビューとして選択する。選択したビューを含むビュービデオストリームデータを、選択したビューのビデオタイプに応じてデータセレクタ２８０４に対して出力先のＴＢ（Transport Stream Buffer）を切り替えさせる指示を行う。すなわち、入力されたビュービデオストリームデータに含まれるビューのビデオタイプがＳＩピクチャビデオの場合は、ＴＢ（１）に、ＳＰピクチャビデオ及びＳＢピクチャビデオの場合には、ＴＢ（２）又はＴＢ（３）に出力するようにデータセレクタ２８０４に指示する。同図の構成の場合には、ＴＢ（２）、ＴＢ（３）にそれぞれ異なったＳＰピクチャビデオを入力することで並列処理することができる。なお、ＴＢについては後述する。
（ＰＩＤフィルタ２８０３）
ＰＩＤフィルタ２８０３は、ビュービデオストリーム決定手段２８０２の指示に従い、入力されたトランスポートストリームをフィルタリングする機能を備える。具体的には、ＰＩＤフィルタ２８０３は入力されるＴＳパケットを、ＴＳパケットのＰＩＤに従って、データセレクタ２８０４を介して、マルチビュービデオデコーダ２８２２又はオーディオデコーダ２８２４に出力する。

ＰＩＤフィルタ２８０３は、ＰＭＴパケットを解析することによって、ＰＩＤに対応したストリームを識別する。例えば、ベースビュービデオストリームとディペンデントビュービデオストリームが異なるＰＩＤを持つビデオストリームとして生成されており、符号化装置がベースビュービデオストリームのＰＩＤをＰＭＴに０ｘ１０１２と記述したとすると、入力されたＴＳパケットのＰＩＤを参照し、ＰＩＤの値が０ｘ１０１２であるＴＳパケットを、ベースビュービデオストリームのＴＳパケットであると判断して、データセレクタ２８０４を介してマルチビュービデオデコーダ２８２２に出力する。ＰＩＤがオーディオデータのストリームであることを示すＰＩＤの場合には、該当するＰＩＤのＴＳパケットをオーディオデコーダ２８２４に出力する。
（データセレクタ２８０４）
データセレクタ２８０４は、ビュービデオストリーム決定手段２８０２の指示に従って、ＰＩＤフィルタ２８０３から入力されたＴＳパケットを指示された出力先のＴＢに出力する機能を備える。
（マルチビュービデオデコーダ２８２２）
マルチビュービデオデコーダ２８２２は、ＴＢ（１）２８０６、ＭＢ（Multiplexing Buffer）（１）２８０７、ＥＢ（Elementary Stream Buffer）（１）２８０８、ＴＢ（２）２８０９、ＭＢ（２）２８１０、ＥＢ（２）２８１１、ＴＢ（３）２８１２、ＭＢ（３）２８１３、ＥＢ（３）２８１４、デコードスイッチ２８１５、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６、Ｄ２（２８１７）、及びＤＰＢ（Decoded Picture Buffer）２８１８から構成される。

（ＴＢ、ＭＢ、ＥＢ）
ＴＢ（１）２８０６は、データセレクタ２８０４から入力されたベースビデオストリームを含むＴＳパケットを、ＴＳパケットのまま一旦蓄積されるバッファである。

ＭＢ（１）２８０７は、ＴＢ（１）２８０６からＥＢ（１）２８０８にビデオストリームを出力するにあたって、一旦ＰＥＳパケットを蓄積しておくためのバッファである。ＴＢ（１）２８０６からＭＢ（１）２８０７にデータが転送される際に、ＴＳパケットのＴＳヘッダ及びアダプテーションフィールドは取り除かれる。

ＥＢ（１）２８０８は、圧縮符号化されているピクチャ（Ｉピクチャ、Ｂピクチャ、Ｐピクチャ）データが格納されるバッファである。ＭＢ（１）２８０６からＥＢ（１）２８０８にデータが転送される際にＰＥＳヘッダが取り除かれる。

ＴＢ（２）２８０９、ＭＢ（２）２８１０、及びＥＢ（２）２８１１は、それぞれＴＢ（１）２８０６、ＭＢ（１）２８０７、及びＥＢ（１）２８０８と同じ機能を持つが、バッファリングするデータがディペンデントベースビュービデオストリームである点が異なる。

ＴＢ（３）２８１２、ＭＢ（３）２８１３、及びＥＢ（３）２８１４は、それぞれＴＢ（２）２８０９、ＭＢ（２）２８１０、及びＥＢ（２）２８１１と同じ機能を備える。

デコードスイッチ２８１５は、ＥＢ（１）２８０８、ＥＢ（２）２８１１及びＥＢ（３）２８１４とからＤＴＳの値に従って、そのＤＴＳが付与されているＡＵのデータを取り出し、マルチビューＡＵを構成して、Ｄ２（２８１７）に出力する。

（Ｄ２（２８１７）、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６）
Ｄ２（２８１７）は、デコードスイッチ２８１５から出力されるマルチビューＡＵに対する復号処理を行ってフレーム画像を生成するデコーダである。Ｄ２（２８１７）は、ＭＰＥＧ−４ＭＶＣ形式のディペンデントビュービデオストリームを復号する機能を備える。

Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６は、Ｄ２（２８１７）が復号処理の際に、ビュー間参照するピクチャを格納する読書可能なメモリ（例えば、ＤＲＡＭ）である。

Ｄ２（２８１７）により復号されたピクチャは、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に一旦格納される。Ｄ２（２８１７）は、ディペンデントビューのピクチャを、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に格納されているＰＴＳが同じ値である、ベースビューの復号ピクチャ又は、参照先のとなる視点映像のディペンデントビューの復号ピクチャを参照して、復号処理を行う。

また、Ｄ２（２８１７）は、復号したピクチャを、ＤＰＢ２８１８を介してＰＴＳの値に従ってプレーンメモリ２８２０に出力する機能を備える。
（ＤＰＢ２８１８）
ＤＰＢ２８１８は、Ｄ２（２８１７）で復号されたピクチャをＰＴＳの値に従って出力するために一時的に保持しておくための読書可能なメモリ（例えば、ＤＲＡＭ）である。ＤＰＢ２８１８に保持されたピクチャは、Ｄ２（２８１７）が、時間方向のピクチャ間予測符号化モードを用いてＰピクチャやＢピクチャなどのＡＵを復号する際に参照するために利用される。
（プレーンメモリ２８２０）
プレーンメモリ２８２０は、ＰＴＳの値に従ってＤＰＢ２８１８が出力したピクチャを保持するための読書可能なメモリ（例えば、ＤＲＡＭ）である。復号されたピクチャは、プレーンメモリを介して出力される。出力されたピクチャは、再生装置２８００に接続したディスプレイなどの表示装置に表示される。
（オーディオデコーダ２８２４）
オーディオデコーダ２８２４は、ＰＩＤフィルタ２８０３から出力されるオーディオのＴＳパケットを復号し、音声データを出力する機能を備える。出力された音声データは、再生装置２８００に接続したスピーカなどで再生される。

＜１−３−２．動作＞
次に、再生装置２８００の復号処理の動作について説明する。

図２１は、再生装置２８００におけるマルチビュービデオストリームの復号処理の動作を示すフローチャートである。

ビュービデオストリーム決定手段２８０２は、ユーザ位置取得手段２８０１から得られたユーザの視点位置の情報に基づいて、復号するビュービデオストリームを選択する（ステップＳ３０）。具体的には、ユーザ位置取得手段２８０１は、ユーザの視点位置を示す情報として、基準視点の位置を原点とした視点映像を含むｘｙ平面（図２８参照）の座標系における座標値を出力し、ビュービデオストリーム決定手段２８０２は、ユーザの視点位置の座標値と、ＭＶＣマルチビューディスクリプタに記述されたビュー毎の視点映像の位置に関する情報（ｌｅｆｔ＿ｐｏｓｉｓｉｏｎ＿ｖｉｅｗ＿ｉｄ、ｄｉｓｔａｎｃｅ＿ｔｏ＿ｌｅｆｔなど）とから、ユーザの視点位置と各視点映像との距離を計算し、ユーザの視点位置に最も近い視点映像に対応したビューを含むビュービデオストリームを選択する。

次に、ビュービデオストリーム決定手段２８０２は、選択したビューのビデオタイプが、ＳＩピクチャビデオか否かを判定する（ステップＳ３１）。具体的には、ＭＶＣマルチビューディスクリプタにおいて、選択したビューのビューＩＤに対応するｖｉｅｗ＿ｔｙｐｅの値がＳＩであるか否かで判別する。

選択したビューのビデオタイプがＳＩである場合（ステップＳ３１：ＹＥＳ）、ビュービデオストリーム決定手段２８０２は、選択したビューを含むビュービデオストリームをＴＢ（１）２８０６に出力する指示をデータセレクタ２８０４に行い、データセレクタ２８０４は、指示に従い、選択したビュービデオストリームをＴＢ（１）２８０６に出力する。Ｄ２（２８１７）は、ＭＢ（１）２８０７、ＥＢ（１）２８０８でヘッダ等が取り除かれたビュービデオストリームを復号し、ＤＰＢ２８１８に出力する（ステップＳ３９）。

一方、選択したビューのビデオタイプがＳＩピクチャビデオでない場合（ステップＳ３１：ＮＯ）、選択したビューは、単独では復号できないので、参照先のビューを先に復号する必要がある。このため、ビュービデオストリーム決定手段２８０２は、まず、選択したビューが参照する単独で復号できるビューであるＳＩピクチャビデオを選択する（ステップＳ３２）。具体的には、ビュービデオストリーム決定手段２８０２は、ＭＶＣマルチビューディスクリプタのｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］を参照し、参照先のビデオストリームのｖｉｅｗ＿ｉｄを特定し、この内のｖｉｅｗ＿ｔｙｐｅがＳＩのものを選択する。

次に、ビュービデオストリーム決定手段２８０２は、選択したＳＩピクチャビデオをＴＢ（１）２８０６に出力する指示をデータセレクタ２８０４に対して行い、データセレクタ２８０４は、ビュービデオストリーム決定手段２８０２の指示に従い、ＳＩピクチャビデオのビデオストリームをＴＢ（１）２８０６に出力する。

そして、Ｄ２（２８１７）は、ＭＢ（１）２８０７、ＥＢ（１）２８０８でヘッダ等が取り除かれたＳＩピクチャビデオを復号し（ステップＳ３３）、復号したピクチャを、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に格納する（ステップＳ３４）。

次に、ビュービデオストリーム決定手段２８０２は、選択したビューのビデオタイプがＳＰピクチャビデオか否かを判定する（ステップＳ３５）。ステップＳ３１での判定と同様に、選択したビューのｖｉｅｗ＿ｔｙｐｅの値で判断する。

選択したビューのビデオタイプがＳＰピクチャビデオである場合（ステップＳ３５：ＹＥＳ）、ビュービデオストリーム決定手段２８０２は、選択したビューを含むビデオストリームをＴＢ（２）２８０９に出力する指示をデータセレクタ２８０４に対して行い、データセレクタ２８０４は、選択したビュービデオストリームをＴＢ（２）２８０９に出力する。

そして、Ｄ２（２８１７）は、ＭＢ（２）２８１０、ＥＢ（２）２８１１でヘッダ等が取り除かれたＳＰピクチャビデオを、先に復号されＩｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に格納されているＳＩピクチャビデオのＰＴＳの値が同じピクチャを参照しながら復号し、ＤＰＢ２８１８に出力する（ステップＳ３９）。

一方、選択したビューのビデオタイプがＳＰピクチャビデオでない場合（ステップＳ３５：ＮＯ）、ビュービデオストリーム決定手段２８０２は、選択したビューが参照するＳＰピクチャビデオを選択する（ステップＳ３６）。具体的には、ビュービデオストリーム決定手段２８０２は、ＭＶＣマルチビューディスクリプタのｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］を参照し、参照先のビューのｖｉｅｗ＿ｉｄを特定し、この内のｖｉｅｗ＿ｔｙｐｅがＳＰのものを選択する。

次に、ビュービデオストリーム決定手段２８０２は、選択したＳＰピクチャビデオをＴＢ（２）２８０９に出力する指示をデータセレクタ２８０４に行い、データセレクタ２８０４は、指示に従い、ＳＰピクチャビデオをＴＢ（２）２８０９に出力する。

そして、Ｄ２（２８１７）は、ＭＢ（２）２８１０、ＥＢ（２）２８１１でヘッダ等が取り除かれたＳＰピクチャビデオを、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に格納されている先に復号されたＳＩピクチャビデオのＰＴＳの値が同じピクチャを参照しながら復号し（ステップＳ３７）、復号したＳＰピクチャをＩｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に出力する（ステップＳ３８）。

次に、ビュービデオストリーム決定手段２８０２は、選択したビューを含むビュービデオストリームをＴＢ（３）２８１２に出力する指示をデータセレクタ２８０４に行い、データセレクタ２８０４は、ビュービデオストリーム決定手段２８０２の指示に従い、ビュービデオストリームをＴＢ（３）２８１２に出力する。

そして、Ｄ２（２８１７）は、ＭＢ（３）２８１３、ＥＢ（３）２８１４でヘッダ等が取り除かれたＳＢピクチャビデオのビュービデオストリームを、Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ２８１６に格納されている先に復号されたＳＩピクチャビデオのピクチャ及びＳＰピクチャビデオのＰＴＳの値が同じピクチャを参照しながら復号し、ＤＰＢ２８１８に出力する（ステップＳ３９）。

ＤＰＢ２８１８は、ＰＴＳの値に従って、復号したピクチャをプレーンメモリ２８２０に出力する（ステップＳ４０）。プレーンメモリ２８２０に出力されたピクチャは、再生装置に接続したディスプレイに表示される。

＜１−４．まとめ＞
符号化装置２６００は、同時刻に撮影された複数視点の視点映像を符号化する場合、他の２つの視点映像に挟まれる位置関係にある視点映像については、その視点映像を挟む２つの視点映像を参照したビュー間参照を用いて圧縮符号化することにより、データ量を削減したビデオストリームを含む多重化したトランスポートストリームを生成することができる。

また、再生装置２８００は、符号化装置２６００で生成したトランスポートストリームを用いて、複数の視点位置の視点映像から、ユーザの視点位置に最も近い視点映像を選択して、その視点映像に対応したビデオストリームを復号して再生することができる。

＜１−５．補足＞
以下、本実施の形態の符号化装置や再生装置で実現する多視点映像の視聴について補足説明する。

既に述べたように、複数視点からの映像の視聴を実現するための技術として、自由視点映像技術がある。

実写の自由視点映像の再生には、複数のカメラによって同時に撮影した多視点映像を用いる。カメラによって撮影されていない視点位置における映像は、カメラで撮影された視点映像を用いて補間した映像を生成する。このため、カメラの間隔を密にするほど、高品質の自由視点映像を生成することができる。

図２２は、カメラによる撮影の際の視点位置の一例を示す概念図である。

同図の例では、被写体を９つの視点位置（撮影視点Ａ〜Ｉ）から同時に撮影することを示す。なお、撮影視点Ａ〜Ｉからの視点映像は、図７の視点映像ａ〜ｉにそれぞれ対応する。この時、ユーザの視点が、Ｘの位置（以下、ユーザの視点位置を、「ユーザ視点」と呼び、例えば、Ｘの位置におけるユーザ視点を「ユーザ視点Ｘ」と呼ぶ。）のように、撮影された視点とは異なる位置にある場合には、近傍の撮影視点を用いて合成映像を生成する。同図のユーザ視点Ｘからの映像を生成する場合には、撮影視点Ｄで撮影された視点映像ｄと撮影視点Ｅで撮影された視点映像ｅとを用いる。合成映像の生成方法の一例としては、視点映像ｄ及び視点映像ｅにあるオブジェクトの特徴点の対応関係に基づき、それぞれの視点映像のデプスマップを生成する。更に、このデプスマップに基づき、視点映像ｄ及び視点映像ｅにおける視点映像中の各オブジェクトを、ユーザ視点から見た映像となるようにシフトさせて、ユーザ視点Ｘにおける映像を生成する。

図２３は、このような多視点映像を受信した場合の利用形態の一例である自由視点テレビの概略図である。

自由視点テレビ１０は、ユーザ視点における映像を再生する。自由視点テレビ１０は、ディスプレイの上部にカメラを備え、カメラでユーザを撮影し、顔認識技術を用いてユーザの顔を認識することによってユーザの位置を特定する。この自由視点テレビ１０は、図２４のように、符号化装置から視点映像ａ〜ｉの９つの視点映像を受信しており、ユーザの位置に従って、その位置における視点映像を生成して表示する。同図のユーザ視点Ｘにおける視点映像は、ユーザ視点Ｘを挟み、それぞれの側で最も近い位置にある視点映像ｄ及び視点映像ｅを用いて生成する。

このような自由視点テレビを実現するためには、多数の映像を同時に配信する必要があるが、配信するデータ量は小さい方が望ましい。

ところで、同じ対象物に対して同時刻に撮影された複数の視点映像は、互いに相関性が大きい。異なる映像間の相関性を利用してデータ量を削減して圧縮符号化する技術にＭＰＥＧ−４ＭＶＣがある。ＭＰＥＧ−４ＭＶＣは、ＢＤ（Blu-ray Disc（登録商標））の３Ｄ映像、すなわち２視点の視点映像の圧縮符号化に用いられている符号化方式である。なお、３Ｄ映像の符号化の場合に符号化される映像は左目用と右目用との２つであるが、ＭＰＥＧ−４ＭＶＣは、２つ以上の映像をまとめて圧縮符号化できる仕様である。

図２５は、ＭＰＥＧ−４ＭＶＣの符号化におけるビュー間の参照関係を示す概念図である。

ＭＰＥＧ−４ＭＶＣでは、多視点映像を、１つのベースビューと１つ以上のディペンデントビューとして符号化する。なお、同図は、２視点の場合の例を示し、１つのベースビューと１つのディペンデントビューとの参照関係の一例である。

同図の矢印はピクチャ間の参照関係を示しており、矢印の先のピクチャは、矢印の元のピクチャを参照する関係であることを示す。例えば、同図のディペンデントビューの先頭のＰピクチャであるピクチャＰ０は、ベースビューのＩピクチャであるピクチャＩ０を参照する。ディペンデントビューのＢピクチャであるピクチャＢ１は、ベースビューのＢｒピクチャであるピクチャＢｒ１を参照する。ディペンデントビューの二つ目のＰピクチャであるピクチャＰ３は、ベースビューのＰピクチャであるピクチャＰ３を参照することを示す。

ベースビューは、ディペンデントビューのピクチャを参照していないため、このベースビューだけで復号し再生することができる。

一方、ディペンデントビューは、ベースビューを参照しながら復号するため、ディペンデントビュー単独では復号して再生することはできない。ただし、ディペンデントビューは、同時刻のビューを示す別視点のベースビューのピクチャを用いて、ピクチャ間予測符号化を行う。同時刻の近接する視点でのピクチャ間には、ピクチャに類似性があり（相関性が大きい）、両ピクチャ内の相互に類似するマクロブロックの差分をマクロブロック単位で圧縮符号化することでディペンデントビューはベースビューに比べてデータ量を削減し得る。
＜２．変形例＞
以上、本発明の実施の形態を説明したが、例示した符号化装置及び再生装置を以下のように変形することも可能であり、本発明が上記の実施の形態で示した通りの符号化装置及び再生装置に限られないことは勿論である。

（１）符号化装置２６００は、直線上にある視点映像の中央の視点映像を基準視点としＳＩピクチャビデオとして符号化し、基準視点から最も遠い両端の視点映像をＳＰピクチャビデオとして符号化したが、ＳＰビデオとして符号化する視点映像は、両端の視点映像に限らない。基準視点と両端の視点映像の間に視点映像が複数ある場合には、そのうちのいくつかをＳＰピクチャビデオとして符号化してもよい。例えば、図２６（ｉ）のように、左端の視点位置Ｉに対応する視点映像だけでなく、視点位置Ａと視点位置Ｉの間の視点位置Ｅに対応する視点映像をＳＰピクチャビデオとして符号化してもよい。このようにすると参照する視点映像の距離が近くなるので、それぞれの視点におけるピクチャ間の差分が小さくなり、ディペンデントビュービデオのデータ量を更に削減して符号化し得る。

この場合、多視点映像の提供者は、基準視点から所定の視点映像の数離れる毎にＳＰピクチャを設定したエンコードタイプテーブル１００を設定する。例えば、図３の例において、視点映像ｃ、ｇのビデオタイプをＳＢではなく、ＳＰと設定してもよい。

また、ＳＩピクチャビデオとＳＰピクチャビデオとの間のＳＢピクチャビデオの内の１つを他の視点映像から参照されるＳＢｒピクチャビデオとしてもよい。例えば、図２６（ｉｉ）では、視点位置Ｅに対応する視点映像をＳＢｒピクチャビデオとして符号化し、視点位置Ｂ、Ｃ、Ｄの視点映像は、このＳＢｒピクチャビデオと、視点位置ＡのＳＩピクチャビデオを参照し、視点位置Ｆ、Ｇ、Ｈの視点映像は、このＳＢｒピクチャビデオと、視点位置ＩのＳＰピクチャビデオとを参照して符号化してもよい。これにより、ＳＰピクチャビデオを参照する場合と比較して参照する視点映像との距離が近くなるのでそれぞれの視点におけるピクチャ間の差分が小さくなり、視点位置Ｂ、Ｃ、Ｄ、Ｆ、Ｇ、Ｈの視点映像を更に高い圧縮率で符号化し得る。

なお、図２６において、ＳＩ、ＳＰ、ＳＢの後に添えられている数字は、そのピクチャを得るまでに復号が必要な他の視点映像の数を示す。以下、図２７、３０、３１、３２、３３、３６のＳＩ、ＳＰ、ＳＢ、ＳＢｒの後に添えられた数字も同様である。

例えば、図２６において、ＳＩ０の「０」は、他の視点映像の復号が必要ないことを示し、ＳＰ１の「１」は、１つの視点映像、すなわちＳＩピクチャビデオの復号が必要なことを意味する。また、ＳＢ２の「２」は、２つの視点映像、すなわちＳＩピクチャビデオとＳＰピクチャビデオとの復号が必要であることを意味する。また、同図（ｉｉ）のように視点映像ＥをＳＢｒ２として符号化した場合には、視点映像Ｂ、Ｃ、Ｄに対するピクチャビデオを得るためには、ＳＩ、ＳＰ１、ＳＢｒの３つのピクチャビデオの復号が必要となるため、これらに対応するピクチャビデオはＳＢ３と表される。

（２）実施の形態では、視点映像の視点位置は一直線上にある場合を例に説明したが、視点位置は一直線上にある場合に限られない。それぞれの視点位置は、どのような位置関係にあっても構わない。例えば、図２８のようにそれぞれの視点位置は、２次元行列上にあってもよい。図２８のｘｙ平面上の白抜きの楕円及び黒抜きの楕円は共に、各視点位置を示す。特に、黒塗りの楕円は、実施の形態で説明した一直線上に配置された視点位置に対応する。なお、図２８で示す様に、水平方向をｘ軸、垂直方向をｙ軸、中央の視点位置から対象物へ向かう方向をｚ軸とする。

ＭＶＣマルチビューディスクリプタに、このようにｘｙ平面上に広がりを持つ視点位置の位置関係を記述するための識別子を定義する。

図２９に、新たに視点位置の位置関係を記述するための識別子を定義したＭＶＣマルチビューディスクリプタの一例を示す。図１６のＭＶＣマルチビューディスクリプタに比べて、ｘ＿ｐｏｓｉｓｈｉｏｎ及びｙ＿ｐｏｓｉｔｉｏｎの識別子が追加されている。

ｘ＿ｐｏｓｉｔｉｏｎは、基準視点であるＳＩピクチャビデオに対応する視点位置をｘｙ平面においてその座標値を（ｘ，ｙ）＝（０，０）とした場合に、当該ピクチャビデオのｘ軸方向の座標値を示す識別子である。

ｙ＿ｐｏｓｉｔｉｏｎは、同様に当該ピクチャビデオのｙ軸方向の座標値を示す識別子である。

この２つの識別子を参照することにより、再生装置は、ｘｙ平面上にある視点位置を特定し、各視点位置の位置関係を知ることができる。

なお、更にｚ＿ｐｏｓｉｔｉｏｎを追加して、ｘｙｚ軸の３次元に拡張し、対象物に向かう方向をｚ軸の正（プラス）方向、基準視点の位置座標を（ｘ，ｙ，ｚ）＝（０，０，０）として、ｘ＿ｐｏｓｉｔｉｏｎ、ｙ＿ｐｏｓｉｔｉｏｎと同様の記述を行い、３次元行列上に視点位置を配置するようにしてもよい。

図３０は、２次元行列上に視点位置が配置されている場合の各視点映像の参照関係を示す図である。図中の矢印は、矢印の先にある視点映像が、矢印の元にある視点映像から参照される関係にあることを示している。なお、図中に全ての参照関係の矢印を図示すると図が煩雑になるので参照関係の矢印は、一部だけを表示している。

同図の例では、中心の視点映像３００を基準視点と定め、ＳＩピクチャビデオとして符号化する。中心の視点映像から縦方向、横方向、及び対角線方向それぞれにおいて最も遠い位置にある視点映像を、ＳＰピクチャビデオとして符号化する。そして残りの視点位置の視点映像をＳＢピクチャビデオとして図の破線の矢印で示す視点映像を参照して符号化する。例えば、図中の視点映像３０１は、その両隣の視点映像３０２と視点映像３０３とのＳＰ１ピクチャビデオを参照してＳＢピクチャビデオとして符号化されることを示す。

また、図３１で示す参照関係を用いて各視点映像を符号化してもよい。

図３０では、対角方向の４角の視点位置の視点映像を、ＳＰピクチャビデオとして符号化するが、図３１では、ＳＢｒピクチャビデオとして符号化する点で異なる。

例えば、視点映像３１１は、視点映像３１２と視点映像３１３とのＳＰピクチャビデオを参照してＳＢｒピクチャビデオとして符号化される。そして視点映像３１４は、視点映像３１１のＳＢｒピクチャビデオと視点映像３１２のＳＰピクチャビデオとを参照してＳＢピクチャビデオとして符号化される。このように、視点映像を、ＳＰピクチャビデオとして符号化する代わりにＳＢｒピクチャビデオとして符号化することによって更にデータ量を削減し得る。

また、図３２で示す参照関係を用いて各視点映像を符号化してもよい。

図３０では、基準視点の上下左右方向に最も遠い視点位置の視点映像をＳＰピクチャビデオとして符号化したのに対し、図３２では、ＳＢｒピクチャビデオとして符号化する点で異なる。

例えば、視点映像３２１は、視点映像３２２と視点映像３２３とのＳＰピクチャビデオを参照してＳＢｒピクチャビデオとして符号化される。そして視点映像３２４は、この視点映像３２１のＳＢｒピクチャビデオと視点映像３２２のＳＰピクチャビデオを参照してＳＢピクチャビデオとして符号化される。

このように、図３１の場合と同様に、視点映像を、ＳＰピクチャビデオとして符号化する代わりにＳＢｒピクチャビデオとして符号化することによって更にデータ量を削減し得る。

（３）実施の形態では、基準視点とする視点映像は１つとして説明したが、基準視点は１つに限られない。基準視点は複数定めてもよい。例えば、図３３で示すように、視点映像を複数のグループに分割し、それぞれのグループ内で１つの基準視点を定めてもよい。そして、ビュー間参照する視点映像のピクチャは、各グループ内の視点映像のピクチャに限り、異なるグループの視点映像のピクチャは、ビュー間参照しないようにする。このような視点映像のグループをＧＯＶ（Group of Views）と定義する。

同図は、対象物に対する正面の位置から−１５度〜＋１５度の角度の範囲に含まれる視点映像のグループをＧＯＶ１とし、−１５度〜−４５度の範囲に含まれる視点映像のグループをＧＯＶ２、＋１５度〜＋４５度の範囲に含まれる視点映像をＧＯＶ３とした例である。

それぞれのＧＯＶの中央の視点映像を基準視点の視点映像として、ＧＯＶ毎にそのＧＯＶに含まれる各視点映像を符号化する。そしてＧＯＶ毎に異なるトランスポートストリームを生成する。このように視点映像のグループを複数のＧＯＶに分割することで１つのトランスポートストリームに含まれる視点映像の数を削減することができる。すなわち、１つのトランスポートストリームに含まれるデータ量を削減することができる。再生装置は、再生しようとする視点位置の視点映像が含まれるＧＯＶに対応したトランスポートストリームだけを復号して再生すればよい。

（４）本実施の形態では、１つの視点映像を基準視点に定めて符号化する例で説明したが、基準視点の視点映像は、１つの視点映像に固定しなくてもよい。基準視点となる視点映像を符号化の途中で変えてもよい。

図３４は、符号化の途中で基準視点となる視点映像を変える場合の一例である。

同図は、互いのカメラ位置を一定に保った左（Ｌカメラ）、中央（Ｃカメラ）、右（Ｒカメラ）の３つのカメラで同時に撮影した視点映像Ｌ、Ｃ、Ｒがあり、全てのカメラが左側へパンして撮影した映像と右側へパンして撮影した映像が連続している場合を示す。

カメラを左側へパンしながら撮影する場合、ＣカメラやＲカメラは、Ｌカメラで撮影された映像を時間的に少し遅れて撮影することになるため、視点映像Ｌを基準視点の視点映像として符号化し、この視点映像を参照して視点映像Ｃ、Ｒを符号化すると、視点映像Ｃや視点映像Ｒを基準視点の視点映像として他の視点映像を符号化する場合よりも一般的に全体としての符号化の圧縮効率がよい。カメラが右側へパンしながら撮影する場合には、逆に視点映像Ｒを基準視点の視点映像として符号化する方がよい。そこで、カメラの動きが切り替わるタイミングで基準視点とする視点映像を視点映像Ｌから視点映像Ｒに切り替えて符号化し、ベースビューを生成することで、視点映像全体のデータ量を更に削減し得る。

そして、基準視点が変わらない間は、同じＧＯＰとなるように符号化を行い、基準視点が変わると異なるＧＯＰとなるように符号化を行い、基準視点として符号化して得られるＡＵの補足データに、基準視点であることを示す情報を記載してもよい。再生装置は、この補足データに記載された情報によって、ベースビューとして符号化された基準視点の視点映像を判断することができる。

（５）本実施の形態の再生装置では、ベースビューとディペンデントビューの参照関係をＭＶＣマルチビューディスクリプタの識別子であるｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｓ＿ｔｏ＿ｔｈｉｓ＿ｖｉｅｗ［］及びｖｉｅｗ＿ｉｄｓ＿ｒｅｆｅｒｅｄ＿ｔｏ＿ｂｙ＿ｔｈｉｓ＿ｖｉｅｗ［］に記述されたｖｉｅｗ＿ｉｄに基づいて判断する例で説明した。この参照関係が誤っているか否かを検証するための情報を更に追加し、再生装置は、ＭＶＣマルチビューディスクリプタの識別子に記述された参照関係が正しいかどうかを検証するようにしてもよい。

一連の２視点の視点映像を圧縮符号化したベースビューＡ１とディペンデントビューＡ２と、別の一連の２視点の視点映像を、同じ条件で符号化したベースビューＢ１とディペンデントビューＢ２とがある場合を例に説明する。このようなストリームを配信する場合、通信状態によっては、通信時にビット化けを起こすおそれがある。このビット化けがディスクリプタにおける参照関係を記述した識別子に対応する部分であれば、ディペンデントビューＢ２が、ベースビューＡ１を参照するというように解釈されるおそれがある。この場合、再生装置は参照関係が正しいか否かを判断することができず、記載された参照関係に基づいて復号処理自体は正常に行われる。しかし、間違った参照関係に基づいた復号処理によって得られるピクチャは、元の視点映像のピクチャではないということがあり得る。

そこで、図３５のように、ベースビュービデオストリームとディペンデントビュービデオストリームの対応関係を検証するために、各ＡＵの補足データなどに、各ＡＵを特定する情報を格納するようにしてもよい。図３５の例では、タイトル名とＡＵ番号（例えば、「＃１００」は１００番目のＡＵを意味する。）を補足データに格納している。

再生装置は、ディペンデントビュービデオストリームのピクチャを復号する際に、同じＡＵ番号を持つ参照先のベースビュービデオストリームのＡＵの補足データを参照し、復号対象のディペンデントビュービデオストリームのＡＵの補足データの記載と比較することで参照関係が正しいか否かを判別する。図３０上段では、ディペンデントビュービデオストリームの１００番目のＡＵの補足データに記載されたタイトル名は、「王将戦」であり、ディペンデントビュービデオストリームが参照するベースビュービデオストリームの１００番目のＡＵの補足データに記載されているタイトル名は、「名人戦」であるので、タイトル名が一致せず、参照先のビデオストリームが間違っていると判断することができる。このような場合、再生装置は、ディペンデントビュービデオストリームの復号は行わず、ユーザにその旨のメッセージを提示したり、ベースビュービデオストリームのみの再生を行ったりしてもよい。

（６）実施の形態では、再生装置における再生処理として、ユーザ視点に最も近い視点映像を復号して再生する例で説明したが、再生する映像は、最も近い視点映像に限られない。ユーザ視点に近い視点映像に基づいて視点位置における映像を補間により生成した映像を再生してもよい。

例えば、図７のユーザ視点Ｘにおける映像は、ユーザ視点Ｘを挟む視点位置の内、最も距離の近い２つの視点位置の視点映像である視点映像ａと視点映像ｂとから復号したピクチャを用いて生成する。ユーザ視点における映像を補間により生成する方法の一例として、視点映像のデプスマップを用いる方法がある。デプスマップを用いる方法では、まず、この二つの視点映像を使って、それぞれの視点映像上のオブジェクトの特徴点の対応関係を抽出し、視差情報等を用いて、その特徴点の奥行き情報を計算することによって、それぞれの視点映像のデプスマップを作成する。次に、このデプスマップと二つの視点位置の情報に基づき、例えば、それぞれの視点映像との距離の比で内分して、デプスマップを生成した視点映像の各オブジェクトのシフト量を計算する。そして、計算したシフト量に従ってそれぞれのオブジェクトをシフトさせて、ユーザ視点における映像を生成する。

また、ユーザ視点が、基準視点Ａの位置から左に移動している最中においては、ユーザ視点を挟む視点位置の内、最も距離の近い２つの視点位置の視点映像ではなく、ユーザ視点を挟むＳＩピクチャビデオ及びＳＰピクチャビデオとして符号化された視点映像を用いてユーザ視点の映像を生成してもよい。

図３６（ｉ）は、ユーザ視点は、基準視点Ａの位置から視点映像Ｇと視点映像Ｈの間の視点位置まで左に移動する場合を示す。

ユーザ視点が移動中、視点映像Ｂと視点映像Ｃの位置にある間は、本来なら視点映像ＢのＳＢピクチャビデオと視点映像ＣのＳＢピクチャビデオとを用いてユーザ視点の映像を生成するが、視点映像Ｂと視点映像ＣとのＳＢピクチャビデオを復号するためには、視点映像ＡのＳＩピクチャビデオと視点映像ＥのＳＰピクチャビデオとを復号したのち、ＳＢピクチャビデオを復号して再生しなければならない。また、ユーザ視点が移動している場合には、視点映像Ｂと視点映像Ｃとの間にユーザ視点が位置する時間は短時間であると考えられ、ユーザ視点の映像を生成するために用いる視点映像を短時間の間に切り替えなければならない。このため、再生装置の復号処理の負荷が大きい。

そこで、ユーザ視点が移動している間のユーザ視点の映像の生成処理においては、視点映像Ａと視点映像Ｅの間にユーザ視点が位置する間は、視点映像ＡのＳＩピクチャビデオと視点映像ＥのＳＰピクチャビデオとを用いてユーザ視点の映像を生成するようにしてもよい。また、更にユーザ視点が移動して視点位置Ｅと視点位置Ｉの間にある場合には、視点映像ＥのＳＰピクチャビデオと視点映像ＩのＳＰピクチャビデオとを用いてユーザ視点の映像を生成するようにしてもよい。このようにすることで、ＳＢピクチャビデオの復号処理を省略することができるので、再生装置の負荷を低減することができる。

そして、ユーザ視点の移動が無くなった時点で、ユーザ視点を挟む視点位置の内、最も距離の近い２つの視点映像のピクチャビデオを用いてユーザ視点の映像を生成すればよい。図３６（ｉｉ）は、視点映像Ｇと視点映像Ｈの間にユーザ視点が止まった場合を示し、この場合に、視点映像ＧのＳＢピクチャビデオと視点映像ＨのＳＢピクチャビデオとを復号して得られるピクチャを用いてユーザ視点の映像を生成し再生する。

また、補間により生成する視点映像は、２Ｄの視点映像に限らない。

左目の視点位置と右目の視点位置とで異なる視点映像を生成し３Ｄの立体視映像として再生してもよい。

図３７は、左目用の視点映像と右目用の視点映像とを生成する場合に、符号化する視点映像の視点位置の間隔の一例である。

一般的に人間の左右の目の間隔は６ｃｍ（センチメートル）程度である。このことより、各視点映像の視点位置の間隔が６ｃｍより小さい（例えば４ｃｍ）の場合には、ユーザの位置によっては、図３７（ｉ）のように、左目用の視点映像を生成する場合には視点映像Ａと視点映像Ｂを復号し、右目用の視点映像を生成する場合には視点映像Ｃと視点映像Ｄとを復号する必要がある。すなわち、ユーザの視点位置によっては、最大４つの異なる視点映像を復号しなければならない場合がある。一方、各視点映像の視点位置の間隔を６ｃｍより少し広めの間隔（例えば、７ｃｍ）とすると、図３７（ｉｉ）のように、左目用の視点映像は、視点映像Ａと視点映像Ｂとを用い、右目用の視点映像は、視点映像Ｂと視点映像Ｃとを用いて生成することができる。つまりユーザの視点位置がどの位置であっても、最大３つの異なる視点位置の視点映像を復号することで左目用と右目用の視点映像を生成することができる。このような間隔で視点映像を符号化することによって、再生装置では、復号する視点映像を少なくすることができ、再生装置の負荷を軽減し得る。

ところで、視点映像の間隔を大きくしすぎると、視点映像間の差が大きくなり、精度よく補間映像を生成するとこが困難になる。このため、符号化する視点映像の視点位置の間隔は、想定される左右の目の間隔（例えば６ｃｍ）より大きく、左右の目の間隔の２倍（例えば１２ｃｍ）より小さい間隔であることが望ましい。

（７）符号化装置２６００において、視点映像を符号化する際に、それぞれの視点映像に対応したデプスマップを作成して符号化してもよい。デプスマップを符号化する際にも図２７で示すように、視点映像を符号化するときに参照した視点位置のデプスマップを参照して符号化する。そして、生成したデプスマップのストリームデータを含んで多重化したマルチビュービデオストリームを生成してもよい。

上記（６）のようにユーザ視点からの映像を、デプスマップを用いた補間により生成する場合には、符号化装置２６００がそれぞれの視点映像に対応したデプスマップを符号化したマルチビュービデオストリームを含んだトランスポートストリームを配信すれば、それを受信した再生装置２８００は、デプスマップの生成処理を省略することができるので、再生処理の負荷を軽減することができる。

（８）実施の形態では、再生装置２８００は、ＴＢ、ＭＢ、ＥＢをそれぞれ３つ持つ構成で説明したが、ＴＢ、ＭＢ、ＥＢは、それぞれ３つに限らない。トランスポートストリームに含まれるビューの数に応じて増減してもよい。例えば、ＴＢ、ＭＢ、ＥＢの数を増やせば、同時に処理することができるビューの数を増やすことができる。

（９）本実施の形態では、複数の視点映像の視点位置は、一定間隔で配置されていることを前提として説明を行ったが、視点映像の視点位置の間隔は一定間隔に限らない。それぞれの視点位置間の距離は一定でなくてもよい。

例えば、ユーザが主に視聴すると想定される視点位置（例えば、モニタ画面の正面に対応する視点位置）周辺では、各視点映像の視点位置の間隔を小さくし、主に視聴すると想定される視点位置から離れると視点位置の間隔を大きくしてもよい。すなわち、多視点映像の提供者が、ユーザが視聴するであろうと想定した視点位置の範囲内では、符号化する視点位置を多くすることにより、精度よく再生することができる。

（１０）本実施の形態では、複数の視点映像それぞれの映像の画質に関する条件（例えば、解像度）などは、同じであることを前提としていたが、画質に関する条件は、それぞれの視点映像で異なっていてもよい。

例えば、ユーザが主に視聴すると想定される視点位置（例えば、モニタ画面の正面に対応する視点位置）の近傍以外の視点位置の視点映像の解像度を低くしてもよい。水平方向に複数の視点映像がある場合において、解像度を低くする場合には、映像の横方向の解像度を低くする方が好ましい。水平方向に視線位置が移動する場合には、各視点映像において同一の対象物における縦方向の映像の変化は少ないが、水平方向には、正面から見た場合に比べて、正面から離れた位置から見た対象物の映像は、横方向に圧縮された映像となるので解像度を低くしても視聴したときの違和感が少ないからである。このように、視点映像の解像度を低くすることで、全体のデータ量を削減することができる。

（１１）本実施の形態では、ＭＶＣＳｔｅｒｅｏ３Ｄディスクリプタ及びＭＶＣＳｔｅｒｅｏ３Ｄストリームディスクリプタの情報をＰＭＴに記述するとしたが、これらの情報の記述はＰＭＴに限らない。配信されるストリームに記述されていればよい。例えば、これら情報の全て又は一部は、ＰＭＴパケットではなく、他のシステムパケットや各ビデオストリームの補足データ等に格納されてもよい。

（１２）実施の形態において、ＳＰピクチャタイプ、ＳＢピクチャタイプの定義を、それぞれ、１つの他視点のピクチャを参照しながら符号化するピクチャ、異なる２つの他視点のピクチャを参照しながら符号化するピクチャと定義したが、ピクチャタイプの定義は、これに限らない。

図５２に示すように、ＳＩピクチャ、ＳＰピクチャ、ＳＢピクチャを定義してもよい。図５２上段は、各ビュー間の参照関係を示す図であり、各矢印はピクチャの参照関係を示す。例えば、Ｅ地点のピクチャは、Ａ地点のピクチャを参照している。Ｃ地点のピクチャは、Ａ地点のピクチャと、Ｅ地点のピクチャを参照している。ここで、図５２中段の矢印は、参照空間ベクトルを示す。参照空間ベクトルは、該当地点から、該当地点のピクチャの符号化に利用する参照ピクチャへの方向ベクトルである。例えば、図５２中段の太線矢印は、地点Ｅのピクチャにおける参照空間ベクトルである。図５２中段の点線矢印は、視点Ｃのピクチャにおける参照空間ベクトルである。このような参照空間ベクトルを用いて、ＳＰピクチャ、ＳＢピクチャを定義してもよい。

すなわち、ＳＰピクチャの定義を「空間上で他のビューを参照するピクチャで、参照空間ベクトルが１方向である」とし、ＳＢピクチャの定義を「空間上で他のビューを参照するピクチャで、参照空間ベクトルが２方向である」とする。これによって、図５２中段の太線矢印の参照空間ベクトルは１方向であるため、地点ＥのピクチャはＳＰピクチャと定義でき、図５２中段の点線矢印の参照空間ベクトルは２方向であるため、地点ＣのピクチャはＳＢピクチャと定義できる。

この定義の場合には、ＳＰピクチャは、参照先が１つであるとの制限がなく、例えば、Ｉ地点のＳＰピクチャの場合には、地点ＥのＳＰピクチャだけでなく、地点ＡのＳＩピクチャを参照する構成にしてもよい。このように構成した場合、ＳＰピクチャにおける参照空間ベクトルは、二つあるが、同一方向の空間ベクトルである。なお、参照空間ベクトルの方向が同じであるかは、ベクトル同士の角度を算出し、その角度が０度であれば、同じであると判断してもよいし、０度でなくとも、例えば、−１０度〜１０度までは同じ方向であると判断してもよい。

また、ＳＢピクチャビデオは、自身の空間的な位置の直近のＳＩピクチャビデオやＳＰピクチャビデオを超えたピクチャビデオを参照しないという制約を課してもよい。例えば、図５２上段例の場合には、地点Ｃの空間的な位置において、右側・左側の位置にある直近のＳＩピクチャやＳＰピクチャビデオは、地点ＡのＳＩピクチャビデオと地点ＥのＳＰピクチャビデオであるため、これを空間的に超えて、例えば、Ｉ地点のＳＰピクチャビデオを参照してはいけない。このように制約することで、位置の大きく離れたピクチャを参照することを防ぎ、再生装置の処理負荷を軽減することができる。

（１３）実施の形態において説明した各処理（図１９、図２１で示す処理）を符号化装置又は再生装置に実行させるための制御プログラムを、記録媒体に記録し又は各種通信路等を介して、流通させ頒布することもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ、フラッシュメモリ等がある。流通、頒布された制御プログラムは、それぞれの装置におけるプロセッサで読み取り可能なメモリ等に格納されることにより利用に供され、それぞれのプロセッサがその制御プログラムを実行することにより実施の形態で示した各機能が実現される。

（１４）実施の形態において説明した符号化装置の制御部２６０１、ベースビュービデオエンコーダ２６０２、ディペンデントビュービデオエンコーダ２６０３、ビデオデコーダ２６０５、ベースビュービデオストリーム生成部２６１１、ディペンデントビュービデオストリーム生成部２６１２、ＰＭＴ生成部２６１３、マルチプレクサ２６１４、及びトランスポートストリーム出力部の構成要素の内、全部又は一部を１チップ又は複数チップの集積回路で実現してもよいし、コンピュータプログラムで実現してもよいし、その他どのような形態で実現してもよい。

また、再生装置のユーザ位置取得手段２８０１、ビュービデオストリーム決定手段２８０２、マルチビュービデオデコーダ２８２２、及びオーディオデコーダ２８２４の構成要素の内、全部又は一部を１チップ又は複数チップの集積回路で実現してもよいし、コンピュータプログラムで実現してもよいし、その他どのような形態で実現してもよい。

（１５）上記の実施の形態及び上記の変形例を適宜組み合わせてもよい。
＜３．補足＞
以下、更に本発明の一実施形態としての符号化装置、復号装置、及びその変形例と効果について説明する。

（ａ）本発明の一態様である符号化装置は、複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化したビデオストリームデータの生成を行う符号化装置であって、前記複数の視点それぞれのフレーム画像群の入力を受け付ける入力手段と、前記複数の視点のフレーム画像群の内の１つを基準視点のフレーム画像群とし、当該フレーム画像群を、他の視点のフレーム画像を参照画像として用いずに符号化したベースビュービデオストリームデータを生成するベースビュー符号化手段と、前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータの同一時刻のフレーム画像を参照画像として用い符号化する第１ディペンデントビュービデオストリームデータを生成する第１ディペンデントビュー符号化手段と、前記基準視点及び第１種視点以外であり、他の視点に挟まれる位置関係にある第２種視点におけるフレーム画像群を、当該視点を挟む２視点の同時刻におけるフレーム画像を参照画像として用い符号化した第２ディペンデントビュービデオストリームデータを生成する第２ディペンデントビュー符号化手段と、前記ベースビュービデオストリームデータと前記第１及び第２ディペンデントビュービデオストリームデータとを出力するビデオストリームデータ出力手段とを備える。

ここでいう「フレーム画像」とは、１フレームを構成する画像だけでなく１フィールドを構成する画像を含む。

この構成の符号化装置は、異なる２つの視点映像に挟まれた視点映像をディペンデントビューとして符号化する際に、当該視点映像を挟む２つの視点映像のフレーム画像を参照して符号化することができる。従って、符号化されたマルチビュービデオストリーム全体でデータ量を削減し得るビデオストリームを生成することができる。

（ｂ）ここで、前記第２ディペンデントビュー符号化手段は、前記第２種視点のフレーム画像群を符号化する際に参照する２視点として、基準視点及び第１種視点、又は、異なる２つの第１種視点を用いる、としてもよい。

この構成によると、第２ディペンデントビュービデオストリームを生成する際に参照する視点映像のフレーム画像は、基準視点及び第１種視点の視点映像のフレーム画像を用いる。従って、他の視点映像を参照する必要なく復号できる視点映像及び、他の１つ視点映像を参照することで復号できる第１種視点の視点映像に基づいて、第２ディペンデントビュービデオストリームを生成することができる。

（ｃ）ここで、前記第２ディペンデントビュー符号化手段は、前記第２種視点のフレーム画像群を符号化する際に参照する２視点として、当該２視点を結ぶ直線上に前記第２種視点があるという条件を満たす位置関係の２視点を用いる、としてもよい。

この構成によると、第２ディペンデントビュービデオストリームとして生成する第２種視点の視点映像の視点位置と、参照先の２視点の視点位置とは、一直線上にあり、参照先の２視点で第２種視点の視点位置を挟む位置関係にある。

従って、第２子視点の視点映像は、直線上においてそれぞれ反対方向に位置する視点映像のフレーム画像を参照して符号化することができるため、高い圧縮効率で符号化し得る。

（ｄ）ここで、前記第２ディペンデントビュー符号化手段は、前記第２種視点からの方向が異なり、それぞれの方向において前記第２種視点からの距離が最も近いという条件を更に満たす２視点を用いる、としてもよい。

この構成の符号化装置は、第２種視点の視点映像の符号化の際に参照する視点映像の視点位置は、当該視点映像からの方向が反対でそれぞれの方向において最も近い視点位置の視点映像のフレーム画像を用いる。従って、複数の視点映像の内、最も相関が大きいと考えられる視点映像のフレーム画像を用いて符号化することができるため、高い圧縮効率で符号化し得る。

（ｅ）ここで、前記入力手段には、１つの直線上に配置された視点位置における複数の視点のフレーム画像群が入力され、前記ベースビュー符号化手段は、前記直線上にある視点の内、最も距離の離れた２視点からの距離の差が最も小さくなる位置にある視点を基準視点と定め、当該基準視点のフレーム画像群を符号化したベースビュービデオストリームデータを生成し、前記第１ディペンデントビュー符号化手段は、前記最も距離の離れた２視点それぞれについて、当該視点のフレーム画像群を前記基準視点のフレーム画像を参照して符号化した第１ディペンデントビュービデオストリームデータを生成する、としてもよい。

この構成の符号化装置は、直線上に配置された視点映像の内、中央付近の視点映像を基準視点として符号化し、基準視点からの方向が反対でそれぞれの方向において最も基準視点から離れた位置の視点映像を第１ディペンデントビューとして符号化する。

従って、マルチビュービデオストリーム全体でデータ量を削減したビデオストリームを生成することができる。

（ｆ）ここで、前記入力手段には、前記基準視点における視線方向のベクトルを法線ベクトルとし、前記基準視点の視点位置を含む平面上において、前記基準視点を中心として、２次元行列上に予め定められた間隔に配置された視点位置における複数の視点のフレーム画像群が入力され、前記第１ディペンデントビュー符号化手段は、前記複数の視点の内、前記基準視点から、上下左右斜め方向それぞれについて最も離れた位置にある視点を第１種視点と定め、当該第１種視点のフレーム画像群を前記基準視点の同時刻におけるフレーム画像を参照して符号化し、前記第２ディペンデントビュー符号化手段は、前記基準視点及び第１種視点以外の全ての視点のフレーム画像群を、当該視点を挟む基準視点及び第１種視点の同時刻におけるフレーム画像を参照して符号化する、としてもよい。

この構成の符号化装置は、視点位置が２次元行列上に配置された視点映像に対応したマルチビュービデオストリームデータを生成する。

従って、ユーザの視点位置が水平方向だけではなく、上下方向に移動した場合に対応したマルチビュービデオストリームを生成することができる。

（ｇ）ここで、更に、前記複数の視点のフレーム画像群それぞれについて、各フレーム画像の画素単位の奥行き情報を示すデプスマップを生成するデプスマップ生成手段を備える、としてもよい。

この構成の符号化装置は、視点映像の符号化の際に、同時にその視点映像のデプスマップを生成する。

従って、再生装置で再生する際に、デプスマップの奥行き情報を用いて、その視点からの３Ｄ映像生成における処理負荷を軽減することができる。

（ｈ）ここで、前記ベースビュー符号化手段は、前記基準視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるベースビューに準拠した形式で符号化し、前記第１ディペンデントビュー符号化手段は、第１種視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるディペンデントビューに準拠した形式で符号化し、前記第２ディペンデントビュー符号化手段は、第２種視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるディペンデントビューに準拠した形式で符号化し、第２種視点のフレーム画像群を符号化する際に参照する２視点を示す情報を記載するようにＭＰＥＧ−４ＭＶＣにおけるシンタックスを拡張したビデオストリームデータを生成する、としてもよい。

この構成の符号化装置は、ＭＰＥＧ−４ＭＶＣに準拠して、複数の視点位置における視点映像を圧縮符号化する。

従って、複数の視点映像から、それぞれ単独で符号化するよりもデータ量を削減したビデオストリームデータを生成することができる。

（ｉ）ここで、更に、各視点のフレーム画像の内容の時間的変化に応じて、予め定められた期間毎に基準視点を変更する基準視点変更手段を備える、としてもよい。

この構成の符号化装置は、基準視点となる視点映像を時間単位で切り替えて符号化を行う。従って、時間毎に、複数の視点映像全体で、データ量をより削減し得る視点映像を基準視点として選択することができる。

（ｊ）ここで、前記ベースビュー符号化手段、前記第１ディペンデントビュー符号化手段、及び前記第２ディペンデントビュー符号化手段は、前記視点毎のフレーム画像群を、基準視点を変更する毎に、異なるＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）のビデオストリームデータとして符号化する、としてもよい。

この構成の符号化装置は、異なる基準視点で符号化したフレーム画像群をそれぞれ異なるＧＯＰのビデオストリームデータとして符号化する。

従って、異なる基準視点で符号化されたビデオストリームをＧＯＰ単位で管理することができるので、再生装置での飛び込み再生等の特殊再生時の復号の処理負荷を軽減できるビデオストリームデータを生成することができる。

（ｋ）ここで、更に、前記ベースビュービデオストリームデータ、前記第１ディペンデントビュービデオストリームデータ、及び第２ディペンデントビュービデオストリームデータを用いて、マルチビュービデオストリームを生成するマルチビュービデオストリーム生成手段と、ビデオストリーム毎に、当該ビデオストリームに係る参照関係を示すストリーム参照情報を生成するストリーム参照情報生成手段と、前記マルチビューストリームと前記ストリーム参照情報とを多重化したトランスポートストリームを送出するストリーム送出手段とを備える、としてもよい。

この構成の符号化装置は、複数の視点映像を符号化したビデオストリームデータを多重化したトランスポートストリームを出力する。

従って、複数視点の視点映像を符号化したトランスポートストリームを放送波などで配信することができる。

（ｌ）本発明の一態様である復号装置は、本発明に係る符号化装置で生成されたストリームデータを取得する取得手段と、前記ストリームデータに含まれるベースビュービデオストリームデータを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、第１ディペンデントビュービデオストリームデータを復号する際の参照先の１視点に対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第１ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、第２ディペンデントビュービデオストリームデータを復号する際の参照先の２視点それぞれに対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第２ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、前記ベースビュー復号手段で得られたフレーム画像群と、前記第１及び第２ディペンデントビュー復号手段で得られたフレーム画像群とを出力する出力手段とを備える。

この構成の復号装置は、複数の視点映像間の参照関係に基づいて、各視点の視点映像に対応したビデオストリームデータを復号し、再生する。

従って、上記（ａ）で符号化されたマルチビュービデオストリームを復号し、再生することができる。

（ｍ）本発明の一態様である再生装置は、本実施の形態の符号化装置から送信されたトランスポートストリームを受信し再生する再生装置であって、前記トランスポートストリームを受信するストリーム受信手段と、前記トランスポートストリームに含まれるベースビュービデオストリームを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、前記トランスポートストリームに含まれる属性情報を抽出する属性情報抽出手段と、前記トランスポートストリームに含まれる第１ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、前記トランスポートストリームに含まれる第２ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、前記ベースビュー復号手段で得られたフレーム画像群と、前記第１、第２ディペンデントビュー復号手段で得られたフレーム画像群とを再生する再生手段とを備える。

この再生装置は、複数の視点映像を符号化したビデオストリームデータを含んで多重化して配信されるトランスポートストリームを受信し、このビデオストリームデータを復号し、再生する。従って、上記（ｋ）で出力されたトランスポートストリームを復号し、再生することができる。

（ｎ）ここで、更に、ユーザの視点位置を検知するユーザ視点位置検知手段と、前記ユーザ視点位置検知手段で検知された前記ユーザの視点位置におけるフレーム画像群を生成するユーザ視点フレーム画像群生成手段と、前記ユーザ視点フレーム画像群生成手段で用いるビデオストリームを選択するビデオストリーム選択手段とを備え、前記ユーザ視点フレーム画像群生成手段は、前記ビデオストリーム選択手段で選択されたビデオストリームを復号したフレーム画像群を用いて、前記ユーザの視点位置におけるフレーム画像群を生成し、前記再生手段は、前記ユーザの視点位置におけるフレーム画像群を再生する、としてもよい。

この構成の再生装置は、視聴するユーザの視点位置を検出し、受信した複数視点の視点映像を符号化したビデオストリームを用いて、ユーザの視点位置における映像を生成して、再生する。

従って、ユーザの視点位置が、トランスポートストリームに含まれるビデオストリームデータの視点位置に一致していなくても、ユーザの視点位置からの映像を再生することができる。

（ｏ）ここで、更に、前記ベースビュー復号手段で復号された前記基準視点のフレーム画像群と、前記ディペンデントビュー復号手段で復号された第１種視点のフレーム画像群とを記憶するフレーム画像群記憶手段を備え、前記ビデオストリーム選択手段は、前記ユーザ視点位置検知手段がユーザの視点位置の移動を検知している間は、ユーザの視点位置のフレーム画像群の生成に用いるビデオストリームを、ベースビュービデオストリームと第１ディペンデントビュービデオストリームとから選択し、前記ユーザ視点位置検知手段がユーザの視点位置の移動を検知しなくなった場合には、更に第２ディペンデントビュービデオストリームを含むビデオストリームから選択する、としてもよい。

この構成の再生装置は、ユーザの視点位置が移動している間は、第２ディペンデントビュービデオストリームとして符号化された視点映像のフレーム画像を用いず、ベースビュービデオストリームと第１ディペンデントビュービデオストリームとして符号化された視点映像のフレーム画像を用いて、ユーザの視点位置の映像の生成を行う。

従って、ユーザの視点が移動中の映像の再生の際には、復号処理を簡素化でき、再生装置の負荷を低減することができる。
＜４．補足説明＞
以下、本実施の形態で利用するストリーム形式や映像圧縮技術について簡単に補足説明する。

＜ストリームデータの説明＞
デジタルテレビの放送波等での伝送では、ＭＰＥＧ−２トランスポートストリーム形式のデジタルストリームが使われている。

ＭＰＥＧ−２トランスポートストリームとは、ビデオやオーディオなど様々なストリームを多重化して伝送するための規格である。ＩＳＯ／ＩＥＣ１３８１８−１及びＩＴＵ−Ｔ勧告Ｈ２２２．０において標準化されている。なお、本実施の形態でも、この形式のトランスポートストリームを生成するものとする。

図３８は、ＭＰＥＧ−２トランスポートストリーム形式のデジタルストリームの構成を示す図である。

図３８に示すようにトランスポートストリーム５１３は、ビデオのＴＳ（ＴａｒａｎｓｐｏｒｔＳｔｒｅａｍ）パケット５０３、オーディオのＴＳパケット５０６、字幕ストリームのＴＳパケット５０９などを多重化して得られる。ビデオのＴＳパケット５０３は番組の主映像を、オーディオのＴＳパケット５０６は番組の主音声部分や副音声を、字幕ストリームのＴＳパケット５０９は番組の字幕情報を格納している。

ビデオフレーム列５０１は、ＭＰＥＧ−２、ＭＰＥＧ−４ＡＶＣなどの映像の符号化方式を使って圧縮符号化される。オーディオフレーム列５０４は、ドルビーＡＣ−３、ＭＰＥＧ−２ＡＡＣ、ＭＰＥＧ−４ＡＡＣ、ＨＥ−ＡＡＣなどの音声の符号化方式で圧縮符号化される。

トランスポートストリームに含まれる各ストリームはＰＩＤと呼ばれるストリーム識別ＩＤによって識別される。このＰＩＤのパケットを抽出することで再生装置は、処理対象のストリームを抽出することができる。ＰＩＤとストリームの対応関係の情報は、以降で説明するＰＭＴパケットのディスクリプタに格納される。

トランスポートストリームを生成するために、まず、複数のビデオフレームからなるビデオフレーム列５０１、複数のオーディオフレームからなるオーディオフレーム列５０４を、それぞれＰＥＳパケット列５０２及び５０５に変換する。次にＰＥＳパケット列５０２及び５０５を、それぞれＴＳパケット５０３及び５０６に変換する。同様に字幕ストリーム５０７のデータをそれぞれＰＥＳパケット列５０８に変換し、更にＴＳパケット５０９に変換する。トランスポートストリーム５１３はこれらのＴＳパケットを１本のストリームに多重化することで構成される。ＰＥＳパケット、ＴＳパケットについては後述する。

＜ビデオストリームのデータ構成＞
次に、映像を上述の符号化方式で圧縮符号化して得られるビデオストリームのデータ構成について説明する。

ビデオストリームは、図３９に示すような階層構造のデータである。ビデオストリームは、複数のＧＯＰから構成されており、これを圧縮符号化処理の基本単位とすることで動画像の編集やランダムアクセスが可能となる。

ＧＯＰは１つ以上のＡＵにより構成されている。各ＡＵは、ＡＵ識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャデータ、パディングデータ、シーケンス終端コード、及びストリーム終端コードを含む構成である。ＡＵの各データはＭＰＥＧ−４ＡＶＣの場合は、ＮＡＬユニットと呼ばれる単位で格納される。

ＡＵ識別コードはアクセスユニットの先頭を示す開始符号である。

シーケンスヘッダは、複数ビデオアクセスユニットから構成される再生シーケンスでの共通の情報を格納したヘッダであり、解像度、フレームレート、アスペクト比、ビットレートなどの情報が格納される。

ピクチャヘッダはピクチャ全体の符号化の方式などの情報を格納したヘッダである。

補足データは圧縮ピクチャデータの復号には必須ではない付加情報であり、例えば、映像と同期してＴＶに表示するクローズドキャプションの文字情報やＧＯＰ構造情報などが格納される。

圧縮ピクチャデータには、圧縮符号化されたピクチャのデータが格納される。

パディングデータは、形式を整えるためのデータが格納される。例えば、決められたビットレートを保つためのスタッフィングデータとして用いる。

シーケンス終端コードは、再生シーケンスの終端を示すデータである。

ストリーム終端コードは、ビットストリームの終端を示すデータである。

ＡＵ識別コード、シーケンスヘッダ、ピクチャヘッダ、補足データ、圧縮ピクチャデータ、パディングデータ、シーケンス終端コード、ストリーム終端コードのデータ構成は、ビデオの符号化方式によって異なる。

ＭＰＥＧ−４ＡＶＣの場合、ＡＵ識別コードは、ＡＵデリミタ（ＡｃｃｅｓｓＵｎｉｔＤｅｌｉｍｉｔｅｒ）、シーケンスヘッダはＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）に、ピクチャヘッダはＰＰＳ（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）に、圧縮ピクチャデータは複数個のスライス、補足データはＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）、パディングデータはＦｉｌｌｅｒＤａｔａ、シーケンス終端コードはＥｎｄｏｆＳｅｑｕｅｎｃｅ、ストリーム終端コードはＥｎｄｏｆＳｔｒｅａｍに対応する。

そして、ＭＰＥＧ−２形式の場合であれば、シーケンスヘッダはｓｅｑｕｅｎｃｅ＿Ｈｅａｄｅｒ、ｓｅｑｕｅｎｃｅ＿ｅｘｔｅｎｓｉｏｎ、ｇｒｏｕｐ＿ｏｆ＿ｐｉｃｔｕｒｅ＿ｈｅａｄｅｒに、ピクチャヘッダはｐｉｃｔｕｒｅ＿ｈｅａｄｅｒ、ｐｉｃｔｕｒｅ＿ｃｏｄｉｎｇ＿ｅｘｔｅｎｓｉｏｎ、圧縮ピクチャデータは複数個のスライス、補足データはｕｓｅｒ＿ｄａｔａ、シーケンス終端コードはｓｅｑｕｅｎｃｅ＿ｅｎｄ＿ｃｏｄｅに対応する。ＡＵ識別コードは存在しないが、それぞれのヘッダのスタートコードを使えば、アクセスユニットの切れ目を判断できる。

各属性情報のデータは常に必要ではなく、シーケンスヘッダはＧＯＰ先頭のビデオアクセスユニットでのみ必要で、それ以外のビデオアクセスユニットには付加せずに符号化することができる。また、ピクチャヘッダは符号順で前のビデオアクセスユニットのものを参照するようにして、自身のビデオアクセスユニット内にはピクチャヘッダを省略することもできる。

図４０は、ＰＥＳパケット列に、ビデオストリームがどのように格納されるかを示す図である。

図４０の第１段目はビデオストリームのビデオフレーム列を示す。第２段目は、ＰＥＳパケット列を示す。

図４０中のｙｙ１，ｙｙ２，ｙｙ３，ｙｙ４に示すように、ビデオストリームにおける複数のＶｉｄｅｏＰｒｅｓｅｎｔａｔｉｏｎＵｎｉｔであるＩピクチャ、Ｂピクチャ、Ｐピクチャは、ピクチャ毎に分割され、ＰＥＳパケットのペイロードに格納される。

各ＰＥＳパケットはＰＥＳヘッダを持ち、ＰＥＳヘッダには、ピクチャの表示時刻であるＰＴＳやピクチャのデコード時刻であるＤＴＳが格納される。

図４１は、トランスポートストリームを構成するＴＳパケットのデータ構造を示す図である。

ＴＳパケットは、４ＢｙｔｅのＴＳヘッダと、アダプテーションフィールドとＴＳペイロードから構成される１８８Ｂｙｔｅ固定長のパケットである。ＴＳヘッダは、ｔｒａｎｓｐｏｒｔ＿ｐｒｉｏｒｉｔｙ、ＰＩＤ、ａｄａｐｔａｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌを含む構成である。ＰＩＤは前述した通りトランスポートストリームに多重化されているストリームを識別するためのＩＤである。

ｔｒａｎｓｐｏｒｔ＿ｐｒｉｏｒｉｔｙは、同一ＰＩＤのＴＳパケットの中のパケットの種別を識別するための情報である。

ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌは、アダプテーションフィールドとＴＳペイロードの構成を制御するための情報である。アダプテーションフィールドとＴＳペイロードはどちらかだけが存在する場合と両方が存在する場合があり、ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌはその有無を示す情報である。

ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌの値が「１」の場合は、ＴＳペイロードのみが存在し、ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌの値が「２」の場合は、アダプテーションフィールドのみが存在し、ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌの値が「３」の場合は、ＴＳペイロードとアダプテーションフィールドの両方が存在することを示す。

アダプテーションフィールドは、ＰＣＲ（ＰｒｏｇｒａｍＣｌｏｃｋＲｅｆｅｒｅｎｃｅ）などの情報の格納や、ＴＳパケットを１８８バイト固定長にするためのスタッフィングするデータの格納領域である。ＴＳペイロードにはＰＥＳパケットが分割されて格納される。

トランスポートストリームに含まれるＴＳパケットの種別には、映像・音声・字幕などの各ストリームのパケット以外にもＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）、ＰＭＴ、ＰＣＲなどのパケットがある。これらのパケットはＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）と呼ばれる。

ＰＡＴはトランスポートストリーム中に利用されるＰＭＴのＰＩＤが何であるかを示し、ＰＡＴ自身のＰＩＤは「０」である。

図４２はＰＭＴのデータ構造を示す図である。

ＰＭＴは、ＰＭＴヘッダ、トランスポートストリームに関する各種ディスクリプタ、及びトランスポートストリーム中に含まれる映像・音声・字幕などの各ストリームに関するストリーム情報とを備える。

ＰＭＴヘッダには、ＰＭＴに含まれるデータの長さなどの情報が記録される。

トランスポートストリームに関するディスクリプタには、映像・音声などの各ストリームのコピーを許可・不許可を指示するコピーコントロール情報などが記録される。

各ストリームに関するストリーム情報は、ストリームの圧縮符号化方式などを識別するためストリームタイプ、ストリームのＰＩＤ、ストリームの属性情報（例えば、フレームレート、アスペクト比）が記載されたストリームディスクリプタを含んで構成される。

ＰＣＲは、ＴＳパケットのデコーダへの到着時刻とＰＴＳ、ＤＴＳの時間軸であるＳＴＣ（ＳｙｓｔｅｍＴｉｍｅＣｌｏｃｋ）との同期を取るために、そのＰＣＲパケットがデコーダに転送される時刻に対応するＳＴＣ時間の情報を持つ。

＜映像圧縮技術の説明＞
＜視差画像を用いた３Ｄ映像＞
視差画像を使った立体視の方式では、右目用画像（Ｒ画像）と、左目用画像（Ｌ画像）とを各々用意し、ユーザに対してそれぞれの目に対応した画像だけが、それぞれの目に映るように制御した表示を行うことで立体視を実現する。

右目用画像で構成される動画像をライトビュービデオといい、左目用画像で構成される動画像をレフトビュービデオという。

図４３に、３Ｄ映像を再生できる３Ｄデジタルテレビ２０と、３Ｄ映像の再生をサポートしない２Ｄ映像のみを再生できる２Ｄデジタルテレビ４０を示す。

図４３（ａ）に示すように、ユーザは、３Ｄデジタルテレビ２０と３Ｄ眼鏡３０を用いて３Ｄ映像を視聴する。

３Ｄデジタルテレビ２０は、２Ｄ映像及び３Ｄ映像を表示することができるものであり、受信した放送波に含まれるストリームを再生することで映像を表示する。具体的には、ＭＰＥＧ−２形式で圧縮符号化された２Ｄ用のビデオストリーム、及びＭＰＥＧ−４ＭＶＣ形式で圧縮符号化された３Ｄ用のベースビュービデオストリームとディペンデントビュービデオストリームとを再生する。

３Ｄデジタルテレビ４０は、３Ｄ映像の再生の際には、ベースビュービデオストリームを復号して得た左目用画像とディペンデントビュービデオストリームを復号して得た右目用画像とを交互に表示する。

ユーザは、このようにして再生された映像を、３Ｄ眼鏡３０を着用して眺めることで立体映像として視聴することができる。

図４３（ｂ）は、３Ｄ眼鏡３０の左目用画像の表示時を示す。

画面上に左目用の画像が表示されている瞬間において、３Ｄ眼鏡３０は、左目に対応する液晶シャッターを透光にし、右目に対応する液晶シャッターは遮光する。

同図（ｃ）は、右目用画像の表示時を示す。

画面上に右目用画像が表示されている瞬間において、先ほどと逆に右目に対応する液晶シャッターを透光にし、左目に対応する液晶シャッターを遮光する。

図４３（ｄ）の２Ｄデジタルテレビ４０は、２Ｄ映像の再生に対応し、トランスポートストリームに含まれるビデオストリームのうち２Ｄ用のビデオストリームを復号して得られる２Ｄ映像を再生することができる。

図４４は、立体視画像の表示の一例を示す図である。対象物である恐竜の骨格の左目用画像と、右目用画像とを表示した例を示している。３Ｄ眼鏡を用いて、右目及び左目の透光、遮光から繰り返されれば、ユーザの脳内では、目の残像反応により左右のシーンの重ね合わせがなされ、顔の中央の延長線上に立体映像が存在するように認識することができる。

レフトビュービデオとライトビュービデオを圧縮符号化する３Ｄの映像方式には、フレーム互換方式とマルチビュー符号化方式がある。

フレーム互換方式は、レフトビュービデオとライトビュービデオの同時刻のビューを示す画像に対応する各ピクチャをそれぞれ間引き又は縮小した上で一つのピクチャに合成して、圧縮符号化を行う方式である。一例として、図４５に示すような、Ｓｉｄｅ−ｂｙ−Ｓｉｄｅ方式がある。Ｓｉｄｅ−ｂｙ−Ｓｉｄｅ方式では、レフトビュービデオとライトビュービデオの同時刻のビューを示す画像に対応する各ピクチャをそれぞれ水平方向に１／２に圧縮した上で、左右に並べることで一つのピクチャに合成する。合成されたピクチャによる動画像を、２Ｄ映像の圧縮符号化方式（例えばＭＰＥＧ−２）によって圧縮符号化することによってビデオストリームを生成する。一方、再生時は、ビデオストリームを、ビデオストリーム生成と同じ圧縮符号化方式に基づいて復号する。復号された各ピクチャは、左右画像に分割されて、分割した画像それぞれを水平方向に２倍に伸長して、レフトビュービデオとライトビュービデオとのそれぞれ対応するピクチャを得る。得たレフトビュービデオのピクチャ（Ｌ画像）とライトビュービデオのピクチャ（Ｒ画像）を交互に表示することによって、図４４に示すような立体視画像を得ることができる。

これに対してマルチビュー符号化方式は、レフトビュービデオとライトビュービデオのピクチャを１つのピクチャには合成せずに、それぞれ別々のピクチャのまま圧縮符号化する方式である。

これに対してマルチビュー符号化方式は、レフトビュービデオとライトビュービデオのピクチャを１つのピクチャには合成せずに、それぞれ別々のピクチャのまま圧縮符号化する方式である。一例として、ＭＰＥＧ−４ＭＶＣがある。

＜マルチビュー映像圧縮技術＞
次に、本実施の形態に係る符号化装置及び復号装置で利用するＭＰＥＧ−４ＭＶＣ形式の圧縮符号化方法について簡単に説明する。

この圧縮符号化においては、動画像の空間方向及び時間方向の冗長性を利用してデータ量の圧縮符号化を行う。

冗長性を利用して圧縮符号化する方法として、ピクチャ間予測符号化が用いられる。ピクチャ間予測符号化では、あるピクチャを符号化する際に、表示時間順で前方又は後方にあるピクチャを参照ピクチャとする。そして、その参照ピクチャからの動き量を検出し、動き補償を行ったピクチャと符号化対照のピクチャとの差分を圧縮符号化する。

図４６はビデオストリームの時間方向のピクチャ間の参照関係を示している。図４６では、ピクチャＰ３はピクチャＩ０を参照して圧縮符号化され、ピクチャＢ１とピクチャＢ２はそれぞれピクチャＩ０とピクチャＰ３を参照して圧縮符号化されている。

また、図６で示したように、ＭＰＥＧ−４ＭＶＣでは、空間的な冗長性も利用する。すなわち、ディペンデントビューは、同時刻のベースビューのピクチャを参照して圧縮符号化を行う。このように時間的な冗長性及び空間的な冗長性を利用することで、圧縮率の高い圧縮符号化を実現できる。

＜ＭＰＥＧ−４ＭＶＣ形式のビデオストリームのデータ構成＞
次に、ＭＰＥＧ−４ＭＶＣ形式のビデオストリームについて説明する。

図４７は、ＭＰＥＧ−４ＭＶＣ形式のビデオストリームの内部構成の一例を示す図である。

同図において、ライトビュービデオストリームのピクチャは、レフトビュービデオストリームの同じ表示時刻のピクチャを参照して圧縮符号化されている。ライトビュービデオストリームのピクチャＰ１、Ｐ２は、それぞれレフトビュービデオストリームのピクチャＩ１、Ｐ２を参照し、ライトビュービデオストリームのピクチャＢ３、Ｂ４、Ｂ６、Ｂ７はそれぞれ、レフトビュービデオストリームのピクチャＢｒ３、Ｂｒ４、Ｂｒ６、Ｂｒ７を参照しながら圧縮符号化されている。

同図の第２段目は、レフトビュービデオストリームの内部構成を示す。このレフトビュービデオストリームには、ピクチャＩ１、Ｐ２、Ｂｒ３、Ｂｒ４、Ｐ５、Ｂｒ６、Ｂｒ７、Ｐ９が含まれている。これらのピクチャは、ＤＴＳに設定された時刻順に復号されたピクチャである。

第１段目は、ディスプレイ等に表示される左目用画像を示す。左目用画像は、第２段目の復号されたピクチャＩ１、Ｐ２、Ｂｒ３、Ｂｒ４、Ｐ５、Ｂｒ６、Ｂｒ７、Ｐ９をＰＴＳに設定された時刻順、すなわち、Ｉ１、Ｂｒ３、Ｂｒ４、Ｐ２、Ｂｒ６、Ｂｒ７、Ｐ５の順に表示される。

第４段目は、ライトビュービデオストリームの内部構成を示す。このライトビュービデオストリームには、ピクチャＰ１、Ｐ２、Ｂ３、Ｂ４、Ｐ５、Ｂ６、Ｂ７、Ｐ８が含まれている。これらのピクチャは、ＤＴＳに設定された時刻順に復号されたピクチャである。

第３段目は、ディスプレイ等に表示される右目用画像を示す。右目用画像は、第４段目の復号されたピクチャＰ１、Ｐ２、Ｂ３、Ｂ４、Ｐ５、Ｂ６、Ｂ７、Ｐ８をＰＴＳに設定された時刻順、すなわち、Ｐ１、Ｂ３、Ｂ４、Ｐ２、Ｂ６、Ｂ７、Ｐ５の順に表示される。ただし、ＰＴＳに同じ値が付された左目用画像と右目用画像の内どちらか一方の表示を、次のＰＴＳの時間までの間隔の半分の時間分だけ遅延させて行う。

第５段目は、３Ｄ眼鏡３０の状態をどのように変化させるかを示す。この第５段目に示すように、左目用画像の視聴時は、右目のシャッターを閉じ、右目用画像の視聴時は、左目のシャッターを閉じる。

図４８はビデオストリーム中におけるベースビュービデオストリームとディペンデントビュービデオストリームの各ビデオアクセスユニットに割り当てるＰＴＳとＤＴＳとの関係の例を示している。

同時刻のビューを示す視差画像を格納するベースビュービデオストリームのピクチャとディペンデントビュービデオストリームのピクチャとは、ＤＴＳ及びＰＴＳが同じ値を持つように設定される。

このように構成することで、ベースビュービデオストリームのピクチャとディペンデントビュービデオストリームのピクチャを復号する再生装置は、３Ｄビデオアクセスユニット単位で復号して表示を行うことができる。

＜デプスマップを用いた３Ｄ映像の生成＞
図４９は２Ｄ映像とデプスマップから左目用画像と右目用画像の視差画像を生成する例を模式的に示している。

デプスマップは２Ｄ映像内のそれぞれの画素に対応した奥行き値を持っており、同図の例では、２Ｄ映像の円形の物体は、デプスマップでは円形の物体が近くにあることを示す情報（奥行き値がＨｉｇｈ）が割り当てられ、それ以外の領域は円形の物体より遠くにある（奥行き値がＬｏｗ）ことを示す情報が割り当てられている。この情報は、画素毎のビット列で格納してもよいし、画像イメージ（例えば「黒」を奥行きがＬｏｗであることを示し、「白」を奥行きがＨｉｇｈであることを示す画像イメージ）として格納してもよい。視差画像は、デプスマップの奥行き値から、２Ｄ映像の視差量を調整することによって作成することができる。同図の例では、２Ｄ映像内の円形の物体の奥行き値がＨｉｇｈであるため、視差画像を作成するときには、円形の物体の画素の視差量を大きくする。一方、円形物体以外の領域は、奥行き値がＬｏｗであるため、円形の物体以外の画素の視差量を小さくして、左目用画像、右目用画像を作成する。この左目用画像と右目用画像を、継時分離方式等を使って表示すれば立体視が可能となる。

＜クロッピング及びスケーリングの調整＞
ＭＰＥＧ−２形式、ＭＰＥＧ−４ＭＶＣ形式の符号化方式では、圧縮符号化されたフレームの領域の内、実際に表示する領域を変更することができる。

このため、他の視点映像のビデオストリームのピクチャをビュー間参照によって参照しながらディペンデントビュービデオストリームのピクチャを復号する際には、同時刻のビューにおいてクロッピング範囲やスケーリングが同じ範囲やスケーリングを示す値になるように、属性情報を調整する必要がある。

クロッピング領域情報とスケーリング情報について図５０を参照しながら説明する。

図５０のように、圧縮符号化されたフレーム領域の中から実際に表示する領域を、クロッピング領域として指定することができる。ＭＰＥＧ−４ＡＶＣの場合には、ＳＰＳに格納されるｆｒａｍｅ＿ｃｒｏｐｐｉｎｇ情報を使って指定する。ｆｒａｍｅ＿ｃｒｏｐｐｉｎｇ情報は、図５１の左方の図のように、クロッピング領域の上線、下線、左線、右線と、圧縮符号化されたフレーム領域の上線、下線、左線、右線とのそれぞれの差分を、上下左右のクロップ量として指定する。具体的には、クロッピング領域を指定する場合には、ｆｒａｍｅ＿ｃｒｏｐｐｉｎｇ＿ｆｌａｇに「１」を設定し、ｆｒａｍｅ＿ｃｒｏｐ＿ｔｏｐ＿ｏｆｆｓｅｔ、ｆｒａｍｅ＿ｃｒｏｐ＿ｂｏｔｔｏｍ＿ｏｆｆｓｅｔ、ｆｒａｍｅ＿ｃｒｏｐ＿ｌｅｆｔ＿ｏｆｆｓｅｔ、ｆｒａｍｅ＿ｃｒｏｐ＿ｒｉｇｈｔ＿ｏｆｆｓｅｔにそれぞれ上、下、左、右のクロップ量を指定する。

ＭＰＥＧ−２形式の場合には、図５１の右図のように、クロッピング領域の縦横のサイズ（ｓｅｑｕｅｎｃｅ＿ｄｉｓｐｌａｙ＿ｅｘｔｅｎｓｉｏｎのｄｉｓｐｌａｙ＿ｈｏｒｉｚｏｎｔａｌ＿ｓｉｚｅ，ｄｉｓｐｌａｙ＿ｖｅｒｔｉｃａｌ＿ｓｉｚｅ）と、圧縮符号化されたフレーム領域の中心とクロッピング領域の中心との差分情報（ｐｉｃｔｕｒｅ＿ｄｉｓｐｌａｙ＿ｅｘｔｅｎｓｉｏｎのｆｒａｍｅ＿ｃｅｎｔｒｅ＿ｈｏｒｉｚｏｎｔａｌ＿ｏｆｆｓｅｔ、ｆｒａｍｅ＿ｃｅｎｔｒｅ＿ｖｅｒｔｉｃａｌ＿ｏｆｆｓｅｔ）を使ってクロッピング領域を指定する。また、クロッピング領域を実際にテレビなどに表示する際のスケーリング方法を示すスケーリング情報としてアスペクト比が設定される。再生装置は、アスペクト比の情報を使って、クロッピング領域をアップコンバートして表示を行う。ＭＰＥＧ−４ＡＶＣの場合には、このスケーリング情報として、ＳＰＳにアスペクト比の情報（ａｓｐｅｃｔ＿ｒａｔｉｏ＿ｉｄｃ）が格納される。例えば、１４４０ｘ１０８０のクロッピング領域を、１９２０ｘ１０８０に拡大して表示するためには、アスペクト比を４：３と指定する。この場合水平方向に４／３倍にアップコンバート（１４４０ｘ４／３＝１９２０）され、１９２０ｘ１０８０のサイズに拡大されて表示される。

ＭＰＥＧ−２形式の場合にも同様にｓｅｑｕｅｎｃｅ＿ｈｅａｄｅｒというアスペクト比の情報（ａｓｐｅｃｔ＿ｒａｔｉｏ＿ｉｎｆｏｒｍａｔｉｏｎ）を格納する属性情報があり、この属性情報の値を適宜設定することによって上記と同様の処理が実現できる。

本発明に係る符号化装置は、多視点映像をそれぞれ単独で符号化する場合に比べて、データ量をより削減して符号化でき、また本発明に係る復号装置は、このような多視点映像を符号化したデータを復号することができるので、多視点映像に対応したビデオストリームを生成する符号化装置又はこのようなビデオストリームを再生する再生装置等に有用である。

２６００符号化装置
２６０１制御部
２６０２ベースビュービデオエンコーダ
２６０３ディペンデントビュービデオエンコーダ
２６０４エンコーダセレクタ
２６０５ビデオデコーダ
２６０６ピクチャメモリ
２６０７ビュービデオ符号化情報記憶部
２６０８デコードビデオセレクタ
２６０９ビュービデオ記憶部
２６１０参照情報記憶部
２６１１ベースビュービデオストリーム生成部
２６１２ディペンデントビュービデオストリーム生成部
２６１３ＰＭＴ生成部
２６１４マルチプレクサ
２６１５トランスポートストリーム出力部
２８００再生装置
２８０１ユーザ位置取得手段
２８０２ビュービデオストリーム決定手段
２８０３ＰＩＤフィルタ
２８０４データセレクタ
２８０６ＴＢ（１）
２８０７ＭＢ（１）
２８０８ＥＢ（１）
２８０９ＴＢ（２）
２８１０ＭＢ（２）
２８１１ＥＢ（２）
２８１２ＴＢ（３）
２８１３ＭＢ（３）
２８１４ＥＢ（３）
２８１５デコードスイッチ
２８１６Ｉｎｔｅｒ−ｖｉｅｗｂｕｆｆｅｒ
２８１７Ｄ２（マルチビュービデオ圧縮映像デコーダ）
２８１８ＤＰＢ（ＤｅｃｏｄｅｄＰｉｃｔｕｒｅＢｕｆｆｅｒ）
２８２０プレーンメモリ
２８２２マルチビュービデオデコーダ

Claims

複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化したビデオストリームデータの生成を行う符号化装置であって、
前記複数の視点それぞれのフレーム画像群の入力を受け付ける入力手段と、
前記複数の視点のフレーム画像群の内の１つを基準視点のフレーム画像群とし、当該フレーム画像群を、他の視点のフレーム画像を参照画像として用いずに符号化したベースビュービデオストリームデータを生成するベースビュー符号化手段と、
前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータの同一時刻のフレーム画像を参照画像として用い符号化する第１ディペンデントビュービデオストリームデータを生成する第１ディペンデントビュー符号化手段と、
前記基準視点及び第１種視点以外であり、他の視点に挟まれる位置関係にある第２種視点におけるフレーム画像群を、当該視点を挟む２視点の同時刻におけるフレーム画像を参照画像として用い符号化した第２ディペンデントビュービデオストリームデータを生成する第２ディペンデントビュー符号化手段と、
前記ベースビュービデオストリームデータと前記第１及び第２ディペンデントビュービデオストリームデータとを出力するビデオストリームデータ出力手段とを備える
ことを特徴とする符号化装置。
前記第２ディペンデントビュー符号化手段は、前記第２種視点のフレーム画像群を符号化する際に参照する２視点として、基準視点及び第１種視点、又は、異なる２つの第１種視点を用いる
ことを特徴とする請求項１記載の符号化装置。
前記第２ディペンデントビュー符号化手段は、前記第２種視点のフレーム画像群を符号化する際に参照する２視点として、当該２視点を結ぶ直線上に前記第２種視点があるという条件を満たす位置関係の２視点を用いる
ことを特徴とする請求項２記載の符号化装置。
前記第２ディペンデントビュー符号化手段は、前記第２種視点からの方向が異なり、それぞれの方向において前記第２種視点からの距離が最も近いという条件を更に満たす２視点を用いる
ことを特徴とする請求項３記載の符号化装置。
前記入力手段には、１つの直線上に配置された視点位置における複数の視点のフレーム画像群が入力され、
前記ベースビュー符号化手段は、前記直線上にある視点の内、最も距離の離れた２視点からの距離の差が最も小さくなる位置にある視点を基準視点と定め、当該基準視点のフレーム画像群を符号化したベースビュービデオストリームデータを生成し、
前記第１ディペンデントビュー符号化手段は、前記最も距離の離れた２視点それぞれについて、当該視点のフレーム画像群を前記基準視点のフレーム画像を参照して符号化した第１ディペンデントビュービデオストリームデータを生成する
ことを特徴とする請求項４記載の符号化装置。
前記入力手段には、前記基準視点における視線方向のベクトルを法線ベクトルとし、前記基準視点の視点位置を含む平面上において、前記基準視点を中心として、２次元行列上に予め定められた間隔に配置された視点位置における複数の視点のフレーム画像群が入力され、
前記第１ディペンデントビュー符号化手段は、前記複数の視点の内、前記基準視点から、上下左右斜め方向それぞれについて最も離れた位置にある視点を第１種視点と定め、当該第１種視点のフレーム画像群を前記基準視点の同時刻におけるフレーム画像を参照して符号化し、
前記第２ディペンデントビュー符号化手段は、前記基準視点及び第１種視点以外の全ての視点のフレーム画像群を、当該視点を挟む基準視点及び第１種視点の同時刻におけるフレーム画像を参照して符号化する
ことを特徴とする請求項４記載の符号化装置。
更に、前記複数の視点のフレーム画像群それぞれについて、各フレーム画像の画素単位の奥行き情報を示すデプスマップを生成するデプスマップ生成手段を備える
ことを特徴とする請求項４記載の符号化装置。
前記ベースビュー符号化手段は、前記基準視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるベースビューに準拠した形式で符号化し、
前記第１ディペンデントビュー符号化手段は、第１種視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるディペンデントビューに準拠した形式で符号化し、
前記第２ディペンデントビュー符号化手段は、第２種視点のフレーム画像群をＭＰＥＧ−４ＭＶＣにおけるディペンデントビューに準拠した形式で符号化し、第２種視点のフレーム画像群を符号化する際に参照する２視点を示す情報を記載するようにＭＰＥＧ−４ＭＶＣにおけるシンタックスを拡張したビデオストリームデータを生成する
ことを特徴とする請求項４記載の符号化装置。
更に、各視点のフレーム画像の内容の時間的変化に応じて、予め定められた期間毎に基準視点を変更する基準視点変更手段を備える
ことを特徴とする請求項８記載の符号化装置。
前記ベースビュー符号化手段、前記第１ディペンデントビュー符号化手段、及び前記第２ディペンデントビュー符号化手段は、前記視点毎のフレーム画像群を、基準視点を変更する毎に、異なるＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）のビデオストリームデータとして符号化する
ことを特徴とする請求項９記載の符号化装置。
更に、前記ベースビュービデオストリームデータ、前記第１ディペンデントビュービデオストリームデータ、及び第２ディペンデントビュービデオストリームデータを用いて、マルチビュービデオストリームを生成するマルチビュービデオストリーム生成手段と、
ビデオストリーム毎に、当該ビデオストリームに係る参照関係を示すストリーム参照情報を生成するストリーム参照情報生成手段と、
前記マルチビューストリームと前記ストリーム参照情報とを多重化したトランスポートストリームを送出するストリーム送出手段とを備える
ことを特徴とする請求項４記載の符号化装置。
請求項１記載の符号化装置で生成されたストリームデータを取得する取得手段と、
前記ストリームデータに含まれるベースビュービデオストリームデータを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、
第１ディペンデントビュービデオストリームデータを復号する際の参照先の１視点に対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第１ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、
第２ディペンデントビュービデオストリームデータを復号する際の参照先の２視点それぞれに対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第２ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、
前記ベースビュー復号手段で得られたフレーム画像群と、前記第１及び第２ディペンデントビュー復号手段で得られたフレーム画像群とを出力する出力手段とを備える
ことを特徴とする復号装置。
請求項１１記載の符号化装置から送信されたトランスポートストリームを受信し再生する再生装置であって、
前記トランスポートストリームを受信するストリーム受信手段と、
前記トランスポートストリームに含まれるベースビュービデオストリームを復号し、基準視点のフレーム画像群を得るベースビュー復号手段と、
前記トランスポートストリームに含まれる属性情報を抽出する属性情報抽出手段と、
前記トランスポートストリームに含まれる第１ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第１ディペンデントビュー復号手段と、
前記トランスポートストリームに含まれる第２ディペンデントビュービデオストリームを、前記属性情報に基づいて復号したフレーム画像群を得る第２ディペンデントビュー復号手段と、
前記ベースビュー復号手段で得られたフレーム画像群と、前記第１、第２ディペンデントビュー復号手段で得られたフレーム画像群とを再生する再生手段とを備える
ことを特徴とする再生装置。
更に、ユーザの視点位置を検知するユーザ視点位置検知手段と、
前記ユーザ視点位置検知手段で検知された前記ユーザの視点位置におけるフレーム画像群を生成するユーザ視点フレーム画像群生成手段と、
前記ユーザ視点フレーム画像群生成手段で用いるビデオストリームを選択するビデオストリーム選択手段とを備え、
前記ユーザ視点フレーム画像群生成手段は、前記ビデオストリーム選択手段で選択されたビデオストリームを復号したフレーム画像群を用いて、前記ユーザの視点位置におけるフレーム画像群を生成し、
前記再生手段は、前記ユーザの視点位置におけるフレーム画像群を再生する
ことを特徴とする請求項１３記載の再生装置。
更に、前記ベースビュー復号手段で復号された前記基準視点のフレーム画像群と、前記ディペンデントビュー復号手段で復号された第１種視点のフレーム画像群とを記憶するフレーム画像群記憶手段を備え、
前記ビデオストリーム選択手段は、前記ユーザ視点位置検知手段がユーザの視点位置の移動を検知している間は、ユーザの視点位置のフレーム画像群の生成に用いるビデオストリームを、ベースビュービデオストリームと第１ディペンデントビュービデオストリームとから選択し、前記ユーザ視点位置検知手段がユーザの視点位置の移動を検知しなくなった場合には、更に第２ディペンデントビュービデオストリームを含むビデオストリームから選択する
ことを特徴とする請求項１４記載の再生装置。
複数の視点それぞれにおける経時的な眺めを示すフレーム画像群を符号化したビデオストリームデータの生成を行う符号化方法であって、
前記複数の視点それぞれのフレーム画像群の入力を受け付ける入力ステップと、
前記複数の視点のフレーム画像群の内の１つを基準視点のフレーム画像群とし、当該フレーム画像群を、他の視点のフレーム画像を参照画像として用いずに符号化したベースビュービデオストリームデータを生成するベースビュー符号化ステップと、
前記複数の視点の内、前記基準視点との間に少なくとも他の１つの視点を挟む位置関係にある第１種視点におけるフレーム画像群を、ベースビュービデオストリームデータの同一時刻のフレーム画像もしくは他の第１ディペンデントビュービデオストリームデータの同一時刻のフレーム画像を参照画像として用い符号化する第１ディペンデントビュービデオストリームデータを生成する第１ディペンデントビュー符号化ステップと、
前記ベースビュービデオストリームデータ及び前記第１ディペンデントビュービデオストリームデータとして符号化した視点以外であり、他の視点に挟まれる位置関係にある第２種視点のフレーム画像群を、当該視点を挟む２視点の同時刻におけるフレーム画像を参照画像として用い符号化した第２ディペンデントビュービデオストリームデータを生成する第２ディペンデントビュー符号化ステップと、
前記ベースビュービデオストリームデータと前記第１及び第２ディペンデントビュービデオストリームデータとを出力するビデオストリームデータ出力ステップとを備える
ことを特徴とする符号化方法。
請求項１記載の符号化装置で生成されたストリームデータを復号する復号方法であって、
前記ストリームデータを取得する取得ステップと、
前記ストリームデータに含まれるベースビュービデオストリームデータを復号し、基準視点のフレーム画像群を得るベースビュー復号ステップと、
第１ディペンデントビュービデオストリームデータを復号する際の参照先の１視点に対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第１ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第１ディペンデントビュー復号ステップと、
第２ディペンデントビュービデオストリームデータを復号する際の参照先の２視点それぞれに対応したビューストリームデータを先に復号し、復号により得た同時刻におけるフレーム画像を参照し、当該第２ディペンデントビュービデオストリームデータを復号したフレーム画像群を得る第２ディペンデントビュー復号ステップと、
前記ベースビュー復号ステップで得られたフレーム画像群と、前記第１及び第２ディペンデントビュー復号ステップで得られたフレーム画像群とを出力する出力ステップとを備える
ことを特徴とする復号方法。