WO2020054212A1

WO2020054212A1 - 画像処理装置、画像処理方法、及び、プログラム

Info

Publication number: WO2020054212A1
Application number: PCT/JP2019/028014
Authority: WO
Inventors: 前田　充
Original assignee: キヤノン株式会社
Priority date: 2018-09-14
Filing date: 2019-07-17
Publication date: 2020-03-19
Also published as: JP7199886B2; US20210203905A1; JP2023033322A; JP2020047991A

Abstract

本発明の一実施形態において、複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて生成される仮想視点画像に係る画像処理装置は、複数の画像データを入力する入力手段と、撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として、入力手段によって入力された画像データに付与する付与手段とを備える。

Description

画像処理装置、画像処理方法、及び、プログラム

　本発明は、仮想視点映像を生成する画像処理装置に関する。

　昨今、複数のカメラを異なる位置に設置して、複数視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点映像を生成する技術が注目されている。上記のようにして複数視点画像から仮想視点映像を生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の映像と比較してユーザに高臨場感を与えることが出来る。

　非特許文献１には、複数の視点（カメラ）で対象シーンを撮影した画像から任意の視点位置の画像を合成する方法について記載されている。この中で、Ｍｏｄｅｌ　Ｂａｓｅｄ　Ｒｅｎｄｅｒｉｎｇ技術が紹介されている。この方式でも対象を取り囲むように多数のカメラが配置される。この方式によって３次元モデルを復元することで、任意の視点からの映像の合成が可能になるとともに、選手の位置や動きを再現できるのでスポーツ分析にも有用である。

稲本他、「視点位置の内挿に基づく３次元サッカー映像の仮想視点鑑賞システム」映像情報メディア学会　Ｖｏｌ．５８　Ｎｏ．４　ｐｐ５２９－５３９　２００４Ｒｅｃ.　ＩＴＵ－Ｔ　Ｈ．２６５　Ｖ３　（０４／２０１５）

　しかしながら、非特許文献１に記載の技術では、仮想視点映像を生成するための映像データはそれぞれの装置内部で管理、保管、処理されるため、当該映像データを相互利用することは困難であった。

　本発明は、上記課題に鑑みてなされたものであり、その目的は、仮想視点映像を生成するための映像データの相互利用を容易にすることにある。

　本発明の一実施形態において、複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて生成される仮想視点画像に係る画像処理装置は、前記複数の画像データを入力する入力手段と、撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として、前記入力手段によって入力された画像データに付与する付与手段とを備える。

　本発明によれば、仮想視点映像を生成するための映像データの相互利用を容易にすることが可能になる。

　本発明の更なる特徴は、添付の図面を参照して行う以下の実施形態の説明より明らかになる。

第１の実施形態における画像処理装置１００を含むシステムの構成例を示す構成図である。第１の実施形態におけるＩＳＯＢＭＦＦファイルの構造の一例を示す図である。第１の実施形態におけるＥＸＩＦファイルの構造の一例を示す図である。第１の実施形態におけるＦＶＶＩ　ＩＦＤのタグ情報の構成の一例を示す図である。第１の実施形態における映像ファイル生成処理のフローチャートである。第１の実施形態における別の映像ファイル生成処理のフローチャートである。第１の実施形態における画像処理装置１００を含むシステムの別の構成例を示す構成図である。第２の実施形態における画像処理装置４００を含むシステムの構成例を示す構成図である。第２の実施形態におけるＨ．２６５符号化方式のビットストリームの構成例を示す図である。第２の実施形態におけるＶＵＩ　Ｐａｒａｍｅｔｅｒｓの構成例ｖｕｉ＿ｐａｒａｍｅｔｅｒｓ（）を示す図である。第２の実施形態におけるＳＥＩ　ｍｅｓｓａｇｅの構成例ｓｅｉ＿ｐａｙｌｏａｄ（）を示す図である。第２の実施形態におけるｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の構成例を示す図である。第２の実施形態におけるｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の構成例を示す図である。第２の実施形態におけるｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の構成例を示す図である。第２の実施形態におけるｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の構成例を示す図である。第２の実施形態におけるＰＰＳの構造の一例を示す図である。第２の実施形態におけるｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ（）の詳細を示す図である。第２の実施形態におけるｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ（）の詳細を示す図である。第２の実施形態におけるｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ（）の詳細を示す図である。第２の実施形態におけるビットストリーム生成処理を表すフローチャートである。第３の実施形態における画像処理装置５００を含むシステムの構成例を示す構成図である。第３の実施形態における表示画面の例を表す図である。各実施形態における画像処理装置に適用可能なコンピュータのハードウェア構成例を示すブロック図である。

　以下、添付の図面を参照して、本発明の実施形態について詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

（第１の実施形態）
　図１は、第１の実施形態における画像処理装置１００を含むシステムの構成例を示す。本システムでは、競技場（スタジアム）やコンサートホールなどの施設に複数のカメラ（撮像装置）を設置し、撮影（撮像）が行われる。

　画像処理装置１００は、カメラ１０１ａ～ｚ、入力部１０２、環境情報取得部１０３、端末１０４、ファイル生成部１０５、メタ情報付与部１０６、出力部１０７、保存部１０８を有する。

　カメラ１０１ａ～ｚは、被写体を囲むように配置され、同期をとって撮影が行われる。ただし、カメラの台数、配置は限定されない。カメラ１０１ａ～ｚは、ネットワークを介して画像処理装置１００の入力部１０２に接続されている。

　入力部１０２は、カメラ１０１ａ～ｚで撮影された映像データの入力を受け付け、ファイル生成部１０５に出力する。

　端末１０４は、ユーザから映像データに関するメタ情報の入力を受け付け、入力されたメタ情報をメタ情報付与部１０６に出力する。入力されるメタ情報は、例えば、撮影設定情報、撮影状況情報、撮影対象情報、及び撮影権利情報の少なくとも１つを含む。メタ情報の詳細は後述する。

　環境情報取得部１０３は、環境情報を取得するセンサー等からなり、例えば、撮影当日の気象情報等を取得し、メタ情報付与部１０６に出力する。なお、環境情報の取得方法はこれに限定されず、例えば、インターネット等を通じて外部から入手してもよい。

　ファイル生成部１０５は、入力された映像データに対してファイル化に必要なヘッダデータを付与し、映像ファイルを生成する。以下では、ＩＳＯ／ＩＥＣ　１４４９６－１２（ＭＰＥＧ－４　Ｐａｒｔ１２）　ＩＳＯ　ｂａｓｅ　ｍｅｄｉａ　ｆｏｒｍａｔ（以下、ＩＳＯＢＭＦＦ）規格を例として用い、映像ファイルのフォーマットについて説明する。ただし、映像ファイルのフォーマットはこれに限定されない。

　図２は、本実施形態におけるＩＳＯ　ＢＭＦＦファイルの構成例を示す。

　図２（ａ）において、ＩＳＯ　ＢＭＦＦファイル２００は、ｆｔｙｐ（Ｆｉｌｅ　Ｔｙｐｅ　Ｃｏｍｐａｔｉｂｉｌｉｔｙ　Ｂｏｘ）２０１、ｍｏｏｖ（Ｍｏｖｉｅ　Ｂｏｘ）２０２のボックスを含む。また、ＩＳＯ　ＢＭＦＦファイル２００は、ｍｅｔａ（ｍｅｔａｄａｔａ）２０３、ｍｄａｔ（Ｍｅｄｉａ　Ｄａｔａ　Ｂｏｘ）２０４のボックスを含む。ボックスｆｔｙｐ２０１には、ファイルフォーマットの情報が含まれ、例えばファイルがＩＳＯ　ＢＭＦＦファイルであることや、ボックスのバージョン、映像ファイルを作成したメーカ名称等が記載される。ボックスｍｏｏｖ２０２には、メディアデータ（映像データ）を管理するための時間軸や、アドレスなどの情報が含まれる。ボックスｍｅｔａ２０３には、映像データのメタ情報が含まれる。ボックスｍｅｔａ２０３に含まれるメタ情報については後述する。ボックスｍｄａｔ２０４には、実際に動画として再生されるメディアデータ（映像データ）が含まれる。

　図１に戻り、メタ情報付与部１０６は、環境情報取得部１０３や端末１０４から受け取った情報に基づいて、メタ情報を示すボックスｍｅｔａ２０３を生成する。ファイル生成部１０５は、ボックスｍｅｔａ２０３を用いて、映像ファイルにメタ情報を付与することができる。ボックスｍｅｔａ２０３の構成例を、以下に示す。
ａｌｉｇｎｅｄ（８）　ｃｌａｓｓ　ＭｅｔａＢｏｘ　（ｈａｎｄｌｅｒ＿ｔｙｐｅ）ｅｘｔｅｎｄｓ　ＦｕｌｌＢｏｘ（‘ｍｅｔａ‘,　ｖｅｒｓｉｏｎ　＝　０,　０）　｛
　ＨａｎｄｌｅｒＢｏｘ（ｈａｎｄｌｅｒ＿ｔｙｐｅ）　ｔｈｅＨａｎｄｌｅｒ;
　ＰｒｉｍａｒｙＩｔｅｍＢｏｘ　ｐｒｉｍａｒｙ＿ｒｅｓｏｕｒｃｅ;　//　ｏｐｔｉｏｎａｌ
　ＤａｔａＩｎｆｏｒｍａｔｉｏｎＢｏｘ　ｆｉｌｅ＿ｌｏｃａｔｉｏｎｓ;　//　ｏｐｔｉｏｎａｌ
　ＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ　ｉｔｅｍ＿ｌｏｃａｔｉｏｎｓ;　//　ｏｐｔｉｏｎａｌ
　ＩｔｅｍＰｒｏｔｅｃｔｉｏｎＢｏｘ　ｐｒｏｔｅｃｔｉｏｎｓ;　//　ｏｐｔｉｏｎａｌ
　ＩｔｅｍＩｎｆｏＢｏｘ　ｉｔｅｍ＿ｉｎｆｏｓ;　//　ｏｐｔｉｏｎａｌ
　ＩＰＭＰＣｏｎｔｒｏｌＢｏｘ　ＩＰＭＰ＿ｃｏｎｔｒｏｌ;　//　ｏｐｔｉｏｎａｌ
　ＩｔｅｍＲｅｆｅｒｅｎｃｅＢｏｘ　ｉｔｅｍ＿ｒｅｆｓ;　//　ｏｐｔｉｏｎａｌ
　ＩｔｅｍＤａｔａＢｏｘ　ｉｔｅｍ＿ｄａｔａ;　//　ｏｐｔｉｏｎａｌ
　Ｆｉｌｍｉｎｇ＿ｓｃｅｎｅ＿ｉｎｆｏｒｍａｔｉｏｎ;//　ｏｐｔｉｏｎａｌ
　Ｆｉｌｍｉｎｇ＿ｃｏｎｄｉｔｉｏｎ;　//　ｏｐｔｉｏｎａｌ
　Ｆｉｌｍｉｎｇ＿ｏｂｊｅｃｔ;　//　ｏｐｔｉｏｎａｌ
　Ｆｉｌｍｉｎｇ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ;　//　ｏｐｔｉｏｎｌ
　Ｂｏｘ　ｏｔｈｅｒ＿ｂｏｘｅｓ［］;　//　ｏｐｔｉｏｎａｌ
｝
　Ｆｉｌｍｉｎｇ＿ｓｃｅｎｅ＿ｉｎｆｏｒｍａｔｉｏｎが撮影設定情報を、Ｆｉｌｍｉｎｇ＿ｃｏｎｄｉｔｉｏｎが撮影状況情報を、Ｆｉｌｍｉｎｇ＿ｏｂｊｅｃｔが撮影対象情報を、Ｆｉｌｍｉｎｇ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒが撮影権利情報を表す。

　撮影設定情報を表すＦｉｌｍｉｎｇ＿ｓｃｅｎｅ＿ｉｎｆｏｒｍａｔｉｏｎボックスの構成を以下に示す。
　Ｂｏｘ　Ｔｙｐｅ：　　‘ｆｆｓｉ‘
　Ｃｏｎｔａｉｎｅｒ：　Ｍｅｔａ　ｂｏｘ　（‘ｍｅｔａ‘）
　Ｍａｎｄａｔｏｒｙ：　Ｎｏ
　Ｑｕａｎｔｉｔｙ：　　Ｚｅｒｏ　ｏｒ　ｏｎｅ

　また、そのシンタックスを以下に示す。
　ａｌｉｇｎｅｄ（８）　ｃｌａｓｓ　ＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ　ｅｘｔｅｎｄｓ　ＦｕｌｌＢｏｘ（‘ｆｆｓｉ‘,ｖｅｒｓｉｏｎ，０）　｛
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｏｆｆｓｅｔ＿ｓｉｚｅ;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｌｅｎｇｔｈ＿ｓｉｚｅ;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｂａｓｅ＿ｏｆｆｓｅｔ＿ｓｉｚｅ;
　　ｉｆ　（ｖｅｒｓｉｏｎ　＝＝　１）　
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｉｎｄｅｘ＿ｓｉｚｅ;
　　ｅｌｓｅ　
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｒｅｓｅｒｖｅｄ;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）ｎｕｍ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ；
　　ｆｏｒ　（ｉ＝０;　ｉ＜ｎｕｍ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ;　ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ［ｉ］;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｃａｔｅｇｏｒｙ＿ｃｏｄｅ;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（６４）　ｆｉｌｍｉｎｇ＿ｄａｔｅ＿ｔｉｍｅ＿ｃｏｄｅ;
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅ;
　　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅ；ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｐｌａｃｅ＿ｎａｍｅ［ｉ］；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｃｏｎｖｅｎｔｉｏｎ＿ｎａｍｅ；
　　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｃｈａｒ＿ｃｏｎｖｅｎｔｉｏｎ＿ｎａｍｅ；ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｃｏｎｖｅｎｔｉｏｎ＿ｎａｍｅ［ｉ］；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｅｖｅｎｔ＿ｎａｍｅ；
　　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｃｈａｒ＿ｅｖｅｎｔ＿ｎａｍｅ；ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｅｖｅｎｔ＿ｎａｍｅ［ｉ］；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｓｔａｇｅ＿ｎａｍｅ；
　　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｃｈａｒ＿ｓｔａｇｅ＿ｎａｍｅ；ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｓｔａｇｅ＿ｎａｍｅ［ｉ］；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅ；
　　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅ；ｉ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｐｌａｃｅ＿ｎａｍｅ［ｉ］；
　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｉｎｆｏ＿ｃｏｄｅ
　　ｉｆ　（ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｉｎｆｏ＿ｃｏｄｅ　＆＆　０ｘ０１）　｛　　　　／／　システム有無
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕs1;
　　　ｆｏｒ　（ｉ＝０；　ｉ＜＝ｎｕｍ＿ｃｈａｒ＿　ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕｓ１；ｉ＋＋）
　　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏｒｍａｔｉｏｎ［ｉ］；
　　｝　　　　／／　システム有無
　　ｉｆ　（ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｉｎｆｏ＿ｃｏｄｅ　＆＆　０ｘ０２）　｛　　／／　０ｘ０２
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｍａｘ＿ｎｕｍ＿ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｍｉｎｕｓ１；
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｍｉｎｕｓ１；
　　　ｆｏｒ　（ｉ＝０；　ｉ＜＝ｎｕｍ＿ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｍｉｎｕｓ１；ｉ＋＋）　｛　　／／　注視点
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｎａｍｅ＿ｌｅｎｇｔｈ；
　　　　ｆｏｒ　（ｊ＝０；　ｊ＜ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｎａｍｅ＿ｌｅｎｇｔｈ；ｊ＋＋）
　　　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｎａｍｅ［ｉ］［ｊ］；
　　　　ｆｏｒ　（ｊ＝０；　ｊ＜３）
　　　　　ｓｉｇｎｅｄ　ｉｎｔ（１６）　ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｌｏｃａｔｉｏｎ［ｉ］［ｊ］；
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃａｍｅｒａ＿ｍｉｎｕｓ１；
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｍａｘ＿ｃａｍｅｒａ＿ｎａｍｅ＿ｌｅｎｇｔｈ；
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｃａｍｅｒａ＿ｎａｍｅ＿ｌｅｎｇｔｈ；
　　　　ｆｏｒ　（ｊ＝０；　ｊ＜＝ｎｕｍ＿ｃａｍｅｒａ＿ｍｉｎｕｓ１；ｊ＋＋）｛　／／　カメラ
　　　　　ｆｏｒ　（ｋ＝０；　ｋ＜ｃａｍｅｒａ＿ｎａｍｅ＿ｌｅｎｇｔｈ；ｋ＋＋）
　　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｃａｍｅｒａ＿ｎａｍｅ［ｉ］［ｊ］［ｋ］；
　　　　　ｆｏｒ　（ｋ＝０；　ｋ＜３）
　　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｃａｍｅｒａ＿ｌｏｃａｔｉｏｎ［ｉ］［ｊ］［ｋ］；
　　　　　ｆｏｒ　（ｋ＝０；　ｋ＜４）
　　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｃａｍｅｒａ＿ａｔｔｉｔｕｄｅ［ｉ］［ｊ］［ｋ］；
　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｃａｍｅｒａ＿ｔｙｐｅ＿ｉｎｆｏ；
　　　　　ｆｏｒ　（ｋ＝０；　ｋ＜ｎｕｍ＿ｃｈａｒ＿ｃａｍｅｒａ＿ｔｙｐｅ；ｋ＋＋）
　　　　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｃａｍｅｒａ＿ｔｙｐｅ＿ｉｎｆｏｒｍａｔｉｏｎ［ｉ］［ｊ］［ｋ］；
　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｌｅｎｚ＿ｔｙｐｅ＿ｉｎｆｏ；
　　　　　ｆｏｒ　（ｋ＝０；　ｋ＜ｎｕｍ＿ｃｈａｒ＿ｌｅｎｚ＿ｔｙｐｅ；ｋ＋＋）
　　　　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｌｅｎｚ＿ｔｙｐｅ＿ｉｎｆｏｒｍａｔｉｏｎ［ｉ］［ｊ］［ｋ］；
　　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｆｏｃｕｓ＿ｄｉｓｔａｎｃｅ［ｉ］［ｊ］；
　　　　｝　　　　／／　カメラ
　　　}　　　　／／　注視点
　　}　　　　／／　０ｘ０２
　}

　上記シンタックスにおいて、ｏｆｆｓｅｔ＿ｓｉｚｅ、ｌｅｎｇｔｈ＿ｓｉｚｅ、ｂａｓｅ＿ｏｆｆｓｅｔ＿ｓｉｚｅ、ｉｎｄｅｘ＿ｓｉｚｅ、ｒｅｓｅｒｖｅｄは上記規格の規格書に記載されており、ボックスの大きさ等に関係する符号である。

　ｎｕｍ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏは、仮想視点映像生成に必要な映像データ等に関する情報の文字列の長さを表す符号である。ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏは、素材データに関する情報の文字列を格納する配列である。

　ｃａｔｅｇｏｒｙ＿ｃｏｄｅは撮影の対象を表すコードであり、スポーツ、エンタメ、監視などの撮影の目的の分類を表す。例えば、スポーツは０ｘ０００１、エンタメは０ｘ０００２等となる。

　ｆｉｌｍｉｎｇ＿ｄａｔｅ＿ｔｉｍｅ＿ｃｏｄｅは撮影日時を表す符号であり、撮影開始時刻等を表す。撮影日時は、例えば、Ｗ３Ｃ－ＤＴＦのフォーマットで表す。撮影日時は、例えば、西暦年、月、日、時、分、秒、ミリ秒で表す。撮影日時は、例えば、ＵＴＣ（協定世界時＝グリニッジ標準時）との時差（時、分）で表す。ｆｉｌｍｉｎｇ＿ｄａｔｅ＿ｔｉｍｅ＿ｃｏｄｅは、このような撮影日時を表すビット列に、予備のビットを加えて統合したビット列として符号とする。

　ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅは、撮影場所を表す文字列の長さを表す符号である。ｐｌａｃｅ＿ｎａｍｅは撮影場所の名称を表す文字列であり、例えば、“東京サッカースタジアム”といった文字列である。なお、撮影場所の情報は文字列に限定されない。また、言語を表すためのコードを付加してもよい。

　ｎｕｍ＿ｃｈａｒ＿ｃｏｎｖｅｍｔｉｏｎ＿ｎａｍｅは、撮影の概要、すなわち、大会や講演の名称等を表す文字列の長さを表す符号である。ｃｏｎｖｅｎｔｉｏｎ＿ｎａｍｅは撮影イベントの名称を表す文字列であり、例えば、“第ｘｘｘ回オリンピック”といった文字列である。なお、撮影イベントの情報は文字列に限定されない。また、言語を表すためのコードを付加してもよい。

　ｎｕｍ＿ｃｈａｒ＿ｅｖｅｎｔ＿ｎａｍｅは、撮影内容の詳細に関する情報の文字列の長さを表す符号である。撮影内容の詳細とは、例えば、競技種目であったり、ミュージカルやコンサートのような内容の種類であったりする。ｅｖｅｎｔ＿ｎａｍｅは撮影内容の詳細を表す文字列であり、例えば、“サッカー”、“卓球”、“１００ｍ背泳ぎ”、”ミュージカル“、“コンサート”、“マジックショー”といった文字列である。

　ｎｕｍ＿ｃｈａｒ＿ｓｔａｇｅ＿ｎａｍｅは、撮影対象の段階の詳細に関する情報の文字列の長さを表す符号である。ｓｔａｇｅ＿ｎａｍｅは撮影段階の詳細を表す文字列であり、例えば、“予選”、“１回戦”、“準決勝”、”決勝“、“リハーサル”、“本番”、“第ｘｘ回講演”といった文字列である。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｉｎｆｏ＿ｃｏｄｅは、撮影システム等に関する情報を表す符号である。例えば、１ビット目が１であれば、撮影システムに関する情報があり、２ビット目が１であれば、カメラに関する情報があるといったことを表す。

　ｎｕｍ＿ｃｈａｒ＿ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕｓ１は、撮影システムの名称を表す文字列の長さを表す符号である。ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏｒｍａｔｉｏｎは撮影システムの名称を表す文字列である。

　ｍａｘ＿ｎｕｍ＿ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｍｉｎｕｓ１は、本撮影システムで使用するカメラの向く注視点の数の最大値を表す値である。ｎｕｍ＿ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｍｉｎｕｓ１は本撮影システムで使用するカメラの向く注視点の数を表す符号である。

　ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｎａｍｅ＿ｌｅｎｇｔｈは、注視点を識別するための名称等を表す文字列の長さを表す符号である。注視点を識別するための名称等を設定しない場合は文字列の長さを０にする。ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｎａｍｅはそれぞれの注視点を識別するための名称等を表す。

　ｔａｒｇｅｔ＿ｐｏｉｎｔ＿ｌｏｃａｔｉｏｎは注視点の位置を３次元座標で表すための符号である。

　ｎｕｍ＿ｃａｍｅｒａ＿ｍｉｎｕｓ１は、本撮影システムで使用するカメラの台数を表す符号である。ｍａｘ＿ｃａｍｅｒａ＿ｎａｍｅ＿ｌｅｎｇｔｈはそれぞれのカメラを識別するための名称等を付与するための文字列の長さの最大値を表す符号である。ｃａｍｅｒａ＿ｎａｍｅ＿ｌｅｎｇｔｈはカメラを識別するための名称等を表す文字列の長さを表す符号である。ｃａｍｅｒａ＿ｎａｍｅはカメラを識別するための名称等を表す。また、単にカメラを識別するための番号であってもよい。

　ｃａｍｅｒａ＿ｌｏｃａｔｉｏｎは当該カメラの位置を３次元の位置で表す。ｃａｍｅｒａ＿ａｔｔｉｔｕｄｅはカメラの姿勢を表す符号である。

　ｎｕｍ＿ｃｈａｒ＿ｃａｍｅｒａ＿ｔｙｐｅ＿ｉｎｆｏはカメラ自体の情報、例えば、会社名や機種名を表す文字列の長さを表す符号である。ｃａｍｅｒａ＿ｔｙｐｅ＿ｉｎｆｏｒｍａｔｉｏｎはカメラ自体の情報、例えば、会社名や機種名を表す文字列である。

　ｎｕｍ＿ｃｈａｒ＿ｌｅｎｚ＿ｔｙｐｅ＿ｉｎｆｏはカメラに装着されているレンズの情報、例えば、会社名や機種名を表す文字列の長さを表す符号である。ｌｅｎｚ＿ｔｙｐｅ＿ｉｎｆｏｒｍａｔｉｏｎはレンズ自体の情報、例えば、会社名や機種名を表す文字列である。ｆｏｃｕｓ＿ｄｉｓｔａｎｃｅはレンズの撮影時の画角を表すための焦点距離を表す符号である。

　次に、撮影状況情報を表すＦｉｌｍｉｎｇ＿ｃｏｎｄｉｔｉｏｎボックスの構成を以下に示す。
　Ｂｏｘ　Ｔｙｐｅ：　　‘ｆｆｃｉ‘
　Ｃｏｎｔａｉｎｅｒ：　Ｍｅｔａ　ｂｏｘ　（‘ｍｅｔａ‘）
　Ｍａｎｄａｔｏｒｙ：　Ｎｏ
　Ｑｕａｎｔｉｔｙ：　　Ｚｅｒｏ　ｏｒ　ｏｎｅ

　また、そのシンタックスを以下に示す。
　ａｌｉｇｎｅｄ（８）　ｃｌａｓｓ　ＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ　ｅｘｔｅｎｄｓ　ＦｕｌｌＢｏｘ（‘ｆｆｃｉ‘，ｖｅｒｓｉｏｎ，０）　｛
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｏｆｆｓｅｔ＿ｓｉｚｅ；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｌｅｎｇｔｈ＿ｓｉｚｅ；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｂａｓｅ＿ｏｆｆｓｅｔ＿ｓｉｚｅ；
　　ｉｆ　（ｖｅｒｓｉｏｎ　＝＝　１）　
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｉｎｄｅｘ＿ｓｉｚｅ；
　　ｅｌｓｅ
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｒｅｓｅｒｖｅｄ；
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（８）　ｒｏｏｍ＿ｃｏｄｅ；
　　ｓｉｇｎｅｄ　ｉｎｔ（１６）　ｉｌｌｕｍｉｎａｎｔ＿ｃｏｄｅ；
　　ｉｆ　（ｉｌｌｕｍｉｎａｎｔ＿ｃｏｄｅ　＞　０）　｛
　　　ｉｆ　（ｉｌｌｕｍｉｎａｎｔ＿ｃｏｄｅ　＝＝　１　）｛
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｓｕｎ＿ｄｉｒｅｃｔｉｏｎ；
　　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（８）　ｓｕｎ＿ａｌｔｉｔｕｕｄｅ；
　　　｝
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｗｅａｔｈｅｒ＿ｃｏｄｅ；
　　　ｓｉｇｎｅｄ　ｉｎｔ（１６）　ｔｅｍｐｌａｔｕｒｅ＿Ｃ＿ｖａｌｕｅ；
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（８）　ｈｕｍｉｄｉｔｙ＿ｖａｌｕｅ；
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（８）　ｗｉｎｄ＿ｄｉｒｅｃｔｉｏｎ；
　　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（８）　ｗｉｎｄ＿ｆｏｒｃｅ；
　　｝
　｝

　上記シンタックスにおいて、ｒｏｏｍ＿ｃｏｄｅは、場所の屋内外等の情報を表す符号である。例えば、その値が０であれば状況が不明であることを表す。また、その値が１であれば屋外であり、２であればドームであり、３であれば屋内であるといったことを表す。

　ｉｌｌｕｍｉｎａｎｔ＿ｃｏｄｅは、光源に関する情報を表す符号である。例えば、太陽光であれば、その値を１とする。また、蛍光灯などの屋内照明には光源ごとにそのコードを割り当てる。また、その値が０であれば光源に関する情報はないことを表す。

　ｓｕｎ＿ｄｉｒｅｃｔｉｏｎは太陽（光源）の方向を表す符号である。例えば、北を０とし、その方位を３６０度で表す値でも良い。ｓｕｎ＿ａｌｔｉｔｕｕｄｅは太陽の高度を表す値である。例えば、水平方向に対する角度で表すこともできる。

　ｗｅａｔｈｅｒ＿ｃｏｄｅは天候を表す符号である。例えば、その値が０であれば晴天を表し、１から１０の値は雲量を表してもよい。また、その上の桁に雨や雪などの情報を割り当てても良い。

　ｔｅｍｐｌａｔｕｒｅ＿Ｃ＿ｖａｌｕｅは気温を表し、例えば、摂氏で表すものとする。また、気温が計測されていない場合には０ｘＦＦＦＦとすることで、気温が計測されている場合と計測されていない場合を区別することができる。ｈｕｍｉｄｉｔｙ＿ｖａｌｕｅは湿度を％で表す。

　ｗｉｎｄ＿ｄｉｒｅｃｔｉｏｎは風向を表し、例えば、北を０とし、その方位を３６０度で表した場合の値でもよい。ｗｉｎｄ＿ｆｏｒｃｅは風力を表す値である。または、風速を表しても良い。

　次に、撮影対象情報を表すＦｉｌｍｉｎｇ＿ｏｂｊｅｃｔボックスの構成を以下に示す。
　Ｂｏｘ　Ｔｙｐｅ：　　‘ｆｆｏｉ‘
　Ｃｏｎｔａｉｎｅｒ：　Ｍｅｔａ　ｂｏｘ　（‘ｍｅｔａ‘）
　Ｍａｎｄａｔｏｒｙ：　Ｎｏ
　Ｑｕａｎｔｉｔｙ：　　Ｚｅｒｏ　ｏｒ　ｏｎｅ

　また、そのシンタックスを以下に示す。
　ａｌｉｇｎｅｄ（８）　ｃｌａｓｓ　ＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ　ｅｘｔｅｎｄｓ　ＦｕｌｌＢｏｘ（‘ｆｆｏｉ‘，ｖｅｒｓｉｏｎ，０）　｛
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｏｆｆｓｅｔ＿ｓｉｚｅ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｌｅｎｇｔｈ＿ｓｉｚｅ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｂａｓｅ＿ｏｆｆｓｅｔ＿ｓｉｚｅ；
　ｉｆ　（ｖｅｒｓｉｏｎ　＝＝　１）　
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｉｎｄｅｘ＿ｓｉｚｅ；
　ｅｌｓｅ
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｒｅｓｅｒｖｅｄ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｍａｘ＿ｎｕｍ＿ｏｂｊｅｃｔ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｏｂｊｅｃｔ；
　ｆｏｒ　（ｉ＝０；　ｉ＜＝ｎｕｍ＿ｏｂｊｅｃｔ；ｉ＋＋）　｛　
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｏｂｊｅｃｔ＿ｉｎｆｏ；
　　ｆｏｒ　（ｊ＝０；　ｊ＜ｎｕｍ＿ｃｈａｒ＿ｏｂｊｅｃｔ＿ｉｎｆｏ；ｊ＋＋）
　　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｏｂｊｅｃｔ＿ｉｎｆｏｒｍａｔｉｏｎ［ｊ］［ｉ］；
　　｝
　｝

　上記シンタックスにおいて、ｍａｘ＿ｎｕｍ＿ｏｂｊｅｃｔは、撮影された対象の数の最大値を表す値である。ｎｕｍ＿ｏｂｊｅｃｔはフレーム単位や、映像のクリップ単位、映像全体を単位として、実際に撮影されている対象の数である。

　ｎｕｍ＿ｃｈａｒ＿ｏｂｊｅｃｔ＿ｉｎｆｏは対象を表す文字列の長さを表す値である。ｏｂｊｅｃｔ＿ｉｎｆｏｒｍａｔｉｏｎは対象を表す文字列である。

　次に、撮影権利情報を表すＦｉｌｍｉｎｇ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒボックスの構成を以下に示す。
　Ｂｏｘ　Ｔｙｐｅ：　　‘ｆｆｒｉ‘
　Ｃｏｎｔａｉｎｅｒ：　Ｍｅｔａ　ｂｏｘ　（‘ｍｅｔａ‘）
　Ｍａｎｄａｔｏｒｙ：　Ｎｏ
　Ｑｕａｎｔｉｔｙ：　　Ｚｅｒｏ　ｏｒ　ｏｎｅ

　また、そのシンタックスを以下に示す。
　ａｌｉｇｎｅｄ（８）　ｃｌａｓｓ　ＩｔｅｍＬｏｃａｔｉｏｎＢｏｘ　ｅｘｔｅｎｄｓ　ＦｕｌｌＢｏｘ（‘ｆｆｒｉ‘，ｖｅｒｓｉｏｎ，０）　｛
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｏｆｆｓｅｔ＿ｓｉｚｅ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｌｅｎｇｔｈ＿ｓｉｚｅ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｂａｓｅ＿ｏｆｆｓｅｔ＿ｓｉｚｅ；
　ｉｆ　（ｖｅｒｓｉｏｎ　＝＝　１）　
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｉｎｄｅｘ＿ｓｉｚｅ；
　ｅｌｓｅ
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（３２）　ｒｅｓｅｒｖｅｄ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｍａｘ＿ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ；
　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ；
　ｆｏｒ　（ｉ＝０；　ｉ＜ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ；　ｉ＋＋）　｛
　　ｕｎｓｉｇｎｅｄ　ｉｎｔ（１６）　ｎｕｍ＿ｃｈａｒ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ；
　ｆｏｒ　（ｊ＝０；　ｊ＜ｎｕｍ＿ｃｈａｒ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏ；ｊ＋＋）
　　ｕｎｓｉｇｎｅｄ　ｃｈａｒ（８）　ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏｒｍａｔｉｏｎ［ｉ］［ｊ］
　｝
｝

　上記シンタックスにおいて、ｍａｘ＿ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒは、撮影に関する権利を有する個人、団体（以下、権利者と総称する）の数の最大値を表す値である。ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒはフレーム単位や、映像のクリップ単位、映像全体を単位として、実際に権利を有する権利者の数である。

　ｎｕｍ＿ｃｈａｒ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒは権利者の名称等を表す文字列の長さを表す値である。

　ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏｒｍａｔｉｏｎは権利者の名称等を表す文字列である。

　以上説明したように、ファイル生成部１０５は、メタ情報付与部１０６が生成したボックスｍｅｔａ２０３を使用して、ＩＳＯ　ＢＭＦＦファイル２００にメタ情報を付与することができる。

　また、図２（ｂ）に示すように、一般的なボックスｍｅｔａ２０３の代わりに、専用のボックスを新たに設けてもよい。例えば、ｆｖｖｉ（Ｆｒｅｅ　Ｖｉｅｗｐｏｉｎｔ　Ｖｉｄｅｏ　Ｉｎｆｏ）２０５といったボックスタイプを新たに設けることができる。

　上記のボックスｆｖｖｉ２０５は、映像（シーケンス）全体、複数フレームからなる映像クリップ単位、またはフレーム単位に付与することができる。すなわち、図２（ｃ）に示すように、ボックスｆｖｖｉ２０５をボックスｍｏｏｖ２０２に付与してもよい。また、ボックスｍｏｏｖ２０２の中にさらなるボックスｍｏｏｖが含まれている場合には、ボックスｆｖｖｉ２０５をその中のボックスｍｏｏｖに付与してもよい。さらには、図２（ｄ）に示すように、ボックスｆｖｖｉ２０５を複数に分けて付与してもよい。

　図１に戻り、出力部１０７は、メタ情報が付加された映像ファイルを外部に出力する。保存部１０８は、メタ情報が付加された映像ファイルを記憶媒体に保存する。

　なお、ファイルフォーマットはＩＳＯ　ＢＭＦＦに限定されない。例えば、静止画を格納する「カメラ映像機器工業会規格　ＤＣ－００８－２０１２　デジタルスチルカメラ用画像ファイルフォーマット規格　Ｅｘｉｆ２．３」（以下、Ｅｘｉｆ規格）を用いることも可能である。図３は、本実施形態におけるＥｘｉｆ規格を用いたファイル（ＥＸＩＦファイル）のフォーマットの例を示す。ファイルフォーマット３００では、仮想視点映像（仮想視点画像）に関するメタ情報が、Ｆｒｅｅ　Ｖｉｅｗｐｏｉｎｔ　Ｖｉｄｅｏ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｉｍａｇｅ　Ｆｉｌｅ　Ｄｉｒｅｃｔｏｒｙ（以下、ＦＶＶＩ　ＩＦＤ）３０１として定義される。ＦＶＶＩ　ＩＦＤ３０１は、撮影設定情報、撮影状況情報、撮影対象情報、撮影権利情報を格納している。図４は、本実施形態におけるＦＶＶＩ　ＩＦＤ３０１のタグ情報の構成の一例を示す。ＦＶＶＩ　ＩＦＤ３０１には、上述したＩＳＯ　ＢＭＦＦの各符号がそれぞれのタグに格納されている。

　図５は、本実施形態における映像ファイル生成処理のフローチャートを示す。フローチャートに示される一連の処理は、後述するように、画像処理装置１００のＣＰＵ８０１がＲＯＭ８０３に格納されている制御プログラムをＲＡＭ８０２に読み込み、実行することにより行われる。あるいはまた、フローチャートにおけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップを意味する。その他のフローチャートについても同様である。

　まず、Ｓ１０００において、メタ情報付与部１０６は、端末１０４からユーザが入力した撮影設定情報を取得する。撮影設定情報は、撮影場所、撮影日時、イベント内容、カメラ情報の少なくとも１つを含む。また、カメラ情報は、カメラの注視点の位置、カメラの台数、カメラの配置、カメラの姿勢、焦点距離の少なくとも１つを含む。

　Ｓ１００１において、メタ情報付与部１０６は、端末１０４からユーザが入力した撮影権利情報を取得する。撮影権利情報は、撮影に関する権利者の情報を含む。

　Ｓ１００２において、メタ情報付与部１０６は、端末１０４からユーザが入力した撮影対象情報を取得する。撮影対象情報は、撮影される対象に関する情報、例えば、選手名やチーム内の役割を含む。すなわち、撮影対象情報は、撮影される対象の名称、対象群の名称の少なくとも１つを含む。

　Ｓ１００３において、メタ情報付与部１０６は、環境情報取得部１０３から、環境情報取得部１０３が取得した撮影状況情報、例えば、光源、気温、湿度、風向、風力の情報を取得する。すなわち、撮影状況情報は、撮影時の気象情報を含む。

　なお、Ｓ１０００からＳ１００３の順序は限定されるものではなく、任意の順序でよい。また、Ｓ１０００からＳ１００３のうちの少なくとも１つのステップを実行して、撮影設定情報、撮影権利情報、撮影対象情報、及び撮影状況情報のうちの少なくとも１つをメタ情報付与部１０６が取得するようにしてもよい。

　Ｓ１００４において、ファイル生成部１０５は、映像ファイルのヘッダデータを生成する。例えば、ファイル生成部１０５は、ＩＳＯ　ＢＭＦＦではボックスｆｔｙｐ２０１を生成し、Ｅｘｉｆでは、０^thＩＦＤを生成する。生成されたヘッダデータはメタ情報付与部１０６に入力され、ファイル生成部１０５でファイルに格納される。

　Ｓ１００５において、メタ情報付与部１０６は、取得された撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報の少なくとも１つをメタ情報として、ファイルに付与する。ファイル生成部１０５は、付与されたメタ情報をファイルに格納する。なお、メタ情報は、ＩＳＯ　ＢＭＦＦではボックスｍｅｔａやボックスｆｆｖｉを使用して付与される。また、ＥｘｉｆではＦＶＶＩ　ＩＦＤを使用して付与される。

　Ｓ１００６において、入力部１０２は、カメラ１０１ａ～ｚから映像データの入力を受け付け、ファイル生成部１０５に入力する。

　Ｓ１００７において、ファイル生成部１０５は、入力部１０２を介して入力された映像データをファイルに格納する。例えば、ＩＳＯ　ＢＭＦＦでは、ファイル生成部１０５は、映像データをボックスｍｄａｔとして、必要な符号を付与してファイルに格納する。また、Ｅｘｉｆでは、ファイル生成部１０５は、映像データをＩｍａｇｅ　Ｄａｔａとしてファイルに格納する。さらに、映像データを格納したファイルは、出力部１０７で外部に出力されたり、保存部１０８で保存されたりする。なお、ファイル生成部１０５は、映像データを符号化してもよい。

　Ｓ１００８において、カメラ１０１ａ～ｚからの映像データの入力が終了したり、端末１０４から終了の指示が入力されたりした場合には、処理を終了する。そうでない場合はＳ１００６に戻り、次の映像データの処理を行う。

　以上説明したように、本実施形態における映像ファイル生成処理が行われる。本実施形態によると、ＩＳＯＢＭＦＦやＥｘｉｆを利用して、映像データにメタ情報を付与し、映像ファイルを生成することができる。

　図６は、本実施形態における別の映像ファイル生成処理のフローチャートを示す。以下では、時刻ごとに変化する撮影状況情報をフレーム単位で映像データに付与する例を説明する。なお、図５のフローチャートにおけるステップと同じ処理が実行されるステップについては同じ番号を付し、詳細な説明は省略する。

　図６のフローチャートでは、Ｓ１００６で入力部１０２が映像データをファイル生成部１０５に出力すると、Ｓ１０１３に進む。

　Ｓ１０１３において、メタ情報付与部１０６は、環境情報取得部１０３から撮影状況情報、例えば、光源、気温、湿度、風向、風力を取得する。

　Ｓ１０１４において、メタ情報付与部１０６は、取得した撮影状況情報からメタ情報を生成し、映像ファイルに付与する。メタ情報は、ＩＳＯ　ＢＭＦＦではボックスｍｅｔａやボックスｆｆｖｉを使用して映像ファイルに付与することができる。また、ＥｘｉｆではＦＶＶＩ　ＩＦＤを使用して付与することができる。

　このように、図６に示した映像ファイル生成処理では、時刻ごとに変化する撮影状況情報をフレーム単位で付与することができる。また、別のメタ情報もフレーム単位で付与してもよい。例えば、カメラが被写体に追従して動くシステムにおいては、その注視点が移動することになり、これを撮影設定情報として映像ファイルに付与することができる。また、撮影対象情報は、映像に移っている対象のみに限定してフレーム単位で付与することができる。

　以上説明したように、本実施形態によると、生成した映像ファイルを共通の映像ファイルとして相互利用できるようにして、撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報のうち少なくとも１つをメタ情報として付与することができる。これにより、映像データの検索、取得を効率よく行うことができる。

　なお、本実施形態における画像処理装置１００は、図１で説明した物理的な構成に限定されず、論理的に構成されてもよい。

　また、本実施形態では、データを暗号化して保存してもよい。その場合、データが暗号化されているか否かを判別する符号を含んでもよい。

　また、本実施形態では、撮影設定情報のうちカメラの設置情報を、ファイル生成部１０５が、例えばカメラ１０１ａ～ｚのそれぞれから、カメラのＩＤ等の番号と共に映像データと合わせて入力部１０２を介して取得してもよい。

　また、本実施形態では、ファイル生成部１０５は、入力された映像データをそのままファイルに格納したが、符号化して格納するようにしてもよい。

　また、本実施形態では、メタ情報付与部１０６は、入力されたメタ情報をそのままファイルに格納したが、符号化して格納してもよい。

　また、図７に示すように、３Ｄモデル生成部１１０が仮想視点映像を生成するために必要な処理を行った映像ファイルにメタ情報を付与してもよい。なお、同図において、図１と同様の構成要素については同じ番号を付し、説明を省略する。例えば、３Ｄモデル生成部１１０は、入力部１０２から入力された複数の映像データから対象が映っている領域をそれぞれ切り出し、３Ｄモデルを生成する。ファイル生成部１１５は、入力部１０２から入力された映像データに加えて、３Ｄモデル生成部１１０から取得した３Ｄモデルを映像ファイルに加える。また、ファイル生成部１１５は、３Ｄモデル単位のメタ情報（撮影対象情報）をメタ情報付与部１０６から取得し、映像ファイルに付与する。このように、本実施形態では、３Ｄモデルを利用する場合にも、仮想視点映像の生成時や表示時に簡単に撮影対象情報を多重化して表示することが可能になる。

（第２の実施形態）
　第２の実施形態では、メタ情報を用いて映像データを検索し、検索結果を用いて仮想視点映像（仮想視点画像）を生成する画像処理について説明する。

　図８は、本実施形態における画像処理装置４００を含むシステムの構成例を示す。画像処理装置４００は、外部の保存装置４０１に接続されている。保存装置４０１は、例えば第１の実施形態の図１に記載されている保存部１０８と同じように、メタ情報が付与された映像ファイルを格納している。本実施形態は、説明を容易にするために、ＩＳＯＢＭＦＦで記述された映像ファイルを例として説明する。

　画像処理装置４００は、インターフェース（Ｉ／Ｆ）部４０２、端末４０３、メタ情報比較部４０４、ファイル選択部４０５を有する。さらに、画像処理装置４００は、ファイル解析部４０６、メタ情報バッファ４０７、仮想視点映像生成部４０８、メタ情報付与部４０９、出力部４１０、保存部４１１を有する。画像処理装置４００は、保存装置４０１から所望の映像データを読出し、仮想視点映像を生成する。

　端末４０３は、ユーザから、仮想視点映像を生成するための映像データに関する検索条件の入力を受け付ける。端末４０３は、例えば、「○○大会の決勝戦のデータ」といったキーワードを検索条件として受け付ける。端末４０３は、受け付けたキーワードをメタ情報比較部４０４に入力する。

　端末４０３から検索の開始が発せられると、Ｉ／Ｆ部４０２は、保存装置４０１に格納されている映像ファイルのヘッダデータから、ボックスｍｅｔａ２０３のデータ（すなわち、メタ情報）を映像ファイル単位で読み込む。読み込まれたボックスｍｅｔａ２０３のデータは、メタ情報比較部４０４に入力される。

　メタ情報比較部４０４は、Ｉ／Ｆ部４０２から入力されたメタ情報と、端末４０３から入力されたキーワードを比較する。メタ情報比較部４０４は、キーワードに合致するメタ情報がある場合、ファイル選択部４０５に、当該メタ情報を有する映像ファイルの情報、例えば、ファイルパスやファイル名を通知する。

　ファイル選択部４０５は、通知された映像ファイルの情報に基づいて仮想視点映像の生成に使用する映像ファイルを選択し、Ｉ／Ｆ部４０２を介して保存装置４０１にアクセスする。保存装置４０１は、アクセスにしたがって選択された映像ファイルを読出し、Ｉ／Ｆ部４０２を介して、ファイル解析部４０６に入力する。

　ファイル解析部４０６は入力された映像ファイルを解析し、映像ファイルからメタ情報を分離して、分離したメタ情報をメタ情報バッファ４０７に格納し、仮想視点映像の生成に必要な映像データを仮想視点映像生成部４０８に入力する。

　仮想視点映像生成部４０８は、入力された映像データを使用して、ユーザによって指定された仮想視点からの映像（すなわち、仮想視点映像）を生成する。仮想視点映像生成部４０８は、生成された仮想視点映像を符号化する。ここでは、Ｈ．２６５符号化方式を用いて符号化する例を説明するが、これに限定されない。例えば、Ｈ．２６４や、ＭＰＥＧ－１，２、４などの符号化方式でもよい。ＭＰＥＧ－１，２、４では例えば、ｕｓｅｒ＿ｄａｔａ（）に格納してもよいし、新たなヘッダを定義してもよい。Ｈ．２６５符号化方式で符号化された仮想視点映像のビットストリームは、メタ情報付与部４０９に入力される。

　メタ情報付与部４０９は、メタ情報バッファ４０７に格納された元の映像データのメタ情報を読出し、入力されたビットストリームに付与する。また、メタ情報付与部４０９は、生成された映像ファイル（ビットストリーム）が仮想視点映像であることを示すメタ情報を追加して付与する。さらには、メタ情報付与部４０９は、仮想視点映像を生成したシステムの情報やその権利者に関する情報も付加することができる。

　出力部４１０は、メタ情報が付与された仮想視点映像のビットストリームを外部に出力する。保存部４１１は、メタ情報が付与された仮想視点映像のビットストリームを記憶媒体に保存する。

　図９は、本実施形態におけるＨ．２６５符号化方式で符号化されたビットストリーム９００の構成例を表す図である。

　ビットストリーム９００は、先頭にシーケンス全体を表すシーケンスヘッダ（ｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）、以下ＳＰＳ）９０１を含む。ＳＰＳ９０１の中には、画像に対して便利な情報を付与するＶＵＩ（Ｖｉｄｅｏ　Ｕｓａｂｉｌｉｔｙ　Ｉｎｆｏｒｍａｔｉｏｎ）　Ｐａｒａｍｅｔｅｒｓ９０２が含まれる。図１０は、本実施形態におけるＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の構成例ｖｕｉ＿ｐａｒａｍｅｔｅｒｓ（）を示す。なお、ａｓｐｅｃｔ＿ｒａｔｉｏ＿ｉｎｆｏ＿ｐｒｅｓｅｎｔ＿ｆｌｇ符号からｌｏｇ２＿ｍａｘ＿ｍｖ＿ｌｅｎｇｔｈ＿ｖｅｒｔｉｃａｌ符号までの詳細な説明は、非特許文献２に記載されているので省略する。本実施形態では、ｌｏｇ２＿ｍａｘ＿ｍｖ＿ｌｅｎｇｔｈ＿ｖｅｒｔｉｃａｌ符号に続けて、以下の符号が付与される。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｆｌａｇ符号は本ビットストリームが仮想視点映像であるか否かを表すフラグである。その値が１であれば、本ビットストリームの映像は仮想視点映像であることを示し、０であれば、通常のカメラ等で撮影された映像であることを示す。なお、本実施形態が適用されないビットストリームではこのフラグは存在しないので、その場合はその値は０とされる。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データが存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した素材となる映像データが存在することを示し、０であれば、その素材となる映像データが無いか、あるいはアクセスできないことを表す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｓｃｅｎｅ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の設定に関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影設定情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｃｏｎｄｉｔｉｏｎ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データ撮影時の状況に関する撮影状況情報のメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影状況情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｅｄ＿ｏｂｊｅｃｔ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の対象に関する撮影対象情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影対象情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の権利者に関する撮影権利情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影権利者情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。

　図９に戻り、本実施形態におけるビットストリーム９００は、さらに、付加拡張情報（Ｓｕｐｐｌｅｍｅｎｔａｌ　ｅｎｈａｎｃｅｍｅｎｔ　ｉｎｆｏｒｍａｔｉｏｎ：以下、ＳＥＩと略す）ｍｅｓｓａｇｅ９０３を含むことができる。図１１は、本実施形態におけるＳＥＩ　ｍｅｓｓａｇｅ９０３の構成例ｓｅｉ＿ｐａｙｌｏａｄ（）を示す。その種類（ｐａｙｌｏａｄＴｙｐｅ）とその大きさ（ｐａｙｌｏａｄＳｉｚｅ）によって内容が決定される。なお、ａｌｔｅｒｎａｔｉｖｅ＿ｄｅｐｔｈ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）までの詳細は、非特許文献２の７．３．５章　Ｓｕｐｐｌｅｍｅｎｔａｌ　ｅｎｈａｎｃｅｍｅｎｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｍｅｓｓａｇｅ　ｓｙｎｔａｘを参照されたい。

　本実施形態では、メタ情報のｐａｙｌｏａｄＴｙｐｅを「２０１」と定義する。ｐａｙｌｏａｄＴｙｐｅが「２０１」の場合に、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）によって、ｐａｙｌｏａｄＳｉｚｅが表す大きさのメタ情報が読み出される。

　図１２～図１５は、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の構成例を表す。本実施形態では、ＩＳＯ　ＢＭＦＦに記載された符号と同じ符号は同様の意味を持つので、詳細な説明は省略する。

　図１２は、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の符号のうち、以下の符号を示す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ＿ｆｌａｇ符号は、図１０に示した上記ＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の同名の符号と同様に機能する。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データが存在することを示し、０であれば、その素材となる映像データが無いか、あるいはアクセスできないことを表す。その値が０であれば、ｎｕｍ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ＿ｍｉｎｕｓ１符号や、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｏｒｉｇｉｎａｌ＿ｖｉｄｅｏ＿ｉｎｆｏ符号は省略される。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｓｃｅｎｅ＿ｉｎｆｏ＿ｆｌａｇ符号は、図１０に示した上記ＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の同名の符号と同様に機能する。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の設定に関する撮影設定情報に関するメタ情報が存在することを示す。その値が０であれば、続くｃａｔｅｇｏｒｙ＿ｃｏｄｅ以下の撮影設定情報は存在しない。なお、図面を簡易にするため図１２では、ｎｕｍ＿ｃｈａｒ＿ｐｌａｃｅ＿ｎａｍｅ＿ｍｉｎｕｓ１以下の撮影設定情報に関するメタ情報は省略されている。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｃｏｎｄｉｔｉｏｎ＿ｉｎｆｏ＿ｆｌａｇ符号は、図１０に示した上記ＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の同名の符号と同様に機能する。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の状況に関する撮影状況情報に関するメタ情報が存在することを示す。その値が０であれば、続くｉｌｌｕｍｉｎａｎｔ＿ｃｏｄｅ以下の撮影状況情報は存在しない。

　図１３及び図１４は、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の符号のうち、図１２に示した符号に続く以下の符号を示す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｅｄ＿ｏｂｊｅｃｔ＿ｉｎｆｏ＿ｆｌａｇ符号は、図１０に示した上記ＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の同名の符号と同様に機能する。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の対象に関する撮影対象情報に関するメタ情報が存在することを示す。その値が０であれば、続くｍａｘ＿ｎｕｍ＿ｏｂｊｅｃｔ＿ｍｉｎｕｓ１以下の撮影状況情報は存在しない。なお、図面を簡易にするため図１３では、ｏｂｊｅｃｔ＿ｉｎｆｏｒｍａｔｉｏｎ以下の撮影状況情報に関するメタ情報は省略されている。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏ＿ｆｌａｇ符号は、図１０に示した上記ＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２の同名の符号と同様に機能する。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の権利者に関する撮影権利者情報に関するメタ情報が存在することを示す。その値が０であれば、続くｍａｘ＿ｎｕｍ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｍｉｎｕｓ１以下の撮影権利情報は存在しない。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｃａｍｅｒａ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像の素材となる映像データを撮影した時のカメラの設定に関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時のカメラの設定に関する撮影設定情報がメタ情報として、存在することを示す。０であれば、そのメタ情報は存在しないことを表す。すなわち、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｆｌａｇ以下の符号は存在しない。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像の素材となる映像データを撮影した時のシステムに関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した元の素材となる撮影した時のシステムに関する撮影設定情報がメタ情報として、存在することを示す。０であれば、そのメタ情報は存在しないことを表す。すなわち、ｎｕｍ＿ｃｈａｒ＿ｆｉｌｍｉｎｇ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕｓ１以下の符号は存在しない。

　図１５は、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｖｉｄｅｏ＿ｉｎｆｏ（ｐａｙｌｏａｄＳｉｚｅ）の符号のうち、図１４に示した符号に続く以下の符号を示す。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｐｒｕｄｕｃｔ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した時に関する生成設定情報に関するメタ情報が存在するか否かを表すフラグである。生成設定情報は、生成したシステムや生成された映像データの権利者に関する情報を含むが、これに限定されない。その値が１であれば、本ビットストリームの仮想視点映像を生成した時の生成設定情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。すなわち、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｐｒｏｄｕｃｔ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｆｌａｇ以下の符号は存在しない。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｐｒｏｄｕｃｔ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した時に使用したシステムに関するメタ情報が存在するか否かを表すフラグである。この値が１であれば、本ビットストリームの仮想視点映像を生成した時の生成システム情報がメタ情報として存在することを示す。０であれば、そのメタ情報は存在しないことを表す。すなわち、ｎｕｍ＿ｃｈａｒ＿ｐｒｏｄｕｃｔ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕｓ１以下の符号は存在しない。

　ｎｕｍ＿ｃｈａｒ＿ｐｒｏｄｕｃｔ＿ｓｙｓｔｅｍ＿ｉｎｆｏ＿ｍｉｎｕｓ１は、仮想視点映像を生成したシステムの名称を表す文字列の長さを表す符号である。

　ｐｒｏｄｕｃｔ＿ｓｙｓｔｅｍ＿ｉｎｆｏｒｍａｔｉｏｎは、仮想視点映像を生成したシステムの名称を表す。なお、仮想視点映像を生成したシステムに関する情報は名称に限定されず、型番やバージョンであっても良い。

　ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏ＿ｆｌａｇ符号は本ビットストリームの仮想視点映像を生成した時の権利者に関する生成権利情報に関するメタ情報が存在するか否かを表すフラグである。その値が１であれば、本ビットストリームの仮想視点映像を生成した時の権利者に関する生成権利情報に関するメタ情報が存在することを示す。その値が０であれば、続くｍａｘ＿ｎｕｍ＿ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｍｉｎｕｓ１以下の生成権利情報は存在しない。

　ｍａｘ＿ｎｕｍ＿ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｍｉｎｕｓ１は、仮想視点映像生成に関する権利を有する権利者の数の最大値を表す値である。ｎｕｍ＿ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｍｉｎｕｓ１は、フレーム単位や、映像のクリップ単位、または映像全体を単位として、実際に権利を有する権利者の数を表す。

　ｎｕｍ＿ｃｈａｒ＿ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏ＿ｍｉｎｕｓ１は、仮想視点映像生成に関する権利者の名称等を表す文字列の長さを表す値である。

　ｐｒｏｄｕｃｔ＿ｒｉｇｈｔ＿ｈｏｌｄｅｒ＿ｉｎｆｏｒｍａｔｉｏｎは、仮想視点映像生成に関する権利者の名称等の文字列を表す。

　図９に戻り、実際の仮想視点映像の映像データの符号が続き、ビットストリームを完結する。

　図２０は、本実施形態におけるビットストリーム生成処理のフローチャートを示す。

　Ｓ２０００において、メタ情報比較部４０４は、端末１０４から、ユーザが入力した検索条件であるキーワードを取得する。

　Ｓ２００１において、Ｉ／Ｆ部４０２は、保存装置４０１に格納された映像ファイルのヘッダデータから、ボックスｍｅｔａ２０３のデータ（すなわち、メタ情報）を映像ファイル単位で取得する。取得したデータは、メタ情報比較部４０４に入力される。

　Ｓ２００２において、メタ情報比較部４０４は、Ｉ／Ｆ部４０２から入力されたメタ情報と端末４０３から取得したキーワード（すなわち、検索条件）を比較する。メタ情報比較部４０４は、キーワードに合致するメタ情報がある場合、ファイル選択部４０５に当該メタ情報を有する映像ファイルの情報を通知する。

　Ｓ２００３において、ファイル選択部４０５は、通知された映像ファイルの情報に基づいて仮想視点映像の生成に使用する映像ファイルを選択し、Ｉ／Ｆ部４０２を介して保存装置４０１にアクセスする。保存装置４０１は、アクセスにしたがって選択された映像ファイルを読出し、Ｉ／Ｆ部４０２を介してファイル解析部４０６に入力する。

　Ｓ２００４において、ファイル解析部４０６は、入力された映像ファイルを解析してメタ情報を分離し、分離したメタ情報をメタ情報バッファ４０７に格納する。また、ファイル解析部４０６は、入力された映像ファイルの映像データを仮想視点映像生成部４０８に入力する。

　Ｓ２００５において、メタ情報付与部４０９は、メタ情報バッファ４０７に格納された元の映像のメタ情報を読出し、ビットストリームのヘッダに付与する。

　Ｓ２００６において、仮想視点映像生成部４０８は、ユーザ等から指定された仮想視点からの映像（すなわち、仮想視点映像）を生成する。

　Ｓ２００７において、仮想視点映像生成部４０８は、生成された仮想視点映像を符号化し、ビットストリームに格納する。

　Ｓ２００８において、映像データの入力が終了したり、端末４０３から終了の指示が入力されたりした場合に処理を終了する。そうでなければＳ２００６に戻り、次の映像データを処理する。

　以上説明したように、本実施形態によると、仮想視点映像を共通のビットストリームとして相互利用できるようにして、撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報のうち少なくとも１つをメタ情報として付与することができる。これにより、仮想視点映像の検索、取得を効率よく行うことができる。また、ビットストリームが仮想視点映像であるか否かの情報を付与することで、仮想視点映像を対象とした検索機能も実現が可能になる。

　なお、複数の映像ファイルを保存装置４０１から読み出して仮想視点映像を生成した場合、各映像ファイルに対応する仮想視点映像にそれぞれのメタ情報を付与しても良いし、複数の映像ファイルのメタ情報をまとめて１つのメタ情報として付与してもよい。

　また、第１の実施形態の図６のフローチャートのように、フレーム単位でメタ情報を付与することも可能である。例えば、フレーム単位を表すピクチャのヘッダに映像データが仮想視点映像であるか否かの情報を付与することも可能である。

　図９に戻り、本実施形態におけるビットストリーム９００は、ピクチャのヘッダ（ｐｉｃ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）、以下ＰＰＳ）９０４を含むことができる。図１６は、本実施形態におけるＰＰＳ９０４の構造の一例を示す。

　ｐｉｃ_ｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｉｎｆｏ_ｆｌａｇ符号は、ピクチャ単位で、仮想視点映像の撮影、生成に関するメタ情報があるか否かを表す。その値が１であれば、ｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ（）に仮想視点映像の撮影、生成に関するメタ情報が含まれていることを示す。図１７～図１９は、本実施形態におけるｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ（）の詳細を示す。基本的には、図１２～図１５の内容をフレームごとに設定できるように、フレーム単位で判定が必要なフラグに関してはｐｉｃ＿の接頭詞を付与して、同じ内容を符号化してビットストリームに付与される。これらによってフレーム単位でメタ情報の更新が可能になる。

　また、各フレームに付与されるｐｉｃ＿ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｉｎｆｏ＿ｆｌａｇ符号を、シーケンスや複数フレームで構成されるチャプタのような単位で纏めてＶＵＩ　ｐａｒａｍｅｔｅｒの部分に含めても良い。それにより、シーケンス内の一部が仮想視点映像であった場合、各フレームを復号しなくても当該情報を取得することができる。

　また、本ビットストリームをボックスｍｄａｔに格納してＩＳＯ　ＢＭＦＦファイルを構成してもよい。

（第３の実施形態）
　本実施形態では、メタ情報によるビットストリームの検索を行い、検索結果を表示する画像処理装置について説明する。

　図２１は、本実施形態における画像処理装置５００を含むシステムの構成例を示す。画像処理装置５００は、外部の保存装置５５０、及び保存装置５５１に接続されている。保存装置５５０は、例えば、第２の実施形態の図８に記載されている保存装置４０１と同じように、仮想視点映像を生成するために必要な映像ファイルを格納している。保存装置５５１は、例えば、第２の実施形態の図８に記載されている保存部４１１と同じように、仮想視点映像の映像ファイルやビットストリームを格納している。本実施形態では、保存装置５５０に格納された映像ファイルから生成された仮想視点映像を、Ｈ．２６５符号化方式で符号化したビットストリームを例にとって説明する。

　画像処理装置５００は、インターフェース（Ｉ／Ｆ）部５０２、メタ情報比較部５０５、データ選択部５０６、ビットストリーム解析部５０７、メタ情報バッファ５０８、復号部５０９、表示部５２０を有する。画像処理装置５００は、保存装置５５０から所望の映像ファイルを読出し、表示を行うとともに、別途、仮想視点映像を表示する。

　端末５０３は、ユーザから、仮想視点映像のビットストリームに関する検索条件（例えば、キーワード）の入力を受け付け、メタ情報比較部５０５に出力する。

　端末５０３から検索の開始が発せられると、Ｉ／Ｆ部５０２は保存装置５５１から、ビットストリームのヘッダ情報とメタ情報を読出し、メタ情報比較部５０５に入力する。さらに、本実施形態で生成されていない他のＨ．２６５符号化方式で符号化されたビットストリームも含まれるものとする。

　メタ情報比較部５０５は、Ｉ／Ｆ部５０２から入力されたメタ情報と、端末５０３から入力されたキーワードを比較する。メタ情報比較部５０５は、端末５０３から入力されたキーワードに合致するメタ情報が存在する場合、データ選択部５０６に、当該メタ情報を有するビットストリームの情報、例えば、データパスやビットストリーム名を通知する。

　データ選択部５０６は、通知されたビットストリームの情報に基づいて、表示するビットストリームを選択し、Ｉ／Ｆ部５０２を介して保存装置５５１にアクセスする。保存装置５５１は、アクセスにしたがって目的のビットストリームを読出す。読み出されたビットストリームはＩ／Ｆ部５０２を介して、ビットストリーム解析部５０７に入力される。

　ビットストリーム解析部５０７は、入力されたビットストリームのヘッダを復号して解析し、ヘッダからメタ情報を分離して、メタ情報バッファ５０８に格納する。また、ビットストリーム解析部５０７は、映像データのビットストリームを復号部５０９に入力する。復号部５０９は、入力されたビットストリームを復号して、表示部５２０に入力する。また、復号部５０９は、選択されたビットストリームが複数存在する場合はそれぞれのビットストリームを復号し、表示部５２０に入力する。表示部５２０は、復号された１または複数のビットストリームを表示する。

　また、ビットストリーム解析部５０７は、分離したメタ情報から当該映像データが仮想視点映像であることが判明した場合、これを表示部５２０に通知する。表示部５２０は通知に応じて、表示されている映像が仮想視点映像であることを表示する。

　図２２は、本実施形態における表示部５２０の表示画面を示す。表示画面６００において、ユーザは端末５０３を用いて、検索条件となるキーワードをキーワードウィンドウ６０３ａ～ｃに入力し、検索ボタン６０４を押下して映像（ビットストリーム）の検索を行う。

　表示部５２０は、検索結果として選択された複数の映像６０１ａ～ｄを、候補ウィンドウ６０２に表示する。さらに、表示部５２０は、候補ウィンドウ６０２に表示されている複数の映像の中から、ユーザが端末５０３を用いて選択した１つの映像を、表示ウィンドウ６０５に表示する。表示ウィンドウ６０５は表示バー６０６を有する。表示バー６０６は、フレーム単位で当該映像が仮想視点映像である部分を太線で示す。映像が仮想視点映像であるか否かは、ストリーム単位ではＶＵＩ　Ｐａｒａｍｅｔｅｒｓ９０２のｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｖｉｄｅｏ_ｆｌａｇ符号の有無や、ＳＥＩ＿ｍｅｓｓａｇｅ９０３を参照することで判断することができる。また、フレーム単位ではＰＰＳ９０４のｐｉｃ_ｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｉｎｆｏ_ｆｌａｇ符号の値で判断することができる。

　映像のうち、仮想視点映像である部分が再生される場合、表示部５２０は表示ウィンドウ６０５に、表示されている映像が仮想視点映像であることを示すマーカ６０７を表示する。マーカ６０７は、候補ウィンドウ６０２において、複数の映像６０１ａ～ｄのうち、仮想視点映像を含むものに表示してもよい。

　以上説明したように、本実施形態における画像処理装置５００は、メタ情報によるビットストリームの検索を行い、検索結果を表示することができる。

　また、本実施形態における画像処理装置５００を含むシステムでは、検索結果として表示中の映像について、ユーザの指示に応じて再度、メタ情報を用いて仮想視点映像の生成を行うことができる。データ選択部５０６は、仮想視点映像を再生成する映像データに対応するメタ情報を、メタ情報バッファ５０８から読み出す。データ選択部５０６は、ビットストリームのｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｏｒｉｇｉｎａｌ_ｖｉｄｅｏ＿ｉｎｆｏ_ｆｌａｇ符号の値を参照し、本ビットストリームの仮想視点映像を生成した素材となる映像データが存在するか判定する。上述したように、ｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｏｒｉｇｉｎａｌ_ｖｉｄｅｏ＿ｉｎｆｏ_ｆｌａｇ符号の値が１であれば、素材となる映像データが存在することを示し、０であれば、素材となる映像データが無いか、あるいはアクセスできないことを示す。映像データが存在する場合、ｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｏｒｉｇｉｎａｌ_ｖｉｄｅｏ_ｉｎｆｏ＿ｆｌａｇ符号やｐｉｃ＿ｆｒｅｅ_ｖｉｅｗｐｏｉｎｔ_ｏｒｉｇｉｎａｌ_ｖｉｄｅｏ_ｉｎｆｏ符号を参照して、映像データの保存場所を特定する。

　データ選択部５０６は、Ｉ／Ｆ部５０２を介して保存装置５５０の特定された保存場所にアクセスし、仮想視点映像を生成した素材となる映像データを読出し、画像処理装置４００に入力する。画像処理装置４００は、入力された映像データを使用して仮想視点映像を再生成し、Ｉ／Ｆ部５０２を介して画像処理装置５００に入力する。すなわち、画像処理装置４００は、図８のＩ／Ｆ部４０２を介して入力された映像データを使用して、仮想視点映像を再生成する。また、画像処理装置４００は、生成した仮想視点映像のビットストリームを出力部４１０を介して、図２１のＩ／Ｆ部５０２に入力する。画像処理装置５００は、入力されたビットストリームをビットストリーム解析部５０７、復号部５０９によって処理し、表示部５２０に表示する。

　なお、上記実施形態では、画像処理装置５００が、素材となる映像データを取得して画像処理装置４００に入力したが、画像処理装置５００は、画像処理装置４００に映像データの保存場所を通知するだけでもよい。その場合、画像処理装置４００が当該保存場所に保存された映像データを取得して、仮想視点映像を再生成することができる。

　このように、本実施形態における画像処理装置５００を含むシステムでは、検索結果として表示中の映像について、仮想視点映像を再生成することができる。

　以上説明したように、本実施形態によると、仮想視点映像を共通のビットストリームとして利用できるようにして、付与された撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報、生成設定情報のうち少なくとも１つを検索に用いることができる。これにより、メタ情報による仮想視点映像のビットストリームの検索を効率よく行うことができる。また、本実施形態によると、検索結果として表示中の映像について、再度、仮想視点映像を生成することができる。

　図２３は、上記各実施形態に係る画像処理装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。

　ＣＰＵ８０１は、ＲＡＭ８０２やＲＯＭ８０３に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、上記各実施形態に係る画像処理装置の各処理を実行する。即ち、ＣＰＵ８０１は、上述した画像処理装置の各処理部として機能する。

　ＲＡＭ８０２は、外部記憶装置８０６からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）８０７を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、ＲＡＭ８０２は、ＣＰＵ８０１が各種の処理を実行する際に用いるワークエリアを有する。即ち、ＲＡＭ８０２は、例えば、画像データを記憶するためのフレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。

　ＲＯＭ８０３は、コンピュータの設定データや、ブートプログラムなどを格納している。操作部８０４は、キーボードやマウスなどを含む。ユーザは、操作部８０４を用いて、各種の指示をコンピュータに入力することができる。出力部８０５は、ＣＰＵ８０１による処理結果を表示する。出力部８０５は、例えば液晶ディスプレイとすることができる。

　外部記憶装置８０６は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置８０６は、ＯＳ（オペレーティングシステム）や、上述した画像処理装置の各処理部の機能をＣＰＵ８０１に実現させるためのコンピュータプログラムを保存している。更に、外部記憶装置８０６は、処理対象としての画像データを保存しても良い。

　外部記憶装置８０６に保存されているコンピュータプログラムやデータは、ＣＰＵ８０１による制御に従って適宜、ＲＡＭ８０２にロードされ、ＣＰＵ８０１によって処理される。Ｉ／Ｆ８０７は、ＬＡＮやインターネット等のネットワーク、投影装置や表示装置などの他の機器と接続するために使用される。コンピュータは、Ｉ／Ｆ８０７を介して様々な情報を取得したり、送出したりすることができる。バス８０８は、上述したコンピュータの各構成要素を相互に通信可能に接続する。

（その他の実施形態）
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　また、上述した実施形態で説明したメタ情報を示す符号をデータ名として利用してもよい。例えば、ファイル名を、いくつかのメタ情報を「＿」で結んだ名称に統一することで、データの検索を行うことができる。例えば、データ名として用いるメタ情報は、ｆｉｌｍｉｎｇ＿ｄａｔｅ＿ｔｉｍｅ＿ｃｏｄｅ、ｃｏｎｖｅｎｔｉｏｎ＿ｎａｍｅ、ｅｖｅｎｔ＿ｎａｍｅ、ｓｔａｇｅ＿ｎａｍｅ、ｆｒｅｅ＿ｖｉｅｗｐｏｉｎｔ＿ｆｉｌｍｉｎｇ＿ｉｎｆｏ＿ｃｏｄｅ等である。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　本願は、２０１８年９月１４日提出の日本国特許出願特願２０１８－１７２６７５を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

１００　画像処理装置
１０１ａ～１０１ｚ　カメラ
１０２　入力部
１０３　環境情報取得部
１０４　端末
１０５　ファイル生成部
１０６　メタ情報付与部
１０７　出力部
１０８　保存部

Claims

　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて生成される仮想視点画像に係る画像処理装置であって、
　前記複数の画像データを入力する入力手段と、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として、前記入力手段によって入力された画像データに付与する付与手段と
を備えることを特徴とする画像処理装置。
　前記付与手段は、前記入力手段によって入力された画像データのフレーム単位で前記メタ情報を付与することを特徴とする請求項１に記載の画像処理装置。
　前記付与手段は、前記入力手段によって入力された画像データに基づいて生成される３Ｄモデル単位で前記メタ情報を付与することを特徴とする請求項１に記載の画像処理装置。
　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて仮想視点画像を生成する画像処理装置であって、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として付与された画像データを格納する格納手段と、
　前記画像データの検索条件を入力する入力手段と、
　前記格納手段に格納された画像データのメタ情報を取得する取得手段と、
　前記検索条件に合致する前記メタ情報が存在する場合に、当該メタ情報を有する画像データから仮想視点画像を生成する生成手段と、
　前記メタ情報を有する画像データから分離したメタ情報を、前記生成手段で生成された仮想視点画像に付与する付与手段と
を備えることを特徴とする画像処理装置。
　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて仮想視点画像を生成する画像処理装置であって、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として付与された仮想視点画像を格納する格納手段と
　前記仮想視点画像の検索条件を入力する入力手段と、
　前記格納手段に格納された仮想視点画像のメタ情報を読み出す読出し手段と、
　前記検索条件に合致する前記メタ情報が存在する場合に、当該メタ情報を有する仮想視点画像を出力する出力手段と
を備えることを特徴とする画像処理装置。
　前記出力手段によって出力された仮想視点画像のメタ情報に対応する画像データを選択する選択手段をさらに備え、
　前記出力手段は、前記選択手段によって選択された画像データを用いて再生成された仮想視点画像を出力することを特徴とする請求項５に記載の画像処理装置。
　前記撮像設定情報は、撮像場所、撮像日時、イベント内容、撮像装置情報の少なくとも１つを含むことを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
　前記撮像装置情報は、撮像装置の注視点の位置、撮像装置の台数、撮像装置の配置、撮像装置の姿勢、焦点距離の少なくとも１つを含むことを特徴とする請求項７に記載の画像処理装置。
　前記撮像状況情報は、撮像時の気象情報を含むことを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
　前記撮像対象情報は、対象の名称、対象群の名称の少なくとも１つを含むことを特徴とする請求項１乃至９のいずれか１項に記載の画像処理装置。
　前記撮像権利情報は、撮像に関する権利者に関する情報、画像に関する権利者に関する情報の少なくとも１つを含むことを特徴とする請求項１乃至１０のいずれか１項に記載の画像処理装置。
　前記画像データのメタ情報は、ＩＳＯＢＭＦＦを用いて付与されることを特徴とする請求項１乃至１１のいずれか１項に記載の画像処理装置。
　前記画像データのメタ情報は、Ｅｘｉｆを用いて付与されることを特徴とする請求項１乃至１１のいずれか１項に記載の画像処理装置。
　前記仮想視点画像のメタ情報は、Ｈ．２６５符号化方式を用いて符号化された仮想視点画像のビットストリームに付与されることを特徴とする請求項１乃至１３のいずれか１項に記載の画像処理装置。
　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて生成される仮想視点画像に係る画像処理方法であって、
　前記複数の画像データを入力する入力工程と、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として前記入力工程で入力された画像データに付与する付与工程と
を含むことを特徴とする画像処理方法。
　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて仮想視点画像を生成する画像処理方法であって、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として付与された画像データを格納する格納工程と、
　前記画像データの検索条件を入力する入力工程と、
　前記格納工程で格納された画像データのメタ情報を取得する取得工程と、
　前記検索条件に合致する前記メタ情報が存在する場合に、当該メタ情報を有する画像データから仮想視点画像を生成する生成工程と、
　前記メタ情報を有する画像データから分離したメタ情報を、前記生成工程で生成された仮想視点画像に付与する付与工程と
を含むことを特徴とする画像処理方法。
　複数の撮像装置によって撮像領域を撮像することにより得られる複数の画像データに基づいて仮想視点画像を生成する画像処理方法であって、
　撮像設定情報、撮像状況情報、撮像対象情報、撮像権利情報の少なくとも１つをメタ情報として付与された仮想視点画像を格納する格納工程と、
　前記仮想視点画像の検索条件を入力する入力工程と、
　前記格納工程で格納された仮想視点画像のメタ情報を読み出す読出し工程と、
　前記検索条件に合致する前記メタ情報が存在する場合に、当該メタ情報を有する仮想視点画像を出力する出力工程と
を含むことを特徴とする画像処理方法。
　コンピュータを、請求項１乃至１４のいずれか１項に記載の画像処理装置として機能させるためのプログラム。