JPWO2016203896A1

JPWO2016203896A1 - 生成装置

Info

Publication number: JPWO2016203896A1
Application number: JP2017524746A
Authority: JP
Inventors: 渡部　秀一; 秀一渡部; 琢也岩波; 嬋斌倪
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-06-16
Filing date: 2016-05-18
Publication date: 2018-04-19
Also published as: WO2016203896A1; US20180160198A1; CN107683604A

Abstract

映像データの再生や管理に利用することのできる新たな記述情報を生成する。撮影装置（１）は、映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部（１７）と、上記映像のデータに関する記述情報として、上記位置情報を含むリソース情報を生成するリソース情報生成部（１８）と、を備えている。

Description

本発明は、映像の再生に利用することのできる記述情報の生成装置、該記述情報を送信する送信装置、および該記述情報を用いて映像を再生する再生装置等に関する。

近年では、例えばデジタルカメラ、撮影機能の付いたスマートフォン、タブレット等の撮影装置は広く普及しており、特に、スマートフォンをはじめとする、携帯可能で撮影機能を備えた装置は爆発的に普及している。そして、これにより、多くのユーザが大量のメディアデータを所有するようになり、またこのようなメディアデータがインターネット（クラウド）上に蓄積される量も膨大になってきている。

そして、このようなメディアデータの管理には、ＧＰＳ（Global Positioning System）によって取得したロケータ情報や、撮影時に取得した撮影時刻等を示す記述情報（メタデータ）が利用されている。例えば、下記の非特許文献１に記載のＥＸＩＦ（Exchangeable image file format）には、画像用の記述情報が規定されている。このような記述情報をメディアデータに添付しておくことにより、撮影位置や撮影時刻を基準にメディアデータを整理して管理することができる。

"Exif Exchangeable Image File Format, Version 2.2"、［online］、［平成27年6月12日検索］、インターネット〈URL：http://www.digitalpreservation.gov/formats/fdd/fdd000146.shtml〉

しかしながら、上述のように、近時では様々なユーザが撮影した様々な映像が蓄積されるようになっており、撮影位置や撮影時刻を示す記述情報のみでは、膨大な映像の中から所望の映像を抽出することさえ困難になっている。

本発明は、上記の点に鑑みてなされたものであり、その目的は、映像データの再生や管理等に利用することのできる新たな記述情報を生成することのできる生成装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る生成装置は、映像のデータに関する記述情報の生成装置であって、上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部と、上記映像のデータに関する記述情報として、上記位置情報を含む記述情報を生成する記述情報生成部と、を備えている。

また、本発明の一態様に係る他の生成装置は、上記の課題を解決するために、映像のデータに関する記述情報の生成装置であって、上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部と、上記映像を撮影した撮影装置の位置を示す位置情報を取得する撮影情報取得部と、上記映像のデータに関する記述情報として、上記対象情報取得部が取得した位置情報と、上記撮影情報取得部が取得した位置情報との何れの位置情報を含むかを示す情報を含むと共に、該情報が示す位置情報を含む記述情報を生成する記述情報生成部と、を備えている。

そして、本発明の一態様に係るさらに他の生成装置は、上記の課題を解決するために、動画像のデータに関する記述情報の生成装置であって、上記動画像の撮影開始から終了までの複数の異なる時点における、該動画像の撮影位置または上記動画像中の所定のオブジェクトの位置を示す位置情報をそれぞれ取得する情報取得部と、上記動画像のデータに関する記述情報として、複数の異なる時点における上記位置情報を含む記述情報を生成する記述情報生成部と、を備えている。

本発明の上記各態様によれば、映像データの再生や管理に利用することのできる新たな記述情報を生成することができるという効果を奏する。

本発明の実施形態１に係るメディア関連情報生成システムに含まれる各装置の要部構成の例を示すブロック図である。上記メディア関連情報生成システムの概要を説明する図である。リソース情報を用いてメディアデータを再生する例を示す図である。撮影装置がリソース情報を生成する例と、撮影装置とサーバがリソース情報を生成する例とを示す図である。再生情報の記述・制御単位の例を示す図である。静止画像を対象としたリソース情報のシンタックスの一例を示す図である。動画像を対象としたリソース情報のシンタックスの一例を示す図である。メディアデータが静止画像である場合にリソース情報を生成する処理の一例を示すフローチャートである。メディアデータが動画像である場合にリソース情報を生成する処理の一例を示すフローチャートである。環境情報のシンタックスの例を示す図である。２つのメディアデータの再生態様を規定した再生情報の例を示す図である。２つのメディアデータの再生態様を規定した再生情報の別の例を示す図である。時刻シフトの情報を含む再生情報の例を示す図である。再生対象のメディアデータが位置指定情報によって指定されている再生情報の例を示す図である。指定位置と厳密には一致しない近傍位置の映像を再生する利点を説明する図である。再生対象のメディアデータが位置指定情報によって指定されている再生情報の他の例を示す図である。再生対象のメディアデータが位置指定情報と時期指定情報とのペアによって指定されている再生情報の例を示す図である。再生対象のメディアデータが位置指定情報と時期指定情報とのペアによって指定されている再生情報の他の例を示す図である。本発明の実施形態２に係るメディア関連情報生成システムの概要の一部を説明する図である。静止画像を対象としたリソース情報のシンタックスの一例を示す図である。動画像を対象としたリソース情報のシンタックスの一例を示す図である。メディアデータの再生態様を規定した再生情報の例を示す図である。撮影装置の視野および視心を示す図である。図１９における撮影装置の視野および視心を示す図である。メディアデータの再生態様を規定した再生情報の別の例を示す図である。

〔実施形態１〕
以下、本発明の実施形態１について、図１から図１８に基づいて詳細に説明する。

〔システムの概要〕
まず、本実施形態に係るメディア関連情報生成システム１００の概要を図２に基づいて説明する。図２は、メディア関連情報生成システム１００の概要を説明する図である。メディア関連情報生成システム１００は、例えば動画像や静止画像などのメディアデータの再生に関連する記述情報（メタデータ）を生成するシステムであり、図示のように、撮影装置（生成装置）１、サーバ（生成装置）２、および再生装置３を含む。

撮影装置１は、映像（動画像または静止画像）を撮影する機能を備えていると共に、撮影時刻を示す時刻情報、および撮影位置または撮影対象のオブジェクトの位置を示す位置情報を含むリソース情報（ＲＩ：Resource Information）を生成する機能を備えている。図示の例では、♯１〜♯ＭまでのＭ台の撮影装置１が撮影対象のオブジェクトを囲むように円形に配置されているが、撮影装置１は少なくとも１台あればよく、また撮影装置１の配置（オブジェクトに対する相対位置）も任意である。詳細は後述するが、リソース情報にオブジェクトの位置情報が含まれている場合には、１つのオブジェクトに関連するメディアデータを同期再生させることが容易になる。

サーバ２は、撮影によって得られたメディアデータ（静止画像または動画像）と、上記のリソース情報とを撮影装置１から取得して再生装置３に送信する。また、サーバ２は、撮影装置１から受信したメディアデータを解析することにより、新たにリソース情報を生成する機能も備えており、リソース情報を生成したときには、生成したリソース情報を再生装置３に送信する。

また、サーバ２は、撮影装置１から取得したリソース情報を用いて再生情報（ＰＩ：Presentation Information）を生成する機能も備えており、再生情報を生成したときには、生成した再生情報も再生装置３に送信する。詳細は後述するが、再生情報は、メディアデータの再生態様を規定した情報であり、再生装置３はこの再生情報を参照することにより、リソース情報に応じた態様でメディアデータを再生することができる。なお、本図ではサーバ２を１台の装置とする例を示したが、クラウド技術を利用して、複数台の装置によって仮想的にサーバ２を構成してもよい。

再生装置３は、サーバ２から取得したメディアデータを再生する装置である。上述のように、サーバ２は、メディアデータと共にリソース情報を再生装置３に送信するので、再生装置３は、受信したリソース情報を用いてメディアデータを再生する。また、メディアデータと共に再生情報を受信した場合には、再生情報を用いてメディアデータを再生することもできる。また、再生装置３は、再生装置３の位置や向き等を示す環境情報（ＥＩ：Environment Information）を生成する機能も備えており、環境情報を参照してメディアデータを再生する。なお、環境情報の詳細は後述する。

図示の例では、♯１〜♯ＮまでのＮ台の再生装置３がメディアデータを視聴するユーザを囲むように円形に配置されているが、再生装置３は少なくとも１台あればよく、また再生装置３の配置（ユーザに対する相対位置）も任意である。

〔リソース情報に基づく再生の例〕
次に、リソース情報に基づく再生の例を図３に基づいて説明する。図３は、リソース情報を用いてメディアデータを再生する例を示す図である。リソース情報は、時刻情報と位置情報を含むので、リソース情報を参照することにより、複数のメディアデータの中から、時間的および位置的に近くで撮影されたメディアデータを抽出することができる。また、リソース情報を参照することにより、抽出したメディアデータを、時刻および位置を同期させて再生することもできる。

例えば、お祭りやコンサートなどの多くのユーザが同時に参加するイベントでは、各参加者がスマートフォン等で思い思いに撮影を行う。このような撮影で得られたメディアデータは、撮影されているオブジェクトも撮影時刻も多様なものとなる。しかし、従来技術では、上記のようなリソース情報をメディアデータに付与することは行われていなかった。このため、同じオブジェクトを撮影したメディアデータを抽出するには映像解析等が必要であり、同じオブジェクトを撮影したメディアデータの同期再生は敷居が高かった。

これに対し、メディア関連情報生成システム１００では、各メディアデータにリソース情報を付与するので、このリソース情報を参照することにより、撮影したオブジェクトが同じであるメディアデータを容易に抽出することができる。例えば、特定の人物を撮影した映像を抽出することも容易である。

また、リソース情報には位置情報が含まれているので、該位置情報の示す位置に応じた態様でメディアデータを再生することも可能になる。例えば、同じ時刻に同じオブジェクトをそれぞれ異なる撮影装置１にて撮影することによって得られたＡ〜Ｃの３つのメディアデータを再生する場合を考える。この場合、同図の（ａ）のように再生装置３が１つであれば、各メディアデータの表示位置を、該メディアデータの撮影位置、あるいは撮影装置１とオブジェクト位置との距離に応じた位置とすることができる。

また、リソース情報には、オブジェクトの向きを示す方向情報を含めることができる。この方向情報を参照することにより、例えば、オブジェクトの正面からの撮影で得られたメディアデータを表示画面の中央に表示し、オブジェクトの側方からの撮影で得られたメディアデータを表示画面の側方に表示することもできる。

また、同図の（ｂ）のように、複数の再生装置３が存在する場合、該再生装置３の位置に応じた位置情報を含むリソース情報が対応付けられたメディアデータを表示させてもよい。例えば、撮影位置の左斜め前方のオブジェクトを撮影したメディアデータを、ユーザの左斜め前方の再生装置３に再生させ、撮影位置の正面のオブジェクトを撮影したメディアデータを、ユーザの正面の再生装置３に再生させることも可能である。このように、リソース情報は、複数の再生装置３におけるメディアデータの同期再生に利用することもできる。

〔各装置の要部構成〕
次に、メディア関連情報生成システム１００に含まれる各装置の要部構成を図１に基づいて説明する。図１は、メディア関連情報生成システム１００に含まれる各装置の要部構成の例を示すブロック図である。

〔撮影装置の要部構成〕
撮影装置１は、撮影装置１の各部を統括して制御する制御部１０、映像（静止画像または動画像）を撮影する撮影部１１、撮影装置１が使用する各種データを格納する記憶部１２、および撮影装置１が他の装置と通信するための通信部１３を備えている。また、制御部１０には、撮影情報取得部（情報取得部）１６、対象情報取得部（情報取得部）１７、リソース情報生成部（記述情報生成部）１８、およびデータ送信部１９が含まれている。なお、撮影装置１は、撮影以外の機能を備えていてもよく、例えばスマートフォン等の多機能装置であってもよい。

撮影情報取得部１６は、撮影部１１が実行した撮影に関する情報を取得する。具体的には、撮影情報取得部１６は、撮影時刻を示す時刻情報、および撮影位置を示す位置情報を取得する。なお、撮影位置は、撮影を行った時の撮影装置１の位置である。撮影装置１の位置を示す位置情報の取得方法は特に限定されないが、例えば撮影装置１がＧＰＳを利用した位置情報の取得機能を備えている場合には、該機能を用いて位置情報を取得してもよい。また、撮影情報取得部１６は、撮影時の撮影装置１の向き（撮影方向）を示す方向情報も取得する。

対象情報取得部１７は、撮影部１１が撮影した映像中の所定のオブジェクトに関する情報を取得する。具体的には、対象情報取得部１７は、撮影部１１が撮影した映像を解析（深度解析）することにより、該映像中の所定のオブジェクト（映像の焦点が合っている被写体）までの距離を特定する。そして、特定した距離と撮影情報取得部１６が取得した撮影位置とから、オブジェクトの位置を示す位置情報を算出する。また、対象情報取得部１７は、オブジェクトの向きを示す方向情報も取得する。なお、オブジェクトまでの距離の特定には、例えば赤外線距離計やレーザ距離計等のような、距離を計測する装置を利用してもよい。

リソース情報生成部１８は、撮影情報取得部１６が取得した情報と、対象情報取得部１７が取得した情報とを用いてリソース情報を生成し、生成したリソース情報を、撮影部１１の撮影によって得られたメディアデータに付与する。

データ送信部１９は、撮影部１１の撮影によって生成されたメディアデータ（リソース情報生成部１８が生成したリソース情報が付与されたもの）をサーバ２に送信する。なお、メディアデータの送信先はサーバ２に限られず、再生装置３に送信してもよいし、これら以外の他の装置に送信してもよい。また、撮影装置１が再生機能を備えている場合には、生成したリソース情報を用いてメディアデータを再生してもよく、この場合、メディアデータを送信しなくともよい。

〔サーバの要部構成〕
サーバ２は、サーバ２の各部を統括して制御するサーバ制御部２０、サーバ２が他の装置と通信するためのサーバ通信部２１、およびサーバ２が使用する各種データを格納するサーバ記憶部２２、を備えている。また、サーバ制御部２０には、データ取得部（対象情報取得部、撮影情報取得部、対象情報取得部）２５、リソース情報生成部（記述情報生成部）２６、再生情報生成部２７、およびデータ送信部２８が含まれている。

データ取得部２５は、メディアデータを取得する。また、データ取得部２５は、取得したメディアデータにリソース情報が付与されていない場合、あるいは付与されているリソース情報にオブジェクトの位置情報が含まれていない場合には、オブジェクトの位置情報を生成する。具体的には、データ取得部２５は、複数のメディアデータの映像解析により、各映像中のオブジェクトの位置を特定し、特定した位置を示す位置情報を生成する。

リソース情報生成部２６は、データ取得部２５が生成した位置情報を含むリソース情報を生成する。なお、リソース情報生成部２６によるリソース情報の生成は、データ取得部２５が位置情報を生成した場合に行われる。リソース情報生成部２６は、撮影装置１のリソース情報生成部１８と同様にしてリソース情報を生成する。

再生情報生成部２７は、データ取得部２５が取得したメディアデータに付与されているリソース情報、およびリソース情報生成部２６が生成したリソース情報の少なくとも何れかに基づいて再生情報を生成する。ここでは、生成した再生情報をメディアデータに付与する例を説明するが、生成した再生情報は、メディアデータとは別に配信し、流通させてもよい。再生情報を配信することにより、リソース情報およびメディアデータを複数の再生装置３で利用することが可能になる。

データ送信部２８は、再生装置３にメディアデータを送信する。このメディアデータには、上述のリソース情報が付与されている。なお、リソース情報は、メディアデータとは別に送信してもよい。この場合、複数のメディアデータのリソース情報をまとめて、全体リソース情報として送信してもよい。上記全体リソース情報は、バイナリデータであってもよいし、ＸＭＬ（eXtensible Markup Language）などの構造化データであってもよい。また、データ送信部２８は、再生情報生成部２７が再生情報を生成した場合には再生情報も送信する。なお、再生情報は、リソース情報と同様に、メディアデータに付与して送信してもよい。データ送信部２８は、再生装置３からのリクエストに応じてメディアデータを送信してもよいし、リクエストによらず送信してもよい。

〔再生装置の要部構成〕
再生装置３は、再生装置３の各部を統括して制御する再生装置制御部３０、再生装置３が他の装置と通信するための再生装置通信部３１、再生装置３が使用する各種データを格納する再生装置記憶部３２、および映像を表示する表示部３３を備えている。また、再生装置制御部３０には、データ取得部３６、環境情報生成部３７、および再生制御部３８が含まれている。なお、再生装置３は、メディアデータの再生以外の機能を備えていてもよく、例えばスマートフォン等の多機能装置であってもよい。

データ取得部３６は、再生装置３が再生するメディアデータを取得する。本実施形態では、データ取得部３６は、サーバ２からメディアデータを取得するが、上述のように撮影装置１から取得してもよい。

環境情報生成部３７は、環境情報を生成する。具体的には、環境情報生成部３７は、再生装置３の識別情報（ＩＤ）、再生装置３の位置を示す位置情報、および再生装置３の表示面の向きを示す方向情報を取得し、これらの情報を含む環境情報を生成する。

再生制御部３８は、リソース情報、再生情報、および環境情報の少なくとも何れかを参照してメディアデータの再生制御を行う。これらの情報を用いた再生制御の詳細は後述する。

〔リソース情報の生成主体と生成主体に応じたリソース情報〕
次に、リソース情報の生成主体と生成主体に応じたリソース情報について図４に基づいて説明する。図４は、撮影装置１がリソース情報を生成する例と、撮影装置１とサーバ２がリソース情報を生成する例とを示す図である。

同図の（ａ）は、撮影装置１がリソース情報を生成する例を示している。この例においては、撮影装置１は、撮影によりメディアデータを生成すると共に、撮影位置を示す位置情報を生成し、さらに、撮影したオブジェクトの位置を算出し、該位置を示す位置情報も生成する。これにより、撮影装置１がサーバ２に送信するリソース情報（ＲＩ）は、撮影位置とオブジェクトの位置の双方を示すものとなる。この場合、サーバ２においては、リソース情報を生成する必要はなく、撮影装置１から取得したリソース情報をそのまま再生装置３に送信すればよい。

一方、同図の（ｂ）は、撮影装置１とサーバ２がリソース情報を生成する例を示している。この例においては、撮影装置１は、オブジェクトの位置は算出せず、撮影位置を示す位置情報を含むリソース情報をサーバ２に送信する。次に、サーバ２のデータ取得部２５は、各撮影装置１から受信したメディアデータを画像解析して各メディアデータにおけるオブジェクトの位置を検出する。オブジェクトの位置を求めることにより、オブジェクトに対する撮影装置１の相対位置を求めることが可能になる。そこで、データ取得部２５は、撮影装置１から受信したリソース情報の示す撮影位置、すなわち撮影時における撮影装置１の位置と、検出した上記オブジェクトの位置とを用いて、各メディアデータにおけるオブジェクトの位置を求める。そして、サーバ２のリソース情報生成部２６は、撮影装置１から受信したリソース情報が示す撮影位置と、上記のようにして求めたオブジェクトの位置とを示すリソース情報を生成し、再生装置３に送信する。

なお、同図の（ａ）（ｂ）の方法の代わりに、マーカによりオブジェクトの位置を特定する方法を採用してもよい。つまり、位置情報が既知のオブジェクトをマーカとして予め設定しておき、そのマーカが被写体となっている映像については、既知である上記位置情報をオブジェクトの位置情報として適用してもよい。

〔再生情報の記述・制御単位〕
図２に示したように、再生情報はサーバ２から再生装置３に送信されて、メディアデータの再生に用いられるが、再生情報はメディアデータを再生する再生装置３のそれぞれに送信してもよいし、メディアデータを再生する再生装置３の一部に送信してもよい。これについて、図５に基づいて説明する。図５は、再生情報の記述・制御単位の例を示す図である。

同図の（ａ）は、メディアデータを再生する再生装置３のそれぞれに再生情報を送信する例を示している。この場合、サーバ２は、各再生装置３に応じた再生情報をそれぞれ生成し、当該再生情報に応じた再生装置３に送信する。例えば、図示の例では、♯１〜♯ＮのＮ台の再生装置３に対し、ＰＩ_１〜ＰＩ_ＮのＮ種類の再生情報を生成している。そして、♯１の再生装置３には、該再生装置３向けに生成したＰＩ_１の再生情報を送信する。また、♯２以降の再生装置３についても同様に、該再生装置３向けに生成した再生情報を送信する。なお、各再生装置３向けの再生情報は、例えば該再生装置３から環境情報を取得して、該環境情報に基づいて生成してもよい。

一方、同図の（ｂ）は、メディアデータを再生する再生装置３の１つに再生情報を送信する例を示している。より詳細には、♯１〜♯ＮのＮ台の再生装置３のうち、マスターに設定された再生装置３（以下、マスターと呼ぶ）に再生情報を送信している。そして、マスターは、スレーブに設定された再生装置３（以下スレーブと呼ぶ）に対し、コマンドまたは部分ＰＩ（マスターが取得した再生情報の一部）を送信する。これにより、同図の（ａ）の例と同様に、各再生装置３において、メディアデータを同期再生することが可能になる。

同図の（ｂ）のように、一部の再生装置３（マスター）にのみ再生情報を送信する場合、該再生情報には、マスターの動作を規定する情報と、スレーブの動作を規定する情報との双方を記述する。例えば、図示の例においてマスターに送信されている再生情報（presentation_information）には、開始時刻ｔ１から期間ｄ１にわたって同時に再生する映像のＩＤが列挙されていると共に、各ＩＤには該映像を表示させる装置を示す情報が対応付けられている。具体的には、２つ目のＩＤ（video ID）には、♯２の再生装置３を指定する情報（dis2）が対応付けられており、３つ目のＩＤには、♯Ｎの再生装置３を指定する情報（disN）が対応付けられている。なお、装置の指定がない１つ目のＩＤは、マスターを指定している。

これにより、同図の再生情報を受信したマスターは、１つ目のＩＤの映像を時刻ｔ１から再生することを決定する。また、マスターは、２つ目のＩＤの映像をスレーブである♯２の再生装置３に時刻ｔ１から再生させると共に、３つ目のＩＤの映像をスレーブである♯Ｎの再生装置３に時刻ｔ１から再生させることを決定する。そして、マスターは、スレーブにコマンド（時刻ｔ１と再生対象の映像を示す情報とを含む命令）または再生情報の一部（送信先のスレーブに関する情報が含まれる部分）を送信する。このような構成によっても、♯１〜♯Ｎの再生装置３によりメディアデータを時刻ｔ１から同期再生することが可能になる。

〔リソース情報の例（静止画像）〕
次に、リソース情報の例を図６に基づいて説明する。図６は、静止画像を対象としたリソース情報のシンタックスの一例を示す図である。図示のシンタックスに係るリソース情報では、画像のプロパティ（image property）として、メディアＩＤ（media_ID）、ＵＲＩ（Uniform Resource Identifier）、位置フラグ（position_flag）、撮影時刻（shooting_time）、および位置情報が記述可能である。メディアＩＤは撮影された画像を一意に特定する識別子であり、撮影時刻は該画像を撮影した時刻を示す情報であり、ＵＲＩは撮影された画像の実データの所在地を示す情報である。ＵＲＩとしては、例えばＵＲＬ（Uniform Resource Locator）を用いてもよい。

位置フラグは、位置情報の記録形式（対象情報取得部１７が取得した位置情報と、上記撮影情報取得部１６が取得した位置情報との何れの位置情報を含むかを示す情報）を示す情報である。図示の例では、位置フラグの値が「01」である場合には、撮影情報取得部１６が取得した、撮影装置１を基準とした（camera-centric）位置情報が含まれる。一方、位置フラグの値が「10」である場合には、対象情報取得部１７が取得した、撮影対象であるオブジェクトを基準とした（object-centric）の位置情報が含まれる。そして、位置フラグの値が「11」である場合には、これら両方の形式の位置情報が含まれる。

具体的には、撮影装置を基準とした位置情報には、撮影装置の絶対位置を示す位置情報（global_position）と、撮影装置の向き（撮影方向）を示す方向情報（facing_direction）とを記述可能である。なお、global_positionは、グローバル座標系における位置を示している。図示の例では、「if (position_flag==01 || position_flag==11) {」の後の２行が撮影装置を基準とした位置情報である。

一方、オブジェクトを基準とした位置情報には、基準とされるオブジェクトの識別子であるオブジェクトＩＤ（object_ID）と、オブジェクトの位置を含む否かを示すオブジェクト位置フラグ（object_pos_flag）とを記述可能である。図示の例では、「if (position_flag==10 || position_flag==11) {」の後の９行がオブジェクトを基準とした位置情報である。

なお、オブジェクト位置フラグが、値（1）である場合、図示のように、オブジェクトの絶対位置を示す位置情報（global_position）と、オブジェクトの向きを示す方向情報（facing_direction）とが記述される。さらに、オブジェクトに対する撮影装置の相対位置情報（relative_position）、撮影方向を示す方向情報（facing_direction）、およびオブジェクトから撮影装置までの距離（distance）についても記述可能である。

オブジェクト位置フラグは、例えばサーバ２でリソース情報を生成する場合に、複数の撮影装置１で撮影された映像中に、共通のオブジェクトが含まれていたときなどに"0"とされる。オブジェクト位置フラグを"0"とする場合、当該共通のオブジェクトの位置情報については１回のみ記述し、それ以降に該位置情報を参照する際には当該オブジェクトのＩＤを介して参照する。これにより、オブジェクトの位置情報を全て記述する場合と比べて、リソース情報の記述量を削減することができる。ただし、同じオブジェクトであっても撮影時刻が異なればその位置が変わることはあり得る。すなわち、正確には、同じ撮影時刻のオブジェクトがあり、そしてそのオブジェクトの位置情報の記述が既にあれば省略可とし、ない場合には位置情報を記述することとする。また、記録された静止画像のそれぞれを様々な用途で活用するために独立させておきたい場合には、常にオブジェクト位置フラグを"0"とし、それぞれに絶対位置情報を書くとしてもよい。

なお、オブジェクトが共通であっても、撮影位置は撮影装置１毎に異なるから、オブジェクト位置フラグを"0"とした場合でも、撮影装置１の相対位置情報は全て記述する。

ここではオブジェクトの向きを示す方向情報が、オブジェクトの正面方向を示す情報である例を説明するが、方向情報はオブジェクトの向きを示すものであればよく、正面方向を示すものに限られない。例えば、方向情報がオブジェクトの背面方向を示すものであってよい。

上述の位置情報および方向情報は、例えば同図の（ｂ）に示すような形式で記述してもよい。同図の（ｂ）の位置情報（global_position）は、互いに直交する３軸（ｘ，ｙ，ｚ）で規定される空間上の位置を示す情報である。なお、位置情報は、３軸の位置情報であればよく、例えば緯度、経度、および高度を位置情報としてもよい。また、例えばイベント会場において撮影された画像のリソース情報を生成する場合には、当該イベント会場における所定の位置に設定した原点を基準として３軸（ｘ，ｙ，ｚ）を設定し、この３軸で規定される空間内における位置を位置情報としてもよい。

また、同図の（ｂ）の方向情報（facing_direction）は、撮影方向またはオブジェクトの向きを水平方向の角度（pan）と、仰角または伏角（tilt）との組み合わせによって示す情報である。同図の（ａ）に示したように、方向情報（facing_direction）と、オブジェクトから撮影装置までの距離（distance）とが、相対位置情報（relative_position）に含まれている。

方向情報において、水平方向の角度を示す情報としては、方位（方角）を用いてもよく、仰角または伏角を示す情報としては、水平方向に対する傾き角度を用いてもよい。この場合、水平方向の角度は、グローバル座標において、北を０として、時計回りで０以上３６０未満の値で表すことができる。また、ローカル座標においては、原点方向を０、時計回りで０以上３６０未満の値で表すことができる。なお、原点方向は適宜設定すればよく、例えば撮影方向を表すときには、撮影装置１からオブジェクトに向かう方向を０としてもよい。

また、オブジェクトの正面が不定の場合、オブジェクトの方向情報は、例えば−１や３６０のような、通常の方向を示す場合には使用されない値として、正面が不定であることを明示することが好ましい。なお、水平方向の角度（pan）のデフォルト値は０とすればよい。

また、撮影装置１が３６０度カメラ（１度に撮影可能な範囲が撮影装置１の周囲３６０にわたるカメラ、全周カメラとも呼ばれる）である場合、撮影装置１の撮影方向は全方向となり、撮影装置１の周囲のあらゆる方向の映像が切り出し可能となる。この場合、撮影装置１が３６０度カメラであること、あるいは全方向の映像が切り出し可能であることが特定できる情報を記述しておくことが好ましい。例えば、水平方向の角度（pan）の値を361として360度カメラであることを明示してもよい。また、例えば、水平方向の角度（pan）および仰角または伏角（tilt）の値をデフォルト値（０）とし、それとは別に全周カメラで撮影したことを示す記述子を用意して、これをリソース情報に記述してもよい。

〔リソース情報の例（動画像）〕
続いて、動画像のリソース情報の例を図７に基づいて説明する。図７は、動画像を対象としたリソース情報のシンタックスの一例を示す図である。図示のリソース情報は、図６の（ａ）のリソース情報と概ね同様であるが、撮影開始時刻（shooting_start_time）および撮影継続時間（shooting_duration）が含まれている点で相違している。

動画像の場合は、撮影中に撮影装置およびオブジェクトの位置が変化し得るので、リソース情報には、所定の継続時間毎に位置情報を含める。つまり、撮影が継続している間、撮影時刻とその時刻に応じた位置情報との組み合わせをリソース情報に記述する処理が、所定の継続時間毎にループして（繰り返して）実行される。よって、動画像のリソース情報には、撮影時刻とその時刻に応じた位置情報との組み合わせが、所定の継続時間毎に繰り返し記述されることになる。ここで言う所定の継続時間は、定期的な固定間隔の時間であってもよいし、不定期な非固定間隔の時間であってもよい。不定期の場合、非固定間隔の時間は、撮影位置が変わった、オブジェクト位置が変わった、あるいは撮影対象が別のオブジェクトに移ったことを検出してその検出時刻を登録することで決定される。

〔リソース情報を生成する処理の流れ（静止画像）〕
次に、メディアデータが静止画像である場合にリソース情報を生成する処理の流れを図８に基づいて説明する。図８は、メディアデータが静止画像である場合にリソース情報を生成する処理の一例を示すフローチャートである。

撮影装置１において、撮影部１１が静止画像を撮影する（Ｓ１）と、撮影情報取得部１６は撮影情報を取得し（Ｓ２）、対象情報取得部１７は対象情報を取得する（Ｓ３）。より詳細には、撮影情報取得部１６は、撮影時刻を示す時刻情報、および撮影位置を示す位置情報を取得し、対象情報取得部１７はオブジェクトの位置情報およびオブジェクトの方向情報を取得する。

そして、リソース情報生成部１８は、撮影情報取得部１６が取得した撮影情報と、対象情報取得部１７が取得した対象情報を用いてリソース情報を生成し（Ｓ４）、データ送信部１９に出力する。本例では、Ｓ３で対象情報を取得しているので、リソース情報生成部１８は、位置フラグの値を"10"とする。なお、撮影装置１を基準とした位置情報も記述する場合には、位置フラグの値を"11"とする。また、Ｓ３の処理を行わず、撮影装置１を基準とした位置情報のみを記述する場合には、位置フラグの値を"01"とする。

最後に、データ送信部１９は、Ｓ４で生成されたリソース情報を対応付けたメディアデータ（Ｓ１の撮影によって生成された静止画像のメディアデータ）を、通信部１３を介してサーバ２に送信し（Ｓ５）、これにより図示の処理は終了する。なお、リソース情報の送信先はサーバ２に限られず、例えば再生装置３に送信してもよい。また、撮影装置１が静止画像の再生（表示）機能を備えている場合、生成したリソース情報は撮影装置１における静止画像の再生（表示）に使用してもよく、この場合、リソース情報を送信するＳ５は省略してもよい。

〔リソース情報を生成する処理の流れ（動画像）〕
続いて、メディアデータが動画像である場合にリソース情報を生成する処理の流れを図９に基づいて説明する。図９は、メディアデータが動画像である場合にリソース情報を生成する処理の一例を示すフローチャートである。

撮影部１１が動画像の撮影を開始する（Ｓ１０）と、撮影情報取得部１６は撮影情報を取得し（Ｓ１１）、対象情報取得部１７は対象情報を取得する（Ｓ１２）。そして、撮影情報取得部１６は取得した撮影情報をリソース情報生成部１８に出力し、対象情報取得部１７は取得した対象情報をリソース情報生成部１８に出力する。これらＳ１１およびＳ１２の処理は、後続のＳ１５で撮影が終了した（Ｓ１５でＹＥＳ）と判定されるまで、所定の継続時間が経過する毎に行われる。

次に、リソース情報生成部１８は、Ｓ１１およびＳ１２の処理で生成された撮影情報および対象情報の少なくとも何れかが変化しているか判定する（Ｓ１３）。この判定は、Ｓ１１およびＳ１２の処理が２回以上行われている場合に実行され、１回前に生成された撮影情報および対象情報の値と、その次に生成された撮影情報および対象情報の値とを比較することで行われる。Ｓ１３では、撮影装置１の位置（撮影位置）、および向き（撮影方向）の少なくとも何れかが変化している場合に、撮影情報が変化したと判定する。また、オブジェクトの位置および向きの少なくとも何れかが変化している場合、あるいは撮影対象が他のオブジェクトに移った場合に対象情報が変化したと判定する。

ここで、変化していないと判定した場合（Ｓ１３でＮＯ）には、Ｓ１５の処理に進む。一方、変化したと判定した場合（Ｓ１３でＹＥＳ）には、リソース情報生成部１８は、変化点を記憶する（Ｓ１４）。つまり、リソース情報生成部１８は、変化したと判定した時刻を記憶すると共に、撮影情報および対象情報のうち変化した方の情報（両方変化していた場合には両方の情報）を記憶する。

リソース情報生成部１８は、撮影が終了したと判定すると（Ｓ１５でＹＥＳ）、撮影情報取得部１６が出力した撮影情報と、対象情報取得部１７が出力した対象情報と、変化点において記憶した上記情報とを用いてリソース情報を生成する（Ｓ１６）。より詳細には、リソース情報生成部１８は、先頭および変化点における撮影情報および対象情報を記述したリソース情報を生成する。すなわち、Ｓ１６で生成されるリソース情報は、撮影情報と対象情報の組が、先頭およびＳ１１〜Ｓ１５の処理で検出された変化点の数だけループした情報となる。そして、リソース情報生成部１８は、生成したリソース情報をデータ送信部１９に出力する。

最後に、データ送信部１９は、Ｓ１４で生成されたリソース情報を対応付けたメディアデータ（Ｓ１０で開始された撮影によって生成されたメディアデータ）を、通信部１３を介してサーバ２に送信し（Ｓ１５）、これにより図示の処理は終了する。

なお、上記の例では、所定の継続時間毎に撮影情報および対象情報の少なくとも何れかが変化しているか判定する（Ｓ１３）ことにより、変化点を検出しているが、変化点の検出方法はこの例に限られない。例えば、撮影位置、撮影方向、オブジェクトの位置、オブジェクトの向き、および撮影対象のオブジェクトの変化を検出する機能を、撮影装置１または他の装置が備えている場合、該機能により変化点を検出してもよい。撮影位置の変化および撮影方向の変化は、例えば加速度センサなどによっても検出可能である。また、オブジェクトの位置や向きの変化（動き）は、例えばカラーセンサや赤外線センサなどによっても検出可能である。他の装置の検出機能を利用する場合には、当該他の装置から撮影装置１に通知が送信されるようにすることにより、撮影装置１にて変化点を検出可能である。また、Ｓ１３およびＳ１４の処理を省略し、固定間隔時間の撮影情報および対象情報を記録してもよい。その場合には、Ｓ１１〜１５の処理でループした回数だけループしたリソース情報が生成される。

〔環境情報の例〕
次に、環境情報ＥＩの例を図１０に基づいて説明する。図１０は、環境情報のシンタックスの例を示す図である。同図の（ａ）には、映像を表示する装置（本実施形態では再生装置３）について記述された環境情報（environment_information）の一例を示している。この環境情報は、再生装置３のプロパティ（display_device_property）として、再生装置３のＩＤ、再生装置３の位置情報（global_position）、および再生装置３の表示面の向きを示す方向情報（facing_direction）を含む。よって、図示の環境情報を参照することにより、再生装置３がどのような位置にどのような向きで配置されているかを特定することができる。

また、同図の（ｂ）に示すように、ユーザ毎の環境情報を記述することも可能である。同図の（ｂ）の環境情報は、ユーザのプロパティ（user_property）として、ユーザのＩＤ、ユーザの位置情報（global_position）、ユーザの正面方向を示す方向情報（facing_direction）、およびユーザの環境にある、映像を表示する装置（本実施形態では再生装置３）の数（num_of_display_device）を含む。また、各再生装置３について、ＩＤ（device_ID）、再生装置３のユーザに対する相対位置（relative_position）、表示面の向きを示す方向情報（facing_direction）、およびユーザまでの距離を示す距離情報（distance）が記述されている。device_IDからdistanceまでの情報は、num_of_display_deviceに示される数だけループする（繰り返される）。なお、上記device_IDにより、同図の（ａ）に示すような再生装置３毎の環境情報を参照可能である。このため、同図の（ｂ）の環境情報を用いて各再生装置３のグローバル位置（global position）を特定する場合には、再生装置３毎の環境情報を参照して特定する。無論、同図の（ｂ）の環境情報に各再生装置３のグローバル位置（global position）を直接記述してもよい。

再生装置３が、ユーザが所持する携帯型の装置である場合、環境情報生成部３７は、該再生装置３の位置を示す位置情報を取得し、これをユーザの位置情報として環境情報に記述してもよい。また、環境情報生成部３７は、ユーザが携帯する他の装置（位置情報を取得する機能を備えていればよく、他の再生装置３であってもよい）から、該装置の位置情報を取得し、これをユーザの位置情報として環境情報に記述してもよい。

また、環境情報生成部３７は、ユーザが再生装置３に入力した再生装置３をユーザの環境にある再生装置３として環境情報に記述してもよいし、ユーザの視聴可能な範囲にある再生装置３を自動で検出して環境情報に記述してもよい。そして、環境情報に記述された他の再生装置３のＩＤ等は、環境情報生成部３７が、当該他の再生装置３から、当該他の再生装置３が生成した環境情報を取得することで記述可能である。

なお、同図の（ｂ）の環境情報では、再生装置３の位置情報（global position）は、再生装置３のＩＤをキーとして、同図（ａ）に示すような再生装置３毎の環境情報を参照することにより特定することを想定している。しかしながら、再生装置３の位置情報（global position）をユーザの環境情報に記述してもよいことは言うまでもない。

〔メディアデータのマッピング〕
リソース情報と環境情報とを参照して、メディアデータのマッピングを行うことができる。例えば、ユーザ毎の環境情報に複数の再生装置３の位置情報が含まれている場合、リソース情報に含まれる位置情報（撮影位置を示すものであってもオブジェクト位置を示すものであってもよい）を参照することにより、それらの位置関係に応じたメディアデータを抽出し、各再生装置３に再生させることができる。また、マッピングの際には、リソース情報に含まれる位置情報が示す位置の間隔と、環境情報に含まれる位置情報が示す位置の間隔とを適合させるためにスケーリングを行ってもよい。例えば、２×２×２の撮像系を１×１×１の表示系にマッピングしてもよく、これにより、直線上に並んだ２ｍ間隔の撮影位置で撮影された３つの映像を、直線上に１ｍ間隔で配置された再生装置３のそれぞれに表示させることもできる。

また、マッピングの範囲に幅を持たせてもよい。例えば、位置{xa, ya, za}に配置された再生装置３にメディアデータをマッピングする場合に、撮影位置を{x1, y1, z1}のように厳密に指定する代わりに、{x1-Δ1, y1-Δ2, z1-Δ3}〜{x1+Δ1, y1+Δ2, z1+Δ3} のように幅のある撮影位置を指定してもよい。

この他にも、リソース情報と環境情報とを参照することにより、再生装置３の位置に応じた映像を生成することも可能である。例えば、ある再生装置３の位置に対応するメディアデータが存在しないが、その近傍の位置に対応するメディアデータは存在する場合に、近傍のメディアデータに補間等の画像処理を施すことにより、上記ある再生装置３の位置に対応するメディアデータを生成してもよい。

このようなマッピングおよびスケーリングは、サーバ２が行ってもよいし、図５の（ｂ）に示したマスターの再生装置３で行ってもよい。サーバ２が行う場合、サーバ制御部２０に、環境情報を取得する環境情報取得部と、再生装置３にメディアデータを再生させる再生制御部とを設ければよい。この場合、再生制御部は、環境情報取得部が取得した環境情報と、データ取得部２５が取得したかまたはリソース情報生成部２６が生成したリソース情報とを用いて上述のようにマッピング（および必要に応じてスケーリング）を行う。そして、再生制御部は、マッピングの結果に従って各再生装置３にメディアデータを送信して再生させる。なお、再生情報生成部２７がマッピングを行い、その結果に従った再生態様を規定した再生情報を生成するようにしてもよい。この場合には、該再生情報を再生装置３に送信することにより、当該再生態様での再生が実現される。

一方、マスターの再生装置３でマッピングを行う場合には、再生制御部３８が、環境情報生成部３７が生成した環境情報と、データ取得部３６が取得したリソース情報とを用いて上述のようにマッピングする。そして、そのマッピングの結果に従って各再生装置３にメディアデータを送信して再生させる。

以上のように、本発明の制御装置（サーバ２／再生装置３）は、表示装置（再生装置３）の配置を示す環境情報を取得する環境情報取得部（環境情報生成部３７）と、上記環境情報に示される配置に応じた位置情報を含むリソース情報が付与されたメディアデータを、該配置の表示装置に再生させる再生制御部（３８）と、を備えていることを特徴としている。これにより、表示装置の配置に応じて、その配置に対応する撮影位置で撮影された映像、またはその配置に対応する位置のオブジェクトを撮影した映像を自動的に表示させることができる。

〔環境情報の更新〕
ユーザの位置は変動し、また再生装置３の位置も変動し得るので、環境情報についてもこれらの位置の変動に合わせて更新することが好ましい。この場合、再生装置３の環境情報生成部３７は、再生装置３の位置を監視し、位置が変化したときに環境情報を更新する。なお、位置の監視は、定期的に位置情報を取得することによって行えばよい。この他にも、例えば、再生装置３が自機の動きや位置の変化を検出する検出部（例えば加速度センサ）を備えている場合には、該検出部により自機の動きや位置の変化が検出されたときに位置情報を取得してもよい。ユーザの位置の監視については、ユーザが携帯している例えばスマートフォンのような装置から定期的に、あるいは該装置の位置の変化が検出されたときに、該装置から位置情報を取得することによって行えばよい。

再生装置３毎の環境情報の更新は、各再生装置３で個別に行えばよい。一方、ユーザ毎の環境情報の更新は、該環境情報を生成する再生装置３が、他の再生装置３から該他の再生装置３が更新した環境情報を取得することによって行ってもよい。また、他の再生装置３が、ユーザ毎の環境情報を生成する再生装置３に対して、主体的に位置の変化（変化後の位置または更新後の環境情報）を通知することによって行ってもよい。

また、環境情報生成部３７は、環境情報の更新において、変化後の位置情報で変化前の位置情報を上書きしてもよいし、変化前の位置情報を残したまま変化後の位置情報を追加してもよい。後者の場合、図７に基づいて説明した動画像のリソース情報における位置情報の記述と同様に、位置情報と位置情報の取得時刻を示す時刻情報との組み合わせからなるループで環境情報（ユーザ毎の環境情報または再生装置３毎の環境情報）を記述してもよい。

時刻情報を含む環境情報は、ユーザおよび再生装置３の位置の移動履歴を示している。このため、時刻情報を含む環境情報を用いることにより、例えば過去のユーザおよび再生装置３の位置に応じた視聴環境を再現することができる。また、ユーザおよび再生装置３の少なくとも何れかが予め決まった動きをする場合には、環境情報において、該動きの終了予定時刻を時刻情報に記述すると共に、該動きの後の位置を位置情報として記述しておいてもよい。これにより、将来のユーザおよび再生装置３の配置を先取りすることができ、リソース情報を参照することにより、環境情報に示される上記配置に応じた映像を自動で特定することも可能になる。

以上のように、本発明の生成装置（再生装置３）は、表示装置（再生装置３）の配置を示す環境情報を生成する生成装置であって、複数の異なる時点における上記表示装置の位置を示す位置情報をそれぞれ取得し、複数の異なる時点における上記位置情報のそれぞれを含む環境情報を生成する環境情報生成部、を備えていることを特徴としている。これにより、表示装置の過去の位置、または表示装置の将来の予想位置に応じた映像を該表示装置に表示させることが可能になる。

〔再生情報の詳細〕
続いて、再生情報ＰＩ（presentation_information）の詳細について図１１から図１８に基づいて説明する。

〔再生情報の例１〕
図１１は、２つのメディアデータの再生態様を規定した再生情報の例を示す図である。具体的には、seqタグを用いて記述されている再生情報（図１１の（ａ）の再生情報、図１２以降も同様）は、２つのメディアデータ（具体的には、seqタグに囲まれている２つの要素に対応する２つのメディアデータ）を連続して再生すべきことを示している。

同様に、parタグを用いて記述されている再生情報（図１１の（ｂ）、（ｃ）の再生情報、図１２以降も同様）は、２つのメディアデータを並列的に再生すべきことを示している。

また、属性syntheの属性値が"true"であるparタグを用いて記述されている再生情報（図１１の（ｃ）の再生情報、図１２以降も同様）は、２つのメディアデータに対応する２つの映像（静止画像または動画像）が重畳表示されるように、２つのメディアデータを並列的に再生すべきことを示している。なお、属性syntheの属性値が"true"でない（"false"である）parタグを用いて記述されている再生情報は、図１１の（ｂ）の再生情報と同様に、２つのメディアデータを並列的に再生すべきことを示す。なお、図１１の各再生情報中の属性start_timeは、メディアデータの撮影時刻を示す。属性start_timeは、メディアデータが静止画像の場合には撮影時刻を示し、動画像の場合には撮影開始時刻から終了時刻までの間の特定の時刻を示す。つまり、動画像については、属性start_timeで時刻を指定することにより、その時刻に撮影された部分から再生を開始させることができる。

なお、図１１（図１２以降も同様）の再生情報には、再生するメディアデータの時刻のみが記述されており（図１１の例では属性start_time）、再生の時刻（このメディアデータを何時何分に再生するといった情報）については記述されていない。しかし、再生時刻を指定することも可能であり、例えば再生開始時刻（presentation_start_time）を別途再生情報に記述することにより、特定の時刻に再生することを指定することができる。

以下、再生装置３による図１１の（ａ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。データ取得部３６から図１１の（ａ）の再生情報を取得した再生制御部３８は、まず、１つ目のメディアデータ（上から１つ目のvideoタグに対応するメディアデータ）を再生対象と決定する。そして、このメディアデータのうち、当該再生情報によって指定された第１の期間に撮影された部分（部分動画）を再生する。

具体的には、再生制御部３８は、seqタグの属性start_timeの属性値が示す時刻t1を始期とする、１つ目のメディアデータに対応するvideoタグの属性durationの属性値が示す長さd1の期間に撮影された部分動画を再生する。同図のＰＩの下方に記載したvideoAの図は、該処理を端的に図示したものである。すなわち、白抜きの矩形の左端がvideoA（１つ目のvideoタグに対応するメディアデータ）の撮影開始時刻、右端がvideoAの撮影終了時刻を表している。そして、これら撮影開始時刻と撮影終了時刻との間の時刻t1から、長さd1分の部分動画を再生し、この再生によって、d1の期間にAAという画像が表示されることを表している。

再生制御部３８は、１つ目のメディアデータに関する部分動画の再生を完了すると、２つ目のメディアデータ（上から２つ目のvideoタグに対応するメディアデータ）の第２の期間（第１の期間の直後の期間）に撮影された部分（部分動画）を再生する。具体的には、再生制御部３８は、２つ目のメディアデータについては、時刻（t1+d1）を始期とする期間であって、videoタグの属性durationの属性値が示す長さd2の期間に撮影された部分動画を再生する。

同図のＰＩの下方に記載したvideoBの図は、該処理を端的に図示したものである。videoAと同様に、白抜きの矩形の左端がvideoB（２つ目のvideoタグに対応するメディアデータ）の撮影開始時刻、右端が撮影終了時刻を表している。そして、これら撮影開始時刻と撮影終了時刻との間の時刻t1+d1から、長さd2分の部分動画を再生し、この再生によって、d2の期間にBBという画像が表示されることを表している。なお、図中、videoAとvideoBとでは白抜きの矩形の大きさ（左端の位置および右端の位置）が異なるが、これはＰＩに含まれる各メディアデータの撮影開始時刻および撮影終了時刻はずれていても構わないことを表している。

次に、再生装置３による図１１の（ｂ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。図１１の（ｂ）の再生情報を取得した再生制御部３８は、２つのメディアデータの各々の、再生情報によって指定された特定の期間に撮影された部分（部分動画）を再生する。ここで、特定の期間とは、parタグの属性start_timeの属性値が示す時刻t1を始期とし、長さがd1（parタグの属性durationの属性値によって示される）の期間である。

具体的には、再生制御部３８は、表示部３３（ディスプレイ）の表示領域を２つに分割した一方の領域（例えば、左側の領域）に、１つ目のメディアデータの部分動画を表示しながら、２つ目のメディアデータの部分動画を他方の領域（例えば、右側の領域）に表示する。

更に、再生装置３による図１１の（ｃ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。図１１の（ｃ）の再生情報を取得した再生制御部３８は、２つのメディアデータの各々の、再生情報によって指定された特定の期間（parタグの属性start_timeおよび属性durationによって示される前述の期間）に撮影された部分（部分動画）を再生する。この再生情報では、syntheの属性値が"true"であるから、これらの部分動画は重畳して表示する。

具体的には、再生制御部３８は、１つ目のメディアデータの部分動画と２つ目のメディアデータの部分動画とが重なって見えるように、２つの部分動画を並行して再生する。例えば、再生制御部３８は、各部分動画をアルファブレンド処理によって半透明合成した映像を表示する。あるいは、再生制御部３８は、一方の部分動画を全画面表示し、他方の部分動画をワイプ表示してもよい。

以上のように、本発明の再生装置（３）は、リソース情報が付与された複数のメディアデータのうち、所定の時刻に撮影開始された、または所定の時刻に撮影されたことを示す時刻情報を含むリソース情報が付与されたメディアデータを再生対象とする再生制御部（３８）を備えていることを特徴としている。これにより、複数のメディアデータの中から時刻情報を基準として抽出されたメディアデータを自動で再生することができる。なお、上記所定の時刻は、再生態様を規定した再生情報（プレイリスト）に記述されていてもよい。また、上記再生制御部（３８）は、再生対象とするメディアデータが複数である場合、当該複数のメディアデータを順次再生してもよいし、同時に再生してもよい。また、同時に再生する場合には、並列で表示してもよいし、重畳して表示してもよい。

〔再生情報の例２〕
また、図１２に示すような再生情報を用いてもよい。図１２は、２つのメディアデータの再生態様を規定した再生情報の別の例を示す図である。以下、再生装置３による図１２の（ａ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。

データ取得部３６から図１２の（ａ）の再生情報を取得した再生制御部３８は、まず、１つ目のメディアデータの、再生情報によって指定された第１の期間に撮影された部分（部分動画）を再生する。

具体的には、再生制御部３８は、１つ目のメディアデータに対応する１つ目のvideoタグの属性start_timeの属性値が示す時刻t1を始期とし、該videoタグの属性durationの属性値が示す長さd1の期間に撮影された部分動画を再生する。

再生制御部３８は、１つ目のメディアデータに関する部分動画の再生を完了すると、２つ目のメディアデータが表す動画像中の、再生情報によって指定された第２の期間に撮影された部分（部分動画）を再生する。

具体的には、再生制御部３８は、２つ目のメディアデータに対応する２つ目のvideoタグの属性start_timeの属性値t2が示す時刻を始期とし、該videoタグの属性durationの属性値が示す長さd2の期間に撮影された部分動画を再生する。

次に、再生装置３による図１２の（ｂ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。データ取得部３６から図１２の（ｂ）の再生情報を取得した再生制御部３８は、１つ目のメディアデータの、再生情報によって指定された第１の期間に撮影された部分（部分動画）を再生する。再生制御部３８は、１つ目のメディアデータに関する部分動画の再生と並行して、２つ目のメディアデータの、再生情報によって指定された第２の期間に撮影された部分（部分動画）を再生する。

ここで、第１の期間とは、１つ目のメディアデータに対応する１つ目のvideoタグの属性start_timeの属性値が示す時刻t1を始期とする、parタグの属性durationの属性値が示す長さd1の期間である。また、第２の期間とは、２つ目のメディアデータに対応する２つ目のvideoタグの属性start_timeの属性値が示す時刻t2を始期とする、parタグの属性durationの属性値が示す長さd2の期間である。

具体的には、再生制御部３８は、表示領域を２つに分割した一方の領域に、１つ目のメディアデータの部分動画を表示しながら、２つ目のメディアデータの部分動画を他方の領域に表示する。

続いて、再生装置３による図１２の（ｃ）の再生情報を参照した２つのメディアデータの再生態様について、具体的に説明する。図１２の（ｃ）の再生情報を取得した再生制御部３８は、２つのメディアデータの各々の、再生情報によって指定された特定の期間（videoタグの属性start_timeおよびparタグの属性durationによって示される前述の期間）に撮影された部分（部分動画）を再生する。図１１の例と同様に、この再生情報では、syntheの属性値が"true"であるから、これらの部分動画は重畳して表示する。

〔再生情報の例３〕
また、図１３に示すような再生情報を用いてもよい。図１３は、時刻シフトの情報を含む再生情報の例を示す図である。図１３の再生情報は、図１１の再生情報に時刻シフト情報（属性time_shift）を含めたものになっている。ここで、時刻シフト情報とは、該時刻シフト情報を含むvideoタグに対応するメディアデータ（動画像）の再生開始位置における、それ以前にすでに指定された再生開始位置とのずれの大きさを示す情報である。

図１３の（ａ）の再生情報を取得した再生制御部３８は、まず、図１１の（ａ）の再生情報を取得した場合と同様に、１つ目のメディアデータの、再生情報によって指定された第１の期間に撮影された部分（部分動画）を再生する。

次に、再生制御部３８は、上記部分動画の再生を完了すると、２つ目のメディアデータ（video idの属性値が"（RIのmediaID）"のメディアデータ）の、再生情報によって指定された第２の期間に撮影された部分（部分動画）を再生する。この部分動画は、より詳細には、属性start_timeの属性値"（RIの時刻値）"に、１つ目のメディアデータの再生時間"d1"を加算し、さらに属性time_shiftの属性値"+01S"（プラス１秒）を加算した時刻を始期とする、該videoタグの属性durationの属性値が示す長さd2の期間に撮影された部分動画である。

図１３の（ｂ）は、同図の（ａ）のseqタグがparタグに変わっており、これにより２つの部分動画が同時に並列で表示される。また、同図の（ｃ）の再生情報は、同図の（ｂ）の再生情報に、syntheの属性値が"true"が追加されたものであり、これにより２つの部分動画が同時に重畳して表示される。

同図の（ｂ）の再生情報は、例えば同じメディアデータの異なる時刻の映像の比較に利用できる。例えば、競馬のレースを撮影して得た１つのメディアデータのメディアＩＤを、同図の（ｂ）の再生情報における２つのvideoタグの双方に記述してもよい。この場合、同じレースの映像が並列で表示されるが、一方の映像は他方の映像に対してtime_shiftの属性値の分だけ時間がずれた映像となる。これにより、例えば、一方の映像では接戦でどの馬が優勝したかを確認できなかった場合に、再生制御等の操作を行うことなく、他方の映像に目を向けるだけで、ゴールのシーンを改めて確認することができる。

同図の（ｃ）の再生情報も同様であり、同じメディアデータの異なる時刻の映像の比較に利用できる。同図の（ｃ）の再生情報では、２つの映像が重畳表示されるので、時刻の違いによってどの程度オブジェクトの位置が異なっているかを視聴ユーザに容易に認識させることができる。例えば、カーレースの映像における各車両のコース取りの違いなども、視聴ユーザに容易に認識させることができる。

以上のように、本発明の再生装置（３）は、所定の時刻に撮影開始された、または所定の時刻に撮影されたことを示す時刻情報を含むリソース情報が付与された複数のメディアデータのうち、所定の時刻から所定のずれ時間だけずれた時刻の時刻情報を含むリソース情報が付与されたメディアデータを再生対象とする再生制御部（３８）を備えていることを特徴としている。これにより、複数のメディアデータの中から、所定の時刻からずれた時刻に撮影されたあるいは撮影開始されたメディアデータを自動で再生することができる。なお、上記所定の時刻は、再生態様を規定した再生情報（プレイリスト）に記述されていてもよい。

また、上記再生制御部（３８）は、１つのメディアデータを互いにずれた時刻から順次再生してもよいし、同時に再生してもよい。また、同時に再生する場合には、並列で表示してもよいし、重畳して表示してもよい。

〔再生情報の例４〕
また、図１４に示すような再生情報を用いてもよい。図１４は、再生対象のメディアデータを位置指定情報（属性position_valおよび属性position_att）で指定した再生情報を示している。ここで、位置指定情報とは、どこで撮影された映像を再生すべきかを指定する情報である。

属性position_valの属性値は、撮影位置および撮影方向を示す。図示の例において、属性position_valの値は、"x1 y1 z1 p1 t1"である。属性position_valの値は、リソース情報に含まれる位置情報との照合に用いるので、リソース情報に含まれる位置情報および方向情報と同じ形式とすることが好ましい。本例では、図６の（ｂ）の位置情報および方向情報の形式に合わせて、３軸で規定される空間内の位置（x1,y1,z1）と、水平方向の角度（p1）と、仰角または伏角（t1）とを順に並べた値としている。

属性position_attの値は、属性position_valの値が示す位置をどのように使用してメディアデータを特定するかを指定する。図示の例において、属性position_attの属性値は"nearest"である。この属性値は、属性position_valの位置および撮影方向と最も近接した位置および撮影方向の映像を再生対象とすることを指定するものである。なお、以下の各例では、属性position_valにより、撮影装置１を基準とした位置情報および方向情報、すなわち撮影位置と撮影方向を指定する例を説明するが、オブジェクトを基準とした位置情報および方向情報、すなわちオブジェクトの位置と向きを指定してもよい。

なお、"nearest"に従って選択したメディアデータの撮影位置は、属性position_valの示す位置からずれている可能性がある。このため、"nearest"に従って選択したメディアデータを表示する際には、ズームやパンなどの画像処理を行って、上記のずれをユーザに認識され難くしてもよい。

再生制御部３８は、この再生情報を参照してメディアデータを再生する場合、まず、取得した各メディアデータのリソース情報を参照して、上記の位置指定情報で指定されているリソース情報を特定する。そして、特定したリソース情報が対応付けられているメディアデータを１つ目の再生対象と特定する。具体的には、再生制御部３８は、取得したメディアデータのうち、"x1 y1 z1 p1 t1"の値と最も近い位置情報を含むリソース情報が対応付けられたメディアデータを再生対象と特定する。なお、位置情報は、撮影位置の位置情報であってもよいし、オブジェクトの位置情報であってもよい。

次に、再生制御部３８は、上記メディアデータに続いて再生するメディアデータを特定する。具体的には、再生制御部３８は、取得したメディアデータのうち、"x2 y2 z2 p2 t2"の値と最も近い位置情報を含むリソース情報が対応付けられたメディアデータを再生対象として特定する。なお、図示の例では、２つ目のvideoタグには、属性position_attが含まれていないが、上位のseqタグに属性position_attが含まれる。このため、上位の属性値を継承することで２つ目のvideoタグにも１つ目（上位）のvideoタグの属性position_attと同じ属性値"nearest"が適用される。なお、下位のタグに上位のタグと異なる属性値の属性position_attが含まれている場合、その属性値を適用する（この場合には上位の属性値を継承しない）。再生対象の２つのメディアデータを特定した後の処理は、図１１等の例と同様であり、各メディアデータの部分動画を順次再生する。

図１４の（ｂ）の再生情報は、同図の（ａ）の再生情報と比べて、parタグで記述されている点、属性synthe（属性値が"true"）が記述されている点、および２つ目のvideoタグに時刻シフト情報（属性値が"+10S"）が記述されている点で相違している。この再生情報を使用する場合、１つ目のメディアデータは同図の（ａ）と同様にして特定する。一方、２つ目のメディアデータも、１つ目のメディアデータと同様に、位置"x1 y1 z1 p1 t1"に最も近いものを特定する。ただし、時刻シフト情報に従い、指定の撮影時刻（start_time）から１０秒後（+10S）において、位置"x1 y1 z1 p1 t1"に最も近いものを特定する。そして、特定したこれらのメディアデータは、属性syntheに従って、同時に重畳して表示する。

また、同図の（ｃ）は、同図の（ｂ）再生情報の２つ目のvideoタグに位置シフト情報（属性position_shift）を追加した例を示している。この再生情報に従って再生することにより、時刻と位置がずれた２つの映像が重畳表示される。このように、時刻と位置をずらすことにより、例えば撮影装置１を用いて撮影を行った映像と、その撮影者が他の撮影者によって撮影された映像（上記撮影者が撮影を行っていない期間で、該撮影者の近くで撮影された映像）とを視聴することができる。例えば、自身が撮影装置１を用いて撮影していた旅行先の景色と、その景色を撮影する直前または直後における自身およびその周囲の様子とを同時に確認できるので、旅の記憶を鮮明に甦らせることができる。

この再生情報を使用する場合、１つ目のメディアデータは同図の（ａ）と同様にして特定する。一方、２つ目のメディアデータは、位置"x1 y1 z1 p1 t1"を属性position_shiftに従ってずらした位置に最も近いものを特定する。また、時刻シフト情報も含まれているため、指定の撮影時刻（start_time）から１秒後（+01S）において、上記ずらした位置に最も近いものを特定する。そして、特定したこれらのメディアデータは、属性syntheに従って、同時に重畳して表示する。

ここで、属性position_shiftの属性値は、ローカル指定形式（属性値が"l sx1 sy1 sz1sp1 st1"で表される形式）およびグローバル指定形式（属性値が"g sx1 sy1 sz1 sp1 st1"で表される形式）のいずれかの形式で記述できる。なお、１つ目のパラメータ「ｌ」がローカル指定形式であることを示し、１つ目のパラメータ「ｇ」がグローバル指定形式であることを示している。

ローカル指定形式で記述された属性position_shiftは、リソース情報に含まれる方向情報（facing_direction）を基準としてシフト方向を規定している。より詳細には、属性position_shiftは、１つ目のメディアデータに付与されたリソース情報に含まれる方向情報の示す方向、すなわち撮影方向をｘ軸正方向とし、鉛直上向きをｚ軸正方向とし、これらの軸に垂直な軸をｙ軸（ｙ軸の正方向は撮影方向に向かって右側または左側）とするローカル座標系の座標空間におけるベクトル（sx1, sy1, sz1）によってシフト量およびシフト方向を示す。

図１４の（ｃ）の属性position_shiftの属性値は、ローカル指定形式で記述されており、一方、属性position_valはグローバル座標系の座標値で示されている。このため、例えば属性position_valの（x1, y1, z1）をローカル指定形式に変換する等して、座標系を統一した上で位置をシフトさせる。ローカル指定形式では、対象（オブジェクト）に対して前後にずらす、９０度ずらして左から、−９０度ずらして右から、といった指定になる。

一方、グローバル指定形式で記述された属性position_shiftは、リソース情報に含まれる位置情報と同じグローバル座標系の座標空間におけるベクトル（sx1, sy1, sz1）によってシフト量およびシフト方向を示す。このため、グローバル指定形式で記述された属性position_shiftを使用する場合、上記のような変換は不要であり、その各軸の値を、そのまま属性position_valの対応する各軸の値に加算すればよい。

なお、図１４の（ｃ）の再生情報は、属性time_shiftと属性position_shiftとの両方を含んでいるが、再生情報にはこれらの一方を含めてもよい。このうち、属性position_shiftを含む再生情報は、例えばカーナビゲーション機器における映像の表示に適用することにより、進路の先で起こった事故の映像を表示させること等も可能になる。これについて以下説明する。

カーナビゲーション機器に該当する再生装置３による、このような再生情報を参照した２つのメディアデータの再生態様の一例を以下に示す。サーバ２は、交通事故が発生した地点を認識した場合に、上記再生情報（具体的には、属性start_timeの属性値によって上記交通事故が発生した地点を認識した時刻が示され、属性position_valの属性値によって上記地点が示されている再生情報）を再生装置３に配信するように構成されていてもよい。

再生情報を受信した再生装置３の再生制御部３８は、走行経路上に上記地点が位置するか否かを判定し、走行経路上に上記地点が位置すると判定した場合には、グローバル座標系における以下のようなベクトルを算出してもよい。すなわち、再生制御部３８は、上記地点を始点座標とし、走行経路上の別の地点（交通事故が発生した地点から走行経路に沿って一定距離だけ自機に近づいた地点）を終点座標とするベクトルを算出してもよい。

そして、再生制御部３８は、再生情報における２つ目のvideoタグの属性position_shiftの属性値を、そのベクトルを示すような値（グローバル指定形式で記述された値）に更新し、更新後の再生情報に基づいて、２つの映像を表示してもよい。なお、再生制御部３８は、事故現場の様子を示す映像と、走行経路上の別の地点における事故渋滞の程度を示す映像とを表示してもよい。これにより、再生装置３のユーザに、事故や渋滞に巻き込まれることを回避するよう促すことができる。また、事故現場の様子のみを表示してもよい。

〔位置指定情報に関する付記事項〕
属性position_attの属性値としては、"nearest"の他、"nearest_cond"、および"strict"が挙げられる。

属性値"strict"は、属性position_valが示す位置および撮影方向で撮影された映像を再生対象とすることを指定する。属性値"strict"が記述されている場合、属性position_valが示す位置および撮影方向と一致する位置および撮影方向のリソース情報が付与されたメディアデータがなければ表示は行わない。デフォルトの属性値は、"strict"としてもよい。

属性値"nearest_cond bx by bz bp bt"（「bx」「by」「bz」「bp」「bt」は位置情報および方向情報に対応し、０または１の数値が入る）は、"nearest"と同様に、属性position_valの位置と最も近接した位置の映像を再生対象とすることを指定するものである。ただし、値"0"が付いた位置情報あるいは方向情報については一致するものを再生対象とする。例えば、属性値"nearest_cond 1 1 1 0 0"は方向が一致し、位置が指定の値に最も近い映像を再生対象に指定し、属性値"nearest_cond 0 0 0 1 1"は位置が一致し、方向が指定の値に最も近い映像を再生対象とすることを指定する。なお、bx by bz bp btの値は、０または１に限られず、例えば近接の度合いを示す値としてもよい。例えば、bx by bz bp btに、０から１００までの値を記述可能とし、近接の度合いを重み付けして判定するようにしてもよい。この場合、０は一致、１００が最もずれを許容することを表す。

また、position_attの属性値の他の例としては例えば以下のようなものが考えられる。"strict_proc"：属性position_valの位置と最も近接した位置の映像を加工（例えば、パン処理および／またはズーム処理等の画像処理）して、属性position_valの位置の映像を生成し、表示することを指定する。
"strict_synth"：属性position_valの位置と最も近接した位置の１つまたは複数の映像から属性position_valの位置の映像を合成し、表示することを指定する。
"strict_synth_num num"（末尾の「num」には個数を示す数値が入る）："strict_synth"に合成対象の映像の数を指定する「num」が追加された属性値である。この属性値は、属性position_valの位置に近い順に選択した「num」個の映像から属性position_valの位置の映像を合成し、表示することを指定する。
"strict_synth_dis dis"（末尾の「dis」には距離を示す数値が入る）："strict_synth"に、属性position_valの位置から合成対象の映像の位置までの距離を示す「dis」が追加された属性値である。この属性値は、属性position_valの位置から距離「dis」の範囲内の位置の映像から属性position_valの位置の映像を合成し、表示することを指定する。

なお、再生装置３が映像の合成機能を備えていない場合、"strict_synth"等の映像の合成を指定する属性値については、"strict_proc"と解釈して映像の加工を行うようにしてもよい。
"nearest_dis dis"（末尾の「dis」には距離を示す数値が入る）："nearest"に、属性position_valの位置からの距離を示す「dis」が追加された属性値である。この属性値は、属性position_valの位置から距離「dis」の範囲内の位置の映像のうち、属性position_valの位置に最も近い位置の映像を表示することを指定する。この属性値に従って表示する映像については、ズームやパンなどの画像処理を施してもよい。
"best" ：属性position_valの位置に近接した複数の映像のうち、別途指定される基準で選択した最適な映像を表示することを指定する。この基準は、映像を選択する基準となるようなものであればよく、特に限定されない。例えば、映像のＳＮ比、音声のＳＮ比、映像の画角内におけるオブジェクトの位置や大きさなどを上記基準としてもよい。これらの基準のうち、映像のＳＮ比は、例えば暗い会場などでオブジェクトが鮮明に映っている映像を選択するのに好適である。音声のＳＮ比は、メディアデータが音声を含む場合に適用可能であり、これは、音声が聞き取りやすいメディアデータを選択するのに好適である。また、画角内におけるオブジェクトの位置や大きさは、オブジェクトが画角一杯に適切におさまっているもの（背景領域が最も小さく且つオブジェクト境界が画像端に触れていないと判断されるもの）を選択するのに好適である。
"best_num num"（末尾の「num」には個数を示す数値が入る）："best" に選択候補の映像の数を指定する「num」が追加された属性値である。この属性値は、属性position_valの位置に近い順に選択した「num」個の映像から、上記基準で選択した最適な映像を表示することを指定する。
"best_dis dis"（末尾の「dis」には距離を示す数値が入る）："best" に、属性position_valの位置からの距離を示す「dis」が追加された属性値である。この属性値は、属性position_valの位置から距離「dis」の範囲内の位置の映像から、上記基準で選択した最適な映像を表示することを指定する。

なお、"best"等の属性値において、上記基準が示されていない場合、あるいは示された基準が不適当であれば、再生装置３は、当該属性値を"nearest"と解釈して映像を選択してもよい。

〔指定位置と厳密には一致しない近傍位置の映像を再生する利点〕
指定位置と厳密には一致しない近傍位置の映像を再生する利点について、図１５に基づいて説明する。図１５は、指定位置と厳密には一致しない近傍位置の映像を再生する利点を説明する図である。

図１５では、指定位置を移動させつつ、その指定位置で撮影された映像を表示する例を示している。つまり、本例において、再生装置３の再生制御部３８は、ユーザ操作などによる位置の指定を受け付け、指定された位置の位置情報を含むリソース情報が対応付けられたメディアデータを再生対象として特定し、これを再生する。これにより、異なる撮影位置のメディアデータが順次再生される。つまり、動画像によるストリートビューが可能になる。なお、位置の指定は、例えば地図の画像を表示して、該地図上の地点を選択することによって行えるようにしてもよい。

このようなストリートビューは、例えばお祭りなどのイベントの様子を伝えるのに有効である。このようなイベントでは、多くのメディアデータが生成され、ストリートビューの素材となる。例えば、イベントに参加しているユーザの撮影装置１（例えばスマートフォン）が撮影した映像、イベント主催者が用意した撮影装置１（固定カメラ、舞台カメラ、山車に付いているカメラ、演者の付けているウェアラブルカメラ、ドローンのカメラなど）が撮影した映像のメディアデータがサーバ２（クラウド）に集められる。

同図の（ａ）の例では、指定位置は、まず映像Ａの撮影位置を通り、続いて映像Ｂの撮影位置を通っている。この場合に、指定された位置と撮影位置とが厳密に一致する（strict）メディアデータを再生対象とすれば、指定された位置が映像Ａの撮影位置と一致したときには映像Ａが表示されるが、その撮影位置から離れると映像が表示されない状態（gap）となる。そして、指定された位置が映像Ｂの撮影位置と一致したときには映像Ｂが表示されるが、その撮影位置から離れると、再度映像が表示されない状態（gap）となる。

一方、指定された位置に最も近い撮影位置の（nearest）メディアデータを再生対象とすれば、指定された位置から最も近い撮影位置が、映像Ａの撮影位置である期間には映像Ａが表示される。そして、指定された位置から最も近い撮影位置が、映像Ｂの撮影位置となった期間には映像Ｂが表示される。このように、指定された位置に最も近い撮影位置の（nearest）メディアデータを再生対象とすれば、映像が表示されない期間（gap）をなくすことができる。

また、同図の（ｂ）の例では、指定位置は、映像Ａの撮影位置を通り、続いて映像Ｂの撮影位置の近傍を通り、次に映像Ｃの撮影位置を通り、最後に映像Ｄの撮影位置の近傍を通っている。この場合に、指定された位置と撮影位置とが厳密に一致する（strict）メディアデータを再生対象とすれば、映像Ａと映像Ｃは撮影位置が指定位置と一致するタイミングで表示されるが、映像Ｂと映像Ｄは撮影位置が指定位置と一致しないので表示されない。また、映像Ａが表示された後映像Ｃが表示されるまで、および映像Ｃが表示された後の期間には映像が表示されない。

一方、指定された位置に最も近い撮影位置の（nearest）メディアデータを再生対象とすれば、撮影位置が指定位置と一致しない映像Ｂと映像Ｄも表示対象となり、映像Ａ〜Ｄが途切れることなく順次表示される。動画ストリートビューを表示する際には、このような途切れのない表示を行うことが好ましいので、この際には指定された位置に最も近い撮影位置の（nearest）メディアデータを再生対象とすることが好ましい。

以上のように、本発明の再生装置（３）は、撮影位置または撮影したオブジェクトの位置を示す位置情報を含むリソース情報が付与された複数のメディアデータのうち、所定の位置情報を含むリソース情報が付与されたメディアデータを再生対象とする再生制御部（３８）を備えていることを特徴としている。これにより、複数のメディアデータの中から位置情報を基準として抽出されたメディアデータを自動で再生することができる。なお、上記所定の位置情報は、再生態様を規定した再生情報（プレイリスト）に記述されていてもよい。

また、上記再生制御部（３８）は、再生対象とするメディアデータが複数である場合、当該複数のメディアデータを順次再生してもよいし、同時に再生してもよい。また、同時に再生する場合には、並列で表示してもよいし、重畳して表示してもよい。

また、上記再生制御部（３８）は、上記複数のメディアデータの中に、位置情報の示す位置が所定の位置と一致するリソース情報が付与されたメディアデータがない場合には、所定の位置に最も近い位置を示す位置情報情報を含むリソース情報が付与されたメディアデータを再生対象としてもよい。

〔再生情報の例５〕
以下、更に別の再生情報を参照した２つのメディアデータの再生態様について図１６を参照しながら説明する。図１６の（ａ）〜（ｃ）も、再生対象のメディアデータがメディアＩＤではなく位置指定情報（属性position_refおよび属性position_shift）によって指定されている再生情報を示している。この再生情報では、ある撮影位置（メディアＩＤで特定されるメディアデータの撮影位置）から所定方向に離れた（シフトさせた）位置で撮影された映像を再生対象とする。

図１６において、属性position_refの属性値は、メディアＩＤである。このメディアＩＤで識別されるメディアデータには、リソース情報が付与されており、リソース情報には位置情報が含まれている。このため、position_refの属性値に記述されたメディアＩＤからメディアデータを特定し、特定したメディアデータのリソース情報を参照することにより、位置情報を特定することができる。また、図示の再生情報は、属性position_shiftを含んでいる。つまり、図示の再生情報は、メディアＩＤを用いて特定した位置情報が示す位置を属性position_shiftに従ってシフトさせた位置のメディアデータを再生対象とすることを示している。

この再生情報（図１６の（ａ））を用いて再生を行う再生装置３では、再生制御部３８が、メディアＩＤがmid1であるメディアデータのリソース情報を参照することにより、そのメディアデータの撮影位置および撮影方向を特定する。なお、この撮影位置および撮影方向は、属性start_timeの属性値が示す時刻における撮影位置および撮影方向である。

次に、再生制御部３８は、上記特定した撮影位置および撮影方向を、属性position_shiftに従ってシフトさせる。そして、再生制御部３８は、再生可能なメディアデータの各リソース情報を参照して、シフト後の撮影位置および撮影方向の映像を再生対象と特定する。続いて、再生制御部３８は、２つ目のvideoタグにおいても同様にして、メディアＩＤがmid2であるメディアデータの撮影位置および撮影方向を特定し、これをシフトさせ、シフト後の撮影位置および撮影方向の映像を再生対象と特定する。なお、再生対象を特定した後の処理は前述の通りであるからここでは説明を省略する。

また、同図の（ｂ）の再生情報は、同図の（ａ）の再生情報と比べて、２つ目のvideoタグに属性time_shiftが含まれている点で相違している。同図の（ｂ）の再生情報を用いて再生する場合、１つ目のメディアデータの特定は上記と同様である。一方、２つ目のメディアデータについては、メディアＩＤがmid2であるメディアデータの撮影位置および撮影方向を特定し、これを属性position_shiftに従ってシフトさせるまでは上記と同様である。同図の（ｂ）の再生情報を用いる場合には、この後、属性time_shiftに従って時刻をシフトさせ、シフト後の時刻、撮影位置、および撮影方向の映像を再生対象と特定する。

また、同図の（ｃ）の再生情報は、同図の（ａ）の再生情報と比べて、２つ目のvideoタグにおいて、属性position_shiftに、２つ目のvideoタグと同じメディアＩＤ"mid1"が記述されている点で相違している。また、２つ目のvideoタグの属性position_shiftの値が同図の（ａ）の再生情報と異なっている。そして、seqタグがparタグに変わっている点でも異なっている。

同図の（ｃ）の再生情報を用いて再生する場合、１つ目のメディアデータの特定は上記と同様である。一方、２つ目のメディアデータについては、メディアＩＤがmid1であるメディアデータの撮影位置および撮影方向を特定し、これを属性position_shiftに従ってシフトさせる。具体的には、撮影位置をｙ軸方向に−１シフトさせると共に、撮影方向（水平方向の角度）を９０度シフトさせる。そして、シフト後の撮影位置および撮影方向の映像を再生対象と特定する。このようにして特定した映像は、オブジェクトを横側から撮影した映像となる。よって、これを１つ目のvideoタグに示されるメディアデータと並行して同時に再生することにより、１つのオブジェクトを２つの異なる角度から捉えた映像を同時に視聴ユーザに提示することができる。

以上のように、本発明の再生装置（３）は、撮影位置または撮影したオブジェクトの位置を示す位置情報を含むリソース情報が付与された複数のメディアデータのうち、所定の位置から所定のずれ量だけずれた位置の位置情報を含むリソース情報が付与されたメディアデータを再生対象とする再生制御部（３８）を備えていることを特徴としている。これにより、複数のメディアデータの中から、所定の位置の周囲で撮影された、あるいは所定のオブジェクトの周囲のオブジェクトを撮影したメディアデータを自動で再生することができる。なお、上記所定の位置情報は、再生態様を規定した再生情報（プレイリスト）に記述されていてもよい。

〔再生情報の例６〕
以下、更に別の再生情報を参照した２つのメディアデータの再生態様について図１７を参照しながら説明する。本再生情報は、属性start_timeに加えて、属性time_attを含んでいる。属性time_attは、属性start_timeをどのように使用してメディアデータを特定するかを指定する。属性time_attの属性値としては、属性position_attと同様のものを適用できる。例えば、図示の例では"nearest"を記述している。

同図の（ａ）の再生情報を用いて再生を行う再生装置３では、再生制御部３８が、属性position_valおよび属性position_attの属性値で指定されるメディアデータを特定する。つまり、厳密に{x1, y1, z1, p1, t1}の位置および撮影方向で撮影されたメディアデータを特定する。そして、再生制御部３８は、特定したメディアデータのうち、撮影時刻が属性start_timeの値に最も近いメディアデータを再生対象として特定し、属性durationの示す期間"d1"だけ再生する。

次に、再生制御部３８は、２つ目のvideoタグを参照して、{x2, y2, z2, p2, t2}の位置および撮影方向で撮影されたメディアデータを特定する。なお、２つ目のvideoタグは、上位のseqタグの属性position_attの属性値"strict"を継承するので、位置および撮影方向が完全一致するメディアデータを特定する。

また、２つ目のvideoタグは、上位のseqタグの属性time_attの属性値"nearest"も継承する。このため、再生制御部３８は、上記特定したメディアデータのうち、撮影時刻が（ＲＩの時刻値）＋ｄ１に最も近いメディアデータを再生対象として特定し、属性durationの示す期間"d2"だけ再生する。

一方、同図の（ｂ）の再生情報は、parタグにより２つのメディアデータを並列で再生することを規定している。並列で再生されるデータの一方は動画像であり、videoタグで記述される。また、並列で再生されるデータの他方は静止画像であり、imageタグで記述される。

この再生情報においても、同図の（ａ）の再生情報と同様に、属性値が"nearest"である属性time_attが記述されている。従って、同図の（ｂ）の再生情報を用いて再生を行う再生装置３では、再生制御部３８が、属性position_valおよび属性position_attの属性値で指定されるメディアデータを特定する。つまり、厳密に{x1, y1, z1, p1, t1}の位置および撮影方向で撮影されたメディアデータ（静止画像および動画像）を特定する。そして、特定したメディアデータのうち、撮影時刻が属性start_timeの値に最も近い静止画像（指定の撮影時刻の静止画像があれば該静止画像）のメディアデータと、撮影時刻が属性start_timeの値に最も近い動画像（指定の撮影時刻を含む動画像があれば該動画像、指定の撮影時刻を含む動画像がなければ指定の撮影時刻に最も近い撮影時刻の動画像）のメディアデータとを再生対象として特定し、これらを属性durationの示す期間"d1"だけ再生し、並べて表示する。

以上のように、本発明の再生装置（３）は、リソース情報が付与された複数のメディアデータのうち、所定の時刻に撮影開始された、または所定の時刻に撮影されたことを示す時刻情報を含むリソース情報が付与されたメディアデータを再生対象とする再生制御部（３８）を備え、上記再生制御部（３８）は、上記複数のメディアデータの中に、時刻情報の示す時刻が上記所定の時刻と一致するリソース情報が付与されたメディアデータがない場合には、該所定の時刻に最も近い時刻を示す時刻情報を含むリソース情報が付与されたメディアデータを再生対象とする。

〔再生情報の例７〕
以下、更に別の再生情報を参照したメディアデータの再生態様について図１８を参照しながら説明する。図１８の位置指定情報では、メディアＩＤによって再生対象とするメディアデータの撮影開始時刻（メディアデータが静止画像の場合には撮影時刻）を指定している。具体的には、同図の再生情報には、時期指定情報（属性start_time_ref）が記述されており、この属性値としてメディアＩＤが記述されている。

同図の（ａ）の再生情報を用いて再生を行う再生装置３では、再生制御部３８が、メディアＩＤがmid1であるメディアデータのリソース情報を参照することにより、そのメディアデータの撮影開始時刻（メディアデータが静止画像の場合には撮影時刻）を特定する。そして、特定した時刻を撮影開始時刻とし、かつその時刻における位置および撮影方向が属性position_valに示される位置および撮影方向と一致するメディアデータを再生対象とする。そして、このメディアデータを、属性durationの示す期間"d2"だけ再生する。なお、同図の例では、属性position_attが記述されていないので、上記の再生対象の特定の際には、デフォルトの属性値である"strict"を適用して特定を行う。

また、同図の（ｂ）の再生情報では、同図の（ａ）の再生情報と比べて、属性値が"nearest"である属性time_attが追加されている点で相違している。このため、同図の（ｂ）の再生情報を用いて再生を行う場合には、属性position_valに示される位置および撮影方向と一致するメディアデータのうち、メディアＩＤがmid1のメディアデータの撮影開始時刻または撮影時刻と最も近い撮影時刻のメディアデータを期間"d2"だけ再生する。

また、同図の（ｃ）の再生情報は、parタグを用いて記述されている。この再生情報を用いて再生を行う場合には、属性position_valに示される位置および撮影方向と一致し、かつ、メディアＩＤがmid1のメディアデータの撮影開始時刻または撮影時刻と最も近い撮影時刻のメディアデータを再生対象として特定する。なお、parタグ内にvideoタグとimageタグがそれぞれ含まれているので、動画像のメディアデータと、静止画像のメディアデータとを各１つ再生対象とする。そして、再生対象とした２つのメディアデータを期間"d1"だけ同時に再生し、並列で表示する。ただし、再生制御部３８は、属性start_time_refの属性値であるメディアＩＤ（この例ではmid1）のメディアデータについては、選択対象外としてもよい。

なお、上述のように、属性position_valで位置を指定する代わりに、属性position_refで位置を指定することもでき、この位置の指定は、属性start_time_refによる時刻の指定と併用できる。また、これらを併用する場合には、例えば同図の（ｄ）の再生情報のように、属性position_refと属性start_time_refとで、それぞれ別のメディアＩＤを指定してもよい。

同図の（ｄ）の再生情報を用いて再生を行う再生装置３では、再生制御部３８が、属性start_time_refに記述されたメディアＩＤ（mid1）のメディアデータのリソース情報を参照して撮影開始時刻（または撮影時刻）を特定する。また、再生制御部３８は、属性position_refに記述されたメディアＩＤ（mid2）のメディアデータのリソース情報を参照して撮影位置および撮影方向を特定する。そして、特定した撮影位置および撮影方向を属性position_shiftに従ってシフトさせる。具体的には、１つ目のvideoタグについては“l -1 0 0 0 0”だけシフトさせ、２つ目のvideoタグについては“l 0 -1 0 90 0”だけシフトさせる。そして、上記特定した撮影開始時刻（または撮影時刻）を有し、上記シフト後の撮影位置および撮影方向であるメディアデータをそれぞれ再生対象と特定し、これらを期間"d1"だけ再生し、並列で表示させる。

〔実施形態２〕
以下、本発明の実施形態２について、図１９から図２５に基づいて詳細に説明する。本実施形態におけるメディア関連情報生成システム１０１は、オブジェクトを視点とした映像（オブジェクトを真後ろから捉えた映像）を提示する。

［リソース情報に関する付記事項］
リソース情報に含まれる方向情報（facing_direction）が示す「オブジェクトの正面」を、オブジェクトが人物や動物のように、顔を有する場合は顔が向いている方向とし、オブジェクトがボールなどのように、顔を有していない場合は進行方向とする。なお、カニのように、顔が向いている方向と進行方向とが異なる場合は、どちらを正面としてもよいものとする。

また、リソース情報には、オブジェクトの位置情報及び方向情報に加え、オブジェクトの大きさを示す大きさ情報（object_occupancy）が含まれる構成とする。大きさ情報としては、例えば、オブジェクトが球体の場合におけるオブジェクトの半径や、オブジェクトが円柱、立方体、棒人間モデルなどの場合におけるポリゴン情報（オブジェクトを表現する各多角形の頂点座標情報）が挙げられる。

大きさ情報は、撮影装置１の対象情報取得部１７が算出してもよいし、サーバ２のデータ取得部２５が算出してもよい。大きさ情報は、撮影装置１からオブジェクトまでの距離、撮影倍率、およびオブジェクトの撮影画像上における大きさに基づき、算出可能である。

また、撮影装置１又はサーバ２は、オブジェクトの種類別に、その種類のオブジェクトの平均的な大きさを示す情報を保持していてもよい。撮影装置１又はサーバ２は、オブジェクトの種類を認識できた場合、この情報を参照して当該オブジェクトの平均的な大きさを特定し、特定した大きさを示す大きさ情報をリソース情報に含めてもよい。

図１９は、メディア関連情報生成システム１０１の概要の一部を説明する図である。図１９に示すメディア関連情報生成システム１０１では、オブジェクトは動いているボールである。この場合、オブジェクトの方向情報は、ボールの進行方向を示す情報であり、オブジェクトの大きさ情報は、ボール半径を示す情報である。

〔リソース情報の例（静止画像）〕
次に、リソース情報の例を図２０に基づいて説明する。図２０は、静止画像を対象としたリソース情報のシンタックスの一例を示す図である。図２０の（ａ）に示すシンタックスに係るリソース情報では、図６に示したリソース情報に対して、オブジェクトの大きさ情報（object_occupancy）が追加された構成になっている。また、オブジェクトの大きさ情報は、図２０の（ｂ）に示すような形式で記述してもよい。図２０の（ｂ）の大きさ情報（object_occupancy）は、オブジェクトの半径（ｒ）を示す情報である。

〔リソース情報の例（動画像）〕
続いて、動画像のリソース情報の例を図２１に基づいて説明する。図２１は、動画像を対象としたリソース情報のシンタックスの一例を示す図である。図示のリソース情報は、上述した静止画像と同様、図７に示したリソース情報に対してオブジェクトの大きさ情報（object_occupancy）が追加された構成になっている。

また、動画像において、オブジェクトの大きさ情報（object_occupancy）を含むリソース情報は、撮影装置１において生成されてもよいし、サーバ２において生成されてもよい。オブジェクトの大きさは時間の経過とともに変化しない場合が多いが、動植物などは体勢によって大きさが変わったり、弾性物体は変形したりする。そのため、撮影装置１またはサーバ２は、動画像を撮影している場合は、リソース情報には、所定の継続時間毎にオブジェクトの大きさ情報を含める。つまり、撮影装置１またはサーバ２は、撮影が継続している間、撮影時刻とその時刻に応じた大きさ情報との組み合わせをリソース情報に記述する処理を、繰り返し（所定の継続時間毎に）実行する。

よって、動画像のリソース情報には、撮影時刻とその時刻に応じた大きさ情報との組み合わせが、所定の継続時間毎に繰り返し記述されることになる。なお、撮影装置１またはサーバ２は、動画像のリソース情報に上記組み合わせを記述する処理を、周期的に実行してもよいが、非周期的に実行してもよい。例えば、撮影装置１またはサーバ２は、撮影位置が変わったことを検出する度に、オブジェクトの大きさが変わったことを検出する度に及び／又は、撮影対象が別のオブジェクトに移ったことを検出する度に、大きさ情報と検出時刻との組み合わせを記録してもよい。

また、サーバ２においてリソース情報が生成される場合、共通のオブジェクトを含む複数のメディアデータのＲＩ情報に、算出したオブジェクトの大きさ情報を一括で付与する構成であってもよい。

〔再生情報の例１〕
図２２は、メディアデータの再生態様を規定した再生情報の例を示す図である。具体的には、再生制御部３８は、属性position_refの属性値に記述されたオブジェクトＩＤ（obj1）によってメディアデータを特定する。そして、再生制御部３８は、特定したメディアデータのリソース情報を参照し、オブジェクトの位置情報を特定する。さらに、再生制御部３８は、特定した位置から、属性position_shiftに従ってシフトさせた位置（図２２の（ａ）に示す例では、Ｘ軸方向に-1だけ（即ち、オブジェクトの向きとは反対方向に1だけ）シフトした位置）に設置されている撮像装置１であって、属性position_shiftで指定された方向を向いている撮像装置１によって撮影されたメディアデータを再生対象として特定する。図２２の（ａ）に示す例では、オブジェクトを真後ろから捉えた映像を視聴ユーザに提示することができる。

また、撮像装置１又はサーバ２は、オブジェクト（obj1）を後ろから捉えたメディアデータを複数特定し、当該複数のメディアデータに対応する複数のvideoタグを該オブジェクトの撮影開始時刻順（該オブジェクトが撮影され始めた時刻順）に並べた再生情報を生成してもよい。この再生情報の各videoタグは、対応するメディアデータの撮影開始時刻を属性start_timeの値として含み、対応するメディアデータの撮影開始時刻から算出した、属性time_shiftの値を含んでいる。

なお、本実施形態における属性time_shiftは、実施形態１とは異なり、メディアデータの撮影開始時刻と、該メディアデータを撮影する撮影装置１によって対象のオブジェクトが撮影され始めた時刻との間のずれを示している。そして、この再生情報の各videoタグは、属性start_timeの値に属性time_shiftの値を加えた値に対応する再生位置から、該videoタグに対応するメディアデータを再生すべきことを示している。

再生制御部３８は、この再生情報に基づいて当該複数のメディアデータを順次再生することによって、オブジェクトを真後ろから捉えた映像（オブジェクト視点の映像）を視聴ユーザに提示する構成であってもよい。

〔再生情報の例２〕
また、オブジェクトを真後ろから捉えた映像がないケースを考慮して、図２２の（ａ）に示す再生情報に代えて図２２の（ｂ）に示す再生情報を用いてもよい。具体的には、上述した再生情報の例１と同様、再生制御部３８は、特定したメディアデータのリソース情報を参照し、特定したオブジェクトの位置から属性position_shiftに従ってシフトさせた位置を特定する。さらに、再生制御部３８は、属性position_attの属性値"nearest"に従い、属性position_shiftに従ってシフトさせた位置に最も近接した位置の撮像装置１であって、属性position_shiftによって指定された向きに最も近い向きを向いている撮影装置１によって撮影された映像を再生対象とする。図２２の（ｂ）に示す例では、オブジェクトの真後ろに最も近接した撮像装置１により捉えられたオブジェクトの映像を視聴ユーザに提示することができる。

なお、"nearest"に従って選択したメディアデータを撮影した撮影装置１の位置は、属性position_refおよび属性position_shiftによってユーザが指定した位置から相当ずれている可能性がある。このため、"nearest"に従って選択したメディアデータを表示する際には、ズームやパンなどの画像処理を行って、上記のずれをユーザに認識され難くしてもよい。

〔再生情報の例３〕
他の再生情報を参照したメディアデータの再生態様について、図２３〜図２５を参照しながら説明する。

この再生情報も、オブジェクト（例えば、猫）から見た視界の様子を示す映像をユーザに鑑賞させるために用いられる。図２３は、このような映像をユーザに鑑賞させるために用いる撮影装置１の視野および視心を示す図である。

撮影装置１の視野は、図２３に示すように、「撮影装置１を頂点とする、底面が無限遠にある円錐」と定義することができる。この場合、撮影装置１の視心の方向は、撮影装置１の撮影方向と一致する。なお、撮影装置１が実際に撮影する映像が長方形であるため、撮影装置１の視野を、「撮影装置１を頂点とする、底面が無限遠にある四角錐」と定義してもよい。

図２４は、図１９における撮影装置１の視野および視心を示す図である。図２４に示すように、オブジェクトは、♯１の撮影装置１の視野円錐には入っており、♯２の撮影装置１の視野円錐には入っていない。即ち、＃１の撮影装置１が撮影した映像には、オブジェクトが映り込んでいるため、この映像を上記オブジェクトから見た視界の様子を示す映像としてそのまま用いることはできない。

そこで、再生制御部３８は、オブジェクトの後方に配置され、オブジェクトの正面方向と同じ方向を向いている１台以上の撮影装置１の各々について、該撮影装置１の視野円錐にオブジェクトが入っているか否かを判定し、視野円錐に該オブジェクトが入っていない撮影装置１が撮影した映像を再生対象に指定してもよい。なお、再生制御部３８は、オブジェクトの位置および大きさを参照することにより、この判定を行うことができる。

例えば、再生制御部３８は、図２５に示すような再生情報を用いてもよい。図２５は、メディアデータの再生態様を規定した再生情報の別の例を示す図である。図２５に示す再生情報における属性position_attの属性値は、"strict_synth_avoid"である。この属性値は、"position_ref"の属性値によって特定されたオブジェクトＩＤ（obj1）のオブジェクトが映り込まない映像を再生対象として指定するための属性値である。この属性値によって指定される映像の数は１つであってもよいし、複数であってもよい。

前者の場合、上記オブジェクトが映り込まない映像を撮影した１台以上の撮像装置１のうち、"position_ref"の属性値および"position_shift"の属性値によって指定される位置の最も近くの撮像装置１によって撮影された１つの映像が再生対象となる。また、後者の場合、当該位置からの距離が所定の範囲内にある複数台の撮影装置１によって撮影された複数の映像が再生対象となる。

ここで、複数の映像を指定した場合における合成処理について説明する。再生制御部３８は、オブジェクトが映っていないメディアデータであって、該オブジェクトの視界の様子を捉えたメディアデータを複数指定し、指定した複数のメディアデータを合成することにより指定する再生対象の映像を生成し、生成した映像を再生する。

これにより、オブジェクトの後ろ側から見た映像であって、オブジェクトが映り込んでいない映像（すなわち、オブジェクトから見た視界の様子をある程度忠実に示す映像）を視聴ユーザに提示することができる。

なお、再生制御部３８は、上述の処理に代えて、以下の処理を行ってもよい。

即ち、再生制御部３８は、オブジェクトの後方に配置された撮像装置１によって撮影された、該オブジェクトが映っている複数のメディアデータから、オブジェクトが映っていない部分映像を抽出し、抽出した部分映像を合成することにより、指定する再生対象の映像を生成してもよい。また、再生制御部３８は、再生対象のメディアデータが動画像の場合、再生対象時刻のフレームにオブジェクト（猫）が映っているときは、該フレームと該オブジェクトが映っていない過去のフレームとの差分を算出することにより該オブジェクトが映っていないフレームを生成し、生成したフレームを再生してもよい。

また、本実施形態におけるメディア関連情報生成システム１０１では、メディアデータのマッピングの際に、オブジェクトの大きさ情報（object_occupancy）を参照してスケーリングを行ってもよい。例えば、人の平均的な大きさを基準値として、当該基準値とオブジェクトの大きさ情報が示すオブジェクトの大きさとを比較し、当該比較結果に応じてマッピングを行ってもよい。例えば、オブジェクトが猫であり、オブジェクトの大きさ情報が示すオブジェクトの大きさが上記基準値の１／１０であった場合、１×１×１の撮像系を１０×１０×１０の表示系にマッピングしてもよい。また、ズームなどの画像処理を施し、１０倍ズームの映像を表示してもよい。このように、メディア関連情報生成システム１０１では、オブジェクトが大きい場合は小さいスケールの映像を表示し、オブジェクトが小さい場合は大きいスケールの映像を表示することにより、より現実味のあるオブジェクト視点の映像を視聴ユーザに提示することができる。

また、本実施形態におけるメディア関連情報生成システム１０１では、オブジェクトが進行する速度を示す進行速度情報をリソース情報に含める構成であってもよい。例えば球技のボールやＦ１カーといった進行速度が速いオブジェクトの場合、オブジェクト視点の映像が速すぎるため、視聴ユーザに現実味のあるオブジェクト視点の映像を提示できない。そこで、上記構成を用いることにより、再生制御部３８は、当該進行速度情報を参照することにより、適切な再生スピードのためのスケーリング（スロー再生）を行うことができる。

（メディア関連情報生成システム１０１を用いた例１）
このような再生情報を用いることにより、例えば、ネコ視点のストリートビューを視聴ユーザに提示することができる。より具体的には、ネコとその周辺を、ユーザのカメラ（スマートフォンなど）や、サービス提供者のカメラ（３６０度カメラ、カメラを搭載した無人航空機など）によって撮影した映像のメディアデータを、サーバ２が取得する。サーバ２は、取得した映像におけるネコの位置、大きさ、正面方向（顔の向きまたは進行方向）を算出し、リソース情報を生成する。

次に、サーバ２は、上述した属性値（例えば、属性position_attの属性値"strict_synth_avoid"）を用いて、ネコが映り込まない映像であって、ネコの後方のカメラにより撮影された映像を特定するための再生情報を生成し、当該再生情報を再生装置３に配信する。ここで、サーバ２は、ネコの大きさに応じて映像を拡大または縮小したり、ネコの動く速度に応じて再生スピードを変更したりする構成であってもよい。再生装置３は、取得した再生情報を用いて再生することにより、ネコ視点（人間より低い視点、意外性がある角度）のストリートビューを視聴ユーザに提示することができる。また、同様の方法により、子供視点のストリートビューを視聴ユーザに提示することもできる。

さらに、サーバ２は、ネコを後ろから撮影したメディアデータを複数特定し、当該複数のメディアデータに対応する複数のvideoタグを、ネコが後ろから撮影され始めた時刻順に並べた再生情報を生成してもよい。この再生情報の各videoタグは、対応するメディアデータの撮影開始時刻を属性start_timeの値として含み、対応するメディアデータの撮影開始時刻から算出した、属性time_shiftの値を含んでいる。なお、上述した構成と同様に、本実施形態における属性time_shiftは、メディアデータの撮影開始時刻と、該メディアデータを撮影する撮影装置によってネコが撮影され始めた時刻との間のずれを示している。そして、この再生情報の各videoタグは、属性start_timeの値に属性time_shiftの値を加えた値に対応する再生位置から、該videoタグに対応するメディアデータを再生すべきことを示している。この構成により、再生装置３は、この再生情報に基づいて、複数のメディアデータを順次再生させることによって、ネコを追尾したストリートビューをユーザに提示することができる。

（メディア関連情報生成システム１０１を用いた例２）
また、このような再生情報を用いることにより、例えば、球技のボール視点の映像を視聴ユーザに提示することができる。より具体的には、試合中のボールとその周辺を、ユーザのカメラやサービス提供者が競技場に設置した複数のカメラによって撮影された映像のメディアデータを、サーバ２が取得する。サーバ２は、取得した映像におけるボールの位置、大きさ、正面（進行方向）、進行速度を算出し、リソース情報を生成する。

次に、サーバ２は、上述した属性値（例えば、属性position_attの属性値"strict_synth_avoid"）を用いて、ボールが映り込まない映像であって、移動中のボールの後方のカメラによって撮影された映像を特定するための再生情報を生成し、当該再生情報を再生装置３に配信する。ここで、サーバ２は、ボールの大きさに応じて映像を拡大または縮小したり、ボールの動く速度に応じて再生スピードを変更したりする構成であってもよい。また、例えばテニスボールのように時速２００キロメートルを超えるくらい速いオブジェクトの場合、さらに再生スピードを遅くしてもよい。再生装置３は、取得した再生情報を用いて再生することにより、ボール視点の映像を視聴ユーザに提示することができる。また、同様の方法により、競馬レースにおける競走馬の視点および騎手の視点、カメラを搭載した無人航空機が撮影した映像を用いることにより鳥の視点の映像をユーザに提示することもできる。

さらに、サーバ２は、移動中のボールを後ろから撮影したメディアデータを複数特定し、当該複数のメディアデータに対応する複数のvideoタグを、移動中のボールが後ろから撮影され始めた時刻順に並べた再生情報を生成してもよい。この再生情報の各videoタグは、対応するメディアデータの撮影開始時刻をstart_timeの値として含み、対応するメディアデータの撮影開始時刻から算出した、属性time_shiftの値を含んでいる。なお、上述した構成と同様に、本実施形態における属性time_shiftは、メディアデータの撮影開始時刻と、該メディアデータを撮影する撮影装置によって、移動するボールが撮影され始めた時刻との間のずれを示している。そして、この再生情報の各videoタグは、属性start_timeの値に属性time_shiftの値を加えた値に対応する再生位置から、該videoタグに対応するメディアデータを再生すべきことを示している。この構成により、再生装置３は、この再生情報に基づいて、複数のメディアデータを順次再生させることによって、ボールを追尾した映像をユーザに提示することができる。

このように、本実施形態に係るメディア関連情報生成システム１０１では、リソース情報に含まれる方向情報が示すオブジェクトの正面方向を、オブジェクトが顔を有する場合は顔が向いている方向、オブジェクトが顔を有していない場合はオブジェクトの進行方向とし、当該方向情報とオブジェクトの位置情報を参照することにより、オブジェクト視点の映像をユーザに提示することができる。また、メディア関連情報生成システム１０１では、オブジェクトの大きさを示すオブジェクト大きさ情報をリソース情報にさらに含めることにより、オブジェクト視点の映像をより現実味のある映像としてユーザに提示することができる。すなわち、メディア関連情報生成システム１０１では、ユーザが普段目にすることができない、意外性のある視点での映像を提示することができる。

〔変形例〕
上記実施形態では、撮影装置１単体、または撮影装置１とサーバ２とでリソース情報を生成する例を示したが、サーバ２が単体でリソース情報を生成してもよい。この場合、撮影装置１は、撮影によって得たメディアデータをサーバ２に送信し、サーバ２は受信したメディアデータを解析することによってリソース情報を生成する。

また、リソース情報を生成する処理を複数のサーバで行ってもよい。例えば、リソース情報に含める各種情報（オブジェクトの位置情報など）を取得するサーバと、該サーバが取得した各種情報を用いてリソース情報を生成するサーバとを含むシステムであっても、上記実施形態と同様のリソース情報を生成することができる。

〔ソフトウェアによる実現例〕
撮影装置１、サーバ２、および再生装置３の制御ブロック（特に制御部１０、サーバ制御部２０、および再生装置制御部３０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、撮影装置１、サーバ２、および再生装置３は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る生成装置（撮影装置１／サーバ２）は、映像のデータに関する記述情報の生成装置であって、上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部（対象情報取得部１７／データ取得部２５）と、上記映像のデータに関する記述情報として、上記位置情報を含む記述情報（リソース情報）を生成する記述情報生成部（リソース情報生成部１８／２６）と、を備えている。

上記の構成によれば、映像中の所定のオブジェクトの位置を示す位置情報を取得し、該位置情報を含む記述情報を生成する。このような記述情報を参照することにより、その映像の被写体に所定のオブジェクトが含まれていることを特定することができると共に、その位置も特定することができる。したがって、例えばあるオブジェクトの位置の近くに位置するオブジェクトを撮影した映像を抽出することや、ある位置にオブジェクトが存在していた期間を特定することなども可能になる。そして、これにより、従来は容易に行うことのできなかった再生態様で映像を再生したり、従来にはなかった新たな基準で映像を管理したりすることも可能になる。すなわち、上記の構成によれば、映像データの再生や管理等に利用することのできる新たな記述情報を生成することができる。

本発明の態様２に係る生成装置は、上記態様１において、上記対象情報取得部は、上記オブジェクトの向きを示す方向情報を取得し、上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記方向情報を含む記述情報を生成してもよい。

上記の構成によれば、オブジェクトの向きを示す方向情報を取得して、位置情報および方向情報を含む記述情報を生成する。これにより、オブジェクトの方向に基づいて映像を管理したり再生したりすることが容易になる。例えば、複数の映像の中からオブジェクトが所望の向きで撮影された映像を抽出することが容易になる。また、例えばオブジェクトの向きに応じた表示装置に映像を表示させる、あるいは表示画面上におけるオブジェクトの向きに応じた位置に映像を表示させる等も容易に行うことができる。

本発明の態様３に係る生成装置は、上記態様１または２において、上記対象情報取得部は、上記オブジェクトに対する上記映像を撮影した撮影装置の相対位置を示す相対位置情報を取得し、上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記相対位置情報を含む記述情報を生成してもよい。

上記の構成によれば、オブジェクトに対する撮影装置の相対位置を示す相対位置情報を取得して、位置情報および相対位置情報を含む記述情報を生成する。これにより、撮影装置の位置（撮影位置）に基づいて映像を管理したり再生したりすることが容易になる。例えば、オブジェクトの近くで撮影された映像を抽出したり、オブジェクトと撮影位置との距離に応じた位置の表示装置に映像を表示させたりすることも容易に行うことができる。

本発明の態様４に係る生成装置、上記態様１〜３の何れかにおいて、上記対象情報取得部は、上記オブジェクトの大きさを示す大きさ情報を取得し、上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記大きさ情報を含む記述情報を生成してもよい。

上記の構成によれば、オブジェクトの大きさを示す大きさ情報を取得して、位置情報および大きさ情報を含む記述情報を生成する。これにより、オブジェクトの後ろ側から見た映像であって、オブジェクトが映り込んでいない映像（すなわち、オブジェクトから見た視界の様子をある程度忠実に示す映像）を視聴ユーザに提示することができる。また、オブジェクトが大きい場合は小さいスケールの映像を表示し、オブジェクトが小さい場合は大きいスケールの映像を表示することにより、より現実味のあるオブジェクト視点の映像を視聴ユーザに提示することができる。

本発明の態様５に係る生成装置（撮影装置１／サーバ２）は、映像のデータに関する記述情報の生成装置であって、上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部（対象情報取得部１７／データ取得部２５）と、上記映像を撮影した撮影装置の位置を示す位置情報を取得する撮影情報取得部（撮影情報取得部１６／データ取得部２５）と、上記映像のデータに関する記述情報として、上記対象情報取得部が取得した位置情報と、上記撮影情報取得部が取得した位置情報との何れの位置情報を含むかを示す情報（position_flag）を含むと共に、該情報が示す位置情報を含む記述情報を生成する記述情報生成部（リソース情報生成部１８／２６）と、を備えている。

上記の構成によれば、対象情報取得部が取得したオブジェクトの位置情報と、撮影情報取得部が取得した撮影装置の位置情報（撮影位置を示す位置情報）との何れの位置情報を含むかを示す情報を含むと共に、該情報が示す位置情報を含む記述情報を生成する。つまり、上記の構成によれば、撮影位置の位置情報を含む記述情報を生成することができると共に、オブジェクト位置の位置情報を含む記述情報を生成することもできる。そして、これらの位置情報を利用することにより、従来は容易に行うことのできなかった再生態様で映像を再生したり、従来にはなかった新たな基準で映像を管理したりすることも可能になる。すなわち、上記の構成によれば、映像データの再生や管理等に利用することのできる新たな記述情報を生成することができる。

本発明の態様６に係る生成装置（撮影装置１）は、動画像のデータに関する記述情報の生成装置であって、上記動画像の撮影開始から終了までの複数の異なる時点における、該動画像の撮影位置または上記動画像中の所定のオブジェクトの位置を示す位置情報をそれぞれ取得する情報取得部（撮影情報取得部１６、対象情報取得部１７）と、上記動画像のデータに関する記述情報として、複数の異なる時点における上記位置情報を含む記述情報を生成する記述情報生成部（リソース情報生成部１８）と、を備えている。

上記の構成によれば、動画像の撮影開始から終了までの複数の異なる時点における、該動画像の撮影位置または上記動画像中の所定のオブジェクトの位置を示す位置情報をそれぞれ取得して、これらの位置情報を含む記述情報を生成する。この記述情報を参照することによって、動画像の撮影期間における撮影位置またはオブジェクト位置の遷移を追跡することが可能になる。そして、これにより、従来は容易に行うことのできなかった再生態様で映像を再生したり、従来にはなかった新たな基準で映像を管理したりすることも可能になる。すなわち、上記の構成によれば、映像データの再生や管理等に利用することのできる新たな記述情報を生成することができる。

本発明の各態様に係る生成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記生成装置が備える各部（ソフトウェア要素）として動作させることにより上記生成装置をコンピュータにて実現させる生成装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、映像に関する情報を記述した記述情報を生成する装置、および該記述情報を用いて映像を再生する装置等に利用することができる。

１撮影装置（生成装置）
１６撮影情報取得部（情報取得部）
１７対象情報取得部（情報取得部）
１８リソース情報生成部（記述情報生成部）
２サーバ（生成装置）
２５データ取得部（情報取得部、撮影情報取得部、対象情報取得部）
２６リソース情報生成部（記述情報生成部）

Claims

映像のデータに関する記述情報の生成装置であって、
上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部と、
上記映像のデータに関する記述情報として、上記位置情報を含む記述情報を生成する記述情報生成部と、を備えていることを特徴とする生成装置。
上記対象情報取得部は、上記オブジェクトの向きを示す方向情報を取得し、
上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記方向情報を含む記述情報を生成することを特徴とする請求項１に記載の生成装置。
上記対象情報取得部は、上記オブジェクトに対する上記映像を撮影した撮影装置の相対位置を示す相対位置情報を取得し、
上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記相対位置情報を含む記述情報を生成することを特徴とする請求項１または２に記載の生成装置。
上記対象情報取得部は、上記オブジェクトの大きさを示す大きさ情報を取得し、
上記記述情報生成部は、上記映像に対応する記述情報として、上記位置情報および上記大きさ情報を含む記述情報を生成することを特徴とする請求項１〜３の何れか１項に記載の生成装置。
映像のデータに関する記述情報の生成装置であって、
上記映像中の所定のオブジェクトの位置を示す位置情報を取得する対象情報取得部と、
上記映像を撮影した撮影装置の位置を示す位置情報を取得する撮影情報取得部と、
上記映像のデータに関する記述情報として、上記対象情報取得部が取得した位置情報と、上記撮影情報取得部が取得した位置情報との何れの位置情報を含むかを示す情報を含むと共に、該情報が示す位置情報を含む記述情報を生成する記述情報生成部と、を備えていることを特徴とする生成装置。
動画像のデータに関する記述情報の生成装置であって、
上記動画像の撮影開始から終了までの複数の異なる時点における、該動画像の撮影位置または上記動画像中の所定のオブジェクトの位置を示す位置情報をそれぞれ取得する情報取得部と、
上記動画像のデータに関する記述情報として、複数の異なる時点における上記位置情報を含む記述情報を生成する記述情報生成部と、を備えていることを特徴とする生成装置。