WO2015194082A1

WO2015194082A1 - 画像処理方法および画像処理システム

Info

Publication number: WO2015194082A1
Application number: PCT/JP2015/002179
Authority: WO
Inventors: 徹松延; 敏康杉尾; 陽司柴原; 悠樹丸山
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2014-06-20
Filing date: 2015-04-22
Publication date: 2015-12-23

Abstract

　画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得するステップ（Ｓ１１）と、取得された複数の画像のそれぞれの撮像時刻を取得するステップ（Ｓ１２）と、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット（２０３Ｄ）を生成するステップ（Ｓ１３）とを含む。

Description

画像処理方法および画像処理システム

　本発明は、画像処理方法および画像処理システムに関し、特に、複数の撮像装置による撮像によって得られた複数の画像を用いて被写体の三次元モデルを復元するための画像処理方法および画像処理装置に関する。

　コンピュータビジョンの分野における三次元再構成技術では、複数の２次元画像間で対応付けを行い、三次元モデルの復元、つまり、カメラ姿勢または被写体の３次元位置の推定を行う。

　例えば、特許文献１では、単眼カメラからの入力動画像の初期数フレームにおいて、特徴点を抽出し、フレームマッチング処理により特徴点位置の対応付けを行う。後続のフレームでは、拡張カルマンフィルタを用いた時系列特徴点追跡により特徴点位置情報を取得する。対応付けられた特徴点を用いてＳｆＭ（Ｓｔｒｕｃｔｕｒｅ　ｆｒｏｍ　Ｍｏｔｉｏｎ）により三次元モデルを復元している。

　また、特許文献２では、ステレオカメラで同期撮像した２つの動画像から所定周期で取得したキーフレームで特徴点マッチングを行い、三次元モデルを再構成する。また、特徴点の時間方向の変化を用いて、キーフレーム間の三次元モデルの再構成が可能となる。

　さらに、特許文献３では、３台以上の複数カメラ間でキャリブレーションを行い、取得したカメラパラメータにより各カメラ座標系を任意視点の仮想カメラ座標系へ変換する。その仮想カメラ座標系において、座標変換後の画像間のブロックマッチングによる対応付けを行い、距離情報を推定する。推定した距離情報を基に仮想カメラ視点の画像を生成する。

特開２００９－２３７８４５号公報特開２０１２－１６０９３７号公報特開２０１０－２５０４５２号公報

　しかしながら、上記特許文献１～３の技術では、高精度の三次元モデルを容易に復元することができないという問題がある。

　そこで、本発明は、高精度の三次元モデルを容易に復元するための画像処理方法および画像処理システムを提供する。

　本発明の一態様に係る画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得し、取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。

　なお、この包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明の画像処理方法および画像処理システムを用いれば、高精度の三次元モデルを容易に復元することができる。

図１Ａは、動画像の同期撮像の一例を示す図である。図１Ｂは、動画像の非同期撮像の一例を示す図である。図２は、実施の形態における画像処理装置の構成を示すブロック図である。図３は、実施の形態における画像処理方法の一例を示すフローチャートである。図４は、実施の形態における、同期撮像によって得られた複数の動画像を選択する方法の一例を示す図である。図５Ａは、実施の形態における、動画像に含まれる画像であって、同期撮像時間帯の前後の撮像時刻の画像の一例を示す図である。図５Ｂは、実施の形態における、２枚のフレーム間において静止している被写体の領域を示す図である。図６は、実施の形態における、補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。図７は、実施の形態における、等速運動モデルに基づくフレーム補間が行われる場合の、補間フレーム、その前後のフレーム、および動きベクトルのそれぞれの一例を示す図である。図８は、本実施の形態における、補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。図９は、本実施の形態における、等加速度運動モデルに基づくフレーム補間が行われる場合の、補間フレーム、その前後のフレーム、および動きベクトルのそれぞれの一例を示す図である。図１０Ａは、本発明の一態様に係る画像処理方法を示すフローチャートである。図１０Ｂは、本発明の一態様に係る画像処理システムを示すブロック図である。映像情報処理システムの構成を示す図である。カメラ起動時に表示される通知画面の一例を示す図である。コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。デジタル放送用システムの全体構成図である。スマートフォンの一例を示す図である。スマートフォンの構成例を示すブロック図である。

　（本発明の基礎となった知見）
　まず、本発明の一態様における同期撮像を定義する。

　図１Ａおよび図１Ｂは、撮像装置の撮像周期と露光時間の一例を示す図である。撮像装置の撮像により画像を取得する際、シャッタが開放されている時間、つまり露光が行われている時間を露光時間という。撮像では、露光時間中にレンズを通して撮像素子にさらされたシーンを含む画像が得られる。例えば、動画像の撮像では、予め定められた撮像周期ごとに露光が繰り返し行われ、その露光が行われる露光時間中に画像が得られる。ここで、図１Ａに示すように、撮像装置１と撮像装置２では、露光時間が重複している。これにより２つの撮像装置の撮像により取得された各画像は、同一時刻のシーンを含んでいる。一方、図１Ｂでは、撮像装置１と撮像装置２では、露光時間の重複がないため、２つの撮像装置の撮像により取得された各画像には、同一時刻のシーンは含まれていない。図１Ａのように、同一時刻のシーンを含んだ複数の画像を撮像によって得ることを同期撮像という。一方、図１Ｂのように、同一時刻のシーンを含んでいない複数の画像を撮像によって得ることを非同期撮像という。

　同期撮像が可能であれば、被写体が動いていても、同一時刻の複数フレームを入力とすれば、静止画像と同様の方法により三次元モデルを復元できる。

　しかし、複数の撮像装置で撮像する際、各撮像装置において、シャッタを開放するためのトリガ信号の受信に時間差が生じたる場合がある。また、トリガ信号を受信してから実際にシャッタを開放するまでに遅延が生じたり、露光時間に差があることにより、露光時間が重複しない場合がある。露光時間が重複しない場合、つまり撮像時刻にずれが発生する場合であっても、被写体が静止物体であれば三次元モデルの復元が可能である。しかし、露光時間が重複しない場合に、被写体が動物体であれば、各視点の画像内で被写体が時間方向と空間方向の両方にずれているため、画像間の対応付けが困難となり、高精度な三次元モデルの復元ができない。このように、従来の上記特許文献１～３の技術であっても、高精度の三次元モデルの復元を容易に行うことができないのである。

　具体的には、三次元モデルの復元の対象となる被写体が動いている場合、特許文献１のような単眼カメラからの時系列画像では、フレームマッチングが困難となる。また、特許文献３では、キャリブレーション時のみ同期撮像を行うため、特許文献１と同様に、動いている被写体を対象とした高精度の三次元位置推定は困難である。さらに、特許文献２では、２台のカメラ位置関係が固定であるステレオカメラを使用するため、カメラ位置に制約が生じる。

　そこで、本発明の一態様に係る画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得し、取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。

　これにより、画像セットには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。なお、撮像時刻が互いに略一致するとは、撮像時刻が実質的に一致していることを意味し、撮像時刻が厳密に一致することだけでなく、技術効果的に撮像時刻が一致しているとみなされることも含む。

　また、前記画像処理方法は、さらに、前記画像セットに含まれる複数の画像に基づいて、当該複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出してもよい。例えば、前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を前記状態として示す。または、前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を前記状態として示す。

　これにより、撮像時刻が互いに略一致する複数の画像が三次元情報の算出に用いられるため、高精度の三次元情報を容易に算出することができる。つまり、高精度の三次元モデルを容易に復元することができる。

　また、前記画像セットの生成では、取得された前記複数の画像のうちの１つである基準画像と、当該基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも１つの露光重複画像とを、撮像時刻が互いに略一致する前記複数の画像として選択してもよい。

　これにより、画像セットには、基準画像と、その基準画像と露光のタイミングが一致する少なくとも１つの露光重複画像とが含まれる。つまり、同一時刻の被写体が映し出された複数の画像が画像セットに含まれる。したがって、この画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。

　また、前記撮像時刻の取得では、取得された前記複数の画像のうちの何れの露光時間よりも高い時間精度で示される、前記複数の画像のそれぞれの前記撮像時刻を取得してもよい。

　これにより、より高精度の三次元モデルを容易に復元することができる。

　また、前記画像の取得では、前記複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた前記画像を含む画像信号を取得し、前記画像セットの生成では、取得された複数の画像信号から、撮像時刻が互いに略一致する前記複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された前記複数の画像信号からなる前記画像セットを生成してもよい。例えば、前記画像信号は、複数の画像と、前記複数の画像のそれぞれの撮像時刻を取得するための時刻情報とを含む動画像データであって、前記撮像時刻の取得では、画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記複数の画像のそれぞれの撮像時刻を取得する。

　これにより、動画像データに含まれる複数の画像（例えば複数のピクチャまたはフレーム）のそれぞれの撮像時刻を、その動画像データに含まれる時刻情報に基づいて容易に取得することができる。なお、時刻情報は、例えば、動画像データに含まれる先頭の画像の撮像時刻およびフレームレートを示していてもよく、動画像データに含まれる複数の画像のそれぞれの撮像時刻を示していてもよい。

　または、前記画像信号は、画像と、前記画像の撮像時刻を取得するための時刻情報とを含む画像データであって、前記撮像時刻の取得では、画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記画像の撮像時刻を取得してもよい。

　これにより、画像データに含まれる例えば静止画像の撮像時刻を、その画像データに含まれる時刻情報に基づいて容易に取得することができる。

　また、前記画像セットの生成では、さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、前記処理対象装置から取得された、前記時刻を撮像時刻とする静止画像として生成し、生成された前記静止画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択してもよい。

　これにより、撮像装置から実際に取得された画像だけでなく、生成された静止画像も選択することができ、その結果、画像セットに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。

　また、前記静止画像の生成では、前記元画像の撮像時刻の前および後のうちの少なくとも一方において、前記処理対象装置による撮像によって得られた少なくとも１つの画像と、前記元画像とを比較することによって、前記元画像から前記領域を特定してもよい。例えば、前記領域の特定では、前記元画像を構成する処理単位ごとに、当該処理単位が前記領域に該当するか否かを判定することによって、前記領域を特定し、前記処理単位は、ブロック、前記元画像に写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである。

　これにより、適切な静止画像を生成することができる。したがって、この静止画像を含む画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。

　また、前記画像セットの生成では、さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像に対して補間を行うことより、前記複数の参照画像のそれぞれの撮像時刻と異なる時刻を撮像時刻とする補間画像を、前記処理対象装置から取得された画像として生成し、生成された前記補間画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択してもよい。例えば、前記補間画像の生成では、等速運動モデルに基づいて前記補間画像を生成する。

　これにより、撮像装置から実際に取得された画像だけでなく、生成された補間画像も選択することができ、その結果、画像セットに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。

　また、前記補間画像の生成では、前記複数の参照画像のそれぞれを構成する処理単位ごとに補間を行い、前記処理単位は、ブロック、前記複数の参照画像のそれぞれに写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトであってもよい。

　これにより、適切な補間画像を生成することができる。したがって、この補間画像を含む画像セットを用いれば、より高精度の三次元モデルを容易に復元することができる。

　以下、実施の形態について、図面を用いて詳細に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　図２は、本実施の形態における画像処理装置２００の構成を示すブロック図である。

　画像処理装置２００は、複数の撮像装置より画像を取得し、同一時刻の被写体が写し出された複数の画像からなる画像セットを作成する装置またはシステムである。なお、複数の撮像装置はそれぞれ、画像を画像データである画像信号に含めて送信する。その画像は、動画像であっても静止画像であってもよい。このような画像処理装置２００は、図２に示すように、画像取得部２０１、時刻情報取得部２０２、画像セット生成部２０３、および三次元情報算出部２０４を備える。

　画像取得部２０１は、複数の撮像装置（撮像装置１～Ｎ）のそれぞれから画像を取得する。各撮像装置と画像取得部２０１とは、有線の伝送路で接続されていてもよいし、無線の伝送路で接続されていてもよい。また、基地局を経由して接続されていてもよい。例えば、撮像装置は基地局へ画像を無線伝送し、基地局は画像取得部２０１へ画像を無線伝送する。撮像装置から伝送される画像のフォーマットは、現像を行う前のＲＡＷ画像でもよいし、ＲＡＷ画像を現像したビットマップ画像などのＲＧＢ非圧縮画像でもよいし、さらにＲＧＢ画像をフォーマット変換したＹＵＶ非圧縮画像でもよい。または、そのフォーマットは、Ｈ．２６５／ＨＥＶＣまたはＪＰＥＧなどの画像符号化方式により非圧縮画像を符号化した符号化ストリームでもよい。これらの取得された画像は、三次元情報を計算するために任意に指定されたフォーマットへ変換されてもよい。そのため、画像取得部２０１は、ＲＡＷ画像を現像するための画像現像処理部、ＲＧＢ画像をＹＵＶフォーマットに変換する画像変換部、あるいは符号化ストリームを復号する画像復号部を含んでもよい。また、上述の画像現像処理部、画像変換部、あるいは画像復号部は、画像取得部２０１と独立して画像処理装置２００に備えられてもよい。画像取得部２０１は、複数の撮像装置のそれぞれから取得された、画像を含む画像データ２０１Ｄを、時刻情報取得部２０２および画像セット生成部２０３へ出力する。

　時刻情報取得部２０２は、画像取得部２０１から出力された画像データ２０１Ｄから、撮像された時刻、つまり画像の撮像時刻を示す時刻情報２０２Ｄを取得する。時刻情報２０２Ｄは、露光時間よりも細かい時間精度（または、高い時間精度）の撮像時刻を示し、撮像装置のそれぞれ毎に設定された情報である。例えば、撮像装置は、フレームレート３０ｆｐｓ（ｆｒａｍｅ　ｐｅｒ　ｓｅｃｏｎｄ）の動画像を得るときには、約３３ミリ秒の周期で撮像を行う。その撮像において露光時間を１０ミリ秒とする。この場合、時刻情報２０２Ｄは、１３時４１分０８秒２４３ミリ秒というように、１０ミリ秒より小さい１ミリ秒精度で撮像時刻を示す。なお、撮像時刻は、露光時間の終点つまりシャッタが閉じた時点でもよいし、露光時間の始点つまりシャッタが開いた時点でもよい。以下では、説明のため、撮像時刻は露光時間の終点とする。

　この撮像時刻（または時刻情報２０２Ｄ）は、画像データ２０１Ｄに付加されている。具体的には、撮像時刻は、画像ファイルのヘッダ部に付加されていてもよいし、画像データ２０１Ｄをトランスポートストリームとしてパケット化して伝送する際の各パケットの先頭に保持されていてもよい。あるいは、撮像時刻は、ＲＴＰ（Ｒｅａｌ－ｔｉｍｅ　Ｔｒａｎｓｐｏｒｔ　Ｐｒｏｔｏｃｏｌ）パケットに保持されていてもよい。または、撮像時刻は、符号化ストリームのＵｓｅｒ　ｄａｔａ　ｕｎｒｅｇｉｓｔｅｒｅｄ　ＳＥＩなどに保持されていてもよい。時刻情報取得部２０２は、画像ファイルのヘッダ部、トランスポートストリームのパケット、あるいは、復号されたＵｓｅｒ　ｄａｔａ　ｕｎｒｅｇｉｓｔｅｒｅｄ　ＳＥＩなどから、時刻情報２０２Ｄを取得し、画像セット生成部２０３へ出力する。なお、上記のように、撮像時刻は、撮像装置から出力された情報であってもよいし、画像処理装置２００が画像を受信した時刻に基づいて、時刻合わせまたは調整が行われた時刻であっても良い。

　なお、動画像の場合、動画像データである画像データ２０１Ｄより取得される時刻情報２０２Ｄは、その動画像データに含まれる１フレーム目の撮像開始時刻のみを示してもよいし、フレーム毎の撮像時刻を示してもよい。時刻情報２０２Ｄが１フレーム目の撮像開始時刻のみを示す場合、時刻情報取得部２０２は、さらに、動画像のフレームレートを取得し、１フレーム目に後続する各フレームの撮像時刻を算出する。具体的には、時刻情報取得部２０２は、Ｔ（Ｎ）＝Ｃｌｉｐ（Ｔ（１）＋（１／Ｆ）×（Ｎ－１））によって、フレームレートから算出された撮像周期の整数倍の時間を、１フレーム目の撮像開始時刻に加算する。

　ここで、Ｎは動画像内のフレーム番号、Ｔ（１）は１フレーム目の撮像開始時刻、Ｔ（Ｎ）はＮフレーム目の撮像開始時刻、Ｆは動画像のフレームレート、Ｃｌｉｐ（）は、必要な時間精度で時刻をクリップ処理する関数である。

　画像セット生成部２０３は、取得した画像データ２０１Ｄおよび時刻情報２０２Ｄを用いて、撮像時刻が同期した複数の画像からなる集合を、１つの画像セット２０３Ｄとして生成し、三次元情報算出部２０４へ出力する。つまり、画像セット生成部２０３は、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット２０３Ｄを生成する。撮像時刻が互いに略一致する複数の画像では、その複数の画像のそれぞれの撮像のための露光時間が部分的にまたは全体的に重複している。また、その露光時間は例えば１０ミリ秒である。

　三次元情報算出部２０４は、取得した画像セット２０３Ｄを用いて、三次元情報を算出し、出力する。三次元情報の算出方法の一例として、三次元情報算出部２０４は、ＳｆＭなどを用いて、撮像装置の姿勢または被写体の三次元モデルを同時に復元する。本来、ＳｆＭでは、ある静止したオブジェクトなどの静止シーンを１台の撮像装置の視点を変えながら撮像することによって得られた複数の時系列画像から、三次元再構成を行う。しかし、本実施の形態では、複数の撮像装置のそれぞれの撮像によって得られた、被写体の撮像時刻が同期した複数の画像から、ＳｆＭなどを用いることによって、ある時刻（時間範囲）における三次元再構成を行うことが可能になる。

　図３は、本実施の形態における画像処理方法の一例を示すフローチャートである。

　ステップＳ３０１では、画像取得部２０１は、外部の複数の撮像装置のそれぞれから画像データ２０１Ｄを取得し、時刻情報取得部２０２および画像セット生成部２０３へ出力する。例えば、画像データ２０１Ｄは動画像を含む。

　ステップＳ３０２では、時刻情報取得部２０２は、複数の画像データ２０１Ｄのそれぞれに含まれる時刻情報２０２Ｄを取得し、画像セット生成部２０３へ出力する。

　ステップＳ３０３では、画像セット生成部２０３は、複数の画像データ２０１Ｄおよび複数の時刻情報２０２Ｄを用いて、同時刻の被写体が写っている複数の画像からなる画像セット２０３Ｄを生成し、三次元情報算出部２０４へ出力する。同時刻とは、例えば、それぞれの画像を得るための露光時間が、所定の時間範囲において、部分的または全体的に重複していることである。

　ステップＳ３０４では、三次元情報算出部２０４は、画像セット生成部２０３が生成した画像セット２０３Ｄを用いて被写体の三次元情報を計算し、出力する。

　ステップＳ３０３の処理について以下、図４を用いて詳細に説明する。

　図４は、Ｎ台の撮像装置の撮像によって得られたＮ本の動画像から、撮像時刻が互いに略一致する少なくとも２本以上の動画像を選択する例を示す図である。つまり、この図４は、同期撮像によって得られた複数の動画像を選択する方法の一例を示す。なお、選択される動画像の最大数は、Ｎ本でもよいし、三次元情報算出部２０４に要求された数でもよいし、任意に設定された数でもよい。

　画像セット生成部２０３は、撮像装置の露光時間をＴミリ秒として、時刻Ｗ時Ｘ分Ｙ秒Ｚミリ秒から時刻Ｗ時Ｘ分Ｙ秒（Ｚ＋Ｔ）ミリ秒までの間に、露光が行われた２以上の動画像を、撮像時刻が互いに略一致する少なくとも２本以上の動画像として選択する。つまり、これらの２以上の動画像は同期していると判定され、画像セット２０３Ｄに含められる。また、このような時刻Ｗ時Ｘ分Ｙ秒Ｚミリ秒から時刻Ｗ時Ｘ分Ｙ秒（Ｚ＋Ｔ）ミリ秒までの時間帯を同期撮像時間帯とする。

　図４に示すように、同期撮像時間帯は、例えば、複数の撮像装置から選択されたある基準撮像装置の露光時間である動画像１の露光時間とする。なお、同期撮像時間帯は、基準撮像装置のフレームレートに応じた周期で存在する。この場合、画像セット生成部２０３は、動画像１と、動画像１を出力する基準撮像装置の露光時間と部分的または全体的に重複する露光時間の撮像によって得られた動画像２、３、５・・・とを、選択する。これらの動画像１、２、３、５・・・のうち、ある同期撮像時間帯の撮像により得られたＭ枚の画像は、画像セット２０３Ｄにおけるある時間帯（同期撮像時間帯）の画像群である。なお、Ｍ枚は、Ｎ枚の内、重複する露光時間の撮像によって得られる動画像の総数を示す。画像セット生成部２０３は、上述のような選択を各時間帯で行うことにより、時間帯（同期撮像時間帯）ごとに画像群を有する時系列データで構成される画像セット２０３Ｄを生成する。三次元情報算出部２０４は、この画像セット２０３Ｄを用いることで三次元再構成を行うことが可能になる。

　ここで、画像セット生成部２０３は、基準撮像装置を選択する場合、解像度、動きボケの少なさ、または符号化歪みの少なさといった画質を指標として選択してもよいし、ランダムに選択してもよい。また、基準撮像装置として固定カメラを使用してもよい。

　なお、同期撮像時間帯は、複数の撮像装置の露光時間の平均の時間幅を持つ任意の時間帯であってもよい。図４を例にすると、最も早い時刻に露光時間が始まる動画像４を出力する撮像装置の露光時間と、最も遅い時刻に露光時間が始まる動画像５を出力する撮像装置の露光時間との平均時間が同期撮像時間帯に設定される。この場合は、より多くの撮像装置からの画像が１つの画像セットに含められることが可能になるため、より精度の高い三次元モデルを復元することができる可能性が高い。もちろん、撮像装置における撮像時刻があまりにもバラバラの場合には、適切ではない同期撮像時間帯が設定される場合もある。このため、画像セット生成部２０３は、撮像時刻または露光時間の差分の大小などに応じて、上述のような同期撮像時間帯の設定方法を用いるか否かを判断してもよい。

　なお、同期撮像時間帯の時間幅は、撮像装置の露光時間に限らず、三次元情報の算出の精度を保持するのに必要な時間幅であってもよい。例えば、画像セット生成部２０３は、基準撮像装置の露光時間を同期撮像時間帯として用いて画像セット２０３Ｄを生成する。そして、画像セット生成部２０３は、生成された画像セット２０３Ｄに基づいて三次元再構成が行われた際に、画像が少なすぎて三次元モデルの精度が所定値以下であるか否かを判定する。その精度が所定値以下であると判定すると、画像セット生成部２０３は、同期撮像時間帯の前後に数ミリ秒増やした時間帯を新たな同期撮像時間帯として用い、改めて画像セット２０３Ｄを生成してもよい。逆に、画像セット生成部２０３は、露光時間が長すぎて画像セット２０３Ｄ内に含まれる画像同士の相関が低くなると判断すると、同期撮像時間帯の前後を数ミリ秒減らした時間帯を、新たな同期撮像時間帯に設定してもよい。

　図４の例では、動画像１、動画像２、動画像３、および動画像５・・・が画像セット２０３Ｄに含められる。つまり、動画像１、動画像２、動画像３、および動画像５は、同期していると判定され、言い換えれば、同期撮像によって得られた画像と判定され、動画像４は同期していない（非同期）と判定される。

　なお、画像セット２０３Ｄは、上記で、時間帯（同期撮像時間帯）ごとに画像群を有する時系列データで構成されていると説明した。しかし、画像セット２０３Ｄは、ある同期撮像時間帯において、各動画像から抜き出されたフレームの集合であってもよい。つまり、画像セット２０３Ｄを、ある時刻に限定して捉えれば、このようにほぼ同時刻の撮像により得られた複数画像の集まりと見ることができる。一方、画像セット２０３Ｄを、時間幅を有するデータとして捉えれば、動画像の集合として見ることができる。つまり、その動画像の集合は、各時刻（同期撮像時間帯）において、ほぼ同時刻に撮像された複数画像を有する。

　なお、画像セット２０３Ｄを動画像の集合とする場合、画像セット生成部２０３は、まず、同期撮像時間帯に基づいて、複数の動画像からなる画像セット候補を生成する。次に、画像セット生成部２０３は、画像セット候補の中から、符号化ストリームにおけるＧＯＰ（Ｇｒｏｕｐ　Ｏｆ　Ｐｉｃｔｕｒｅｓ）構造が一致している複数の動画像を選択し、その選択された複数の動画像からなる画像セット２０３Ｄを生成してもよい。また、画像セット生成部２０３は、上述の手順とは逆に画像セット２０３Ｄを生成してもよい。例えば、画像セット生成部２０３は、各撮像装置の動画像から、ＧＯＰ構造がＩＰＢＢの動画像を除き、ＩＰＰＰの複数の動画像のみを選択し、そのＩＰＰＰの複数の動画像からなる画像セット候補を生成する。次に、画像セット生成部２０３は、画像セット候補の中から、同期撮像時間帯に基づいて動画像を選択することによって、画像セット２０３Ｄを生成する。

　なお、画像セット２０３Ｄをフレーム（静止画）の集合とする場合、画像セット生成部２０３は、まず、同期撮像時間帯に基づいて、複数のフレームからなる画像セット候補を生成する。次に、画像セット生成部２０３は、画像セット候補の中から、符号化ストリームにおけるピクチャタイプが一致している複数のフレームを選択し、その選択された複数のフレームからなる画像セット２０３Ｄを生成してもよい。なお、ピクチャタイプは、例えば、Ｉピクチャ、ＰピクチャまたはＢピクチャなどである。例えば、画像セット生成部２０３は、画像セット候補の中からＰピクチャおよびＢピクチャを除き、複数のＩピクチャのみを選択し、その複数のＩピクチャからなる画像セット２０３Ｄを生成する。また、画像セット生成部２０３は、上述の手順とは逆に画像セット２０３Ｄを生成してもよい。具体的には、画像セット生成部２０３は、まず、ピクチャタイプが一致する複数のフレームからなる画像セット候補を生成する。次に、画像セット生成部２０３は、画像セット候補の中から、同期撮像時間帯に基づいて、複数のフレームを選択し、その選択された複数のフレームからなる画像セット２０３Ｄを生成する。

　なお、画像セット生成部２０３は、画像処理装置２００が撮像装置から動画像を取得した時刻に基づいて、画像セット２０３Ｄに含まれる動画像を選択してもよい。具体的には、画像セット生成部２０３は、画像処理装置２００が撮像装置から動画像Ｘを取得した時刻、つまり撮像装置より伝送された動画像Ｘが画像処理装置２００に到着した時刻と、時刻情報２０２Ｄによって示される時刻とを比較する。画像セット生成部２０３は、それらの時刻の時間差が、任意に設定された時間差以上である場合は、時刻情報２０２Ｄの信頼性が低いと判断し、時刻情報２０２Ｄに対応する動画像Ｘを画像セット２０３Ｄの選択から除外する。

　これにより、複数の撮像装置より取得した複数の動画像から、被写体を撮像した時刻が一致した複数の動画像あるいはフレームからなる画像セットが生成される。したがって、この画像セットを用いて三次元情報を算出することにより、撮像装置の姿勢または被写体の三次元モデルを高精度に復元することができる。

　このように本実施の形態では、複数の撮像装置１～Ｎのそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、取得された複数の画像のそれぞれの撮像時刻を取得する。さらに、取得されたその複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セット２０３Ｄを生成する。また、本実施の形態では、さらに、その画像セット２０３Ｄに含まれる複数の画像に基づいて、その複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出する。具体的には、この三次元情報は、画像セット２０３Ｄに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を示す。または、三次元情報は、画像セット２０３Ｄに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を示す。

　これにより、画像セット２０３Ｄには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セット２０３Ｄを用いれば、高精度の三次元モデルを容易に復元することができる。

　また、本実施の形態では、画像セット生成部２０３は、図４に示すように、取得された複数の画像のうちの１つである基準画像（動画像１）と、基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも１つの露光重複画像（動画像２、３および５）とを、撮像時刻が互いに略一致する複数の画像として選択する。

　これにより、画像セット２０３Ｄには、基準画像と、その基準画像と露光のタイミングが一致する少なくとも１つの露光重複画像とが含まれる。つまり、同一時刻の被写体が映し出された複数の画像が画像セット２０３Ｄに含まれる。したがって、この画像セット２０３Ｄを用いれば、より高精度の三次元モデルを容易に復元することができる。

　また、本実施の形態では、時刻情報取得部２０２は、取得された複数の画像のうちの何れの露光時間よりも高い時間精度で示される各画像の撮像時刻を取得する。これにより、より高精度の三次元モデルを容易に復元することができる。

　また、本実施の形態では、画像取得部２０１は、複数の撮像装置１～Ｎのそれぞれから、当該撮像装置による撮像によって得られた画像を含む画像信号（つまり画像データ２０１Ｄ）を取得する。そして、画像セット生成部２０３は、取得された複数の画像信号から、撮像時刻が互いに略一致する複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された複数の画像信号からなる画像セット２０３Ｄを生成する。具体的には、上述の画像信号は、複数の画像（例えば複数のピクチャまたはフレーム）と、その複数の画像のそれぞれの撮像時刻を取得するための時刻情報２０２Ｄとを含む動画像データである。時刻情報取得部２０２は、画像信号、つまり動画像データごとに、当該画像信号に含まれる時刻情報２０２Ｄに基づいて、その画像信号に含まれる複数の画像のそれぞれの撮像時刻を取得する。

　また、上述の画像信号は、画像と、その画像の撮像時刻を取得するための時刻情報とを含む画像データ２０１Ｄであってもよい。つまり、この場合には、画像は静止画像またはフレームであり、画像データ２０１Ｄは静止画像データである。この場合にも、時刻情報取得部２０２は、画像信号ごとに、その画像信号に含まれる時刻情報に基づいて、その画像信号に含まれる画像の撮像時刻を取得する。これにより、画像データ２０１Ｄに含まれる例えば静止画像の撮像時刻を、その画像データ２０１Ｄに含まれる時刻情報に基づいて容易に取得することができる。

　（変形例１）
　ここで、同期撮像により得られた画像（動画像あるいはフレーム）のみを選択すると、画像セット２０３Ｄ内に含まれる画像の数が少なくなり、三次元情報の算出に必要とされる画像、つまり入力データ量が不足する場合がある。

　そこで、本変形例では、新たな画像を、同期撮像により得られた画像として生成する。

　図５Ａは、図４で非同期と判定された動画像４に含まれる、同期撮像時間帯の前後の撮像時刻の画像の一例を示す図である。

　２枚のフレーム(画像)のうちの１枚のフレームの撮像時刻は、同期撮像時間帯の前であって、時刻Ｗ時Ｘ分Ｙ秒（Ｚ－α）ミリ秒（Ｚ－α＜Ｚ）である。一方、２枚のフレームのうちの残りのフレームの撮像時刻は、同期撮像時間帯の後であって、時刻Ｗ時Ｘ分Ｙ秒（Ｚ＋Ｔ＋β）ミリ秒（Ｚ＋Ｔ＋β＞Ｚ＋Ｔ）である。したがって、上述の同期撮像時間帯に基づく選択では、これらの２枚のフレームは画像セット２０３Ｄには含まれない。ただし、それらのフレーム内における物体Ａの位置、大きさおよび形状などは同一であるため、物体Ａは、２枚のフレームのそれぞれの撮像時刻の間は静止している。つまり、仮に、同期撮像時間帯において撮像が行われた場合には、その撮像によって得られるフレームにも、上記２枚のフレームに写っている物体Ａと同じ位置、大きさおよび形状で、物体Ａが写っていると推定できる。

　図５Ｂは、２枚のフレーム間において静止している被写体の領域を示す図である。

　画像セット生成部２０３は、例えば図５Ｂに示すように、図５Ａの２枚のフレームのうちの一方から、静止している被写体が写っている領域（以下、同期撮像領域または静止領域という）を特定し、その領域の画像を、上述の同期撮像時間帯における撮像によって得られた静止画像として生成する。そして、画像セット生成部２０３は、画像取得部２０１によって取得された複数の画像と、その生成された静止画像とから、画像セット２０３Ｄを生成する。

　具体的には、画像セット生成部２０３は、Ｎ台の撮像装置から取得されたＮ本の動画像のそれぞれから静止領域（同期撮像領域）を特定し、その静止領域における被写体が同期撮像時間帯でも静止しているか否かを判定する。そして、画像セット生成部２０３は、静止していると判定された静止領域の画像（静止画像）を抽出して画像セット２０３Ｄに含める。

　なお、画像セット生成部２０３は、完全に静止している被写体が写っている領域を静止領域として特定してもよいし、許容範囲内の動き量で動いている被写体が写っている領域を静止領域として特定してもよい。ここでの許容範囲内の動き量とは、任意に指定された動き量でもよいし、三次元情報算出部２０４が指定した動き量でもよい。さらに、動き量には、画像取得部２０１が符号化ストリームを復号して取得した動きベクトルを使用してもよい。

　なお、同期撮像により得られた複数の画像のみからなる画像セット２０３Ｄに対し、非同期の動画像における静止画像を追加してもよい。

　具体的な方法としては、画像セット生成部２０３は、Ｎ台の撮像装置から取得されたＮ本の動画像から、同期撮像時間帯に撮像が行われたＫ本の動画像を選択し、画像セット２０３Ｄに含める。そして、画像セット生成部２０３は、残りの（Ｎ－Ｋ）本の動画像のそれぞれにおいて、その動画像に含まれる複数のフレームから所定のフレームを特定する。この所定のフレームは、同期撮像時間帯から撮像周期以内の近い時刻を撮像時刻とするフレームである。次に、画像セット生成部２０３は、その所定のフレームから静止領域を特定し、その静止領域における被写体が同期撮像時間帯でも静止しているか否かを判定する。そして、画像セット生成部２０３は、その静止領域における被写体が同期撮像時間帯でも静止していると判定すると、その静止領域の画像を静止画像として画像セット２０３Ｄに追加する。

　これにより、同期撮像により得られた画像が少なくても、非同期の動画像から、画質が視認されやすい静止領域あるいは動き量が少ない領域の画像を抽出し、三次元情報の算出に利用することができる。したがって、同期ずれを原因とする三次元情報算出での情報量の不足を改善することができる。

　このように本変形例では、画像セット生成部２０３は、さらに、複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、処理対象装置から取得された、その時刻を撮像時刻とする静止画像として生成する。そして、画像セット生成部２０３は、生成された静止画像を含む、複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択する。

　これにより、撮像装置から実際に取得された画像だけでなく、生成された静止画像も選択することができ、その結果、画像セット２０３Ｄに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セット２０３Ｄを用いれば、高精度の三次元モデルを容易に復元することができる。

　また、本変形例では、画像セット生成部２０３は、元画像の撮像時刻の前および後のうちの少なくとも一方において、処理対象装置による撮像によって得られた少なくとも１つの画像と、その元画像とを比較することによって、元画像から上述の領域（つまり同期撮像領域または静止領域）を特定する。このとき、画像セット生成部２０３は、元画像を構成する処理単位ごとに、当該処理単位がその領域に該当するか否かを判定することによって、その領域を特定する。ここで、その処理単位は、ブロック、元画像に写っているオブジェクト、または、そのオブジェクトが分割されることによって示されるサブオブジェクトである。

　これにより、適切な静止画像を生成することができる。したがって、この静止画像を含む画像セット２０３Ｄを用いれば、より高精度の三次元モデルを容易に復元することができる。

　（変形例２）
　ここで、撮像装置の台数の問題などにより、動画像または画像の選択、あるいは静止画像の抽出では、三次元情報の算出において入力データ量が不足する場合がある。

　そこで、本変形例では、各動画像でフレーム補間を行うことによって、新たな画像（補間フレーム）を生成し、その新たな画像を画像セット２０３Ｄに含める。

　具体的な方法としては、画像セット生成部２０３は、Ｎ台の撮像装置から取得されたＮ本の動画像から、同期撮像時間帯に撮像が行われたＫ本の動画像を選択し、画像セット２０３Ｄに含める。そして、画像セット生成部２０３は、残りの（Ｎ－Ｋ）本の動画像のそれぞれにおいてフレーム補間を行うことによって、同期撮像時間帯における新たなフレームを補間フレームとして生成し、画像セット２０３Ｄに追加する。

　なお、フレーム補間を行う際には、同期撮像時間帯の前後のフレーム間では、被写体は等速運動を行っていると仮定して、動き量を線形補間してもよい。

　具体的な方法について、図６および図７を用いて説明する。

　図６は、動画像Ｍにおける補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。説明のため、補間フレームの時刻Ｔｃは、同期撮像時間帯の中心とされているが、同期撮像時間帯の任意の時刻でもよい。また、同期撮像時間帯の前後にある撮像時刻ＴａおよびＴｂのそれぞれのフレームが補間に使用される。

　図７は、時刻Ｔａ、Ｔｂ、Ｔｃの各フレームおよび動物体の動きベクトルを示す図である。なお、図７では、各フレームに写っている物体Ａを静止物体とし、物体Ｂを動物体とする。

　まず、画像セット生成部２０３は、動画像Ｍに含まれるフレームＦ（Ｔａ）とフレームＦ（Ｔｂ）より、フレームＦ（Ｔｂ）における物体Ｂの動きベクトルＭＶ（Ｔｂ）を算出する。フレームＦ（Ｔａ）は、時刻Ｔａを撮像時刻とするフレームであり、フレームＦ（Ｔｂ）は、時刻Ｔｂを撮像時刻とするフレームである。

　なお、画像セット生成部２０３は、フレームＦ（Ｔｂ）を複数のブロックに分割し、ブロック毎に動きベクトルを算出してもよい。また、画像セット生成部２０３は、フレームＦ（Ｔｂ）内でオブジェクト抽出を行い、抽出されたオブジェクト毎に動きベクトルを算出してもよい。また、画像セット生成部２０３は、上記ブロックをさらに細かなサブブロックに分割し、サブブロックごとに動きベクトルを算出してもよい。また、画像セット生成部２０３は、上記オブジェクトをさらに細かな複数のサブオブジェクトに分割し、サブオブジェクトごとに動きベクトルを算出してもよい。

　なお、ここでは、物体Ｂのような動領域（つまり、動いているオブジェクトが写っている領域）のみに対して動きベクトルを算出したが、領域の動きに関わらずフレーム全体に対して動きベクトルを算出してもよい。

　なお、画像セット生成部２０３は、動画像Ｍが符号化ストリームとして画像処理装置２００へ入力された場合には、復号時に得られるブロック単位の動きベクトルを、物体Ｂの動きベクトルとして使用してもよい。

　次に、フレームＦ（Ｔａ）とフレームＦ（Ｔｂ）との間において、動物体は等速運動していると仮定される。したがって、画像セット生成部２０３は、フレームＦ（Ｔｃ）における物体Ｂの動きベクトルＭＶ（Ｔｃ）を、下記の（式１）に基づいて算出する。フレームＦ（Ｔｃ）は、時刻Ｔｃを撮像時刻として想定される補間フレームである。

　次に、画像セット生成部２０３は、この動きベクトルとフレームＦ（Ｔａ）に基づき、動き補償を行うことによって、フレームＦ（Ｔｃ）を生成する。なお、画像セット生成部２０３は、動き補償を上述のブロック単位で行ってもよいし、オブジェクト単位で行ってもよい。

　ここで、フレーム補間を行う際には、同期撮像時間帯の前後のフレーム間では、被写体は等加速度運動を行っていると仮定して、動き量を補間してもよい。

　具体的な方法について、図８および図９を用いて説明する。

　図８は、動画像Ｍにおける補間フレームの時刻と、補間に使用されるフレームの時刻とを示す図である。説明のため、補間フレームの時刻Ｔｃは、同期撮像時間帯の中心とされているが、同期撮像時間帯の任意の時刻でもよい。また、同期撮像時間帯の前後にある撮像時刻Ｔａ、Ｔｂ、およびＴｄのそれぞれのフレームが補間に使用される。

　なお、撮像時刻Ｔｄは、撮像時刻Ｔａの１フレーム前の撮像時刻であるが、撮像時刻Ｔｂの１フレーム後の撮像時刻でもよい。あるいは、撮像時刻Ｔｄは、撮像時刻Ｔａの複数フレーム前の撮像時刻、または撮像時刻Ｔｂの複数フレーム後の撮像時刻でもよい。

　図９は、時刻Ｔａ、Ｔｂ、Ｔｃ、Ｔｄの各フレームおよび動物体の動きベクトルを示す図である。なお、図９では、各フレームに写っている物体Ａを静止物体とし、物体Ｂを動物体とする。

　まず、画像セット生成部２０３は、動画像Ｍに含まれるフレームＦ（Ｔｄ）とフレームＦ（Ｔａ）より、フレーム（Ｔａ）における物体Ｂの動きベクトルＭＶ（Ｔａ）を算出する。なお。フレームＦ（Ｔｄ）は、時刻Ｔｄを撮像時刻とするフレームである。さらに、画像セット生成部２０３は、フレームＦ（Ｔａ）とフレームＦ（Ｔｂ）より、フレームＦ（Ｔｂ）における物体Ｂの動きベクトルＭＶ（Ｔｂ）を算出する。なお、画像セット生成部２０３は、上述の等速運動の場合と同様の処理単位（例えばブロックなど）ごとに動きベクトルを算出してもよい。

　画像セット生成部２０３は、この２つの動きベクトルＭＶ（Ｔａ）とＭＶ（Ｔｂ）との差分をとることにより、フレーム（Ｔａ）からフレーム（Ｔｂ）間の物体Ｂの加速度を近似的に求める。ここで、フレームＦ（Ｔａ）とフレームＦ（Ｔｂ）との間において、動物体は等加速度運動していると仮定される。したがって、画像セット生成部２０３は、フレームＦ（Ｔｃ）における物体Ｂの動きベクトルＭＶ（Ｔｃ）を、下記の（式２）に基づいて算出する。

　次に、画像セット生成部２０３は、この動きベクトルとフレームＦ（Ｔａ）に基づき、動き補償を行うことによって、フレームＦ（Ｔｃ）を補間フレームとして生成する。なお、画像セット生成部２０３は、動き補償を、上述の等速運動の場合と同様の処理単位（ブロックなど）で行ってもよい。

　なお、ここでは、フレームＦ（Ｔａ）を基準にした動きベクトルを算出する例を示したが、フレームＦ（Ｔｄ）を基準とし、動き補償にもフレームＦ（Ｔｄ）を使用してもよい。

　このように本変形例では、画像セット生成部２０３は、さらに、複数の撮像装置１～Ｎのうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像（例えば、フレームＦ（Ｔａ）またはＦ（Ｔｂ））に対して補間を行うことより、その複数の参照画像のそれぞれの撮像時刻と異なる時刻（例えば時刻Ｔｃ）を撮像時刻とする補間画像（例えば、補間フレームＦ（Ｔｃ））を、その処理対象装置から取得された画像として生成する。そして、画像セット生成部２０３は、生成されたその補間画像を含む、複数の撮像装置１～Ｎから取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択する。ここで、画像セット生成部２０３は、等速運動モデルまたは等加速度運動モデルに基づいて補間画像を生成する。

　これにより、撮像装置から実際に取得された画像だけでなく、生成された補間画像も選択することができ、その結果、画像セット２０３Ｄに含まれる、撮像時刻が互いに略一致する画像の数を増やすことできる。したがって、複数の撮像装置のそれぞれから実際に取得された、撮像時刻が互いに略一致する画像の数が少なくても、この画像セット２０３Ｄを用いれば、高精度の三次元モデルを容易に復元することができる。

　つまり、被写体を撮像した時刻が一致した十分な数の画像を含む画像セット２０３Ｄを用いて三次元情報を算出することにより、撮像装置の姿勢または被写体の三次元モデルといった三次元情報の精度を向上することができる。

　また、本変形例では、画像セット生成部２０３は、複数の参照画像のそれぞれを構成する処理単位ごとに補間を行う。その処理単位は、ブロック、複数の参照画像のそれぞれに写っているオブジェクト、または、そのオブジェクトが分割されることによって示されるサブオブジェクトである。

　以上、本発明の一態様に係る画像処理方法について、上記実施の形態およびその変形例に基づいて説明したが、本発明は、この実施の形態およびその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態または変形例に施したものや、実施の形態および各変形例における構成要素を組み合わせて構築される形態も本発明に含まれてもよい。例えば、図１０Ａおよび図１０Ｂに示す方法およびシステムも本発明に含まれる。

　図１０Ａは、本発明の一態様に係る画像処理方法を示すフローチャートである。

　この画像処理方法は、複数の画像に対して処理を行う画像処理方法であって、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得するステップＳ１１と、取得された複数の画像のそれぞれの撮像時刻を取得するステップＳ１２と、取得された複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成するステップＳ１３とを含む。

　図１０Ｂは、本発明の一態様に係る画像処理システムの構成を示すブロック図である。

　この画像処理システム１０は、処理回路１１と、処理回路１１に接続される記憶装置１２とを備える。処理回路１１は、複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得して記憶装置１２に格納し、取得された複数の画像のそれぞれの撮像時刻を取得し、記憶装置１２に格納されている複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する。

　このように、図１０Ａおよび図１０Ｂに示す画像処理方法または画像処理システム１０であっても、上記実施の形態およびその変形例と同様の作用効果を奏することができる。つまり、画像セットには、撮像時刻が互いに略一致する複数の画像が含まれるため、この画像セットを用いれば、高精度の三次元モデルを容易に復元することができる。また、図２に示す三次元情報算出部２０４は本発明において必須の構成要素ではない。

　また、上記実施の形態または各変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態および各変形例の画像処理装置または画像処理システムなどを実現するソフトウェアは、図１０Ａの各ステップをコンピュータに実行させるプログラムである。

　なお、以下のような場合も本発明に含まれる。

　（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

　また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

　また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

　（実施の形態２）
　上記各実施の形態で示した画像処理方法及び装置の構成の他の応用例とそれを用いたシステムを説明する。当該システムは、インテリジェント化と対象空間の広域化とが進む映像システムに適用でき、例えば、（１）店舗或いは工場のセキュリティカメラ、又は警察の車載カメラなどに実装される監視システム、（２）個人所有のカメラ或いは各車載カメラ、又は道路に備えられたカメラなどを用いた交通情報システム、（３）ドローンなど遠隔操作又は自動制御可能な装置を用いた環境調査又は配送システム、及び（４）エンターテイメント施設又はスタジアム等における設置カメラ、ドローン等の移動カメラ、又は個人所有のカメラなどを用いた映像などのコンテンツ送受信システムなどに適用できる。

　図１１は、本実施の形態における映像情報処理システムｅｘ１００の構成を示す図である。本実施の形態においては、死角の発生を防止する例、及び特定の領域を撮影禁止にする例について説明する。

　図１１に示す映像情報処理システムｅｘ１００は、映像情報処理装置ｅｘ１０１と、複数のカメラｅｘ１０２と、映像受信装置ｅｘ１０３とを含む。なお、映像受信装置ｅｘ１０３は、必ずしも映像情報処理システムｅｘ１００に含まれる必要はない。

　映像情報処理装置ｅｘ１０１は、保存部ｅｘ１１１と、解析部ｅｘ１１２とを備える。Ｎ個のカメラｅｘ１０２のそれぞれは、映像を撮影する機能と撮影した映像データを映像情報処理装置ｅｘ１０１に送信する機能とを有する。また、カメラｅｘ１０２は、撮影中の映像を表示する機能を有する場合もある。なお、カメラｅｘ１０２は、撮影された映像信号をＨＥＶＣ又はＨ．２６４のような符号化方式を用いてエンコードしたうえで映像情報処理装置ｅｘ１０１に送信してよいし、エンコードされていない映像データを映像情報処理装置ｅｘ１０１に送信してもよい。

　ここで、各カメラｅｘ１０２は、監視カメラ等の固定カメラ、無人飛行型ラジコンや車等に搭載された移動カメラ、又は、ユーザが所持するユーザカメラである。

　移動カメラは、映像情報処理装置ｅｘ１０１から送信された指示信号を受信し、受信された指示信号に応じて、移動カメラ自体の位置又は撮影方向を変更する。

　また、撮影開示前に複数のカメラｅｘ１０２の時刻が、サーバ又は基準カメラの時刻情報などを用いてキャリブレーションされる。また、複数のカメラｅｘ１０２の空間位置が、撮影対象となる空間のオブジェクトの写り方又は基準カメラからの相対位置に基づいてキャリブレーションされる。

　情報処理装置ｅｘ１０１に含まれる保存部ｅｘ１１１は、Ｎ個のカメラｅｘ１０２から送信された映像データを保存する。

　解析部ｅｘ１１２は、保存部ｅｘ１１１に保存された映像データから死角を検出し、死角の発生を防止するための移動カメラへの指示を示す指示信号を移動カメラへ送信する。移動カメラは指示信号に従って移動を行い、撮影を継続する。

　解析部ｅｘ１１２は、例えば、ＳｆＭ（Ｓｔｒｕｃｔｕｒｅ　ｆｒｏｍ　Ｍｏｔｉｏｎ）を用いて死角検出を行う。ＳｆＭとは、異なる位置から撮影された複数の映像から被写体の三次元形状を復元する手法であり、被写体形状及びカメラ位置を同時に推定する形状復元技術として広く知られている。例えば、解析部ｅｘ１１２は、ＳｆＭを用いて、保存部ｅｘ１１１に保存された映像データから施設内又はスタジアム内の三次元形状を復元し、復元できない領域を死角として検出する。

　なお、解析部ｅｘ１１２は、カメラｅｘ１０２の位置及び撮影方向が固定であり、位置及び撮影方向の情報が既知の場合は、これらの既知の情報を用いてＳｆＭを行ってもよい。また、移動カメラの位置及び撮影方向が、移動カメラが備えるＧＰＳ及び角度センサ等により取得できる場合は、移動カメラは、当該移動カメラの位置及び撮影方向の情報を解析部ｅｘ１１２に送信し、解析部ｅｘ１１２は、送信された位置及び撮影方向の情報を用いてＳｆＭを行ってもよい。

　なお、死角検出の方法は上述したＳｆＭを用いた方法に限られるものではない。例えば、解析部ｅｘ１１２は、レーザレンジファインダなどのデプスセンサの情報を用いることで、撮影対象であるオブジェクトの空間距離を把握してもよい。また、解析部ｅｘ１１２は、カメラ位置、撮影方向及びズーム倍率等の情報を、空間内の予め設定したマーカ又は特定のオブジェクトが画像に含まれるか、含まれる場合にはそのサイズ等から検出してもよい。このように、解析部ｅｘ１１２は、各カメラの撮影領域を検出できる任意の方法を用いて、死角の検出を行う。また、解析部ｅｘ１１２は、複数の撮影対象について互いの位置関係等の情報を映像データ又は近接距離センサ等から取得し、取得した位置関係に基づいて死角が発生する可能性の高い領域を特定してもよい。

　ここで死角とは、撮影したい領域中で映像が存在しない部分だけでなく、他の部分と比較して画質の悪い部分、及び予め定められた画質を得られていない部分などを含む。この検出対象の部分は、当該システムの構成又は目的に応じて適宜設定されればよい。例えば、撮影される空間中の特定の被写体について、要求される画質が高く設定されてもよい。また、逆に撮影空間中の特定の領域について、要求される画質が低く設定されてもよいし、映像が撮影されていなくても死角と判定しないように設定されてもよい。

　なお、上述した画質とは、映像中の撮影対象となる被写体が占める面積（例えばピクセル数）、又は撮影対象となる被写体にピントが合っているかといった映像に関する様々な情報を含むものであり、それらの情報又はその組み合わせを基準に死角であるか否かが判定されればよい。

　なお、上記の説明では、実際に死角となっている領域の検出について説明したが、死角の発生を防止するために検出する必要のある領域は実際に死角となっている領域に限定されない。例えば、複数の撮影対象が存在し、少なくともその一部が移動している場合には、ある撮影対象とカメラとの間に別の撮影対象が入ることによって新たな死角が生じる可能性がある。これに対し、解析部ｅｘ１１２は、例えば撮影された映像データ等から複数の撮影対象の動きを検出し、検出された複数の撮影対象の動きとカメラｅｘ１０２の位置情報に基づいて、新たに死角となる可能性のある領域を推定してもよい。この場合、映像情報処理装置ｅｘ１０１は、死角となる可能性のある領域を撮影するように移動カメラに指示信号を送信し、死角の発生を防止してもよい。

　なお、移動カメラが複数ある場合、映像情報処理装置ｅｘ１０１は、死角、又は死角となる可能性がある領域を撮影させるために指示信号を送信する移動カメラを選択する必要がある。また、移動カメラ及び死角、又は死角となる可能性がある領域がそれぞれ複数存在する場合、映像情報処理装置ｅｘ１０１は、複数の移動カメラのそれぞれについて、どの死角、又は死角となる可能性がある領域を撮影させるかを決定する必要がある。例えば、映像情報処理装置ｅｘ１０１は、死角、又は死角となる可能性のある領域と各移動カメラが撮影中の領域の位置とに基づいて、死角、又は死角となる領域に最も近い移動カメラを選択する。また、映像情報処理装置ｅｘ１０１は、各移動カメラについて、当該移動カメラが現在撮影中の映像データが得られない場合に新たに死角が発生するか否かを判定し、現在撮影中の映像データが得られなくても死角が発生しないと判断された移動カメラを選択してもよい。

　以上の構成により、映像情報処理装置ｅｘ１０１は、死角を検出し、死角を防止するように移動カメラに対して指示信号を送信することにより、死角の発生を防止できる。

　（変形例１）
　なお、上記説明では、移動カメラに移動を指示する指示信号が送信される例を述べたが、指示信号は、ユーザカメラのユーザに移動を指示するための信号であってもよい。例えば、ユーザカメラは、指示信号に基づき、ユーザにカメラの方向を変更するように指示する指示画像を表示する。なお、ユーザカメラは、ユーザの移動の指示として、地図上に移動経路を示した指示画像を表示してもよい。また、ユーザカメラは、取得される画像の質を向上させるために撮影方向、角度、画角、画質、及び撮影領域の移動など詳細な撮影の指示を表示してもよく、さらに映像情報処理装置ｅｘ１０１側で制御可能であれば、映像情報処理装置ｅｘ１０１は、そのような撮影に関するカメラｅｘ１０２の特徴量を自動で制御してもよい。

　ここで、ユーザカメラは、例えば、スタジアム内の観客又は施設内の警備員が持つスマートフォン、タブレット型端末、ウェアラブル端末、又はＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔｅｄ　Ｄｉｓｐｌａｙ）である。

　また、指示画像を表示する表示端末は、映像データを撮影するユーザカメラと同一である必要はない。例えば、ユーザカメラに予め対応付けられた表示端末に対して、ユーザカメラが指示信号又は指示画像を送信し、当該表示端末が指示画像を表示してもよい。また、ユーザカメラに対応する表示端末の情報が、予め映像情報処理装置ｅｘ１０１に登録されてもよい。この場合は、映像情報処理装置ｅｘ１０１は、ユーザカメラに対応する表示端末に対して指示信号を直接送信することで、表示端末に指示画像を表示させてもよい。

　（変形例２）
　解析部ｅｘ１１２は、例えばＳｆＭを用いて、保存部ｅｘ１１１に保存された映像データから施設内又はスタジアム内の三次元形状を復元することで自由視点映像（三次元再構成データ）を生成してもよい。この自由視点映像は、保存部ｅｘ１１１に保存される。映像情報処理装置ｅｘ１０１は、映像受信装置ｅｘ１０３から送信される視野情報（及び／又は、視点情報）に応じた映像データを保存部ｅｘ１１１から読み出して、映像受信装置ｅｘ１０３に送信する。なお、映像受信装置ｅｘ１０３は、複数のカメラ１１１の一つであってもよい。

　（変形例３）
　映像情報処理装置ｅｘ１０１は、撮影禁止領域を検出してもよい。この場合、解析部ｅｘ１１２は撮影画像を解析し、移動カメラが撮影禁止領域を撮影している場合には移動カメラに対して撮影禁止信号を送信する。移動カメラは撮影禁止信号を受信している間は撮影を停止する。

　解析部ｅｘ１１２は、例えば、ＳｆＭを用いて復元された三次元の仮想空間と、撮影映像とのマッチングを取ることで、空間内で予め設定されている移動カメラが撮影禁止領域を撮影中かを判定する。または、解析部ｅｘ１１２は、空間内に配置されたマーカ又は特徴的なオブジェクトをトリガーとして移動カメラが撮影禁止領域を撮影中かを判定する。撮影禁止領域とは、例えば施設内又はスタジアム内のトイレなどである。

　また、ユーザカメラが撮影禁止領域を撮影している場合には、ユーザカメラは、無線又は有線で接続されるディスプレイ等にメッセージを表示したり、スピーカ又はイヤホンから音又は音声を出力したりすることで、現在の場所が撮影禁止場所であることをユーザに知らせてもよい。

　例えば、上記メッセージとして、現在カメラを向けている方向が撮影禁止である旨が表示される。または、表示される地図上に撮影禁止領域と現在の撮影領域とが示される。また、撮影の再開は、例えば、撮影禁止信号が出力されなくなれば自動的に行われる。または、撮影禁止信号が出力されておらず、かつ、ユーザが撮影再開を行う操作をした場合に、撮影が再開されてもよい。また、撮影の停止と再開とが短期間で複数回起こった場合には、再度キャリブレーションが行われてもよい。または、ユーザに現在位置を確認したり移動を促したりするための通知が行われてもよい。

　また、警察など特別な業務の場合には、記録のためこのような機能をオフにするパスコード又は指紋認証などが用いられてもよい。さらに、そのような場合であっても撮影禁止領域の映像が外部に表示されたり保存される場合には自動でモザイクなど画像処理が行われてもよい。

　以上の構成により、映像情報処理装置ｅｘ１０１は、撮影禁止の判定を行い、撮影を停止するようにユーザに通知することで、ある領域を撮影禁止に設定できる。

　（変形例４）
　映像から三次元の仮想空間を構築するためには、複数視点の映像を集める必要があるため、映像情報処理システムｅｘ１００は、撮影映像を転送したユーザに対してインセンティブを設定する。例えば、映像情報処理装置ｅｘ１０１は、映像を転送したユーザに対し、無料又は割引料金で映像配信を行ったり、オンライン又はオフラインの店又はゲーム内で使用できるような金銭的な価値、又はゲームなどのバーチャル空間での社会的地位など非金銭的な価値のあるポイントを付与する。また、映像情報処理装置ｅｘ１０１は、リクエストが多いなど価値のある視野（及び／又は、視点）の撮影映像を転送したユーザに対しては特に高いポイントを付与する。

　（変形例５）
　映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して付加情報を送信してもよい。この場合、ユーザカメラは撮影映像に付加情報を重畳して、画面に表示する。付加情報とは、例えば、スタジアムでの試合が撮影されている場合には、選手名又は身長などの選手の情報であり、映像内の各選手に対応付けて当該選手の名前又は顔写真などが表示される。なお、映像情報処理装置ｅｘ１０１は、映像データの一部又は全部の領域に基づきインターネット経由の検索により、付加情報を抽出してもよい。また、カメラｅｘ１０２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）をはじめとする近距離無線通信又は、スタジアム等の照明から可視光通信によりそのような付加情報を受け取り、受け取った付加情報を、映像データにマッピングしてもよい。また、カメラｅｘ１０２は、このマッピングを、カメラｅｘ１０２に有線又は無線により接続される記憶部に保持されるテーブルであって、可視光通信技術により得られる情報と付加情報との対応関係を示すテーブルなどの一定規則に基づいて行なってもよいし、インターネット検索により最も確からしい組み合わせの結果を用いて行なってもよい。

　また、監視システムにおいては、施設内の警備員が持つユーザカメラに対して、例えば注意人物の情報が重畳されることで、監視システムの高精度化を図ることができる。

　（変形例６）
　解析部ｅｘ１１２は，自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定してもよい。なお、撮影領域の判定方法はこれに限られず、上述した各実施の形態で説明した様々な撮影領域の判定方法又はその他の撮影領域の判定方法を用いられてもよい。

　映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して過去映像を送信する。ユーザカメラは撮影映像に過去映像を重畳して、又は撮影映像を過去映像に置換して、画面に表示する。

　例えば、ハーフタイム中に、過去映像として前半のハイライトシーンが表示される。これにより、ユーザはハーフタイム中に、前半のハイライトシーンを自分が見ている方向の映像として楽しむことができる。なお過去映像は、前半のハイライトシーンに限らず、そのスタジアムで行われた過去の試合のハイライトシーンなどでもよい。また、映像情報処理装置ｅｘ１０１が過去映像を配信するタイミングはハーフタイム中に限らず、例えば試合終了後でも、試合中でもよい。特に試合中の場合には、解析部ｅｘ１１２の解析結果に基づき、映像情報処理装置ｅｘ１０１はユーザが見逃した重要と考えられるシーンを配信してもよい。また、映像情報処理装置ｅｘ１０１はユーザからリクエストがあった場合のみ過去映像を配信してもよく、又は過去映像の配信前に配信許可のメッセージを配信してもよい。

　（変形例７）
　映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２の解析結果に基づき、ユーザカメラに対して広告情報を送信してもよい。ユーザカメラは撮影映像に広告情報を重畳して、画面に表示する。

　広告情報は例えば変形例５で示した、ハーフタイム中又は試合終了後の過去映像配信直前に配信されてもよい。これにより、配信業者は広告主からの広告料を得ることができ、ユーザに安価又は無料で映像配信サービスを提供できる。また、映像情報処理装置ｅｘ１０１は、広告情報の配信直前に広告配信許可のメッセージを配信してもよいし、ユーザが広告を視聴した場合のみ無料でサービスを提供してもよいし、広告を視聴しない場合より安価にサービスを提供してもよい。

　また、広告に従ってユーザが「今すぐ注文する」などをクリックすると、当該システム又は何らかの位置情報に基づいてユーザの位置を把握しているスタッフ又は会場の自動の配送システムが注文された飲み物を席まで届けてくれる。決裁はスタッフへの手渡しでもよいし、予めモバイル端末のアプリ等に設定されているクレジットカード情報に基づいて行われてもよい。また、広告にはｅコマースサイトへのリンクが含まれ、通常の自宅配送等のオンラインショッピングが可能な状態になっていてもよい。

　（変形例８）
　映像受信装置ｅｘ１０３は、カメラｅｘ１０２（ユーザカメラ）の一つであってもよい。

　この場合、解析部ｅｘ１１２は、自由視点映像とユーザカメラの撮影映像とのマッチングを取ることで、ユーザカメラが施設内又はスタジアム内のどの領域を撮影中かを判定する。なお、撮影領域の判定方法はこれに限らない。

　例えば、ユーザが、画面に表示されている矢印の方向にスワイプ操作をすると、ユーザカメラはその方向へ視点を移動させることを示す視点情報を生成する。映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２が判定したユーザカメラの撮影領域から視点情報の分だけ移動させた領域を撮影した映像データを保存部ｅｘ１１１から読み出し、当該映像データのユーザカメラへの送信を開始する。そしてユーザカメラは撮影映像ではなく、映像情報処理装置ｅｘ１０１から配信された映像を表示する。

　以上により、施設内又はスタジアム内のユーザは、画面スワイプのような簡易な動作で、好きな視点からの映像を視聴できる。例えば野球場の３塁側で観戦している観客が、１塁側の視点からの映像を視聴できる。また、監視システムにおいては、施設内の警備員が画面スワイプのような簡易な動作で、自身が確認したい視点又はセンターからの割り込みとして注視すべき映像などを、視点を適用的に変えながら視聴することができるので、監視システムの高精度化を図ることができる。

　また、施設内又はスタジアム内のユーザへの映像の配信は、例えばユーザカメラと撮影対象との間に障害物が存在し、見えない領域がある場合等にも有効である。この場合、ユーザカメラは、ユーザカメラの撮影領域のうち障害物が含まれる一部の領域の映像を、撮影映像から、映像情報処理装置ｅｘ１０１からの配信映像に切り替えて表示してもよいし、画面全体を撮影映像から配信映像に切り替えて表示してもよい。また、ユーザカメラは、撮影映像と配信映像とを合成して障害物を透過して視聴対象が見えているような映像を表示してもよい。この構成によると、障害物の影響でユーザの位置から撮影対象が見えない場合にも、映像情報処理装置ｅｘ１０１から配信された映像を視聴することができるので、障害物の影響を軽減することができる。

　また、障害物により見えない領域の映像として配信映像を表示する場合は、上述した画面スワイプのようなユーザによる入力処理に応じた表示の切り替え制御とは異なる表示の切り替え制御が行われてもよい。例えば、ユーザカメラの移動及び撮影方向の情報、並びに予め得られている障害物の位置情報に基づいて撮影領域に障害物が含まれると判定される場合に、撮影映像から配信映像への表示の切り替えが自動的に行われもよい。また、撮影映像データの解析により撮影対象ではない障害物が映っていると判定された場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。また、撮影映像に含まれる障害物の面積（例えばピクセル数）が所定の閾値を超えた場合、又は撮影対象の面積に対する障害物の面積の比が所定の割合を超えた場合に、撮影映像から配信映像への表示の切り替えが自動的に行われてもよい。

　なお、ユーザの入力処理に応じて撮影映像から配信映像への表示の切り替え及び配信映像から撮影映像への表示の切り替えが行われてもよい。

　（変形例９）
　各カメラｅｘ１０２で撮影された映像データの重要度に基づき映像データを映像情報処理装置ｅｘ１０１に転送する速度が指示されてもよい。

　この場合、解析部ｅｘ１１２は保存部ｅｘ１１１に保存された映像データ、又は当該映像データを撮影したカメラｅｘ１０２の重要度を判定する。ここでの重要度の判定は、例えば映像中に含まれる人の数或いは移動物体の数、映像データの画質などの情報、又はその組み合わせに基づいて行われる。

　また、映像データの重要度の判定は、映像データが撮影されたカメラｅｘ１０２の位置又は映像データが撮影している領域に基づいてもよい。例えば、対象のカメラｅｘ１０２の近くに撮影中の他のカメラｅｘ１０２が複数存在する場合に、対象のカメラｅｘ１０２で撮影された映像データの重要度を低くする。また、対象のカメラｅｘ１０２の位置が他のカメラｅｘ１０２から離れていても同じ領域を撮影している他のカメラｅｘ１０２が複数存在する場合に、対象のカメラｅｘ１０２で撮影された映像データの重要度を低くする。また、映像データの重要度の判定は、映像配信サービスにおけるリクエストの多さに基づいて行われてもよい。なお、重要度の判定方法は、上述したものやその組み合わせに限られず、監視システム又は映像配信システムの構成又は目的に応じた方法であればよい。

　また、重要度の判定は撮影された映像データに基づくものでなくてもよい。例えば、映像情報処理装置ｅｘ１０１以外の端末へ映像データを送信するカメラｅｘ１０２の重要度が高く設定されてもよい。逆に、映像情報処理装置ｅｘ１０１以外の端末へ映像データを送信するカメラｅｘ１０２の重要度が低く設定されてもよい。これにより、例えば、映像データの伝送を必要とする複数のサービスが通信帯域を共有している場合に、各サービスの目的又は特性に応じた通信帯域の制御の自由度が高くなる。これにより、必要な映像データが得られないことによる各サービスの品質の劣化を防止できる。

　また、解析部ｅｘ１１２は、自由視点映像とカメラｅｘ１０２の撮影映像とを用いて、映像データの重要度を判定してもよい。

　映像情報処理装置ｅｘ１０１は、解析部ｅｘ１１２で行われた重要度の判定結果に基づき、カメラｅｘ１０２に対して通信速度指示信号を送信する。映像情報処理装置ｅｘ１０１は、例えば、重要度が高い映像を撮影しているカメラｅｘ１０２に対して高い通信速度を指示する。また、映像情報処理装置ｅｘ１０１は、速度の制御だけではなく、重要な情報については、欠落によるデメリットを低減するために複数回送るような方式を指示する信号を送信してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができる。なお、カメラｅｘ１０２と映像情報処理装置ｅｘ１０１との通信は、有線通信であっても無線通信であってもよい。また、映像情報処理装置ｅｘ１０１は、有線通信及び無線通信のいずれか一方のみを制御してもよい。

　カメラｅｘ１０２は、通信速度指示信号に従った通信速度で、撮影映像データを映像情報処理装置ｅｘ１０１に送信する。なお、カメラｅｘ１０２は所定の回数再送が失敗した場合には、その撮影映像データの再送を停止し、次の撮影映像データの転送を開始してもよい。これにより、施設内又はスタジアム内全体の通信を効率的に行うことができ、解析部ｅｘ１１２における処理の高速化を実現できる。

　また、カメラｅｘ１０２は、それぞれに割り当てられた通信速度が撮影した映像データを転送するために十分な帯域でない場合は、撮影した映像データを、割り当てられた通信速度で送信可能なビットレートの映像データに変換し、変換後の映像データを送信してもよし、映像データの転送を中止してもよい。

　また、上述したように死角の発生を防止するために映像データが使用される場合、撮影された映像データに含まれる撮影領域のうちの一部の領域のみが死角を埋めるために必要である可能性がある。この場合、カメラｅｘ１０２は、少なくとも、映像データから、死角の発生を防止するために必要とされる領域のみを抽出することで抽出映像データを生成し、生成された抽出映像データを映像情報処理装置ｅｘ１０１に送信してもよい。この構成によると、死角の発生の抑制をより少ない通信帯域で実現できる。

　また、例えば、付加情報の重畳表示又は映像配信が行われる場合には、カメラｅｘ１０２は、映像情報処理装置ｅｘ１０１にカメラｅｘ１０２の位置情報及び撮影方向の情報を送信する必要がある。この場合、映像データを転送するためには十分ではない帯域しか割り当てられなかったカメラｅｘ１０２は、カメラｅｘ１０２で検出された位置情報及び撮影方向の情報のみを送信してもよい。また、映像情報処理装置ｅｘ１０１においてカメラｅｘ１０２の位置情報及び撮影方向の情報を推定する場合は、カメラｅｘ１０２は、撮影した映像データを、位置情報及び撮影方向の情報の推定に必要な解像度に変換し、変換された映像データを映像情報処理装置ｅｘ１０１に送信してもよい。この構成によると、少ない通信帯域しか割り当てられなかったカメラｅｘ１０２に対しても、付加情報の重畳表示又は映像配信のサービスを提供できる。また、映像情報処理装置ｅｘ１０１は、より多くのカメラｅｘ１０２から撮影領域の情報を取得できるため、例えば注目されている領域を検出する等の目的で、撮影領域の情報を利用するような場合においても有効である。

　なお、上述した割り当てられた通信帯域に応じた映像データの転送処理の切り替えは、通知された通信帯域に基づいてカメラｅｘ１０２が行ってもよいし、映像情報処理装置ｅｘ１０１が各カメラｅｘ１０２の動作を決定し、決定された動作を示す制御信号を各カメラｅｘ１０２に通知してもよい。これにより、動作の切り替えの判定に必要な計算量、カメラｅｘ１０２の処理能力、及び必要となる通信帯域等に応じて、適切に処理の分担を行える。

　（変形例１０）
　解析部ｅｘ１１２は、映像受信装置ｅｘ１０３から送信された視野情報（及び／又は、視点情報）に基づき、映像データの重要度を判定してもよい。例えば、解析部ｅｘ１１２は、視野情報（及び／又は、視点情報）が示す領域を多く含む撮影映像データの重要度を高く設定する。また、解析部ｅｘ１１２は、映像中に含まれる人の数、又は移動物体の数を考慮して、映像データの重要度を判定してもよい。なお、重要度の判定方法はこれに限らない。

　なお、本実施の形態で説明した通信制御方法は、必ずしも複数の映像データから三次元形状の再構築を行うシステムにおいて用いられる必要はない。例えば複数のカメラｅｘ１０２が存在する環境において、映像データを選択的又は伝送速度に差をつけて有線通信及び／又は無線通信で送信する場合であれば、本実施の形態で説明した通信制御方法は有効である。

　（変形例１１）
　映像配信システムにおいて、映像情報処理装置ｅｘ１０１は、撮影シーンの全体を示す概観映像を映像受信装置ｅｘ１０３に送信してもよい。

　具体的には、映像情報処理装置ｅｘ１０１は、映像受信装置ｅｘ１０３から送信された配信リクエストを受信した場合、保存部ｅｘ１１１から施設内又はスタジアム内全体の概観映像を読み出し、当該外観映像を映像受信装置ｅｘ１０３に送信する。この概観映像は更新間隔が長くてもよく（低フレームレートでもよく）、また画質が低くてもよい。視聴者は、映像受信装置ｅｘ１０３の画面上に表示された概観映像中で、見たい部分をタッチする。これにより、映像受信装置ｅｘ１０３は、タッチされた部分に対応する視野情報（及び／又は、視点情報）を映像情報処理装置ｅｘ１０１に送信する。

　映像情報処理装置ｅｘ１０１は、視野情報（及び／又は、視点情報）に応じた映像データを保存部ｅｘ１１１から読み出し、当該映像データを映像受信装置ｅｘ１０３に送信する。

　また、解析部ｅｘ１１２は、視野情報（及び／又は、視点情報）で示される領域に対して優先的に三次元形状の復元（三次元再構成）を行うことで自由視点映像を生成する。解析部ｅｘ１１２は、施設内又はスタジアム内全体の三次元形状を、概観を示す程度の精度で復元する。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が見たい領域の自由視点映像の高フレームレート化、及び高画質を実現できる。

　（変形例１２）
　なお、映像情報処理装置ｅｘ１０１は、例えば、設計図面などから事前に生成された施設又はスタジアムの三次元形状復元データを事前映像として、予め保存しておいてもよい。なお、事前映像はこれに限らず、デプスセンサから得られる空間の凹凸と、過去又はキャリブレーション時の画像又は映像データから導出されるピクチャとをオブジェクトごとにマッピングした仮想空間データであってもよい。

　例えば、スタジアムでサッカーが行われている場合、解析部ｅｘ１１２は、選手及びボールのみに限定して三次元形状の復元を行い、得られた復元データと事前映像とを合成することで自由視点映像を生成してもよい。あるいは、解析部ｅｘ１１２は、選手及びボールに対して優先して三次元形状の復元を行ってもよい。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができる。その結果、視聴者が注目する選手及びボールに関する自由視点映像の高フレームレート化及び高画質化を実現できる。また、監視システムにおいては、解析部ｅｘ１１２は、人物及び移動物体のみに限定して、又はそれらを優先して三次元形状の復元を行ってもよい。

　（変形例１３）
　各装置の時刻は、サーバの基準時刻等に基づき、撮影開始時にキャリブレーションされてもよい。解析部ｅｘ１１２は、複数のカメラｅｘ１０２で撮影された複数の撮影映像データのうち、時刻設定の精度に応じて、予め設定された時間範囲内に属する時刻に撮影された複数の映像データを用いて、三次元形状の復元を行う。この時刻の検出には、例えば撮影映像データが保存部ｅｘ１１１に格納された時刻が用いられる。なお、時刻の検出方法はこれに限らない。これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。

　または、解析部ｅｘ１１２は、保存部ｅｘ１１１に保存された複数の映像データのうち、高画質データのみを用いて、又は高画質データを優先的に用いて、三次元形状の復元を行ってもよい。

　（変形例１４）
　解析部ｅｘ１１２は，カメラ属性情報を用いて、三次元形状の復元を行ってもよい。この場合、カメラｅｘ１０２は、撮影映像データとカメラ属性情報とを映像情報処理装置ｅｘ１０１に送信する。カメラ属性情報は、例えば、撮影位置、撮影角度、撮影時刻、又はズーム倍率などである。

　これにより、映像情報処理装置ｅｘ１０１は、三次元形状の復元を効率的に行うことができるので、自由視点映像の高フレームレート化及び高画質化を実現できる。

　具体的には、カメラｅｘ１０２は、施設内又はスタジアム内に三次元座標を定義し、カメラｅｘ１０２がどのあたりの座標をどの角度から、どれ位のズームで、どの時間に撮ったかという情報を映像と共にカメラ属性情報として映像情報処理装置ｅｘ１０１に送信する。また、カメラｅｘ１０２の起動時に、施設内又はスタジアム内の通信ネットワーク上の時計とカメラ内の時計との同期がとられ、時間情報が生成される。

　また、カメラｅｘ１０２の起動時又は任意のタイミングで施設内又はスタジアム内の特定のポイントにカメラｅｘ１０２を向けることにより、カメラｅｘ１０２の位置及び角度情報が取得される。図１２は、カメラｅｘ１０２に起動時に、カメラｅｘ１０２の画面上に表示される通知の一例を示す図である。ユーザがこの通知に従い、スタジアム北側の広告中のサッカーボール中心にある「＋」に、画面中央に表示された「＋」を合わせて、カメラｅｘ１０２のディスプレイをタッチすると、カメラｅｘ１０２は、カメラｅｘ１０２から広告までのベクトル情報を取得しカメラ位置及び角度の基準を特定する。その後、カメラｅｘ１０２のモーション情報からその時々のカメラ座標及び角度が特定される。もちろん、この表示に限るものではなく、矢印等を用いて撮影期間中も座標、角度、又は撮影領域の移動速度等を指示するような表示が用いられてもよい。

　カメラｅｘ１０２の座標の特定は、ＧＰＳ、ＷｉＦｉ（登録商標）、３Ｇ、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、及び５Ｇ（無線ＬＡＮ）の電波を用いて行われてもよいし、ビーコン（Ｂｌｕｅｔｏｏｔｈ（登録商標）、超音波）など近距離無線を利用して行われてもよい。また、施設内又はスタジアム内のどの基地局に撮影映像データが届いたかという情報が用いられてもよい。

　（変形例１５）
　当該システムはスマートフォン等のモバイル端末上で動作するアプリケーションとして提供されてもよい。

　上記システムへのログインには、各種ＳＮＳ等のアカウントが用いられてもよい。なお、アプリ専用のアカウント、又は機能が制限されたゲストアカウントが用いられてもよい。このようにアカウントが用いられることで、好みの映像又は好みのアカウント等を評価することができる。また、撮影中又は視聴中の映像データに類似した映像データ、撮影中又は視聴中の映像データの視点に類似した視点の映像データなどに優先的に帯域を割り振ることで、これらの映像データの解像度を高めることができる。これにより、これらの視点からの三次元形状の復元をより精度よく行うことができる。

　また、ユーザは、当該アプリケーションで、好みの画像映像を選択し、相手方をフォローすることで、選択した画像を他のユーザよりも優先して見たり、相手方の承認などを条件にテキストチャット等でつながりをもつことができる。このように、新たなコミュニティの生成が可能である。

　このようにユーザ同士がコミュニティ内でつながることにより、撮影自体、また撮影した画像の共有などが活発化し、より精度の高い三次元形状の復元を促すことができる。

　また、コミュニティ内のつながりの設定に応じて、ユーザは、他人が撮影した画像又は映像を編集したり、他人の画像と自分の画像とをコラージュして新たな画像又は映像を作成したりできる。これにより、新たな画像又は映像を当該コミュニティ内の人のみでシェアするなど、新たな映像作品のシェアが可能になる。また、この編集においてＣＧのキャラクタを挿入するなどにより、拡張現実（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）のゲーム等にも映像作品を利用できる。

　また、当該システムによると三次元モデルデータが逐次出力可能になるため、ゴールシーンなどの特徴的なシーンでの三次元モデルデータに基づき、施設が有する３Ｄプリンタなどが立体オブジェクトを出力することができる。これにより、試合後に、その試合中のシーンに基づくオブジェクトをキーホルダーのようなお土産として売ったり、参加ユーザに配布することも可能である。もちろん通常の写真として、もっとも良い視点からの画像をプリントすることも可能である。

　（変形例１６）
　上記システムを用いて、例えば、警察の車載カメラ、及び警察官のウェアラブルカメラの映像などから、地域全体の大雑把な状態を、当該システムに接続されたセンターで管理することができる。

　一般のパトロールの時は、例えば数分おきで静止画の送受信が行なわれる。また、センターは、過去の犯罪データ等を用いて分析した結果に基づいた犯罪マップに基づいて犯罪発生の可能性が高い地域を特定する、もしくはこのように特定された犯罪発生確率に関連する地域データを保持している。特定された犯罪発生確率の高い地域では、画像の送受信の頻度を上げたり、画像を動画に変更したりしてもよい。また、事件発生時は、動画、又はＳｆＭ等を用いた三次元再構成データが用いられてもよい。また、センターもしくは各端末が、同時にデプスセンサ又はサーモセンサなど他のセンサの情報を用いて画像又は仮想空間を補正することで、警察官は、より正確に状況を把握できる。

　また、センターは、三次元再構成データを用いることで、複数の端末にそのオブジェクトの情報をフィードバックできる。これにより、各端末を持つ個々人がオブジェクトをトラッキングできる。

　また、最近では、建造物或いは環境の調査、又はスポーツなどの臨場感ある撮影等の目的で、クワッドコプター、ドローンなどの飛行可能な装置による空中からの撮影が行なわれる。このような自律移動装置による撮影は、画像がブレるということが問題になりやすいが、ＳｆＭは位置及び傾きによりそのブレを補正しながら三次元化を行なうことが可能である。これにより、画質の向上、及び空間の復元精度の向上を実現できる。

　また、車外を撮影する車載カメラの設置が、国によっては義務付けられている。このような車載カメラにおいても、複数の画像からモデル化された三次元データを用いることで、行き先の方向の天気及び路面の状態、並びに渋滞度合い等をより精度よく把握できる。

　（実施の形態３）
　上記各実施の形態で示した画像処理方法の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ＩＣカード、半導体メモリ等、プログラムを記録できるものであればよい。

　さらにここで、上記各実施の形態で示した画像処理方法の応用例とそれを用いたシステムを説明する。当該システムは、画像処理方法を用いた装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。

　図１３は、コンテンツ配信サービスを実現するコンテンツ供給システムｅｘ２００の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ｅｘ２０６、ｅｘ２０７、ｅｘ２０８、ｅｘ２０９、ｅｘ２１０が設置されている。

　このコンテンツ供給システムｅｘ２００は、インターネットｅｘ２０１にインターネットサービスプロバイダｅｘ２０２および通信網ｅｘ２０４、および基地局ｅｘ２０６からｅｘ２１０を介して、コンピュータｅｘ２１１、ＰＤＡ（Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔ）ｅｘ２１２、カメラｅｘ２１３、スマートフォンｅｘ２１４、ゲーム機ｅｘ２１５などの各機器が接続される。

　しかし、コンテンツ供給システムｅｘ２００は図１３のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ｅｘ２０６からｅｘ２１０を介さずに、各機器が電話線、ケーブルテレビ、又は光通信などの通信網ｅｘ２０４に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。

　カメラｅｘ２１３はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラｅｘ２１６はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、スマートフォンｅｘ２１４は、ＧＳＭ（登録商標）（Ｇｌｏｂａｌ　Ｓｙｓｔｅｍ　ｆｏｒ　Ｍｏｂｉｌｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ）方式、ＣＤＭＡ（Ｃｏｄｅ　Ｄｉｖｉｓｉｏｎ　Ｍｕｌｔｉｐｌｅ　Ａｃｃｅｓｓ）方式、Ｗ－ＣＤＭＡ（Ｗｉｄｅｂａｎｄ－Ｃｏｄｅ　Ｄｉｖｉｓｉｏｎ　Ｍｕｌｔｉｐｌｅ　Ａｃｃｅｓｓ）方式、若しくはＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）方式、ＨＳＰＡ（Ｈｉｇｈ　Ｓｐｅｅｄ　Ｐａｃｋｅｔ　Ａｃｃｅｓｓ）、又は高周波帯域を利用した通信方式などに対応するスマートフォン機、またはＰＨＳ（Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙｐｈｏｎｅ　Ｓｙｓｔｅｍ）等であり、いずれでも構わない。

　コンテンツ供給システムｅｘ２００では、カメラｅｘ２１３等が基地局ｅｘ２０９、通信網ｅｘ２０４を通じてストリーミングサーバｅｘ２０３に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラｅｘ２１３を用いて撮影するコンテンツ（例えば、音楽ライブの映像等）に対して符号化処理を行い、ストリーミングサーバｅｘ２０３に送信する。一方、ストリーミングサーバｅｘ２０３は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータｅｘ２１１、ＰＤＡｅｘ２１２、カメラｅｘ２１３、スマートフォンｅｘ２１４、ゲーム機ｅｘ２１５等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する。

　なお、撮影したデータの符号化処理はカメラｅｘ２１３で行っても、データの送信処理をするストリーミングサーバｅｘ２０３で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバｅｘ２０３で行ってもよいし、互いに分担して行ってもよい。また、カメラｅｘ２１３に限らず、カメラｅｘ２１６で撮影した静止画像および／または動画像データを、コンピュータｅｘ２１１を介してストリーミングサーバｅｘ２０３に送信してもよい。この場合の符号化処理はカメラｅｘ２１６、コンピュータｅｘ２１１、ストリーミングサーバｅｘ２０３のいずれで行ってもよいし、互いに分担して行ってもよい。さらに復号された画像の表示についても、システムにつながった複数の機器が連動して同じ画像を表示してもよいし、大きな表示部を有する装置で全体の画像を表示し、スマートフォンｅｘ２１４等では画像の一部の領域を拡大して表示してもよい。

　また、これら符号化・復号化処理は、一般的にコンピュータｅｘ２１１や各機器が有するＬＳＩｅｘ５００において処理する。ＬＳＩｅｘ５００は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータｅｘ２１１等で読み取り可能な何らかの記録メディア（ＣＤ－ＲＯＭ、フレキシブルディスク、ハードディスクなど）に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、スマートフォンｅｘ２１４がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データはスマートフォンｅｘ２１４が有するＬＳＩｅｘ５００で符号化処理されたデータである。

　また、ストリーミングサーバｅｘ２０３は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。

　以上のようにして、コンテンツ供給システムｅｘ２００では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムｅｘ２００では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。

　なお、コンテンツ供給システムｅｘ２００の例に限らず、図１４に示すように、デジタル放送用システムｅｘ３００にも、上記各実施の形態を適用してもよい。具体的には、放送局ｅｘ３０１では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ｅｘ３０２に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである。これを受けた放送衛星ｅｘ３０２は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナｅｘ３０４が受信する。受信した多重化データを、テレビ（受信機）ｅｘ４００またはセットトップボックス（ＳＴＢ）ｅｘ３１７等の装置が復号化して再生する。

　また、ＤＶＤ、ＢＤ等の記録メディアｅｘ３１５、もしくはＳＤなどのメモリｅｘ３１６に記録した多重化データを読み取り復号化する、または記録メディアｅｘ３１５もしくはメモリｅｘ３１６に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ／レコーダｅｘ３１８にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタｅｘ３１９に表示され、多重化データが記録された記録メディアｅｘ３１５、又はメモリｅｘ３１６により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルｅｘ３０３または衛星／地上波放送のアンテナｅｘ３０４に接続されたセットトップボックスｅｘ３１７内に動画像復号化装置を実装し、これをテレビのモニタｅｘ３１９で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。

　図１５は、スマートフォンｅｘ２１４を示す図である。また、図１６は、スマートフォンｅｘ２１４の構成例を示す図である。スマートフォンｅｘ２１４は、基地局ｅｘ２１０との間で電波を送受信するためのアンテナｅｘ４５０、映像、静止画を撮ることが可能なカメラ部ｅｘ４６５、カメラ部ｅｘ４６５で撮像した映像、アンテナｅｘ４５０で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ｅｘ４５８を備える。スマートフォンｅｘ２１４は、さらに、タッチパネル等である操作部ｅｘ４６６、音声を出力するためのスピーカ等である音声出力部ｅｘ４５７、音声を入力するためのマイク等である音声入力部ｅｘ４５６、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存可能なメモリ部ｅｘ４６７、又は図１４に例示されたメモリｅｘ３１６、もしくはユーザを特定し、ネットワークをはじめ各種データへのアクセスの認証をするためのＳＩＭｅｘ４６８とのインタフェース部であるスロット部ｅｘ４６４を備える。

　スマートフォンｅｘ２１４は、表示部ｅｘ４５８及び操作部ｅｘ４６６等を統括的に制御する主制御部ｅｘ４６０に対して、電源回路部ｅｘ４６１、操作入力制御部ｅｘ４６２、映像信号処理部ｅｘ４５５、カメラインタフェース部ｅｘ４６３、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）制御部ｅｘ４５９、変調／復調部ｅｘ４５２、多重／分離部ｅｘ４５３、音声信号処理部ｅｘ４５４、スロット部ｅｘ４６４、メモリ部ｅｘ４６７がバスｅｘ４７０を介して互いに接続されている。

　電源回路部ｅｘ４６１は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することによりスマートフォンｅｘ２１４を動作可能な状態に起動する。

　スマートフォンｅｘ２１４は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を有する主制御部ｅｘ４６０の制御に基づいて、音声通話モード時に音声入力部ｅｘ４５６で収音した音声信号を音声信号処理部ｅｘ４５４でデジタル音声信号に変換し、これを変調／復調部ｅｘ４５２でスペクトラム拡散処理し、送信／受信部ｅｘ４５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナｅｘ４５０を介して送信する。またスマートフォンｅｘ２１４は、音声通話モード時にアンテナｅｘ４５０を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調／復調部ｅｘ４５２でスペクトラム逆拡散処理し、音声信号処理部ｅｘ４５４でアナログ音声信号に変換した後、これを音声出力部ｅｘ４５７から出力する。

　さらにデータ通信モード時に電子メールを送信する場合、本体部の操作部ｅｘ４６６等の操作によって入力された電子メールのテキストデータは操作入力制御部ｅｘ４６２を介して主制御部ｅｘ４６０に送出される。主制御部ｅｘ４６０は、テキストデータを変調／復調部ｅｘ４５２でスペクトラム拡散処理をし、送信／受信部ｅｘ４５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナｅｘ４５０を介して基地局ｅｘ２１０へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ｅｘ４５８に出力される。

　データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ｅｘ４５５は、カメラ部ｅｘ４６５から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重／分離部ｅｘ４５３に送出する。また、音声信号処理部ｅｘ４５４は、映像、静止画等をカメラ部ｅｘ４６５で撮像中に音声入力部ｅｘ４５６で収音した音声信号を符号化し、符号化された音声データを多重／分離部ｅｘ４５３に送出する。

　多重／分離部ｅｘ４５３は、映像信号処理部ｅｘ４５５から供給された符号化された映像データと音声信号処理部ｅｘ４５４から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調／復調部（変調／復調回路部）ｅｘ４５２でスペクトラム拡散処理をし、送信／受信部ｅｘ４５１でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナｅｘ４５０を介して送信する。

　データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナｅｘ４５０を介して受信された多重化データを復号化するために、多重／分離部ｅｘ４５３は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスｅｘ４７０を介して符号化された映像データを映像信号処理部ｅｘ４５５に供給するとともに、符号化された音声データを音声信号処理部ｅｘ４５４に供給する。映像信号処理部ｅｘ４５５は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し、ＬＣＤ制御部ｅｘ４５９を介して表示部ｅｘ４５８から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ｅｘ４５４は、音声信号を復号し、音声出力部ｅｘ４５７から音声が出力される。

　また、上記スマートフォンｅｘ２１４等の端末は、テレビｅｘ４００と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という３通りの実装形式が考えられる。さらに、デジタル放送用システムｅｘ３００において、映像データに音楽データなどが多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。

　また、本発明はかかる上記実施の形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。

　本発明は、高精度な三次元モデルの復元を行うことができるという効果を奏し、例えば、三次元再構成を行うシステムまたは装置などに利用することができる。

　１０　　画像処理システム
　１１　　処理回路
　１２　　記憶装置
　２００　　画像処理装置
　２０１　　画像取得部
　２０２　　時刻情報取得部
　２０３　　画像セット生成部
　２０４　　三次元情報算出部
　２０１Ｄ　　画像データ
　２０２Ｄ　　時刻情報
　２０３Ｄ　　画像セット

Claims

　複数の画像に対して処理を行う画像処理方法であって、
　複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、
　取得された複数の画像のそれぞれの撮像時刻を取得し、
　取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
　画像処理方法。
　前記画像処理方法は、さらに、
　前記画像セットに含まれる複数の画像に基づいて、当該複数の画像のそれぞれに対応する撮像装置および被写体のうちの少なくとも一方の状態を三次元的に示す三次元情報を算出する
　請求項１に記載の画像処理方法。
　前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する撮像装置の位置および姿勢のうちの少なくとも一方を前記状態として示す
　請求項２記載の画像処理方法。
　前記三次元情報は、前記画像セットに含まれる複数の画像のそれぞれに対応する被写体の位置および形状のうちの少なくとも一方を前記状態として示す
　請求項２に記載の画像処理方法。
　前記画像セットの生成では、
　取得された前記複数の画像のうちの１つである基準画像と、当該基準画像の撮像のための露光と重複したタイミングの露光による撮像によって得られた画像である少なくとも１つの露光重複画像とを、撮像時刻が互いに略一致する前記複数の画像として選択する
　請求項１～４の何れか１項に記載の画像処理方法。
　前記撮像時刻の取得では、
　取得された前記複数の画像のうちの何れの露光時間よりも高い時間精度で示される、前記複数の画像のそれぞれの前記撮像時刻を取得する
　請求項５に記載の画像処理方法。
　前記画像の取得では、
　前記複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた前記画像を含む画像信号を取得し、
　前記画像セットの生成では、
　取得された複数の画像信号から、撮像時刻が互いに略一致する前記複数の画像のそれぞれを含む複数の画像信号を選択することにより、選択された前記複数の画像信号からなる前記画像セットを生成する
　請求項１～６の何れか１項に記載の画像処理方法。
　前記画像信号は、複数の画像と、前記複数の画像のそれぞれの撮像時刻を取得するための時刻情報とを含む動画像データであって、
　前記撮像時刻の取得では、
　画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記複数の画像のそれぞれの撮像時刻を取得する
　請求項７に記載の画像処理方法。
　前記画像信号は、画像と、前記画像の撮像時刻を取得するための時刻情報とを含む画像データであって、
　前記撮像時刻の取得では、
　画像信号ごとに、当該画像信号に含まれる前記時刻情報に基づいて、当該画像信号に含まれる前記画像の撮像時刻を取得する
　請求項７に記載の画像処理方法。
　前記画像セットの生成では、
　さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された画像である元画像から、当該元画像の撮像時刻と異なる時刻において静止していると推定される被写体が写っている領域の画像を、前記処理対象装置から取得された、前記時刻を撮像時刻とする静止画像として生成し、
　生成された前記静止画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択する
　請求項１～４の何れか１項に記載の画像処理方法。
　前記静止画像の生成では、
　前記元画像の撮像時刻の前および後のうちの少なくとも一方において、前記処理対象装置による撮像によって得られた少なくとも１つの画像と、前記元画像とを比較することによって、前記元画像から前記領域を特定する
　請求項１０に記載の画像処理方法。
　前記領域の特定では、
　前記元画像を構成する処理単位ごとに、当該処理単位が前記領域に該当するか否かを判定することによって、前記領域を特定し、
　前記処理単位は、ブロック、前記元画像に写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである
　請求項１１に記載の画像処理方法。
　前記画像セットの生成では、
　さらに、前記複数の撮像装置のうちの何れかである処理対象装置から取得された複数の画像である複数の参照画像に対して補間を行うことより、前記複数の参照画像のそれぞれの撮像時刻と異なる時刻を撮像時刻とする補間画像を、前記処理対象装置から取得された画像として生成し、
　生成された前記補間画像を含む、前記複数の撮像装置から取得された複数の画像から、撮像時刻が互いに略一致する前記複数の画像を選択する
　請求項１～４の何れか１項に記載の画像処理方法。
　前記補間画像の生成では、
　等速運動モデルに基づいて前記補間画像を生成する、
　請求項１３記載の画像処理方法。
　前記補間画像の生成では、
　前記複数の参照画像のそれぞれを構成する処理単位ごとに補間を行い、
　前記処理単位は、ブロック、前記複数の参照画像のそれぞれに写っているオブジェクト、または、前記オブジェクトが分割されることによって示されるサブオブジェクトである
　請求項１３または１４に記載の画像処理方法。
　処理回路と、前記処理回路に接続される記憶装置とを備える画像処理システムであって、
　前記処理回路は、
　複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得して前記記憶装置に格納し、
　取得された複数の画像のそれぞれの撮像時刻を取得し、
　前記記憶装置に格納されている前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
　画像処理システム。
　複数の画像に対して処理を行うためのプログラムであって、
　複数の撮像装置のそれぞれから、当該撮像装置による撮像によって得られた画像を取得し、
　取得された複数の画像のそれぞれの撮像時刻を取得し、
　取得された前記複数の画像から、撮像時刻が互いに略一致する複数の画像を選択することにより、選択された複数の画像からなる画像セットを生成する
　ことをコンピュータに実行させるプログラム。