WO2019116942A1

WO2019116942A1 - ３次元モデルの生成装置、生成方法、及びプログラム

Info

Publication number: WO2019116942A1
Application number: PCT/JP2018/044373
Authority: WO
Inventors: 圭輔森澤; 究小林
Original assignee: キヤノン株式会社
Priority date: 2017-12-14
Filing date: 2018-12-03
Publication date: 2019-06-20
Also published as: US11798233B2; US20220005276A1; AU2018384159B2; AU2018384159A1

Abstract

対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、生成される３次元モデルにおいて欠損が生じないようにする。３次元モデルの生成装置であって、複数の視点で撮影した各画像内の静止しているオブジェクトである構造物の領域を示す第１マスク画像、及び前記複数の視点で撮影した各画像内の動体のオブジェクトである前景の領域を示す第２マスク画像を取得する取得手段と、取得した前記第１マスク画像と前記第２マスク画像とを合成して、前記複数の視点で撮影した画像内の前記構造物の領域と前記前景の領域とを統合した第３マスク画像を生成する合成手段と、前記第３マスク画像を用いた視体積交差法により、前記構造物と前記前景とを含む３次元モデルを生成する生成手段と、を有することを特徴とする。

Description

３次元モデルの生成装置、生成方法、及びプログラム

本発明は、画像内オブジェクトの３次元モデルの生成に関する。

従来、複数台のカメラによって異なる視点から同期撮影された複数視点画像を用いて、オブジェクトの３次元形状を推定する手法として、「視体積交差法（Visual Hull）」と呼ばれる手法が知られている（特許文献１、非特許文献１）。図１の（ａ）～（ｃ）は、視体積交差法の基本原理を示す図である。あるオブジェクトを撮影した画像からは、撮像面に当該オブジェクトの２次元シルエットを表すマスク画像が得られる（図１（ａ））。そして、カメラの投影中心からマスク画像の輪郭上の各点を通すように、３次元空間中に広がる錐体を考える（図１（ｂ））。この錐体のことを該当するカメラによる対象の「視体積」と呼ぶ。さらに、複数の視体積の共通領域、すなわち視体積の交差を求めることによって、オブジェクトの３次元形状（３次元モデル）が求まる（図１（ｃ））。このように視体積交差法による形状推定では、オブジェクトが存在する可能性のある空間中のサンプリング点をマスク画像に射影し、複数の視点で共通して射影した点がマスク画像に含まれるかを検証することにより、オブジェクトの３次元形状を推定する。

特開２０１４－１０８０５号公報

ＬａｕｒｅｎｔｉｎｉＡ："ＴｈｅＶｉｓｕａｌＨｕｌｌＣｏｎｃｅｐｔｆｏｒＳｉｌｈｏｕｅｔｔｅ－ＢａｓｅｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ"，ＩＥＥＥＴｒａｎｓｃｒｉｐｔｉｏｎｓＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ, Ｖｏｌ.１６, Ｎｏ.２, ｐｐ.１５０－１６２,Ｆｅｂ.１９９４

上述の視体積交差法では、マスク画像が対象オブジェクトのシルエットを正しく表現できている必要があり、マスク画像上のシルエットが不正確な場合は生成される３次元形状も不正確なものになってしまう。例えば、対象オブジェクトである人物の一部が、当該人物の手前に存在する構造物等の静止物体によって遮られ、マスク画像が示す人物のシルエットの一部が欠けてしまうと、生成される３次元モデルに欠損が生じてしまう。また、シルエットの一部が欠けたマスク画像については使用しないこととすると、得られる３次元モデルの形状精度が落ちてしまう。特に、構造物によって遮られている部分が相対的に小さい場合は、たとえシルエットの一部が掛けたマスク画像であっても、使用することで高い形状精度の３次元モデルが得られるので極力利用することが望ましい。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、生成される３次元モデルにおいて欠損が生じないようにすることである。

本発明に係る３次元モデルの生成装置は、複数の視点で撮影した各画像内の静止しているオブジェクトである構造物の領域を示す第１マスク画像、及び前記複数の視点で撮影した各画像内の動体のオブジェクトである前景の領域を示す第２マスク画像を取得する取得手段と、取得した前記第１マスク画像と前記第２マスク画像とを合成して、前記複数の視点で撮影した画像内の前記構造物の領域と前記前景の領域とを統合した第３マスク画像を生成する合成手段と、前記第３マスク画像を用いた視体積交差法により、前記構造物と前記前景とを含む３次元モデルを生成する生成手段と、を有することを特徴とする。

本発明によれば、対象オブジェクトの一部を遮ってしまうような構造物等が撮影シーン内に存在していても、欠損のない、もしくは低減させた高品質な３次元モデルの生成が可能となる。

　本発明の更なる特徴は、添付の図面を参照して行う以下の実施形態の説明より明らかになる。

（ａ）～（ｃ）は、視体積交差法の基本原理を示す図（ａ）は仮想視点画像生成システムの構成を示すブロック図、（ｂ）はカメラアレイを構成する各カメラの配置例を示す図実施形態１に係る３次元モデル生成装置の内部構成を示す機能ブロック図実施形態１に係る３次元モデル形成処理の流れを示すフローチャート（ａ）～（ｈ）は、各カメラで撮影された画像の一例を示す図（ａ）～（ｈ）は、構造物マスクの一例を示す図（ａ）～（ｈ）は、前景マスクの一例を示す図（ａ）～（ｈ）は、統合マスクの一例を示す図統合マスクを元に生成される統合３次元モデルの一例を示す図従来手法による、前景マスクのみを用いて生成した３次元モデルの一例を示す図実施形態２に係る３次元モデル形成処理の流れを示すフローチャート（ａ）は統合マスクを元に生成した統合３次元モデルを示す図、（ｂ）は構造物マスクのみに基づいて生成した構造物の３次元モデルを示す図、（ｃ）は（ａ）の統合３次元モデルと（ｂ）の構造物の３次元モデルとの差分により得られた前景のみの３次元モデルを示す図実施形態３に係る、３次元モデルを構成するボクセルの例を示す図実施形態３に係る、仮想視点画像生成システムのカメラ配置の例を示す図実施形態３に係る、３次元モデル生成装置の機能構成の一例を示す図実施形態３に係る３次元モデル生成装置が実施する処理の手順を示すフローチャート実施形態３に係る複数のカメラにより撮影した撮影画像の例を示す図実施形態３に係る構造物マスク画像の例を示す図実施形態３に係る前景マスク画像の例を示す図実施形態３に係る前景マスク画像と構造物マスク画像とを統合した統合マスク画像の例を示す図実施形態３に係る競技場システムの３次元モデル生成対象のボクセル空間を示す図実施形態３に係るＴｒｕｅ　Ｃｏｕｎｔ／Ｆａｌｓｅ　Ｃｏｕｎｔを示す図実施形態３に係るＦａｌｓｅ　Ｃｏｕｎｔの閾値判定を適用して生成された３次元モデルの一例を示す図実施形態３に係るＦａｌｓｅ　Ｃｏｕｎｔの閾値判定及びＴｒｕｅ　Ｃｏｕｎｔの閾値判定を適用して生成された３次元モデルの一例を示す図欠落が生じる場合の３次元モデルを表す図実施形態４に係る３次元モデル生成装置の機能構成の一例を示す図実施形態４に係る３次元モデル生成装置が実施する処理の手順を示すフローチャート実施形態４に係る仮想視点画像生成システムのカメラ配置と前景の例を表した図実施形態４に係るＴｒｕｅ／Ｆａｌｓｅ　Ｃｏｕｎｔを示す図実施形態５に係る３次元モデル生成装置の機能ブロックを表した図実施形態５に係る３次元モデル生成装置の処理フローを表した図実施形態５に係る重み加算なしとありによるＴｒｕｅ／Ｆａｌｓｅ　Ｃｏｕｎｔを示す図実施形態６に係る３次元モデル生成装置の機能ブロックを表した図。実施形態６に係る３次元モデル生成装置の処理フローを表した図。実施形態６に係るＦａｌｓｅ　Ｃｏｕｎｔ／Ｓｔｒｕｃｔｕｒｅを示す図。

以下、添付図面を参照して、本発明を実施形態に従って詳細に説明する。なお、以下の実施形態において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。

実施形態１

本実施形態では、撮影シーンにおける前景の２次元シルエットに加え、その少なくとも一部を遮る構造物の２次元シルエットをも含むマスク画像を用いて、前景について欠損のない、もしくは低減させた３次元モデルを生成する態様について説明する。この態様では、前景の一部を遮る構造物等を含んだ３次元モデルが生成される。なお、本明細書において、「前景」とは、時系列で同じアングルから撮影を行った場合において動きのある（その絶対位置が変化し得る）、仮想的な視点から見ることが可能な、撮影画像内に存在する動的オブジェクト（動体）を指す。また、「構造物」とは、時系列で同じアングルから撮影を行った場合において動きのない（その絶対位置が変化しない、即ち静止している）、前景を遮ってしまう可能性のある、撮影画像内に存在する静的オブジェクトを指す。なお、ここでいう３次元モデルとは、３次元の形状を表すデータをいう。

以下の説明では、サッカーの試合を撮影シーンとして仮想視点画像を生成する場合において、選手やボールといった前景（動的オブジェクト）の一部が、サッカーゴール等の構造物（静的オブジェクト）によって遮られてしまうケースを想定している。なお、仮想視点画像とは、エンドユーザ及び／又は選任のオペレータ等が自由に仮想カメラの位置及び姿勢を操作することによって生成される映像であり、自由視点画像や任意視点画像などとも呼ばれる。また、生成される仮想視点画像やその元になる複数視点画像は、動画であっても、静止画であってもよい。以下に述べる各実施形態では、動画の複数視点画像を用いて動画の仮想視点画像を生成するための３次元モデルを生成する場合を例に説明するものとする。

本実施形態ではサッカーを撮影シーンとし、固定的に設置されたサッカーゴールを構造物として以下説明を行うものとするが、これに限定されない。例えば、さらにコーナーフラッグを構造物として扱ってもよいし、屋内スタジオなどを撮影シーンとする場合には家具や小道具を構造物として扱うこともできる。即ち、静止または静止に近い状態が継続する静止物体であればよい。

（システム構成）
図２（ａ）は、本実施形態に係る、３次元モデル生成装置を含む仮想視点画像生成システムの構成の一例を示すブロック図である。仮想視点画像生成システム１００は、複数のカメラを含むカメラアレイ１１０、制御装置１２０、前景分離装置１３０、３次元モデル生成装置１４０、レンダリング装置１５０で構成される。制御装置１２０、前景分離装置１３０、３次元モデル生成装置１４０及びレンダリング装置１５０は、演算処理を行うＣＰＵ、演算処理の結果やプログラム等を記憶するメモリなどを備えた一般的なコンピュータ（情報処理装置）によって実現される。

図２（ｂ）は、カメラアレイ１１０を構成する全８台のカメラ２１１～２１８の配置を、フィールド２００を真上から見た俯瞰図において示した図である。各カメラ２１１～２１８は、地上からある一定の高さにフィールド２００を囲むように設置されており、一方のゴール前を様々な角度から撮影して、視点の異なる複数視点画像データを取得する。芝生のフィールド２００上には、サッカーコート２０１が（実際には白のラインで）描かれており、その左側にサッカーゴール２０２が置かれている。また、サッカーゴール２０２の前の×印２０３は、カメラ２１１～２１８の共通の視線方向（注視点）を示し、破線の円２０４は注視点２０３を中心としてカメラ２１１～２１８がそれぞれ撮影可能なエリアを示している。本実施形態では、フィールド２００の1つの角を原点として、長手方向をx軸、短手方向をy軸、高さ方向をz軸とした座標系で表すこととする。カメラアレイ１１０の各カメラで得られた複数視点画像のデータは、制御装置１２０及び前景分離装置１３０へ送られる。なお、図２（ａ）では、各カメラ２１１～２１８と、制御装置１２０及び前景分離装置１３０とは、スター型のトポロジーで接続されているがデイジーチェーン接続によるリング型やバス型のトポロジーでもよい。また、図２において、カメラ８台の例を示したが、カメラの数は、８台未満または８台を超えてもよい。

制御装置１２０は、カメラパラメータや構造物マスクを生成し、３次元モデル生成装置１４０に供給する。カメラパラメータは、各カメラの位置や姿勢（視線方向）を表す外部パラメータと、各カメラが備えるレンズの焦点距離や画角（撮影領域）などを表す内部パラメータからなり、キャリブレーションによって得られる。キャリブレーションは、チェッカーボードのような特定パターンを撮影した複数の画像を用いて取得した３次元の世界座標系の点とそれに対応する２次元上の点との対応関係を求める処理である。構造物マスクは、各カメラ２１１～２１８で取得される各撮影画像中に存在する構造物の２次元シルエットを示すマスク画像である。マスク画像は、撮影画像内の抽出対象の部分がどこであるかを特定する基準画像であり、０と１で表される２値画像である。本実施形態では、サッカーゴール２０２を構造物として扱い、各カメラそれぞれが所定位置から所定アングルで撮影した画像内のサッカーゴール２０２の領域（２次元シルエット）を示すシルエット画像が構造物マスクとなる。なお、構造物マスクの元になる撮影画像は、試合の前後やハーフタイム中など、前景となる選手等が存在していないタイミングで撮影したものを使用すればよい。ただし、例えば屋外では日照変動の影響を受けるなどにより、事前・事後に撮影した画像では不適切な場合がある。このような場合、例えば選手等が写っている動画のうち所定数のフレーム（例えば連続する１０秒分のフレーム）を用いて、そこから選手等を消すことで得てもよい。この場合、各フレームにおける各画素値の中央値を採用した画像に基づいて構造物マスクを得ることができる。

前景分離装置１３０は、入力される複数視点の各撮影画像それぞれに対し、フィールド２００上の選手やボールに対応する前景領域とそれ以外の背景領域を判別する処理を行なう。この前景領域の判別には、予め用意した背景画像（構造物マスクの元になる撮影画像と同じでよい）を用いる。具体的には、各撮影画像について背景画像との差分を求め、当該差分に対応する領域を前景領域として特定する。これにより、撮影画像毎の前景領域を示す前景マスクを生成する。本実施形態においては、撮影画像の中の、選手やボールを表す前景領域に属する画素を“０”、それ以外の背景領域に属する画素を“１”で表す２値画像が、前景マスクとして生成されることになる。

３次元モデル生成装置１４０は、カメラパラメータや複数視点画像に基づいて、オブジェクトの３次元モデルを生成する。３次元モデル生成装置１４０の詳細については後述する。生成した３次元モデルのデータは、レンダリング装置１５０に出力される。

レンダリング装置１５０は、３次元モデル生成装置１４０から受け取った３次元モデル、制御装置１２０から受け取ったカメラパラメータ、前景分離装置１３０から受け取った前景画像、予め用意した背景画像に基づいて、仮想視点画像を生成する。具体的には、カメラパラメータから前景画像と３次元モデルとの位置関係を求め、３次元モデルに対応する前景画像をマッピングして、任意のアングルから注目オブジェクトを見た場合の仮想視点画像が生成される。こうして例えば、選手が得点を決めたゴール前の決定的シーンの仮想視点画像を得ることができる。

なお、図２に示した仮想視点画像生成システムの構成は一例でありこれに限定されない。例えば、１台のコンピュータが複数の装置（例えば前景分離装置１３０と３次元モデル生成装置１４０など）の機能を兼ね備えてもよい。或いは、各カメラのモジュールに前景分離装置１３０の機能を持たせ、各カメラから撮影画像とその前景マスクのデータを供給するように構成してもよい。

（３次元モデル生成装置）
図３は、本実施形態に係る３次元モデル生成装置１４０の内部構成を示す機能ブロック図である。３次元モデル生成装置１４０は、データ受信部３１０、構造物マスク保存部３２０、マスク合成部３３０、座標変換部３４０、３次元モデル形成部３５０、データ出力部３６０で構成される。以下、各部について詳しく説明する。

データ受信部３１０は、カメラアレイ１１０を構成する各カメラのカメラパラメータ及び撮影シーン内に存在する構造物の２次元シルエットを表す構造物マスクを、制御装置１２０から受信する。また、カメラアレイ１１０の各カメラで得られた撮影画像（複数視点画像）及び各撮影画像内に存在する前景の２次元シルエットを表す前景マスクのデータを前景分離装置１３０から受信する。受信したデータのうち、構造物マスクは構造物マスク保存部３２０に、前景マスクはマスク合成部３３０に、複数視点画像は座標変換部３４０に、カメラパラメータは座標変換部３４０と３次元モデル形成部３５０に、それぞれ渡される。

構造物マスク保存部３２０は、構造物マスクをＲＡＭ等に格納・保持し、必要に応じてマスク合成部３３０へ供給する。

マスク合成部３３０は、構造物マスク保存部３２０から構造物マスクを読み出し、これをデータ受信部３１０から受け取った前景マスクと合成して、両者を１つに統合したマスク画像（以下、「統合マスク」と呼ぶ）を生成する。生成した統合マスクは、３次元モデル形成部３５０へ送られる。

座標変換部３４０は、データ受信部３１０から受け取った複数視点画像を、カメラパラメータに基づき、カメラ座標系から世界座標系に変換する。この座標変換により、視点の異なる各撮影画像が、それぞれ３次元空間上のどの領域を示しているのかを表す情報に変換される。

３次元モデル形成部３５０は、世界座標系に変換された複数視点画像、各カメラに対応する統合マスクを用いて、撮影シーン内の構造物を含むオブジェクトの３次元モデルを視体積交差法により生成する。生成したオブジェクトの３次元モデルのデータは、データ出力部３６０を介してレンダリング装置１５０へ出力される。

（３次元モデルの形成処理）
図４は、本実施形態に係る、３次元モデル形成処理の流れを示すフローチャートである。この一連の処理は、３次元モデル生成装置１４０が備えるＣＰＵが、ＲＯＭやＨＤＤ等の記憶媒体にされた所定のプログラムをＲＡＭに展開してこれを実行することで実現される。以下、図４のフローに沿って説明する。

まず、ステップ４０１では、データ受信部３１０が、各カメラ２１１～２１８から見た場合の構造物（ここでは、サッカーゴール２０２）の２次元シルエットを表す構造物マスクと、各カメラのカメラパラメータを、制御装置１２０から受信する。図５（ａ）～（ｈ）は、カメラアレイ１１０を構成するカメラ２１１～２２２でそれぞれ撮影される画像を示している。いま、サッカーコート２０１上に選手（ゴールキーパ）が一人、サッカーゴール２０２の前に存在している。そして、図５（ａ）、（ｂ）、（ｈ）の各撮像画像においては、カメラと選手との間にサッカーゴール２０２が位置するため、選手の一部がサッカーゴール２０２によって隠れてしまっている。図５（ａ）～（ｈ）の各撮影画像からは、サッカーゴール２０２の領域が１（白）、それ以外の領域が０（黒）の２値で表現された、構造物マスクがそれぞれ得られることになる。図６（ａ）～（ｈ）は、図５（ａ）～（ｈ）の各撮影画像に対応する構造物マスクを示している。

次に、ステップ４０２では、データ受信部３１０が、各カメラ２１１～２１８で撮影された画像における前景（ここでは、選手やボール）の２次元シルエットを示す前景マスクを、その元になった複数視点画像と共に、前景分離装置１３０から受信する。図７（ａ）～（ｈ）は、図５（ａ）～（ｈ）の各撮影画像に対応する前景マスクをそれぞれ示している。前景分離装置１３０は、同じアングルから撮影された画像間で時間的に変化のある領域を前景として抽出するため、図７（ａ）、（ｂ）、（ｈ）の各図では、サッカーゴール２０２に隠れている選手の一部の領域は前景領域として抽出されない。受信した前景マスクのデータはマスク合成部３３０に送られる。

次に、ステップ４０３では、マスク合成部３１０が、構造物マスク保存部３２０から構造物マスクのデータを読み出し、読み出した構造物マスクと、データ受信部３１０から受け取った前景マスクとを合成する処理を実行する。この合成は、２値（白黒）で表される前景マスクと構造物マスクの各画素について論理和（ＯＲ）を求める演算処理である。図８（ａ）～（ｈ）は、図６（ａ）～（ｈ）に示した各構造物マスクと、図７（ａ）～（ｈ）で示した各前景マスクとをそれぞれ合成して得られた統合マスクを示している。出来上がった統合マスクにおいては、選手のシルエットに欠損は見られない。

そして、ステップ４０４において、３次元モデル形成部３５０が、ステップ４０３で得た統合マスクを元に視体積交差法を用いて３次元モデルを生成する。これにより、異なる視点から撮影された複数画像間の共通撮影領域に存在する前景と構造物の３次元形状を表すモデル（以下、「統合３次元モデル」と呼ぶ）が生成される。本実施形態の場合であれば、選手やボールに加え、サッカーゴール２０２を含んだ統合３次元モデルが生成されることになる。統合３次元モデルの生成は、具体的には以下のような手順で行う。まず、フィールド２００上の３次元空間を一定の大きさを持つ立方体（ボクセル）で充填したボリュームデータを用意する。ボリュームデータを構成するボクセルの値は０と１で表現され、「１」は形状領域、「０」は非形状領域をそれぞれ示す。次に、各カメラ２１１～２１８のカメラパラメータ（設置位置や視線方向など）を用いて、ボクセルの３次元座標を世界座標系からカメラ座標系に変換する。そして、統合マスクで示される構造物及び前景がそのカメラ座標系にある場合は、ボクセルによって当該構造物及び前景の３次元形状を表したモデルが生成される。なお、ボクセルそのものではなく、ボクセルの中心を示す点の集合（点群）によって、３次元形状を表現してもよい。図９は、図８で示した統合マスクを元に生成される統合３次元モデルを示しており、符号９０１は前景である選手の３次元形状、符号９０２は構造物であるサッカーゴール２０２の３次元形状に相当する。前述の通り、統合マスクには前景である選手のシルエットに欠損が無いため、出来上がった統合３次元モデルにおいても欠損は生じていない。図１０は、従来手法による、前景マスクのみを用いて生成した３次元モデルを示している。前述の通り、図７の（ａ）、（ｂ）、（ｈ）で示す前景マスクでは、選手の一部が前景領域として表現されていないため、生成される３次元モデルにおいて当該一部が欠損してしまう。本実施形態の手法では、前景マスクと構造物マスクを合成したマスク画像を用いることで、前景の３次元モデルの一部に欠損が生じるのを回避することが可能となる。

以上が、本実施形態に係る、３次元モデル形成処理の内容である。動画の仮想視点画像を生成する場合には、上述の各ステップの処理をフレーム単位で繰り返し行い、フレーム毎の３次元モデルを生成する。ただし、構造物マスクの受信と保存（ステップ４０１）については、フローの開始直後にのみ行えば足り、２フレーム目以降については省略可能である。さらに、同じ撮影場所にて日時を変えて撮影を行うような場合は、構造物マスクの受信・保存を初回だけ行なってＲＡＭ等に保持しておき、次回以降は保持しておいたものを利用してもよい。

以上のとおり本実施形態によれば、前景となるオブジェクトを隠してしまう構造物が存在していても、前景に欠損のない、もしくは低減させた高精度な３次元モデルを生成することができる。

実施形態２

実施形態１では、撮影シーン内に存在する構造物を含む形で、欠損のない、もしくは低減させた前景の３次元モデルを生成した。次に、構造物を取り除いた、欠損のない、もしくは低減させた前景のみの３次元モデルを生成する態様を、実施形態２として説明する。なお、システム構成など実施形態１と共通する内容については説明を省略ないしは簡略化し、以下では差異点を中心に説明するものとする。

本実施形態の３次元モデル生成装置１４０の構成も、実施形態１と基本的には同じであるが（図３を参照）、以下の点で異なっている。

まず、構造部マスク保存部３２０に対する構造物マスクの読み出しが、マスク合成部３３０だけでなく、３次元モデル生成部３５０によってもなされる。図３における破線の矢印はこのことを表している。そして、３次元モデル生成部３５０では、統合マスクを用いた前景＋構造物の統合３次元モデルの生成に加え、構造物マスクを用いた構造物のみの３次元モデルの生成も行う。そして、統合マスクを元に生成した統合３次元モデルと、構造物マスクを元に生成した構造物の３次元モデルとの差分を求めることで、欠損のない、もしくは低減させた前景のみの３次元モデルを抽出する。

（３次元モデルの形成処理）
図１１は、本実施形態に係る、３次元モデル形成処理の流れを示すフローチャートである。この一連の処理は、３次元モデル生成装置１４０が備えるＣＰＵが、ＲＯＭやＨＤＤ等の記憶媒体にされた所定のプログラムをＲＡＭに展開してこれを実行することで実現される。以下、図１１のフローに沿って説明する。

ステップ１１０１～ステップ１１０４は、実施形態１の図４のフローにおけるステップ４０１～ステップ４０４にそれぞれ対応し、異なるところはないので説明を省略する。

続くステップ１１０５において、３次元モデル形成部３５０は、構造部マスク保存部３２０から構造物マスクを読み出し、視体積交差法により構造物の３次元モデルを生成する。

次に、ステップ１１０６において、３次元モデル形成部３５０は、ステップ１１０４で生成した前景＋構造物の合成３次元モデルとステップ１１０５で生成した構造物の３次元モデルとの差分を求め、前景のみの３次元モデルを抽出する。ここで、構造物の３次元モデルを３次元空間上で例えば１０％程度膨張させてから統合３次元モデルとの差分を求めてもよい。これにより、統合３次元モデルから構造物に対応する部分を確実に除去することができる。このとき、構造物の３次元モデルの一部のみを膨張させるようにしてもよい。例えば、サッカーゴール２０２の場合であれば、サッカーコート２０１内には選手が存在する可能性が高いため、コート２０１側には膨張させないようにし、コート２０１と反対側のみ膨張させるといった具合に、領域に応じて膨張させる部分を決定してもよい。さらには、選手やボール等の前景となるオブジェクトが構造物からどれだけ離れているかによって膨張させる割合（膨張率）を変化させてもよい。例えば、前景となるオブジェクトが構造物から遠い位置にある場合は、膨張率を大きくすることで、確実に構造物の３次元モデルが除去されるようにする。また、前景となるオブジェクトが構造物に近い位置にあるほど膨張率を小さくすることで、前景の３次元モデルの部分までが誤って除去されないようにする。この際の膨張率は、前景からの距離に応じてリニアに変化させてもよいし、１又は複数の基準となる距離を設けて段階的に決定してもよい。

図１２（ａ）は、前述の図９と同じ、統合マスクを元に生成した統合３次元モデルを示している。図１２（ｂ）は、構造物マスクのみに基づいて生成した構造物の３次元モデルを示している。そして、図１２（ｃ）は、図１２（ａ）の統合３次元モデルと図１２（ｂ）の構造物の３次元モデルとの差分により得られた、前景のみの３次元モデルを示している。

以上が、本実施形態に係る、３次元モデルの形成処理の内容である。なお、動画の仮想視点画像を生成する場合は、上述の各ステップの処理をフレーム単位で繰り返し行い、フレーム毎の３次元モデルを生成する。ただし、構造物マスクの受信と保存（ステップ１１０１）及び構造物の３次元モデルの生成（ステップ１１０５）については、フローの開始直後にのみ行えば足り、２フレーム目以降については省略可能である。さらに、同じ撮影場所にて日時を変えて撮影を行うような場合は、構造物マスクの受信・保存及び構造物の３次元モデル生成を初回だけ行なってＲＡＭ等に保持しておき、次回以降は保持しておいたものを利用してもよい。
以上のとおり本実施形態によれば、前景となるオブジェクトを隠してしまう構造物が存在していても、構造物を含まない高精度な前景のみの３次元モデルを生成することができる。

実施形態３

実施形態１及び２では、前景＋構造物の統合３次元モデルから、構造物の３次元モデルを差し引くことで、前景のみの３次元モデルを生成した。次に、前景＋構造物の統合３次元モデルを構成するボクセル毎（或いは所定領域毎）にどのマスク画像に含まれるかをカウントし、カウント値が閾値以下の部分を統合３次元モデルから削除することで前景のみの３次元モデルを求める態様を、実施形態３として説明する。

本実施形態では、まず、３次元空間を構成する複数の部分領域それぞれについて、複数のカメラのうち撮影画像内における対象物体の領域を示す前景領域に当該部分領域が含まれるカメラの数が第１の閾値以下であるという条件に合致するか否かを判定する。この第１の閾値は、全カメラ台数より少ない任意の値を、各カメラの設置位置や視線方向などを考慮して設定する。そして、条件に合致すると判定されなかった部分領域を含む対象物体の３次元モデルを生成する。

（３次元モデルの表現方法）
図１３（ａ）は立方体の単一ボクセルを示す。図１３（ｂ）は３次元モデル生成の対象空間を表したボクセル集合を示す。図１３（ｂ）に示すように、ボクセルは３次元空間を構成する微小な部分領域である。そして、図１３（ｃ）は対象空間のボクセル集合である図１３（ｂ）の集合から四角錐領域以外のボクセルを除去することで四角錐の３次元モデルのボクセル集合を生成した例を示す。なお、本実施形態では３次元空間及び３次元モデルが立方体のボクセルで構成される例を説明するが、これに限らず点群などで構成されてもよい。

（システム構成）
本実施形態に係る３次元モデル生成装置を含む仮想視点画像生成システムの構成例を示すブロック図は、図２（ａ）で示すものと同じであるため、説明は省略する。

カメラアレイ１１０は、複数のカメラ１１０ａ－カメラ１１０ｚを含む撮影装置群であり、様々な角度から被写体を撮影して、前景分離装置１３０および制御装置１２０へ画像を出力する。なお、カメラ１１０ａ－カメラ１１０ｚと前景分離装置１３０、制御装置１２０は、スター型のトポロジーで接続されているものとするが、デイジーチェーン接続によるリング型、バス型等のトポロジーで接続されてもよい。カメラアレイ１１０は、例えば図１４に示すように競技場の周囲に配置され、全てのカメラで共通したフィールド上の注視点に向けて様々な角度から同期して撮影する。ただし、カメラアレイ１１０に含まれるカメラのうちの半数が向けられる注視点と、残りの半数が向けられる別の注視点のように、複数の注視点が設定されてもよい。

ここで、前景とは、仮想視点で任意の角度から見ることを可能とする所定の対象物体（撮影画像に基づいて３次元モデルを生成する対象となる被写体）であり、本実施形態では競技場のフィールド上に存在する人物を指す。一方、背景とは、前景以外の領域であり、本実施形態では競技場全体（フィールド、観客席など）を指す。ただし、前景と背景はこれらの例に限定されない。また、本実施形態における仮想視点画像は、自由に指定可能な視点からの見えを表す画像だけでなく、カメラが設置されていない仮想的な視点からの見えを表す画像全般を含むものとする。

制御装置１２０は、カメラアレイ１１０で同期して撮影された画像からカメラ１１０ａ－カメラ１１０ｚの位置や姿勢を示すカメラパラメータを算出し、算出したカメラパラメータを３次元モデル生成装置１４０に出力する。ここで、カメラパラメータは、外部パラメータ及び内部パラメータで構成されている。外部パラメータは、回転行列と並進行列とで構成されており、カメラの位置や姿勢を示す。内部パラメータは、カメラの焦点距離や光学的中心等の情報を含み、カメラの画角や撮影センサの大きさ等を示す。

カメラパラメータを算出する処理はキャリブレーションと呼ばれる。カメラパラメータは、例えば、チェッカーボードのような特定パターンをカメラにより撮影した複数枚の画像を用いて取得した３次元の世界座標系の点と、それに対応する２次元上の点との対応関係を用いることで求めることができる。

制御装置１２０は、カメラ１１０ａ－カメラ１１０ｚで撮影される画像の中で、前景の手前に重なる可能性のある構造物領域を示す構造物マスク画像を算出し、算出した構造物マスク画像の情報を出力する。本実施形態では、構造物とは撮影対象空間内に設置された静止物体であり、例としてサッカーゴールを構造物として扱い、各カメラで撮影される画像内におけるゴールの領域を示す画像が構造物マスク画像となる。

前景分離装置１３０は、カメラアレイ１１０から入力される複数のカメラで撮影された画像から、前景としてフィールド上の人物が存在する領域と、それ以外の背景の領域とを識別し、前景領域を示す前景マスク画像を出力する。前景領域の識別方法として、予め保持する背景画像と撮影画像との差分のある領域を前景領域として識別する方法や、移動する物体の領域を前景領域として識別する方法などを用いることができる。

ここで、マスク画像とは、撮影画像から抽出したい特定部分を表す基準画像であり、０と１で表される２値画像である。例えば、前景マスク画像は、撮影画像の中で、例えば選手などの前景が存在する領域を示し、撮影画像と同じ解像度で、前景領域を示す画素を１、前景以外の画素を０として表した画像である。ただし、マスク画像の形式はこれに限定されるものではなく、撮影画像内における特定のオブジェクトの領域を示す情報であればよい。

３次元モデル生成装置１４０は、複数のカメラにより撮影された複数の撮影画像を用いて３次元モデルを生成する情報処理装置としての機能を有する。まず、制御装置１２０からカメラパラメータ及び構造物マスク画像の情報を受信し、前景分離装置１３０から前景マスク画像を受信する。そして、３次元モデル生成装置１４０は、構造物マスク画像と前景マスク画像とを統合して統合領域を示す統合マスク画像を生成する。さらに、前景の３次元モデルを生成する対象となる空間内の各ボクセルが統合マスク画像に含まれないカメラの数、及び、各ボクセルが前記前景マスク画像に含まれるカメラの数に基づいて、各ボクセルを除去するか否か判定する。そして、除去すると判定されたボクセルを除去した残りのボクセルに基づいて、例えば視体積交差法により前景の３次元モデルを生成し、レンダリング装置１５０に出力する。

レンダリング装置１５０は、３次元モデル生成装置１４０から３次元モデルを受信し、前景分離装置１３０から前景を示す画像を受信する。また、カメラパラメータより前景を示す画像と３次元モデルとの位置関係を求め、３次元モデルに対応する前景画像を貼り付けることで色付けを行い、３次元モデルを任意視点から観察した仮想視点画像を生成する。なお、仮想視点画像には背景の画像が含まれていてもよい。すなわち、レンダリング装置１５０は、３次元空間内に背景のモデルと前景のモデルと視点の位置とを設定することで、背景及び前景を設定された視点から見た仮想視点画像を生成してもよい。

（３次元モデル生成装置の機能構成）
続いて、図１５を参照して、本実施形態に係る３次元モデル生成装置の機能構成を説明する。３次元モデル生成装置１４０は、受信部１５５、構造物マスク保存部１０１、カメラパラメータ保持部１０２、マスク統合部１０３、座標変換部１０４、マスク内外判定部１０５、閾値設定部１０６、前景モデル生成部１０７及び出力部１０８を備えている。

受信部１５５は、制御装置１２０から、カメラアレイ１１０を構成する各カメラのカメラパラメータ及び構造物の領域を示す構造物マスク画像を受信する。また、受信部１５５は、前景分離装置１３０から、カメラアレイ１１０の各カメラで撮影された画像と、その画像内の前景領域を示す前景マスク画像を撮影毎に受信する。

構造物マスク保存部１０１は、受信部１５５で受信した構造物マスク画像を保存する。構造物マスク画像はカメラの位置に応じた固定の画像である。

カメラパラメータ保持部１０２は、カメラアレイ１１０により撮影された各カメラの位置及び／又は姿勢を示す外部パラメータと、焦点距離及び／又は画像サイズを示す内部パラメータとをカメラパラメータとして保持する。

マスク統合部１０３は、カメラアレイ１１０で撮影する毎に前景分離装置１３０から受信される前景マスク画像と、構造物マスク保存部１０１に保存されている構造物マスク画像とを統合して、統合マスク画像を生成する。前景マスク画像と構造物マスク画像との統合方法の詳細は後述する。

座標変換部１０４は、カメラパラメータ保持部１０２に保持されているカメラパラメータに基づいて各撮影画像の世界座標系での位置や画角を算出し、各撮影画像が３次元空間上のどの撮影領域を示すかを表す情報に変換する。

マスク内外判定部１０５は、対象となるボクセル空間内の各ボクセルが前景マスク画像内に含まれるカメラの台数が閾値以下である場合に、当該ボクセルを除去すると判定する。また、対象となるボクセル空間内の各ボクセルが統合マスク画像内に含まれないカメラの台数が他の閾値以上である場合、当該ボクセルを除去すると判定する。

閾値設定部１０６は、マスク内外判定部１０５によりボクセルを除去するか否かを判定するための各閾値を設定する。この閾値は、３次元モデル生成装置１４０に対するユーザ操作に応じて設定されてもよいし、閾値設定部１０６が自動で設定してもよい。前景モデル生成部１０７は、対象となるボクセル空間内のボクセルのうち、マスク内外判定部１０５により除去されるべきであると判定されたボクセルを除去して、残ったボクセルに基づいて３次元モデルを生成する。出力部１０８は、前景モデル生成部１０７により生成された３次元モデルをレンダリング装置１５０へ出力する。

図１６は、本実施形態に係る３次元モデル生成装置が実施する処理の手順を示すフローチャートである。

Ｓ１６０１において、受信部１５５は、カメラアレイ１１０を構成する各カメラの構造物マスク画像を制御装置１２０から受信する。ここで、撮影画像及び構造物マスク画像の一例を説明する。図１７は、カメラアレイ１１０の一部を構成する５台のカメラで撮影された５つの撮影画像の例を示す。ここでは、フィールド上に人物が一人、ゴールが構造物としてフィールド上に存在しており、図１７（ｂ）、図１７（ｃ）、図１７（ｄ）では人物の手前に構造物であるゴールがあるため、人物の一部が隠れている。図１８は、図１７に示した各撮影画像に対応する構造物マスク画像を示している。構造物であるゴールの領域が１（白）、構造物以外の領域が０（黒）の２値画像として示されている。

Ｓ１６０２において、受信部１５５は、前景領域を示す前景マスク画像を前景分離装置１３０から受信する。ここで、前景マスク画像の一例を説明する。図１９は、図１７で示した各撮影画像に対応する前景マスク画像を示している。前景分離装置１３０は、時間的に変化のある領域を前景領域として抽出するため、図１９（ｂ）、図１９（ｃ）、図１９（ｄ）のようにゴールに隠れた人物の一部の領域は前景領域として抽出されない。また、図１９（ｅ）では時間的変化の無かった人物の足の一部が前景領域として抽出されていない。

Ｓ１６０３において、マスク統合部１０３は、Ｓ１６０１及びＳ１６０２で受信した構造物マスク画像と前景マスク画像とを統合して統合マスク画像を生成する。図２０は、図１８で示した構造物マスク画像と図１９で示した前景マスク画像とを統合した結果である統合マスク画像の一例を示す。統合マスク画像は２値で表される前景マスク画像と構造物マスク画像とのＯＲ（論理和）により算出する。

Ｓ１６０４において、マスク内外判定部１０５は、対象ボクセル空間内から未選択のボクセルを一つ選択する。

Ｓ１６０５において、マスク内外判定部１０５は、選択された一つのボクセルが各カメラの統合マスク画像のマスク領域内に含まれないカメラの台数（以降、Ｆａｌｓｅ　Ｃｏｕｎｔと呼ぶ）をカウントする。

Ｓ１６０６において、マスク内外判定部１０５は、Ｆａｌｓｅ　Ｃｏｕｎｔが閾値以上であるか否かを判定する。Ｆａｌｓｅ　Ｃｏｕｎｔが閾値以上である場合、選択された一つのボクセルは前景でも構造物でもないと判定できるため、Ｓ１６０７へ進む。これにより、明らかに非前景である多くのボクセルを除去することができる。一方、Ｆａｌｓｅ　Ｃｏｕｎｔが閾値未満である場合、選択された一つのボクセルは前景又は構造物であると判定できるため、Ｓ１６０８へ進む。

Ｓ１６０７において、前景モデル生成部１０７は、選択された一つのボクセルを対象ボクセル空間から除去する。Ｓ１６０８において、マスク内外判定部１０５は、選択された一つのボクセルが各カメラの前景マスク画像のマスク領域内に含まれるカメラの台数（以降、Ｔｒｕｅ　Ｃｏｕｎｔと呼ぶ）をカウントする。

Ｓ１６０９において、マスク内外判定部１０５は、Ｔｒｕｅ　Ｃｏｕｎｔが他の閾値以下であるか否かを判定する。Ｔｒｕｅ　Ｃｏｕｎｔが他の閾値以下である場合、選択された一つのボクセルは構造物であると判定できるため、Ｓ１６０７へ進み、選択された一つのボクセルを対象ボクセル空間から除去する。一方、Ｔｒｕｅ　Ｃｏｕｎｔが他の閾値を超過する場合、選択された一つのボクセルは前景と判定できるため、対象ボクセル空間から除去しない。

Ｓ１６１０において、マスク内外判定部１０５は、対象ボクセル空間内の全てのボクセルについて処理が完了したか否かを判定する。全てのボクセルについて処理が完了した場合、Ｓ１６１１へ進む。一方、全てのボクセルについて処理が完了していない場合、Ｓ１６０４に戻って、未選択のボクセルのうち次の一つのボクセルを選択し、以降、同様の処理を行う。

Ｓ１６１１において、前景モデル生成部１０７は、対象ボクセル空間についてボクセルの除去判定を行った後の残りのボクセルを用いて、前景の３次元モデルを生成する。

Ｓ１６１２において、出力部１０８は、前景モデル生成部１０７により生成された前景の３次元モデルをレンダリング装置１５０へ出力する。以上の一連の処理が、各カメラにより撮影されたフレーム毎に実施される。

ここで、図１４に示した１６台のカメラにより競技場を撮影する仮想視点画像生成システムを例として、３次元モデルの生成例を説明する。図２１は、本実施形態に係る競技場システムの３次元モデル生成対象のボクセル空間を示す図であり、格子で示された直方体の領域が対象ボクセル空間を表している。

図２２は、図１４に示した１６台のカメラにより競技場を撮影した場合における前景、一部のカメラで未検出の前景、構造物に隠れた前景、構造物、非前景として、それぞれ人物、人物の足、人物の頭部、ゴール、その他の領域に対する、ボクセルのＦａｌｓｅ　Ｃｏｕｎｔ／ＴｒｕｅＣｏｕｎｔと、判定結果の例を示している。ただし、１台のカメラで人物の足の前景抽出に失敗しており、また３台のカメラで人物の頭部が構造物であるゴールに隠れており、これらは前景分離装置１３０により前景として抽出されないものとする。

Ｓ１６０６の判定において、Ｆａｌｓｅ　Ｃｏｕｎｔの閾値が固定値の１０である場合、その他の領域に位置するボクセルはＦａｌｓｅ　Ｃｏｕｎｔが１６であり閾値を超えることから除去される。その結果、例えば図２３に示すような前景と構造物とから構成される３次元モデルが生成されることになる。ここで図２３は、Ｆａｌｓｅ　Ｃｏｕｎｔの閾値判定を適用して生成された３次元モデルの一例を示す図である。

さらに、Ｓ１６０９の判定において、Ｔｒｕｅ　Ｃｏｕｎｔの閾値（他の閾値）が固定値の５である場合、構造物であるゴールの領域に位置するボクセルはＴｒｕｅ　Ｃｏｕｎｔが０で閾値以下であることから除去される。一方、人物、人物の足、頭部の領域に位置するボクセルはＴｒｕｅ　Ｃｏｕｎｔは各々１６、１５、１３であり、第２の閾値を超過するため除去されない。

すなわち、図２２に示すように、前景（人物）、一部未検出の前景（足）及び構造物で隠れた前景（頭部）はボクセル残存と判定され、構造物（ゴール）及び非前景（その他の領域）はボクセル除去と判定されることになる。従って、最終的に、図２１で示した対象空間のボクセル集合から、例えば図２４に示すような欠落のない人物の３次元モデルが生成されることになる。ここで図２４は、Ｆａｌｓｅ　Ｃｏｕｎｔの閾値判定及びＴｒｕｅＣｏｕｎｔの閾値判定を適用して生成された３次元モデルの一例を示す図である。

これに対し、図２５は、図１９に示した前景マスク画像のみを用いて視体積交差法により３次元モデル生成した例を示す。図１９（ａ）は人物全体が写っているが、図１９（ｂ）、図１９（ｃ）、図１９（ｄ）に示す撮影画像では構造物のゴールにより人物の頭の一部が隠れている。さらに、図１９（ｅ）に示す撮影画像では人物の足が前景として抽出されていない。そのため、生成された３次元モデルも一部が欠落している。

以上説明したように、本実施形態では、対象物体（前景）の３次元モデルを生成する対象となる空間内の各ボクセルについて、対象とするボクセルが前景の領域を示す前景マスク画像に含まれるカメラの数が閾値（Ｔｒｕｅ　Ｃｏｕｎｔの閾値）以下であるか否かを判定し、当該数が閾値以下である場合にそのボクセルを除去する。

本実施形態によれば、対象物体（前景）の領域を示す前景マスク画像に欠落がある場合でも、生成する対象物体（前景）の３次元モデルの欠落を回避し、３次元モデルの品質を向上させることができる。

また、前景マスク画像と構造物マスク画像とを統合して統合マスク画像を生成し、対象とするボクセルが統合マスク画像に含まれないカメラの数が閾値（Ｆａｌｓｅ　Ｃｏｕｎｔの閾値）以上である場合に、当該ボクセルを除去すると判定する。これにより、明らかに非前景である多くのボクセルを除去することができるので、後段の処理の速度を向上させることが可能となる。

実施形態４

上述の実施形態３では、ボクセルが各カメラから撮影範囲内（画角内）か否かを判定していないため、多数のカメラで撮影範囲外である場合に、誤って前景を示すボクセルを除去してしまう可能性がある。例えば、図１４に示すようなカメラ配置により競技場を撮影した場合において、注視点と反対側のゴール付近に位置する人物の領域に位置するボクセルを撮影範囲内に含むカメラの台数は３台であり、Ｔｒｕｅ　Ｃｏｕｎｔが３となる。その際、Ｔｒｕｅ　Ｃｏｕｎｔの閾値が５である場合、閾値未満であるため当該ボクセルは除去されてしまうことになる。そこで、画角内外判定の結果に基づいて閾値を設定することにより、注視点から離れた位置にある前景も除去されないように３次元モデルを生成する態様を、実施形態４として説明する。
本実施形態では、ボクセルを撮影範囲内（画角内）に含むカメラの台数に基づいてＴｒｕｅ　Ｃｏｕｎｔの閾値を算出することにより、ボクセルが注視点から離れていたとしても、誤って前景を示すボクセルを除去してしまうことを回避する。

（３次元モデル生成装置の機能構成）
図２６を参照して、本実施形態に係る３次元モデル生成装置の機能構成を説明する。本実施形態に係る３次元モデル生成装置１４０は、受信部１５５、構造物マスク保存部１０１、カメラパラメータ保持部１０２、マスク統合部１０３、座標変換部１０４、マスク内外判定部１０５、閾値設定部１０６、前景モデル生成部１０７、出力部１０８に加えて、画角内外判定部１０９及び閾値算出部２６０をさらに備えている。なお、仮想視点画像生成システムの基本的構成は、実施形態１～３と同様であるため、説明は省略する。また、３次元モデル生成装置１４０を構成する、受信部１５５、構造物マスク保存部１０１、カメラパラメータ保持部１０２、マスク統合部１０３、座標変換部１０４、マスク内外判定部１０５、閾値設定部１０６、前景モデル生成部１０７、出力部１０８についても、実施形態３と同じであるため説明を省略する。

画角内外判定部１０９は、各カメラのカメラパラメータに基づいて、対象ボクセル空間内の各ボクセルが各カメラの撮影範囲内であるか否かを判定する。

閾値算出部２６０は、撮影範囲内であると判定されたカメラの台数に所定の割合を乗算した値を、Ｔｒｕｅ　Ｃｏｕｎｔの閾値として算出する。例えば、あるボクセルを撮影範囲内とするカメラの台数が５台、所定の割合を６０％とすると、そのボクセルに対するＴｒｕｅ　Ｃｏｕｎｔの閾値は３として算出される。閾値算出部２６０により算出された閾値は閾値設定部１０６へ出力され、閾値設定部１０６は閾値設定部１０６から入力された閾値をＴｒｕｅ　Ｃｏｕｎｔの閾値として設定する。

なお、あるボクセルを撮影範囲内とするカメラの台数が一定数未満である場合、生成される３次元モデルの精度は低くなり、処理が不要であると考えられることから、カメラの台数が一定数未満であるには閾値を所定値に設定するように構成してもよい。

図２７は、本実施形態に係る３次元モデル生成装置が実施する処理の手順を示すフローチャートである。Ｓ２７０１～Ｓ２７０４の各処理は、実施形態３の図１６のフローにおけるＳ１６０１～Ｓ１６０４の各処理と同様であるため、説明を省略する。

Ｓ２７０５において、画角内外判定部１０９は、各カメラのカメラパラメータに基づいて、Ｓ２７０４で選択された一つのボクセル各カメラの画角内に含まれるか否かを判定する。

Ｓ２７０６において、マスク内外判定部１０５は、選択された一つのボクセルが各カメラの統合マスク画像のマスク領域内に含まれず、且つ、選択された一つのボクセルが画角内に含まれる、カメラの台数（以降、Ｆａｌｓｅ　Ｃｏｕｎｔと呼ぶ）をカウントする。

Ｓ２７０７～Ｓ２７０９の各処理は、前述の図１６のフローにおけるＳ１６０６～Ｓ１６０８の各処理と同様であるため、説明を省略する。

Ｓ２７１０において、閾値算出部２６０は、選択された一つのボクセルを画角内に含むカメラの台数に基づいて、Ｔｒｕｅ　Ｃｏｕｎｔの閾値を算出する。閾値設定部１０６は、閾値算出部２６０により算出されたＴｒｕｅ　Ｃｏｕｎｔの閾値を設定する。

Ｓ２７１１～Ｓ２７１４の各処理は、前述の図１６のフローにおけるＳ１６０９～Ｓ１６１２の処理と同様であるため、説明を省略する。以上が図２７のフローにおける一連の処理である。

ここで、図２８は、図中で×印で示される注視点に対し、近い位置の黒点で示す前景Ａと当該注視点から遠い位置の黒点で示す前景Ｂとを含む競技場を、図１４と同様に１６台のカメラにより撮影する様子を示している。前景Ａは１６台全てのカメラで画角内であり、前景Ｂはカメラ１１０ｋ、１１０ｌ、１１０ｍの３台のカメラでのみ画角内であるものとする。

また、図２９は、図２８に示すカメラ配置において注視点から近い前景Ａの位置のボクセルと、注視点から遠い前景Ｂの位置のボクセルとのそれぞれのＦａｌｓｅ　Ｃｏｕｎｔ／Ｔｒｕｅ　Ｃｏｕｎｔの一例を示す。Ｆａｌｓｅ　Ｃｏｕｎｔの閾値は固定値の１０とし、Ｔｒｕｅ　Ｃｏｕｎｔの閾値は、ボクセルを画角内に含むカメラの台数の７０％とする。

注視点に近い前景Ａに位置するボクセルは１６台全てのカメラで統合マスク画像内に含まれるため、ボクセルが統合マスク画像外となるカメラは存在しない。従って、ボクセルが統合マスク画像外且つ画角内のカメラの台数は０であり、Ｆａｌｓｅ　Ｃｏｕｎｔは０である。

また、注視点に近い前景Ａに位置するボクセルを画角内に含むカメラの台数も１６台であるので、Ｔｒｕｅ　Ｃｏｕｎｔの閾値は１６台の７０％である１１．２となる。そして、注視点に近い前景Ａに位置するボクセルは全てのカメラで前景マスク画像内となるためＴｒｕｅ　Ｃｏｕｎｔは１６となり、当該カウント値は閾値（１１．２）以上であるのでボクセルは除去されない。

注視点から遠い前景Ｂの位置のボクセルは１３台のカメラ（カメラ１１０ｋ、１１０ｌ、１１０ｍを除く１３台）で画角外となり、３台のカメラ（カメラ１１０ｋ、１１０ｌ、１１０ｍ）で画角内となる。また、３台のカメラ（カメラ１１０ｋ、１１０ｌ、１１０ｍ）でボクセルが統合マスク画像内となる。従って、ボクセルが統合マスク画像外且つ画角内のカメラの台数は０台であり、Ｆａｌｓｅ　Ｃｏｕｎｔは０である。

また、注視点から遠い前景Ｂに位置するボクセルを画角内に含むカメラの台数が３台であるので、Ｔｒｕｅ　Ｃｏｕｎｔの閾値は３台の７０％である２．１となる。そして、注視点から遠い前景Ｂに位置するボクセルは３台のカメラで前景マスク画像内となるためＴｒｕｅ　Ｃｏｕｎｔは３となり、当該カウント値は閾値（２．１）以上であるのでボクセルは除去されない。

このように、対象とするボクセルが画角内に含まれるカメラの台数に基づいて、ＴｒｕｅＣｏｕｎｔの閾値を設定することによって、注視点から離れており、画角内であるカメラ台数が少ない前景について３次元モデルを生成することができる。従って、注視点から遠い前景であっても欠落を抑制した３次元モデルを生成することが可能となる。

実施形態５

上述の実施形態３及び実施形態４では、各ボクセルのＴｒｕｅ　Ｃｏｕｎｔとしてボクセルが前景マスク画像内に含まれるカメラのみをカウントする態様を説明した。しかし、その場合、多数のカメラにおいて構造物で隠れた前景の位置にあるボクセルは、ＴｒｕｅＣｏｕｎｔが閾値を超えずに、除去されてしまうことがある。そこで、多数のカメラで構造物により前景が遮られた場合でも欠落のない３次元モデルを生成する態様を、実施形態５として説明する。

本実施形態では、対象とするボクセルが前景マスク画像外であっても構造物マスク画像内に含まれる場合には、そのボクセルは前景である可能性があるため、ボクセルが構造物マスク画像内に含まれると判定されたカメラの台数に重み値を乗算した値を、Ｔｒｕｅ　Ｃｏｕｎｔに加算することで、前景の欠落を回避する。

具体的には、まず、対象とするボクセルが構造物マスク画像に含まれるカメラ台数に基づいて重み値を設定する。そして、対象とするボクセルが前景マスク画像に含まれるカメラの数と、対象とするボクセルが構造物マスク画像に含まれるカメラの台数に重み値を乗算した値とを加算した値が、Ｔｒｕｅ　Ｃｏｕｎｔの閾値以下である場合に、当該ボクセルを除去すると判定する。

（３次元モデル生成装置の機能構成）
図３０を参照して、本実施形態に係る３次元モデル生成装置の機能構成を説明する。本実施形態に係る３次元モデル生成装置１４０は、実施形態４の３次元モデル生成装置の構成に加えて、重み設定部３００をさらに備えている。

重み設定部３００は、対象とするボクセルが構造物マスク画像内と判定された場合にＴｒｕｅ　Ｃｏｕｎｔに加算する値を、カメラ１台当たりの重み値として設定する。この重み値は、前景に位置するボクセルの可能性を示す値と同等であり、本実施形態では、カメラ１台当たりの重み値を０．５と設定する。そして、対象とするボクセルが構造物マスク画像内と判定されたカメラの台数に、カメラ１台当たりの重み値０．５を乗算した値を、Ｔｒｕｅ　Ｃｏｕｎｔに加算する。

図３１は、本実施形態に係る３次元モデル生成装置が実施する処理の手順を示すフローチャートである。

Ｓ３１０１～Ｓ３１０４の各処理は、実施形態４の図２７のフローにおけるＳ２７０１～Ｓ２７０４の各処理と同様である。また、Ｓ３１０５～Ｓ３１０８の各処理は、前述の図２７のフローにおけるＳ２７０６～Ｓ２７０９の各処置と同様である。また、Ｓ３１０９とＳ３１１０の処理はそれぞれ、前述の図２７のフローにおけるＳ２７０５とＳ２７１０の処理と同様である。

Ｓ３１１１において、マスク内外判定部１０５は、選択された一つのボクセルが各カメラの構造物マスク画像のマスク領域内に含まれるカメラの台数をカウントする。

Ｓ３１１２において、重み設定部３００は、構造物マスク画像のマスク領域内に含まれるカメラの台数に、カメラ１台当たりの重み値０．５を乗算した値を、Ｓ３１０８で算出されたＴｒｕｅ　Ｃｏｕｎｔに加算する。Ｓ３１１３～Ｓ３１１６の各処理は、前述の図２７のフローにおけるＳ２７１１～Ｓ２７１４の各処理と同様である。以上が図３１のフローにおける一連の処理である。

ここで、図３２に、ある前景領域に位置するボクセルにおける、重み加算なしの場合のＴｒｕｅ　Ｃｏｕｎｔの例と、本実施形態に係る重み加算ありの場合のＴｒｕｅ　Ｃｏｕｎｔの例とを示す。

このボクセルは１６台全てのカメラで画角内であり、対象とするボクセルを前景マスク画像内に含むカメラの台数が７台、対象とするボクセルを構造物マスク画像内に含むカメラの台数が９台であるものとする。この場合、ボクセルが統合マスク画像外であるカメラは０台（全カメラ１６台－７台－９台）である。従って、ボクセルが統合マスク画像外且つ画角内のカメラの台数は０であり、Ｆａｌｓｅ　Ｃｏｕｎｔは０である。

重み加算なしの場合、対象とするボクセルを前景マスク画像内に含むカメラの台数が７台であるため、Ｔｒｕｅ　Ｃｏｕｎｔは７となる。Ｔｒｕｅ　Ｃｏｕｎｔの閾値が、対象とするボクセルを画角内に含むカメラの台数の７０％であるものとする。すると、閾値は１１．２（１６×０．７）となるため、Ｔｒｕｅ　Ｃｏｕｎｔ（７）＜閾値（１１．２）であり、Ｔｒｕｅ　Ｃｏｕｎｔが閾値以下となることから、当該ボクセルは除去されてしまう。

一方、重み加算ありの場合、対象とするボクセルを前景マスク画像内に含むカメラの台数が７台であるため、同様にＴｒｕｅ　Ｃｏｕｎｔは７となり、これに重み値が加算されることになる。対象とするボクセルを構造物マスク画像内に含むカメラの台数が９であり、カメラ１台あたりの重み値が０．５であるため、９×０．５＝４．５を重み値として加算する。重み値を加算した後のＴｒｕｅ　Ｃｏｕｎｔは１１．５であり、Ｔｒｕｅ　Ｃｏｕｎｔ（１１．５）＞閾値（１１．２）となり、閾値を超えることから、当該ボクセルは前景であるものとして除去されない。

なお、本実施形態では、構造物が一つである場合を想定したが、前景と重なる可能性のある異なる複数の構造物がある場合、構造物マスク画像の種類ごとに異なる重み値を設定し、その重み値に基づく値をＴｒｕｅ　Ｃｏｕｎｔに加算してもよい。例えば、競技場の競技フィールドを囲むように設置されている電子看板の構造物マスク画像については、電子看板は大きく前景と重なりやすいことから前景を含む可能性が高くなるので、カメラ１台当たりの重み値を０．５とする。また、ゴールの構造物マスク画像については、カメラ１台当たりの重み値を０．３とする。ゴールよりも電子看板の方が大きく隙間もないので前景（人物）と重なる可能性が高いと考えられることから、電子看板に対する重み値を、ゴールに対する重み値よりも大きい値としている。

また、ボクセル位置、シーン、マスク領域の大きさや形状、撮影対象となる競技場のエリアなどに応じて異なる重み値を設定してもよい。

以上説明したように、本実施形態では、対象とするボクセルが構造物マスク画像のマスク領域内に含まれるカメラの台数に基づく重みＴｒｕｅ　Ｃｏｕｎｔに加算した上で、閾値判定を行う。これにより、多数のカメラで前景が構造物に遮られる場合でも、欠落のない３次元モデルの生成を実現することができる。

以上のとおり、実施形態１～５によれば、前景となるオブジェクトを隠してしまう構造物が存在していても、構造物を含まない高精度な前景のみの３次元モデルを生成することができる。

実施形態６

　次に、実施形態３で用いた前景マスク画像に含まれるカメラ台数（Ｔｒｕｅ　Ｃｏｕｎｔ）の代わりに、構造物マスク画像に含まれるカメラ台数を用いる態様を、実施形態６として説明する。実施形態３では、前景マスク画像と構造物マスク画像に基づいて生成した３次元モデルに対して、毎回、前景マスク画像を更新して、３次元モデルを構成するボクセルが前景マスク画像に含まれるか判定するため、処理が煩雑となる場合がある。そこで、前景マスク画像と構造物マスク画像に基づいて生成した３次元モデルに対して、固定の構造物マスク画像に含まれるカメラ台数をカウントすることにより、構造物を含まない前景３次元モデルの生成を行う。

（３次元モデル生成装置の機能構成、及びハードウェア構成）
　図３３は、本実施形態における３次元モデル生成装置１４０の構成を示す図である。本実施形態における３次元モデル生成装置１４０の構成は、実施形態３とほぼ同様であり、同じ処理を行うブロックについては説明を省略する。本実施形態に係る３次元モデル生成装置１４０は、マスク内外判定部１０５に代えて、マスク内外判定部３３００を備えている。マスク内外判定部３３００は、対象となるボクセル空間内の各ボクセルが統合マスク画像及び構造物マスク画像のマスク内外に含まれるカメラ台数をカウントし、閾値判定により、対象となるボクセルを除去するか否かを判定し、前景モデル生成部１０７に出力する。また、本実施形態の３次元モデル生成装置１４０のハードウェア構成は、図４（ｂ）と同様であるため、説明は省略する。

　図３４は、本実施形態における３次元モデル生成装置１４０が実施する処理の手順を示すフローチャートである。Ｓ３４０１～Ｓ３４０７及びＳ３４１０～Ｓ３４１２の各処理は、実施形態３で図１６を参照しながら説明したＳ１６０１～Ｓ１６０７及びＳ１６１０～Ｓ１６１２の各処理と同様であるため省略し、主に必要箇所を中心に説明するする。

　Ｓ３４０６において、マスク内外判定部３３００は、Ｆａｌｓｅ　Ｃｏｕｎｔが閾値以上であるか否かを判定する。Ｆａｌｓｅ　Ｃｏｕｎｔが閾値未満である場合、選択されたボクセルは前景又は構造物であると判定できるため、Ｓ３４０８へ進む。

　Ｓ３４０８において、マスク内外判定部３３００は、選択された一つのボクセルに対応する画素や領域が各カメラの構造物マスク画像のマスク領域内に含まれるカメラの台数（以降、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔと呼ぶ）をカウントする。

　Ｓ３４０９において、マスク内外判定部３３００は、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔが閾値以上であるか判定する。Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔが閾値以上の場合は、選択されたボクセルは構造物であると判定できるため、Ｓ３４０７へ進み、選択されたボクセルを対象ボクセル空間から除去する。一方、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔが閾値未満の場合、選択されたボクセルは前景と判定できるため、対象ボクセル空間から除去しない。

　ここで、図１４で示した１６台のカメラにより競技場を撮影する仮想視点画像生成システムを例として、３次元モデルの生成例を説明する。図３５は、図１４に示した仮想視点画像生成システムにおける前景、一部のカメラで未検出の前景、構造物に隠れた前景、構造物、非前景として、それぞれ、人物、人物の足、人物の頭部、ゴール、その他の領域に対する、ボクセルのＦａｌｓｅ　Ｃｏｕｎｔ／Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔと判定結果の例を示す。ただし、１台のカメラで人物の足の前景抽出に失敗しており、また３台のカメラで人物の頭部が構造物であるゴールに隠れており、これらは前景背景分離装置１３により前景として抽出されないものとする。

　Ｓ３４０４の判定において、Ｆａｌｓｅ　Ｃｏｕｎｔの閾値が固定値の１０である場合、人物、足、頭部、構造物のゴールポストを除くその他の領域に位置するボクセルは、Ｆａｌｓｅ　Ｃｏｕｎｔが１６であり、閾値を超えるため、除去される。Ｆａｌｓｅ　Ｃｏｕｎｔの閾値判定を適用して生成された３次元モデルについては、前述の図２３に示したとおりである。

　さらに、Ｓ３４０８で示した判定において、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔの閾値が固定値の３である場合、構造物であるゴールの領域に位置するボクセルは、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔが５であり、閾値以上であるため、除去される。一方、人物、人物の足、頭部の領域に位置するボクセルは、Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔは各々０であり、閾値未満となるため、除去されない。よって、前述の図２４で示すような欠落のない人物の３次元モデルが生成される。

　以上の処理により、構造物マスクに含まれるカメラ台数（Ｓｔｒｕｃｔｕｒｅ　Ｃｏｕｎｔ）の閾値判定により、前景が構造物に遮られる場合でも欠落のない３次元モデル生成を実現することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

実施形態を参照して本発明を説明して来たが、本発明が上述した実施形態に限定されないことは言うまでもない。下記のクレームは最も広く解釈されて、そうした変形例及び同等の構造・機能全てを包含するものとする。本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

本願は、２０１７年１２月１４日提出の日本国特許出願特願２０１７‐２３９８９１、および２０１８年５月７日提出の日本国特許出願特願２０１８‐０８９４６７、及び２０１８年１１月６日提出の日本国特許出願特願２０１８‐２０９１９６を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

複数の撮影方向からの撮影により得られた複数の画像内のオブジェクトの領域を示す第１領域情報を取得する第１取得手段と、
前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を示す第２領域情報を取得する第２取得手段と、
前記第１取得手段により取得したオブジェクトの領域を示す第１領域情報と前記第２取得手段により取得した構造物の領域を示す第２領域情報の両方に基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、
を有することを特徴とする生成装置。
前記第１領域情報は、前記オブジェクトの領域を示す画像であり、
前記第２領域情報は、前記構造物の領域を示す画像である、
ことを特徴とする請求項１に記載の生成装置。
前記オブジェクトの領域を示す画像と前記構造物の領域を示す画像とを合成する合成手段をさらに有し、
前記生成手段は、前記合成手段により合成された画像に基づいて、前記オブジェクトに対応する前記３次元形状データを生成する
ことを特徴とする請求項２に記載の生成装置。
前記合成手段は、前記オブジェクトの領域を示す画像と前記構造物の領域を示す画像に基づき、前記オブジェクトと前記構造物の両方の領域を示す画像を生成することを特徴とする請求項３に記載の生成装置。
前記オブジェクトに対応する３次元形状データは、前記構造物に対応する３次元形状データを含むことを特徴とする請求項１乃至４のいずれか１項に記載の生成装置。
前記生成手段は、
前記第２取得手段により取得した前記第２領域情報に基づいて、前記構造物に対応する３次元形状データを生成し、
生成された前記構造物に対応する３次元形状データと、前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データと、に基づいて、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成する
ことを特徴とする請求項５に記載の生成装置。
前記生成手段は、少なくとも一部を膨張させた前記構造物に対応する３次元形状データに基づき、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項６に記載の生成装置。
前記生成手段は、前記構造物が存在する３次元空間上の領域に応じて、前記構造物に対応する３次元形状データを膨張させる部分を決定することを特徴とする請求項７に記載の生成装置。
前記生成手段は、前記構造物が存在する３次元空間における前記構造物と前記オブジェクトの距離に応じて、前記構造物に対応する３次元形状データを膨張させる割合を決定することを特徴とする請求項７又は８に記載の生成装置。
前記生成手段は、前記構造物と前記オブジェクトとの距離が離れるほど、前記構造物に対応する３次元形状データを膨張させる割合を大きくすることを特徴とする請求項９に記載の生成装置。
前記オブジェクトは、同じ撮影方向から時系列で前記撮影を行った場合の各画像内においてその位置が変化し得る動体であることを特徴とする請求項１乃至１０のいずれか１項に記載の生成装置。
前記オブジェクトは、人物とボールのうち少なくとも一方であることを特徴とする請求項１乃至１１のいずれか１項に記載の生成装置。
前記構造物は、静止状態が継続する物体であることを特徴とする請求項１乃至１２のいずれか１項に記載の生成装置。
サッカーの試合に用いられるサッカーゴール及びコーナーフラッグの少なくとも一方は、前記構造物であることを特徴とする請求項１乃至１２のいずれか１項に記載の生成装置。
前記構造物は、所定の位置に設置された物体であることを特徴とする請求項１乃至１４のいずれか１項に記載の生成装置。
前記構造物の少なくとも一部は、オブジェクトである人物が競技を行うフィールド上に設置されていることを特徴とする請求項１乃至１５のいずれか１項に記載の生成装置。
前記構造物は、指定された物体であることを特徴とする請求項１乃至１６のいずれか１項に記載の生成装置。
複数の撮影方向からの撮影により得られた複数の画像内のオブジェクトの領域を示す第１領域情報を取得する第１取得工程と、
前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を示す第２領域情報を取得する第２取得工程と、
前記第１取得工程により取得したオブジェクトの領域を示す第１領域情報と前記第２取得工程により取得した構造物の領域を示す第２領域情報の両方に基づき、前記オブジェクトに対応する３次元形状データを生成する生成工程と、
を有することを特徴とする生成方法。
前記オブジェクトに対応する３次元形状データは、前記構造物に対応する３次元形状データを含むことを特徴とする請求項１８に記載の生成方法。
前記第１領域情報は、前記オブジェクトの領域を示す画像であり、
前記第２領域情報は、前記構造物の領域を示す画像である
ことを特徴とする請求項１８又は１９に記載の生成方法。
前記オブジェクトの領域を示す画像と前記構造物の領域を示す画像との合成を行う合成工程をさらに有し、
前記生成工程において、前記合成工程により合成された画像に基づいて、前記オブジェクトに対応する前記３次元形状データを生成する
ことを特徴とする請求項２０に記載の生成方法。
コンピュータを、請求項１乃至１７のいずれか１項に記載の生成装置として機能させるためのプログラム。
　オブジェクトに対応する３次元形状データを生成する生成装置であって、
　複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、
　前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む画像の数を取得する第２取得手段と、
　前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、
　を有することを特徴とする生成装置。
　前記オブジェクトに対応する３次元形状データは、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データであり、
　前記生成手段は、
　　前記第１取得手段により取得された画像データに基づいて、前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データを生成し、
　　前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データと、前記第２取得手段により取得された画像の数とに基づいて、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項２３に記載の生成装置。
　前記構造物に対応する３次元形状データを含む前記オブジェクトに対応する３次元形状データから、前記第２取得手段により取得された画像の数が閾値以下の部分領域に対応するデータを除くことにより、前記構造物に対応する３次元形状データを含まない前記オブジェクトに対応する３次元形状データを生成することを特徴とする請求項２４に記載の生成装置。
　前記閾値は、前記複数の撮影方向に基づく値であることを特徴とする請求項２５に記載の生成装置。
　前記閾値は、前記複数の撮影方向からの撮影を行う撮影装置の設置位置に基づく値であることを特徴とする請求項２５又は２６に記載の生成装置。
　前記閾値は、前記複数の撮影方向からの撮影を行う撮影装置の台数より少ない値であることを特徴とする請求項２５乃至２７の何れか１項に記載の生成装置。
　前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
　前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、前記所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項２３乃至２８の何れか１項に記載の生成装置。
　前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
　前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、前記所定の要素に対応する画素又は領域を前記オブジェクトの領域に含む前記第１画像の数を取得することを特徴とする請求項２３乃至２８の何れか１項に記載の生成装置。
　オブジェクトに対応する３次元形状データを生成する生成装置であって、
　複数の撮影方向からの撮影により得られた複数の撮影画像内の前記オブジェクトの領域、及び、前記複数の撮影方向の少なくとも一つの撮影方向からの撮影時に前記オブジェクトを遮る可能性のある構造物の領域を表す画像データを取得する第１取得手段と、
　前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む画像の数を取得する第２取得手段と、
　前記第１取得手段により取得された画像データと、前記第２取得手段により取得された画像の数とに基づき、前記オブジェクトに対応する３次元形状データを生成する生成手段と、
　を有することを特徴とする生成装置。
　前記画像データは、前記オブジェクトの領域を表す第１画像と前記構造物の領域を表す第２画像とが合成された画像データであり、
　前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項３１に記載の生成装置。
　前記画像データは、前記オブジェクトの領域を表す第１画像の画像データと前記構造物の領域を表す第２画像の画像データを含み、
　前記第２取得手段は、前記画像の数として、前記オブジェクトに対応する３次元形状データを生成するための３次元空間を構成する所定の要素ごとに、当該所定の要素に対応する画素又は領域を前記構造物の領域に含む前記第２画像の数を取得することを特徴とする請求項３１に記載の生成装置。
　前記第１画像と前記第２画像は、前記生成装置が有する受信手段を介して取得されることを特徴とする請求項２９、３０、３２及び３３の何れか１項に記載の生成装置。
　前記要素は、前記３次元空間を構成する点又はボクセルであることを特徴とする請求項２３乃至３４の何れか１項に記載の生成装置。