WO2020013077A1

WO2020013077A1 - 装置、制御方法、及びプログラム

Info

Publication number: WO2020013077A1
Application number: PCT/JP2019/026682
Authority: WO
Inventors: 英人榊間
Original assignee: キヤノン株式会社
Priority date: 2018-07-13
Filing date: 2019-07-04
Publication date: 2020-01-16
Also published as: US20210133944A1; JP2020013216A; JP7179515B2; US11557081B2

Abstract

仮想視点画像の品質の低下を抑制する。目標オブジェクトを複数のカメラにより複数の方向から撮影することで得られる画像に基づき、該目標オブジェクトを含む仮想視点画像を生成する装置（１２２）であって、前記複数のカメラによる撮影に基づく複数の画像の中から、前記目標オブジェクトにおける特定位置が他のオブジェクトにより遮蔽されていない画像を、当該画像の画素値に基づいて選択する選択手段（２０８）と、前記選択手段により選択された画像に基づき、前記仮想視点画像における前記特定位置に対応する画素の値を決定する決定手段（２０４）と、前記決定手段により決定された画素の値に基づき、前記仮想視点画像を生成する生成手段（２０５）とを有することを特徴とする装置（１２２）である。

Description

装置、制御方法、及びプログラム

　本発明は、異なる位置に設置した複数のカメラを用いて撮影することで取得される画像に基づいて仮想視点画像を生成する技術に関する。

　昨今、複数のカメラを互いに異なる位置に設置して多視点で同期撮影することで得られた複数視点画像を用いて仮想視点コンテンツを生成する技術が注目されている。この技術によれば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザーに高臨場感を与えることが出来る。

　仮想視点コンテンツの生成及び閲覧は、複数のカメラが撮影した画像をサーバ等の画像生成装置に集約し、該画像生成装置にて、３次元モデル生成、レンダリング等の処理を実行し、ユーザー端末に仮想視点コンテンツを送付することで実現できる。

　画像生成装置にて実行される３次元モデルの生成方法として、ビジュアルハルと呼ばれる形状推定方法が良く知られている。ビジュアルハル等によって生成された３次元モデルは、モデルを形成する空間上の点やボクセルによって表現される。これらの点やボクセルに色情報を持たせるため、複数のカメラによって撮影された画像を使用して、点やボクセル毎の色付け処理を行う。この色付け処理により点やボクセルに色を付ける際、仮想視点とカメラとの位置関係によって色付けに使用するカメラが選択され、選択されたカメラの撮影画像を使用して色付け処理が実行されることが知られている。

　特許文献１は、カメラからオブジェクトまでの距離を算出し、該算出した距離に応じて光線情報を補正して仮想視点画像を生成する手法を開示している。

特開２０１２－１２８８８４号公報

　しかし、特許文献１では、実際に撮影に使用したカメラとオブジェクトとの位置関係によっては、オクルージョンが生じるという可能性を考慮していない。従って、オクルージョンが発生しているカメラの撮影画像に基づいて仮想視点画像の画素値を決定した結果、生成される仮想視点画像の品質が低下する虞がある。

　そこで本発明は、上記の課題に鑑み、複数のカメラによる撮影に基づく複数の画像の中から適切に選択した画像を用いて画素値を決定することで、仮想視点画像の品質の低下を抑制することを目的とする。

　本発明は、目標オブジェクトを複数のカメラにより複数の方向から撮影することで得られる画像に基づき、該目標オブジェクトを含む仮想視点画像を生成する装置であって、前記複数のカメラによる撮影に基づく複数の画像の中から、前記目標オブジェクトにおける特定位置が他のオブジェクトにより遮蔽されていない画像を、当該画像の画素値に基づいて選択する選択手段と、前記選択手段により選択された画像に基づき、前記仮想視点画像における前記特定位置に対応する画素の値を決定する決定手段と、前記決定手段により決定された画素の値に基づき、前記仮想視点画像を生成する生成手段とを有することを特徴とする装置である。

　本発明により、仮想視点画像の品質の低下を抑制することが可能となる。

　本発明の更なる特徴は、添付の図面を参照して行う以下の実施形態の説明より明らかになる。

第１の実施形態における、画像生成システムの概略構成を示すブロック図。第１の実施形態における、画像生成装置の構成を示すブロック図。第１の実施形態における、仮想視点画像を生成する処理のフローチャート。第１の実施形態における、色付け用画像選択処理の概要を説明する模式図。第１の実施形態における、色付け用画像選択処理のフローチャート。第１の実施形態における、色付け用画像選択処理を補足説明する模式図。第１の実施形態における、撮影に使用したカメラの情報を保持するリスト。第２の実施形態及び第３の実施形態における、画像生成装置の機能ブロック図。第２の実施形態における、マスク情報を説明する図。第２の実施形態及び第３の実施形態における色付け用画像選択処理のフローチャート。第２の実施形態及び第３の実施形態における、カメラとオブジェクトとの位置関係を説明する図。第２の実施形態における、撮影に使用したカメラの情報を保持するリスト。第２の実施形態における、マスク情報を説明する図。第３の実施形態における、マスク情報を説明する図。第３の実施形態における、撮影に使用したカメラの情報を保持するリスト。

　以下、図面を参照して本発明の実施形態を詳細に説明する。但し、以下の実施形態は本発明を限定するものではなく、また、以下で説明する特徴の組み合わせの全てが本発明の課題解決に必須のものとは限らない。尚、同一の構成については、同じ符号を付して説明する。また、以下に記載する構成要素の相対配置、形状等は、あくまで例示であり、本発明をそれらのみに限定する趣旨のものではない。

［第１の実施形態］
　本実施形態では、３次元モデルを構成する点に色付けを行う際、色付けに使用される撮影画像の候補の中から外れ値を持つ撮影画像を除外した後に、撮影画像の選択、色付けを行う。

＜画像生成システムについて＞
　以下、本実施形態における画像生成システムについて、図１を用いて説明する。図１は、野球場やサッカースタジアム等の競技場、コンサートホール、等の施設に複数のカメラ及びマイクを設置し、撮影及び集音を行うシステムの概略構成を示す図である。

　画像生成システム１００は、センサシステム１１０ａ～センサシステム１１０ｚ、スイッチングハブ１２１、画像生成装置１２２、コントローラ１２３、及びエンドユーザ端末１２６を有する。センサシステムの集合を、撮影装置群１０１とする。

　コントローラ１２３は、制御ステーション１２４と、仮想カメラ操作ユーザーインタフェース１２５と、を有する。尚、本明細書では、ユーザーインタフェースをＵＩと略記する。制御ステーション１２４は、画像生成システム１００を構成するそれぞれのブロックに対して、ネットワーク１８０a～ネットワーク１８０zやネットワーク１９０a～ネットワーク１９０cを通じて、動作状態の管理制御、パラメータ設定制御、等を行う。ここで、ネットワークは、Ｅｔｈｅｒｎｅｔ（登録商標）であるＩＥＥＥ標準準拠のＧｂＥ（ギガビットイーサーネット）や１０ＧｂＥを採用して良いし、インターコネクトＩｎｆｉｎｉｂａｎｄ、産業用イーサーネット、等を組合せて構成されても良い。また、これらに限定されず、他の種別のネットワークであっても良い。

　初めに、２６セットのセンサシステム、つまりセンサシステム１１０ａ～センサシステム１１０ｚで取得される画像及び音声を、それぞれのセンサシステムから画像生成装置１２２に送信する動作を説明する。本実施形態における画像生成システム１００では、センサシステム１１０ａ～センサシステム１１０ｚはそれぞれ、スイッチングハブ１２１を介して画像生成装置１２２と接続される。

　尚、以下で特別な説明がない場合、センサシステム１１０ａからセンサシステム１１０ｚまでの２６セットのシステムを区別せずセンサシステム１１０と記載する。各センサシステム１１０内の装置についても同様に、特別な説明がない場合は区別せず、マイク１１１、カメラ１１２、雲台１１３、外部センサ１１４、及びカメラアダプタ１２０と記載する。また、センサシステムの台数を２６と記載しているが、あくまでも一例であり、台数をこれに限定するものではない。また、本実施形態では、特に断りがない限り、画像という概念が、静止画と動画との両方の概念を含むものとして説明する。つまり、本実施形態の画像生成システム１００は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像生成システム１００により提供される仮想視点コンテンツには、仮想視点における画像（所謂、仮想視点画像）と音声（所謂、仮想視点音声）とが含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくても良い。また例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、以下では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理される。

　センサシステム１１０ａ～センサシステム１１０ｚはそれぞれ、カメラを１台ずつ（カメラ１１２ａ～カメラ１１２ｚ）を有する。即ち、画像生成システム１００は、同一の撮影対象領域を複数の方向から撮影するための複数のカメラを有する。画像生成システム１００内で、各センサシステム１１０がスイッチングハブ１２１と接続され、各センサシステム１１０がスイッチングハブ１２１を経由して中央装置との間でデータを送受信する、所謂、スター型のネットワークが構築される。

　センサシステム１１０ａは、マイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、外部センサ１１４ａ、及びカメラアダプタ１２０ａを有する。尚、このセンサシステムの構成はあくまで一例であり、センサシステム１１０ａは、少なくとも１台のカメラアダプタ１２０ａと、１台のカメラ１１２ａ又は１台のマイク１１１ａとを有していれば良い。また例えば、センサシステム１１０ａは、１台のカメラアダプタ１２０ａと、複数のカメラ１１２ａとで構成されても良いし、１台のカメラ１１２ａと、複数のカメラアダプタ１２０ａとで構成されても良い。即ち、画像生成システム１００において、カメラ１１２の数はＮであり、カメラアダプタ１２０の数はＭである（但し、ＮとＭは共に１以上の整数）。また、センサシステム１１０ａは、図１に示す装置以外の装置を含んでいても良い。また、センサシステム１１０ａにおいて、カメラ１１２ａとカメラアダプタ１２０ａとが同一筐体で一体化されて構成されても良い。その場合、マイク１１１ａは一体化されたカメラ１１２ａに内蔵されても良いし、カメラ１１２ａの外部に接続されていても良い。マイク１１１ａにて集音された音声のデータと、カメラ１１２ａにて撮影された画像のデータとは、カメラアダプタ１２０ａを介し、スイッチングハブ１２１へ伝送される。また、本明細書では、カメラで撮影された画像を「撮影画像」と記載する。

　センサシステム１１０ｂ～センサシステム１１０ｚについては、センサシステム１１０ａと同様の構成なので説明を省略する。但し、センサシステム１１ｂ～センサシステム１１０ｚがセンサシステム１１０ａと同じ構成に限定されるものではなく、それぞれのセンサシステム１１０が異なる構成でも良い。

　画像生成装置１２２は、センサシステム１１０から取得した撮影画像に基づき、仮想視点画像を生成する処理を行う。

　タイムサーバ１２７は時刻情報及び同期信号を配信する機能を有し、スイッチングハブ１２１を介して各センサシステム１１０に時刻情報及び同期信号を配信する。時刻情報と同期信号とを受信したカメラアダプタ１２０ａ～１２０ｚは、該受信した時刻情報と同期信号とに基づきカメラ１１２ａ～１１２ｚをゲンロックさせ画像フレーム同期を行う。即ち、タイムサーバ１２７は、複数のカメラ１１２の撮影タイミングを同期させる。これにより、画像生成システム１００は、同じタイミングで撮影された複数の画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれに起因する、生成した仮想視点画像の品質低下を抑制できる。尚、本実施形態では、タイムサーバ１２７が複数のカメラ１１２の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理を各カメラ１１２又は各カメラアダプタ１２０が独立して行っても良い。

　画像生成装置１２２によって生成された仮想視点画像は、エンドユーザ端末１２６に送信され、エンドユーザ端末１２６を操作するユーザーは、指定した視点に応じた画像閲覧及び音声視聴が出来る。また、画像生成装置１２２は、仮想視点画像をＨ．２６４やＨＥＶＣに代表される標準技術により圧縮符号化した上で、ＭＰＥＧ－ＤＡＳＨプロトコルを使ってエンドユーザ端末１２６に送信しても良い。或いは、画像生成装置１２２は、非圧縮の仮想視点画像をエンドユーザ端末１２６に送信しても良い。特に圧縮符号化を行う前者のケースではエンドユーザ端末１２６としてスマートフォンやタブレット等を想定しており、後者のケースでは非圧縮画像を表示可能なディスプレイを想定している。つまり、エンドユーザ端末１２６の種別に応じて、画像フォーマットを切り替え可能である。また、画像の送信プロトコルはＭＰＥＧ－ＤＡＳＨに限らず、例えば、ＨＬＳ（ＨＴＴＰ　Ｌｉｖｅ　Ｓｔｒｅａｍｉｎｇ）やその他の送信方法を用いても良い。

　制御ステーション１２４は、仮想視点画像を生成する対象のスタジアム等の３次元モデルのデータを画像生成装置１２２に送信する。さらに、制御ステーション１２４はカメラ設置時に、キャリブレーションを実施する。具体的には、撮影対象のフィールド上にマーカーを設置し、各カメラ１１２で撮影した画像を用いて、各カメラの世界座標における位置及び向き、並びに、焦点距離を導出する。導出された各カメラの位置、向き、焦点距離の情報は、画像生成装置１２２に送信される。画像生成装置１２２に送信された三次元モデルのデータ及び各カメラの情報は、画像生成装置１２２が仮想視点画像を生成する際に使用する。

　仮想カメラ操作ＵＩ１２５は、画像を生成する仮想視点を指定する情報を、画像生成装置１２２に送信する。画像生成装置１２２は、指定された仮想視点に対応する画像を生成し、生成した仮想視点画像をエンドユーザ端末１２６に送信する。以上が、本実施形態における仮想視点画像生成システムの内容である。

＜画像生成装置の構成について＞
　以下、本実施形態における画像生成装置の構成について、図２を用いて説明する。まず、画像生成装置１２２のソフトウェア構成について、図２（ａ）を用いて説明する。

　撮影画像入力部２０１は、センサシステム１１０からスイッチングハブ１２１を介して送信される画像データ及び音声データを入力する入力処理部である。撮影画像入力部２０１に入力されたデータは、後述の３次元モデル生成部２０３と、撮影画像選択部２０８とに送信される。

　通信制御部２０２は、撮影装置群１０１と画像生成装置１２２との間の通信、及び、制御ステーション１２４と画像生成装置１２２との間の通信、を制御する処理部である。画像生成装置１２２は、制御ステーション１２４から送信された、スタジアム等の３次元形状を示すデータ（３次元モデルデータ）及び各カメラの設置に関わる情報等を取得する。

　３次元モデル生成部２０３は、撮影画像入力部２０１から送信される、複数のカメラ夫々で撮影された画像のデータに基づき、オブジェクトの３次元形状を表すデータ、つまり、３次元モデルを生成する。３次元モデルは、例えばビジュアルハル等の形状推定方法を用いて生成できる。尚、本実施形態では、３次元モデルは点の集合で構成されるものとして以降の説明を行う。また、３次元モデルを構成する点を「構成点」と記載する。各構成点は、オブジェクト上のそれぞれ異なる特定位置に対応する。なお、３次元モデルの生成方法はビジュアルハルには限定されない。また、３次元モデルの形式も限定されず、例えば３次元モデルがボクセルの集合で表されてもいてもよいし、ポリゴンメッシュで表されていてもよい。

　３次元モデル色付け部２０４は、複数のカメラで撮影された画像を使用して、３次元モデル生成部２０３によって生成された３次元モデルに色付け処理を行う。詳しくは、３次元モデル色付け部２０４は、３次元モデルの構成点毎に、複数のカメラで撮影された画像の中から使う画像を選択的に決定し、該決定した画像から適切な画素値を取得すること等により、色付けを行う。

　仮想視点画像生成部２０５は、生成された３次元モデルに基づき、仮想視点からオブジェクトを見たときの画像、所謂、仮想視点画像を生成する処理を行う。例えば、仮想視点画像は、３次元空間に配置した３次元モデルを、仮想視点へ投影することにより生成することが可能である。

　映像出力部２０６は、仮想視点画像生成部２０５にて生成された仮想視点画像のデータを含む映像データを、エンドユーザ端末１２６に出力する処理を行う。エンドユーザ端末１２６に応じた映像フォーマットの変換処理は、映像出力部２０６にて実行される。

　仮想視点情報取得部２０７は、仮想カメラ操作ＵＩ１２５を介して指定された仮想視点を示す情報を取得し、該取得した情報を、仮想視点画像生成部２０５と後述する撮影画像選択部２０８とに送信する。

　撮影画像選択部２０８は、複数のカメラで撮影された画像の中から、３次元モデルに対する色付けを行う際に使う画像を選択する処理を行う。撮影画像選択部２０８で選択された画像を使用して、３次元モデル色付け部２０４は、色付け処理を実行する。なお、本実施形態では画像生成装置１２２が複数のカメラによる撮影に基づく画像として複数の撮影画像を取得し、その中から選択された撮影画像の画素値に基づいて色づけ処理を実行するものとする。ただしこれに限らず、画像生成装置１２２は撮影に基づく画像として、撮影画像から所定のオブジェクトの領域が抽出された前景画像などを取得してもよい。そして画像生成装置１２２は、複数のカメラによる撮影に基づく複数の前景画像の中から選択された前景画像の画素値に基づいて、色づけ処理を実行してもよい。なお、画像生成装置１２２の構成は上記に限定されない。例えば３次元モデル生成部２０３など、上記の構成要素の一部が画像生成装置１２２とは別の装置に実装されていてもよい。

　続けて、画像生成装置１２２のハードウェア構成について、図２（ｂ）を用いて説明する。図２（ｂ）は、画像生成装置１２２のハードウェア構成を示すブロック図である。画像生成装置は、ＣＰＵ２１１と、ＲＡＭ２１２と、ＲＯＭ２１３と、二次記憶装置２１４と、入出力インタフェース２１５とを有する。これらの構成要素は、バスによって接続され、構成要素間でデータを送受信することが可能である。

　ＣＰＵ２１１は、ＲＡＭ２１２をワークメモリとして用いて、ＲＯＭ２１３に格納されたプログラムを実行し、システムバスを介して画像生成装置１２２の各構成要素を統括的に制御する。これにより、図２（ａ）に示したモジュールが実現されたり、後述する図３や図５に示す処理が実行されたりする。

　二次記憶装置２１４は、画像生成装置１２２で取り扱われる種々のデータが格納される装置であり、例えば、ＨＤＤ、光ディスクドライブ、フラッシュメモリ等が用いられる。ＣＰＵ２１１は、システムバスを介して、二次記憶装置２１４へのデータの書き込みと二次記憶装置２１４に格納されたデータの読出しとを行う。入出力インタフェース２１５は、画像生成装置１２２とその外部の装置との間におけるデータの送受信を行う。以上が、本実施形態における画像生成装置の構成の内容である。

＜仮想視点画像を生成する処理について＞
　以下、本実施形態における仮想視点画像を生成する処理について、図３を用いて説明する。図３は、仮想視点画像を１フレーム生成する処理の流れを示すフローチャートである。

　ステップＳ３０１にて、３次元モデル生成部２０３は、複数のカメラで撮影された画像に基づき、３次元モデルを生成する。尚、以下では、「ステップＳ～」を単純に「Ｓ～」と略記する。

　Ｓ３０２にて、撮影画像選択部２０８は、複数のカメラで撮影された画像の中から、３次元モデルの構成点に対する色付けに使う画像を選択する。尚、本ステップで実行する処理の詳細については、図５及び図６を用いて後述する。

　Ｓ３０３にて、３次元モデル色付け部２０４は、Ｓ３０２で選択された画像を使用して、３次元モデルの構成点に対する色付け処理を行う。

　Ｓ３０４にて、３次元モデル色付け部２０４は、３次元モデルの全ての構成点について色付け処理を行ったか判定する。Ｓ３０４の判定結果が真の場合、Ｓ３０５に進む。一方、Ｓ３０４の判定結果が偽の場合、Ｓ３０２に戻り、未処理の構成点に対する色付け処理を実行する。

　Ｓ３０５にて、仮想視点画像生成部２０５は、色付け処理を行った３次元モデルに基づき、仮想視点画像を生成する。以上が、本実施形態における仮想視点画像を生成する処理の内容である。

　なお、本実施形態では、画像生成装置１２２が、撮影画像に基づいて生成された３次元モデルの各構成要素（各点）に色付け処理を行った後で、レンダリングを行って仮想視点画像を生成する場合を中心に説明する。この場合、色づけされた３次元モデルの構成要素の色と仮想視点とに基づいて、仮想視点画像の各画素の値が決定される。ただし、仮想視点画像の生成方法（画素値の決定方法）はこれに限定されない。例えば画像生成装置１２２は、３次元モデルに直接色付けは行わず、生成される仮想視点画像の各画素が３次元モデルのどの構成要素に対応するかを判定し、選択された撮影画像における該構成要素に対応する画素値に基づき仮想視点画像の画素値を決定してもよい。

＜色付け用画像選択処理について＞
　以下、互いに異なる位置に設置した複数のカメラを用いて同一の撮影対象領域を撮影することで取得される撮影画像の中から、３次元モデルの構成点への色付けに使う撮影画像を選択する処理（色付け用画像選択処理とする）について説明する。色付け用画像選択処理は、図３のＳ３０２で実行される。

　まず、色付け用画像選択処理の概要について、サッカースタジアムにおいてゴールネット裏からフィールド方向を見る仮想視点に応じた仮想視点画像を生成するケースを例に挙げて、図４を用いて説明する。

　図４（ａ）は、本実施形態で生成する仮想視点画像の一例であり、ゴールネット裏から見た画像を表す図である。図４（ｂ）は、そのときのゴールネットと、ゴール枠と、仮想視点を示す仮想カメラとの位置関係を説明するための、上側から観察した図である。図４（ａ）及び図４（ｂ）において、符号４０１は、ゴール枠を示し、符号４０２は、ゴールネットを示している。尚、説明のため、図４（ｂ）は、ゴール枠４０１のうちクロスバーの部分を省略した図となっている。符号４０３は、撮影対象のオブジェクトを示し、このケースでは選手（具体的にはゴールキーパー）である。符号４０４は、仮想カメラを示し、この仮想カメラからの視点で仮想視点画像を生成する。符号４０５～４０９は、仮想視点画像を生成するために必要な撮影画像を撮影するカメラを示す。

　本実施形態の課題は、図４（ａ）及び図４（ｂ）により説明できる。図４（ａ）は、ゴールネット４０２裏にセットした仮想カメラ４０４で撮影した画像、つまり仮想視点画像を示す。従来、このような仮想視点画像を生成する場合、オブジェクトを表現する３次元モデルを構成する各点への色付けにおいて、オブジェクトへの向きが仮想カメラと近いカメラが選択されていた。例えば、図４（ｂ）のケースでは、仮想カメラ４０４と向きが近いカメラ４０７が選択され、そのカメラによって撮影された画像で色付けが行われる。その際、カメラ４０７で撮影された画像にはゴールネット４０２が撮影されており、そのまま色付けを行うと、オブジェクト４０３を表現する３次元モデルにゴールネット４０２の色が着色されてしまうという問題がある。

　そこで本実施形態では、例えば、構成点４１０に色付けを行うケースにおいて、カメラ４０７ではなく、各カメラと構成点４１０とを結んだ線上にゴールネット４０２が存在しないカメラ（図４では、カメラ４０６、カメラ４０８等が候補となる）を選択する。これにより、構成点４１０に対する適切な色付け処理が可能になる。

　以下、本実施形態における色付け用画像選択処理について、図５及び図６を用いて説明する。図６は、図４と同様に、オブジェクトとカメラとの位置関係を示す模式図である。図６において、符号６０１はゴール枠を示し、符号６０２はゴールネットを示し、符号６０３は撮影対象の目標オブジェクトを示す。また、符号６０４は、仮想視点画像を生成するにあたって指定される位置、つまりその位置に設置されたものとされるカメラ（所謂、仮想カメラ）を示し、符号６０５～６０９は、実際に撮影に使用するカメラを示す。尚、説明のため、図６は、ゴール枠６０１のうちクロスバーの部分を省略した図となっている。以下、オブジェクト（選手）６０３の３次元モデルを構成する点の一つである構成点６１０に対し色付けを行う処理について、図５を用いて説明する。

　Ｓ５０１にて、３次元モデルの構成点６１０から、判定対象のカメラに対し、仮想的に光線を投影する。

　Ｓ５０２にて、Ｓ５０１での投影結果に基づき、判定対象のカメラの設置位置から構成点が可視か、言い換えると、このカメラが構成点を画像として捉えているか判定する。Ｓ５０２の判定結果が真の場合、Ｓ５０３に進む。一方、Ｓ５０２の判定結果が偽の場合、Ｓ５０４に進む。

　Ｓ５０２でＹＥＳの場合、Ｓ５０３にて、判定対象のカメラの位置から構成点が可視であることを示す情報を記録する。本実施形態では、可視判定か否かを示す情報が、図７に示すリストにおいて、カメラＩＤと対応付けされて記載される。

　一方、Ｓ５０２でＮＯの場合、Ｓ５０４にて、判定対象のカメラの位置から構成点が可視ではないことを示す情報を記録する。このようにＳ５０３又はＳ５０４にて、実際に撮影に使用したカメラの夫々に対する、可視可能か否かを示す可視判定情報が記録されていく。

　Ｓ５０５にて、Ｓ５０２における可視判定が、撮影に使用した全てのカメラについてなされたか、判定する。Ｓ５０５の判定結果が偽の場合、Ｓ５０６に進み、判定対象のカメラＩＤを更新、即ち、判定対象のカメラを変更した上で、Ｓ５０１に戻る。一方、Ｓ５０５の判定結果が真の場合、Ｓ５０７に進む。

　ここで、Ｓ５０１～Ｓ５０６の処理について、図６を用いて補足説明する。図６に示すケースでは、カメラ６０５～６０９のうちカメラ６０９のみ、構成点６１０がオブジェクト（選手）６０３の３次元モデルを構成する別の点によって遮蔽されるため可視と判定されない（Ｓ５０２でＮＯ）。なお、ゴールネット６０２は構成点６１０を遮蔽するオブジェクトとして定義されないものとし、カメラ６０７は可視と判定されるものとする。また、Ｓ５０２での判定の結果取得される、各カメラに対する可視であるか否かを示す情報は、Ｓ５０３又はＳ５０４にて、図７に示すようなリスト７０１を用いて記録される。リスト７０１には、可視判定の結果を示す情報を保持する列が設けられており、各カメラに対し、可視の場合“１”が記録される一方、不可視の場合“０”が記録される。

　Ｓ５０５の後、Ｓ５０７にて、可視と判定されたカメラの撮影画像に含まれる構成点に対応する画素について、その画素値を取得する。そして、取得した画素値を、図７に示すリスト７０１に記載する。本ステップで取得する画素値の一部又は全部は、後続の処理にて構成点に対する色付けに用いられる。

　Ｓ５０８にて、取得した画素値（具体的にはＲＧＢ値）の中に例外値があるか否か判定する。そして、例外値がある場合は、該例外値に対応するカメラを、選択候補から除外する。例えば、図６に示すケースでは、カメラ６０５～６０８のうちカメラ６０７のみ、構成点６１０からの光線がオブジェクト（ゴールネット）６０２を通ってカメラに到達することから、その画素値が例外値となる（図７参照）。よって、カメラ６０７を選択候補から除外する。尚、画素値が例外値かの判定手法としては、複数のカメラの撮影画像について着目画素に対応する画素値の平均値を算出し、該算出した平均値からの差が、所定の閾値以上のものを例外として扱う等の手法が考えられるが、これに限らない。

　Ｓ５０９にて、Ｓ５０７で除外されたカメラを除く可視のカメラの中から、構成点６１０の色付けに使用するカメラで撮影した撮影画像を選択する。このときの選択手法として例えば、仮想カメラ６０４からの距離が最も近いカメラを選択する手法を採用できる。図６に示すケースでは、仮想カメラ６０４からの距離が最も近いカメラは、除外されたカメラ６０７を除くとカメラ６０６である。従って、色付けに使用するカメラとして、カメラ６０６を選択する。尚、本ステップの選択手法はこれに限らない。例えば、除外されていないカメラのうち撮影方向が仮想カメラ６０４と最も近いカメラが選択されてもよい。また、複数のカメラが選択され、選択された複数のカメラに対応する複数の画素値に基づいて算出された色を用いて、色づけ処理がされてもよい。以上が、本実施形態における色付け用画像選択処理の内容である。

＜本実施形態の効果について＞
　本実施形態により、例えば図６に示すようなケースで構成点６１０に色付けを行う際、オブジェクト（ゴールネット）６０２の色のような本来付けるべきでない色を３次元モデルに付けてしまうカメラを除外した上で、色付けすることが可能となる。よって、より高品質な仮想視点画像を生成することが可能となる。なお、本実施形態では、オブジェクトの位置情報等に基づいて構成点６１０を撮影できない（不可視の）カメラを除外し、不可視のカメラ以外の中からさらに画素値が例外値となるカメラを除外するものとした。このようにして残った候補のカメラから色付けに用いるカメラを選択することで、構成点６１０を正しく撮影しているカメラを選択できる可能性が高くなる。ただしこれに限らず、不可視のカメラの除外と、画素値が例外値となるカメラの、何れか一方を行わなくてもよい。この方法によれば、除外のための判定に係る処理を削減することができる。

［第２の実施形態］
　本実施形態では、３次元モデルの構成点の色付けに使う撮影画像を選択する際に、予め設定されたマスク情報を利用する。尚、以下では既述の実施形態との差分について主に説明し、既述の実施形態と同様の内容については説明を適宜省略する。

＜画像生成装置の構成について＞
　以下、本実施形態における画像生成装置１２２のソフトウェア構成について、図８を用いて説明する。尚、本実施形態における画像生成装置１２２のハードウェア構成については、第１の実施形態と同様である。

　図８の通信制御部８０１は、制御ステーション１２４における通信を制御する機能ブロック（モジュール）であり、制御ステーション１２４と画像生成装置１２２との間における通信処理を行う。制御ステーション１２４は、通信制御部８０１を介して、スタジアムの３次元形状を示すデータ（３次元モデルデータ）及び各カメラの設置に関わる情報等に加え、マスク情報を送信する。

　マスク情報設定部８０２は、撮影に使用した複数のカメラについて、カメラ毎に、撮影画像内で色付けに利用できる領域であるか否か等を示すマスク情報を設定する処理を行う。ここで、マスク情報について、図９を用いて説明する。

　本実施形態におけるマスク情報とは、撮影画像内のオクルージョン領域に関する情報であって、該当領域を色付けに使用して良いか等を示す情報である。オクルージョン領域とは、目標オブジェクトとカメラとを結ぶ直線上に存在する他のオブジェクト（遮蔽オブジェクトとする）によって目標オブジェクトが遮られる可能性が生じる領域である。例えば、マスク情報は、ゴール枠等の遮蔽オブジェクトの背面に隠れてしまう目標オブジェクトを表す３次元モデルに対して色付け処理を行う際に、該当領域の画素値を使用して色付けを行わないよう明示的に示すための画像である。図９（ａ）は、あるカメラから撮影した撮影画像９０１を示す。撮影画像９０１内の符号９０２は、ゴール枠を示し、ゴール枠９０２により、オブジェクト（選手）９０３の一部が遮蔽されている。遮蔽されている領域に亘って存在するオブジェクト（選手）９０３の３次元モデルに対し、撮影画像９０１を使用して色付けを行ってしまうと、オブジェクト（選手）９０３の３次元モデルのうち頭の部分にゴール枠９０２の色が着色されることになる。そのような誤った色付けを回避するため、本実施形態では、図９（ｂ）に示すマスク画像９０４を使用する。マスク画像９０４内の黒領域は、ゴール枠による領域を示しており、このように、色付けに使用してはいけない領域を明示することで、色付けの際に該当領域の画素値を使用することを回避できる。

　ユーザーインタフェース８０３は、制御ステーション１２４に対してユーザーが各種指示を行うためのインタフェースである。ユーザーは、ユーザーインタフェース８０３を介して、マスク情報の設定を行う。

＜色付け用画像選択処理について＞
　以下、本実施形態における色付け用画像選択処理について、図１０を用いて説明する。尚、本実施形態における仮想視点画像を生成する処理の全体フローは第１の実施形態と同様であるため（図３参照）、説明を省略する。図１０に示す色付け用画像選択処理は、図３のＳ３０２で実行される。

　Ｓ１００１にて、３次元モデルの構成点から、判定対象のカメラに対し、光線を投影する。Ｓ１００１の処理は、図５のＳ５０１の処理と同様である。

　Ｓ１００２にて、Ｓ１００１での投影結果に基づき、判定対象のカメラの位置から構成点が可視か判定する。Ｓ１００２の処理は、図５のＳ５０２の処理と同様である。Ｓ１００２の判定結果が真の場合、Ｓ１００３に進む。一方、Ｓ１００２の判定結果が偽の場合、Ｓ１００５に進む。

　まず、Ｓ１００２でＹＥＳの場合について説明する。この場合、Ｓ１００３にて、判定対象のカメラの位置から構成点が可視であることを示す情報を記録し、Ｓ１００４にて、判定対象のカメラの撮影画像に対するマスク情報を記録する。Ｓ１００４では、撮影画像において、構成点に対応する画素が、（オクルージョン領域であることを示す）マスク領域に属するか判定すること等により、記録するマスク情報が生成されることになる。

　ここで、本実施形態で使用するマスク情報について、図１３を用いて詳しく説明する。図１３（ａ）に示す撮影画像１３０１には、遮蔽オブジェクト（ゴール枠）１３０２と遮蔽オブジェクト（ゴールネット）１３０３とで一部が遮蔽された、オブジェクト（選手）１３０４が写っている。本実施形態では、撮影画像１３０１に対するマスク情報として、図１３（ｂ）に示すマスク情報１３０５を導入する。マスク情報１３０５では、ゴール枠のような完全に遮蔽するオブジェクトによるマスク領域１３０６に加え、ゴールネットのような一部領域のみ遮蔽するオブジェクトによるマスク領域１３０７を新たに定義する。マスク領域１３０７は、その領域全ての画素が色付けに使用できない領域ではなく、生成する仮想視点画像よっては、該画素が色付けに使用できる領域である。このようにマスク領域を設定することにより、色付けに完全に使用できないマスク領域とそれ以外のマスク領域とを明示化し、その情報に基づいて、使用する撮影画像を選択する。マスク情報の具体的な内容は、ユーザーによって指定されてもよい。マスク情報設定部８０２は、ユーザーインタフェース８０３を介してユーザーによって指定された内容に基づき、マスク情報を設定する処理を行う。

　続けて、Ｓ１００２でＮＯの場合について説明する。この場合、Ｓ１００５にて、判定対象のカメラの位置から構成点が可視でないことを示す情報を記録する。

　Ｓ１００４又はＳ１００５の後、Ｓ１００６にて、Ｓ１００２における可視判定が、撮影に使用した全てのカメラについてなされたか、判定する。Ｓ１００６の判定結果が偽の場合、Ｓ１００７に進み、判定対象のカメラＩＤを更新、即ち、判定対象のカメラを変更した上で、Ｓ１００１に戻る。一方、Ｓ１００６の判定結果が真の場合、Ｓ１００８に進む。

　Ｓ１００８にて、Ｓ１００４で記録したマスク情報に基づき、構成点の色付けに使用するカメラの撮影画像を選択する。

　ここで、本実施形態における色付け用画像選択処理について、図１１を用いて補足説明する。図１１は、ゴールネット裏から選手を捉える仮想視点画像を生成する際に色付け用画像を選択するケースを示す模式図である。図１１において、符号１１０１はゴール枠を示し、符号１１０２はゴールネットを示し、符号１１０３はオブジェクト（選手）を示す。図１１は、オブジェクト１１０３に対応する構成点の一つである、構成点１１１０に対する色付け処理において、カメラ１１０５～１１０９でそれぞれ撮影された画像の中から、マスク情報を使用して１画像を選択するケースを示す。

　図１２は、本実施形態における色付け用画像選択処理（図１０）で作成されるリストの一例を示す図である。カメラリスト１２０１は、可視か否か示す情報、マスク情報、及び画素値を、カメラ毎に保持するリストである。前述したように、可視か否か示す情報は、Ｓ１００３又はＳ１００５でカメラリスト１２０１に記録される。また、マスク情報は、Ｓ１００４でカメラリスト１２０１に記録される。本実施形態におけるマスク情報は、マスクの有無、及び、マスク領域の場合のマスク種別を示す。ここでは、マスク情報が取り得る値として、該当領域がマスク領域でない（マスクがない）ことを示す値を“０”と定義する。また、該当領域がゴール枠のような完全に遮蔽するオブジェクトによるマスク領域であることを示す値を“１”、該当領域がゴールネットのような遮蔽される領域と遮蔽されない領域とが混在するマスク領域であることを示す値を“２”と定義する。

　図１０のＳ１００７における選択処理は、図１２に示したカメラリスト１２０１を使用して実行する。カメラリスト１２０１に登録されているカメラ１１０５～１１０９のうち、カメラ１１０９は不可視であり、カメラ１１０８はゴール枠で完全に遮蔽されることがマスク情報により判明するため、これらのカメラを選択候補から除外する。そして、残ったカメラ（つまり、マスク情報の値が“２”のカメラ）の中で例外値判定を行うことで、カメラ１１０７を選択候補から除外することができる。なお、マスク情報の値が“０”のカメラがあった場合は、そのカメラは例外値判定されることなく選択候補となる。最終的に残ったカメラのうち、選択されたカメラ（例えば仮想カメラ１１０４に最も近いカメラ１１０６）の撮影画像を、色付け用画像として選択する。なお、本実施形態では例外値判定の対象となるマスク領域がゴールネットに対応する場合の例を示したが、マスク領域に対応するオブジェクトはこれに限定されない。例えば、撮影対象が陸上競技である場合には、ハンマー投げのネットや幅跳びの砂場に対応するマスク領域が設定されてもよい。

＜本実施形態の効果について＞
　本実施形態によれば、例外値判定の対象となるカメラをマスク情報に基づいて絞り込むため、第１の実施形態より短時間で、複数の撮影画像の中から色付け用画像を選択することが可能である。

［第３の実施形態］
　本実施形態では第２の実施形態と同様に、３次元モデルの構成点の色付けに使う撮影画像を選択する際に、予め設定されたマスク情報を利用する。但し、本実施形態では、第２の実施形態で説明したマスク種別の情報に加え、色の情報についてもマスク情報として設定し、該設定したマスク情報を利用することで、より高速な撮影画像の選択を可能とする。尚、本実施形態におけるソフトウェア構成、及び、色付け用画像の選択処理のフローについては、第２の実施形態と同様である（図８、図１０参照）。

　本実施形態で使用するマスク情報について、図１４を用いて説明する。図１４（ａ）に示す撮影画像１４０１には、遮蔽オブジェクト（ゴール枠）１４０２と遮蔽オブジェクト（ゴールネット）１４０３とで一部が遮蔽された、オブジェクト（選手）１４０４が写っている。本実施形態では、撮影画像１４０１に対するマスク情報として、図１４（ｂ）に示すマスク情報１４０５を導入する。図１４（ｂ）に示すように、本実施形態も第２の実施形態と同様、ゴール枠のような完全に遮蔽するオブジェクトによるマスク領域１４０６に加え、ゴールネットのような一部領域のみ遮蔽するオブジェクトによるマスク領域１４０７を定義する。また、マスク領域の夫々に対し、色の情報を設定する。図１４の例では、ユーザーは、マスク領域１４０６の色情報（具体的にはＲＧＢ値）として(２５５，２５５，２５５)を設定し、マスク領域１４０７の色情報として (２２４，２２４，２２４)を指定している。これらの色情報は、マスク領域に位置する物体（ゴール枠およびゴールネット）の色に応じた値である。マスク情報の具体的な内容は、ユーザーによって指定されてもよいし、自動で設定されてもよい。マスク情報設定部８０２は、ユーザーインタフェース８０３を介してユーザーによって指定された内容に基づき、マスク情報を設定する処理を行う。

　図１５は、本実施形態における色付け用画像選択処理（図１０）で作成されるリストの一例を示す図である。リスト１５０１は、可視か否か示す情報、種別と色とに関する情報を含むマスク情報、及び画素値を、カメラ毎に保持するリストである。ここでは、カメラとオブジェクトとの位置関係が、第２の実施形態と同様のケースを例に挙げて説明する（図１１参照）。

　可視判定結果とマスク情報とに基づき、カメラ１１０５～１１０７が色付けに使う候補のカメラであることを導出できる。すなわち、オブジェクト１１０３により構成点１１１０が遮蔽されるカメラ１１０９、及び、マスク情報が“１”のゴール枠と構成点１１１０とが重なるカメラ１１０８が、色づけの選択候補から除外される。次いで、マスクの色情報と、撮影画像内の該当領域の画素値とを比較することで、構造点とカメラとを結んだ直線状に存在する何らかのオブジェクトによってカメラが遮蔽されているか、判定できる。図１５の例では、カメラ１１０７のマスク領域の色値と撮影画像の画素値とが近いため、カメラ１１０７はオブジェクト（具体的にはゴールネット）によって遮蔽されたカメラであることが分かり、色付けの選択候補から除外される。このように、マスク領域の色値と撮影画像の画素値とを比較することで、カメラが遮蔽されているか判定することが可能である。尚、判定手法は、画素値とマスク領域の色値との差が一定の閾値以内であれば遮蔽されているとみなす手法等が考えられるが、これに限らない。このようにマスクの色情報（ＲＧＢ値）と画素値とを比較することで、複数のカメラ間の画素値を比較して例外値判定をする必要がなくなり、該当カメラが遮蔽されているか否かを直ちに判定することが可能となる。よって、例えば、仮想カメラの位置に近いカメラから順番に判定していく手法を採用する場合に、判定対象のカメラが遮蔽物によって遮蔽されていないと判断できれば、その段階で色付けに使われるカメラの探索を終了することが可能となる。尚、本実施形態ではマスク情報が“１”のゴール枠と構成点１１１０とが重なるカメラ１１０８を初めに除外したが、これに限らず、カメラ１１０８についても撮影画像の画素値とマスク情報の色値（２５５，２５５，２５５）を比較して除外判定を行ってもよい。また、マスクの色情報の形式は上記に限定されず、例えば輝度情報であってもよいし、一つのマスク種別が複数の色情報に対応していてもよい。

＜本実施形態の効果について＞
　本実施形態によれば、第２の実施形態より短時間で、複数の撮影画像の中から色付け用画像を選択することが可能である。

［その他の実施形態］
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　実施形態を参照して本発明を説明して来たが、本発明が上述した実施形態に限定されないことは言うまでもない。下記のクレームは最も広く解釈されて、そうした変形例及び同等の構造・機能全てを包含するものとする。

　本願は、２０１８年７月１３日提出の日本国特許出願特願２０１８‐１３３４７１を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　目標オブジェクトを複数のカメラにより複数の方向から撮影することで得られる画像に基づき、該目標オブジェクトを含む仮想視点画像を生成する装置であって、
　前記複数のカメラによる撮影に基づく複数の画像の中から、前記目標オブジェクトにおける特定位置が他のオブジェクトにより遮蔽されていない画像を、当該画像の画素値に基づいて選択する選択手段と、
　前記選択手段により選択された画像に基づき、前記仮想視点画像における前記特定位置に対応する画素の値を決定する決定手段と、
　前記決定手段により決定された画素の値に基づき、前記仮想視点画像を生成する生成手段と
を有することを特徴とする装置。
　前記複数のカメラの夫々について、設置位置から前記特定位置が可視か判定することで、可視か否かを示す可視判定情報を導出する導出手段を更に有することを特徴とする請求項１に記載の装置。
　前記選択手段は、前記可視判定情報に基づき、前記画像を選択することを特徴とする請求項２に記載の装置。
　前記特定位置に対応する画素値が例外値となる画像を、前記選択手段による選択候補から除外する除外手段を更に有することを特徴とする請求項１乃至３の何れか１項に記載の装置。
　前記複数のカメラによる撮影に基づく複数の画像に基づき、前記特定位置に対応する複数の画素値の平均値を算出する算出手段と、
　前記複数のカメラによる撮影に基づく画像の夫々について、前記特定位置に対応する画素値と前記算出した平均値との間の差が所定の閾値以上が判定することで、該画素値が前記例外値か判定する判定手段と
を更に有することを特徴とする請求項４に記載の装置。
　前記撮影に基づく画像におけるオクルージョン領域を指定するマスク情報を設定する設定手段を更に有し、
　前記選択手段は、前記マスク情報を用いて前記画像を選択することを特徴とする請求項５に記載の装置。
　前記マスク情報は、マスクが有るか無いか、及び、マスクが有る場合のマスク種別を示す情報を含むことを特徴とする請求項６に記載の装置。
　前記マスク情報は、前記マスクの領域に対応する色に関する情報を更に含むことを特徴とする請求項７に記載の装置。
　前記複数のカメラによる撮影に基づく画像の夫々について、前記特定位置に対応する画素値と前記マスクの領域に対応する色の値とを比較した結果に基づいて、前記選択手段は、前記画像を選択することを特徴とする請求項８に記載の装置。
　前記複数のカメラの夫々に対する前記マスク情報が保持されたリストを作成する作成手段を更に有し、
　前記選択手段は、前記リストを用いて前記画像を選択することを特徴とする請求項６乃至９の何れか１項に記載の装置。
　前記作成手段は、前記複数のカメラによる撮影に基づく画像の夫々について、前記特定位置に対応する画素が、前記オクルージョン領域であることを示すマスク領域に属するか判定することで、前記リストを作成することを特徴とする請求項１０に記載の装置。
　目標オブジェクトを複数のカメラにより複数の方向から撮影することで得られる画像に基づき、該目標オブジェクトを含む仮想視点画像を生成する装置の制御方法であって、
　前記複数のカメラによる撮影に基づく複数の画像の中から、前記目標オブジェクトにおける特定位置が他のオブジェクトにより遮蔽されていない画像を、当該画像の画素値に基づいて選択する選択ステップと、
　前記選択ステップにより選択された画像に基づき、前記仮想視点画像における前記特定位置に対応する画素の値を決定する決定ステップと、
　前記決定ステップにより決定された画素の値に基づき、前記仮想視点画像を生成する生成ステップと
を有することを特徴とする制御方法。
　コンピュータに、請求項１２に記載の方法を実行させるための、プログラム。