WO2020250726A1

WO2020250726A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2020250726A1
Application number: PCT/JP2020/021543
Authority: WO
Inventors: 小川　浩司
Original assignee: ソニー株式会社
Priority date: 2019-06-14
Filing date: 2020-06-01
Publication date: 2020-12-17
Also published as: US20220245887A1; US11816785B2

Abstract

本技術は、自由視点画像の複数の視点の画像を簡単に生成することができるようにする画像処理装置および画像処理方法に関する。本技術の一側面の画像処理装置は、所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する。本技術は、例えば、３Ｄオブジェクトのデータから仮想視点画像を生成する画像処理装置などに適用することができる。

Description

画像処理装置および画像処理方法

　本技術は、画像処理装置および画像処理方法に関し、特に、自由視点画像の複数の視点の画像を簡単に生成することができるようにした画像処理装置および画像処理方法に関する。

　近年、自由視点画像が注目されている。自由視点画像は、視点をユーザが自由に変更することができる動画像であり、様々な動画像コンテンツへの応用が期待されている。

　自由視点画像の視聴時における操作性を向上させるための各種の技術が提案されている。例えば、特許文献１には、自由視点画像の視聴操作に習熟していないユーザが、視聴操作に習熟したユーザの視点を簡単に選択できるようにすることで、自由視点画像の視聴操作に習熟していないユーザの視点変更操作を容易にする技術が提案されている。

特開２０１８-１８２４２８号公報

　ところで、自由視点画像を視聴する前に、その自由視点画像がどのような動画像であるかを把握したり、自由視点画像を他人に紹介するために、自由視点画像の特定のシーンを保存しておく場合がある。

　しかしながら、自由視点画像は、視点を自由に変えることができ、また、撮影時も、例えば、複数の演者が全員同一方向を向くのではなく、異なる方向を向くなど、自由視点を生かした演出がなされる場合があり、１つの視点からの画像だけでは、自由視点画像を十分に把握できないことも多い。

　自由視点画像の複数の視点の画像を保存する際、１つ１つ手動で視点を変えて画像を生成する方法では、操作が煩わしい。

　本技術はこのような状況に鑑みてなされたものであり、自由視点画像の複数の視点の画像を簡単に生成することができるようにするものである。

　本技術の一側面の画像処理装置は、所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部とを備える。

　本技術の一側面の画像処理方法は、画像処理装置が、所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する。

　本技術の一側面においては、所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群が、ユーザ操作に対応して決定され、前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像が、複数の前記仮想視点それぞれについて生成される。

　なお、本技術の一側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。

　画像処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本技術の一実施の形態に係る画像処理システムの構成例を示す図である。コンテンツサーバに保存されている自由視点画像データの生成を説明する図である。３Ｄオブジェクトの例を示す図である。再生装置で再生された３Ｄオブジェクトの表示例を示す図である。キャプチャモードでユーザが行うキャプチャ操作の例を示す図である。スワイプ操作に対応付けられた仮想カメラパスの例を示す図である。仮想視点画像の例を示す図である。スワイプ操作の方向と対応する仮想カメラパスの例を示す図である。スワイプ操作に応じて生成される仮想視点画像の例を示す図である。斜め方向のスワイプ操作の例を示す図である。斜め方向のスワイプ操作に対応する仮想カメラパスの例を示す図である。再生装置の構成例を示すブロック図である。インデックス画像の例を示す図である。再生装置の仮想視点画像生成処理について説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．画像処理システムの概要
２．再生装置の構成例
３．再生装置の動作
４．変形例
５．コンピュータの構成例

＜１．画像処理システムの概要＞
　初めに、本技術を適用した画像処理システムの概要について説明する。

　図１は、本技術の一実施の形態に係る画像処理システムの構成例を示す図である。

　図１の画像処理システムは、動画像を再生する再生装置１と、コンテンツサーバ２とによって構成される。再生装置１とコンテンツサーバ２とは、例えば、インターネット、Ethernet（登録商標）を含む各種のLAN（Local Area Network）、WAN（Wide Area Network）などの所定のネットワークを介して接続されている。

　再生装置１は、自由視点画像データをコンテンツサーバ２から取得して再生し、自由視点画像データとして記録されたオブジェクトの３Ｄモデルである３Ｄオブジェクトを所定のディスプレイに表示する。再生装置１が、例えば、スマートフォンなどのようにディスプレイを備える装置である場合には、自身のディスプレイに３Ｄオブジェクトを表示する。再生装置１は、外部のディスプレイに３Ｄオブジェクトを表示することもできる。ユーザは、再生装置１を操作することにより、ディスプレイに表示された３Ｄオブジェクトを任意の視点から見ることができる。

　コンテンツサーバ２は、例えば、ネットワーク上に設置されたサーバ装置である。コンテンツサーバ２には、コンテンツとしての自由視点画像データが保存されている。自由視点画像データは、視点を自由に選択することができる３Ｄオブジェクトの動画像のデータである。コンテンツサーバ２には、自由視点画像データを撮影したときのカメラの位置情報などを含む撮影メタデータが、自由視点画像データとともに保存されている場合がある。この撮影メタデータには、後述する仮想カメラパスについての情報が含まれている場合がある。撮影メタデータは、コンテンツサーバ２に必ずしも保存されている必要はなく、省略されてもよい。

　再生装置１は、上述したようにスマートフォンで構成することができるほか、タブレット端末、PC(Personal Computer)、テレビジョン受信機などのデバイス（画像処理装置）でもよい。

　図２は、コンテンツサーバ２に保存されている自由視点画像データの生成を説明する図である。

　自由視点画像データは、図２の左側に示されるように、被写体となるオブジェクトを複数の撮影装置で撮影して得られた撮影画像に基づいて生成される。撮影画像は、例えば、動画像で構成される。

　図２の例においては、被写体＃Ob1を取り囲むように撮影装置CAM1乃至CAM3が配置されており、３台の撮影装置CAMを用いて、所定の動作を行っている人物を被写体＃Ob1として撮影が行われている。撮影装置CAMの台数は、３台に限らず、任意である。また、被写体の数も任意である。

　異なる方向に配置された複数の撮影装置CAMから得られた撮影画像を用いて、３Ｄモデリングが行われ、図２の中央に示されるように、表示対象となる被写体＃Ob1の３ＤオブジェクトMO1が生成される。３ＤオブジェクトMO1は、例えば、異なる方向の撮影画像を用いて被写体の３次元形状の削り出しを行うVisual Hullなどの手法を用いて、生成することができる。

　以上のようにして生成された３Ｄオブジェクトのデータである自由視点画像データが、再生側の装置である再生装置１により読み出され、再生される。再生装置１は、自由視点画像データに基づいて、３Ｄオブジェクトを所定の視点から見た画像（動画像）を生成（レンダリング）し、視聴デバイスに表示させる。

　具体的には、再生装置１は、ユーザの視聴範囲が撮影範囲に一致するような仮想カメラを想定し、撮影空間に存在する多数の３Ｄオブジェクトのうち、仮想カメラで捉えられる３Ｄオブジェクトの自由視点画像データを要求して、レンダリングを行い、視聴デバイスに表示させる。実世界において視聴者が任意の視点から被写体を見ることができるのと同じように仮想カメラの視点（仮想視点）を任意の位置に設定することができ、３Ｄオブジェクトを任意の視点から見た画像を表示することができる。

　自由視点画像データに複数の３Ｄオブジェクトのデータが含まれている場合、再生側においては、視聴対象とする３Ｄオブジェクトだけを表示させることも可能である。また、３Ｄオブジェクトの背景には、適宜、所定の空間を表す動画像を合成することもできる。

　図２においては、視聴デバイスとして、ディスプレイＤ１とヘッドマウントディスプレイ（HMD）Ｄ２が示されているが、上述したように、スマートフォンなどを視聴デバイスとして用いることも可能である。再生された３Ｄオブジェクトが表示されるディスプレイは、再生装置１と一体の装置であってもよいし、別筐体の装置であってもよい。

　再生装置１は、コンテンツサーバ２に保存されている自由視点画像データを読み出して再生し、自由視点画像データが表す３Ｄオブジェクトを所定の仮想視点から見た画像をディスプレイ上に表示させることができる他、３Ｄオブジェクトを、様々な複数の仮想視点から見た画像（仮想視点画像）を、簡単に生成する機能を有している。

　そこで、図３乃至図９を参照して、再生装置１が有する、複数の仮想視点画像を簡単に生成する機能について説明する。

　図３は、コンテンツサーバ２に保存されている自由視点画像データによって表示される３Ｄオブジェクトの例を示す図である。

　コンテンツサーバ２に保存されている自由視点画像データは、図３に示されるような立方体の３ＤオブジェクトOb11のデータである。以下においては、説明の便宜上、自由視点画像データを再生することによって再生装置１において表示される３Ｄオブジェクトが、図３に示されるような立方体の３ＤオブジェクトOb11であるものとする。

　立方体の３ＤオブジェクトOb11は、図３に示されるように、面Ａ乃至面Ｅにより構成される。展開図に示されるように、３ＤオブジェクトOb11は、面Ａと面Ｅ、面Ｂと面Ｄ、面Ｃと面Ｆがそれぞれ対向する立方体である。

　３ＤオブジェクトOb11は、図３の右上に示されるようなｘ軸、ｙ軸、およびｚ軸からなる３次元のワールド座標系で表される仮想的な３次元空間上のオブジェクトである。例えば、３ＤオブジェクトOb11は、その中心がワールド座標系の原点となるように仮想的な３次元空間上に設定される。

　コンテンツサーバ２に保存されている、立方体の３ＤオブジェクトOb11の自由視点画像データが、再生装置１によって読み出され、再生されると、再生装置１では、図４に示されるような、３ＤオブジェクトOb11の画像が表示される。

　図４は、再生装置１で再生された３Ｄオブジェクトの表示例を示している。

　再生装置１のディスプレイ１０には、図４に示されるように、Ｘ軸およびＹ軸からなる２次元のスクリーン座標系上に、３ＤオブジェクトOb11を所定の仮想視点から見た画像（動画像）が表示される。再生開始時点においてディスプレイ１０に表示する際の仮想視点は、初期値として予め設定されている。

　図４の例においては、３ＤオブジェクトOb11の面Ａ、面Ｂ、および面Ｃの３つの面が表示される仮想視点からの、３ＤオブジェクトOb11の画像が表示されている。

　再生装置１が所定の３Ｄオブジェクトの自由視点画像データを再生した直後は、再生装置１の動作モードは再生モードとなっている。再生モードでは、ユーザは、ディスプレイ１０に表示される３ＤオブジェクトOb11の動画像を視聴しながら、タッチパネルが積層されているディスプレイ１０の表面を指で触れるなどして、３ＤオブジェクトOb11に対する仮想視点を変更する。ユーザによる仮想視点の変更操作に応じて、ディスプレイ１０に表示される３ＤオブジェクトOb11の画像が、ユーザに指定された仮想視点からの画像に変更される。

　ユーザは、必要に応じて３ＤオブジェクトOb11の仮想視点を変更し、３ＤオブジェクトOb11の仮想視点画像を生成する際の、最適な仮想視点を決定する。そして、最適な仮想視点を決定すると、ユーザは、再生装置１の動作モードを、再生モードから、キャプチャモードに変更する。キャプチャモードは、ユーザのキャプチャ操作を検出し、キャプチャ操作に応じて、３ＤオブジェクトOb11を所定の仮想視点から見た仮想視点画像を生成する動作モードである。

　図５は、キャプチャモードでユーザが行うキャプチャ操作の例を示す図である。

　ユーザは、例えば、図５に示されるようなスワイプ操作を、仮想視点画像を生成することを指示するためのキャプチャ操作として行う。図５の例においては、ディスプレイ１０上の上方から下方に向けてスワイプ操作が行われている。

　再生装置１は、キャプチャ操作としての、ユーザのスワイプ操作を検出すると、検出されたスワイプ操作に対応した仮想カメラパスを生成する。

　図６は、図５のスワイプ操作に対応付けられた仮想カメラパスの例を示す図である。

　例えば、スワイプ操作に対しては、図６に示される円軌道の仮想カメラパスＶＰ１が、あらかじめ対応付けられている。そして、ディスプレイ１０のスクリーン座標系のＹ軸に平行な上方から下方のスワイプ操作が検出されると、ワールド座標系のｚｙ平面上の円軌道ｐが、仮想カメラパスＶＰ１として設定される。

　ワールド座標系のｚｙ平面上の円軌道ｐは、次式（１）で表される。

　式（１）のｒは、円軌道の半径を表し、θは、ワールド座標系のＺ軸と円軌道上の点が成す角度を表す（０≦θ＜３６０）。

　再生装置１は、スワイプ操作に対応した仮想カメラパスＶＰ１の円軌道ｐに対して、初期設定等で予め決定された仮想視点画像の生成枚数Ｎに応じて、θを変化させ、Ｎ点の仮想視点を決定する。

　例えば、仮想視点画像の生成枚数Ｎが４（Ｎ＝４）に設定されていたとすると、３６０度の円軌道ｐを４等分した各位置から仮想視点画像を生成するため、θを変化させる際の刻み値は、９０°（＝３６０／４）となるので、式（１）に代入されるθは、０°，９０°，１８０°，２７０°の４個となる。式（１）の円軌道ｐに、θとして、０°，９０°，１８０°，２７０°を代入して得られる４点の仮想視点の位置は、円軌道ｐがｙ軸またはｚ軸と交差する交点となる。

　また、４点の仮想視点の順番は、スワイプ操作の方向（始点および終点の位置）によって決定される。

　図５の例では、ディスプレイ１０上の上方から下方のスワイプ操作に対応して、図６のように、円軌道ｐ上の位置Ｐ１、位置Ｐ２、位置Ｐ３、および位置Ｐ４が、その順番で仮想視点として設定される。

　以上のようにして決定された、仮想視点の位置Ｐ１、位置Ｐ２、位置Ｐ３、および位置Ｐ４が、ユーザのスワイプ操作に対応した仮想カメラパスとなる。すなわち、仮想カメラパスは、３ＤオブジェクトOb11に対する複数の仮想視点のデータで構成される仮想視点データ群である。

　このように、ユーザのスワイプ操作に対応して、位置Ｐ１、位置Ｐ２、位置Ｐ３、および位置Ｐ４が、その順番で仮想視点として設定され、設定された順番に従って、仮想視点から見た３Ｄオブジェクトの仮想視点画像が生成される。

　図７は、仮想カメラパスＶＰ１の位置Ｐ１、位置Ｐ２、位置Ｐ３、および位置Ｐ４を仮想視点とする仮想視点画像の例を示している。

　図７に示されるように、図６の仮想カメラパスＶＰ１の位置Ｐ１乃至Ｐ４における仮想視点画像である仮想視点画像Ｃ１乃至Ｃ４が生成される。仮想視点画像Ｃ１乃至Ｃ４は、それぞれ、３ＤオブジェクトOb11の面Ｃ、面Ａ、面Ｆ、面Ｅを正面から見た画像である。

　すなわち、ワールド座標系の原点が中心位置となるように設定された３ＤオブジェクトOb11を位置Ｐ１から見た場合、３ＤオブジェクトOb11の面Ｃが正面に見えることになる。この場合、図７の左端に示されるように、３ＤオブジェクトOb11の面Ｃを正面から見た画像が、仮想視点画像Ｃ１として生成される。

　また、３ＤオブジェクトOb11を位置Ｐ２から見た場合、３ＤオブジェクトOb11の面Ａが正面に見えることになる。この場合、図７の仮想視点画像Ｃ１の右側に示されるように、３ＤオブジェクトOb11の面Ａを正面から見た画像が、仮想視点画像Ｃ２として生成される。

　仮想視点画像Ｃ３，Ｃ４についても同様に、それぞれ、位置Ｐ３，Ｐ４からの３ＤオブジェクトOb11を見た画像が仮想視点画像として生成される。

　このように、仮想視点である位置Ｐ１乃至Ｐ４の順番に従って、仮想視点画像Ｃ１、仮想視点画像Ｃ２、仮想視点画像Ｃ３、および仮想視点画像Ｃ４の順番で、仮想視点画像が生成される。

　ユーザが上方から下方に向かってスワイプ操作を行う場合の例を説明したが、スワイプ操作の方向は任意である。各種の方向のスワイプ操作に対応した仮想カメラパスが設定され、設定された仮想カメラパスに基づいて仮想視点画像が生成される。

　図８は、スワイプ操作の方向と対応する仮想カメラパスの例を示す図である。

　例えば、図８のＡの白抜き矢印で示されるように、ユーザがディスプレイ１０のスクリーン座標系上で下方から上方に向かってスワイプ操作を行った場合、再生装置１は、例えば、ワールド座標系において、図６の仮想カメラパスＶＰ１と回転方向が異なる仮想カメラパスを設定する。

　図８のＢの白抜き矢印で示されるように、ユーザがディスプレイ１０のスクリーン座標系上で水平方向のスワイプ操作を行った場合、再生装置１は、ワールド座標系において水平な仮想カメラパスを設定する。

　図８のＣの白抜き矢印で示されるように、ユーザがディスプレイ１０のスクリーン座標系上で斜め方向のスワイプ操作を行った場合、再生装置１は、ワールド座標系において斜め方向に傾いた仮想カメラパスを設定する。

　図９は、図８のスワイプ操作に応じて生成される仮想視点画像の例を示す図である。

　図８のＡに示した下方から上方に向かうスワイプ操作に応じた仮想カメラパスが設定された場合、仮想カメラパス上の４つの仮想視点（例えば図６の位置Ｐ３，Ｐ２，Ｐ１，Ｐ４）からは、３ＤオブジェクトOb11の面Ｆ、面Ａ、面Ｃ、および面Ｅが順に見える。この場合、図９のＡの白抜き矢印の先に示されるように、３Ｄオブジェクトの面Ｆ、面Ａ、面Ｃ、および面Ｅのそれぞれを正面から見た４枚の仮想視点画像が順に生成される。

　図８のＢに示した水平方向のスワイプ操作に応じた仮想カメラパスが設定された場合、仮想カメラパス上の４つの仮想視点からは、３ＤオブジェクトOb11の面Ｄ、面Ａ、面Ｂ、および面Ｅが順に見える。この場合、図９のＢの白抜き矢印の先に示されるように、３Ｄオブジェクトの面Ｄ、面Ａ、面Ｂ、および面Ｅのそれぞれを正面から見た４枚の仮想視点画像が順に生成される。

　図８のＣに示した斜め方向のスワイプ操作に応じた仮想カメラパスが設定された場合も同様にして、仮想カメラパス上の４つの視点から３ＤオブジェクトOb11を見た、図９のＣの白抜き矢印の先に示されるような４枚の仮想視点画像が順に生成される。

　図９のＣの例においては、３ＤオブジェクトOb11の面Ａ乃至面Ｃが見える仮想視点画像、３ＤオブジェクトOb11の面Ａを正面から見た仮想視点画像、３ＤオブジェクトOb11の面Ａ、面Ｄ、および面Ｆが見える仮想視点画像、および３ＤオブジェクトOb11の面Ｅを正面から見た仮想視点画像が生成されている。

　図８のＣのように、ユーザがディスプレイ１０のスクリーン座標系上で斜め方向のスワイプ操作を行った場合、再生装置１は、図１０に示されるように、スワイプ操作の開始位置Ｐ１１から終了位置Ｐ１２に向かうスワイプ操作の方向ベクトルＡ１と、スクリーン座標系上のＹ軸との角度φを算出する。そして、角度φを用いて図６の円軌道の仮想カメラパスＶＰ１を、ワールド座標系のｚｙ平面上から回転させることによって、斜め方向のスワイプ操作に応じた仮想カメラパスが生成される。

　図１１のＡは、斜め方向のスワイプ操作に応じて生成された円軌道の仮想カメラパスＶＰ１を、ワールド座標系のｚ軸方向を奥行き方向とする視点で見た図である。

　図１１のＢは、斜め方向のスワイプ操作に応じて生成された円軌道の仮想カメラパスＶＰ１を、ワールド座標系のｘ軸方向を奥行き方向とする視点で見た図である。

　以上のように、再生装置１によれば、ユーザは３Ｄオブジェクトが表示されたディスプレイ１０上においてスワイプ操作などのワンアクションによる簡単なキャプチャ操作を行うだけで、３Ｄオブジェクトを複数の仮想視点から見た複数の仮想視点画像を生成することができる。

＜２．再生装置の構成例＞
　図１２は、再生装置１の構成例を示すブロック図である。

　再生装置１は、操作部２１、データ取得部２２、再生部２３、仮想カメラパス生成部２４、画像生成部２５、画像合成部２６、記憶部２７、および表示部２８を備える。

　操作部２１は、タッチパネルモニタ、キーボード、マウス、コントローラ、または、遠隔操作機器などにより構成される。操作部２１は、ユーザ操作を検出し、検出されたユーザ操作の内容を表す情報を出力する。操作部２１から出力されたユーザ操作の内容を表す情報は、データ取得部２２、再生部２３、および仮想カメラパス生成部２４に適宜供給される。

　例えば、再生装置１の動作モードとしてキャプチャモードが設定されている場合、操作部２１は、ユーザがディスプレイ上で行ったスワイプ操作を検出し、そのスワイプ操作を表すイベント情報を仮想カメラパス生成部２４に出力する。

　操作部２１が、スワイプ操作を表すイベント情報を仮想カメラパス生成部２４に出力する場合、イベント情報には、イベントとしてスワイプ操作を検出したことと、ディスプレイのスクリーン座標系上におけるスワイプ操作の開始位置と終了位置の座標とが含まれる。

　データ取得部２２は、操作部２１から供給される、再生対象の自由視点画像データの取得指示に基づいて、ユーザによって選択された自由視点画像データをコンテンツサーバ２から取得し、記憶部２７に保存する。データ取得部２２は、取得する自由視点画像データに対応する撮影メタデータもコンテンツサーバ２に保存されている場合には、必要に応じて、自由視点画像データに対応する撮影メタデータも取得する。

　再生部２３は、再生モードにおいて、操作部２１から供給される、自由視点画像データの再生指示に基づいて、コンテンツサーバ２から取得されて記憶部２７に保存された自由視点画像データを読み出し、再生する。

　再生部２３は、コンテンツサーバ２から１つの自由視点画像データの全てが記憶部２７に保存されてから、保存された自由視点画像データを再生してもよいし、自由視点画像データの一部を順次取得しながら再生する、いわゆるストリーミング再生により、自由視点画像データを再生してもよい。

　なお、再生部２３は、記憶部２７に所定の自由視点画像データがあらかじめ保存されている場合には、コンテンツサーバ２から取得された自由視点画像データではなく、記憶部２７にあらかじめ保存されている自由視点画像データを再生することもできる。

　再生部２３は、自由視点画像データを再生して得られた自由視点画像としての３Ｄオブジェクトの仮想視点画像を表示部２８に表示させる。３Ｄオブジェクトの仮想視点画像のデータは、図示せぬ経路を介して再生部２３から表示部２８に対して供給される。

　また、再生部２３は、操作部２１で検出される、３Ｄオブジェクトの動画像の再生、停止、再生速度の変更、仮想視点の変更などのユーザ操作に基づいて、自由視点画像データの再生を制御する。

　仮想カメラパス生成部２４は、操作部２１から供給されたイベント情報に基づいて、仮想カメラパスを生成する。イベント情報は、例えば、キャプチャ操作として行われたスワイプ操作を示す情報と、スワイプ操作の開始位置と終了位置の座標を表す情報とで構成される。仮想カメラパスは、イベント情報にあらかじめ対応付けられており、図６の例に示したように、スワイプ操作に対しては、半径ｒの円軌道が対応付けられている。

　仮想カメラパス生成部２４は、スワイプ操作に対して対応付けられた半径ｒの円軌道を決定し、スワイプ操作の開始位置と終了位置に応じた順番で、予め決定された仮想視点画像の生成枚数Ｎに応じた複数の仮想視点を決定する。決定された複数の仮想視点のデータで構成される仮想視点データ群が、仮想カメラパスとして、画像生成部２５に供給される。

　画像生成部２５は、仮想カメラパス生成部２４から供給された仮想カメラパスに含まれる複数の仮想視点それぞれについて、仮想視点から見た３ＤオブジェクトOb11の画像である仮想視点画像を生成する。画像生成部２５は、仮想カメラパスに含まれる複数の仮想視点のデータの配列の順番で、仮想視点画像を順に生成する。

　画像生成部２５は、生成した複数枚の仮想視点画像を記憶部２７に出力し、保存する。

　画像合成部２６は、記憶部２７に保存された仮想視点画像を取得し、所定の方式で合成する。所定の方式で合成された仮想視点画像をインデックス画像と称する。

　図１３は、インデックス画像の例を示す図である。

　図１３のＡに示されるように、例えば、４枚の仮想視点画像を１枚の静止画像に合成した画像がインデックス画像として生成される。図１３のＡの例においては、図７で説明した仮想視点画像Ｃ１乃至Ｃ４が２×２（縦×横）のタイル状に並べられ、１枚の静止画像に合成されている。

　また、図１３のＢに示されるように、４枚の仮想視点画像を、仮想視点画像の生成順に並べ、動画像を構成するフレームとして合成した画像がインデックス画像として生成される。図１３のＢの例においては、仮想視点画像Ｃ１乃至Ｃ４が、生成された順番に従って時系列に並べられ、動画像として合成されている。インデックス画像としての動画像は、自由視点画像内の同一の再生時刻において、視点が移動するような動画像となる。

　このように、画像合成部２６は、所定の方式で複数の仮想視点画像を合成し、インデックス画像を生成する。仮想視点画像の合成の方式は、ユーザの指示によって決定されるようにしてもよい。なお、仮想視点画像の合成が不要である場合には、仮想視点画像の合成は行われない。

　図１２の説明に戻り、画像合成部２６は、合成したインデックス画像を記憶部２７に保存する。

　インデックス画像とともに、仮想視点画像の生成に用いられた自由視点画像データのファイル名、仮想視点画像の生成が行われた自由視点画像の再生時刻、仮想視点画像の生成に用いられた仮想カメラパスの情報などが、インデックス画像のメタデータとして記憶部２７に保存されるようにしてもよい。インデックス画像は、表示部２８に供給され、表示されるようにしてもよい。

　記憶部２７は、キャプチャモードにおいてユーザによって行われるキャプチャ操作と、そのキャプチャ操作に対して生成する仮想パスとの対応関係を示すテーブルを記憶する。また、記憶部２７は、コンテンツサーバ２から取得された自由視点画像データを保存する。自由視点画像データに対応する撮影メタデータも取得された場合には、撮影メタデータも記憶部２７に保存される。さらに、記憶部２７は、画像生成部２５が生成した仮想視点画像と、画像合成部２６が生成したインデックス画像とを保存する。

　表示部２８は、モニタ、テレビ、ヘッドマウントディスプレイ（HMD）などにより構成される。表示部２８は、再生部２３により再生された３Ｄオブジェクト、画像生成部２５が生成した仮想視点画像、画像合成部２６が生成したインデックス画像、などを表示する。表示部２８は、図４および図５のディスプレイ１０に相当する。

　本実施の形態では、再生装置１は、再生対象の自由視点画像データを、ネットワーク上のコンテンツサーバ２から取得して、３Ｄオブジェクトを表示するが、再生対象の自由視点画像データが記憶部２７に保存されていてもよい。

＜３．再生装置の動作＞
　次に、図１４のフローチャートを参照して、再生装置１が、ユーザのキャプチャ操作に基づき仮想視点画像を生成する仮想視点画像生成処理について説明する。

　この仮想視点画像生成処理は、再生対象の自由視点画像データがユーザによって選択されたとき、開始される。処理開始時の再生装置１の動作モードは、再生モードである。

　初めに、ステップＳ１において、データ取得部２２は、操作部２１から供給される、再生対象の自由視点画像データの取得指示に基づいて、ユーザによって選択された自由視点画像データをコンテンツサーバ２から取得し、記憶部２７に保存する。

　ステップＳ２において、再生部２３は、記憶部２７から自由視点画像データを取得し、再生する。再生された自由視点画像データに基づく３Ｄオブジェクトの動画像は、表示部２８に表示される。再生部２３は、操作部２１で検出された３Ｄオブジェクトの動画像の再生、停止、再生速度の変更、仮想視点の変更などのユーザ操作に基づいて、動画像の再生、停止、などの時系列制御と、仮想視点の変更などの空間制御を行う。

　ステップＳ３において、再生部２３は、操作部２１から供給されるユーザ操作の内容を表す情報に基づいて、動作モードを切り替えるモード切替操作が行われたか否かを判定する。

　ステップＳ３で、モード切替操作が行われていないと判定された場合、処理はステップＳ１に戻り、それ以降の処理が行われる。

　一方、ステップＳ３で、モード切替操作が行われたと判定された場合、処理はステップＳ４に進み、再生部２３は、動作モードを再生モードからキャプチャモードに切り替える。動作モードがキャプチャモードに切り替わると、３Ｄオブジェクトの動画像が、切り替え時点の再生時刻で停止する。

　ステップＳ５において、操作部２１は、ユーザによるキャプチャ操作を受け付け、受け付けたキャプチャ操作に対応するイベント情報を、仮想カメラパス生成部２４に出力する。受け付けたキャプチャ操作がスワイプ操作である場合には、スワイプ操作を検出したことを示す情報と、ディスプレイ１０のスクリーン座標系上におけるスワイプ操作の開始位置と終了位置の座標情報とが、イベント情報として出力される。

　ステップＳ６において、仮想カメラパス生成部２４は、イベント情報で表されるキャプチャ操作に基づいて、仮想カメラパスを生成する。具体的には、仮想カメラパス生成部２４は、キャプチャ操作に対応づけられた仮想カメラパスの軌道を記憶部２７から取得する。そして、仮想カメラパス生成部２４は、キャプチャ操作の方向ベクトルに基づいて、仮想カメラパスの軌道に対して始点と終点を決定し、回転操作を加える。仮想カメラパス生成部２４は、初期設定等で予め決定された仮想視点画像の生成枚数Ｎに応じた角度θの刻み値で、仮想カメラパスの軌道の始点から順に、Ｎ点の仮想視点を決定する。決定されたＮ点の仮想視点の仮想視点データ群が、仮想カメラパスとして、画像生成部２５に供給される。

　ステップＳ７において、画像生成部２５は、仮想カメラパスに基づいて、３Ｄオブジェクトを仮想カメラパスの各仮想視点から見た仮想視点画像を生成し、記憶部２７に出力して、保存する。

　ステップＳ８において、画像合成部２６は、複数の仮想視点画像を記憶部２７から取得し、取得した複数の仮想視点画像を所定の形式で合成することにより、インデックス画像を生成する。

　以上で、仮想視点画像生成処理が終了する。なお、複数の仮想視点画像を１枚の静止画像または動画像に合成したインデックス画像が不要である場合には、ステップＳ８の処理は省略される。インデックス画像の生成の要否は、例えば、設定画面等で設定することができる。

　以上の処理によれば、ユーザは、スワイプ操作などのワンアクションによる簡単な操作によって、再生している自由視点画像データの３Ｄオブジェクトを複数の仮想視点から見た複数の仮想視点画像を生成することができる。さらに、複数の仮想視点画像を１枚の静止画像または動画像に合成したインデックス画像も簡単に生成することができる。

＜４．変形例＞
・撮影メタデータを用いた例
　コンテンツサーバ２に、自由視点画像データに対応する撮影メタデータが保存されている場合、撮影メタデータの一部として、複数の仮想カメラパスの情報を含めることができる。

　撮影メタデータの一部として含まれる複数の仮想カメラパスのそれぞれは、３Ｄオブジェクトの生成に用いられた撮影画像を撮影したときの撮影装置の位置（実カメラ位置）を仮想視点とする複数の仮想視点のデータ（仮想視点データ群）で構成される。

　この場合、仮想カメラパス生成部２４は、ユーザのキャプチャ操作（スワイプ操作）に基づいて、撮影メタデータに含まれる複数の仮想カメラパスのなかから、キャプチャ操作に最も近い仮想カメラパスを選択し、画像生成部２５に供給する。

　撮影メタデータのなかから選択された仮想カメラパスに基づいて仮想視点画像を生成することによって、再生装置１は、３Ｄオブジェクトを撮影したときの撮影画像と同じ（ほぼ同じ）仮想視点画像を生成することが可能となる。このような仮想視点画像は、３Ｄオブジェクトを撮影した撮影位置と他の撮影位置の間にあるワールド座標系上の位置を仮想視点とした仮想視点画像と比べて高品質な画像となる。

・キャプチャ操作として検出されるイベント
　上述した例では、ユーザのキャプチャ操作としてスワイプ操作を検出して、イベント情報とする例について説明したが、ユーザのキャプチャ操作は、スワイプ操作以外の操作でもよい。例えば、タッチパネルに対する、ダブルタップ操作、ピンチイン操作、ピンチアウト操作、またはノック操作などのユーザ操作を、キャプチャ操作として検出し、仮想カメラパスを生成してもよい。

　また例えば、再生装置１を振動させる操作であるシェイク操作を加速度センサ等によりキャプチャ操作として検出し、仮想カメラパスを生成してもよい。

　操作部２１がキーボードやマウスなどを含む場合、例えば、マウスによるドラッグ操作、マウスによるダブルクリック操作、アプリケーションに設置された特定ボタンの押下、または所定のキーボード操作などのユーザ操作を、キャプチャ操作として検出し、仮想カメラパスを生成してもよい。

　操作部２１としてマイクを備え、ユーザの発声による音声入力が可能である場合、例えば、仮想カメラパスの種別に応じた「パス１」、「パス２」等の音声を入力することで、仮想カメラパスを生成させるようにしてもよい。

　以上のようなキャプチャ操作として検出されるイベントのイベント情報は、１つの仮想カメラパスに対応付けられるようにしてもよいし、イベント情報に応じて異なる仮想カメラパスに対応付けられるようにしてもよい。イベント情報と仮想カメラパスとを１対１に対応付けて、検出されたイベント情報に対応付けられた仮想カメラパスを選択することができる。

・仮想カメラパスの軌道
　上述した例では、キャプチャ操作に対して、円軌道の仮想カメラパスを対応付けて生成するようにしたが、仮想カメラパスの軌道は、円軌道に限られない。例えば、仮想カメラパスの軌道は、螺旋軌道、楕円軌道、三角形の軌道、多角形の軌道などでもよい。また、キャプチャ操作として検出されるイベントによって、仮想カメラパスの軌道が異なるように対応付けられていてもよい。

・スワイプ操作の速度による仮想視点画像の生成枚数Ｎの制御
　上述した例では、仮想カメラパスの円軌道上に設定される仮想視点の数が、初期設定等で予め決定されることとしたが、ユーザが行うスワイプ操作の速度によって、仮想視点の数が制御できるようにしてもよい。

　例えば、スワイプ操作の速度が所定の速度よりも遅い場合、仮想視点を決定する角度θの刻み値が小さく設定される。この場合、１つの仮想カメラパスに含まれる仮想視点の数が増加するため、この仮想カメラパスに基づいて生成された仮想視点画像の枚数が多くなる。これにより、滑らかな動きの仮想視点画像となる。

　一方、スワイプ操作の速度が所定の速度よりも速い場合、仮想視点を決定する角度θの刻み値が大きく設定される。この場合、１つの仮想カメラパスに含まれる仮想視点の数が減少するため、この仮想カメラパスに基づいて生成された仮想視点の枚数が少なくなる。これにより、粗い動きの仮想視点画像となる。

・スワイプ操作の押圧による半径ｒの制御
　例えば、スワイプ操作におけるユーザの指の圧力が検出され、ユーザの指の圧力の強さに応じて、円軌道の半径ｒを制御してもよい。例えば、ユーザの指の圧力が所定の圧力よりも弱い場合、半径ｒは所定の値よりも大きく設定される。つまり、ワールド座標系の原点から離れた仮想視点の仮想視点画像が生成される。一方、ユーザの指の圧力が所定の圧力よりも強い場合、半径ｒは所定の値よりも小さく設定される。つまり、ワールド座標系の原点から離れた仮想視点の仮想視点画像が生成される。

　上述した例では、再生装置１は、ユーザが動作モードをキャプチャモードに変更し、再生を停止した時点（時刻）における３Ｄモデルの仮想視点画像を生成した。したがって、生成される複数の仮想視点画像は、同一の再生時刻の画像である。しかしながら、画像生成部２５は、再生を停止した時点（時刻）の仮想視点画像に加えて、その時点の前後のフレームの仮想視点画像も生成してもよい。

＜５．コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　CPU(Central Processing Unit)３０１、ROM(Read Only Memory)３０２、RAM(Random Access Memory)３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、およびドライブ３１０が接続されている。

　入力部３０６は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部３０７は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部３０８は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体３１１を駆動する。

　以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを入出力インタフェース３０５およびバス３０４を介してRAM３０３にロードして実行することにより、上述した一連の処理が行われる。RAM３０３にはまた、CPU３０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　本技術は、以下のような構成をとることもできる。
（１）
　所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、
　前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部と
　を備える画像処理装置。
（２）
　前記決定部は、ディスプレイに表示された前記３Ｄオブジェクトに対する２次元座標系上の前記ユーザ操作に対応して、３次元座標系上の前記３Ｄオブジェクトの前記仮想視点データ群を決定する
　前記（１）に記載の画像処理装置。
（３）
　前記決定部は、前記ユーザ操作に対応する前記２次元座標系上の方向ベクトルを算出し、算出した前記方向ベクトルに基づいて、前記仮想視点データ群を決定する
　前記（２）に記載の画像処理装置。
（４）
　前記決定部は、算出した前記方向ベクトルに応じて、前記仮想視点データ群の前記複数の仮想視点のデータの配列を決定する
　前記（３）に記載の画像処理装置。
（５）
　前記ユーザ操作は、前記ディスプレイに対するスワイプ操作またはドラッグ操作である
　前記（３）または（４）に記載の画像処理装置。
（６）
　前記ユーザ操作と前記仮想視点データ群とが、１対１に対応付けられており、
　前記決定部は、前記ユーザ操作に対応付けられた前記仮想視点データ群を決定する
　前記（１）乃至（５）のいずれかに記載の画像処理装置。
（７）
　複数の前記仮想視点それぞれについて生成された、複数の前記仮想視点画像を合成する合成部をさらに備える
　前記（１）に記載の画像処理装置。
（８）
　前記合成部は、複数の前記仮想視点画像を１つの静止画像に合成する
　前記（７）に記載の画像処理装置。
（９）
　前記合成部は、複数の前記仮想視点画像を１つの動画像に合成する
　前記（７）に記載の画像処理装置。
（１０）
　前記３Ｄオブジェクトのデータと、前記３Ｄオブジェクトを撮影したときの撮影メタデータを取得する取得部をさらに備え、
　前記決定部は、前記ユーザ操作に対応して、前記撮影メタデータに含まれる複数の前記仮想視点データ群のなかから、所定の前記仮想視点データ群を決定する
　前記（１）乃至（９）のいずれかに記載の画像処理装置。
（１１）
　画像処理装置が、
　所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、
　前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する
　画像処理方法。

　１　再生装置，　２２　データ取得部，　２４　仮想カメラパス生成部，　２５　画像生成部，　２６　画像合成部

Claims

　所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定する決定部と、
　前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する生成部と
　を備える画像処理装置。
　前記決定部は、ディスプレイに表示された前記３Ｄオブジェクトに対する２次元座標系上の前記ユーザ操作に対応して、３次元座標系上の前記３Ｄオブジェクトの前記仮想視点データ群を決定する
　請求項１に記載の画像処理装置。
　前記決定部は、前記ユーザ操作に対応する前記２次元座標系上の方向ベクトルを算出し、算出した前記方向ベクトルに基づいて、前記仮想視点データ群を決定する
　請求項２に記載の画像処理装置。
　前記決定部は、算出した前記方向ベクトルに応じて、前記仮想視点データ群の複数の前記仮想視点のデータの配列を決定する
　請求項３に記載の画像処理装置。
　前記ユーザ操作は、前記ディスプレイに対するスワイプ操作またはドラッグ操作である
　請求項３に記載の画像処理装置。
　前記ユーザ操作と前記仮想視点データ群とが、１対１に対応付けられており、
　前記決定部は、前記ユーザ操作に対応付けられた前記仮想視点データ群を決定する
　請求項１に記載の画像処理装置。
　複数の前記仮想視点それぞれについて生成された、複数の前記仮想視点画像を合成する合成部をさらに備える
　請求項１に記載の画像処理装置。
　前記合成部は、複数の前記仮想視点画像を１つの静止画像に合成する
　請求項７に記載の画像処理装置。
　前記合成部は、複数の前記仮想視点画像を１つの動画像に合成する
　請求項７に記載の画像処理装置。
　前記３Ｄオブジェクトのデータと、前記３Ｄオブジェクトを撮影したときの撮影メタデータを取得する取得部をさらに備え、
　前記決定部は、前記ユーザ操作に対応して、前記撮影メタデータに含まれる複数の前記仮想視点データ群の中から、所定の前記仮想視点データ群を決定する
　請求項１に記載の画像処理装置。
　画像処理装置が、
　所定の３Ｄオブジェクトに対する複数の仮想視点のデータで構成される仮想視点データ群を、ユーザ操作に対応して決定し、
　前記仮想視点から見た前記３Ｄオブジェクトの画像である仮想視点画像を、複数の前記仮想視点それぞれについて生成する
　画像処理方法。