WO2021070650A1

WO2021070650A1 - 画像処理装置、画像処理方法、及び、プログラム

Info

Publication number: WO2021070650A1
Application number: PCT/JP2020/036519
Authority: WO
Inventors: 浅井　聡; 陽野々山
Original assignee: ソニー株式会社
Priority date: 2019-10-10
Filing date: 2020-09-28
Publication date: 2021-04-15
Also published as: US11954777B2; US20220343575A1; CN114502246A

Abstract

本技術は、３Ｄモデルを用いて生成する動画の表現の幅を広げることができるようにする画像処理装置、画像処理方法、及び、プログラムに関する。画像処理装置は、仮想カメラの設定を行う仮想カメラ設定部と、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成する仮想視点画像生成部と、複数の前記仮想視点画像に基づく合成画像を生成する合成部と、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する動画生成部とを備え、前記仮想カメラ設定部は、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する。本技術は、例えば、動画の編集を行う装置に適用できる。

Description

画像処理装置、画像処理方法、及び、プログラム

　本技術は、画像処理装置、画像処理方法、及び、プログラムに関し、特に、３Ｄモデルを用いて動画を生成する場合に用いて好適な画像処理装置、画像処理方法、及び、プログラムに関する。

　近年、オブジェクト（被写体）の周囲を囲むように配置した複数のカメラにより撮影した画像に基づいて、オブジェクトの３Ｄモデルを生成し、生成した３Ｄモデルを用いて、任意の視点からオブジェクトを見た画像を再現する技術の普及が進んでいる（例えば、特許文献１参照）。

国際公開第２０１８／１５０９３３号

　上述した技術を用いれば、任意の視点に基づくオブジェクトの画像を再現できるため、動画の表現の幅が広がると想定される。

　本技術は、このような状況に鑑みてなされたものであり、３Ｄモデルを用いて生成する動画の表現の幅を広げることができるようにするものである。

　本技術の一側面の画像処理装置は、仮想カメラの設定を行う仮想カメラ設定部と、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成する仮想視点画像生成部と、複数の前記仮想視点画像に基づく合成画像を生成する合成部と、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する動画生成部とを備え、前記仮想カメラ設定部は、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する。

　本技術の一側面の画像処理方法は、仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置が、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する。

　本技術の一側面のプログラムは、仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置のコンピュータに、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する処理を実行させる。

　本技術の一側面においては、複数の仮想カメラが配置された後、複数の前記仮想カメラの少なくとも１つが動かされ、複数の前記仮想カメラが統合される。

本技術を適用した画像処理装置の構成例を示すブロック図である。動画生成処理を説明するためのフローチャートである。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第１の具体例を説明するための図である。動画の生成方法の第２の具体例を説明するための図である。動画の生成方法の第３の具体例を説明するための図である。コンピュータの構成例を示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．その他

　＜＜１．実施の形態＞＞
　図１乃至図１０を参照して、本技術の実施の形態について説明する。

　　＜画像処理装置の構成例＞
　図１は、本技術を適用した画像処理装置１１の一実施の形態を示すブロック図である。

　画像処理装置１１は、３Ｄモデルを用いて動画を生成する装置である。

　なお、３Ｄモデルの種類や生成方法は、特に制限されない。例えば、３Ｄモデルは、現実のオブジェクト（被写体）の周囲を取り囲むように複数の方向から撮影した画像に基づいて生成されたものであってもよいし、コンピュータグラフィック等を用いて人工的に生成されたものであってもよい。また、前者の場合、３Ｄモデルは、例えば、ポリゴンにテクスチャ情報を重畳したモデルであってもよいし、ポイントクラウドにテクスチャ情報を重畳したモデルであってもよい。

　また、３Ｄモデル内のオブジェクト（以下、３Ｄオブジェクトと称する）の数は、特に制限されない。すなわち、３Ｄモデル内に１つの３Ｄオブジェクト（例えば、１人の人）のみが存在してもよいし、複数の３Ｄオブジェクト（例えば、複数の人）が存在してもよい。

　画像処理装置１１は、入力部２１、画像処理部２２、記憶部２３、及び、表示部２４を備える。

　入力部２１は、例えば、各種の入力デバイスを備え、画像処理装置１１の処理に必要なデータ（例えば、３Ｄモデルのデータ）や指示（例えば、仮想カメラの設定指示）等の入力に用いられる。入力部２１は、入力されたデータや指示等を画像処理部２２に供給したり、記憶部２３に記憶させたりする。

　仮想カメラ設定部３１は、入力部２１を介してユーザにより入力される設定指示等に基づいて、仮想視点画像の生成に用いる仮想カメラの設定を行う。例えば、仮想カメラ設定部３１は、３Ｄモデルが存在する３Ｄ空間内における仮想カメラの位置、向き、焦点距離（画角）等の設定を行う。仮想カメラ設定部３１は、仮想カメラの設定情報を仮想視点画像生成部３２に供給する。

　仮想視点画像生成部３２は、入力部２１を介して入力される、又は、記憶部２３に記憶されている３Ｄモデルのデータ、及び、仮想カメラ設定部３１により設定された仮想カメラに基づいて、仮想視点画像を生成する。

　仮想視点画像は、例えば、仮想カメラからの視点（以下、仮想視点と称する）から３Ｄモデル内の３Ｄオブジェクトを見た場合の仮想の画像である。より具体的には、仮想視点画像は、仮想カメラの位置及び向きから、設定された焦点距離で３Ｄモデル内の３Ｄオブジェクトを撮影した場合に得られると仮定される仮想の画像である。

　仮想視点画像生成部３２は、生成した仮想視点画像を、必要に応じて、合成部３３及び動画生成部３４に供給したり、記憶部２３に記憶させたりする。

　合成部３３は、複数の異なる仮想カメラに基づいて生成された仮想視点画像に基づいて合成画像を生成する。合成部３３は、必要に応じて、生成した合成画像を動画生成部３４に供給したり、記憶部２３に記憶させたりする。

　動画生成部３４は、仮想視点画像又は合成画像に基づくフレームを生成し、生成したフレームを含む動画を生成する。動画生成部３４は、必要に応じて、生成した動画を記憶部２３に記憶させたり、表示部２４に供給したりする。

　表示部２４は、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬディスプレイ等からなるディスプレイを備える。表示部２４は、動画生成部３４から供給される動画、並びに、記憶部２３に記憶されている動画、仮想視点画像、及び、合成画像等の表示を行う。

　　＜動画生成処理＞
　次に、図２のフローチャートを参照して、画像処理装置１１により実行される動画生成処理について説明する。

　この処理は、例えば、ユーザが、入力部２１を介して、動画の生成の指示を入力したとき開始される。

　ステップＳ１において、仮想カメラ設定部３１は、仮想カメラの設定を行う。例えば、仮想カメラ設定部３１は、入力部２１を介して、ユーザにより入力される設定指示に基づいて、３Ｄ空間内における仮想カメラの位置、向き、焦点距離等を設定する。或いは、例えば、仮想カメラ設定部３１は、事前に設定されたアルゴリズムやルール等に従って、３Ｄ空間内における仮想カメラの位置、向き、焦点距離等を設定する。

　このとき、例えば、１つの３Ｄオブジェクトに対して、複数の仮想カメラが配置されてもよい。また、例えば、複数の３Ｄオブジェクトが処理対象である場合、各３Ｄオブジェクトに対して個別に仮想カメラが配置されてもよいし、複数の３Ｄオブジェクトに対して共通の仮想カメラが配置されてもよい。

　仮想カメラ設定部３１は、仮想カメラの設定情報を生成し、仮想視点画像生成部３２に供給する。仮想カメラの設定情報は、例えば、各仮想カメラの３Ｄ空間内の位置、向き、焦点距離等のパラメータ、及び、各仮想カメラの対象となる３Ｄオブジェクトに関する情報を含む。

　ステップＳ２において、仮想視点画像生成部３２は、設定された仮想カメラに基づいて、仮想視点画像を生成する。

　具体的には、仮想視点画像生成部３２は、仮想視点画像を生成する対象となる３Ｄオブジェクトを含む３Ｄモデルのデータを取得する。３Ｄモデルのデータは、例えば、入力部２１を介して外部から入力されてもよいし、予め記憶部２３に記憶されていてもよい。

　そして、仮想視点画像生成部３２は、仮想カメラと３Ｄオブジェクトの組合せ毎に、仮想視点画像を生成する。すなわち、仮想視点画像生成部３２は、仮想カメラ毎に、各仮想カメラの視点（仮想視点）から対象となる３Ｄオブジェクトを見た場合の仮想視点画像を生成する。

　ステップＳ３において、仮想視点画像生成部３２は、複数の仮想視点画像を生成したか否かを判定する。複数の仮想視点画像を生成したと判定された場合、処理はステップＳ４に進む。

　ステップＳ４において、合成部３３は、合成画像を生成する。

　具体的には、仮想視点画像生成部３２は、ステップＳ２の処理で生成した複数の仮想視点画像を合成部３３に供給する。

　合成部３３は、取得した複数の仮想視点画像に基づいて、合成画像を生成する。合成部３３は、生成した合成画像を動画生成部３４に供給する。

　なお、合成画像の生成方法は、特に限定されない。例えば、合成部３３は、複数の仮想視点画像を並べることにより、合成画像を生成する。例えば、合成部３３は、複数の仮想視点画像を重ねることにより、合成画像を生成する。例えば、合成部３３は、各仮想視点画像から３Ｄオブジェクトを含む領域を切り出して、１つの画像内に配置することにより、合成画像を生成する。

　ステップＳ５において、動画生成部３４は、合成画像に基づくフレームを動画に追加する。具体的には、動画生成部３４は、取得した合成画像に基づいて、動画を構成するフレームを生成する。このとき、例えば、動画生成部３４は、必要に応じて、背景等の画像を合成画像に合成するようにしてもよい。動画生成部３４は、生成したフレームを最新のフレームとして生成中の動画に追加する。

　その後、処理はステップＳ７に進む。

　一方、ステップＳ３において、１つの仮想視点画像を生成したと判定された場合、処理はステップＳ６に進む。

　ステップＳ６において、動画生成部３４は、仮想視点画像に基づくフレームを動画に追加する。

　具体的には、仮想視点画像生成部３２は、ステップＳ２の処理で生成した仮想視点画像を動画生成部３４に供給する。

　動画生成部３４は、取得した仮想視点画像に基づいて、動画を構成するフレームを生成する。このとき、例えば、動画生成部３４は、必要に応じて、背景等の画像を仮想視点画像に合成するようにしてもよい。動画生成部３４は、生成したフレームを最新のフレームとして生成中の動画に追加する。

　その後、処理はステップＳ７に進む。

　ステップＳ７において、動画生成部３４は、処理を終了するか否かを判定する。処理を終了しないと判定された場合、処理はステップＳ１に戻る。

　その後、ステップＳ７において、処理を終了すると判定されるまで、ステップＳ１乃至ステップＳ７の処理が繰り返し実行される。これにより、仮想カメラに基づいて仮想視点画像が生成され、必要に応じて合成画像が生成され、仮想視点画像又は合成画像に基づくフレームが動画に追加される処理が繰り返される。

　一方、ステップＳ７において、動画生成部３４は、例えば、入力部２１を介して、ユーザにより動画の生成の停止の指示が入力された場合、処理を終了すると判定する。

　その後、動画生成処理は終了する。

　以上のようにして、３Ｄモデルを用いて動画が生成される。

　　＜動画の生成方法の具体例＞
　次に、図３乃至図１０を参照して、動画の生成方法の具体例について説明する。

　まず、図３乃至図８を参照して、動画の生成方法の第１の具体例について説明する。

　図３の例では、３Ｄ空間内において、３Ｄオブジェクト１０１ａ乃至３Ｄオブジェクト１０１ｅが横方向に並べられている。

　以下、３Ｄオブジェクト１０１ａ乃至３Ｄオブジェクト１０１ｅを個々に区別する必要がない場合、単に３Ｄオブジェクト１０１と称する。また、以下、各３Ｄオブジェクト１０１のアルファベットが記載されている面を、各３Ｄオブジェクト１０１の正面とする。

　なお、各３Ｄオブジェクト１０１は、異なる３Ｄモデルに含まれていてもよいし、同じ３Ｄモデルに含まれていてもよい。

　前者の場合、例えば、各オブジェクトがそれぞれ個別に撮影され、各オブジェクトに対応する３Ｄオブジェクト１０１をそれぞれ含む複数の３Ｄモデルが生成される。そして、各３Ｄオブジェクト１０１をそれぞれ含む各３Ｄモデルが、３Ｄ空間内に個別に配置される。従って、この場合、３Ｄ空間内における各３Ｄオブジェクト１０１間の相対位置は可変である。

　後者の場合、例えば、各オブジェクトが同時に撮影され、各オブジェクトに対応する３Ｄオブジェクト１０１を全て含む１つの３Ｄモデルが生成される。そして、全ての３Ｄオブジェクト１０１を含む３Ｄモデルが、３Ｄ空間内に配置される。従って、この場合、３Ｄ空間内における各３Ｄオブジェクト１０１間の相対位置は固定される。

　そして、仮想カメラ設定部３１は、３Ｄオブジェクト１０１ａ乃至３Ｄオブジェクト１０１ｅに対して、仮想カメラ１０２ａ乃至仮想カメラ１０２ｅをそれぞれ個別に配置する。

　以下、仮想カメラ１０２ａ乃至仮想カメラ１０２ｅを個々に区別する必要がない場合、単に仮想カメラ１０２と称する。

　各仮想カメラ１０２は、それぞれ対応する３Ｄオブジェクト１０１の正面から所定の距離だけ離れた位置において、対応する３Ｄオブジェクト１０１の正面を向くように配置される。

　次に、仮想視点画像生成部３２は、各仮想カメラ１０２に基づいて、それぞれ対応する３Ｄオブジェクト１０１を含む仮想視点画像を生成する。

　次に、図４に示されるように、合成部３３は、各３Ｄオブジェクト１０１を含む同じ大きさの矩形の領域を各仮想視点画像から切り取った画像を合成した合成画像を生成する。具体的には、合成部３３は、画像１２２ａ－１乃至画像１２２ｅ－１が横に並べられた合成画像１２１－１を生成する。

　なお、画像１２２ａ－１は、仮想カメラ１０２ａに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ａを含む矩形の領域が切り取られた画像である。画像１２２ｂ－１は、仮想カメラ１０２ｂに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｂを含む矩形の領域が切り取られた画像である。画像１２２ｃ－１は、仮想カメラ１０２ｃに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｃを含む矩形の領域が切り取られた画像である。画像１２２ｄ－１は、仮想カメラ１０２ｄに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｄを含む矩形の領域が切り取られた画像である。画像１２２ｅ－１は、仮想カメラ１０２ｅに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｅを含む矩形の領域が切り取られた画像である。

　そして、動画生成部３４は、合成画像１２１－１に基づくフレームを生成し、動画に追加する。

　次に、図５に示されるように、仮想カメラ設定部３１は、各仮想カメラ１０２を１つに統合する方向に移動させる。

　具体的には、仮想カメラ１０２ｃは、３Ｄオブジェクト１０１ｃの正面を向いたまま後方（３Ｄオブジェクト１０１ｃから離れる方向）に移動する。仮想カメラ１０２ａ及び仮想カメラ１０２ｂは、図内の矢印１０３で示されるように、向きを変えずに、仮想カメラ１０２ｃに近づく方向（右斜め後ろ方向）に移動する。仮想カメラ１０２ｄ及び仮想カメラ１０２ｅは、図内の矢印１０４で示されるように、向きを変えずに、仮想カメラ１０２ｃに近づく方向（左斜め後ろ方向）に移動する。

　次に、仮想視点画像生成部３２は、各仮想カメラ１０２が統合されるまでの間に、各仮想カメラ１０２に基づいて、各３Ｄオブジェクト１０１を含む複数の仮想視点画像を生成する。

　次に、図６に示されるように、合成部３３は、各３Ｄオブジェクト１０１を含む同じ大きさの矩形の領域を各仮想視点画像から切り取った画像を合成した合成画像を生成する。具体的には、合成部３３は、画像１２２ａ－２乃至画像１２２ｅ－２が横に並べられた合成画像１２１－２を生成する。

　なお、画像１２２ａ－２は、仮想カメラ１０２ａに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ａを含む矩形の領域が切り取られた画像である。画像１２２ｂ－２は、仮想カメラ１０２ｂに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｂを含む矩形の領域が切り取られた画像である。画像１２２ｃ－２は、仮想カメラ１０２ｃに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｃを含む矩形の領域が切り取られた画像である。画像１２２ｄ－２は、仮想カメラ１０２ｄに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｄを含む矩形の領域が切り取られた画像である。画像１２２ｅ－２は、仮想カメラ１０２ｅに基づいて生成された仮想視点画像から３Ｄオブジェクト１０１ｅを含む矩形の領域が切り取られた画像である。

　そして、動画生成部３４は、合成画像１２１－２に基づくフレームを生成し、動画に追加する。

　その後、図７に示されるように、仮想カメラ設定部３１は、最終的に各仮想カメラ１０２を仮想カメラ１０２ｆに統合させる。

　なお、各仮想カメラ１０２が仮想カメラ１０２ｆに統合されるまでの間に生成される動画のフレーム数は任意である。すなわち、各仮想カメラ１０２が移動する軌道上の任意のポイントにおいて、各仮想カメラにそれぞれ基づく仮想視点画像を生成し、仮想視点画像に基づく合成画像を生成し、合成画像に基づく動画のフレームを生成することが可能である。この処理が繰り返されることにより、各仮想カメラ１０２が移動する軌道上の各ポイントにおいて、仮想視点画像、合成画像、及び、動画のフレームが生成される。すなわち、仮想視点画像、合成画像、及び、動画のフレームが、複数フレーム生成される。

　そして、仮想視点画像生成部３２は、仮想カメラ１０２ｆに基づいて、図８に示される、３Ｄオブジェクト１０１ａ乃至３Ｄオブジェクト１０１ｅを含む仮想視点画像１２１－Ｎを生成する。

　また、動画生成部３４は、仮想視点画像１２１－Ｎに基づくフレームを生成し、動画に追加する。これにより、統合前の各仮想カメラに対応する複数の仮想視点画像に基づく合成画像に基づくフレームと、統合後の仮想カメラに対応する仮想視点画像に基づくフレームとが連続する。

　なお、各３Ｄオブジェクト１０１は、各仮想カメラ１０２の移動中に、動いていてもよいし、静止していてもよい。

　以上のように、３Ｄオブジェクト１０１毎に異なる仮想カメラが配置され、各仮想カメラが統合する方向に移動しながら、各仮想カメラにそれぞれ対応する複数の仮想視点画像に基づく合成画像に基づく動画のフレームが生成される。各仮想カメラが統合された後の仮想カメラに対応する仮想視点画像に基づく動画のフレームが生成される。

　これにより、動画を観るユーザに対して、例えば、異なる空間に個別に存在する複数のオブジェクト（例えば、人）が、１つの空間に自然に移動するような視覚効果を与えることができる。

　なお、３Ｄオブジェクト１０１の数は任意である。例えば、３Ｄオブジェクト１０１の数を１つにすることも可能である。

　３Ｄオブジェクトの数を１つにした場合、例えば、１つの３Ｄオブジェクト１０１に対して、仮想視点が異なる複数の仮想カメラ１０２が配置される。そして、各仮想カメラ１０２が最終的に統合するように移動する。この場合、各仮想視点画像にそれぞれ同じ３Ｄオブジェクトが含まれるようになる。

　また、仮想カメラ１０２の数も、２以上の任意の数に設定することが可能である。また、３Ｄオブジェクト１０１の数と仮想カメラ１０２の数とは、必ずしも一致する必要はない。

　仮想カメラ１０２の数が３Ｄオブジェクト１０１の数より少ない場合、例えば、１以上の仮想カメラ１０２が、画角内に複数の３Ｄオブジェクト１０１を含むように配置される。

　また、例えば、それぞれ全ての３Ｄオブジェクト１０１を画角内に含むように各仮想カメラ１０２を配置し、その後、各仮想カメラ１０２を統合するように移動させてもよい。この場合、各仮想視点画像に、それぞれ複数の同じ３Ｄオブジェクトが含まれるようになる。

　さらに、必ずしも全ての仮想カメラ１０２が移動する必要はない。例えば、１つの仮想カメラ１０２を固定したまま、他の仮想カメラ１０２が固定した仮想カメラ１０２の方向に移動し、各仮想カメラ１０２が統合するようにしてもよい。

　また、必ずしも全ての仮想カメラ１０２が統合する必要はなく、一部の仮想カメラ１０２のみ統合するようにしてもよい。

　さらに、必ずしも全ての仮想カメラ１０２が同時に統合する必要はなく、例えば、順番に仮想カメラ１０２が統合していくようにしてもよい。

　また、例えば、各仮想カメラ１０２が仮想カメラ１０２ｆに統合した後に、再度分離するようにしてもよい。

　次に、図９を参照して、動画の生成方法の第２の具体例について説明する。

　この例では、例えば、仮想カメラ設定部３１は、３Ｄオブジェクト１４２を中心にして、３Ｄオブジェクト１４２の周囲を囲むように、３台の仮想カメラ（不図示）を配置する。例えば、３台の仮想カメラは、３Ｄオブジェクト１４２を中心にして、同じ角度の間隔（すなわち、１２０度間隔）で配置される。

　仮想視点画像生成部３２は、各仮想カメラに基づいて、同じ３Ｄオブジェクトを含む仮想視点画像を３つ生成する。各仮想視点画像内の３Ｄオブジェクトは、それぞれ１２０度異なる仮想視点から見た画像となる。

　合成部３３は、各仮想視点画像から３Ｄオブジェクトの画像を切り出し、１つの画像に合成することにより、合成画像を生成する。例えば、合成部３３は、図９に示されるように、各仮想視点画像から抽出した３Ｄオブジェクト１４２ａ乃至３Ｄオブジェクト１４２ｃ（の画像）を合成画像１４１内に合成する。

　このとき、合成部３３は、合成画像１４１内の所定の垂直方向の軸を中心にして、３Ｄオブジェクト１４２ａ乃至３Ｄオブジェクト１４２ｃを軸の周囲に等間隔（すなわち、１２０度間隔）に配置する。

　動画生成部３４は、合成画像１４１に基づくフレームを生成し、動画に追加する。

　以後、上述した処理が繰り返し実行される。

　このとき、例えば、仮想カメラ設定部３１は、各仮想カメラの位置及び向きを固定する。

　また、合成部３３は、例えば、フレーム間において、３Ｄオブジェクト１４２ａ乃至３Ｄオブジェクト１４２ｃを、１２０度の間隔を保ったまま、上述した軸の周りを回転させるように合成画像に合成する。

　その結果、動画内において、同じ３Ｄオブジェクト１４２を異なる仮想視点から見た３Ｄオブジェクト１４２ａ乃至３Ｄオブジェクト１４２ａが、所定の軸の周りを万華鏡のように回転するような効果が生じる。

　なお、仮想カメラの数は、２以上の任意の数に設定することが可能である。

　また、仮想カメラの配置も任意である。例えば、必ずしも、仮想カメラを３Ｄオブジェクトの周囲に等間隔に配置する必要はない。

　さらに、仮想カメラを移動させるようにしてもよい。例えば、複数の仮想カメラを、３Ｄオブジェクトを中心にして、３Ｄオブジェクトの周囲を回転させるようにしてもよい。

　次に、図１０を参照して、動画の生成方法の第３の具体例について説明する。

　この例では、例えば、仮想カメラ設定部３１は、複数の３Ｄオブジェクトに対して、異なる仮想カメラを同様の位置関係になるように配置する。すなわち、仮想カメラ設定部３１は、各３Ｄオブジェクトに対して、各仮想カメラを同様の位置及び向きに配置する。

　仮想視点画像生成部３２は、各仮想カメラに基づいて、各３Ｄオブジェクトを個別に含む複数の仮想視点画像を同じタイミングで生成する処理を繰り返す。

　動画生成部３４は、異なる３Ｄオブジェクトを含む仮想視点画像の中から１つを選択して、選択した仮想視点画像に基づくフレームを生成し、動画に追加する処理を繰り返す。このとき、例えば、動画生成部３４は、ある３Ｄオブジェクトを含む仮想視点画像に基づくフレームを複数フレーム連続して生成した後、他の３Ｄオブジェクトを含む仮想視点画像に基づくフレームを複数フレーム連続して生成する。

　ここで、上述したように、各３Ｄオブジェクトに対して仮想カメラが同様の位置及び向きに配置されているので、動画の生成に用いる仮想視点画像を切り替えることにより、動画上で３Ｄオブジェクトが瞬時に入れ替わったような効果が生じる。例えば、図１０のフレーム１６１内の３Ｄオブジェクトである人１６２が、次のフレームにおいて、異なる人に瞬時に入れ替わったように見える。

　次に、動画の生成方法の第４の具体例について説明する。

　例えば、３Ｄオブジェクトとして複数の人が３Ｄ空間内に配置される場合、仮想カメラ設定部３１は、仮想視点が各人の視点と一致するように仮想カメラを配置する。

　仮想視点画像生成部３２は、各仮想カメラに基づいて、各人の視点から見た複数の仮想視点画像を同じタイミングで生成する処理を繰り返す。

　動画生成部３４は、複数の仮想視点に基づく仮想視点画像の中から１つを選択して、選択した仮想視点画像に基づくフレームを生成し、動画に追加する処理を繰り返す。このとき、例えば、動画生成部３４は、ある人の視点から見た仮想視点画像に基づくフレームを複数フレーム連続して生成した後、他の人の視点から見た仮想視点画像に基づくフレームを複数フレーム連続して生成する。

　これにより、３Ｄ空間内に存在する人の視点から他の人を見た画像が再現されるとともに、画像の再現に用いる視点を瞬時に切り替えることができる。

　以上のようにして、３Ｄモデルを用いて生成する動画の表現の幅を広げることができる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　上述した仮想カメラの数、配置、動き等は、その一例であり、任意に変更することが可能である。

　また、上述した３Ｄオブジェクトの数、種類、配置、動き等も、その一例であり、任意に変更することが可能である。

　＜＜３．その他＞＞
　　＜コンピュータの構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータ１０００において、CPU（Central Processing Unit）１００１，ROM（Read Only Memory）１００２，RAM（Random Access Memory）１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及びドライブ１０１０が接続されている。

　入力部１００６は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、例えば、記録部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　　＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　仮想カメラの設定を行う仮想カメラ設定部と、
　前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成する仮想視点画像生成部と、
　複数の前記仮想視点画像に基づく合成画像を生成する合成部と、
　前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する動画生成部と
　を備え、
　前記仮想カメラ設定部は、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　画像処理装置。
（２）
　前記仮想視点画像生成部は、統合前の各前記仮想カメラにそれぞれ基づく前記仮想視点画像である複数の統合前仮想視点画像、及び、統合後の前記仮想カメラに基づく前記仮想視点画像である統合後仮想視点画像を生成し、
　前記合成部は、前記複数の統合前仮想視点画像に基づく前記合成画像である統合前合成画像を生成し、
　前記動画生成部は、前記統合前合成画像に基づくフレームである統合前フレーム、及び、前記統合後仮想視点画像に基づくフレームである統合後フレームを含む動画を生成する
　前記（１）に記載の画像処理装置。
（３）
　前記仮想視点画像生成部は、各前記仮想カメラが統合されるまでの間に、各前記仮想カメラに基づく前記複数の統合前仮想視点画像を複数フレーム生成し、
　前記合成部は、各フレームの前記複数の統合前仮想視点画像にそれぞれ基づいて、複数フレームの前記統合前合成画像を生成し、
　前記動画生成部は、各フレームの前記統合前合成画像にそれぞれ基づいて、複数フレームの前記統合前フレームを生成する
　前記（２）に記載の画像処理装置。
（４）
　前記動画生成部は、前記統合前フレームと前記統合後フレームが連続する動画を生成する
　前記（２）又は（３）に記載の画像処理装置。
（５）
　各前記統合前仮想視点画像は、それぞれ異なる３Ｄオブジェクトを含み、
　前記統合後仮想視点画像は、前記異なる３Ｄオブジェクトを全て含む
　前記（２）乃至（４）のいずれかに記載の画像処理装置。
（６）
　前記合成部は、各前記統合前仮想視点画像内の各前記３Ｄオブジェクトの画像を合成した前記合成画像を生成する
　前記（５）に記載の画像処理装置。
（７）
　各前記統合前仮想視点画像及び前記統合後仮想視点画像は、同じ３Ｄオブジェクトを含む
　前記（２）乃至（４）のいずれかに記載の画像処理装置。
（８）
　各前記統合前仮想視点画像及び前記統合後仮想視点画像は、同じ複数の３Ｄオブジェクトを含む
　前記（７）に記載の画像処理装置。
（９）
　前記仮想カメラ設定部は、３Ｄオブジェクトの周囲を囲むように複数の前記仮想カメラを配置し、
　前記仮想視点画像生成部は、各前記仮想カメラにそれぞれ基づく複数の前記仮想視点画像を生成し、
　前記合成部は、各前記仮想視点画像内の前記３Ｄオブジェクトの画像を所定の軸の周りに配置した前記合成画像を生成するとともに、フレーム間で前記３Ｄオブジェクトの画像を前記軸を中心に回転させ、
　前記動画生成部は、各フレームの前記合成画像にそれぞれ基づく複数のフレームを含む動画を生成する
　前記（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）
　前記仮想カメラ設定部は、前記３Ｄオブジェクトを中心とする各前記仮想カメラの間の角度の間隔を等しくする
　前記（９）に記載の画像処理装置。
（１１）
　前記仮想カメラ設定部は、複数の３Ｄオブジェクトに対して、それぞれ異なる前記仮想カメラを同様の位置関係になるように配置し、
　前記仮想視点画像生成部は、各前記仮想カメラに基づいて、各前記３Ｄオブジェクトをそれぞれ含む複数の前記仮想視点画像を生成し、
　前記動画生成部は、複数の前記仮想視点画像の中から選択した前記仮想視点画像に基づくフレームを生成するとともに、フレームの生成に用いる前記仮想視点画像を動画の途中で切り替える
　前記（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）
　前記仮想カメラ設定部は、３Ｄオブジェクトが配置されている３Ｄ空間内における前記仮想カメラの位置及び向きを設定する
　前記（１）乃至（１１）のいずれかに記載の画像処理装置。
（１３）
　前記仮想カメラ設定部は、前記仮想カメラの焦点距離をさらに設定する
　前記（１２）に記載の画像処理装置。
（１４）
　仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置が、
　複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　画像処理方法。
（１５）
　仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置のコンピュータに、
　複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　処理を実行させるプログラム。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　画像処理装置，　１２　画像処理部，　３１　仮想カメラ設定部，　３２　仮想視点画像生成部，　３３　合成部，　３４　動画生成部

Claims

　仮想カメラの設定を行う仮想カメラ設定部と、
　前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成する仮想視点画像生成部と、
　複数の前記仮想視点画像に基づく合成画像を生成する合成部と、
　前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する動画生成部と
　を備え、
　前記仮想カメラ設定部は、複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　画像処理装置。
　前記仮想視点画像生成部は、統合前の各前記仮想カメラにそれぞれ基づく前記仮想視点画像である複数の統合前仮想視点画像、及び、統合後の前記仮想カメラに基づく前記仮想視点画像である統合後仮想視点画像を生成し、
　前記合成部は、前記複数の統合前仮想視点画像に基づく前記合成画像である統合前合成画像を生成し、
　前記動画生成部は、前記統合前合成画像に基づくフレームである統合前フレーム、及び、前記統合後仮想視点画像に基づくフレームである統合後フレームを含む動画を生成する
　請求項１に記載の画像処理装置。
　前記仮想視点画像生成部は、各前記仮想カメラが統合されるまでの間に、各前記仮想カメラに基づく前記複数の統合前仮想視点画像を複数フレーム生成し、
　前記合成部は、各フレームの前記複数の統合前仮想視点画像にそれぞれ基づいて、複数フレームの前記統合前合成画像を生成し、
　前記動画生成部は、各フレームの前記統合前合成画像にそれぞれ基づいて、複数フレームの前記統合前フレームを生成する
　請求項２に記載の画像処理装置。
　前記動画生成部は、前記統合前フレームと前記統合後フレームが連続する動画を生成する
　請求項２に記載の画像処理装置。
　各前記統合前仮想視点画像は、それぞれ異なる３Ｄオブジェクトを含み、
　前記統合後仮想視点画像は、前記異なる３Ｄオブジェクトを全て含む
　請求項２に記載の画像処理装置。
　前記合成部は、各前記統合前仮想視点画像内の各前記３Ｄオブジェクトの画像を合成した前記合成画像を生成する
　請求項５に記載の画像処理装置。
　各前記統合前仮想視点画像及び前記統合後仮想視点画像は、同じ３Ｄオブジェクトを含む
　請求項２に記載の画像処理装置。
　各前記統合前仮想視点画像及び前記統合後仮想視点画像は、同じ複数の３Ｄオブジェクトを含む
　請求項７に記載の画像処理装置。
　前記仮想カメラ設定部は、３Ｄオブジェクトの周囲を囲むように複数の前記仮想カメラを配置し、
　前記仮想視点画像生成部は、各前記仮想カメラにそれぞれ基づく複数の前記仮想視点画像を生成し、
　前記合成部は、各前記仮想視点画像内の前記３Ｄオブジェクトの画像を所定の軸の周りに配置した前記合成画像を生成するとともに、フレーム間で前記３Ｄオブジェクトの画像を前記軸を中心に回転させ、
　前記動画生成部は、各フレームの前記合成画像にそれぞれ基づく複数のフレームを含む動画を生成する
　請求項１に記載の画像処理装置。
　前記仮想カメラ設定部は、前記３Ｄオブジェクトを中心とする各前記仮想カメラの間の角度の間隔を等しくする
　請求項９に記載の画像処理装置。
　前記仮想カメラ設定部は、複数の３Ｄオブジェクトに対して、それぞれ異なる前記仮想カメラを同様の位置関係になるように配置し、
　前記仮想視点画像生成部は、各前記仮想カメラに基づいて、各前記３Ｄオブジェクトをそれぞれ含む複数の前記仮想視点画像を生成し、
　前記動画生成部は、複数の前記仮想視点画像の中から選択した前記仮想視点画像に基づくフレームを生成するとともに、フレームの生成に用いる前記仮想視点画像を動画の途中で切り替える
　請求項１に記載の画像処理装置。
　前記仮想カメラ設定部は、３Ｄオブジェクトが配置されている３Ｄ空間内における前記仮想カメラの位置及び向きを設定する
　請求項１に記載の画像処理装置。
　前記仮想カメラ設定部は、前記仮想カメラの焦点距離をさらに設定する
　請求項１２に記載の画像処理装置。
　仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置が、
　複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　画像処理方法。
　仮想カメラの設定を行い、前記仮想カメラの視点から３Ｄオブジェクトを見た場合の画像である仮想視点画像を生成し、複数の前記仮想視点画像に基づく合成画像を生成し、前記仮想視点画像又は前記合成画像に基づくフレームを含む動画を生成する画像処理装置のコンピュータに、
　複数の前記仮想カメラを配置した後、複数の前記仮想カメラの少なくとも１つを動かして、複数の前記仮想カメラを統合する
　処理を実行させるプログラム。