WO2021187093A1 - 画像処理装置、および、動画像データ生成方法 - Google Patents

画像処理装置、および、動画像データ生成方法 Download PDF

Info

Publication number
WO2021187093A1
WO2021187093A1 PCT/JP2021/008046 JP2021008046W WO2021187093A1 WO 2021187093 A1 WO2021187093 A1 WO 2021187093A1 JP 2021008046 W JP2021008046 W JP 2021008046W WO 2021187093 A1 WO2021187093 A1 WO 2021187093A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
feature amount
image
moving image
subject
Prior art date
Application number
PCT/JP2021/008046
Other languages
English (en)
French (fr)
Inventor
尚子 菅野
田中 潤一
洋一 廣田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022508192A priority Critical patent/JPWO2021187093A1/ja
Priority to EP21771212.4A priority patent/EP4123588A4/en
Priority to CN202180020276.4A priority patent/CN115280371A/zh
Priority to US17/799,062 priority patent/US20230068731A1/en
Publication of WO2021187093A1 publication Critical patent/WO2021187093A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Definitions

  • the feature amount similar to the feature amount of the subject is obtained based on the feature amount of the subject of the input moving image and the feature amount of the moving image of the stored 3D model.
  • a moving image of a free viewpoint image viewed from a predetermined virtual viewpoint is generated from the moving image of the searched 3D model.
  • the operation performed by the person who is the subject is at least the operation performed by the person of the existing 3D model stored in the 3D model DB 33 of the image processing device 12.
  • facial feature points, hand and finger joints, and the like may also be set as joint positions to express the skeleton of a person.
  • a known algorithm can be used for the process of estimating the joint position of a person in a moving image. Bone information as a feature amount is calculated for each frame of a moving image and is supplied to the similarity search unit 34.
  • the 3D model DB33 is an existing 3D model generated in the past, and is a storage unit in which a large number of existing 3D models in which a person as a subject performs a predetermined operation are stored.
  • the moving image data of each existing 3D model stored in the 3D model DB33 includes 3D shape data representing the 3D shape (geometry information) of the subject, texture data representing the color information of the subject, and the subject's moving image data. It has bone information in frame units of moving images. Details of the moving image data of each existing 3D model stored in the 3D model DB 33 will be described later with reference to FIG.
  • the similarity search unit 34 searches for an operation similar to the operation of the subject of the moving image captured by the photographing device 11 from the operations of one or more existing three models stored in the 3D model DB 33. For example, an operation having a feature amount close to the feature amount indicating the characteristics of the motion of the subject in the captured moving image (operation in which the difference between the feature amounts is within a predetermined range), or an operation of a plurality of existing three existing models stored. Among them, a motion having a feature amount relatively close to the motion of the subject is searched for as a similar motion. More specifically, the similarity search unit 34 uses bone information as a feature amount, and is similar to the bone information of the subject of the captured moving image for each frame of the moving image captured by the photographing device 11. The bone information of the 3D model is searched from the 3D model DB33.
  • the existing 3D model stored in the 3D model DB33 may be stored in any data format among the various data formats described above, but in the present embodiment, the 3D shape data, which is a View Dependent format, is used. It is assumed that it is stored in the 3D model DB33 in the multi-texture format.
  • the calculation of the reliability of the joint position is generally used for detecting a movement that is impossible as a human posture (skeleton), for example.
  • each joint position information and reliability of the person calculated by the feature amount calculation unit 32 are supplied to the similarity search unit 34.
  • step S25 if it is determined in step S25 that the person in the input moving image 71M and the person in the selected existing 3D model 51 are the same, the process in step S26 is skipped and the process proceeds to step S27.
  • step S53 If it is determined in step S53 that the degree of matching of the p-th frame of the new 3D model is equal to or greater than the predetermined threshold value TH2, the process proceeds to step S54, and the rendering unit 35 is the p-th frame of the new 3D model.
  • the frame is used to generate the p-th free viewpoint image of the new 3D model viewed from a predetermined virtual viewpoint. By perspectively projecting the new 3D model onto the viewing range of the virtual viewpoint, the p-th free viewpoint image is generated.
  • Rendering unit 35 for example, by combining the front and rear of the (p x -1) th and free viewpoint image of the (p x +1) th frame of the p x-th frame, the p x th frame Generate a free-viewpoint image of.
  • the frame rate of the input moving image is 60 fps
  • the captured image 63E 5-7 captured by the seventh imaging device 41-7 was searched.
  • time t a second frame of the existing 3D model 51 similar to the captured image 101 2 of the input moving image, image captured by the seventh imaging device 41-7 of the seventh frame of the same existing 3D model 51E 63E 7-7 was searched.
  • the existing 3D model 51E is 3D model data having a frame rate of 120 fps.
  • the functions shared by the image processing device 12 and the server device 141 are not limited to the above examples, and can be arbitrarily determined.
  • the program can be installed in the storage unit 208 via the input / output interface 205 by mounting the removable recording medium 211 in the drive 210. Further, the program can be received by the communication unit 209 and installed in the storage unit 208 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 202 or the storage unit 208.
  • the present technology can have the following configurations.
  • a storage unit that stores the features of the plurality of 3D models and the plurality of 3D models corresponding to each of the plurality of 3D models, and a storage unit.
  • a search unit that searches for a 3D model having a feature amount similar to the feature amount of the subject based on the input feature amount of the subject and the feature amount of the 3D model stored in the storage unit.
  • An image processing device including an output unit that outputs the 3D model searched by the search unit.
  • the feature amount of the subject is bone information of the subject, and is The search unit compares the bone information of the subject with the bone information of the 3D model stored in the storage unit, and searches for the 3D model having bone information similar to the bone information of the subject.
  • the image processing apparatus according to (1).

Abstract

本技術は、3Dモデルデータの検索を容易に行うことができるようにする画像処理装置、および、動画像データ生成方法に関する。 画像処理装置は、複数の3Dモデルと複数の3Dモデルの各々に対応する複数の3Dモデルの特徴量を記憶する記憶部と、入力された被写体の特徴量と、記憶部に記憶されている3Dモデルの特徴量とに基づいて、被写体の特徴量に類似する特徴量を持つ3Dモデルを検索する検索部と、検索部によって検索された3Dモデルを出力する出力部とを備える。本技術は、例えば、3Dモデルを検索する画像処理装置等に適用できる。

Description

画像処理装置、および、動画像データ生成方法
 本技術は、画像処理装置、および、動画像データ生成方法に関し、特に、3Dモデルデータの検索を容易に行うことができるようにした画像処理装置、および、動画像データ生成方法に関する。
 多視点で撮影された動画像から被写体の3Dモデルを生成し、任意の視聴位置(仮想視点)に応じた3Dモデルの2D画像である仮想視点画像を生成することで、自由な視点の画像を提供する技術がある。この技術は、ボリューメトリックキャプチャ技術などとも呼ばれている。
 例えば、特許文献1には、被写体の3Dモデルの動画像データ(3Dモデルデータ)を、複数の視点から撮影した複数のテクスチャ画像およびデプス画像に変換して再生装置に伝送し、再生側で表示する方法が提案されている。
国際公開第2017/082076号
 ところで、被写体としての人物が所定の動作を行う3Dモデルの動画像を生成しようとする場合に、類似の動作を行っている既存の3Dモデルの動画像を検索したいという要求がある。しかしながら、類似の動作を行う既存の3Dモデルの動画像を検索することは容易ではなかった。
 本技術は、このような状況に鑑みてなされたものであり、3Dモデルデータの検索を容易に行うことができるようにするものである。
 本技術の第1の側面の画像処理装置は、複数の3Dモデルと前記複数の3Dモデルの各々に対応する複数の3Dモデルの特徴量を記憶する記憶部と、入力された被写体の特徴量と、前記記憶部に記憶されている前記3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つ3Dモデルを検索する検索部と、前記検索部によって検索された前記3Dモデルを出力する出力部とを備える。
 本技術の第1の側面においては、複数の3Dモデルと前記複数の3Dモデルの各々に対応する複数の3Dモデルの特徴量が記憶部に記憶され、入力された被写体の特徴量と、前記記憶部に記憶されている前記3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つ3Dモデルが検索され、検索された前記3Dモデルが出力される。
 本技術の第2の側面の画像処理装置は、被写体の特徴量と、記憶されている3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルを、所定の仮想視点から見た自由視点画像を生成するレンダリング部を備える。
 本技術の第2の側面においては、被写体の特徴量と、記憶されている3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルを、所定の仮想視点から見た自由視点画像が生成される。
 本技術の第3の側面の動画像データ生成方法は、入力動画像の被写体の特徴量と、記憶されている3Dモデルの動画像の特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルの動画像を、所定の仮想視点から見た自由視点画像の動画像を生成する。
 本技術の第3の側面においては、入力動画像の被写体の特徴量と、記憶されている3Dモデルの動画像の特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルの動画像を、所定の仮想視点から見た自由視点画像の動画像が生成される。
 本技術の第1および第2の側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術を適用した画像処理システムの第1実施の形態の構成例を示すブロック図である。 3Dモデルデータを生成する場合の撮影空間の例を示す図である。 一般的な3Dモデルデータのデータフォーマットを説明する図である。 3DモデルDBに記憶されている既存3Dモデルの動画像データを説明する図である。 新3Dモデルの動画像データを生成する処理を説明する図である。 図1の画像処理システムによる動画生成表示処理を説明するフローチャートである。 図6のステップS5の新3Dモデルデータ生成処理の詳細なフローチャートである。 図6のステップS6の自由視点画像表示処理の詳細なフローチャートである。 ハイフレームレートの自由視点画像の動画像を生成して表示する例を説明する図である。 本技術を適用した画像処理システムの第2実施の形態の構成例を示すブロック図である。 画像処理システムの第2実施の形態の変形例を示すブロック図である。 本技術を適用した画像処理システムの第3実施の形態の構成例を示すブロック図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、添付図面を参照しながら、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。説明は以下の順序で行う。
1.画像処理システムの第1実施の形態
2.3Dモデルデータの構成
3.新3Dモデルの動画像データ生成処理
4.動画生成処理のフローチャート
5.ハイフレームレート変換の例
6.画像処理システムの第2実施の形態
7.画像処理システムの第3実施の形態
8.変形例
9.コンピュータ構成例
<1.画像処理システムの第1実施の形態>
 図1は、本技術を適用した画像処理システムの第1実施の形態の構成例を示すブロック図である。
 図1の画像処理システム1は、複数の撮影装置11(11-1乃至11-3)と、各撮影装置11で撮影された画像を用いて所定の被写体の動画像を生成する画像処理装置12と、画像処理装置12で生成された動画像を表示する表示装置13とで構成される。
 画像処理装置12は、画像取得部31、特徴量計算部32、3DモデルDB33、類似検索部34、レンダリング部35、および、操作部36を備える。
 画像処理装置12は、3台の撮影装置11-1乃至11-3で撮影された被写体の動画像から、被写体の3Dモデルの動画像を生成する。さらに、画像処理装置12は、生成した被写体の3Dモデルの動画像を、任意の仮想視点から見た2D(2次元)の動画像である2D動画像を生成し、表示装置13に表示させる。
 本来、被写体としての所定の人物が、所定の動作を行っている3Dモデルの動画像を生成しようとする場合、被写体である人物を囲むように配置した数十台程度の多数の撮影装置11で被写体を撮影する必要がある。そして、多数の視点で被写体を撮影した多数の撮影画像を用いて、Visual Hull等の手法によって被写体の3次元形状を特定し、被写体の3Dモデルの動画像データが生成される。なお、以下の説明において、単に、3Dモデルと称する場合にも、3Dモデルの動画像データを表すものとする。
 しかしながら、過去に生成した3Dモデルと異なる動作の3Dモデルを生成しようとする場合に、その都度、数十台からなる撮影装置11の環境を用意し、撮影を行うのは大変である。
 そこで、図1の画像処理システム1は、過去に生成した3Dモデル(以下、既存3Dモデルという。)を用いて、新たな3Dモデルを簡単に生成できるようにしたシステムである。新たな3Dモデルの生成に用いられる既存3Dモデルは、画像処理システム1自身が過去に生成したものに限られず、他のシステムまたは装置が過去に生成したものでもよい。画像処理装置12が生成する、撮影装置11-1乃至11-3で撮影された被写体の動画像に対応する、被写体の新たな3Dモデル(の動画像)を、既存3Dモデルと区別して、新3Dモデルと称する。
 画像処理システム1の一部を構成する撮影装置11の台数は、一般的な手法で3Dモデルを生成する場合と比較して、例えば1台ないし3台程度の少ない台数とされている。図1の画像処理システム1では、3台の撮影装置11-1乃至11-3を用いた構成が示されているが、1台または2台でもよい。
 また、各撮影装置11が撮影した動画像において、被写体である人物が行っている動作は、画像処理装置12の3DモデルDB33に記憶されている既存3Dモデルの人物が行っている動作とは少なくとも一部が異なる動作である。
 3台の撮影装置11-1乃至11-3それぞれは、被写体である人物を撮影し、その結果得られる人物の動画像データを、画像処理装置12(の画像取得部31)に供給する。
 画像取得部31は、撮影装置11-1乃至11-3それぞれから供給される人物の動画像データ(撮影画像)を取得し、特徴量計算部32に供給する。
 特徴量計算部32は、撮影装置11-1乃至11-3それぞれから供給される人物の動画像データを用いて、被写体である人物の動作の特徴を示す特徴量を計算し、類似検索部34に供給する。具体的には、特徴量計算部32は、動画像内の人物の関節位置を推定し、人物の姿勢を関節位置で表したボーン情報を、人物の動作の特徴量として計算する。
 ボーン情報とは、被写体である人物の各関節位置が、画像内のどこに位置するかを表した値であり、例えば、人物の各関節について、関節を識別する関節idと、関節の2次元位置を示す位置情報(u,v)と、関節の回転方向を示す回転情報Rとで表現される。また、機械学習を用いて、ボーン情報が、人物の各関節について、関節を識別する関節idと、関節の3次元位置を示す位置情報(x,y,z)と、関節の回転方向を示す回転情報Rとで表現される場合もある。ボーン情報として生成される人物の関節位置としては、例えば、鼻(id=0)、心臓(id=1)、右肩(id=2)、右肘(id=3)、右手首(id=4)、左肩(id=5)、左肘(id=6)、左手首(id=7)、右腰(id=8)、右膝(id=9)、右足首(id=10)、左腰(id=11)、左膝(id=12)、左足首(id=13)、右目(id=14)、左目(id=15)、右耳(id=16)、左耳(id=17)などのように設定することができる。その他、顔の特徴点、手や指の関節等についても、関節位置として設定して、人物の骨格を表現してもよい。動画像内の人物の関節位置を推定する処理は、公知のアルゴリズムを用いることができる。特徴量としてのボーン情報は、動画像のフレームごとに計算され、類似検索部34に供給される。
 3DモデルDB33は、過去に生成された既存3Dモデルであって、被写体としての人物が所定の動作を行っている既存3Dモデルが、多数記憶されている記憶部である。3DモデルDB33に記憶されている各既存3Dモデルの動画像データは、被写体の3D形状(ジオメトリ情報)を表した3D形状データと、被写体の色情報を表したテクスチャデータとに加えて、被写体のボーン情報を、動画像のフレーム単位に有している。3DモデルDB33に記憶されている各既存3Dモデルの動画像データの詳細については、図4を参照して後述する。
 類似検索部34は、撮影装置11で撮影された動画像の被写体の動作に類似する動作を、3DモデルDB33に記憶されている1以上の既存3モデルの動作のなかから検索する。例えば、撮影された動画像の被写体の動作の特徴を示す特徴量に近い特徴量を持つ動作(特徴量の差分が所定範囲内の動作)、または、複数記憶されている既存3モデルの動作のなかで、被写体の動作と相対的に近い特徴量を持つ動作が、類似する動作として検索される。より具体的には、類似検索部34は、特徴量としてボーン情報を用いて、撮影装置11で撮影された動画像のフレームごとに、撮影された動画像の被写体のボーン情報に類似する、既存3Dモデルのボーン情報を、3DモデルDB33のなかから検索する。
 そして、類似検索部34は、検索された、被写体のボーン情報に類似するボーン情報を備える既存3Dモデルの動画像のフレームを、撮影装置11で撮影された動画像のフレームの順番に配列することにより、撮影装置11で撮影された被写体の動作に対応する新3Dモデルを生成する。生成された新3Dモデルの動画像データ(3Dモデルデータ)は、レンダリング部35に供給される。
 レンダリング部35は、類似検索部34から供給される新3Dモデルの動画像データを用いて、新3Dモデルを所定の仮想視点から見た2D動画像を生成し、表示装置13に表示させる。仮想視点は、操作部36から指定される。
 操作部36は、撮影装置11で撮影された画像の取得、新3Dモデルの生成指示、仮想視点の入力、などのユーザの操作を受け付け、受け付けた情報を、所要の各部に供給する。
 画像処理システム1は、以上のように構成されている。
 なお、画像処理装置12が、ディスプレイを備える場合には、レンダリング部35が生成した2D動画像を外部の表示装置13に表示させるのではなく、自身のディスプレイに表示させてもよい。画像処理装置12と表示装置13は一つの装置で構成してもよい。
<2.3Dモデルデータの構成>
 図2乃至図4を参照して、画像処理システム1で利用される3Dモデルデータについて、一般的な3Dモデルデータと比較して説明する。
 初めに、一般的な3Dモデルデータについて説明する。
 3Dモデルデータを生成する場合、図2に示されるように、複数の撮影装置41を、人物等の被写体を囲むように、被写体の周囲に配置して、被写体が撮影される。図2では、8台の撮影装置41-1乃至41-8を配置した例が示されているが、撮影装置41の台数が多いほど、画像の補間の影響が少ない高精度の3Dモデルを生成することができ、数十台の撮影装置41が用いられる場合もある。なお、各撮影装置41の配置は既知である。
 画像処理システム1の撮影装置11は、既存3モデルの動画像データを生成したときと同じ撮影装置41の一部を用いてもよいし、既存3モデルの動画像データを生成したときとは異なる撮影装置および配置であってもよい。
 異なる撮影方向(視点)の各撮影装置41で撮影された画像を用いて、各視点における被写体のシルエットを3D空間へ投影し、そのシルエットの交差領域を3D形状とするVisual Hullや、視点間のテクスチャ情報の一致性を利用するMulti view stereoなどにより、被写体の3D形状を取得し、3D形状データが生成される。
 図3は、一般的な3Dモデルデータのデータフォーマットの例を示している。
 3Dモデルデータは、一般的には、被写体の3D形状(ジオメトリ情報)を表した3D形状データと、被写体の色情報を表したテクスチャデータとで表現される。
 3D形状データは、例えば、例えば、被写体の3次元位置を点の集合で表したポイントクラウド形式、ポリゴンメッシュと呼ばれる頂点(Vertex)と頂点間のつながりで表した3Dメッシュ形式、ボクセル(voxel)と呼ばれる立方体の集合で表したボクセル形式などで表現される。
 テクスチャデータは、例えば、各撮影装置41が撮影した撮影画像(2次元テクスチャ画像)で保有するマルチテクスチャ形式や、3D形状データである各ポイントまたは各ポリゴンメッシュに貼り付けられる2次元テクスチャ画像を、UV座標系で表現して保有するUVマッピング形式などがある。
 図3の上段のように、3D形状データと、各撮影装置41が撮影した複数の撮影画像で保有するマルチテクスチャ形式とで、3Dモデルデータを記述する形式は、仮想視点(仮想カメラの位置)によって、色情報が変化し得るViewDependentな形式である。
 これに対して、図3の下段のように、3D形状データと、被写体のテクスチャ情報をUV座標系にマッピングしたUVマッピング形式とで、3Dモデルデータを記述する形式は、仮想視点(仮想カメラの位置)によって、色情報が同一となるViewIndependentな形式である。
 3DモデルDB33に記憶されている既存3Dモデルは、上述した各種のデータフォーマットのうち、どのようなデータフォーマットで記憶されてもよいが、本実施の形態では、ViewDependentな形式である、3D形状データとマルチテクスチャ形式で、3DモデルDB33に記憶されていることとする。
 さらに、3DモデルDB33に記憶されている既存3Dモデルは、上述したように、被写体の3D形状(ジオメトリ情報)を表した3D形状データと、被写体の色情報を表したテクスチャデータとに加えて、被写体のボーン情報を、動画像のフレーム単位に有している。
 図4を参照して、3DモデルDB33に記憶されている既存3Dモデルの動画像データについて説明する。
 図4には、3DモデルDB33に記憶されている多数の既存3Dモデル51のうち、所定の1つの既存3Dモデル51の動画像データであって、動画像を構成する複数フレームのうちの1フレーム(第nフレーム)のデータ例を示している。
 既存3Dモデル51の動画像データは、フレームごとに、ボーン情報61、3D形状データ62、および、撮影時に各撮影装置41で撮影された撮影画像63を有している。
 図4は、動画像を構成する複数フレームのうちの第nフレームのデータ例であるので、ボーン情報61、3D形状データ62、および、撮影画像63にように、各データに、フレーム番号を示すnが、下付きで付加されている。
 また、図4の既存3Dモデル51の動画像データは、撮影時に、27台の撮影装置41で撮影されたデータ例であるため、第nフレームの撮影画像63が、27台の撮影装置41に対応して、撮影画像63n-1乃至63n-27の27枚、3DモデルDB33に記憶されている。撮影画像63n-1は、第1の撮影装置41-1で撮影された撮影画像63であり、撮影画像63n-2は、第2の撮影装置41-2で撮影された撮影画像63であり、以下同様に、撮影画像63n-27は、第27の撮影装置41-27で撮影された撮影画像63である。撮影時の撮影装置41の台数は、自由視点画像を生成する際の既知の視点数となるため、多ければ多いほど、自由視点画像(テクスチャ画像)を高精度に表現することができる。
 既存3Dモデル51の第nフレームのボーン情報61は、第nフレームの27枚の撮影画像63n-1乃至63n-27の少なくとも1枚の撮影画像63から抽出されたボーン情報で構成される。図4の例では、ボーン情報61が、第1の撮影装置41-1で撮影された撮影画像63n-1から抽出されたボーン情報61n-1と、第7の撮影装置41-7で撮影された撮影画像63n-7から抽出されたボーン情報61n-7との、2枚の撮影画像63から抽出されたボーン情報で構成されている。
 図4に示されるボーン情報61は、撮影画像63に対応して2次元形式で保持する形式であり、上述した、関節idと、関節の2次元位置を示す位置情報(u,v)と、関節の回転方向を示す回転情報Rとで表現されている。ボーン情報61は、上述した3次元形式で保持する形式でもよい。その場合、3次元形式のボーン情報61を、各撮影装置41に投影することで、撮影画像63に対応するボーン情報を算出することができる。
 なお、ボーン情報61は、撮影装置41で撮影された撮影画像63から抽出する手法の他、撮影時に被写体である人物の関節位置にトラッキングセンサを着けた状態で撮影し、トラッキングセンサのセンサ情報をボーン情報61とすることもできる。ここで使用可能なトラッキングセンサには、例えば、スマートフォン等で利用されているジャイロセンサなどがある。
 ボーン情報61は、撮影画像63に対応する情報であり、画像データではなく、位置情報や回転情報がテキスト形式で保存されているだけであるので、ボーン情報61のデータサイズは、例えば1KB程度と極めて小さい。
 既存3Dモデル51の3Dモデルデータを3DモデルDB33に記憶する場合には、例えば、AVC(Advanced Video Coding)方式、HEVC(High Efficiency Video Coding)方式等の符号化方式で符号化して記憶することができる。ボーン情報61のデータサイズは極めて小さいので、ボーン情報61は、テクスチャデータのメタ情報としてヘッダ等に格納して記憶することができる。既存3Dモデル51や新3Dモデルを所定のネットワークを介して他の装置へ伝送する場合も、このような符号化方式で符号化した符号化データで伝送することができる。
 既存3Dモデルのメタ情報としては、ボーン情報の他、例えば、以下のような情報を保持することができる。
・人の関節、姿勢、表情、口の動き等の特徴点を示す情報
・音声情報、音楽情報
 例えば、「えい、えい、おー」や「バンザイ」などの音声情報から、ジェスチャーの推定が可能となる。また例えば、ラジオ体操の音楽など、音楽によっては決まった動作(振付)がある。
・ジェスチャー(動作)の名前
 例えば、「バイバイ」、「ジャンプ」、「歩く」、「走る」などの動作を示す名前を設定しておくことができる。
・人の名前、性別、身長、体重、年齢
・撮影環境
・服装
・人数
 被写体は一人の場合もあれば、複数の場合もある。
・人物以外の動物や装置(ロボット)等の名称
 犬、猫、など
 上記の情報をメタ情報として全て保持する必要はなく、いずれか1つでもよいし、任意の情報を選択して保持することができる。また、メタ情報は、既存3Dモデル51の撮影画像63単位で保持してもよいし、3Dモデル単位で保持してもよい。このようなメタ情報を保持することで、撮影装置11で撮影された動画像のボーン情報と、3DモデルDB33に記憶されている既存3モデルのボーン情報とを比較し、類似の動作を検索する場合に有用となる。すなわち、類似動作の検索を高精度かつ高速に実行することができる。
<3.新3Dモデルの動画像データ生成処理>
 次に、図5を参照して、画像処理装置12が、撮影装置11で撮影された動画像に対応する新3Dモデルの動画像データを生成する処理ついて説明する。なお、図5の例では、簡単のため、被写体を撮影する撮影装置11の台数を1台とする。
 1台の撮影装置11が、被写体としての人物を撮影し、その結果得られた動画像71Mが、入力動画像として、画像処理装置12の画像取得部31に供給される。撮影装置11から画像処理装置12へ入力される入力動画像71Mは、図5に示されるように、第1フレームの撮影画像71、第2フレームの撮影画像71、第3フレームの撮影画像71、・・・で構成されている。
 特徴量計算部32は、入力動画像71Mに含まれる被写体である人物の動作の特徴を示す特徴量をフレームごとに計算し、類似検索部34に供給する。より具体的には、特徴量計算部32は、第1フレームの撮影画像71、第2フレームの撮影画像71、第3フレームの撮影画像71、・・・の各フレームに対し、特徴量として、人物の各関節位置を推定する。また、特徴量計算部32は、入力動画像71Mの各フレームに対して、特徴量としての関節位置を推定した際、推定結果の精度を示す情報として、信頼度も合わせて算出する。関節位置の信頼度の算出は、例えば、人の姿勢(骨格)としてあり得ないような動きの検出のため、一般に用いられている。入力動画像71Mを構成する撮影画像71ごとに、特徴量計算部32によって算出された人物の各関節位置情報と信頼度が、類似検索部34に供給される。
 類似検索部34は、特徴量計算部32から供給された、入力動画像71Mに写る人物の動作に類似する動作を、3DモデルDB33に記憶されている1以上の既存3Dモデル51のなかから検索する処理を実行する。
 図4を参照して説明したように、既存3Dモデル51は、動画像データであり、フレームごとに、ボーン情報61、3D形状データ62、および、複数台の撮影装置41で撮影された複数の撮影画像63を備えているので、類似検索部34は、入力動画像71Mを構成する各撮影画像71のフレームごとに、最も類似する動作をとっている既存3Dモデル51の所定のフレーム(撮影画像63)を検索(検出)する。
 図5の例では、類似検索部34による検索の結果、入力動画像71Mの第1フレームの撮影画像71に最も類似する既存3Dモデル51のフレームとして、3DモデルDB33に記憶されている既存3Dモデル51Aの第5フレームのボーン情報61A、3D形状データ62A、および、撮影画像63A(63A5-1乃至63A5-27)が検索されている。27枚の撮影画像63A5-1乃至63A5-27のうちの、第14の撮影装置41-14で撮影された撮影画像63A5-14が、第1フレームの撮影画像71の視点と最も類似の視点で撮影された撮影画像63Aである。
 また、入力動画像71Mの第2フレームの撮影画像71に最も類似する既存3Dモデル51のフレームとして、3DモデルDB33に記憶されている既存3Dモデル51Pの第21フレームのボーン情報61P21、3D形状データ62P21、および、撮影画像63P21(63P21-1乃至63P21-27)が検索されている。27枚の撮影画像63P21-1乃至63P21-27のうちの、第8の撮影装置41-8で撮影された撮影画像63P21-8が、第2フレームの撮影画像71の視点と最も類似の視点で撮影された撮影画像63P21である。
 さらに、入力動画像71Mの第3フレームの撮影画像71に最も類似する既存3Dモデル51のフレームとして、3DモデルDB33に記憶されている既存3Dモデル51Hの第7フレームのボーン情報61H、3D形状データ62H、および、撮影画像63H71(63H7-1乃至63H7-27)が検索されている。27枚の撮影画像63H7-1乃至63H7-27のうちの、第3の撮影装置41-3で撮影された撮影画像63H7-3が、第3フレームの撮影画像71の視点と最も類似の視点で撮影された撮影画像63Hである。
 入力動画像71Mの第4フレーム以降の各撮影画像71についても、以下、同様に、3DモデルDB33に記憶されている複数の既存3Dモデル51のなかから、最も類似する動作をとっているフレーム(撮影画像63)が検索される。
 なお、仮に、入力動画像71Mの人物の動作が、同じ動作を繰り返し行っているような場合には、少ない数の既存3Dモデル51で新3Dモデルの動画像データを生成できる。例えば、入力動画像71Mが第1フレーム乃至第3フレームの撮影画像71乃至71の繰り返しのような動作である場合には、新3Dモデルの動画像データは、既存3Dモデル51A、既存3Dモデル51P、既存3Dモデル51Hの3個の既存3Dモデル51のみで、自由視点画像の動画像を生成することができる。
 以上のように、少ない台数の撮影装置11で撮影され、画像処理装置12に入力された入力動画像71Mの各フレームについて、最も類似する動作をとっている既存3Dモデル51の動画像のフレームが検索される。
 入力動画像71Mの各フレームに対して検索された、既存3Dモデル51の動画像の各フレームを、入力動画像71Mのフレームの順番に配列することにより、撮影装置11で撮影された被写体の動作に対応する新3Dモデルが生成される。換言すれば、少ない台数の撮影装置11で撮影された入力動画像71Mから、27台の撮影装置11(撮影装置41)を使って撮影したときと同じ精度の3Dモデルの動画像データが生成され、新3Dモデルの動画像データとして、レンダリング部35に供給される。生成された新3Dモデルの動画像データのフレーム数は、入力動画像71Mのフレーム数と同一となる。
<4.動画生成処理のフローチャート>
 次に、図6のフローチャートを参照して、図1の画像処理システム1において、撮影装置11による被写体の撮影から、新3Dモデルを生成し、生成した新3Dモデルを所定の仮想視点から見た2D動画像を表示装置13に表示するまでを連続して実行するとした場合の処理である動画生成表示処理について説明する。
 この処理は、例えば、撮影装置11または画像処理装置12に対して、撮影装置11による被写体(人物)の撮影の開始が指示された場合に開始される。
 初めに、ステップS1において、3台の撮影装置11―1乃至11-3は、被写体である人物の撮影を開始する。各撮影装置11により撮影された動画像は、入力動画像として、順次、画像処理装置12へ供給される。
 画像処理装置12へ入力動画像として供給される動画像は、人物の動作を特定可能であればよいので、例えば、ユーザが人の動作を手書きで作成した画像(動画像または静止画)であったり、予め別途作成された既存のモーションのCG動画などを入力としてもよい。また、後のステップS3で特徴量として計算する関節位置の情報に相当する、トラッキングセンサのセンサ情報を入力としてもよい。
 ステップS2において、画像処理装置12の画像取得部31は、各撮影装置11から供給された入力動画像の動画像データを取得し、特徴量計算部32に供給する。
 ステップS3において、特徴量計算部32は、撮影装置11-1乃至11-3それぞれから供給される人物の動画像データを用いて、人物の動作の特徴を示す特徴量をフレームごとに計算し、類似検索部34に供給する。具体的には、特徴量計算部32は、入力動画像のフレームごとに、特徴量として、人物の各関節の関節位置を推定する。複数台の撮影装置11により被写体である人物が撮影されている場合には、特徴点のマッチング処理や、三角測量の原理を用いて、高精度に関節位置が推定できる。撮影装置11が1台の場合には、ユーザに身長などを入力(指定)してもらうことで、人物の大きさを特定し、関節位置を推定することができる。
 ステップS4において、特徴量計算部32は、推定した各関節の関節位置の推定精度として信頼度を算出し、類似検索部34に供給する。
 ステップS5において、類似検索部34は、新3Dモデルの動画像データを生成する新3Dモデルデータ生成処理を実行する。この処理の詳細は、図7を参照して後述するが、入力動画像71Mを構成する各撮影画像71のフレームごとに、入力動画像71Mの人物の動きに最も類似する動作をとっている既存3Dモデル51の所定のフレーム(撮影画像63)が検索され、入力動画像71Mと同じフレーム順番に配列することで、新3Dモデルの動画像データが生成される。生成された新3Dモデルの動画像データは、レンダリング部35に供給される。レンダリング部35に供給される新3Dモデルの動画像データは、ボーン情報がヘッダ等に含まれたままでもよいし、レンダリング処理にはボーン情報は不要であるので、一般的な3Dモデルデータと同様、3D形状データとテクスチャデータのみでもよい。
 ステップS6において、レンダリング部35は、類似検索部34から供給された新3Dモデルの動画像データを用いて自由視点画像を生成し、表示装置13に表示させる自由視点画像表示処理を実行する。自由視点画像表示処理の詳細は、図8を参照して後述するが、類似検索部34から供給された新3Dモデルを所定の仮想視点から見た2D動画像を、自由視点画像として生成し、表示装置13に表示させる。仮想視点は、例えば操作部36から指定される。
 以上で動画生成処理が終了する。動画生成処理において、ステップS4で算出された推定精度が低い(信頼度が所定値以下である)場合には、ステップS5以降の処理を中止したり、ステップS5において、入力動画像71Mの動作に類似する動作をとっている既存3Dモデル51を各フレームについて複数個抽出するようにして、複数個の既存3Dモデル51のなかから所定の一つをユーザに選択させることで、類似する動作をとっている既存3Dモデル51を決定してもよい。
 図7は、図6のステップS5で実行される新3Dモデルデータ生成処理の詳細なフローチャートである。
 この処理では、初めに、ステップS21において、類似検索部34は、特徴量計算部32から供給された入力動画像71Mのフレーム番号を識別する変数nに、初期値である1を設定する。
 ステップS22において、類似検索部34は、入力動画像71Mの第n番目のフレーム(撮影画像71)を選択する。
 ステップS23において、類似検索部34は、3DモデルDB33から、所定の1つの既存3Dモデル51を選択する。
 ステップS24において、類似検索部34は、選択した既存3Dモデル51の所定の1フレーム(撮影画像63)を、ランダムに選択する。
 ステップS25において、類似検索部34は、入力動画像71Mの人物と、選択された既存3Dモデル51の人物が同一であるかを判定する。入力動画像71Mの人物と、選択された既存3Dモデル51の人物が同一であるかは、メタ情報として、人の名前、性別、身長、体重、年齢などの情報が保持されている場合には、その情報を利用して判定することができる。このようなメタ情報が保持されていない場合には、例えば、顔認識等により判定することができる。
 ステップS25で、入力動画像71Mの人物と、選択された既存3Dモデル51の人物が同一ではないと判定された場合、処理はステップS26に進み、類似検索部34は、入力動画像71Mの人物の特徴量のスケールを、既存3Dモデル51の人物の特徴量に合わせる。例えば、入力動画像71Mの人物の骨格の全長が、既存3Dモデル51の人物の骨格の全長と一致するようにスケーリングされる。スケーリングは、関節位置以外にも、右腕、左腕、胴体、右足、左足、頭部などのようにボディパーツごとに行うようにしもよい。
 一方、ステップS25で、入力動画像71Mの人物と、選択された既存3Dモデル51の人物が同一であると判定された場合、ステップS26の処理はスキップされ、処理はステップS27に進む。
 ステップS27において、類似検索部34は、入力動画像71Mの特徴量と、選択された既存3Dモデル51の特徴量を比較し、合致度合いを計算する。類似検索部34は、例えば、ボーン情報である各関節の関節位置どうしを比較し、位置情報の差分の合計値の逆数等で合致度合いを計算することができる。
 ステップS28において、類似検索部34は、計算された合致度合いが、予め設定した所定の閾値TH1以上であるかを判定する。閾値TH1は、図5で説明した類似動作の検索において最も類似すると判定した場合に相当する合致度合いの値とされる。
 ステップS28で、計算された合致度合いが所定の閾値TH1以上ではないと判定された場合、処理はステップS29に進み、類似検索部34は、いま選択しているフレームに対して時間方向をずらしたフレームを探索する。すなわち、類似検索部34は、ステップS24でランダムに選択した撮影画像71を基準に、時間方向を所定範囲内でずらした複数枚のフレーム(撮影画像63)を選択し、特徴量の合致度合いを計算する。
 ステップS30において、類似検索部34は、時間方向をずらして探索した1以上のフレームの合致度合いが所定の閾値TH1以上であるかを判定する。
 ステップS30で、時間方向をずらして探索した1以上のフレームの合致度合いが所定の閾値TH1以上ではないと判定された場合、処理はステップS31へ進み、類似検索部34は、いま選択中の既存3Dモデル51に対するランダムな探索を所定回数探索したかを判定する。
 ステップS31で、いま選択中の既存3Dモデル51をまだ所定回数探索していないと判定された場合、処理はステップS24に戻り、ステップS24乃至S33が繰り返される。
 一方、ステップS31で、いま選択中の既存3Dモデル51を所定回数探索したと判定された場合、処理はステップS32に進み、類似検索部34は、3DモデルDB33に記憶されている全ての既存3Dモデル51を選択したかを判定する。
 ステップS32で、3DモデルDB33に記憶されている全ての既存3Dモデル51をまだ選択していないと判定された場合、処理はステップS23に戻り、ステップS23乃至S33が繰り返される。
 一方、ステップS32で、3DモデルDB33に記憶されている全ての既存3Dモデル51を選択したと判定された場合、処理はステップS34に進む。
 一方、上述したステップS28で、計算された合致度合いが所定の閾値TH1以上であると判定された場合、処理はステップS33に進み、類似検索部34は、合致した既存3Dモデル51のフレーム(撮影画像63)と合致度合いを、内部メモリに記憶する。
 ステップS22乃至S33で実行される処理を要約すると、選択した入力動画像71Mの第n番目のフレーム(撮影画像71)について、選択した既存3Dモデル51からランダムに選択した選択フレームと、時間方向にずらしたフレームとのなかで、合致度合いが所定の閾値TH1以上のフレームがないかが探索される。合致度合いが所定の閾値TH1以上のフレームがない場合には、選択した既存3Dモデル51のフレームをランダムに選択して探索する処理が複数回繰り返される。選択した既存3Dモデル51について、所定回数ランダムに選択しても合致度合いが所定の閾値TH1以上のフレームがない場合には、類似検索部34は、その選択した既存3Dモデル51に類似動作のフレームはないと判定し、他の既存3Dモデル51を選択し直し、合致度合いが所定の閾値TH1以上のフレームが検出されるまで、3DモデルDB33の各既存3Dモデル51について探索する。
 ステップS34において、類似検索部34は、入力動画像71Mの全てのフレームについて探索したかを判定する。
 ステップS34で、入力動画像71Mの全てのフレームについてまだ探索していないと判定された場合、処理はステップS35に進み、類似検索部34は、入力動画像71Mのフレーム番号を識別する変数nを1だけインクリメントした後、処理をステップS22に戻す。これにより、入力動画像71Mの次のフレームについて、上述したステップS22乃至S34が実行される。
 一方、ステップS34で、入力動画像71Mの全てのフレームについて探索したと判定された場合、処理はステップS36に進み、類似検索部34は、内部メモリに記憶しておいた、合致した既存3Dモデル51の各フレームを、入力動画像71Mと同じフレーム順番に配列することで、新3Dモデルの動画像データを生成し、レンダリング部35に供給する。
 既存3Dモデル51のフレームとともに記憶しておいた合致度合いも、レンダリング部35に供給される。なお、合致度合いは、入力動画像71Mのフレームに対応する既存3Dモデル51のフレーム単位ではなく、ボディパーツ単位や、3Dモデル単位でもよい。
 以上で、新3Dモデルデータ生成処理は終了し、処理は図6に戻って、次のステップS6に進められる。
 以上の新3Dモデルデータ生成処理によれば、入力動画像71Mの各フレーム(撮影画像71)について、合致度合いが所定の閾値TH1以上の既存3Dモデル51のフレーム(撮影画像63)が探索され、探索された既存3Dモデル51の各フレームと合致度合いが、新3Dモデルの動画像データとしてレンダリング部35に供給される。
 上述した新3Dモデルデータ生成処理において、ボーン情報である各関節の関節位置どうしを比較して、類似の既存3Dモデル51のフレームが検出できない場合には、マルチテクスチャ形式で記憶されている既存3Dモデルの2次元テクスチャ画像と、入力動画像71Mの各フレーム(撮影画像71)とを画像比較して、類似の既存3Dモデル51のフレーム(撮影画像63)を検索する処理を追加してもよい。
 上述した例では、図5等で説明した処理と同様に、入力動画像71Mの画像内に、被写体である人物が全身写っているものとして説明したが、入力動画像71Mの人物が、例えば、上半身のみのように、体の一部分である場合には、既存3Dモデル51の人物との合致度合いも、対応する一部分のみと比較して探索すればよい。
 上述した例では、合致する既存3Dモデル51のフレームを、ランダムに選択して探索する例を示したが、ランダムに選択するのではなく、先頭フレームから順番に選択して探索してもよい。ただし、ランダムに選択して探索する方が、より高速に探索することができる。
 また、上述した例では、入力動画像71Mの各フレームに合致する既存3Dモデル51のフレームを、1フレームのみレンダリング部35に供給するようにしたが、合致したフレームの前後のフレームも含めた複数フレームをレンダリング部35に供給するようにしてもよい。合致したフレームの前後のフレームは、後述する図8の自由視点画像の生成においてエフェクト処理等に利用することができる。
 図8は、図6のステップS6で実行される自由視点画像表示処理の詳細なフローチャートである。
 この処理では、初めに、ステップS51において、レンダリング部35は、新3Dモデルのフレーム番号を識別する変数pに、初期値である1を設定する。
 ステップS52において、レンダリング部35は、新3Dモデルの第p番目のフレームを選択する。
 ステップS53において、レンダリング部35は、新3Dモデルの第p番目のフレームの合致度合いが所定の閾値TH2以上であるかを判定する。閾値TH2は、図7の新3Dモデルデータ生成処理の閾値TH1と同一でもよいし、異なる値でもよい。
 ステップS53で、新3Dモデルの第p番目のフレームの合致度合いが所定の閾値TH2以上であると判定された場合、処理はステップS54に進み、レンダリング部35は、新3Dモデルの第p番目のフレームを用いて、新3Dモデルを所定の仮想視点から見た第p番目の自由視点画像を生成する。新3Dモデルを、仮想視点の視聴範囲に透視投影することにより、第p番目の自由視点画像が生成される。
 一方、ステップS53で、新3Dモデルの第p番目のフレームの合致度合いが所定の閾値TH2より小さいと判定された場合、処理はステップS55に進み、レンダリング部35は、第p番目の自由視点画像を、エフェクト処理により生成する画像として内部メモリに記憶する。
 ステップS54またはS55の後、処理はステップS56に進み、レンダリング部35は、新3Dモデルの全てのフレームについて選択したかを判定する。
 ステップS56で、新3Dモデルの全てのフレームについてまだ選択していないと判定された場合、処理はステップS57に進み、レンダリング部35は、新3Dモデルのフレーム番号を識別する変数pを1だけインクリメントした後、処理をステップS52に戻す。これにより、新3Dモデルの次のフレームについて、上述したステップS52乃至S56の処理が実行される。
 一方、ステップS56で、新3Dモデルの全てのフレームについて選択したと判定された場合、処理はステップS58に進み、レンダリング部35は、まだ自由視点画像を生成していないフレームを、エフェクト処理(加工処理)により生成する。すなわち、上述したステップS55においてエフェクト処理により生成する画像とされたフレームの自由視点画像が、ステップS58で生成される。
 ステップS58においてエフェクト処理により生成する自由視点画像は、合致度合いが閾値TH2より低い画像である。ここで、第p番目のフレームが、合致度合いが低いフレームであるとする。
 レンダリング部35は、例えば、第p番目のフレームの前後の第(p-1)番目と第(p+1)番目のフレームの自由視点画像を合成することで、第p番目のフレームの自由視点画像を生成する。あるいはまた、新3Dモデルの第p番目のフレームを用いて生成した第p番目のフレームの自由視点画像を70%、第(p-1)番目のフレームの自由視点画像を15%、第(p+1)番目のフレームの自由視点画像を15%の比率で合成することで生成してもよい。
 あるいはまた、第p番目のフレームの自由視点画像として、その前の第(p-1)番目のフレームの自由視点画像をそのまま用いてもよい。
 あるいはまた、図7の新3Dモデルデータ生成処理において、類似検索部34が、合致した既存3Dモデル51のフレームの前後のフレームも含めた複数フレーム(例えば3枚)をレンダリング部35に供給している場合には、例えば、第(p-1)番目の既存3Dモデル51から生成した3枚のフレームの自由視点画像のうち、第(p-1)番目のフレームの時間的方向に後のフレームを、第p番目のフレームの自由視点画像としてもよい。
 合致度合いがボディパーツ単位で設定されている場合には、エフェクト処理もボディパーツ単位行って自由視点画像を生成してもよい。
 ステップS59において、レンダリング部35は、新3Dモデルを所定の仮想視点から見た動画像を表示装置13に表示させる。すなわち、レンダリング部35は、上述したステップS51乃至S58で生成した新3Dモデルに基づく自由視点画像の動画像を先頭のフレームから順番に表示装置13に表示させる。
 レンダリング部35は、新3Dモデルの各フレームの合致度合いのなかで合致度合いが最も大きいフレームをキーフレームに決定し、キーフレームの新3Dモデルについては、エフェクト処理を行わないように制御することで、精度の良い自由視点画像を生成することができる。
 以上で、図6のステップS6としての自由視点画像表示処理が終了し、動画生成処理全体も終了する。
 図6のフローチャートは、図1の画像処理システム1において、撮影装置11による被写体の撮影から、新3Dモデルを生成し、生成した新3Dモデルを所定の仮想視点から見た2D動画像を表示装置13に表示するまでを連続して実行するものとして、一連の処理を説明したが、これらの処理は、必要に応じて部分的に、分割された処理単位で実行することができる。例えば、被写体を撮影装置11で撮影して動画像71Mを入力動画像として画像処理装置12に入力する処理、入力動画像71Mに類似する新3Dモデルを生成する処理、新3Dモデルを所定の仮想視点で見た2D動画像を生成および表示する処理、などに分けて、任意のタイミングで実行することができる。
 上述した画像処理システム1の動画生成処理によれば、少ない台数の撮影装置11で撮影した動画像71Mを入力動画像として、3DモデルDB33に記憶されている既存3Dモデルと同じ撮影台数で撮影した場合と同じ高精度の3Dモデル(新3Dモデル)を生成することができ、また、その3Dモデルを自由な視点から見た自由視点画像の動画像(2D動画像)を生成、表示することができる。すなわち、少ない台数の撮影装置11による簡単な撮影で、精度の良い自由視点画像の生成、表示が可能となる。
 画像処理装置12の3DモデルDB33は、既存3Dモデルの動画像データ(3Dモデルデータ)としてボーン情報を記憶している。類似検索部34は、特徴量計算部32が入力動画像71Mの各フレームから特徴量として計算した人物の関節位置と、既存3Dモデルのボーン情報とを比較することで、被写体である人物と類似の動作(姿勢)を行っている既存3Dモデル51のフレームを、高精度かつ高速に検索することができる。ボーン情報は、テキストで保存可能な情報であり、テクスチャデータと比較してデータサイズが小さい。したがって、画像処理システム1によれば、3Dモデルの動画像データ(3Dモデルデータ)としてボーン情報を保持することにより、被写体である人物の動作(姿勢)と類似する3Dモデルデータの検索を容易に行うことができる。
 さらに、ボーン情報を用いて、入力動画像71Mのフレーム単位で、そのフレームの人物の動作に類似する既存3Dモデル51のフレームを検索し、時間方向に滑らかに繋ぐことで、自然な動画像を生成することができる。
 一般に、従来のモーションキャプチャーシステムのように、ユーザの動きを検知するセンサをユーザに装着させ、CGで作成されたキャラクタや実写映像の人物が、検知された動作と同じような動きを再現するようなシステムと比較すると、映像上の人物(キャラクタ)の骨格とセンサを装着した人物の骨格の違い等により動きが不自然になることもなく、センサを装着する必要もない。
 入力動画像71Mの動作(フレーム)と既存3Dモデル51との合致度合いを算出し、合致度合いが所定の閾値TH2より低い場合には、エフェクト処理により自由視点画像を生成することにより、より自然な動きの動画像を生成することができる。
 合致度合いが所定の閾値TH2より低いフレームについては、新3Dモデルからのレンダリング処理で生成した前後の自由視点画像のエフェクト処理によって自由視点画像を生成することを原則とするが、フレーム間の繋ぎがあまりにも不自然な場合には、前後の新3Dモデルを合成した合成3Dモデルを生成し、その合成3Dモデルから自由視点画像を生成してもよい。
 なお、上述した実施の形態では、動画像を入力として、自由視点画像の動画像を生成する例について説明したが、フレーム単位で、類似の既存3Dモデル51のフレームを検索するので、入力が動画像ではなく、1枚の静止画であっても、類似の既存3Dモデル51のフレームを検索することが可能である。すなわち、本技術のボーン情報を用いて類似動作を行う画像の検索処理は、動画像だけでなく、静止画にも適用することができる。
 また、上述した画像処理システム1の動画像の生成では、人物の全身を、類似動作の検索対象としたが、検索対象が、足や手の動き、顔の表情など、人物の一部のボディパーツである場合もあり得る。そのような場合は、入力動画像71Mに全身が含まれる場合であっても、所望のボディパーツを指定することにより、所望のボディパーツのみを検索することができる。勿論、入力動画像71Mに一部のボディパーツのみしか写っていない場合も同様に可能である。
<5.ハイフレームレート変換の例>
 上述した実施の形態では、入力動画像71Mのフレーム数と同一のフレーム数で、自由視点画像の動画像が生成された。
 3DモデルDB33に記憶されている既存3Dモデル51のフレームレートが、入力動画像71Mのフレームレートよりも高い(ハイフレームレート)である場合には、入力動画像71Mのフレームレートよりも高いハイフレームレートの自由視点画像の動画像を生成して表示することも可能である。
 図9は、入力動画像のフレームレートよりもハイフレームレートの自由視点画像の動画像を生成して表示する例を示している。
 図9の例では、入力動画像のフレームレートが60fpsであり、時刻t=1の入力動画像の撮影画像101と類似する既存3Dモデル51のフレームとして、既存3Dモデル51Eの第5フレームの第7の撮影装置41-7で撮影された撮影画像63E5-7が検索された。
 また、時刻t=2の入力動画像の撮影画像101と類似する既存3Dモデル51のフレームとして、同じ既存3Dモデル51Eの第7フレームの第7の撮影装置41-7で撮影された撮影画像63E7-7が検索された。ここで、既存3Dモデル51Eは、フレームレートが120fpsの3Dモデルデータである。
 この場合、画像処理装置12は、時刻t=1の新3Dモデル111のフレーム111には、既存3Dモデル51Eの第5フレームを用いて、時刻t=2の新3Dモデル111のフレーム111には、既存3Dモデル51Eの第7フレームを用いることができる。
 さらに、画像処理装置12は、120fpsの既存3Dモデル51Eの第5フレームと第7フレームとの間にある、第6フレームの第7の撮影装置41-7で撮影された撮影画像63E6-7を、時刻t=1とt=2との間の時刻t=1Mの新3Dモデル111のフレーム1111Mとして生成し、ハイフレームレートの自由視点画像の動画像を生成、表示することができる。
<6.画像処理システムの第2実施の形態>
 図10は、本技術を適用した画像処理システムの第2実施の形態の構成例を示すブロック図である。
 図10の第2実施の形態において、図1に示した第1実施の形態と対応する部分については同一の符号を付してあり、その部分の説明は適宜省略する。
 第2実施の形態に係る画像処理システム1は、複数の撮影装置11(11-1乃至11-3)と、画像処理装置12と、サーバ装置141と、表示装置13とで構成されている。
 画像処理装置12は、画像取得部31、特徴量計算部32、レンダリング部35、操作部36、および、通信部151を備える。サーバ装置141は、3DモデルDB33、類似検索部34、および、通信部152を備える。
 第2実施の形態に係る画像処理システム1を、図1の第1実施の形態と比較すると、画像処理装置12の一部の機能が、サーバ装置141へ移動され、画像処理装置12とサーバ装置141との間で、所定の情報が授受される。
 画像処理装置12の通信部151は、サーバ装置141の通信部152と、所定のネットワークを介した通信を行う。サーバ装置141の通信部152は、画像処理装置12の通信部151と、所定のネットワークを介した通信を行う。画像処理装置12とサーバ装置141との間のネットワークは、例えば、インターネット、電話回線網、衛星通信網、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(WIDe Area Network)、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網などで構成される。
 より具体的には、画像処理装置12の通信部151は、特徴量計算部32で計算された特徴量であるボーン情報を、サーバ装置141の通信部152に送信し、サーバ装置141の通信部152から送信されてくる、新3Dモデルの動画像データ(3Dモデルデータ)を受信して、レンダリング部35に供給する。
 サーバ装置141の通信部152は、画像処理装置12の通信部151から送信されてくる、特徴量としてのボーン情報を受信して、類似検索部34に供給する。類似検索部34は、画像処理装置12が計算したボーン情報に類似する動作を、3DモデルDB33のなかから検索し、新3Dモデルの動画像データを生成する。そして、通信部152は、類似検索部34で生成された、新3Dモデルの動画像データ(3Dモデルデータ)を、画像処理装置12の通信部151に送信する。通信部152は、検索された新3Dモデルの動画像データを画像処理装置12に出力する出力部として機能する。
 以上のように、第1実施の形態において画像処理装置12が実行していた処理の一部は、サーバ装置141などの他の装置で実行させる構成とすることができる。
 なお、画像処理装置12とサーバ装置141それぞれが分担する機能は、上述した例に限定されず、任意に決定することができる。
 例えば、類似検索部34に入力される特徴量としてのボーン情報は、図10の構成のように、他の装置(画像処理装置12)が生成したものでもよいし、図11に示されるように、サーバ装置141が特徴量計算部32も備え、自身の装置内で動画像データから生成したものを入力する構成としてもよい。この場合、画像処理装置12は、3台の撮影装置11-1乃至11-3で撮影された動画像データを取得して、サーバ装置141へ送信する処理と、サーバ装置141で生成された新3Dモデルの動画像データ(3Dモデルデータ)を取得して、自由視点による動画像(2D動画像)を生成し、表示装置13に表示させる処理とを行う。サーバ装置141は、入力動画像の特徴量の計算と、計算された特徴量に基づいて、類似する既存3Dモデル51を検索し、入力動画像に対応する新3Dモデルの生成を行う。
 新3Dモデルの3Dモデルデータを、ネットワークを介して伝送する場合に、例えば、AVC方式、HEVC方式等の符号化方式で符号化して送信することができるが、キーフレームなどの合致度合いが大きいフレームについては、圧縮率を上げずに、できるだけ圧縮しないようにして送信することが好ましい。また、キーフレームがどれであるかをわかるようにして伝送することが好ましい。レンダリング部35が自由視点画像の生成(レンダリング処理)を行う場合に、キーフレームの重みを大きくして自由視点画像を生成することで、自由視点画像を高精度に生成、表示することができる。
 新3Dモデルの3Dモデルデータを、ネットワークを介して伝送すると、データサイズが大きく、負荷が大きい場合、新3Dモデルの3Dモデルデータのうちのボーン情報のみを画像処理装置12に送信し、入力動画像または予め内部に記憶しているテクスチャを使って、ボーン情報に基づいて自由視点画像を生成、表示してもよい。ボーン情報のみを送信する場合、動画像の全フレームのボーン情報でもよいし、均等またはランダムにサンプリングされた一部のフレームのボーン情報でもよい。
<7.画像処理システムの第3実施の形態>
 図12は、本技術を適用した画像処理システムの第3実施の形態の構成例を示すブロック図である。
 図12の第3実施の形態において、図11に示した第2実施の形態の変形例と対応する部分については同一の符号を付してあり、その部分の説明は適宜省略する。
 第3実施の形態に係る画像処理システム1は、1台の撮影装置11と表示装置13が画像処理装置12の一部として組み込まれており、画像処理装置12と、サーバ装置141とで構成されている。また、レンダリング部35が、画像処理装置12ではなく、サーバ装置141に設けられており、画像処理装置12には、表示制御部161が新たに設けられている。
 画像処理装置12は、撮影装置11で撮影された動画像データを、サーバ装置141へ送信する。また、操作部36においてユーザが指定した仮想視点も、画像処理装置12からサーバ装置141へ送信される。サーバ装置14で受信された仮想視点は、レンダリング部35に供給される。
 レンダリング部35は、類似検索部34で生成された新3Dモデルを、画像処理装置12から送信されてきた仮想視点から見た2D動画像を生成し、通信部152を介して、画像処理装置12へ送信する。
 画像処理装置12の表示制御部161は、通信部151を介して取得した2D動画像を、表示装置13に表示させる。
 このような構成の画像処理装置12は、撮影装置11による被写体の撮影と、サーバ装置141で生成された2D動画像の表示の処理ができればよく、例えば、ユーザのスマートフォン等で容易に実現することができる。
<8.変形例>
 上述した実施の形態においては、被写体を人物として、人物が所定の動作を行う動画像に類似する新3Dモデルの生成および表示を行う例について説明したが、被写体は人物(人間)に限られない。例えば、猫、犬などの動物でもよいし、野球のバット、ゴルフのクラブなどの物品でもよい。バットやゴルフクラブのスイング軌道などの動画像を入力動画像として、新3Dモデルの生成および表示を行うことも可能である。
 上述した実施の形態においては、入力動画像の動作(フレーム)と既存3Dモデルとの合致度合いを算出し、自由視点画像を生成する際のエフェクト処理の要否の参考とした。その他、入力動画像の動作と既存3Dモデルとの合致度合いを、そのまま数値として出力し、ユーザに提示(ビジュアライズ)してもよい。例えば、入力動画像がユーザの動作で、既存3Dモデルの動作がプロ選手の動作である場合に、入力動画像のユーザの動作が、プロ選手の動作とどれだけ一致しているかを数値化して出力することで、スポーツ解析等に役立つ。
<9.コンピュータ構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部207は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部208は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。RAM203にはまた、CPU201が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
 なお、本技術は、以下の構成を取ることができる。
(1)
 複数の3Dモデルと前記複数の3Dモデルの各々に対応する複数の3Dモデルの特徴量を記憶する記憶部と、
 入力された被写体の特徴量と、前記記憶部に記憶されている前記3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つ3Dモデルを検索する検索部と、
 前記検索部によって検索された前記3Dモデルを出力する出力部と
 を備える画像処理装置。
(2)
 前記被写体の特徴量は、前記被写体のボーン情報であり、
 前記検索部は、前記被写体のボーン情報と、前記記憶部に記憶されている3Dモデルのボーン情報とを比較して、前記被写体のボーン情報に類似するボーン情報を持つ前記3Dモデルを検索する
 前記(1)に記載の画像処理装置。
(3)
 前記記憶部は、前記3Dモデルの動画像を記憶し、
 前記検索部は、前記被写体の特徴量と、前記記憶部からランダムに選択した前記3Dモデルのフレームの対応する特徴量とを比較し、合致度合いが所定の閾値より低い場合、選択した前記フレームに対して時間方向をずらしたフレームの対応する特徴量と、前記被写体の特徴量とを比較する
 前記(1)または(2)に記載の画像処理装置。
(4)
 前記検索部は、前記特徴量を比較する前に、前記被写体の人物と、前記記憶部に記憶されている前記3Dモデルの人物が同一であるかを判定する
 前記(1)乃至(3)のいずれかに記載の画像処理装置。
(5)
 前記被写体を撮影した画像から、前記被写体の特徴量を計算する特徴量計算部をさらに備え、
 前記検索部は、前記特徴量計算部で計算された前記被写体の特徴量を取得する
 前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)
 前記特徴量計算部は、複数台の撮影装置で前記被写体を撮影した複数の画像から、前記被写体の特徴量を計算する
 前記(5)に記載の画像処理装置。
(7)
 前記特徴量計算部は、1台の撮影装置で前記被写体を撮影した1数の画像から、前記被写体の特徴量を計算する
 前記(5)に記載の画像処理装置。
(8)
 前記被写体のボーン情報は、トラッキングセンサで取得された情報である
 前記(2)乃至(4)のいずれかに記載の画像処理装置。
(9)
 前記記憶部は、前記3Dモデルのボーン情報を、前記3Dモデルのメタ情報として記憶している
 前記(2)乃至(8)のいずれかに記載の画像処理装置。
(10)
 前記記憶部は、前記3Dモデルの動画像を記憶し、フレームごとに、ボーン情報、3D形状データ、および、テクスチャデータを記憶する
 前記(9)に記載の画像処理装置。
(11)
 前記テクスチャデータは、異なる視点の複数枚のテクスチャ画像で構成される
 前記(10)に記載の画像処理装置。
(12)
 前記検索部は、検索された前記3Dモデルの3D形状データとテクスチャデータを少なくとも出力する
 前記(1)乃至(11)のいずれかに記載の画像処理装置。
(13)
 前記検索部により検索された前記3Dモデルを所定の仮想視点から見た自由視点画像を生成するレンダリング部をさらに備える
 前記(1)乃至(12)のいずれかに記載の画像処理装置。
(14)
 前記レンダリング部は、前記3Dモデルを所定の仮想視点から見た自由視点画像の動画像を生成する
 前記(13)に記載の画像処理装置。
(15)
 前記検索部は、検索された前記3Dモデルの合致度合いも出力し、
 前記レンダリング部は、前記合致度合いが所定の閾値より低い場合、エフェクト処理により前記自由視点画像を生成する
 前記(13)または(14)に記載の画像処理装置。
(16)
 前記検索部は、入力動画像の前記被写体の特徴量と、前記記憶部に記憶されている3Dモデルの動画像の対応する特徴量とを比較し、
 前記レンダリング部は、前記入力動画像と同一のフレーム数の前記自由視点画像の動画像を生成する
 前記(13)乃至(15)のいずれかに記載の画像処理装置。
(17)
 前記検索部は、入力動画像の前記被写体の特徴量と、前記記憶部に記憶されている3Dモデルの動画像の対応する特徴量とを比較し、
 前記レンダリング部は、前記入力動画像よりもハイフレームレートの前記自由視点画像の動画像を生成する
 前記(13)乃至(15)のいずれかに記載の画像処理装置。
(18)
 被写体の特徴量と、記憶されている3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルを、所定の仮想視点から見た自由視点画像を生成するレンダリング部
 を備える画像処理装置。
(19)
 入力動画像の被写体の特徴量と、記憶されている3Dモデルの動画像の特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルの動画像を、所定の仮想視点から見た自由視点画像の動画像を生成する
 動画像データ生成方法。
 1 画像処理システム, 11 撮影装置, 12 画像処理装置, 13 表示装置, 31 画像取得部, 32 特徴量計算部, 33 3DモデルDB, 34 類似検索部, 35 レンダリング部, 36 操作部, 141 サーバ装置, 201 CPU, 202 ROM, 203 RAM, 206 入力部, 207 出力部, 208 記憶部, 209 通信部, 210 ドライブ

Claims (19)

  1.  複数の3Dモデルと前記複数の3Dモデルの各々に対応する複数の3Dモデルの特徴量を記憶する記憶部と、
     入力された被写体の特徴量と、前記記憶部に記憶されている前記3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つ3Dモデルを検索する検索部と、
     前記検索部によって検索された前記3Dモデルを出力する出力部と
     を備える画像処理装置。
  2.  前記被写体の特徴量は、前記被写体のボーン情報であり、
     前記検索部は、前記被写体のボーン情報と、前記記憶部に記憶されている3Dモデルのボーン情報とを比較して、前記被写体のボーン情報に類似するボーン情報を持つ前記3Dモデルを検索する
     請求項1に記載の画像処理装置。
  3.  前記記憶部は、前記3Dモデルの動画像を記憶し、
     前記検索部は、前記被写体の特徴量と、前記記憶部からランダムに選択した前記3Dモデルのフレームの対応する特徴量とを比較し、合致度合いが所定の閾値より低い場合、選択した前記フレームに対して時間方向をずらしたフレームの対応する特徴量と、前記被写体の特徴量とを比較する
     請求項1に記載の画像処理装置。
  4.  前記検索部は、前記特徴量を比較する前に、前記被写体の人物と、前記記憶部に記憶されている前記3Dモデルの人物が同一であるかを判定する
     請求項1に記載の画像処理装置。
  5.  前記被写体を撮影した画像から、前記被写体の特徴量を計算する特徴量計算部をさらに備え、
     前記検索部は、前記特徴量計算部で計算された前記被写体の特徴量を取得する
     請求項1に記載の画像処理装置。
  6.  前記特徴量計算部は、複数台の撮影装置で前記被写体を撮影した複数の画像から、前記被写体の特徴量を計算する
     請求項5に記載の画像処理装置。
  7.  前記特徴量計算部は、1台の撮影装置で前記被写体を撮影した1数の画像から、前記被写体の特徴量を計算する
     請求項5に記載の画像処理装置。
  8.  前記被写体のボーン情報は、トラッキングセンサで取得された情報である
     請求項2に記載の画像処理装置。
  9.  前記記憶部は、前記3Dモデルのボーン情報を、前記3Dモデルのメタ情報として記憶している
     請求項2に記載の画像処理装置。
  10.  前記記憶部は、前記3Dモデルの動画像を記憶し、フレームごとに、ボーン情報、3D形状データ、および、テクスチャデータを記憶する
     請求項9に記載の画像処理装置。
  11.  前記テクスチャデータは、異なる視点の複数枚のテクスチャ画像で構成される
     請求項10に記載の画像処理装置。
  12.  前記検索部は、検索された前記3Dモデルの3D形状データとテクスチャデータを少なくとも出力する
     請求項1に記載の画像処理装置。
  13.  前記検索部により検索された前記3Dモデルを所定の仮想視点から見た自由視点画像を生成するレンダリング部をさらに備える
     請求項1に記載の画像処理装置。
  14.  前記レンダリング部は、前記3Dモデルを所定の仮想視点から見た自由視点画像の動画像を生成する
     請求項13に記載の画像処理装置。
  15.  前記検索部は、検索された前記3Dモデルの合致度合いも出力し、
     前記レンダリング部は、前記合致度合いが所定の閾値より低い場合、エフェクト処理により前記自由視点画像を生成する
     請求項13に記載の画像処理装置。
  16.  前記検索部は、入力動画像の前記被写体の特徴量と、前記記憶部に記憶されている3Dモデルの動画像の対応する特徴量とを比較し、
     前記レンダリング部は、前記入力動画像と同一のフレーム数の前記自由視点画像の動画像を生成する
     請求項13に記載の画像処理装置。
  17.  前記検索部は、入力動画像の前記被写体の特徴量と、前記記憶部に記憶されている3Dモデルの動画像の対応する特徴量とを比較し、
     前記レンダリング部は、前記入力動画像よりもハイフレームレートの前記自由視点画像の動画像を生成する
     請求項13に記載の画像処理装置。
  18.  被写体の特徴量と、記憶されている3Dモデルの特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルを、所定の仮想視点から見た自由視点画像を生成するレンダリング部
     を備える画像処理装置。
  19.  入力動画像の被写体の特徴量と、記憶されている3Dモデルの動画像の特徴量とに基づいて、前記被写体の特徴量に類似する特徴量を持つと検索された3Dモデルの動画像を、所定の仮想視点から見た自由視点画像の動画像を生成する
     動画像データ生成方法。
PCT/JP2021/008046 2020-03-17 2021-03-03 画像処理装置、および、動画像データ生成方法 WO2021187093A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022508192A JPWO2021187093A1 (ja) 2020-03-17 2021-03-03
EP21771212.4A EP4123588A4 (en) 2020-03-17 2021-03-03 IMAGE PROCESSING DEVICE AND METHOD FOR GENERATING MOVING IMAGE DATA
CN202180020276.4A CN115280371A (zh) 2020-03-17 2021-03-03 图像处理装置和运动图像数据生成方法
US17/799,062 US20230068731A1 (en) 2020-03-17 2021-03-03 Image processing device and moving image data generation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-046666 2020-03-17
JP2020046666 2020-03-17

Publications (1)

Publication Number Publication Date
WO2021187093A1 true WO2021187093A1 (ja) 2021-09-23

Family

ID=77770865

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008046 WO2021187093A1 (ja) 2020-03-17 2021-03-03 画像処理装置、および、動画像データ生成方法

Country Status (5)

Country Link
US (1) US20230068731A1 (ja)
EP (1) EP4123588A4 (ja)
JP (1) JPWO2021187093A1 (ja)
CN (1) CN115280371A (ja)
WO (1) WO2021187093A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002369812A (ja) * 2001-06-15 2002-12-24 Babcock Hitachi Kk 頭蓋骨スーパーインポーズ方法と装置
JP2013120556A (ja) * 2011-12-08 2013-06-17 Kddi Corp 被写体姿勢推定装置および映像描画装置
WO2017082076A1 (ja) 2015-11-11 2017-05-18 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法
WO2019054202A1 (ja) * 2017-09-15 2019-03-21 ソニー株式会社 画像処理装置およびファイル生成装置
JP2019054488A (ja) * 2017-09-19 2019-04-04 キヤノン株式会社 提供装置および提供方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002369812A (ja) * 2001-06-15 2002-12-24 Babcock Hitachi Kk 頭蓋骨スーパーインポーズ方法と装置
JP2013120556A (ja) * 2011-12-08 2013-06-17 Kddi Corp 被写体姿勢推定装置および映像描画装置
WO2017082076A1 (ja) 2015-11-11 2017-05-18 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法
WO2019054202A1 (ja) * 2017-09-15 2019-03-21 ソニー株式会社 画像処理装置およびファイル生成装置
JP2019054488A (ja) * 2017-09-19 2019-04-04 キヤノン株式会社 提供装置および提供方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4123588A4

Also Published As

Publication number Publication date
EP4123588A4 (en) 2023-06-07
CN115280371A (zh) 2022-11-01
US20230068731A1 (en) 2023-03-02
EP4123588A1 (en) 2023-01-25
JPWO2021187093A1 (ja) 2021-09-23

Similar Documents

Publication Publication Date Title
JP7209333B2 (ja) 関節位置の取得方法及び装置、動作の取得方法及び装置
JP6934887B2 (ja) 単眼カメラを用いたリアルタイム3d捕捉およびライブフィードバックのための方法およびシステム
CN109145788A (zh) 基于视频的姿态数据捕捉方法和系统
CN108475439A (zh) 三维模型生成系统、三维模型生成方法以及程序
JP5795250B2 (ja) 被写体姿勢推定装置および映像描画装置
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
JP5055223B2 (ja) 映像コンテンツ生成装置及びコンピュータプログラム
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
WO2021183309A1 (en) Real time styling of motion for virtual environments
Kowalski et al. Holoface: Augmenting human-to-human interactions on hololens
KR20230148239A (ko) 신경망을 사용하는 비디오로부터의 로버스트 얼굴 애니메이션
CN110415322B (zh) 虚拟对象模型的动作指令的生成方法和装置
CN115601482A (zh) 数字人动作控制方法及其装置、设备、介质、产品
WO2021187093A1 (ja) 画像処理装置、および、動画像データ生成方法
Ekmen et al. From 2D to 3D real-time expression transfer for facial animation
Kang et al. Real-time animation and motion retargeting of virtual characters based on single rgb-d camera
Yasin et al. Model based full body human motion reconstruction from video data
CN116248920A (zh) 虚拟角色直播处理方法、装置及系统
CN116485953A (zh) 数据处理方法、装置、设备和可读存储介质
CN115346262A (zh) 一种表情驱动参数的确定方法、装置、设备及存储介质
Kim et al. Realtime performance animation using sparse 3D motion sensors
CA3204613A1 (en) Volumetric video from an image source
Akinjala et al. Animating human movement & gestures on an agent using Microsoft kinect
Joo Sensing, Measuring, and Modeling Social Signals in Nonverbal Communication
US20240020901A1 (en) Method and application for animating computer generated images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21771212

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022508192

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021771212

Country of ref document: EP

Effective date: 20221017