WO2023238660A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2023238660A1
WO2023238660A1 PCT/JP2023/019249 JP2023019249W WO2023238660A1 WO 2023238660 A1 WO2023238660 A1 WO 2023238660A1 JP 2023019249 W JP2023019249 W JP 2023019249W WO 2023238660 A1 WO2023238660 A1 WO 2023238660A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual viewpoint
subject
avatar
information processing
difference
Prior art date
Application number
PCT/JP2023/019249
Other languages
English (en)
French (fr)
Inventor
智博 大井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023238660A1 publication Critical patent/WO2023238660A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Volumetric capture technology converts real people and places into 3D data and reproduces it from a free viewpoint (virtual viewpoint).
  • a 3D model of a subject is generated using a plurality of real images taken from different viewpoints.
  • a video from an arbitrary viewpoint is generated using the 3D model. Since it is possible to generate images from any viewpoint regardless of camera placement, it is expected to be applied to various fields such as sports broadcasting and entertainment fields.
  • a live-action 3D model of the subject is generated from images from a limited number of cameras.
  • the colors and shapes of areas where 3D shapes and textures cannot be obtained from photographic data, such as areas that become blind spots of the camera, are estimated and generated from the actual video. Parts with large estimation errors are manually reshaped, but the reshaping process takes a lot of time and cost.
  • the present disclosure proposes an information processing device, an information processing method, and a program that can easily generate high-quality virtual viewpoint images.
  • a virtual viewpoint video generation unit that generates a virtual viewpoint video of the subject viewed from a virtual viewpoint using photographic data of the subject photographed from a plurality of viewpoints; an avatar generation unit that generates an avatar model having a 3D shape of the subject corresponding to the posture, and generates an avatar by rendering the avatar model based on the virtual viewpoint;
  • An information processing apparatus comprising: an image comparison section that extracts a difference between the virtual viewpoint video and the avatar; and a correction section that corrects the virtual viewpoint video based on the difference.
  • an information processing method in which the information processing of the information processing device is executed by a computer, and a program that causes the computer to realize the information processing of the information processing device.
  • FIG. 2 is an explanatory diagram of volumetric capture technology.
  • FIG. 3 is a diagram illustrating a problem regarding images of a portion that becomes a blind spot.
  • FIG. 3 is a diagram illustrating an example of comparison between a real object and a virtual viewpoint image.
  • 1 is a schematic diagram of a video distribution system.
  • FIG. 2 is a diagram illustrating an example of the configuration of a rendering server.
  • 1 is a diagram showing an example of the configuration of a 3D scanner.
  • FIG. 3 is a diagram showing an avatar model.
  • FIG. 7 is a diagram illustrating an example of correction of a virtual viewpoint image based on a comparison result with an avatar.
  • FIG. 6 is a diagram illustrating an example of a method for specifying a region to be corrected.
  • FIG. 1 is a schematic diagram of a video distribution system.
  • FIG. 2 is a diagram illustrating an example of the configuration of a rendering server.
  • 1 is a diagram showing an example of the configuration of a
  • FIG. 6 is a diagram illustrating an example of a method for specifying a region to be corrected.
  • 3 is a flowchart illustrating an information processing method of a rendering server.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of a rendering server.
  • FIG. 1 is an explanatory diagram of volumetric capture technology.
  • Volumetric capture technology is a free-viewpoint imaging technology that captures the entire 3D space and reproduces it from any viewpoint. Since the entire 3D space is converted into data rather than switching between images shot by a plurality of cameras 10, it is also possible to generate images from a viewpoint where the camera 10 does not originally exist.
  • Video production includes a shooting step, a modeling step, and a playback step.
  • the subject SU is photographed by a plurality of cameras 10.
  • the plurality of cameras 10 are arranged to surround a shooting space SS including the subject SU.
  • the mounting positions and mounting directions of the plurality of cameras 10 and the mounting positions and mounting directions of the plurality of lighting devices 11 are appropriately set so that blind spots do not occur.
  • the plurality of cameras 10 synchronously photograph the subject SU from a plurality of viewpoints at a predetermined frame rate.
  • the volumetric model VM includes, for example, geometry information, texture information, and depth information of the subject SU.
  • the geometry information is information indicating the 3D shape of the subject SU.
  • the geometry information is obtained, for example, as polygon data or voxel data.
  • the texture information is information indicating the color, pattern, texture, etc. of the subject SU.
  • the depth information is information indicating the depth of the subject SU within the shooting space SS.
  • the volumetric model VM is rendered based on the viewpoint information to generate a virtual viewpoint video VI.
  • the viewpoint information includes information regarding a virtual viewpoint from which the subject SU is viewed.
  • Viewpoint information is input by the video producer or viewer AD.
  • On the display DP a virtual viewpoint video VI showing the subject SU viewed from a virtual viewpoint is displayed.
  • volumetric model VM is generated based on real images, the textures of clothes and faces are realistically reproduced.
  • constraints such as the number of cameras 10 installed and their positions, sufficient photographic data may not be obtained, and information such as accurate color and shape may not be obtained depending on the location. In this case, the subject SU may not be reproduced clearly, which may give the viewer a sense of discomfort.
  • FIG. 3 is a diagram showing an example of a comparison between a real object and a virtual viewpoint image.
  • an avatar model AM (see FIG. 7) having the same posture as the subject SU viewed by the camera 10 is generated based on high-resolution 3D data of the subject SU that has been prepared in advance.
  • an avatar AB (see FIG. 8) whose color and shape are accurately reproduced is generated.
  • FIG. 4 is a schematic diagram of the video distribution system 1.
  • the video distribution system 1 is a system that generates and distributes virtual viewpoint video VI from real video.
  • the video distribution system 1 includes, for example, a plurality of cameras 10, a video transmission PC (Personal Computer) 20, a rendering server 30, an encoder 40, and a distribution server 50.
  • PC Personal Computer
  • the video from the camera 10 is transmitted to the rendering server 30 via the video transmission PC 20.
  • the video transmission PC 20 can be omitted.
  • the encoder 40 and the distribution server 50 can be omitted.
  • FIG. 5 is a diagram showing an example of the configuration of the rendering server 30.
  • FIG. 6 is a diagram showing an example of the configuration of the 3D scanner SC.
  • the object SU is photographed synchronously from various directions by a plurality of cameras 13 attached to a plurality of measurement columns 12.
  • the 3D scan is performed on the subject SU in the same outfit as when the camera 10 took the image (photographed to generate the virtual viewpoint image VI).
  • a subject model including geometry information and texture information of the subject SU is generated.
  • a photo scanner is used as the 3D scanner SC, but the 3D scanner SC is not limited to a photo scanner.
  • a 3D scanner SC using another scanning method such as a laser scanner may also be used.
  • the posture estimation unit 33 extracts a plurality of key points KP from the photographic data ID of the subject SU.
  • the pose estimation unit 33 estimates the skeleton SK obtained by connecting a plurality of key points KP as the pose PO of the subject SU.
  • the avatar generation unit 34 generates an avatar model AM based on the skeleton SK and the scan data SD obtained by the posture estimation unit 33. Therefore, the outline of the subject SU (the outline of the avatar AB) generated using the avatar model AM is smoother and has less temporal fluctuation than the outline of the subject SU in the virtual viewpoint video VI. Therefore, by correcting the virtual viewpoint image VI using the information of the avatar AB, a corrected image VIC that is natural and less uncomfortable can be obtained.
  • the rendering unit 35 acquires viewpoint information regarding the virtual viewpoint VP from the video producer or viewer AD.
  • the rendering unit 35 renders the volumetric model VM and the avatar model AM based on viewpoint information.
  • the rendering unit 35 includes, for example, a virtual viewpoint video generation unit 36, an image comparison unit 37, and a correction unit 38.
  • the virtual viewpoint video generation unit 36 renders the volumetric model VM based on the virtual viewpoint VP. Thereby, the virtual viewpoint video generation unit 36 generates a virtual viewpoint video VI of the subject SU viewed from the virtual viewpoint VP.
  • the virtual viewpoint video generation unit 36 generates a virtual viewpoint video VI using the shooting data ID of the actual subject SU.
  • Information about the subject SU at the time of shooting (such as the subject SU's expression, posture, level of sweat, wrinkles in clothes, and wind-disturbed hair, etc.) is reproduced as is, creating a realistic image that accurately reproduces the situation at the time of shooting. can get. Therefore, a high sense of realism and immersion can be obtained.
  • the colors and shapes of the portions that cannot be seen from the camera 10 are generated by estimation, portions with large estimation errors are recognized as image disturbances. Therefore, the virtual viewpoint video VI is corrected using separately prepared information on the avatar AB.
  • the correction process is performed using the image comparison section 37 and the correction section 38.
  • the image comparison unit 37 extracts the difference between the virtual viewpoint video VI and the avatar AB.
  • the correction unit 38 corrects the virtual viewpoint image VI based on the difference between the virtual viewpoint image VI and the avatar AB.
  • the correction target site TG is specified as a site that is difficult to recognize from the camera 10.
  • the subject SU is holding an umbrella. Since the camera 10 photographs the subject SU through the umbrella, it is difficult for the camera 10 to recognize parts of the head and back hidden behind the umbrella. Therefore, the head and back of the subject SU are identified as the correction target region TG.
  • the image comparison unit 37 determines the correction target region TG based on the distribution of the recognition rate of the subject SU.
  • Recognition rate means ease of recognition from multiple viewpoints (camera 10).
  • the recognition rate is calculated for each part of the subject SU. For example, let N be the total number of cameras 10 installed in the shooting space SS. If the number of cameras 10 that can recognize (photograph) a target part (target part) without being obstructed by an object such as an umbrella is M, the recognition rate of the target part is calculated as M/N.
  • the image comparison unit 37 calculates, for each part of the subject SU, the proportion of viewpoints that can recognize the part as a recognition rate.
  • the image comparison unit 37 identifies a region whose recognition rate is lower than the acceptance standard as a correction target region TG. Acceptance criteria are arbitrarily set by the system developer. In the example of FIG. 10, the recognition rate of each part is classified into "X% or more,” “X to Y%,” and “Y% or less.”
  • the correction target part TG is specified as a part whose recognition rate is "Y% or less".
  • the video output unit 39 converts the corrected virtual viewpoint video VI (corrected video VIC) into a video signal and outputs it as output data OD.
  • the output data OD is transmitted to the distribution server 50 via the encoder 40.
  • FIG. 11 is a flowchart showing an information processing method of the rendering server 30.
  • step S1 the plurality of cameras 10 synchronously photograph the subject SU from a plurality of viewpoints.
  • the photographed data ID including the plurality of viewpoint videos VPI photographed by the plurality of cameras 10 is transmitted to the rendering server 30.
  • the photographic data ID is supplied to the volumetric model generation section 32 and posture estimation section 33 of the rendering server 30.
  • step S2 the volumetric model generation unit 32 generates a volumetric model VM of the subject SU using the photographic data ID of the subject SU.
  • step S3 the virtual viewpoint video generation unit 36 uses the volumetric model VM to generate a virtual viewpoint video VI of the subject SU viewed from the virtual viewpoint VP.
  • step S4 the posture estimation unit 33 estimates the posture PO of the subject SU using the photographic data ID of the subject SU.
  • the avatar generation unit 34 generates an avatar model AM corresponding to the posture PO of the subject SU using the scan data SD obtained by measurement before photographing.
  • the avatar generation unit 34 generates an avatar AB by rendering the avatar model AM based on the virtual viewpoint VP.
  • step S6 the image comparison unit 37 extracts the difference between the virtual viewpoint video VI and the avatar AB.
  • step S7 the correction unit 38 corrects the virtual viewpoint image VI based on the difference between the virtual viewpoint image VI and the avatar AB.
  • the corrected virtual viewpoint video VI (corrected video VIC) is live distributed via the distribution server 50.
  • FIG. 12 is a diagram showing an example of the hardware configuration of the rendering server 30.
  • Information processing by the rendering server 30 is realized, for example, by a computer 1000 shown in FIG. 12.
  • the computer 1000 includes a CPU (Central Processing Unit) 1100, a RAM (Random Access Memory) 1200, a ROM (Read Only Memory) 1300, and an HDD (Hard Dimensions).
  • skDrive skDrive
  • a communication interface 1500 is connected by bus 1050.
  • the CPU 1100 operates based on a program (program data 1450) stored in the ROM 1300 or the HDD 1400, and controls each part. For example, CPU 1100 loads programs stored in ROM 1300 or HDD 1400 into RAM 1200, and executes processes corresponding to various programs.
  • program data 1450 program data 1450
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by the programs.
  • the HDD 1400 is a recording medium that records the information processing program according to the embodiment, which is an example of the program data 1450.
  • Communication interface 1500 is an interface for connecting computer 1000 to external network 1550 (eg, the Internet).
  • CPU 1100 receives data from other devices or transmits data generated by CPU 1100 to other devices via communication interface 1500.
  • the CPU 1100 of the computer 1000 executes each of the information processing programs shown in FIG. Achieve functionality.
  • the HDD 1400 stores an information processing program according to the present disclosure, various models (volumetric model VM, subject model, avatar model AM), and various data (scan data SD, etc.). Note that although the CPU 1100 reads and executes the program data 1450 from the HDD 1400, as another example, these programs may be obtained from another device via the external network 1550.
  • the avatar AB having accurate information about the subject SU is separately generated based on the posture of the subject SU.
  • a high-quality virtual viewpoint video VI corrected video VIC
  • the image comparison unit 37 identifies the region to be corrected based on the positional relationship between the plurality of viewpoints and the subject SU.
  • the image comparison unit 37 selectively extracts the difference between the virtual viewpoint video VI and the avatar AB at the correction target site.
  • the image comparison unit 37 calculates, for each part of the subject SU, the proportion of viewpoints that can recognize the part as a recognition rate.
  • the image comparison unit 37 identifies a region whose recognition rate is lower than an acceptable standard as a region to be corrected.
  • the difference includes a color difference between the virtual viewpoint video VI and the avatar AB.
  • the avatar generation unit 34 generates an avatar model AM using scan data SD of the subject SU obtained by 3D scanning the subject SU before photographing.
  • precise geometry information of the subject SU can be obtained by 3D scanning.
  • a high-quality virtual viewpoint video VI is generated by performing correction based on precise geometry information.
  • an appropriate avatar AB is generated that matches the attire of the subject SU shown in the virtual viewpoint video VI.
  • the outline of the subject SU generated using the avatar model AM is smoother than the outline of the subject SU in the virtual viewpoint video VI.
  • the outline of the subject SU in the virtual viewpoint video VI is smoothly corrected based on the outline information of the avatar AB.
  • Rendering server (information processing device) 33 Posture estimation section 34 Avatar generation section 36 Virtual viewpoint video generation section 37 Image comparison section 38 Correction section AM Avatar model ID Photography data PO Posture SD Scan data SU Subject VI Virtual viewpoint video VP Virtual viewpoint

Abstract

情報処理装置は、仮想視点映像生成部、姿勢推定部、アバタ生成部、画像比較部および補正部を有する。仮想視点映像生成部は、複数の視点から撮影された被写体の撮影データを用いて、被写体を仮想視点から見た被写体の仮想視点映像を生成する。姿勢推定部は、撮影データを用いて被写体の姿勢を推定する。アバタ生成部は、姿勢に対応した被写体の3D形状を有するアバタモデルを生成する。アバタ生成部は、アバタモデルを仮想視点に基づいてレンダリングしてアバタを生成する。画像比較部は、仮想視点映像とアバタとの差分を抽出する。補正部は、差分に基づいて仮想視点映像を補正する。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 実在の人物や場所を3Dデータに変換し、自由な視点(仮想視点)で再現するボリュメトリックキャプチャ技術が知られている。この技術では、異なる視点から撮影された複数の実映像を用いて被写体の3Dモデルが生成される。そして、3Dモデルを用いて任意の視点の映像(仮想視点映像)が生成される。カメラの配置にとらわれない自由な視点の映像が生成できるため、スポーツ放送やエンターテイメント分野など、様々な分野への応用が期待されている。
国際公開第2017/082076号
 被写体の実写3Dモデルは、限られた台数のカメラの映像から生成される。カメラの死角になる部分など、撮影データから3D形状やテクスチャが得られない部分の色や形状は実映像から推定して生成される。推定による誤差が大きい部分は手動で整形されるが、整形処理には多くの時間とコストがかかる。
 そこで、本開示では、高品質な仮想視点映像を容易に生成することが可能な情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、前記差分に基づいて前記仮想視点映像を補正する補正部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
ボリュメトリックキャプチャ技術の説明図である。 死角となる部位の映像に関する課題を説明する図である。 実物と仮想視点映像との比較の一例を示す図である。 映像配信システムの概略図である。 レンダリングサーバの構成の一例を示す図である。 3Dスキャナの構成の一例を示す図である。 アバタモデルを示す図である。 アバタとの比較結果に基づく仮想視点映像の補正の一例を示す図である。 補正対象部位の特定方法の一例を示す図である。 補正対象部位の特定方法の一例を示す図である。 レンダリングサーバの情報処理方法を示すフローチャートである。 レンダリングサーバのハードウェア構成の一例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.ボリュメトリックキャプチャ技術]
[2.死角となる部位の映像に関する課題]
[3.映像配信システムの構成]
[4.レンダリングサーバの構成]
[5.3Dスキャニング]
[6.アバタモデル]
[7.アバタとの比較結果に基づく仮想視点映像の補正]
[8.情報処理方法]
[9.レンダリングサーバのハードウェア構成]
[10.効果]
[1.ボリュメトリックキャプチャ技術]
 図1は、ボリュメトリックキャプチャ技術の説明図である。
 ボリュメトリックキャプチャ技術は、3D空間をまるごと撮りこみ、自由な視点で再現する自由視点映像技術の一つである。複数のカメラ10で撮影された映像を切り替えるのではなく、3D空間全体をデータ化するため、本来カメラ10が存在しない視点からの映像も生成可能である。映像制作は、撮影ステップと、モデリングステップと、再生ステップと、を含む。
 撮影ステップでは、複数のカメラ10によって被写体SUが撮影される。複数のカメラ10は、被写体SUを含む撮影空間SSの周囲を囲むように配置される。死角が生じないように、複数のカメラ10の取り付け位置および取り付け方向、ならびに、複数の照明装置11の取り付け位置および取り付け方向が適切に設定される。複数のカメラ10は、所定のフレームレートで被写体SUを複数の視点から同期して撮影する。
 モデリングステップでは、被写体SUの撮影データに基づいて、フレームごとに、被写体SUのボリュメトリックモデルVMが生成される。ボリュメトリックモデルVMは、撮影された瞬間の被写体SUの位置および姿勢を示す3Dモデルである。被写体SUの3D形状は、視体積交差法およびステレオマッチング法などの公知の方法により検出される。
 ボリュメトリックモデルVMは、例えば、被写体SUのジオメトリ情報、テクスチャ情報およびデプス情報を含む。ジオメトリ情報は、被写体SUの3D形状を示す情報である。ジオメトリ情報は、例えば、ポリゴンデータまたはボクセルデータとして取得される。テクスチャ情報は、被写体SUの色、模様および質感などを示す情報である。デプス情報は、撮影空間SS内での被写体SUの深度を示す情報である。
 再生ステップでは、ボリュメトリックモデルVMを視点情報に基づいてレンダリングして仮想視点映像VIが生成される。視点情報は、被写体SUを視聴する仮想視点に関する情報を含む。視点情報は、映像製作者または視聴者ADによって入力される。ディスプレイDPには、被写体SUを仮想視点から見た仮想視点映像VIが表示される。
[2.死角となる部位の映像に関する課題]
 図2は、死角となる部位の映像に関する課題を説明する図である。
 ボリュメトリックモデルVMは実映像に基づいて生成されるため、服や顔の質感がリアルに再現される。しかし、カメラ10の設置台数や設置位置などの制約によって、十分な撮影データが得られず、場所によって正確な色や形状などの情報が得られない場合がある。この場合、被写体SUがきれいに再現されず、視聴者に違和感を与える可能性がある。
 例えば、図2の「a」および「b」は、カメラ10のある場所から見た仮想視点を示す。図2の「c」は、カメラ10のない場所から見た仮想視点を示す。仮想視点「a」および「b」から見た仮想視点映像は、実映像から正確に再現される。しかし、仮想視点「c」に関しては、色や形状に関する情報がないため、近隣の実映像から色や形状を推測して仮想視点映像を生成する必要がある。そのため、実物との間に誤差が生じやすい。
 図3は、実物と仮想視点映像との比較の一例を示す図である。
 図3の下側は、カメラのない場所から見た仮想視点の映像である。図3の上側は、仮想視点と同一の視点から撮影された実物の映像である。図3の下側の仮想視点映像には、顎の下側に色誤りのある領域(エラー領域ER)が存在する。エラー領域ERは、カメラ10の設置台数や設置位置などの制約によって、撮影データから3Dデータが得られなかった部位に生じる。このような部位の映像は、近隣の実映像(図3の例では、顎や髪の毛の映像)から色や形状を推測して生成される。近隣の色や形状の特徴が誤って反映されると、実物との間に誤差が生じ、視聴者ADに違和感を与える可能性がある。
 上述のように、カメラ10で見えない部位の映像を推測によって生成すると、高品質な映像が得られない可能性がある。そのため、本開示では、事前に用意しておいた被写体SUの高解像度の3Dデータに基づいて、カメラ10に映る被写体SUと同一姿勢のアバタモデルAM(図7参照)が生成される。アバタモデルAMをレンダリングすることで、色や形状が正確に再現されたアバタAB(図8参照)が生成される。アバタABが持つ色や形状の情報を用いて仮想視点映像VIを補正することで、高品質な仮想視点映像VIが得られる。以下、仮想視点映像VIの補正方法について具体的に説明する。
[3.映像配信システムの構成]
 図4は、映像配信システム1の概略図である。
 映像配信システム1は、実映像から仮想視点映像VIを生成して配信するシステムである。映像配信システム1は、例えば、複数のカメラ10、映像送信用PC(Personal Computer)20、レンダリングサーバ30、エンコーダ40および配信サーバ50を有する。
 複数のカメラ10は、異なる視点から被写体SUを撮影した複数の視点映像VPIを映像送信用PC20に出力する。映像送信用PC20は、複数の視点映像VPIを含む撮影データをエンコードしてレンダリングサーバ30に送信する。レンダリングサーバ30は、複数の視点映像VPIを用いて被写体SUをモデリングし、視点情報に基づいて仮想視点映像VIを生成する。レンダリングサーバ30は、仮想視点映像VIをアバタABに基づいて補正し、補正後の仮想視点映像VI(補正映像VIC)をレンダリングサーバ30に出力する。レンダリングサーバ30は、補正映像VICをエンコーダ40に出力する。エンコーダ40は、レンダリングサーバ30で生成された補正映像VICをエンコードして配信サーバ50に出力する。配信サーバ50は、エンコーダ40から取得した補正映像VICをネットワークを介してライブ配信する。
 図4の例では、カメラ10の映像が映像送信用PC20を介してレンダリングサーバ30に送信された。しかし、レンダリングサーバ30を撮影現場に設置してレンダリングを行う場合には、映像送信用PC20は省略することができる。また、ライブ配信を行わない場合には、エンコーダ40および配信サーバ50は省略することができる。
[4.レンダリングサーバの構成]
 図5は、レンダリングサーバ30の構成の一例を示す図である。
 レンダリングサーバ30は、撮影データIDを含む各種情報を処理する情報処理装置である。レンダリングサーバ30は、例えば、デコード部31、ボリュメトリックモデル生成部32、姿勢推定部33、アバタ生成部34、レンダリング部35および映像出力部39を有する。
 デコード部31は、映像送信用PC20から送信された撮影データIDをデコードして複数の視点映像VPIを取得する。デコード部31は、複数の視点映像VPIをボリュメトリックモデル生成部32および姿勢推定部33に出力する。
 ボリュメトリックモデル生成部32は、被写体SUの撮影データに基づいて、フレームごとに、被写体SUのボリュメトリックモデルVMを生成する。例えば、ボリュメトリックモデル生成部32は、背景差分などの公知の手法を用いて、視点映像VPIごとに、被写体SUを背景から分離する。ボリュメトリックモデル生成部32は、視点映像VPIごとに抽出された複数の視点の被写体SUの映像から、被写体SUのジオメトリ情報、テクスチャ情報およびデプス情報を検出する。ボリュメトリックモデル生成部32は、検出されたジオメトリ情報、テクスチャ情報およびデプス情報に基づいて、被写体SUのボリュメトリックモデルVMを生成する。ボリュメトリックモデル生成部32は、生成された各フレームのボリュメトリックモデルVMをレンダリング部35に順次出力する。
 姿勢推定部33は、被写体SUの撮影データを用いて被写体SUの姿勢POを推定する。姿勢推定方法としては、姿勢推定AI(Artificial Intelligence)などを用いた公知の姿勢推定技術が用いられる。姿勢推定技術は、ターゲットとなる人物または物の映像から複数のキーポイントKP(ターゲットが人間であれば、肩・肘・手首・腰・膝・足首などを示す複数の特徴点:図7参照)を抽出し、キーポイントKP同士の相対位置に基づいてターゲットの姿勢POを推定する技術である。
 アバタ生成部34は、姿勢POに対応した被写体SUの3D形状を有するアバタモデルAMを生成する。例えば、アバタ生成部34は、撮影前に被写体SUを3Dスキャンして得られた被写体SUのスキャンデータSDを取得する。スキャンデータSDは、被写体SUのジオメトリ情報およびテクスチャ情報を含む。アバタ生成部34は、スキャンデータSDおよび姿勢POを用いてアバタモデルAMを生成する。アバタモデルAMは、比較映像となるアバタABを生成するための被写体SUの3Dモデルである。アバタ生成部34は、アバタモデルAMを仮想視点に基づいてレンダリングしてアバタABを生成する。
[5.3Dスキャニング]
 図6は、3DスキャナSCの構成の一例を示す図である。
 被写体SUの3Dスキャンは、3DスキャナSCを用いて実施される。3DスキャナSCは、例えば、被写体SUを取り囲むように環状に配置された複数の計測用支柱12を有する。計測用支柱12は、被写体SUの側方を通って上部に延びるように配置された棒状のフレーム14と、フレーム14の延在方向に沿って取り付けられた複数のカメラ13と、を有する。被写体SUに近接して配置された複数の計測用支柱12によって、被写体SUを囲む狭い籠状の計測空間MSが形成される。
 複数の計測用支柱12に取り付けられた複数のカメラ13によって被写体SUが様々な方向から同期して撮影される。3Dスキャンは、カメラ10による撮影(仮想視点映像VIを生成するための撮影)時と同じ装いの被写体SUに対して実施される。複数のカメラ13の撮影データに基づいて、被写体SUのジオメトリ情報およびテクスチャ情報を含む被写体モデルが生成される。
 被写体モデルの生成方法は、ボリュメトリックモデルVMの生成方法と同様であるが、スキャンデータSDに含まれるジオメトリ情報は、ボリュメトリックモデルVMに含まれるジオメトリ情報よりも詳細である。そのため、ボリュメトリックモデルVMを用いた場合よりも被写体モデルを用いた場合の方が被写体SUの3D形状を高品質に再現できる。
 図6の例では、3DスキャナSCとしてフォトスキャナが用いられたが、3DスキャナSCはフォトスキャナに限定されない。レーザスキャナなどの他のスキャン方式の3DスキャナSCが用いられてもよい。
[6.アバタモデル]
 図7は、アバタモデルAMを示す図である。
 姿勢推定部33は、被写体SUの撮影データIDから複数のキーポイントKPを抽出する。姿勢推定部33は、複数のキーポイントKPを接続して得られる骨格SKを被写体SUの姿勢POと推定する。アバタ生成部34は、姿勢推定部33で得られた骨格SKとスキャンデータSDとに基づいてアバタモデルAMを生成する。そのため、アバタモデルAMを用いて生成される被写体SUの輪郭(アバタABの輪郭)は、仮想視点映像VIにおける被写体SUの輪郭よりも滑らかであり時間的な揺らぎも小さい。よって、アバタABの情報を用いて仮想視点映像VIを補正することで、自然で違和感の少ない補正映像VICが得られる。
 図5に戻って、レンダリング部35は、映像制作者または視聴者ADから仮想視点VPに関する視点情報を取得する。レンダリング部35は、ボリュメトリックモデルVMおよびアバタモデルAMを視点情報に基づいてレンダリングする。レンダリング部35は、例えば、仮想視点映像生成部36、画像比較部37および補正部38を有する。
[7.アバタとの比較結果に基づく仮想視点映像の補正]
 図8は、アバタABとの比較結果に基づく仮想視点映像VIの補正の一例を示す図である。
 仮想視点映像生成部36は、ボリュメトリックモデルVMを仮想視点VPに基づいてレンダリングする。これにより、仮想視点映像生成部36は、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。
 仮想視点映像生成部36は、実際の被写体SUの撮影データIDを用いて仮想視点映像VIを生成する。撮影時の被写体SUの情報(被写体SUの表情、姿勢、汗の具合、洋服のしわ、風による髪の乱れなど)がそのまま再現されるため、撮影時の状況を精密に再現したリアルな映像が得られる。そのため、高い臨場感および没入感が得られる。しかし、カメラ10から見えない部分の色や形状は推測により生成されるため、推測誤差が大きい部分は画像の乱れとして認識される。そのため、別途用意したアバタABの情報を用いて仮想視点映像VIが補正される。
 補正処理は、画像比較部37および補正部38を用いて行われる。画像比較部37は、仮想視点映像VIとアバタABとの差分を抽出する。補正部38は、仮想視点映像VIとアバタABとの差分に基づいて仮想視点映像VIを補正する。
 例えば、画像比較部37は、撮影空間SSに設置された複数のカメラ10(視点)と被写体SUとの位置関係に基づいて補正対象部位TGを特定する。画像比較部37は、補正対象部位TGにおける仮想視点映像VIとアバタABとの差分を選択的に抽出する。抽出される差分には、仮想視点映像VIとアバタABとの間の色および形状の少なくとも一方の差分が含まれる。
 図9および図10は、補正対象部位TGの特定方法の一例を示す図である。
 補正対象部位TGは、カメラ10から認識しにくい部位として特定される。図9の例では、被写体SUが傘をさしている。カメラ10は傘ごしに被写体SUを撮影するため、傘の陰に隠れた頭や背中の部分はカメラ10から認識しにくい。よって、被写体SUの頭や背中が補正対象部位TGとして特定される。
 画像比較部37は、補正対象部位TGを被写体SUの認識率の分布に基づいて判定する。認識率とは、複数の視点(カメラ10)からの認識のされやすさを意味する。認識率は、被写体SUの部位ごとに算出される。例えば、撮影空間SSに設置されたカメラ10の全数をNとする。傘などの物体に邪魔されずに対象となる部位(対象部位)を認識(撮影)可能なカメラ10の数をMとすると、対象部位の認識率はM/Nとして算出される。
 画像比較部37は、被写体SUの部位ごとに、当該部位を認識可能な視点の割合を認識率として算出する。画像比較部37は、認識率が許容基準を下回る部位を補正対象部位TGとして特定する。許容基準は、システム開発者によって任意に設定される。図10の例では、各部位の認識率が「X%以上」、「X~Y%」および「Y%以下」に分類されている。補正対象部位TGは、認識率が「Y%以下」の部位として特定される。
 対象部位がカメラ10で認識可能か否かは、例えば、次のようなシミュレーションに基づいて判定される。まず、カメラ10の位置に仮想的な光源(仮想光源)が設置される。被写体SUの位置にはアバタABが仮想的に設置され、仮想光源からアバタABに向けて光が照射される。アバタABにおいて光が当たっている部位は被照明部位として算出される。アバタABの被照明部位に対応する被写体SUの部位は、カメラ10で認識可能な部位として特定される。被照明部位以外の部位(影になっている部位)に対応する被写体SUの部位は、カメラ10で認識不可能な部位として特定される。
 図5に戻って、映像出力部39は、補正後の仮想視点映像VI(補正映像VIC)を映像信号に変換して出力データODとして出力する。出力データODは、エンコーダ40を介して配信サーバ50に送信される。
[8.情報処理方法]
 図11は、レンダリングサーバ30の情報処理方法を示すフローチャートである。
 ステップS1において、複数のカメラ10は被写体SUを複数の視点から同期して撮影する。複数のカメラ10によって撮影された複数の視点映像VPIを含む撮影データIDは、レンダリングサーバ30に送信される。撮影データIDは、レンダリングサーバ30のボリュメトリックモデル生成部32および姿勢推定部33に供給される。
 ステップS2において、ボリュメトリックモデル生成部32は、被写体SUの撮影データIDを用いて被写体SUのボリュメトリックモデルVMを生成する。ステップS3において、仮想視点映像生成部36は、ボリュメトリックモデルVMを用いて、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。
 ステップS4において、姿勢推定部33は、被写体SUの撮影データIDを用いて被写体SUの姿勢POを推定する。ステップS5において、アバタ生成部34は、撮影前の計測によって得られたスキャンデータSDを用いて、被写体SUの姿勢POに対応したアバタモデルAMを生成する。アバタ生成部34は、アバタモデルAMを仮想視点VPに基づいてレンダリングしてアバタABを生成する。
 ステップS6において、画像比較部37は、仮想視点映像VIとアバタABとの差分を抽出する。ステップS7において、補正部38は、仮想視点映像VIとアバタABとの差分に基づいて仮想視点映像VIを補正する。補正後の仮想視点映像VI(補正映像VIC)は配信サーバ50を介してライブ配信される。
[9.レンダリングサーバのハードウェア構成]
 図12は、レンダリングサーバ30のハードウェア構成の一例を示す図である。
 レンダリングサーバ30の情報処理は、例えば、図12に示すコンピュータ1000によって実現される。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラム(プログラムデータ1450)に基づいて動作し、各部の制御を行う。たとえば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)などのブートプログラムや、コンピュータ1000のハードウェアに依存するプログラムなどを格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(たとえばインターネット)と接続するためのインターフェイスである。たとえば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、表示装置やスピーカーやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
 たとえば、コンピュータ1000が実施形態にかかる情報処理装置(レンダリングサーバ30)として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、図5に示された各機能を実現する。また、HDD1400には、本開示にかかる情報処理プログラム、各種モデル(ボリュメトリックモデルVM、被写体モデル、アバタモデルAM)および各種データ(スキャンデータSDなど)が格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
[10.効果]
 レンダリングサーバ30は、仮想視点映像生成部36、姿勢推定部33、アバタ生成部34、画像比較部37および補正部38を有する。仮想視点映像生成部36は、複数の視点から撮影された被写体SUの撮影データIDを用いて、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。姿勢推定部33は、撮影データIDを用いて被写体SUの姿勢POを推定する。アバタ生成部34は、姿勢POに対応した被写体SUの3D形状を有するアバタモデルAMを生成する。アバタ生成部34は、アバタモデルAMを仮想視点VPに基づいてレンダリングしてアバタABを生成する。画像比較部37は、仮想視点映像VIとアバタABとの差分を抽出する。補正部38は、差分に基づいて仮想視点映像VIを補正する。本開示の情報処理方法は、レンダリングサーバ30の処理がコンピュータ1000により実行される。本開示のプログラムは、レンダリングサーバ30の処理をコンピュータ1000に実現させる。
 この構成によれば、被写体SUの正確な情報を持つアバタABが被写体SUの姿勢に基づいて別途生成される。仮想視点映像VIをアバタABとの比較結果に基づいて補正することで、高品質な仮想視点映像VI(補正映像VIC)が容易に生成される。
 画像比較部37は、複数の視点と被写体SUとの位置関係に基づいて補正対象部位を特定する。画像比較部37は、補正対象部位における仮想視点映像VIとアバタABとの差分を選択的に抽出する。
 この構成によれば、補正処理の負荷が軽減される。
 画像比較部37は、被写体SUの部位ごとに、当該部位を認識可能な視点の割合を認識率として算出する。画像比較部37は、認識率が許容基準を下回る部位を補正対象部位として特定する。
 この構成によれば、補正対象部位が適切に特定される。
 差分は、仮想視点映像VIとアバタABとの間の色の差分を含む。
 この構成によれば、色の誤りが少ない仮想視点映像VIが提供される。
 差分は、仮想視点映像VIとアバタABとの間の形状の差分を含む。
 この構成によれば、形状の誤差が小さい仮想視点映像VIが提供される。
 アバタ生成部34は、撮影前に被写体SUを3Dスキャンして得られた被写体SUのスキャンデータSDを用いてアバタモデルAMを生成する。
 この構成によれば、3Dスキャンによって被写体SUの精密なジオメトリ情報が得られる。精密なジオメトリ情報に基づいて補正を行うことで高品質な仮想視点映像VIが生成される。
 3Dスキャンは、撮影時と同じ装いの被写体SUに対して実施される。
 この構成によれば、仮想視点映像VIに写る被写体SUの装いに合わせた適切なアバタABが生成される。
 アバタモデルAMを用いて生成される被写体SUの輪郭は仮想視点映像VIにおける被写体SUの輪郭よりも滑らかである。
 この構成によれば、仮想視点映像VIにおける被写体SUの輪郭がアバタABの輪郭情報に基づいて滑らかに補正される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
[付記]
 なお、本技術は以下のような構成も採ることができる。
(1)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
 前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
 前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、
 前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、
 前記差分に基づいて前記仮想視点映像を補正する補正部と、
 を有する情報処理装置。
(2)
 前記画像比較部は、前記複数の視点と前記被写体との位置関係に基づいて補正対象部位を特定し、前記補正対象部位における前記差分を選択的に抽出する、
 上記(1)に記載の情報処理装置。
(3)
 前記画像比較部は、前記被写体の部位ごとに、前記部位を認識可能な視点の割合を認識率として算出し、前記認識率が許容基準を下回る部位を前記補正対象部位として特定する、
 上記(2)に記載の情報処理装置。
(4)
 前記差分は、前記仮想視点映像と前記アバタとの間の色の差分を含む、
 上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(5)
 前記差分は、前記仮想視点映像と前記アバタとの間の形状の差分を含む、
 上記(1)ないし(4)のいずれか1つに記載の情報処理装置。
(6)
 前記アバタ生成部は、撮影前に前記被写体を3Dスキャンして得られた前記被写体のスキャンデータを用いて前記アバタモデルを生成する、
 上記(1)ないし(5)のいずれか1つに記載の情報処理装置。
(7)
 前記3Dスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
 上記(6)に記載の情報処理装置。
(8)
 前記アバタモデルを用いて生成される前記被写体の輪郭は前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
 上記(6)または(7)に記載の情報処理装置。
(9)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
 前記撮影データを用いて前記被写体の姿勢を推定し、
 前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、
 前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
 前記仮想視点映像と前記アバタとの差分を抽出し、
 前記差分に基づいて前記仮想視点映像を補正する、
 ことを有する、コンピュータにより実行される情報処理方法。
(10)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
 前記撮影データを用いて前記被写体の姿勢を推定し、
 前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、
 前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
 前記仮想視点映像と前記アバタとの差分を抽出し、
 前記差分に基づいて前記仮想視点映像を補正する、
 ことをコンピュータに実現させるプログラム。
30 レンダリングサーバ(情報処理装置)
33 姿勢推定部
34 アバタ生成部
36 仮想視点映像生成部
37 画像比較部
38 補正部
AM アバタモデル
ID 撮影データ
PO 姿勢
SD スキャンデータ
SU 被写体
VI 仮想視点映像
VP 仮想視点

Claims (10)

  1.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
     前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
     前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、
     前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、
     前記差分に基づいて前記仮想視点映像を補正する補正部と、
     を有する情報処理装置。
  2.  前記画像比較部は、前記複数の視点と前記被写体との位置関係に基づいて補正対象部位を特定し、前記補正対象部位における前記差分を選択的に抽出する、
     請求項1に記載の情報処理装置。
  3.  前記画像比較部は、前記被写体の部位ごとに、前記部位を認識可能な視点の割合を認識率として算出し、前記認識率が許容基準を下回る部位を前記補正対象部位として特定する、
     請求項2に記載の情報処理装置。
  4.  前記差分は、前記仮想視点映像と前記アバタとの間の色の差分を含む、
     請求項1に記載の情報処理装置。
  5.  前記差分は、前記仮想視点映像と前記アバタとの間の形状の差分を含む、
     請求項1に記載の情報処理装置。
  6.  前記アバタ生成部は、撮影前に前記被写体を3Dスキャンして得られた前記被写体のスキャンデータを用いて前記アバタモデルを生成する、
     請求項1に記載の情報処理装置。
  7.  前記3Dスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
     請求項6に記載の情報処理装置。
  8.  前記アバタモデルを用いて生成される前記被写体の輪郭は前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
     請求項6に記載の情報処理装置。
  9.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
     前記撮影データを用いて前記被写体の姿勢を推定し、
     前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、
     前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
     前記仮想視点映像と前記アバタとの差分を抽出し、
     前記差分に基づいて前記仮想視点映像を補正する、
     ことを有する、コンピュータにより実行される情報処理方法。
  10.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
     前記撮影データを用いて前記被写体の姿勢を推定し、
     前記姿勢に対応した前記被写体の3D形状を有するアバタモデルを生成し、
     前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
     前記仮想視点映像と前記アバタとの差分を抽出し、
     前記差分に基づいて前記仮想視点映像を補正する、
     ことをコンピュータに実現させるプログラム。
PCT/JP2023/019249 2022-06-10 2023-05-24 情報処理装置、情報処理方法およびプログラム WO2023238660A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022094436 2022-06-10
JP2022-094436 2022-06-10

Publications (1)

Publication Number Publication Date
WO2023238660A1 true WO2023238660A1 (ja) 2023-12-14

Family

ID=89118196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/019249 WO2023238660A1 (ja) 2022-06-10 2023-05-24 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023238660A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092580A (ja) * 2016-11-30 2018-06-14 キヤノン株式会社 画像生成装置および方法
JP2020101845A (ja) * 2018-12-19 2020-07-02 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、およびプログラム
WO2022014341A1 (ja) * 2020-07-17 2022-01-20 ソニーグループ株式会社 情報処理装置および画像データの生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092580A (ja) * 2016-11-30 2018-06-14 キヤノン株式会社 画像生成装置および方法
JP2020101845A (ja) * 2018-12-19 2020-07-02 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、およびプログラム
WO2022014341A1 (ja) * 2020-07-17 2022-01-20 ソニーグループ株式会社 情報処理装置および画像データの生成方法

Similar Documents

Publication Publication Date Title
US9348950B2 (en) Perceptually guided capture and stylization of 3D human figures
US11501118B2 (en) Digital model repair system and method
US20200358996A1 (en) Real-time aliasing rendering method for 3d vr video and virtual three-dimensional scene
JP7034666B2 (ja) 仮想視点画像の生成装置、生成方法及びプログラム
US20200302688A1 (en) Method and system for generating an image
JPWO2019031259A1 (ja) 画像処理装置および方法
US11328445B1 (en) Methods and systems for volumetric modeling independent of depth data
KR20210038609A (ko) 이미지 합성을 위한 방법 및 데이터 처리 시스템
KR20210032549A (ko) 화상 처리 장치, 화상 처리 방법 및 컴퓨터 프로그램
JP6555755B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JPH0950540A (ja) 画像生成方法
US20140192045A1 (en) Method and apparatus for generating three-dimensional caricature using shape and texture of face
WO2023238660A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20190074911A (ko) 실감형 영상 콘텐츠 제공 방법 및 이를 이용한 서버
CN112868052A (zh) 用于提供具有六个自由度的至少部分内容的方法和系统
US20220245885A1 (en) Volumetric Imaging
JP5894505B2 (ja) 画像コミュニケーションシステム、画像生成装置及びプログラム
JP2020096267A (ja) 映像合成装置及びプログラム
WO2021171982A1 (ja) 画像処理装置、3dモデルの生成方法、学習方法およびプログラム
JP7065708B2 (ja) 録画再生装置及びプログラム
WO2022137907A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7296735B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2002525764A (ja) グラフィックスおよび画像処理システム
JP2021016081A (ja) 情報処理装置、情報処理方法、及びプログラム
WO2022091811A1 (ja) 画像処理装置、画像処理方法、画像処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23819643

Country of ref document: EP

Kind code of ref document: A1