JPWO2021178875A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2021178875A5
JPWO2021178875A5 JP2022552800A JP2022552800A JPWO2021178875A5 JP WO2021178875 A5 JPWO2021178875 A5 JP WO2021178875A5 JP 2022552800 A JP2022552800 A JP 2022552800A JP 2022552800 A JP2022552800 A JP 2022552800A JP WO2021178875 A5 JPWO2021178875 A5 JP WO2021178875A5
Authority
JP
Japan
Prior art keywords
voxel
cnn
voxel volume
features
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022552800A
Other languages
English (en)
Other versions
JP2023516678A (ja
Publication date
Application filed filed Critical
Priority claimed from PCT/US2021/021188 external-priority patent/WO2021178875A1/en
Publication of JP2023516678A publication Critical patent/JP2023516678A/ja
Publication of JPWO2021178875A5 publication Critical patent/JPWO2021178875A5/ja
Pending legal-status Critical Current

Links

Description

クロスリアリティシステムは、次いで、3D再構築物を利用して、3D画像を頭部搭載型ディスプレイ上の複数の焦点面に表示する等、豊かな、両眼の、3次元体験内に表示される、3D XR体験を生成してもよい。クロスリアリティシステムはまた、3D再構築物を利用して、仮想オブジェクト、他の仮想オブジェクト、および/または実世界オブジェクト間の相互作用を管理してもよい。
本発明は、例えば、以下を提供する。
(項目1)
マルチビュー画像から場面の3次元(3D)再構築物を生成する方法であって、前記方法は、
赤緑青(RGB)画像のフレームのシーケンスを取得することと、
2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの特徴を前記3Dボクセルボリュームの中に融合/累積させることと、
前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
を含む、方法。
(項目2)
前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、項目1に記載の方法。
(項目3)
前記移動平均は、単純移動平均である、項目2に記載の方法。
(項目4)
前記移動平均は、加重された移動平均である、項目3に記載の方法。
(項目5)
前記3Dボクセルボリュームを前記3D CNNの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることをさらに含む、項目1に記載の方法。
(項目6)
付加的スキップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
前記方法はさらに、前記付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることを含む、項目1に記載の方法。
(項目7)
前記3Dボクセルボリュームの1つ以上のヌルボクセルは、特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法はさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびrelu関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、項目6に記載の方法。
(項目8)
前記3D CNNは、それぞれが3×3×3残差ブロックのセットを有する、複数の層を有し、前記3D CNNは、3×3×3ストライド2畳み込みを用いたダウンサンプリングと、トライリニア補間後、1×1×1畳み込みを使用する、アップサンプリングとを実装する、項目1に記載の方法。
(項目9)
前記3D CNNはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
前記方法はさらに、前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、項目1に記載の方法。
(項目10)
場面の一部を網羅する短フレームシーケンスを使用して、前記2D CNNを訓練することをさらに含む、項目1に記載の方法。
(項目11)
前記短フレームシーケンスは、10またはより少ないフレームシーケンスを含む、項目10に記載の方法。
(項目12)
前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記2D CNNの訓練を微調整することをさらに含む、項目11に記載の方法。
(項目13)
前記より大きいフレームシーケンスは、100以上のフレームシーケンスを含む、項目12に記載の方法。
(項目14)
クロスリアリティシステムであって、
ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
を備え、
前記コンピューティングシステムは、プロセスによって、前記場面の3次元(3D)再構築物を前記カメラセンサによって捕捉されたRGB画像のフレームのシーケンスから生成するように構成され、
前記プロセスは、
前記カメラセンサの視野内の場面の赤緑青(RGB)画像のフレームのシーケンスを前記カメラセンサから取得することと、
2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの前記特徴を前記3Dボクセルボリュームの中に融合させることと、
前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
を含む、システム。
(項目15)
前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、項目14に記載のシステム。
(項目16)
前記移動平均は、単純移動平均である、項目15に記載のシステム。
(項目17)
前記移動平均は、加重された移動平均である、項目16に記載のシステム。
(項目18)
前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記3Dボクセルボリュームを前記3D畳み込みエンコーダ-デコーダの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることを含む、項目14に記載のシステム。
(項目19)
付加的スキップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることを含む、項目14に記載のシステム。
(項目20)
前記3Dボクセルボリュームの1つ以上のヌルボクセル特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびrelu関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、項目19に記載のシステム。
(項目21)
前記3D CNNはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
方法はさらに、前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、項目14に記載のシステム。

Claims (21)

  1. マルチビュー画像から場面の3次元(3D)再構築物を生成する方法であって、前記方法は、
    赤緑青(RGB)画像のフレームのシーケンスを取得することと、
    2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
    各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
    各フレームからの特徴を前記3Dボクセルボリュームの中に融合/累積させることと、
    前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
    を含む、方法。
  2. 前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、請求項1に記載の方法。
  3. 前記移動平均は、単純移動平均である、請求項2に記載の方法。
  4. 前記移動平均は、加重された移動平均である、請求項3に記載の方法。
  5. 前記3Dボクセルボリュームを前記3D CNNの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることをさらに含む、請求項1に記載の方法。
  6. 付加的スキップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
    前記方法は前記付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることをさらに含む、請求項に記載の方法。
  7. 前記3Dボクセルボリュームの1つ以上のヌルボクセルは、特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法は
    記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
    前記ヌルボクセルを前記バッチノルム関数および前記reLU関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
    さらに含む、請求項6に記載の方法。
  8. 前記3D CNNは、それぞれが3×3×3残差ブロックのセットを有する、複数の層を有し、前記3D CNNは、3×3×3ストライド2畳み込みを用いたダウンサンプリングと、トライリニア補間後、1×1×1畳み込みを使用する、アップサンプリングとを実装する、請求項1に記載の方法。
  9. 前記3D CNNは意味論セグメント化を予測するための付加的ヘッドをさらに備え、
    前記方法は前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することをさらに含む、請求項1に記載の方法。
  10. 場面の一部を網羅する短フレームシーケンスを使用して、前記2D CNNを訓練することをさらに含む、請求項1に記載の方法。
  11. 前記短フレームシーケンスは、10またはより少ないフレームシーケンスを含む、請求項10に記載の方法。
  12. 前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記2D CNNの訓練を微調整することをさらに含む、請求項11に記載の方法。
  13. 前記より大きいフレームシーケンスは、100以上のフレームシーケンスを含む、請求項12に記載の方法。
  14. クロスリアリティシステムであって、
    ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
    前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
    前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
    を備え、
    前記コンピューティングシステムは、プロセスによって場面の3次元(3D)再構築物を前記カメラセンサによって捕捉されたRGB画像のフレームのシーケンスから生成するように構成され、
    前記プロセスは、
    前記カメラセンサの視野内の場面の赤緑青(RGB)画像のフレームのシーケンスを前記カメラセンサから取得することと、
    2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
    各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
    各フレームからの前記特徴を前記3Dボクセルボリュームの中に融合させることと、
    前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
    を含む、システム。
  15. 前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、請求項14に記載のシステム。
  16. 前記移動平均は、単純移動平均である、請求項15に記載のシステム。
  17. 前記移動平均は、加重された移動平均である、請求項16に記載のシステム。
  18. 前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスは前記3Dボクセルボリュームを前記3D畳み込みエンコーダ-デコーダの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることをさらに含む、請求項14に記載のシステム。
  19. キップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
    前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスは付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることをさらに含む、請求項18に記載のシステム。
  20. 前記3Dボクセルボリュームの1つ以上のヌルボクセルは、特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスは
    記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
    前記ヌルボクセルを前記バッチノルム関数および前記reLU関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
    さらに含む、請求項19に記載のシステム。
  21. 前記3D CNNは意味論セグメント化を予測するための付加的ヘッドをさらに備え、
    方法は前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することをさらに含む、請求項14に記載のシステム。
JP2022552800A 2020-03-05 2021-03-05 マルチビュー画像からのエンドツーエンド場面再構築のためのシステムおよび方法 Pending JP2023516678A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062985671P 2020-03-05 2020-03-05
US62/985,671 2020-03-05
PCT/US2021/021188 WO2021178875A1 (en) 2020-03-05 2021-03-05 Systems and methods for end to end scene reconstruction from multiview images

Publications (2)

Publication Number Publication Date
JP2023516678A JP2023516678A (ja) 2023-04-20
JPWO2021178875A5 true JPWO2021178875A5 (ja) 2024-03-12

Family

ID=77555032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022552800A Pending JP2023516678A (ja) 2020-03-05 2021-03-05 マルチビュー画像からのエンドツーエンド場面再構築のためのシステムおよび方法

Country Status (5)

Country Link
US (3) US11410376B2 (ja)
EP (1) EP4115606A4 (ja)
JP (1) JP2023516678A (ja)
CN (1) CN115191005A (ja)
WO (1) WO2021178875A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671660A1 (en) * 2018-12-20 2020-06-24 Dassault Systèmes Designing a 3d modeled object via user-interaction
US11640694B2 (en) * 2020-03-20 2023-05-02 Streem, Llc 3D model reconstruction and scale estimation
US20220398804A1 (en) * 2021-06-11 2022-12-15 Occipital, Inc. System for generation of three dimensional scans and models
CN113963117B (zh) * 2021-10-29 2024-03-29 温州大学 一种基于可变卷积深度网络的多视图三维重建方法及装置
KR20230079618A (ko) * 2021-11-29 2023-06-07 삼성전자주식회사 인체를 3차원 모델링하는 방법 및 장치
KR102403258B1 (ko) * 2021-12-15 2022-05-30 주식회사 리콘랩스 볼륨 추론 기반 3차원 모델링 방법 및 시스템
CN114241052B (zh) * 2021-12-27 2023-09-08 江苏贝思旺科技有限公司 基于布局图的多物体场景新视角图像生成方法及系统
CN114219900B (zh) * 2022-02-21 2022-07-01 北京影创信息科技有限公司 基于混合现实眼镜的三维场景重建方法、重建系统和应用
CN114494804B (zh) * 2022-04-18 2022-10-25 武汉明捷科技有限责任公司 一种基于域特有信息获取的无监督领域适应图像分类方法
CN115359170B (zh) * 2022-10-19 2023-03-03 北京百度网讯科技有限公司 场景数据的生成方法、装置、电子设备和存储介质
CN115937907B (zh) * 2023-03-15 2023-05-30 深圳市亲邻科技有限公司 社区宠物识别方法、装置、介质及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8547374B1 (en) * 2009-07-24 2013-10-01 Lockheed Martin Corporation Detection and reconstruction of 3D objects with passive imaging sensors
US20160189419A1 (en) * 2013-08-09 2016-06-30 Sweep3D Corporation Systems and methods for generating data indicative of a three-dimensional representation of a scene
US9171403B2 (en) * 2014-02-13 2015-10-27 Microsoft Technology Licensing, Llc Contour completion for augmenting surface reconstructions
US10043319B2 (en) * 2014-11-16 2018-08-07 Eonite Perception Inc. Optimizing head mounted displays for augmented reality
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
US9633282B2 (en) 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US10360718B2 (en) 2015-08-14 2019-07-23 Samsung Electronics Co., Ltd. Method and apparatus for constructing three dimensional model of object
US10089750B2 (en) * 2017-02-02 2018-10-02 Intel Corporation Method and system of automatic object dimension measurement by using image processing
CN110827295A (zh) * 2019-10-31 2020-02-21 北京航空航天大学青岛研究院 基于体素模型与颜色信息耦合的三维语义分割方法
US11436766B2 (en) * 2019-12-20 2022-09-06 Varian Medical Systems International Ag Tomographic image reconstruction using artificial intelligence (AI) engines

Similar Documents

Publication Publication Date Title
Riegler et al. Stable view synthesis
Gu et al. Nerfdiff: Single-image view synthesis with nerf-guided distillation from 3d-aware diffusion
Yuan et al. Star: Self-supervised tracking and reconstruction of rigid objects in motion with neural rendering
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
Li et al. Synthesizing light field from a single image with variable MPI and two network fusion.
US11880935B2 (en) Multi-view neural human rendering
JP2013542505A (ja) 画像内のコンテンツの検閲処理を行うための方法および装置
EP3448032B1 (en) Enhancing motion pictures with accurate motion information
US20240087214A1 (en) Color and infra-red three-dimensional reconstruction using implicit radiance functions
US20180101719A1 (en) Method and device for generating data for two- or three-dimensional depiction of at least part of an object and for generating the two- or three-dimensional depiction of the at least one part of the object
JPWO2021178875A5 (ja)
CN113628348A (zh) 一种确定三维场景中视点路径的方法及设备
CN112233165A (zh) 一种基于多平面图像学习视角合成的基线扩展实现方法
Bleyer et al. Temporally consistent disparity maps from uncalibrated stereo videos
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Lochmann et al. Real-time Reflective and Refractive Novel-view Synthesis.
EP2416578A2 (en) Multiclass clustering with side information from multiple sources and the application of converting 2d video to 3d
Yoon et al. A framework for multi-view video coding using layered depth images
Hayat et al. E-SEVSR-Edge Guided Stereo Endoscopic Video Super-Resolution
CN112541972A (zh) 一种视点图像处理方法及相关设备
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
CN116402908A (zh) 一种基于异构式成像的密集光场图像重建方法
Jammal et al. Multiview video quality enhancement without depth information
KR101785857B1 (ko) 단일 영상 기반의 외각 시점 합성 방법 및 영상 처리 장치
Feng et al. Foreground-aware dense depth estimation for 360 images