JPWO2021178875A5

JPWO2021178875A5 -

Info

Publication number: JPWO2021178875A5
Application number: JP2022552800A
Authority: JP
Publication date: 2024-03-12

Description

クロスリアリティシステムは、次いで、３Ｄ再構築物を利用して、３Ｄ画像を頭部搭載型ディスプレイ上の複数の焦点面に表示する等、豊かな、両眼の、３次元体験内に表示される、３ＤＸＲ体験を生成してもよい。クロスリアリティシステムはまた、３Ｄ再構築物を利用して、仮想オブジェクト、他の仮想オブジェクト、および／または実世界オブジェクト間の相互作用を管理してもよい。
本発明は、例えば、以下を提供する。
（項目１）
マルチビュー画像から場面の３次元（３Ｄ）再構築物を生成する方法であって、前記方法は、
赤緑青（ＲＧＢ）画像のフレームのシーケンスを取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの特徴を前記３Ｄボクセルボリュームの中に融合／累積させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、方法。
（項目２）
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、項目１に記載の方法。
（項目３）
前記移動平均は、単純移動平均である、項目２に記載の方法。
（項目４）
前記移動平均は、加重された移動平均である、項目３に記載の方法。
（項目５）
前記３Ｄボクセルボリュームを前記３ＤＣＮＮの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることをさらに含む、項目１に記載の方法。
（項目６）
付加的スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記方法はさらに、前記付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることを含む、項目１に記載の方法。
（項目７）
前記３Ｄボクセルボリュームの１つ以上のヌルボクセルは、特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法はさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびｒｅｌｕ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、項目６に記載の方法。
（項目８）
前記３ＤＣＮＮは、それぞれが３×３×３残差ブロックのセットを有する、複数の層を有し、前記３ＤＣＮＮは、３×３×３ストライド２畳み込みを用いたダウンサンプリングと、トライリニア補間後、１×１×１畳み込みを使用する、アップサンプリングとを実装する、項目１に記載の方法。
（項目９）
前記３ＤＣＮＮはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
前記方法はさらに、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、項目１に記載の方法。
（項目１０）
場面の一部を網羅する短フレームシーケンスを使用して、前記２ＤＣＮＮを訓練することをさらに含む、項目１に記載の方法。
（項目１１）
前記短フレームシーケンスは、１０またはより少ないフレームシーケンスを含む、項目１０に記載の方法。
（項目１２）
前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記２ＤＣＮＮの訓練を微調整することをさらに含む、項目１１に記載の方法。
（項目１３）
前記より大きいフレームシーケンスは、１００以上のフレームシーケンスを含む、項目１２に記載の方法。
（項目１４）
クロスリアリティシステムであって、
ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
を備え、
前記コンピューティングシステムは、プロセスによって、前記場面の３次元（３Ｄ）再構築物を前記カメラセンサによって捕捉されたＲＧＢ画像のフレームのシーケンスから生成するように構成され、
前記プロセスは、
前記カメラセンサの視野内の場面の赤緑青（ＲＧＢ）画像のフレームのシーケンスを前記カメラセンサから取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの前記特徴を前記３Ｄボクセルボリュームの中に融合させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、システム。
（項目１５）
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、項目１４に記載のシステム。
（項目１６）
前記移動平均は、単純移動平均である、項目１５に記載のシステム。
（項目１７）
前記移動平均は、加重された移動平均である、項目１６に記載のシステム。
（項目１８）
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記３Ｄボクセルボリュームを前記３Ｄ畳み込みエンコーダ－デコーダの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることを含む、項目１４に記載のシステム。
（項目１９）
付加的スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることを含む、項目１４に記載のシステム。
（項目２０）
前記３Ｄボクセルボリュームの１つ以上のヌルボクセル特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスはさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびｒｅｌｕ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、項目１９に記載のシステム。
（項目２１）
前記３ＤＣＮＮはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
方法はさらに、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、項目１４に記載のシステム。

Claims

マルチビュー画像から場面の３次元（３Ｄ）再構築物を生成する方法であって、前記方法は、
赤緑青（ＲＧＢ）画像のフレームのシーケンスを取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの特徴を前記３Ｄボクセルボリュームの中に融合／累積させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、方法。
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、請求項１に記載の方法。
前記移動平均は、単純移動平均である、請求項２に記載の方法。
前記移動平均は、加重された移動平均である、請求項３に記載の方法。
前記３Ｄボクセルボリュームを前記３ＤＣＮＮの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることをさらに含む、請求項１に記載の方法。
付加的スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記方法は、前記付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることをさらに含む、請求項５に記載の方法。
前記３Ｄボクセルボリュームの１つ以上のヌルボクセルは、特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法は、
前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数および前記ｒｅＬＵ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
をさらに含む、請求項６に記載の方法。
前記３ＤＣＮＮは、それぞれが３×３×３残差ブロックのセットを有する、複数の層を有し、前記３ＤＣＮＮは、３×３×３ストライド２畳み込みを用いたダウンサンプリングと、トライリニア補間後、１×１×１畳み込みを使用する、アップサンプリングとを実装する、請求項１に記載の方法。
前記３ＤＣＮＮは、意味論セグメント化を予測するための付加的ヘッドをさらに備え、
前記方法は、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することをさらに含む、請求項１に記載の方法。
場面の一部を網羅する短フレームシーケンスを使用して、前記２ＤＣＮＮを訓練することをさらに含む、請求項１に記載の方法。
前記短フレームシーケンスは、１０またはより少ないフレームシーケンスを含む、請求項１０に記載の方法。
前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記２ＤＣＮＮの訓練を微調整することをさらに含む、請求項１１に記載の方法。
前記より大きいフレームシーケンスは、１００以上のフレームシーケンスを含む、請求項１２に記載の方法。
クロスリアリティシステムであって、
ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
を備え、
前記コンピューティングシステムは、プロセスによって、場面の３次元（３Ｄ）再構築物を前記カメラセンサによって捕捉されたＲＧＢ画像のフレームのシーケンスから生成するように構成され、
前記プロセスは、
前記カメラセンサの視野内の場面の赤緑青（ＲＧＢ）画像のフレームのシーケンスを前記カメラセンサから取得することと、
２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を使用して、特徴を前記ＲＧＢ画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、３Ｄボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの前記特徴を前記３Ｄボクセルボリュームの中に融合させることと、
前記３Ｄボクセルボリュームを、エンコーダ－デコーダを有する３Ｄ畳み込みニューラルネットワーク（３ＤＣＮＮ）を通して通過させ、前記３Ｄボクセルボリューム内の前記特徴を精緻化し、前記３Ｄボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数（ＴＳＤＦ）値を回帰させることと
を含む、システム。
前記フレームは、移動平均を使用して、単一３Ｄ特徴ボリュームの中に融合される、請求項１４に記載のシステム。
前記移動平均は、単純移動平均である、請求項１５に記載のシステム。
前記移動平均は、加重された移動平均である、請求項１６に記載のシステム。
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスは、前記３Ｄボクセルボリュームを前記３Ｄ畳み込みエンコーダ－デコーダの全ての層を通して通過させた後、前記３Ｄボクセルボリューム内の前記精緻化された特徴および前記３Ｄボクセルボリュームの各ボクセルにおけるＴＳＤＦ値をバッチ正規化（バッチノルム）関数および正規化線形ユニット（ｒｅＬＵ）関数を通して通過させることをさらに含む、請求項１４に記載のシステム。
スキップ接続が、前記３ＤＣＮＮのエンコーダからデコーダまでに含まれ、
前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスは、付加的スキップ接続を使用して、前記３ＤＣＮＮの前記エンコーダから前記デコーダまでの前記３Ｄボクセルボリューム内の１つ以上の特徴をスキップすることをさらに含む、請求項１８に記載のシステム。
前記３Ｄボクセルボリュームの１つ以上のヌルボクセルは、特徴を、前記ＲＧＢ画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の３次元（３Ｄ）再構築物を前記ＲＧＢ画像のフレームのシーケンスから生成するための前記プロセスは、
前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数および前記ｒｅＬＵ関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
をさらに含む、請求項１９に記載のシステム。
前記３ＤＣＮＮは、意味論セグメント化を予測するための付加的ヘッドをさらに備え、
方法は、前記３ＤＣＮＮが前記３Ｄボクセルボリューム内の前記特徴の意味論セグメント化を予測することをさらに含む、請求項１４に記載のシステム。