JPWO2021178919A5

JPWO2021178919A5 -

Info

Publication number: JPWO2021178919A5
Application number: JP2022552548A
Authority: JP
Publication date: 2024-03-07

Description

別の開示される実施形態は、クロスリアリティ（ＸＲ）システムを対象とし、これは、深度を推定するように構成され、本明細書に説明されるような深度のために利用される。クロスリアリティシステムは、ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスを備える。例えば、頭部搭載型ディスプレイは、一対の接眼ディスプレイを眼鏡状構造内に有してもよい。コンピューティングシステムは、頭部搭載型ディスプレイと動作可能に通信する。複数のカメラセンサは、コンピューティングシステムと動作可能に通信する。コンピューティングシステムは、上記に説明される方法のいずれかにおいて、カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するように構成される。クロスリアリティシステムの付加的側面では、プロセスは、上記に説明されるクロスリアリティシステムの付加的側面のうちの任意の１つまたはそれを上回るものを含んでもよい。例えば、プロセスは、カメラセンサからのカメラセンサの視野内の場面のアンカ画像と、場面の基準画像のセットとを含む、マルチビュー画像を取得するステップと、（１）アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、アンカ画像内の着目点を検出し、代替視点から基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、アンカ画像および基準画像を通過させるステップと、各基準画像の検索空間内の個別の記述子をサンプリングし、検索空間内の記述子を決定し、識別された記述子とアンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、特異値分解（ＳＶＤ）を使用して、マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を３Ｄ点および出力特徴マップから作成するステップと、深度デコーダが、疎深度エンコーダに関する出力特徴マップと、ＲＧＢエンコーダからの中間特徴マップとに基づいて、稠密深度画像を生成するステップとを含んでもよい。
本発明は、例えば、以下を提供する。
（項目１）
マルチビュー画像からの場面内の特徴の深度を推定するための方法であって、前記方法は、
前記場面のアンカ画像と、前記場面の基準画像のセットとを含むマルチビュー画像を取得するステップと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させるステップと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成するステップと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成するステップと
を含む、方法。
（項目２）
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、項目１に記載の方法。
（項目３）
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、項目１に記載の方法。
（項目４）
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の着目点の検出のための加重を決定し、着目点記述を出力するステップ
をさらに含む、項目１に記載の方法。
（項目５）
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、項目１に記載の方法。
（項目６）
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、項目１に記載の方法。
（項目７）
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、項目１に記載の方法。
（項目８）
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記着目点の個別の２次元（２Ｄ）位置を推定するステップと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算するステップと、
線形代数三角測量を前記２Ｄ推定値から実施するステップと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力するステップと
を含む、項目１に記載の方法。
（項目９）
クロスリアリティシステムであって、
ディスプレイシステムを有する頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信するコンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する複数のカメラセンサと
を備え、前記コンピューティングシステムは、
前記カメラセンサからの前記カメラセンサの視野内の場面のアンカ画像と、場面の基準画像のセットとを含むマルチビュー画像を取得するステップと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させるステップと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の着目点に関する記述子をマッチングさせるステップであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ステップと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力するステップと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成するステップと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成するステップと
を含むプロセスによって、前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するように構成される、クロスリアリティシステム。
（項目１０）
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、項目９に記載のクロスリアリティシステム。
（項目１１）
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、項目９に記載のクロスリアリティシステム。
（項目１２）
前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するためのプロセスはさらに、
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の着目点の検出のための加重を決定し、着目点記述を出力するステップ
を含む、項目９に記載のクロスリアリティシステム。
（項目１３）
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、項目９に記載のクロスリアリティシステム。
（項目１４）
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、項目９に記載のクロスリアリティシステム。
（項目１５）
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、項目９に記載のクロスリアリティシステム。
（項目１６）
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記着目点の個別の２次元（２Ｄ）位置を推定するステップと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算するステップと、
線形代数三角測量を前記２Ｄ推定値から実施するステップと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力するステップと
を含む、項目９に記載のクロスリアリティシステム。

Claims

マルチビュー画像からの場面内の特徴の深度を推定するための方法であって、前記方法は、
前記場面のアンカ画像と、前記場面の基準画像のセットとを含むマルチビュー画像を取得することと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の疎着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させることであって、前記記述子デコーダは、記述子を訓練するように構成される学習アーキテクチャを利用する、ことと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の前記疎着目点に関する記述子をマッチングさせることであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ことと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力することと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成することと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成することと
を含む、方法。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、請求項１に記載の方法。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、請求項１に記載の方法。
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の前記疎着目点の検出のための加重を決定し、着目点記述を出力すること
をさらに含む、請求項１に記載の方法。
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記疎着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、請求項１に記載の方法。
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、請求項１に記載の方法。
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、請求項１に記載の方法。
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記疎着目点の個別の２次元（２Ｄ）位置を推定することと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算することと、
線形代数三角測量を前記２Ｄ推定値から実施することと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力することと
を含む、請求項１に記載の方法。
クロスリアリティシステムであって、
ディスプレイシステムを有する頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信するコンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する複数のカメラセンサと
を備え、
前記コンピューティングシステムは、
前記カメラセンサからの前記カメラセンサの視野内の場面のアンカ画像と、場面の基準画像のセットとを含むマルチビュー画像を取得することと、
（１）前記アンカ画像および各基準画像に関する記述子の個別の記述子フィールドを出力し、（ｉｉ）相対的姿勢と併せて、前記アンカ画像内の疎着目点を検出し、代替視点から前記基準画像内の検索空間を決定し、（ｉｉｉ）中間特徴マップを出力する、共有ＲＧＢエンコーダおよび記述子デコーダを通して、前記アンカ画像および基準画像を通過させることであって、前記記述子デコーダは、記述子を訓練するように構成される学習アーキテクチャを利用する、ことと、
各基準画像の前記検索空間内の前記個別の記述子をサンプリングし、前記検索空間内の記述子を決定し、前記識別された記述子と前記アンカ画像内の前記疎着目点に関する記述子をマッチングさせることであって、そのようなマッチングされる記述子は、マッチングされた特徴点と称される、ことと、
特異値分解（ＳＶＤ）を使用して、前記マッチングされた特徴点を三角測量し、３Ｄ点を出力することと、
前記３Ｄ点を疎深度エンコーダを通して通過させ、疎深度画像を前記３Ｄ点および出力特徴マップから作成することと、
深度デコーダが、前記疎深度エンコーダに関する前記出力特徴マップと、前記ＲＧＢエンコーダからの前記中間特徴マップとに基づいて、稠密深度画像を生成することと
を含むプロセスによって、前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するように構成される、クロスリアリティシステム。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、ＲＧＢ画像エンコーダおよび疎深度画像エンコーダを含む２つのエンコーダと、着目点検出エンコーダ、記述子デコーダ、および稠密深度予測エンコーダを含む３つのデコーダとを備える、請求項９に記載のクロスリアリティシステム。
前記共有ＲＧＢエンコーダおよび記述子デコーダは、前記アンカ画像およびトランザクション画像の完全分解能に作用するように構成される完全畳み込みニューラルネットワークである、請求項９に記載のクロスリアリティシステム。
前記カメラセンサによって捕捉された複数のマルチビュー画像からの場面内の特徴の深度を推定するためのプロセスは、
前記ＲＧＢエンコーダからの前記特徴マップを第１のタスク特有のデコーダヘッドの中にフィードし、前記アンカ画像内の前記疎着目点の検出のための加重を決定し、着目点記述を出力すること
をさらに含む、請求項９に記載のクロスリアリティシステム。
前記記述子デコーダは、Ｕ－Ｎｅｔ様アーキテクチャを備え、前記識別された記述子と前記疎着目点に関する記述子をマッチングさせるために、微細および粗大レベル画像情報を融合させる、請求項９に記載のクロスリアリティシステム。
前記検索空間は、前記基準画像内の個別のエピポーラ線＋前記エピポーラ線の両側上の固定されたオフセットに制約され、前記エピポーラ線に沿った実行可能深度感知範囲内にある、請求項９に記載のクロスリアリティシステム。
双線形サンプリングが、前記共有ＲＧＢエンコーダおよび記述子デコーダによって使用され、前記個別の記述子を前記記述子フィールド内の所望の点において出力する、請求項９に記載のクロスリアリティシステム。
前記マッチングされた特徴点を三角測量するステップは、
空間軸を横断して、ｓｏｆｔｍａｘを算出し、相互相関マップを出力することによって、前記疎着目点の個別の２次元（２Ｄ）位置を推定することと、
ｓｏｆｔ－ａｒｇｍａｘ演算を実施し、節点の２Ｄ位置を対応する相互相関マップの質量中心として計算することと、
線形代数三角測量を前記２Ｄ推定値から実施することと、
特異値分解（ＳＶＤ）を使用して、３Ｄ点を出力することと
を含む、請求項９に記載のクロスリアリティシステム。