WO2021241166A1

WO2021241166A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2021241166A1
Application number: PCT/JP2021/017497
Authority: WO
Inventors: 学川島
Original assignee: ソニーグループ株式会社
Priority date: 2020-05-29
Filing date: 2021-05-07
Publication date: 2021-12-02
Also published as: US20230222686A1; CN115516512A

Abstract

情報処理装置（１０）は、背景重み算出部（１３）と位置姿勢推定部（１６）とを有する。背景重み算出部（１３）は、撮影画像（ＩＭ）に含まれる複数の特徴点（ＦＰ）に対して、特徴点（ＦＰ）ごとに、特徴点（ＦＰ）が撮影画像（ＩＭ）の背景をなす静止被写体上の点である確率に応じた重みを算出する。位置姿勢推定部（１６）は、各特徴点（ＦＰ）の重みを反映した演算結果に基づいて、撮影画像（ＩＭ）を環境地図（ＭＰ）に登録されたキーフレーム画像（４１）の情報と比較し、撮影画像（ＩＭ）を撮影した機器の位置姿勢を推定する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　ＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）を用いて機器の位置姿勢を推定する技術が知られている。

特開２０１６－１７７３８８号公報

　位置姿勢の推定は、機器が撮影した撮影画像を環境地図と照合することにより行われる。しかし、撮影画像に動く被写体が含まれると、撮影画像を環境地図と精度よく照合することができず、位置姿勢の推定精度が低下する可能性がある。

　そこで、本開示では、位置姿勢の推定精度を高めることができる情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

第１実施形態の情報処理システムの概略図である。情報処理システムの画像検索機能および位置姿勢推定機能を説明する図である。重みの算出方法の一例を示す図である。情報処理方法を示すフローチャートである。第２実施形態の情報処理システムの概略図である。第３実施形態の情報処理システムの概略図である。ブレンド率の決定方法の一例を示す図である。コンピュータのハードウェアの構成例を示すブロック図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．第１実施形態］
　［１－１．情報処理システムの構成］
　［１－２．情報処理方法］
　［１－３．効果］
［２．第２実施形態］
［３．第３実施形態］
［４．コンピュータの構成例］

［１．第１実施形態］
［１－１．情報処理システムの構成］
　図１は、第１実施形態の情報処理システム１の概略図である。図２は、情報処理システム１の画像検索機能および位置姿勢推定機能を説明する図である。

　図１に示すように、情報処理システム１は、例えば、処理部１０と、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）２０と、カメラ３０と、記憶部４０と、を有する。

　処理部１０は、ＳＬＡＭを用いて、ＩＭＵ２０およびカメラ３０が搭載された機器の位置姿勢（環境地図ＭＰ上の位置および撮影姿勢）を推定する情報処理装置である。ＳＬＡＭは、カメラ３０とＩＭＵ２０の計測情報から位置姿勢の変化量（姿勢変化量）を求めるＶＩＯ（Ｖｉｓｕａｌ　Ｉｎｅｒｔｉａｌ　Ｏｄｏｍｅｔｒｙ）処理と、移動中に撮り貯められたキーフレーム画像群から現在画ＩＭＡ（現在フレームの撮影画像ＩＭ）と似たキーフレーム画像４１を検索して位置姿勢を求めるＬｏｃａｌｉｚｅ処理と、を含む。

　ＶＩＯ処理では、過去から現在までの姿勢変化量を積算することによって現在の位置姿勢が算出される。この方法では誤差も積算されてしまい、時間とともに正解軌跡からのずれが大きくなる。

　Ｌｏｃａｌｉｚｅ処理では、記憶部４０に記憶された環境地図ＭＰを用いて機器の位置姿勢が算出される。環境地図ＭＰは、過去に撮影された複数のキーフレーム画像４１を用いて生成されている。環境地図ＭＰには、キーフレーム画像４１の画像情報（キーフレーム情報）がキーフレーム画像４１の撮影された位置および撮影姿勢に関連付けて登録されている。キーフレーム情報には、例えば、キーフレーム画像４１に含まれる複数の特徴点（登録特徴点）ＲＦＰの位置、各特徴点ＲＦＰの局所特徴量（登録局所特徴量）、および、各特徴点ＲＦＰの局所特徴量に基づいて算出された画像特徴量（登録画像特徴量）に関する情報が含まれる。

　特徴点ＲＦＰおよび局所特徴量は、ＳＩＦＴ（Ｓｃａｌｅ－Ｉｎｖａｒｉａｎｔ　Ｆｅａｔｕｒｅ　Ｔｒａｎｓｆｏｒｍ）などの公知の手法を用いて抽出される。画像特徴量は、ＢｏＶＷ（Ｂａｇ　ｏｆ　Ｖｉｓｕａｌ　Ｗｏｒｄｓ）、および、ＢｏＶＷの発展形であるＶＬＡＤ（Ｖｅｃｔｏｒ　ｏｆ　Ｌｏｃａｌｌｙ　Ａｇｇｒｅｇａｔｅｄ　Ｄｅｓｃｒｉｐｔｏｒｓ）などの公知の手法を用いて算出される。

　Ｌｏｃａｌｉｚｅ処理では、現在画ＩＭＡとキーフレーム画像４１とを比較して、キーフレーム画像４１の撮影位置姿勢（撮影が行われたときの機器の位置姿勢）と現在画ＩＭＡの撮影位置姿勢との相対関係（相対位置姿勢）が算出される。Ｌｏｃａｌｉｚｅ処理では、算出された相対位置姿勢が、キーフレーム画像４１に紐付けられた位置姿勢に付加されることにより、現在画ＩＭＡの撮影位置姿勢が算出される。これにより、ＶＩＯ処理によって蓄積された誤差がキャンセルされる。

　ただし、現在画ＩＭＡとキーフレーム画像４１の撮影時期は大きく離れているため、２つの画像から位置姿勢の推定に悪影響を及ぼす外乱（たとえば移動物体）の検出を行うことは難しい。従来、この外乱の影響を少なくするためにＲＡＮＳＡＣ（Ｒａｎｄｏｍ　Ｓａｍｐｌｅ　Ｃｏｎｓｅｎｓｕｓ）による仮説検証が行われる。しかし、画像内に外乱が多く存在すると検証試行回数を膨大に増やす必要がある。そのため、検証試行回数を固定回数で打ち切るなどの必要があり、外乱の影響が十分に排除されない。

　そのため、処理部１０は、現在画ＩＭＡに含まれる複数の特徴点ＦＰのそれぞれについて、特徴点ＦＰが前景（動く被写体）に属する確率が高いか背景（静止被写体）に属する確率が高いかを判定する。処理部１０は、背景に属する確率が高い特徴点ＦＰの情報に対して高い優先度を与え、背景の情報が位置姿勢の演算結果に強く反映されるようにする。

　処理部１０は、局所特徴量抽出部１１と、積分処理部１２と、背景重み算出部１３と、画像検索部１４と、特徴量マッチング部１５と、位置姿勢推定部１６と、を有する。

　局所特徴量抽出部１１は、カメラ３０によって撮影された時系列画像データを取得する。時系列画像データには、時系列で撮影された複数の時刻の撮影画像ＩＭが含まれる。局所特徴量抽出部１１は、現在画ＩＭＡから複数の特徴点ＦＰを抽出する。局所特徴量抽出部１１は、各特徴点ＦＰの局所特徴量を抽出する。特徴点ＦＰは、例えば、現在画ＩＭＡにおいて画像エッジが交差するコーナー点である。局所特徴量は、例えば、特徴点ＦＰを中心とした小領域の画像（画像パッチ）の特徴量である。特徴点ＦＰおよび局所特徴量の抽出方法としては、ＳＩＦＴなどの公知の手法が採用される。

　局所特徴量抽出部１１は、現在画ＩＭＡに含まれる各特徴点ＦＰの深度を算出する。例えば、カメラ３０がステレオカメラである場合には、局所特徴量抽出部１１は、ステレオカメラで撮影された複数の視点の撮影画像ＩＭから視差を算出し、算出された視差に基づいて特徴点ＦＰの深度を求める。カメラ３０が単眼カメラである場合には、局所特徴量抽出部１１は、異なる時刻（位置）から撮影された複数の撮影画像ＩＭから移動視差を算出し、算出された移動視差に基づいて特徴点ＦＰの深度を算出する。

　積分処理部１２は、ＩＭＵ２０によって計測された加速度および角速度の情報を取得する。積分処理部１２は、加速度および角速度の情報に基づいて、機器の位置姿勢の変化量を算出する。積分処理部１２は、過去画ＩＭＢの撮影時から現在画ＩＭＡの撮影時までの位置姿勢の変化量を積分して、過去画ＩＭＢの撮影位置姿勢と現在画ＩＭＡの撮影位置姿勢との相対位置姿勢を算出する。

　背景重み算出部１３は、現在画ＩＭＡに含まれる複数の特徴点ＦＰに対して、特徴点ＦＰごとに、特徴点ＦＰが現在画ＩＭＡの背景をなす静止被写体上の点である確率に応じた重みを算出する。例えば、背景重み算出部１３は、カメラ３０で撮影された時系列画像データから現在画ＩＭＡと過去画ＩＭＢ（現在画ＩＭＡよりも１フレーム以上前に撮影された撮影画像ＩＭ）とを抽出する。背景重み算出部１３は、時系列で撮影された現在画ＩＭＡと過去画ＩＭＢの差分の情報と、ＩＭＵの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点ＦＰの重みを算出する。背景重み算出部１３は、キーフレーム画像４１の検索にクエリとして使用される現在画ＩＭＡ以外に、現在画ＩＭＡから時間的に近い過去画ＩＭＢの画像情報を使用して、現在画ＩＭＡに含まれる背景の情報を推定する。

　図３は、重みの算出方法の一例を示す図である。現在画ＩＭＡは時刻ｔ_０に撮影された撮影画像ＩＭであり、過去画ＩＭＢは時刻ｔ_－１に撮影された撮影画像ＩＭである。

　背景重み算出部１３は、局所特徴量抽出部１１から取得された情報に基づいて、現在画ＩＭＡと過去画ＩＭＢとをブロックマッチングし、現在画ＩＭＡに含まれる複数の特徴点ＦＰに対応する過去画ＩＭＢの複数の対応点ＣＰを検出する。背景重み算出部１３は、現在画ＩＭＡの複数の特徴点ＦＰの過去（時刻ｔ_－１）の位置をＩＭＵ２０の計測情報に基づいて予測する。背景重み算出部１３は、予測された現在画ＩＭＡの複数の特徴点ＦＰの過去の位置と過去画ＩＭＢの複数の対応点ＣＰの位置との比較結果に基づいて、現在画ＩＭＡの複数の特徴点ＦＰのそれぞれの重みを算出する。

　例えば、背景重み算出部１３は、積分処理部１２から取得した相対位置姿勢の情報に基づいて、特徴点ＦＰごとに、特徴点ＦＰが過去画ＩＭＢにおいて存在すると予測される位置の点を予測点ＰＰとして抽出する。背景重み算出部１３は、対応点ＣＰの位置が予測点ＰＰの位置から近ければ、特徴点ＦＰが静止物体上の点である確率が高いと判定する。背景重み算出部１３は、背景に属する確率が高い特徴点ＦＰほど、大きな値の重みを割り当てる。

　例えば、背景重み算出部１３は、以下の式（１）ないし式（６）に基づいて各特徴点ＦＰの重みｗを設定する。

ｗ＝Ｃ／（Ｃ－ε）　…（１）
ε＝｜ｕ_ｔ－１－ｖ_ｔ－１｜　…（２）
ｖ_ｔ－１＝（１／ｚ_ｔ－１）Ｌ　…（３）
Ｌ＝Ｋ（ΔＲ′ｚ_ｔＫ^－１ｕ_ｔ＋Δｐ′）　…（４）
ΔＲ′＝ΔＲ^Ｔ　…（５）
Δｐ′＝Δｐ^Ｔ　…（６）

　式（１）ないし式（６）において、ｗは特徴点ＦＰの重みを示す。Ｃは定数である。ｕ_ｔは特徴点ＦＰの現在画ＩＭＡ上の位置を示す。ｕ_ｔ－１は対応点ＣＰの過去画ＩＭＢ上の位置を示す。ｖ_ｔ－１は特徴点ＦＰの過去画ＩＭＢ上の位置を示す。εは、予測点ＰＰからの対応点ＣＰのずれ（予測点ＰＰと対応点ＣＰとの間の距離）を示す。ｚ_ｔは、現在画ＩＭＡの特徴点の深度を示す。ｚ_ｔ－１は、Ｌのｚ座標を示す。ΔＲは、ＩＭＵ２０の計測情報に基づいて算出される、時刻ｔ_－１から時刻ｔ_０への撮影姿勢の変化を示す。Ｋは、カメラの内部パラメータを示す。ΔＲ′は、ΔＲを逆変換して得られる、時刻ｔ_０から時刻ｔ_－１への撮影姿勢の変化を示す。Δｐは、ＩＭＵ２０の計測情報に基づいて算出される、時刻ｔ_－１から時刻ｔ_０への撮影位置の変化を示す。Δｐ′は、Δｐを逆変換して得られる、時刻ｔ_０から時刻ｔ_－１への撮影位置の変化を示す。定数Ｃは、位置姿勢の推定対象となる機器の仕様に応じて適切に設定される。

　図２に戻って、画像検索部１４は、各特徴点ＦＰの重みｗに基づいて補正された現在画ＩＭＡの画像特徴量を用いて現在画ＩＭＡに類似するキーフレーム画像４１を検索する。画像検索部１４は、例えば、画像特徴量算出部１４１と、画像特徴量照合部１４２と、を有する。

　画像特徴量算出部１４１は、各特徴点ＦＰの局所特徴量を重みｗによって重み付けして画像特徴量を算出する。画像特徴量は、ＢｏＶＷおよびＶＬＡＤなどの公知の手法を用いて算出されるが、演算に際しては、特徴点ＦＰごとの重みｗが加味される。例えば、画像特徴量算出部１４１は、以下の式（７）に基づいて現在画ＩＭＡの画像特徴量を算出する。画像特徴量算出部１４１は、各局所特徴量と最近傍のセントロイドとの距離計算に重み付けをすることで静止物体上の点の寄与率を上げる。

Ｖ＝Σ_ｉｗ_ｉａ（ｖ_ｉ－ｃ）　…（７）

　式（７）において、Ｖは画像特徴量を示す。ｗ_ｉはｉ番目の特徴点ＦＰの重みを示す。ａはクラスタ指示子を示す。ｖ_ｉはｉ番目の特徴点ＦＰの局所特徴量を示す。ｃはセントロイドを示す。

　画像特徴量照合部１４２は、画像特徴量を環境地図ＭＰに登録された複数のキーフレーム画像４１の情報と照合し、現在画ＩＭＡの画像特徴量に最も近い画像特徴量を有するキーフレーム画像４１の情報を抽出する。

　特徴量マッチング部１５は、抽出されたキーフレーム画像４１の画像情報（特徴点ＲＦＰの局所特徴量の情報）と現在画ＩＭＡの画像情報（特徴点ＦＰの局所特徴量の情報）とに基づいて、現在画ＩＭＡとキーフレーム画像４１から複数の対応点ペアを抽出する。対応点ペアは現在画ＩＭＡとキーフレーム画像４１の互いに対応する特徴点のペアである。

　位置姿勢推定部１６は、現在画ＩＭＡの各特徴点ＦＰの重みｗを反映した演算結果に基づいて、現在画ＩＭＡをキーフレーム画像４１の情報と比較し、その比較結果に基づいて、現在画ＩＭＡを撮影した機器の位置姿勢を推定する。位置姿勢推定部１６は、例えば、アウトライア除去部１６１と、姿勢算出部１６２と、を含む。

　アウトライア除去部１６１は、特徴量マッチング部１５で抽出された複数の対応点ペアのうち、重みｗに応じて優先度が付与された複数の対応点ペアから、ロバスト推定により、複数のインライアペアを抽出する。

　例えば、アウトライア除去部１６１は、局所特徴量抽出部１１から取得した情報を用いて、ロバスト推定に基づく仮説検証を行う。アウトライア除去部１６１は、仮説検証により、現在画ＩＭＡの各特徴点ＦＰとキーフレーム画像４１の各特徴点ＲＦＰとの位置関係として最もつじつまの合うものを求める。アウトライア除去部１６１は、仮説検証によって求められた位置関係に対してつじつまの合わない対応点ペア（例えば、対応点ペアの一方の特徴点が動く被写体上の点である場合や、一方の特徴点が隠れてしまった場合など）を取り除く。これにより、対応点としての信頼度が高い複数のインライアペアが抽出される。仮説検証によって得られた位置関係からは、現在画ＩＭＡの撮影位置姿勢とキーフレーム画像４１の撮影位置姿勢との間の仮の相対位置姿勢が求められる。

　仮説検証には、例えば、Ｐ３Ｐアルゴリズムが用いられる。Ｐ３Ｐアルゴリズムでは、全対応点ペアから選択された３つの対応点ペアによって仮の相対位置姿勢が求められる。この際、３つの対応点ペアは、ＲＡＮＳＡＣで行われるようにランダムに選択されるのではなく、ＰＲＯＳＡＣ（Ｐｒｏｇｒｅｓｓｉｖｅ　Ｓａｍｐｌｅ　Ｃｏｎｓｅｎｓｕｓ）を用いて、式（８）のように重みｗによってサンプリングに優先度が付与される。これにより、静止物体上の点のみから仮の相対位置姿勢が求められる確率が高くなる。

｛ｕ_ｊ，ｔ，ｕ_{ｊ，ｔ－ｘ}｝＝ＰＲＯＳＡＣ（｛ｕ_ｊ，ｔ，ｕ_{ｊ，ｔ－ｘ}｝，｛ｗ_ｊ｝）　…（８）

　式（８）において、ｕ_ｊ，ｔは現在画ＩＭＡのｊ番目の特徴点ＦＰの位置を示す。ｕ_{ｊ，ｔ－ｘ}はキーフレーム画像４１のｊ番目の特徴点ＲＦＰの位置を示す。ｗ_ｊはｊ番目の特徴点ＦＰの重みを示す。

　リアルタイムシステムでは、全ての組み合わせの数だけ対応点ペアをサンプリングすることは処理遅延的に厳しい。そのため、サンプリング数を固定回数で打ち切ることでリアルタイム性の維持を図る場合がある。この際、サンプリングに上述のような優先度を付与することで、サンプリング数を固定回数で打ち切った場合でも、静止物体上の点がインライアペアとして選ばれやすくなる。

　姿勢算出部１６２は、現在画ＩＭＡの各特徴点ＦＰの重みｗに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、機器の位置姿勢を算出する。例えば、姿勢算出部１６２は、インライアペアとして抽出された複数の対応点ペアの位置関係から、現在画ＩＭＡの撮影位置姿勢とキーフレーム画像４１の撮影位置姿勢との相対位置姿勢を算出する。この際、姿勢算出部１６２は、特徴点ＦＰごとの重みｗを加味することで、インライアペアの中でも静止物体上の点である確率の高い対応点ペア間のリプロジェクションエラーが小さくなるように相対位置姿勢を求める。姿勢算出部１６２は、算出された相対位置姿勢を、キーフレーム画像４１に紐付けられた撮影位置姿勢に付加して、現在の機器の位置姿勢（現在画ＩＭＡの撮影位置姿勢）を算出する。

　相対位置姿勢の演算には、例えば、ＰｎＰアルゴリズムが用いられる。姿勢算出部１６２は、全てのインライアペアに基づいて相対位置姿勢を求める。例えば、姿勢算出部１６２は、下記式（９）にしたがって、インライアペアごとに特徴点間の距離を算出する。姿勢算出部１６２は、各特徴点ＦＰについて算出された重みｗを用いて距離の重み付き２乗和を算出する。姿勢算出部１６２は、重み付き２乗和が最小となる機器の位置姿勢を算出する。

ΔＴ＝ａｒｇｍｉｎΣ_ｊｗ_ｊ｜ｕ_ｊ，ｔ－ｐｒｏｊ（ΔＴｘ_{ｊ，ｔ－ｘ}）｜^２　…（９）

　式（９）において、ΔＴは相対位置姿勢を示す。ｘ_ｊは特徴ｕ_ｊに対する３次元座標を示す。ｐｒｏｊは、３次元座標点をカメラ画面の２次元座標上に投影する関数を示す。関数ｐｒｏｊは、次の式（１０）を満たす。

ｐｒｏｊ（ｘ）＝（１／ｚ）Ｋｘ　…（１０）

　式（１０）において、ｘは３次元座標点を示す。Ｋはカメラの内部パラメータ（３×３行列）を示す。ｚはＫｘの深度（ｚ座標）を示す。

［１－２．情報処理方法］
　図４は、本実施形態の情報処理方法を示すフローチャートである。

　ステップＳ１において、処理部１０は、ＩＭＵ２０によって計測された加速度および角速度の情報を取得する。また、処理部１０は、現在画ＩＭＡおよび過去画ＩＭＢを含む時系列画像データを取得する。

　ステップＳ２において、局所特徴量抽出部１１は、現在画ＩＭＡから複数の特徴点ＦＰを抽出し、特徴点ＦＰごとに局所特徴量を抽出する。また、局所特徴量抽出部１１は、各特徴点ＦＰの深度を算出する。

　ステップＳ３において、積分処理部１２は、ＩＭＵ２０によって計測された加速度および角速度の情報に基づいて、過去画ＩＭＢの撮影時から現在画ＩＭＡの撮影時までの機器の位置姿勢の変化量を積分する。

　ステップＳ４において、背景重み算出部１３は、現在画ＩＭＡと過去画ＩＭＢとをブロックマッチングし、現在画ＩＭＡに含まれる複数の特徴点ＦＰに対応する過去画ＩＭＢの複数の対応点ＣＰを検出する。背景重み算出部１３は、積分処理部１２によって算出された位置姿勢の変化量に基づいて、特徴点ＦＰと対応点ＣＰとの比較を行う。背景重み算出部１３は、特徴点ＦＰと対応点ＣＰとの比較結果に基づいて、特徴点ＦＰが現在画ＩＭＡの背景をなす静止被写体上の点である確率を求め、その確率に応じた重みｗを特徴点ＦＰに割り当てる。

　ステップＳ５において、画像検索部１４は、各特徴点ＦＰの重みｗに基づいて補正された現在画ＩＭＡの画像特徴量を用いて、複数のキーフレーム画像４１から現在画ＩＭＡに類似するキーフレーム画像４１を検索する。画像検索部１４は、検索によって得られたキーフレーム画像４１に紐づけられた位置姿勢の情報を環境地図ＭＰから抽出する。

　ステップＳ６において、特徴量マッチング部１５は、キーフレーム画像４１の画像情報（特徴点ＲＦＰの局所特徴量の情報）と現在画ＩＭＡの画像情報（特徴点ＦＰの局所特徴量の情報）とに基づいて、現在画ＩＭＡとキーフレーム画像４１から複数の対応点ペアを抽出する。

　ステップＳ７において、位置姿勢推定部１６は、現在画ＩＭＡの複数の特徴点ＦＰとキーフレーム画像４１の対応する複数の特徴点ＲＦＰとの位置関係に関する情報、ならびに、環境地図ＭＰに登録されたキーフレーム画像４１の撮影位置姿勢に関する情報に基づいて、現在の機器の位置姿勢（現在画ＩＭＡの撮影位置姿勢）を推定する。

　ステップＳ８において、処理部１０は、処理が終了したか否かを判定する。処理が終了したか否かは、カメラ３０の撮影ボタンの操作などによって検出される。ステップＳ８において、処理が終了したと判定された場合には（ステップＳ８：Ｙｅｓ）、処理が終了される。ステップＳ８において、処理が終了したと判定されない場合には（ステップＳ８：Ｎｏ）、ステップＳ１に戻り、処理が終了されるまで上述のステップが繰り返される。

［１－３．効果］
　処理部１０は、背景重み算出部１３と位置姿勢推定部１６とを有する。背景重み算出部１３は、現在画ＩＭＡに含まれる複数の特徴点ＦＰに対して、特徴点ＦＰごとに、特徴点ＦＰが現在画ＩＭＡの背景をなす静止被写体上の点である確率に応じた重みｗを算出する。位置姿勢推定部１６は、各特徴点ＦＰの重みｗを反映した演算結果に基づいて、現在画ＩＭＡを環境地図ＭＰに登録されたキーフレーム画像４１の情報と比較し、現在画ＩＭＡを撮影した機器の位置姿勢を推定する。本実施形態の情報処理方法は、上述した処理部１０の情報処理がコンピュータにより実行される。本実施形態のプログラムは、上述した処理部１０の情報処理をコンピュータに実現させる。

　この構成によれば、現在画ＩＭＡに含まれる特徴点ＦＰが背景（静止被写体）に属するのか前景（動く被写体）に属するのかに応じて、特徴点ＦＰの情報に異なる重みが付与される。そのため、移動物体などの外乱が現在画ＩＭＡに含まれていても、位置姿勢の推定精度が損なわれにくい。

　処理部１０は、画像検索部１４を有する。画像検索部１４は、各特徴点ＦＰの重みｗに基づいて補正された現在画ＩＭＡの画像特徴量を用いて現在画ＩＭＡに類似するキーフレーム画像４１を検索する。

　この構成によれば、静止被写体の情報を強く反映した画像特徴量が算出される。そのため、機器の位置姿勢が精度よく推定される。

　画像検索部１４は、画像特徴量算出部１４１と画像特徴量照合部１４２とを有する。画像特徴量算出部１４１は、各特徴点ＦＰの局所特徴量を重みｗによって重み付けして画像特徴量を算出する。画像特徴量照合部１４２は、画像特徴量を環境地図ＭＰに登録された複数のキーフレーム画像４１の情報と照合し、現在画ＩＭＡの画像特徴量に最も近い画像特徴量を有するキーフレーム画像４１の情報を抽出する。

　この構成によれば、現在画ＩＭＡに対する類似度が高い適切なキーフレーム画像４１の情報が抽出される。

　位置姿勢推定部１６は、アウトライア除去部１６１を有する。アウトライア除去部１６１は、現在画ＩＭＡとキーフレーム画像４１の互いに対応する複数の特徴点のペアのうち、重みｗに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出する。

　この構成によれば、静止被写体上の特徴点ＦＰがインライアペアとして抽出されやすくなる。そのため、機器の姿勢の推定精度が高まる。

　位置姿勢推定部１６は、姿勢算出部１６２を有する。姿勢算出部１６２は、各特徴点ＦＰの重みｗに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、機器の位置姿勢を算出する。例えば、姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点ＦＰについて算出された重みｗを用いて距離の重み付き２乗和を算出し、重み付き２乗和が最小となる機器の位置姿勢を算出する。

　この構成によれば、静止被写体の情報を反映した位置姿勢の推定が可能となる。

　背景重み算出部１３は、時系列で撮影された複数の時刻の撮影画像ＩＭの差分の情報と、ＩＭＵ２０の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点ＦＰの重みｗを算出する。

　この構成によれば、ＩＭＵ２０の計測情報に基づいて各特徴点ＦＰの重みｗが適切に設定される。

［２．第２実施形態］
　図５は、第２実施形態の情報処理システム２の概略図である。
　本実施形態において第１実施形態と異なる点は、各特徴点ＦＰの重みｗが機械学習の手法を用いて現在画ＩＭＡおよび過去画ＩＭＢの画像情報のみに基づいて算出される点である。以下、第１実施形態との相違点を中心に説明を行う。

　本実施形態では、各特徴点ＦＰの重みｗが現在画ＩＭＡおよび過去画ＩＭＢの画像情報のみに基づいて算出される。例えば、処理部５０は、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた分析モデルを用いて前景と背景とを分離する前景背景分離部５１を有する。前景背景分離部５１は、現在画ＩＭＡに含まれる複数の画素に対して、画素ごとに、画素が静止被写体上の点である確率を抽出する。前景背景分離部５１は、各画素の静止被写体上の点としての確率に関する情報を分離情報として出力する。背景重み算出部５２は、ＤＮＮを用いて得られた前景と背景の分離情報に基づいて、現在画ＩＭＡに含まれる各特徴点ＦＰの重みｗを算出する。

　前景背景分離部５１では、教師ありデータを用いて、現在画ＩＭＡと過去画ＩＭＢとから分離情報が出力されるように機械学習が行われる。前景背景分離部５１からは、現在画ＩＭＡの画像解像度（またはダウンコンバート画像解像度）に応じた数の重みの情報が分離情報として出力される。そのため、背景重み算出部５２は、分離情報に含まれる各画素の重みの情報から、現在画ＩＭＡの各特徴点ＦＰの重みの情報を抽出する。

　本実施形態では、各特徴点ＦＰの重みｗが機械学習の手法を用いて現在画ＩＭＡおよび過去画ＩＭＢの画像情報のみに基づいて算出される。そのため、ＩＭＵ２０が不要になり、装置構成が簡略化される。

　なお、本実施形態では、現在画ＩＭＡと過去画ＩＭＢの画像情報に基づいて分離情報が抽出されるが、分離情報の抽出方法がこれに限られない。例えば、セマンティックセグメンテーションなどの手法を用いて現在画ＩＭＡの画像情報のみに基づいて分離情報が抽出されてもよい。

［３．第３実施形態］
　図６は、第３実施形態の情報処理システム３の概略図である。
　本実施形態では、処理部６０は、位置姿勢の推定手法として、第１実施形態に示した手法（第１手法）と第２実施形態に示した手法（第２手法）とを混合した手法を用いる。

　背景重み算出部６１は、まず、第１実施形態と同様に、時系列で撮影された複数の時刻の撮影画像ＩＭ（現在画ＩＭＡおよび過去画ＩＭＢ）の差分の情報と、ＩＭＵ２０の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点ＦＰの重み（第１重みｗ１）を算出する。次に、背景重み算出部６１は、第２実施形態と同様に、ＤＮＮを用いて得られた前景と背景の分離情報に基づいて各特徴点ＦＰの重み（第２重みｗ２）を算出する。背景重み算出部６１は、下記式（１１）に基づいて、第１重みｗ１と第２重みｗ２とをブレンド率αでブレンドして、各特徴点ＦＰの重みｗを算出する。

ｗ＝α×ｗ１＋（１－α）×ｗ２　…（１１）

　ブレンド率αは、ＩＭＵ２０の計測情報に応じて決定される。すなわち、第１手法では、ＩＭＵ２０の実測値を用いて背景の情報が推定される。そのため、第１手法による背景の推定精度は、機械学習を用いる第２手法よりも高い。しかし、ＩＭＵ２０には表現できるレンジが存在する。そのため、レンジを超える大きな並進や回転運動が生じた場合に、計測値が飽和する可能性がある。そのため、背景重み算出部６１は、ＩＭＵ２０の計測情報の信頼度をブレンド率αとして定義する。背景重み算出部６１は、ＩＭＵ２０によって急峻な運動変化が検出された場合にブレンド率αを小さくし、ＤＮＮを用いて算出された第２重みｗ２の寄与率を大きくする。これにより、ロバスト性の向上が図られる。

　図７は、ブレンド率αの決定方法の一例を示す図である。図７のグラフにおいて、横軸は時刻であり、縦軸はＩＭＵ２０の計測値（加速度または角速度）である。ｄａｔａ_ｉ（ｉは整数）は、時刻ｔ_ｉの計測値（実測値）を示す。ｄａｔａ_ｉ′は、時刻ｔ_ｉの計測値の勾配に基づいて予測される時刻ｔ_ｉ＋１の計測値の予測値を示す。

　例えば、背景重み算出部６１は、時刻ｔ_ｉの計測値ｄａｔａ_ｉおよび勾配に基づいて、計測値ｄａｔａ_ｉの信頼度ｒを決定する。背景重み算出部６１は、ブレンド率αを、定数Ｄを用いて下記式（１２）により算出する。

α＝Ｄ／（Ｄ＋ｒ）　…（１２）

　例えば、予測値ｄａｔａ_ｉ′が閾値（例えば、ＩＭＵ２０が計測可能な最大レンジ）よりも大きい場合には、背景重み算出部６１は、信頼度ｒをｄａｔａ_ｉとｄａｔａ_ｉ－１との差分（ｄａｔａ_ｉ－ｄａｔａ_ｉ－１）として算出する。この場合、ブレンド率αは、Ｄ／（Ｄ＋ｄａｔａ_ｉ－ｄａｔａ_ｉ－１）として算出される。予測値ｄａｔａ_ｉ′が閾値以下である場合には、背景重み算出部６１は、信頼度ｒをゼロとして算出する。この場合、ブレンド率αは、１として算出される。

　上述の例では、予測値ｄａｔａ_ｉ′が閾値を超える場合に信頼度ｒ及びブレンド率αが、計測値ｄａｔａ_ｉに応じて連続的に変化する。しかし、予測値ｄａｔａ_ｉ′が閾値を超える場合に信頼度ｒを無限大に設定し、ブレンド率αをゼロに固定することもできる。この場合、ＩＭＵ２０の計測情報に応じて、重みｗの設定手法が第１手法と第２手法との間で切り替えられる。

　以上のように、本実施形態では、ＩＭＵ２０の計測情報に応じてブレンド率αが調整される。そのため、ＩＭＵ２０の計測情報の信頼度に応じて重みｗが適切に設定される。

［４．コンピュータの構成例］
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図８は、上述した一連の処理をプログラムにより実行するコンピュータＩＰＳのハードウェアの構成例を示すブロック図である。コンピュータＩＰＳは、上述した各実施形態の情報処理システムに相当する。

　コンピュータＩＰＳにおいて、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）ＰＲ，ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）Ｍ１，ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）Ｍ２は、バスＢＵにより相互に接続されている。

　バスＢＵには、さらに、入出力インターフェースＩＦが接続されている。入出力インターフェースＩＦには、入力部ＩＤ、出力部ＤＰ、記憶部ＳＴ、通信部ＣＵ、およびドライブＤＵが接続されている。上述した実施形態の記憶部４０は、記憶部ＳＴに含まれる。

　入力部ＩＤは、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。上述した実施形態のＩＭＵ２０およびカメラ３０は、入力部ＩＤに含まれる。出力部ＤＰは、ディスプレイ、スピーカなどよりなる。記憶部ＳＴは、ハードディスクや不揮発性のメモリなどよりなる。通信部ＣＵは、ネットワークインターフェースなどよりなる。ドライブＤＵは、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体ＲＭを駆動する。

　以上のように構成されるコンピュータＩＰＳでは、ＣＰＵＰＲが、例えば、記憶部ＳＴに記憶されているプログラムを、入出力インターフェースＩＦおよびバスＢＵを介して、ＲＡＭＭ２にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータＩＰＳ（ＣＰＵＰＲ）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体ＲＭに記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータＩＰＳでは、プログラムは、リムーバブル記録媒体ＲＭをドライブＤＵに装着することにより、入出力インターフェースＩＦを介して、記憶部ＳＴにインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部ＣＵで受信し、記憶部ＳＴにインストールすることができる。その他、プログラムは、ＲＯＭＭ１や記憶部ＳＴに、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。

（１）
　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、
　を有する情報処理装置。
（２）
　各特徴点の前記重みに基づいて補正された前記撮影画像の画像特徴量を用いて前記撮影画像に類似する前記キーフレーム画像を検索する画像検索部を有する
　上記（１）に記載の情報処理装置。
（３）
　前記画像検索部は、各特徴点の局所特徴量を前記重みによって重み付けして前記画像特徴量を算出する画像特徴量算出部と、前記画像特徴量を環境地図に登録された複数のキーフレーム画像の情報と照合し、前記画像特徴量に最も近い画像特徴量を有する前記キーフレーム画像の情報を抽出する画像特徴量照合部と、を有する
　上記（２）に記載の情報処理装置。
（４）
　前記位置姿勢推定部は、前記撮影画像と前記キーフレーム画像の互いに対応する複数の特徴点のペアのうち、前記重みに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出するアウトライア除去部を有する
　上記（２）または（３）に記載の情報処理装置。
（５）
　前記位置姿勢推定部は、各特徴点の前記重みに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、前記機器の位置姿勢を算出する姿勢算出部を有する
　上記（４）に記載の情報処理装置。
（６）
　前記姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点について算出された前記重みを用いて前記距離の重み付き２乗和を算出し、前記重み付き２乗和が最小となる前記機器の位置姿勢を算出する
　上記（５）に記載の情報処理装置。
（７）
　前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点の前記重みを算出する
　上記（１）ないし（６）のいずれか１つに記載の情報処理装置。
（８）
　前記背景重み算出部は、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて得られた前景と背景の分離情報に基づいて、各特徴点の前記重みを算出する
　上記（１）ないし（６）のいずれか１つに記載の情報処理装置。
（９）
　前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、ＩＭＵの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて算出される前記重みと、ＤＮＮを用いて得られた前景と背景の分離情報に基づいて算出される前記重みと、を前記ＩＭＵの計測情報に応じたブレンド率でブレンドする
　上記（１）ないし（６）のいずれか１つに記載の情報処理装置。
（１０）
　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
　ことを有する、コンピュータにより実行される情報処理方法。
（１１）
　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
　ことをコンピュータに実現させるプログラム。

１，２，３　情報処理システム
１０，５０，６０　処理部（情報処理装置）
１３，５２，６１　背景重み算出部
１４　画像検索部
１６　位置姿勢推定部
２０　ＩＭＵ
４１　キーフレーム画像
１４１　画像特徴量算出部
１４２　画像特徴量照合部
１６１　アウトライア除去部
１６２　姿勢算出部
ＣＰ　対応点
ＦＰ　特徴点
ＩＭ　撮影画像
ＭＰ　環境地図
ｗ　重み
α　ブレンド率

Claims

　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、
　を有する情報処理装置。
　各特徴点の前記重みに基づいて補正された前記撮影画像の画像特徴量を用いて前記撮影画像に類似する前記キーフレーム画像を検索する画像検索部を有する
　請求項１に記載の情報処理装置。
　前記画像検索部は、各特徴点の局所特徴量を前記重みによって重み付けして前記画像特徴量を算出する画像特徴量算出部と、前記画像特徴量を環境地図に登録された複数のキーフレーム画像の情報と照合し、前記画像特徴量に最も近い画像特徴量を有する前記キーフレーム画像の情報を抽出する画像特徴量照合部と、を有する
　請求項２に記載の情報処理装置。
　前記位置姿勢推定部は、前記撮影画像と前記キーフレーム画像の互いに対応する複数の特徴点のペアのうち、前記重みに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出するアウトライア除去部を有する
　請求項２に記載の情報処理装置。
　前記位置姿勢推定部は、各特徴点の前記重みに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、前記機器の位置姿勢を算出する姿勢算出部を有する
　請求項４に記載の情報処理装置。
　前記姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点について算出された前記重みを用いて前記距離の重み付き２乗和を算出し、前記重み付き２乗和が最小となる前記機器の位置姿勢を算出する
　請求項５に記載の情報処理装置。
　前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点の前記重みを算出する
　請求項１に記載の情報処理装置。
　前記背景重み算出部は、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて得られた前景と背景の分離情報に基づいて、各特徴点の前記重みを算出する
　請求項１に記載の情報処理装置。
　前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、ＩＭＵの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて算出される前記重みと、ＤＮＮを用いて得られた前景と背景の分離情報に基づいて算出される前記重みと、を前記ＩＭＵの計測情報に応じたブレンド率でブレンドする
　請求項１に記載の情報処理装置。
　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
　ことを有する、コンピュータにより実行される情報処理方法。
　撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
　各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
　ことをコンピュータに実現させるプログラム。