JPWO2018207426A1

JPWO2018207426A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JPWO2018207426A1
Application number: JP2019516898A
Authority: JP
Inventors: 俊一本間
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-05-09
Filing date: 2018-02-21
Publication date: 2020-03-12
Anticipated expiration: 2038-02-21
Also published as: CN110337671A; EP3624060A4; JP7147753B2; US11263777B2; US20220156973A1; WO2018207426A1; EP3624060A1; US20200126254A1

Abstract

【課題】対象となる物体の実空間上における位置や姿勢をより好適な態様で推定する。【解決手段】所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する推定部と、前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証する検証部と、を備える、情報処理装置。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、画像認識技術の高度化に伴い、デジタルカメラ等のような撮像部により被写体として撮像された実空間上の物体（以降では、「実オブジェクト」とも称する）の、実空間上における位置や姿勢（向き）を認識することが可能となっている。

また、物体認識技術の応用により、実オブジェクトの画像を撮像する撮像部等の実空間上における位置や姿勢（即ち、自己位置）を推定（認識）することも可能となる。また、このような自己位置推定の技術を利用することで、実空間上を移動する移動体の自己位置の推定を行うことも可能となる。例えば、特許文献１には、自己位置推定の技術を実現するための技術の一例が開示されている。

特開２００４−００５５９３号公報

ところで自己位置推定は、例えば、撮像部により撮像された画像から抽出される特徴量と、実空間上における当該撮像部の位置や姿勢に応じて過去に取得された当該特徴量と、を比較することで行われる。一方で、実空間上における位置や姿勢が互いに異なる場合においても、視覚的に類似するシーンが撮像部により撮像される場合がある。このような場合には、自己位置推定の精度が低下し、ひいては、対象となる物体（例えば、撮像部自体や、当該撮像部が保持された移動体）の実空間上における位置や姿勢が誤って推定されるような状況も想定される。

そこで、本開示では、対象となる物体の実空間上における位置や姿勢をより好適な態様で推定することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する推定部と、前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証する検証部と、を備える、情報処理装置が提供される。

また、本開示によれば、コンピュータが、所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、を実行させる、プログラムが提供される。

以上説明したように本開示によれば、対象となる物体の実空間上における位置や姿勢をより好適な態様で推定することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システム概略的なシステム構成の一例を示した図である。自己位置推定の手法の一例について説明するための説明図である。ローカライズの概要について説明するための説明図である。ローカライズの概要について説明するための説明図である。同実施形態に係る情報処理システムにおける姿勢パラメータの推定に利用するデータを登録する処理の一例について説明するための説明図である。メイン撮像部及びサブ撮像部それぞれにより撮像された画像から取得される情報の一例について説明するための説明図である。キーフレームとして登録される情報の一例を示した図である。姿勢パラメータの推定に係る処理の概要について説明するための説明図である。同実施形態に係る情報処理システムにおける姿勢パラメータの推定に係る処理の基本原理について説明するための説明図である。同実施形態に係る情報処理システムにおける姿勢パラメータの推定に係る処理の基本原理について説明するための説明図である。同実施形態に係る情報処理システムにおける姿勢パラメータの推定に係る処理の基本原理について説明するための説明図である。同実施形態に係る情報処理システムにおける姿勢パラメータの推定に係る処理の基本原理について説明するための説明図である。同実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。同実施形態に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。変形例２に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。変形例４に係る情報処理システムの一連の処理の流れの一例を示したフローチャートである。変形例７に係る情報処理システムの概要について説明するための説明図である。同実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概略構成
２．自己位置推定に関する検討
３．技術的特徴
３．１．基本原理
３．２．機能構成
３．３．処理
３．４．変形例
４．ハードウェア構成
５．むすび

＜＜１．概略構成＞＞
まず、図１を参照して、本開示の一実施形態に係る情報処理システムの概略的なシステム構成の一例について説明する。図１は、本実施形態に係る情報処理システム概略的なシステム構成の一例を示した図である。

図１に示すように、本実施形態に係る情報処理システム１は、実空間上における位置や姿勢の推定の対象となる移動体３００と、情報処理装置１００とを含む。情報処理装置１００と移動体３００とは、例えば、所定のネットワークＮ１を介して互いに情報を送受信可能に構成されている。なお、情報処理装置１００と移動体３００とを接続するネットワークＮ１の種別は特に限定されない。具体的な一例として、当該ネットワークＮ１は、ＬＴＥ、Ｗｉ−Ｆｉ（登録商標）等の規格に基づくネットワークのような、所謂無線のネットワークにより構成されていてもよい。また、当該ネットワークＮ１は、インターネット、専用線、ＬＡＮ（Local Area Network）、または、ＷＡＮ（Wide Area Network）等により構成されていてもよい。また、当該ネットワークＮ１は、複数のネットワークを含んでもよく、少なくとも一部が有線のネットワークとして構成されていてもよい。

移動体３００は、前述したように、実空間上における位置や姿勢の推定の対象となる物体に相当する。移動体３００の具体的な一例として、メガネ型のウェアラブルデバイスのようにユーザに装着されて使用される装置や、車両やドローン等のような移動体等が挙げられる。

移動体３００は、所謂自己位置推定の技術に基づき、当該移動体３００の実空間上における位置や姿勢の推定に利用する情報を取得するための各種デバイスを備える。例えば、図１に示すように、本実施形態に係る移動体３００は、メイン撮像部３０３と、サブ撮像部３０５とを備える。図１において、参照符号Ｌ１は、メイン撮像部３０３の光軸を模式的に示している。また、参照符号Ｌ２は、サブ撮像部３０５の光軸を模式的に示している。また、参照符号３０１は、移動体３００の筐体を模式的に示している。即ち、本実施形態に係る情報処理システム１においては、メイン撮像部３０３及びサブ撮像部３０５は、互いに異なる光軸を有するように、筐体３０１に保持される。なお、メイン撮像部３０３及びサブ撮像部３０５は、筐体３０１に対して互い異なる方向を撮像可能となるように当該筐体３０１に保持されるとより好ましい。換言すると、メイン撮像部３０３及びサブ撮像部３０５は、互いに実空間上の異なる領域を撮像可能となるように当該筐体３０１に保持されるとより好ましい。

移動体３００は、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像（即ち、実空間のシーンが撮像された画像）を、ネットワークＮ１を介して情報処理装置１００に送信する。

情報処理装置１００は、例えば、サーバ等として構成され得る。情報処理装置１００は、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像を、移動体３００からネットワークＮ１を介して取得し、取得した当該画像に基づき当該移動体３００の実空間上における位置や姿勢を推定する。具体的な一例として、情報処理装置１００は、所謂自己位置推定の技術に基づき、移動体３００の実空間上における位置や姿勢を推定する。より具体的には、情報処理装置１００は、取得した画像に対して画像解析を施すことで当該画像から特徴点や特徴量を抽出する。そして、情報処理装置１００は、当該特徴点や当該特徴量の抽出結果を、実空間上における位置や姿勢に応じて過去に取得された特徴点や特徴量と比較することで、移動体３００の実空間上における位置や姿勢を推定する。なお、情報処理装置１００の動作の詳細については別途後述する。

以上、図１を参照して、本開示の一実施形態に係る情報処理システムの概略的なシステム構成の一例について説明した。なお、上述した構成はあくまで一例であり、本実施形態に係る情報処理システム１のシステム構成は、必ずしも図１に示す例のみには限定されない。具体的な一例として、移動体３００と情報処理装置１００とが一体的に構成されていてもよい。

＜＜２．自己位置推定に関する検討＞＞
続いて、本実施形態に係る情報処理システムの特徴をよりわかりやすくするために、自己位置推定の手法の一例と、当該推定結果のローカライズと、について概要について説明したうえで、本実施形態に係る情報処理システムの課題について整理する。

まず、撮像部により撮像された画像を入力とする自己位置推定の概要について説明する。画像を入力とする自己位置推定においては、例えば、撮像部により撮像された画像からの特徴点の抽出や、当該特徴点における特徴量の抽出が行われる。そして、当該特徴点や当該特徴量の抽出結果と、実空間上における位置や姿勢に応じて過去に取得された特徴点や特徴量に関する情報（例えば、データベースに蓄積された情報）と、を２次元的または３次元的に比較することで、撮像部の実空間上における位置や姿勢が推定される。また、当該推定には、例えば、ＲＡＮＳＡＣ（Random sample consensus）フレームワークを用いたＰＮＰアルゴリズム等が利用されてもよい。

なお、以降では、撮像部等のような対象となる物体の実空間上における位置や姿勢を示す情報を、「姿勢パラメータ」とも称する。具体的には、姿勢パラメータは、位置の３自由度を示す情報と、回転の３自由度を示す情報と、の計６自由度を示す情報により表現することが可能である。なお、位置の３自由度を示す情報としては、例えば、縦、横、及び高さをｘ、ｙ、ｚの座標系で表した情報が挙げられる。また、回転の３自由度を示す情報としては、ロール、ピッチ、及びヨー等の回転角を、φ、θ、ψ等の回転座標系で表した情報や、回転行列等のような物体の回転や姿勢を表す情報（パラメータ）等が挙げられる。

上述したような自己位置推定の技術は、例えば、車両等のような移動体の自律走行、ＵＡＶ(unmanned aerial vehicle)やＭＡＶ(micro aerial vehicle)等のような所謂ドローンの自律飛行、ロボットの自律行動、ＡＲ（Augmented Reality）やＶＲ（Virtual Reality）における仮想情報の提示等のような、様々な分野での応用が期待されている。

次いで、図２を参照して、自己位置推定を利用した技術の一例として、ＳＬＡＭ（simultaneous localization and mapping）と称される技術について説明する。

ＳＬＡＭとは、カメラ等のような撮像部、各種センサ、エンコーダ等を利用することにより、自己位置推定と環境地図の作成とを並行して行う技術である。より具体的な一例として、ＳＬＡＭ（特に、ＶｉｓｕａｌＳＬＡＭ）では、撮像部により撮像された動画像に基づき、撮像されたシーン（または、被写体）の３次元形状を逐次的に復元する。そして、撮像されたシーンの復元結果を、撮像部の位置及び姿勢の検出結果と関連付けることで、周囲の環境の地図の作成と、当該環境における撮像部（ひいては、移動体３００）の位置及び姿勢の推定とが行われる。なお、撮像部の位置及び姿勢については、例えば、当該撮像部が保持された筐体（例えば、移動体３００の筐体）に加速度センサや角速度センサ等の各種センサを設けることで、当該センサの検出結果に基づき相対的な変化を示す情報として推定することが可能である。もちろん、撮像部の位置及び姿勢を推定可能であれば、その方法は、必ずしも加速度センサや角速度センサ等の各種センサの検知結果に基づく方法のみには限定されない。

例えば、図２は、自己位置推定の手法の一例について説明するための説明図であり、ＳＬＡＭによる撮像部の実空間上における位置や姿勢の推定結果の一例を示している。図２において、参照符号Ｃ_１０〜Ｃ_１５で示したマーカは、撮像部（ひいては、移動体３００）の実空間上における位置及び姿勢の時系列に沿った変化を模式的に示している。即ち、図２に示す例では、撮像部の位置及び姿勢が、マーカＣ_１０〜Ｃ_１５の順に、時系列に沿って順次遷移した場合について示している。また、参照符号Ｄ_１０〜Ｄ_１５で示したマーカは、ＳＬＡＭに基づく撮像部の実空間上における位置及び姿勢の推定結果を模式的に示しており、マーカＣ_１０〜Ｃ_１５にそれぞれ対応している。具体的な一例として、マーカＤ_１１は、撮像部の位置及び姿勢がマーカＣ_１１で示した状態における、当該撮像部の位置及び姿勢の推定結果を示している。

ＳＬＡＭにおいては、所望のタイミングで撮像部の位置及び姿勢が実空間上の絶対位置として推定されれば、以降における当該撮像部の位置及び姿勢については、例えば、各種センサの検出結果に基づき相対的な変化を示す情報を逐次取得することで推定することが可能である。具体的な一例として、図２に示す例の場合には、撮像部の位置及び姿勢の推定結果Ｄ_１０が実空間上の絶対位置として推定されれば、推定結果Ｄ_１１〜Ｄ_１５については、当該推定結果Ｄ_１０とを基点として、各種センサの検出結果に基づく撮像部の実空間上における位置及び姿勢の相対的な変化を示す情報を利用することで推定することが可能である。

一方で、ＳＬＡＭ等のように、撮像部の位置及び姿勢の相対的な変化を逐次取得することで、実空間上における撮像部の位置及び姿勢（即ち、絶対位置）を間接的に推定するような手法においては、所謂ローカライズと呼ばれる処理が重要となる。なお、本開示において、ローカライズとは、例えば、撮像部により撮像された画像に基づく自己位置推定により、当該撮像部の実空間上の位置や姿勢を絶対位置として推定（または再推定）する処理を示している。

以下に、図３及び図４を参照して、ローカライズの概要について説明する。図３及び図４は、ローカライズの概要について説明するための説明図である。

例えば、図３は、撮像部の位置や姿勢の相対的な変化のトラッキングに失敗した場合の一例を示している。具体的には、図３に示す例では、マーカＣ_１２とマーカＣ_１３との間のタイミングにおいて、撮像部の位置や姿勢の相対的な変化の検出に失敗し、マーカＣ_１３以降において、当該撮像部の位置や姿勢のトラッキングが困難となった状態を示している。例えば、参照符号Ｄ_２０〜Ｄ_２２で示したマーカは、ＳＬＡＭに基づく撮像部の実空間上における位置及び姿勢の推定結果を模式的に示しており、マーカＣ_１０〜Ｃ_１２にそれぞれ対応している。即ち、図３に示す例では、マーカＣ_１２とマーカＣ_１３と間における、撮像部の位置や姿勢の相対的な変化が不明となり、マーカＣ_１３以降において、当該撮像部の実空間上における位置や姿勢の推定が実質的に困難となる。

このような場合には、例えば、ローカライズにより、撮像部の実空間上における位置や姿勢（即ち、姿勢パラメータ）の推定を改めて行うことで、当該撮像部の位置や姿勢のトラッキングを再開することが可能となる。例えば、図３に示す例では、マーカＣ_１５に対応するタイミングにおいてローカライズ処理が行われ、撮像部の実空間上における位置や姿勢が絶対位置として再度推定されている。参照符号Ｄ_２５で示したマーカは、当該ローカライズ処理に基づく撮像部の実空間上における位置及び姿勢の再推定の結果を模式的に示している。即ち、図３に示す例においては、マーカＣ_１５に対応するタイミングにおける推定結果Ｄ_２５を利用することで、当該マーカＣ_１５以降において、撮像部の位置や姿勢のトラッキングを再開することが可能となる。

また、図４は、撮像部の位置や姿勢の相対的な変化の推定結果と、実際の撮像部の位置や姿勢の相対的な変化と、の間に誤差が生じた場合の一例を示している。具体的には、図４に示す例では、マーカＣ_１１〜Ｃ_１４それぞれに対応するタイミングにおいて、撮像部の位置や姿勢の相対的な変化の推定結果と、実際の撮像部の位置や姿勢の相対的な変化と、の間に誤差が生じている。このように各タイミングで生じた誤差は、累積誤差として逐次蓄積されることとなる。このような特性から、撮像部の位置や姿勢の相対的な変化のトラッキングが継続される限り、累積誤差が比例して増大する傾向にある。例えば、参照符号Ｄ_３０〜Ｄ_３４で示したマーカは、ＳＬＡＭに基づく撮像部の実空間上における位置及び姿勢の推定結果を模式的に示しており、マーカＣ_１０〜Ｃ_１４にそれぞれ対応している。即ち、図４に示す例では、蓄積誤差の増大に伴い、マーカＣ_１４に対応するタイミングにおいて、撮像部の実空間上における位置及び姿勢の推定結果Ｄ_３４と、当該撮像部の実際の実空間上における位置及び姿勢（即ち、マーカＣ_１４が示す位置及び姿勢）と、の間の誤差がより大きくなっている。

このような場合においても、例えば、ローカライズにより、撮像部の実空間上における位置や姿勢（即ち、姿勢パラメータ）の推定を改めて行うことで、蓄積された累積誤差を解消することが可能となる。例えば、図４に示す例では、マーカＣ_１５に対応するタイミングにおいて、ローカライズ処理が行われ、撮像部の実空間上における位置や姿勢が絶対位置として再度推定されている。参照符号Ｄ_３５で示したマーカは、当該ローカライズ処理に基づく撮像部の実空間上における位置及び姿勢の再推定の結果を模式的に示している。即ち、図４に示す例においては、マーカＣ_１５に対応するタイミングにおける推定結果Ｄ_３５により、マーカＣ_１１〜Ｃ_１４間で蓄積された累積誤差を解消することが可能となる。

一方で、ローカライズ処理のように、撮像部により撮像された画像に基づく自己位置推定により、当該撮像部の実空間上における位置や姿勢を絶対位置として推定（または再推定）する場合においても、当該推定結果に誤差が生じる場合がある。

例えば、実空間上における位置や姿勢が互いに異なる場合においても、視覚的に類似するシーンが撮像部により画像として撮像される場合がある。より具体的な一例として、床、舗装道路、天井、及び建物の壁面等に相当する部分が被写体として撮像される状況下では、所定のパターンが繰り返し出現するようなシーンが画像として撮像される場合がある。このような繰り返しパターンが出現するシーンが撮像される状況下では、実空間上における位置や姿勢が互いに異なる場合においても、視覚的に類似するシーンが撮像される場合がある。また、繰り返しパターンが出現するシーンに限らず、実空間上における位置や姿勢が互いに異なる状況下において、視覚的に類似するシーンが画像として撮像される場合がある。このような場合には、自己位置推定の精度が低下し、ひいては、対象となる物体（例えば、撮像部や当該撮像部が保持された移動体）の実空間上における位置や姿勢が誤って推定されるような状況も想定される。

このような視覚的に類似するシーンが撮像されるような状況下においても、各シーンが撮像された実空間上の位置や姿勢が空間的に大きく離間している場合には、例えば、ＲＦタグやＧＰＳ（Global Positioning System）等のような他の検出手段を利用することで、姿勢パラメータの誤推定を防止することが可能である。しかしながら、床、舗装道路、天井、及び建物の壁面等においては、繰り返しパターンが比較的狭い空間に集中している場合があり、このような場合には、ＲＦタグやＧＰＳ等を利用したとしても、姿勢パラメータの誤推定を検出する（即ち、姿勢パラメータの誤推定を防止する）ことが困難である。

また、他の方法として、デプスセンサ等を利用した物体の形状のマッチングにより、姿勢パラメータの推定結果の妥当性を判定することで、当該姿勢パラメータの誤推定を防止することが可能な場合もある。しかしながら、繰り返しパターンは２次元的な模様等によるものに限らず、例えば、３次元的な形状等によるものも想定され得る。このように、３次元的な形状の繰り返しパターンが出現するような状況下では、デプスセンサ等を利用した物体の形状のマッチングを行ったとしても、姿勢パラメータの妥当性を判定する（即ち、姿勢パラメータの誤推定を防止する）ことが困難である。

このような状況を鑑み、本時開示では、撮像部や、当該撮像部が保持された移動体等のような、対象となる物体の実空間上における位置や姿勢（即ち、姿勢パラメータ）の推定に係る精度をより向上させ、ひいては、当該位置や当該姿勢の誤推定を防止することが可能な技術の一例について提案する。

＜＜３．技術的特徴＞＞
以下に、本開示の一実施形態に係る情報処理システムの技術的特徴について説明する。

＜３．１．基本原理＞
まず、本実施形態に係る情報処理システムにおける、対象となる物体（例えば、移動体）の姿勢パラメータの推定に係る処理（換言すると、自己位置推定に係る処理）の基本原理について以下に説明する。

図１を参照して説明したように、本実施形態に係る情報処理システム１においては、姿勢パラメータの推定の対象となる物体（即ち、移動体３００）に対して、複数の撮像部（即ち、メイン撮像部３０３及びサブ撮像部３０５）が、互いに異なる光軸（即ち、光軸Ｌ１及びＬ２）を有するように保持される。このとき、メイン撮像部３０３とサブ撮像部３０５との間の相対的な位置関係については、例えば、オフセット情報としてあらかじめ算出しておくことで既知の情報として扱うことが可能である。

なお、メイン撮像部３０３とサブ撮像部３０５とのそれぞれは、実空間の画像を撮像することが可能であれば、その構成は特に限定されない。具体的な一例として、メイン撮像部３０３とサブ撮像部３０５とのそれぞれは、単眼カメラとして構成されていてもよいし、ステレオカメラとして構成されていてもよい。また、メイン撮像部３０３とサブ撮像部３０５とが異なる構成を有していてもよい。なお、以降の説明では、本実施形態に係る情報処理システム１の技術的特徴をよりわかりやすくするために、メイン撮像部３０３及びサブ撮像部３０５は同様の構成を有するものとする。

（登録処理）
まず、図５を参照して、ローカライズ等における姿勢パラメータの推定時に、撮像部により撮像された画像から抽出された特徴量との比較対象となるデータを登録する処理の一例について説明する。図５は、本実施形態に係る情報処理システムにおける姿勢パラメータの推定に利用するデータを登録する処理の一例について説明するための説明図である。なお、図５において、参照符号Ｐ_ｉは、実空間上において形状、色彩、及び明暗等のような視覚的に識別可能な特徴を示す部分に相当し、以降では「ランドマーク」とも称する。即ち、ランドマークＰ_ｉは、撮像部により撮像された画像中から特徴点として抽出される部分に相当する。

図５に示すように、登録処理時には、登録対象となる空間（即ち、実空間）中において、移動体３００を移動させながら、ＳＬＡＭ等により当該移動体３００の自己位置推定が行われる。例えば、図５において、参照符号Ｋ_ｎ−１、Ｋ_ｎ、Ｋ_ｎ＋１のそれぞれは、移動体３００の実空間上における位置及び姿勢の時系列に沿った変化を模式的に示している。即ち、図５に示す例では、移動体３００の位置及び姿勢が、Ｋ_ｎ−１、Ｋ_ｎ、Ｋ_ｎ＋１の順に、時系列に沿って順次変化した場合について示している。

また、移動体３００の自己位置推定とあわせて、各位置及び姿勢に応じて、移動体３００に保持された撮像部により、当該移動体３００の周囲の空間（即ち、実空間）の画像が撮像される。そして、撮像された画像に対して画像解析処理が施されることで、当該画像中に撮像されたランドマークＰ_ｉの実空間上における位置が推定（算出）される。なお、このとき、ステレオカメラや測距センサ等を利用したデプスセンシングの結果が、ランドマークＰ_ｉの実空間上における位置の推定に利用されてもよい。

なお、前述したように、本実施形態に係る情報処理システム１においては、移動体３００に対してメイン撮像部３０３とサブ撮像部３０５とが保持されている。そのため、移動体３００の自己位置推定とあわせて、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像に基づき、当該画像中に撮像された各ランドマークＰ_ｉの実空間上における位置が推定（算出）される。

また、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像に基づき、当該画像中に撮像された各ランドマークＰ_ｉそれぞれについて、当該各ランドマークＰ_ｉを含む当該画像中の部分領域（即ち、ランドマークＰ_ｉの近傍の領域）の局所特徴量が抽出（算出）される。

ここで、図６を参照して、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像に基づき、当該画像中に撮像されたランドマークＰ_ｉの近傍の領域の局所特徴量の抽出に係る処理について説明する。図６は、メイン撮像部３０３及びサブ撮像部３０５それぞれにより撮像された画像から取得される情報の一例について説明するための説明図である。なお、以降の説明においては、メイン撮像部３０３に撮像された画像を「メイン画像」とも称し、サブ撮像部３０５により撮像された画像を「サブ画像」とも称する。

図６において、参照符号Ｐ_ｉは、画像中に撮像されたランドマークを示している。また、参照符号Ｑ_ｉは、画像中におけるランドマークＰ_ｉ近傍の部分領域に相当する。即ち、部分領域Ｑ_ｉは、ランドマークＰ_ｉごとに、画像中において当該ランドマークＰ_ｉを含む部分領域として設定される。

具体的には、本実施形態に係る情報処理システム１では、撮像されたメイン画像及びサブ画像それぞれに対して画像解析処理が施されることで、各画像から、当該画像中に撮像されたランドマークＰ_ｉが特徴点として抽出される。そして、当該特徴点それぞれに対して所定の広さの部分領域Ｑ_ｉが設定され、設定された部分領域Ｑ_ｉそれぞれについて、当該部分領域Ｑ_ｉ中の特徴量（例えば、形状、色彩、及び明暗等のような特徴）が局所特徴量として抽出される。なお、後述する姿勢パラメータの推定部１０１と検証部１０３とで異なる局所特徴量を使用する場合には、例えば、ひとつの特徴点（即ち、ランドマーク）に対し、複数の局所特徴量が抽出されてもよい。

以上のようにして、移動体３００を移動させながら、当該移動体３００の自己位置推定、メイン画像及びサブ画像それぞれに撮像されたランドマークＰ_ｉの実空間上における位置の推定、及び、各ランドマークＰ_ｉに対応する局所特徴量の抽出のそれぞれが逐次行われる。そして、移動体３００の位置及び姿勢ごとに推定または算出される各情報が一連のデータとして関連付けられて、所定の記憶領域（例えば、データベース等）にキーフレームとして登録（記録）される。

例えば、図７は、キーフレームとして登録される情報の一例を示した図である。具体的には、図７に示す例では、メイン撮像部３０３に対応する情報と、サブ撮像部３０５に対応する情報と、がキーフレームとして登録される。

メイン撮像部３０３に対応する情報には、例えば、当該メイン撮像部３０３の位置及び姿勢（即ち、姿勢パラメータ）の推定結果と、メイン画像に撮像されたランドマークＰ_ｉの実空間上における位置の推定結果と、各ランドマークＰ_ｉに対応する局所特徴量の抽出結果と、が含まれる。メイン撮像部３０３の姿勢パラメータについては、例えば、移動体３００の自己位置推定の結果として取得される。また、メイン画像中に複数のランドマークＰｉが撮像される場合がある。そのため、各ランドマークＰ_ｉについて、当該ランドマークＰ_ｉの実空間上における位置の推定結果と、当該ランドマークＰ_ｉに対応する局所特徴量の抽出結果と、が登録されることとなる。

サブ撮像部３０５に対応する情報には、例えば、サブ画像に撮像されたランドマークＰ_ｉの実空間上における位置の推定結果と、各ランドマークＰ_ｉに対応する局所特徴量の抽出結果と、が含まれる。なお、サブ撮像部３０５の実空間上に位置及び姿勢については、メイン撮像部３０３の位置及び姿勢の推定結果と、当該メイン撮像部３０３と当該サブ撮像部３０５との間の相対的な位置関係と、に基づき算出することが可能である。また、メイン撮像部３０３とサブ撮像部３０５との間の相対的な位置関係については、前述したように、オフセット情報としてあらかじめ算出しておくことで、既知の情報として取り扱うことが可能である。

このように、キーフレームとして、メイン撮像部３０３（ひいては、移動体３００）の位置及び姿勢ごとに、メイン画像及びサブ画像それぞれに撮像されたランドマークＰ_ｉの実空間上における位置の推定結果と、各ランドマークＰ_ｉに対応する局所特徴量の抽出結果と、が登録されることとなる。以上のようにしてキーフレームとして登録された各情報は、ローカライズ等における姿勢パラメータの推定時に、撮像部により撮像された画像から抽出された特徴量との比較対象となるデータとして利用されることとなる。

（ローカライズ処理）
続いて、本実施形態に係る情報処理システム１におけるローカライズ等における姿勢パラメータの推定に係る処理について説明する。なお、以降の説明では、便宜上、ローカライズ等の契機においてメイン撮像部３０３及びサブ撮像部３０５により撮像される各画像（即ち、メイン画像及びサブ画像）を「クエリ画像」とも称し、キーフレームとしてあらかじめ登録された情報（換言すると、過去に取得された情報）の取得元となる各画像を「キーフレーム画像」とも称する。また、本説明では、図１に示した情報処理装置１００が、ローカライズ等における姿勢パラメータの推定に係る処理を実行するものとする。

本実施形態に係る情報処理システム１では、まず、情報処理装置１００は、メイン画像について、クエリ画像とキーフレーム画像との間で、当該各画像から抽出される局所特徴量のマッチングを行うことで、メイン撮像部３０３（ひいては、移動体３００）の姿勢パラメータの推定を行う。

例えば、図８は、姿勢パラメータの推定に係る処理の概要について説明するための説明図であり、クエリ画像及びキーフレーム画像それぞれからの特徴点の抽出結果と、当該特徴点に対応する部分領域Ｑ_ｉの設定結果と、の一例を示している。

具体的には、図８は、クエリ画像とキーフレーム画像との間で、メイン撮像部３０３（ひいては、移動体３００）の位置及び姿勢（即ち、姿勢パラメータ）が略一致している場合の一例を示している。このような場合には、クエリ画像の少なくとも一部には、キーフレーム画像の少なくとも一部に撮像されたランドマークＰ_ｉと実質的に同じランドマークＰ_ｉが撮像されることとなる。例えば、図８に示す例では、クエリ画像及びキーフレーム画像間において破線により互いに対応付けられた部分領域Ｑ_ｉに対応するランドマークＰ_ｉは、実空間上における同じ位置を示しており、このとき対応する部分領域Ｑ_ｉ間の局所特徴量は略一致することとなる。

このような特性を利用し、情報処理装置１００は、クエリ画像が撮像されたときのメイン撮像部３０３（ひいては、移動体３００）の姿勢パラメータを推定する。具体的には、情報処理装置１００は、クエリ画像から抽出される特徴量に関する情報（即ち、ランドマークＰ_ｉに関する情報や、当該ランドマークＰ_ｉに対応する局所特徴量に関する情報）と略一致する情報を含むキーフレームを検索する。そして、情報処理装置１００は、検索されたキーフレームに含まれるメイン撮像部３０３の姿勢パラメータに基づいて、クエリ画像が撮像されたときのメイン撮像部３０３の姿勢パラメータを推定する。なお、クエリ画像とキーフレーム画像との間での局所特徴量のマッチングに伴う姿勢パラメータの推定に係る処理のより詳細については別途後述する。

一方で、前述したように、実空間上における位置や姿勢が互いに異なる場合においても、視覚的に類似するシーンが画像として撮像される場合がある。このような場合においては、メイン撮像部３０３の姿勢パラメータの推定に係る精度が低下し、ひいては、当該姿勢パラメータが誤って推定される場合もある。このような状況を鑑み、本実施形態に係る情報処理システム１では、サブ撮像部３０５により撮像されたサブ画像を利用することで、姿勢パラメータの推定に係る精度をより向上させ、当該姿勢パラメータの誤推定を防止する。

例えば、図９〜図１２は、本実施形態に係る情報処理システム１における姿勢パラメータの推定に係る処理の基本原理について説明するための説明図である。

図９に示す例では、クエリ画像とキーフレーム画像とが互いに異なる位置で撮像された場合において、メイン画像として相互に類似するシーンが撮像された場合の一例を示している。このような状況下では、各メイン画像から抽出される特徴量が略一致し、当該メイン画像による推定のみでは、メイン撮像部３０３の姿勢パラメータが誤って推定される場合もある。

一方で、サブ撮像部３０５は、メイン撮像部３０３とは異なる光軸を有するように保持されており、当該メイン撮像部３０３とは異なるシーン（換言すると、実空間上の異なる領域）を撮像することとなる。そのため、図９に示すように、クエリ画像及びキーフレーム画像として撮像されたメイン画像間が相互に類似するような状況下においても、クエリ画像及びキーフレーム画像として撮像されたサブ画像間については非類似となる場合がある。

以上のような特性を利用し、本実施形態に係る情報処理システム１では、メイン画像に基づくメイン撮像部３０３（ひいては、移動体３００）の姿勢パラメータの推定結果を、対応するサブ画像を利用することで検証する。具体的には、図１０に示すように、クエリ画像及びキーフレーム画像として撮像されたサブ画像それぞれから抽出される特徴量のマッチングを行うことで、メイン画像に基づく姿勢パラメータの推定結果の確からしさを検証する。

なお、以降の説明では、便宜上、キーフレーム画像として撮像されるメイン画像及びサブ画像を明示的に区別するために、当該メイン画像を「キーフレームメイン画像」とも称し、当該サブ画像を「キーフレームサブ画像」とも称する。同様に、クエリ画像として撮像されるメイン画像及びサブ画像を明示的に区別するために、当該メイン画像を「クエリメイン画像」とも称し、当該サブ画像を「クエリサブ画像」とも称する。

例えば、図１１は、本実施形態に係る情報処理システム１における、姿勢パラメータの推定結果の検証に係る処理の概要について説明するための説明図である。具体的には、クエリ画像とキーフレーム画像とのそれぞれが撮像されたときの姿勢パラメータが略一致する場合には、キーフレームサブ画像及びクエリサブ画像間についても各画像から抽出される局所特徴量が略一致することとなる。即ち、このような場合には、クエリサブ画像の少なくとも一部には、キーフレームサブ画像の少なくとも一部に撮像されたランドマークＰ_ｉと実質的に同じランドマークＰ_ｉが撮像されることとなる。

そのため、情報処理装置１００は、まず、キーフレームとして記録された、キーフレームサブ画像中から抽出されたランドマークＰ_ｉに関する情報と、クエリメイン画像とキーフレームメイン画像とによって推定された姿勢パラメータと、に基づき、当該ランドマークＰ_ｉそれぞれを、クエリサブ画像に投影する。次いで、情報処理装置１００は、各ランドマークＰ_ｉが投影されたクエリサブ画像中の点それぞれについて、当該点を含む部分領域の局所特徴量を抽出（算出）する。例えば、図１１において、参照符号Ｒ_ｉで示された領域は、ランドマークＰ_ｉが投影された点を含む部分領域を示している。そして、情報処理装置１００は、クエリサブ画像中に投影された点それぞれについて算出した局所特徴量（即ち、各部分領域Ｒ_ｉの局所特徴量）と、キーフレームとして記録された当該点の投影元となるランドマークＰ_ｉに対応する局所特徴量（即ち、各部分領域Ｑ_ｉの局所特徴量）と、の間でマッチングを行う。そして、情報処理装置１００は、当該マッチングの結果に基づき、インライアとなる点の数が閾値以上であれば、メイン画像に基づく姿勢パラメータの推定結果（即ち、ローカライズの結果）は正しいものと判定する。

以上をまとめると、情報処理装置１００は、サブ撮像部３０５により撮像されるサブ画像から抽出される特徴量と、キーフレームとして登録された情報に含まれるサブ画像から抽出された特徴量と、を比較することで移動体３００の位置及び姿勢を推定する。即ち、図１２に示すように、情報処理装置１００は、キーフレームサブ画像及びクエリサブ画像間においてそれぞれから抽出される特徴量が略一致する場合に、移動体３００の位置及び姿勢の推定結果（即ち、推定カメラ位置）が、当該移動体３００の実際の位置及び姿勢（即ち、真のカメラ位置）と略一致するものと認識する。

以上のような構成により、本実施形態に係る情報処理システム１においては、移動体３００の実空間上における位置や姿勢（即ち、姿勢パラメータ）の推定に係る精度をより向上させることが可能となり、ひいては、当該位置や当該姿勢の誤推定を防止することが可能となる。

以上、図５〜図１２を参照して、本実施形態に係る情報処理システムにおける、対象となる物体（例えば、移動体）の姿勢パラメータの推定（換言すると、自己位置推定）に係る処理の基本原理について以下に説明した。

＜３．２．機能構成＞
続いて、図１３を参照して、本実施形態に係る情報処理システム１の機能構成の一例について、特に、ローカライズ等における姿勢パラメータの推定に係る機能に着目して説明する。図１３は、本実施形態に係る情報処理システム１の機能構成の一例を示したブロック図である。なお、本説明においては、情報処理システム１は、図１に示すようなシステム構成を有し、移動体３００の位置や姿勢を推定するものとする。

図１３に示すように、本実施形態に係る情報処理システム１は、情報処理装置１００と、移動体３００と、記憶部１５０とを含む。なお、図１３に示す情報処理装置１００及び移動体３００は、図１に示す情報処理装置１００及び移動体３００に対応している。即ち、移動体３００は、メイン撮像部３０３と、サブ撮像部３０５とを含む。なお、メイン撮像部３０３及びサブ撮像部３０５については前述したため、詳細な説明は省略する。

記憶部１５０は、各種データを、一時的または恒常的に記憶するための記憶領域である。例えば、記憶部１５０には、前述した登録処理により取得されたキーフレームそれぞれに対応するデータが記憶されてもよい。また、記憶部１５０は、記憶された各種データをそれぞれ個別に読み出し可能に構成されている。記憶部１５０は、例えば、データベースとして構成されていてもよい。

次いで、情報処理装置１００の構成について説明する。図１３に示すように、情報処理装置１００は、推定部１０１と、検証部１０３とを含む。

推定部１０１は、移動体３００に保持されたメイン撮像部３０３により撮像された画像（即ち、メイン画像）を、当該移動体３００（または、当該メイン撮像部３０３）から取得する。なお、当該画像が、クエリメイン画像に相当する。

推定部１０１は、取得したクエリメイン画像に対して画像解析を施すことで、当該クエリメイン画像に撮像されたランドマークＰ_ｉに対応する位置を特徴点として抽出する。なお、特徴点の抽出を行うためのアルゴリズムとしては、例えば、Harris corner detector、FAST corner detector、及びDifference of Gaussian等が挙げられる。

次いで、推定部１０１は、クエリメイン画像から抽出した特徴点それぞれについて、当該特徴点を含む所定の広さの部分領域Ｑ_ｉを設定し、当該部分領域Ｑ_ｉにおける局所特徴量を抽出（算出）したうえで、当該局所特徴量の抽出結果を当該部分領域Ｑ_ｉに関連付ける。なお、局所特徴量の抽出を行うためのアルゴリズムとしては、例えば、SIFT、BRISK、及びORB等が挙げられる。

次いで、推定部１０１は、クエリメイン画像から抽出した特徴量（即ち、各ランドマークＰ_ｉについて設定された部分領域Ｑ_ｉそれぞれ対応する局所特徴量）と類似する情報が、キーフレームメイン画像の情報として含まれるキーフレームを、記憶部１５０に記憶されたキーフレームの中から検索して抽出する。

より具体的な一例として、推定部１０１は、クエリメイン画像から抽出した局所特徴量のそれぞれと、各キーフレームに含まれるキーフレームメイン画像から抽出された局所特徴量のそれぞれと、の間でマッチングを行う。そして、推定部１０１は、局所特徴量の類似度が閾値以上を示すペアをカウントしてスコアとし、当該スコアの算出結果に基づきキーフレームを抽出してもよい。また、他の一例として、推定部１０１は、局所特徴量から作成されるBag of Words特徴量の類似度をスコアとすることで、当該スコアの算出結果に基づきキーフレームを抽出してもよい。

そして、推定部１０１は、クエリメイン画像から抽出した特徴量と、抽出した各キーフレームにキーフレームメイン画像の情報として含まれる特徴量と、の間でマッチングを行うことで、メイン撮像部３０３（ひいては、移動体３００）の姿勢パラメータを推定する。なお、各キーフレームに対して、２次元的な特徴量情報と、その特徴量に対応するランドマーク情報が保存されている。そのため、クエリメイン画像から得られる２次元的な特徴量と、キーフレームが持つ２次元的な特徴量と、をマッチングすることで、クエリメイン画像の２次元的な特徴量と、キーフレームが持つ３次元情報としてのランドマークと、のマッチング（即ち、２Ｄ−３Ｄマッチング）を行うことが可能となる。なお、２Ｄ−３Ｄマッチングにより姿勢パラメータを推定する手法としては、例えば、ＲＡＮＳＡＣフレームワークを用いたＰＮＰアルゴリズムに基づく手法が挙げられる。

また、推定部１０１は、記憶部１５０に記憶されたキーフレームの中から、クエリメイン画像から抽出した特徴量との類似度がより高い情報を含む上位Ｎ個（Ｎは任意の自然数）のキーフレームを抽出してもよい。Ｎ個のキーフレームが姿勢パラメータの推定に利用される場合には、Ｎ個の推定結果が得られることとなる。なお、複数の推定結果が得られた場合においても、後述する検証部１０３による検証により、最も確からしい推定結果を選択することも可能である。

そして、推定部１０１は、メイン撮像部３０３の姿勢パラメータの推定結果を検証部１０３に出力する。なお、記憶部１５０に記憶された全てのキーフレームについてマッチング行われたうえで、なお姿勢パラメータの推定に失敗した場合には、後述する検証部１０３による検証は行われず、姿勢パラメータの推定の失敗を示す情報が出力されることとなる。

検証部１０３は、移動体３００に保持されたサブ撮像部３０５により撮像された画像（即ち、サブ画像）を、当該移動体３００（または、当該サブ撮像部３０５）から取得する。なお、当該画像が、クエリサブ画像に相当する。また、検証部１０３は、メイン撮像部３０３の姿勢パラメータの推定結果を推定部１０１から取得する。そして、検証部１０３は、取得した当該姿勢パラメータの推定結果の確からしさを、取得したクエリサブ画像を利用して検証する。以下に、当該検証に係る処理の一例について、より詳細に説明する。

まず、検証部１０３は、取得した姿勢パラメータの推定結果に対応するキーフレームに含まれる、キーフレームサブ画像から抽出されたランドマークＰ_ｉに関する情報と、取得した姿勢パラメータと、に基づき、当該ランドマークＰ_ｉそれぞれを取得したクエリサブ画像に投影する。なお、以降では、クエリサブ画像に対して、キーフレームサブ画像から抽出されたランドマークＰ_ｉが投影された点を「投影点」とも称する。

次いで、検証部１０３は、クエリサブ画像中の投影点それぞれについて、当該投影点を含む部分領域Ｒ_ｉの局所特徴量を抽出（算出）する。また、検証部１０３は、クエリサブ画像中の投影点それぞれについて算出した局所特徴量と、姿勢パラメータの推定結果に対応するキーフレームに含まれる、当該投影点の投影元となるランドマークＰ_ｉに対応する局所特徴量と、の類似度を算出する。そして、検証部１０３は、各ランドマークＰ_ｉが投影されたクエリサブ画像中の各投影点のうち、局所特徴量の類似度が閾値以上のものをインライアとしてカウントする。なお、当該処理に用いられる特徴量及び類似度としては、例えば、画像の輝度そのものを特徴量とするＳＡＤスコアやＮＣＣスコア等が挙げられる。

また、このとき検証部１０３は、メイン撮像部３０３の姿勢パラメータの推定結果に応じて、クエリサブ画像及びキーフレームサブ画像のうち少なくともいずれかの変形を想定して、対応する画像の特徴量（即ち、各部の局所特徴量）を補正してもよい。この場合には、検証部１０３は、補正後の特徴量に基づき上記類似度を算出してもよい。

そして、検証部１０３は、各投影点に対応する類似度の算出結果に応じてカウントされたインライア数が閾値以上となった場合に、対応する姿勢パラメータの推定結果が妥当であると判定する。そして、検証部１０３は、姿勢パラメータの推定結果が妥当であると判定した場合には、当該推定結果を所定の出力先に出力する。

なお、姿勢パラメータの推定結果が複数取得されている場合には、検証部１０３は、例えば、推定結果の信頼度のより高いものを選択して上記検証に係る処理を実行してもよい。また、他の一例として、検証部１０３は、複数の推定結果それぞれに対して上記検証に係る処理を実行し、最も確からしい推定結果を、メイン撮像部３０３の姿勢パラメータの推定結果として出力してもよい。

なお、上述した本実施形態に係る情報処理システム１の機能構成はあくまで一例であり、上述した各構成の機能が実現されれば、情報処理システム１の機能構成は必ずしも図１３に示す例には限定されない。具体的な一例として、情報処理装置１００、記憶部１５０、及び移動体３００のうち少なくとも２以上が一体的に構成されていてもよい。また、情報処理装置１００に含まれる各構成のうち、一部の構成が当該情報処理装置１００とは異なる他の装置に設けられていてもよい。また、情報処理装置１００の各機能が、複数の装置が連携することで実現されてもよい。

また、上述した例では、キーフレーム画像から抽出された特徴量に関する情報（例えば、ランドマークＰ_ｉに関する情報や、当該ランドマークＰ_ｉに対応する局所特徴量に関する情報）がキーフレームとしてあらかじめ登録される例について説明したが、キーフレームとして登録される情報は、必ずしも上述した例には限定されない。具体的な一例として、キーフレーム画像自体がキーフレームとして登録されてもよい。この場合には、上記特徴量については、例えば、姿勢パラメータの推定時や、当該推定結果の検証時に、キーフレームとして登録されたキーフレーム画像（即ち、キーフレームメイン画像やキーフレームサブ画像）から抽出されてもよい。クエリ画像とキーフレーム画像との間のマッチング時に、当該クエリ画像及び当該キーフレーム画像の少なくともいずれかが、メイン撮像部３０３の姿勢パラメータの推定結果に応じて変形されてもよい。

以上、図１３を参照して、本実施形態に係る情報処理システム１の機能構成の一例について、特に、ローカライズ等における姿勢パラメータの推定に係る機能に着目して説明した。

＜３．３．処理＞
続いて、図１４〜図１６を参照して、本実施形態に係る情報処理システム１の一連の処理の流れの一例について、特に、ローカライズ等における姿勢パラメータの推定に係る機能に着目して説明する。図１４〜図１６は、本実施形態に係る情報処理システム１の一連の処理の流れの一例を示したフローチャートである。

まず、図１４を参照して、姿勢パラメータの推定に係る一連の処理の流れを概略レベルで説明する。

図１４に示すように、情報処理装置１００（推定部１０１）は、移動体３００に保持されたメイン撮像部３０３により撮像された画像（即ち、クエリメイン画像）を、当該移動体３００から取得する。そして、情報処理装置１００は、取得したクエリメイン画像から特徴量を抽出し、抽出した特徴量を、所定の記憶領域（記憶部１５０）に記憶されたキーフレームに含まれる当該特徴量に関する情報と比較することで、移動体３００の姿勢パラメータを推定する（Ｓ１１０）。

次いで、情報処理装置１００（検証部１０３）は、移動体３００の姿勢パラメータの推定に成功した場合には（Ｓ１３１、ＹＥＳ）、当該推定結果の検証を行う。具体的には、情報処理装置１００（検証部１０３）は、移動体３００に保持されたサブ撮像部３０５により撮像された画像（即ち、クエリサブ画像）を、当該移動体３００から取得する。そして、情報処理装置１００は、取得したクエリサブ画像から特徴量を抽出し、抽出した特徴量を、移動体３００の姿勢パラメータの推定結果に対応するキーフレームに含まれる当該特徴量に関する情報と比較することで、当該推定結果の確からしさ検証する（Ｓ１２０）。

そして、情報処理装置１００は、上記検証結果に基づき、移動体３００の姿勢パラメータの推定結果を、所定の出力先に出力する（Ｓ１３３）。

なお、情報処理装置１００は、参照符号Ｓ１１０で示した処理において移動体３００の姿勢パラメータの推定に失敗した場合には（Ｓ１３１、ＮＯ）、参照符号Ｓ１２０で示した検証に係る処理を実行せずに、姿勢パラメータの推定の失敗を示す情報を出力する（Ｓ１３３）。

以上、図１４を参照して、姿勢パラメータの推定に係る一連の処理の流れを概略レベルで説明した。

続いて、図１４において参照符号Ｓ１１０で示した、姿勢パラメータを推定に係る処理の一例について、図１５を参照して説明する。

まず、情報処理装置１００（推定部１０１）は、取得したクエリメイン画像に対して画像解析を施すことで、当該クエリメイン画像に撮像されたランドマークＰ_ｉに対応する位置を特徴点として抽出する（Ｓ１１１）。

次いで、情報処理装置１００（推定部１０１）は、クエリメイン画像から抽出した特徴点それぞれについて、当該特徴点を含む部分領域Ｑ_ｉを設定し、当該部分領域Ｑ_ｉにおける局所特徴量を抽出（算出）したうえで、当該局所特徴量の抽出結果を当該部分領域Ｑ_ｉに関連付ける（Ｓ１１３）。

次いで、情報処理装置１００（推定部１０１）は、クエリメイン画像から抽出した特徴量と類似する情報が、キーフレームメイン画像の情報として含まれるキーフレームを、記憶部１５０に記憶されたキーフレームの中から検索して抽出する（Ｓ１１５）。

そして、情報処理装置１００（推定部１０１）は、クエリメイン画像から抽出した特徴量と、抽出した各キーフレームにキーフレームメイン画像の情報として含まれる特徴量と、の間でマッチングを行うことで、移動体３００の姿勢パラメータを推定する（Ｓ１１７）。

以上、図１５を参照して、姿勢パラメータを推定に係る処理の一例について説明した。

続いて、図１４において参照符号Ｓ１２０で示した、姿勢パラメータの推定結果の検証に係る処理の一例について、図１６を参照して説明する。

まず、情報処理装置１００（検証部１０３）は、姿勢パラメータの推定結果に対応するキーフレームに含まれる、キーフレームサブ画像から抽出されたランドマークＰ_ｉに関する情報と、姿勢パラメータの推定結果と、に基づき、当該ランドマークＰ_ｉそれぞれを取得したクエリサブ画像に投影する（Ｓ１２１）。

次いで、情報処理装置１００（検証部１０３）は、クエリサブ画像中の投影点それぞれについて、当該投影点を含む部分領域の局所特徴量を抽出（算出）する。また、情報処理装置１００は、クエリサブ画像中の投影点それぞれについて算出した局所特徴量と、姿勢パラメータの推定結果に対応するキーフレームに含まれる、当該投影点の投影元となるランドマークＰ_ｉに対応する局所特徴量と、の類似度を算出する（Ｓ１２３）。

次いで、情報処理装置１００（検証部１０３）は、各ランドマークＰ_ｉが投影されたクエリサブ画像中の各投影点のうち、局所特徴量の類似度が閾値以上のものをインライアとしてカウントする（Ｓ１２５）。

そして、情報処理装置１００（検証部１０３）は、各投影点に対応する類似度の算出結果に応じてカウントされたインライア数が閾値以上となった場合に、対応する姿勢パラメータの推定結果が妥当であると判定する（Ｓ１２７）。

以上、図１５を参照して、姿勢パラメータの推定結果の検証に係る処理の一例について説明した。

＜３．４．変形例＞
続いて、本実施形態に係る情報処理システム１の変形例について説明する。

（変形例１：姿勢パラメータの推定結果の検証に係る処理の一例）
まず、変形例１として、姿勢パラメータの推定結果の検証に係る処理の一例について説明する。前述した例では、情報処理装置１００は、クエリサブ画像から抽出された特徴量と、あらかじめキーフレームとして登録された特徴量（即ち、キーフレームサブ画像から抽出された特徴量）と、のマッチングにより、姿勢パラメータの推定結果の確からしさを検証していた。一方で、サブ撮像部３０５により撮像されたサブ画像に基づき姿勢パラメータの推定結果の確からしさを検証することが可能であれば、その方法は特に限定されない。

具体的な一例として、情報処理装置１００は、クエリサブ画像とキーフレームサブ画像との間で、各画像の大域的な特徴量を相互に比較することで、姿勢パラメータの推定結果の確からしさを検証してもよい。具体的には、情報処理装置１００は、例えば、クエリサブ画像及びキーフレームサブ画像それぞれから、Bag of Words特徴量やカラーヒストグラム特徴量等を大域的な特徴量として抽出する。そして、情報処理装置１００は、各画像から抽出した特徴量の類似度が閾値を上回った場合に、姿勢パラメータの推定結果が妥当であると判断してもよい。

また、他の一例として、情報処理装置１００は、所謂機械学習に応じて生成された判別器を、姿勢パラメータの推定結果の検証に利用してもよい。この場合には、例えば、キーフレームとして登録された各撮像部の位置及び姿勢（即ち、姿勢パラメータ）ごとに、当該位置及び当該姿勢の近傍で観測される画像（即ち、キーフレーム画像）をポジティブデータとし、観測されるべきではない画像をネガティブデータとして判別器の学習を行う。そして、当該判別器を撮像部の位置及び姿勢と関連付けて所定の記憶領域（例えば、記憶部１５０）に記録する。また、姿勢パラメータの推定結果の検証を行う場合には、情報処理装置１００は、姿勢パラメータの推定結果と略一致する位置及び姿勢に関連付けられた判別器を検索し、サブ撮像部３０５により撮像されたクエリサブ画像を当該判別機に入力すればよい。

以上、変形例１として、姿勢パラメータの推定結果の検証に係る処理の一例について説明した。

（変形例２：メイン撮像部が複数設定されている場合の制御の一例）
続いて、変形例２として、図１７を参照して、メイン撮像部３０３が複数設定されている場合における、移動体３００の姿勢パラメータの推定に係る制御の一例について説明する。図１７は、変形例２に係る情報処理システム１の一連の処理の流れの一例を示したフローチャートであり、特に、ローカライズ等における姿勢パラメータの推定結果の検証に係る処理の一例について示している。

図１７に示すように、情報処理装置１００は、移動体３００に保持された複数のメイン撮像部３０３のうちいずれかを選択し、選択した当該メイン撮像部３０３により撮像された画像（即ち、クエリメイン画像）を、当該移動体３００から取得する。そして、情報処理装置１００は、取得したクエリメイン画像に基づき、移動体３００の姿勢パラメータを推定する（Ｓ２１０）。なお、移動体３００の姿勢パラメータの推定に係る処理については、図１５を参照して前述した処理と同様のため、詳細な説明は省略する。

次いで、情報処理装置１００は、移動体３００の姿勢パラメータの推定に成功した場合には（Ｓ２３１、ＹＥＳ）、当該推定結果の検証を行う（Ｓ２２０）。なお、移動体３００の姿勢パラメータの推定結果の検証に係る処理については、図１６を参照して前述した処理と同様のため、詳細な説明は省略する。

そして、情報処理装置１００は、移動体３００の姿勢パラメータの推定結果が妥当と判定した場合には（Ｓ２３３，ＹＥＳ）、当該推定結果を所定の出力先に出力する（Ｓ２３９）。

一方で、情報処理装置１００は、移動体３００の姿勢パラメータの推定結果が妥当ではないと判定した場合には（Ｓ２３３、ＮＯ）、姿勢パラメータの推定に利用していない他のメイン撮像部３０３が選択可能か否かを確認する（Ｓ２３５）。他のメイン撮像部３０３が選択可能な場合には（Ｓ２３５、ＹＥＳ）、情報処理装置１００は、他のメイン撮像部３０３を新たに選択し（Ｓ２３７）、姿勢パラメータの推定に係る処理（Ｓ２１０）から再度実行する。また、他のメイン撮像部３０３を選択することが困難な場合には（Ｓ２３５，ＮＯ）、情報処理装置１００は、姿勢パラメータの推定の失敗を示す情報を出力する（Ｓ２３９）。

また、情報処理装置１００は、参照符号Ｓ２１０で示した処理において移動体３００の姿勢パラメータの推定に失敗した場合においても（Ｓ２３１、ＮＯ）、姿勢パラメータの推定に利用していない他のメイン撮像部３０３が選択可能か否かを確認する（Ｓ２３５）。そして、他のメイン撮像部３０３が選択可能な場合には（Ｓ２３５、ＹＥＳ）、情報処理装置１００は、他のメイン撮像部３０３を新たに選択し（Ｓ２３７）、姿勢パラメータの推定に係る処理（Ｓ２１０）から再度実行する。また、他のメイン撮像部３０３を選択することが困難な場合には（Ｓ２３５，ＮＯ）、情報処理装置１００は、姿勢パラメータの推定の失敗を示す情報を出力する（Ｓ２３９）。

以上のように、情報処理装置１００は、移動体３００の姿勢パラメータの推定結果として妥当な結果が得られない場合には、姿勢パラメータの推定に利用するメイン撮像部３０３を逐次切り替えて、当該姿勢パラメータを再度推定する。このような制御により、情報処理装置１００は、一部のメイン撮像部３０３を利用した姿勢パラメータの推定に失敗した場合においても、他のメイン撮像部３０３を利用して姿勢パラメータを再度推定することが可能となる。そのため、変形例２に係る情報処理システムに依れば、姿勢パラメータの推定に失敗する確率をより低減することが可能となる。

また、変形例２に係る情報処理システムに依れば、移動体３００の姿勢パラメータの推定に、必ずしも全てのメイン撮像部３０３が利用されるとは限らない。そのため、常に複数のメイン撮像部３０３全てを姿勢パラメータの推定に利用する場合に比べて、当該推定に係る処理負荷を低減することが可能となる。

以上、変形例２として、図１７を参照して、メイン撮像部３０３が複数設定されている場合における、移動体３００の姿勢パラメータの推定に係る制御の一例について説明した。

（変形例３：サブ撮像部が複数設定されている場合の制御の一例）
続いて、サブ撮像部３０５が複数設定されている場合における、移動体３００の姿勢パラメータの推定結果の検証に係る制御の一例について説明する。

この場合には、情報処理装置１００は、例えば、姿勢パラメータの推定結果に対応するキーフレームに含まれる情報と、姿勢パラメータの推定結果と、に基づき、キーフレームサブ画像から抽出されたランドマークＰ_ｉを、複数のサブ撮像部３０５により撮像されたクエリサブ画像それぞれに投影する。次いで、情報処理装置１００は、複数のクエリサブ画像それぞれについて、各投影点に対するインライア判定を行い、インライア数に応じて姿勢パラメータの推定結果の妥当性の判定を行う。そして、情報処理装置１００は、上記複数のクエリサブ画像のうち、姿勢パラメータの推定結果が妥当と判定されたクエリサブ画像の数が閾値以上の場合に、当該姿勢パラメータの推定結果を所定の出力先に出力すればよい。

以上、サブ撮像部３０５が複数設定されている場合における、移動体３００の姿勢パラメータの推定結果の検証に係る制御の一例について説明した。

（変形例４：メイン撮像部及びサブ撮像部の役割を切り替えて利用する制御の一例）
続いて、変形例４として、図１８を参照して、姿勢パラメータの推定結果や当該推定結果に応じて、メイン撮像部３０３及びサブ撮像部３０５の役割を選択的に切り替えて利用する場合の制御の一例について説明する。図１８は、変形例４に係る情報処理システム１の一連の処理の流れの一例を示したフローチャートであり、特に、ローカライズ等における姿勢パラメータの推定結果の検証に係る処理の一例について示している。

なお、図１８に示す例では、変形例２に係る情報処理システムと同様に、メイン撮像部３０３が複数設定されている場合について示している。即ち、図１８において、参照符号Ｓ３１０、Ｓ３２０、及びＳ３３１〜Ｓ３３７で示された処理は、図１７において、参照符号Ｓ２１０、Ｓ２２０、及びＳ２３１〜Ｓ２３７で示された処理と同様である。そのため、以降では、主に、参照符号Ｓ３３９、Ｓ３４１、及びＳ３４３で示された処理に着目して説明し、その他の処理については詳細な説明は省略する。

情報処理装置１００は、姿勢パラメータの推定に失敗した場合（Ｓ３３１、ＮＯ）や、当該姿勢パラメータの推定結果が妥当ではないと判定した場合（Ｓ３３３、ＮＯ）には、姿勢パラメータの推定に利用していない他のメイン撮像部３０３が選択可能か否かを確認する（Ｓ３３５）。そして、他のメイン撮像部３０３を選択することが困難な場合には（Ｓ３３５、ＮＯ）、情報処理装置１００は、メイン撮像部３０３とサブ撮像部３０５とを切り替え可能か否か（即ち、メイン撮像部３０３及びサブ撮像部３０５の役割を入れ替えることが可能か否か）を判定する（Ｓ３３９）。

メイン撮像部３０３とサブ撮像部３０５とを切り替え可能な場合には（Ｓ３３９、ＹＥＳ）、情報処理装置１００は、従前にサブ撮像部３０５として設定されていた撮像部を、新たなメイン撮像部３０３として選択（設定）する。また、情報処理装置１００は、従前にメイン撮像部３０３として設定されていた撮像部を、新たなサブ撮像部３０５として選択（設定）する（Ｓ３４１）。そして、情報処理装置１００は、姿勢パラメータの推定に係る処理（Ｓ３１０）から再度実行する。

なお、メイン撮像部３０３とサブ撮像部３０５とを切り替えが困難な場合には（Ｓ３３９、ＮＯ）、情報処理装置１００は、姿勢パラメータの推定の失敗を示す情報を出力する（Ｓ３４３）。

以上、変形例４として、図１８を参照して、姿勢パラメータの推定結果や当該推定結果に応じて、メイン撮像部３０３及びサブ撮像部３０５の役割を選択的に切り替えて利用する場合の制御の一例について説明した。

（変形例５：自己位置推定の手法の一例）
続いて、変形例５として、自己位置推定の手法の一例として、各撮像部により撮像された画像それぞれについて当該画像にユニークな特徴に基づくスコアを算出し当該スコアを利用して自己位置推定を行う場合の一例について説明する。なお、以降では、上記スコアを「ユニークネススコア」とも称する。また、本説明では、変形例５に係る情報処理システムの特徴をよりわかりやすくするために、キーフレーム画像自体がキーフレームとして所定の記憶領域に記録されるものとして説明する。

まず、ユニークネススコアの算出に係る処理について説明する。情報処理装置１００は、キーフレームとして登録された一連のキーフレーム画像（即ち、キーフレームメイン画像及びキーフレームサブ画像）それぞれについて、ユニークネススコアをあらかじめ算出しておく。ユニークネススコアは、各画像がその他画像に対してどれだけユニークな画像特徴を有するかを示すスコアである。

例えば、互いに異なる画像ｉと画像ｊとの類似度をＳ＿iｊ、画像ｉのユニークネススコアをＵ＿ｉとした場合に、類似度Ｓ＿iｊ及びユニークネススコアＵ＿ｉは、以下に（式１）及び（式２）として示す式で表される。

上記（式１）及び（式２）において、変数Ｉ＿ｉ及びＩ＿ｊは、画像ｉ及び画像ｊそれぞれの特徴量を示している。また、Ｓｉｍｉｌａｒｉｔｙ関数は、入力される情報（画像の特徴量）間の類似度を算出する関数に相当する。なお、画像間の類似度については、例えば、画像全体の特徴を表すBag of Words等のようなグローバル特徴量に基づき算出されてもよい。また、他の一例として、２つの画像間において局所特徴量のマッチングを行い、インライア数をカウントすることで、当該２つの画像間の類似度が算出されてもよい。

続いて、上記ユニークネススコアを利用した自己位置推定の一例について説明する。例えば、情報処理装置１００は、各撮像部（例えば、メイン撮像部３０３及びサブ撮像部３０５）により撮像されたクエリ画像に類似する画像を、キーフレームとして登録されたキーフレーム画像から検索する。次いで、情報処理装置１００は、各クエリ画像について検索されたキーフレーム画像のうち、より高いユニークネススコアを有するキーフレーム画像を特定する。そして、情報処理装置１００は、特定した当該キーフレーム画像に対応するクエリ画像をクエリメイン画像として設定し、他のクエリ画像をクエリサブ画像として設定したうえで、姿勢パラメータの推定や、当該姿勢パラメータの推定結果の検証を行う。

以上のような制御により、変形例５に係る情報処理システムに依れば、よりユニークな特徴を有することが期待される画像を利用して自己位置推定を行うことが可能となり、当該自己位置推定の精度をより向上させることも可能となる。また、変形例５に係る情報処理システムに依れば、上述したような特性から、例えば、繰り返しパターンが撮像された画像のように類似するシーンが撮像された可能性のある画像が自己位置推定に利用される事態の発生を防止することも可能となる。

以上、変形例５として、自己位置推定の手法の一例として、各撮像部により撮像された画像それぞれについて当該画像にユニークな特徴に基づくスコアを算出し当該スコアを利用して自己位置推定を行う場合の一例について説明した。

（変形例６：サブ撮像部の選択に係る制御の一例）
続いて、変形例６として、サブ撮像部３０５が複数設定されている場合において、姿勢パラメータの推定結果の検証に利用するサブ撮像部３０５の選択に係る制御の一例について説明する。なお、変形例６では、移動体３００が車両として構成されており、車両に搭載された撮像部を利用することで、当該車両の実空間上における位置や姿勢（即ち、姿勢パラメータ）を推定する場合の一例について説明する。

例えば、都市部などの比較的視界の閉じた環境においては、車両の進行方向に向いた撮像部よりも、当該進行方向から左右に９０度回転した方向（即ち、車両の左右方向）に向いた撮像部の方が、当該車両の移動に伴い撮像されるシーンの変化が大きい。即ち、車両の姿勢パラメータの変化量に対して画像として撮像されるシーンの変化量が、車両の進行方向に向いた撮像部に比べて、当該車両の左右方向を向いた撮像部の方がより大きくなることが予想される。そのため、例えば、車両に搭載された複数の撮像部のうち、当該車両の左右方向に向いた各撮像部を、メイン撮像部３０３及びサブ撮像部３０５として利用してもよい。具体的には、車両の左右方向のうち一方を向いた撮像部をメイン撮像部３０３として設定し、他方を向いた撮像部（即ち、メイン撮像部３０３と反対方向を向いた撮像部）をサブ撮像部３０５として設定するとよい。

以上のような制御により、変形例６に係る情報処理システム１に依れば、例えば、移動体３００が車両として構成されているような状況下において、当該移動体３００の姿勢パラメータの推定に係る精度や、当該推定結果の検証に係る精度をより向上させることが可能となる。

以上、変形例６として、サブ撮像部３０５が複数設定されている場合において、姿勢パラメータの推定結果の検証に利用するサブ撮像部３０５の選択に係る制御の一例について説明した。

（変形例７：サブ撮像部の選択に係る制御の一例）
続いて、変形例７として、図１９を参照して、サブ撮像部３０５が複数設定されている場合において、姿勢パラメータの推定結果の検証に利用するサブ撮像部３０５の選択に係る制御の一例について説明する。図１９は、変形例７に係る情報処理システムの概要について説明するための説明図である。

撮像部により撮像された画像を利用した自己位置推定においては、データベース等に登録されている画像と、推定時に取得される画像と、の間においてある程度の共通視野が必要であり、一般的に共通視野が広いほど推定結果がロバストとなる。これは、サブ撮像部３０５を利用した姿勢パラメータの推定結果の検証にもあてはまる。本変形例では、このような状況を鑑みた、サブ撮像部３０５の選択方法の一例について説明する。なお、本実施形態では、前述したキーフレーム画像が、上記データベース等に登録されている画像に相当し、前述したクエリ画像が、上記推定時に取得される画像に相当する。また、図１３を参照して説明した記憶部１５０が、上記データベース等に相当する。

前述したように、本開示の一実施形態に係る情報処理システム１では、メイン撮像部３０３により撮像されたメイン画像に基づき、当該メイン撮像部３０３（ひいては、移動体３００）の姿勢パラメータの推定を行う。また、移動体３００に保持される各撮像部の相対的な位置関係についてキャリブレーションが行われていれば、当該姿勢パラメータの推定結果に基づき、メイン撮像部３０３以外の他の撮像部（例えば、サブ撮像部３０５）の姿勢パラメータを推定（算出）することも可能である。

そこで、本変形例では、情報処理装置１００は、複数のサブ撮像部３０５それぞれについて、キーフレームとして登録されている情報に基づく当該サブ撮像部３０５の姿勢を示す情報と、姿勢パラメータの推定の対象となっている当該サブ撮像部３０５の姿勢を示す情報と、を比較する。なお、以降の説明では、サブ撮像部３０５等の物体の姿勢を示す情報を、「回転パラメータ」とも称する。そして、情報処理装置１００は、当該比較結果に基づき、複数のサブ撮像部３０５のうち、対応する回転パラメータから算出される撮像部の光軸方向ベクトルと、キーフレームとして登録されている情報に基づいて算出される撮像部の光軸方向ベクトルと、の角度差がより近い値を示すサブ撮像部３０５を選択する。

例えば、図１９において、左側の図はキーフレームとして登録されている情報に応じた移動体３００の姿勢を模式的に示している。また、右側の図は、姿勢パラメータの推定の対象となる移動体３００の実際の姿勢を模式的に示している。なお、図１９に示す例では、移動体３００の筐体３０１に対して、メイン撮像部３０３と、複数のサブ撮像部３０５ａ及び３０５ｂと、が保持されている。また、メイン撮像部３０３、サブ撮像部３０５ａ、及びサブ撮像部３０５ｂのそれぞれは、移動体３００を基準として互いに異なる方向を撮像するように保持されている。即ち、互いに異なる方向を撮像するように、撮像部の光軸方向ベクトルが設定されている。例えば、図１９において、「ｍａｉｎ」として示した方向は、メイン撮像部３０３が画像を撮像する方向を示している。また、「ｓｕｂ１」として示した方向は、サブ撮像部３０５ａが画像を撮像する方向を示している。また、「ｓｕｂ２」として示した方向は、サブ撮像部３０５ｂが画像を撮像する方向を示している。

即ち、図１９に示す例の場合には、情報処理装置１００は、サブ撮像部３０５ａ及び３０５ｂそれぞれについて、キーフレームとして登録されている情報に基づく当該撮像部の回転パラメータから算出される撮像部の光軸方向ベクトルと、姿勢パラメータの推定結果に応じて算出される当該撮像部の回転パラメータから算出される撮像部の光軸方向ベクトルと、の比較を行う。そして、情報処理装置１００は、サブ撮像部３０５ａ及び３０５ｂとのうち、上記比較結果に応じて、姿勢パラメータの推定結果に応じた上記撮像部の光軸方向ベクトルと、キーフレームとして登録されている情報に基づく上記撮像部の光軸方向ベクトルと、の角度差がより近いサブ撮像部３０５を選択する。

例えば、図１９に示す例では、サブ撮像部３０５ａについては、キーフレームとして登録されている情報が示す撮像方向ｓｕｂ１が、移動体３００の実際の姿勢に応じた撮像方向ｓｕｂ１と異なる。そのため、図１９に示す例では、サブ撮像部３０５ａについては、キーフレーム画像として撮像されたシーンとは異なるシーンが、クエリ画像として撮像されることとなる。そのため、サブ撮像部３０５ａについては、キーフレーム画像とクエリ画像との間における共通視野がより狭くなる傾向にあり、ひいては、共通視野を有しない可能性もある。

これに対して、サブ撮像部３０５ｂについては、キーフレームとして登録されている情報が示す撮像方向ｓｕｂ２が、移動体３００の実際の姿勢に応じた撮像方向ｓｕｂ２と略等しい。そのため、図１９に示す例では、サブ撮像部３０５ｂについては、当該サブ撮像部３０５ｂの光軸を軸とした回転方向の違いを除けば、キーフレーム画像として撮像されたシーンと類似するシーンが、クエリ画像として撮像されることとなる。そのため、サブ撮像部３０５ｂについては、キーフレーム画像とクエリ画像との間における共通視野が、サブ撮像部３０５ａの場合に比べてより広くなる。

即ち、図１９に示す例では、情報処理装置１００は、サブ撮像部３０５ａ及び３０５ｂのうち、キーフレーム画像とクエリ画像との間における共通視野がより広いサブ撮像部３０５ｂを選択することとなる。

特に、移動体３００の回転に伴う各撮像部の視野の変化は、当該移動体３００の並進に伴う当該撮像部の視野の変化に比べてより大きい傾向にある。そのため、変形例７に係る情報処理システムでは、このような特性を利用し、上述したように撮像方向（即ち、撮像部の光軸方向ベクトル）の比較により、キーフレーム画像とクエリ画像との間で共通視野がより広いサブ撮像部３０５を選択している。

以上のような制御により、変形例７に係る情報処理システム１に依れば、情報処理装置１００は、複数のサブ撮像部３０５のうち、キーフレーム画像とクエリ画像との間で共通視野のより広い（即ち、視野の変化のより小さい）サブ撮像部３０５を選択することが可能となる。そのため、変形例７に係る情報処理システム１に依れば、移動体３００の姿勢パラメータの推定結果の検証に係る精度をより向上させることが可能となる。

以上、変形例７として、図１９を参照して、サブ撮像部３０５が複数設定されている場合において、姿勢パラメータの推定結果の検証に利用するサブ撮像部３０５の選択に係る制御の一例について説明した。

＜＜４．ハードウェア構成＞＞
続いて、図２０を参照しながら、前述した情報処理装置１００のように、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例について、詳細に説明する。図２０は、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。

本実施形態に係る情報処理システムを構成する情報処理装置９００は、主に、ＣＰＵ９０１と、ＲＯＭ９０２と、ＲＡＭ９０３と、を備える。また、情報処理装置９００は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インタフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

ＣＰＵ９０１は、演算処理装置及び制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、ストレージ装置９１９又はリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般又はその一部を制御する。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。例えば、図１３に示す推定部１０１及び検証部１０３は、ＣＰＵ９０１により構成され得る。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。また、外部バス９１１には、インタフェース９１３を介して、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３及び通信装置９２５が接続される。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー及びペダル等、ユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置９００のユーザは、この入力装置９１５を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９１７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト又はイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ等を格納する。例えば、図１３に示す記憶部１５０は、ストレージ装置９１９により構成され得る。

ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア又はＢｌｕ−ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣＦ：ＣｏｍｐａｃｔＦｌａｓｈ）、フラッシュメモリ又はＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）又は電子機器等であってもよい。

接続ポート９２３は、情報処理装置９００に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００は、外部接続機器９２９から直接各種のデータを取得したり、外部接続機器９２９に各種のデータを提供したりする。

通信装置９２５は、例えば、通信網（ネットワーク）９３１に接続するための通信デバイス等で構成された通信インタフェースである。通信装置９２５は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。

以上、本開示の実施形態に係る情報処理システムを構成する情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。なお、図２０では図示しないが、情報処理システムを構成する情報処理装置９００に対応する各種の構成を当然備える。

なお、上述のような本実施形態に係る情報処理システムを構成する情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。また、当該コンピュータプログラムを実行させるコンピュータの数は特に限定されない。例えば、当該コンピュータプログラムを、複数のコンピュータ（例えば、複数のサーバ等）が互いに連携して実行してもよい。

＜＜５．むすび＞＞
以上説明したように、本実施形態に係る情報処理システム１では、姿勢パラメータの推定の対象となる移動体３００の筐体３０１には、メイン撮像部３０３及びサブ撮像部３０５が、互いに異なる光軸を有するように保持される。このような構成の基で、情報処理装置１００は、メイン撮像部３０３により撮像されたメイン画像に基づき、移動体３００の実空間上における位置や姿勢（即ち、姿勢パラメータ）を推定する。また、情報処理装置１００は、サブ撮像部３０５により撮像されたサブ画像に基づき、上記移動体３００の位置や姿勢の推定結果の確からしさを検証する。

以上のような構成により、本実施形態に係る情報処理システム１に依れば、移動体３００の実空間上における位置や姿勢の推定に係る精度をより向上させることが可能となり、ひいては、当該位置や当該姿勢の誤推定を防止することが可能となる。

なお、メイン撮像部３０３が、「第１の撮像部」の一例に相当し、当該メイン撮像部３０３により撮像されたメイン画像が、「第１の画像」の一例に相当する。また、サブ撮像部３０５が、「第２の撮像部」の一例に相当し、当該サブ撮像部３０５により撮像されたサブ画像が、「第２の画像」の一例に相当する。

また、上述した実施形態や各変形例については、適宜組み合わせて利用することも可能である。具体的な一例として、メイン撮像部３０３及びサブ撮像部３０５のそれぞれが複数設定されている場合には、変形例２及び３それぞれで説明した技術を組み合わせて利用することも可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する推定部と、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証する検証部と、
を備える、情報処理装置。
（２）
前記検証部は、前記第２の画像から抽出される第１の特徴量と、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかに関連付けてあらかじめ記録された第２の特徴量と、を比較することで、前記推定結果の確からしさを検証する、前記（１）に記載の情報処理装置。
（３）
前記第２の特徴量は、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかに応じて、前記第２の撮像部により撮像される前記第２の画像に基づき取得される、前記（２）に記載の情報処理装置。
（４）
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される１以上の特徴点それぞれに対応する特徴量と、前記第２の特徴量として記録された１以上の特徴点それぞれに対応する特徴量と、を比較することで、前記推定結果の確からしさを検証する、前記（３）に記載の情報処理装置。
（５）
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される前記特徴点を含む部分領域の特徴量と、前記第２の特徴量として記録された前記特徴点を含む部分領域の特徴量と、を比較することで、前記推定結果の確からしさを検証する、前記（４）に記載の情報処理装置。
（６）
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される１以上の前記特徴点それぞれについて、当該特徴点を含む前記部分領域と、前記第２の特徴量として記録された１以上の前記特徴点のうち対応する前記特徴点を含む前記部分領域と、間の類似度を算出し、当該類似度の算出結果が閾値以上となる前記特徴点の数に応じて、前記推定結果の確からしさを検証する、前記（５）に記載の情報処理装置。
（７）
前記複数の撮像部のうち、２以上の撮像部が前記第２の撮像部の候補として設定されており、
前記第２の特徴量は、抽出元となる前記第２の画像が撮像されたときの前記第２の撮像部の実空間上の姿勢に応じたパラメータと関連付けられており、
前記推定部は、前記第１の画像に基づき、複数の前記第２の撮像部の候補それぞれの前記パラメータを取得し、
前記検証部は、複数の前記第２の撮像部の候補それぞれについて取得された前記パラメータと、前記第２の特徴量に関連付けられた前記パラメータと、に基づき、少なくとも一部の当該候補を選択し、選択した当該候補により撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、
前記（３）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記検証部は、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかごとに前記第２の撮像部により撮像された前記第２の画像に基づく機械学習に応じて生成された判別器により、前記推定結果の確からしさを検証する、前記（１）に記載の情報処理装置。
（９）
前記検証部は、前記推定結果の検証に利用する前記第２の画像と、過去に撮像された前記第２の画像と、の間の類似度に応じて、当該推定結果の確からしさを検証する、前記（１）に記載の情報処理装置。
（１０）
前記複数の撮像部のうち、２以上の撮像部が前記第２の撮像部として設定されており、
前記検証部は、２以上の前記第２の撮像部それぞれにより撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、
前記（１）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記推定部は、前記検証結果に応じて、前記複数の撮像部から新たな第１の撮像部を選択し、当該新たな第１の撮像部により撮像された新たな第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを再度推定する、前記（１）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記推定部は、前記検証結果に応じて、前記複数の撮像部のうち第１の撮像部の候補として設定された２以上の撮像部の中から、前記新たな第１の撮像部を選択する、前記（１１）に記載の情報処理装置。
（１３）
前記推定部は、前記検証結果に応じて、前記第２の撮像部を前記新たな第１の撮像部として選択し、
前記検証部は、当該選択前の前記第１の撮像部を新たな第２の撮像部として選択し、当該新たな第２の撮像部により撮像された新たな第２の画像に基づき、前記新たな第１の画像に基づく前記推定結果を検証する、
前記（１１）に記載の情報処理装置。
（１４）
前記筐体は、移動体の筐体であり、
前記推定部は、前記移動体の進行方向とは異なる方向を撮像する前記第１の撮像部により撮像された前記第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する
前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記検証部は、前記第１の撮像部とは反対の方向を撮像する前記第２の撮像部により撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
コンピュータが、
所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、
を含む、情報処理方法。
（１７）
コンピュータに、
所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、
を実行させる、プログラム。

１情報処理システム
１００情報処理装置
１０１推定部
１０３検証部
１５０記憶部
３００移動体
３０１筐体
３０３メイン撮像部
３０５サブ撮像部

Claims

所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する推定部と、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証する検証部と、
を備える、情報処理装置。
前記検証部は、前記第２の画像から抽出される第１の特徴量と、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかに関連付けてあらかじめ記録された第２の特徴量と、を比較することで、前記推定結果の確からしさを検証する、請求項１に記載の情報処理装置。
前記第２の特徴量は、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかに応じて、前記第２の撮像部により撮像される前記第２の画像に基づき取得される、請求項２に記載の情報処理装置。
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される１以上の特徴点それぞれに対応する特徴量と、前記第２の特徴量として記録された１以上の特徴点それぞれに対応する特徴量と、を比較することで、前記推定結果の確からしさを検証する、請求項３に記載の情報処理装置。
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される前記特徴点を含む部分領域の特徴量と、前記第２の特徴量として記録された前記特徴点を含む部分領域の特徴量と、を比較することで、前記推定結果の確からしさを検証する、請求項４に記載の情報処理装置。
前記検証部は、前記推定結果の検証に利用する前記第２の画像から前記第１の特徴量として抽出される１以上の前記特徴点それぞれについて、当該特徴点を含む前記部分領域と、前記第２の特徴量として記録された１以上の前記特徴点のうち対応する前記特徴点を含む前記部分領域と、間の類似度を算出し、当該類似度の算出結果が閾値以上となる前記特徴点の数に応じて、前記推定結果の確からしさを検証する、請求項５に記載の情報処理装置。
前記複数の撮像部のうち、２以上の撮像部が前記第２の撮像部の候補として設定されており、
前記第２の特徴量は、抽出元となる前記第２の画像が撮像されたときの前記第２の撮像部の実空間上の姿勢に応じたパラメータと関連付けられており、
前記推定部は、前記第１の画像に基づき、複数の前記第２の撮像部の候補それぞれの前記パラメータを取得し、
前記検証部は、複数の前記第２の撮像部の候補それぞれについて取得された前記パラメータと、前記第２の特徴量に関連付けられた前記パラメータと、に基づき、少なくとも一部の当該候補を選択し、選択した当該候補により撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、
請求項３に記載の情報処理装置。
前記検証部は、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかごとに前記第２の撮像部により撮像された前記第２の画像に基づく機械学習に応じて生成された判別器により、前記推定結果の確からしさを検証する、請求項１に記載の情報処理装置。
前記検証部は、前記推定結果の検証に利用する前記第２の画像と、過去に撮像された前記第２の画像と、の間の類似度に応じて、当該推定結果の確からしさを検証する、請求項１に記載の情報処理装置。
前記複数の撮像部のうち、２以上の撮像部が前記第２の撮像部として設定されており、
前記検証部は、２以上の前記第２の撮像部それぞれにより撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、
請求項１に記載の情報処理装置。
前記推定部は、前記検証結果に応じて、前記複数の撮像部から新たな第１の撮像部を選択し、当該新たな第１の撮像部により撮像された新たな第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを再度推定する、請求項１に記載の情報処理装置。
前記推定部は、前記検証結果に応じて、前記複数の撮像部のうち第１の撮像部の候補として設定された２以上の撮像部の中から、前記新たな第１の撮像部を選択する、請求項１１に記載の情報処理装置。
前記推定部は、前記検証結果に応じて、前記第２の撮像部を前記新たな第１の撮像部として選択し、
前記検証部は、当該選択前の前記第１の撮像部を新たな第２の撮像部として選択し、当該新たな第２の撮像部により撮像された新たな第２の画像に基づき、前記新たな第１の画像に基づく前記推定結果を検証する、
請求項１１に記載の情報処理装置。
前記筐体は、移動体の筐体であり、
前記推定部は、前記移動体の進行方向とは異なる方向を撮像する前記第１の撮像部により撮像された前記第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定する
請求項１に記載の情報処理装置。
前記検証部は、前記第１の撮像部とは反対の方向を撮像する前記第２の撮像部により撮像された前記第２の画像に基づき、前記推定結果の確からしさを検証する、請求項１に記載の情報処理装置。
コンピュータが、
所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、
を含む、情報処理方法。
コンピュータに、
所定の筐体に保持された複数の撮像部のうち第１の撮像部により撮像された第１の画像に基づき、前記筐体の実空間上における位置及び姿勢のうち少なくともいずれかを推定することと、
前記複数の撮像部のうち前記第１の撮像部とは光軸が異なる第２の撮像部により撮像された第２の画像に基づき、前記推定結果の確からしさを検証することと、
を実行させる、プログラム。