WO2023090213A1

WO2023090213A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2023090213A1
Application number: PCT/JP2022/041646
Authority: WO
Inventors: 辰吾鶴見
Original assignee: ソニーグループ株式会社
Priority date: 2021-11-18
Filing date: 2022-11-09
Publication date: 2023-05-25
Also published as: EP4435721A1; JPWO2023090213A1; CN118235162A

Abstract

情報処理装置（１００）は、制御部（１３０）を備える。制御部（１３０）は、撮像装置によって撮像された画像に含まれる表示装置（２００）の表示領域を取得する。制御部（１３０）は、取得した表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成する。制御部（１３０）は、３次元マスク領域及び３次元特徴点マップの少なくとも一方、及び、撮像装置によって撮像された画像から抽出した特徴点を用いて、撮像装置の位置及び姿勢の少なくとも一方を推定する。

Description

情報処理装置、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理方法及びプログラムに関する。

　従来、ＡＲ（Augmented　Reality）やＶＲ（Virtual　Reality）、自動運転などの分野では、機器に搭載されたセンサのセンシング結果に基づき、機器の実空間上における位置及び姿勢を推定する技術が知られている。例えば、実空間上の特徴点を抽出し、特徴点に属性や優先度を付した特徴点マップを生成する技術が知られている。当該技術において、情報処理装置は、属性や優先度に応じて特徴点を選択して自己位置を推定する。

国際公開第２０１７／１６８８９９号

　例えば、撮像装置が取得した撮像画像から特徴点を抽出し、撮像装置（又は、撮像装置が搭載される機器）の自己位置を推定する場合、撮像画像に動画像領域が含まれると、自己位置推定の精度が劣化する恐れがある。

　例えば、撮像画像から抽出した特徴点と、特徴点マップに保存された特徴点と、を比較して撮像装置の自己位置を推定する場合、撮像画像の動画像領域に含まれる特徴点が、特徴点マップに保存されていない恐れがある。この場合、撮像装置の正しい自己位置が推定されない恐れがある。

　また、複数のフレームごとに抽出した特徴点をトラッキングして自己位置を推定する場合、動画像領域の特徴点の動きは、撮像装置の動きに対応していない恐れがある。そのため、動画像領域の特徴点の動きに基づいて撮像装置の自己位置を推定すると、正しい自己位置が推定されない恐れがある。

　実空間にテレビ映像やゲーム映像を表示する表示装置が存在する場合、撮像装置が、テレビ映像やゲーム映像を含む撮像画像を取得する恐れがある。撮像画像に、例えばテレビ映像やゲーム映像のような動画像領域が含まれると、撮像装置（又は、撮像装置が搭載される機器）の自己位置を推定する精度が劣化する恐れがある。

　そこで、本開示では、実空間に動画像を表示する表示装置が含まれる場合でも、自己位置をより精度よく推定することができる仕組みを提供する。

　なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の１つに過ぎない。

　本開示の情報処理装置は、制御部を備える。制御部は、撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得する。制御部は、取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成する。制御部は、前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定する。

本開示に係る情報処理システムの概要を説明するための図である。表示装置を含む撮像画像を用いたＶＯ処理の一例を説明するための図である。本開示に係る情報処理装置が自己位置推定に使用する特徴点の一例について説明するための図である。本開示の実施形態に係る端末装置の構成例を示すブロック図である。本開示の第１実施形態に係る情報処理装置の構成例を示すブロック図である。本開示の実施形態に係るマップ生成部の構成例を示すブロック図である。本開示の実施形態に係る物体検出部による表示装置の検出例を説明するための図である。本開示の実施形態に係るマスク空間算出部が算出するマスク空間について説明するための図である。本開示の実施形態に係るマスク空間算出部が算出するマスク空間について説明するための図である。本開示の実施形態に係るマスク空間算出部が算出するマスク空間について説明するための図である。本開示の実施形態に係るマスク空間算出部が算出するマスク空間について説明するための図である。本開示の実施形態に係る情報処理装置が特徴点マップの作成のために取得する撮像画像の一例を説明するための図である。本開示の実施形態に係る情報処理装置が特徴点マップの作成のために取得する撮像画像の一例を説明するための図である。本開示の実施形態に係る自己位置推定部の構成例を示すブロック図である。本開示の実施形態に係る撮像画像の一例について説明するための図である。本開示の実施形態に係る第１特徴点マスク部が実行する特徴点のマスク処理の一例を説明するための図である。本開示の実施形態に係る撮像画像の一例について説明するための図である。本開示の実施形態に係る第２特徴点マスク部が実行する特徴点のマスク処理の一例を説明するための図である。本開示の実施形態に係るマップ生成処理の流れの一例を示すフローチャートである。本開示の実施形態に係るＶＯ処理の流れの一例を示すフローチャートである。本開示の実施形態に係るローカライズ処理の流れの一例を示すフローチャートである。本開示の実施形態の第１変形例に係る表示領域の入力の一例について説明するための図である。本開示の実施形態の第１変形例に係る表示領域の入力の他の例について説明するための図である。本開示の実施形態の第１変形例に係る表示領域の入力の他の例について説明するための図である。本開示の実施形態の第２変形例に係る第１手法の一例を説明するための図である。本開示の実施形態の第２変形例に係る第３手法の一例を説明するための図である。本開示の実施形態の第２変形例に係るサーバ装置について説明するための図である。本開示の実施形態の第２変形例に係るサーバ装置の構成例を示すブロック図である。本開示の実施形態の第２変形例に係る判定処理の流れの一例を示すフローチャートである。本開示の実施形態の第２変形例に係る手法取得処理の流れの一例を示すフローチャートである。は、本開示の実施形態の第２変形例に係るＶＯ処理の流れの一例を示すフローチャートである。は、本開示の実施形態の第２変形例に係るローカライズ処理の流れの一例を示すフローチャートである。は、本開示の実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、具体的な値を示して説明する場合があるが、値は一例であり、別の値が適用されてもよい。

　また、本明細書及び図面において、実施形態の類似する構成要素については、同一の符号の後に異なるアルファベット又は数字を付して区別する場合がある。ただし、類似する構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　以下に説明される１又は複数の実施形態（実施例、変形例を含む）は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。

＜＜１．はじめに＞＞
＜１．１．情報処理システム１の概要＞
　図１は、本開示に係る情報処理システム１の概要を説明するための図である。図１に示すように、情報処理システム１は、情報処理装置１００と、表示装置２００と、端末装置３００と、を備える。

　情報処理装置１００、表示装置２００、及び、端末装置３００は、互いに有線又は無線の各種のネットワークを介して通信し得る。なお、ネットワークで用いられる通信方式は、有線又は無線（例えば、ＷｉＦｉ（登録商標）、Bluetooth（登録商標）等）を問わず任意の方式を適用し得る。

　また、情報処理システム１に含まれる情報処理装置１００、表示装置２００、及び、端末装置３００は、図１に図示された数に限定されるものではなく、さらに多く含まれていてもよい。

　端末装置３００は、ユーザＵが頭部に装着する例えばメガネ型のＨＭＤ等のウェアラブルデバイス（アイウェアデバイス）である。

　なお、端末装置３００として適用可能なアイウェアデバイスは、実空間の像を透過させる、所謂シースルー型のヘッドマウントディスプレイ（ＡＲ（Augmented　Reality）グラスであってもよいし、実空間の像を透過させないゴーグルタイプのもの（ＶＲ（Virtual　Reality）ゴーグル）であってもよい。

　また、本開示においては、端末装置３００は、ＨＭＤであることに限定されるものではなく、例えば、ユーザＵの保持するタブレットやスマートフォン等であってもよい。

　情報処理装置１００は、端末装置３００の動作を統括的に制御する。情報処理装置１００は、例えば、ＣＰＵ（Central　Processing　Unit）やＧＰＵ（Graphics　Processing　Unit）等の処理回路等により実現される。なお、本開示に係る情報処理装置１００の詳細構成については、後述する。

　表示装置２００は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。表示装置２００は、例えば、情報処理装置１００の制御に基づき、各種情報を表示する。

　ここで、近年、ユーザＵの動きに応じて処理を行う機器が数多く登場している。例えば、画面に表示されたキャラクタをユーザの動きと同期させることで、キャラクタを動かすゲームなどがある。

　このゲームのようにユーザが常に操作を行う場合、ユーザは操作に没頭する余り周辺環境を意識しなくなり、周辺の物体（障害物）にぶつかるという問題が起こり得る。特にＨＭＤを装着してプレイするＶＲでは、ユーザが周辺環境を全く確認できない場合もあるため、現実の物体にぶつかる危険性が高くなる。

　そこで、ユーザＵの身体の安全を守るために、情報処理装置１００は、現実の物体と接触しない安全なプレイエリア（許容領域）を特定し、当該プレイエリア内をユーザＵが移動するようＨＭＤを制御する。

　例えば、図１では、領域ＰＡが、ユーザＵが障害物にぶつからずに移動したり手を伸ばしたりできるプレイエリアとして特定されている。なお、プレイエリアは、床に示された床領域と、床領域から垂直に延ばした壁と、の組み合わせのように３次元領域として表されてもよい。あるいは、プレイエリアは、床領域の２次元領域として表されてもよい。このように、プレイエリアは２次元領域又は３次元領域として設定され得る。

　領域ＰＡは、ＨＭＤに搭載された撮像装置やＩＭＵ（Inertial　Measurement　Unit）等のセンサから取得した情報に基づき、情報処理装置１００によって自動で設定され得る。あるいは、領域ＰＡが、ユーザＵによって手動で設定されてもよい。

　また、情報処理装置１００は、周辺環境の特徴点Ｐを３次元の特徴点マップとして記憶する。プレイエリアＰＡは、特徴点マップに対して定義され得る。特徴点マップ及びプレイエリアＰＡは、例えばユーザＵが情報処理システム１を初めて使用する場合、あるいは、ユーザＵがゲームを開始する場合に、設定され得る。

　情報処理装置１００は、特徴点マップに対して端末装置３００の位置及び姿勢の少なくとも一方（以下、単に自己位置とも記載する）を同定することで、例えば部屋等の実空間に対する端末装置３００の自己位置及びプレイエリアＰＡを同定する。このように、特徴点マップに対して端末装置３００の自己位置を推定する処理をローカライズ処理とも記載する。

　また、情報処理装置１００は、端末装置３００に搭載されるセンサが取得したセンサ情報を用いて、周辺環境の情報等を取得する。例えば、情報処理装置１００は、端末装置３００に搭載される撮像装置（図示省略）の撮像画像に基づき、インサイドアウト方式により端末装置３００の自己位置を検出する。

　情報処理装置１００は、例えば、端末装置３００に搭載される撮像装置の撮像画像に含まれる特徴点Ｐを抽出する。情報処理装置１００は、撮像装置が動いた際の特徴点Ｐの動きから、端末装置の自己位置を推定する。このように、撮像画像の特徴点Ｐの動きから端末装置３００の自己位置を推定する処理をビジュアルオドメトリ（ＶＯ）処理とも記載する。

　情報処理装置１００は、ローカライズ処理及びＶＯ処理を同時に行う。情報処理装置１００は、ＶＯ処理によって端末装置３００の素早い動きに対応するとともに、ローカライズ処理によって端末装置３００とプレイエリアＰＡとの相対位置の整合性を保持する。

＜１．２．課題＞
　ここで、図１に示すように、実空間に動画像を表示し得る表示装置２００が存在する場合、端末装置３００の自己位置の推定精度が劣化する恐れがある。

　図２は、表示装置２００を含む撮像画像Ｍ１を用いたＶＯ処理の一例を説明するための図である。なお、図２の上図は、時刻ｔ１で端末装置３００が取得した撮像画像Ｍ１を示しており、図２の下図は、時刻ｔ２で端末装置３００が取得した撮像画像Ｍ２を示している。

　例えば、ユーザＵが表示装置２００の方を向いている（図１参照）場合、図２の上図に示すように、端末装置３００が時刻ｔ１で取得する撮像画像Ｍ１には、表示装置２００が含まれる。この場合、情報処理装置１００は、表示装置２００の表示画面を含む領域（以下、表示領域とも記載する）外において複数の特徴点Ｐ１１を取得する。また、情報処理装置１００は、表示領域内において複数の特徴点Ｐ１２を取得する。

　次に、図２の下図に示すように、時刻ｔ１の次の時刻ｔ２において、端末装置３００は、撮像画像Ｍ２を取得する。ここでは、時刻ｔ２において、ユーザＵが時刻ｔ１より左方向に移動したものとする。

　図２の下図に示すように、時刻ｔ２で取得した撮像画像Ｍ２にも表示装置２００が含まれる場合、情報処理装置１００は、表示装置２００の表示領域外において複数の特徴点Ｐ２１を取得する。また、情報処理装置１００は、表示領域内において複数の特徴点Ｐ２２を取得する。

　図２の下図に示すように、情報処理装置１００は、撮像画像Ｍ１、Ｍ２に含まれる特徴点のうち同じ特徴点を選択し、当該特徴点の動き（図中、矢印参照）をトラッキングすることで、端末装置３００の動きを検出する。情報処理装置１００は、検出した動きから端末装置３００の自己位置を推定する。

　ここで、表示装置２００に例えば動画像が表示されているとする。この場合、表示領域外で検出された特徴点Ｐ１１、Ｐ２１の動きＶ１２と、表示領域内で検出された特徴点Ｐ１２、Ｐ２２の動きＶ２２と、が異なる恐れがある。これは、表示領域外の特徴点Ｐ１１、Ｐ２１は、端末装置３００の動きに対応して移動するが、表示領域内の特徴点Ｐ１２、Ｐ２２は、表示装置２００に表示される動画像の動きに対応して移動するためである。

　そのため、情報処理装置１００が、特徴点Ｐ１１、Ｐ２１の動きＶ１２と、特徴点Ｐ１２、Ｐ２２の動きＶ２２を用いて端末装置３００の自己位置を推定すると、自己位置がずれて（ドリフトして）しまい、自己位置の推定精度が劣化する場合がある。

　ここでは、情報処理装置１００がＶＯ処理を用いて端末装置３００の自己位置を推定する場合の精度劣化について説明したが、ローカライズ処理でも同様に自己位置の推定精度が劣化する。これは、表示装置２００に表示される画像が特徴点マップ作成時と異なると、情報処理装置１００が、特徴点マップに含まれない特徴点を抽出する恐れがあるためである。

　このように、表示装置２００に動画像が表示されていると、表示装置２００の表示画面から抽出した特徴点の動きに影響を受けて、端末装置３００の自己位置の推定精度が劣化する恐れがある。

＜１．３．提案技術の概要＞
　そこで、本開示に係る情報処理システム１は、表示領域に対応する特徴点に基づき、端末装置３００の自己位置を推定する。本開示に係る情報処理装置１００は、端末装置３００に搭載される撮像装置によって撮像された撮像画像に含まれる表示装置２００の表示領域を取得する。情報処理装置１００は、取得した表示領域に基づき、３次元マスク領域及び３次元の特徴点マップを生成する。情報処理装置１００は、３次元マスク領域及び特徴点マップの少なくとも一方、及び、撮像装置による撮像画像から抽出した特徴点を用いて、撮像装置の位置及び姿勢の少なくとも一方を推定する。

　図３は、本開示に係る情報処理装置１００が自己位置推定に使用する特徴点の一例について説明するための図である。

　図３に示すように、情報処理装置１００は、表示装置２００の表示領域に基づき、３次元マスク領域を設定する。図３の例では、情報処理装置１００は、表示装置２００の表示領域を含む直方体の空間を３次元マスク領域Ｓ（以下、マスク空間Ｓとも記載する）として設定する。

　情報処理装置１００は、画角ＭＶで撮像した撮像画像Ｍに含まれる複数の特徴点のうち、マスク空間Ｓ外の空間に存在する特徴点Ｐを使用して、特徴点マップの生成を行う。また、情報処理装置１００は、マスク空間Ｓ外の空間に存在する特徴点Ｐを使用して、ＶＯ処理やローカライズ処理等を行い、撮像装置（又は、端末装置３００）の自己位置を推定する。

　このように、情報処理装置１００は、表示装置２００が動画像を表示し得る表示領域の情報を用いて端末装置３００の自己位置を推定する。これにより、情報処理装置１００は、表示装置２００が動画像を表示していたとしても、表示装置２００に対応する特徴点を自己位置推定に使用しないようにすることができ、自己位置の推定精度の劣化を抑制することができる。

＜＜２．情報処理システム＞＞
＜２．１．端末装置の構成例＞
　図４は、本開示の実施形態に係る端末装置３００の構成例を示すブロック図である。図４に示すように、端末装置３００は、通信部３１０と、センサ部３２０と、表示部３３０と、入力部３４０と、制御部３５０と、を含む。

［通信部３１０］
　通信部３１０は、他の装置との間で情報の送受信を行う。例えば、通信部３１０は、制御部３５０の制御に従って、映像の再生要求やセンサ部３２０のセンシング結果を情報処理装置１００へ送信する。また、通信部３１０は、再生対象の映像を情報処理装置１００から受信する。

［センサ部３２０］
　センサ部３２０は、例えば、撮像装置（イメージセンサ）、デプスセンサ、マイクロフォン、加速度センサ、ジャイロスコープ、地磁気センサ、ＧＰＳ（Global　Positioning　System）受信機などを含み得る。また、センサ部３２０は、速度センサ、加速度センサ、角速度センサ（ジャイロセンサ）、及び、それらを統合した慣性計測装置（ＩＭＵ：Inertial　Measurement　Unit）を含み得る。

　例えば、センサ部３２０は、実空間における端末装置３００の向きや姿勢、または、加速度などをセンシングする。また、センサ部３２０は、端末装置３００の周囲のデプス情報をセンシングする。なお、センサ部３２０がデプス情報をセンシングする測距装置を含む場合、当該測距装置は、ステレオカメラ、ＴｏＦ（Time　of　Flight）方式の距離イメージセンサなどであり得る。

［表示部３３０］
　表示部３３０は、制御部３５０の制御に従って、映像を表示する。例えば、表示部３３０は、右目用表示部及び左目用表示部（図示省略）を有し得る。この場合、右目用表示部は、端末装置３００に含まれる右目用レンズ（図示省略）の少なくとも一部の領域を投影面として映像を投影する。左目用表示部は、端末装置３００に含まれる左目用レンズ（図示省略）の少なくとも一部の領域を投影面として映像を投影する。

　あるいは、端末装置３００がゴーグル型レンズを有する場合には、表示部３３０は、当該ゴーグル型レンズの少なくとも一部の領域を投影面として映像を投影し得る。なお、左目用レンズおよび右目用レンズ（またはゴーグル型レンズ）は、例えば樹脂やガラスなどの透明材料により形成され得る。

　あるいは、表示部３３０は、非透過型の表示装置として構成され得る。例えば、表示部３３０は、ＬＣＤ（Liquid　Crystal　Display）、または、ＯＬＥＤ（Organic　ライト　Emitting　Diode）などを含んで構成され得る。なお、この場合、センサ部３２０（カメラ）により撮影される、ユーザＵの前方の映像が表示部３３０に逐次表示されてもよい。これにより、ユーザＵは、当該表示部３３０に表示される映像を介して、ユーザＵの前方の風景を視認し得る。

［入力部３４０］
　入力部３４０は、タッチパネル、ボタン、レバー、スイッチなどを含み得る。入力部３４０は、ユーザＵの各種の入力を受け付ける。例えば、仮想空間内にＡＩキャラクタが配置される場合、入力部３４０は、当該ＡＩキャラクタの配置位置等を変更させるためのユーザＵの入力を受け付け得る。

［制御部３５０］
　制御部３５０は、端末装置３００に内蔵される例えばＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）及びＲＡＭなどを用いて、端末装置３００の動作を統括的に制御する。例えば、制御部３５０は、情報処理装置１００から受信される映像を表示部３３０に表示させる。

　一例として、情報処理装置１００が全天球映像を受信するとする。この場合、制御部３５０は、当該全天球映像のうち、端末装置３００（またはユーザＵなど）の位置および姿勢の情報に対応する部分の映像を表示部３３０に表示させる。

　また、表示部３３０が右目用表示部及び左目用表示部（図示省略）を有する場合、制御部３５０は、情報処理装置１００から受信される映像に基づいて右目用画像および左目用画像を生成する。そして、制御部３５０は、右目用画像を右目用表示部に表示させ、左目用画像を左目用表示部に表示させる。これにより、制御部３５０は、立体視映像をユーザＵに視聴させることができる。

　また、制御部３５０は、センサ部３２０によるセンシング結果に基づいて各種の認識処理を行い得る。例えば、制御部３５０は、端末装置３００を装着するユーザＵの行動（例えば、ユーザＵのジェスチャやユーザＵの移動など）を当該センシング結果に基づいて認識し得る。

＜２．２．情報処理装置の構成例＞
　図５は、本開示の第１実施形態に係る情報処理装置１００の構成例を示すブロック図である。図５に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、を含む。

［通信部１１０］
　通信部１１０は、他の装置との間で情報の送受信を行う。例えば、通信部１１０は、制御部１３０の制御に従って、再生対象の映像を情報処理装置１００へ送信する。また、通信部１１０は、映像の再生要求やセンシング結果を端末装置３００から受信する。また、通信部１１０は、ネットワークを介してゲームサーバなどの外部サーバと通信し得る。

［記憶部１２０］
　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　記憶部１２０は、特徴点地図ＤＢ１２１と、マスク空間ＤＢ１２２とを有する。特徴点地図ＤＢ１２１は、制御部１３０で生成される特徴点マップを記憶する。マスク空間ＤＢ１２２は、制御部１３０で生成されるマスク空間を記憶する。

［制御部１３０］
　制御部１３０は、情報処理装置１００に内蔵される例えばＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）及びＲＡＭなどを用いて、情報処理装置１００の動作を統括的に制御する。例えば、制御部１３０は、情報処理装置１００内部の記憶装置に記憶されている各種プログラムを、プロセッサがＲＡＭ（Random　Access　Memory）等を作業領域として実行することにより実現される。なお、制御部１３０は、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。ＣＰＵ、ＭＰＵ、ＡＳＩＣ、及びＦＰＧＡは何れもコントローラとみなすことができる。

　制御部１３０は、図５に示すように、マップ生成部１３１と、自己位置推定部１３２と、を備える。制御部１３０を構成する各ブロック（マップ生成部１３１、自己位置推定部１３２）はそれぞれ制御部１３０の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア（マイクロプログラムを含む。）で実現される１つのソフトウェアモジュールであってもよいし、半導体チップ（ダイ）上の１つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ１つのプロセッサ又は１つの集積回路であってもよい。機能ブロックの構成方法は任意である。なお、制御部１３０は上述の機能ブロックとは異なる機能単位で構成されていてもよい。

［マップ生成部１３１］
　マップ生成部１３１は、端末装置３００が取得した撮像画像に基づき、マスク空間及び特徴点マップを生成する。

　図６は、本開示の実施形態に係るマップ生成部１３１の構成例を示すブロック図である。マップ生成部１３１は、第１センサ情報取得部１３１１と、第１ＶＯ処理部１３１２と、第１ローカライズ処理部１３１３と、第１フィルタ処理部１３１４と、特徴点登録部１３１５と、物体検出部１３１６と、マスク空間算出部１３１７と、を備える。

［第１センサ情報取得部１３１１］
　第１センサ情報取得部１３１１は、端末装置３００のセンサ部２２０（図４参照）によるセンシング結果をセンサ情報として取得する。センサ情報には、例えば、撮像装置やＩＭＵなどが取得したセンサデータ（例えば、撮像画像、加速度、角速度など）が含まれる。

　図６に示す第１センサ情報取得部１３１１は、取得したセンサ情報を、第１ＶＯ処理部１３１２、第１ローカライズ処理部１３１３、及び、物体検出部１３１６に出力する。

［第１ＶＯ処理部１３１２］
　第１ＶＯ処理部１３１２は、第１センサ情報取得部１３１１が取得したセンサ情報に基づき、ビジュアルオドメトリ法を用いて、端末装置３００の自己位置を推定する。第１ＶＯ処理部１３１２は、第１－１特徴点抽出部１３１２Ａと、第１特徴点追跡部１３１２Ｃと、第１運動推定部１３１２Ｄと、を備える。

　第１－１特徴点抽出部１３１２Ａは、例えば、画像フレーム間の運動（位置、姿勢）を推定するための特徴点を撮像画像から抽出する。第１－１特徴点抽出部１３１２Ａは、抽出した特徴点を第１特徴点追跡部１３１２Ｃに出力する。

　第１特徴点追跡部１３１２Ｃは、例えば、第１－１特徴点抽出部１３１２Ａが抽出した特徴点を追跡する。第１特徴点追跡部１３１２Ｃは、例えば、画像フレーム間で対応する特徴点を選択し、選択した特徴点の動きを算出する。第１特徴点追跡部１３１２Ｃは、算出した特徴点の動きに関する動き情報を、第１運動推定部１３１２Ｄに出力する。

　第１運動推定部１３１２Ｄは、第１特徴点追跡部１３１２Ｃから取得した動き情報、及び、第１センサ情報取得部１３１１から取得したＩＭＵセンサのセンサ情報（例えば、加速度、角速度など）に基づき、撮像装置（又は、端末装置３００）の運動情報を推定する。運動情報には、例えば、撮像装置の位置情報や姿勢情報が含まれる。第１運動推定部１３１２Ｄは、推定した運動情報を第１フィルタ処理部１３１４に出力する。

［第１ローカライズ処理部１３１３］
　第１ローカライズ処理部１３１３は、第１センサ情報取得部１３１１が取得したセンサ情報に基づき、ローカライズ処理を行って、端末装置３００の自己位置を推定する。第１ローカライズ処理部１３１３は、第１－２特徴点抽出部１３１３Ａと、第１特徴点マッチング部１３１３Ｃと、第１位置姿勢推定部１３１３Ｄと、を備える。

　第１－２特徴点抽出部１３１３Ａは、例えば、特徴点マップの作成、及び、特徴点マップに対する自己位置推定に使用する特徴点を撮像画像から抽出する。第１－２特徴点抽出部１３１３Ａは、抽出した特徴点を第１特徴点マッチング部１３１３Ｃに出力する。

　第１特徴点マッチング部１３１３Ｃは、第１－２特徴点抽出部１３１３Ａが抽出した特徴点と、特徴点マップに含まれる特徴点と、をマッチングする。第１特徴点マッチング部１３１３Ｃは、マッチング結果を第１位置姿勢推定部１３１３Ｄに出力する。

　第１位置姿勢推定部１３１３Ｄは、第１特徴点マッチング部１３１３Ｃによる特徴点のマッチング結果に基づき、特徴点マップに対する撮像装置（又は、端末装置３００）の位置姿勢情報を推定する。第１位置姿勢推定部１３１３Ｄは、推定した位置姿勢情報を第１フィルタ処理部１３１４に出力する。

［第１フィルタ処理部１３１４］
　第１フィルタ処理部１３１４は、第１ＶＯ処理部１３１２が推定した運動情報、及び、第１ローカライズ処理部１３１３が推定した位置姿勢情報に対してフィルタリングを行って２つの情報を統合し、撮像装置（又は、端末装置３００）の自己位置情報を推定する。第１フィルタ処理部１３１４は、例えば、拡張カルマンフィルタを用いて運動情報及び位置姿勢情報を統合し、自己位置情報を生成する。これにより、情報処理装置１００は、安定して端末装置３００の自己位置を推定することができる。

　第１フィルタ処理部１３１４は、生成した自己位置情報を特徴点登録部１３１５、及び、マスク空間算出部１３１７に出力する。

［特徴点登録部１３１５］
　特徴点登録部１３１５は、第１フィルタ処理部１３１４が生成した自己位置情報、及び、第１ローカライズ処理部１３１３が抽出した特徴点に基づき、特徴点マップの生成又は更新を行う。例えば、特徴点登録部１３１５は、端末装置３００の位置姿勢に基づいて特徴点を特徴点マップに登録する。当該特徴点マップは、特徴点地図ＤＢ１２１に保存される。

［物体検出部１３１６］
　物体検出部１３１６は、第１センサ情報取得部１３１１が取得したセンサ情報に基づき、撮像画像に含まれる表示装置２００を検出する。

　図７は、本開示の実施形態に係る物体検出部１３１６による表示装置２００の検出例を説明するための図である。

　図７に示すように、表示装置２００には、例えば、固定パターン画像（所定の画像の一例）が表示されているものとする。表示装置２００は、例えば、情報処理装置１００からの指示に従って、固定パターン画像を表示する。

　物体検出部１３１６は、撮像画像から、固定パターン画像を検出することで、表示装置２００の表示領域２００Ｒを検出する。

　図６に戻り、物体検出部１３１６は、検出した表示領域２００Ｒに関する表示領域情報をマスク空間算出部１３１７に出力する。

　なお、ここでは、物体検出部１３１６が固定パターン画像を検出することで表示装置２００の表示領域２００Ｒを検出するとしたが、これに限定されない。例えば、物体検出部１３１６が、Semantic　Segmentationを使用して表示装置２００の表示領域２００Ｒを検出するようにしてもよい。

［マスク空間算出部１３１７］
　図６に示すマスク空間算出部１３１７は、物体検出部１３１６から取得した表示領域情報、及び、第１フィルタ処理部１３１４から取得した端末装置３００の自己位置に基づき、マスク空間Ｓを算出する。

　図８～図１１は、本開示の実施形態に係るマスク空間算出部１３１７が算出するマスク空間Ｓについて説明するための図である。

　上述したように、マスク空間算出部１３１７は、物体検出部１３１６から表示領域情報を取得する。表示領域情報は、撮像画像上の表示領域２００Ｒを示す情報である。この表示領域情報から特徴点マップの座標系（以下、マップ座標系とも記載する）における表示装置２００の位置を特定することは難しい。これは、表示装置２００の大きさが使用する環境（情報処理システム１）によって異なるためである。

　図８に示すように、撮像画像Ｍ上に同じ大きさの矩形領域として表示領域２００Ｒが撮影されたとしても、画面サイズが小さい表示装置２００Ａは、端末装置３００の近くに位置し、画面サイズが大きい表示装置２００Ｂは、端末装置３００から遠くに位置する。

　このように、物体検出部１３１６が検出した表示領域情報からでは、マップ座標系における表示装置２００の位置を一意に特定できない場合がある。

　そこで、本開示の実施形態に係るマスク空間算出部１３１７は、図９に示す撮像画像Ｍから抽出した特徴点Ｐ２及び表示領域２００Ｒの角部Ｃ１～Ｃ４を用いてマップ座標系における表示装置２００の位置を算出する。

　まず、マスク空間算出部１３１７は、図９に示すように、撮像画像Ｍから複数の特徴点を抽出する。複数の特徴点には、表示領域２００Ｒ外に存在する複数の特徴点Ｐ１と、表示領域２００Ｒ内に存在する複数の特徴点Ｐ２と、が含まれる。

　図１０に示すように、マスク空間算出部１３１７は、表示領域２００Ｒ内に存在する少なくとも３つの特徴点Ｐ２を使用して、表示領域２００Ｒを含む表示平面Ｍ_ＴＶを算出する。また、マスク空間算出部１３１７は、端末装置３００から撮像画像Ｍ上の角部Ｃ１～Ｃ４にのびるベクトルＶ１～Ｖ４と、表示平面Ｍ_ＴＶとの交点Ｃ１１～Ｃ１４を算出する。マスク空間算出部１３１７は、交点Ｃ１１～Ｃ１４を頂点とする矩形領域を、マップ座標系における表示領域２００Ｒとする。

　図１１に示すように、マスク空間算出部１３１７は、マップ座標系における表示領域２００Ｒを縦・横・奥行きの３方向に膨張（伸張）させた直方体の領域をマスク空間Ｓとして算出する。これにより、マスク空間算出部１３１７は、マップ座標系において、表示装置２００を含む３次元領域をマスク空間Ｓとして設定することができる。

　図６に戻り、マスク空間算出部１３１７は、算出したマスク空間Ｓをマスク空間ＤＢに保存する。

　情報処理装置１００がマップを作成する場合、例えば、ユーザＵに対して、プレイエリアＰＡ内を移動したり、実空間を見回したりして、様々な位置や角度で撮像画像Ｍを取得するよう指示する。情報処理装置１００は、ユーザＵが移動しながら撮影した撮像画像Ｍを用いて特徴点マップの作成／更新やマスク空間Ｓの作成／更新等を行う。

　図１２及び図１３は、本開示の実施形態に係る情報処理装置１００が特徴点マップの作成のために取得する撮像画像Ｍの一例を説明するための図である。

　例えば、図１１に示すように表示装置２００側を向いていたユーザＵは、情報処理装置１００からの指示に従って、図１２に示すように、窓側に向きを変更する。これにより、情報処理装置１００は、図１３に示すように、窓側を画角ＭＶ３で撮影した撮像画像Ｍ３を取得する。

　情報処理装置１００のマップ生成部１３１は、撮像画像Ｍ３に含まれる特徴点Ｐ１に基づき、特徴点マップの生成／更新を行う。このように、ユーザＵが実空間を移動したり、見回したりして撮像画像Ｍを取得することで、情報処理装置１００は、実空間の特徴点マップをより高精度に生成することができる。

　このとき、本開示の実施形態に係るマップ生成部１３１は、特徴点マップに加え、マスク空間Ｓの生成／更新を行う。そこで、マップ生成部１３１が、生成したマスク空間Ｓに基づいて特徴点マップの生成／更新を行うようにしてもよい。

　具体的に、図６に示す特徴点登録部１３１５は、特徴点マップに特徴点を登録する場合、マスク空間Ｓ外の特徴点を特徴点マップに登録するようにする。すなわち、特徴点登録部１３１５は、マスク空間Ｓ外の特徴点を使用して特徴点マップの生成／更新を行う。例えば、図１１では、マップ生成部１３１は、マスク空間Ｓ外の特徴点Ｐ１、及び、マスク空間Ｓ内の特徴点Ｐ２の両方を抽出する。特徴点登録部１３１５は、例えば、マスク空間Ｓ内の特徴点Ｐ２を削除し、マスク空間Ｓ外の特徴点Ｐ１を特徴点マップに登録する。

　なお、ここでは、特徴点登録部１３１５が特徴点マップを生成するときにマスク空間Ｓを用いるとしたが、これに限定されない。例えば、第１ＶＯ処理部１３１２及び第１ローカライズ処理部１３１３において、端末装置３００の自己位置を推定する場合に、マスク空間Ｓを用いるようにしてもよい。かかる処理において、マスク空間Ｓを用いる方法については、後述する。

［自己位置推定部１３２］
　図５に戻る。自己位置推定部１３２は、マスク空間及び特徴点マップの少なくとも一方、及び、端末装置３００が取得した撮像画像を用いて、端末装置３００の自己位置を推定する。

　図１４は、本開示の実施形態に係る自己位置推定部１３２の構成例を示すブロック図である。自己位置推定部１３２は、第２センサ情報取得部１３２１と、第２ＶＯ処理部１３２２と、第２ローカライズ処理部１３２３と、第２フィルタ処理部１３２４と、を備える。

［第２センサ情報取得部１３２１］
　第２センサ情報取得部１３２１は、端末装置３００のセンサ部２２０（図４参照）によるセンシング結果をセンサ情報として取得する。第２センサ情報取得部１３２１は、取得したセンサ情報を、第２ＶＯ処理部１３２２、及び、第２ローカライズ処理部１３２３に出力する。

［第２ＶＯ処理部１３２２］
　第２ＶＯ処理部１３２２は、第２センサ情報取得部１３２１が取得したセンサ情報に基づき、ビジュアルオドメトリ法を用いて、端末装置３００の自己位置を推定する。第２ＶＯ処理部１３２２は、第２－１特徴点抽出部１３２２Ａと、第１特徴点マスク部１３２２Ｂと、第２特徴点追跡部１３２２Ｃと、第２運動推定部１３２２Ｄと、を備える。

　以下、図１５及び図１６を用いて、第２ＶＯ処理部１３２２の各部が行う処理の一例について説明する。図１５は、本開示の実施形態に係る撮像画像Ｍの一例について説明するための図である。図１６は、本開示の実施形態に係る第１特徴点マスク部１３２２Ｂが実行する特徴点のマスク処理の一例を説明するための図である。

（第２－１特徴点抽出部１３２２Ａ）
　図１４に示す第２－１特徴点抽出部１３２２Ａは、例えば、画像フレーム間の運動（位置、姿勢）を推定するための特徴点を撮像画像Ｍから抽出する。

　ここで、図１５に示すように、ユーザＵの視線が右から左に動くものとする。この場合、端末装置３００は、時刻ｔ１において画角ＭＶ１の撮像画像Ｍ１を取得し、時刻ｔ２において画角ＭＶ２の撮像画像Ｍ２を取得する。

　第２－１特徴点抽出部１３２２Ａは、撮像画像Ｍ１、Ｍ２から特徴点Ｐ１１、Ｐ１２、Ｐ２１、Ｐ２２（図１６参照）を抽出する。図１４に示すように、第２－１特徴点抽出部１３２２Ａは、抽出した特徴点を第１特徴点マスク部１３２２Ｂに出力する。

（第１特徴点マスク部１３２２Ｂ）
　図１４に示す第１特徴点マスク部１３２２Ｂは、第２－１特徴点抽出部１３２２Ａが抽出した特徴点のうち、マスク空間Ｓに対応する特徴点をマスクする。

　図１６の上図に示すように、第１特徴点マスク部１３２２Ｂは、例えば、端末装置３００の自己位置及びマスク空間Ｓに関する情報に基づき、撮像画像Ｍ１におけるマスク空間Ｓに対応する２次元マスク領域Ｓ２（以下、マスク領域Ｓ２とも記載する）を算出する。例えば、第１特徴点マスク部１３２２Ｂは、マスク空間Ｓを撮像画像Ｍ１に投影することで、マスク領域Ｓ２を算出する。

　第１特徴点マスク部１３２２Ｂは、撮像画像Ｍ１のうち、マスク領域Ｓ２外の領域（以下、マスク外領域とも記載する）の特徴点Ｐ１１を選択して第２特徴点追跡部１３２２Ｃに出力する。第１特徴点マスク部１３２２Ｂは、例えばマスク領域Ｓ２内の特徴点Ｐ１２を削除し、残りの特徴点Ｐ１１をＶＯ処理に使用する特徴点として選択する。

　図１６の下図に示すように、第１特徴点マスク部１３２２Ｂは、撮像画像Ｍ２に対しても同様にマスク領域Ｓ２を算出する。また、第１特徴点マスク部１３２２Ｂは、撮像画像Ｍ２のうち、マスク外領域の特徴点Ｐ２１を選択し、マスク領域Ｓ２内の特徴点Ｐ１２を削除する。

　図１４に戻り、第１特徴点マスク部１３２２Ｂは、選択した特徴点Ｐ２１を第２特徴点追跡部１３２２Ｃに出力する。

（第２特徴点追跡部１３２２Ｃ）
　図１４に示す第２特徴点追跡部１３２２Ｃは、例えば、第１特徴点マスク部１３２２Ｂが選択した特徴点を追跡する。第２特徴点追跡部１３２２Ｃは、例えば、撮像画像Ｍ１、Ｍ２で対応する特徴点を検出し、検出した特徴点の動きＶ１２（図１６の下図参照）を算出する。第２特徴点追跡部１３２２Ｃは、算出した特徴点の動きＶ１２に関する動き情報を、第２運動推定部１３２２Ｄに出力する。

　ここで、第２特徴点追跡部１３２２Ｃが追跡する特徴点Ｐ１１、Ｐ２１は、第１特徴点マスク部１３２２Ｂによって、マスク領域Ｓ２内の特徴点Ｐ１２、Ｐ２２を含まないものになっている。そのため、第２特徴点追跡部１３２２Ｃは、表示装置２００の表示領域２００Ｒに動画像が表示されていたとしても、当該表示領域２００Ｒの特徴点Ｐ１２、Ｐ２２を使用せずに、特徴点Ｐ１１、Ｐ２１のトラッキングを行うことができる。これにより、第２特徴点追跡部１３２２Ｃは、端末装置３００の動きに対応した特徴点Ｐ１１、Ｐ２１の動きＶ１２をより精度よく算出することができる。

（第２運動推定部１３２２Ｄ）
　第２運動推定部１３２２Ｄは、第２特徴点追跡部１３２２Ｃから取得した動き情報、及び、第２センサ情報取得部１３２１から取得したＩＭＵセンサのセンサ情報（例えば、加速度、角速度など）に基づき、撮像装置（又は、端末装置３００）の運動情報を推定する。第２運動推定部１３２２Ｄは、推定した運動情報を第２フィルタ処理部１３２４に出力する。

［第２ローカライズ処理部１３２３］
　第２ローカライズ処理部１３２３は、第２センサ情報取得部１３２１が取得したセンサ情報に基づき、ローカライズ処理を行って、端末装置３００の自己位置を推定する。第２ローカライズ処理部１３２３は、第２－２特徴点抽出部１３２３Ａと、第２特徴点マスク部１３２３Ｂと、第２特徴点マッチング部１３２３Ｃと、第２位置姿勢推定部１３２３Ｄと、を備える。

　以下、図１７及び図１８を用いて、第２ローカライズ処理部１３２３の各部が行う処理の一例について説明する。図１７は、本開示の実施形態に係る撮像画像Ｍ２の一例について説明するための図である。図１８は、本開示の実施形態に係る第２特徴点マスク部１３２３Ｂが実行する特徴点のマスク処理の一例を説明するための図である。

（第２－２特徴点抽出部１３２３Ａ）
　図１４に示す第２－２特徴点抽出部１３２３Ａは、例えば、特徴点マップの作成、及び、特徴点マップに対する自己位置推定に使用する特徴点を撮像画像から抽出する。第２－２特徴点抽出部１３２３Ａは、抽出した特徴点を第２特徴点マスク部１３２３Ｂに出力する。

　図１７に示すように、端末装置３００は、例えば時刻ｔ２において画角ＭＶ２の撮像画像Ｍ２を取得する。第２－２特徴点抽出部１３２３Ａは、撮像画像Ｍ２から特徴点Ｐ２１、Ｐ２２を抽出する（図１８参照）。図１４に示すように、第２－２特徴点抽出部１３２３Ａは、抽出した特徴点Ｐ２１、Ｐ２２を第２特徴点マスク部１３２３Ｂに出力する。

（第２特徴点マスク部１３２３Ｂ）
　図１４に示す第２特徴点マスク部１３２３Ｂは、第２－２特徴点抽出部１３２３Ａが抽出した特徴点Ｐ２１、Ｐ２２のうち、マスク空間Ｓに対応する特徴点Ｐ２２をマスクする。

　図１８に示すように、第２特徴点マスク部１３２３Ｂは、例えば、端末装置３００の自己位置及びマスク空間Ｓに関する情報に基づき、撮像画像Ｍ２におけるマスク空間Ｓに対応する２次元マスク領域Ｓ２（以下、マスク領域Ｓ２とも記載する）を算出する。例えば、第２特徴点マスク部１３２３Ｂは、マスク空間Ｓを撮像画像Ｍ２に投影することで、マスク領域Ｓ２を算出する。

　第２特徴点マスク部１３２３Ｂは、撮像画像Ｍ２のうち、マスク領域Ｓ２外の領域（以下、マスク外領域とも記載する）の特徴点Ｐ２１を選択して第２特徴点マッチング部１３２３Ｃに出力する。第２特徴点マスク部１３２３Ｂは、例えばマスク領域Ｓ２内の特徴点Ｐ２２を削除し、残りの特徴点Ｐ２１をローカライズ処理に使用する特徴点として選択する。

　図１４に戻り、第２特徴点マスク部１３２３Ｂは、選択した特徴点Ｐ２２を第２特徴点マッチング部１３２３Ｃに出力する。

（第２特徴点マッチング部１３２３Ｃ）
　図１８に示すように、第２特徴点マッチング部１３２３Ｃは、第２特徴点マスク部１３２３Ｂが選択した特徴点Ｐ２１と、特徴点マップに含まれる特徴点ＰＲと、をマッチングする。第２特徴点マッチング部１３２３Ｃは、マッチング結果を第２位置姿勢推定部１３２３Ｄに出力する。

（第２位置姿勢推定部１３２３Ｄ）
　第２位置姿勢推定部１３２３Ｄは、第２特徴点マッチング部１３２３Ｃによる特徴点のマッチング結果に基づき、特徴点マップに対する撮像装置（又は、端末装置３００）の位置姿勢情報を推定する。第２位置姿勢推定部１３２３Ｄは、推定した位置姿勢情報を第２フィルタ処理部１３２４に出力する。

［第２フィルタ処理部１３２４］
　第２フィルタ処理部１３２４は、第２ＶＯ処理部１３２２が推定した運動情報、及び、第２ローカライズ処理部１３２３が推定した位置姿勢情報に対してフィルタリングを行って２つの情報を統合し、撮像装置（又は、端末装置３００）の自己位置情報を推定する。第２フィルタ処理部１３２４は、例えば、拡張カルマンフィルタを用いて運動情報及び位置姿勢情報を統合し、自己位置情報を生成する。これにより、情報処理装置１００は、安定して端末装置３００の自己位置を推定することができる。

　第２フィルタ処理部１３２４は、例えば、後段の処理部（図示省略）に、端末装置３００の自己位置の推定結果を出力する。第２フィルタ処理部１３２４が推定した端末装置３００の自己位置は、例えばユーザＵに提示する映像の描画処理や、ユーザＵがプレイエリアＰＡから逸脱しないようにユーザＵを誘導するための処理に使用される。

＜＜３．情報処理例＞＞
＜３．１．マップ生成処理＞
　図１９は、本開示の実施形態に係るマップ生成処理の流れの一例を示すフローチャートである。図１９に示すマップ生成処理は、例えば初めて情報処理システム１を使用する際、又は、ゲーム開始前に情報処理装置１００によって実行される。

　図１９に示すように、情報処理装置１００は、表示装置２００に固定パターン画像を表示させる（ステップＳ１０１）。固定パターン画像は、情報処理装置１００が表示装置２００の表示領域を認識するための認識用画像である。

　次に、情報処理装置１００は、端末装置３００が取得した撮像画像Ｍから特徴点を抽出する（ステップＳ１０２）。情報処理装置１００は、ビジュアルオドメトリ（ＶＯ）を用いて端末装置３００の位置姿勢を運動情報として推定する（ステップＳ１０３）。

　情報処理装置１００は、撮像画像Ｍから固定パターン画像を検出する（ステップＳ１０４）。情報処理装置１００は、撮像画像Ｍから固定パターン画像が検出されたか否かを判定する（ステップＳ１０５）。

　検出されなかった場合（ステップＳ１０５；Ｎｏ）、情報処理装置１００は、ステップＳ１０８に進む。固定パターン画像が検出された場合（ステップＳ１０５；Ｙｅｓ）、情報処理装置１００は、固定パターン画像に基づき、マスク空間Ｓを設定する（ステップＳ１０６）。

　情報処理装置１００は、ステップＳ１０２で抽出した特徴点のうち、ステップＳ１０６で設定したマスク空間Ｓ内の特徴点を削除する（ステップＳ１０７）。

　情報処理装置１００は、特徴点を特徴点マップに保存する（ステップＳ１０８）。情報処理装置１００は、所定の数の特徴点が特徴点マップに保存されたか否かを判定する（ステップＳ１０９）。保存された特徴点の数が所定の数未満である場合（ステップＳ１０９；Ｎｏ）、情報処理装置１００は、ステップＳ１０１に戻る。一方、保存された特徴点の数が所定の数以上である場合（ステップＳ１０９；Ｙｅｓ）、情報処理装置１００は、処理を終了する。

　なお、ここでは、情報処理装置１００は、マップ生成処理を終了するか否かを、登録された特徴点の数に応じて判定するとしたが、これに限定されない。例えば、情報処理装置１００が、所定の領域において、特徴点を特徴点マップに保存したか否かに応じて処理を終了するようにしてもよい。または、情報処理装置１００が、所定の領域において、所定の数の特徴点を特徴点マップに保存したか否かに応じて処理を終了するようにしてもよい。

＜３．２．自己位置推定処理＞
　次に、情報処理装置１００が行う自己位置推定処理について説明する。情報処理装置１００は、自己位置推定処理として、ＶＯ（ビジュアルオドメトリ）処理及びローカライズ処理を実行する。

＜３．２．１．ＶＯ（ビジュアルオドメトリ）処理＞
　図２０は、本開示の実施形態に係るＶＯ処理の流れの一例を示すフローチャートである。図２０に示すＶＯ処理は、情報処理装置１００によって所定の周期でゲーム開始からゲーム終了まで繰り返し実行される。なお、所定の周期は、端末装置３００が撮像画像を取得する周期（フレームレート）と同じであってもよい。

　情報処理装置１００は、記憶部１２０から特徴点マップ及びマスク空間Ｓに関する情報を取得する（ステップＳ２０１）。情報処理装置１００は、端末装置３００が取得した撮像画像Ｍから特徴点を抽出する（ステップＳ２０２）。

　情報処理装置１００は、端末装置３００の画角内にマスク空間Ｓが存在するか否かを判定する（ステップＳ２０３）。情報処理装置１００は、端末装置３００の自己位置（例えば、１フレーム前に推定した自己位置）に基づき、画角内にマスク空間Ｓが存在するか否かを判定する。

　画角内にマスク空間Ｓが存在しない場合（ステップＳ２０３；Ｎｏ）、情報処理装置１００は、ステップＳ２０５に進む。画角内にマスク空間Ｓが存在する場合（ステップＳ２０３；Ｙｅｓ）、情報処理装置１００は、ステップＳ２０２で抽出した特徴点のうち、マスク空間Ｓ内の特徴点を削除する（ステップＳ２０４）。

　情報処理装置１００は、ビジュアルオドメトリ（ＶＯ）を用いて、端末装置３００の位置姿勢を運動情報として推定する（ステップＳ２０５）。

　情報処理装置１００は、ローカライズ処理に使用するキューが空であるか否かを判定する（ステップＳ２０６）。ここで、情報処理装置１００は、キューに保存された撮像画像Ｍを用いてローカライズ処理を行う。従って、キューが空である場合、情報処理装置１００によるローカライズ処理が終了していることを意味し、キューが空でない場合、情報処理装置１００がローカライズ処理を実行していることを意味する。

　キューが空でない、すなわち、ローカライズ処理を実行している場合（ステップＳ２０６；Ｎｏ）、情報処理装置１００は、ステップＳ２０９に進む。キューが空である、すなわち、ローカライズ処理が終了している場合（ステップＳ２０６；Ｙｅｓ）、情報処理装置１００は、キューに撮像画像Ｍを保存する（ステップＳ２０７）。

　情報処理装置１００は、ローカライズ処理の結果である端末装置３００の位置姿勢情報を取得する（ステップＳ２０８）。

　情報処理装置１００は、位置姿勢情報、及び、運動情報の少なくとも一方を用いて、カルマンフィルタのアップデート及びイノベーションを実行し（ステップＳ２０９）、特徴点マップに対する自己位置を取得する（ステップＳ２１０）。情報処理装置１００は、マップ座標系における端末装置３００の自己位置を取得する。

＜３．２．２．ローカライズ処理＞
　図２１は、本開示の実施形態に係るローカライズ処理の流れの一例を示すフローチャートである。図２１に示すローカライズ処理は、情報処理装置１００によってゲーム開始からゲーム終了まで繰り返し実行される。ローカライズ処理には、例えば、数フレームの時間がかかる。

　情報処理装置１００は、記憶部１２０から特徴点マップを取得する（ステップＳ３０１）。情報処理装置１００は、キューに撮像画像Ｍが保存されているか否かを判定する（ステップＳ３０２）。撮像画像Ｍがキューに保存されていない場合（ステップＳ３０２；Ｎｏ）、情報処理装置１００は、ステップＳ３０２に戻り、キューに撮像画像Ｍが保存されるのを待つ。

　撮像画像Ｍがキューに保存されている場合（ステップＳ３０２；Ｙｅｓ）、情報処理装置１００は、キューに保存されている撮像画像Ｍから特徴点を抽出する（ステップＳ３０３）。

　情報処理装置１００は、端末装置３００の画角内にマスク空間Ｓが存在するか否かを判定する（ステップＳ３０４）。情報処理装置１００は、端末装置３００の自己位置に基づき、画角内にマスク空間Ｓが存在するか否かを判定する。

　画角内にマスク空間Ｓが存在しない場合（ステップＳ３０４；Ｎｏ）、情報処理装置１００は、ステップＳ３０６に進む。画角内にマスク空間Ｓが存在する場合（ステップＳ３０４；Ｙｅｓ）、情報処理装置１００は、ステップＳ３０３で抽出した特徴点のうち、マスク空間Ｓ内の特徴点を削除する（ステップＳ３０５）。

　情報処理装置１００は、特徴点マップに登録された特徴点と、撮像画像Ｍに含まれる特徴点と、のマッチングを行う（ステップＳ３０６）。情報処理装置１００は、ローカライズにより、特徴点マップに対する端末装置３００の位置姿勢を位置姿勢情報として推定する（ステップＳ３０７）。

　情報処理装置１００は、ローカライズ処理に使用するキューに保存された撮像画像Ｍを削除して、キューを空にする（ステップＳ３０８）。情報処理装置１００は、ステップＳ３０７で推定した位置姿勢情報を、ローカライズ処理の結果として出力する（ステップＳ３０９）。

　以上のように、本開示の実施形態に係る情報処理装置１００は、撮像画像Ｍを用いて、表示装置２００を含むマスク空間Ｓを算出する。情報処理装置１００は、撮像画像Ｍから抽出した特徴点のうち、算出したマスク空間Ｓ外の空間に対応する特徴点を使用して、特徴点マップの生成や端末装置３００の自己位置推定を行う。

　これにより、情報処理装置１００は、表示装置２００に動画像が表示されている場合でも、より精度よく特徴点マップの生成や端末装置３００の自己位置推定を行うことができる。

　また、情報処理装置１００は、撮像画像Ｍに対する表示装置２００の検出をマップ作成処理の実行時に行う。情報処理装置１００は、自己位置推定処理の実行時に、撮像画像Ｍに対する表示装置２００自体の検出を行わない。情報処理装置１００は、マップ作成処理の実行時に作成したマスク空間Ｓを使用して、自己位置推定処理において、表示装置２００に対応する特徴点を削除する。

　これにより、情報処理装置１００は、自己位置推定処理の実行時に毎フレームにおいて表示装置２００を検出する場合と比較して、処理負荷をより低減することができる。

＜＜４．変形例＞＞
＜４．１．第１変形例＞
　上述した実施形態では、情報処理装置１００が、表示装置２００の表示領域２００Ｒを検出するとしたがこれに限定されない。例えば、情報処理装置１００が、ユーザＵから表示領域２００Ｒに関する情報を取得してもよい。すなわち、情報処理装置１００は、ユーザＵから表示領域２００Ｒの手作業による入力操作を受け付けるようにしてもよい。

　図２２は、本開示の実施形態の第１変形例に係る表示領域２００Ｒの入力の一例について説明するための図である。

　図２２に示すように、ユーザＵは、コントローラ４００を把持しているものとする。コントローラ４００は、表示部３３０を除き、図４に示す端末装置３００と同様の構成を有し得る。すなわち、コントローラ４００は、情報処理装置１００がコントローラ４００の位置姿勢（自己位置）を推定するための情報を取得し得る。情報処理装置１００は、この情報を使用して、コントローラ４００の自己位置を推定する。

　図２２に示すように、ユーザＵは、例えば表示装置２００の四隅（角部）をコントローラ４００でタッチする。情報処理装置１００は、コントローラ４００によるタッチを検出する。情報処理装置１００は、ユーザＵがコントローラ４００でタッチした場所を、表示装置２００の表示領域２００Ｒの頂点（角部Ｃ１～Ｃ４）として検出する。

　図２２の例では、ユーザＵは、表示装置２００の左下の角部をタッチしている。このユーザＵによる操作に基づき、情報処理装置１００は、表示領域２００Ｒの角部Ｃ４を検出する。

　なお、ここでは、ユーザＵが実際のコントローラ４００を用いて表示領域２００Ｒを入力するとしたが、これに限定されない。例えば、ユーザＵが仮想のコントローラ４００Ａを用いて表示領域２００Ｒを入力するようにしてもよい。

　図２３は、本開示の実施形態の第１変形例に係る表示領域２００Ｒの入力の他の例について説明するための図である。

　図２３に示すように、ユーザＵは、コントローラ４００Ａを把持している。ユーザＵが把持するコントローラ４００Ａは、情報処理装置１００によって端末装置３００の表示部３３０に表示される仮想のコントローラである。情報処理装置１００は、例えば、実空間の画像（撮像画像Ｍ）にコントローラ４００Ａを重畳させてユーザＵに提示する。

　ユーザＵは、仮想のコントローラ４００Ａを使用して表示装置２００の四隅をタッチする。これにより、情報処理装置１００は、表示装置２００の表示領域２００Ｒを検出する。

　このように、情報処理装置１００は、仮想のコントローラ４００Ａを使用して表示領域２００Ｒを検出することができる。

　図２２や図２３に示すように、ユーザＵがコントローラ４００を持って表示領域２００Ｒを指定する場合、ユーザＵがプレイエリアＰＡ外に出る可能性がある。例えば、コントローラ４００が短いと、ユーザＵは、プレイエリアＰＡ外に出なければ、表示領域２００Ｒの指定が行えない可能性がある。特に、図２３のように、ユーザＵがＨＭＤ（端末装置３００の一例）を頭部に装着していると、ユーザＵは周囲の状況を認識しにくくなり、プレイエリアＰＡ外にでてもそのことに気付かない恐れがある。

　そこで、情報処理装置１００が、仮想のコントローラ４００Ｂとして、棒状のコントローラを撮像画像に重畳してユーザＵに提示するようにしてもよい。図２４は、本開示の実施形態の第１変形例に係る表示領域２００Ｒの入力の他の例について説明するための図である。

　図２４に示すように、情報処理装置１００は、棒状の仮想コントローラ４００ＢをユーザＵに提示する。ユーザＵは、棒状の仮想コントローラ４００Ｂを使用して表示装置２００の四隅をタッチする。ユーザＵは、棒状の仮想コントローラ４００Ｂの先端でタッチすることができるため、プレイエリアＰＡ外に出ることなく、安全に表示領域２００Ｒの入力を行うことができる。

　なお、ここでは、情報処理装置１００は、棒状の仮想コントローラ４００Ｂを表示するとしたが、これに限定されない。例えば、コントローラ４００に棒状の仮想物体を重畳して表示するようにしてもよい。ユーザＵは、コントローラ４００を操作することで、棒状の仮想物体を操作して表示領域２００Ｒを入力する。

　また、ユーザＵは、情報処理システム１の設置時やゲーム開始時に毎回手入力で表示領域２００Ｒを指定し得る。あるいは、情報処理装置１００による表示領域２００Ｒの検出、表示平面の取得やマスク空間Ｓの算出に失敗した場合、ユーザＵが手動で表示領域２００Ｒを指定するようにしてもよい。

＜４．２．第２変形例＞
　上述した実施形態の情報処理システム１を例えば家庭で使用する場合など、本開示の提案技術を製品に導入する場合、以下に、第２の変形例として説明する方法が、導入リスクを下げる方法として考えられる。

　上述した実施形態の情報処理装置１００が表示装置２００の表示領域２００Ｒに含まれる特徴点を所望の精度で除去するためには、情報処理装置１００がマップ座標系における端末装置３００の自己位置をある程度の精度で推定することが望ましい。

　そこで、本開示の実施形態に係る第２の変形例では、情報処理装置１００が本開示の提案技術とは別の方法でも端末装置３００の自己位置推定を行うものとする。例えば、情報処理装置１００は、別の方法を用いた端末装置３００の自己位置推定を行いつつ、本開示の提案技術の自己位置推定も行う。本開示の提案技術による自己位置の推定精度が、例えば所望の精度を満たす場合、情報処理装置１００は、別の方法による自己位置推定を終了し、本開示の提案技術による自己位置推定に移行する。

　これにより、情報処理装置１００は、所望の精度を満たす自己位置推定を行うことができるようになる。

（自己位置推定の手法）
　まず、本変形例で情報処理装置１００が実施する自己位置の推定手法の概要を説明する。情報処理装置１００は、第１～第３手法の少なくとも１つを用いて自己位置を推定する。

（第１手法）
　第１手法は、情報処理装置１００が毎フレームで表示装置２００の表示領域２００Ｒを認識し、表示領域２００Ｒの特徴点を使用せずに自己位置推定を行う手法である。

　第１手法に関する参考文献として、参考文献１：「“RDS-SLAM:　Real-Time　Dynamic　SLAM　Using　Semantic　Segmentation　Methods”、インターネット<URL:　https://arxiv.org/ftp/arxiv/papers/1809/1809.08379.pdf>」が挙げられる。また、第１手法に関する他の参考文献として、参考文献２：「“DS-SLAM　A　Semantic　Visual　SLAM　towards　Dynamic　Environments”、インターネット<URL:　https://arxiv.org/ftp/arxiv/papepa/1809/1809.08379.pdf>」が挙げられる。

　これらの参考文献では、セマンティックセグメンテーションなどを用いて、人物等の動物体から抽出された特徴点を利用せずに、ビジュアルオドメトリによる自己位置推定や特徴点マップの作成を行う手法が開示されている。

　図２５は、本開示の実施形態の第２変形例に係る第１手法の一例を説明するための図である。情報処理装置１００は、撮像画像Ｍに対して物体の認識処理を実行し、表示装置２００を認識する。情報処理装置１００は、撮像画像Ｍから特徴点Ｐ１、Ｐ２を抽出する。情報処理装置１００は、抽出した特徴点Ｐ１、Ｐ２のうち、認識処理で認識した表示装置２００から抽出した特徴点Ｐ２を削除して、端末装置３００の自己位置を推定する。情報処理装置１００は、この処理を毎フレーム実行する。

　このように、第１手法は、毎フレームにおいて、撮像画像Ｍに対して物体の認識処理を実行し、認識結果に基づいて特徴点を分類する手法である。そのため、第１手法を用いることで、情報処理装置１００は、マップ座標系における端末装置３００の自己位置の推定結果に依存せず、動物体から抽出される特徴点を除去することができる。

　一方、第１手法では、毎フレームにおいて撮像画像Ｍに対する物体の認識処理が行われるため、処理負荷が大きいというデメリットがある。

（第２手法）
　第２手法（第２の推定処理の一例）は、本開示の提案技術を用いた手法である。第２手法では、情報処理装置１００は、マップ作成時に、撮像画像Ｍにおける表示装置２００の表示領域２００Ｒに基づき、マップ座標系におけるマスク空間Ｓを設定する。情報処理装置１００は、自己位置推定時に、マスク空間Ｓを用いて表示装置２００に表示される動画像から抽出される特徴点を除去する。

　第２手法では、情報処理装置１００は、マップ作成時に表示装置２００の認識処理を行い、表示装置２００の表示領域２００Ｒを検出し、マスク空間Ｓを設定する。情報処理装置１００は、自己位置推定時には表示装置２００の認識処理を行わない。そのため、第２手法を用いることで、情報処理装置１００は、自己位置推定時の処理負荷の増加を抑制しつつ、動画像から抽出される特徴点を除去することができる。

　一方、第２手法では、上述したように、所望の精度で特徴点を分類するために、端末装置３００の自己位置を所定の精度で推定することが望まれる。

（第３手法）
　第３手法（第１の推定処理の一例）は、情報処理装置１００が表示装置２００の表示領域２００Ｒの少なくとも一部に所定のパターン画像することで、表示領域２００Ｒにおいて動画像を表示する領域を小さくする手法である。このように、動画像を表示する領域を小さくすることで、情報処理装置１００は、動画像から抽出される特徴点の数を減らすことができ、端末装置３００の自己位置の推定精度の劣化を抑制することができる。

　図２６は、本開示の実施形態の第２変形例に係る第３手法の一例を説明するための図である。

　情報処理装置１００は、表示装置２００の表示領域２００Ｒのうち、パターン表示領域２００Ｍ１に所定のパターン画像を表示させ、動画像表示領域２００Ｍ２に動画像を表示させる。図２６の例では、パターン表示領域２００Ｍ１は、表示領域２００Ｒの周辺領域であり、動画像表示領域２００Ｍ２は、表示領域２００Ｒの中央領域である。すなわち、動画像表示領域２００Ｍ２の周囲にパターン表示領域２００Ｍ１が配置される。

　パターン画像は、固定パターンの静止画像である。動画像が表示される動画像表示領域２００Ｍ２は、表示領域２００Ｒよりも小さい。情報処理装置１００が表示装置２００を含む撮像画像Ｍから特徴点Ｐ１、Ｐ２を抽出すると、表示領域２００Ｒ全てに動画像を表示する場合と比較して、情報処理装置１００が動画像から抽出する特徴点Ｐ２の数が少なくなる。

　そのため、情報処理装置１００が、撮像画像Ｍから抽出した特徴点Ｐ１、Ｐ２を使用して端末装置３００の自己位置を推定しても、推定精度の劣化をある程度抑制することができる。

　第３手法では、情報処理装置１００は、撮像画像Ｍに対して表示装置２００の認識処理を行わないため、処理負荷が小さい。また、第３手法では、動画像から抽出する特徴点Ｐ２の数が少ないため、推定精度はマップ座標系に対して自己位置のずれの影響を受けにくい。

　一方、第３手法では、表示装置２００にパターン画像を表示するため、動画像表示領域２００Ｍ２が小さくなり、表示装置２００に表示できる情報（例えばゲームのプレイ画面など）が限られてしまうという問題がある。

　そこで、本変形例では、上述したように、情報処理装置１００が第２手法に加え、第１又は第３手法を使用して端末装置３００の自己位置推定を行うものとする。

　例えば、プロダクト導入時（例えば、出荷時）、情報処理装置１００は、第３手法を用いて端末装置３００の自己位置を推定するよう設定されているものとする。また、情報処理装置１００は、出荷時から第３手法を用いた推定と同時に、第２手法を用いた端末装置３００の自己位置推定を行うよう設定されているものとする。

　第２手法による自己位置推定の精度が所望の精度を満たす場合、情報処理装置１００は、自己位置推定の手法を第３手法から第２手法に切り替える。

　本変形例に係る情報処理装置１００は、例えば、クラウド上に配置されるサーバ装置５００からの指示に基づいて自己位置推定に使用する手法を切り替える。

［サーバ装置５００］
　図２７は、本開示の実施形態の第２変形例に係るサーバ装置５００について説明するための図である。

　図２７に示すように、サーバ装置５００は、ネットワークＮを介して複数の情報処理装置１００Ａ、１００Ｂ・・・に接続する。サーバ装置５００は、情報処理装置１００Ａ、１００Ｂ・・・を制御する制御装置である。サーバ装置５００は、各情報処理装置１００Ａ、１００Ｂ・・・から、第２手法の実行結果を含む情報を取得する。

　サーバ装置５００は、取得した情報に基づき、情報処理装置１００が第２手法に移行するか否かを判定する。サーバ装置５００は、ネットワークＮを介して判定結果を情報処理装置１００に通知する。

　サーバ装置５００は、例えば、情報処理装置１００が表示領域２００Ｒから特徴点Ｐ２を抽出する抽出精度に応じて自己位置推定の精度が所望の精度を満たすか否かを判定し、判定結果に基づいて第２手法への移行を判断する。

　情報処理装置１００は、サーバ装置５００からの指示に応じた手法を用いて端末装置３００の自己位置を推定する。情報処理装置１００は、サーバ装置５００から第２手法への移行指示を受領すると、表示装置２００へのパターン画像の表示を終了する。

　このように、情報処理装置１００は、第２手法への移行後、パターン画像を表示装置２００に表示する必要がなくなり、表示装置２００の表示領域２００Ｒ全体に情報（例えば、ゲームのプレイ画面）を表示できるようになる。

　図２８は、本開示の実施形態の第２変形例に係るサーバ装置５００の構成例を示すブロック図である。図２８に示すように、サーバ装置５００は、通信部５１０と、記憶部５２０と、制御部５３０と、を含む。

　通信部５１０は、他の装置との間で情報の送受信を行う。通信部５１０は、ネットワークＮを介して情報処理装置１００と通信し得る。

　記憶部５２０は、例えば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　制御部５３０は、サーバ装置５００に内蔵される例えばＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）及びＲＡＭなどを用いて、サーバ装置５００の動作を統括的に制御する。例えば、制御部５３０は、サーバ装置５００内部の記憶装置に記憶されている各種プログラムを、プロセッサがＲＡＭ（Random　Access　Memory）等を作業領域として実行することにより実現される。なお、制御部５３０は、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。ＣＰＵ、ＭＰＵ、ＡＳＩＣ、及びＦＰＧＡは何れもコントローラとみなすことができる。

（サーバ装置５００による判定処理）
　図２９は、本開示の実施形態の第２変形例に係る判定処理の流れの一例を示すフローチャートである。図２９に示す判定処理は、サーバ装置５００によって、例えば周期的に実施される。あるいは、サーバ装置５００は、情報処理装置１００から精度情報を受信した場合に図２９に示す判定処理を実施するようにしてもよい。

　図２９に示すように、サーバ装置５００は、各情報処理装置１００から精度情報を収集する（ステップＳ４０１）。精度情報には、第２手法に関する精度、例えば、マスク空間Ｓを用いた２次元表示領域の認識精度に関する情報が含まれ得る。また、精度情報に、第２手法が実行された環境に関する情報（例えば、部屋の明るさやプレイエリアＰＡの広さ、ゲームの種別、ユーザＵの平均移動速度など）が含まれていてもよい。認識精度の詳細は後述する。

　サーバ装置５００は、第２手法の精度が所望の精度を満たすか否かを判定する（ステップＳ４０２）。例えば、サーバ装置５００は、上述した認識精度と閾値とを比較し、認識精度が閾値以上である場合、所望の精度を満たすと判定する。あるいは、サーバ装置５００は、精度情報に含まれる情報を入力とし、所望の精度を満たすか否かの判定結果を出力とする認識器を用いて判定を行ってもよい。この場合、認識器は、例えば複数の情報処理装置１００から取得した精度情報を用いた機械学習などを用いて生成され得る。

　第２手法の精度が所望の精度を満たしている場合（ステップＳ４０２；Ｙｅｓ）、サーバ装置５００は、第２手法を採用する（ステップＳ４０３）。すなわち、サーバ装置５００は、第３手法から第２手法への移行を決定する。

　第２手法の精度が所望の精度を満たしていない場合（ステップＳ４０２；Ｎｏ）、サーバ装置５００は、第３手法を採用する（ステップＳ４０４）。すなわち、サーバ装置５００は、第３手法の継続を決定する。

（情報処理装置１００による手法取得処理）
　図３０は、本開示の実施形態の第２変形例に係る手法取得処理の流れの一例を示すフローチャートである。図３０に示す手法取得処理は、情報処理装置１００によって、例えばゲーム開始時に実施される。あるいは、情報処理装置１００は、所定の周期で手法取得処理を実施するようにしてもよい。

　図３０に示すように、情報処理装置１００は、自己位置推定に使用する手法をサーバ装置５００に問い合わせる（ステップＳ５０１）。次に、情報処理装置１００は、問い合わせ結果、使用する手法としてサーバ装置５００が第２手法を採用したか否かを判定する（ステップＳ５０２）。

　第２手法が採用されている場合（ステップＳ５０２；Ｙｅｓ）、情報処理装置１００は、第２手法を実行する（ステップＳ５０３）。すなわち、情報処理装置１００は、第２手法を用いて端末装置３００の自己位置を推定する。より具体的には、情報処理装置１００は、例えば、図１９～図２１を用いて説明した処理を実行する。

　第２手法が採用されず、第３手法が採用されている場合（ステップＳ５０２；Ｎｏ）、情報処理装置１００は、第３手法及び第２手法を実行する（ステップＳ５０４）。すなわち、情報処理装置１００は、第３手法を用いて端末装置３００の自己位置を推定しつつ、第２手法を実行する。より具体的には、情報処理装置１００は、例えば、図１９～図２１を用いて説明した処理を実行し、同時に次に図３１及び図３２を用いて説明する処理を実行する。

　以下、図３１及び図３２を用いて、情報処理装置１００が第３手法及び第２手法の両方を用いて自己位置推定処理を行う場合について説明する。情報処理装置１００は、第３手法で使用する特徴点マップは、第２手法と同様にして生成し得る。あるいは、情報処理装置１００が、第２手法を用いて作成した特徴点マップを使用して、第３手法による自己位置推定処理を行うようにしてもよい。

（第３手法によるＶＯ（ビジュアルオドメトリ）処理）
　図３１は、本開示の実施形態の第２変形例に係るＶＯ処理の流れの一例を示すフローチャートである。図３１のＶＯ処理は、情報処理装置１００によって所定の周期でゲーム開始からゲーム終了まで繰り返し実行される。なお、所定の周期は、端末装置３００が撮像画像を取得する周期（フレームレート）と同じであってもよい。なお、図２０と同じ処理については同一符号を付し、説明を省略する。

　情報処理装置１００は、ステップＳ２０３で、画角内にマスク空間Ｓが存在しないと判定すると（ステップＳ２０３；Ｎｏ）、ステップＳ６０６に進む。情報処理装置１００は、画角内にマスク空間Ｓが存在すると判定すると（ステップＳ２０３；Ｙｅｓ）、パターン画像をチェックするか否かを判定する（ステップＳ６０１）。情報処理装置１００は、例えば、数フレームに１回など、所定の周期でパターン画像をチェックし得る。

　パターン画像をチェックしない場合（ステップＳ６０１；Ｎｏ）、情報処理装置１００は、ステップＳ６０６に進む。パターン画像をチェックする場合（ステップＳ６０１；Ｙｅｓ）、情報処理装置１００は、撮像画像Ｍからパターン表示領域２００Ｍ１（図２６参照）を検出する（ステップＳ６０２）。情報処理装置１００は、撮像画像Ｍからパターン画像を検出することでパターン表示領域２００Ｍ１を検出する。

　図３１に示すように、情報処理装置１００は、パターン画像が、マスク領域Ｓ２（図１６参照）に含まれるか否かを判定する（ステップＳ６０３）。情報処理装置１００は、マスク空間Ｓを撮像画像Ｍに投影することでマスク領域Ｓ２を算出する。情報処理装置１００は算出したマスク領域Ｓ２にパターン画像が含まれるか否かを判定する。

　図３１に示すように、パターン画像がマスク領域Ｓ２に含まれている場合（ステップＳ６０３；Ｙｅｓ）、情報処理装置１００は、マスク領域Ｓ２の算出に成功したとして、成功回数をインクリメントする（ステップＳ６０４）。

　パターン画像がマスク領域Ｓ２に含まれていない場合（ステップＳ６０３；Ｎｏ）、情報処理装置１００は、マスク領域Ｓ２の算出に失敗したとして、失敗回数をインクリメントする（ステップＳ６０５）。

　次に、情報処理装置１００は、ビジュアルオドメトリによる位置姿勢を推定する（ステップＳ６０６）。ここでの処理は、情報処理装置１００が、撮像画像Ｍから抽出した特徴点Ｐ１、Ｐ２を全て使用して位置姿勢を推定する点を除き、図２０のステップＳ２０５の処理と同じである。このように、情報処理装置１００は、第３手法として動画像から抽出した特徴点Ｐ２（図２６参照）も使用して位置姿勢を推定する。

　図３１に示すように、ステップＳ２１０で特徴点マップに対する自己位置を取得した情報処理装置１００は、ゲームが終了したか否かを判定する（ステップＳ６０７）。ゲームが終了していない場合（ステップＳ６０７；Ｎｏ）、情報処理装置１００は、処理を終了する。

　ゲームが終了した場合（ステップＳ６０７；Ｙｅｓ）、情報処理装置１００は、マスク領域Ｓ２の算出に成功した回数及び失敗回数を認識精度としてサーバ装置５００に送信する（ステップＳ６０８）。また、情報処理装置１００は、認識精度に加え、周辺環境等に関する環境情報を含めて精度情報としてサーバ装置５００に送信し得る。

　なお、ここでは、情報処理装置１００が、マスク領域Ｓ２の算出に成功した回数及び失敗回数をサーバ装置５００に送信するとしたが、これに限定されない。例えば、情報処理装置１００が、成功した回数の割合又は失敗した回数の割合を認識精度として、サーバ装置５００に送信してもよい。

　あるいは、情報処理装置１００は、成功及び失敗の回数の代わりに、マスク領域Ｓ２とパターン画像とのずれ具合を認識精度として算出するようにしてもよい。例えば、情報処理装置１００は、マスク領域Ｓ２からはみ出しているパターン画像の面積を算出し、面積の平均値を認識精度としてサーバ装置５００に送信し得る。

　このように、情報処理装置１００は、マスク領域Ｓ２の算出精度を求めることで、特徴点Ｐ２の削除精度、換言すると、端末装置３００の自己位置の推定精度を求めることができる。これは、情報処理装置１００が、マスク領域Ｓ２の算出精度が、表示領域２００Ｒから抽出した特徴点Ｐ２を削除する精度に影響を与えるからである。自己位置推定に悪影響を与える可能性がある特徴点Ｐ２を削除する精度は、端末装置３００の自己位置の推定精度に影響を与える。

　そこで、情報処理装置１００が、マスク領域Ｓ２の算出精度（認識精度）をサーバ装置５００に通知することで、サーバ装置５００は、当該認識精度に基づき、第２手法による自己位置の推定精度が所望の精度を満たしているか否かを判定することができる。

（第３手法によるローカライズ処理）
　図３２は、本開示の実施形態の第２変形例に係るローカライズ処理の流れの一例を示すフローチャートである。図３２のローカライズ処理は、情報処理装置１００によってゲーム開始からゲーム終了まで繰り返し実行される。ローカライズ処理には、例えば、数フレームの時間がかかる。なお、図２１と同じ処理については同一符号を付し、説明を省略する。

　図３２に示すように、ステップＳ３０３で撮像画像Ｍから特徴点Ｐ１、Ｐ２を抽出した情報処理装置１００は、抽出した特徴点Ｐ１、Ｐ２を、特徴点マップ上の特徴点とマッチングする（ステップＳ７０１）。情報処理装置１００は、特徴点マップに対する位置姿勢を推定する（ステップＳ７０２）。

　ステップＳ７０１、７０２の処理は、情報処理装置１００が、撮像画像Ｍから抽出した特徴点Ｐ１、Ｐ２を全て使用して位置姿勢を推定する点を除き、図２１のステップＳ３０６、Ｓ３０７の処理と同じである。このように、情報処理装置１００は、第３手法として動画像から抽出した特徴点Ｐ２（図２６参照）も使用して位置姿勢を推定する。

　以上のように、本変形例に係る情報処理装置１００は、まず、第２手法に加え、第１又は第３手法を使用して端末装置３００の自己位置推定を行う。第２手法による自己位置推定の精度が所望の精度を満たす場合、情報処理装置１００は、自己位置推定の手法を第３手法から第２手法に切り替える。

　これにより、情報処理装置１００は、処理負荷の増加を抑制しつつ、所望の精度を満たす精度で端末装置３００の自己位置を推定することができる。

　なお、ここでは、情報処理装置１００が、製品導入時に第３手法を用いて端末装置３００の自己位置を推定するとしたが、これに限定されない。情報処理装置１００が第３手法に代えて第１手法を用いて端末装置３００の自己位置推定を行うようにしてもよい。

　上述したように、第１手法は情報処理装置１００の処理負荷が高いが、自己位置の推定精度が高い。例えば、製品導入時からより精度の高い自己位置推定が求められる場合、情報処理装置１００は、第３手法の代わりに第１手法を用い得る。情報処理装置１００は、第１手法を用いて端末装置３００の自己位置を推定しつつ、第２手法の推定精度が所望の精度以上になった場合、第１手法から第２手法に移行する。これにより、情報処理装置１００は、より精度の高い自己位置推定を行いつつ、処理負荷の増加をより低減することができる。

＜＜５．その他の実施形態＞＞
　上述の実施形態及び各変形例は一例を示したものであり、種々の変更及び応用が可能である。

　例えば、本実施形態の情報処理装置１００の少なくとも一部の機能を端末装置３００が実現するようにしてもよい。例えば、端末装置３００が、マップ生成処理を実行するようにしてもよく、端末装置３００の自己位置推定処理を実行するようにしてもよい。また、情報処理装置１００がマップ生成処理を実行し、端末装置３００が自己位置推定処理を行うなど、情報処理装置１００と端末装置３００とがそれぞれ処理を分けて各処理を実行するようにしてもよい。

　上述の実施形態では、情報処理システム１が、例えばゲームサービスをユーザＵに提供するシステムであるとしたが、これに限定されない。例えば、情報処理システム１が自動運転システムであってもよい。この場合、例えば、端末装置３００が、車両やドローン等の移動物体であり、情報処理装置１００が移動物体の自己位置を推定する。

　例えば、上述の動作を実行するための通信プログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布する。そして、例えば、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成する。このとき、制御装置は、情報処理装置１００、端末装置３００及びサーバ装置５００の外部の装置（例えば、パーソナルコンピュータ）であってもよい。また、制御装置は、情報処理装置１００、端末装置３００及びサーバ装置５００の内部の装置（例えば、制御部１３０、３５０、５３０）であってもよい。

　また、上記通信プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、ＯＳ（Operating　System）とアプリケーションソフトとの協働により実現してもよい。この場合には、ＯＳ以外の部分を媒体に格納して配布してもよいし、ＯＳ以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。

　また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のシーケンス図に示された各ステップは、適宜順序を変更することが可能である。

　また、例えば、本実施形態は、装置又はシステムを構成するあらゆる構成、例えば、システムＬＳＩ（Large　Scale　Integration）等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等（すなわち、装置の一部の構成）として実施することもできる。

　なお、本実施形態において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、本実施形態は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

＜＜６．ハードウェア構成＞＞
　上述してきた各実施形態に係る情報処理装置１００等の情報処理装置は、例えば図３３に示すような構成のコンピュータ１０００によって実現される。以下、本開示の実施形態に係る情報処理装置１００を例に挙げて説明する。図３３は、本開示の実施形態に係る情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インターフェイス１５００、及び、入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に保存されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に保存されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を保存する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理方法のためのプログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、コンピュータ読み取り可能な所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ-Ｏｐｔｉｃａｌ　ｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が本開示の実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０等の機能を実現する。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置から情報処理プログラムを取得してもよい。

　また、本実施形態に係る情報処理装置１００は、例えばクラウドコンピューティング等のように、ネットワークへの接続（または各装置間の通信）を前提とした、複数の装置からなるシステムに適用されてもよい。つまり、上述した本実施形態に係る情報処理装置１００は、例えば、複数の装置により本実施形態に係る情報処理システム１として実現することも可能である。

　以上、情報処理装置１００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜＜７．むすび＞＞
　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得し、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成し、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定する、制御部、
　を備える情報処理装置。
（２）
　前記制御部は、前記画像から抽出した前記特徴点のうち、前記表示領域に含まれない前記特徴点に基づき、前記３次元特徴点マップを生成する、（１）に記載の情報処理装置。
（３）
　前記制御部は、３次元空間における前記表示領域を含む空間を前記３次元マスク領域として設定する、（１）又は（２）に記載の情報処理装置。
（４）
　前記制御部は、
　前記画像の前記表示領域に含まれる少なくとも３つの前記特徴点から前記３次元空間において前記表示領域を含む表示平面を算出し、
　前記撮像装置から前記画像の前記表示領域の角部へ向かうベクトルと、前記表示平面と、の交点に基づき、前記表示平面における前記表示領域を算出し、
　前記表示領域を３方向に膨張させた領域を前記３次元マスク領域として設定する、
　（３）に記載の情報処理装置。
（５）
　前記制御部は、前記画像から抽出した複数の前記特徴点のうち、前記３次元マスク領域外の領域に対応する前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記制御部は、
　前記撮像装置の前記位置及び前記姿勢の少なくとも一方、及び、前記３次元マスク領域に基づき、前記撮像装置が撮像する前記画像のうち前記３次元マスク領域に対応する２次元マスク領域を算出し、
　前記画像のうち、前記２次元マスク領域外の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、（５）に記載の情報処理装置。
（７）
　前記制御部は、表示に表示された所定の画像を検出することで、前記表示領域を取得する、（１）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記制御部は、ユーザから前記表示領域の指定を受け付ける、（１）～（６）のいずれか１つに記載の情報処理装置。
（９）
　前記制御部は、
　前記表示領域の第１領域に所定のパターン画像を表示させ、
　前記撮像装置が撮像した前記画像から抽出した複数の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、
　（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記制御部は、制御装置からの指示に基づき、前記所定のパターン画像を表示させて、前記撮像装置が撮像した前記画像から抽出した複数の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する第１の推定処理、及び、前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定する第２の推定処理の少なくとも１つを実行する、（９）に記載の情報処理装置。
（１１）
　前記制御部は、
　前記撮像装置の前記位置及び前記姿勢の少なくとも一方、及び、前記３次元マスク領域に基づき、前記撮像装置が撮像する前記画像のうち前記３次元マスク領域に対応する２次元マスク領域を算出し、
　前記表示領域に表示される前記所定のパターン画像を検出し、
　前記所定のパターン画像が前記２次元マスク領域に含まれるか否かを判定した判定結果を、前記制御装置に通知する、
　（１０）に記載の情報処理装置。
（１２）
　前記制御装置は、前記判定結果に応じて、前記第１の推定処理及び前記第２の推定処理のうち前記制御部が実行する推定処理を決定し、決定結果を前記制御部に通知する、（１１）に記載の情報処理装置。
（１３）
　前記撮像装置は、ユーザの頭部に装着される機器に搭載される、（１）～（１２）のいずれか１つに記載の情報処理装置。
（１４）
　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得することと、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成することと、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定することと、
　を含む情報処理方法。
（１５）
　コンピュータに、
　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得させ、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成させ、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定させる、
　プログラム。

　１　情報処理システム
　１００　情報処理装置
　１１０，３１０，５１０　通信部
　１２０，５２０　記憶部
　１３０，３５０，５３０　制御部
　１３１　マップ生成部
　１３２　自己位置推定部
　２００　表示装置
　２２０，３２０　センサ部
　３００　端末装置
　３３０　表示部
　３４０　入力部
　４００　コントローラ
　５００　サーバ装置

Claims

　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得し、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成し、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定する、制御部、
　を備える情報処理装置。
　前記制御部は、前記画像から抽出した前記特徴点のうち、前記表示領域に含まれない前記特徴点に基づき、前記３次元特徴点マップを生成する、請求項１に記載の情報処理装置。
　前記制御部は、３次元空間における前記表示領域を含む空間を前記３次元マスク領域として設定する、請求項１に記載の情報処理装置。
　前記制御部は、
　前記画像の前記表示領域に含まれる少なくとも３つの前記特徴点から前記３次元空間において前記表示領域を含む表示平面を算出し、
　前記撮像装置から前記画像の前記表示領域の角部へ向かうベクトルと、前記表示平面と、の交点に基づき、前記表示平面における前記表示領域を算出し、
　前記表示領域を３方向に膨張させた領域を前記３次元マスク領域として設定する、
　請求項３に記載の情報処理装置。
　前記制御部は、前記画像から抽出した複数の前記特徴点のうち、前記３次元マスク領域外の領域に対応する前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、請求項１に記載の情報処理装置。
　前記制御部は、
　前記撮像装置の前記位置及び前記姿勢の少なくとも一方、及び、前記３次元マスク領域に基づき、前記撮像装置が撮像する前記画像のうち前記３次元マスク領域に対応する２次元マスク領域を算出し、
　前記画像のうち、前記２次元マスク領域外の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、請求項５に記載の情報処理装置。
　前記制御部は、表示に表示された所定の画像を検出することで、前記表示領域を取得する、請求項１に記載の情報処理装置。
　前記制御部は、ユーザから前記表示領域の指定を受け付ける、請求項１に記載の情報処理装置。
　前記制御部は、
　前記表示領域の第１領域に所定のパターン画像を表示させ、
　前記撮像装置が撮像した前記画像から抽出した複数の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する、
　請求項１に記載の情報処理装置。
　前記制御部は、制御装置からの指示に基づき、前記所定のパターン画像を表示させて、前記撮像装置が撮像した前記画像から抽出した複数の前記特徴点に基づき、前記撮像装置の前記位置及び前記姿勢の少なくとも一方を推定する第１の推定処理、及び、前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定する第２の推定処理の少なくとも１つを実行する、請求項９に記載の情報処理装置。
　前記制御部は、
　前記撮像装置の前記位置及び前記姿勢の少なくとも一方、及び、前記３次元マスク領域に基づき、前記撮像装置が撮像する前記画像のうち前記３次元マスク領域に対応する２次元マスク領域を算出し、
　前記表示領域に表示される前記所定のパターン画像を検出し、
　前記所定のパターン画像が前記２次元マスク領域に含まれるか否かを判定した判定結果を、前記制御装置に通知する、
　請求項１０に記載の情報処理装置。
　前記制御装置は、前記判定結果に応じて、前記第１の推定処理及び前記第２の推定処理のうち前記制御部が実行する推定処理を決定し、決定結果を前記制御部に通知する、請求項１１に記載の情報処理装置。
　前記撮像装置は、ユーザの頭部に装着される機器に搭載される、請求項１に記載の情報処理装置。
　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得することと、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成することと、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定することと、
　を含む情報処理方法。
　コンピュータに、
　撮像装置によって撮像された画像に含まれる表示装置の表示領域を取得させ、
　取得した前記表示領域に基づき、３次元マスク領域及び３次元特徴点マップを生成させ、
　前記３次元マスク領域及び前記３次元特徴点マップの少なくとも一方、及び、前記撮像装置によって撮像された前記画像から抽出した特徴点を用いて、前記撮像装置の位置及び姿勢の少なくとも一方を推定させる、
　プログラム。