WO2023238678A1

WO2023238678A1 - 情報処理装置、コントローラ表示方法およびコンピュータプログラム

Info

Publication number: WO2023238678A1
Application number: PCT/JP2023/019468
Authority: WO
Inventors: 雅則野村; ゆりか村瀬; 京鈴木; 祥次渡邊; 静華小原; 翔威米富
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2022-06-06
Filing date: 2023-05-25
Publication date: 2023-12-14
Also published as: JP2023178798A

Abstract

撮影画像取得部２１２は、ヘッドマウントディスプレイ（ＨＭＤ１００）を装着したユーザの正面方向を撮影した撮影画像を取得する。推定処理部２３０は、ユーザが湾曲部に手を差し入れて把持部を把持すべきコントローラ（入力デバイス１６）が映る撮影画像に基づいて、入力デバイス１６の位置を推定する。表示制御部２７６は、ユーザの正面方向を撮影した撮影画像をＨＭＤ１００に表示させる。表示制御部２７６は、入力デバイス１６の位置の推定結果に基づいて、撮影画像とともに、ユーザが把持すべき箇所を示唆するオブジェクトをさらに表示させる。

Description

情報処理装置、コントローラ表示方法およびコンピュータプログラム

　本発明は、情報処理装置、コントローラ表示方法およびコンピュータプログラムに関する。

　ヘッドマウントディスプレイを装着したユーザが対象空間を自由な視点から鑑賞できる画像表示システムが普及している。例えば仮想３次元空間を表示対象とし、ユーザの視線方向に応じた画像がヘッドマウントディスプレイに表示されるようにすることで仮想現実（Virtual Reality：ＶＲ）を実現する電子コンテンツ（以下「ＶＲコンテンツ」とも呼ぶ。）が知られている。ヘッドマウントディスプレイを利用することで、映像への没入感を高めたり、ゲーム等のアプリケーションの操作性を向上させたりすることもできる。

　また、ヘッドマウントディスプレイを装着したユーザが物理的に移動することで、ＶＲコンテンツとして表示された空間内を仮想的に歩き回ることのできるウォークスルーシステムも開発されている。また、ヘッドマウントディスプレイに内蔵されたカメラで撮影した周囲の実世界の映像に３次元コンテンツを重ねて表示するビデオシースルーも実現されている。

　ヘッドマウントディスプレイを使用するユーザは、コントローラを手に持たずにヘッドマウントディスプレイを装着し、ヘッドマウントディスプレイ装着後にコントローラを手に持とうとすることがある。この場合、ユーザは、ヘッドマウントディスプレイのカメラで撮影された周囲の映像を見ることができるが、ユーザがコントローラの形状に慣れるまではコントローラをどう持てばよいか分からないことがある。

　本発明の１つの目的は、ヘッドマウントディスプレイを装着したユーザがコントローラを正しく把持できるよう支援する技術を提供することにある。

　上記課題を解決するために、本発明のある態様の情報処理装置は、ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得する撮影画像取得部と、ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、コントローラの位置を推定する推定部と、ユーザの前方を撮影した撮影画像をヘッドマウントディスプレイに表示させる表示制御部とを備える。表示制御部は、コントローラの位置の推定結果に基づいて、撮影画像とともに、ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる。

　本発明の別の態様は、コントローラ表示方法である。この方法は、ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得するステップと、ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、コントローラの位置を推定するステップと、ユーザの前方を撮影した撮影画像をヘッドマウントディスプレイに表示させるステップとをコンピュータが実行する。表示させるステップは、コントローラの位置の推定結果に基づいて、撮影画像とともに、ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる。

　なお、以上の構成要素の任意の組合せ、本発明の表現をシステム、コンピュータプログラム、コンピュータプログラムを読み取り可能に記録した記録媒体、データ構造などの間で変換したものもまた、本発明の態様として有効である。

実施例における情報処理システムの構成例を示す図である。ＨＭＤの外観形状の例を示す図である。ＨＭＤの機能ブロックを示す図である。図４（ａ）は左手用の入力デバイスの形状を示す図であり、図４（ｂ）は右手用の入力デバイスの形状を示す図である。右手用の入力デバイスの形状を示す図である。入力デバイスを撮影した画像の一部の例を示す図である。入力デバイスの機能ブロックを示すブロック図である。情報処理装置の機能ブロックを示すブロック図である。位置姿勢推定処理を示すフローチャートである。推定処理部の内部構成を示す図である。カメラＡＲ映像におけるガイド表示の遷移例を示す図である。カメラＡＲ映像の例を示す図である。カメラＡＲ映像の例を示す図である。カメラＡＲ映像の例を示す図である。カメラＡＲ映像の例を示す図である。

　ヘッドマウントディスプレイにＶＲコンテンツを表示する情報処理システムの初期設定フローでは、その序盤に、情報処理装置（ゲーム機等）とコントローラ（実施例では「入力デバイス」とも呼ぶ。）をペアリングする。ヘッドマウントディスプレイは、ＶＲヘッドセットとも言え、以下「ＨＭＤ」とも呼ぶ。ペアリングの時点で、コントローラは、電源オンの状態、言い換えれば、バッテリー等の電源から電力が供給される状態になる。ペアリング後、ユーザは、コントローラを手に持たずにＨＭＤを頭部に装着し、また、各種調整を行う。そして初期設定フローの終盤に、ユーザは、コントローラを手に持って、ＨＭＤを装着したユーザが移動可能なプレイエリアの編集に関する操作を行う。

　プレイエリアの編集のためにコントローラを手に持とうとするとき、ユーザは、ＨＭＤのカメラで撮影された周囲の実世界の映像を見ることができる。しかし、慣れていないユーザにとって、ＨＭＤのカメラで撮影された映像を頼りにコントローラを見つけ、また、コントローラの姿勢を正しく判断してコントローラを正しく把持することは容易でない。

　そこで、実施例の情報処理システムでは、ＨＭＤのカメラで撮影された映像に、コントローラを正しく把持できるよう支援する情報を付加してユーザに提示する。具体的には、コントローラを正しく把持できるよう支援する情報として、撮影画像に映るコントローラの把持部の近傍に、把持すべき箇所であることを示唆するオブジェクトを付加する。実施例では、コントローラは、把持部に加えてユーザが手を差し入れるための湾曲部を備え、コントローラを正しく把持できるよう支援する情報として、撮影画像に映るコントローラの湾曲部の近傍に、手を差し入れるべき箇所であることを示唆するオブジェクトを付加する。これにより、ＨＭＤを装着したユーザがコントローラを正しく把持できるよう支援する。

　図１は、実施例における情報処理システム１の構成例を示す。情報処理システム１は、情報処理装置１０と、記録装置１１と、ＨＭＤ１００と、ユーザが持って手指で操作する入力デバイス１６と、画像および音声を出力する出力装置１５とを備える。出力装置１５はテレビであってよい。情報処理装置１０は、アクセスポイント（ＡＰ）１７を介して、インターネットなどの外部のネットワーク２に接続される。ＡＰ１７は無線アクセスポイントおよびルータの機能を有し、情報処理装置１０はＡＰ１７とケーブルで接続してもよく、既知の無線通信プロトコルで接続してもよい。

　記録装置１１は、システムソフトウェアや、ゲームソフトウェアなどのアプリケーションを記録する。情報処理装置１０は、コンテンツサーバからネットワーク２経由で、ゲームソフトウェアなどの様々なアプリケーションを記録装置１１にダウンロードしてよい。情報処理装置１０は、様々なアプリケーションを実行して、出力対象のアプリケーションの画像データおよび音声データ（ＶＲコンテンツのデータとも言える）をＨＭＤ１００に供給する。情報処理装置１０とＨＭＤ１００とは既知の無線通信プロトコルで接続されてもよく、またケーブルで接続されてもよい。

　ＨＭＤ１００は、ユーザが頭部に装着することによりその眼前に位置する表示パネルに画像を表示する表示装置である。ＨＭＤ１００は、左目用表示パネルに左目用の画像を、右目用表示パネルに右目用の画像を、それぞれ別個に表示する。これらの画像は左右の視点から見た視差画像を構成し、立体視を実現する。ユーザは光学レンズを通して表示パネルを見るため、情報処理装置１０は、レンズによる光学歪みを補正した視差画像データをＨＭＤ１００に供給する。

　ＨＭＤ１００を装着したユーザにとって出力装置１５は必要ないが、出力装置１５を用意することで、別のユーザが出力装置１５の表示画像を見ることができる。情報処理装置１０は、ＨＭＤ１００を装着したユーザが見ている画像と同じ画像を出力装置１５に表示させてもよいが、別の画像を表示させてもよい。例えば、ＨＭＤ１００を装着したユーザと、別のユーザとが一緒にゲームをプレイするような場合、出力装置１５からは、当該別のユーザのキャラクタ視点からのゲーム画像が表示されてもよい。

　情報処理装置１０と入力デバイス１６とは既知の無線通信プロトコルで接続されてよく、またケーブルで接続されてもよい。入力デバイス１６は操作ボタンなどの複数の操作部材を備え、ユーザは入力デバイス１６を把持しながら、手指で操作部材を操作する。情報処理装置１０がゲームを実行する際、入力デバイス１６は、ゲームコントローラとして利用される。例えば、入力デバイス１６は、ゲームの進行に関するユーザの操作が操作部材に入力され、その操作情報を情報処理装置１０に伝達して、ユーザの操作をゲームに反映させる。変形例として、入力デバイス１６は、ＨＭＤ１００と通信し、ＨＭＤ１００の動作を制御するコントローラであってもよい。

　入力デバイス１６は、３軸の加速度センサおよび３軸の角速度センサを含む慣性計測装置（ＩＭＵ：Inertial Measurement Unit）を備える。入力デバイス１６は、ＩＭＵにより計測されたセンサデータを所定の周期（たとえば８００Ｈｚ）で情報処理装置１０に送信する。

　実施例のゲームは、入力デバイス１６の操作部材の操作情報だけでなく、入力デバイス１６の位置、速度、姿勢などを操作情報として取り扱って、仮想３次元空間内におけるプレイヤキャラクタの動きに反映する。たとえば操作部材の操作情報は、プレイヤキャラクタを移動させるための情報として利用され、入力デバイス１６の位置、速度、姿勢などの操作情報は、プレイヤキャラクタの腕を動かすための情報として利用されてよい。ゲーム内の戦闘シーンにおいて、入力デバイス１６の動きが、武器をもつプレイヤキャラクタの動きに反映されることで、ユーザの直観的な操作が実現され、ゲームへの没入感が高められる。

　入力デバイス１６の位置および姿勢をトラッキングするために、入力デバイス１６には、撮像装置１４によって撮影可能な複数のマーカ（光出射部）が設けられる。情報処理装置１０は、入力デバイス１６を撮影した画像を解析して、実空間における入力デバイス１６の位置および姿勢を推定する機能（以下、「第１推定機能」とも呼ぶ）を備える。

　ＨＭＤ１００には、複数の撮像装置１４が搭載される。複数の撮像装置１４は、それぞれの撮影範囲を足し合わせた全体の撮影範囲がユーザの視野の全てを含むように、ＨＭＤ１００の前面の異なる位置に異なる姿勢で取り付けられる。撮像装置１４は、入力デバイス１６の複数のマーカの像を取得できるイメージセンサを備える。たとえばマーカが可視光を出射する場合、撮像装置１４はＣＣＤ（Charge Coupled Device）センサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサなど、一般的なデジタルビデオカメラで利用されている可視光センサを有する。マーカが非可視光を出射する場合、撮像装置１４は非可視光センサを有する。

　複数の撮像装置１４は同期したタイミングで、ユーザの前方を所定の周期（たとえば１２０フレーム／秒）で撮影し、実空間を撮影した画像（以下「撮影画像」とも呼ぶ。）のデータを情報処理装置１０に送信する。実施例の撮影画像は、ＨＭＤ１００を装着したユーザの正面方向（ユーザの顔が向いた方向）の実空間を撮影した画像である。

　情報処理装置１０は第１推定機能を実施して、撮影画像に含まれる入力デバイス１６の複数のマーカ像の位置を特定する。なお１つの入力デバイス１６が同じタイミングで複数の撮像装置１４に撮影されることもあるが、撮像装置１４の取付位置および取付姿勢は既知であるため、情報処理装置１０は複数の撮影画像を合成して、マーカ像の位置を特定してよい。

　入力デバイス１６の３次元形状と、その表面に配置された複数のマーカの位置座標は既知であり、情報処理装置１０は、撮影画像内の複数のマーカ像の位置座標にもとづいて、入力デバイス１６の実空間における位置および姿勢を推定する。入力デバイス１６の位置は、基準位置を原点とした３次元空間におけるワールド座標における座標値として推定されてもよく、基準位置はゲーム開始前に設定した位置座標（緯度、経度、高度（標高））であってよい。また、入力デバイス１６の姿勢は、予め定められた基準姿勢に対する３軸のそれぞれにおける傾きや角度で表現されてもよい。

　実施例の情報処理装置１０は、入力デバイス１６から送信されるセンサデータを解析して、実空間における入力デバイス１６の位置および姿勢を推定する機能（以下、「第２推定機能」とも呼ぶ）を備える。情報処理装置１０は、第１推定機能による推定結果と、第２推定機能による推定結果を用いて、入力デバイス１６の位置および姿勢を導出する。実施例の情報処理装置１０は、カルマンフィルタを用いた状態推定技術を利用して、第１推定機能による推定結果と第２推定機能による推定結果とを統合することで、現在時刻における入力デバイス１６の状態を高精度に推定する。

　図２は、ＨＭＤ１００の外観形状の例を示す。ＨＭＤ１００は、出力機構部１０２および装着機構部１０４から構成される。装着機構部１０４は、ユーザが被ることにより頭部を一周してＨＭＤ１００を頭部に固定する装着バンド１０６を含む。装着バンド１０６はユーザの頭囲に合わせて長さの調節が可能な素材または構造をもつ。

　出力機構部１０２は、ＨＭＤ１００をユーザが装着した状態において左右の目を覆う形状の筐体１０８を含み、内部には装着時に目に正対する表示パネルを備える。表示パネルは液晶パネルや有機ＥＬパネルなどであってよい。筐体１０８内部にはさらに、表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大する左右一対の光学レンズが備えられる。ＨＭＤ１００はさらに、ユーザの耳に対応する位置にスピーカーやイヤホンを備えてよく、外付けのヘッドホンが接続されるように構成されてもよい。

　筐体１０８の前方側外面には、複数の撮像装置１４として、撮像装置１４ａ、１４ｂ、１４ｃ、１４ｄが備えられる。ユーザの顔正面方向を基準として、撮像装置１４ａは、カメラ光軸が右斜め上を向くように前方側外面の右上隅に取り付けられ、撮像装置１４ｂは、カメラ光軸が左斜め上を向くように前方側外面の左上隅に取り付けられ、撮像装置１４ｃは、カメラ光軸が右斜め下を向くように前方側外面の右下隅に取り付けられ、撮像装置１４ｄは、カメラ光軸が左斜め下を向くように前方側外面の左下隅に取り付けられる。このように複数の撮像装置１４が設置されることで、それぞれの撮影範囲を足し合わせた全体の撮影範囲がユーザの視野の全てを含む。このユーザの視野は、３次元仮想空間におけるユーザの視野であってよい。

　ＨＭＤ１００は、ＩＭＵ（慣性計測装置）が検出したセンサデータおよび撮像装置１４が撮影した画像データを情報処理装置１０に送信し、また情報処理装置１０で生成されたゲーム画像データおよびゲーム音声データを受信する。

　図３は、ＨＭＤ１００の機能ブロックを示す。制御部１２０は、画像データ、音声データ、センサデータなどの各種データや、命令を処理して出力するメインプロセッサである。制御部１２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）を備えてもよい。記憶部１２２は、制御部１２０が処理するデータや命令などを一時的に記憶する。ＩＭＵ１２４は、ＨＭＤ１００の動きに関するセンサデータを取得する。ＩＭＵ１２４は、少なくとも３軸の加速度センサおよび３軸の角速度センサを含んでよい。ＩＭＵ１２４は、所定の周期（たとえば８００Ｈｚ）で各軸成分の値（センサデータ）を検出する。

　通信制御部１２８は、ネットワークアダプタまたはアンテナを介して、有線または無線通信により、制御部１２０から出力されるデータを外部の情報処理装置１０に送信する。また通信制御部１２８は、情報処理装置１０からデータを受信し、制御部１２０に出力する。

　制御部１２０は、ゲーム画像データやゲーム音声データを情報処理装置１０から受け取ると、表示パネル１３０に供給して表示させ、また音声出力部１３２に供給して音声出力させる。表示パネル１３０は、左目用表示パネル１３０ａと右目用表示パネル１３０ｂから構成され、各表示パネルに一対の視差画像が表示される。また制御部１２０は、ＩＭＵ１２４からのセンサデータ、マイク１２６からの音声データ、撮像装置１４からの撮影画像データを、通信制御部１２８から情報処理装置１０に送信させる。

　図４（ａ）は、左手用の入力デバイス１６ａの形状を示す。左手用の入力デバイス１６ａは、ケース体２０と、ユーザが操作する複数の操作部材２２ａ、２２ｂ、２２ｃ、２２ｄ（以下、特に区別しない場合は「操作部材２２」と呼ぶ）と、ケース体２０の外部に光を出射する複数のマーカ３０とを備える。マーカ３０は断面円形の出射部を有してよい。操作部材２２は、傾動操作するアナログスティック、押下式ボタンなどを含んでよい。ケース体２０は、把持部２１と、ケース体頭部とケース体底部とを連結する湾曲部２３を有し、ユーザは湾曲部２３に左手を入れて、把持部２１を把持する。ユーザは把持部２１を把持した状態で、左手の親指を用いて、操作部材２２ａ、２２ｂ、２２ｃ、２２ｄを操作する。

　図４（ｂ）は、右手用の入力デバイス１６ｂの形状を示す。右手用の入力デバイス１６ｂは、ケース体２０と、ユーザが操作する複数の操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈ（以下、特に区別しない場合は「操作部材２２」と呼ぶ）と、ケース体２０の外部に光を出射する複数のマーカ３０とを備える。操作部材２２は、傾動操作するアナログスティック、押下式ボタンなどを含んでよい。ケース体２０は、把持部２１と、ケース体頭部とケース体底部とを連結する湾曲部２３を有し、ユーザは湾曲部２３に右手を入れて、把持部２１を把持する。ユーザは把持部２１を把持した状態で、右手の親指を用いて、操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈを操作する。

　図５は、右手用の入力デバイス１６ｂの形状を示す。入力デバイス１６ｂは、図４（ｂ）で示した操作部材２２ｅ、２２ｆ、２２ｇ、２２ｈに加えて、操作部材２２ｉ、２２ｊを有する。ユーザは把持部２１を把持した状態で、右手の人差し指を用いて操作部材２２ｉを操作し、中指を用いて操作部材２２ｊを操作する。以下、入力デバイス１６ａと入力デバイス１６ｂとを特に区別しない場合、「入力デバイス１６」と呼ぶ。実施例の入力デバイス１６は、ユーザが湾曲部２３に手を差し入れて把持部２１を把持すべきコントローラである。

　入力デバイス１６に設けられた操作部材２２は、押さなくても、触れるだけで指を認識するタッチセンス機能を搭載してよい。右手用の入力デバイス１６ｂに関して言えば、操作部材２２ｆ、２２ｇ、２２ｊが、静電容量式タッチセンサを備えてよい。なおタッチセンサは他の操作部材２２に搭載されてもよいが、入力デバイス１６をテーブルなどの載置面に置いた際に、タッチセンサが載置面に接触することのない操作部材２２に搭載されることが好ましい。

　マーカ３０は、ケース体２０の外部に光を出射する光出射部であり、ケース体２０の表面において、ＬＥＤ（Light Emitting Diode）素子などの光源からの光を外部に拡散出射する樹脂部を含む。マーカ３０は撮像装置１４により撮影されて、入力デバイス１６のトラッキング処理に利用される。

　情報処理装置１０は、撮像装置１４による撮影画像を、入力デバイス１６のトラッキング処理と、ＨＭＤ１００のＳＬＡＭ（Simultaneous Localization and Mapping）処理に利用する。実施例では撮像装置１４が１２０フレーム／秒で撮影する画像のうち、６０フレーム／秒で撮影されるグレースケール画像が、入力デバイス１６のトラッキング処理に利用され、６０フレーム／秒で撮影される別のフルカラー画像が、ＨＭＤ１００の自己位置推定および環境地図作成を同時実行する処理に利用されてよい。

　図６は、入力デバイス１６を撮影した画像の一部の例を示す。この画像は、右手で把持された入力デバイス１６ｂを撮影した画像であり、光を出射する複数のマーカ３０の像が含まれる。ＨＭＤ１００において、通信制御部１２８は、撮像装置１４が撮影した画像データをリアルタイムで情報処理装置１０に送信する。

　図７は、入力デバイス１６の機能ブロックを示すブロック図である。制御部５０は、操作部材２２に入力された操作情報を受け付ける。また制御部５０は、ＩＭＵ（慣性計測装置）３２により検出されたセンサデータとタッチセンサ２４により検出されたセンサデータを受け付ける。上記の通りタッチセンサ２４は、複数の操作部材２２のうちの少なくとも一部に取り付けられ、ユーザの指が操作部材２２に接触している状態を検知する。

　ＩＭＵ３２は、入力デバイス１６の動きに関するセンサデータを取得し、少なくとも３軸の加速度データを検出する加速度センサ３４と、３軸の角速度データを検出する角速度センサ３６を含む。加速度センサ３４および角速度センサ３６は、所定の周期（たとえば８００Ｈｚ）で各軸成分の値（センサデータ）を検出する。制御部５０は、受け付けた操作情報およびセンサデータを通信制御部５４に供給し、通信制御部５４は、ネットワークアダプタまたはアンテナを介して有線または無線通信により、操作情報およびセンサデータを情報処理装置１０に送信する。

　入力デバイス１６は、複数のマーカ３０を点灯するための複数の光源５８を備える。光源５８は、所定の色で発光するＬＥＤ素子であってよい。通信制御部５４が情報処理装置１０から発光指示を取得すると、制御部５０は発光指示にもとづいて光源５８を発光させ、マーカ３０を点灯させる。なお図７に示す例では、１つのマーカ３０に対して１つの光源５８が設けられているが、１つの光源５８が複数のマーカ３０を点灯させてもよい。

　図８は、情報処理装置１０の機能ブロックを示すブロック図である。情報処理装置１０は、処理部２００および通信部２０２を備える。処理部２００は、取得部２１０、アプリケーション実行部２２０、画像信号処理部２２２、マーカ情報保持部２２４、状態保持部２２６、推定処理部２３０、画像信号処理部２６８、ＳＬＡＭ処理部２７０、画像生成部２７２、画像出力部２７４を備える。取得部２１０は、撮影画像取得部２１２、センサデータ取得部２１４、操作情報取得部２１６を備える。推定処理部２３０は、第１推定処理部２４０、第２推定処理部２５０、第３推定処理部２６０、静止判定部２６２を備える。

　通信部２０２は、所定の通信プロトコルにしたがって外部装置と通信する。外部装置は、ＨＭＤ１００、出力装置１５、入力デバイス１６、不図示のサーバや他の情報処理装置を含む。例えば、通信部２０２は、入力デバイス１６から送信される操作部材２２の操作情報およびセンサデータを受信し、取得部２１０に供給する。また通信部２０２は、ＨＭＤ１００から送信される撮影画像データおよびセンサデータを受信し、取得部２１０に供給する。

　情報処理装置１０はコンピュータを備え、コンピュータがプログラムを実行することによって、図８に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する１つ以上のプロセッサ（ＣＰＵやＧＰＵ等）、補助記憶装置、その他のＬＳＩなどをハードウェアとして備える。プロセッサは、半導体集積回路やＬＳＩを含む複数の電子回路により構成され、複数の電子回路は、１つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図８に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

（ＳＬＡＭ機能）
　撮影画像取得部２１２は、ＨＭＤ１００のＳＬＡＭ処理用のフルカラー画像を取得し、画像信号処理部２６８に供給する。画像信号処理部２６８は、画像データにノイズ低減や光学補正（シェーディング補正）などの画像信号処理を施し、画像信号処理した画像データをＳＬＡＭ処理部２７０に供給する。

　センサデータ取得部２１４は、ＨＭＤ１００から送信されるセンサデータを取得し、ＳＬＡＭ処理部２７０に供給する。ＳＬＡＭ処理部２７０は、撮影画像取得部２１２から供給される画像データと、センサデータ取得部２１４から供給されるセンサデータにもとづいて、ＨＭＤ１００の自己位置推定および環境地図作成を同時実行する。

（撮影画像を用いる第１推定機能）
　撮影画像取得部２１２は、入力デバイス１６のトラッキング処理用のグレースケール画像を取得し、画像信号処理部２２２に供給する。画像信号処理部２２２は、画像データにノイズ低減や光学補正（シェーディング補正）などの画像信号処理を施し、画像信号処理した画像データを第１推定処理部２４０に供給する。

　第１推定処理部２４０は、マーカ像座標特定部２４２、位置姿勢導出部２４４、ノイズ導出部２４８を備え、入力デバイス１６を撮影した画像にもとづいて入力デバイス１６の位置および姿勢を推定する第１推定機能を実現する。第１推定処理部２４０は、撮影画像から入力デバイス１６の複数のマーカ３０を撮影したマーカ像を抽出し、抽出した複数のマーカ像の配置から、入力デバイス１６の位置および姿勢を推定する。第１推定処理部２４０は、推定した入力デバイス１６の位置および姿勢を、そのノイズ（誤差）の分散とともに、第３推定処理部２６０に出力する。

（センサデータを用いる第２推定機能）
　センサデータ取得部２１４は、入力デバイス１６から送信されるセンサデータを取得し、第２推定処理部２５０に供給する。第２推定処理部２５０は、入力デバイス１６の加速度および角速度を示すセンサデータにもとづいて、入力デバイス１６の位置および姿勢を推定する第２推定機能を実現する。実施例において、第２推定機能はカルマンフィルタにおける状態予測ステップを実施する機能であり、第２推定処理部２５０は、前回の時刻における状態ベクトル（位置、速度、姿勢）に、供給されたセンサデータを積分演算することで得られる状態ベクトルの変化量を加算することで、今回の時刻における状態ベクトルを推定する。第２推定処理部２５０は、推定した状態ベクトルを、そのノイズの分散とともに、第３推定処理部２６０に出力する。なお積分演算により得られる変化量は、時間経過とともにノイズが蓄積するため、第２推定処理部２５０により推定される状態ベクトル（位置、速度、姿勢）は、実際の状態ベクトル（位置、速度、姿勢）から離れていく傾向がある。

（推定結果の統合機能）
　第３推定処理部２６０は、第１推定処理部２４０が推定した入力デバイス１６の位置および姿勢と、第２推定処理部２５０が推定した入力デバイス１６の状態ベクトル（位置、速度、姿勢）から、入力デバイス１６の位置および姿勢を高精度に導出する。第３推定処理部２６０は、ＵＫＦ（無香料カルマンフィルタ）のフィルタリングステップ（補正ステップ）を実施してよい。第３推定処理部２６０は、第２推定処理部２５０が推定した状態ベクトルを「事前推定値」として取得し、第１推定処理部２４０が推定した位置および姿勢を「観測値」として取得して、カルマンゲインを算出し、カルマンゲインを用いて「事前推定値」を補正した「事後推定値」を求める。「事後推定値」は、入力デバイス１６の位置および姿勢を高精度に表現し、アプリケーション実行部２２０に提供されるとともに、状態保持部２２６に記録されて、第２推定処理部２５０における次の時刻の状態ベクトルの推定に利用される。

　撮像装置１４やＩＭＵ３２など複数のセンサを用いた解析結果を統合して精度を高める手法はセンサフュージョンとして知られている。センサフュージョンにおいては、各センサによりデータが取得された時刻を共通の時間軸で表現する必要がある。情報処理システム１においては、撮像装置１４の撮像周期とＩＭＵ３２のサンプリング周期が異なり、また非同期であるため、画像の撮影時刻と、加速度および角速度の検出時刻とを正確に管理することで、第３推定処理部２６０は、入力デバイス１６の位置および姿勢を高精度に推定することが可能となる。

　図９は、第１推定処理部２４０による位置姿勢推定処理を示すフローチャートである。撮影画像取得部２１２は、入力デバイス１６を撮影した画像データを取得して（Ｓ１０）、画像信号処理部２２２に供給する。画像信号処理部２２２は、画像データにノイズ低減や光学補正などの画像信号処理を施し（Ｓ１２）、画像信号処理した画像データをマーカ像座標特定部２４２に供給する。

　マーカ像座標特定部２４２は、撮影画像に含まれる複数のマーカ像の代表座標を特定する（Ｓ１４）。グレースケール画像の各画素の輝度が８ビットで表現されて、０～２５５の輝度値をとる場合、マーカ像は、図６に示すように高輝度をもつ像として撮影される。マーカ像座標特定部２４２は、撮影画像から、所定値以上の輝度値（たとえば１２８輝度値）をもつ画素が連続する領域を特定し、その連続画素領域の重心座標を算出して、マーカ像の代表座標を特定してよい。

　なお撮影画像には、マーカ像だけでなく、電灯などの照明機器の像も含まれている。そこでマーカ像座標特定部２４２は、いくつかの所定の基準に照らし合わせて、所定値以上の輝度値をもつ連続画素領域がマーカ像に対応するか調査する。たとえば連続画素領域が大きすぎる場合や、長尺形状である場合には、当該連続画素領域はマーカ像に対応しないことが確実であるため、マーカ像座標特定部２４２は、そのような連続画素領域がマーカ像ではないことを判断してよい。マーカ像座標特定部２４２は、所定の基準を満たす連続画素領域の重心座標を算出して、マーカ像の代表座標（マーカ像座標）として特定し、特定した代表座標をメモリ（図示せず）に記憶する。

　マーカ情報保持部２２４は、基準位置および基準姿勢にある入力デバイス１６の３次元モデルにおける各マーカの３次元座標を保持している。３次元の形状および大きさが既知である物体の撮影画像から、それを撮影した撮像装置の位置および姿勢を推定する手法として、ＰＮＰ（Perspective n-Point）問題を解く方法が知られている。

　実施例において位置姿勢導出部２４４は、Ｎ（Ｎは３以上の整数）個のマーカ像座標をメモリ（図示せず）から読み出し、読み出したＮ個のマーカ像座標と、入力デバイス１６の３次元モデルにおけるＮ個のマーカの３次元座標から、入力デバイス１６の位置および姿勢を推定する。位置姿勢導出部２４４は、以下の（式１）を用いて撮像装置１４の位置および姿勢を推定し、その推定結果をもとに入力デバイス１６の３次元空間の位置および姿勢を導出する。

　ここで（ｕ，ｖ）は撮影画像におけるマーカ像座標であり、（Ｘ，Ｙ，Ｚ）は、入力デバイス１６の３次元モデルが基準位置および基準姿勢にあるときのマーカ３０の３次元空間での位置座標である。なお３次元モデルは、入力デバイス１６と完全に同一の形状および大きさをもち、マーカを同一位置に配置したモデルであり、マーカ情報保持部２２４は、基準位置および基準姿勢にある３次元モデルにおける各マーカの３次元座標を保持している。位置姿勢導出部２４４は、マーカ情報保持部２２４から各マーカの３次元座標を読み出して、（Ｘ，Ｙ，Ｚ）を取得する。

　（ｆ_ｘ、ｆ_ｙ）は撮像装置１４の焦点距離、（ｃ_ｘ、ｃ_ｙ）は画像主点であり、いずれも撮像装置１４の内部パラメータである。ｒ_１１～ｒ_３３、ｔ_１～ｔ_３を要素とする行列は、回転・並進行列である。（式１）において（ｕ，ｖ）、（ｆ_ｘ、ｆ_ｙ）、（ｃ_ｘ、ｃ_ｙ）、（Ｘ，Ｙ，Ｚ）は既知であり、位置姿勢導出部２４４は、Ｎ個のマーカ３０について方程式を解くことにより、それらに共通の回転・並進行列を求める。実施例では、入力デバイス１６の位置姿勢を推定する処理をＰ３Ｐ問題を解くことで実施する。

　具体的に位置姿勢導出部２４４は、マーカ像座標特定部２４２により特定された複数のマーカ像座標の中から、任意の３個のマーカ像座標を抽出する。位置姿勢導出部２４４は、マーカ情報保持部２２４から３次元モデルにおけるマーカの３次元座標を読み出し、（式１）を用いてＰ３Ｐ問題を解く。位置姿勢導出部２４４は、抽出された３個のマーカ像座標に共通する回転・並進行列を特定すると、抽出した３個のマーカ像座標以外の入力デバイス１６のマーカ像座標を用いて再投影誤差を算出する。

　位置姿勢導出部２４４は、３個のマーカ像座標の組合せを所定数抽出する。位置姿勢導出部２４４は、抽出された３個のマーカ像座標のそれぞれの組合せに対して回転・並進行列を特定し、それぞれの再投影誤差を算出する。それから位置姿勢導出部２４４は、所定数の再投影誤差の中から最小の再投影誤差となる回転・並進行列を特定して、入力デバイス１６の位置および姿勢を導出する（Ｓ１６）。

　ノイズ導出部２４８は、推定した位置および姿勢のそれぞれのノイズ（誤差）の分散を導出する（Ｓ１８）。ノイズの分散値は、推定した位置および姿勢の信頼度に対応し、信頼度が高ければ分散値は小さく、信頼度が低ければ分散値は大きくなる。ノイズ導出部２４８は、撮像装置１４と入力デバイス１６の間の距離や、画角内におけるマーカ像の位置にもとづいて、ノイズの分散を導出してよい。たとえば撮像装置１４と入力デバイス１６とが遠く離れていたり、または極端に近い場合や、マーカ像が撮影画像の端に位置するような場合は、正確なマーカ像の重心座標を導出することが難しくなるため、ノイズ分散は大きく導出される傾向がある。

　なおトラッキング処理中（第１推定機能の実施中）に推定する位置および姿勢の信頼度が高いことは確実であるため、ノイズ導出部２４８は、推定位置および推定姿勢のそれぞれのノイズの分散を、小さい固定値に設定してもよい。たとえばノイズ導出部２４８は、トラッキング処理中の位置ノイズの分散を固定値である「０．５ｍｍ」に設定して、第３推定処理部２６０に供給してもよい。トラッキング処理中、第１推定処理部２４０は、推定した位置および姿勢の情報とともに、位置ノイズおよび姿勢ノイズの分散を第３推定処理部２６０に出力してよいが、位置ノイズおよび姿勢ノイズの分散が固定値である場合には、トラッキング処理の開始時にノイズの分散を第３推定処理部２６０に一回出力して、第３推定処理部２６０がノイズの分散を記憶して使用してもよい。

　第１推定処理部２４０による位置姿勢推定処理は、入力デバイス１６のトラッキング用画像の撮像周期（６０フレーム／秒）で実施される（Ｓ２０のＮ）。アプリケーション実行部２２０がアプリケーション（ゲーム等）の実行を終了すると、第１推定処理部２４０による位置姿勢推定処理は終了する（Ｓ２０のＹ）。

　図１０は、推定処理部２３０の内部構成を示す。時刻ｋにおいて、第１推定処理部２４０は、推定した位置および姿勢を「観測値ｎ_ｋ」、位置ノイズおよび姿勢ノイズの分散を「観測ノイズＲ_ｋ」として、第３推定処理部２６０に出力する。
・　観測値ｎ_ｋ　：　時刻ｋの観測ベクトル
・　観測ノイズＲ_ｋ　：　時刻ｋの観測値の誤差共分散行列

　第２推定処理部２５０は、１時刻前（時刻ｋ－１）の「状態ベクトルｍ_{ｋ－１｜ｋ－１}」および「推定誤差Ｐ_{ｋ－１｜ｋ－１}」を状態保持部２２６から読み出し、「状態ベクトルｍ_{ｋ－１｜ｋ－１}」および「推定誤差Ｐ_{ｋ－１｜ｋ－１}」を予測部に入力する。実施例の状態変数ｍは、入力デバイス１６の位置、速度、姿勢を含むが、さらに加速度バイアス、角速度バイアスを含んでもよい。
・　状態ベクトルｍ_{ｋ－１｜ｋ－１}　：　時刻ｋ－１までの情報で推定した時刻ｋ－１の状態ベクトル
・　推定誤差Ｐ_{ｋ－１｜ｋ－１}　：　時刻ｋ－１までの情報で推定した時刻ｋ－１の状態の推定誤差共分散行列

　また第２推定処理部２５０は、センサデータ取得部２１４から、入力デバイス１６の加速度ａ_ｋと角速度ω_ｋを取得し、加速度ａ_ｋと角速度ω_ｋを「プロセス入力ｌ_ｋ」として、予測部に入力する。
・　加速度ａ_ｋ　：　時刻ｋの加速度
・　角速度ω_ｋ　：　時刻ｋの角速度
・　プロセス入力ｌ_ｋ　：　時刻ｋのプロセス入力ベクトル

　第２推定処理部２５０は、加速度ａ_ｋと角速度ω_ｋと、固定のノイズパラメータ（軸ずれ、スケールずれ、値ずれ、バイアスずれを含む）から、加速度ノイズの分散および角速度ノイズの分散を計算し、「プロセスノイズＱ_ｋ」として、予測部に入力する。
・　プロセスノイズＱ_ｋ　：　時刻ｋのプロセス入力の誤差共分散行列

　予測部は、加速度ａ_ｋおよび角速度ω_ｋをそれぞれ積分演算して、「状態ベクトルｍ_{ｋ－１｜ｋ－１}」からの変化量（つまり、位置変化量、速度変化量、姿勢変化量）を算出し、「状態ベクトルｍ_{ｋ－１｜ｋ－１}」に加算する演算を行う。予測部は、加速度ａ_ｋを積分して速度変化量を算出し、速度変化量を用いて推定される速度を積分して位置変化量を算出し、角速度ω_ｋを積分して姿勢変化量を算出する。予測部は、「状態ベクトルｍ_{ｋ｜ｋ－１}」および「推定誤差Ｐ_{ｋ｜ｋ－１}」を、第３推定処理部２６０に出力する。
・　状態ベクトルｍ_{ｋ｜ｋ－１}　：　時刻ｋ－１までの情報で推定した時刻ｋの状態ベクトル
・　推定誤差Ｐ_{ｋ｜ｋ－１}　：　時刻ｋ－１までの情報で推定した時刻ｋの状態の推定誤差共分散行列

　第３推定処理部２６０は、第１推定処理部２４０から「観測値ｎ_ｋ」および「観測ノイズＲ_ｋ」を取得し、第２推定処理部２５０から「状態ベクトルｍ_{ｋ｜ｋ－１}」および「推定誤差Ｐ_{ｋ｜ｋ－１}」を取得して、「状態ベクトルｍ_{ｋ｜ｋ－１}」を補正するためのカルマンゲインを算出する。第３推定処理部２６０は、カルマンゲインを用いて「状態ベクトルｍ_{ｋ｜ｋ－１}」を補正し、「状態ベクトルｍ_ｋ｜ｋ」および「推定誤差Ｐ_ｋ｜ｋ」を出力する。
・　状態ベクトルｍ_ｋ｜ｋ　：　時刻ｋまでの情報で推定した時刻ｋの状態ベクトル
・　推定誤差Ｐ_ｋ｜ｋ　：　時刻ｋまでの情報で推定した時刻ｋの状態の推定誤差共分散行列

　「状態ベクトルｍ_ｋ｜ｋ」は、高精度に推定された位置、速度、姿勢を示し、アプリケーション実行部２２０に提供されて、アプリケーションの操作に利用されてよい。「状態ベクトルｍ_ｋ｜ｋ」および「推定誤差Ｐ_ｋ｜ｋ」は状態保持部２２６に一時的に保持されて、第２推定処理部２５０における時刻ｋ＋１の推定処理の際に読み出される。

　推定処理部２３０において、第１推定処理部２４０による推定処理は６０Ｈｚの周期で実施される一方で、第２推定処理部２５０による推定処理は８００Ｈｚの周期で実施される。そのため第１推定処理部２４０が観測値を出力してから、次の観測値を出力するまでの間に、第２推定処理部２５０は状態ベクトルを順次更新し、この間、状態ベクトルは補正されない。実施例の推定処理部２３０は、観測時刻ｋの直前の時刻ｋ－１の状態を基準に補正ステップを行っており、つまり観測値を、過去の状態を修正するために利用している。

　以上のように、入力デバイス１６のトラッキング処理が実施されている間は、推定処理部２３０が、入力デバイス１６の位置および姿勢を高精度に推定する。しかしながら入力デバイス１６のマーカ３０が撮像装置１４により撮影されなくなると、第１推定処理部２４０は、図９に示す位置姿勢推定処理を実行できない。

　実施例では、推定処理部２３０は、入力デバイス１６のマーカ３０が撮影画像に映っていない（撮像装置１４により撮影されない）場合でも、ＨＭＤ１００のセンサデータおよび入力デバイス１６のセンサデータにもとづいて、入力デバイス１６の位置を推定し、言い換えれば、入力デバイス１６のトラッキングを継続する。例えば、推定処理部２３０は、入力デバイス１６が撮像装置１４の画角を外れた後、ＨＭＤ１００のセンサデータにもとづいてＨＭＤ１００が右方向に動いたと判断した場合、ＨＭＤ１００が右方向へ動いた分だけ、入力デバイス１６の推定位置をそれまでより左方向に移動させてもよい。推定処理部２３０は、入力デバイス１６のマーカ３０が撮影画像に映っていない状況で、所定のトラッキング終了条件（例えば、所定時間の経過やＨＭＤ１００の大きな移動等）が満たされた場合、入力デバイス１６の位置推定処理を終了する。

　図８に戻り、静止判定部２６２は、センサデータ取得部２１４により取得された、入力デバイス１６の加速度を示すセンサデータにもとづいて、入力デバイス１６が静止しているか否かを判定する。静止判定部２６２は、入力デバイス１６の加速度の時系列データから加速度の傾きを算出し、算出した傾きにもとづいて、入力デバイス１６が静止しているか否かを判定する。

　実施例の静止判定部２６２は、現在時刻ｔから過去時刻（ｔ－９９）までの１００個の加速度値に最小二乗法を適用して回帰直線を求め、その傾きを特定する。なお傾きを算出するときのサンプル数は１００個以外であってもよい。静止判定部２６２は、センサデータのサンプリング周期で傾きを算出し、常時、入力デバイス１６が静止しているか否かを判定してよい。

　静止判定部２６２は、算出した傾きの絶対値が所定の閾値Ｓth以上であると、入力デバイス１６が動いていることを判定し、算出した傾きの絶対値が閾値Ｓth未満であると、入力デバイス１６が静止していることを判定する。なお判定結果が頻繁に入れ替わることを防止するために、静止判定部２６４は、算出する傾きの絶対値が所定回数（Ｎ３回）連続して閾値Ｓth未満となったときに、入力デバイス１６が静止していることを判定してよく、静止を判定した後は、算出する傾きの絶対値が所定回数（Ｎ４回）連続して閾値Ｓth以上となったときに、入力デバイス１６が動いていることを判定してもよい。Ｎ３とＮ４は同じ回数であってよいが、異なる回数であってもよい。

　変形例として、静止判定部２６２は、撮影画像取得部２１２により取得された、入力デバイス１６が映る撮影画像にもとづいて、入力デバイス１６が静止しているか否かを判定してもよい。別の変形例として、静止判定部２６２は、第１推定処理部２４０、第２推定処理部２５０、第３推定処理部２６０のいずれかにより推定された、入力デバイス１６の位置の時系列での変化にもとづいて、入力デバイス１６が静止しているか否かを判定してもよい。

　撮影画像取得部２１２は、ＨＭＤ１００から送信された撮影画像データをアプリケーション実行部２２０および画像生成部２７２にさらに提供する。センサデータ取得部２１４は、ＨＭＤ１００から送信されたセンサデータをアプリケーション実行部２２０および画像生成部２７２にさらに提供する。また、センサデータ取得部２１４は、入力デバイス１６から送信されたセンサデータをアプリケーション実行部２２０および画像生成部２７２にさらに提供する。

　操作情報取得部２１６は、入力デバイス１６から送信された、入力デバイス１６に入力されたユーザの操作を示す操作情報を取得する。操作情報取得部２１６は、取得した操作情報をアプリケーション実行部２２０に提供する。

　アプリケーション実行部２２０は、操作情報取得部２１６から入力された操作情報や、センサデータ取得部２１４から入力されたセンサデータ、推定処理部２３０（例えば第３推定処理部２６０）により推定された入力デバイス１６の位置姿勢情報等にもとづいて、各種アプリケーションを実行する。例えば、アプリケーション実行部２２０は、ＶＲゲームに関する各種処理が実装されたコンピュータプログラムを実行して、ＶＲゲームを進行させてもよい。実施例では、アプリケーション実行部２２０は、ＨＭＤ１００の初期設定アプリケーションを実行する。

　画像生成部２７２と画像出力部２７４は、表示部における電子コンテンツの表示を制御する表示制御部２７６として機能する。表示部は、少なくとも、ＨＭＤ１００の表示パネル１３０を含むが、出力装置１５のディスプレイをさらに含んでもよい。実施例では、表示制御部２７６は、ＨＭＤ１００の初期設定アプリケーションの実行時に、後述のカメラＡＲ映像をＨＭＤ１００の表示パネル１３０に表示させる。

　具体的には、画像生成部２７２は、撮影画像取得部２１２から入力された撮影画像データや、アプリケーション実行部２２０によるアプリケーションの実行結果等に基づいて、ＨＭＤ１００に表示させる表示用の画像データ（例えばＶＲコンテンツの画像データ）を生成する。画像出力部２７４は、画像生成部２７２により生成された表示用の画像データをＨＭＤ１００へ送信して、その表示パネル１３０に表示させる。

　実施例では、画像生成部２７２は、アプリケーション実行部２２０によるＨＭＤ１００の初期設定アプリケーションの実行結果にもとづいて、ＨＭＤ１００の初期設定アプリケーションの画像を生成する。ＨＭＤ１００の初期設定アプリケーションの画像は、ＨＭＤ１００の撮像装置１４により撮影された撮影画像であり、ＨＭＤ１００を装着したユーザの正面方向の実空間を撮影した撮影画像を含む。具体的には、ＨＭＤ１００の初期設定アプリケーションの画像は、ＨＭＤ１００を装着したユーザの正面方向の実空間が映る映像にもとづく拡張現実（Augmented Reality：ＡＲ）映像（以下「カメラＡＲ映像」とも呼ぶ。）を含む。画像出力部２７４は、画像生成部２７２により生成されたカメラＡＲ映像をＨＭＤ１００の表示パネル１３０に表示させる。

　カメラＡＲ映像は、入力デバイス１６を正しく把持できるよう支援する仮想的なオブジェクトの画像（以下「ガイドオブジェクト」とも呼ぶ。）を含み得る。ガイドオブジェクトは、後述の概略位置ガイドや挿入位置ガイドを含む。画像生成部２７２は、入力デバイス１６ａの状態と入力デバイス１６ｂの状態（位置や姿勢等）をそれぞれ個別に管理し、カメラＡＲ映像において入力デバイス１６ａに付加するガイドオブジェクトと入力デバイス１６ｂに付加するガイドオブジェクトをそれぞれ個別に判断する。

　図１１は、カメラＡＲ映像におけるガイド表示の遷移例を示す。推定処理部２３０が入力デバイス１６の位置（例えば、ワールド座標系における座標値）をトラッキングできていない場合、画像生成部２７２は、入力デバイス１６に対するガイド表示を第１態様に設定する。第１態様では、入力デバイス１６の映像に付加したガイドオブジェクトの表示を抑制し、言い換えれば、ガイドオブジェクトを非表示とする。

　推定処理部２３０が入力デバイス１６の位置をトラッキングできている場合、画像生成部２７２は、撮像装置１４による撮影画像に入力デバイス１６が映っているか否か、すなわち、入力デバイス１６がユーザの視野内にあるか否かを判定する。また、画像生成部２７２は、入力デバイス１６の推定位置にもとづいて、ＨＭＤ１００と入力デバイス１６との距離を導出し、その距離が予め定められた閾値以下であるか否かをさらに判定する。実施例におけるこの閾値は１．３メートルであるが、開発者の知見や情報処理システム１を用いた実験等をもとに適切な閾値が決定されてよい。

　入力デバイス１６の位置をトラッキングできている場合に、撮像装置１４による撮影画像に入力デバイス１６が映っておらず、または、ＨＭＤ１００と入力デバイス１６との距離が上記閾値を超過すれば、画像生成部２７２は、入力デバイス１６に対するガイド表示を第２態様に設定する。第２態様では、入力デバイス１６の映像に付加するガイドオブジェクトとして概略位置ガイドが配置される。

　入力デバイス１６の位置をトラッキングできている場合に、撮像装置１４による撮影画像に入力デバイス１６が映っており、かつ、ＨＭＤ１００と入力デバイス１６との距離が上記閾値以下であれば、画像生成部２７２は、入力デバイス１６に対するガイド表示を第３態様に設定する。第３態様では、入力デバイス１６の映像に付加するガイドオブジェクトとして概略位置ガイド、挿入位置ガイドおよび挿入方向ガイドが配置される。

　図１２は、カメラＡＲ映像６０の例を示す。同図は、第２態様でのガイド表示を含むカメラＡＲ映像６０を示している。実施例におけるＨＭＤ１００の初期設定において、ユーザは、ＨＭＤ１００を自身の頭部に装着後、入力デバイス１６を把持することが求められる。ここでは、入力デバイス１６ａの位置と入力デバイス１６ｂの位置の両方をトラッキングできているが、撮像装置１４による撮影画像に入力デバイス１６ａと入力デバイス１６ｂの両方が映っていないこととする。画像生成部２７２は、入力デバイス１６ａと入力デバイス１６ｂのそれぞれに対する第２態様でのガイド表示を含むカメラＡＲ映像６０を生成する。

　図１２のカメラＡＲ映像６０では、撮像装置１４による撮影画像の上に、概略位置ガイド７０ａと概略位置ガイド７０ｂとが重ねて表示される。概略位置ガイド７０ａは、入力デバイス１６ａの大まかな位置を矢印の向きで示唆するガイドオブジェクトである。概略位置ガイド７０ｂは、入力デバイス１６ｂの大まかな位置を矢印の向きで示唆するガイドオブジェクトである。画像生成部２７２は、概略位置ガイド７０ａの矢印が、推定処理部２３０により推定された入力デバイス１６ａの位置を向くように設定し、概略位置ガイド７０ｂの矢印が、推定処理部２３０により推定された入力デバイス１６ｂの位置を向くように設定する。

　図１３も、カメラＡＲ映像６０の例を示す。同図は、第３態様でのガイド表示を含むカメラＡＲ映像６０を示している。第２態様でのガイド表示中に、撮像装置１４による撮影画像に入力デバイス１６（ここでは入力デバイス１６ａと入力デバイス１６ｂの両方）が映り、かつ、ＨＭＤ１００と入力デバイス１６（ここでは入力デバイス１６ａと入力デバイス１６ｂの両方）との距離が１．３メートル以下になったとする。この場合、画像生成部２７２は、入力デバイス１６ａと入力デバイス１６ｂのそれぞれに対する第３態様でのガイド表示を含むカメラＡＲ映像６０を生成する。図１３のカメラＡＲ映像６０では、撮像装置１４による撮影画像の上に、概略位置ガイド７０ａ、概略位置ガイド７０ｂ、挿入位置ガイド７２、挿入方向ガイド７４が重ねて表示される。

　挿入位置ガイド７２は、第１オブジェクトとして、ユーザがコントローラを正しく把持できるよう支援するオブジェクトであり、具体的には、入力デバイス１６においてユーザが手を差し入れるべき箇所（すなわち湾曲部２３の位置）を示唆する環状のガイドオブジェクトである。画像生成部２７２は、推定処理部２３０により推定されたＨＭＤ１００の位置および姿勢にもとづいて、撮影画像に映るＨＭＤ１００の湾曲部２３を特定する。画像生成部２７２は、湾曲部２３の近傍に挿入位置ガイド７２を配置し、具体的には、湾曲部２３の周囲を取り巻くように挿入位置ガイド７２を配置する。

　変形例として、挿入位置ガイド７２は、入力デバイス１６においてユーザが把持すべき箇所（すなわち把持部２１の位置）を示唆するオブジェクトであってもよい。画像生成部２７２は、推定処理部２３０により推定されたＨＭＤ１００の位置および姿勢にもとづいて、撮影画像に映るＨＭＤ１００の把持部２１を特定してもよい。画像生成部２７２は、把持部２１の近傍に挿入位置ガイド７２を配置してもよく、具体的には、把持部２１の周囲を取り巻くように挿入位置ガイド７２を配置してもよい。

　なお、図１３のカメラＡＲ映像６４では、入力デバイス１６ａの湾曲部２３が撮影画像に映っているため、入力デバイス１６ａの湾曲部２３の近傍に挿入位置ガイド７２が配置されている。一方、入力デバイス１６ｂの湾曲部２３は撮影画像に映っていないため、入力デバイス１６ｂに対して挿入位置ガイド７２が配置されていない。

　挿入方向ガイド７４は、第２オブジェクトとして、入力デバイス１６においてユーザが手を差し入れるべき方向に移動する環状のガイドオブジェクトである。挿入方向ガイド７４は、カメラＡＲ映像上でのその動きによって入力デバイス１６においてユーザが手を差し入れるべき方向を示唆する。挿入方向ガイド７４は、挿入位置ガイド７２より細い線であってもよい。画像生成部２７２は、推定処理部２３０により推定された入力デバイス１６の位置および姿勢にもとづいて、撮影画像に映る入力デバイス１６の湾曲部２３と手を差し入れるべき方向（例えば湾曲部２３から把持部２１への方向）を特定する。

　実施例では、画像生成部２７２は、挿入方向ガイド７４が入力デバイス１６の周囲を湾曲部２３から把持部２１の方向に移動するアニメーションをカメラＡＲ映像６４に設定する。このアニメーションは、複数の挿入方向ガイド７４が、湾曲部２３から把持部２１の方向に順次移動するものであってもよい。画像生成部２７２は、挿入方向ガイド７４が移動して把持部２１に近づくほど、その挿入方向ガイド７４の透過度を高めてもよい。

　入力デバイス１６ａのガイド表示を第３態様に設定中に、撮像装置１４による撮影画像に入力デバイス１６が映らなくなり、または、ＨＭＤ１００と入力デバイス１６ａとの距離が１．３メートルを超過した場合であって、推定処理部２３０による入力デバイス１６ａのトラッキングが継続している場合（推定処理部２３０により入力デバイス１６ａの位置の推定値が出力されている場合）、画像生成部２７２は、入力デバイス１６ａのガイド表示を第３態様から第２態様に切り替える。また、推定処理部２３０による入力デバイス１６ａのトラッキングが終了すると、画像生成部２７２は、入力デバイス１６ａのガイド表示を第２態様から第１態様に切り替える。入力デバイス１６ｂのガイド表示の切り替えも同様である。

　図１１に戻り、第３態様でのガイド表示中に、入力デバイス１６の非静止状態が第１時間（実施例では１秒）以上継続した場合であり、言い換えれば、第１時間（実施例では１秒）以上継続して静止判定部２６２が入力デバイス１６を非静止状態と判定した場合、画像生成部２７２は、第４態様でのガイド表示に切り替えたカメラＡＲ映像を生成する。第３態様でのガイド表示から第４態様でのガイド表示の切り替えは、典型的には、ユーザが入力デバイス１６を手に持った場合に生じる。

　図１４も、カメラＡＲ映像６０の例を示す。同図のカメラＡＲ映像６０では、静止状態の入力デバイス１６ａに対して第３態様のガイド表示が設定されている。一方、ユーザが手に持って非静止状態になった入力デバイス１６ｂには第４態様のガイド表示が設定されている。

　第４態様のガイド表示では、概略位置ガイド７０ｂと挿入位置ガイド７２は表示されるが、挿入方向ガイド７４は非表示となる。画像生成部２７２は、入力デバイス１６ｂのガイド表示が第３態様から第４態様に移行した場合、それまで入力デバイス１６ｂに付加した挿入方向ガイド７４のアニメーションを終了させる。ユーザが入力デバイス１６を手に持つと、ユーザと入力デバイス１６との距離はかなり近くなり、この状態で挿入方向ガイド７４（アニメーション）を表示させると、それを見たユーザに違和感を抱かせやすいからである。

　図１１に戻り、第４態様でのガイド表示中に、入力デバイス１６のいずれかの操作部材２２に対するユーザの指の接触が検出された場合、画像生成部２７２は、第５態様でのガイド表示に切り替えたカメラＡＲ映像を生成する。第５態様でのガイド表示では、全てのガイドオブジェクトを消去し、言い換えれば、非表示とする。

　図１５も、カメラＡＲ映像６０の例を示す。同図のカメラＡＲ映像６０では、ユーザが手に持って非静止状態になった入力デバイス１６ａに対して、第４態様のガイド表示が設定され、概略位置ガイド７０ａと挿入位置ガイド７２が付加されている。一方、ユーザが操作部材２２に指でタッチした入力デバイス１６ｂのガイド表示は、第４態様から第５態様に移行し、概略位置ガイド７０ｂと挿入位置ガイド７２が非表示になっている。ＨＭＤ１００の初期設定アプリケーションは、入力デバイス１６ａと入力デバイス１６ｂの両方にユーザの指が触れた場合、入力デバイス１６ａと入力デバイス１６ｂを使用する次の設定処理（例えばプレイエリアの編集処理等）へ進んでもよい。

　入力デバイス１６ａのガイド表示を第５態様に設定中に、ユーザの指が操作部材２２から離れると、画像生成部２７２は、入力デバイス１６ａのガイド表示を第５態様から第４態様に切り替える。また、入力デバイス１６ａのガイド表示を第４態様に設定中に、入力デバイス１６ａの静止状態が第１時間より長い第２時間（実施例では１０秒）以上継続した場合であり、言い換えれば、第２時間（実施例では１０秒）以上継続して静止判定部２６２が入力デバイス１６ａを非静止状態と判定した場合、画像生成部２７２は、入力デバイス１６ａのガイド表示を第４態様から第３態様に切り替える。入力デバイス１６ｂのガイド表示も同じである。

　すなわち、画像生成部２７２は、入力デバイス１６の非静止状態が比較的短時間継続すれば挿入方向ガイド７４を非表示とする一方、入力デバイス１６の静止状態が比較的長時間継続することを条件として挿入方向ガイド７４の表示を再開させる。これにより、ユーザが入力デバイス１６を手に持っている間、言い換えれば、ユーザと入力デバイス１６との距離がかなり近いときに、意図せず入力デバイス１６が静止した場合にも挿入方向ガイド７４が表示されにくくなり、ユーザに違和感を抱かせにくくなる。

　実施例の情報処理システム１では、ＨＭＤ１００を装着したユーザの正面方向を撮影した画像に、挿入位置ガイド７２や挿入方向ガイド７４を付加したＡＲ画像をユーザに提示する。これにより、ＨＭＤ１００を装着したユーザが、入力デバイス１６に対して正しく手を差し込み、入力デバイス１６を正しく把持できるよう支援できる。

　以上、本発明を実施例をもとに説明した。この実施例は例示であり、各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　実施例の情報処理装置１０の推定処理部２３０は、入力デバイス１６を撮影した画像（言い換えれば、入力デバイス１６が映る撮影画像）と、入力デバイス１６から送信されたセンサデータの両方にもとづいて、入力デバイス１６の位置と姿勢を推定した。変形例として、推定処理部２３０は、第１推定処理部２４０のように、入力デバイス１６を撮影した画像を用いるが、入力デバイス１６から送信されたセンサデータを用いずに、入力デバイス１６の位置と姿勢を推定してもよい。別の変形例として、推定処理部２３０は、第２推定処理部２５０のように、入力デバイス１６から送信されたセンサデータを用いるが、入力デバイス１６を撮影した画像を用いずに、入力デバイス１６の位置と姿勢を推定してもよい。

　実施例に記載の情報処理装置１０の機能は、ＨＭＤ１００に実装されてもよい。言い換えれば、ＨＭＤ１００は、実施例に記載の情報処理装置１０の機能を含んでもよく、さらに言い換えれば、実施例の情報処理装置１０は、ＨＭＤ１００であってもよい。また、実施例では、撮像装置１４がＨＭＤ１００に取り付けられたが、撮像装置１４は、ＨＭＤ１００以外の別の位置に取り付けられてもよい。

　上述した実施例および変形例の任意の組み合わせもまた本開示の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施例および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施例および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。

　上記実施例および変形例に記載の技術思想は、以下の各項目に記載の態様のように表現することができる。
［項目１］
　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得する撮影画像取得部と、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定する推定部と、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させる表示制御部と、
　を備え、
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　情報処理装置。
　この情報処理装置によると、ヘッドマウントディスプレイを装着したユーザが、コントローラを正しく把持できるよう支援できる。
［項目２］
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像に映る前記コントローラの把持部の近傍に、把持すべき箇所であることを示唆する前記第１オブジェクトをさらに表示させる、
　項目１に記載の情報処理装置。
　この情報処理装置によると、ヘッドマウントディスプレイを装着したユーザが、コントローラを正しく把持できるよう支援できる。
［項目３］
　前記コントローラは、前記ユーザが手を差し入れるための湾曲部をさらに備え、
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像に映る前記コントローラの湾曲部の近傍に、手を差し入れるべき箇所であることを示唆する前記第１オブジェクトを表示させる、
　項目１または２に記載の情報処理装置。
　この態様によると、ヘッドマウントディスプレイを装着したユーザが、コントローラの湾曲部に正しく手を差し入れられるよう支援でき、コントローラを正しく把持できるよう支援できる。
［項目４］
　前記表示制御部は、前記撮影画像に映る前記コントローラの近傍に、手を差し入れるべき方向に移動する第２オブジェクトをさらに表示させる、
　項目１から３のいずれかに記載の情報処理装置。
　この態様によると、ヘッドマウントディスプレイを装着したユーザが、コントローラの湾曲部から正しい方向に手を差し入れられるよう支援できる。
［項目５］
　前記表示制御部は、前記コントローラの非静止状態が第１時間以上継続した場合、前記第２オブジェクトを非表示とする、
　項目４に記載の情報処理装置。
　この態様によると、ユーザがコントローラを手に持った場合に第２オブジェクトの表示が継続することで、ユーザに違和感を抱かせてしまうことや、ユーザからコントローラの装着具合を確認することが困難になることを防止できる。
［項目６］
　前記表示制御部は、前記コントローラの非静止状態が前記第１時間以上継続して前記第２オブジェクトを非表示とした後、前記コントローラの静止状態が前記第１時間より長い第２時間以上継続した場合、前記第２オブジェクトの表示を再開させる、
　項目５に記載の情報処理装置。
　この態様によると、第２オブジェクト表示再開の条件としてのコントローラの静止状態継続時間を相対的に長くすることにより、コントローラを手に持っているにもかかわらず第２オブジェクトの表示が再開されてしまうことを防止しやすくなる。
［項目７］
　前記表示制御部は、前記撮影画像に前記コントローラが映り、かつ、前記ヘッドマウントディスプレイと前記コントローラとの距離が所定の閾値以下である場合に、前記第１オブジェクトを表示させる、
　項目１から６のいずれかに記載の情報処理装置。
　この態様によると、コントローラがユーザから離れた位置にあるときには第１オブジェクトの表示を抑制することで、第１オブジェクトがコントローラとユーザとの間にある別の物を指しているかのようにユーザに誤解させてしまうことを防止しやすくなる。
［項目８］
　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得するステップと、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定するステップと、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させるステップと、
　をコンピュータが実行し、
　前記表示させるステップは、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　コントローラ表示方法。
　このコントローラ表示方法によると、ヘッドマウントディスプレイを装着したユーザが、コントローラを正しく把持できるよう支援できる。
［項目９］
　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得する機能と、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定する機能と、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させる機能と、
　をコンピュータに実現させ、
　前記表示させる機能は、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　コンピュータプログラム。
　このコンピュータプログラムによると、ヘッドマウントディスプレイを装着したユーザが、コントローラを正しく把持できるよう支援できる。

　本発明は、情報処理装置や情報処理システムに適用できる。

　１　情報処理システム、　１０　情報処理装置、　１４　撮像装置、　１６　入力デバイス、　２１　把持部、　２３　湾曲部、　１００　ＨＭＤ、　２１２　撮影画像取得部、　２３０　推定処理部、　２７２　画像生成部、　２７４　画像出力部、　２７６　表示制御部。

Claims

　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得する撮影画像取得部と、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定する推定部と、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させる表示制御部と、
　を備え、
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　情報処理装置。
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像に映る前記コントローラの把持部の近傍に、把持すべき箇所であることを示唆する前記第１オブジェクトをさらに表示させる、
　請求項１に記載の情報処理装置。
　前記コントローラは、前記ユーザが手を差し入れるための湾曲部をさらに備え、
　前記表示制御部は、前記コントローラの位置の推定結果に基づいて、前記撮影画像に映る前記コントローラの湾曲部の近傍に、手を差し入れるべき箇所であることを示唆する前記第１オブジェクトを表示させる、
　請求項１に記載の情報処理装置。
　前記表示制御部は、前記撮影画像に映る前記コントローラの近傍に、手を差し入れるべき方向に移動する第２オブジェクトをさらに表示させる、
　請求項１に記載の情報処理装置。
　前記表示制御部は、前記コントローラの非静止状態が第１時間以上継続した場合、前記第２オブジェクトを非表示とする、
　請求項４に記載の情報処理装置。
　前記表示制御部は、前記コントローラの非静止状態が前記第１時間以上継続して前記第２オブジェクトを非表示とした後、前記コントローラの静止状態が前記第１時間より長い第２時間以上継続した場合、前記第２オブジェクトの表示を再開させる、
　請求項５に記載の情報処理装置。
　前記表示制御部は、前記撮影画像に前記コントローラが映り、かつ、前記ヘッドマウントディスプレイと前記コントローラとの距離が所定の閾値以下である場合に、前記第１オブジェクトを表示させる、
　請求項１に記載の情報処理装置。
　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得するステップと、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定するステップと、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させるステップと、
　をコンピュータが実行し、
　前記表示させるステップは、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　コントローラ表示方法。
　ヘッドマウントディスプレイを装着したユーザの前方を撮影した撮影画像を取得する機能と、
　前記ユーザが把持すべき把持部を備えるコントローラが映る撮影画像に基づいて、前記コントローラの位置を推定する機能と、
　前記ユーザの前方を撮影した撮影画像を前記ヘッドマウントディスプレイに表示させる機能と、
　をコンピュータに実現させ、
　前記表示させる機能は、前記コントローラの位置の推定結果に基づいて、前記撮影画像とともに、前記ユーザが把持すべき箇所を示唆する第１オブジェクトをさらに表示させる、
　コンピュータプログラム。