WO2020071144A1

WO2020071144A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2020071144A1
Application number: PCT/JP2019/036891
Authority: WO
Inventors: 浩丈市川; 敦石原
Original assignee: ソニー株式会社
Priority date: 2018-10-04
Filing date: 2019-09-20
Publication date: 2020-04-09

Abstract

本技術の一形態に係る情報処理装置は、画像取得部と物体認識部とを具備する。画像取得部はユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像とユーザ端末に設けられた第１の画角よりも広くかつ第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得する。物体認識部は実空間にある実物体の全体が第１の画角内に実質的に包含される場合第１の撮像画像に基づいて実物体を認識し実物体の全体が第１の画角内に実質的に包含されない場合、第２の撮像画像に基づいて実物体を認識する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、ＡＲ（Augmented Reality）等の仮想オブジェクトの表示に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１に記載の情報処理装置では、センシングデータに基づく認識精度が取得される。認識精度が第１の範囲又は第２の範囲に含まれるかに基づいて、第１のユーザ操作又は第２のユーザ操作が認識可能に制御される。これにより、認識精度に応じたユーザ操作により操作することが可能となる（特許文献１の段落［００５７］［００５８］図３等）。

国際公開第ＷＯ２０１７／１０４２７２号

　ＡＲ等の仮想オブジェクトの表示について、処理の負荷を抑えつつ、高品質な仮想表現を実現可能とする技術が求められている。

　以上のような事情に鑑み、本技術の目的は、仮想オブジェクトの表示について、処理の負荷を抑えつつ、高品質な仮想表現を実現可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、画像取得部と、物体認識部とを具備する。
　前記画像取得部は、ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得する。
　前記物体認識部は、実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識する。

　この情報処理装置では、実物体の全体が第１の撮像装置の第１の画角に実質的に包含されるか否かに基づいて、実物体の認識に用いる画像として、第１の撮像画像及び第２の撮像画像が適宜選択される。これにより、処理の負荷を抑えつつ、高品質な仮想表現を実現可能となる。

　前記実物体は、前記ユーザにより移動可能な操作体であってもよい。

　前記情報処理装置は、さらに、仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備してもよい。この場合、前記物体認識部は、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記操作体を認識してもよい。

　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御してもよい。

　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行してもよい。

　前記ユーザから見て、前記第１の画角の全体が前記表示装置の表示領域に包含されてもよい。

　前記ユーザから見て、前記表示装置の表示領域の全体が前記第２の画角に包含されてもよい。

　前記物体認識部は、前記操作体の全体が前記第１の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第２の撮像画像から前記第１の撮像画像に切り替え、前記操作体の全体が前記第１の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替えてもよい。

　前記情報処理装置は、さらに、前記表示装置と、前記第１の撮像装置と、前記第２の撮像装置とを具備する情報処理装置でもよい。

　前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第１の撮像画像と前記第２の撮像画像との間で切り替えてもよい。

　前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替えてもよい。

　前記操作体は、前記ユーザの手であってもよい。

　前記情報処理装置は、さらに、前記第１の撮像画像又は前記第２の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備してもよい。

　前記位置判定部は、前記ユーザ端末の位置の判定に、前記第１の撮像画像よりも前記第２の撮像画像を優先的に用いてもよい。この場合、前記物体認識部は、前記実物体の認識に、前記第２の撮像画像よりも前記第１の撮像画像を優先的に用いてもよい。

　前記第１の撮像画像の単位面積あたりの解像度は、前記第２の撮像画像の単位面積あたりの解像度よりも高くてもよい。

　前記ユーザ端末は、ヘッドマウントディスプレイであってもよい。

　前記ユーザ端末は、スマートフォン又はタブレット端末であってもよい。

　前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方は、ステレオカメラであってもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得することを含む。
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体が認識される。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得するステップ。
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識するステップ。

　以上のように、本技術によれば、処理の負荷を抑えつつ、高品質な仮想表現を実現可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係るＨＭＤの外観例を示す斜視図である。狭角カメラ及び広角カメラの画角について説明するための模式図である。狭角カメラ及び広角カメラの画角について説明するための模式図である。ＨＭＤの機能的な構成例を示すブロック図である。コントローラの機能的な構成例を示すブロック図である。ＡＲ表示制御の一例を示すフローチャートである。図６に例示する処理を説明するための模式的な図である。図６に例示する処理を説明するための模式的な図である。図６に例示する処理を説明するための模式的な図である。図６に例示する処理を説明するための模式的な図である。図６に例示する処理を説明するための模式的な図である。図６に例示する処理を説明するための模式的な図である。他の実施形態に係るＨＭＤを示す模式図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［ヘッドマウントディスプレイ（ＨＭＤ：Head Mounted Display）］
　図１は、本技術の一実施形態に係るＨＭＤの外観例を示す斜視図である。ＨＭＤ１０は、透過型のディスプレイを備えたメガネ型の装置であり、ＡＲグラスとも呼ばれる。本実施形態において、ＨＭＤ１０は、ユーザ２０により携帯可能又は装着可能なユーザ２０端末として機能する。

　「ユーザにより携帯可能又は装着可能なユーザ端末」としては、携帯電話、スマートフォン（登録商標）、タブレット端末、ゲーム機器、ＰＤＡ（Personal Digital Assistant）等の任意の携帯端末を含む。また、光学シースルーやビデオシースルー等の透過型ＨＭＤ、非透過型（没入型）ＨＭＤ等の任意のＨＭＤが含まれる。また時計型、リストバンド型、ネックバンド型等の任意のウェアラブル装置等も含まれる。「ユーザにより携帯可能又は装着可能なユーザ端末」を、ユーザにより移動可能な「モバイル端末」として定義することも可能である。

　図１に示すように、ＨＭＤ１０は、フレーム１１、左眼用レンズ１２ａ及び右眼用レンズ１２ｂ、左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂ、左眼用カメラ１４ａ及び右眼用カメラ１４ｂ、狭角カメラ１５、及び広角カメラ１６（１６ａ、１６ｂ）を有する。

　フレーム１１は、メガネ型の形状でなり、リム部１７及びテンプル部１８を有する。リム部１７は、ユーザ２０の左右の眼の前方に配置される部分であり、左眼用レンズ１２ａ及び右眼用レンズ１２ｂをそれぞれ支持する。テンプル部１８は、リム部１７の両端からユーザ２０の両耳に向けて後方に延在し、先端が両耳に装着される。リム部１７及びテンプル部１８は、例えば合成樹脂、金属等の材料で形成される。

　左眼用レンズ１２ａ及び右眼用レンズ１２ｂは、ユーザ２の視野の少なくとも一部を覆うように、ユーザの左右の眼の前方にそれぞれ配置される。典型的には、各レンズは、ユーザの視力を矯正するように設計される。もちろんこれに限定されず、いわゆる度無しレンズが用いられてもよい。

　左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂは、透過型ディスプレイであり、左眼用レンズ１２ａ及び右眼用レンズ１２ｂの一部の領域を覆うように、それぞれ配置される。すなわち左眼用レンズ１２ａ及び右眼用レンズ１２ｂは、ユーザの左右の眼の前方にそれぞれ配置される。

　左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂには、左眼用及び右眼用の画像等がそれぞれ表示される。ＨＭＤ１０を装着するユーザ２０は、現実の景色を視認すると同時に、各ディスプレイ１３ａ及び１３ｂに表示される画像を視認することが可能となる。これにより、ユーザは拡張現実（ＡＲ）等を体験することが可能となる。

　各ディスプレイ１３ａ及び１３ｂには、例えば仮想的な表示物（仮想オブジェクト）が表示される。例えばキャラクター等のＣＧ（Computer Graphics）、写真、文字等が仮想オブジェクトとして表示可能である。もちろんこれに限定されず、任意の仮想オブジェクトが表示されてよい。

　左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂとしては、例えば透過型の有機ＥＬディスプレイやＬＣＤ（Liquid Crystal Display、液晶表示素子）ディスプレイ等が用いられる。この他、左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂの具体的な構成は限定されず、例えば透明なスクリーンに画像を投影して表示する方式や、プリズム等を用いて画像を表示する方式等の任意の方式の透過型ディスプレイが適宜用いられてよい。

　左眼用カメラ１４ａ及び右眼用カメラ１４ｂは、ユーザの左眼及び右眼を撮像可能なように、フレーム１１に適宜設置される。例えば、左眼用カメラ１４ａ及び右眼用カメラ１４ｂにより撮像された左眼及び右眼の画像に基づいて、ユーザの視線に関する視線情報等を検出することが可能である。

　左眼用カメラ１４ａ及び右眼用カメラ１４ｂとしては、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線ＬＥＤ等の赤外線照明を搭載した赤外線カメラが用いられてもよい。

　以下では、左眼用レンズ１２ａ及び右眼用レンズ１２ｂをともにレンズ１２と記載し、左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂをともに透過型ディスプレイ１３と記載する場合がある。また、左眼用カメラ１４ａ及び右眼用カメラ１４ｂをともに内向きカメラ１４と記載する場合がある。

　狭角カメラ１５、及び広角カメラ１６（１６ａ、１６ｂ）は、ユーザの前方側の実空間を撮像することが可能な外向きカメラとして設けられる。狭角カメラ１５、及び広角カメラ１６（１６ａ、１６ｂ）により、実空間が撮像された撮像画像を生成することが可能である。

　図１に示すように、狭角カメラ１５は、フレーム１１（リム部１７）の中央に設置される。また狭角カメラ１５は、撮像画像に含まれる物体（画角に含まれる物体）までの距離情報（奥行情報）を取得することも可能である。すなわち狭角カメラ１５は、デプスセンサ（３Ｄセンサ、測距センサ、距離カメラ等ともいう）として構成される。

　狭角カメラ１５の具体的な構成は限定されない。例えばＣＭＯＳセンサやＣＣＤセンサ等のイメージセンサを備えるデジタルカメラが用いられる。また狭角カメラ１５をデプスセンサとして機能させるために、ＴｏＦ（Time of Flight）センサ、ミリ波レーダや赤外線レーダ等を用いた種々のセンサ、パターン画像を出力するプロジェクタ等が用いられる。

　広角カメラ１６ａ及び１６ｂは、リム部１７の左右の端部に、リム部１７の中心に対して左右対称となるようにそれぞれ設置される。広角カメラ１６ａ及び１６ｂは、ステレオカメラとして構成され、撮像画像に含まれる物体（画角に含まれる物体）までの距離情報を取得することも可能である。すなわち広角カメラ１６ａ及び１６ｂも、デプスセンサとして構成されている。広角カメラ１６ａ及び１６ｂの具体的な構成は限定されない。例えば、ＣＭＯＳセンサやＣＣＤセンサ等のイメージセンサを備えるデジタルカメラが用いられる。

　もちろん、リム部１７の中心に対して左右対称に設けられたステレオカメラにより、狭角カメラ１５が構成されてもよい。またリム部１７の中心に単体の広角カメラ１６が設けられてもよい。また狭角カメラ１５及び広角カメラ１６の両方がステレオカメラとして構成されてもよいし、単体の狭角カメラ１５及び単体の広角カメラ１６がそれぞれ構成されてもよい。

　図２及び図３は、狭角カメラ１５及び広角カメラ１６の画角について説明するための模式図である。なお、図２及び図３では、説明を分かりやすくするために、リム部１７の中心に狭角カメラ１５及び広角カメラ１６が設置された構成例が図示されている。

　狭角カメラ１５及び広角カメラ１６として、ステレオカメラ等の複数のカメラを含む構成が採用される場合、複数のカメラの各々の画角が重なる領域により、狭角カメラ１５及び広角カメラ１６の各々の画角が構成される。このような場合も、以下に説明する画角の関係が、狭角カメラ１５及び広角カメラ１６に対して適用されればよい。

　なお画角は、狭角カメラ１５及び広角カメラ１６によりの撮像可能な範囲とも言える。狭角カメラ１５及び広角カメラ１６として、複数のカメラを含む構成が採用される場合、複数のカメラにより撮影可能な範囲が、狭角カメラ１５及び広角カメラ１６によりの撮像可能な範囲となる。もちろん距離情報が取得可能な範囲を、撮像可能な範囲とすることも可能である。

　図２Ａは、実空間Ｓの実物体を示す模式図である。図２Ａに示す例では、机２１と、机２１上に配置されたテレビ２２及びスピーカ２３が実物体として配置されている。ユーザ２０は、透過型ディスプレイ１３を介して、これら実物体を視認することが可能である。

　図２Ｂは、仮想オブジェクト３０が表示された状態を示す模式図である。図２Ｂに示す例では、机２１上のテレビ２２とスピーカ２３との間に、仮想オブジェクト３０として車両が表示される。車両は、ＨＭＤ１０の透過型ディスプレイ１３に表示される。

　例えば仮想オブジェクト３０が、透過型ディスプレイ１３の表示領域２４を介して見える位置に存在する場合には、透過型ディスプレイ１３に仮想オブジェクト３０が表示される。図２Ｂに示す場合には、ユーザ２０がテレビ２２とスピーカ２３との間に顔の正面を向けた場合、透過型ディスプレイ１３の顔の位置に応じた位置に、仮想オブジェクト３０が表示される。

　ユーザ２０から見て、透過型ディスプレイ１３の表示領域２４内に仮想オブジェクト３０が含まれるか否かの判定は、例えば狭角カメラ１５又は／及び広角カメラ１６により撮像される撮像画像に基づいて実行することが可能である。具体的なアルゴリズムは限定されず、任意のアルゴリズムが採用されてよい。

　なお図２Ｂ及び図３に示す例では、仮想オブジェクト３０の全体が、表示領域２４に含まれている。従って、ユーザ２０は、仮想オブジェクト３０の全体を視認することが可能である。もちろん、仮想オブジェクト３０の一部のみが表示領域２４に含まれていない場合には、表示領域２４に含まれる部分のみの画像が、透過型ディスプレイ１３に表示される。

　図２Ｃは、狭角カメラ１５の画角（以下、第１の画角２５と記載する）２５と、広角カメラ１６の画角（以下、第２の画角２６と記載する）２６とを示す模式図である。本実施形態では、ユーザ２０の視野の中央の狭い領域に、狭角カメラ１５の第１の画角２５が設定される。図２Ｃ及び図３に示すように、ユーザ２０から見て、狭角カメラ１５の第１の画角２５の全体は、透過型ディスプレイ１３の表示領域２４に包含される。

　広角カメラ１６の第２の画角２６は、ユーザ２０の視野の広い範囲に設定される。すなわち広角カメラ１６の第２の画角２６は、狭角カメラ１５の第１の画角２５よりも広く、第１の画角２５の全体を包含するように設定される。図２Ｃ及び図３に示すように、ユーザ２０から見て、広角カメラ１６の第２の画角２６は、透過型ディスプレイ１３の表示領域２４の全体を包含するように設定される。

　従って図２Ｃに示すように、ユーザ２０から見ると、狭角カメラ１５の第１の画角２５、透過型ディスプレイ１３の表示領域２４、及び広角カメラ１６の第２の画角２６の順で、サイズが大きくなっている。なお「ユーザから見る」とは、主に視線方向やユーザ２０の位置について説明する文言であり、必ずしもユーザ２０が視認可能であるという意味ではない。

　また本実施形態では、狭角カメラ１５及び広角カメラ１６は、解像度（画素数）が大きく異ならないカメラである。すなわち図２Ｃに示す狭い範囲に設定された第１の画角２５、及び広い範囲に設定された第２の画角２６の各々に、ほぼ同じ解像度（画素数）が割り当てられる。

　従って、狭角カメラ１５により撮像される第１の撮像画像により、第１の画角２５に対応する狭い範囲が、相対的に高解像度で撮像される。また広角カメラ１６により撮像される第２の撮像画像により、第２の画角２６に対応する広い範囲が、相対的に低解像度で撮像される。すなわち本実施形態では、狭角カメラ１５により、ユーザ２０の視野の中央の高精細な画像が撮像される。また広角カメラ１６により、ユーザ２０の視野の全体を把握可能な画像が撮像される。

　実空間Ｓの領域のサイズを基準とすると、狭角カメラ１５により撮像される第１の撮像画像は、単位面積当たりの解像度は相対的に高くなる。広角カメラ１６により撮像される第２の撮像画像は、単位面積当たりの解像度は相対的に高くなる。すなわち実空間Ｓの単位面積あたりの領域に対して、第１の撮像画像は第２の撮像画像よりも高解像度で撮像を行うことが可能である。

　本実施形態において、狭角カメラ１５は、ユーザ２０により携帯可能又は装着可能なユーザ２０端末に設けられた第１の画角を有する第１の撮像装置に相当する。広角カメラ１６は、ユーザ２０端末に設けられた第１の画角よりも広く、第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置に相当する。

　透過型ディスプレイ１３を含むＨＭＤ１０は、仮想オブジェクト３０を実空間Ｓに対し重畳して表示可能な表示装置として機能する。なお実物体は実空間Ｓに存在する任意の物体を含む。「仮想オブジェクトを実空間に対し重畳して表示」するとは、特定の実物体に対して特定の仮想オブジェクト３０を表示することを含む。また特定の位置に仮想オブジェクト３０を表示することが含まれる。その他、実空間Ｓや、実空間Ｓが表示されている画像に、仮想オブジェクト３０を重畳させる任意の表示が含まれる。

　図４は、ＨＭＤ１０の機能的な構成例を示すブロック図である。ＨＭＤ１０は、さらに、スピーカ３２と、コネクタ３３と、操作ボタン３４と、通信部３５と、センサ部４０と、記憶部４５と、コントローラ５０とを有する。

　スピーカ３２は、フレーム１１の所定の位置に設けられる。スピーカ３２の構成は限定されず、例えばステレオ音声やモノラル音声等を出力可能なスピーカ３２が適宜用いられてよい。

　コネクタ３３は、他のデバイスとの接続のための端子である。例えばＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等の端子が設けられる。また充電時には、充電用のドッグ（クレードル）の充電端子とコネクタ３３とが接続されて充電が行われる。

　操作ボタン３４は、例えばテンプル部１８の所定の位置に設けられる。操作ボタン３４により、電源のＯＮ／ＯＦＦの操作、画像表示や音声出力に関する機能やネットワーク通信機能等のＨＭＤ１０が有する種々の機能に関する操作を実行することができる。

　通信部３５は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばＷｉＦｉ等の無線ＬＡＮモジュールや、Bluetooth（登録商標）等の通信モジュールが設けられる。通信部３５が動作することで、他の機器との間で無線通信が可能となる。これに限定されず、他の機器と有線通信が行われてもよい。

　センサ部４０は、９軸センサ４１と、ＧＰＳ４２と、生体センサ４３と、マイク４４とを有する。

　９軸センサ４１は、３軸加速度センサ、３軸ジャイロセンサ、及び３軸コンパスセンサを含む。９軸センサ４１により、ＨＭＤ１０の、３軸における加速度、角速度、及び方位を検出することが可能である。ＧＰＳ４２は、ＨＭＤ１０の現在位置の情報を取得する。９軸センサ４１及びＧＰＳ４２の検出結果は、例えばユーザ２０（ＨＭＤ１０）の姿勢や位置、ユーザ２０の移動（動き）等の検出に用いられる。これらのセンサは、ＨＭＤ１０の任意の位置に設けられてよい。

　生体センサ４３は、ユーザ２０の生体情報を検出することが可能である。例えば生体センサ４３として、脳波センサ、筋電センサ、脈拍センサ、発汗センサ、温度センサ、血流センサ、体動センサ等が設けられる。

　マイク４４は、ユーザ２０の周辺の音情報を検出する。例えばユーザ２０が発話した音声等が適宜検出される。これにより、例えばユーザ２０は、音声通話をしながらＡＲ体験を楽しむことや、音声入力を用いたＨＭＤ１０の操作入力を行うことが可能である。

　センサ部４０として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばＨＭＤ１０を使用する環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。内向きカメラ１４、狭角カメラ１５及び広角カメラ１６を、センサ部４０の一部として見做すことも可能である。

　記憶部４５は、不揮発性メモリ等の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　記憶部４５には、ＨＭＤ１０の全体の動作を制御するための制御プログラム４６が記憶される。制御プログラム４６を、ＨＭＤ１０にインストールする方法は限定されない。制御プログラム４６は、本技術に係る情報処理方法を実行するためのプログラムを含む。例えば、ンピュータ読み取り可能な非一過性の任意の記憶媒体に、本技術に係るプログラムを記憶させた場合、当該記憶媒体は、本技術に係る記憶媒体として実現される。

　コントローラ５０は、ＨＭＤ１０が有する各ブロックの動作を制御する。コントローラ５０は、例えばプロセッサ（ＣＰＵ）やメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。ＣＰＵが記憶部４５に記憶されている制御プログラム４６をＲＡＭにロードして実行することにより、種々の処理が実行される。

　コントローラ５０として、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、コントローラ５０のＣＰＵが本実施形態に係るプログラム（例えばアプリケーションプログラム）を実行することで、図４に示される各機能ブロックが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　本実施形態において、コントローラ５０を有するＨＭＤ１０により、本技術に係る情報処理装置が実現される。すなわちＨＭＤ１０は、本技術に係る表示装置としても機能し、情報処理装置としても機能する。ＨＭＤ１０により、表示装置と、第１の撮像装置と、第２の撮像装置とを具備する情報処理装置が実現されている。

　［ＡＲ表示制御］
　ＨＭＤ１０によるＡＲ表示の制御について説明する。図５は、コントローラ５０の機能的な構成例を示すブロック図である。

　図５に示すように、コントローラ５０は、入力制御部５１、実物体認識部５２、撮像位置判定部５３、仮想オブジェクト決定部５４、範囲判定部５５、及び表示制御部５６を有する。

　入力制御部５１は、狭角カメラ１５により撮像された第１の撮像画像、及び広角カメラ１６により撮像された第２の撮像画像を取得する。また入力制御部５１は、実物体の認識に用いる実物体認識用画像を選択する。本実施形態では、入力制御部５１により、実物体認識用画像が、第１の撮像画像及び第２の撮像画像の間で切り替えられる。すなわち第１の撮像画像及び第２の撮像画像のいずれか一方が、実物体認識用画像として選択される。これに限定されず、第１の撮像画像及び第２の撮像画像の両方が実物体認識用画像として選択される場合もあり得る。

　実物体認識部５２は、入力制御部５１により選択された実物体認識用画像に基づいて、実物体を認識する。本実施形態では、実物体の位置及び形状が認識される。

　実物体認識用画像から実物体の位置及び形状を検出する方法は限定されず、任意の技術が用いられてよい。例えば実物体のモデル画像を用いたマッチング処理、エッジ検出、射影変換等の任意の画像認識技術が用いられてよい。実物体を検出するために、例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、実物体の認識精度を向上させることが可能となる。

　また実物体の位置は、例えば実空間に予め設定された座標系に従って算出される。あるいは、ワールド座標系に従って、実物体の位置が算出されてもよい。その他、ＨＭＤ１０に対する相対的な位置情報が、実物体の位置として算出されてもよい。

　また本実施形態では、実物体として、ユーザ２０により移動可能な操作体が認識される。操作体としては、例えばユーザ２０の手やユーザ２０の手に持っているコントローラ等が挙げられる。もちろんこれに限定される訳ではない。

　撮像位置判定部５３は、狭角カメラ１５及び広角カメラ１６の位置を判定する。本実施形態では、第１の撮像画像及び第２の撮像画像の少なくとも一方が、撮像位置の判定に用いられる判定用画像として選択される。そして選択された判定用画像に基づいて、狭角カメラ１５及び広角カメラ１６の位置が判定される。撮像画像に基づいてカメラの位置を判定するための方法は限定されず、任意のアルゴリズムが用いられてよい。

　例えば実空間に予め設定された座標系やワールド座標系に従って、狭角カメラ１５及び広角カメラ１６の位置が算出される。あるいは、操作体に対する相対的な位置情報が、狭角カメラ１５及び広角カメラ１６の位置として算出されてもよい。例えば、所定の位置を原点とする３次元座標系（ＸＹＺ座標系）における位置座標が算出される。またＸ軸をピッチ軸、Ｙ軸をロール軸、Ｚ軸をヨー軸とした場合における、ユーザ２０（ＨＭＤ１０）の正面側に延在する所定の基準軸の、ピッチ角度、ロール角度、及びヨー角度が算出される。

　本実施形態において、実空間における狭角カメラ１５及び広角カメラ１６の位置を判定することは、実空間におけるＨＭＤ１０の位置を判定することに相当する。ＨＭＤ１０の所定の位置を基準位置とすると、基準位置に対する狭角カメラ１５及び広角カメラ１６の位置は設計的に定めることが可能である。従って、狭角カメラ１５及び広角カメラ１６の位置を、ＨＭＤ１０の位置として見做すことが可能である。もちろん、狭角カメラ１５の位置等を、基準位置とすることも可能である。

　仮想オブジェクト決定部５４は、ＡＲ表示の対象となる仮想オブジェクト３０を決定する。例えばＡＲアプリケーションプログラムに基づいて、透過型ディスプレイ１３に表示させる仮想オブジェクト３０の位置と形状が決定される。例えば図２に示す例では、車の仮想オブジェクト３０の形状及び位置が決定される。

　仮想オブジェクト３０の位置は、少なくとも奥行き情報が含まれる。例えば、仮想オブジェクト３０を表示する位置がＨＭＤ１０を原点としたＸＹＺ軸座標系や極座標系から決定されてもよい。仮想オブジェクト３０の形状は、仮想オブジェクト３０の大きさやユーザ２０から見た角度が含まれる。例えば、仮想オブジェクトの表示される奥行き情報に基づいて、仮想オブジェクトの大きさが決定されてもよい。

　範囲判定部５５は、操作体の全体が狭角カメラ１５の第１の画角に実質的に包含されるか否かを判定する。操作体の全体とは、操作体として認識される対象の全体である。例えば手や頭等のユーザ２０の体の一部が操作体として認識されるとする。この場合、体の部位を表す部分の全体が操作体の全体となる。

　例えばユーザ２０の手が操作体として認識されるとする。ユーザ２０の手は、手首にて、腕と連結されている。その手首から５本の指の先端までの「手」の部分が、操作体の全体に相当する。従って、その手首から５本の指の先端までの「手」の部分が、第１の画角に包含されるか否かが判定される。

　なお、体の部位を表す際の境界は適宜設定可能である。例えば手の平と手首の境界が、「手」を認識する際の境界に設定される。この場合、手首の部分は「手」に含まれない。一方、手首から肘に向けて若干進んだ位置に境界が設定されてもよい。この場合、手首を含んで「手」が認識される。従って、操作体として認識される範囲に応じて、操作体の全体は変更され得る。

　「実質的に包括」とは、操作体の全体を１００％包括する場合のみならず、操作体の一部が包括されていない状態も含み得る。すなわち略全体が包括される、というような表現にも相当する。「実質的に包括」するか否かを判定するための具体的な閾値等は適宜設定されてよい。例えば操作体の８０％以上が包括されている場合、「実質的に包括」していると判定することも可能である。もちろん「実質的に包括」を定義する方法として、他の方法が採用されてもよい。例えば、実物体が画角内に実質的に包含されているかの判定にロバスト性を持たせるための任意の判定方法が採用されてよい。

　また範囲判定部５５は、仮想オブジェクト３０の全体が狭角カメラ１５の第１の画角２５に実質的に包括されるか否かを判定する。本実施形態では、撮像位置判定部５３により判定された撮像位置と、仮想オブジェクト決定部５４により決定された仮想オブジェクト３０の位置及び形状に基づいて、判定が実行される。例えば図２Ｃに示す例では、仮想オブジェクト３０は、第１の画角２５に包括されていると判定される。この判定のための具体的なアルゴリズムは限定されない。任意の機械学習アルゴリズム等が用いられてもよい。

　なお「全体」及び「実質的に包含」については、操作体について説明した内容と同様である。

　表示制御部５６は、透過型ディスプレイ１３による画像表示を制御する。本実施形態では、実空間に対して仮想オブジェクト３０を重畳して表示するＡＲ表示が制御される。表示制御部５６により、画像の射影変換、彩度や明度の調整、レンダリング（描画処理）等の任意の画像表示制御が実行される。

　本実施形態では、ＡＲ表示として、遮蔽（Occlusion）が実行可能である。遮蔽とは、実物体の３次元形状を認識し、仮想オブジェクト３０と実物体の形状認識の結果を各ディスプレイ１３ａ及び１３ｂに射影する描画処理である。すなわち、重畳された仮想オブジェクト３０に対して実物体の認識形状に合わせて仮想オブジェクト３０の一部を非表示化する処理のことである。遮蔽を行うことによって、仮想オブジェクト３０と実物体との前後関係を正しくユーザ２０に表示させることができる。

　表示制御部５６は、遮蔽処理を実行する際には、仮想オブジェクト３０と操作体との位置関係に基づいて、仮想オブジェクト３０の少なくとも一部を遮蔽するようにＨＭＤ１０の透過型ディスプレイ１３を制御する。遮蔽処理の具体的なアルゴリズムは限定されず、任意のアルゴリズムが用いられてもよい。また任意の機械学習アルゴリズムが用いられてもよい。

　その他、ＡＲ表示として、操作体を基準とした仮想オブジェクト３０の移動や変形等の、任意の表示制御が実行されてよい。

　本実施形態では、コントローラ５０により、画像取得部、物体認識部、表示制御部、及び位置判定部が実現される。

　具体的には、入力制御部５１により、第１の撮像画像と第２の撮像画像とを取得する画像取得部が実現される。

　入力制御部５１、実物体認識部５２、及び範囲判定部５５により、実空間にある実物体の全体が第１の画角内に実質的に包含される場合、第１の撮像画像に基づいて実物体を認識し、実物体の全体が第１の画角内に実質的に包含されない場合、第２の撮像画像に基づいて実物体を認識する物体認識部が実現される。

　表示制御部５６により、仮想オブジェクトを実空間に対し重畳して表示可能な表示装置を制御する表示制御部が実現される。

　撮像位置判定部５３により、第１の撮像画像及び第２の撮像画像の少なくとも一方に基づいて、実空間におけるユーザ２０端末の位置を判定する位置判定部が実現される。

　図６は、ＡＲ表示制御の一例を示すフローチャートである。図６に示すフローチャートは、入力される撮像画像の各フレームに対して実行される処理である。

　図７～図１２は、図６に例示する処理を説明するための模式的な図である。本実施形態では、仮想オブジェクト３０に対してユーザ２０の手２７を翳す動作に応じた、遮蔽処理を例に挙げる。すなわち図７～図１２に示す例では、ユーザ２０の手２７が、操作体として認識される。

　現在のフレームに対する処理が開始される（ステップ１０１）。撮像位置判定部５３により、判定用画像に基づいて、狭角カメラ１５及び広角カメラ１６の位置が判定される（ステップ１０２）。

　判定用画像としては、例えば前フレームにて判定用画像として選択された、第１撮像画像及び／又は第２の撮像画像が用いられる。判定用画像として、第１の撮像画像及び第２の撮像画像の両方が選択されることはなく、いずれか一方のみを選択するといった設定も可能である。その場合、判定用画像として、狭角カメラ１５により撮像される第１の撮像画像よりも、広角カメラ１６により撮像される前記第２の撮像画像を優先的に用いるといったことも可能である。

　判定用画像として、第１の撮像画像及び第２の撮像画像のいずれか一方のみを選択するとことで、２つの画像に対して処理等を実行する場合と比べて、処理の負担を抑制することが可能となる。また広い範囲が撮像された第２の撮像画像を優先的に用いることで、撮像位置の位置を効率よく算出することが可能となる。

　実物体認識部５２により、入力制御部５１により選択された実物体認識用画像に基づいて、ユーザ２０の手２７の位置及び形状が認識される（ステップ１０３）。ここでは、前のフレームにて、入力制御部５１により選択された実物体認識用画像に基づいて、ユーザ２０の手２７の認識が実行される。

　仮想オブジェクト決定部５４により、仮想オブジェクト３０の位置と形状とが計算される（ステップ１０４）。

　範囲判定部５５により、仮想オブジェクト３０の全体が狭角カメラ１５の第１の画角２５内に実質的に包含されるか否かが判定される（ステップ１０５）。図７に例示するように、仮想オブジェクト３０の全体が狭角カメラ１５の第１の画角２５内に実質的に包含されない場合には（ステップ１０５のＮＯ）、範囲判定部５５により、ユーザ２０の手２７が狭角カメラ１５の第１の画角２５内に実質的に包含されるか否かが判定される（ステップ１０６）。

　図７に例示するように、ユーザ２０の手２７が第1の画角２５内に実質的に包含される場合は（ステップ１０６のＹＥＳ）、物体認識用カメラとして狭角カメラ１５が設定される（ステップ１０７）。これにより、入力制御部５１により、物体認識用画像として、第１の撮像画像が選択される。物体認識用画像として選択された第１の撮像画像に基づいて、ユーザ２０の手２７が認識され、表示制御部５６により、遮蔽処理が実行される（ステップ１０９）。

　図８Ａに示すように、認識されたユーザ２０の手２７の位置及び形状に基づいて、仮想オブジェクト３０の一部が非表示化される。すなわちユーザ２０の手２７が重なる部分が非表示化される。これにより、図８Ｂに示すように、ユーザ２０の手２７には仮想オブジェクト３０は表示されず、仮想オブジェクト３０と手２７との前後関係が適正に表現される。

　狭角カメラ１５は、撮像可能な範囲が狭い（画角が狭い）代わりに、実物体のサイズに対するカメラ画素数が多くなり、高精度な認識が可能である。すなわち、狭角カメラ１５により物体認識を行うことで、遮蔽されるユーザ２０の手２７の形状はより正確な形状となる。従って、高品質な仮想体験が実現される。

　図９に例示するように、ユーザ２０の手２７が第１の画角２５内に実質的に包含されない場合は（ステップ１０６のＮＯ）、物体認識用カメラとして広角カメラ１６が設定される（ステップ１０８）。これにより、入力制御部５１により、物体認識用画像として、第２の撮像画像が選択される。物体認識用画像として選択された第２の撮像画像に基づいて、ユーザ２０の手２７が認識され、表示制御部５６により、遮蔽処理が実行される（ステップ１０９）。

　例えばユーザ２０の手２７が第１の画角２５内に実質的に包含されない場合に、狭角カメラ１５により撮像される第１の撮像画像に基づいて、ユーザ２０の手２７を認識するとする。そうすると、ユーザ２０の手２７の第１の画角２５に含まれない部分が認識できなくなってしまう。

　これにより図１０Ａに例示するように、狭角カメラ１５の第１の撮像画像に基づいて認識された部分のみが非表示化され、認識されなかった部分の非表示化が実行されない。この結果、図１０Ｂに例示するように、手２７の認識されなかった部分に仮想オブジェクト３０が表示されてしまい、仮想オブジェクト３０の表示が破綻してしまう。従って、ユーザ２０のＨＭＤ１０を使用する際の体感が低下してしまう。

　本実施形態では、ユーザ２０の手２７が第１の画角２５内に実質的に包含されない場合は、物体認識用カメラとして広角カメラ１６が設定される。従って図１１Ａに示すように、ユーザ２０の手２７を適正に認識することが可能である。従って、仮想オブジェクト３０を適正に非表示化することが可能となる。この結果、図１１Ｂに例示するように、ユーザ２０の手２７が仮想オブジェクト３０の手前に見えるように、仮想オブジェクト３０を表示することが可能となる。

　なお、第２の撮像画像の解像度は、第１の撮像画像の解像度よりも相対的に低くなっている。従ってユーザ２０の手２７の認識精度は若干低くなっており、遮蔽処理の精度も低くなっている。しかしながら、図１０Ｂに例示するように仮想オブジェクト３０の表示が破綻することはなく、仮想体験の品質を向上させることが可能となる。

　図１２に例示するように、ユーザ２０の手２７の全体が第１の画角２５から外れた場合も、ステップ１０８にて、物体認識用カメラとして広角カメラ１６が設定される。そして、第２の撮像画像に基づいて物体が認識され、仮想オブジェクト３０の表示が制御される（ステップ１０９）。

　ステップ１０５にて、仮想オブジェクト３０の全体が狭角カメラ１５の第１の画角２５内に実質的に包含される場合には（ステップ１０５のＹＥＳ）、物体認識用カメラとして狭角カメラ１５が設定される（ステップ１０９）。これにより、入力制御部５１により、物体認識用画像として、第１の撮像画像が選択される。物体認識用画像として選択された第１の撮像画像に基づいて、ユーザ２０の手２７が認識され、表示制御部５６により、遮蔽処理が実行される（ステップ１０９）。

　例えば図２及び図３に例示するように、仮想オブジェクト３０が第１の画角２５内に実質的に包含されるとする。この場合、ユーザ２０の手２７と仮想オブジェクト３０が重なる部分は、狭角カメラ１５の第１の画角２５内に実施的に含まれる。例えば手２７の一部分が第１の画角２５内に含まれない場合でも、その部分は、第１の画角内２５の仮想オブジェクト３０とは重ならない。

　従って、狭角カメラ１５の第１の撮像画像により認識される部分を用いて、仮想オブジェクト３０を適正に非表示化することが可能である。この結果、遮蔽処理を適正に実行することが可能となり、高品質な仮想体験を実現することが可能となる。

　次のフレームに対しても、同じ処理が繰り返される（ステップ１１０からステップ１０１）。なお、ステップ１０９及びステップ１１０にて実行される物体認識用カメラの設定が、同じフレームの表示制御（ステップ１０９）に反映させない場合もあり得る。すなわちステップ１０９の表示制御は、前フレームにて設定された物体認識用カメラの撮像画像に基づいて実行される。

　この場合、１フレーム分にて仮想オブジェクト３０の表示が破綻する可能性もある。しかしながら次のフレームでは、適正なＡＲ表示が実現されるので、仮想体験の品質の低下は抑えられる。あるいは破綻が発生したフレームは破棄して、１フレーム分画像を遅延させてもよい。この場合も、仮想体験の品質を高く維持することが可能である。

　以上、本実施形態に係るＨＭＤ１０では、実物体の全体が狭角カメラ１５の第１の画角２５に実質的に包含されるか否かに基づいて、実物体の認識に用いる物体認識用画像として、第１の撮像画像及び第２の撮像画像が適宜選択される。すなわち、入力制御部５１により、範囲判定部５５の範囲判定結果に基づいて、狭角カメラ１５及び広角カメラ１６のどちらか一方を物体認識用カメラに切替えるスイッチングが実行される。これにより、処理の負荷を抑えつつ、ユーザ２０の体感を向上させることが可能となり、高品質な仮想表現を実現し、ユーザの体感を向上させることが可能となる。

　透過型ディスプレイのＡＲグラスやビデオシースルー表示を備えたＨＭＤでは、ユーザへの没入間を高めるためにディスプレイの高画角化（広画角化）がすすめられている。高画角なディスプレイにおいて、実物体への形状に合わせた仮想オブジェクトを重畳するときには、より広角で広い範囲が撮像可能なカメラによって現実物体を認識する必要がある。その一方で、実物体の形状（例えば手の形状）に合わせて正確な仮想オブジェクトを表示するためには、より高解像度のカメラを用いた物体の形状認識結果が必要となる。

　解決として、高画角かつ高解像度のカメラを認識の入力に用いることが考えられるが、認識処理の入力となる画像の解像度が上がることは、処理負荷が高くなるため、多くのシステムで許容されないことも多い。

　そこで、本技術では、ＡＲグラスもしくはＨＭＤにおいて、解像度が大きく異ならない狭角カメラ１５と広角カメラ１６との二つのカメラを備え、狭角カメラ１５と広角カメラ１６とから見たユーザ２０の手２７の位置関係を認識する。認識された位置関係に合わせ狭角カメラ１５と広角カメラ１６とのどちらを物体認識に利用するかを切替える。

　これにより、ユーザ２０の視野の中心付近では、高精度な狭角カメラ１５を利用することで、高精度のコンテンツ表示が維持できる。一方で、狭角カメラ１５の画角外であるユーザ２０の視野中心から外れたところに手がある時には、低精度な広角カメラ１６を利用し、大きな形状の破たんを回避することができる。結果として、処理の負荷を抑えつつ、高品質な仮想表現を実現し、ユーザ２０の体感を向上させることが可能となる。

　例えば、範囲判定部５５は、操作体の全体が第１の画角２５内に実質的に包含されると判定した場合、操作体の認識に用いる画像を第２の撮像画像から前記第１の撮像画像に切り替え、操作体の全体が第１の画角２５内に実質的に包含されないと判定した場合、操作体の認識に用いる画像を第１の撮像画像から第２の撮像画像に切り替える。

　すなわち、物体認識用画像として、狭角カメラ１５により撮像される第１の撮像画像及び広角カメラ１６により撮像される第２の撮像画像の両方を使わず、２つの画像を適宜切り替えて用いる。

　また物体認識用画像が切替えられる方法として範囲判定の結果以外にも、実物体認識部５２は、実物体の認識に、第２の撮像画像よりも第１の撮像画像を優先的に用いてもよい。例えば、第１の撮像画像の物体認識の信頼度が閾値を超えている等の様々な条件に応じて、実物体の認識に、第２の撮像画像よりも第１の撮像画像を優先的に用いてもよい。

　また表示制御部５６は、仮想オブジェクト３０と実物体（手２７）との位置関係に基づいて、仮想オブジェクト３０に対応する操作処理を実行する。操作処理は、仮想オブジェクト３０に設定された機能の実行を行う処理である。例えば、仮想オブジェクト３０に実物体であるユーザ２０の手が触れた場合（座標が一致した場合）、仮想オブジェクト３０が移動する等が挙げられる。もちろんこれに限定されず、仮想オブジェクト３０と実物体との様々な情報に基づいた操作処理が実行されてもよい。

　本実施形態では、図７及び図９に示すように、狭角カメラ１５、広角カメラ１６、手２７、及び仮想オブジェクト３０の位置関係を算出することで、物体認識用カメラの切替を行っている。これにより、狭角カメラ１５の画角外にあっても広角カメラ１６により物体認識を行うことで仮想オブジェクト３０の表示の形状が大きく破綻することを防ぐことが可能となる。

　また、ＨＭＤ１０は、複数の撮像装置を備え、物体認識用カメラの切替を行う。これにより、常に狭角カメラ１５及び広角カメラ１６の両方の画像を使わないことで、高画角かつ高解像度のカメラによる認識及び狭角カメラ１５及び広角カメラ１６の両方の画像を用いた認識より処理負荷を低減することが可能となる。またＨＭＤ１０の装置構成の制約に応じた最適化を図れる。

　すなわち、ユーザ２０に注目されやすい視野の中心部である狭角カメラ１５の画角内であれば、高精度の認識と表示とを保つことが可能である。これにより、認識処理の処理負荷が高い高画角かつ高解像度のカメラを用いずに、装置構成の制約に応じた最適な処理負荷と認識及び表示とのバランスの良いシステムを構築することが可能である。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記の実施形態では、広角カメラ１６の第２の画角２６は、狭角カメラ１５の第１の画角２５よりも広く、第１の画角２５の全体を包含するように設定された。これに限定されず、広角カメラ１６の第２の画角２６は、第１の画角２５よりも広く、第１の画角２５の少なくとも一部を含むように設定されてもよい。

　また上記の実施形態では、範囲判定部５５は、仮想オブジェクト３０及び操作体（手２７）の全体が狭角カメラ１５の第１の画角に実質的に包含されるか否かが判定され、判定結果に基づいて、狭角カメラ１５及び広角カメラ１６のどちらか一方を物体認識用カメラに切替えるスイッチングが実行された。

　これに限定されず、入力制御部５１は、操作体とＨＭＤ１０との距離の変化に基づいて、操作体の認識に用いる画像を狭角カメラ１５の撮像画像と広角カメラ１６の撮像画像との間で切り替えてもよい。例えば、入力制御部５１は、操作体とＨＭＤ１０とが近づいた場合に、操作体の認識に用いる画像を狭角カメラ１５の撮像画像から広角カメラ１６の撮像画像に切替える。

　上記の実施形態では、図６に示すように、仮想オブジェクト３０及び実物体（手２７）が第１の画角２５内かが判定され、物体認識用カメラが設定された。これに限定されず、例えば仮想オブジェクト３０のみが第１の画角２５内かが判定されてもよい。すなわち、ステップ１０５のＹＥＳ又はＮＯにより、物体認識用カメラの設定が切替えられてもよい。

　また例えば、以下の物体認識用カメラを設定する範囲判定部５５の判定方法が適宜組み合わされてもよい。また各々に優先順位等が設定されてもよい。

　実物体の全体が狭角カメラ１５の第１の画角２５内に実質的に包含される。
　実物体の全体が狭角カメラ１５の第１の画角２５内に実質的に包含されない。
　仮想オブジェクトの全体が狭角カメラ１５の第１の画角２５内に実質的に包含される。
　仮想オブジェクトの全体が狭角カメラ１５の第１の画角２５内に実質的に包含されない。

　上記の実施形態では、ＨＭＤ１０は透過型ディスプレイを有したＡＲグラス等のウェアラブル端末が用いられた。これに限定されず、非透過型のＨＭＤやプロジェクタ等においても本技術は適用可能である。

　図１３は、他の実施形態に係るＨＭＤ３００を示す模式図である。図１３ＡはＨＭＤ３０の外観を模式的に示す斜視図であり、図１３ＢはＨＭＤ３００を分解した様子を模式的に示す斜視図である。

　ＨＭＤ３００は、基体部３０１と、装着バンド部３０２と、ヘッドフォン部３０３と、広角カメラ３０４と、狭角カメラ３０５と、ディスプレイユニット３０６と、カバー部３０７とを有する。

　基体部３０１は、ユーザの左右の眼の前方に配置される部材であり、ユーザの前頭部と当接される前頭支持部３０８が設けられる。

　装着バンド部３０２は、ユーザの頭部に装着される。図１１に示すように、装着バンド部３０２は、側頭バンド３０９と、頭頂バンド３１０とを有する。側頭バンド３０９は、基体部３０１に接続され、側頭部から後頭部にかけてユーザの頭部を囲むように装着される。頭頂バンド３１０は、側頭バンド３０９に接続され、側頭部から頭頂部にかけてユーザの頭部を囲むように装着される。

　ヘッドフォン部３０３は、基体部３０１に接続され、ユーザの左右の耳を覆うように配置される。ヘッドフォン部３０３には、左用及び右用のスピーカが設けられる。ヘッドフォン部３０３の位置は、手動又は自動により制御可能となっている。そのための構成は限定されず、任意の構成が採用されてよい。

　広角カメラ３０４は、画角の広い広角レンズが用いられ、基体部３０１の外側（ユーザ２０とは反対側）に向けて配置される。広角カメラ３０４は、ユーザの視野に含まれる実空間を撮像することが可能である。

　狭角カメラ３０５は、画角の狭い狭角レンズが用いられ、基体部３０１の外側（ユーザ２０とは反対側）に向けて配置される。狭角カメラ３０５は、ユーザの視野に含まれる実空間を撮像することが可能である。

　ディスプレイユニット３０６は、基体部３０１に挿入され、ユーザの眼の前方に配置される。ディスプレイユニット３０６の内部には、ディスプレイが配置される。ディスプレイとしては、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた任意の表示デバイスが用いられてよい。またディスプレイユニット３０６には、ディスプレイにより表示された画像をユーザの左右の眼に導くレンズ系（図示は省略）が配置される。

　カバー部３０７は、基体部３０１に取付けられ、ディスプレイユニット３０６を覆うように構成される。このように構成されたＨＭＤ３００は、ユーザの視野を覆うように構成された没入型のヘッドマウントディスプレイとして機能する。例えばＨＭＤ３００により、３次元的な仮想空間が表示される。ユーザはＨＭＤ３００を装着することで、仮想現実（ＶＲ）等を体験することが可能となる。

　また仮想オブジェクトを表示する表示装置と、狭角カメラ１５となる第１の撮像装置と、広角カメラ１６となる第２の撮像装置とが各々独立した装置が本技術に係る情報処理装置を実現してもよい。

　また上記の実施形態では、手２７を実物体として位置と形状が算出された。これに限定されず、コントローラや道具等の非変形物体が用いられてもよい。また非変形物体の場合、形状が一定なのでＨＭＤ１０は、実物体の形状の認識を行わなくてもよい。

　上記の実施形態では、狭角カメラ１５及び広角カメラ１６等により実物体の位置や姿勢の認識が行われた。これに限定されず、実物体の位置姿勢認識等が可能なＡＲマーカ等のマーカ認識を可能とする構成を有してもよい。また例えば、ユーザ２０の手やコントローラの形状をデータベース等に記憶させ、マッチング処理が行われてもよい。

　これ以外にも、実物体の位置や姿勢の認識を行う方法は、ＧＰＳ（Global Positioning System）等のセンサ群を用いて認識が行われてもよい。もちろんこれに限定されず、１つの画素から距離情報を得て、実物体との距離を測れるデプスセンサ等を有してもよい。

　また、ＨＭＤ１０に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータ（クラウドシステム）とが連動することで、本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、撮像画像の取得、実物体の認識、及び撮像画像の切替等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。

　各図面を参照して説明した情報処理装置、実物体範囲判定部、ＨＭＤ１０の制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得する画像取得部と、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識する物体認識部と
　を備える情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記実物体は、前記ユーザにより移動可能な操作体である
　情報処理装置。
（３）（２）に記載の情報処理装置であって、さらに、
　仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備し、
　前記物体認識部は、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記操作体を認識する
　情報処理装置。
（４）（３）に記載の情報処理装置であって、
　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御する
　情報処理装置。
（５）（３）又は（４）に記載の情報処理装置であって、
　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行する
　情報処理装置。
（６）（３）から（５）のうちいずれか１つに記載の情報処理装置であって、
　前記ユーザから見て、前記第１の画角の全体が前記表示装置の表示領域に包含される
　情報処理装置。
（７）（６）に記載の情報処理装置であって、
　前記ユーザから見て、前記表示装置の表示領域の全体が前記第２の画角に包含される
　情報処理装置。
（８）（３）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記物体認識部は、前記操作体の全体が前記第１の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第２の撮像画像から前記第１の撮像画像に切り替え、前記操作体の全体が前記第１の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替える
　情報処理装置。
（９）（３）から（８）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記表示装置と、
　前記第１の撮像装置と、
　前記第２の撮像装置と
　を具備する情報処理装置。
（１０）（２）から（９）のうちいずれか１つに記載の情報処理装置であって、
　前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第１の撮像画像と前記第２の撮像画像との間で切り替える
　情報処理装置。
（１１）（１０）に記載の情報処理装置であって、
　前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替える
　情報処理装置。
（１２）（２）から（１１）のうちいずれか１つに記載の情報処理装置であって、
　前記操作体は、前記ユーザの手である
　情報処理装置。
（１３）（１）から（１３）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記第１の撮像画像又は前記第２の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備する
　情報処理装置。
（１４）（１３）に記載の情報処理装置であって、
　前記位置判定部は、前記ユーザ端末の位置の判定に、前記第１の撮像画像よりも前記第２の撮像画像を優先的に用い、
　前記物体認識部は、前記実物体の認識に、前記第２の撮像画像よりも前記第１の撮像画像を優先的に用いる
　情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の撮像画像の単位面積あたりの解像度は、前記第２の撮像画像の単位面積あたりの解像度よりも高い
　情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記ユーザ端末は、ヘッドマウントディスプレイである
　情報処理装置。
（１７）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記ユーザ端末は、スマートフォン又はタブレット端末である
　情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方は、ステレオカメラである
　情報処理装置。
（１９）ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得し、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得するステップと、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識するステップと
　をコンピュータシステムに実行させるプログラム。

　１０…ＨＭＤ
　１５…狭角カメラ
　１６…広角カメラ
　２４…表示領域
　２５…第１の画角
　２６…第２の画角
　３０…仮想オブジェクト
　５０…コントローラ
　５１…入力制御部
　５２…実物体認識部
　５３…撮像位置判定部
　５４…仮想オブジェクト決定部
　５５…範囲判定部
　５６…表示制御部

Claims

　ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得する画像取得部と、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識する物体認識部と
　を備える情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記実物体は、前記ユーザにより移動可能な操作体である
　情報処理装置。
　請求項２に記載の情報処理装置であって、さらに、
　仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備し、
　前記物体認識部は、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記操作体を認識する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記ユーザから見て、前記第１の画角の全体が前記表示装置の表示領域に包含される
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記ユーザから見て、前記表示装置の表示領域の全体が前記第２の画角に包含される
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記物体認識部は、前記操作体の全体が前記第１の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第２の撮像画像から前記第１の撮像画像に切り替え、前記操作体の全体が前記第１の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替える
　情報処理装置。
　請求項３に記載の情報処理装置であって、さらに、
　前記表示装置と、
　前記第１の撮像装置と、
　前記第２の撮像装置と
　を具備する情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第１の撮像画像と前記第２の撮像画像との間で切り替える
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第１の撮像画像から前記第２の撮像画像に切り替える
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記操作体は、前記ユーザの手である
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　前記第１の撮像画像又は前記第２の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備する
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記位置判定部は、前記ユーザ端末の位置の判定に、前記第１の撮像画像よりも前記第２の撮像画像を優先的に用い、
　前記物体認識部は、前記実物体の認識に、前記第２の撮像画像よりも前記第１の撮像画像を優先的に用いる
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の撮像画像の単位面積あたりの解像度は、前記第２の撮像画像の単位面積あたりの解像度よりも高い
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記ユーザ端末は、ヘッドマウントディスプレイである
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記ユーザ端末は、スマートフォン又はタブレット端末である
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の撮像装置又は前記第２の撮像装置の少なくとも一方は、ステレオカメラである
　情報処理装置。
　ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得し、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識する
　ことをコンピュータシステムが実行する情報処理方法。
　ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第１の画角を有する第１の撮像装置により取得された第１の撮像画像と、前記ユーザ端末に設けられた前記第１の画角よりも広くかつ前記第１の画角の少なくとも一部を含む第２の画角を有する第２の撮像装置により取得された第２の撮像画像とを取得するステップと、
　実空間にある実物体の全体が前記第１の画角内に実質的に包含される場合、前記第１の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第１の画角内に実質的に包含されない場合、前記第２の撮像画像に基づいて前記実物体を認識するステップと
　をコンピュータシステムに実行させるプログラム。